DE102012212185A1 - Pflegen und Bereitstellen von Sprachmodellen - Google Patents
Pflegen und Bereitstellen von Sprachmodellen Download PDFInfo
- Publication number
- DE102012212185A1 DE102012212185A1 DE102012212185A DE102012212185A DE102012212185A1 DE 102012212185 A1 DE102012212185 A1 DE 102012212185A1 DE 102012212185 A DE102012212185 A DE 102012212185A DE 102012212185 A DE102012212185 A DE 102012212185A DE 102012212185 A1 DE102012212185 A1 DE 102012212185A1
- Authority
- DE
- Germany
- Prior art keywords
- language model
- refined
- source
- metadata
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
- Technisches Gebiet
- Diese Erfindung bezieht sich auf ein Verfahren und System für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen. In einer Ausführungsform stellt die Erfindung ein Verfahren für das Aufbauen einer weit verbreiteten Sprachschnittstelle bereit.
- Hintergrund
- Spracherkennung wandelt gesprochene Wörter in Text um und bezieht sich dabei auf eine Technologie, die Sprache erkennen kann, ohne dass sie dabei auf einen einzigen Sprecher abzielt, wie z. B. ein Anrufsystem, das beliebige Stimmen erkennen kann. Spracherkennungsanwendungen beinhalten Sprachbenutzerschnittstellen wie z. B. Sprachanwahl, Anrufweiterleitung, Gerätesteuerung, Suche, Dateneingabe und die Erstellung strukturierter Dokumente. Um Sprache zu erkennen, benötigen Spracherkennungsmaschinen ein Sprachmodell, das zwei Arten von Dateien umfasst. Sie benötigen ein akustisches Modell, das erzeugt wird, indem Tonaufzeichnungen von Sprache und ihre Umschriften zu einer statistischen Repräsentation der Klänge zusammengestellt werden, die ein jedes Wort ausmachen. Sie benötigen zudem ein Sprachmodell oder eine Grammatikdatei. Ein Sprachmodell ist eine Datei, welche die Wahrscheinlichkeiten von Wortabfolgen enthält. Eine Grammatik ist eine sehr viel kleinere Datei, die Sätze von vordefinierten Wortkombinationen enthält.
- Seit Anfang der 1970er Jahre fand bei einigen Anwendungen nach und nach eine Reifung der modernen Spracherkennungstechnologie von der serverbasierten hin zur mobilen Nutzung statt. Allerdings besteht ein erhebliches Hindernis für eine weit verbreitete Spracherkennungsanwendung darin, dass es keine systematische und wirtschaftliche Methodik gibt, um die Vorgänge des Erzeugens, Speicherns, Abfragens und Bereitstellens von Spracherkennungsmodellen gemäß den jeweiligen Bedingungen und nach Bedarf zu organisieren. Zwar gibt es durchaus Standards und Anwendungen wie die verteilte Spracherkennung (Distributed Speech Recognition, DSR) des Europäischen Instituts für Telekommunikationsnormen (ETSI), die versuchen, breit gefächerte Nutzungssituationen abzudecken. Allerdings beruhen sie unglücklicherweise auf spezifischen Infrastrukturen, ohne dass eine universelle Nutzung berücksichtigt wäre, und schränken die Art und Weise ein, wie Spracherkennungsmodelle verwendet werden, so dass die vorhandenen Ansätze nur in bestimmten Gebieten mit Erfolg einsetzbar sind. So kann die DSR des ETSI nur im Telefoniebereich verwendet werden, wobei Endpunkte lediglich als Spracheingabe-/Sprachausgabe-Einheiten dienen.
- Daher besteht in der Technik ein Bedarf an der Lösung des oben genannten Problems.
- Zusammenfassung der Erfindung
- Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein Verfahren für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen bereitgestellt, welches das Speichern einer Vielzahl von Sprachmodellen, das Speichern von Metadaten für jedes gespeicherte Sprachmodell, das Empfangen einer Anfrage nach einem Sprachmodell von einer Quelle, wobei die Anfrage eine oder mehrere Bedingungen umfasst, das Ermitteln des Sprachmodells, dessen Metadaten der/den bereitgestellten Bedingung(en) am besten entsprechen, das Bereitstellen des ermittelten Sprachmodells an die Quelle, das Empfangen eines verfeinerten Sprachmodells von der Quelle und das Speichern des verfeinerten Sprachmodells umfasst.
- Gemäß einem zweiten Aspekt der vorliegenden Erfindung wird ein System für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen bereitgestellt, das ein oder mehrere Speichereinheiten, die so aufgebaut sind, dass sie eine Vielzahl von Sprachmodellen und Metadaten für jedes gespeicherte Sprachmodell speichern, und eine Netzwerkschnittstelle umfasst, die mit der oder mit jeder Speichereinheit verbunden ist, auf die über eine externe Quelle zugegriffen werden kann und die so angeordnet ist, dass eine Anfrage nach einem Sprachmodell von einer Quelle empfangen wird, wobei die Anfrage eine oder mehrere Bedingungen umfasst, dass sie das Sprachmodell ermittelt, dessen Metadaten der/den bereitgestellten Bedingungen(en) am besten entsprechen, dass sie der Quelle das ermittelte Sprachmodell bereitstellt, dass sie ein verfeinertes Sprachmodell von der Quelle empfängt und dass sie das verfeinerte Sprachmodell in einer Speichereinheit speichert.
- Gemäß einem dritten Aspekt der vorliegenden Erfindung wird ein Computerprogrammprodukt auf einem computerlesbaren Medium für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen bereitgestellt, wobei das Produkt Befehle für das Speichern einer Vielzahl von Sprachmodellen, das Speichern von Metadaten für jedes gespeicherte Sprachmodell, das Empfangen einer Anfrage nach einem Sprachmodell von einer Quelle, wobei die Anfrage eine oder mehrere Bedingungen umfasst, das Ermitteln des Sprachmodells, dessen Metadaten der/den bereitgestellten Bedingung(en) am besten entsprechen, das Bereitstellen des ermittelten Sprachmodells an die Quelle, das Empfangen eines verfeinerten Sprachmodells von der Quelle und das Speichern des verfeinerten Sprachmodells umfasst.
- Unter einem vierten Aspekt betrachtet, stellt die vorliegende Erfindung ein Computerprogrammprodukt für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen bereit, wobei das Computerprogrammprodukt Folgendes umfasst:
ein computerlesbares Speichermedium, das von einer Verarbeitungsschaltung gelesen werden kann und Befehle zur Ausführung durch die Verarbeitungsschaltung speichert, um ein Verfahren gemäß einem der Schritte der Erfindung durchzuführen. - Unter einem weiteren Aspekt betrachtet, stellt die vorliegende Erfindung ein Computerprogramm bereit, das auf einem computerlesbaren Medium gespeichert ist und in den internen Speicher eines digitalen Computers geladen werden kann, welches Softwarecode-Teile umfasst, die, wenn das Programm auf einem Computer ausgeführt wird, die Schritte des Verfahrens durchführen.
- Unter einem weiteren Aspekt betrachtet, stellt die vorliegende Erfindung ein Computerprogramm bereit, das auf einem computerlesbaren Medium gespeichert ist und in den internen Speicher eines digitalen Computers geladen werden kann, welches Softwarecode-Teile umfasst, die, wenn das Programm auf einem Computer ausgeführt wird, die Schritte des Verfahrens durchführen.
- Aufgrund der Erfindung ist es möglich, ein Verfahren und System bereitzustellen, das Sprachmodelle für verschiedene Situationen speichert und das beste Modell einem Client bereitstellt, der die Suchanforderung bereitgestellt hat. Die verschiedenen Modelle können für unterschiedliche Situationen geeignet sein. Der Vorteil eines derartigen Verfahrens und Systems besteht darin, dass der Client ein Modell erhalten kann, das ohne sofortiges Trainieren am besten zu der momentanen Situation passt, und dass alle Sprachmodelle, die trainiert wurden, künftig für unterschiedliche Anfragen wiederverwendet werden können. Darüber hinaus können die Sprachmodelle auf rechenstarken Clients verfeinert und in ein zentrales Serversystem hochgeladen werden, um auf dieselbe Art und Weise gespeichert zu werden wie die auf dem Server trainierten Sprachmodelle.
- Wenn ein Sprecher z. B. eine mobile Einheit an einen neuen Ort trägt, passt das durch die mobile Einheit an einem früheren Ort verfeinerte Spracherkennungsmodell nicht notwendigerweise gut zu dem neuen Ort. Bei dem verbesserten System kann die mobile Einheit die momentanen Modelle automatisch in Server hochladen und ein oder mehrere bessere Modelle von dem Server auf den Client herunterladen. Zusätzlich beschränkt das verbesserte System die anfordernde Einheit nicht darauf, nur eine Verbindung mit den bekannten Servern herzustellen. Die Einheit kann vielmehr in einem beliebigen Netzwerk suchen, um von einem zuvor unbekannten Server oder einer unbekannten Einheit das am besten passende Sprachmodell zu erhalten.
- Bei einer Ausführungsform umfasst der Schritt des Speicherns des verfeinerten Sprachmodells das Ersetzen des ermittelten Sprachmodells durch das verfeinerte Sprachmodell. Das verfeinerte Sprachmodell wird von der Clienteinheit erneut in dem Serversystem empfangen und in die Datenbank mit Sprachmodellen aufgenommen, die von dem System gepflegt wird. Allerdings kann das empfangene verfeinerte Sprachmodell auch das ursprüngliche Sprachmodell ersetzen, das der Clienteinheit bereitgestellt wurde. So kann das verfeinerte Sprachmodell z. B. eine Verbesserung (durch Trainieren) eines bestehenden Sprachmodells sein, das für einen Benutzer und/oder eine Umgebung spezifisch ist, so dass das verbesserte Sprachmodell das bestehende Sprachmodell für die konkreten Metadaten dieses Sprachmodells ersetzen kann.
- Das Verfahren und System kann so konfiguriert werden, dass die Anfrage nach einem Sprachmodell eine Bedingung umfasst, die einen Benutzer an der Quelle bezeichnet, und dass die Metadaten für das ermittelte Sprachmodell den bezeichneten Benutzer angeben. Es können Sprachmodelle erzeugt werden, die spezifisch für einzelne Benutzer sind. Dies hat den Vorteil, dass, wenn sich der Benutzer an einem anderen Ort und in einer anderen Situation befindet, ein Sprachmodell, das für diesen Benutzer trainiert wurde, an dem zweiten Ort verwendet werden kann. So kann ein Benutzer z. B. sein Mobiltelefon verwenden, um Informationen zu seinem Bankkonto über eine Anwendung anzufordern, die Spracherkennungssoftware verwendet. Die Bank erzeugt eine Anfrage nach einem Sprachmodell, die während der Verwendung für diesen Benutzer verfeinert und dann in dem System gespeichert werden kann. Später kann sich der Benutzer z. B. in einem Bahnhof befinden und eine zweckgebundene Datenstation verwenden, um Zugfahrkarten zu kaufen. Die Datenstation verwendet Erkennungssoftware und erzeugt eine Anfrage nach einem Sprachmodell, die nun wiederum das zuvor definierte, für den Benutzer spezifische Sprachmodell zurückgibt.
- Vorzugsweise umfasst das Verfahren ferner das Empfangen neuer Metadaten für das verfeinerte Sprachmodell von der Quelle und das Speichern der neuen Metadaten für das verfeinerte Sprachmodell. Das Verfahren und System kann so aufgebaut sein, dass die Clients, die verfeinerte Sprachmodelle zurückgeben, auch neue Metadaten oder Informationen zurückgeben können, welche die Erzeugung neuer Metadaten ermöglichen. Diese können dann mit dem verfeinerten Sprachmodell gespeichert werden, um sicherzustellen, dass die Kategorisierung und Speicherung von Sprachmodellen dahingehend wirksam ist, dass sie ermöglicht, als Reaktion auf künftige Anfragen das richtige Modell abzurufen.
- Vorteilhafterweise umfasst die Anfrage nach einem Sprachmodell eine Bedingung, die eine Umgebung an der Quelle bezeichnet, die Metadaten für das ermittelte Sprachmodell geben die ermittelte Umgebung nicht genau an und das Speichern der neuen Metadaten für das verfeinerte Sprachmodell umfasst das genaue Angeben der ermittelten Umgebung. Das Verfahren und System kann so konfiguriert werden, dass, wenn ein Sprachmodell für eine Umgebung angefordert wird, die für das System neu ist und die daher von keinem vorhandenen Sprachmodell abgedeckt wird, dieses neue Sprachmodell unter Bezug auf die neue Umgebung gespeichert werden kann, wenn ein verfeinertes Sprachmodell letztlich durch die Clienteinheit zurückgegeben wird. So kann ein Benutzer z. B. in einem Bus reisen während er auf eine Anwendung zugreift, die Spracherkennung verwendet und die eine Anfrage nach einem Sprachmodell erzeugt. Das System verfügt unter Umständen über kein gespeichertes Sprachmodell, das sich auf eine derartige Umgebung anwenden ließe. Bei dem bereitgestellten Sprachmodell kann es sich um ein Modell handeln, das Metadaten enthält, welche angeben, dass es auf eine Umgebung wie beispielsweise einen fahrenden Zug anwendbar ist. Dieses Modell wird dann während der Verwendung verfeinert und kann, wenn es an den Server zurückgegeben wird, mit der „Busumgebung” als den geeigneten Metadaten gespeichert werden.
- Kurze Beschreibung der Zeichnungen
- Im Folgenden wird die vorliegende Erfindung lediglich beispielhaft und mit Bezug auf bevorzugte Ausführungsformen beschrieben, wie sie in den folgenden Figuren dargestellt werden:
-
1 ist eine schematische Darstellung eines Systems, das einen Server und mehrere Clients gemäß dem Stand der Technik umfasst und in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung realisiert werden kann; -
2 ist eine ausführlichere schematische Darstellung des Systems, in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung realisiert werden kann; -
3 ist eine schematische Darstellung einer zweiten Ausführungsform des Systems, in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung realisiert werden kann; -
4 ist eine schematische Darstellung einer dritten Ausführungsform des Systems, in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung realisiert werden kann; -
5 ist eine schematische Darstellung einer vierten Ausführungsform des Systems, in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung realisiert werden kann; und - die
6 und7 sind weitere schematische Darstellungen des Systems, in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung realisiert werden kann. - Ausführliche Beschreibung
-
1 zeigt ein System, das einen Server10 und mehrere Clienteinheiten12 umfasst. Der Zweck des Systems besteht darin, als Reaktion auf Anfragen, die von einzelnen Clienteinheiten12 empfangen werden, den Clientmodellen12 Sprachmodelle bereitzustellen. Das System stellt eine netzwerkbasierte Technologie bereit, um die universelle Verarbeitung von Spracherkennungsmodellen zu ermöglichen. Als Reaktion auf eine Anfrage nach einem Sprachmodell stellt das System einer Clienteinheit12 im Allgemeinen ein Modell nach einem Grundsatz der größten Übereinstimmung anstelle nach einem Verfahren der exakten Übereinstimmung bereit. - Die grundlegenden Merkmale des Systems bestehen darin, dass die Sprachmodelle über ein beliebiges Netzwerk angefordert werden können, wobei entweder zentrale Server oder verteilte Endpunkte verwendet werden können, dass Anfrageregeln auf spezifischen Bedingungen beruhen und verwendet werden, um das am besten passende Sprachmodell zu ermitteln, dass Endpunkte auf Grundlage von spezifischen Bedingungen entscheiden, wie und wo Sprachmodelle erhalten werden und wo die Spracherkennung durchgeführt werden soll, und dass die Endpunkte die Sprachmodelle verfeinern und über das Netzwerk mit einer Beschreibung etwaiger spezifischer Bedingungen speichern können.
- Bei der Spracherkennungsverarbeitung findet ein enormer, auf einer Sprachmodelldefinition beruhender Rechenaufwand statt, um die genaueste Textausgabe für die ursprüngliche Spracheingabe zu erzeugen. In dem Sprachnetzwerk aus
1 gibt es drei Arten von Endpunkten. Erstens besteht der zentralisierte Sprachserver10 aus einer Gruppe von einzelnen Computern und kann eine große Anzahl verschiedener Sprachmodelle für unterschiedliche Endbenutzer, einschließlich allgemeiner Modelle und angepasster Modelle, speichern. Der Server10 ist zudem in der Lage, eine große Anzahl von gleichzeitigen Spracherkennungsanforderungen zu verarbeiten. - Zweitens handelt es sich bei öffentlichen Endpunkten wie den Einheiten
12a und12c um Endpunkte, die sich in einem öffentlichen/gemeinsam genutzten Bereich befinden und die sprecherunabhängige Sprachanwendungen verwenden. Anhand ihrer Stimme können mehrere Benutzer diese Art von Endpunkt steuern. So kann z. B. ein Bankautomat, der eine Sprachanwendung für den Zugriff auf Benutzerkonten beinhaltet, von jedermann (sprecherunabhängig) verwendet werden. Da solche Endpunkte für eine öffentliche/gemeinsame Verwendung vorgesehen sind, ist es nicht zweckmäßig, angepasste Sprachmodelle für jeden Benutzer zu speichern und anzuwenden, und üblicherweise stellt Datenschutz bei öffentlichen/gemeinsam genutzten Endpunkten kein Problem dar. Es gibt zwei Unterarten von öffentlichen Endpunkten, einen Endpunkt mit vollständiger Sprachverarbeitungsfähigkeit, der eine vollständige Spracherkennungsfähigkeit nutzen kann und die Spracherkennung in der Endpunkteinheit selbst ausführen könnte, und einen Endpunkt mit eingeschränkter Sprachverarbeitungsfähigkeit, der lediglich über eine eingeschränkte Spracherkennungsfähigkeit verfügt und z. B. nur eine Spracheingabe erfassen und mit dem zentralisierten Server10 Daten austauschen kann, um ein Verarbeitungsergebnis zu erhalten. - Drittens gibt es private Endpunkte wie z. B. die Einheiten
12b und12d . Ein privater Endpunkt verfügt über eine Netzwerkverbindung, auf die nur ein spezifischer Endbenutzer zugreifen kann, z. B. ein Mobiltelefon. Eine private Einheit kann Sprachmodelle für einen spezifischen Benutzer speichern. Wenn allerdings der Endpunkt eine wie auch immer geartete öffentliche Sprachanwendung erreichen muss, z. B. eine Bankdienstleistungsanwendung, muss die Einheit mit einem öffentlichen Endpunkt Daten austauschen, um die Anwendungsdaten zu erhalten. Ähnlich wie bei öffentlichen Endpunkten gibt es je nach der Rechenfähigkeit des Endpunkts auch zwei Unterarten von privaten Endpunkten. Dabei handelt es sich um einen Endpunkt mit Sprachverarbeitungsfähigkeit, der über eine vollständige Spracherkennungsfähigkeit verfügt und die Spracherkennung in der Endpunkteinheit selbst ausführen und private Sprachmodelldaten für den spezifischen Endbenutzer speichern kann, und um einen Endpunkt mit einer eingeschränkten Sprachverarbeitungsfähigkeit, der lediglich über eine eingeschränkte Spracherkennungsfähigkeit verfügt und private Sprachmodelldaten speichern kann, die erfasste Spracheingabe und das private Sprachmodell jedoch an den zentralisierten Server10 senden muss, um das Verarbeitungsergebnis zu erhalten. -
2 zeigt ein erstes Arbeitsszenario, welches das Verhalten einer privaten Endpunkteinheit12b beschreibt, die mit dem zentralisierten Server10 arbeitet. In diesem Szenario wird die private Endpunkteinheit12b mit vollständiger Spracherkennungsfähigkeit bereitgestellt. Die private Endpunkteinheit12b verfügt über eine vollständige Sprachverarbeitungsfähigkeit und kann die Spracherkennung in der Endpunkteinheit12b selbst ausführen. Der Endpunkt12b verfügt über sein eigenes Benutzersprachmodell14b , das in der Einheit gespeichert ist. Die Einheit12b verfügt über die Speicherkapazität, um das Sprachmodell14b zu speichern, das möglicherweise zuvor heruntergeladen wurde. Die Einheit12b durchsucht das Netzwerk und vergleicht das am besten passende Sprachmodell14 aus dem Netzwerk mit dem zuvor in der Einheit12b gespeicherten Modell. Das überlegene Modell14 wird in der vorliegenden Spracherkennung verwendet. Falls kein Netzwerkzugriff verfügbar ist, kann die Einheit12b auch in der Lage sein, das vorab gespeicherte Sprachmodell14b zu verwenden. - In Schritt 1 (wie durch die in einem Kreis mit einem Pfeil abgebildeten Ziffern in den Figuren kenntlich gemacht) steuert ein Endbenutzer die private Endpunkteinheit
12b , um ein Benutzerüberprüfungsprofil16 für das Anmelden bei dem zentralen Server10 zu senden. Die Endpunkteinheit12b überträgt eine Anfrage nach einem Sprachmodell14 . Die Anfrage umfasst eine oder mehrere Bedingungen. Wenn kein Sprachmodell14 (wie z. B. ein benutzerspezifisches Modell14b ) genau für diese Endpunkteinheit12b passt, gibt der zentrale Server10 ein allgemeines Benutzersprachmodell14a an die Endpunkteinheit12b zurück. Die Endpunkteinheit12b , die hier als ein Smartphone abgebildet ist, verfügt über eine Reihe unterschiedlicher Funktionen. Die Einheit12b kann eine ASR-Fähigkeit (Automatic Speech Recognition, automatische Spracherkennung) durchführen und in der Lage sein, Sprach- und Umgebungsdaten zu sammeln, was der Spracherkennung und der Verfeinerung des Sprachmodells dient. Die Einheit12b wird mit einer Anzeige bereitgestellt, um die verfügbaren Anforderungen und Vorgänge einer lokalen Einheit20 (die hier ein Drucker ist) anzuzeigen. Die Einheit12b ist in der Lage, Sprachmodelle14 von dem Server10 herunterzuladen und Sprachmodelle14 in den Server10 hochzuladen. Die Einheit12b ist außerdem in der Lage, eine Datenübertragung mit geringer Reichweite zwischen der Endpunkteinheit12b und der lokalen Einheit20 bereitzustellen. - Bei dieser Ausführungsform wird davon ausgegangen, dass der Benutzer die private Endpunkteinheit
12b verwendet, um die lokale Einheit20 zu steuern. In Schritt 2 stellt die private Endpunkteinheit12b eine Verbindung mit der Einheit20 her. In Schritt 3 gibt die Einheit20 eine Menüliste in Textform an die Endpunkteinheit12b zurück. In Schritt 4 spricht der Endbenutzer den Vorgang, und die private Endpunkteinheit12b sendet das ASR-Ergebnis an die Einheit20 . In Schritt 5 führt die Einheit20 die erforderlichen Aktionen durch, die der verbalen Eingabe des Endbenutzers entsprechen. Schließlich lädt in Schritt 6 die private Endpunkteinheit12b alle etwaig erfassten Daten und ein verfeinertes Sprachmodell in den zentralen Server10 hoch. -
3 stellt ein Szenario einer privaten Endpunkteinheit12d mit eingeschränkter Spracherkennungsfähigkeit wie beispielsweise ein herkömmliches Mobiltelefon dar. Bei diesem Szenario verfügt die private Endpunkteinheit12d über eine eingeschränkte Sprachverarbeitungsfähigkeit, so dass die Einheit12d nur eine Spracheingabe erfassen, die Sprache aber nicht erkennen kann. Wie bei der vorherigen Ausführungsform wird davon ausgegangen, dass der Benutzer die private Endpunkteinheit12d verwendet, um eine lokale Einheit20 zu steuern. In Schritt 1 steuert der Endbenutzer die private Endpunkteinheit12d , um das Benutzerüberprüfungsprofil16 für das Anmelden bei einem zentralen Server10 zu senden. In Schritt 2 stellt die private Endpunkteinheit12d eine Verbindung mit der lokalen Einheit20 her. Die Einheit20 gibt in Schritt 3 eine Menüliste in Textformat an die Endpunkteinheit12d zurück. - In Schritt 4 spricht der Endbenutzer den Vorgang, und die private Endpunkteinheit
12d erfasst die Spracheingabe und sendet sie zur Erkennung an den zentralen Server10 . In Schritt 5 gibt der zentrale Server10 das ASR-Ergebnis an die private Endpunkteinheit12d zurück, und in Schritt 6 leitet die private Endpunkteinheit12d das ASR-Ergebnis an die lokale Einheit20 weiter. In Schritt 7 führt die Einheit20 die erforderlichen Aktionen durch, die der verbalen Eingabe des Endbenutzers entsprechen. Schließlich lädt in Schritt 8 die private Endpunkteinheit12d alle etwaig erfassten Daten in den zentralen Server10 hoch. - Eine dritte Ausführungsform des Systems wird in
4 gezeigt. Diese Figur stellt ein Szenario dar, bei dem eine öffentliche Endpunkteinheit12a wie beispielsweise ein Auszahlungsautomat einer Bank verwendet wird, die über eine vollständige Spracherkennungsfähigkeit verfügt. Bei diesem Szenario verfügt die öffentliche Endpunkteinheit12a über eine vollständige Sprachverarbeitungsfähigkeit und kann die Spracherkennung in der Endpunkteinheit12a selbst durchführen und verfügt über ein darin gespeichertes allgemeines Sprachmodell14a . Der Endbenutzer verwendet ein Mobiltelefon22 und besitzt darüber hinaus eine lokale Speichereinheit24 , hier eine Universal Serial Bus(USB)-Speichereinheit. - In Schritt 1 sendet der Endbenutzer sein Überprüfungsprofil
16 an den öffentlichen Endpunkt12a unter Verwendung seines privaten Mobiltelefons22 oder USB-Laufwerks20 . In Schritt 2 leitet die öffentliche Endpunkteinheit12a das Benutzerüberprüfungsprofil16 an den zentralen Server10 weiter, um sich bei dem zentralen Server10 anzumelden. In Schritt 3 gibt der zentrale Server10 das Sprachmodell14b an die öffentliche Endpunkteinheit12a zurück, falls es ein spezifisches Benutzersprachmodell14b gibt, das für diesen Benutzer passt. Andernfalls wird das allgemeine Benutzersprachmodell14a in der öffentlichen Endpunkteinheit12a verwendet. - In Schritt 4 spricht der Endbenutzer seine(n) Sprachbefehl(e) in den öffentlichen Endpunkt
12a . Der öffentliche Endpunkt12a antwortet dem Benutzer in Schritt 5. Schließlich lädt die öffentliche Endpunkteinheit12a in Schritt 6 etwaig erfasste Daten und das verfeinerte Modell für diesen Benutzer in den zentralen Server10 hoch. Auf diese Weise kann der Benutzer mit einer lokalen Einheit interagieren, die dennoch Zugriff auf eine große Bandbreite verschiedener Sprachmodelle14 hat. Wenn die Interaktion zwischen dem Benutzer und der öffentlichen Endpunkteinheit12a zur Änderung des verwendeten Sprachmodells14 führt, wird dieses verfeinerte Sprachmodell in den Server10 hochgeladen und kann in der Zukunft entweder von diesem Benutzer oder von einem anderen Benutzer wiederverwendet werden. -
5 zeigt eine vierte Ausführungsform des Systems, bei der es sich um ein Szenario handelt, das eine öffentliche Endpunkteinheit12c mit eingeschränkter Spracherkennungsfähigkeit verwendet. Auch hierbei könnte es sich um einen Bankautomaten, jedoch mit verringerter Funktionalität handeln. Bei diesem Szenario verfügt die öffentliche Endpunkteinheit12 über eine eingeschränkte Sprachverarbeitungsfähigkeit und kann so eine Spracheingabe nur erfassen, die Sprache aber nicht erkennen. In Schritt 1 sendet der Endbenutzer von seinem privaten Mobiltelefon22 oder USB-Laufwerk24 sein Überprüfungsprofil16 an die öffentliche Endpunkteinheit12c . In Schritt 2 leitet die öffentliche Endpunkteinheit12c das Benutzerüberprüfungsprofil16 an den zentralen Server10 weiter, um sich bei dem zentralen Server10 anzumelden. Falls es ein spezifisches Benutzersprachmodell14b gibt, das für diesen Benutzer passt, verwendet der zentrale Server10 dieses Sprachmodell14b , um die Stimme dieses Benutzers zu erkennen. Andernfalls wird ein allgemeines Benutzersprachmodell14a auf dem zentralen Server10 verwendet. - In Schritt 3 spricht der Endbenutzer in die öffentliche Endpunkteinheit
12c , und in Schritt 4 erfasst die öffentliche Endpunkteinheit12c die Spracheingabe und leitet die aufgezeichnete Sprache an den zentralen Server10 weiter. In Schritt 5 gibt der zentrale Server10 das ASR-Ergebnis in Textform an die öffentliche Endpunkteinheit12c zurück. In Schritt 6 führt die öffentliche Endpunkteinheit12c die notwendigen Aktionen als Reaktion auf die Benutzerbefehle durch. Schließlich lädt in Schritt 7 die öffentliche Endpunkteinheit12c alle etwaig erfassten Daten und ein verfeinertes Sprachmodell für diesen Benutzer in den zentralen Server10 hoch. - Die in dieser Figur gezeigte Ausführungsform stellt ebenso wie die anderen oben beschriebenen Ausführungsformen dem Server
10 ein verfeinertes Sprachmodell bereit, wenn das bei der Interaktion zwischen dem Benutzer und der Spracherkennungsfunktion verwendete Sprachmodell14 geändert wurde. Mit Bezug auf das verfeinerte Sprachmodell14 können Daten wie z. B. die Identität des Benutzers und/oder der Ort des Benutzers und/oder die örtlichen Bedingungen (Hintergrundgeräusche usw.) erfasst und mit dem verfeinerten Sprachmodell14 dem Server10 wieder bereitgestellt werden. Dies führt zu besseren Entsprechungen in der Zukunft, wenn weitere Anfragen getätigt werden, um ein Sprachmodell für eine spezifische Verwendung zu erhalten. -
6 zeigt ein verallgemeinertes Verfahren für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen14 . Ein Benutzer26 verfügt über seine eigene Clienteinheit12 , die mit dem Server10 Daten austauscht. Der Benutzer verfügt über ein rechenstarkes Smartphone12 , das unter Verwendung einer geeigneten Maschine eine lokale Spracherkennung durchführen kann. Um die Spracherkennung durchzuführen, benötigt die Maschine ein Sprachmodell14 , und um ein derartiges Modell14 zu erhalten, sendet die Maschine12 eine Anfrage28 nach einem Sprachmodell14 an den Server10 , wobei die Anfrage28 eine oder mehrere Bedingungen umfasst. Die Anfrage wird von einer Netzwerkschnittstelle30 des Servers10 empfangen. - Der Server
12 beinhaltet zudem eine Vielzahl von Speichereinheiten32 , die eine Vielzahl von Speichermodellen14 sowie Metadaten für jedes gespeicherte Sprachmodell14 speichern. Der Server10 ermittelt das Sprachmodell14 , dessen Metadaten den in der Anfrage28 enthaltenen bereitgestellten Bedingungen am besten entsprechen, und stellt das ausgewählte Sprachmodell14 der Clienteinheit12 bereit. Wie oben erläutert, können die Bedingungen in der Anfrage28 einfach aus der Identität des Benutzers28 bestehen, oder sie können kompliziertere Informationen zum Ort des Benutzers28 , seinem momentanen Transportmittel und zum Niveau des Hintergrundgeräuschs usw. beinhalten. Das der Anfrage28 am besten entsprechende Sprachmodell wird an den Benutzer26 zurückgegeben. - Danach interagiert der Benutzer
26 mit der Spracherkennungsmaschine, die das empfangene Sprachmodell14 mit Bezug auf eine Anwendung verwendet, auf die der Benutzer26 zugreift und die die Spracherkennung benötigt. Die Beschaffenheit der Interaktion zwischen dem Benutzer und der Maschine kann zu einer Anpassung des Sprachmodells14 führen, wodurch das Modell auf eine herkömmliche Art und Weise wirksam trainiert wird. Wie in7 gezeigt, wird das als ein verfeinertes Sprachmodell14' bezeichnete Sprachmodell dann zurück an den Server10 übertragen. Die Netzwerkschnittstelle30 empfängt das verfeinerte Sprachmodell14' von der Clienteinheit12 und speichert das verfeinerte Sprachmodell14' in einer Speichereinheit32 .
Claims (12)
- Verfahren für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen, das Folgendes umfasst: Speichern einer Vielzahl von Sprachmodellen, Speichern von Metadaten für jedes gespeicherte Sprachmodell, Empfangen einer Anfrage nach einem Sprachmodell von einer Quelle, wobei die Anfrage eine oder mehrere Bedingungen umfasst, Ermitteln des Sprachmodells, dessen Metadaten der/den bereitgestellten Bedingung(en) am besten entsprechen, Bereitstellen des ermittelten Sprachmodells an die Quelle, Empfangen eines verfeinerten Sprachmodells von der Quelle, und Speichern des verfeinerten Sprachmodells.
- Verfahren nach Anspruch 1, wobei der Schritt des Speicherns des verfeinerten Sprachmodells das Ersetzen des ermittelten Sprachmodells durch das verfeinerte Sprachmodell umfasst.
- Verfahren nach Anspruch 1 oder 2, wobei die Anfrage nach einem Sprachmodell eine Bedingung umfasst, die einen Benutzer an der Quelle bezeichnet und wobei die Metadaten für das ermittelte Sprachmodell den bezeichneten Benutzer angeben.
- Verfahren nach Anspruch 1, 2 oder 3, das ferner das Empfangen neuer Metadaten für das verfeinerte Sprachmodell von der Quelle und das Speichern der neuen Metadaten für das verfeinerte Sprachmodell umfasst.
- Verfahren nach Anspruch 4, wobei die Anfrage nach einem Sprachmodell eine Bedingung umfasst, die eine Umgebung an der Quelle bezeichnet, wobei die Metadaten für das ermittelte Sprachmodell die ermittelte Umgebung nicht genau angeben, und wobei das Speichern der neuen Metadaten für das verfeinerte Sprachmodell das genaue Angeben der ermittelten Umgebung umfasst.
- System für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen, wobei das System Folgendes umfasst: eine oder mehrere Speichereinheiten, die so aufgebaut sind, dass sie eine Vielzahl von Sprachmodellen und Metadaten für jedes gespeicherte Sprachmodell speichern, und eine Netzwerkschnittstelle, die mit der oder mit jeder Speichereinheit verbunden ist, auf die über eine externe Quelle zugegriffen werden kann und die so aufgebaut ist, dass sie: eine Anfrage nach einem Sprachmodell von einer Quelle empfängt, wobei die Anfrage eine oder mehrere Bedingungen umfasst, das Sprachmodell, dessen Metadaten der/den bereitgestellten Bedingung(en) am besten entsprechen, ermittelt, das ermittelte Sprachmodell der Quelle bereitstellt, ein verfeinertes Sprachmodells von der Quelle empfängt und das verfeinerte Sprachmodell in einer Speichereinheit speichert.
- System nach Anspruch 6, wobei die Netzwerkschnittstelle so aufgebaut ist, dass sie, wenn sie das verfeinerte Sprachmodell auf einer Speichereinheit speichert, das ermittelte Sprachmodell durch das verfeinerte Sprachmodell ersetzt.
- System nach Anspruch 6 oder 7, wobei die Anfrage nach einem Sprachmodell eine Bedingung umfasst, die einen Benutzer an der Quelle bezeichnet und wobei die Metadaten für das ermittelte Sprachmodell den bezeichneten Benutzer angeben.
- System nach Anspruch 6, 7 oder 8, wobei die Netzwerkschnittstelle weiter so aufgebaut ist, dass sie neue Metadaten für das verfeinerte Sprachmodell von der Quelle empfängt und die neuen Metadaten für das verfeinerte Sprachmodell in einer Speichereinheit speichert.
- System nach Anspruch 9, wobei die Anfrage nach einem Sprachmodell eine Bedingung umfasst, die eine Umgebung an der Quelle bezeichnet, wobei die Metadaten für das ermittelte Sprachmodell die ermittelte Umgebung nicht genau angeben, und wobei das Speichern der neuen Metadaten für das verfeinerte Sprachmodell das genaue Angeben der ermittelten Umgebung umfasst.
- Computerprogrammprodukt für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen, wobei das Computerprogrammprodukt Folgendes umfasst: ein computerlesbares Speichermedium, das von einer Verarbeitungsschaltung gelesen werden kann und Befehle zur Ausführung durch die Verarbeitungsschaltung speichert, um ein Verfahren gemäß einem beliebigen der Ansprüche 1 bis 5 durchzuführen.
- Computerprogrammprodukt, das auf einem computerlesbaren Medium gespeichert ist und in den internen Speicher eines digitalen Computers geladen werden kann, welches Softwarecode-Teile umfasst, die, wenn das Programm auf einem Computer ausgeführt wird, das Verfahren nach einem beliebigen der Ansprüche 1 bis 5 durchführen.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP11175174 | 2011-07-25 | ||
EP11175174.9 | 2011-07-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE102012212185A1 true DE102012212185A1 (de) | 2013-01-31 |
DE102012212185B4 DE102012212185B4 (de) | 2019-03-07 |
Family
ID=46261816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102012212185.4A Active DE102012212185B4 (de) | 2011-07-25 | 2012-07-12 | Pflegen und Bereitstellen von Sprachmodellen |
Country Status (3)
Country | Link |
---|---|
US (1) | US8938388B2 (de) |
DE (1) | DE102012212185B4 (de) |
GB (1) | GB2493413B (de) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8571865B1 (en) * | 2012-08-10 | 2013-10-29 | Google Inc. | Inference-aided speaker recognition |
US20140278415A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Voice Recognition Configuration Selector and Method of Operation Therefor |
KR102073102B1 (ko) * | 2013-03-21 | 2020-02-04 | 삼성전자 주식회사 | 언어인식을 위한 언어모델 db, 언어인식장치와 언어인식방법, 및 언어인식시스템 |
US9754258B2 (en) * | 2013-06-17 | 2017-09-05 | Visa International Service Association | Speech transaction processing |
US10846699B2 (en) * | 2013-06-17 | 2020-11-24 | Visa International Service Association | Biometrics transaction processing |
US9443527B1 (en) * | 2013-09-27 | 2016-09-13 | Amazon Technologies, Inc. | Speech recognition capability generation and control |
US9530416B2 (en) * | 2013-10-28 | 2016-12-27 | At&T Intellectual Property I, L.P. | System and method for managing models for embedded speech and language processing |
US9666188B2 (en) | 2013-10-29 | 2017-05-30 | Nuance Communications, Inc. | System and method of performing automatic speech recognition using local private data |
WO2015088480A1 (en) * | 2013-12-09 | 2015-06-18 | Intel Corporation | Device-based personal speech recognition training |
US9966073B2 (en) | 2015-05-27 | 2018-05-08 | Google Llc | Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device |
US9870196B2 (en) | 2015-05-27 | 2018-01-16 | Google Llc | Selective aborting of online processing of voice inputs in a voice-enabled electronic device |
US10083697B2 (en) * | 2015-05-27 | 2018-09-25 | Google Llc | Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device |
KR102405793B1 (ko) * | 2015-10-15 | 2022-06-08 | 삼성전자 주식회사 | 음성 신호 인식 방법 및 이를 제공하는 전자 장치 |
US10621977B2 (en) | 2015-10-30 | 2020-04-14 | Mcafee, Llc | Trusted speech transcription |
KR102691541B1 (ko) * | 2016-12-19 | 2024-08-02 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
WO2020001652A1 (en) * | 2018-06-29 | 2020-01-02 | Yunding Network Technology (Beijing) Co., Ltd. | Systems and methods for informarion management |
US11211071B2 (en) * | 2018-12-14 | 2021-12-28 | American International Group, Inc. | System, method, and computer program product for home appliance care |
US11120805B1 (en) * | 2020-06-19 | 2021-09-14 | Micron Technology, Inc. | Intelligent microphone having deep learning accelerator and random access memory |
US11929079B2 (en) * | 2020-10-27 | 2024-03-12 | Samsung Electronics Co., Ltd | Electronic device for managing user model and operating method thereof |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7174299B2 (en) | 1995-08-18 | 2007-02-06 | Canon Kabushiki Kaisha | Speech recognition system, speech recognition apparatus, and speech recognition method |
US6463413B1 (en) | 1999-04-20 | 2002-10-08 | Matsushita Electrical Industrial Co., Ltd. | Speech recognition training for small hardware devices |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US6424945B1 (en) | 1999-12-15 | 2002-07-23 | Nokia Corporation | Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection |
US6823306B2 (en) | 2000-11-30 | 2004-11-23 | Telesector Resources Group, Inc. | Methods and apparatus for generating, updating and distributing speech recognition models |
US6915262B2 (en) | 2000-11-30 | 2005-07-05 | Telesector Resources Group, Inc. | Methods and apparatus for performing speech recognition and using speech recognition results |
FR2820872B1 (fr) | 2001-02-13 | 2003-05-16 | Thomson Multimedia Sa | Procede, module, dispositif et serveur de reconnaissance vocale |
US7209880B1 (en) * | 2001-03-20 | 2007-04-24 | At&T Corp. | Systems and methods for dynamic re-configurable speech recognition |
US6785647B2 (en) | 2001-04-20 | 2004-08-31 | William R. Hutchison | Speech recognition system with network accessible speech processing resources |
US6915259B2 (en) * | 2001-05-24 | 2005-07-05 | Matsushita Electric Industrial Co., Ltd. | Speaker and environment adaptation based on linear separation of variability sources |
US7366673B2 (en) | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
US6941264B2 (en) * | 2001-08-16 | 2005-09-06 | Sony Electronics Inc. | Retraining and updating speech models for speech recognition |
US7013275B2 (en) * | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
US7072834B2 (en) * | 2002-04-05 | 2006-07-04 | Intel Corporation | Adapting to adverse acoustic environment in speech processing using playback training data |
JP2004009356A (ja) * | 2002-06-04 | 2004-01-15 | Seiko Epson Corp | 印刷装置 |
EP1400953B1 (de) | 2002-09-12 | 2013-03-20 | me2me AG | Verfahren zum Erstellen von akustischen Modellen und/oder Sprachmodellen |
EP1635328B1 (de) * | 2004-09-14 | 2018-05-30 | Swisscom AG | Verfahren zur eingeschränkten Spracherkennung mit einer von einem entfernten System empfangenen Grammatik. |
ES2330758T3 (es) * | 2005-11-25 | 2009-12-15 | Swisscom Ag | Procedimiento para personalizar un servicio. |
US20070250311A1 (en) * | 2006-04-25 | 2007-10-25 | Glen Shires | Method and apparatus for automatic adjustment of play speed of audio data |
US7822605B2 (en) * | 2006-10-19 | 2010-10-26 | Nice Systems Ltd. | Method and apparatus for large population speaker identification in telephone interactions |
US20080221884A1 (en) * | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile environment speech processing facility |
JP4877113B2 (ja) * | 2007-07-12 | 2012-02-15 | ヤマハ株式会社 | 音響モデル処理装置およびプログラム |
US8219404B2 (en) * | 2007-08-09 | 2012-07-10 | Nice Systems, Ltd. | Method and apparatus for recognizing a speaker in lawful interception systems |
EP2339576B1 (de) * | 2009-12-23 | 2019-08-07 | Google LLC | Mehrmodulare Eingabe in eine elektronische Vorrichtung |
US8234111B2 (en) * | 2010-06-14 | 2012-07-31 | Google Inc. | Speech and noise models for speech recognition |
-
2012
- 2012-04-25 GB GB1207210.4A patent/GB2493413B/en active Active
- 2012-07-09 US US13/544,145 patent/US8938388B2/en not_active Expired - Fee Related
- 2012-07-12 DE DE102012212185.4A patent/DE102012212185B4/de active Active
Also Published As
Publication number | Publication date |
---|---|
GB201207210D0 (en) | 2012-06-06 |
GB2493413B (en) | 2013-12-25 |
GB2493413A (en) | 2013-02-06 |
US20130030802A1 (en) | 2013-01-31 |
US8938388B2 (en) | 2015-01-20 |
DE102012212185B4 (de) | 2019-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102012212185B4 (de) | Pflegen und Bereitstellen von Sprachmodellen | |
DE112013000865T5 (de) | Konsolidieren von unterschiedlichen Cloud-Dienst-Daten und -Verhaltensweisen auf der Grundlage von Vertrauensbeziehungen zwischen Cloud-Diensten | |
DE112020003306T5 (de) | Unterscheiden von sprachbefehlen | |
EP1956814A1 (de) | Digitales Verfahren und Anordnung zur Authentifizierung eines Nutzers eines Telekommunikations- bzw. Datennetzes | |
DE102006055864A1 (de) | Verfahren zur Dialoganpassung und Dialogsystem zur Durchführung | |
EP3095114B1 (de) | Verfahren und system zur erzeugung eines steuerungsbefehls | |
DE60133537T2 (de) | Automatisches umtrainieren eines spracherkennungssystems | |
DE60214850T2 (de) | Für eine benutzergruppe spezifisches musterverarbeitungssystem | |
DE102015211101A1 (de) | Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server | |
DE102015121098A1 (de) | Multimodale Antwort auf eine Multimodale Suche | |
DE102020215954A1 (de) | Dialogsystem und verfahren zum steuern desselben | |
DE102020128250A1 (de) | Fahrzeugbasierte gebärdensprachkommunikationssysteme und -verfahren | |
DE112021004829T5 (de) | Durchgängiges verstehen gesprochener sprache ohne vollständige abschriften | |
DE112016007250T5 (de) | Verfahren und System zum Optimieren von Spracherkennung und Informationssuche basierend auf Gesprächsgruppenaktivitäten | |
DE102018000471A1 (de) | Blockchain-basiertes Identitätssystem | |
DE102022202150A1 (de) | System und verfahren zur kontextbewussten audioverstärkung | |
EP1848187B1 (de) | Verfahren und Vorrichtung zur Verifizierung der Identität eines Nutzers verschiedener Telekommunikationsdienste mittels biometrischer Merkmale | |
DE19849855C1 (de) | Verfahren zur automatischen Generierung einer textlichen Äußerung aus einer Bedeutungsrepräsentation durch ein Computersystem | |
DE112008002626T5 (de) | Verfahren und System zum Konvertieren eines virtuellen Elements | |
DE102015212650B4 (de) | Verfahren und System zum rechnergestützten Verarbeiten einer Spracheingabe | |
DE112017007900T5 (de) | Systeme und verfahren zur erzeugung von daten natürlicher sprache | |
EP1321851A2 (de) | Verfahren zum Betrieb eines Sprach-Dialogsystems | |
WO2001013196A2 (de) | Serversystem und verfahren zur automatischen bestimmung, überwachung und übermittlung von aktuellen wertdaten individueller portefeuilles | |
DE102017121780B4 (de) | Hierarchische Annotation von Dialogakten | |
AT509043B1 (de) | Verfahren zum elektronischen signieren von dateien |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R082 | Change of representative |
Representative=s name: RICHARDT PATENTANWAELTE GBR, DE |
|
R016 | Response to examination communication | ||
R016 | Response to examination communication | ||
R082 | Change of representative |
Representative=s name: RICHARDT PATENTANWAELTE GBR, DE |
|
R081 | Change of applicant/patentee |
Owner name: INTERNATIONAL BUSINESS MACHINES CORPORATION, A, US Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINES CORPORATION, ARMONK, N.Y., US Effective date: 20121010 Owner name: INTERNATIONAL BUSINESS MACHINES CORPORATION, A, US Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINES CORPORATION, NEW YORK, N.Y., US Effective date: 20130430 Owner name: INTERNATIONAL BUSINESS MACHINES CORPORATION, US Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINES CORPORATION, NEW YORK, US Effective date: 20130430 Owner name: INTERNATIONAL BUSINESS MACHINES CORPORATION, US Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINES CORPORATION, ARMONK, US Effective date: 20121010 |
|
R082 | Change of representative |
Representative=s name: RICHARDT PATENTANWAELTE GBR, DE Effective date: 20121010 Representative=s name: RICHARDT PATENTANWAELTE GBR, DE Effective date: 20130430 Representative=s name: RICHARDT PATENTANWAELTE PART GMBB, DE Effective date: 20130430 Representative=s name: RICHARDT PATENTANWAELTE PART GMBB, DE Effective date: 20121010 Representative=s name: RICHARDT PATENTANWAELTE PARTG MBB, DE Effective date: 20121010 Representative=s name: RICHARDT PATENTANWAELTE PARTG MBB, DE Effective date: 20130430 |
|
R016 | Response to examination communication | ||
R018 | Grant decision by examination section/examining division | ||
R084 | Declaration of willingness to licence | ||
R020 | Patent grant now final |