DE60111775T2 - Sprachgesteuertes tragbares endgerät - Google Patents

Sprachgesteuertes tragbares endgerät Download PDF

Info

Publication number
DE60111775T2
DE60111775T2 DE60111775T DE60111775T DE60111775T2 DE 60111775 T2 DE60111775 T2 DE 60111775T2 DE 60111775 T DE60111775 T DE 60111775T DE 60111775 T DE60111775 T DE 60111775T DE 60111775 T2 DE60111775 T2 DE 60111775T2
Authority
DE
Germany
Prior art keywords
network server
acoustic models
speaker
database
mobile terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60111775T
Other languages
English (en)
Other versions
DE60111775D1 (de
Inventor
Karl Hellwig
Stefan Dobler
Fredrik Öijer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of DE60111775D1 publication Critical patent/DE60111775D1/de
Application granted granted Critical
Publication of DE60111775T2 publication Critical patent/DE60111775T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition

Description

  • HINTERGRUND DER ERFINDUNG
  • 1. Technisches Gebiet
  • Die Erfindung betrifft das Gebiet der automatischen Spracherkennung und insbesondere ein mobiles Endgerät, das durch gesprochene Äußerungen wie Eigennamen und Befehlsworte steuerbar ist. Die Erfindung betrifft ferner ein Verfahren zur Bereitstellung von akustischen Modellen für die automatische Spracherkennung in einem derartigen mobilen Endgerät.
  • 2. Diskussion des Standes der Technik
  • Viele mobile Endgeräte wie Mobiltelefone oder Personal Digital Assistants enthalten das Merkmal des Steuerns einer oder mehrerer Funktionen durch das Äußern entsprechender Schlüsselworte. Es gibt z.B. Mobiltelefone, die das Entgegennehmen eines Anrufs oder die Verwaltung eines Telefonbuches durch das Äußern von Befehlsworten ermöglichen. Ferner erlauben viele Mobiltelefone die sogenannte Sprachwahl, welche durch Äußern des Namens einer Person initiiert wird.
  • Das Steuern eines mobilen Endgerätes durch gesprochene Äußerungen erfordert die Anwendung einer automatischen Spracherkennung. Während der automatischen Spracherkennung vergleicht ein automatischer Spracherkenner zuvor erzeugte akustische Modelle mit einer erkannten gesprochenen Äußerung. Die akustischen Modelle können sprecherabhängig oder sprecherunabhängig erzeugt werden.
  • Bis heute wenden die meisten mobilen Endgeräte die sprecherabhängige Spracherkennung und somit sprecherabhängige akustische Modelle an. Die Verwendung sprecherabhängiger akustischer Modelle erfordert, daß ein individueller Benutzer des mobilen Endgerätes ein Vokabular trainieren muß, auf Grundlage dessen die automatische Spracherkennung erfolgt. Das Training wird gewöhnlich durch ein- oder mehrmaliges Sprechen eines bestimmten Schlüsselwortes vorgenommen, um so das entsprechende sprecherabhängige akustische Modell zu erzeugen.
  • Die auf sprecherabhängigen akustischen Modellen basierende Spracherkennung in mobilen Endgeräten stellt nicht immer eine optimale Lösung dar. Zunächst ist das Erfordernis eines separaten Trainings für jedes Schlüsselwort, das zum Steuern des mobilen Endgerätes verwendet werden soll, zeitaufwendig und wird vom Benutzer als lästig empfunden. Da die sprecherabhängigen akustischen Modelle gewöhnlich im mobilen Endgerät selbst gespeichert werden, stehen ferner die mittels einer Trainingsprozedur erzeugten sprecherabhängigen akustischen Modelle nur für dieses eine mobile Endgerät zur Verfügung. Dies bedeutet, daß die zeitaufwendige Trainingsprozedur wiederholt werden muß, sobald der Benutzer ein neues mobiles Endgerät erwirbt.
  • Aufgrund der obengenannten Nachteile der sprecherabhängigen Spracherkennung wenden mobile Endgeräte manchmal die sprecherunabhängige Spracherkennung an, d.h. eine Spracherkennung, deren Grundlage sprecherunabhängige akustische Modelle sind. Es gibt mehrere Möglichkeiten sprecherunabhängige akustische Modelle zu erstellen. Stellen die gesprochenen Schlüsselworte zum Steuern des mobilen Endgerätes ein begrenztes Set an Befehlsworten dar, die vorgegeben sind, d.h. die nicht durch den Benutzer des mobilen Endgerätes definiert sind, so können die sprecherunabhängigen Referenzen durch eine Mittelwertbildung der gesprochenen Äußerungen einer großen Anzahl von verschiedenen Sprechern erzeugt und in dem mobilen Endgerät vor dessen Verkauf gespeichert werden.
  • Können andererseits die gesprochenen Schlüsselworte zum Steuern des mobilen Endgerätes vom Benutzer frei ausgewählt werden, so muß ein anderes Verfahren angewendet werden. Ein Computersystem zum Erzeugen sprecherunabhängiger Referenzen zur freien Auswahl gesprochener Schlüsselworte, d.h. Schlüsselworte, die dem Computersystem unbekannt sind, ist in der EP 0 590 173 A1 sowie in der WO-A-00/65807 beschrieben. Das Computersystem analysiert jedes unbekannte gesprochene Schlüsselwort und synthetisiert eine entsprechende sprecherunabhängige Referenz mittels einer phonetischen Datenbank. Allerdings umfaßt das in der EP 0 590 173 A1 gelehrte Computersystem einen sehr großen Speicher sowie ausgefeilte rechenbezogene Ressourcen zum Erzeugen der sprecherunabhängigen Referenzen, die im allgemeinen in kleinen und leichten mobilen Endgeräten nicht verfügbar sind.
  • Aus diesem Grund besteht ein Bedarf an einem mobilen Endgerät, das durch frei ausgewählte gesprochene Schlüsselworte auf der Grundlage von sprecherunabhängigen oder sprecherabhängigen akustischen Modellen steuerbar ist und bei der Anwendung von sprecherabhängigen akustischen Modellen ein Minimum an Benutzertraining erfordert. Ferner besteht ein Bedarf an einem Netzwerkserver für ein derartiges mobiles Endgerät sowie an einem Verfahren zum Erhalten akustischer Modelle für ein derartiges mobiles Endgerät.
  • Gemäß der vorliegenden Erfindung wird ein Netzwerkserver gemäß Anspruch 1, ein mobiles Endgerät gemäß Anspruch 10 sowie ein Verfahren gemäß Anspruch 15 bereitgestellt. Die Schnittstelle sowohl des Netzwerkservers als auch eines jeden mobilen Endgerätes kann als eine oder mehrere zusätzliche Hardwarekomponenten oder aber als Softwarelösung zum Betreiben bereits existierender Hardwarekomponenten konfiguriert sein.
  • Die für die automatische Spracherkennung zu verwendenden akustischen Modelle werden somit vom Netzwerkserver bereitgestellt, der die akustischen Modelle an ein mobiles Endgerät überträgt. Das mobile Endgerät erkennt gesprochene Äußerungen aufgrund der phonetischen Erkennungseinheiten der akustischen Modelle, die vom Netzwerkserver übertragen bzw. von diesem empfangen werden.
  • Wie aus dem Obigen hervorgeht, werden die akustischen Modelle zentral und für eine Vielzahl von mobilen Endgeräten von einem einzigen Netzwerkserver bereitgestellt. Die vom Netzwerkserver bereitgestellten akustischen Modelle können sowohl sprecherabhängig als auch sprecherunabhängig sein. Die akustischen Modelle können vom Netzwerkserver z.B. durch Speichern der von dem mobilen Endgerät herunterzuladenden akustischen Modelle in einer Netzwerkserver-Datenbank oder durch Erzeugen der herunterzuladenden akustischen Modelle auf Befehl bereitgestellt werden.
  • Im Falle sprecherunabhängiger akustischer Modelle sind die für das Erzeugen der sprecherunabhängigen akustischen Modelle erforderlichen Rechen- und Speicherressourcen netzwerkserverseitig angebracht und werden von einer Vielzahl an mobilen Endgeräten geteilt. Folglich können mobile Endgeräte durch frei ausgewählte gesprochene Äußerungen sowie aufgrund sprecherunabhängiger Spracherkennung ohne einen signifikanten Anstieg der Hardwareerfordernisse für die mobilen Endgeräte gesteuert werden. Ferner können die mobilen Endgeräte selbst sprach- und landesunabhängig gehalten werden, da jegliche sprachabhängige Ressourcen, die für die sprecherunabhängige Spracherkennung notwendig sind, von dem mobilen Endgerät an den Netzwerkserver übertragen werden können. Da zudem die sprecherunabhängige Spracherkennung verwendet wird, ist für das mobile Endgerät vor dem Steuern desselben durch gesprochene Äußerungen kein Benutzertraining erforderlich.
  • Bei Verwendung sprecherabhängiger akustischer Modelle müssen die sprecherabhängigen akustischen Modelle jeweils nur einmal trainiert werden und können dann im Netzwerkserver gespeichert werden. Folglich können die sprecherabhängigen akustischen Modelle vom Netzwerkserver an jedes mobile Endgerät übertragen werden, welches der Benutzer mittels gesprochener Äußerungen zu steuern beabsichtigt. Erwirbt beispielsweise der Benutzer ein neues mobiles Endgerät, so ist kein weiteres Training notwendig, um dieses neue mobile Endgerät mittels gesprochener Äußerungen zu steuern. Der Benutzer muß z.B. lediglich die sprecherabhängigen akustischen Modelle von seinem alten mobilen Endgerät in den Netzwerkserver laden und diese akustischen Modelle anschließend wieder vom Netzwerkserver in sein neues mobiles Endgerät laden. Selbstverständlich funktioniert dies auch mit sprecherunabhängigen akustischen Modellen.
  • Die Erfindung ermöglicht es deshalb, die rechenbezogenen Erfordernisse an mobile Endgeräte zu verringern, wenn sprecherunabhängige akustische Modelle für die automatische Spracherkennung verwendet werden. Bei Verwendung von sprecherab hängigen akustischen Modellen für die automatische Spracherkennung muß nur eine einzige Trainingsprozedur angewandt werden, um eine Vielzahl von mobilen Endgeräten durch die automatische Spracherkennung zu steuern.
  • Vorzugsweise werden sprecherunabhängige akustische Modelle aufgrund von Texttranskriptionen (z.B. im ASCII-Format) der gesprochenen Äußerungen erzeugt. Die Texttranskriptionen der gesprochenen Äußerungen können in einer Datenbank für Texttranskriptionen in einem mobilen Endgerät enthalten sein. Die Schnittstelle des mobilen Endgerätes kann derart konfiguriert sein, daß sie die Übertragung der Texttranskriptionen von dem mobilen Endgerät an den Netzwerkserver ermöglicht. Die Schnittstelle des Netzwerkservers kann andererseits so konfiguriert sein, daß sie den Empfang der Texttranskriptionen von dem mobilen Endgerät ermöglicht. Nach dem Empfang der Texttranskriptionen von dem mobilen Endgerät kann die Einheit zum Bereitstellen akustischer Modelle im Netzwerkserver sprecherunabhängige akustische Modelle aufgrund der empfangenen Texttranskriptionen erzeugen.
  • Auch kann die Schnittstelle des mobilen Endgerätes derart konfiguriert sein, daß sie die Übertragung sprecherabhängiger oder sprecherunabhängiger akustischer Modelle der gesprochenen Äußerungen an den Netzwerkserver ermöglicht. Die Schnittstelle des Netzwerkservers kann andererseits so konfiguriert sein, daß sie den Empfang der akustischen Modelle von dem mobilen Endgerät ermöglicht. Nach dem Empfang der akustischen Modelle vom mobilen Endgerät kann die Einheit zum Bereitstellen akustischer Modelle vom Netzwerkserver die empfangenen akustischen Modelle permanent oder vorübergehend speichern. Die Einheit zum Bereitstellen akustischer Modelle kann deshalb ein Speicher sein. Nachdem die akustischen Modelle im Netzwerkserver gespeichert worden sind, können die akustischen Modelle vom Netzwerkserver an das mobile Endgerät übertragen werden, von dem die akustischen Modelle empfangen wurden, oder aber an ein weiteres mobiles Endgerät. Das Übertragen der akustischen Modelle zurück an das mobile Endgerät, von dem aus die akustischen Modelle übertragen wurden, ist vorteilhaft, wenn beispielsweise die akustischen Modelle irrtümlich gelöscht wurden. Somit kann der Netzwerkserver als ein Backup-Mittel benutzt werden. Als Beispiel kann der Netzwerkserver ein Backup der akustischen Modelle bzw. weiterer Informationen wie im mobilen Endgerät gespeicherter Sprachprompts in bestimmten Zeitabständen vornehmen.
  • Wie oben dargelegt, kann das mobile Endgerät eine Datenbank zum Speichern von Texttranskriptionen der gesprochenen Äußerungen umfassen. Die Texttranskriptionen können vom Benutzer eingegeben werden, z.B. mittels Tasten am mobilen Endgerät. Dies kann im Zusammenhang mit der Erstellung von Einträgen für ein persönliches Telefonbuch oder von Befehlsworten geschehen. Allerdings können die Texttranskriptionen auch vorgegeben und vorgespeichert sein, bevor das mobile Endgerät verkauft wird. Vorgegebene Texttranskriptionen können sich beispielsweise auf bestimmte Befehlsworte beziehen.
  • Neben der Datenbank für die Texttranskriptionen kann das mobile Endgerät eine Datenbank für akustische Modelle zum Speichern von akustischen Modellen umfassen, die im mobilen Endgerät erzeugt oder vom Netzwerkserver empfangen wurden. Vorzugsweise sind beide Datenbanken derart konfiguriert, daß es für jedes Paar einer Texttranskription und einem entsprechenden akustischen Modell eine Verknüpfung zwischen der Texttranskription und dem entsprechenden akustischen Modell gibt. Die Verknüpfung kann in Form identischer Indexe i = 1 ... n innerhalb der jeweiligen Datenbank konfiguriert sein.
  • Gemäß der Erfindung werden die akustischen Modelle von dem Netzwerkserver aufgrund phonetischer Transkriptionen der Texttranskriptionen erzeugt. Die phonetischen Transkriptionen werden beispielsweise mit Hilfe einer Aussprachedatenbank erstellt, die das Vokabular des Netzwerkservers an phonetischen Transkriptionseinheiten wie Phoneme oder Triphone darstellt. Einzelne phonetische Transkriptionseinheiten werden zur Bildung der phonetischen Transkription einer bestimmten Texttranskriptionen miteinander verknüpft. In einem weiteren Schritt werden die sprecherunabhängigen oder sprecherabhängigen akustischen Modelle durch das Übersetzen der phonetischen Transkriptionseinheiten in die entsprechenden sprecherunabhängigen oder sprecherabhängigen phonetischen Erkennungseinheiten erzeugt, die in einem Format sind, das von dem automatischen Spracherkenner des mobilen Endgerätes analysiert werden kann. Das Vokabular des Netzwerkservers an phonetischen Erkennungseinheiten kann in einer Erkennungsdatenbank des Netzwerkservers gespeichert werden.
  • Der Netzwerkserver kann ferner einen Sprachsynthesizer zum Erzeugen eines Sprachprompts einer von einem mobilen Endgerät empfangenen Texttranskription enthalten. Das Sprachprompt wird vorzugsweise durch Verwendung derselben phonetischen Transkription erzeugt, die zum Erstellen eines entsprechenden akustischen Modells verwendet wird. Deshalb kann die Aussprachedatenbank sowohl von dem Sprachsynthesizer als auch von der Einheit zum Erzeugen des sprecherunabhängigen akustischen Modells geteilt werden.
  • Der Sprachprompt kann durch Übersetzen der Texttranskription in phonetische Synthetisiereinheiten erzeugt werden. Das Vokabular des Netzwerkservers an phonetischen Synthetisiereinheiten kann beispielsweise in einer Synthesedatenbank des Netzwerkservers enthalten sein.
  • Nach Erzeugung des einer Texttranskription entsprechenden Sprachprompts kann der Sprachprompt vom Netzwerkserver an das mobile Endgerät übertragen werden und von dem mobilen Endgerät über dessen Schnittstelle empfangen werden. Der vom Netzwerkserver empfangene Sprachprompt kann dann in einer Datenbank für Sprachprompts des mobilen Endgerätes gespeichert werden.
  • Anstelle der oder zusätzlich zur Erzeugung eines Sprachprompts innerhalb des Netzwerkservers kann eine erkannte Benutzeräußerung ebenfalls die Grundlage für einen Sprachprompt bilden. Folglich kann der Sprachprompt innerhalb des mobilen Endgerätes durch Verwendung der erkannten Benutzeräußerung erzeugt werden. Somit kann sowohl auf Sprachsynthesizer als auch auf die Synthesedatenbank des Netzwerkservers verzichtet werden, und es können die Komplexität sowie die Kosten des Netzwerkservers beträchtlich reduziert werden.
  • Die Schnittstelle des mobilen Endgerätes kann derart konfiguriert sein, daß sie das Übertragen von Sprachprompts vom mobilen Endgerät an den Netzwerkserver sowie das Empfangen von Sprachprompts vom Netzwerkserver erlaubt. Die Schnittstelle des Netzwerkservers kann andererseits so konfiguriert sein, daß sie das Empfangen von Sprachprompts vom mobilen Endgerät und das Übertragen von Sprachprompts an das mobile Endgerät erlaubt. Vorzugsweise umfaßt der Netzwerkserver außerdem eine Sprachpromptdatenbank zum Speichern der Sprachprompts permanent oder vorübergehend. Folglich können die Sprachprompts, die entweder im mobilen Endgerät oder aber im Netzwerkserver erzeugt wurden von der Sprachpromptdatenbank im Netzwerkserver jederzeit und je nach Wunsch in ein mobiles Endgerät geladen werden. Somit muß ein Set an Sprachprompts nur einmal für eine Vielzahl von mobilen Endgeräten erzeugt werden.
  • Die Sprachprompts können zum Erzeugen eines akustischen Feedbacks nach der Erkennung einer gesprochenen Äußerung durch den automatischen Spracherkenner des mobilen Endgerätes verwendet werden. Aus diesem Grund kann das mobile Endgerät ferner Komponenten zum Ausgeben eines akustischen Feedbacks für eine erkannte Äußerung umfassen. Das mobile Endgerät kann außerdem Komponenten zum Ausgeben eines visuellen Feedbacks für eine erkannte Äußerung umfassen. Das visuelle Feedback kann beispielsweise in der Darstellung der Texttranskription, die der erkannten Äußerung entspricht, bestehen.
  • Gemäß einer weiteren Ausführungsform der Erfindung ist wenigstens ein Teil der Datenbank für die Texttranskriptionen auf einem physikalischen Träger angeordnet, der entfernbar mit dem mobilen Endgerät verbunden werden kann. Der physikalische Träger kann z.B. eine Teilnehmererkennungsmodulkarte (Subscriber Identity Module – SIM) sein, die ebenfalls zum Speichern persönlicher Informationen verwendet wird. Ein mobiles Endgerät kann mit der SIM-Karte personalisiert werden. Die SIM-Karte kann weitere Datenbanken enthalten, wenigstens teilweise wie die Datenbank des mobilen Endgerätes für Sprachprompts oder für akustische Modelle.
  • Die Erfindung kann sowohl als Hardwarelösung als auch als ein Computerprogrammprodukt implementiert werden, mit Programmcodebereichen zur Durchführung der individuellen Schritte gemäß dem Verfahren, wenn das Computerprogrammprodukt auf einem Computersystem ausgeführt wird. Das Computerprogrammprodukt kann auf einem computerlesbaren Speichermedium wie einem Datenträger gespeichert werden, der am Computer angebracht oder von diesem abnehmbar ist.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Weitere Aspekte und Vorteile der Erfindung werden beim Durchlesen der folgenden detaillierten Beschreibung der bevorzugten Ausführungsformen der Erfindung sowie im Zusammenhang mit den Figuren ersichtlich. Hierbei zeigen:
  • 1 ein schematisches Diagramm einer ersten Ausführungsform eines mobilen Endgerätes gemäß der Erfindung;
  • 2 ein schematisches Diagramm des mobilen Endgerätes gemäß 1 in Kommunikation mit einer ersten Ausführungsform eines Netzwerkservers gemäß der Erfindung;
  • 3 ein schematisches Diagramm einer zweiten Ausführungsform eines mobilen Endgerätes gemäß der Erfindung;
  • 4 ein schematisches Diagramm einer zweiten Ausführungsform eines Netzwerkservers gemäß der Erfindung; und
  • 5 ein schematisches Diagramm einer dritten Ausführungsform eines Netzwerkservers gemäß der Erfindung.
  • BESCHREIBUNG VON BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • In der 1 ist ein schematisches Diagramm eines ersten Beispiels eines mobilen Endgerätes in Form eines Mobilstelefons 100 mit Sprachwahlfunktion gemäß der Anmeldung dargestellt.
  • Das Mobiltelefon 100 umfaßt einen automatischen Spracherkenner 110, der über ein Mikrophon 120 ein einer gesprochenen Äußerung eines Benutzers entsprechendes Signal empfängt. Der automatische Spracherkenner 110 kommuniziert weiterhin mit einer Datenbank 130, die sämtliche akustische Modelle enthält, die zur automatischen Spracherkennung durch den automatischen Spracherkenner 110 mit den über das Mikrophon 120 empfangenen gesprochenen Äußerungen verglichen werden sollen.
  • Das Mobiltelefon 100 umfaßt zusätzlich eine Komponente 140 zum Erzeugen eines akustischen Feedbacks für eine erkannte gesprochene Äußerung. Die Komponente 140 zum Ausgeben des akustischen Feedbacks kommuniziert mit einer Sprachpromptdatenbank 150 zum Speichern von Sprachprompts. Die Komponente 140 erzeugt ein akustisches Feedback aufgrund von in der Datenbank 150 enthaltenen Sprachprompts. Die Komponente 140 zum Ausgeben eines akustischen Feedbacks kommuniziert ferner mit einem Lautsprecher 160, der das akustische Feedback, welches von der Komponente 140 zum Ausgeben des akustischen Feedbacks empfangen wurde, zurückspielt.
  • Das in der 1 gezeigte Mobiltelefon 100 umfaßt auch eine SIM-Karte 170, auf der eine weitere Datenbank 180 zum Speichern von Texttranskriptionen angeordnet ist. Die SIM-Karte 170 ist entfernbar mit dem Mobiltelefon 100 verbunden und enthält eine Liste mit mehreren Texttranskriptionen gesprochener Äußerungen, die von dem automatischen Spracherkenner 110 erkannt werden sollen. In dem in der 1 gezeigten Beispiel ist die Datenbank 180 in Form eines Telefonbuchs konfiguriert und enthält eine Vielzahl von Telefonbucheinträgen in Form von Namen, von denen jeder einer bestimmten Telefonnummer zugeordnet ist. Wie aus der Zeichnung hervorgeht, bezieht sich der erste Telefonbucheintrag auf den Namen „Tom" und der zweite Telefonbucheintrag bezieht sich auf den Namen „Stefan". Die Texttranskriptionen der Datenbank 180 sind als ASCII-Zeichenfolge konfiguriert. Somit besteht die Texttranskription des ersten Telefonbucheintrages aus den drei Zeichen „T", „O" und „M". Wie aus 1 ersichtlich ist, weist jede Texttranskription der Datenbank 180 einen einmaligen Index auf. Die Texttranskription „Tom" hat beispielsweise den Index „1".
  • Die Datenbank 180 zum Speichern der Texttranskriptionen kommuniziert mit einer Komponente 190 zum Ausgeben eines optischen Feedbacks. Die Komponente 190 zum Ausgeben des visuellen Feedbacks ist so konfiguriert, daß sie die Texttranskription einer von dem automatischen Erkenner 110 erkannten gesprochenen Äußerung darstellen kann.
  • Die drei Datenbasen 130, 150, 180 des Mobiltelefons 100 kommunizieren mit einer Schnittstelle 200 des Mobiltelefons 100. Die Schnittstelle 200 dient der Übertragung der in der Datenbank 180 enthaltenen Texttranskriptionen an einen Netzwerkserver sowie dem Empfangen vom Netzwerkserver eines akustischen Modells sowie eines Sprachprompts für jede an den Netzwerkserver übertragene Texttranskription.
  • Grundsätzlich kann die Schnittstelle 200 in dem Mobiltelefon 100 intern in zwei Blöcke geteilt sein, die in der 1 nicht dargestellt sind. Ein erster Block ist in einem Schreib-/Lese-Modus für den Zugriff auf die Datenbank 130 für akustische Modelle, die Datenbank 150 für Sprachprompts und die Datenbank 180 für Texttranskriptionen verantwortlich. Der zweite Block realisiert die Übertragung der in den Datenbanken 120, 150, 180 enthaltenen Daten an den Netzwerkserver 300 unter Verwendung einer Protokollbeschreibung, die eine verlustfreie und schnelle Datenübertragung gewährleistet. Eine weitere Anforderung an ein derartiges Protokoll besteht in einem bestimmten Grad an Sicherheit. Ferner sollte das Protokoll derart ausgelegt sein, daß es von dem ihm zugrundeliegenden physikalischen Übertragungsmedium, z.B. Infrarot (IR), Bluetooth, GSM, etc. unabhängig ist. Im allgemeinen könnte jede Art von Protokoll (proprietär oder standardisiert) verwendet werden, das die obengenannten Anforderungen erfüllt. Ein Beispiel für ein geeignetes Protokoll ist das kürzlich herausgegebene SyncML-Protokoll, welches auf zwei Geräten gespeicherte Informationen synchronisiert, selbst wenn die Konnektivität nicht gewährleistet ist. Ein derartiges Protokoll würde die notwendigen Anforderungen zum Austauschen von Sprachprompts, akustischen Modellen etc. für sprachbetriebene Anwendungen in jedem mobilen Endgerät erfüllen.
  • Jede Texttranskription wird von dem Mobiltelefon 100 zusammen mit dem entsprechenden Index der Texttranskription an den Netzwerkserver übertragen. Ebenso wird jedes akustische Modell und jeder Sprachprompt zusammen mit dem Index der entsprechenden Texttranskription vom Netzwerkserver an das Mobiltelefon 100 übertra gen. Die sprecherunabhängigen Referenzen sowie die vom Netzwerkserver empfangenen akustischen Modelle werden in den entsprechenden Datenbanken 130 und 150 zusammen mit ihren Indexen gespeichert. Jeder Index der drei Datenbanken 130, 150, 180 kann als eine Verknüpfung zwischen einer Texttranskription, deren entsprechendem akustischen Modell und deren entsprechendem Sprachprompt interpretiert werden.
  • In der 2 wird ein Netzsystem umfassend das in der 1 dargestellte Mobiltelefon 100 und einen Netzwerkserver 300 gezeigt. Der Netzwerkserver 300 ist so konfiguriert, daß er mit einer Vielzahl von Mobiltelefonen 100 kommuniziert. Es wird jedoch nur ein Mobiltelefon 100 exemplarisch in der 2 gezeigt.
  • Der in der 2 gezeigte Netzwerkserver 300 umfaßt eine Schnittstelle 310 zum Empfangen der Texttranskriptionen von dem mobilen Endgerät 100 sowie zum Übertragen des entsprechenden akustischen Modells und des entsprechenden Sprachprompts an das Mobiltelefon 100. Ähnlich der Schnittstelle 200 im Mobiltelefon 100 ist die Schnittstelle 310 in zwei Blöcke geteilt, einen Protokolltreiberblock z.B. zur drahtlosen Verbindung und einen Zugriffsblock, der Daten zu Standorten wie Datenbanken, Verarbeitungseinrichtungen etc. im Netzwerkserver 300 überträgt. Die Blöcke sind in der 2 nicht dargestellt.
  • Die Schnittstelle 310 des Netzwerkservers 300 kommuniziert mit einer Einheit 320 zum Bereitstellen akustischer Modelle und einem Sprachsynthesizer 330. Die Einheit 320 empfängt Eingaben von einer Erkennungsdatenbank 340, die phonetische Erkennungseinheiten enthält, sowie von einer Aussprachedatenbank 350, die phonetische Transkriptionseinheiten enthält. Der Sprachsynthesizer 330 empfängt Eingaben von der Aussprachedatenbank 350 und einer Synthesedatenbank 360, die phonetische Synthetisiereinheiten enthält.
  • Als nächstes wird die Erzeugung eines sprecherunabhängigen akustischen Modells für eine in der Datenbank 180 des Mobiltelefons 100 enthaltene Texttranskription beschrieben. Dieses sowie weitere von dem Mobiltelefon 100 durchgeführte Verfah ren werden von einer in den Figuren nicht dargestellten zentralen Steuereinheit gesteuert.
  • Im folgenden wird angenommen, daß ein Benutzer ein neues Mobiltelefon 100 mit einer leeren Datenbank 130 für akustische Modelle und einer leeren Datenbank 150 für Sprachprompts erworben hat. Der Benutzer verfügt bereits über eine SIM-Karte 170 mit einer Datenbank 180, die indizierte Texttranskriptionen wie „Tom" und „Stefan" enthält. Die SIM-Karte 170 umfaßt ferner eine Datenbank, die indizierte Telefonnummern enthält, welche auf die in der Datenbank 170 enthaltene Texttranskriptionen bezogen sind. Die die Telefonnummern enthaltende Datenbank ist in der Zeichnung nicht dargestellt.
  • Setzt der Benutzer die SIM-Karte 170 zum ersten Mal in sein neu erworbenes Mobiltelefon 100 ein, so muß wenigstens die Datenbank 130 für akustische Modelle gefüllt werden, um es dem Benutzer zu ermöglichen, eine Verbindung durch Äußern eines der Namen, die in der Datenbank 180 für Texttranskriptionen enthalten sind, aufzubauen. Somit überträgt das Mobiltelefon 100 in einem ersten Schritt die in der Datenbank 180 enthaltenen Texttranskriptionen über die Schnittstelle 200 an den Netzwerkserver 300. Die Verbindung zwischen dem Mobiltelefon 100 und dem Netzwerkserver 300 ist entweder eine drahtlos betriebene Verbindung, z.B. gemäß einem GSM-, einem UMTS, einem Bluetooth-Standard, oder gemäß einem IR-Standard oder aber eine drahtgebundene Verbindung.
  • Die Einheit 320 zum Bereitstellen von Referenzmodellen und der Sprachsynthesizer 330 des Netzwerkservers 300 empfangen die indizierten Texttranskriptionen über die Schnittstelle 310. Die Einheit 320 übersetzt dann jede Texttranskription in deren phonetische Transkription. Die phonetische Transkription besteht aus einer Sequenz phonetischer Transkriptionseinheiten wie Phonemen oder Triphonen. Die phonetischen Transkriptionseinheiten werden von der Aussprachedatenbank 350 aus in die Einheit 320 geladen.
  • Aufgrund der Sequenz phonetischer Transkritpionseinheiten, die einer bestimmten Texttranskription entsprechen, erzeugt die Einheit 320 dann ein dieser Texttranskrip tion entsprechendes sprecherabhängiges oder sprecherunabhängiges akustisches Modell. Dies geschieht durch Übersetzen jeder phonetischen Transkriptionseinheit der Sequenz phonetischer Transkriptionseinheiten in deren entsprechende sprecherabhängige oder sprecherunabhängige phonetische Erkennungseinheiten. Die phonetischen Erkennungseinheiten sind in der Erkennungsdatenbank 340 in einer Form enthalten, die von dem automatischen Spracherkenner 110 des Mobiltelefons 100 analysiert werden kann, z.B. in der Form von Merkmalsvektoren. Ein akustisches Modell wird somit durch die Verknüpfung einer Vielzahl von phonetischen Erkennungseinheiten gemäß der Sequenz phonetischer Transkriptionseinheiten erzeugt.
  • Gleichzeitig mit der Erzeugung eines akustischen Modells erzeugt der Sprachsynthesizer 330 einen Sprachprompt für jede von dem Mobiltelefon 100 empfangene Texttranskription. Zunächst erzeugt der Sprachsynthesizer 330 eine phonetische Transkription von jeder Texttranskription. Dies erfolgt in derselben Art und Weise, wie oben im Zusammenhang mit der Einheit 320 zum Bereitstellen akustischer Modelle erläutert. Außerdem wird dieselbe Aussprachedatenbank 350 verwendet. Aufgrund der Tatsache, daß die Aussprachedatenbank 350 zum Erzeugen sowohl der akustischen Modelle als auch der Sprachprompts verwendet wird, können Synthesefehler während des Erstellens von Sprachprompts vermieden werden. Wenn beispielsweise das deutsche Wort „Bibelried" mit zwei Vokalen „i" und „e" in „Bibel" anstelle eines langen „i" synthetisiert wird, so könnte dies vom Benutzer unmittelbar gehört und korrigiert werden.
  • Aufgrund der Sequenz phonetischer Transkriptionseinheiten, die die phonetische Transkription darstellt, erzeugt der Sprachsynthesizer 330 einen Sprachprompt, indem er für jede in der Sequenz von Transkriptionseinheiten enthaltene phonetische Transkriptionseinheit die entsprechende phonetische Synthetisiereinheit von der Synthesedatenbank 360 lädt. Die so erhaltenen phonetischen Synthetisiereinheiten werden dann mit dem Sprachprompt einer Texttranskription verknüpft.
  • Während der Erstellung des akustischen Modells und des Sprachprompts wird jedes akustische Modell sowie jeder Sprachprompt mit dem Index der entsprechenden Texttranskription versehen. Das indizierte sprecherunabhängige akustische Modell und die indizierten Sprachprompts werden dann über die Schnittstelle 310 des Netzwerkservers 300 an das Mobiltelefon 100 übertragen. Innerhalb des Mobiltelefons 100 werden die indizierten sprecherunabhängigen akustischen Modelle und die indizierten Sprachprompts über die Schnittstelle 200 empfangen und in die entsprechenden Datenbanken 130, 150 geladen. So wird die Datenbank 130 für die akustischen Modelle und die Datenbank 150 für die Sprachprompts gefüllt.
  • Nachdem die Datenbank 130 für akustische Modelle und die Datenbank 150 für Sprachprompts gefüllt worden sind, kann eine Telefonverbindung mittels einer gesprochenen Äußerung aufgebaut werden. Um eine Verbindung aufzubauen, muß ein Benutzer eine Äußerung entsprechend einer in der Datenbank 180 enthaltenen Texttranskription sprechen, z.B. „Stefan". Diese gesprochene Äußerung wird vom Mikrophon 120 in ein Signal umgewandelt, welches dem automatischen Spracherkenner zugeführt 110 wird.
  • Wie oben erwähnt, werden die akustischen Modelle in der Datenbank 130 als eine Sequenz von Merkmalsvektoren gespeichert. Der automatische Spracherkenner 110 analysiert das Signal vom Mikrophon 120 entsprechend der gesprochenen Äußerung, um deren Merkmalsvektoren zu erhalten. Dieses Verfahren wird als Merkmalsextraktion bezeichnet. Um ein Erkennungsresultat zu erzeugen, paßt der automatische Spracherkenner 110 die Referenzvektoren der gesprochenen Äußerung „Stefan" an die Referenzvektoren an, die in der Datenbank 130 für jede Texttranskription gespeichert sind. Somit findet ein Mustervergleich statt.
  • Da die Datenbank 130 ein der gesprochenen Äußerung „Stefan" entsprechendes akustisches Modell enthält, wird von dem automatischen Spracherkenner 110 ein Erkennungsresultat in Form des Indexes „2", welcher der Texttranskription „Stefan" entspricht, sowohl an die Komponente 140 zum Ausgeben eines akustischen Feedbacks als auch an die Komponente 190 zum Ausgeben eines visuellen Feedbacks ausgegeben.
  • Die Komponente 140 zum Ausgeben eines akustischen Feedbacks lädt den dem Index „2" entsprechenden Sprachprompt von der Datenbank 150 und erzeugt ein akustisches Feedback, das dem synthetisierten Wort „Stefan" entspricht. Das akustische Feedback wird von dem Lautsprecher 160 zurückgespielt. Gleichzeitig lädt die Komponente 190 zum Ausgeben eines visuellen Feedbacks die dem Index „2" entsprechende Texttranskription von der Datenbank 180 und gibt ein visuelles Feedback aus, indem sie die Zeichenfolge „Stefan" anzeigt.
  • Der Benutzer kann nun das akustische und das visuelle Feedback bestätigen, und eine Verbindung kann aufgrund der Telefonnummer mit dem Index „2" aufgebaut werden. Das akustische und das visuelle Feedback kann beispielsweise bestätigt werden, indem eine Bestätigungstaste des Mobiltelefons 100 gedrückt wird oder durch Sprechen einer weiteren Äußerung, die sich auf ein Befehlswort zur Bestätigung wie „Ja" oder „Anrufen" bezieht. Akustische Modelle und Sprachprompts für das Bestätigungsbefehlswort sowie für andere Befehlsworte können in derselben Art und Weise erzeugt werden, wie oben in bezug auf das Erstellen von sprecherabhängigen und sprecherunabhängigen akustischen Modellen beschrieben wurde, und wie es im folgenden in bezug auf das Erstellen sprecherabhängiger akustischer Modelle beschrieben wird.
  • Gemäß einem weiteren Aspekt der Anmeldung werden die in der Datenbank 150 gespeicherten Sprachprompts nicht vom Netzwerkserver 300, sondern im Mobiltelefon 100 erzeugt. Die Rechen- und Speicherressourcen des Netzwerkservers können somit erheblich reduziert werden, da auf den Sprachsynthesizer 330 und die Synthesedatenbank 360 verzichtet werden kann.
  • Ein Sprachprompt für eine bestimmte Texttranskription kann im Mobiltelefon 100 aufgrund einer gesprochenen Äußerung erzeugt werden, die von dem automatischen Spracherkenner 110 erkannt wird. Vorzugsweise wird die der bestimmten Texttranskription entsprechende erste erkannte Äußerung zum Erzeugen des entsprechenden Sprachprompts für die Datenbank 150 verwendet. Ein für eine bestimmte Texttranskription erzeugter Sprachprompt wird in der Datenbank 150 für Sprachprompts nur dann permanent gespeichert, wenn der automatische Spracherkenner 110 ein entsprechendes akustisches Modell finden kann und wenn der Benutzer die ses Erkennungsresultat bestätigt, z.B. durch Aufbauen einer Verbindung. Ansonsten wird der Sprachprompt verworfen.
  • Aufgrund der Tatsache, daß sämtliche sprach- und länderabhängigen Komponenten wie die Aussprachedatenbank 350, die Erkennungsdatenbank 340 und die Synthesedatenbank 360 auf der Seite des Netzwerkservers 300 vorgesehen sein können, kann das Mobiltelefon 100 im Fall von sprecherunabhängigen akustischen Modellen sprach- und länderunabhängig gehalten werden.
  • Gemäß einer in der 2 nicht dargestellten Variante umfaßt der Netzwerkserver 300 eine Vielzahl von Aussprachedatenbanken, Erkennungsdatenbanken und Synthesedatenbanken, wobei jede Datenbank sprachspezifisch ist. Ein Benutzer des Mobiltelefons 100 kann in diesem einen bestimmten Sprachcode auswählen. Dieser Sprachcode wird zusammen mit den Texttranskriptionen an den Netzwerkserver 300 übertragen, der so sprachabhängige und sprecherunabhängige akustische Modelle und Sprachprompts aufgrund des vom Mobiltelefon 100 empfangenen Sprachcodes erzeugen kann. Der vom Netzwerkserver 300 empfangene Sprachcode kann auch dazu verwendet werden, sprachspezifische akustische oder visuelle Benutzeranleitungen vom Netzwerkserver 300 in das Mobiltelefon 100 herunterzuladen. Die Benutzeranleitungen können den Benutzer beispielsweise darüber informieren, wie das Mobiltelefon 100 bedient wird.
  • In dem oben mit Bezugnahme auf die 1 und 2 beschriebenen Beispiel eines Mobiltelefons 100 und eines Netzwerkservers 300 wurden die akustischen Modelle vom Netzwerkserver 300 in einer sprecherabhängigen oder sprecherunabhängigen Art und Weise erzeugt, und die Sprachprompts wurden entweder sprecherunabhängig innerhalb des Netzwerkservers 300 synthetisiert oder sprecherabhängig im Mobiltelefon 100 aufgenommen. Selbstverständlich kann die Datenbank 130 für akustische Modelle auch sowohl sprecherunabhängige als auch sprecherabhängige akustische Modelle umfassen. Sprecherunabhängige akustische Modelle können beispielsweise vom Netzwerkserver 300 erzeugt werden oder aber im Mobiltelefon 100 vorgegeben und vorgespeichert sein. Sprecherabhängige akustische Modelle können gemäß der folgenden detaillierten Beschreibung erzeugt werden. Auch kann die Datenbank 150 für Sprachprompts sowohl sprecherunabhängige Sprachprompts umfassen, die z.B. im Netzwerkserver 300 erzeugt werden, als auch – wie oben beschrieben – sprecherabhängige Sprachprompts, die durch Verwendung der einer bestimmten Texttranskription entsprechenden ersten erkannten Äußerung erzeugt werden. Ferner kann eine oder beide der Datenbanken 340 und 350 des Netzwerkservers als sprecherabhängige Datenbank konfiguriert sein.
  • In der 3 wird eine Ausführungsform eines Mobiltelefons 100 gemäß der Erfindung dargestellt. Das in der 3 gezeigte Mobiltelefon 100 hat einen ähnlichen Aufbau wie das in der 1 dargestellte Mobiltelefon 100. Das Mobiltelefon 100 umfaßt wiederum eine Schnittstelle 200 zur Kommunikation mit einem Netzwerkserver.
  • Im Gegensatz zu dem in der 1 dargestellten Mobiltelefon 100 umfaßt das in der 3 dargestellte Mobiltelefon 100 jedoch weiterhin eine Trainingseinheit 400, die sowohl mit dem automatischen Spracherkenner 110 als auch mit der Datenbank 130 für akustische Modelle kommuniziert. Ferner umfaßt das Mobiltelefon 100 gemäß 3 eine Kodiereinheit 410, die sowohl mit dem Mikrophon 120 als auch mit der Datenbank 150 für Sprachprompts kommuniziert, sowie eine Dekodiereinheit 420, die sowohl mit der Datenbank 150 für Sprachprompts als auch mit der Komponente 140 zum Erzeugen eines akustischen Feedbacks kommuniziert.
  • Die Trainingseinheit 400 und die Kodiereinheit 410 des Mobiltelefons 100 gemäß 3 werden von einer in der 3 nicht dargestellten zentralen Steuereinheit gesteuert, um sprecherabhängige akustische Modelle und sprecherabhängige Sprachprompts wie folgt zu erstellen.
  • Das Mobiltelefon 100 wird derart gesteuert, daß ein Benutzer aufgefordert wird, jedes Schlüsselwort, wie jeden für die Sprachsteuerung des Mobiltelefons 100 zu verwendenden Eigennamen oder jedes Befehlswort, einmal oder mehrfach zu äußern. Der automatische Spracherkenner 100 gibt jede Trainingsäußerung in die Trainingseinheit 400 ein, die durch Unterdrücken von Ruhe- und Rauschintervallen zu Beginn und am Ende jeder Äußerung als ein Sprachaktivitätsdetektor fungiert. Die so gefilterte Äußerung wird dem Benutzer dann zur Bestätigung ausgegeben. Bestätigt der Benutzer die gefilterte Äußerung, speichert die Trainingseinheit 400 ein entsprechendes sprecherabhängiges akustisches Modell in der Datenbank 130 für akustische Modelle in Form einer Sequenz von Referenzvektoren.
  • Für jedes zu trainierende Schlüsselwort wird eine vom Benutzer ausgewählte Trainingsäußerung vom Mikrophon 120 in die Kodiereinheit 410 eingegeben, zum Kodieren dieser Äußerung gemäß einem Format, das wenige Speicherressourcen in der Datenbank 150 für Sprachprompts zuordnet. Die Äußerung wird dann in der Datenbank 150 für Sprachprompts gespeichert. Hierdurch wird die Datenbank 150 für Sprachprompts mit sprecherabhängigen Sprachprompts gefüllt. Soll ein Sprachprompt zurückgespielt werden, so wird ein von der Datenbank 150 geladener kodierter Sprachprompt von der Dekodiereinheit 420 dekodiert und in einem dekodierten Format der Komponente 140 zum Erzeugen eines akustischen Feedbacks zugeführt.
  • Sobald die Datenbank 130 für akustische Modelle und die Datenbank 150 für Sprachprompts gefüllt sind, kann das in der 3 gezeigte Mobiltelefon 100 wie oben im Zusammenhang mit dem Mobiltelefon 100 gemäß 1 durch gesprochene Äußerungen gesteuert werden.
  • Gewöhnlich ist die Lebensdauer eines Mobiltelefons 100 eher kurz. Erwirbt ein Benutzer ein neues Mobiltelefon, so entfernt er normalerweise einfach die SIM-Karte 170 mit der Datenbank 180 für Texttranskriptionen aus dem alten Mobiltelefon und setzt diese in das neue Mobiltelefon ein. So sind die Texttranskriptionen, z.B. ein Telefonbuch, sofort im neuen Mobiltelefon verfügbar. Die Datenbank 130 für akustische Modelle und die Datenbank 150 für Sprachprompts bleiben dagegen leer.
  • Gemäß dem Stand der Technik muß der Benutzer deshalb dieselbe zeitaufwendige Trainingsprozedur wiederholen, die er bereits beim alten Mobiltelefon vollzogen hat, um die Datenbank 130 für akustische Modelle und die Datenbank 150 für Sprachprompts zu füllen. Gemäß der Erfindung kann jedoch die zeitaufwendige Trainingsprozedur zum Füllen der Datenbanken 130, 150 entfallen. Dies deshalb, da die Schnittstelle 200 zum Übertragen von Inhalten der Datenbank 130 für akustische Modelle und der Datenbank 150 für Sprachprompts an einen Netzwerkserver und zum späteren Empfangen der entsprechenden Inhalte vom Netzwerkserver vorgesehen ist.
  • In der 4 ist ein zur Kommunikation mit dem Mobiltelefon 100 gemäß 3 ausgelegter Netzwerkserver 300 gezeigt. Der Netzwerkserver 300 gemäß 4 weist dieselben Komponenten und dieselben Funktionen auf, wie der Netzwerkserver 300 gemäß 2. Zusätzlich umfaßt der Netzwerkserver 300 gemäß 4 drei Datenbanken 370, 380, 390, die mit der Schnittstelle 310 kommunizieren. Die Datenbank 370 fungiert als eine Einheit zum Bereitstellen akustischer Modelle und ist für die vorübergehende Speicherung akustischer Modelle ausgelegt. Die Datenbank 380 ist zur vorübergehenden Speicherung von Sprachprompts ausgelegt, und die Datenbank 390 ist zur vorübergehenden Speicherung von Texttranskriptionen ausgelegt.
  • Die Funktionsweise eines Netzwerksystems mit dem Mobiltelefon 100 gemäß 3 und dem Netzwerkserver 300 gemäß 4 ist wie folgt.
  • Nachdem die Datenbank 130 für akustische Modelle und die Datenbank 150 für Sprachprompts des Mobiltelefons 100 mit sprecherabhängigen akustischen Modellen und sprecherabhängigen Sprachprompts gefüllt wurden, leitet der Benutzer des Mobiltelefons 100 einen Übertragungsprozeß ein, woraufhin die im Mobiltelefon 100 erzeugten sprecherabhängigen akustischen Modelle und die sprecherabhängigen Sprachprompts mittels der Schnittstelle 200 an den Netzwerkserver übertragen werden.
  • Die akustischen Modelle und die Sprachprompts vom Mobiltelefon 100 werden über die Schnittstelle 310 vom Netzwerkserver 300 empfangen. Danach werden die empfangenen akustischen Modelle in der Datenbank 370 gespeichert, und die empfangenen Sprachprompts werden in der Datenbank 380 des Netzwerkservers 300 gespeichert. Wie bereits im Zusammenhang mit dem in der 2 gezeigten Netzwerksystem erwähnt, werden die akustischen Modelle und die Sprachprompts wiederum vom Mobiltelefon 100 zusammen mit deren jeweiligen Indexen übertragen und in den Datenbanken 370, 380 des Netzwerkservers 300 in indizierter Weise gespeichert. Hierdurch ist es möglich, jedem im Netzwerkserver 300 gespeicherten akustischen Modell und jedem Sprachprompt zu einem späteren Zeitpunkt eine entsprechende Texttranskription zuzuordnen.
  • Erwirbt der Benutzer nun ein neues Mobiltelefon 100 und setzt die SIM-Karte 170 mit der indizierte Texttranskriptionen enthaltenden Datenbank 180 in das neue Mobiltelefon 100 ein, so ist die Datenbank 130 für akustische Modelle und die Datenbank 150 für Sprachprompts zunächst leer. Der Benutzer des neuen Mobiltelefons 100 kann jedoch eine Übertragungsprozedur einleiten, woraufhin die leere Datenbank 130 für akustische Modelle und die leere Datenbank 150 für Sprachprompts mit den indizierten Inhalten der entsprechenden Datenbanken 370 und 380 im Netzwerkserver 300 gefüllt werden. Somit werden die indizierten akustischen Modelle in der Datenbank 370 für akustische Modelle und die indizierten Sprachprompts in der Datenbank 380 für Sprachprompts von der Schnittstelle 310 des Netzwerkservers an das neue mobile Endgerät 100 in die entsprechenden Datenbanken 130, 150 des mobilen Endgerätes 100 übertragen. Die zeitaufwendige Prozedur des erneuten Trainierens sprecherabhängiger akustischer Modelle und sprecherabhängiger Sprachprompts bei einem neuen Mobiltelefon kann somit entfallen, sofern die Trainingsprozedur für das alte Mobiltelefon durchgeführt wurde.
  • Gemäß einer Variante des Netzwerksystems mit einem Mobiltelefon 100 gemäß 3 und einem Netzwerkserver 300 gemäß 4 können die Texttranskriptionen der Datenbank 180 für Texttranskriptionen des Mobiltelefons 100 ebenfalls vom Mobiltelefon 100 an den Netzwerkserver 300 übertragen werden und wenigstens vorübergehend in der weiteren Datenbank 390 für Texttranskriptionen des Netzwerkservers 300 gespeichert werden. Erwirbt ein Benutzer ein neues Mobiltelefon mit einer neuen SIM-Karte 170, d.h. mit einer SIM-Karte 170, die eine leere Datenbank 180 für Texttranskriptionen aufweist, so muß der Benutzer folglich die Datenbank 180 für Texttranskriptionen nicht neu erstellen. Er muß lediglich die Datenbank 180 für Texttranskriptionen des Mobiltelefons 100 mit den Inhalten der entsprechenden Datenbank 390 des Netzwerkservers 300 wie oben erläutert füllen.
  • Der in der 4 dargestellte Netzwerkserver 300 kann sowohl für das mobile Endgerät 100 gemäß 1 verwendet werden, welches vorzugsweise auf der Grundlage von sprecherunabhängigen akustischen Modellen arbeitet, als auch für das mobile Endgerät gemäß 3, welches so ausgelegt ist, daß es mit sprecherabhängigen akustischen Modellen arbeitet. Selbstverständlich kann der Netzwerkserver 300 gemäß 4 ebenfalls so konfiguriert sein, daß er nur bei dem Mobiltelefon 100 gemäß 3 verwendet werden kann. Hierdurch kann die Komplexität des Netzwerkservers 300 drastisch verringert werden. Zum Betreiben des mobilen Endgerätes 100 gemäß 3 muß der Netzwerkserver 300 gemäß 4 nicht sämtliche Datenbanken 370, 380, 390 zum Speichern der akustischen Modelle, der Sprachprompts und der Texttranskriptionen umfassen. Der Netzwerkserver 300 umfaßt vorzugsweise wenigstens die Datenbank 370 für akustische Modelle.
  • Gemäß einer weiteren Variante eines Netzwerksystems umfassend das Mobiltelefon 100 gemäß 3 bildet der Netzwerkserver 300 gemäß 4 Teil eines drahtlosen Netzwerkes (Wireless Local Area Network – WLAN), das in einem öffentlichen Gebäude installiert ist. Die Datenbank 370 für akustische Modelle enthält zunächst eine Vielzahl von akustischen Modellen, die sich auf Worte (Äußerungen) beziehen, die normalerweise im Zusammenhang mit dem öffentlichen Gebäude auftreten. Wenn es sich bei dem öffentlichen Gebäude beispielsweise um ein Kunstmuseum handelt, so können sich die in der Datenbank 370 gespeicherten akustischen Modelle auf Äußerungen wie „Impressionismus", „Expressionismus", „Picasso" und dergleichen beziehen.
  • Sobald ein Besucher, der ein in der 3 gezeigtes mobiles Endgerät 100 bei sich trägt, das Museum betritt, baut sein mobiles Endgerät 100 automatisch eine Verbindung zum WLAN-Server 300 auf. Diese Verbindung kann z.B. eine Verbindung gemäß dem Bluetooth-Standard sein. Das mobile Endgerät 100 lädt dann automatisch die bestimmten akustischen Modelle, die in der Datenbank 370 des WLAN-Servers gespeichert sind, in seine entsprechende Datenbank 130 oder aber in eine weitere in der 3 nicht dargestellte Datenbank. Das mobile Endgerät 100 ist nun so konfiguriert, daß es gesprochene Äußerungen, die sich auf bestimmte museumsbezogene Termini beziehen, erkennt.
  • Sobald ein derartiger Terminus geäußert und von dem mobilen Endgerät 100 erkannt wird, leitet das mobile Endgerät 100 das Erkennungsresultat automatisch an den WLAN-Server 300 weiter. Als Antwort auf den Empfang eines solchen Erkennungsresultats überträgt der WLAN-Server 300 bestimmte auf das Erkennungsresultat bezogene Informationen an das mobile Endgerät 100 zu deren Darstellung auf dem Display 190 des mobilen Endgerätes 100. Die von dem WLAN-Server 300 empfangenen Informationen können sich beispielsweise auf den Ort beziehen, wo sich eine bestimmte Ausstellung befindet, oder auf Informationen über eine bestimmte Ausstellung.
  • Ein weiterer Aspekt eines Netzwerkservers 300 gemäß der Anmeldung ist in der 5 dargestellt. Der Netzwerkserver 300 gemäß 5 ermöglicht ein Wählen mit Namen, selbst bei Telefonen, die über keine Namenswahlfähigkeit verfügen. Im folgenden wird ein derartiger Telefontyp als POTS (Plain Old Telephone System – traditionelles Fernsprechsystem) bezeichnet. Mit einem solchen POTS-Telefon wählt sich der Benutzer lediglich über die Schnittstelle 310 in den Netzwerkserver 300 ein. Die Verbindung zwischen dem POTS-Telefon und dem Netzwerkserver 300 kann eine drahtgebundene oder eine drahtlose Verbindung sein.
  • Der in der 5 dargestellte Netzwerkserver 300 umfaßt drei Datenbanken 370, 380, 390 mit denselben Funktionen, wie die entsprechenden Datenbanken des Netzwerkservers 300 gemäß 4. Der Netzwerkserver 300 gemäß 5 umfaßt ferner einen automatischen Spracherkenner 500, der sowohl mit der Schnittstelle 310 als auch mit der Datenbank 370 für akustische Modelle kommuniziert, sowie ein Sprachausgabesystem 510, das mit der Datenbank 380 für Sprachprompts kommuniziert. Die Datenbanken 370 und 380 des Netzwerkservers 300 sind wie oben im Zusammenhang mit dem Netzwerkserver gemäß 4 beschrieben gefüllt worden.
  • Wählt sich ein Benutzer mit einem POTS-Telefon nun in einen Netzwerkserver 300 gemäß 5 ein, so verfügt er über vollständige Namenswahlfähigkeiten. Eine gesprochene Äußerung des Benutzers kann von dem automatischen Spracherkenner 500 aufgrund der in der Datenbank 370 für akustische Modelle enthaltenen akustischen Modelle erkannt werden, wobei die Datenbank 370 für akustische Modelle das Vokabular des automatischen Spracherkenners 500 darstellt. Wird ein passendes indiziertes akustisches Modell von dem automatischen Spracherkenner 500 aufgefunden, so lädt das Sprachausgabesystem 510 den entsprechend indizierten Sprachprompt aus der Datenbank 380 und gibt diesen Sprachprompt über die Schnittstelle 310 an das POTS-Telefon aus. Bestätigt der Benutzer die Korrektheit des Sprachprompts, kann aufgrund der indizierten Telefonnummer, die dem Sprachprompot entspricht und die in der Datenbank 390 für Texttranskriptionen gespeichert ist, eine Verbindung aufgebaut werden.
  • Bei Verwendung mit einem POTS-Telefon ist der Netzwerkserver 300 vorzugsweise als ein Backup-Netzwerkserver konfiguriert, der ein Backup einer oder mehrerer Datenbanken eines Mobiltelefons in regelmäßigen Zeitabständen ausführt. Hierdurch wird gewährleistet, daß ein Benutzer eines POTS-Telefons stets Zugriff auf den aktuellsten Inhalt der Datenbanken eines Mobiltelefons hat. Gemäß einer weiteren Variante der Anmeldung kann das POTS-Telefon zum Trainieren des Netzwerkservers 300 mit Blick auf die Erstellung beispielsweise von sprecherabhängigen akustischen Modellen oder sprecherabhängigen Sprachprompts, die in den entsprechenden Datenbanken 370, 380 gespeichert werden sollen, verwendet werden.

Claims (20)

  1. Netzwerkserver (300) für mobile Endgeräte (100), die durch gesprochene Äußerungen steuerbar sind, umfassend: – eine Einheit (320) zum Bereitstellen sprecherunabhängiger akustischer Modelle für die automatische Erkennung von gesprochenen Äußerungen, wobei die Einheit (320) zum Bereitstellen sprecherunabhängiger akustischer Modelle eine Texttranskription einer gesprochenen Äußerung in eine Sequenz phonetischer Transkriptionseinheiten und die Sequenz phonetischer Transkriptionseinheiten in eine Sequenz phonetischer Erkennungseinheiten übersetzt, wobei die Sequenz phonetischer Erkennungseinheiten ein sprecherunabhängiges akustisches Modell der gesprochenen Äußerung bildet; – eine Schnittstelle (310) zum Übertragen der sprecherunabhängigen akustischen Modelle an die mobilen Endgeräte (100) und zum Empfangen sprecherabhängiger akustischer Modelle von gesprochenen Äußerungen von den mobilen Endgeräten (100) sowie zum Übertragen der sprecherabhängigen akustischen Modelle an ein mobiles Endgerät der mobilen Endgeräte (100); und – eine Datenbank (370) zum wenigstens zeitweisen Speichern der empfangenen sprecherabhängigen akustischen Modelle.
  2. Netzwerkserver nach Anspruch 1, wobei die Schnittstelle (310) das Empfangen der Texttranskriptionen der gesprochenen Äußerungen von den mobilen Endgeräten (100) ermöglicht.
  3. Netzwerkserver nach Anspruch 1 oder 2, weiterhin umfassend eine die phonetischen Transkriptionseinheiten enthaltende Aussprachedatenbank (350).
  4. Netzwerkserver nach einem der Ansprüche 1 bis 3, weiterhin umfassend eine die phonetischen Erkennungseinheiten enthaltende Erkennungsdatenbank (340).
  5. Netzwerkserver nach einem der Ansprüche 1 bis 4, weiterhin umfassend einen Sprachsynthesizer (330).
  6. Netzwerkserver nach einem der Ansprüche 3 bis 5, wobei sich sowohl die Einheit (320) zum Erzeugen akustischer Modelle also auch der Sprachsynthesizer die Aussprachedatenbank (350) teilen.
  7. Netzwerkserver nach einem der Ansprüche 5 oder 6, weiterhin umfassend eine phonetische Synthetisierungseinheiten enthaltende Synthesedatenbank (360).
  8. Netzwerkserver nach einem der Ansprüche 1 bis 7, wobei die Schnittstelle (310) das Empfangen und Übertragen von Sprachprompts ermöglicht, die den gesprochenen Äußerungen von den mobilen Endgeräten (100) entsprechen, und weiterhin umfassend eine Sprachpromptdatenbank (380) zum Speichern der Sprachprompts.
  9. Ein durch gesprochene Äußerungen steuerbares mobiles Endgerät (100), umfassend: – eine Schnittstelle (200) zum Übertragen sprecherabhängiger akustischer Modelle an einen Netzwerkserver (300) und zum Empfangen sprecherunabhängiger akustischer Modelle von dem Netzwerkserver (300), die aufgrund von Texttranskriptionen der gesprochenen Äußerungen erzeugt wurden, wobei die empfangenen akustischen Modelle aus einer Sequenz phonetischer Erkennungseinheiten besteht, wobei jede phonetische Erkennungseinheit aus einer entsprechenden phonetischen Transkriptionseinheit abgeleitet wird, sowie zum Empfangen sprecherabhängiger akustischer Modelle von dem Netzwerkserver (300); – einen automatischen Spracherkenner (110) zum Erkennen von gesprochenen Äußerungen aufgrund der phonetischen Erkennungseinheiten der übertragenen und empfangenen akustischen Modelle.
  10. Mobiles Endgerät nach Anspruch 9, weiterhin umfassend wenigstens eine Datenbank (130) für die akustischen Modelle und eine Datenbank (180) für die Texttranskriptionen der gesprochenen Äußerungen.
  11. Mobiles Endgerät nach Anspruch 9 oder 10, wobei die Schnittstelle (200) die Übertragung der Texttranskriptionen an den Netzwerkserver (300) ermöglicht.
  12. Mobiles Endgerät nach einem der Ansprüche 9 bis 11, weiterhin umfassend Komponenten (140, 190) zum Ausgeben von wenigstens einem von einem akustischen und visuellen Feedback für eine von dem automatischen Spracherkenner erkannte gesprochene Äußerung.
  13. Mobiles Endgerät gemäß einem der Ansprüche 9 bis 12, weiterhin umfassend eine Datenbank (150) für Sprachprompts.
  14. Mobiles Endgerät gemäß einem der Ansprüche 9 bis 13, wobei die Schnittstelle (200) die Übertragung von Sprachprompts, die den gesprochenen Äußerungen entsprechen, an den Netzwerkserver (300) ermöglicht.
  15. Verfahren zum Erhalten akustischer Modelle für die automatische Spracherkennung in einem durch gesprochene Äußerungen steuerbaren mobilen Endgerät (100), umfassend: – Bereitstellen sprecherunabhängiger akustischer Modelle durch einen Netzwerkserver (300), wobei eines oder mehrere der bereitgestellten sprecherunabhängigen akustischen Modelle durch Übersetzung einer Texttranskription einer gesprochenen Äußerung in eine Sequenz phonetischer Transkriptionseinheiten und der Sequenz phonetischer Transkriptionseinheiten in eine Sequenz phonetischer Erkennungseinheiten erhalten wird, wobei die Sequenz phonetischer Erkennungseinheiten das sprecherunabhängige akustische Modell der gesprochenen Äußerung bildet; – Übertragen der sprecherunabhängigen akustischen Modelle vom Netzwerkserver (300) an das mobile Endgerät (100), um die automatische Erkennung von gesprochenen Äußerungen aufgrund der vom Netzwerkserver (300) ü bertragenen phonetischen Erkennungseinheiten der akustischen Modelle zu ermöglichen; – Empfangen sprecherabhängiger akustischer Modelle im Netzwerkserver (300) von einem mobilen Endgerät der mobilen Endgeräte (100) und wenigstens zeitweises Speichern derselben; – Übertragen der gespeicherten sprecherabhängigen akustischen Modelle an eins der mobilen Endgeräte (100).
  16. Verfahren nach Anspruch 15, weiterhin umfassend das Empfangen von Texttranskriptionen der gesprochenen Äußerungen von dem mobilen Endgerät (100) und Erzeugen der sprecherunabhängigen akustischen Modelle aufgrund der übertragenen Texttranskriptionen im Netzwerkserver (300).
  17. Verfahren nach einem der Ansprüche 15 oder 16, weiterhin umfassend das Empfangen oder Erzeugen von Sprachprompts.
  18. Verfahren nach Anspruch 17, wobei die Sprachprompts aufgrund derselben phonetischen Transkriptionen erzeugt werden, die für das Schaffen der sprecherunabhängigen akustischen Modelle verwendet werden.
  19. Computerprogrammprodukt umfassend Programmcodebereiche zur Durchführung eines jeden der Schritte nach einem der Ansprüche 15 und 18, wenn das Computerprogrammprodukt auf einem Computersystem ausgeführt wird.
  20. Computerprogrammprodukt nach Anspruch 19, gespeichert auf einem computerlesbaren Speichermedium.
DE60111775T 2000-12-14 2001-12-10 Sprachgesteuertes tragbares endgerät Expired - Lifetime DE60111775T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP00127467 2000-12-14
EP00127467A EP1215661A1 (de) 2000-12-14 2000-12-14 Sprachgesteuertes tragbares Endgerät
PCT/EP2001/014493 WO2002049005A2 (en) 2000-12-14 2001-12-10 Mobile terminal controllable by spoken utterances

Publications (2)

Publication Number Publication Date
DE60111775D1 DE60111775D1 (de) 2005-08-04
DE60111775T2 true DE60111775T2 (de) 2006-05-04

Family

ID=8170674

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60111775T Expired - Lifetime DE60111775T2 (de) 2000-12-14 2001-12-10 Sprachgesteuertes tragbares endgerät

Country Status (6)

Country Link
US (1) US20020091511A1 (de)
EP (2) EP1215661A1 (de)
AT (1) ATE298918T1 (de)
AU (1) AU2002233237A1 (de)
DE (1) DE60111775T2 (de)
WO (1) WO2002049005A2 (de)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013216427A1 (de) * 2013-08-20 2015-03-12 Bayerische Motoren Werke Aktiengesellschaft Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung
DE102013219649A1 (de) * 2013-09-27 2015-04-02 Continental Automotive Gmbh Verfahren und System zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem mit einem Endgerät verbindbaren lokalen Datenspeicher
DE102016125823B4 (de) * 2016-02-24 2021-01-14 Google LLC (n.d.Ges.d. Staates Delaware) Unterstützung bei der semantischen offline-bearbeitung durch ein gerät mit begrenzten möglichkeiten
DE102009017177B4 (de) 2008-04-23 2022-05-05 Volkswagen Ag Spracherkennungsanordnung und Verfahren zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges

Families Citing this family (153)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8706747B2 (en) * 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
US7072686B1 (en) * 2002-08-09 2006-07-04 Avon Associates, Inc. Voice controlled multimedia and communications device
DE10256935A1 (de) * 2002-12-05 2004-07-01 Siemens Ag Auswahl der Benutzersprache an einem rein akustisch gesteuerten Telefon
US7369988B1 (en) * 2003-02-24 2008-05-06 Sprint Spectrum L.P. Method and system for voice-enabled text entry
US20050149327A1 (en) * 2003-09-11 2005-07-07 Voice Signal Technologies, Inc. Text messaging via phrase recognition
GB2409560B (en) * 2003-12-23 2007-07-25 Ibm Interactive speech recognition model
US8392453B2 (en) * 2004-06-25 2013-03-05 Google Inc. Nonstandard text entry
US8972444B2 (en) * 2004-06-25 2015-03-03 Google Inc. Nonstandard locality-based text entry
US20060036438A1 (en) * 2004-07-13 2006-02-16 Microsoft Corporation Efficient multimodal method to provide input to a computing device
US8473475B2 (en) * 2004-09-15 2013-06-25 Samsung Electronics Co., Ltd. Information storage medium for storing metadata supporting multiple languages, and systems and methods of processing metadata
US7533018B2 (en) * 2004-10-19 2009-05-12 Motorola, Inc. Tailored speaker-independent voice recognition system
US8311822B2 (en) 2004-11-02 2012-11-13 Nuance Communications, Inc. Method and system of enabling intelligent and lightweight speech to text transcription through distributed environment
US20080103771A1 (en) * 2004-11-08 2008-05-01 France Telecom Method for the Distributed Construction of a Voice Recognition Model, and Device, Server and Computer Programs Used to Implement Same
WO2006097598A1 (fr) * 2005-03-16 2006-09-21 France Telecom Procede de creation automatique d'etiquettes vocales dans un carnet d'adresses
US8265930B1 (en) * 2005-04-13 2012-09-11 Sprint Communications Company L.P. System and method for recording voice data and converting voice data to a text file
US7440894B2 (en) * 2005-08-09 2008-10-21 International Business Machines Corporation Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
EP1791114B1 (de) * 2005-11-25 2009-08-12 Swisscom AG Verfahren zur Personalisierung eines Dienstes
EP2002423A1 (de) * 2006-03-29 2008-12-17 France Télécom System zur gewährleistung der einheitlichkeit von aussprachen
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20090271106A1 (en) * 2008-04-23 2009-10-29 Volkswagen Of America, Inc. Navigation configuration for a motor vehicle, motor vehicle having a navigation system, and method for determining a route
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9484018B2 (en) * 2010-11-23 2016-11-01 At&T Intellectual Property I, L.P. System and method for building and evaluating automatic speech recognition via an application programmer interface
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US20130325459A1 (en) * 2012-05-31 2013-12-05 Royce A. Levien Speech recognition adaptation systems based on adaptation data
US9495966B2 (en) * 2012-05-31 2016-11-15 Elwha Llc Speech recognition adaptation systems based on adaptation data
US20130325474A1 (en) * 2012-05-31 2013-12-05 Royce A. Levien Speech recognition adaptation systems based on adaptation data
US20130325451A1 (en) * 2012-05-31 2013-12-05 Elwha LLC, a limited liability company of the State of Delaware Methods and systems for speech adaptation data
US20130325453A1 (en) * 2012-05-31 2013-12-05 Elwha LLC, a limited liability company of the State of Delaware Methods and systems for speech adaptation data
US10395672B2 (en) * 2012-05-31 2019-08-27 Elwha Llc Methods and systems for managing adaptation data
US9620128B2 (en) * 2012-05-31 2017-04-11 Elwha Llc Speech recognition adaptation systems based on adaptation data
US9899026B2 (en) 2012-05-31 2018-02-20 Elwha Llc Speech recognition adaptation systems based on adaptation data
US10431235B2 (en) * 2012-05-31 2019-10-01 Elwha Llc Methods and systems for speech adaptation data
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US9953632B2 (en) * 2014-04-17 2018-04-24 Qualcomm Incorporated Keyword model generation for detecting user-defined keyword
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9959863B2 (en) 2014-09-08 2018-05-01 Qualcomm Incorporated Keyword detection using speaker-independent keyword models for user-designated keywords
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US20160133255A1 (en) * 2014-11-12 2016-05-12 Dsp Group Ltd. Voice trigger sensor
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11024302B2 (en) * 2017-03-14 2021-06-01 Texas Instruments Incorporated Quality feedback on user-recorded keywords for automatic speech recognition systems
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10599377B2 (en) 2017-07-11 2020-03-24 Roku, Inc. Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services
US10777197B2 (en) 2017-08-28 2020-09-15 Roku, Inc. Audio responsive device with play/stop and tell me something buttons
US11062710B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Local and cloud speech recognition
US11062702B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Media system with multiple digital assistants
US11145298B2 (en) 2018-02-13 2021-10-12 Roku, Inc. Trigger word detection with multiple digital assistants

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5892813A (en) * 1996-09-30 1999-04-06 Matsushita Electric Industrial Co., Ltd. Multimodal voice dialing digital key telephone with dialog manager
JP4267081B2 (ja) * 1997-10-20 2009-05-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 分散システムにおけるパターン認識登録
DE19751123C1 (de) * 1997-11-19 1999-06-17 Deutsche Telekom Ag Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen
US6195641B1 (en) * 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
US6314165B1 (en) * 1998-04-30 2001-11-06 Matsushita Electric Industrial Co., Ltd. Automated hotel attendant using speech recognition
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US6463413B1 (en) * 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
DE19918382B4 (de) * 1999-04-22 2004-02-05 Siemens Ag Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät
US6662163B1 (en) * 2000-03-30 2003-12-09 Voxware, Inc. System and method for programming portable devices from a remote computer system
US6823306B2 (en) * 2000-11-30 2004-11-23 Telesector Resources Group, Inc. Methods and apparatus for generating, updating and distributing speech recognition models

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102009017177B4 (de) 2008-04-23 2022-05-05 Volkswagen Ag Spracherkennungsanordnung und Verfahren zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges
DE102013216427A1 (de) * 2013-08-20 2015-03-12 Bayerische Motoren Werke Aktiengesellschaft Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung
DE102013216427B4 (de) 2013-08-20 2023-02-02 Bayerische Motoren Werke Aktiengesellschaft Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung
DE102013219649A1 (de) * 2013-09-27 2015-04-02 Continental Automotive Gmbh Verfahren und System zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem mit einem Endgerät verbindbaren lokalen Datenspeicher
DE102016125823B4 (de) * 2016-02-24 2021-01-14 Google LLC (n.d.Ges.d. Staates Delaware) Unterstützung bei der semantischen offline-bearbeitung durch ein gerät mit begrenzten möglichkeiten

Also Published As

Publication number Publication date
WO2002049005A2 (en) 2002-06-20
ATE298918T1 (de) 2005-07-15
DE60111775D1 (de) 2005-08-04
WO2002049005A3 (en) 2002-08-15
EP1348212B1 (de) 2005-06-29
AU2002233237A1 (en) 2002-06-24
EP1348212A2 (de) 2003-10-01
EP1215661A1 (de) 2002-06-19
US20020091511A1 (en) 2002-07-11

Similar Documents

Publication Publication Date Title
DE60111775T2 (de) Sprachgesteuertes tragbares endgerät
DE69629873T2 (de) Verfahren und Vorrichtung zum Steuern eines Telephons mittels Sprachbefehle
DE69635015T2 (de) Automatische vokabularerzeugung für auf einem telekommunikationsnetzwerk basierte sprachgesteuerte wahl
DE60201939T2 (de) Vorrichtung zur sprecherunabhängigen Spracherkennung , basierend auf einem Client-Server-System
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE60219943T2 (de) Verfahren zum komprimieren von wörterbuchdaten
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
DE60008893T2 (de) Sprachgesteuertes tragbares Endgerät
DE102012220796B4 (de) Verfahren zum Initiieren eines Freisprechkonferenzgesprächs
DE112015007147T5 (de) Sprachdialogvorrichtung und Sprachdialogverfahren
DE102010034433B4 (de) Verfahren zum Erkennen von Sprache
DE102019111529A1 (de) Automatisierte spracherkennung unter verwendung einer dynamisch einstellbaren hörzeitüberschreitung
DE3301516A1 (de) Sprachgesteuerter funksenderempfaenger und verfahren zu dessen sprachsteuerung
EP1041362B1 (de) Eingabeverfahren in ein Fahrerinformationssystem
DE10334400A1 (de) Verfahren zur Spracherkennung und Kommunikationsgerät
DE102006029251B4 (de) Verfahren und System für einen Telefonbuchtransfer
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
EP3095114B1 (de) Verfahren und system zur erzeugung eines steuerungsbefehls
DE69735522T2 (de) Sprachgesteuerter Telekommunikationsterminal
DE19751123C1 (de) Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen
EP1590797B1 (de) Kommunikationssystem, kommunikationsendeinrichtung und vorrichtung zum erkennen fehlerbehafteter text-nachrichten
WO2008009429A1 (de) Verfahren, sprachdialogsystem und telekommunikationsendgerät zur multilingualen sprachausgabe
EP0045941B1 (de) Wählverfahren zum Verbindungsaufbau in einem Fernsprechvermittlungssystem mit digitaler Sprachübertragung
WO2001086634A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE19942869A1 (de) Verfahren und Einrichtung zum Betrieb einer sprachgesteuerten Einrichtung bei Kraftfahrzeugen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition