DE60008893T2

DE60008893T2 - Sprachgesteuertes tragbares Endgerät

Info

Publication number: DE60008893T2
Application number: DE60008893T
Authority: DE
Inventors: Andreas Kiessling; Ralph Schleifer; Volker Springer; Klaus Reinhard
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2000-12-14
Filing date: 2000-12-14
Publication date: 2004-09-09
Anticipated expiration: 2020-12-15
Also published as: AU2002233238A1; US20020091526A1; EP1215660A1; DE60008893D1; WO2002049006A1; ATE261607T1; EP1215660B1

Description

HINTERGRUND DER ERFINDUNG
1. Technisches Gebiet
Die Erfindung bezieht sich auf das Gebiet automatischer Spracherkennung und insbesondere auf ein tragbares Endgerät, das durch gesprochene Äußerungen wie Eigennamen und Befehlswörter steuerbar ist. Die Erfindung bezieht sich ferner auf ein Verfahren zur Bereitstellung akustischer Modelle für automatische Spracherkennung in einem solchen tragbaren Endgerät.
2. Diskussion des Standes der Technik
Viele tragbare Endgeräte wie tragbare Telefone oder PDAs (personal digital assistants) umfassen das Merkmal der Steuerung einer oder mehrerer Funktionen davon durch Äußern entsprechender Schlüsselwörter. Es gibt beispielsweise tragbare Telefone, die das Antworten auf einen Anruf oder das Verwalten eines Telefonbuchs durch Äußern von Befehlswörtern erlauben. Außerdem erlauben viele tragbare Telefone ein so genanntes voice-dialing (Wählen mittels Stimme), das durch Äußern des Namens einer Person ausgelöst wird.
Das Steuern eines tragbaren Endgerätes durch gesprochene Äußerungen erfordert die Anwendung automatischer Spracherkennung. Während der automatischen Spracherkennung wird ein Erkennungsergebnis durch Vergleichen vorhergehend erzeugter akustischer Modelle mit einer gesprochenen Äußerung, die von einem automatischen Spracherkenner analysiert wurde, erhalten. Die akustischen Modelle können sprecher-abhängig und sprecher-unabhängig erzeugt werden.
Bislang verwenden die meisten tragbaren Endgeräte sprecher-abhängige Spracherkennung und somit sprecher-abhängige akustische Modelle. Die Verwendung von sprecher-abhängigen akustischen Modellen erfordert, dass ein einzelner Anwender des tragbaren Endgerätes einen Wortschatz trainieren muss, auf dessen Grundlage automatische Spracherkennung durchgeführt wird. Das Training erfolgt üblicherweise durch ein- oder mehrmaliges Äußern eines einzelnen Schlüsselwortes, um das entsprechende sprecher-abhängige akustische Model zu erzeugen.
Spracherkennung in tragbaren Endgeräten auf der Grundlage sprecher-abhängiger akustischer Modelle ist nicht immer eine optimale Lösung. Erstens ist die Anforderung eines separaten Trainings für jedes Schlüsselwort, das zur Steuerung des tragbaren Endgerätes benutzt werden soll, zeitaufwendig und wird vom Benutzer als mühsam wahrgenommen. Außerdem sind die sprecher-abhängigen akustischen Modelle, die mittels eines Trainingprozesses erzeugt werden, nur für dieses einzelne tragbare Endgerät verfügbar, da die sprecher-abhängigen akustischen Modelle üblicherweise in dem tragbaren Endgerät selbst gespeichert sind. Das bedeutet, dass der zeitaufwendige Trainingsprozess wiederholt werden muss, wenn der Benutzer ein neues tragbares Endgerät kauft.
Wegen der oben genannten Nachteile von sprecher-abhängiger Spracherkennung verwenden tragbare Endgeräte manchmal sprecher-unabhängige Spracherkennung, d. h. Spracherkennung auf der Grundlage sprecher-unabhängiger akustischer Modelle. Es gibt mehrere Möglichkeiten zum Erzeugen sprecher-unabhängiger akustischer Modelle. Wenn die gesprochenen Schlüsselwörter zum Steuern des tragbaren Endgerätes eine begrenzte Menge von Befehlswörtern bilden, die vordefiniert sind, d. h. nicht von dem Benutzer des tragbaren Endgerätes definiert wurden, können die sprecher-unabhängigen Referenzen durch Mittelwertbildung der gesprochenen Äußerungen einer großen Anzahl von unterschiedlichen Sprechern erzeugt und in dem tragbaren Endgerät vor seinem Verkauf gespeichert werden.
Wenn andererseits die gesprochenen Äußerungen zum Steuern des tragbaren Endgerätes von dem Benutzer frei gewählt werden können, muss ein anderes Verfahren angewandt werden. Ein Computersystem zur Erzeugung sprecher-unabhängiger Referenzen für frei gewählte gesprochene Schlüsselwörter, d. h. Schlüsselwörter, die dem Computersystem nicht bekannt sind, ist in der EP 0 590 173 A1 beschrieben. Das Computersystem analysiert jedes unbekannte gesprochene Schlüsselwort und baut ein entsprechendes sprecher-unabhängiges akustisches Modell mittels einer phonetischen Datenbank auf. Jedoch umfasst das in der EP 0 590 173 A,1 gelehrte Computersystem einen sehr großen Speicher und hochentwickelte Rechenressourcen zur Erzeugung der sprecher-unabhängigen akustischen Modelle. Diese Ressourcen sind im Allgemeinen nicht in kleinen und leichtgewichtigen tragbaren Endgeräten verfügbar.
Wie aus dem Obigen deutlich wurde, gibt es mehrere Gründe, warum zumindest ein Teil der akustischen Modelle, die zur automatischen Spracherkennung benutzt werden sollen, nicht bereits während der Herstellung in dem tragbaren Endgerät gespei chert werden. Demnach ist es häufig erforderlich, sprecher-abhängige oder sprecherunabhängige akustische Modelle zu erzeugen, nachdem das tragbare Endgerät an den Benutzer ausgeliefert wurde. Bis heute jedoch bedingt dieses hochentwickelte Rechenressourcen, falls sprecher-unabhängige akustische Modelle verwendet werden, und mühsames Benutrertraining, falls sprecher-abhängige akustische Modelle verwendet werden.
Deswegen besteht ein Bedarf für ein tragbares Endgerät, das durch gesprochene Schlüsselwörter auf der Grundlage sprecher-unabhängiger oder sprecher-abhängiger akustischer Modellen steuerbar ist und welches einen minimalen Aufwand zum Erzeugen einer neuen Menge oder einer zusätzlichen Menge von akustischen Modellen erfordert. Es besteht ferner ein Bedarf für ein Verfahren zum Bereitstellen akustischer Modelle für automatische Spracherkennung in einem solchen tragbaren Endgerät.
ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Erfindung befriedigt diesen Bedarf durch das Bereitstellen eines tragbaren Endgerätes, das durch gesprochene Äußerungen wie einen Eigennamen oder ein Befehlswort steuerbar ist und welches eine Schnittstelle zum Empfangen von Aufforderungsansagen, einen Modell-Erzeuger zum Erzeugen akustischer Modelle auf der Grundlage der empfangenen Aufforderungsansagen von einem externen Gerät und einen automatischen Spracherkenner zum Erkennen der gesprochenen Äußerungen auf der Grundlage der erzeugten akustischen Modelle umfasst.
Erfindungsgemäß umfasst ein Verfahren zum Bereitstellen von akustischen Modellen zur automatischen Spracherkennung in einem Endgerät, das durch gesprochene Äußerungen steuerbar ist, das Empfangen von Aufforderungsansagen von einem externen Gerät, das Erzeugen von akustischen Modellen auf der Grundlage der empfangenen Aufforderungsansagen und das automatische Erkennen von gesprochenen Äußerungen auf der Grundlage der erzeugten akustischen Modelle.
Bis heute wurden Aufforderungsansagen nur in ein und demselben tragbaren Endgerät und nur zum Bereitstellen einer akustischen Rückkopplung benutzt, beispielsweise für eine Äußerung eines Benutzers, die von dem automatischen Spracherkenner des tragbaren Endgerätes erkannt wurde. Die Erfindung jedoch schlägt vor, ein tragbares Endgerät derart zu konfigurieren, dass es extern zur Verfügung gestellte Aufforderungsansagen empfangen kann, die anschließend zum Erzeugen des akustischen Modells zur automatischen Spracherkennung in dem tragbaren Endgerät benutzt werden. Folglich werden die akustischen Modelle in einer schnellen und einfachen Art und Weise auf der Grundlage von Aufforderungsansagen erzeugt, die bereits im Voraus erzeugt worden sein können. Außerdem erfordert das erfindunsgemäße tragbare Endgerät im Falle bereits bestehender Aufforderungsansagen kein erschwerliches Benutrertraining und eine nur geringfügige Erhöhung der Hardwareressourcen des tragbaren Endgerätes.
Die Aufforderungsansagen, die zum Erzeugen der akustischen Modelle benutzt werden, werden von dem tragbaren Endgerät über eine Schnittstelle empfangen. Die Schnittstelle kann eine Komponente sein, die konfiguriert oder programmiert ist, um eine Verbindung zu einer Aufforderungsansage-Quelle herzustellen, die die Aufforderungsansagen zur Verfügung stellt, die zum Erzeugen des akustischen Modells in dem tragbaren Endgerät benutzt werden. Die Aufforderungsansage-Quelle kann sprecher-abhängige oder sprecher-unabhängige Aufforderungsansagen zur Verfügung stellen, so dass sprecher-abhängige oder sprecher-unabhängige akustische Modelle erzeugt werden können. Die Verbindung, die von der Schnittstelle zu der Aufforderungsansagen-Quelle hergestellt wird, kann eine verdrahtete Verbindung oder eine drahtlose Verbindung sein, die beispielsweise entsprechend eines GSM-, eines UMTS-, eines Bluetooth- oder eines IR-Standards betrieben wird.
Die erzeugten akustischen Modelle können sprecher-abhängig als auch sprecherunabhängig sein. Jedoch werden gemäß einer bevorzugten Ausführungsform der Erfindung sprecher-abhängige akustische Modelle erzeugt und sprecher-abhängige Aufforderungsansagen zum Erzeugen der sprecher-abhängigen akustischen Modelle benutzt. Da die Qualität sprecher-abhängiger Aufforderungsansagen oft höher ist als die Qualität von beispielsweise künstlich hergestellten sprecher-unabhängigen Aufforderungsansagen, ist die Erkennungsgenauigkeit automatischer Spracherkennung auf der Grundlage von sprecher-abhängigen akustischen Modellen auch höher.
Das tragbare Endgerät kann eine Datenbank für Aufforderungsansagen zum Speichern von Aufforderungsansagen umfassen. Die Aufforderungsansagen, die in der Datenbank für Aufforderungsansagen gespeichert sind, können zumindest zum Teil über eine Schnittstelle des tragbaren Endgerätes empfangen werden. Zumindest einige Aufforderungsansagen, die in der Datenbank für Aufforderungsansagen gespeichert sind, können auch während der Herstellung des tragbaren Endgerätes in der Datenbank für Aufforderungsansagen gespeichert werden oder in dem tragbaren Endgerät durch beispielsweise Aufnehmen einer Äußerung des Benutzers des tragbaren Endgeräts erzeugt werden.
Das tragbare Endgerät kann die Aufforderungsansagen von einer Aufforderungsansage-Quelle wie einem externen Gerät (einem anderen tragbaren Endgerät, einem PDA, einem Laptop, einem Netzwerkserver, usw.) empfangen. Die Schnittstelle des tragbaren Endgerätes befindet sich vorzugsweise in Verbindung mit der Datenbank für Aufforderungsansagen, so dass die Schnittstelle es ermöglicht, die von einem externen Gerät empfangenen Aufforderungsansagen zu der Datenbank für Aufforderungsansagen zu transferieren. Die zu der Datenbank für Aufforderungsansagen transferierten Aufforderungsansagen können dann dauerhaft oder vorübergehend in der Datenbank für Aufforderungsansagen gespeichert werden.
Die Datenbank für Aufforderungsansagen kann nicht-entfernbar an dem tragbaren Endgerät angebracht sein oder kann auf einem physikalischen Träger wie einer (subscriber identity module) SIM-Karte, die an das tragbare Endgerät entfernbar anschließbar ist, angeordnet werden. Wenn die Datenbank für Aufforderungsansagen auf einem physikalischen Träger angeordnet ist, der an das tragbare Endgerät entfernbar anschließbar ist, ist die Schnittstelle des tragbaren Endgerätes vorzugsweise zwischen dem Modellgenerator und der Datenbank für Aufforderungsansagen auf dem physikalischen Träger angeordnet. In diesem Fall empfängt das tragbare Endgerät die Aufforderungsansagen von der Datenbank für Aufforderungsansagen auf dem physikalischen Träger über die Schnittstelle des tragbaren Endgeräts. Mit anderen Worten bildet die Datenbank für Aufforderungsansagen auf dem physikalischen Träger die Aufforderungsansage-Quelle, von der das tragbare Endgerät die Aufforderungsansagen empfängt, die zum Erzeugen akustischer Modelle benutzt werden. Die empfangenen Aufforderungsansagen können an den Modell-Erzeuger des tragbaren Endgeräts transferiert werden, der ebenfalls mit der Schnittstelle kommuniziert.
Die Aufforderungsansagen, die zum Erzeugen der akustischen Modelle benutzt werden, können von dem tragbaren Endgerät in verschiedenen Formaten empfangen werden. Gemäß einer Ausführungsform werden die Aufforderungsansagen in einem Format empfangen, das unmittelbar als eine akustische Rückkopplung von dem tragbaren Endgerät wiedergegeben werden kann. Üblicherweise kann dieses Format der Aufforderungsansagen direkt zum Erzeugen der akustischen Modelle verwendet werden.
Gemäß einer weiteren Ausführungsform werden die Aufforderungsansagen von dem tragbaren Endgerät in einem kodierten Format empfangen. Oft werden Aufforderungsansagen in einem kodierten Format gespeichert, um sowenig Speicherressourcen wie möglich zu belegen. Jedoch kann dies erfordern, dass die Aufforderungsansagen vor der Wiedergabe oder vor der Erzeugung der akustischen Modelle dekodiert werden müssen. Daher kann das tragbare Endgerät eine Dekodierungseinheit zur Dekodierung der kodierten Aufforderungsansagen vor dem Erzeugen der akustischen Modelle umfassen. Die Dekodierungseinheit ist vorzugsweise zwischen der Datenbank für Aufforderungsansagen und dem Modell-Erzeuger angeordnet.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Weitere Gesichtspunkte und Vorteile der Erfindung werden beim Lesen der folgenden detaillierten Beschreibung der bevorzugten Ausführungsformen der Erfindung und durch Bezugnahme auf die Figuren offensichtlich werden, von denen:
1 eine schematische Darstellung einer ersten Ausführungsform eines erfindungsgemäßen tragbaren Endgerätes zeigt;
2 eine schematische Darstellung einer zweiten Ausführungsform eines erfindungsgemäßen tragbaren Endgerätes zeigt.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
In 1 ist eine schematische Darstellung einer ersten beispielhaften Ausführungsform eines tragbaren Endgeräts in Form eines erfindungsgemäßen tragbaren Telefons 100 mit voice-dialing-Funktionalität veranschaulicht.
Das tragbare Telefon 100 umfasst einen automatischen Spracherkenner 110, der von einem Mikrophon 120 ein Signal empfängt, das einer gesprochenen Äußerung eines Benutzers entspricht. Der automatische Spracherkenner 110 ist in Verbindung mit einer Datenbank 130 für akustische Modelle, in der akustische Modelle gespeichert werden können. Während der automatischen Spracherkennung werden akustische Modelle von dem automatischen Spracherkenner 110 mit den über das Mikrofon 120 empfangenen gesprochenen Äußerungen verglichen.
Das tragbare Telefon 100 umfasst zusätzlich eine Einheit 140 zum Erzeugen einer akustischen Rückkopplung für eine erkannte gesprochene Äußerung. Wie es aus 1 ersichtlich wird, ist die Einheit 140 zum Ausgeben der akustischen Rückkopplung in Verbindung mit einer Datenbank 150 für Aufforderungsansagen, in der Aufforderungsansagen gespeichert werden können. Die Einheit 140 erzeugt eine akustische Rückkopplung auf der Grundlage von Aufforderungsansagen, die in der Datenbank 150 für Aufforderungsansagen enthalten sind. Die Komponente 140 zum Ausgeben einer akustischen Rückkopplung ist ferner mit einem Lautsprecher 160 in Verbindung, der die von der Einheit 140 zum Ausgeben der akustischen Rückkopplung erhaltene akustische Rückkopplung wiedergibt.
Das in 1 dargestellte tragbare Telefon 100 umfasst auch eine SIM-Karte 170, auf der eine Umschreibungs- (oder Transcriptions-) Datenbank 180 zur Speicherung textbasierter Umschreibungen angeordnet ist. Die SIM-Karte 170 ist entfernbar an das tragbare Telefon 100 angeschlossen und enthält eine Liste mit mehreren textbasierten Umschreibungen gesprochener Äußerungen, die von dem automatischen Spracherkenner 110 zu erkennen sind. In der beispielhaft in 1 dargestellten Ausführungsform ist die Datenbank 180 für Umschreibungen als ein Telefonbuch konfiguriert, das eine Vielzahl von Telefonbucheinträgen in Form von Namen enthält, die alle mit einer bestimmten Telefonnummer verknüpft sind. Wie der Zeichnung zu entnehmen ist, bezieht sich der erste Telefonbucheintrag auf den Namen „Tom", und der zweite Telefonbucheintrag bezieht sich auf den Namen „Stefan". Die textbasierten Umschreibungen der Datenbank 180 für Umschreibungen sind als ASCII-Zeichenketten konfiguriert. Somit besteht die textbasierte Umschreibung des ersten Telefonbucheintrags aus den drei Zeichen „T", „O" und „M". Wie aus der 1 zu ersehen ist, hat jede textbasierte Umschreibung der Datenbank 180 einen eindeutigen Index. Die textbasierte Umschreibung „Tom" hat beispielsweise den Index „1".
Die Datenbank 180 für Umschreibungen ist in Verbindung mit einer Einheit 190 zum Ausgeben einer sichtbaren Rückkopplung. Die Einheit 190 zum Ausgeben der sichtbaren Rückkopplung ist konfiguriert, um die textbasierte Umschreibung einer von dem automatischen Erkenner 110 erkannten gesprochenen Äußerung anzuzeigen.
Die drei Datenbanken 130, 150, 180 des tragbaren Telefons 100 sind in Verbindung mit einer Schnittstelle 200 des tragbaren Telefons 100. Die Schnittstelle 200 dient zum Empfangen der Aufforderungsansagen von einem externen Gerät 300 wie einem weiteren tragbaren Telefon, einem PDA, einem Netzwerkserver oder einem Laptop mittels beispielsweise einer Infrarot-, einer Hochfrequenz- oder einer verdrahteten Verbindung.
Grundsätzlich kann die Schnittstelle 200 in dem tragbaren Telefon 100 intern in zwei Blöcke getrennt werden, die nicht in 1 dargestellt sind. Ein erster Block ist verantwortlich, um auf die Datenbank 130 für akustische Modelle, die Datenbank 150 für Aufforderungsansagen und die Datenbank 180 für textbasierte Umschreibungen in einem Lese- und Schreibmodus zuzugreifen. Der zweite Block führt die Übertragung der innerhalb der Datenbanken 130, 150, 180 enthaltenen Daten zum Netzwerkserver 300 unter Verwendung einer Protokollbeschreibung durch, die eine verlustfreie und schnelle Übertragung der Daten gewährleistet. Eine weitere Anforderung an ein solches Protokoll ist ein gewisses Sicherheitsniveau. Ferner sollte das Protokoll derart konfiguriert sein, dass es unabhängig von dem ihm zugrunde liegenden physikalischen Übertragungsmedium wie beispielsweise Infrarot, Bluetooth, GSM, usw. ist. Allgemein könnte jede Art von Protokoll (proprietär oder standardisiert), das die obigen Anforderungen erfüllt, verwendet werden. Ein Beispiel für ein geeignetes Protokoll ist das kürzlich herausgegebene SyncML-Protokoll, das die auf zwei Geräten gespeicherte Information synchronisiert, auch wenn die Verbindung nicht gewährleistet ist. Ein solches Protokoll würde die notwenigen Anforderungen, Aufforderungsansagen, akustische Modelle, usw. für sprachgesteuerte Anwendungen auszutauschen, in jedem tragbaren Endgerät erfüllen. (siehe White Paper bezüglich SyncML, beispielsweise http://www.openmobilealliance.org/syncml)
Das in 1 veranschaulichte tragbare Telefon 100 umfasst ferner eine Trainingseinheit 400, die zwischen dem automatischen Spracherkenner 110 und der Datenbank 130 für akustische Modelle angeschlossen ist, eine Kodierungseinheit 410, die sowohl mit dem Mikrophon 120 als auch mit der Datenbank 150 für Aufforderungsansagen verbunden ist, und eine Dekodierungseinheit 420 in Verbindung mit der Datenbank 150 für Aufforderungsansagen, der Einheit 140 zum Erzeugen einer akustischen Rückkopplung und einem Modellgenerator 430. Wie aus 1 ersehen werden kann, kommunizieren die Einheit 140 zum Ausgeben der akustischen Rückkopplung und der Modellgenerator 430 mit der Datenbank 150 für Aufforderungsansagen über die Dekodierungseinheit 420. Selbstverständlich könnten sowohl die Einheit 140 zum Ausgeben der akustischen Rückkopplung als auch der Modellgenerator 430 mit einer Dekodierungsfunktionalität ausgestatten werden. In diesem Fall könnte die separate Dekodierungseinheit 420 entfallen. Außerdem könnten die Trainingseinheit 400 und der Modellgenerator 430 zu einer einzigen Trainings- und Erzeugungseinheit kombiniert werden.
Mittels der Trainingseinheit 400 und der Kodierungseinheit 410 bildet das tragbare Telefon 100, in 1 veranschaulicht, sprecher-abhängige akustische Modelle und sprecher-abhängige Aufforderungsansagen. Sowohl die Bildung von akustischen Modellen und Aufforderungsansagen als auch von dem tragbaren Telefon 100 durchgeführte weitere Prozesse werden von einer zentralen Steuerungseinheit, in 1 nicht veranschaulicht, gesteuert.
Das tragbare Telefon 100 wird derart gesteuert, dass ein Benutzer aufgefordert wird jedes Schlüsselwort wie jeden Eigennamen oder jedes Befehlswort, das zur Sprachsteuerung des tragbaren Telefons 100 benutzt werden soll, ein oder mehrere Male zu äußern. Der automatische Spracherkenner 110 gibt die Trainingsäußerung in die Trainingseinheit 400 ein, die als ein Stimmenaktivitätsdetektor arbeitet, wobei sie Stille oder Geräuschintervalle am Anfang und am Ende einer jeden Äußerung unterdrückt. Die derart gefilterte Äußerung wird dann dem Benutzer zur Bestätigung akustisch ausgegeben. Wenn der Benutzer die gefilterte Äußerung bestätigt, speichert die Trainingseinheit 400 ein entsprechendes sprecher-abhängiges akustisches Modell in der Datenbank 130 für akustische Modelle in Form einer Folge von Referenzvektoren. In der Datenbank 130 für akustische Modelle ist jedes erzeugte akustische Modell mit dem Index einer entsprechenden textbasierten Umschreibung verknüpft.
Für jedes zu trainierende Schlüsselwort wird eine von dem Benutzer ausgewählte trainierte Äußerung von dem Mikrophon 120 in die Kodierungseinheit 410 zum Kodieren dieser Äußerung in Übereinstimmung mit einem Format eingegeben, das wenig Speicherressourcen in der Datenbank 150 für Aufforderungsansagen belegt. Die Äußerung wird dann als eine kodierte Aufforderungsansage in der Datenbank 150 für Aufforderungsansagen gespeichert. Derart wird die Datenbank 150 für Aufforderungsansagen mit sprecher-abhängigen Aufforderungsansagen gefüllt. Jede Aufforderungsansage, die in der Datenbank 150 für Aufforderungsansagen dauerhaft gespeichert ist, ist mit dem Index einer entsprechenden textbasierten Umschreibung verknüpft. Wenn eine Aufforderungsansage wiedergegeben werden soll, wird eine aus der Datenbank 150 für Aufforderungsansagen geladene kodierte Aufforderungsansage von der Dekodierungseinheit 420 dekodiert und in einem kodierten Format an die Einheit 140 zur Erzeugung einer akustischen Rückkopplung weitergeleitet.
Nachdem die Datenbank 130 für akustische Modelle und die Datenbank 150 für Aufforderungsansagen wie oben erklärt aufgefüllt wurden, kann ein Telefonanruf mittels einer gesprochenen Äußerung aufgebaut werden. Um einen Anruf aufzubauen, muss ein Benutzer eine Äußerung sprechen, die einer textbasierten Umschreibung entspricht, die in der Datenbank 180 für Umschreibungen enthalten ist, beispielsweise „Stefan". Diese gesprochene Äußerung wird von dem Mikrophon 120 in ein Signal umgewandelt, das in den automatischen Spracherkenner 110 eingespeist wird.
Wie oben hervorgehoben, werden die akustischen Modelle in der Datenbank 130 für akustische Modelle als eine Folge von Referenzvektoren gespeichert. Der automatische Spracherkenner 110 analysiert das Signal von dem Mikrofon 120, das der gesprochenen Äußerung „Stefan" entspricht, um deren Referenzvektoren zu erhalten. Dieser Prozess wird Merkmal-Extraktion genannt. Um ein Erkennungsergebnis zu erzeugen, vergleicht der automatische Spracherkenner 110 die Referenzvektoren der gesprochenen Äußerung „Stefan" mit den in der Datenbank 180 für inhaltliche Umschreibungen gespeicherten Referenzvektoren. Dem gemäß findet ein Mustervergleich statt.
Da die Datenbank 130 für akustische Modelle tatsächlich ein akustisches Modell enthält, das der gesprochenen Äußerung „Stefan" entspricht, wird ein Erkennungsergebnis in der Form des Index „2", der der textbasierten Umschreibung „Stefan" entspricht, von dem automatischen Spracherkenner 110 sowohl an die Einheit 140 zum Ausgeben einer akustischen Rückkopplung als auch an die Einheit 190 zum Ausgeben der visuellen Rückkopplung ausgegeben.
Die Einheit 140 zum Ausgeben einer akustischen Rückkopplung lädt die dem Index „2" entsprechende Aufforderungsansage aus der Datenbank 150 für Aufforderungsansagen und erzeugt eine akustische Rückkopplung, die dem Wort „Stefan" entspricht. Die akustische Rückkopplung wird von dem Lautsprecher 160 wiedergegeben. Gleichzeitig lädt die Einheit 190 für das Ausgeben der visuellen Rückkopplung die textbasierte Umschreibung, die dem Index „2" entspricht, aus der Datenbank 180 für Umschreibungen und gibt eine visuelle Rückkopplung aus, indem sie die Zeichenfolge „Stefan" anzeigt.
Der Benutzer kann jetzt die akustische und visuelle Rückkopplung bestätigen, und ein Anruf kann auf Grundlage der Telefonnummer, die den Index „2" hat, aufgebaut werden. Die akustische und visuelle Rückkopplung kann beispielsweise durch Drücken einer Bestätigungstaste des tragbaren Telefons 100 oder durch Sprechen einer weiteren Äußerung, die sich auf ein Bestätigungsbefehlswort wie „Ja" oder „Anrufen" bezieht, bestätigt werden. Akustische Modelle und Aufforderungsansagen für das Bestätigungsbefehlswort und für andere Befehlswörter können in derselben Art und Weise erzeugt und gespeichert werden, wie oben im Zusammenhang mit Eigennamen beschrieben.
Üblicherweise ist der Lebenszyklus eines tragbaren Telefons eher kurz. Wenn ein Benutzer ein neues tragbares Telefon 100, wie in 1 dargestellt, kauft, entfernt er üblicherweise einfach die SIM-Karte 170 mit der Datenbank 180 für Umschreibungen aus dem alten tragbaren Telefon und fügt sie in das neue tragbare Telefon 100 ein. Somit sind die inhaltlichen Umschreibungen, beispielsweise ein Telefonbuch, sofort in dem neuen tragbaren Telefon 100 verfügbar. Dennoch bleibt die Datenbank 130 für akustische Modelle und die Datenbank 150 für Aufforderungsansagen leer.
Beim Stand der Technik muss der Benutzer somit den gleichen zeitaufwendigen Trainingsprozess wiederholen, dem er bereits mit dem alten tragbaren Telefon begegnet ist, um die Datenbank 130 für akustische Modelle und die Datenbank 150 für Aufforderungsansagen mit sprecher-abhängigen Einträgen zu füllen. Gemäß der Erfindung kann jedoch der zeitaufwendige Trainingsprozess zum Füllen der Datenbanken 130, 150 entfallen. Dies hat seinen Grund in der Bereitstellung der Schnittstelle 200 zum Empfangen von Aufforderungsansagen.
Über die Schnittstelle 200 des neuen tragbaren Telefons 100, in 1 veranschaulicht, wird eine Verbindung mit einer entsprechenden Schnittstelle des alten tragbaren Telefons 300 aufgebaut. Das alte tragbare Telefon 300 kann dieselbe Bauart besitzen wie das neue tragbare Telefon 100 aus 1.
Nachdem die Verbindung zwischen dem neuen tragbaren Telefon 100 und dem alten tragbaren Telefon 300 aufgebaut wurde, können die Inhalte der Datenbank für Aufforderungsansagen des alten tragbaren Telefons 300 über die Schnittstelle 200 in die Datenbank 150 für Aufforderungsansagen des neuen tragbaren Telefons 100 transferiert werden. Die Schnittstelle 200 erlaubt auch Informationen, die sich auf die Datenbank 180 für Umschreibungen des neuen tragbaren Telefons 100 beziehen, auf das alte tragbare Telefon 300 zu übertragen und entsprechende Information von dem alten tragbaren Telefon 300 zu empfangen. Der Austausch von Informationen, die sich auf die textbasierten Umschreibungen beziehen, erlaubt den Transfer von Aufforderungsansagen von dem alten tragbaren Telefon 300 zu dem neuen tragbaren Telefon 100 derart zu steuern, dass nur Aufforderungsansagen, für die eine entsprechende textbasierte Umschreibung in der Datenbank 180 für Umschreibungen auf dem neuen tragbaren Telefon vorhanden ist, transferiert werden. Außerdem ist es gewährleistet, dass die von dem alten tragbaren Telefon empfangenen und in der Datenbank 150 für Aufforderungsansagen gespeicherten Aufforderungsansagen mit dem korrekten Index verknüpft werden, d. h. dem Index der entsprechenden textba sierten Umschreibung innerhalb der Datenbank 150 für Aufforderungsansagen. Die in der Datenbank 150 für Aufforderungsansagen gespeicherten Aufforderungsansagen können von dem alten tragbaren Telefon 300 in einem kodierten Format oder in einem Format, das unmittelbar wiedergegeben werden kann, empfangen werden. Im Folgenden wird angenommen, dass die Aufforderungsansagen in einem kodierten Format empfangen werden.
Gemäß einer Variante der Erfindung hat das neue tragbare Telefon 100 eine Datenbank 150 für Aufforderungsansagen, die zumindest teilweise mit indizierten sprecherunabhängigen Aufforderungsansagen gefüllt ist. Die sprecher-unabhängigen Aufforderungsansagen können für eine Vielzahl von Befehlsworten während der Herstellung des neuen tragbaren Telefons 100 vorab gespeichert worden sein. Unter Verwendung der Indizes der vorgespeicherten sprecher-unabhängigen Aufforderungsansagen werden diese vorgespeicherten Aufforderungsansagen des neuen tragbaren Telefons 100, für die in dem alten tragbaren Telefon 300 entsprechend indizierte und benutzertrainierte sprecher-unabhängige Aufforderungsansagen bestehen, durch die benutzertrainierten Aufforderungsansagen ersetzt. Somit wird die Erkennungsgenauigkeit des neuen Telefons 100 erhöht, da auf Grundlage der sprecher-abhängigen Aufforderungsansagen, die die sprecher-unabhängigen Aufforderungsansagen ersetzen, genauere akustische Modelle erzeugt werden können.
Gemäß einer weiteren Variante der Erfindung kann die Schnittstelle 200 des neuen tragbaren Telefons 100 derart konfiguriert sein, dass sie sowohl textbasierte Umschreibungen als auch entsprechende Aufforderungsansagen von dem alten tragbaren Telefon 300 zu empfangen erlaubt. Wenn somit die Datenbank 180 für Umschreibungen des neuen tragbaren Telefons 100 leer oder nur teilweise gefüllt ist, erlaubt die Schnittstelle 200, sowohl textbasierte Umschreibungen als auch entsprechenden Aufforderungsansagen von dem alten tragbaren Telefon 300 zu dem neuen tragbaren Telefon 100 zu transferieren.
Wie aus dem Obigen deutlich geworden ist, kann mittels der Schnittstelle 200 die Datenbank 150 für Aufforderungsansagen und, wenn gewünscht, die Datenbank 180 für Umschreibungen des neuen tragbaren Endgerätes 100 mit entsprechenden Daten von dem alten tragbaren Telefon 300 gefüllt werden. Jedoch bleibt die Datenbank 130 für akustische Modelle des tragbaren Endgeräts 100 dennoch leer. Somit muss in einem nächsten Schritt die Datenbank 130 für akustische Modelle mittels des Modell-Erzeugers 430, wie nachstehend erläutert, gefüllt werden.
Um die Datenbank 130 für akustische Modelle zu füllen, werden die Aufforderungsansagen von der Datenbank 150 für Aufforderungsansagen zu dem Modell-Erzeuger 430 über die Dekodierungseinheit 420 transferiert. In der Dekodierungseinheit 420 werden die kodierten Aufforderungsansagen in ein Format dekodiert, das unmittelbar wiedergegeben werden kann. Dann werden die Aufforderungsansagen in diesem dekodierten Format von der Dekodierungseinheit 420 zu dem Modell-Erzeuger 430 transferiert. Auf Grundlage der von der Dekodierungseinheit 420 empfangenen dekodierten Aufforderungsansagen berechnet der Modell-Erzeuger 430 für jede Aufforderungsansage eine Folge von Referenzvektoren, wobei jede Folge von Referenzvektoren das akustische Modell bildet, das der bestimmten Aufforderungsansage entspricht. Nachdem die akustischen Modelle erzeugt worden sind, werden sie von dem Modellgenerator 430 in die Datenbank 130 für akustische Modelle transferiert. In der Datenbank für akustische Modelle wird jedes von dem Modell-Erzeuger 430 erzeugte akustische Modell mit dem Index der entsprechenden Aufforderungsansage und der entsprechenden textbasierten Umschreibung verknüpft.
Da die akustischen Modelle auf der Grundlage der von dem alten tragbaren Endgerät 300 empfangenen Aufforderungsansagen erzeugt werden, kann ein hoher Grad an Kompatibilität bezüglich unterschiedlicher Generationen oder unterschiedlicher Modelle tragbarer Telefone gewährleistet werden. Auch wenn die Referenzvektoren, die für automatische Spracherkennung von dem alten tragbaren Telefon 300 und dem neuen tragbaren Telefon 100 benutzt werden, nicht kompatibel sind, kann das erfinderische Konzept angewandt werden, da nicht die akustischen Modelle selbst, sondern die Aufforderungsansagen zwischen dem neuen tragbaren Telefon 100 und dem alten tragbaren Telefon 300 ausgetauscht werden. Das Erzeugen der akustischen Modelle in dem neuen tragbaren Telefon 100 auf der Grundlage der von dem alten tragbaren Telefon 300 empfangenen Aufforderungsansagen gewährleistet somit eine hohe Kompatibilität. Die in 1 dargestellten tragbaren Telefone 100 und 300 sind vorzugsweise derart konfiguriert, dass die Aufforderungsansagen sogar dann ausgetauscht werden können, wenn die tragbaren Telefone 100, 300 ohne eine SIM-Karte 170 betrieben werden.
In 2 ist eine zweite Ausführungsform eines erfindungsgemäßen tragbaren Telefons 100 dargestellt. Das in 2 veranschaulichte Telefon 100 hat einen ähnlichen Aufbau wie das in 1 veranschaulichte tragbare Telefon. Wieder umfasst das tragbare Telefon eine Schnittstelle 200 zum Empfangen sprecher-unabhängiger oder sprecher-abhängiger Aufforderungsansagen.
Im Gegensatz zu dem in 1 dargestellten Telefon 100 werden jedoch sowohl die Datenbank 150 für Aufforderungsansagen als auch die Datenbanken 180 für Umschreibungen auf der entfernbaren SIM-Karte 170 angeordnet. Außerdem ist die Schnittstelle 200 zum Empfangen von Aufforderungsansagen nicht konfiguriert um, eine Verbindung zu einem externen Gerät aufzubauen, sie ermöglicht es aber, eine Verbindung zwischen der Datenbank 150 für Aufforderungsansagen auf der entfernbaren SIM-Karte 170 und dem tragbaren Endgerät 100 aufzubauen. Die Schnittstelle 200 kann beispielsweise ein geeignet konfigurierter Anschluss sein.
Die Schnittstelle 200 ist in Verbindung mit der Datenbank 150 für Aufforderungsansagen und kommuniziert außerdem sowohl mit dem Mikrofon 120 als auch dem Modell-Erzeuger 430 über die Kodierungseinheit 410 beziehungsweise über die Dekodierungseinheit 420. Obwohl in 2 nicht dargestellt, könnte auch eine Kommunikation zwischen der Datenbank 180 für Umschreibungen und einer oder mehreren Komponenten des tragbaren Endgeräts 100, wie der Einheit 190 zum Ausgeben einer visuellen Rückkopplung, über die Schnittstelle 200 stattfinden.
Wenn eine SIM-Karte 170 mit einer leeren Datenbank 150 für Aufforderungsansagen in das in 2 dargestellte tragbare Endgerät 100 eingefügt wird, kann die leere Datenbank 150 für Aufforderungsansagen, wie oben hinsichtlich des tragbare Endgeräts von 1 beschrieben, gefüllt werden. Der einzige Unterschied ist, dass die Kodierungseinheit 410 mit der Datenbank 150 für Aufforderungsansagen nicht unmittelbar sondern über die Schnittstelle 200 verbunden ist.
Wenn eine SIM-Karte 170 mit einer zumindest teilweise gefüllten Datenbank 150 für Aufforderungsansagen in das tragbare Endgerät 100 eingefügt wird, und wenn die Datenbank 130 für akustische Modelle nicht schon ein akustisches Modell für jede in Datenbank 150 für Aufforderungsansagen gespeicherte Aufforderungsansage enthält, kann die Datenbank 130 für akustische Modelle mittels des Modell-Erzeugers 430 gefüllt werden, wie es oben hinsichtlich des in 1 dargestellte tragbare Endgeräts erklärt wurde. Das tragbare Endgerät 100 aus 2 empfängt die sprecherunabhängigen oder sprecher-abhängigen Aufforderungsansagen, auf Grundlage derer akustische Modelle erzeugt werden sollen, über die Schnittstelle 200 von der Datenbank 150 für Aufforderungsansagen. Nach dem Dekodieren in der Dekodierungseinheit 420 werden die empfangenen Aufforderungsansagen zu dem Modell-Erzeuger 430 transferiert. Der Modell-Erzeuger 430 erzeugt dann für jede Aufforderungsansage eine Menge von Referenzvektoren, und jede Menge von Referenzvektoren wird als ein akustisches Modell in der Datenbank 130 für akustische Modelle gespeichert.
Sobald die SIM-Karte 170 mit der Datenbank 150 für Aufforderungsansagen in das tragbare Endgerät 100 eingefügt wurde, wird das Erzeugen der akustischen Modelle vorzugsweise beim Einschalten des tragbaren Endgerätes 100 ausgelöst. Folglich werden die Aufforderungsansagen und die den akustischen Modellen entsprechenden Erkennungsreferenzen ohne Training oder Aufzeichnung sofort verfügbar.
Selbstverständlich kann das oben mit Bezug auf die in 1 und 2 dargestellten tragbaren Endgeräte beispielhaft beschriebene erfinderische Konzept auch in Zusammenhang mit anderen tragbaren Endgeräten wie PDAs oder Laptops angewandt werden.

Claims

Sprachgesteuertes tragbares Endgerät (100), umfassend: – eine Schnittstelle (200) zum Empfangen von Aufforderungsansagen von einem externen Gerät (300); – einen Modell-Erzeuger (430) zum Erzeugen akustischer Modelle auf der Grundlage der empfangenen Aufforderungsansagen; und – einen automatischen Spracherkenner (110) zum Erkennen der gesprochenen Äußerungen auf der Grundlage der erzeugten akustischen Modelle.
Tragbares Endgerät gemäß Anspruch 1, ferner umfassend eine Datenbank (150) für Aufforderungsansagen zum Speichern von Aufforderungsansagen.
Tragbares Endgerät gemäß Anspruch 2, dadurch gekennzeichnet, dass die Schnittstelle (200) sich in Verbindung mit der Datenbank (150) für Aufforderungsansagen befindet und den Transfer von von einem externen Gerät (300) empfangenen Aufforderungsansagen zur Datenbank (150) für Aufforderungsansagen ermöglicht.
Tragbares Endgerät gemäß Anspruch 2, dadurch gekennzeichnet, dass die Datenbank (150) für Aufforderungsansagen auf einem physikalischen Träger (170) angeordnet ist, der entfernbar an das tragbare Endgerät (100) anschließbar ist.
Tragbares Endgerät gemäß Anspruch 4, dadurch gekennzeichnet, dass die Schnittstelle (200) sich in Verbindung mit dem Modell-Erzeuger (430) befindet und den Transfer der in der Datenbank (150) für Aufforderungsansagen auf dem physikalischen Träger (170) gespeicherten Aufforderungsansagen zum Modell-Erzeuger 430 ermöglicht.
Tragbares Endgerät gemäß Anspruch 4 oder 5, dadurch gekennzeichnet, dass der physikalische Träger (170) eine SIM-Karte ist.
Tragbares Endgerät gemäß einem der Ansprüche 1 bis 6, ferner umfassend eine Dekodiereinheit (420), die zwischen der Datenbank (150) für Aufforderungsansagen und dem Modell-Erzeuger (430) angeordnet ist.
Verfahren zum zur Verfügung stellen von akustischen Modellen zur automatischen Spracherkennung in einem sprachgesteuerten, tragbaren Endgerät (100), umfassend: – Empfangen von Aufforderungsansagen von einem externen Gerät (300); – Erzeugen von akustischen Modellen auf der Grundlage der empfangenen Aufforderungsansagen; und – automatisches Erkennen von gesprochenen Äußerungen auf der Grundlage der erzeugten akustischen Modelle.
Verfahren gemäß Anspruch 8, dadurch gekennzeichnet, dass die Aufforderungsansagen über eine Schnittstelle (200) des tragbaren Endgeräts (100) empfangen werden.
Verfahren gemäß Anspruch 8 oder 9, ferner umfassend das Empfangen der Aufforderungsansagen von einem externen Gerät (300).
Verfahren gemäß einem der Ansprüche 8 bis 10, ferner umfassend das Speichern der empfangenen Aufforderungsansagen.
Verfahren nach Anspruch 8 oder 9, ferner umfassend das Empfangen der Aufforderungsansagen von einer Datenbank (150) für Aufforderungsansagen, die auf einem physikalischen Träger (170) angeordnet ist, der entfernbar an das tragbare Endgerät (100) anschließbar ist.
Verfahren gemäß einem der Ansprüche 8 bis 12, dadurch gekennzeichnet, dass die Aufforderungsansagen in einem kodierten Format empfangen werden, und ferner umfassend das Dekodieren der Aufforderungsansagen im Vorfeld des Erzeugens der akustischen Modelle.
Verfahren gemäß einem der Ansprüche 8 bis 13, dadurch gekennzeichnet, dass sprecherabhängige akustische Modelle erzeugt werden.