-
HINTERGRUND
DER ERFINDUNG
-
1. Technisches
Gebiet
-
Die Erfindung bezieht sich auf das
Gebiet automatischer Spracherkennung und insbesondere auf ein tragbares
Endgerät,
das durch gesprochene Äußerungen
wie Eigennamen und Befehlswörter
steuerbar ist. Die Erfindung bezieht sich ferner auf ein Verfahren
zur Bereitstellung akustischer Modelle für automatische Spracherkennung
in einem solchen tragbaren Endgerät.
-
2. Diskussion
des Standes der Technik
-
Viele tragbare Endgeräte wie tragbare
Telefone oder PDAs (personal digital assistants) umfassen das Merkmal
der Steuerung einer oder mehrerer Funktionen davon durch Äußern entsprechender Schlüsselwörter. Es
gibt beispielsweise tragbare Telefone, die das Antworten auf einen
Anruf oder das Verwalten eines Telefonbuchs durch Äußern von
Befehlswörtern
erlauben. Außerdem
erlauben viele tragbare Telefone ein so genanntes voice-dialing (Wählen mittels
Stimme), das durch Äußern des
Namens einer Person ausgelöst
wird.
-
Das Steuern eines tragbaren Endgerätes durch
gesprochene Äußerungen
erfordert die Anwendung automatischer Spracherkennung. Während der
automatischen Spracherkennung wird ein Erkennungsergebnis durch
Vergleichen vorhergehend erzeugter akustischer Modelle mit einer
gesprochenen Äußerung,
die von einem automatischen Spracherkenner analysiert wurde, erhalten.
Die akustischen Modelle können
sprecher-abhängig
und sprecher-unabhängig
erzeugt werden.
-
Bislang verwenden die meisten tragbaren Endgeräte sprecher-abhängige Spracherkennung und
somit sprecher-abhängige
akustische Modelle. Die Verwendung von sprecher-abhängigen akustischen
Modellen erfordert, dass ein einzelner Anwender des tragbaren Endgerätes einen
Wortschatz trainieren muss, auf dessen Grundlage automatische Spracherkennung
durchgeführt
wird. Das Training erfolgt üblicherweise
durch ein- oder mehrmaliges Äußern eines
einzelnen Schlüsselwortes,
um das entsprechende sprecher-abhängige akustische Model zu erzeugen.
-
Spracherkennung in tragbaren Endgeräten auf
der Grundlage sprecher-abhängiger
akustischer Modelle ist nicht immer eine optimale Lösung. Erstens
ist die Anforderung eines separaten Trainings für jedes Schlüsselwort,
das zur Steuerung des tragbaren Endgerätes benutzt werden soll, zeitaufwendig und
wird vom Benutzer als mühsam
wahrgenommen. Außerdem
sind die sprecher-abhängigen
akustischen Modelle, die mittels eines Trainingprozesses erzeugt
werden, nur für
dieses einzelne tragbare Endgerät
verfügbar,
da die sprecher-abhängigen akustischen
Modelle üblicherweise
in dem tragbaren Endgerät
selbst gespeichert sind. Das bedeutet, dass der zeitaufwendige Trainingsprozess
wiederholt werden muss, wenn der Benutzer ein neues tragbares Endgerät kauft.
-
Wegen der oben genannten Nachteile
von sprecher-abhängiger
Spracherkennung verwenden tragbare Endgeräte manchmal sprecher-unabhängige Spracherkennung,
d. h. Spracherkennung auf der Grundlage sprecher-unabhängiger akustischer
Modelle. Es gibt mehrere Möglichkeiten
zum Erzeugen sprecher-unabhängiger
akustischer Modelle. Wenn die gesprochenen Schlüsselwörter zum Steuern des tragbaren
Endgerätes
eine begrenzte Menge von Befehlswörtern bilden, die vordefiniert
sind, d. h. nicht von dem Benutzer des tragbaren Endgerätes definiert
wurden, können
die sprecher-unabhängigen Referenzen
durch Mittelwertbildung der gesprochenen Äußerungen einer großen Anzahl
von unterschiedlichen Sprechern erzeugt und in dem tragbaren Endgerät vor seinem
Verkauf gespeichert werden.
-
Wenn andererseits die gesprochenen Äußerungen
zum Steuern des tragbaren Endgerätes
von dem Benutzer frei gewählt
werden können,
muss ein anderes Verfahren angewandt werden. Ein Computersystem
zur Erzeugung sprecher-unabhängiger Referenzen
für frei
gewählte
gesprochene Schlüsselwörter, d.
h. Schlüsselwörter, die
dem Computersystem nicht bekannt sind, ist in der
EP 0 590 173 A1 beschrieben.
Das Computersystem analysiert jedes unbekannte gesprochene Schlüsselwort
und baut ein entsprechendes sprecher-unabhängiges akustisches Modell mittels
einer phonetischen Datenbank auf. Jedoch umfasst das in der
EP 0 590 173 A,1 gelehrte
Computersystem einen sehr großen
Speicher und hochentwickelte Rechenressourcen zur Erzeugung der
sprecher-unabhängigen
akustischen Modelle. Diese Ressourcen sind im Allgemeinen nicht
in kleinen und leichtgewichtigen tragbaren Endgeräten verfügbar.
-
Wie aus dem Obigen deutlich wurde,
gibt es mehrere Gründe,
warum zumindest ein Teil der akustischen Modelle, die zur automatischen
Spracherkennung benutzt werden sollen, nicht bereits während der
Herstellung in dem tragbaren Endgerät gespei chert werden. Demnach
ist es häufig
erforderlich, sprecher-abhängige
oder sprecherunabhängige akustische
Modelle zu erzeugen, nachdem das tragbare Endgerät an den Benutzer ausgeliefert
wurde. Bis heute jedoch bedingt dieses hochentwickelte Rechenressourcen,
falls sprecher-unabhängige
akustische Modelle verwendet werden, und mühsames Benutrertraining, falls
sprecher-abhängige
akustische Modelle verwendet werden.
-
Deswegen besteht ein Bedarf für ein tragbares
Endgerät,
das durch gesprochene Schlüsselwörter auf
der Grundlage sprecher-unabhängiger
oder sprecher-abhängiger
akustischer Modellen steuerbar ist und welches einen minimalen Aufwand
zum Erzeugen einer neuen Menge oder einer zusätzlichen Menge von akustischen
Modellen erfordert. Es besteht ferner ein Bedarf für ein Verfahren
zum Bereitstellen akustischer Modelle für automatische Spracherkennung
in einem solchen tragbaren Endgerät.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Die vorliegende Erfindung befriedigt
diesen Bedarf durch das Bereitstellen eines tragbaren Endgerätes, das
durch gesprochene Äußerungen
wie einen Eigennamen oder ein Befehlswort steuerbar ist und welches
eine Schnittstelle zum Empfangen von Aufforderungsansagen, einen
Modell-Erzeuger zum Erzeugen akustischer Modelle auf der Grundlage
der empfangenen Aufforderungsansagen von einem externen Gerät und einen
automatischen Spracherkenner zum Erkennen der gesprochenen Äußerungen auf
der Grundlage der erzeugten akustischen Modelle umfasst.
-
Erfindungsgemäß umfasst ein Verfahren zum
Bereitstellen von akustischen Modellen zur automatischen Spracherkennung
in einem Endgerät, das
durch gesprochene Äußerungen
steuerbar ist, das Empfangen von Aufforderungsansagen von einem
externen Gerät,
das Erzeugen von akustischen Modellen auf der Grundlage der empfangenen
Aufforderungsansagen und das automatische Erkennen von gesprochenen Äußerungen
auf der Grundlage der erzeugten akustischen Modelle.
-
Bis heute wurden Aufforderungsansagen
nur in ein und demselben tragbaren Endgerät und nur zum Bereitstellen
einer akustischen Rückkopplung benutzt,
beispielsweise für
eine Äußerung eines
Benutzers, die von dem automatischen Spracherkenner des tragbaren
Endgerätes
erkannt wurde. Die Erfindung jedoch schlägt vor, ein tragbares Endgerät derart
zu konfigurieren, dass es extern zur Verfügung gestellte Aufforderungsansagen
empfangen kann, die anschließend
zum Erzeugen des akustischen Modells zur automatischen Spracherkennung
in dem tragbaren Endgerät
benutzt werden. Folglich werden die akustischen Modelle in einer
schnellen und einfachen Art und Weise auf der Grundlage von Aufforderungsansagen
erzeugt, die bereits im Voraus erzeugt worden sein können. Außerdem erfordert
das erfindunsgemäße tragbare
Endgerät
im Falle bereits bestehender Aufforderungsansagen kein erschwerliches
Benutrertraining und eine nur geringfügige Erhöhung der Hardwareressourcen
des tragbaren Endgerätes.
-
Die Aufforderungsansagen, die zum
Erzeugen der akustischen Modelle benutzt werden, werden von dem
tragbaren Endgerät über eine
Schnittstelle empfangen. Die Schnittstelle kann eine Komponente
sein, die konfiguriert oder programmiert ist, um eine Verbindung
zu einer Aufforderungsansage-Quelle herzustellen, die die Aufforderungsansagen
zur Verfügung
stellt, die zum Erzeugen des akustischen Modells in dem tragbaren
Endgerät
benutzt werden. Die Aufforderungsansage-Quelle kann sprecher-abhängige oder
sprecher-unabhängige
Aufforderungsansagen zur Verfügung
stellen, so dass sprecher-abhängige
oder sprecher-unabhängige akustische
Modelle erzeugt werden können.
Die Verbindung, die von der Schnittstelle zu der Aufforderungsansagen-Quelle
hergestellt wird, kann eine verdrahtete Verbindung oder eine drahtlose
Verbindung sein, die beispielsweise entsprechend eines GSM-, eines
UMTS-, eines Bluetooth- oder eines IR-Standards betrieben wird.
-
Die erzeugten akustischen Modelle
können sprecher-abhängig als
auch sprecherunabhängig sein.
Jedoch werden gemäß einer
bevorzugten Ausführungsform
der Erfindung sprecher-abhängige akustische
Modelle erzeugt und sprecher-abhängige Aufforderungsansagen
zum Erzeugen der sprecher-abhängigen
akustischen Modelle benutzt. Da die Qualität sprecher-abhängiger Aufforderungsansagen
oft höher
ist als die Qualität
von beispielsweise künstlich
hergestellten sprecher-unabhängigen
Aufforderungsansagen, ist die Erkennungsgenauigkeit automatischer
Spracherkennung auf der Grundlage von sprecher-abhängigen akustischen
Modellen auch höher.
-
Das tragbare Endgerät kann eine
Datenbank für
Aufforderungsansagen zum Speichern von Aufforderungsansagen umfassen.
Die Aufforderungsansagen, die in der Datenbank für Aufforderungsansagen gespeichert
sind, können
zumindest zum Teil über
eine Schnittstelle des tragbaren Endgerätes empfangen werden. Zumindest
einige Aufforderungsansagen, die in der Datenbank für Aufforderungsansagen
gespeichert sind, können
auch während
der Herstellung des tragbaren Endgerätes in der Datenbank für Aufforderungsansagen
gespeichert werden oder in dem tragbaren Endgerät durch beispielsweise Aufnehmen
einer Äußerung des
Benutzers des tragbaren Endgeräts
erzeugt werden.
-
Das tragbare Endgerät kann die
Aufforderungsansagen von einer Aufforderungsansage-Quelle wie einem
externen Gerät
(einem anderen tragbaren Endgerät,
einem PDA, einem Laptop, einem Netzwerkserver, usw.) empfangen.
Die Schnittstelle des tragbaren Endgerätes befindet sich vorzugsweise
in Verbindung mit der Datenbank für Aufforderungsansagen, so
dass die Schnittstelle es ermöglicht,
die von einem externen Gerät
empfangenen Aufforderungsansagen zu der Datenbank für Aufforderungsansagen
zu transferieren. Die zu der Datenbank für Aufforderungsansagen transferierten
Aufforderungsansagen können
dann dauerhaft oder vorübergehend
in der Datenbank für
Aufforderungsansagen gespeichert werden.
-
Die Datenbank für Aufforderungsansagen kann
nicht-entfernbar an dem tragbaren Endgerät angebracht sein oder kann
auf einem physikalischen Träger
wie einer (subscriber identity module) SIM-Karte, die an das tragbare
Endgerät
entfernbar anschließbar
ist, angeordnet werden. Wenn die Datenbank für Aufforderungsansagen auf
einem physikalischen Träger
angeordnet ist, der an das tragbare Endgerät entfernbar anschließbar ist,
ist die Schnittstelle des tragbaren Endgerätes vorzugsweise zwischen dem
Modellgenerator und der Datenbank für Aufforderungsansagen auf
dem physikalischen Träger
angeordnet. In diesem Fall empfängt
das tragbare Endgerät
die Aufforderungsansagen von der Datenbank für Aufforderungsansagen auf
dem physikalischen Träger über die
Schnittstelle des tragbaren Endgeräts. Mit anderen Worten bildet
die Datenbank für
Aufforderungsansagen auf dem physikalischen Träger die Aufforderungsansage-Quelle,
von der das tragbare Endgerät
die Aufforderungsansagen empfängt,
die zum Erzeugen akustischer Modelle benutzt werden. Die empfangenen
Aufforderungsansagen können
an den Modell-Erzeuger des tragbaren Endgeräts transferiert werden, der
ebenfalls mit der Schnittstelle kommuniziert.
-
Die Aufforderungsansagen, die zum
Erzeugen der akustischen Modelle benutzt werden, können von
dem tragbaren Endgerät
in verschiedenen Formaten empfangen werden. Gemäß einer Ausführungsform
werden die Aufforderungsansagen in einem Format empfangen, das unmittelbar
als eine akustische Rückkopplung
von dem tragbaren Endgerät
wiedergegeben werden kann. Üblicherweise
kann dieses Format der Aufforderungsansagen direkt zum Erzeugen
der akustischen Modelle verwendet werden.
-
Gemäß einer weiteren Ausführungsform werden
die Aufforderungsansagen von dem tragbaren Endgerät in einem
kodierten Format empfangen. Oft werden Aufforderungsansagen in einem
kodierten Format gespeichert, um sowenig Speicherressourcen wie
möglich
zu belegen. Jedoch kann dies erfordern, dass die Aufforderungsansagen
vor der Wiedergabe oder vor der Erzeugung der akustischen Modelle
dekodiert werden müssen.
Daher kann das tragbare Endgerät
eine Dekodierungseinheit zur Dekodierung der kodierten Aufforderungsansagen
vor dem Erzeugen der akustischen Modelle umfassen. Die Dekodierungseinheit
ist vorzugsweise zwischen der Datenbank für Aufforderungsansagen und
dem Modell-Erzeuger angeordnet.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
Weitere Gesichtspunkte und Vorteile
der Erfindung werden beim Lesen der folgenden detaillierten Beschreibung
der bevorzugten Ausführungsformen
der Erfindung und durch Bezugnahme auf die Figuren offensichtlich
werden, von denen:
-
1 eine
schematische Darstellung einer ersten Ausführungsform eines erfindungsgemäßen tragbaren
Endgerätes
zeigt;
-
2 eine
schematische Darstellung einer zweiten Ausführungsform eines erfindungsgemäßen tragbaren
Endgerätes
zeigt.
-
BESCHREIBUNG
DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
-
In 1 ist
eine schematische Darstellung einer ersten beispielhaften Ausführungsform
eines tragbaren Endgeräts
in Form eines erfindungsgemäßen tragbaren
Telefons 100 mit voice-dialing-Funktionalität veranschaulicht.
-
Das tragbare Telefon 100 umfasst
einen automatischen Spracherkenner 110, der von einem Mikrophon 120 ein
Signal empfängt,
das einer gesprochenen Äußerung eines
Benutzers entspricht. Der automatische Spracherkenner 110 ist
in Verbindung mit einer Datenbank 130 für akustische Modelle, in der
akustische Modelle gespeichert werden können. Während der automatischen Spracherkennung
werden akustische Modelle von dem automatischen Spracherkenner 110 mit
den über
das Mikrofon 120 empfangenen gesprochenen Äußerungen
verglichen.
-
Das tragbare Telefon 100 umfasst
zusätzlich eine
Einheit 140 zum Erzeugen einer akustischen Rückkopplung
für eine
erkannte gesprochene Äußerung.
Wie es aus
1 ersichtlich
wird, ist die Einheit 140 zum Ausgeben der akustischen
Rückkopplung
in Verbindung mit einer Datenbank 150 für Aufforderungsansagen, in
der Aufforderungsansagen gespeichert werden können. Die Einheit 140 erzeugt
eine akustische Rückkopplung
auf der Grundlage von Aufforderungsansagen, die in der Datenbank 150 für Aufforderungsansagen
enthalten sind. Die Komponente 140 zum Ausgeben einer akustischen
Rückkopplung
ist ferner mit einem Lautsprecher 160 in Verbindung, der
die von der Einheit 140 zum Ausgeben der akustischen Rückkopplung
erhaltene akustische Rückkopplung
wiedergibt.
-
Das in 1 dargestellte
tragbare Telefon 100 umfasst auch eine SIM-Karte 170,
auf der eine Umschreibungs- (oder Transcriptions-) Datenbank 180 zur
Speicherung textbasierter Umschreibungen angeordnet ist. Die SIM-Karte 170 ist
entfernbar an das tragbare Telefon 100 angeschlossen und
enthält eine
Liste mit mehreren textbasierten Umschreibungen gesprochener Äußerungen,
die von dem automatischen Spracherkenner 110 zu erkennen
sind. In der beispielhaft in 1 dargestellten
Ausführungsform
ist die Datenbank 180 für
Umschreibungen als ein Telefonbuch konfiguriert, das eine Vielzahl
von Telefonbucheinträgen
in Form von Namen enthält, die
alle mit einer bestimmten Telefonnummer verknüpft sind. Wie der Zeichnung
zu entnehmen ist, bezieht sich der erste Telefonbucheintrag auf
den Namen „Tom", und der zweite
Telefonbucheintrag bezieht sich auf den Namen „Stefan". Die textbasierten Umschreibungen der
Datenbank 180 für
Umschreibungen sind als ASCII-Zeichenketten
konfiguriert. Somit besteht die textbasierte Umschreibung des ersten
Telefonbucheintrags aus den drei Zeichen „T", „O" und „M". Wie aus der 1 zu ersehen ist, hat jede
textbasierte Umschreibung der Datenbank 180 einen eindeutigen
Index. Die textbasierte Umschreibung „Tom" hat beispielsweise den Index „1".
-
Die Datenbank 180 für Umschreibungen
ist in Verbindung mit einer Einheit 190 zum Ausgeben einer
sichtbaren Rückkopplung.
Die Einheit 190 zum Ausgeben der sichtbaren Rückkopplung
ist konfiguriert, um die textbasierte Umschreibung einer von dem
automatischen Erkenner 110 erkannten gesprochenen Äußerung anzuzeigen.
-
Die drei Datenbanken 130, 150, 180 des tragbaren
Telefons 100 sind in Verbindung mit einer Schnittstelle 200 des
tragbaren Telefons 100. Die Schnittstelle 200 dient
zum Empfangen der Aufforderungsansagen von einem externen Gerät 300 wie
einem weiteren tragbaren Telefon, einem PDA, einem Netzwerkserver
oder einem Laptop mittels beispielsweise einer Infrarot-, einer
Hochfrequenz- oder einer verdrahteten Verbindung.
-
Grundsätzlich kann die Schnittstelle 200 in dem
tragbaren Telefon 100 intern in zwei Blöcke getrennt werden, die nicht
in 1 dargestellt sind.
Ein erster Block ist verantwortlich, um auf die Datenbank 130 für akustische
Modelle, die Datenbank 150 für Aufforderungsansagen und
die Datenbank 180 für textbasierte
Umschreibungen in einem Lese- und Schreibmodus zuzugreifen. Der
zweite Block führt die Übertragung
der innerhalb der Datenbanken 130, 150, 180 enthaltenen
Daten zum Netzwerkserver 300 unter Verwendung einer Protokollbeschreibung durch,
die eine verlustfreie und schnelle Übertragung der Daten gewährleistet.
Eine weitere Anforderung an ein solches Protokoll ist ein gewisses
Sicherheitsniveau. Ferner sollte das Protokoll derart konfiguriert sein,
dass es unabhängig
von dem ihm zugrunde liegenden physikalischen Übertragungsmedium wie beispielsweise
Infrarot, Bluetooth, GSM, usw. ist. Allgemein könnte jede Art von Protokoll
(proprietär
oder standardisiert), das die obigen Anforderungen erfüllt, verwendet
werden. Ein Beispiel für
ein geeignetes Protokoll ist das kürzlich herausgegebene SyncML-Protokoll,
das die auf zwei Geräten
gespeicherte Information synchronisiert, auch wenn die Verbindung
nicht gewährleistet
ist. Ein solches Protokoll würde
die notwenigen Anforderungen, Aufforderungsansagen, akustische Modelle,
usw. für
sprachgesteuerte Anwendungen auszutauschen, in jedem tragbaren Endgerät erfüllen. (siehe
White Paper bezüglich
SyncML, beispielsweise http://www.openmobilealliance.org/syncml)
-
Das in 1 veranschaulichte
tragbare Telefon 100 umfasst ferner eine Trainingseinheit 400,
die zwischen dem automatischen Spracherkenner 110 und der
Datenbank 130 für
akustische Modelle angeschlossen ist, eine Kodierungseinheit 410,
die sowohl mit dem Mikrophon 120 als auch mit der Datenbank 150 für Aufforderungsansagen
verbunden ist, und eine Dekodierungseinheit 420 in Verbindung
mit der Datenbank 150 für
Aufforderungsansagen, der Einheit 140 zum Erzeugen einer
akustischen Rückkopplung
und einem Modellgenerator 430. Wie aus 1 ersehen werden kann, kommunizieren
die Einheit 140 zum Ausgeben der akustischen Rückkopplung
und der Modellgenerator 430 mit der Datenbank 150 für Aufforderungsansagen über die
Dekodierungseinheit 420. Selbstverständlich könnten sowohl die Einheit 140 zum
Ausgeben der akustischen Rückkopplung
als auch der Modellgenerator 430 mit einer Dekodierungsfunktionalität ausgestatten
werden. In diesem Fall könnte
die separate Dekodierungseinheit 420 entfallen. Außerdem könnten die
Trainingseinheit 400 und der Modellgenerator 430 zu
einer einzigen Trainings- und Erzeugungseinheit kombiniert werden.
-
Mittels der Trainingseinheit 400 und
der Kodierungseinheit 410 bildet das tragbare Telefon 100, in 1 veranschaulicht, sprecher-abhängige akustische
Modelle und sprecher-abhängige
Aufforderungsansagen. Sowohl die Bildung von akustischen Modellen
und Aufforderungsansagen als auch von dem tragbaren Telefon 100 durchgeführte weitere Prozesse
werden von einer zentralen Steuerungseinheit, in 1 nicht veranschaulicht, gesteuert.
-
Das tragbare Telefon 100 wird
derart gesteuert, dass ein Benutzer aufgefordert wird jedes Schlüsselwort
wie jeden Eigennamen oder jedes Befehlswort, das zur Sprachsteuerung
des tragbaren Telefons 100 benutzt werden soll, ein oder
mehrere Male zu äußern. Der
automatische Spracherkenner 110 gibt die Trainingsäußerung in
die Trainingseinheit 400 ein, die als ein Stimmenaktivitätsdetektor
arbeitet, wobei sie Stille oder Geräuschintervalle am Anfang und
am Ende einer jeden Äußerung unterdrückt. Die
derart gefilterte Äußerung wird
dann dem Benutzer zur Bestätigung
akustisch ausgegeben. Wenn der Benutzer die gefilterte Äußerung bestätigt, speichert
die Trainingseinheit 400 ein entsprechendes sprecher-abhängiges akustisches
Modell in der Datenbank 130 für akustische Modelle in Form
einer Folge von Referenzvektoren. In der Datenbank 130 für akustische
Modelle ist jedes erzeugte akustische Modell mit dem Index einer
entsprechenden textbasierten Umschreibung verknüpft.
-
Für
jedes zu trainierende Schlüsselwort
wird eine von dem Benutzer ausgewählte trainierte Äußerung von
dem Mikrophon 120 in die Kodierungseinheit 410 zum
Kodieren dieser Äußerung in Übereinstimmung
mit einem Format eingegeben, das wenig Speicherressourcen in der
Datenbank 150 für
Aufforderungsansagen belegt. Die Äußerung wird dann als eine kodierte
Aufforderungsansage in der Datenbank 150 für Aufforderungsansagen
gespeichert. Derart wird die Datenbank 150 für Aufforderungsansagen mit
sprecher-abhängigen
Aufforderungsansagen gefüllt.
Jede Aufforderungsansage, die in der Datenbank 150 für Aufforderungsansagen
dauerhaft gespeichert ist, ist mit dem Index einer entsprechenden textbasierten
Umschreibung verknüpft.
Wenn eine Aufforderungsansage wiedergegeben werden soll, wird eine
aus der Datenbank 150 für
Aufforderungsansagen geladene kodierte Aufforderungsansage von der
Dekodierungseinheit 420 dekodiert und in einem kodierten
Format an die Einheit 140 zur Erzeugung einer akustischen
Rückkopplung
weitergeleitet.
-
Nachdem die Datenbank 130 für akustische Modelle
und die Datenbank 150 für
Aufforderungsansagen wie oben erklärt aufgefüllt wurden, kann ein Telefonanruf
mittels einer gesprochenen Äußerung aufgebaut
werden. Um einen Anruf aufzubauen, muss ein Benutzer eine Äußerung sprechen,
die einer textbasierten Umschreibung entspricht, die in der Datenbank 180 für Umschreibungen
enthalten ist, beispielsweise „Stefan". Diese gesprochene Äußerung wird
von dem Mikrophon 120 in ein Signal umgewandelt, das in
den automatischen Spracherkenner 110 eingespeist wird.
-
Wie oben hervorgehoben, werden die
akustischen Modelle in der Datenbank 130 für akustische Modelle
als eine Folge von Referenzvektoren gespeichert. Der automatische
Spracherkenner 110 analysiert das Signal von dem Mikrofon 120,
das der gesprochenen Äußerung „Stefan" entspricht, um deren Referenzvektoren
zu erhalten. Dieser Prozess wird Merkmal-Extraktion genannt. Um
ein Erkennungsergebnis zu erzeugen, vergleicht der automatische Spracherkenner 110 die
Referenzvektoren der gesprochenen Äußerung „Stefan" mit den in der Datenbank 180 für inhaltliche
Umschreibungen gespeicherten Referenzvektoren. Dem gemäß findet
ein Mustervergleich statt.
-
Da die Datenbank 130 für akustische
Modelle tatsächlich
ein akustisches Modell enthält,
das der gesprochenen Äußerung „Stefan" entspricht, wird
ein Erkennungsergebnis in der Form des Index „2", der der textbasierten Umschreibung „Stefan" entspricht, von
dem automatischen Spracherkenner 110 sowohl an die Einheit 140 zum
Ausgeben einer akustischen Rückkopplung
als auch an die Einheit 190 zum Ausgeben der visuellen
Rückkopplung
ausgegeben.
-
Die Einheit 140 zum Ausgeben
einer akustischen Rückkopplung
lädt die
dem Index „2" entsprechende Aufforderungsansage
aus der Datenbank 150 für
Aufforderungsansagen und erzeugt eine akustische Rückkopplung,
die dem Wort „Stefan" entspricht. Die
akustische Rückkopplung
wird von dem Lautsprecher 160 wiedergegeben. Gleichzeitig lädt die Einheit 190 für das Ausgeben
der visuellen Rückkopplung
die textbasierte Umschreibung, die dem Index „2" entspricht, aus der Datenbank 180 für Umschreibungen
und gibt eine visuelle Rückkopplung
aus, indem sie die Zeichenfolge „Stefan" anzeigt.
-
Der Benutzer kann jetzt die akustische
und visuelle Rückkopplung
bestätigen,
und ein Anruf kann auf Grundlage der Telefonnummer, die den Index „2" hat, aufgebaut werden.
Die akustische und visuelle Rückkopplung
kann beispielsweise durch Drücken
einer Bestätigungstaste
des tragbaren Telefons 100 oder durch Sprechen einer weiteren Äußerung, die
sich auf ein Bestätigungsbefehlswort
wie „Ja" oder „Anrufen" bezieht, bestätigt werden.
Akustische Modelle und Aufforderungsansagen für das Bestätigungsbefehlswort und für andere
Befehlswörter
können
in derselben Art und Weise erzeugt und gespeichert werden, wie oben
im Zusammenhang mit Eigennamen beschrieben.
-
Üblicherweise
ist der Lebenszyklus eines tragbaren Telefons eher kurz. Wenn ein
Benutzer ein neues tragbares Telefon 100, wie in 1 dargestellt, kauft, entfernt
er üblicherweise
einfach die SIM-Karte 170 mit der Datenbank 180 für Umschreibungen
aus dem alten tragbaren Telefon und fügt sie in das neue tragbare
Telefon 100 ein. Somit sind die inhaltlichen Umschreibungen,
beispielsweise ein Telefonbuch, sofort in dem neuen tragbaren Telefon 100 verfügbar. Dennoch
bleibt die Datenbank 130 für akustische Modelle und die
Datenbank 150 für
Aufforderungsansagen leer.
-
Beim Stand der Technik muss der Benutzer somit
den gleichen zeitaufwendigen Trainingsprozess wiederholen, dem er
bereits mit dem alten tragbaren Telefon begegnet ist, um die Datenbank 130 für akustische
Modelle und die Datenbank 150 für Aufforderungsansagen mit
sprecher-abhängigen Einträgen zu füllen. Gemäß der Erfindung
kann jedoch der zeitaufwendige Trainingsprozess zum Füllen der
Datenbanken 130, 150 entfallen. Dies hat seinen
Grund in der Bereitstellung der Schnittstelle 200 zum Empfangen
von Aufforderungsansagen.
-
Über
die Schnittstelle 200 des neuen tragbaren Telefons 100,
in 1 veranschaulicht,
wird eine Verbindung mit einer entsprechenden Schnittstelle des
alten tragbaren Telefons 300 aufgebaut. Das alte tragbare
Telefon 300 kann dieselbe Bauart besitzen wie das neue
tragbare Telefon 100 aus 1.
-
Nachdem die Verbindung zwischen dem neuen
tragbaren Telefon 100 und dem alten tragbaren Telefon 300 aufgebaut
wurde, können
die Inhalte der Datenbank für
Aufforderungsansagen des alten tragbaren Telefons 300 über die
Schnittstelle 200 in die Datenbank 150 für Aufforderungsansagen
des neuen tragbaren Telefons 100 transferiert werden. Die
Schnittstelle 200 erlaubt auch Informationen, die sich
auf die Datenbank 180 für
Umschreibungen des neuen tragbaren Telefons 100 beziehen,
auf das alte tragbare Telefon 300 zu übertragen und entsprechende
Information von dem alten tragbaren Telefon 300 zu empfangen.
Der Austausch von Informationen, die sich auf die textbasierten
Umschreibungen beziehen, erlaubt den Transfer von Aufforderungsansagen
von dem alten tragbaren Telefon 300 zu dem neuen tragbaren
Telefon 100 derart zu steuern, dass nur Aufforderungsansagen,
für die
eine entsprechende textbasierte Umschreibung in der Datenbank 180 für Umschreibungen
auf dem neuen tragbaren Telefon vorhanden ist, transferiert werden.
Außerdem
ist es gewährleistet,
dass die von dem alten tragbaren Telefon empfangenen und in der
Datenbank 150 für Aufforderungsansagen
gespeicherten Aufforderungsansagen mit dem korrekten Index verknüpft werden,
d. h. dem Index der entsprechenden textba sierten Umschreibung innerhalb
der Datenbank 150 für
Aufforderungsansagen. Die in der Datenbank 150 für Aufforderungsansagen
gespeicherten Aufforderungsansagen können von dem alten tragbaren
Telefon 300 in einem kodierten Format oder in einem Format,
das unmittelbar wiedergegeben werden kann, empfangen werden. Im
Folgenden wird angenommen, dass die Aufforderungsansagen in einem
kodierten Format empfangen werden.
-
Gemäß einer Variante der Erfindung
hat das neue tragbare Telefon 100 eine Datenbank 150 für Aufforderungsansagen,
die zumindest teilweise mit indizierten sprecherunabhängigen Aufforderungsansagen
gefüllt
ist. Die sprecher-unabhängigen
Aufforderungsansagen können
für eine
Vielzahl von Befehlsworten während
der Herstellung des neuen tragbaren Telefons 100 vorab
gespeichert worden sein. Unter Verwendung der Indizes der vorgespeicherten sprecher-unabhängigen Aufforderungsansagen
werden diese vorgespeicherten Aufforderungsansagen des neuen tragbaren
Telefons 100, für
die in dem alten tragbaren Telefon 300 entsprechend indizierte und
benutzertrainierte sprecher-unabhängige Aufforderungsansagen
bestehen, durch die benutzertrainierten Aufforderungsansagen ersetzt.
Somit wird die Erkennungsgenauigkeit des neuen Telefons 100 erhöht, da auf
Grundlage der sprecher-abhängigen Aufforderungsansagen,
die die sprecher-unabhängigen
Aufforderungsansagen ersetzen, genauere akustische Modelle erzeugt
werden können.
-
Gemäß einer weiteren Variante der
Erfindung kann die Schnittstelle 200 des neuen tragbaren Telefons 100 derart
konfiguriert sein, dass sie sowohl textbasierte Umschreibungen als
auch entsprechende Aufforderungsansagen von dem alten tragbaren Telefon 300 zu
empfangen erlaubt. Wenn somit die Datenbank 180 für Umschreibungen
des neuen tragbaren Telefons 100 leer oder nur teilweise
gefüllt
ist, erlaubt die Schnittstelle 200, sowohl textbasierte
Umschreibungen als auch entsprechenden Aufforderungsansagen von
dem alten tragbaren Telefon 300 zu dem neuen tragbaren
Telefon 100 zu transferieren.
-
Wie aus dem Obigen deutlich geworden
ist, kann mittels der Schnittstelle 200 die Datenbank 150 für Aufforderungsansagen
und, wenn gewünscht,
die Datenbank 180 für
Umschreibungen des neuen tragbaren Endgerätes 100 mit entsprechenden
Daten von dem alten tragbaren Telefon 300 gefüllt werden. Jedoch
bleibt die Datenbank 130 für akustische Modelle des tragbaren
Endgeräts 100 dennoch
leer. Somit muss in einem nächsten
Schritt die Datenbank 130 für akustische Modelle mittels
des Modell-Erzeugers 430,
wie nachstehend erläutert,
gefüllt
werden.
-
Um die Datenbank 130 für akustische
Modelle zu füllen,
werden die Aufforderungsansagen von der Datenbank 150 für Aufforderungsansagen
zu dem Modell-Erzeuger 430 über die Dekodierungseinheit 420 transferiert.
In der Dekodierungseinheit 420 werden die kodierten Aufforderungsansagen
in ein Format dekodiert, das unmittelbar wiedergegeben werden kann.
Dann werden die Aufforderungsansagen in diesem dekodierten Format
von der Dekodierungseinheit 420 zu dem Modell-Erzeuger 430 transferiert.
Auf Grundlage der von der Dekodierungseinheit 420 empfangenen
dekodierten Aufforderungsansagen berechnet der Modell-Erzeuger 430 für jede Aufforderungsansage
eine Folge von Referenzvektoren, wobei jede Folge von Referenzvektoren
das akustische Modell bildet, das der bestimmten Aufforderungsansage
entspricht. Nachdem die akustischen Modelle erzeugt worden sind,
werden sie von dem Modellgenerator 430 in die Datenbank 130 für akustische
Modelle transferiert. In der Datenbank für akustische Modelle wird jedes
von dem Modell-Erzeuger 430 erzeugte akustische Modell
mit dem Index der entsprechenden Aufforderungsansage und der entsprechenden
textbasierten Umschreibung verknüpft.
-
Da die akustischen Modelle auf der
Grundlage der von dem alten tragbaren Endgerät 300 empfangenen
Aufforderungsansagen erzeugt werden, kann ein hoher Grad an Kompatibilität bezüglich unterschiedlicher
Generationen oder unterschiedlicher Modelle tragbarer Telefone gewährleistet
werden. Auch wenn die Referenzvektoren, die für automatische Spracherkennung
von dem alten tragbaren Telefon 300 und dem neuen tragbaren
Telefon 100 benutzt werden, nicht kompatibel sind, kann
das erfinderische Konzept angewandt werden, da nicht die akustischen
Modelle selbst, sondern die Aufforderungsansagen zwischen dem neuen
tragbaren Telefon 100 und dem alten tragbaren Telefon 300 ausgetauscht
werden. Das Erzeugen der akustischen Modelle in dem neuen tragbaren
Telefon 100 auf der Grundlage der von dem alten tragbaren
Telefon 300 empfangenen Aufforderungsansagen gewährleistet somit
eine hohe Kompatibilität.
Die in 1 dargestellten
tragbaren Telefone 100 und 300 sind vorzugsweise
derart konfiguriert, dass die Aufforderungsansagen sogar dann ausgetauscht
werden können,
wenn die tragbaren Telefone 100, 300 ohne eine
SIM-Karte 170 betrieben werden.
-
In 2 ist
eine zweite Ausführungsform
eines erfindungsgemäßen tragbaren
Telefons 100 dargestellt. Das in 2 veranschaulichte Telefon 100 hat
einen ähnlichen
Aufbau wie das in 1 veranschaulichte
tragbare Telefon. Wieder umfasst das tragbare Telefon eine Schnittstelle 200 zum
Empfangen sprecher-unabhängiger
oder sprecher-abhängiger
Aufforderungsansagen.
-
Im Gegensatz zu dem in 1 dargestellten Telefon 100 werden
jedoch sowohl die Datenbank 150 für Aufforderungsansagen als
auch die Datenbanken 180 für Umschreibungen auf der entfernbaren
SIM-Karte 170 angeordnet. Außerdem ist die Schnittstelle 200 zum
Empfangen von Aufforderungsansagen nicht konfiguriert um, eine Verbindung zu
einem externen Gerät
aufzubauen, sie ermöglicht es
aber, eine Verbindung zwischen der Datenbank 150 für Aufforderungsansagen
auf der entfernbaren SIM-Karte 170 und dem tragbaren Endgerät 100 aufzubauen.
Die Schnittstelle 200 kann beispielsweise ein geeignet
konfigurierter Anschluss sein.
-
Die Schnittstelle 200 ist
in Verbindung mit der Datenbank 150 für Aufforderungsansagen und
kommuniziert außerdem
sowohl mit dem Mikrofon 120 als auch dem Modell-Erzeuger 430 über die
Kodierungseinheit 410 beziehungsweise über die Dekodierungseinheit 420.
Obwohl in 2 nicht dargestellt,
könnte auch
eine Kommunikation zwischen der Datenbank 180 für Umschreibungen
und einer oder mehreren Komponenten des tragbaren Endgeräts 100,
wie der Einheit 190 zum Ausgeben einer visuellen Rückkopplung, über die
Schnittstelle 200 stattfinden.
-
Wenn eine SIM-Karte 170 mit
einer leeren Datenbank 150 für Aufforderungsansagen in das
in 2 dargestellte tragbare
Endgerät 100 eingefügt wird,
kann die leere Datenbank 150 für Aufforderungsansagen, wie
oben hinsichtlich des tragbare Endgeräts von 1 beschrieben, gefüllt werden. Der einzige Unterschied
ist, dass die Kodierungseinheit 410 mit der Datenbank 150 für Aufforderungsansagen
nicht unmittelbar sondern über
die Schnittstelle 200 verbunden ist.
-
Wenn eine SIM-Karte 170 mit
einer zumindest teilweise gefüllten
Datenbank 150 für
Aufforderungsansagen in das tragbare Endgerät 100 eingefügt wird,
und wenn die Datenbank 130 für akustische Modelle nicht
schon ein akustisches Modell für
jede in Datenbank 150 für
Aufforderungsansagen gespeicherte Aufforderungsansage enthält, kann
die Datenbank 130 für
akustische Modelle mittels des Modell-Erzeugers 430 gefüllt werden,
wie es oben hinsichtlich des in 1 dargestellte
tragbare Endgeräts
erklärt
wurde. Das tragbare Endgerät 100 aus 2 empfängt die sprecherunabhängigen oder sprecher-abhängigen Aufforderungsansagen,
auf Grundlage derer akustische Modelle erzeugt werden sollen, über die
Schnittstelle 200 von der Datenbank 150 für Aufforderungsansagen.
Nach dem Dekodieren in der Dekodierungseinheit 420 werden
die empfangenen Aufforderungsansagen zu dem Modell-Erzeuger 430 transferiert.
Der Modell-Erzeuger 430 erzeugt dann für jede Aufforderungsansage
eine Menge von Referenzvektoren, und jede Menge von Referenzvektoren
wird als ein akustisches Modell in der Datenbank 130 für akustische
Modelle gespeichert.
-
Sobald die SIM-Karte 170 mit
der Datenbank 150 für
Aufforderungsansagen in das tragbare Endgerät 100 eingefügt wurde,
wird das Erzeugen der akustischen Modelle vorzugsweise beim Einschalten des
tragbaren Endgerätes 100 ausgelöst. Folglich werden
die Aufforderungsansagen und die den akustischen Modellen entsprechenden
Erkennungsreferenzen ohne Training oder Aufzeichnung sofort verfügbar.
-
Selbstverständlich kann das oben mit Bezug auf
die in 1 und 2 dargestellten tragbaren
Endgeräte
beispielhaft beschriebene erfinderische Konzept auch in Zusammenhang
mit anderen tragbaren Endgeräten
wie PDAs oder Laptops angewandt werden.