-
HINTERGRUND
DER ERFINDUNG
-
1. Technisches
Gebiet
-
Die
Erfindung betrifft das Gebiet der automatischen Spracherkennung
und insbesondere ein mobiles Endgerät, das durch gesprochene Äußerungen wie
Eigennamen und Befehlsworte steuerbar ist. Die Erfindung betrifft
ferner ein Verfahren zur Bereitstellung von akustischen Modellen
für die
automatische Spracherkennung in einem derartigen mobilen Endgerät.
-
2. Diskussion
des Standes der Technik
-
Viele
mobile Endgeräte
wie Mobiltelefone oder Personal Digital Assistants enthalten das
Merkmal des Steuerns einer oder mehrerer Funktionen durch das Äußern entsprechender
Schlüsselworte. Es
gibt z.B. Mobiltelefone, die das Entgegennehmen eines Anrufs oder
die Verwaltung eines Telefonbuches durch das Äußern von Befehlsworten ermöglichen.
Ferner erlauben viele Mobiltelefone die sogenannte Sprachwahl, welche
durch Äußern des
Namens einer Person initiiert wird.
-
Das
Steuern eines mobilen Endgerätes durch
gesprochene Äußerungen
erfordert die Anwendung einer automatischen Spracherkennung. Während der
automatischen Spracherkennung vergleicht ein automatischer Spracherkenner
zuvor erzeugte akustische Modelle mit einer erkannten gesprochenen Äußerung.
Die akustischen Modelle können
sprecherabhängig
oder sprecherunabhängig
erzeugt werden.
-
Bis
heute wenden die meisten mobilen Endgeräte die sprecherabhängige Spracherkennung
und somit sprecherabhängige
akustische Modelle an. Die Verwendung sprecherabhängiger akustischer
Modelle erfordert, daß ein
individueller Benutzer des mobilen Endgerätes ein Vokabular trainieren
muß, auf Grundlage
dessen die automatische Spracherkennung erfolgt. Das Training wird
gewöhnlich
durch ein- oder mehrmaliges Sprechen eines bestimmten Schlüsselwortes
vorgenommen, um so das entsprechende sprecherabhängige akustische Modell zu
erzeugen.
-
Die
auf sprecherabhängigen
akustischen Modellen basierende Spracherkennung in mobilen Endgeräten stellt
nicht immer eine optimale Lösung dar.
Zunächst
ist das Erfordernis eines separaten Trainings für jedes Schlüsselwort,
das zum Steuern des mobilen Endgerätes verwendet werden soll,
zeitaufwendig und wird vom Benutzer als lästig empfunden. Da die sprecherabhängigen akustischen
Modelle gewöhnlich
im mobilen Endgerät
selbst gespeichert werden, stehen ferner die mittels einer Trainingsprozedur
erzeugten sprecherabhängigen
akustischen Modelle nur für
dieses eine mobile Endgerät zur
Verfügung.
Dies bedeutet, daß die
zeitaufwendige Trainingsprozedur wiederholt werden muß, sobald der
Benutzer ein neues mobiles Endgerät erwirbt.
-
Aufgrund
der obengenannten Nachteile der sprecherabhängigen Spracherkennung wenden
mobile Endgeräte
manchmal die sprecherunabhängige Spracherkennung
an, d.h. eine Spracherkennung, deren Grundlage sprecherunabhängige akustische Modelle
sind. Es gibt mehrere Möglichkeiten
sprecherunabhängige
akustische Modelle zu erstellen. Stellen die gesprochenen Schlüsselworte
zum Steuern des mobilen Endgerätes
ein begrenztes Set an Befehlsworten dar, die vorgegeben sind, d.h.
die nicht durch den Benutzer des mobilen Endgerätes definiert sind, so können die
sprecherunabhängigen Referenzen
durch eine Mittelwertbildung der gesprochenen Äußerungen einer großen Anzahl
von verschiedenen Sprechern erzeugt und in dem mobilen Endgerät vor dessen
Verkauf gespeichert werden.
-
Können andererseits
die gesprochenen Schlüsselworte
zum Steuern des mobilen Endgerätes
vom Benutzer frei ausgewählt
werden, so muß ein
anderes Verfahren angewendet werden. Ein Computersystem zum Erzeugen
sprecherunabhängiger
Referenzen zur freien Auswahl gesprochener Schlüsselworte, d.h. Schlüsselworte,
die dem Computersystem unbekannt sind, ist in der
EP 0 590 173 A1 sowie in
der WO-A-00/65807 beschrieben. Das Computersystem analysiert jedes
unbekannte gesprochene Schlüsselwort
und synthetisiert eine entsprechende sprecherunabhängige Referenz
mittels einer phonetischen Datenbank. Allerdings umfaßt das in
der
EP 0 590 173 A1 gelehrte
Computersystem einen sehr großen
Speicher sowie ausgefeilte rechenbezogene Ressourcen zum Erzeugen
der sprecherunabhängigen
Referenzen, die im allgemeinen in kleinen und leichten mobilen Endgeräten nicht
verfügbar
sind.
-
Aus
diesem Grund besteht ein Bedarf an einem mobilen Endgerät, das durch
frei ausgewählte gesprochene
Schlüsselworte
auf der Grundlage von sprecherunabhängigen oder sprecherabhängigen akustischen
Modellen steuerbar ist und bei der Anwendung von sprecherabhängigen akustischen
Modellen ein Minimum an Benutzertraining erfordert. Ferner besteht
ein Bedarf an einem Netzwerkserver für ein derartiges mobiles Endgerät sowie
an einem Verfahren zum Erhalten akustischer Modelle für ein derartiges
mobiles Endgerät.
-
Gemäß der vorliegenden
Erfindung wird ein Netzwerkserver gemäß Anspruch 1, ein mobiles Endgerät gemäß Anspruch
10 sowie ein Verfahren gemäß Anspruch
15 bereitgestellt. Die Schnittstelle sowohl des Netzwerkservers
als auch eines jeden mobilen Endgerätes kann als eine oder mehrere
zusätzliche
Hardwarekomponenten oder aber als Softwarelösung zum Betreiben bereits
existierender Hardwarekomponenten konfiguriert sein.
-
Die
für die
automatische Spracherkennung zu verwendenden akustischen Modelle
werden somit vom Netzwerkserver bereitgestellt, der die akustischen
Modelle an ein mobiles Endgerät überträgt. Das
mobile Endgerät
erkennt gesprochene Äußerungen
aufgrund der phonetischen Erkennungseinheiten der akustischen Modelle,
die vom Netzwerkserver übertragen
bzw. von diesem empfangen werden.
-
Wie
aus dem Obigen hervorgeht, werden die akustischen Modelle zentral
und für
eine Vielzahl von mobilen Endgeräten
von einem einzigen Netzwerkserver bereitgestellt. Die vom Netzwerkserver
bereitgestellten akustischen Modelle können sowohl sprecherabhängig als
auch sprecherunabhängig
sein. Die akustischen Modelle können
vom Netzwerkserver z.B. durch Speichern der von dem mobilen Endgerät herunterzuladenden
akustischen Modelle in einer Netzwerkserver-Datenbank oder durch Erzeugen der
herunterzuladenden akustischen Modelle auf Befehl bereitgestellt
werden.
-
Im
Falle sprecherunabhängiger
akustischer Modelle sind die für
das Erzeugen der sprecherunabhängigen
akustischen Modelle erforderlichen Rechen- und Speicherressourcen
netzwerkserverseitig angebracht und werden von einer Vielzahl an
mobilen Endgeräten
geteilt. Folglich können
mobile Endgeräte
durch frei ausgewählte
gesprochene Äußerungen
sowie aufgrund sprecherunabhängiger
Spracherkennung ohne einen signifikanten Anstieg der Hardwareerfordernisse
für die
mobilen Endgeräte gesteuert
werden. Ferner können
die mobilen Endgeräte
selbst sprach- und landesunabhängig
gehalten werden, da jegliche sprachabhängige Ressourcen, die für die sprecherunabhängige Spracherkennung
notwendig sind, von dem mobilen Endgerät an den Netzwerkserver übertragen
werden können.
Da zudem die sprecherunabhängige
Spracherkennung verwendet wird, ist für das mobile Endgerät vor dem Steuern
desselben durch gesprochene Äußerungen kein
Benutzertraining erforderlich.
-
Bei
Verwendung sprecherabhängiger
akustischer Modelle müssen
die sprecherabhängigen akustischen
Modelle jeweils nur einmal trainiert werden und können dann
im Netzwerkserver gespeichert werden. Folglich können die sprecherabhängigen akustischen
Modelle vom Netzwerkserver an jedes mobile Endgerät übertragen
werden, welches der Benutzer mittels gesprochener Äußerungen
zu steuern beabsichtigt. Erwirbt beispielsweise der Benutzer ein
neues mobiles Endgerät,
so ist kein weiteres Training notwendig, um dieses neue mobile Endgerät mittels
gesprochener Äußerungen
zu steuern. Der Benutzer muß z.B.
lediglich die sprecherabhängigen
akustischen Modelle von seinem alten mobilen Endgerät in den
Netzwerkserver laden und diese akustischen Modelle anschließend wieder
vom Netzwerkserver in sein neues mobiles Endgerät laden. Selbstverständlich funktioniert
dies auch mit sprecherunabhängigen
akustischen Modellen.
-
Die
Erfindung ermöglicht
es deshalb, die rechenbezogenen Erfordernisse an mobile Endgeräte zu verringern,
wenn sprecherunabhängige
akustische Modelle für
die automatische Spracherkennung verwendet werden. Bei Verwendung
von sprecherab hängigen
akustischen Modellen für
die automatische Spracherkennung muß nur eine einzige Trainingsprozedur
angewandt werden, um eine Vielzahl von mobilen Endgeräten durch
die automatische Spracherkennung zu steuern.
-
Vorzugsweise
werden sprecherunabhängige akustische
Modelle aufgrund von Texttranskriptionen (z.B. im ASCII-Format)
der gesprochenen Äußerungen
erzeugt. Die Texttranskriptionen der gesprochenen Äußerungen
können
in einer Datenbank für
Texttranskriptionen in einem mobilen Endgerät enthalten sein. Die Schnittstelle
des mobilen Endgerätes
kann derart konfiguriert sein, daß sie die Übertragung der Texttranskriptionen
von dem mobilen Endgerät
an den Netzwerkserver ermöglicht.
Die Schnittstelle des Netzwerkservers kann andererseits so konfiguriert sein,
daß sie
den Empfang der Texttranskriptionen von dem mobilen Endgerät ermöglicht.
Nach dem Empfang der Texttranskriptionen von dem mobilen Endgerät kann die
Einheit zum Bereitstellen akustischer Modelle im Netzwerkserver
sprecherunabhängige
akustische Modelle aufgrund der empfangenen Texttranskriptionen
erzeugen.
-
Auch
kann die Schnittstelle des mobilen Endgerätes derart konfiguriert sein,
daß sie
die Übertragung
sprecherabhängiger
oder sprecherunabhängiger
akustischer Modelle der gesprochenen Äußerungen an den Netzwerkserver
ermöglicht.
Die Schnittstelle des Netzwerkservers kann andererseits so konfiguriert
sein, daß sie
den Empfang der akustischen Modelle von dem mobilen Endgerät ermöglicht.
Nach dem Empfang der akustischen Modelle vom mobilen Endgerät kann die
Einheit zum Bereitstellen akustischer Modelle vom Netzwerkserver
die empfangenen akustischen Modelle permanent oder vorübergehend
speichern. Die Einheit zum Bereitstellen akustischer Modelle kann
deshalb ein Speicher sein. Nachdem die akustischen Modelle im Netzwerkserver
gespeichert worden sind, können
die akustischen Modelle vom Netzwerkserver an das mobile Endgerät übertragen
werden, von dem die akustischen Modelle empfangen wurden, oder aber an
ein weiteres mobiles Endgerät.
Das Übertragen der
akustischen Modelle zurück
an das mobile Endgerät,
von dem aus die akustischen Modelle übertragen wurden, ist vorteilhaft,
wenn beispielsweise die akustischen Modelle irrtümlich gelöscht wurden. Somit kann der
Netzwerkserver als ein Backup-Mittel benutzt werden. Als Beispiel
kann der Netzwerkserver ein Backup der akustischen Modelle bzw.
weiterer Informationen wie im mobilen Endgerät gespeicherter Sprachprompts
in bestimmten Zeitabständen vornehmen.
-
Wie
oben dargelegt, kann das mobile Endgerät eine Datenbank zum Speichern
von Texttranskriptionen der gesprochenen Äußerungen umfassen. Die Texttranskriptionen
können
vom Benutzer eingegeben werden, z.B. mittels Tasten am mobilen Endgerät. Dies
kann im Zusammenhang mit der Erstellung von Einträgen für ein persönliches
Telefonbuch oder von Befehlsworten geschehen. Allerdings können die Texttranskriptionen
auch vorgegeben und vorgespeichert sein, bevor das mobile Endgerät verkauft
wird. Vorgegebene Texttranskriptionen können sich beispielsweise auf
bestimmte Befehlsworte beziehen.
-
Neben
der Datenbank für
die Texttranskriptionen kann das mobile Endgerät eine Datenbank für akustische
Modelle zum Speichern von akustischen Modellen umfassen, die im
mobilen Endgerät
erzeugt oder vom Netzwerkserver empfangen wurden. Vorzugsweise sind
beide Datenbanken derart konfiguriert, daß es für jedes Paar einer Texttranskription und
einem entsprechenden akustischen Modell eine Verknüpfung zwischen
der Texttranskription und dem entsprechenden akustischen Modell
gibt. Die Verknüpfung
kann in Form identischer Indexe i = 1 ... n innerhalb der jeweiligen
Datenbank konfiguriert sein.
-
Gemäß der Erfindung
werden die akustischen Modelle von dem Netzwerkserver aufgrund phonetischer
Transkriptionen der Texttranskriptionen erzeugt. Die phonetischen
Transkriptionen werden beispielsweise mit Hilfe einer Aussprachedatenbank erstellt,
die das Vokabular des Netzwerkservers an phonetischen Transkriptionseinheiten
wie Phoneme oder Triphone darstellt. Einzelne phonetische Transkriptionseinheiten
werden zur Bildung der phonetischen Transkription einer bestimmten
Texttranskriptionen miteinander verknüpft. In einem weiteren Schritt
werden die sprecherunabhängigen
oder sprecherabhängigen
akustischen Modelle durch das Übersetzen
der phonetischen Transkriptionseinheiten in die entsprechenden sprecherunabhängigen oder
sprecherabhängigen
phonetischen Erkennungseinheiten erzeugt, die in einem Format sind, das
von dem automatischen Spracherkenner des mobilen Endgerätes analysiert
werden kann. Das Vokabular des Netzwerkservers an phonetischen Erkennungseinheiten
kann in einer Erkennungsdatenbank des Netzwerkservers gespeichert
werden.
-
Der
Netzwerkserver kann ferner einen Sprachsynthesizer zum Erzeugen
eines Sprachprompts einer von einem mobilen Endgerät empfangenen
Texttranskription enthalten. Das Sprachprompt wird vorzugsweise
durch Verwendung derselben phonetischen Transkription erzeugt, die
zum Erstellen eines entsprechenden akustischen Modells verwendet
wird. Deshalb kann die Aussprachedatenbank sowohl von dem Sprachsynthesizer
als auch von der Einheit zum Erzeugen des sprecherunabhängigen akustischen
Modells geteilt werden.
-
Der
Sprachprompt kann durch Übersetzen der
Texttranskription in phonetische Synthetisiereinheiten erzeugt werden.
Das Vokabular des Netzwerkservers an phonetischen Synthetisiereinheiten
kann beispielsweise in einer Synthesedatenbank des Netzwerkservers
enthalten sein.
-
Nach
Erzeugung des einer Texttranskription entsprechenden Sprachprompts
kann der Sprachprompt vom Netzwerkserver an das mobile Endgerät übertragen
werden und von dem mobilen Endgerät über dessen Schnittstelle empfangen
werden. Der vom Netzwerkserver empfangene Sprachprompt kann dann
in einer Datenbank für
Sprachprompts des mobilen Endgerätes
gespeichert werden.
-
Anstelle
der oder zusätzlich
zur Erzeugung eines Sprachprompts innerhalb des Netzwerkservers kann
eine erkannte Benutzeräußerung ebenfalls
die Grundlage für
einen Sprachprompt bilden. Folglich kann der Sprachprompt innerhalb
des mobilen Endgerätes
durch Verwendung der erkannten Benutzeräußerung erzeugt werden. Somit
kann sowohl auf Sprachsynthesizer als auch auf die Synthesedatenbank
des Netzwerkservers verzichtet werden, und es können die Komplexität sowie
die Kosten des Netzwerkservers beträchtlich reduziert werden.
-
Die
Schnittstelle des mobilen Endgerätes kann
derart konfiguriert sein, daß sie
das Übertragen von
Sprachprompts vom mobilen Endgerät
an den Netzwerkserver sowie das Empfangen von Sprachprompts vom
Netzwerkserver erlaubt. Die Schnittstelle des Netzwerkservers kann
andererseits so konfiguriert sein, daß sie das Empfangen von Sprachprompts
vom mobilen Endgerät
und das Übertragen
von Sprachprompts an das mobile Endgerät erlaubt. Vorzugsweise umfaßt der Netzwerkserver
außerdem
eine Sprachpromptdatenbank zum Speichern der Sprachprompts permanent
oder vorübergehend.
Folglich können
die Sprachprompts, die entweder im mobilen Endgerät oder aber
im Netzwerkserver erzeugt wurden von der Sprachpromptdatenbank im
Netzwerkserver jederzeit und je nach Wunsch in ein mobiles Endgerät geladen
werden. Somit muß ein
Set an Sprachprompts nur einmal für eine Vielzahl von mobilen
Endgeräten
erzeugt werden.
-
Die
Sprachprompts können
zum Erzeugen eines akustischen Feedbacks nach der Erkennung einer
gesprochenen Äußerung durch
den automatischen Spracherkenner des mobilen Endgerätes verwendet
werden. Aus diesem Grund kann das mobile Endgerät ferner Komponenten zum Ausgeben
eines akustischen Feedbacks für
eine erkannte Äußerung umfassen.
Das mobile Endgerät
kann außerdem Komponenten
zum Ausgeben eines visuellen Feedbacks für eine erkannte Äußerung umfassen.
Das visuelle Feedback kann beispielsweise in der Darstellung der
Texttranskription, die der erkannten Äußerung entspricht, bestehen.
-
Gemäß einer
weiteren Ausführungsform
der Erfindung ist wenigstens ein Teil der Datenbank für die Texttranskriptionen
auf einem physikalischen Träger
angeordnet, der entfernbar mit dem mobilen Endgerät verbunden
werden kann. Der physikalische Träger kann z.B. eine Teilnehmererkennungsmodulkarte
(Subscriber Identity Module – SIM)
sein, die ebenfalls zum Speichern persönlicher Informationen verwendet
wird. Ein mobiles Endgerät
kann mit der SIM-Karte personalisiert werden. Die SIM-Karte kann weitere
Datenbanken enthalten, wenigstens teilweise wie die Datenbank des
mobilen Endgerätes
für Sprachprompts
oder für
akustische Modelle.
-
Die
Erfindung kann sowohl als Hardwarelösung als auch als ein Computerprogrammprodukt
implementiert werden, mit Programmcodebereichen zur Durchführung der
individuellen Schritte gemäß dem Verfahren,
wenn das Computerprogrammprodukt auf einem Computersystem ausgeführt wird. Das
Computerprogrammprodukt kann auf einem computerlesbaren Speichermedium
wie einem Datenträger
gespeichert werden, der am Computer angebracht oder von diesem abnehmbar
ist.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
Weitere
Aspekte und Vorteile der Erfindung werden beim Durchlesen der folgenden
detaillierten Beschreibung der bevorzugten Ausführungsformen der Erfindung
sowie im Zusammenhang mit den Figuren ersichtlich. Hierbei zeigen:
-
1 ein
schematisches Diagramm einer ersten Ausführungsform eines mobilen Endgerätes gemäß der Erfindung;
-
2 ein
schematisches Diagramm des mobilen Endgerätes gemäß 1 in Kommunikation
mit einer ersten Ausführungsform
eines Netzwerkservers gemäß der Erfindung;
-
3 ein
schematisches Diagramm einer zweiten Ausführungsform eines mobilen Endgerätes gemäß der Erfindung;
-
4 ein
schematisches Diagramm einer zweiten Ausführungsform eines Netzwerkservers
gemäß der Erfindung;
und
-
5 ein
schematisches Diagramm einer dritten Ausführungsform eines Netzwerkservers
gemäß der Erfindung.
-
BESCHREIBUNG
VON BEVORZUGTEN AUSFÜHRUNGSFORMEN
-
In
der 1 ist ein schematisches Diagramm eines ersten
Beispiels eines mobilen Endgerätes
in Form eines Mobilstelefons 100 mit Sprachwahlfunktion
gemäß der Anmeldung
dargestellt.
-
Das
Mobiltelefon 100 umfaßt
einen automatischen Spracherkenner 110, der über ein
Mikrophon 120 ein einer gesprochenen Äußerung eines Benutzers entsprechendes Signal
empfängt.
Der automatische Spracherkenner 110 kommuniziert weiterhin
mit einer Datenbank 130, die sämtliche akustische Modelle
enthält,
die zur automatischen Spracherkennung durch den automatischen Spracherkenner 110 mit
den über
das Mikrophon 120 empfangenen gesprochenen Äußerungen
verglichen werden sollen.
-
Das
Mobiltelefon 100 umfaßt
zusätzlich
eine Komponente 140 zum Erzeugen eines akustischen Feedbacks
für eine
erkannte gesprochene Äußerung.
Die Komponente 140 zum Ausgeben des akustischen Feedbacks
kommuniziert mit einer Sprachpromptdatenbank 150 zum Speichern
von Sprachprompts. Die Komponente 140 erzeugt ein akustisches
Feedback aufgrund von in der Datenbank 150 enthaltenen
Sprachprompts. Die Komponente 140 zum Ausgeben eines akustischen
Feedbacks kommuniziert ferner mit einem Lautsprecher 160,
der das akustische Feedback, welches von der Komponente 140 zum
Ausgeben des akustischen Feedbacks empfangen wurde, zurückspielt.
-
Das
in der 1 gezeigte Mobiltelefon 100 umfaßt auch
eine SIM-Karte 170, auf der eine weitere Datenbank 180 zum
Speichern von Texttranskriptionen angeordnet ist. Die SIM-Karte 170 ist
entfernbar mit dem Mobiltelefon 100 verbunden und enthält eine Liste
mit mehreren Texttranskriptionen gesprochener Äußerungen, die von dem automatischen
Spracherkenner 110 erkannt werden sollen. In dem in der 1 gezeigten
Beispiel ist die Datenbank 180 in Form eines Telefonbuchs
konfiguriert und enthält eine
Vielzahl von Telefonbucheinträgen
in Form von Namen, von denen jeder einer bestimmten Telefonnummer
zugeordnet ist. Wie aus der Zeichnung hervorgeht, bezieht sich der
erste Telefonbucheintrag auf den Namen „Tom" und der zweite Telefonbucheintrag bezieht
sich auf den Namen „Stefan". Die Texttranskriptionen
der Datenbank 180 sind als ASCII-Zeichenfolge konfiguriert.
Somit besteht die Texttranskription des ersten Telefonbucheintrages
aus den drei Zeichen „T", „O" und „M". Wie aus 1 ersichtlich
ist, weist jede Texttranskription der Datenbank 180 einen
einmaligen Index auf. Die Texttranskription „Tom" hat beispielsweise den Index „1".
-
Die
Datenbank 180 zum Speichern der Texttranskriptionen kommuniziert
mit einer Komponente 190 zum Ausgeben eines optischen Feedbacks.
Die Komponente 190 zum Ausgeben des visuellen Feedbacks
ist so konfiguriert, daß sie
die Texttranskription einer von dem automatischen Erkenner 110 erkannten
gesprochenen Äußerung darstellen
kann.
-
Die
drei Datenbasen 130, 150, 180 des Mobiltelefons 100 kommunizieren
mit einer Schnittstelle 200 des Mobiltelefons 100.
Die Schnittstelle 200 dient der Übertragung der in der Datenbank 180 enthaltenen
Texttranskriptionen an einen Netzwerkserver sowie dem Empfangen
vom Netzwerkserver eines akustischen Modells sowie eines Sprachprompts für jede an
den Netzwerkserver übertragene
Texttranskription.
-
Grundsätzlich kann
die Schnittstelle 200 in dem Mobiltelefon 100 intern
in zwei Blöcke
geteilt sein, die in der 1 nicht dargestellt sind. Ein
erster Block ist in einem Schreib-/Lese-Modus für den Zugriff auf die Datenbank 130 für akustische
Modelle, die Datenbank 150 für Sprachprompts und die Datenbank 180 für Texttranskriptionen
verantwortlich. Der zweite Block realisiert die Übertragung der in den Datenbanken 120, 150, 180 enthaltenen
Daten an den Netzwerkserver 300 unter Verwendung einer
Protokollbeschreibung, die eine verlustfreie und schnelle Datenübertragung
gewährleistet.
Eine weitere Anforderung an ein derartiges Protokoll besteht in
einem bestimmten Grad an Sicherheit. Ferner sollte das Protokoll
derart ausgelegt sein, daß es
von dem ihm zugrundeliegenden physikalischen Übertragungsmedium, z.B. Infrarot
(IR), Bluetooth, GSM, etc. unabhängig
ist. Im allgemeinen könnte
jede Art von Protokoll (proprietär
oder standardisiert) verwendet werden, das die obengenannten Anforderungen
erfüllt. Ein
Beispiel für
ein geeignetes Protokoll ist das kürzlich herausgegebene SyncML-Protokoll,
welches auf zwei Geräten
gespeicherte Informationen synchronisiert, selbst wenn die Konnektivität nicht
gewährleistet
ist. Ein derartiges Protokoll würde
die notwendigen Anforderungen zum Austauschen von Sprachprompts,
akustischen Modellen etc. für
sprachbetriebene Anwendungen in jedem mobilen Endgerät erfüllen.
-
Jede
Texttranskription wird von dem Mobiltelefon 100 zusammen
mit dem entsprechenden Index der Texttranskription an den Netzwerkserver übertragen.
Ebenso wird jedes akustische Modell und jeder Sprachprompt zusammen
mit dem Index der entsprechenden Texttranskription vom Netzwerkserver an
das Mobiltelefon 100 übertra gen.
Die sprecherunabhängigen
Referenzen sowie die vom Netzwerkserver empfangenen akustischen
Modelle werden in den entsprechenden Datenbanken 130 und 150 zusammen
mit ihren Indexen gespeichert. Jeder Index der drei Datenbanken 130, 150, 180 kann
als eine Verknüpfung
zwischen einer Texttranskription, deren entsprechendem akustischen
Modell und deren entsprechendem Sprachprompt interpretiert werden.
-
In
der 2 wird ein Netzsystem umfassend das in der 1 dargestellte
Mobiltelefon 100 und einen Netzwerkserver 300 gezeigt.
Der Netzwerkserver 300 ist so konfiguriert, daß er mit
einer Vielzahl von Mobiltelefonen 100 kommuniziert. Es
wird jedoch nur ein Mobiltelefon 100 exemplarisch in der 2 gezeigt.
-
Der
in der 2 gezeigte Netzwerkserver 300 umfaßt eine
Schnittstelle 310 zum Empfangen der Texttranskriptionen
von dem mobilen Endgerät 100 sowie
zum Übertragen
des entsprechenden akustischen Modells und des entsprechenden Sprachprompts
an das Mobiltelefon 100. Ähnlich der Schnittstelle 200 im
Mobiltelefon 100 ist die Schnittstelle 310 in
zwei Blöcke
geteilt, einen Protokolltreiberblock z.B. zur drahtlosen Verbindung
und einen Zugriffsblock, der Daten zu Standorten wie Datenbanken,
Verarbeitungseinrichtungen etc. im Netzwerkserver 300 überträgt. Die
Blöcke
sind in der 2 nicht dargestellt.
-
Die
Schnittstelle 310 des Netzwerkservers 300 kommuniziert
mit einer Einheit 320 zum Bereitstellen akustischer Modelle
und einem Sprachsynthesizer 330. Die Einheit 320 empfängt Eingaben
von einer Erkennungsdatenbank 340, die phonetische Erkennungseinheiten
enthält,
sowie von einer Aussprachedatenbank 350, die phonetische
Transkriptionseinheiten enthält.
Der Sprachsynthesizer 330 empfängt Eingaben von der Aussprachedatenbank 350 und
einer Synthesedatenbank 360, die phonetische Synthetisiereinheiten
enthält.
-
Als
nächstes
wird die Erzeugung eines sprecherunabhängigen akustischen Modells
für eine
in der Datenbank 180 des Mobiltelefons 100 enthaltene Texttranskription
beschrieben. Dieses sowie weitere von dem Mobiltelefon 100 durchgeführte Verfah ren werden
von einer in den Figuren nicht dargestellten zentralen Steuereinheit
gesteuert.
-
Im
folgenden wird angenommen, daß ein
Benutzer ein neues Mobiltelefon 100 mit einer leeren Datenbank 130 für akustische
Modelle und einer leeren Datenbank 150 für Sprachprompts
erworben hat. Der Benutzer verfügt
bereits über
eine SIM-Karte 170 mit einer Datenbank 180, die
indizierte Texttranskriptionen wie „Tom" und „Stefan" enthält. Die SIM-Karte 170 umfaßt ferner
eine Datenbank, die indizierte Telefonnummern enthält, welche
auf die in der Datenbank 170 enthaltene Texttranskriptionen
bezogen sind. Die die Telefonnummern enthaltende Datenbank ist in
der Zeichnung nicht dargestellt.
-
Setzt
der Benutzer die SIM-Karte 170 zum ersten Mal in sein neu
erworbenes Mobiltelefon 100 ein, so muß wenigstens die Datenbank 130 für akustische
Modelle gefüllt
werden, um es dem Benutzer zu ermöglichen, eine Verbindung durch Äußern eines der
Namen, die in der Datenbank 180 für Texttranskriptionen enthalten
sind, aufzubauen. Somit überträgt das Mobiltelefon 100 in
einem ersten Schritt die in der Datenbank 180 enthaltenen
Texttranskriptionen über
die Schnittstelle 200 an den Netzwerkserver 300.
Die Verbindung zwischen dem Mobiltelefon 100 und dem Netzwerkserver 300 ist
entweder eine drahtlos betriebene Verbindung, z.B. gemäß einem GSM-,
einem UMTS, einem Bluetooth-Standard, oder gemäß einem IR-Standard oder aber
eine drahtgebundene Verbindung.
-
Die
Einheit 320 zum Bereitstellen von Referenzmodellen und
der Sprachsynthesizer 330 des Netzwerkservers 300 empfangen
die indizierten Texttranskriptionen über die Schnittstelle 310.
Die Einheit 320 übersetzt
dann jede Texttranskription in deren phonetische Transkription.
Die phonetische Transkription besteht aus einer Sequenz phonetischer Transkriptionseinheiten
wie Phonemen oder Triphonen. Die phonetischen Transkriptionseinheiten
werden von der Aussprachedatenbank 350 aus in die Einheit 320 geladen.
-
Aufgrund
der Sequenz phonetischer Transkritpionseinheiten, die einer bestimmten
Texttranskription entsprechen, erzeugt die Einheit 320 dann
ein dieser Texttranskrip tion entsprechendes sprecherabhängiges oder
sprecherunabhängiges
akustisches Modell. Dies geschieht durch Übersetzen jeder phonetischen
Transkriptionseinheit der Sequenz phonetischer Transkriptionseinheiten
in deren entsprechende sprecherabhängige oder sprecherunabhängige phonetische
Erkennungseinheiten. Die phonetischen Erkennungseinheiten sind in
der Erkennungsdatenbank 340 in einer Form enthalten, die
von dem automatischen Spracherkenner 110 des Mobiltelefons 100 analysiert
werden kann, z.B. in der Form von Merkmalsvektoren. Ein akustisches
Modell wird somit durch die Verknüpfung einer Vielzahl von phonetischen
Erkennungseinheiten gemäß der Sequenz phonetischer
Transkriptionseinheiten erzeugt.
-
Gleichzeitig
mit der Erzeugung eines akustischen Modells erzeugt der Sprachsynthesizer 330 einen
Sprachprompt für
jede von dem Mobiltelefon 100 empfangene Texttranskription.
Zunächst
erzeugt der Sprachsynthesizer 330 eine phonetische Transkription
von jeder Texttranskription. Dies erfolgt in derselben Art und Weise,
wie oben im Zusammenhang mit der Einheit 320 zum Bereitstellen
akustischer Modelle erläutert.
Außerdem
wird dieselbe Aussprachedatenbank 350 verwendet. Aufgrund
der Tatsache, daß die
Aussprachedatenbank 350 zum Erzeugen sowohl der akustischen
Modelle als auch der Sprachprompts verwendet wird, können Synthesefehler während des
Erstellens von Sprachprompts vermieden werden. Wenn beispielsweise
das deutsche Wort „Bibelried" mit zwei Vokalen „i" und „e" in „Bibel" anstelle eines langen „i" synthetisiert wird,
so könnte dies
vom Benutzer unmittelbar gehört
und korrigiert werden.
-
Aufgrund
der Sequenz phonetischer Transkriptionseinheiten, die die phonetische
Transkription darstellt, erzeugt der Sprachsynthesizer 330 einen Sprachprompt,
indem er für
jede in der Sequenz von Transkriptionseinheiten enthaltene phonetische Transkriptionseinheit
die entsprechende phonetische Synthetisiereinheit von der Synthesedatenbank 360 lädt. Die
so erhaltenen phonetischen Synthetisiereinheiten werden dann mit
dem Sprachprompt einer Texttranskription verknüpft.
-
Während der
Erstellung des akustischen Modells und des Sprachprompts wird jedes
akustische Modell sowie jeder Sprachprompt mit dem Index der entsprechenden
Texttranskription versehen. Das indizierte sprecherunabhängige akustische
Modell und die indizierten Sprachprompts werden dann über die Schnittstelle 310 des
Netzwerkservers 300 an das Mobiltelefon 100 übertragen.
Innerhalb des Mobiltelefons 100 werden die indizierten
sprecherunabhängigen
akustischen Modelle und die indizierten Sprachprompts über die
Schnittstelle 200 empfangen und in die entsprechenden Datenbanken 130, 150 geladen.
So wird die Datenbank 130 für die akustischen Modelle und
die Datenbank 150 für
die Sprachprompts gefüllt.
-
Nachdem
die Datenbank 130 für
akustische Modelle und die Datenbank 150 für Sprachprompts gefüllt worden
sind, kann eine Telefonverbindung mittels einer gesprochenen Äußerung aufgebaut
werden. Um eine Verbindung aufzubauen, muß ein Benutzer eine Äußerung entsprechend
einer in der Datenbank 180 enthaltenen Texttranskription
sprechen, z.B. „Stefan". Diese gesprochene Äußerung wird vom
Mikrophon 120 in ein Signal umgewandelt, welches dem automatischen
Spracherkenner zugeführt 110 wird.
-
Wie
oben erwähnt,
werden die akustischen Modelle in der Datenbank 130 als
eine Sequenz von Merkmalsvektoren gespeichert. Der automatische Spracherkenner 110 analysiert
das Signal vom Mikrophon 120 entsprechend der gesprochenen Äußerung,
um deren Merkmalsvektoren zu erhalten. Dieses Verfahren wird als
Merkmalsextraktion bezeichnet. Um ein Erkennungsresultat zu erzeugen,
paßt der
automatische Spracherkenner 110 die Referenzvektoren der
gesprochenen Äußerung „Stefan" an die Referenzvektoren
an, die in der Datenbank 130 für jede Texttranskription gespeichert
sind. Somit findet ein Mustervergleich statt.
-
Da
die Datenbank 130 ein der gesprochenen Äußerung „Stefan" entsprechendes akustisches Modell enthält, wird
von dem automatischen Spracherkenner 110 ein Erkennungsresultat
in Form des Indexes „2", welcher der Texttranskription „Stefan" entspricht, sowohl
an die Komponente 140 zum Ausgeben eines akustischen Feedbacks
als auch an die Komponente 190 zum Ausgeben eines visuellen Feedbacks
ausgegeben.
-
Die
Komponente 140 zum Ausgeben eines akustischen Feedbacks
lädt den
dem Index „2" entsprechenden Sprachprompt
von der Datenbank 150 und erzeugt ein akustisches Feedback,
das dem synthetisierten Wort „Stefan" entspricht. Das
akustische Feedback wird von dem Lautsprecher 160 zurückgespielt.
Gleichzeitig lädt
die Komponente 190 zum Ausgeben eines visuellen Feedbacks
die dem Index „2" entsprechende Texttranskription
von der Datenbank 180 und gibt ein visuelles Feedback aus,
indem sie die Zeichenfolge „Stefan" anzeigt.
-
Der
Benutzer kann nun das akustische und das visuelle Feedback bestätigen, und
eine Verbindung kann aufgrund der Telefonnummer mit dem Index „2" aufgebaut werden.
Das akustische und das visuelle Feedback kann beispielsweise bestätigt werden,
indem eine Bestätigungstaste
des Mobiltelefons 100 gedrückt wird oder durch Sprechen
einer weiteren Äußerung,
die sich auf ein Befehlswort zur Bestätigung wie „Ja" oder „Anrufen" bezieht. Akustische Modelle und Sprachprompts
für das
Bestätigungsbefehlswort
sowie für
andere Befehlsworte können
in derselben Art und Weise erzeugt werden, wie oben in bezug auf
das Erstellen von sprecherabhängigen und
sprecherunabhängigen
akustischen Modellen beschrieben wurde, und wie es im folgenden
in bezug auf das Erstellen sprecherabhängiger akustischer Modelle
beschrieben wird.
-
Gemäß einem
weiteren Aspekt der Anmeldung werden die in der Datenbank 150 gespeicherten
Sprachprompts nicht vom Netzwerkserver 300, sondern im
Mobiltelefon 100 erzeugt. Die Rechen- und Speicherressourcen
des Netzwerkservers können
somit erheblich reduziert werden, da auf den Sprachsynthesizer 330 und
die Synthesedatenbank 360 verzichtet werden kann.
-
Ein
Sprachprompt für
eine bestimmte Texttranskription kann im Mobiltelefon 100 aufgrund
einer gesprochenen Äußerung erzeugt
werden, die von dem automatischen Spracherkenner 110 erkannt wird.
Vorzugsweise wird die der bestimmten Texttranskription entsprechende
erste erkannte Äußerung zum
Erzeugen des entsprechenden Sprachprompts für die Datenbank 150 verwendet.
Ein für
eine bestimmte Texttranskription erzeugter Sprachprompt wird in
der Datenbank 150 für
Sprachprompts nur dann permanent gespeichert, wenn der automatische
Spracherkenner 110 ein entsprechendes akustisches Modell
finden kann und wenn der Benutzer die ses Erkennungsresultat bestätigt, z.B.
durch Aufbauen einer Verbindung. Ansonsten wird der Sprachprompt
verworfen.
-
Aufgrund
der Tatsache, daß sämtliche sprach-
und länderabhängigen Komponenten
wie die Aussprachedatenbank 350, die Erkennungsdatenbank 340 und
die Synthesedatenbank 360 auf der Seite des Netzwerkservers 300 vorgesehen
sein können,
kann das Mobiltelefon 100 im Fall von sprecherunabhängigen akustischen
Modellen sprach- und länderunabhängig gehalten
werden.
-
Gemäß einer
in der 2 nicht dargestellten Variante umfaßt der Netzwerkserver 300 eine
Vielzahl von Aussprachedatenbanken, Erkennungsdatenbanken und Synthesedatenbanken,
wobei jede Datenbank sprachspezifisch ist. Ein Benutzer des Mobiltelefons 100 kann
in diesem einen bestimmten Sprachcode auswählen. Dieser Sprachcode wird
zusammen mit den Texttranskriptionen an den Netzwerkserver 300 übertragen,
der so sprachabhängige und
sprecherunabhängige
akustische Modelle und Sprachprompts aufgrund des vom Mobiltelefon 100 empfangenen
Sprachcodes erzeugen kann. Der vom Netzwerkserver 300 empfangene
Sprachcode kann auch dazu verwendet werden, sprachspezifische akustische
oder visuelle Benutzeranleitungen vom Netzwerkserver 300 in
das Mobiltelefon 100 herunterzuladen. Die Benutzeranleitungen
können
den Benutzer beispielsweise darüber
informieren, wie das Mobiltelefon 100 bedient wird.
-
In
dem oben mit Bezugnahme auf die 1 und 2 beschriebenen
Beispiel eines Mobiltelefons 100 und eines Netzwerkservers 300 wurden
die akustischen Modelle vom Netzwerkserver 300 in einer
sprecherabhängigen
oder sprecherunabhängigen
Art und Weise erzeugt, und die Sprachprompts wurden entweder sprecherunabhängig innerhalb
des Netzwerkservers 300 synthetisiert oder sprecherabhängig im
Mobiltelefon 100 aufgenommen. Selbstverständlich kann
die Datenbank 130 für
akustische Modelle auch sowohl sprecherunabhängige als auch sprecherabhängige akustische
Modelle umfassen. Sprecherunabhängige
akustische Modelle können beispielsweise
vom Netzwerkserver 300 erzeugt werden oder aber im Mobiltelefon 100 vorgegeben und
vorgespeichert sein. Sprecherabhängige
akustische Modelle können
gemäß der folgenden
detaillierten Beschreibung erzeugt werden. Auch kann die Datenbank 150 für Sprachprompts
sowohl sprecherunabhängige
Sprachprompts umfassen, die z.B. im Netzwerkserver 300 erzeugt
werden, als auch – wie oben
beschrieben – sprecherabhängige Sprachprompts,
die durch Verwendung der einer bestimmten Texttranskription entsprechenden
ersten erkannten Äußerung erzeugt
werden. Ferner kann eine oder beide der Datenbanken 340 und 350 des
Netzwerkservers als sprecherabhängige
Datenbank konfiguriert sein.
-
In
der 3 wird eine Ausführungsform eines Mobiltelefons 100 gemäß der Erfindung
dargestellt. Das in der 3 gezeigte Mobiltelefon 100 hat einen ähnlichen
Aufbau wie das in der 1 dargestellte Mobiltelefon 100.
Das Mobiltelefon 100 umfaßt wiederum eine Schnittstelle 200 zur
Kommunikation mit einem Netzwerkserver.
-
Im
Gegensatz zu dem in der 1 dargestellten Mobiltelefon 100 umfaßt das in
der 3 dargestellte Mobiltelefon 100 jedoch
weiterhin eine Trainingseinheit 400, die sowohl mit dem
automatischen Spracherkenner 110 als auch mit der Datenbank 130 für akustische
Modelle kommuniziert. Ferner umfaßt das Mobiltelefon 100 gemäß 3 eine
Kodiereinheit 410, die sowohl mit dem Mikrophon 120 als
auch mit der Datenbank 150 für Sprachprompts kommuniziert,
sowie eine Dekodiereinheit 420, die sowohl mit der Datenbank 150 für Sprachprompts
als auch mit der Komponente 140 zum Erzeugen eines akustischen
Feedbacks kommuniziert.
-
Die
Trainingseinheit 400 und die Kodiereinheit 410 des
Mobiltelefons 100 gemäß 3 werden von
einer in der 3 nicht dargestellten zentralen Steuereinheit
gesteuert, um sprecherabhängige akustische
Modelle und sprecherabhängige
Sprachprompts wie folgt zu erstellen.
-
Das
Mobiltelefon 100 wird derart gesteuert, daß ein Benutzer
aufgefordert wird, jedes Schlüsselwort,
wie jeden für
die Sprachsteuerung des Mobiltelefons 100 zu verwendenden
Eigennamen oder jedes Befehlswort, einmal oder mehrfach zu äußern. Der automatische
Spracherkenner 100 gibt jede Trainingsäußerung in die Trainingseinheit 400 ein,
die durch Unterdrücken
von Ruhe- und Rauschintervallen zu Beginn und am Ende jeder Äußerung als
ein Sprachaktivitätsdetektor
fungiert. Die so gefilterte Äußerung wird
dem Benutzer dann zur Bestätigung ausgegeben.
Bestätigt
der Benutzer die gefilterte Äußerung,
speichert die Trainingseinheit 400 ein entsprechendes sprecherabhängiges akustisches
Modell in der Datenbank 130 für akustische Modelle in Form
einer Sequenz von Referenzvektoren.
-
Für jedes
zu trainierende Schlüsselwort
wird eine vom Benutzer ausgewählte
Trainingsäußerung vom
Mikrophon 120 in die Kodiereinheit 410 eingegeben,
zum Kodieren dieser Äußerung gemäß einem Format,
das wenige Speicherressourcen in der Datenbank 150 für Sprachprompts
zuordnet. Die Äußerung wird
dann in der Datenbank 150 für Sprachprompts gespeichert.
Hierdurch wird die Datenbank 150 für Sprachprompts mit sprecherabhängigen Sprachprompts
gefüllt.
Soll ein Sprachprompt zurückgespielt
werden, so wird ein von der Datenbank 150 geladener kodierter
Sprachprompt von der Dekodiereinheit 420 dekodiert und
in einem dekodierten Format der Komponente 140 zum Erzeugen
eines akustischen Feedbacks zugeführt.
-
Sobald
die Datenbank 130 für
akustische Modelle und die Datenbank 150 für Sprachprompts gefüllt sind,
kann das in der 3 gezeigte Mobiltelefon 100 wie
oben im Zusammenhang mit dem Mobiltelefon 100 gemäß 1 durch
gesprochene Äußerungen
gesteuert werden.
-
Gewöhnlich ist
die Lebensdauer eines Mobiltelefons 100 eher kurz. Erwirbt
ein Benutzer ein neues Mobiltelefon, so entfernt er normalerweise
einfach die SIM-Karte 170 mit der Datenbank 180 für Texttranskriptionen
aus dem alten Mobiltelefon und setzt diese in das neue Mobiltelefon
ein. So sind die Texttranskriptionen, z.B. ein Telefonbuch, sofort
im neuen Mobiltelefon verfügbar.
Die Datenbank 130 für
akustische Modelle und die Datenbank 150 für Sprachprompts
bleiben dagegen leer.
-
Gemäß dem Stand
der Technik muß der
Benutzer deshalb dieselbe zeitaufwendige Trainingsprozedur wiederholen,
die er bereits beim alten Mobiltelefon vollzogen hat, um die Datenbank 130 für akustische
Modelle und die Datenbank 150 für Sprachprompts zu füllen. Gemäß der Erfindung
kann jedoch die zeitaufwendige Trainingsprozedur zum Füllen der
Datenbanken 130, 150 entfallen. Dies deshalb,
da die Schnittstelle 200 zum Übertragen von Inhalten der
Datenbank 130 für
akustische Modelle und der Datenbank 150 für Sprachprompts
an einen Netzwerkserver und zum späteren Empfangen der entsprechenden
Inhalte vom Netzwerkserver vorgesehen ist.
-
In
der 4 ist ein zur Kommunikation mit dem Mobiltelefon 100 gemäß 3 ausgelegter Netzwerkserver 300 gezeigt.
Der Netzwerkserver 300 gemäß 4 weist
dieselben Komponenten und dieselben Funktionen auf, wie der Netzwerkserver 300 gemäß 2.
Zusätzlich
umfaßt
der Netzwerkserver 300 gemäß 4 drei Datenbanken 370, 380, 390,
die mit der Schnittstelle 310 kommunizieren. Die Datenbank 370 fungiert
als eine Einheit zum Bereitstellen akustischer Modelle und ist für die vorübergehende
Speicherung akustischer Modelle ausgelegt. Die Datenbank 380 ist
zur vorübergehenden
Speicherung von Sprachprompts ausgelegt, und die Datenbank 390 ist
zur vorübergehenden
Speicherung von Texttranskriptionen ausgelegt.
-
Die
Funktionsweise eines Netzwerksystems mit dem Mobiltelefon 100 gemäß 3 und
dem Netzwerkserver 300 gemäß 4 ist wie
folgt.
-
Nachdem
die Datenbank 130 für
akustische Modelle und die Datenbank 150 für Sprachprompts des
Mobiltelefons 100 mit sprecherabhängigen akustischen Modellen
und sprecherabhängigen
Sprachprompts gefüllt
wurden, leitet der Benutzer des Mobiltelefons 100 einen Übertragungsprozeß ein, woraufhin
die im Mobiltelefon 100 erzeugten sprecherabhängigen akustischen
Modelle und die sprecherabhängigen
Sprachprompts mittels der Schnittstelle 200 an den Netzwerkserver übertragen
werden.
-
Die
akustischen Modelle und die Sprachprompts vom Mobiltelefon 100 werden über die Schnittstelle 310 vom
Netzwerkserver 300 empfangen. Danach werden die empfangenen
akustischen Modelle in der Datenbank 370 gespeichert, und
die empfangenen Sprachprompts werden in der Datenbank 380 des
Netzwerkservers 300 gespeichert. Wie bereits im Zusammenhang
mit dem in der 2 gezeigten Netzwerksystem erwähnt, werden
die akustischen Modelle und die Sprachprompts wiederum vom Mobiltelefon 100 zusammen
mit deren jeweiligen Indexen übertragen
und in den Datenbanken 370, 380 des Netzwerkservers 300 in
indizierter Weise gespeichert. Hierdurch ist es möglich, jedem
im Netzwerkserver 300 gespeicherten akustischen Modell
und jedem Sprachprompt zu einem späteren Zeitpunkt eine entsprechende
Texttranskription zuzuordnen.
-
Erwirbt
der Benutzer nun ein neues Mobiltelefon 100 und setzt die
SIM-Karte 170 mit der indizierte Texttranskriptionen enthaltenden
Datenbank 180 in das neue Mobiltelefon 100 ein,
so ist die Datenbank 130 für akustische Modelle und die
Datenbank 150 für
Sprachprompts zunächst
leer. Der Benutzer des neuen Mobiltelefons 100 kann jedoch
eine Übertragungsprozedur
einleiten, woraufhin die leere Datenbank 130 für akustische
Modelle und die leere Datenbank 150 für Sprachprompts mit den indizierten
Inhalten der entsprechenden Datenbanken 370 und 380 im
Netzwerkserver 300 gefüllt
werden. Somit werden die indizierten akustischen Modelle in der
Datenbank 370 für
akustische Modelle und die indizierten Sprachprompts in der Datenbank 380 für Sprachprompts
von der Schnittstelle 310 des Netzwerkservers an das neue
mobile Endgerät 100 in
die entsprechenden Datenbanken 130, 150 des mobilen
Endgerätes 100 übertragen.
Die zeitaufwendige Prozedur des erneuten Trainierens sprecherabhängiger akustischer
Modelle und sprecherabhängiger
Sprachprompts bei einem neuen Mobiltelefon kann somit entfallen,
sofern die Trainingsprozedur für
das alte Mobiltelefon durchgeführt
wurde.
-
Gemäß einer
Variante des Netzwerksystems mit einem Mobiltelefon 100 gemäß 3 und
einem Netzwerkserver 300 gemäß 4 können die
Texttranskriptionen der Datenbank 180 für Texttranskriptionen des Mobiltelefons 100 ebenfalls
vom Mobiltelefon 100 an den Netzwerkserver 300 übertragen werden
und wenigstens vorübergehend
in der weiteren Datenbank 390 für Texttranskriptionen des Netzwerkservers 300 gespeichert
werden. Erwirbt ein Benutzer ein neues Mobiltelefon mit einer neuen SIM-Karte 170,
d.h. mit einer SIM-Karte 170, die eine leere Datenbank 180 für Texttranskriptionen
aufweist, so muß der
Benutzer folglich die Datenbank 180 für Texttranskriptionen nicht
neu erstellen. Er muß lediglich
die Datenbank 180 für
Texttranskriptionen des Mobiltelefons 100 mit den Inhalten
der entsprechenden Datenbank 390 des Netzwerkservers 300 wie
oben erläutert
füllen.
-
Der
in der 4 dargestellte Netzwerkserver 300 kann
sowohl für
das mobile Endgerät 100 gemäß 1 verwendet
werden, welches vorzugsweise auf der Grundlage von sprecherunabhängigen akustischen
Modellen arbeitet, als auch für
das mobile Endgerät
gemäß 3,
welches so ausgelegt ist, daß es
mit sprecherabhängigen
akustischen Modellen arbeitet. Selbstverständlich kann der Netzwerkserver 300 gemäß 4 ebenfalls
so konfiguriert sein, daß er
nur bei dem Mobiltelefon 100 gemäß 3 verwendet
werden kann. Hierdurch kann die Komplexität des Netzwerkservers 300 drastisch
verringert werden. Zum Betreiben des mobilen Endgerätes 100 gemäß 3 muß der Netzwerkserver 300 gemäß 4 nicht
sämtliche
Datenbanken 370, 380, 390 zum Speichern
der akustischen Modelle, der Sprachprompts und der Texttranskriptionen
umfassen. Der Netzwerkserver 300 umfaßt vorzugsweise wenigstens
die Datenbank 370 für
akustische Modelle.
-
Gemäß einer
weiteren Variante eines Netzwerksystems umfassend das Mobiltelefon 100 gemäß 3 bildet
der Netzwerkserver 300 gemäß 4 Teil eines
drahtlosen Netzwerkes (Wireless Local Area Network – WLAN),
das in einem öffentlichen Gebäude installiert
ist. Die Datenbank 370 für akustische Modelle enthält zunächst eine
Vielzahl von akustischen Modellen, die sich auf Worte (Äußerungen)
beziehen, die normalerweise im Zusammenhang mit dem öffentlichen
Gebäude
auftreten. Wenn es sich bei dem öffentlichen
Gebäude
beispielsweise um ein Kunstmuseum handelt, so können sich die in der Datenbank 370 gespeicherten
akustischen Modelle auf Äußerungen
wie „Impressionismus", „Expressionismus", „Picasso" und dergleichen
beziehen.
-
Sobald
ein Besucher, der ein in der 3 gezeigtes
mobiles Endgerät 100 bei
sich trägt,
das Museum betritt, baut sein mobiles Endgerät 100 automatisch
eine Verbindung zum WLAN-Server 300 auf. Diese Verbindung
kann z.B. eine Verbindung gemäß dem Bluetooth-Standard
sein. Das mobile Endgerät 100 lädt dann
automatisch die bestimmten akustischen Modelle, die in der Datenbank 370 des WLAN-Servers
gespeichert sind, in seine entsprechende Datenbank 130 oder
aber in eine weitere in der 3 nicht
dargestellte Datenbank. Das mobile Endgerät 100 ist nun so konfiguriert,
daß es
gesprochene Äußerungen,
die sich auf bestimmte museumsbezogene Termini beziehen, erkennt.
-
Sobald
ein derartiger Terminus geäußert und von
dem mobilen Endgerät 100 erkannt
wird, leitet das mobile Endgerät 100 das
Erkennungsresultat automatisch an den WLAN-Server 300 weiter.
Als Antwort auf den Empfang eines solchen Erkennungsresultats überträgt der WLAN-Server 300 bestimmte auf
das Erkennungsresultat bezogene Informationen an das mobile Endgerät 100 zu
deren Darstellung auf dem Display 190 des mobilen Endgerätes 100.
Die von dem WLAN-Server 300 empfangenen Informationen können sich
beispielsweise auf den Ort beziehen, wo sich eine bestimmte Ausstellung
befindet, oder auf Informationen über eine bestimmte Ausstellung.
-
Ein
weiterer Aspekt eines Netzwerkservers 300 gemäß der Anmeldung
ist in der 5 dargestellt. Der Netzwerkserver 300 gemäß 5 ermöglicht ein
Wählen
mit Namen, selbst bei Telefonen, die über keine Namenswahlfähigkeit
verfügen.
Im folgenden wird ein derartiger Telefontyp als POTS (Plain Old
Telephone System – traditionelles
Fernsprechsystem) bezeichnet. Mit einem solchen POTS-Telefon wählt sich
der Benutzer lediglich über die
Schnittstelle 310 in den Netzwerkserver 300 ein. Die
Verbindung zwischen dem POTS-Telefon und dem Netzwerkserver 300 kann
eine drahtgebundene oder eine drahtlose Verbindung sein.
-
Der
in der 5 dargestellte Netzwerkserver 300 umfaßt drei
Datenbanken 370, 380, 390 mit denselben
Funktionen, wie die entsprechenden Datenbanken des Netzwerkservers 300 gemäß 4.
Der Netzwerkserver 300 gemäß 5 umfaßt ferner
einen automatischen Spracherkenner 500, der sowohl mit
der Schnittstelle 310 als auch mit der Datenbank 370 für akustische
Modelle kommuniziert, sowie ein Sprachausgabesystem 510,
das mit der Datenbank 380 für Sprachprompts kommuniziert.
Die Datenbanken 370 und 380 des Netzwerkservers 300 sind
wie oben im Zusammenhang mit dem Netzwerkserver gemäß 4 beschrieben
gefüllt
worden.
-
Wählt sich
ein Benutzer mit einem POTS-Telefon nun in einen Netzwerkserver 300 gemäß 5 ein,
so verfügt
er über
vollständige
Namenswahlfähigkeiten.
Eine gesprochene Äußerung des
Benutzers kann von dem automatischen Spracherkenner 500 aufgrund
der in der Datenbank 370 für akustische Modelle enthaltenen
akustischen Modelle erkannt werden, wobei die Datenbank 370 für akustische
Modelle das Vokabular des automatischen Spracherkenners 500 darstellt.
Wird ein passendes indiziertes akustisches Modell von dem automatischen
Spracherkenner 500 aufgefunden, so lädt das Sprachausgabesystem 510 den
entsprechend indizierten Sprachprompt aus der Datenbank 380 und gibt
diesen Sprachprompt über
die Schnittstelle 310 an das POTS-Telefon aus. Bestätigt der
Benutzer die Korrektheit des Sprachprompts, kann aufgrund der indizierten
Telefonnummer, die dem Sprachprompot entspricht und die in der Datenbank 390 für Texttranskriptionen
gespeichert ist, eine Verbindung aufgebaut werden.
-
Bei
Verwendung mit einem POTS-Telefon ist der Netzwerkserver 300 vorzugsweise
als ein Backup-Netzwerkserver konfiguriert, der ein Backup einer oder
mehrerer Datenbanken eines Mobiltelefons in regelmäßigen Zeitabständen ausführt. Hierdurch wird
gewährleistet,
daß ein
Benutzer eines POTS-Telefons stets Zugriff auf den aktuellsten Inhalt
der Datenbanken eines Mobiltelefons hat. Gemäß einer weiteren Variante der
Anmeldung kann das POTS-Telefon zum Trainieren des Netzwerkservers 300 mit
Blick auf die Erstellung beispielsweise von sprecherabhängigen akustischen
Modellen oder sprecherabhängigen
Sprachprompts, die in den entsprechenden Datenbanken 370, 380 gespeichert werden
sollen, verwendet werden.