DE60111775T2

DE60111775T2 - Sprachgesteuertes tragbares endgerät

Info

Publication number: DE60111775T2
Application number: DE60111775T
Authority: DE
Inventors: Karl Hellwig; Stefan Dobler; Fredrik Öijer
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2000-12-14
Filing date: 2001-12-10
Publication date: 2006-05-04
Anticipated expiration: 2021-12-11
Also published as: WO2002049005A2; ATE298918T1; DE60111775D1; WO2002049005A3; EP1348212B1; AU2002233237A1; EP1348212A2; EP1215661A1; US20020091511A1

Description

HINTERGRUND DER ERFINDUNG
1. Technisches Gebiet
Die Erfindung betrifft das Gebiet der automatischen Spracherkennung und insbesondere ein mobiles Endgerät, das durch gesprochene Äußerungen wie Eigennamen und Befehlsworte steuerbar ist. Die Erfindung betrifft ferner ein Verfahren zur Bereitstellung von akustischen Modellen für die automatische Spracherkennung in einem derartigen mobilen Endgerät.
2. Diskussion des Standes der Technik
Viele mobile Endgeräte wie Mobiltelefone oder Personal Digital Assistants enthalten das Merkmal des Steuerns einer oder mehrerer Funktionen durch das Äußern entsprechender Schlüsselworte. Es gibt z.B. Mobiltelefone, die das Entgegennehmen eines Anrufs oder die Verwaltung eines Telefonbuches durch das Äußern von Befehlsworten ermöglichen. Ferner erlauben viele Mobiltelefone die sogenannte Sprachwahl, welche durch Äußern des Namens einer Person initiiert wird.
Das Steuern eines mobilen Endgerätes durch gesprochene Äußerungen erfordert die Anwendung einer automatischen Spracherkennung. Während der automatischen Spracherkennung vergleicht ein automatischer Spracherkenner zuvor erzeugte akustische Modelle mit einer erkannten gesprochenen Äußerung. Die akustischen Modelle können sprecherabhängig oder sprecherunabhängig erzeugt werden.
Bis heute wenden die meisten mobilen Endgeräte die sprecherabhängige Spracherkennung und somit sprecherabhängige akustische Modelle an. Die Verwendung sprecherabhängiger akustischer Modelle erfordert, daß ein individueller Benutzer des mobilen Endgerätes ein Vokabular trainieren muß, auf Grundlage dessen die automatische Spracherkennung erfolgt. Das Training wird gewöhnlich durch ein- oder mehrmaliges Sprechen eines bestimmten Schlüsselwortes vorgenommen, um so das entsprechende sprecherabhängige akustische Modell zu erzeugen.
Die auf sprecherabhängigen akustischen Modellen basierende Spracherkennung in mobilen Endgeräten stellt nicht immer eine optimale Lösung dar. Zunächst ist das Erfordernis eines separaten Trainings für jedes Schlüsselwort, das zum Steuern des mobilen Endgerätes verwendet werden soll, zeitaufwendig und wird vom Benutzer als lästig empfunden. Da die sprecherabhängigen akustischen Modelle gewöhnlich im mobilen Endgerät selbst gespeichert werden, stehen ferner die mittels einer Trainingsprozedur erzeugten sprecherabhängigen akustischen Modelle nur für dieses eine mobile Endgerät zur Verfügung. Dies bedeutet, daß die zeitaufwendige Trainingsprozedur wiederholt werden muß, sobald der Benutzer ein neues mobiles Endgerät erwirbt.
Aufgrund der obengenannten Nachteile der sprecherabhängigen Spracherkennung wenden mobile Endgeräte manchmal die sprecherunabhängige Spracherkennung an, d.h. eine Spracherkennung, deren Grundlage sprecherunabhängige akustische Modelle sind. Es gibt mehrere Möglichkeiten sprecherunabhängige akustische Modelle zu erstellen. Stellen die gesprochenen Schlüsselworte zum Steuern des mobilen Endgerätes ein begrenztes Set an Befehlsworten dar, die vorgegeben sind, d.h. die nicht durch den Benutzer des mobilen Endgerätes definiert sind, so können die sprecherunabhängigen Referenzen durch eine Mittelwertbildung der gesprochenen Äußerungen einer großen Anzahl von verschiedenen Sprechern erzeugt und in dem mobilen Endgerät vor dessen Verkauf gespeichert werden.
Können andererseits die gesprochenen Schlüsselworte zum Steuern des mobilen Endgerätes vom Benutzer frei ausgewählt werden, so muß ein anderes Verfahren angewendet werden. Ein Computersystem zum Erzeugen sprecherunabhängiger Referenzen zur freien Auswahl gesprochener Schlüsselworte, d.h. Schlüsselworte, die dem Computersystem unbekannt sind, ist in der EP 0 590 173 A1 sowie in der WO-A-00/65807 beschrieben. Das Computersystem analysiert jedes unbekannte gesprochene Schlüsselwort und synthetisiert eine entsprechende sprecherunabhängige Referenz mittels einer phonetischen Datenbank. Allerdings umfaßt das in der EP 0 590 173 A1 gelehrte Computersystem einen sehr großen Speicher sowie ausgefeilte rechenbezogene Ressourcen zum Erzeugen der sprecherunabhängigen Referenzen, die im allgemeinen in kleinen und leichten mobilen Endgeräten nicht verfügbar sind.
Aus diesem Grund besteht ein Bedarf an einem mobilen Endgerät, das durch frei ausgewählte gesprochene Schlüsselworte auf der Grundlage von sprecherunabhängigen oder sprecherabhängigen akustischen Modellen steuerbar ist und bei der Anwendung von sprecherabhängigen akustischen Modellen ein Minimum an Benutzertraining erfordert. Ferner besteht ein Bedarf an einem Netzwerkserver für ein derartiges mobiles Endgerät sowie an einem Verfahren zum Erhalten akustischer Modelle für ein derartiges mobiles Endgerät.
Gemäß der vorliegenden Erfindung wird ein Netzwerkserver gemäß Anspruch 1, ein mobiles Endgerät gemäß Anspruch 10 sowie ein Verfahren gemäß Anspruch 15 bereitgestellt. Die Schnittstelle sowohl des Netzwerkservers als auch eines jeden mobilen Endgerätes kann als eine oder mehrere zusätzliche Hardwarekomponenten oder aber als Softwarelösung zum Betreiben bereits existierender Hardwarekomponenten konfiguriert sein.
Die für die automatische Spracherkennung zu verwendenden akustischen Modelle werden somit vom Netzwerkserver bereitgestellt, der die akustischen Modelle an ein mobiles Endgerät überträgt. Das mobile Endgerät erkennt gesprochene Äußerungen aufgrund der phonetischen Erkennungseinheiten der akustischen Modelle, die vom Netzwerkserver übertragen bzw. von diesem empfangen werden.
Wie aus dem Obigen hervorgeht, werden die akustischen Modelle zentral und für eine Vielzahl von mobilen Endgeräten von einem einzigen Netzwerkserver bereitgestellt. Die vom Netzwerkserver bereitgestellten akustischen Modelle können sowohl sprecherabhängig als auch sprecherunabhängig sein. Die akustischen Modelle können vom Netzwerkserver z.B. durch Speichern der von dem mobilen Endgerät herunterzuladenden akustischen Modelle in einer Netzwerkserver-Datenbank oder durch Erzeugen der herunterzuladenden akustischen Modelle auf Befehl bereitgestellt werden.
Im Falle sprecherunabhängiger akustischer Modelle sind die für das Erzeugen der sprecherunabhängigen akustischen Modelle erforderlichen Rechen- und Speicherressourcen netzwerkserverseitig angebracht und werden von einer Vielzahl an mobilen Endgeräten geteilt. Folglich können mobile Endgeräte durch frei ausgewählte gesprochene Äußerungen sowie aufgrund sprecherunabhängiger Spracherkennung ohne einen signifikanten Anstieg der Hardwareerfordernisse für die mobilen Endgeräte gesteuert werden. Ferner können die mobilen Endgeräte selbst sprach- und landesunabhängig gehalten werden, da jegliche sprachabhängige Ressourcen, die für die sprecherunabhängige Spracherkennung notwendig sind, von dem mobilen Endgerät an den Netzwerkserver übertragen werden können. Da zudem die sprecherunabhängige Spracherkennung verwendet wird, ist für das mobile Endgerät vor dem Steuern desselben durch gesprochene Äußerungen kein Benutzertraining erforderlich.
Bei Verwendung sprecherabhängiger akustischer Modelle müssen die sprecherabhängigen akustischen Modelle jeweils nur einmal trainiert werden und können dann im Netzwerkserver gespeichert werden. Folglich können die sprecherabhängigen akustischen Modelle vom Netzwerkserver an jedes mobile Endgerät übertragen werden, welches der Benutzer mittels gesprochener Äußerungen zu steuern beabsichtigt. Erwirbt beispielsweise der Benutzer ein neues mobiles Endgerät, so ist kein weiteres Training notwendig, um dieses neue mobile Endgerät mittels gesprochener Äußerungen zu steuern. Der Benutzer muß z.B. lediglich die sprecherabhängigen akustischen Modelle von seinem alten mobilen Endgerät in den Netzwerkserver laden und diese akustischen Modelle anschließend wieder vom Netzwerkserver in sein neues mobiles Endgerät laden. Selbstverständlich funktioniert dies auch mit sprecherunabhängigen akustischen Modellen.
Die Erfindung ermöglicht es deshalb, die rechenbezogenen Erfordernisse an mobile Endgeräte zu verringern, wenn sprecherunabhängige akustische Modelle für die automatische Spracherkennung verwendet werden. Bei Verwendung von sprecherab hängigen akustischen Modellen für die automatische Spracherkennung muß nur eine einzige Trainingsprozedur angewandt werden, um eine Vielzahl von mobilen Endgeräten durch die automatische Spracherkennung zu steuern.
Vorzugsweise werden sprecherunabhängige akustische Modelle aufgrund von Texttranskriptionen (z.B. im ASCII-Format) der gesprochenen Äußerungen erzeugt. Die Texttranskriptionen der gesprochenen Äußerungen können in einer Datenbank für Texttranskriptionen in einem mobilen Endgerät enthalten sein. Die Schnittstelle des mobilen Endgerätes kann derart konfiguriert sein, daß sie die Übertragung der Texttranskriptionen von dem mobilen Endgerät an den Netzwerkserver ermöglicht. Die Schnittstelle des Netzwerkservers kann andererseits so konfiguriert sein, daß sie den Empfang der Texttranskriptionen von dem mobilen Endgerät ermöglicht. Nach dem Empfang der Texttranskriptionen von dem mobilen Endgerät kann die Einheit zum Bereitstellen akustischer Modelle im Netzwerkserver sprecherunabhängige akustische Modelle aufgrund der empfangenen Texttranskriptionen erzeugen.
Auch kann die Schnittstelle des mobilen Endgerätes derart konfiguriert sein, daß sie die Übertragung sprecherabhängiger oder sprecherunabhängiger akustischer Modelle der gesprochenen Äußerungen an den Netzwerkserver ermöglicht. Die Schnittstelle des Netzwerkservers kann andererseits so konfiguriert sein, daß sie den Empfang der akustischen Modelle von dem mobilen Endgerät ermöglicht. Nach dem Empfang der akustischen Modelle vom mobilen Endgerät kann die Einheit zum Bereitstellen akustischer Modelle vom Netzwerkserver die empfangenen akustischen Modelle permanent oder vorübergehend speichern. Die Einheit zum Bereitstellen akustischer Modelle kann deshalb ein Speicher sein. Nachdem die akustischen Modelle im Netzwerkserver gespeichert worden sind, können die akustischen Modelle vom Netzwerkserver an das mobile Endgerät übertragen werden, von dem die akustischen Modelle empfangen wurden, oder aber an ein weiteres mobiles Endgerät. Das Übertragen der akustischen Modelle zurück an das mobile Endgerät, von dem aus die akustischen Modelle übertragen wurden, ist vorteilhaft, wenn beispielsweise die akustischen Modelle irrtümlich gelöscht wurden. Somit kann der Netzwerkserver als ein Backup-Mittel benutzt werden. Als Beispiel kann der Netzwerkserver ein Backup der akustischen Modelle bzw. weiterer Informationen wie im mobilen Endgerät gespeicherter Sprachprompts in bestimmten Zeitabständen vornehmen.
Wie oben dargelegt, kann das mobile Endgerät eine Datenbank zum Speichern von Texttranskriptionen der gesprochenen Äußerungen umfassen. Die Texttranskriptionen können vom Benutzer eingegeben werden, z.B. mittels Tasten am mobilen Endgerät. Dies kann im Zusammenhang mit der Erstellung von Einträgen für ein persönliches Telefonbuch oder von Befehlsworten geschehen. Allerdings können die Texttranskriptionen auch vorgegeben und vorgespeichert sein, bevor das mobile Endgerät verkauft wird. Vorgegebene Texttranskriptionen können sich beispielsweise auf bestimmte Befehlsworte beziehen.
Neben der Datenbank für die Texttranskriptionen kann das mobile Endgerät eine Datenbank für akustische Modelle zum Speichern von akustischen Modellen umfassen, die im mobilen Endgerät erzeugt oder vom Netzwerkserver empfangen wurden. Vorzugsweise sind beide Datenbanken derart konfiguriert, daß es für jedes Paar einer Texttranskription und einem entsprechenden akustischen Modell eine Verknüpfung zwischen der Texttranskription und dem entsprechenden akustischen Modell gibt. Die Verknüpfung kann in Form identischer Indexe i = 1 ... n innerhalb der jeweiligen Datenbank konfiguriert sein.
Gemäß der Erfindung werden die akustischen Modelle von dem Netzwerkserver aufgrund phonetischer Transkriptionen der Texttranskriptionen erzeugt. Die phonetischen Transkriptionen werden beispielsweise mit Hilfe einer Aussprachedatenbank erstellt, die das Vokabular des Netzwerkservers an phonetischen Transkriptionseinheiten wie Phoneme oder Triphone darstellt. Einzelne phonetische Transkriptionseinheiten werden zur Bildung der phonetischen Transkription einer bestimmten Texttranskriptionen miteinander verknüpft. In einem weiteren Schritt werden die sprecherunabhängigen oder sprecherabhängigen akustischen Modelle durch das Übersetzen der phonetischen Transkriptionseinheiten in die entsprechenden sprecherunabhängigen oder sprecherabhängigen phonetischen Erkennungseinheiten erzeugt, die in einem Format sind, das von dem automatischen Spracherkenner des mobilen Endgerätes analysiert werden kann. Das Vokabular des Netzwerkservers an phonetischen Erkennungseinheiten kann in einer Erkennungsdatenbank des Netzwerkservers gespeichert werden.
Der Netzwerkserver kann ferner einen Sprachsynthesizer zum Erzeugen eines Sprachprompts einer von einem mobilen Endgerät empfangenen Texttranskription enthalten. Das Sprachprompt wird vorzugsweise durch Verwendung derselben phonetischen Transkription erzeugt, die zum Erstellen eines entsprechenden akustischen Modells verwendet wird. Deshalb kann die Aussprachedatenbank sowohl von dem Sprachsynthesizer als auch von der Einheit zum Erzeugen des sprecherunabhängigen akustischen Modells geteilt werden.
Der Sprachprompt kann durch Übersetzen der Texttranskription in phonetische Synthetisiereinheiten erzeugt werden. Das Vokabular des Netzwerkservers an phonetischen Synthetisiereinheiten kann beispielsweise in einer Synthesedatenbank des Netzwerkservers enthalten sein.
Nach Erzeugung des einer Texttranskription entsprechenden Sprachprompts kann der Sprachprompt vom Netzwerkserver an das mobile Endgerät übertragen werden und von dem mobilen Endgerät über dessen Schnittstelle empfangen werden. Der vom Netzwerkserver empfangene Sprachprompt kann dann in einer Datenbank für Sprachprompts des mobilen Endgerätes gespeichert werden.
Anstelle der oder zusätzlich zur Erzeugung eines Sprachprompts innerhalb des Netzwerkservers kann eine erkannte Benutzeräußerung ebenfalls die Grundlage für einen Sprachprompt bilden. Folglich kann der Sprachprompt innerhalb des mobilen Endgerätes durch Verwendung der erkannten Benutzeräußerung erzeugt werden. Somit kann sowohl auf Sprachsynthesizer als auch auf die Synthesedatenbank des Netzwerkservers verzichtet werden, und es können die Komplexität sowie die Kosten des Netzwerkservers beträchtlich reduziert werden.
Die Schnittstelle des mobilen Endgerätes kann derart konfiguriert sein, daß sie das Übertragen von Sprachprompts vom mobilen Endgerät an den Netzwerkserver sowie das Empfangen von Sprachprompts vom Netzwerkserver erlaubt. Die Schnittstelle des Netzwerkservers kann andererseits so konfiguriert sein, daß sie das Empfangen von Sprachprompts vom mobilen Endgerät und das Übertragen von Sprachprompts an das mobile Endgerät erlaubt. Vorzugsweise umfaßt der Netzwerkserver außerdem eine Sprachpromptdatenbank zum Speichern der Sprachprompts permanent oder vorübergehend. Folglich können die Sprachprompts, die entweder im mobilen Endgerät oder aber im Netzwerkserver erzeugt wurden von der Sprachpromptdatenbank im Netzwerkserver jederzeit und je nach Wunsch in ein mobiles Endgerät geladen werden. Somit muß ein Set an Sprachprompts nur einmal für eine Vielzahl von mobilen Endgeräten erzeugt werden.
Die Sprachprompts können zum Erzeugen eines akustischen Feedbacks nach der Erkennung einer gesprochenen Äußerung durch den automatischen Spracherkenner des mobilen Endgerätes verwendet werden. Aus diesem Grund kann das mobile Endgerät ferner Komponenten zum Ausgeben eines akustischen Feedbacks für eine erkannte Äußerung umfassen. Das mobile Endgerät kann außerdem Komponenten zum Ausgeben eines visuellen Feedbacks für eine erkannte Äußerung umfassen. Das visuelle Feedback kann beispielsweise in der Darstellung der Texttranskription, die der erkannten Äußerung entspricht, bestehen.
Gemäß einer weiteren Ausführungsform der Erfindung ist wenigstens ein Teil der Datenbank für die Texttranskriptionen auf einem physikalischen Träger angeordnet, der entfernbar mit dem mobilen Endgerät verbunden werden kann. Der physikalische Träger kann z.B. eine Teilnehmererkennungsmodulkarte (Subscriber Identity Module – SIM) sein, die ebenfalls zum Speichern persönlicher Informationen verwendet wird. Ein mobiles Endgerät kann mit der SIM-Karte personalisiert werden. Die SIM-Karte kann weitere Datenbanken enthalten, wenigstens teilweise wie die Datenbank des mobilen Endgerätes für Sprachprompts oder für akustische Modelle.
Die Erfindung kann sowohl als Hardwarelösung als auch als ein Computerprogrammprodukt implementiert werden, mit Programmcodebereichen zur Durchführung der individuellen Schritte gemäß dem Verfahren, wenn das Computerprogrammprodukt auf einem Computersystem ausgeführt wird. Das Computerprogrammprodukt kann auf einem computerlesbaren Speichermedium wie einem Datenträger gespeichert werden, der am Computer angebracht oder von diesem abnehmbar ist.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Weitere Aspekte und Vorteile der Erfindung werden beim Durchlesen der folgenden detaillierten Beschreibung der bevorzugten Ausführungsformen der Erfindung sowie im Zusammenhang mit den Figuren ersichtlich. Hierbei zeigen:
1 ein schematisches Diagramm einer ersten Ausführungsform eines mobilen Endgerätes gemäß der Erfindung;
2 ein schematisches Diagramm des mobilen Endgerätes gemäß 1 in Kommunikation mit einer ersten Ausführungsform eines Netzwerkservers gemäß der Erfindung;
3 ein schematisches Diagramm einer zweiten Ausführungsform eines mobilen Endgerätes gemäß der Erfindung;
4 ein schematisches Diagramm einer zweiten Ausführungsform eines Netzwerkservers gemäß der Erfindung; und
5 ein schematisches Diagramm einer dritten Ausführungsform eines Netzwerkservers gemäß der Erfindung.
BESCHREIBUNG VON BEVORZUGTEN AUSFÜHRUNGSFORMEN
In der 1 ist ein schematisches Diagramm eines ersten Beispiels eines mobilen Endgerätes in Form eines Mobilstelefons 100 mit Sprachwahlfunktion gemäß der Anmeldung dargestellt.
Das Mobiltelefon 100 umfaßt einen automatischen Spracherkenner 110, der über ein Mikrophon 120 ein einer gesprochenen Äußerung eines Benutzers entsprechendes Signal empfängt. Der automatische Spracherkenner 110 kommuniziert weiterhin mit einer Datenbank 130, die sämtliche akustische Modelle enthält, die zur automatischen Spracherkennung durch den automatischen Spracherkenner 110 mit den über das Mikrophon 120 empfangenen gesprochenen Äußerungen verglichen werden sollen.
Das Mobiltelefon 100 umfaßt zusätzlich eine Komponente 140 zum Erzeugen eines akustischen Feedbacks für eine erkannte gesprochene Äußerung. Die Komponente 140 zum Ausgeben des akustischen Feedbacks kommuniziert mit einer Sprachpromptdatenbank 150 zum Speichern von Sprachprompts. Die Komponente 140 erzeugt ein akustisches Feedback aufgrund von in der Datenbank 150 enthaltenen Sprachprompts. Die Komponente 140 zum Ausgeben eines akustischen Feedbacks kommuniziert ferner mit einem Lautsprecher 160, der das akustische Feedback, welches von der Komponente 140 zum Ausgeben des akustischen Feedbacks empfangen wurde, zurückspielt.
Das in der 1 gezeigte Mobiltelefon 100 umfaßt auch eine SIM-Karte 170, auf der eine weitere Datenbank 180 zum Speichern von Texttranskriptionen angeordnet ist. Die SIM-Karte 170 ist entfernbar mit dem Mobiltelefon 100 verbunden und enthält eine Liste mit mehreren Texttranskriptionen gesprochener Äußerungen, die von dem automatischen Spracherkenner 110 erkannt werden sollen. In dem in der 1 gezeigten Beispiel ist die Datenbank 180 in Form eines Telefonbuchs konfiguriert und enthält eine Vielzahl von Telefonbucheinträgen in Form von Namen, von denen jeder einer bestimmten Telefonnummer zugeordnet ist. Wie aus der Zeichnung hervorgeht, bezieht sich der erste Telefonbucheintrag auf den Namen „Tom" und der zweite Telefonbucheintrag bezieht sich auf den Namen „Stefan". Die Texttranskriptionen der Datenbank 180 sind als ASCII-Zeichenfolge konfiguriert. Somit besteht die Texttranskription des ersten Telefonbucheintrages aus den drei Zeichen „T", „O" und „M". Wie aus 1 ersichtlich ist, weist jede Texttranskription der Datenbank 180 einen einmaligen Index auf. Die Texttranskription „Tom" hat beispielsweise den Index „1".
Die Datenbank 180 zum Speichern der Texttranskriptionen kommuniziert mit einer Komponente 190 zum Ausgeben eines optischen Feedbacks. Die Komponente 190 zum Ausgeben des visuellen Feedbacks ist so konfiguriert, daß sie die Texttranskription einer von dem automatischen Erkenner 110 erkannten gesprochenen Äußerung darstellen kann.
Die drei Datenbasen 130, 150, 180 des Mobiltelefons 100 kommunizieren mit einer Schnittstelle 200 des Mobiltelefons 100. Die Schnittstelle 200 dient der Übertragung der in der Datenbank 180 enthaltenen Texttranskriptionen an einen Netzwerkserver sowie dem Empfangen vom Netzwerkserver eines akustischen Modells sowie eines Sprachprompts für jede an den Netzwerkserver übertragene Texttranskription.
Grundsätzlich kann die Schnittstelle 200 in dem Mobiltelefon 100 intern in zwei Blöcke geteilt sein, die in der 1 nicht dargestellt sind. Ein erster Block ist in einem Schreib-/Lese-Modus für den Zugriff auf die Datenbank 130 für akustische Modelle, die Datenbank 150 für Sprachprompts und die Datenbank 180 für Texttranskriptionen verantwortlich. Der zweite Block realisiert die Übertragung der in den Datenbanken 120, 150, 180 enthaltenen Daten an den Netzwerkserver 300 unter Verwendung einer Protokollbeschreibung, die eine verlustfreie und schnelle Datenübertragung gewährleistet. Eine weitere Anforderung an ein derartiges Protokoll besteht in einem bestimmten Grad an Sicherheit. Ferner sollte das Protokoll derart ausgelegt sein, daß es von dem ihm zugrundeliegenden physikalischen Übertragungsmedium, z.B. Infrarot (IR), Bluetooth, GSM, etc. unabhängig ist. Im allgemeinen könnte jede Art von Protokoll (proprietär oder standardisiert) verwendet werden, das die obengenannten Anforderungen erfüllt. Ein Beispiel für ein geeignetes Protokoll ist das kürzlich herausgegebene SyncML-Protokoll, welches auf zwei Geräten gespeicherte Informationen synchronisiert, selbst wenn die Konnektivität nicht gewährleistet ist. Ein derartiges Protokoll würde die notwendigen Anforderungen zum Austauschen von Sprachprompts, akustischen Modellen etc. für sprachbetriebene Anwendungen in jedem mobilen Endgerät erfüllen.
Jede Texttranskription wird von dem Mobiltelefon 100 zusammen mit dem entsprechenden Index der Texttranskription an den Netzwerkserver übertragen. Ebenso wird jedes akustische Modell und jeder Sprachprompt zusammen mit dem Index der entsprechenden Texttranskription vom Netzwerkserver an das Mobiltelefon 100 übertra gen. Die sprecherunabhängigen Referenzen sowie die vom Netzwerkserver empfangenen akustischen Modelle werden in den entsprechenden Datenbanken 130 und 150 zusammen mit ihren Indexen gespeichert. Jeder Index der drei Datenbanken 130, 150, 180 kann als eine Verknüpfung zwischen einer Texttranskription, deren entsprechendem akustischen Modell und deren entsprechendem Sprachprompt interpretiert werden.
In der 2 wird ein Netzsystem umfassend das in der 1 dargestellte Mobiltelefon 100 und einen Netzwerkserver 300 gezeigt. Der Netzwerkserver 300 ist so konfiguriert, daß er mit einer Vielzahl von Mobiltelefonen 100 kommuniziert. Es wird jedoch nur ein Mobiltelefon 100 exemplarisch in der 2 gezeigt.
Der in der 2 gezeigte Netzwerkserver 300 umfaßt eine Schnittstelle 310 zum Empfangen der Texttranskriptionen von dem mobilen Endgerät 100 sowie zum Übertragen des entsprechenden akustischen Modells und des entsprechenden Sprachprompts an das Mobiltelefon 100. Ähnlich der Schnittstelle 200 im Mobiltelefon 100 ist die Schnittstelle 310 in zwei Blöcke geteilt, einen Protokolltreiberblock z.B. zur drahtlosen Verbindung und einen Zugriffsblock, der Daten zu Standorten wie Datenbanken, Verarbeitungseinrichtungen etc. im Netzwerkserver 300 überträgt. Die Blöcke sind in der 2 nicht dargestellt.
Die Schnittstelle 310 des Netzwerkservers 300 kommuniziert mit einer Einheit 320 zum Bereitstellen akustischer Modelle und einem Sprachsynthesizer 330. Die Einheit 320 empfängt Eingaben von einer Erkennungsdatenbank 340, die phonetische Erkennungseinheiten enthält, sowie von einer Aussprachedatenbank 350, die phonetische Transkriptionseinheiten enthält. Der Sprachsynthesizer 330 empfängt Eingaben von der Aussprachedatenbank 350 und einer Synthesedatenbank 360, die phonetische Synthetisiereinheiten enthält.
Als nächstes wird die Erzeugung eines sprecherunabhängigen akustischen Modells für eine in der Datenbank 180 des Mobiltelefons 100 enthaltene Texttranskription beschrieben. Dieses sowie weitere von dem Mobiltelefon 100 durchgeführte Verfah ren werden von einer in den Figuren nicht dargestellten zentralen Steuereinheit gesteuert.
Im folgenden wird angenommen, daß ein Benutzer ein neues Mobiltelefon 100 mit einer leeren Datenbank 130 für akustische Modelle und einer leeren Datenbank 150 für Sprachprompts erworben hat. Der Benutzer verfügt bereits über eine SIM-Karte 170 mit einer Datenbank 180, die indizierte Texttranskriptionen wie „Tom" und „Stefan" enthält. Die SIM-Karte 170 umfaßt ferner eine Datenbank, die indizierte Telefonnummern enthält, welche auf die in der Datenbank 170 enthaltene Texttranskriptionen bezogen sind. Die die Telefonnummern enthaltende Datenbank ist in der Zeichnung nicht dargestellt.
Setzt der Benutzer die SIM-Karte 170 zum ersten Mal in sein neu erworbenes Mobiltelefon 100 ein, so muß wenigstens die Datenbank 130 für akustische Modelle gefüllt werden, um es dem Benutzer zu ermöglichen, eine Verbindung durch Äußern eines der Namen, die in der Datenbank 180 für Texttranskriptionen enthalten sind, aufzubauen. Somit überträgt das Mobiltelefon 100 in einem ersten Schritt die in der Datenbank 180 enthaltenen Texttranskriptionen über die Schnittstelle 200 an den Netzwerkserver 300. Die Verbindung zwischen dem Mobiltelefon 100 und dem Netzwerkserver 300 ist entweder eine drahtlos betriebene Verbindung, z.B. gemäß einem GSM-, einem UMTS, einem Bluetooth-Standard, oder gemäß einem IR-Standard oder aber eine drahtgebundene Verbindung.
Die Einheit 320 zum Bereitstellen von Referenzmodellen und der Sprachsynthesizer 330 des Netzwerkservers 300 empfangen die indizierten Texttranskriptionen über die Schnittstelle 310. Die Einheit 320 übersetzt dann jede Texttranskription in deren phonetische Transkription. Die phonetische Transkription besteht aus einer Sequenz phonetischer Transkriptionseinheiten wie Phonemen oder Triphonen. Die phonetischen Transkriptionseinheiten werden von der Aussprachedatenbank 350 aus in die Einheit 320 geladen.
Aufgrund der Sequenz phonetischer Transkritpionseinheiten, die einer bestimmten Texttranskription entsprechen, erzeugt die Einheit 320 dann ein dieser Texttranskrip tion entsprechendes sprecherabhängiges oder sprecherunabhängiges akustisches Modell. Dies geschieht durch Übersetzen jeder phonetischen Transkriptionseinheit der Sequenz phonetischer Transkriptionseinheiten in deren entsprechende sprecherabhängige oder sprecherunabhängige phonetische Erkennungseinheiten. Die phonetischen Erkennungseinheiten sind in der Erkennungsdatenbank 340 in einer Form enthalten, die von dem automatischen Spracherkenner 110 des Mobiltelefons 100 analysiert werden kann, z.B. in der Form von Merkmalsvektoren. Ein akustisches Modell wird somit durch die Verknüpfung einer Vielzahl von phonetischen Erkennungseinheiten gemäß der Sequenz phonetischer Transkriptionseinheiten erzeugt.
Gleichzeitig mit der Erzeugung eines akustischen Modells erzeugt der Sprachsynthesizer 330 einen Sprachprompt für jede von dem Mobiltelefon 100 empfangene Texttranskription. Zunächst erzeugt der Sprachsynthesizer 330 eine phonetische Transkription von jeder Texttranskription. Dies erfolgt in derselben Art und Weise, wie oben im Zusammenhang mit der Einheit 320 zum Bereitstellen akustischer Modelle erläutert. Außerdem wird dieselbe Aussprachedatenbank 350 verwendet. Aufgrund der Tatsache, daß die Aussprachedatenbank 350 zum Erzeugen sowohl der akustischen Modelle als auch der Sprachprompts verwendet wird, können Synthesefehler während des Erstellens von Sprachprompts vermieden werden. Wenn beispielsweise das deutsche Wort „Bibelried" mit zwei Vokalen „i" und „e" in „Bibel" anstelle eines langen „i" synthetisiert wird, so könnte dies vom Benutzer unmittelbar gehört und korrigiert werden.
Aufgrund der Sequenz phonetischer Transkriptionseinheiten, die die phonetische Transkription darstellt, erzeugt der Sprachsynthesizer 330 einen Sprachprompt, indem er für jede in der Sequenz von Transkriptionseinheiten enthaltene phonetische Transkriptionseinheit die entsprechende phonetische Synthetisiereinheit von der Synthesedatenbank 360 lädt. Die so erhaltenen phonetischen Synthetisiereinheiten werden dann mit dem Sprachprompt einer Texttranskription verknüpft.
Während der Erstellung des akustischen Modells und des Sprachprompts wird jedes akustische Modell sowie jeder Sprachprompt mit dem Index der entsprechenden Texttranskription versehen. Das indizierte sprecherunabhängige akustische Modell und die indizierten Sprachprompts werden dann über die Schnittstelle 310 des Netzwerkservers 300 an das Mobiltelefon 100 übertragen. Innerhalb des Mobiltelefons 100 werden die indizierten sprecherunabhängigen akustischen Modelle und die indizierten Sprachprompts über die Schnittstelle 200 empfangen und in die entsprechenden Datenbanken 130, 150 geladen. So wird die Datenbank 130 für die akustischen Modelle und die Datenbank 150 für die Sprachprompts gefüllt.
Nachdem die Datenbank 130 für akustische Modelle und die Datenbank 150 für Sprachprompts gefüllt worden sind, kann eine Telefonverbindung mittels einer gesprochenen Äußerung aufgebaut werden. Um eine Verbindung aufzubauen, muß ein Benutzer eine Äußerung entsprechend einer in der Datenbank 180 enthaltenen Texttranskription sprechen, z.B. „Stefan". Diese gesprochene Äußerung wird vom Mikrophon 120 in ein Signal umgewandelt, welches dem automatischen Spracherkenner zugeführt 110 wird.
Wie oben erwähnt, werden die akustischen Modelle in der Datenbank 130 als eine Sequenz von Merkmalsvektoren gespeichert. Der automatische Spracherkenner 110 analysiert das Signal vom Mikrophon 120 entsprechend der gesprochenen Äußerung, um deren Merkmalsvektoren zu erhalten. Dieses Verfahren wird als Merkmalsextraktion bezeichnet. Um ein Erkennungsresultat zu erzeugen, paßt der automatische Spracherkenner 110 die Referenzvektoren der gesprochenen Äußerung „Stefan" an die Referenzvektoren an, die in der Datenbank 130 für jede Texttranskription gespeichert sind. Somit findet ein Mustervergleich statt.
Da die Datenbank 130 ein der gesprochenen Äußerung „Stefan" entsprechendes akustisches Modell enthält, wird von dem automatischen Spracherkenner 110 ein Erkennungsresultat in Form des Indexes „2", welcher der Texttranskription „Stefan" entspricht, sowohl an die Komponente 140 zum Ausgeben eines akustischen Feedbacks als auch an die Komponente 190 zum Ausgeben eines visuellen Feedbacks ausgegeben.
Die Komponente 140 zum Ausgeben eines akustischen Feedbacks lädt den dem Index „2" entsprechenden Sprachprompt von der Datenbank 150 und erzeugt ein akustisches Feedback, das dem synthetisierten Wort „Stefan" entspricht. Das akustische Feedback wird von dem Lautsprecher 160 zurückgespielt. Gleichzeitig lädt die Komponente 190 zum Ausgeben eines visuellen Feedbacks die dem Index „2" entsprechende Texttranskription von der Datenbank 180 und gibt ein visuelles Feedback aus, indem sie die Zeichenfolge „Stefan" anzeigt.
Der Benutzer kann nun das akustische und das visuelle Feedback bestätigen, und eine Verbindung kann aufgrund der Telefonnummer mit dem Index „2" aufgebaut werden. Das akustische und das visuelle Feedback kann beispielsweise bestätigt werden, indem eine Bestätigungstaste des Mobiltelefons 100 gedrückt wird oder durch Sprechen einer weiteren Äußerung, die sich auf ein Befehlswort zur Bestätigung wie „Ja" oder „Anrufen" bezieht. Akustische Modelle und Sprachprompts für das Bestätigungsbefehlswort sowie für andere Befehlsworte können in derselben Art und Weise erzeugt werden, wie oben in bezug auf das Erstellen von sprecherabhängigen und sprecherunabhängigen akustischen Modellen beschrieben wurde, und wie es im folgenden in bezug auf das Erstellen sprecherabhängiger akustischer Modelle beschrieben wird.
Gemäß einem weiteren Aspekt der Anmeldung werden die in der Datenbank 150 gespeicherten Sprachprompts nicht vom Netzwerkserver 300, sondern im Mobiltelefon 100 erzeugt. Die Rechen- und Speicherressourcen des Netzwerkservers können somit erheblich reduziert werden, da auf den Sprachsynthesizer 330 und die Synthesedatenbank 360 verzichtet werden kann.
Ein Sprachprompt für eine bestimmte Texttranskription kann im Mobiltelefon 100 aufgrund einer gesprochenen Äußerung erzeugt werden, die von dem automatischen Spracherkenner 110 erkannt wird. Vorzugsweise wird die der bestimmten Texttranskription entsprechende erste erkannte Äußerung zum Erzeugen des entsprechenden Sprachprompts für die Datenbank 150 verwendet. Ein für eine bestimmte Texttranskription erzeugter Sprachprompt wird in der Datenbank 150 für Sprachprompts nur dann permanent gespeichert, wenn der automatische Spracherkenner 110 ein entsprechendes akustisches Modell finden kann und wenn der Benutzer die ses Erkennungsresultat bestätigt, z.B. durch Aufbauen einer Verbindung. Ansonsten wird der Sprachprompt verworfen.
Aufgrund der Tatsache, daß sämtliche sprach- und länderabhängigen Komponenten wie die Aussprachedatenbank 350, die Erkennungsdatenbank 340 und die Synthesedatenbank 360 auf der Seite des Netzwerkservers 300 vorgesehen sein können, kann das Mobiltelefon 100 im Fall von sprecherunabhängigen akustischen Modellen sprach- und länderunabhängig gehalten werden.
Gemäß einer in der 2 nicht dargestellten Variante umfaßt der Netzwerkserver 300 eine Vielzahl von Aussprachedatenbanken, Erkennungsdatenbanken und Synthesedatenbanken, wobei jede Datenbank sprachspezifisch ist. Ein Benutzer des Mobiltelefons 100 kann in diesem einen bestimmten Sprachcode auswählen. Dieser Sprachcode wird zusammen mit den Texttranskriptionen an den Netzwerkserver 300 übertragen, der so sprachabhängige und sprecherunabhängige akustische Modelle und Sprachprompts aufgrund des vom Mobiltelefon 100 empfangenen Sprachcodes erzeugen kann. Der vom Netzwerkserver 300 empfangene Sprachcode kann auch dazu verwendet werden, sprachspezifische akustische oder visuelle Benutzeranleitungen vom Netzwerkserver 300 in das Mobiltelefon 100 herunterzuladen. Die Benutzeranleitungen können den Benutzer beispielsweise darüber informieren, wie das Mobiltelefon 100 bedient wird.
In dem oben mit Bezugnahme auf die 1 und 2 beschriebenen Beispiel eines Mobiltelefons 100 und eines Netzwerkservers 300 wurden die akustischen Modelle vom Netzwerkserver 300 in einer sprecherabhängigen oder sprecherunabhängigen Art und Weise erzeugt, und die Sprachprompts wurden entweder sprecherunabhängig innerhalb des Netzwerkservers 300 synthetisiert oder sprecherabhängig im Mobiltelefon 100 aufgenommen. Selbstverständlich kann die Datenbank 130 für akustische Modelle auch sowohl sprecherunabhängige als auch sprecherabhängige akustische Modelle umfassen. Sprecherunabhängige akustische Modelle können beispielsweise vom Netzwerkserver 300 erzeugt werden oder aber im Mobiltelefon 100 vorgegeben und vorgespeichert sein. Sprecherabhängige akustische Modelle können gemäß der folgenden detaillierten Beschreibung erzeugt werden. Auch kann die Datenbank 150 für Sprachprompts sowohl sprecherunabhängige Sprachprompts umfassen, die z.B. im Netzwerkserver 300 erzeugt werden, als auch – wie oben beschrieben – sprecherabhängige Sprachprompts, die durch Verwendung der einer bestimmten Texttranskription entsprechenden ersten erkannten Äußerung erzeugt werden. Ferner kann eine oder beide der Datenbanken 340 und 350 des Netzwerkservers als sprecherabhängige Datenbank konfiguriert sein.
In der 3 wird eine Ausführungsform eines Mobiltelefons 100 gemäß der Erfindung dargestellt. Das in der 3 gezeigte Mobiltelefon 100 hat einen ähnlichen Aufbau wie das in der 1 dargestellte Mobiltelefon 100. Das Mobiltelefon 100 umfaßt wiederum eine Schnittstelle 200 zur Kommunikation mit einem Netzwerkserver.
Im Gegensatz zu dem in der 1 dargestellten Mobiltelefon 100 umfaßt das in der 3 dargestellte Mobiltelefon 100 jedoch weiterhin eine Trainingseinheit 400, die sowohl mit dem automatischen Spracherkenner 110 als auch mit der Datenbank 130 für akustische Modelle kommuniziert. Ferner umfaßt das Mobiltelefon 100 gemäß 3 eine Kodiereinheit 410, die sowohl mit dem Mikrophon 120 als auch mit der Datenbank 150 für Sprachprompts kommuniziert, sowie eine Dekodiereinheit 420, die sowohl mit der Datenbank 150 für Sprachprompts als auch mit der Komponente 140 zum Erzeugen eines akustischen Feedbacks kommuniziert.
Die Trainingseinheit 400 und die Kodiereinheit 410 des Mobiltelefons 100 gemäß 3 werden von einer in der 3 nicht dargestellten zentralen Steuereinheit gesteuert, um sprecherabhängige akustische Modelle und sprecherabhängige Sprachprompts wie folgt zu erstellen.
Das Mobiltelefon 100 wird derart gesteuert, daß ein Benutzer aufgefordert wird, jedes Schlüsselwort, wie jeden für die Sprachsteuerung des Mobiltelefons 100 zu verwendenden Eigennamen oder jedes Befehlswort, einmal oder mehrfach zu äußern. Der automatische Spracherkenner 100 gibt jede Trainingsäußerung in die Trainingseinheit 400 ein, die durch Unterdrücken von Ruhe- und Rauschintervallen zu Beginn und am Ende jeder Äußerung als ein Sprachaktivitätsdetektor fungiert. Die so gefilterte Äußerung wird dem Benutzer dann zur Bestätigung ausgegeben. Bestätigt der Benutzer die gefilterte Äußerung, speichert die Trainingseinheit 400 ein entsprechendes sprecherabhängiges akustisches Modell in der Datenbank 130 für akustische Modelle in Form einer Sequenz von Referenzvektoren.
Für jedes zu trainierende Schlüsselwort wird eine vom Benutzer ausgewählte Trainingsäußerung vom Mikrophon 120 in die Kodiereinheit 410 eingegeben, zum Kodieren dieser Äußerung gemäß einem Format, das wenige Speicherressourcen in der Datenbank 150 für Sprachprompts zuordnet. Die Äußerung wird dann in der Datenbank 150 für Sprachprompts gespeichert. Hierdurch wird die Datenbank 150 für Sprachprompts mit sprecherabhängigen Sprachprompts gefüllt. Soll ein Sprachprompt zurückgespielt werden, so wird ein von der Datenbank 150 geladener kodierter Sprachprompt von der Dekodiereinheit 420 dekodiert und in einem dekodierten Format der Komponente 140 zum Erzeugen eines akustischen Feedbacks zugeführt.
Sobald die Datenbank 130 für akustische Modelle und die Datenbank 150 für Sprachprompts gefüllt sind, kann das in der 3 gezeigte Mobiltelefon 100 wie oben im Zusammenhang mit dem Mobiltelefon 100 gemäß 1 durch gesprochene Äußerungen gesteuert werden.
Gewöhnlich ist die Lebensdauer eines Mobiltelefons 100 eher kurz. Erwirbt ein Benutzer ein neues Mobiltelefon, so entfernt er normalerweise einfach die SIM-Karte 170 mit der Datenbank 180 für Texttranskriptionen aus dem alten Mobiltelefon und setzt diese in das neue Mobiltelefon ein. So sind die Texttranskriptionen, z.B. ein Telefonbuch, sofort im neuen Mobiltelefon verfügbar. Die Datenbank 130 für akustische Modelle und die Datenbank 150 für Sprachprompts bleiben dagegen leer.
Gemäß dem Stand der Technik muß der Benutzer deshalb dieselbe zeitaufwendige Trainingsprozedur wiederholen, die er bereits beim alten Mobiltelefon vollzogen hat, um die Datenbank 130 für akustische Modelle und die Datenbank 150 für Sprachprompts zu füllen. Gemäß der Erfindung kann jedoch die zeitaufwendige Trainingsprozedur zum Füllen der Datenbanken 130, 150 entfallen. Dies deshalb, da die Schnittstelle 200 zum Übertragen von Inhalten der Datenbank 130 für akustische Modelle und der Datenbank 150 für Sprachprompts an einen Netzwerkserver und zum späteren Empfangen der entsprechenden Inhalte vom Netzwerkserver vorgesehen ist.
In der 4 ist ein zur Kommunikation mit dem Mobiltelefon 100 gemäß 3 ausgelegter Netzwerkserver 300 gezeigt. Der Netzwerkserver 300 gemäß 4 weist dieselben Komponenten und dieselben Funktionen auf, wie der Netzwerkserver 300 gemäß 2. Zusätzlich umfaßt der Netzwerkserver 300 gemäß 4 drei Datenbanken 370, 380, 390, die mit der Schnittstelle 310 kommunizieren. Die Datenbank 370 fungiert als eine Einheit zum Bereitstellen akustischer Modelle und ist für die vorübergehende Speicherung akustischer Modelle ausgelegt. Die Datenbank 380 ist zur vorübergehenden Speicherung von Sprachprompts ausgelegt, und die Datenbank 390 ist zur vorübergehenden Speicherung von Texttranskriptionen ausgelegt.
Die Funktionsweise eines Netzwerksystems mit dem Mobiltelefon 100 gemäß 3 und dem Netzwerkserver 300 gemäß 4 ist wie folgt.
Nachdem die Datenbank 130 für akustische Modelle und die Datenbank 150 für Sprachprompts des Mobiltelefons 100 mit sprecherabhängigen akustischen Modellen und sprecherabhängigen Sprachprompts gefüllt wurden, leitet der Benutzer des Mobiltelefons 100 einen Übertragungsprozeß ein, woraufhin die im Mobiltelefon 100 erzeugten sprecherabhängigen akustischen Modelle und die sprecherabhängigen Sprachprompts mittels der Schnittstelle 200 an den Netzwerkserver übertragen werden.
Die akustischen Modelle und die Sprachprompts vom Mobiltelefon 100 werden über die Schnittstelle 310 vom Netzwerkserver 300 empfangen. Danach werden die empfangenen akustischen Modelle in der Datenbank 370 gespeichert, und die empfangenen Sprachprompts werden in der Datenbank 380 des Netzwerkservers 300 gespeichert. Wie bereits im Zusammenhang mit dem in der 2 gezeigten Netzwerksystem erwähnt, werden die akustischen Modelle und die Sprachprompts wiederum vom Mobiltelefon 100 zusammen mit deren jeweiligen Indexen übertragen und in den Datenbanken 370, 380 des Netzwerkservers 300 in indizierter Weise gespeichert. Hierdurch ist es möglich, jedem im Netzwerkserver 300 gespeicherten akustischen Modell und jedem Sprachprompt zu einem späteren Zeitpunkt eine entsprechende Texttranskription zuzuordnen.
Erwirbt der Benutzer nun ein neues Mobiltelefon 100 und setzt die SIM-Karte 170 mit der indizierte Texttranskriptionen enthaltenden Datenbank 180 in das neue Mobiltelefon 100 ein, so ist die Datenbank 130 für akustische Modelle und die Datenbank 150 für Sprachprompts zunächst leer. Der Benutzer des neuen Mobiltelefons 100 kann jedoch eine Übertragungsprozedur einleiten, woraufhin die leere Datenbank 130 für akustische Modelle und die leere Datenbank 150 für Sprachprompts mit den indizierten Inhalten der entsprechenden Datenbanken 370 und 380 im Netzwerkserver 300 gefüllt werden. Somit werden die indizierten akustischen Modelle in der Datenbank 370 für akustische Modelle und die indizierten Sprachprompts in der Datenbank 380 für Sprachprompts von der Schnittstelle 310 des Netzwerkservers an das neue mobile Endgerät 100 in die entsprechenden Datenbanken 130, 150 des mobilen Endgerätes 100 übertragen. Die zeitaufwendige Prozedur des erneuten Trainierens sprecherabhängiger akustischer Modelle und sprecherabhängiger Sprachprompts bei einem neuen Mobiltelefon kann somit entfallen, sofern die Trainingsprozedur für das alte Mobiltelefon durchgeführt wurde.
Gemäß einer Variante des Netzwerksystems mit einem Mobiltelefon 100 gemäß 3 und einem Netzwerkserver 300 gemäß 4 können die Texttranskriptionen der Datenbank 180 für Texttranskriptionen des Mobiltelefons 100 ebenfalls vom Mobiltelefon 100 an den Netzwerkserver 300 übertragen werden und wenigstens vorübergehend in der weiteren Datenbank 390 für Texttranskriptionen des Netzwerkservers 300 gespeichert werden. Erwirbt ein Benutzer ein neues Mobiltelefon mit einer neuen SIM-Karte 170, d.h. mit einer SIM-Karte 170, die eine leere Datenbank 180 für Texttranskriptionen aufweist, so muß der Benutzer folglich die Datenbank 180 für Texttranskriptionen nicht neu erstellen. Er muß lediglich die Datenbank 180 für Texttranskriptionen des Mobiltelefons 100 mit den Inhalten der entsprechenden Datenbank 390 des Netzwerkservers 300 wie oben erläutert füllen.
Der in der 4 dargestellte Netzwerkserver 300 kann sowohl für das mobile Endgerät 100 gemäß 1 verwendet werden, welches vorzugsweise auf der Grundlage von sprecherunabhängigen akustischen Modellen arbeitet, als auch für das mobile Endgerät gemäß 3, welches so ausgelegt ist, daß es mit sprecherabhängigen akustischen Modellen arbeitet. Selbstverständlich kann der Netzwerkserver 300 gemäß 4 ebenfalls so konfiguriert sein, daß er nur bei dem Mobiltelefon 100 gemäß 3 verwendet werden kann. Hierdurch kann die Komplexität des Netzwerkservers 300 drastisch verringert werden. Zum Betreiben des mobilen Endgerätes 100 gemäß 3 muß der Netzwerkserver 300 gemäß 4 nicht sämtliche Datenbanken 370, 380, 390 zum Speichern der akustischen Modelle, der Sprachprompts und der Texttranskriptionen umfassen. Der Netzwerkserver 300 umfaßt vorzugsweise wenigstens die Datenbank 370 für akustische Modelle.
Gemäß einer weiteren Variante eines Netzwerksystems umfassend das Mobiltelefon 100 gemäß 3 bildet der Netzwerkserver 300 gemäß 4 Teil eines drahtlosen Netzwerkes (Wireless Local Area Network – WLAN), das in einem öffentlichen Gebäude installiert ist. Die Datenbank 370 für akustische Modelle enthält zunächst eine Vielzahl von akustischen Modellen, die sich auf Worte (Äußerungen) beziehen, die normalerweise im Zusammenhang mit dem öffentlichen Gebäude auftreten. Wenn es sich bei dem öffentlichen Gebäude beispielsweise um ein Kunstmuseum handelt, so können sich die in der Datenbank 370 gespeicherten akustischen Modelle auf Äußerungen wie „Impressionismus", „Expressionismus", „Picasso" und dergleichen beziehen.
Sobald ein Besucher, der ein in der 3 gezeigtes mobiles Endgerät 100 bei sich trägt, das Museum betritt, baut sein mobiles Endgerät 100 automatisch eine Verbindung zum WLAN-Server 300 auf. Diese Verbindung kann z.B. eine Verbindung gemäß dem Bluetooth-Standard sein. Das mobile Endgerät 100 lädt dann automatisch die bestimmten akustischen Modelle, die in der Datenbank 370 des WLAN-Servers gespeichert sind, in seine entsprechende Datenbank 130 oder aber in eine weitere in der 3 nicht dargestellte Datenbank. Das mobile Endgerät 100 ist nun so konfiguriert, daß es gesprochene Äußerungen, die sich auf bestimmte museumsbezogene Termini beziehen, erkennt.
Sobald ein derartiger Terminus geäußert und von dem mobilen Endgerät 100 erkannt wird, leitet das mobile Endgerät 100 das Erkennungsresultat automatisch an den WLAN-Server 300 weiter. Als Antwort auf den Empfang eines solchen Erkennungsresultats überträgt der WLAN-Server 300 bestimmte auf das Erkennungsresultat bezogene Informationen an das mobile Endgerät 100 zu deren Darstellung auf dem Display 190 des mobilen Endgerätes 100. Die von dem WLAN-Server 300 empfangenen Informationen können sich beispielsweise auf den Ort beziehen, wo sich eine bestimmte Ausstellung befindet, oder auf Informationen über eine bestimmte Ausstellung.
Ein weiterer Aspekt eines Netzwerkservers 300 gemäß der Anmeldung ist in der 5 dargestellt. Der Netzwerkserver 300 gemäß 5 ermöglicht ein Wählen mit Namen, selbst bei Telefonen, die über keine Namenswahlfähigkeit verfügen. Im folgenden wird ein derartiger Telefontyp als POTS (Plain Old Telephone System – traditionelles Fernsprechsystem) bezeichnet. Mit einem solchen POTS-Telefon wählt sich der Benutzer lediglich über die Schnittstelle 310 in den Netzwerkserver 300 ein. Die Verbindung zwischen dem POTS-Telefon und dem Netzwerkserver 300 kann eine drahtgebundene oder eine drahtlose Verbindung sein.
Der in der 5 dargestellte Netzwerkserver 300 umfaßt drei Datenbanken 370, 380, 390 mit denselben Funktionen, wie die entsprechenden Datenbanken des Netzwerkservers 300 gemäß 4. Der Netzwerkserver 300 gemäß 5 umfaßt ferner einen automatischen Spracherkenner 500, der sowohl mit der Schnittstelle 310 als auch mit der Datenbank 370 für akustische Modelle kommuniziert, sowie ein Sprachausgabesystem 510, das mit der Datenbank 380 für Sprachprompts kommuniziert. Die Datenbanken 370 und 380 des Netzwerkservers 300 sind wie oben im Zusammenhang mit dem Netzwerkserver gemäß 4 beschrieben gefüllt worden.
Wählt sich ein Benutzer mit einem POTS-Telefon nun in einen Netzwerkserver 300 gemäß 5 ein, so verfügt er über vollständige Namenswahlfähigkeiten. Eine gesprochene Äußerung des Benutzers kann von dem automatischen Spracherkenner 500 aufgrund der in der Datenbank 370 für akustische Modelle enthaltenen akustischen Modelle erkannt werden, wobei die Datenbank 370 für akustische Modelle das Vokabular des automatischen Spracherkenners 500 darstellt. Wird ein passendes indiziertes akustisches Modell von dem automatischen Spracherkenner 500 aufgefunden, so lädt das Sprachausgabesystem 510 den entsprechend indizierten Sprachprompt aus der Datenbank 380 und gibt diesen Sprachprompt über die Schnittstelle 310 an das POTS-Telefon aus. Bestätigt der Benutzer die Korrektheit des Sprachprompts, kann aufgrund der indizierten Telefonnummer, die dem Sprachprompot entspricht und die in der Datenbank 390 für Texttranskriptionen gespeichert ist, eine Verbindung aufgebaut werden.
Bei Verwendung mit einem POTS-Telefon ist der Netzwerkserver 300 vorzugsweise als ein Backup-Netzwerkserver konfiguriert, der ein Backup einer oder mehrerer Datenbanken eines Mobiltelefons in regelmäßigen Zeitabständen ausführt. Hierdurch wird gewährleistet, daß ein Benutzer eines POTS-Telefons stets Zugriff auf den aktuellsten Inhalt der Datenbanken eines Mobiltelefons hat. Gemäß einer weiteren Variante der Anmeldung kann das POTS-Telefon zum Trainieren des Netzwerkservers 300 mit Blick auf die Erstellung beispielsweise von sprecherabhängigen akustischen Modellen oder sprecherabhängigen Sprachprompts, die in den entsprechenden Datenbanken 370, 380 gespeichert werden sollen, verwendet werden.

Claims

Netzwerkserver (300) für mobile Endgeräte (100), die durch gesprochene Äußerungen steuerbar sind, umfassend: – eine Einheit (320) zum Bereitstellen sprecherunabhängiger akustischer Modelle für die automatische Erkennung von gesprochenen Äußerungen, wobei die Einheit (320) zum Bereitstellen sprecherunabhängiger akustischer Modelle eine Texttranskription einer gesprochenen Äußerung in eine Sequenz phonetischer Transkriptionseinheiten und die Sequenz phonetischer Transkriptionseinheiten in eine Sequenz phonetischer Erkennungseinheiten übersetzt, wobei die Sequenz phonetischer Erkennungseinheiten ein sprecherunabhängiges akustisches Modell der gesprochenen Äußerung bildet; – eine Schnittstelle (310) zum Übertragen der sprecherunabhängigen akustischen Modelle an die mobilen Endgeräte (100) und zum Empfangen sprecherabhängiger akustischer Modelle von gesprochenen Äußerungen von den mobilen Endgeräten (100) sowie zum Übertragen der sprecherabhängigen akustischen Modelle an ein mobiles Endgerät der mobilen Endgeräte (100); und – eine Datenbank (370) zum wenigstens zeitweisen Speichern der empfangenen sprecherabhängigen akustischen Modelle.
Netzwerkserver nach Anspruch 1, wobei die Schnittstelle (310) das Empfangen der Texttranskriptionen der gesprochenen Äußerungen von den mobilen Endgeräten (100) ermöglicht.
Netzwerkserver nach Anspruch 1 oder 2, weiterhin umfassend eine die phonetischen Transkriptionseinheiten enthaltende Aussprachedatenbank (350).
Netzwerkserver nach einem der Ansprüche 1 bis 3, weiterhin umfassend eine die phonetischen Erkennungseinheiten enthaltende Erkennungsdatenbank (340).
Netzwerkserver nach einem der Ansprüche 1 bis 4, weiterhin umfassend einen Sprachsynthesizer (330).
Netzwerkserver nach einem der Ansprüche 3 bis 5, wobei sich sowohl die Einheit (320) zum Erzeugen akustischer Modelle also auch der Sprachsynthesizer die Aussprachedatenbank (350) teilen.
Netzwerkserver nach einem der Ansprüche 5 oder 6, weiterhin umfassend eine phonetische Synthetisierungseinheiten enthaltende Synthesedatenbank (360).
Netzwerkserver nach einem der Ansprüche 1 bis 7, wobei die Schnittstelle (310) das Empfangen und Übertragen von Sprachprompts ermöglicht, die den gesprochenen Äußerungen von den mobilen Endgeräten (100) entsprechen, und weiterhin umfassend eine Sprachpromptdatenbank (380) zum Speichern der Sprachprompts.
Ein durch gesprochene Äußerungen steuerbares mobiles Endgerät (100), umfassend: – eine Schnittstelle (200) zum Übertragen sprecherabhängiger akustischer Modelle an einen Netzwerkserver (300) und zum Empfangen sprecherunabhängiger akustischer Modelle von dem Netzwerkserver (300), die aufgrund von Texttranskriptionen der gesprochenen Äußerungen erzeugt wurden, wobei die empfangenen akustischen Modelle aus einer Sequenz phonetischer Erkennungseinheiten besteht, wobei jede phonetische Erkennungseinheit aus einer entsprechenden phonetischen Transkriptionseinheit abgeleitet wird, sowie zum Empfangen sprecherabhängiger akustischer Modelle von dem Netzwerkserver (300); – einen automatischen Spracherkenner (110) zum Erkennen von gesprochenen Äußerungen aufgrund der phonetischen Erkennungseinheiten der übertragenen und empfangenen akustischen Modelle.
Mobiles Endgerät nach Anspruch 9, weiterhin umfassend wenigstens eine Datenbank (130) für die akustischen Modelle und eine Datenbank (180) für die Texttranskriptionen der gesprochenen Äußerungen.
Mobiles Endgerät nach Anspruch 9 oder 10, wobei die Schnittstelle (200) die Übertragung der Texttranskriptionen an den Netzwerkserver (300) ermöglicht.
Mobiles Endgerät nach einem der Ansprüche 9 bis 11, weiterhin umfassend Komponenten (140, 190) zum Ausgeben von wenigstens einem von einem akustischen und visuellen Feedback für eine von dem automatischen Spracherkenner erkannte gesprochene Äußerung.
Mobiles Endgerät gemäß einem der Ansprüche 9 bis 12, weiterhin umfassend eine Datenbank (150) für Sprachprompts.
Mobiles Endgerät gemäß einem der Ansprüche 9 bis 13, wobei die Schnittstelle (200) die Übertragung von Sprachprompts, die den gesprochenen Äußerungen entsprechen, an den Netzwerkserver (300) ermöglicht.
Verfahren zum Erhalten akustischer Modelle für die automatische Spracherkennung in einem durch gesprochene Äußerungen steuerbaren mobilen Endgerät (100), umfassend: – Bereitstellen sprecherunabhängiger akustischer Modelle durch einen Netzwerkserver (300), wobei eines oder mehrere der bereitgestellten sprecherunabhängigen akustischen Modelle durch Übersetzung einer Texttranskription einer gesprochenen Äußerung in eine Sequenz phonetischer Transkriptionseinheiten und der Sequenz phonetischer Transkriptionseinheiten in eine Sequenz phonetischer Erkennungseinheiten erhalten wird, wobei die Sequenz phonetischer Erkennungseinheiten das sprecherunabhängige akustische Modell der gesprochenen Äußerung bildet; – Übertragen der sprecherunabhängigen akustischen Modelle vom Netzwerkserver (300) an das mobile Endgerät (100), um die automatische Erkennung von gesprochenen Äußerungen aufgrund der vom Netzwerkserver (300) ü bertragenen phonetischen Erkennungseinheiten der akustischen Modelle zu ermöglichen; – Empfangen sprecherabhängiger akustischer Modelle im Netzwerkserver (300) von einem mobilen Endgerät der mobilen Endgeräte (100) und wenigstens zeitweises Speichern derselben; – Übertragen der gespeicherten sprecherabhängigen akustischen Modelle an eins der mobilen Endgeräte (100).
Verfahren nach Anspruch 15, weiterhin umfassend das Empfangen von Texttranskriptionen der gesprochenen Äußerungen von dem mobilen Endgerät (100) und Erzeugen der sprecherunabhängigen akustischen Modelle aufgrund der übertragenen Texttranskriptionen im Netzwerkserver (300).
Verfahren nach einem der Ansprüche 15 oder 16, weiterhin umfassend das Empfangen oder Erzeugen von Sprachprompts.
Verfahren nach Anspruch 17, wobei die Sprachprompts aufgrund derselben phonetischen Transkriptionen erzeugt werden, die für das Schaffen der sprecherunabhängigen akustischen Modelle verwendet werden.
Computerprogrammprodukt umfassend Programmcodebereiche zur Durchführung eines jeden der Schritte nach einem der Ansprüche 15 und 18, wenn das Computerprogrammprodukt auf einem Computersystem ausgeführt wird.
Computerprogrammprodukt nach Anspruch 19, gespeichert auf einem computerlesbaren Speichermedium.