DE60201939T2

DE60201939T2 - Vorrichtung zur sprecherunabhängigen Spracherkennung , basierend auf einem Client-Server-System

Info

Publication number: DE60201939T2
Application number: DE60201939T
Authority: DE
Inventors: Olli Viikki; Kari Laurila
Original assignee: Nokia Oyj; Nokia Inc
Current assignee: Nokia Oyj; Nokia Inc
Priority date: 2001-04-17
Filing date: 2002-03-22
Publication date: 2005-03-31
Anticipated expiration: 2022-03-23
Also published as: US20020152067A1; CN1381831A; FI20010792A0; CN101334997A; ATE282882T1; US7392184B2; EP1251492B1; DE60201939D1; FI20010792L; EP1251492A1; FI20010792A7

Description

ALLGEMEINER STAND DER TECHNIK
Die Erfindung betrifft eine sprecherunabhängige Spracherkennung in einem Telekommunikationssystem und insbesondere das Erstellen von Aussprachemodellen für Spracherkennung.
In den letzten Jahren wurden verschiedene Spracherkennungs-Anwendungen entwickelt, beispielsweise für Fahrzeug-Benutzerschnittstellen und Mobilstationen. Bekannte Verfahren für Mobilstationen umfassen Verfahren zum Anrufen einer bestimmten Person, indem ihr Name laut in das Mikrophon einer Mobilstation gesprochen und ein Anruf zu der Nummer aufgebaut wird, die dem vom Benutzer gesprochenen Namen entspricht. Allerdings erfordern gegenwärtige Verfahren im allgemeinen, daß die Mobilstation oder das System in einem Netzwerk geschult werden muß, um die Aussprache für jeden Namen zu erkennen. Sprecherunabhängige Spracherkennung verbessert die Nutzbarkeit einer sprachgesteuerten Benutzerschnittstelle, weil diese Schulungsphase weggelassen werden kann. Bei sprecherunabhängiger Namenauswahl kann die Aussprache für die Namen in den Kontaktinformationen als Modell erstellt werden, und der von dem Benutzer gesprochene Name kann mit dem definierten Aussprachemodell, wie beispielsweise einer Phonemfolge, verglichen werden.
Eine Vielzahl von Verfahren für sprecherunabhängige Spracherkennung ist bekannt, mit denen die Modellerstellung der Aussprache durchgeführt werden kann. Phonem-Lexika können beispielsweise zu diesem Zweck verwendet werden. Ein auf Phonem-Lexika basierendes Verfahren ist in WO 9 926 232 offenbart. Allerdings weisen Phonem-Lexika eine so umfangreiche Größe auf, daß die Speicherkapazität der gegenwärtigen Mobilstationen unzureichend ist. Weitere Probleme werden durch Namen und Wörter verursacht, die im Lexikon nicht gefunden werden. Verschiedene statistische Verfahren, wie beispielsweise neuronale Netze und Entscheidungsbäume, ermöglichen eine geringere Speicherbelegung. Obwohl mit Entscheidungsbäumen ein genaueres Ergebnis erhalten werden kann als mit neuronalen Netzen, die weniger Speicherplatz erfordern, sind beide Verfahren verlustreich. Die Genauigkeit der Modellerstellung wird daher verringert, wodurch sich die Leistung der Spracherkennungs-Genauigkeit verschlechtert. Deshalb muß ein Kompromiß eingegangen werden hinsichtlich Genauigkeit und Speicherbelegung. Trotz des hohen Komprimierungsgrads bleibt die Speicheranforderung von Entscheidungsbäumen und neuronalen Netzen ziemlich hoch. Üblicherweise sind für ein Modellsystem auf der Basis eines Entscheidungsbaums etwa 100 bis 250 kB Speicher pro erstelltem Sprachmodell erforderlich, was zuviel sein kann, wenn Mobilstationen implementiert werden. Eine weitere Option besteht darin, ein Audiosignal, das aus der Sprache des Benutzers ausgebildet wird, an ein Netzwerk zu senden und die Spracherkennung in dem Netzwerk durchzuführen. Das Durchführen von Spracherkennung in einem Netzwerk erfordert, daß eine Verbindung zu einem Dienst hergestellt wird, was eine übermäßige Verzögerung verursacht, und Interferenz auf dem Funkweg verringert die Aussichten auf Erfolg.
Das Dokument EP 1047046 offenbart ein Verfahren zum Ausbilden eines Sprachreferenz-Modells zur Spracherkennung, in dem eine Zeichenfolge von einem ersten Gerät zu einem zweiten Gerät gesendet wird, und die Zeichenfolge in ein Sprachreferenz-Modell umgewandelt wird, das zu dem ersten Gerät gesendet wird.
KURZE BESCHREIBUNG DER ERFINDUNG
Eine Aufgabe der Erfindung ist es daher, ein Verfahren und eine Vorrichtung bereitzustellen, die das Verfahren implementiert, das eine Erstellung eines genauen Aussprachemodells gestattet und die oben genannten Probleme verringert. Die Aufgaben der Erfindung werden mit einem Verfahren, Telekommunikationssystem, elektronischen Gerät, Server, Computerprogramm-Erzeugnis und Datenmedium erreicht, gekennzeichnet durch die Angaben in den selbständigen Ansprüchen. Bevorzugte Ausführungsformen der Erfindung sind in den Unteransprüchen offenbart.
Die Erfindung basiert auf der Idee, daß die Erstellung des Aussprachemodells für ein tragbares elektronisches Gerät in einer getrennten Server-Einrichtung durchgeführt wird. Daher wird die Zeichenfolge, die für die Spracherkennung bestimmt ist, von einem elektronischen Gerät zu einem Server gesendet, der mehr verfügbare Speicherkapazität aufweist als das elektronische Gerät. Die Zeichenfolge wird in dem Server in wenigstens eine Folge von akustischen Einheiten umgewandelt. Die Folge von akustischen Einheiten wird von dem Server zu dem elektronischen Gerät gesendet, das für die Spracherkennung verwendet werden soll. Jede Datenverarbeitungseinrichtung, einschließlich Telekommunikationsmittel, kann die Funktion des Servers erfüllen, wobei die Datenverarbeitungseinrichtung so angeordnet ist, daß sie für Zeichenfolgen, die von einem oder mehreren elektronischen Geräten empfangen werden, eine Umwandlung in eine Folge von akustischen Einheiten durchführt. Eine Zeichenfolge bezieht sich auf jede beliebige Kombination von Zeichen. Üblicherweise ist es eine Buchstabenfolge, aber es können auch Interpunktionszeichen vorhanden sein (z. B. Komma oder Leerzeichen). Eine Zeichenfolge kann auch aus bildähnlichen Zeichen bestehen, die meistens in asiatischen Sprachen verwendet werden. Zu akustischen Einheiten gehören alle akustischen Ereignisse, beispielsweise 20 ms einer Sprechprobe, einer Silbe, eines Phonems oder Teils eines Phonems. Üblicherweise teilen Geräte, die Spracherkennung durchführen, die Phoneme in drei Teile auf (Anfang, Mitte, Ende), auf deren Basis der Vergleich mit der Sprachinformation durchgeführt werden kann.
Es ist zu beachten, daß ein Phonem sich auch auf eine Phonem-Anhäufung beziehen kann (Ausspracheformen können in verschiedenen Sprachen sehr dicht beieinander liegen). Da der Server im wesentlichen mehr Kapazität verfügbar hat als das elektronische Gerät, besteht keine Notwendigkeit, hinsichtlich der Genauigkeit beim Erstellen der Aussprachemodelle in der erfindungsgemäßen Lösung Kompromisse einzugehen. Da es keine Speichereinschränkungen gibt, ist es auch möglich, mehr Sprachen zu unterstützen als bei der Modellerstellung, die in einem elektronischen Gerät implementiert ist.
Gemäß einer bevorzugten Ausführungsform der Erfindung wird die Zeichenfolge, die von dem elektronischen Gerät empfangen wird, als die Basis der Informationssuche verwendet, die sich auf die Folge bezieht, beispielsweise Telefonnummern. Die Information wird zusätzlich zu der Folge von akustischen Einheiten an das elektronische Gerät gesendet. Die ist für den Benutzer von Vorteil, da die zusätzliche Information, die sich auf die Zeichenfolge bezieht, leicht für die Verwendung in dem elektronischen Gerät bereitgestellt werden kann.
Gemäß einer anderen bevorzugten Ausführungsform der Erfindung wird ein Audio-Modell aus einer Folge von akustischen Einheiten in einem Audio-Synthesizer ausgebildet. Das Audio-Modell wird in dem elektronischen Gerät gespeichert, von dem es der Zeichenfolge oder ihrem Tag zugeordnet wird. Das Audio-Modell wird für den Benutzer des elektronischen Geräts wenigstens als eine Antwort auf den Sprachbefehl des Benutzers wiederholt, der im wesentlichen der Folge von akustischen Einheiten entspricht, die aus der Zeichenfolge empfangen werden. Dies verbessert die Nutzbarkeit, weil der Benutzer auch die Audio-Rückmeldung empfängt, die sich auf die Zeichenfolge bezieht.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die Erfindung wird im folgenden detaillierter in Zusammenhang mit bevorzugten Ausführungsformen unter Bezugnahme auf die folgenden Zeichnungen im Anhang beschrieben:
1a zeigt ein Blockschaltbild eines Telekommunikationssystems, auf das die Erfindung angewendet werden kann;
1b zeigt ein Blockschaltbild eines elektronischen Geräts und eines Servers;
2 zeigt ein Ablaufdiagramm eines Verfahrens gemäß einer ersten bevorzugten Ausführungsform der Erfindung;
3 zeigt ein Ablaufdiagramm eines Verfahrens gemäß einer zweiten bevorzugten Ausführungsform der Erfindung; und
4 zeigt ein Ablaufdiagramm einer Ausführungsform gemäß der Erfindung, in der ein Audio-Modell ausgebildet ist.
DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
Die Erfindung kann auf jedes Telekommunikationssystem angewendet werden, das ein elektronisches Gerät mit einer Spracherkennungs-Anwendung und einen Server umfaßt, zwischen denen Daten übertragen werden können. Im folgenden wird die Verwendung von Phonemfolgen als Aussprachemodelle beschrieben, ohne jedoch die Erfindung darauf zu beschränken.
1a zeigt einige verschiedene Beispiele, auf welche die Erfindung angewendet werden kann. Ein elektronisches Gerät TE, das an ein lokales Netzwerk LAN angeschlossen ist, umfaßt Datenübertragungsmittel und Software, welche die Datenübertragung für die Kommunikation mit Geräten in dem Netzwerk LAN steuert. Das elektronische Gerät TE kann eine Netzwerk-Schnittstellenkarte eines drahtlosen lokalen Netzes aufweisen, wobei die Karte auf einem der IEEE802.11-Standards oder auf dem Standard des BRAN-(Broadband Radio Access Networks)Standardisierungsprojekts basiert. Das elektronische Gerät TE kann an ein lokales Netzwerk LAN und des weiteren an einen Server S über einen Zugangspunkt AP oder über das Internet und die Firewall FW angeschlossen werden. Das elektronische Gerät TE kann des weiteren direkt mit dem Server S kommunizieren, beispielsweise unter Verwendung eines Kabels, über Infrarot oder eine Datenübertragungs-Lösung, die mit Funkfrequenzen arbeitet, beispielsweise ein Bluetooth-Sende-/Empfangsgerät. Wie in 1a dargestellt, kann das elektronische Gerät TE jedes tragbare elektronische Gerät sein, in dem Spracherkennung durchgeführt wird, beispielsweise ein Minicomputer-Gerät PDA, eine Fernschalteinrichtung oder eine Kombination aus einer Hörkapsel und einem Mikrofon. Das elektronische Gerät TE kann ein zusätzliches Gerät sein, das von einem Rechner oder einer Mobilstation verwendet wird, wobei die Datenübertragung an den Server S dann über einer Rechner oder eine Mobilstation durchgeführt werden kann.
In Übereinstimmung mit einer bevorzugten Ausführungsform der Erfindung ist das elektronische Gerät TE eine Mobilstation, die mit einem öffentlichen landgestützten Mobilfunknetz PLMN kommuniziert, an das auch der Server S funktional angeschlossen ist, beispielsweise über das Internet. Das elektronische Gerät TE, das an das Netz PLMN angeschlossen ist, weist Mobilstations-Funktionalität auf, um mit dem Netz PLMN drahtlos zu kommunizieren. Das Mobilfunknetz PLMN kann jedes bekannte drahtlose Netzwerk sein, beispielsweise ein Netzwerk, das den GSM-Dienst, ein Netzwerk, welches den GPRS (General Packet Radio Service) unterstützt, oder ein Mobilfunknetzwerk der dritten Generation unterstützt, wie beispielsweise das UMTS-(Universal Mobile Telecommunications System)Netz gemäß dem 3GPP-(3^rd Generation Partnership Project)Standard. Die Funktionalität des Servers S kann ebenfalls in dem Mobilfunknetz PLMN implementiert werden. Das elektronische Gerät TE kann ein Mobiltelefon sein, das nur zum Sprechen verwendet wird, oder es kann auch PDA-(Personal Digital Assistent)Funktionalität aufweisen.
Wie in 1b dargestellt umfassen das elektronische Gerät TE (in drahtlosen lokalen Netzwerken LAN und in drahtlosen Netzen PLMN) und der Server S den Speicher MEM; SMEM, eine Benutzerschnittstelle UI; SUI, Eingabe-/Ausgabemittel I/O; SI/O zum Zuordnen der Datenübertragung zwischen dem Server S und dem elektronischen Gerät TE direkt oder über ein Netzwerk (PLMN, LAN, Internet) und eine Zentraleinheit CPU; SCPU, die einen oder mehrere Prozessoren umfaßt. Der Speicher MEM; SMEM enthält einen nichtflüchtigen Teil zum Speichern der Anwendungen, welche die Zentraleinheit CPU; SCPU steuern, und einen Direktzugriffsspeicher, der für die Datenverarbeitung verwendet wird. Ein Spracherkennungsblock SRB wird vorzugsweise implementiert, indem in der CPU ein Computerprogramm-Code ausgeführt wird, der in dem Speicher MEM gespeichert ist. Der Server S stellt einen Text-Phonem-Umwandlungsblock TPB bereit, indem vorzugsweise in der SCPU ein Computerprogramm-Code ausgeführt wird, der in dem Speicher SMEM gespeichert ist. Der in den Zentraleinheiten CPU und SCPU ausgeführte Computerprogramm-Code veranlaßt, daß das elektronische Gerät TE und der Server S die erfinderischen Eigenschaften ausführen, von denen einige Ausführungsformen in den 2 und 3 dargestellt sind. Die Computerprogramme können über ein Netzwerk empfangen und/oder in Speichermitteln gespeichert werden, beispielsweise auf einer Diskette, ein CD-ROM-Diskette oder anderen externen Speichermitteln, von wo aus sie in den Speicher MEM, SMEM geladen werden können. Integrierte Schaltungen können ebenfalls verwendet werden, um den Spracherkennungsblock SRB und Text-Phonem-Umwandlungsblock TPB zu implementieren.
2 zeigt ein Verfahren gemäß einer ersten bevorzugten Ausführungsform der Erfindung, in dem der durch den Server S implementierte Text-Phonem-Block TPB auch eine Sprachauswahlvorrichtung, d. h. einen Sprachen-Auswahlalgorithmus umfaßt. Das elektronische Gerät TE empfängt in Schritt 201 eine Zeichenfolge, typischerweise über eine Benutzerschnittstelle UI. Die Zeichenfolge ist im allgemeinen eine, die durch den Benutzer eingegeben wird, beispielsweise ein Eigenname, der zu den Kontaktdetails hinzugefügt werden soll. Es ist auch möglich, daß irgendeine Anwendung, die in dem elektronischen Gerät TE ausgeführt wird, in Schritt 201 eine Zeichenfolge erzeugt, beispielsweise eine Steuerbefehl-Zeichenkette, wobei der Benutzer in der Lage ist, die Anwendung später zu steuern, indem er die Folge ausspricht. Unter Verwendung von Eingabe-/Ausgabemitteln I/O sendet das elektronische Gerät TE (SRB) in Schritt 202 die Zeichenfolge an den Server S, in dem die Folge in Schritt 203 von den Mitteln SI/O empfangen wird. Die erforderliche Identifizierungs-Information des Servers S, beispielsweise eine ISDN-basierte Nummer oder eine IP-Adresse, an die das elektronische Gerät TE die Zeichenfolge leitet, wurde vorab in dem Speicher MEM des elektronischen Geräts TE gespeichert. Wenn der Server S sich in einem Mobilfunknetz PLMN befindet, kann der PLMN-Betreiber die Identifizierungs-Informationen beispielsweise auf einer IC-Karte speichern lassen, von der aus sie abgerufen werden kann.
Der Text-Phonem-Umwandlungsblock TPB des Servers S umfaßt eine Sprachenauswahlvorrichtung, die in Schritt 204 die Sprache der Zeichenfolge bestimmt. Die Sprache kann beispielsweise bestimmt werden durch Verwendung dessen, was als N-Gramm (Kombinationen mit N Buchstaben) bezeichnet wird, oder basierend auf der Wahrscheinlichkeit des Auftretens von kurzen Wörtern. Die Sprache kann auch mittels Entscheidungsbäumen bestimmt werden: auf der Basis von Lexika in verschiedenen Sprachen werden zeichenspezifische Entscheidungsbäume gelehrt, welche die Wahrscheinlichkeit von wenigstens einer Sprache auf der Basis der Zeichenumgebung jedes Zeichens ausdrücken. Diese Entscheidungsbäume sind in dem Server S (im Speicher SMEM) gespeichert. Entscheidungsbäume werden Zeichen für Zeichen auf die empfangene Zeichenfolge geprüft, wonach die Sprache für die Zeichenfolge bestimmt wird. Es ist zu beachten, daß Schritt 204 nicht erforderlich ist, wenn der Server S nur die Text-Phonem-Umwandlung für die Zeichenfolgen nur in spezifischen Sprachen durchführt. Wenn die Sprache in dem Server S bestimmt worden ist, können größere Ressourcen des Servers verwendet werden, und eine erfolgreiche Auswahl der Sprache ist in hohem Maße wahrscheinlich.
Der Text-Phonem-Block TPB wandelt in Schritt 205 die Zeichenfolge in eine Phonemfolge in Übereinstimmung mit der bestimmten Sprache um. Beispielsweise kann die Zeichenfolge 'James Bond' zu der Phonemfolge '/jh/ /ey/ /m/ /z/ /b/ /oh/ /n/ /d/' führen. Die Text-Phonem-Umwandlung wird typischerweise erreicht, indem eine Suchtabelle oder eine automatische Text-Phonem-Zuordnung verwendet wird. Die Zuordnung ist üblicherweise sprachabhängig, wogegen Suchtabellen immer sprachabhängig sind; anders ausgedrückt, es gibt separate Test-Phonem-Quellen für verschiedene Sprachen. Die Text-Phonem-Umwandlung kann unter Verwendung jeder Technik durchgeführt werden, beispielsweise mit Lexika, welche die HMM-(Hidden Markov Model)Technik, neuronale Netze oder Entscheidungsbäume verwenden. Die Veröffentlichung 'SELF-ORGANIZING LETTER CODE-BOOK FOR TEXT-TO-PHONEME NEURAL NETWORK MODEL' von Kåre Jean Jensen und Soren Rils, die anläßlich der 8. International Conference on Spoken Language Processing (ICSLP) vom 16.–20. Oktober 2000 in Peking, China vorgestellt wurde, offenbart eine Möglichkeit zur Nutzung neuronaler Netze, und die Veröffentlichung 'DECISION TREE BASED TEXT-TO-PHONEM MAPPING FOR SPEECH RECOGNITION' von Janne Suontausta und Juha Häkkinen offenbart eine Möglichkeit, Entscheidungsbäume zu verwenden. Da die Speicherkapazität des Servers S nicht so begrenzt ist wie diejenige des elektronischen Geräts TE, kann eine Technik gewählt werden, die eine möglichst genaue Phonem-Umwandlung ermöglicht.
Der Server S sendet in Schritt 206 die Phonemfolge an das elektronische Gerät TE. In dem elektronischen Gerät wird die Phonemfolge in Schritt 207 in dem Speicher MEM gespeichert, (der ebenfalls ein Speicher einer separaten Speicherkarte oder einer IC-Karte sein kann, die an das Gerät angeschlossen ist), wobei die Folge der ursprünglichen Zeichenfolge, die bereits in dem Speicher gespeichert ist, oder ihrem Tag zugeordnet wird. Beispielsweise ist die Phonemfolge an den Name-Tag der Kontaktdetails angehängt. Wenn der Spracherkennungsblock SRB aktiv ist, wird die in Schritt 208 von dem Benutzer über ein Mikrofon empfangene Sprachinformation in Schritt 209 mit den gespeicherten Phonemfolgen verglichen. Wenn eine Phonemfolge, die im wesentlichen mit der Sprachinformation übereinstimmt, gefunden wird, wird die damit verbundene Zeichenfolge in Schritt 210 für einen Dienst ausgewählt. Die Zeichenfolge kann auch auf der Anzeige der Benutzerschnittstelle UI des elektronischen Geräts TE gezeigt werden. Danach kann der Dienst auf der Basis der Zeichenfolge oder der Information, die des weiteren damit verbunden ist, aktiviert werden. Wenn das elektronische Gerät eine Mobilstation ist, ist ein typischer Dienst eine Auswahl eines Namens und ein Anruf-Aufbau zu der mit dem Namen verbundenen Nummer. Der Dienst kann jedoch das Durchführen eines Steuerbefehls in einem elektronischen Gerät umfassen, beispielsweise die Aktivierung der Tastatursperre. Daher kann der Befehl zu einer Phonemfolge modelliert werden, und der Benutzer kann das elektronische Gerät TE mit seiner Sprache steuern. Der Dienst kann auch die Bestimmung eines Texts von der Sprache des Benutzers an die Anzeige sein, um die Wiedergabe der automatischen Diktat-Erkennung zu implementieren. Einige andere Beispiele von Diensten umfassen die Suche nach Straßennamen und Ortsnamen auf der Basis der Sprache in einem Navigationssystem, oder eine Datenbanksuche auf der Basis des Namens des Autors.
Die oben beschriebenen Schritte 201 bis 210 lassen sich vollautomatisch ausführen, so daß der Benutzer keine besonderen Maßnahmen ergreifen muß, um die Spracherkennung für die eingegebenen Zeichenfolgen zu implementieren. Die Phonem-Umwandlungen können beispielsweise in dem elektronischen Gerät TE gespeichert werden, das beispielsweise eine Mobilstation ist, die den GSM-Standard unterstützt, wobei die Kontaktdetails jedoch auf einer IC-Karte gespeichert wurden, die eine SIM-(Subscriber Identify Module)Anwendung umfaßt: wenn der Benutzer mit der IC-Karte in eine neue Mobilstation wechselt, kann die Text-Phonem-Umwandlung für die Kontaktdetails der IC-Karte automatisch durchgeführt werden. Wenn die Datenübertragung zwischen dem Server S und dem elektronischen Gerät TE für den Benutzer Kosten verursacht, beispielsweise eine Gebühr für die Übertragung einer Kurznachricht in dem öffentlichen landgestützten Mobilfunknetz PLMN, kann eine Annahmeerklärung von dem Benutzer vor der Übertragung der Zeichenfolge im Schritt 202 gefordert werden.
3 zeigt ein Verfahren gemäß einer zweiten bevorzugten Ausführungsform, in der die Auswahl der Sprache in dem elektronischen Gerät TE durchgeführt wird. Vorzugsweise umfaßt der Spracherkennungsblock SRB eine Sprachauswahlvorrichtung. Die in Schritt 301 empfangene Zeichenfolge wird in die Sprachauswahlvorrichtung eingegeben, und die Sprachauswahlvorrichtung bestimmt in Schritt 302 die Sprache auf eine der Arten, die vorher in Zusammenhang mit Schritt 204 beschrieben worden sind. Danach sendet das elektronische Gerät in Schritt 303 eine Zeichenfolge und einen Sprachen-Tag an den Server S. Der Server (TPB) führt in Schritt 305 die Text-Phonem-Umwandlung durch, und die Schritte 306 bis 310 können in der vorher beschriebenen Weise ausgeführt werden. Der Benutzer hat außerdem die Möglichkeit, die Sprache in Schritt 302 zu wählen. Diese zweite Ausführungsform bringt den Vorteil mit sich, daß die Einstellungen des elektronischen Geräts in der Sprachenauswahl verwendet werden können, (z. B. das Auswählen der Sprache der Benutzerschnittstelle UI), oder eine Sprache oder die wahrscheinlichsten Sprachen, die von der Sprachauswahlvorrichtung vorgeschlagen werden, können dem Benutzer zur Auswahl angeboten werden.
In Übereinstimmung mit einer Ausführungsform der Erfindung sucht der Server S nach den Schritten 203 und 204 nach Informationen, die möglicherweise mit der im Speicher SMEM oder einem anderen Netzwerkelement empfangenen Zeichenfolge in Beziehung stehen, beispielsweise das Heimatregister (HLR) des GSM-Netzwerks, oder eine Kontaktliste, die mit dem Internet verknüpft ist. Der Server S führt beispielsweise eine Datenbanksuche mit der empfangenen Zeichenfolge als ihrem Such-Tag durch. Alternative Telefonnummern (Privatnummer, Mobilnummer, Büronummer, Fax) oder E-Mail-Adressen können der Zeichenfolge zugeordnet werden. Der Server S sendet die Information zusammen mit der Phonemfolge in den Schritten 206, 306 an das elektronische Gerät TE, wobei vorzugsweise die gleiche Nachricht verwendet wird. Daher können zusätzliche Informationen in dem Netzwerk problemlos an das elektronische Gerät gesendet werden, ohne daß der Benutzer dies getrennt anfordern muß. Eine oder mehrere Phonemfolgen können auch in den Schritten 205, 305 der zusätzlichen Informationen ausgebildet und in den Schritten 206, 306 gesendet werden. Diese Phonemfolgen können mit den Informationen in dem Speicher MEM des elektronischen Geräts gespeichert werden (207). Auf diese Weise werden mehr Informationen in dem elektronischen Gerät leicht verfügbar, wobei der Benutzer Informationen mittels Sprache auswählen kann. Beispielsweise kann die ursprünglich gesendete Zeichenfolge 'Peter' um die Büronummer ergänzt werden, die im Netzwerk gefunden wurde, d. h. die Zeichenfolge 'Peter Arbeit' und eine Phonemfolge der Zeichenfolge 'Peter Arbeit'.
Es ist zu beachten, daß die Zeichenfolge, beispielsweise der Name 'Peter', in einer Vielzahl von Sprachen verwendet werden kann, in welchem Fall mehrere Sprachen für die Zeichenfolge in Schritt 204, 302 erhalten werden. Daher bildet der Text-Phonem-Block TPB in Schritt 205, 305 Phonemfolgen auf der Basis mehrerer Sprachen aus, und alle erhaltenen Phonemfolgen werden in Schritt 206 an das elektronische Gerät gesendet. Die Phonemfolge kann in Schritt 207, 307 automatisch im Speicher MEM gespeichert werden, oder der Benutzer kann aufgefordert werden, die Phonemfolgen vor dem Speichern in Schritt 207, 307 auszuwählen/zu bestätigen.
4 zeigt eine Ausführungsform, gemäß der in Schritt 401 ein Audio-Modell der von dem Server S empfangenen Phonemfolge (206, 306) in einem Audio-Synthesizer des elektronischen Geräts TE ausgebildet wird. Da das Audio-Modell sprachabhängig ist, wird das Ausbilden des Audio-Modells in Schritt 401 in Übereinstimmung mit der bestimmten Sprache (204, 302) durchgeführt. Das Audio-Modell kann mittels einer Sprachsynthese oder unter Verwendung von Audio-Modellen ausgebildet werden, die vorher gespeichert wurden. Das Audio-Modell wird in Schritt 402 in dem Speicher MEM des elektronischen Geräts TE gespeichert, wobei es mit der Zeichenfolge oder deren Tag verknüpft wird. Das Audio-Modell wird in Schritt 403 für den Benutzer des elektronischen Geräts abgespielt, wenn die Sprachinformation des Benutzers im wesentlichen mit der Phonemfolge der Zeichenfolge übereinstimmt, die dem Audio-Modell zugeordnet ist, d. h. nach Schritt 209 oder 309. Das Audio-Modell kann auch für den Benutzer abgespielt werden, wenn es von dem Server S empfangen wird. Wenn für den Benutzer eine Zeichenfolge, die auf der Basis der Spracherkennung ausgewählt wurde, nur auf der Anzeige bereitgestellt wird, muß der Benutzer das elektronische Gerät TE von seinem Ohr weiter entfernen, um die ausgewählte Zeichenfolge zu sehen. Das Abspielen des Audio-Modells beseitigt diesen Nachteil und stellt für den Benutzer eine Audio-Rückmeldung bereit, welche den Benutzerkomfort bei sprecherunabhängiger Spracherkennung des weiteren erhöht. Diese Ausführungsform kann des weiteren so verwendet werden, daß der Benutzer eine oder mehrere Phonemfolgen (d. h. eine vorgeschlagene Ausspracheform) auf der Basis von mehreren vorgeschlagenen Audio-Modellen auswählen kann. Der Benutzer kann die vorgeschlagene Aussprache auf der Basis des abgespielten Audio-Modells auch zurückweisen, wodurch eine neue Text-Phonem-Umwandlung in dem Netzwerk durchgeführt werden kann, und eine neue Phonemfolge kann an das elektronische Gerät TE gesendet werden. Auf diese Weise läßt sich die Spracherkennung weiter verbessern.
In Übereinstimmung mit einer bevorzugten Ausführungsform wird die Datenübertragung zwischen dem Server S und dem elektronischen Gerät TE (Mobilstation) durch Messaging über ein öffentliches landgestütztes Mobilfunknetz PLMN bedient. Kurznachrichten des Kurznachrichtendienstes SMS sind besonders geeignet für den Transport von kurzem Text und Phonemfolgen. Der Server S kann mit dem SMS-Nachrichtendienst SMS-SC verbunden sein, der die von dem elektronischen Gerät TE empfangenen und an den Server S adressierten Kurznachrichtendaten an den Server, an die Eingabe-/Ausgabemittel SI/O überträgt und umgekehrt. Hinsichtlich einer genaueren Beschreibung des Betriebs des SMS-Dienstes wird das Buch 'The GSM System for Mobile Communications' von M. Mouly und M. Pautet, Palaiseau, Frankreich 1992, ISBN; 2-9507190-0-7, Kapitel 8.3 hier als Referenz zitiert. Die Datenübertragung kann auch auf leitungsvermittelten Datenverbindungen oder paketvermittelten Datenübertragungsdiensten basieren, beispielsweise GPRS-Diensten oder paketvermittelten Datenübertragungsdiensten des UMTS-Systems. Auch das drahtlose Anwendungsprotokoll WAP kann für die Übertragung von Text und Phonemfolgen verwendet werden.
Für einen Fachmann ist es offenkundig, daß mit dem Fortschritt der Technologie die grundlegende Idee der Erfindung in einer Vielzahl von Möglichkeiten implementiert werden kann. Aussprache kann nicht nur mit Phonemen modelliert werden, sondern auch mit anderen Folgen von akustischen Einheiten. Die Erfindung und deren Ausführungsformen sind daher nicht auf die vorher beschriebenen Beispiele begrenzt, sondern können sich innerhalb des Umfangs der Ansprüche ändern.

Claims

Verfahren zum Ausbilden eines Aussprachemodells zur Spracherkennung für ein Telekommunikationssystem, das zumindest ein tragbares elektronisches Gerät und einen Server umfaßt, wobei das elektronische Gerät zum Vergleichen (209; 309) der Sprachinformation des Benutzers mit Aussprachemodellen angeordnet ist, die akustische Einheiten umfassen und in dem elektronischen Gerät gespeichert sind, wobei das Verfahren folgende Schritte umfaßt: Übertragen (202, 203; 303; 304) einer Zeichenfolge von dem elektronischen Gerät an den Server; Umwandeln (205; 305) der Zeichenfolge im Server in zumindest eine Folge von akustischen Einheiten; und Übertragen (206; 306) von zumindest einer Folge von akustischen Einheiten vom Server an das elektronische Gerät, dadurch gekennzeichnet, daß die Folge von akustischen Einheiten eine Phonemfolge in Textformat ist.
Verfahren nach Anspruch 1, gekennzeichnet durch Definieren (204) von zumindest einer Sprache für die Zeichenfolge im Server; und Umwandeln (205) der Zeichenfolge in zumindest eine Folge von akustischen Einheiten gemäß der festgesetzten Sprache.
Verfahren nach Anspruch 1, gekennzeichnet durch Definieren (302) von zumindest einer Sprache für die Zeichenfolge in dem elektronischen Gerät; Senden (303) von Information über die Sprache der Zeichenfolge an den Server; und Umwandeln (305) der Zeichenfolge in zumindest eine Folge von akustischen Einheiten gemäß der festgesetzten Sprache.
Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch Zuordnen (207; 307) in dem elektronischen Gerät der Folge von akustischen Einheiten von dem Server zu der Zeichenfolge, die im Speicher des elektronischen Geräts gespeichert ist, oder ihrem Tag; Vergleichen (209; 309) in dem elektronischen Gerät der Sprachinformation des Benutzers mit der gespeicherten Folge von akustischen Einheiten; Auswählen (210; 310) einer Folge von akustischen Einheiten, die der Sprachinformation des Benutzers im wesentlichen entspricht, und ferner einer Zeichenfolge gemäß der Folge von akustischen Einheiten aus Kontaktinformation; und Aktivieren eines Diensts gemäß der Zeichenfolge.
Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch Suchen in dem Server nach Information bezüglich der Zeichenfolge, z. B. Telefonnummern, auf der Grundlage der empfangenen Zeichenfolge; und Senden der Information neben der Folge von akustischen Einheiten an das elektronische Gerät.
Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch Ausbilden (401) eines Audiomodells der Folge von akustischen Einheiten in einem Audio-Synthesizer; Speichern (402) des Audiomodells in dem elektronischen Gerät, wobei es der Zeichenfolge oder ihrem Tag zugeordnet wird; und Abspielen (403) des Audiomodells für den Benutzer des elektronischen Geräts als Antwort auf den Sprachbefehl des Benutzers, die im wesentlichen der Folge von akustischen Einheiten entspricht, die von der Zeichenfolge empfangen werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß das elektronische Gerät eine Mobilstation ist und die Datenübertragung zwischen dem Server und dem elektronischen Gerät durch Messaging über ein Mobilnetz angeordnet ist.
Telekommunikationssystem, umfassend zumindest ein elektronisches Gerät und einen Server, wobei das elektronische Gerät zum Vergleichen (209; 309) der Sprachinformation des Benutzers mit akustischen Einheiten, die in dem elektronischen Gerät gespeichert sind, angeordnet ist, das elektronische Gerät zum Senden (202; 303) der Zeichenfolge, die zur Spracherkennung bestimmt ist, an den Server angeordnet ist, der Server zum Umwandeln (205; 305) der Zeichenfolge in zumindest eine Folge von akustischen Einheiten angeordnet ist; und der Server zum Senden (206; 306) von zumindest einer Folge von akustischen Einheiten an das elektronische Gerät angeordnet ist, dadurch gekennzeichnet, daß die Folge von akustischen Einheiten eine Phonemfolge in Textformat ist.
Elektronisches Gerät, umfassend Mittel zum Vergleichen (209; 309) von Sprachinformation mit Folgen von akustischen Einheiten; Mittel zum Senden (203; 303) der Zeichenfolge, die zur Spracherkennung bestimmt ist, an den Server; Mittel zum Empfangen der Folge von akustischen Einheiten, die aus der Zeichenfolge ausgebildet ist, vom Server; und Mittel zum Speichern (207; 307) der Folge von akustischen Einheiten, dadurch gekennzeichnet, daß die Folge von akustischen Einheiten eine Phonemfolge in Textformat ist.
Elektronisches Gerät nach Anspruch 9, dadurch gekennzeichnet, daß das elektronische Gerät ferner Mittel zum Zuordnen (207; 307) der Folge von akustischen Einheiten, die vom Server empfangen sind, zur Zeichenfolge, die im Speicher des elektronischen Geräts gespeichert ist, oder ihrem Tag; Mittel zum Auswählen (210; 310) einer Folge von akustischen Einheiten im wesentlichen gemäß der Sprachinformation des Benutzers und ferner einer Zeichenfolge gemäß der Folge von akustischen Einheiten; und Mittel zum Aktivieren eines Diensts gemäß der Zeichenfolge umfaßt.
Server, umfassend Mittel zum Empfangen (203; 304) einer Zeichenfolge von zumindest einem elektronischen Gerät; Mittel zum Umwandeln (205; 305) der Zeichenfolge in zumindest eine Folge von akustischen Einheiten; und Mittel zum Senden (206; 306) von zumindest einer Folge von akustischen Einheiten an das elektronische Gerät, dadurch gekennzeichnet, daß die Folge von akustischen Einheiten eine Phonemfolge in Textformat ist.
Server nach Anspruch 11, dadurch gekennzeichnet, daß der Server ferner Mittel zum Festsetzen (204) von zumindest einer Sprache für die empfangene Zeichenfolge; und Mittel zum Umwandeln (205) der Zeichenfolge in zumindest eine Folge von akustischen Einheiten gemäß der festgesetzten Sprache umfaßt.
Computerprogrammerzeugnis zum Steuern eines Servers, wobei das Computerprogrammerzeugnis Programmcode umfaßt, der bewirkt, daß der Server eine Zeichenfolge von einem elektronischen Gerät empfängt (202; 304); die Zeichenfolge in zumindest eine Folge von akustischen Einheiten umwandelt (204; 305); und zumindest eine Folge von akustischen Einheiten an das elektronische Gerät sendet (206; 306), dadurch gekennzeichnet, daß die Folge von akustischen Einheiten eine Phonemfolge in Textformat ist.
Datenspeichermedium, das von einem Server lesbar ist, dadurch gekennzeichnet, daß das Datenspeichermedium ein Computerprogramm nach Anspruch 13 umfaßt.