-
ALLGEMEINER
STAND DER TECHNIK
-
Die
Erfindung betrifft eine sprecherunabhängige Spracherkennung in einem
Telekommunikationssystem und insbesondere das Erstellen von Aussprachemodellen
für Spracherkennung.
-
In
den letzten Jahren wurden verschiedene Spracherkennungs-Anwendungen
entwickelt, beispielsweise für
Fahrzeug-Benutzerschnittstellen und Mobilstationen. Bekannte Verfahren
für Mobilstationen
umfassen Verfahren zum Anrufen einer bestimmten Person, indem ihr
Name laut in das Mikrophon einer Mobilstation gesprochen und ein
Anruf zu der Nummer aufgebaut wird, die dem vom Benutzer gesprochenen
Namen entspricht. Allerdings erfordern gegenwärtige Verfahren im allgemeinen,
daß die
Mobilstation oder das System in einem Netzwerk geschult werden muß, um die
Aussprache für
jeden Namen zu erkennen. Sprecherunabhängige Spracherkennung verbessert
die Nutzbarkeit einer sprachgesteuerten Benutzerschnittstelle, weil
diese Schulungsphase weggelassen werden kann. Bei sprecherunabhängiger Namenauswahl
kann die Aussprache für
die Namen in den Kontaktinformationen als Modell erstellt werden,
und der von dem Benutzer gesprochene Name kann mit dem definierten Aussprachemodell,
wie beispielsweise einer Phonemfolge, verglichen werden.
-
Eine
Vielzahl von Verfahren für
sprecherunabhängige
Spracherkennung ist bekannt, mit denen die Modellerstellung der
Aussprache durchgeführt werden
kann. Phonem-Lexika können
beispielsweise zu diesem Zweck verwendet werden. Ein auf Phonem-Lexika
basierendes Verfahren ist in WO 9 926 232 offenbart. Allerdings
weisen Phonem-Lexika eine so umfangreiche Größe auf, daß die Speicherkapazität der gegenwärtigen Mobilstationen
unzureichend ist. Weitere Probleme werden durch Namen und Wörter verursacht,
die im Lexikon nicht gefunden werden. Verschiedene statistische
Verfahren, wie beispielsweise neuronale Netze und Entscheidungsbäume, ermöglichen
eine geringere Speicherbelegung. Obwohl mit Entscheidungsbäumen ein
genaueres Ergebnis erhalten werden kann als mit neuronalen Netzen,
die weniger Speicherplatz erfordern, sind beide Verfahren verlustreich.
Die Genauigkeit der Modellerstellung wird daher verringert, wodurch
sich die Leistung der Spracherkennungs-Genauigkeit verschlechtert.
Deshalb muß ein
Kompromiß eingegangen
werden hinsichtlich Genauigkeit und Speicherbelegung. Trotz des
hohen Komprimierungsgrads bleibt die Speicheranforderung von Entscheidungsbäumen und
neuronalen Netzen ziemlich hoch. Üblicherweise sind für ein Modellsystem
auf der Basis eines Entscheidungsbaums etwa 100 bis 250 kB Speicher
pro erstelltem Sprachmodell erforderlich, was zuviel sein kann,
wenn Mobilstationen implementiert werden. Eine weitere Option besteht
darin, ein Audiosignal, das aus der Sprache des Benutzers ausgebildet
wird, an ein Netzwerk zu senden und die Spracherkennung in dem Netzwerk
durchzuführen.
Das Durchführen
von Spracherkennung in einem Netzwerk erfordert, daß eine Verbindung
zu einem Dienst hergestellt wird, was eine übermäßige Verzögerung verursacht, und Interferenz
auf dem Funkweg verringert die Aussichten auf Erfolg.
-
Das
Dokument
EP 1047046 offenbart
ein Verfahren zum Ausbilden eines Sprachreferenz-Modells zur Spracherkennung,
in dem eine Zeichenfolge von einem ersten Gerät zu einem zweiten Gerät gesendet
wird, und die Zeichenfolge in ein Sprachreferenz-Modell umgewandelt
wird, das zu dem ersten Gerät
gesendet wird.
-
KURZE BESCHREIBUNG
DER ERFINDUNG
-
Eine
Aufgabe der Erfindung ist es daher, ein Verfahren und eine Vorrichtung
bereitzustellen, die das Verfahren implementiert, das eine Erstellung
eines genauen Aussprachemodells gestattet und die oben genannten
Probleme verringert. Die Aufgaben der Erfindung werden mit einem
Verfahren, Telekommunikationssystem, elektronischen Gerät, Server, Computerprogramm-Erzeugnis
und Datenmedium erreicht, gekennzeichnet durch die Angaben in den selbständigen Ansprüchen. Bevorzugte
Ausführungsformen
der Erfindung sind in den Unteransprüchen offenbart.
-
Die
Erfindung basiert auf der Idee, daß die Erstellung des Aussprachemodells
für ein
tragbares elektronisches Gerät
in einer getrennten Server-Einrichtung durchgeführt wird. Daher wird die Zeichenfolge,
die für
die Spracherkennung bestimmt ist, von einem elektronischen Gerät zu einem
Server gesendet, der mehr verfügbare
Speicherkapazität
aufweist als das elektronische Gerät. Die Zeichenfolge wird in dem
Server in wenigstens eine Folge von akustischen Einheiten umgewandelt.
Die Folge von akustischen Einheiten wird von dem Server zu dem elektronischen
Gerät gesendet,
das für
die Spracherkennung verwendet werden soll. Jede Datenverarbeitungseinrichtung,
einschließlich
Telekommunikationsmittel, kann die Funktion des Servers erfüllen, wobei
die Datenverarbeitungseinrichtung so angeordnet ist, daß sie für Zeichenfolgen,
die von einem oder mehreren elektronischen Geräten empfangen werden, eine
Umwandlung in eine Folge von akustischen Einheiten durchführt. Eine
Zeichenfolge bezieht sich auf jede beliebige Kombination von Zeichen. Üblicherweise
ist es eine Buchstabenfolge, aber es können auch Interpunktionszeichen
vorhanden sein (z. B. Komma oder Leerzeichen). Eine Zeichenfolge
kann auch aus bildähnlichen
Zeichen bestehen, die meistens in asiatischen Sprachen verwendet
werden. Zu akustischen Einheiten gehören alle akustischen Ereignisse,
beispielsweise 20 ms einer Sprechprobe, einer Silbe, eines Phonems
oder Teils eines Phonems. Üblicherweise
teilen Geräte, die
Spracherkennung durchführen,
die Phoneme in drei Teile auf (Anfang, Mitte, Ende), auf deren Basis der
Vergleich mit der Sprachinformation durchgeführt werden kann.
-
Es
ist zu beachten, daß ein
Phonem sich auch auf eine Phonem-Anhäufung beziehen kann (Ausspracheformen
können
in verschiedenen Sprachen sehr dicht beieinander liegen). Da der
Server im wesentlichen mehr Kapazität verfügbar hat als das elektronische
Gerät,
besteht keine Notwendigkeit, hinsichtlich der Genauigkeit beim Erstellen
der Aussprachemodelle in der erfindungsgemäßen Lösung Kompromisse einzugehen.
Da es keine Speichereinschränkungen
gibt, ist es auch möglich,
mehr Sprachen zu unterstützen
als bei der Modellerstellung, die in einem elektronischen Gerät implementiert
ist.
-
Gemäß einer
bevorzugten Ausführungsform der
Erfindung wird die Zeichenfolge, die von dem elektronischen Gerät empfangen
wird, als die Basis der Informationssuche verwendet, die sich auf
die Folge bezieht, beispielsweise Telefonnummern. Die Information
wird zusätzlich
zu der Folge von akustischen Einheiten an das elektronische Gerät gesendet.
Die ist für
den Benutzer von Vorteil, da die zusätzliche Information, die sich
auf die Zeichenfolge bezieht, leicht für die Verwendung in dem elektronischen
Gerät bereitgestellt
werden kann.
-
Gemäß einer
anderen bevorzugten Ausführungsform
der Erfindung wird ein Audio-Modell aus einer Folge von akustischen
Einheiten in einem Audio-Synthesizer ausgebildet. Das Audio-Modell
wird in dem elektronischen Gerät
gespeichert, von dem es der Zeichenfolge oder ihrem Tag zugeordnet
wird. Das Audio-Modell wird für
den Benutzer des elektronischen Geräts wenigstens als eine Antwort
auf den Sprachbefehl des Benutzers wiederholt, der im wesentlichen
der Folge von akustischen Einheiten entspricht, die aus der Zeichenfolge
empfangen werden. Dies verbessert die Nutzbarkeit, weil der Benutzer auch
die Audio-Rückmeldung
empfängt,
die sich auf die Zeichenfolge bezieht.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
Die
Erfindung wird im folgenden detaillierter in Zusammenhang mit bevorzugten
Ausführungsformen
unter Bezugnahme auf die folgenden Zeichnungen im Anhang beschrieben:
-
1a zeigt ein Blockschaltbild
eines Telekommunikationssystems, auf das die Erfindung angewendet
werden kann;
-
1b zeigt ein Blockschaltbild
eines elektronischen Geräts
und eines Servers;
-
2 zeigt ein Ablaufdiagramm
eines Verfahrens gemäß einer
ersten bevorzugten Ausführungsform
der Erfindung;
-
3 zeigt ein Ablaufdiagramm
eines Verfahrens gemäß einer
zweiten bevorzugten Ausführungsform
der Erfindung; und
-
4 zeigt ein Ablaufdiagramm
einer Ausführungsform
gemäß der Erfindung,
in der ein Audio-Modell ausgebildet ist.
-
DETAILLIERTE
BESCHREIBUNG DER ERFINDUNG
-
Die
Erfindung kann auf jedes Telekommunikationssystem angewendet werden,
das ein elektronisches Gerät
mit einer Spracherkennungs-Anwendung und einen Server umfaßt, zwischen
denen Daten übertragen
werden können.
Im folgenden wird die Verwendung von Phonemfolgen als Aussprachemodelle
beschrieben, ohne jedoch die Erfindung darauf zu beschränken.
-
1a zeigt einige verschiedene
Beispiele, auf welche die Erfindung angewendet werden kann. Ein
elektronisches Gerät
TE, das an ein lokales Netzwerk LAN angeschlossen ist, umfaßt Datenübertragungsmittel
und Software, welche die Datenübertragung
für die
Kommunikation mit Geräten
in dem Netzwerk LAN steuert. Das elektronische Gerät TE kann
eine Netzwerk-Schnittstellenkarte eines drahtlosen lokalen Netzes
aufweisen, wobei die Karte auf einem der IEEE802.11-Standards oder
auf dem Standard des BRAN-(Broadband
Radio Access Networks)Standardisierungsprojekts basiert. Das elektronische
Gerät TE
kann an ein lokales Netzwerk LAN und des weiteren an einen Server
S über
einen Zugangspunkt AP oder über
das Internet und die Firewall FW angeschlossen werden. Das elektronische
Gerät TE
kann des weiteren direkt mit dem Server S kommunizieren, beispielsweise
unter Verwendung eines Kabels, über
Infrarot oder eine Datenübertragungs-Lösung, die
mit Funkfrequenzen arbeitet, beispielsweise ein Bluetooth-Sende-/Empfangsgerät. Wie in 1a dargestellt, kann das
elektronische Gerät
TE jedes tragbare elektronische Gerät sein, in dem Spracherkennung
durchgeführt
wird, beispielsweise ein Minicomputer-Gerät PDA, eine Fernschalteinrichtung
oder eine Kombination aus einer Hörkapsel und einem Mikrofon.
Das elektronische Gerät
TE kann ein zusätzliches
Gerät sein,
das von einem Rechner oder einer Mobilstation verwendet wird, wobei
die Datenübertragung
an den Server S dann über
einer Rechner oder eine Mobilstation durchgeführt werden kann.
-
In Übereinstimmung
mit einer bevorzugten Ausführungsform
der Erfindung ist das elektronische Gerät TE eine Mobilstation, die
mit einem öffentlichen landgestützten Mobilfunknetz
PLMN kommuniziert, an das auch der Server S funktional angeschlossen ist,
beispielsweise über
das Internet. Das elektronische Gerät TE, das an das Netz PLMN
angeschlossen ist, weist Mobilstations-Funktionalität auf, um mit dem Netz PLMN
drahtlos zu kommunizieren. Das Mobilfunknetz PLMN kann jedes bekannte
drahtlose Netzwerk sein, beispielsweise ein Netzwerk, das den GSM-Dienst,
ein Netzwerk, welches den GPRS (General Packet Radio Service) unterstützt, oder
ein Mobilfunknetzwerk der dritten Generation unterstützt, wie
beispielsweise das UMTS-(Universal Mobile Telecommunications System)Netz
gemäß dem 3GPP-(3rd Generation Partnership Project)Standard. Die
Funktionalität
des Servers S kann ebenfalls in dem Mobilfunknetz PLMN implementiert
werden. Das elektronische Gerät
TE kann ein Mobiltelefon sein, das nur zum Sprechen verwendet wird,
oder es kann auch PDA-(Personal
Digital Assistent)Funktionalität
aufweisen.
-
Wie
in 1b dargestellt umfassen
das elektronische Gerät
TE (in drahtlosen lokalen Netzwerken LAN und in drahtlosen Netzen
PLMN) und der Server S den Speicher MEM; SMEM, eine Benutzerschnittstelle
UI; SUI, Eingabe-/Ausgabemittel
I/O; SI/O zum Zuordnen der Datenübertragung
zwischen dem Server S und dem elektronischen Gerät TE direkt oder über ein
Netzwerk (PLMN, LAN, Internet) und eine Zentraleinheit CPU; SCPU,
die einen oder mehrere Prozessoren umfaßt. Der Speicher MEM; SMEM
enthält
einen nichtflüchtigen
Teil zum Speichern der Anwendungen, welche die Zentraleinheit CPU;
SCPU steuern, und einen Direktzugriffsspeicher, der für die Datenverarbeitung
verwendet wird. Ein Spracherkennungsblock SRB wird vorzugsweise implementiert,
indem in der CPU ein Computerprogramm-Code ausgeführt wird,
der in dem Speicher MEM gespeichert ist. Der Server S stellt einen Text-Phonem-Umwandlungsblock
TPB bereit, indem vorzugsweise in der SCPU ein Computerprogramm-Code
ausgeführt
wird, der in dem Speicher SMEM gespeichert ist. Der in den Zentraleinheiten CPU
und SCPU ausgeführte
Computerprogramm-Code veranlaßt,
daß das
elektronische Gerät TE
und der Server S die erfinderischen Eigenschaften ausführen, von
denen einige Ausführungsformen in
den 2 und 3 dargestellt sind. Die Computerprogramme
können über ein
Netzwerk empfangen und/oder in Speichermitteln gespeichert werden,
beispielsweise auf einer Diskette, ein CD-ROM-Diskette oder anderen
externen Speichermitteln, von wo aus sie in den Speicher MEM, SMEM
geladen werden können.
Integrierte Schaltungen können
ebenfalls verwendet werden, um den Spracherkennungsblock SRB und
Text-Phonem-Umwandlungsblock
TPB zu implementieren.
-
2 zeigt ein Verfahren gemäß einer
ersten bevorzugten Ausführungsform
der Erfindung, in dem der durch den Server S implementierte Text-Phonem-Block
TPB auch eine Sprachauswahlvorrichtung, d. h. einen Sprachen-Auswahlalgorithmus
umfaßt.
Das elektronische Gerät
TE empfängt
in Schritt 201 eine Zeichenfolge, typischerweise über eine
Benutzerschnittstelle UI. Die Zeichenfolge ist im allgemeinen eine,
die durch den Benutzer eingegeben wird, beispielsweise ein Eigenname,
der zu den Kontaktdetails hinzugefügt werden soll. Es ist auch möglich, daß irgendeine
Anwendung, die in dem elektronischen Gerät TE ausgeführt wird, in Schritt 201 eine
Zeichenfolge erzeugt, beispielsweise eine Steuerbefehl-Zeichenkette,
wobei der Benutzer in der Lage ist, die Anwendung später zu steuern,
indem er die Folge ausspricht. Unter Verwendung von Eingabe-/Ausgabemitteln
I/O sendet das elektronische Gerät
TE (SRB) in Schritt 202 die Zeichenfolge an den Server
S, in dem die Folge in Schritt 203 von den Mitteln SI/O
empfangen wird. Die erforderliche Identifizierungs-Information des
Servers S, beispielsweise eine ISDN-basierte Nummer oder eine IP-Adresse, an die das
elektronische Gerät
TE die Zeichenfolge leitet, wurde vorab in dem Speicher MEM des
elektronischen Geräts
TE gespeichert. Wenn der Server S sich in einem Mobilfunknetz PLMN
befindet, kann der PLMN-Betreiber
die Identifizierungs-Informationen beispielsweise auf einer IC-Karte
speichern lassen, von der aus sie abgerufen werden kann.
-
Der
Text-Phonem-Umwandlungsblock TPB des Servers S umfaßt eine
Sprachenauswahlvorrichtung, die in Schritt 204 die Sprache
der Zeichenfolge bestimmt. Die Sprache kann beispielsweise bestimmt
werden durch Verwendung dessen, was als N-Gramm (Kombinationen mit
N Buchstaben) bezeichnet wird, oder basierend auf der Wahrscheinlichkeit
des Auftretens von kurzen Wörtern.
Die Sprache kann auch mittels Entscheidungsbäumen bestimmt werden: auf der
Basis von Lexika in verschiedenen Sprachen werden zeichenspezifische
Entscheidungsbäume
gelehrt, welche die Wahrscheinlichkeit von wenigstens einer Sprache
auf der Basis der Zeichenumgebung jedes Zeichens ausdrücken. Diese
Entscheidungsbäume
sind in dem Server S (im Speicher SMEM) gespeichert. Entscheidungsbäume werden
Zeichen für
Zeichen auf die empfangene Zeichenfolge geprüft, wonach die Sprache für die Zeichenfolge
bestimmt wird. Es ist zu beachten, daß Schritt 204 nicht
erforderlich ist, wenn der Server S nur die Text-Phonem-Umwandlung
für die
Zeichenfolgen nur in spezifischen Sprachen durchführt. Wenn
die Sprache in dem Server S bestimmt worden ist, können größere Ressourcen
des Servers verwendet werden, und eine erfolgreiche Auswahl der Sprache
ist in hohem Maße
wahrscheinlich.
-
Der
Text-Phonem-Block TPB wandelt in Schritt 205 die Zeichenfolge
in eine Phonemfolge in Übereinstimmung
mit der bestimmten Sprache um. Beispielsweise kann die Zeichenfolge 'James Bond' zu der Phonemfolge '/jh/ /ey/ /m/ /z/
/b/ /oh/ /n/ /d/' führen. Die
Text-Phonem-Umwandlung
wird typischerweise erreicht, indem eine Suchtabelle oder eine automatische
Text-Phonem-Zuordnung verwendet wird. Die Zuordnung ist üblicherweise
sprachabhängig, wogegen
Suchtabellen immer sprachabhängig
sind; anders ausgedrückt,
es gibt separate Test-Phonem-Quellen
für verschiedene
Sprachen. Die Text-Phonem-Umwandlung
kann unter Verwendung jeder Technik durchgeführt werden, beispielsweise mit
Lexika, welche die HMM-(Hidden Markov Model)Technik, neuronale Netze
oder Entscheidungsbäume
verwenden. Die Veröffentlichung 'SELF-ORGANIZING LETTER
CODE-BOOK FOR TEXT-TO-PHONEME NEURAL NETWORK MODEL' von Kåre Jean
Jensen und Soren Rils, die anläßlich der
8. International Conference on Spoken Language Processing (ICSLP)
vom 16.–20.
Oktober 2000 in Peking, China vorgestellt wurde, offenbart eine
Möglichkeit
zur Nutzung neuronaler Netze, und die Veröffentlichung 'DECISION TREE BASED
TEXT-TO-PHONEM MAPPING FOR SPEECH RECOGNITION' von Janne Suontausta und Juha Häkkinen offenbart
eine Möglichkeit,
Entscheidungsbäume
zu verwenden. Da die Speicherkapazität des Servers S nicht so begrenzt
ist wie diejenige des elektronischen Geräts TE, kann eine Technik gewählt werden,
die eine möglichst
genaue Phonem-Umwandlung ermöglicht.
-
Der
Server S sendet in Schritt 206 die Phonemfolge an das elektronische
Gerät TE.
In dem elektronischen Gerät
wird die Phonemfolge in Schritt 207 in dem Speicher MEM
gespeichert, (der ebenfalls ein Speicher einer separaten Speicherkarte
oder einer IC-Karte sein kann, die an das Gerät angeschlossen ist), wobei
die Folge der ursprünglichen Zeichenfolge,
die bereits in dem Speicher gespeichert ist, oder ihrem Tag zugeordnet
wird. Beispielsweise ist die Phonemfolge an den Name-Tag der Kontaktdetails
angehängt.
Wenn der Spracherkennungsblock SRB aktiv ist, wird die in Schritt 208 von dem
Benutzer über
ein Mikrofon empfangene Sprachinformation in Schritt 209 mit
den gespeicherten Phonemfolgen verglichen. Wenn eine Phonemfolge, die
im wesentlichen mit der Sprachinformation übereinstimmt, gefunden wird,
wird die damit verbundene Zeichenfolge in Schritt 210 für einen
Dienst ausgewählt.
Die Zeichenfolge kann auch auf der Anzeige der Benutzerschnittstelle
UI des elektronischen Geräts
TE gezeigt werden. Danach kann der Dienst auf der Basis der Zeichenfolge
oder der Information, die des weiteren damit verbunden ist, aktiviert
werden. Wenn das elektronische Gerät eine Mobilstation ist, ist
ein typischer Dienst eine Auswahl eines Namens und ein Anruf-Aufbau zu der mit
dem Namen verbundenen Nummer. Der Dienst kann jedoch das Durchführen eines
Steuerbefehls in einem elektronischen Gerät umfassen, beispielsweise
die Aktivierung der Tastatursperre. Daher kann der Befehl zu einer
Phonemfolge modelliert werden, und der Benutzer kann das elektronische
Gerät TE
mit seiner Sprache steuern. Der Dienst kann auch die Bestimmung
eines Texts von der Sprache des Benutzers an die Anzeige sein, um
die Wiedergabe der automatischen Diktat-Erkennung zu implementieren.
Einige andere Beispiele von Diensten umfassen die Suche nach Straßennamen
und Ortsnamen auf der Basis der Sprache in einem Navigationssystem,
oder eine Datenbanksuche auf der Basis des Namens des Autors.
-
Die
oben beschriebenen Schritte 201 bis 210 lassen
sich vollautomatisch ausführen,
so daß der Benutzer
keine besonderen Maßnahmen
ergreifen muß,
um die Spracherkennung für
die eingegebenen Zeichenfolgen zu implementieren. Die Phonem-Umwandlungen
können
beispielsweise in dem elektronischen Gerät TE gespeichert werden, das
beispielsweise eine Mobilstation ist, die den GSM-Standard unterstützt, wobei
die Kontaktdetails jedoch auf einer IC-Karte gespeichert wurden,
die eine SIM-(Subscriber
Identify Module)Anwendung umfaßt:
wenn der Benutzer mit der IC-Karte in eine neue Mobilstation wechselt,
kann die Text-Phonem-Umwandlung für die Kontaktdetails der IC-Karte
automatisch durchgeführt
werden. Wenn die Datenübertragung
zwischen dem Server S und dem elektronischen Gerät TE für den Benutzer Kosten verursacht,
beispielsweise eine Gebühr
für die Übertragung
einer Kurznachricht in dem öffentlichen
landgestützten
Mobilfunknetz PLMN, kann eine Annahmeerklärung von dem Benutzer vor der Übertragung
der Zeichenfolge im Schritt 202 gefordert werden.
-
3 zeigt ein Verfahren gemäß einer
zweiten bevorzugten Ausführungsform,
in der die Auswahl der Sprache in dem elektronischen Gerät TE durchgeführt wird.
Vorzugsweise umfaßt
der Spracherkennungsblock SRB eine Sprachauswahlvorrichtung. Die
in Schritt 301 empfangene Zeichenfolge wird in die Sprachauswahlvorrichtung
eingegeben, und die Sprachauswahlvorrichtung bestimmt in Schritt 302 die
Sprache auf eine der Arten, die vorher in Zusammenhang mit Schritt 204 beschrieben
worden sind. Danach sendet das elektronische Gerät in Schritt 303 eine
Zeichenfolge und einen Sprachen-Tag an den Server S. Der Server
(TPB) führt
in Schritt 305 die Text-Phonem-Umwandlung durch, und die Schritte 306 bis 310 können in
der vorher beschriebenen Weise ausgeführt werden. Der Benutzer hat
außerdem
die Möglichkeit,
die Sprache in Schritt 302 zu wählen. Diese zweite Ausführungsform
bringt den Vorteil mit sich, daß die
Einstellungen des elektronischen Geräts in der Sprachenauswahl verwendet
werden können,
(z. B. das Auswählen
der Sprache der Benutzerschnittstelle UI), oder eine Sprache oder
die wahrscheinlichsten Sprachen, die von der Sprachauswahlvorrichtung
vorgeschlagen werden, können
dem Benutzer zur Auswahl angeboten werden.
-
In Übereinstimmung
mit einer Ausführungsform
der Erfindung sucht der Server S nach den Schritten 203 und
204 nach Informationen, die möglicherweise
mit der im Speicher SMEM oder einem anderen Netzwerkelement empfangenen
Zeichenfolge in Beziehung stehen, beispielsweise das Heimatregister
(HLR) des GSM-Netzwerks,
oder eine Kontaktliste, die mit dem Internet verknüpft ist.
Der Server S führt
beispielsweise eine Datenbanksuche mit der empfangenen Zeichenfolge
als ihrem Such-Tag durch. Alternative Telefonnummern (Privatnummer, Mobilnummer,
Büronummer,
Fax) oder E-Mail-Adressen können
der Zeichenfolge zugeordnet werden. Der Server S sendet die Information
zusammen mit der Phonemfolge in den Schritten 206, 306 an
das elektronische Gerät
TE, wobei vorzugsweise die gleiche Nachricht verwendet wird. Daher
können
zusätzliche
Informationen in dem Netzwerk problemlos an das elektronische Gerät gesendet
werden, ohne daß der
Benutzer dies getrennt anfordern muß. Eine oder mehrere Phonemfolgen
können
auch in den Schritten 205, 305 der zusätzlichen
Informationen ausgebildet und in den Schritten 206, 306 gesendet
werden. Diese Phonemfolgen können
mit den Informationen in dem Speicher MEM des elektronischen Geräts gespeichert
werden (207). Auf diese Weise werden mehr Informationen
in dem elektronischen Gerät leicht
verfügbar,
wobei der Benutzer Informationen mittels Sprache auswählen kann.
Beispielsweise kann die ursprünglich
gesendete Zeichenfolge 'Peter' um die Büronummer
ergänzt
werden, die im Netzwerk gefunden wurde, d. h. die Zeichenfolge 'Peter Arbeit' und eine Phonemfolge
der Zeichenfolge 'Peter Arbeit'.
-
Es
ist zu beachten, daß die
Zeichenfolge, beispielsweise der Name 'Peter', in einer Vielzahl von Sprachen verwendet
werden kann, in welchem Fall mehrere Sprachen für die Zeichenfolge in Schritt 204, 302 erhalten
werden. Daher bildet der Text-Phonem-Block TPB in Schritt 205, 305 Phonemfolgen
auf der Basis mehrerer Sprachen aus, und alle erhaltenen Phonemfolgen
werden in Schritt 206 an das elektronische Gerät gesendet.
Die Phonemfolge kann in Schritt 207, 307 automatisch
im Speicher MEM gespeichert werden, oder der Benutzer kann aufgefordert
werden, die Phonemfolgen vor dem Speichern in Schritt 207, 307 auszuwählen/zu
bestätigen.
-
4 zeigt eine Ausführungsform,
gemäß der in
Schritt 401 ein Audio-Modell der von dem Server S empfangenen
Phonemfolge (206, 306) in einem Audio-Synthesizer
des elektronischen Geräts TE
ausgebildet wird. Da das Audio-Modell
sprachabhängig
ist, wird das Ausbilden des Audio-Modells in Schritt 401 in Übereinstimmung
mit der bestimmten Sprache (204, 302) durchgeführt. Das
Audio-Modell kann
mittels einer Sprachsynthese oder unter Verwendung von Audio-Modellen
ausgebildet werden, die vorher gespeichert wurden. Das Audio-Modell wird
in Schritt 402 in dem Speicher MEM des elektronischen Geräts TE gespeichert,
wobei es mit der Zeichenfolge oder deren Tag verknüpft wird.
Das Audio-Modell wird in Schritt 403 für den Benutzer des elektronischen
Geräts
abgespielt, wenn die Sprachinformation des Benutzers im wesentlichen
mit der Phonemfolge der Zeichenfolge übereinstimmt, die dem Audio-Modell
zugeordnet ist, d. h. nach Schritt 209 oder 309.
Das Audio-Modell kann auch für
den Benutzer abgespielt werden, wenn es von dem Server S empfangen
wird. Wenn für
den Benutzer eine Zeichenfolge, die auf der Basis der Spracherkennung ausgewählt wurde,
nur auf der Anzeige bereitgestellt wird, muß der Benutzer das elektronische
Gerät TE von
seinem Ohr weiter entfernen, um die ausgewählte Zeichenfolge zu sehen.
Das Abspielen des Audio-Modells beseitigt diesen Nachteil und stellt
für den
Benutzer eine Audio-Rückmeldung
bereit, welche den Benutzerkomfort bei sprecherunabhängiger Spracherkennung
des weiteren erhöht.
Diese Ausführungsform
kann des weiteren so verwendet werden, daß der Benutzer eine oder mehrere
Phonemfolgen (d. h. eine vorgeschlagene Ausspracheform) auf der
Basis von mehreren vorgeschlagenen Audio-Modellen auswählen kann.
Der Benutzer kann die vorgeschlagene Aussprache auf der Basis des abgespielten
Audio-Modells auch zurückweisen,
wodurch eine neue Text-Phonem-Umwandlung in dem Netzwerk durchgeführt werden
kann, und eine neue Phonemfolge kann an das elektronische Gerät TE gesendet
werden. Auf diese Weise läßt sich
die Spracherkennung weiter verbessern.
-
In Übereinstimmung
mit einer bevorzugten Ausführungsform
wird die Datenübertragung
zwischen dem Server S und dem elektronischen Gerät TE (Mobilstation) durch Messaging über ein öffentliches
landgestütztes
Mobilfunknetz PLMN bedient. Kurznachrichten des Kurznachrichtendienstes
SMS sind besonders geeignet für
den Transport von kurzem Text und Phonemfolgen. Der Server S kann
mit dem SMS-Nachrichtendienst
SMS-SC verbunden sein, der die von dem elektronischen Gerät TE empfangenen
und an den Server S adressierten Kurznachrichtendaten an den Server,
an die Eingabe-/Ausgabemittel SI/O überträgt und umgekehrt. Hinsichtlich
einer genaueren Beschreibung des Betriebs des SMS-Dienstes wird
das Buch 'The GSM System
for Mobile Communications' von
M. Mouly und M. Pautet, Palaiseau, Frankreich 1992, ISBN; 2-9507190-0-7,
Kapitel 8.3 hier als Referenz zitiert. Die Datenübertragung kann auch auf leitungsvermittelten
Datenverbindungen oder paketvermittelten Datenübertragungsdiensten basieren,
beispielsweise GPRS-Diensten oder paketvermittelten Datenübertragungsdiensten
des UMTS-Systems. Auch das drahtlose Anwendungsprotokoll WAP kann
für die Übertragung
von Text und Phonemfolgen verwendet werden.
-
Für einen
Fachmann ist es offenkundig, daß mit
dem Fortschritt der Technologie die grundlegende Idee der Erfindung
in einer Vielzahl von Möglichkeiten
implementiert werden kann. Aussprache kann nicht nur mit Phonemen
modelliert werden, sondern auch mit anderen Folgen von akustischen
Einheiten. Die Erfindung und deren Ausführungsformen sind daher nicht
auf die vorher beschriebenen Beispiele begrenzt, sondern können sich
innerhalb des Umfangs der Ansprüche ändern.