DE69735522T2

DE69735522T2 - Sprachgesteuerter Telekommunikationsterminal

Info

Publication number: DE69735522T2
Application number: DE69735522T
Authority: DE
Inventors: Petri Haavisto; Kari Laurila; Markku Majaniemi
Original assignee: Nokia Oyj
Current assignee: Mobilemedia Ideas LLC
Priority date: 1996-09-02
Filing date: 1997-09-02
Publication date: 2006-11-30
Anticipated expiration: 2017-09-03
Also published as: FI101333B; EP0829993B1; DE69735522D1; FI101333B1; EP0829993A3; JPH10126479A; ATE321414T1; FI963417A0; EP0829993A2; FI963417A; US5915239A

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Steuern eines Telekommunikationsterminals mittels Sprache, wie im Oberbegriff von Anspruch 1 dargelegt, und ein sprachgesteuertes Telekommunikationsterminal, wie im Oberbegriff von Anspruch 3 dargelegt.
Wenn ein Mobiltelefon in einem Auto verwendet wird, ist oft ein Freisprechmodus erforderlich, wobei das Auto ein Freisprechgerät für das Mobiltelefon aufweist, das einen getrennten Lautsprecher und ein Mikrofon umfasst. Demnach kann der Sprecher während des Anrufs beide Hände zum Fahren verwenden. Die Vorteile des Freisprechmodus sind Bedienungskomfort und eine verbesserte Sicherheit. Um den Bedienungskomfort zu steigern, wird der Freisprechmodus auch in Büros als eine Tischfreisprechanlage verwendet.
Die Benutzerfreundlichkeit des Freisprechmodus wird durch die Tatsache geschmälert, dass der Fahrer zum Telefonieren die Telefonnummer durch Drücken der Tasten des Telefons wählen muss. Dies beeinträchtigt die Verkehrssicherheit, da der Blick des Fahrers am Telefon haftet. Zur Erleichterung des Wählens von Nummern wurden Abkürzungsfunktionen für Telefone entwickelt, wobei Namen und Nummern von Personen im Speicher des Telefons gespeichert wurden. Der Abkürzungsspeicher kann durchgerollt werden, wobei es vorteilhaft ist, auf der Anzeigeeinrichtung des Telefons einen Identifikator darzustellen, der jeder Telefonnummer entspricht, wie beispielsweise den Namen der jeweiligen Person. Nötigenfalls ist es auch möglich, die Telefonnummer darzustellen, die dem Identifikator entspricht. Der Speicher kann vorwärts und rückwärts gerollt werden und, wenn der gewünschte Identifikator auf der Anzeigeeinrichtung erscheint, kann mit dem Wählen der Telefonnummer zum Beispiel durch Drücken der Ruftaste begonnen werden. Die Abkürzungsfunktion eliminiert jedoch die Notwendigkeit, beim Telefonieren die Tasten drücken zu müssen, nicht vollständig.
Verschiedene Verfahren, die auf Spracherkennung für Telekommunikationsterminals, wie beispielsweise Mobiltelefone und Drahttelefone, basieren, wurden speziell zum Wählen einer Telfonnummer ohne das Drücken von Tasten entwickelt. In solchen Verfahren kann die gewünschte Telefonnummer üblicherweise derart gewählt werden, dass der Anrufer die Telefonnummer oder einen Identifikator, der mit der Telefonnummer in Beziehung steht, wie beispielsweise den Namen der Person, ausspricht. Die Telefonnummer, die dem Identifikator entspricht, wurde vorteilhafterweise im Abkürzungsspeicher gespeichert.
Einige bekannte Telekommunikationsterminals und Verfahren, die auf Spracherkennung basieren, wurden in den Patenschriften US-4,644,107, US-4,853,953, US-4,928,302, US-5,182,765 und US-5,222,121 beschrieben.
Die Steuer- und Rufverfahren eines Telkommunikationsterminals des Standes der Technik, welche Spracherkennung verwenden, basieren in erster Linie auf der Tatsache, dass ein charakteristisches Sprachmuster für jeden Befehl und jede Telefonnummer gespeichert wurde. Demnach muss der Befehl oder der Identifikator in einer Form erteilt werden, die mit der gespeicherten Form so identisch als möglich ist. Demnach muss der Anrufer sich erinnern, in welcher Form z.B. der Name „Matthew Herbert Williams" gespeichert wurde; wurde er genau in dieser Form oder in der Form „Matthew Williams", „Williams Matthew" oder „Williams Matthew Herbert" gespeichert.
Die US-Patentschrift 5,222,121 offenbart eine Spracherkennungswählvorrichtung, die in Verbindung mit einem Telefon angeordnet ist, das in einem Fahrzeug oder dergleichen montiert ist. Im Speicher der Wählvorrichtung werden Sprachmuster gespeichert, die den Befehlen und Telefonnummern entsprechen, wie beispielsweise Wörter „SPEICHER ABFRAGEN", „SENDEN" und „BESTÄTIGEN". Die Sprachmuster werden vorzugsweise bereits gespeichert, wenn die Wählvorrichtung hergestellt wird. Die Wähleinheit kann auch derart implementiert werden, dass der Benutzer der Einheit auch die Befehle und Nummern lehrt. Die Wählvorrichtung umfasst einen Lautsprecher und/oder eine Anzeigeeinrichtung, wobei dem Benutzer Befehle in Form von Sprachsignalen und/oder Text erteilt werden. Der Ruf wird durch Aussprechen des Befehls „SPEICHER ABFRAGEN" eingeleitet, wobei die Wählvorrichtung den Benutzer auffordert, den Identifikator der gewünschten Telefonnummer auszusprechen. Nachdem der Identifikator ausgesprochen wurde, vergleicht die Vorrichtung die Identifikatoren, die im Speicher gespeichert sind, und nach Auffinden eines Identifikator, der dem ausgesprochenen Identifikator am meisten ähnelt, erteilt sie ein Sprachsignal. Der Benutzer kann dann der Vorrichtung einen Rufbefehl „SENDEN" oder einen Befehl „BESTÄTIGEN" eingeben, wenn der Benutzer zu prüfen wünscht, dass die Nummer korrekt ist. In diesem Fall teilt die Wählvorrichtung den gewählten Identifikator zum Beispiel in einem Tonsignal mit. Wenn der gewählte Identifikator korrekt ist, wird durch Verwenden eines Rufbefehls eine Verbindung hergestellt. Wenn der gewählte Identifikator inkorrekt ist, kann der Benutzer durch Verwenden eines Befehls „NÄCHSTER" durch die anderen Alternativen rollen. Die Identifikatoren müssen jedoch in derselben Form angegeben werden, wie sie gespeichert wurden, was die Möglichkeit von falschen Wahlen erhöht.
Die US-Patentschrift 4,928,302 legt eine andere Wählvorrichtung zum Rufen einer gewünschten Telefonnummer durch Verwenden von Sprachbefehlen dar. In dieser Vorrichtung können die Telefonnummern zum Beispiel gemäß einem Anfangsteil des Namens eingeteilt werden. Die Suche kann demnach zum Beispiel durch Aussprechen des Nachnamens „Williams" implementiert werden, wobei die Vorrichtung alle Namen sucht, die „Will" in ihrem Anfangsteil aufweisen, wie beispielsweise „Williams", „Williamson" und „Willis". In der nächsten Phase kann der gewünschte Namen aus der Liste, welche durch die Vorrichtung gebildet wird und welche demnach in dieser Phase kürzer als die Liste aller im Speicher gespeicherten Namen ist, gewählt werden. Auch diese Vorrichtung weist den Nachteil auf, dass der Benutzer sich an die Form erinnern muss, in welcher der Name gespeichert wurde, das heißt „Williams Matthew", „Matthew Williams", „Williams Matthew Herbert" oder „Matthew Herbert Williams".
Die US-Patentschrift 5,371,779 offenbart ein Rufeinleitungssystem für mobile Telefoneinheiten. Die mobile Telefoneinheit umfasst ein Spracherkennungsgerät zum Eingeben von Sprache und ein numerisches Tastenfeld zum Eingeben von Telefonnummern. Das mobile Terminal umfasst auch eine Datenbank der Telefonnummern und der jeweiligen Namen von Personen, wobei die Telefonnummern durch Äußern des Namens, Berufs und Stadtnamens der Person, deren Telefonnummer zu suchen ist, aus der Datenbank herausgesucht werden können. Das Problem hierbei ist, dass der Benutzer die Namen genau so äußern muss, wie sie im Mobiltelefon gespeichert sind.
Die internationale Patentanmeldung WO 87/04292 offenbart ein Verfahren und eine Vorrichtung zum Synthetisieren von Sprache aus Spracherkennungsvorlagen. In dem Verfahren lehrte der Benutzer die Vorrichtung, d.h. er äußerte Befehle und Namen in Bezug auf Telefonnummern in einem Verzeichnis. Die Vorrichtung bildete Vorlagen auf der Basis der Äußerungen. Diese Vorlagen können dann im Spracherkennungsverfahren verwendet werden. Wenn zum Beispiel der Benutzer wünscht, einen Anruf zu tätigen, äußert er zuerst das Wort „abfragen", und danach fordert die Vorrichtung den Benutzer auf, den Namen im Verzeichnisindex zu äußern, welcher der Telefonnummer entspricht, die der Benutzer zu rufen wünscht. Das Wort wird als ein gültiger Verzeichniseintrag erkannt, wenn es einem vorbestimmten Namensindex entspricht. Als eine Antwort auf das erkannte Wort erzeugt der Synthesizer der Vorrichtung den Satz, welcher den Namen und die Telefonnummer enthält. Wenn das Erkennungsergebnis korrekt war, äußert der Benutzer „senden", um die Vorrichtung anzuweisen, einen Anruf einzuleiten. Auch in dieser Anordnung muss der Benutzer den Namen genau so äußern, wie er der Vorrichtung gelehrt wird.
Der Zwecke der vorliegenden Erfindung ist es, die zuvor erwähnten Nachteile in hohem Maße zu eliminieren und eine Vorrichtung und ein Verfahren zum Steuern eines Telekommunikationsterminals mittels Sprachbefehl und insbesondere zum Wählen einer Telefonnummer aus einer Gruppe von gespeicherten Telefonnummern bereitzustellen. Die Erfindung basiert auf der Idee, dass der Identifikator mehr als einen Unteridentifikator, d.h. ein Wort, umfassen kann, wobei in der Suchphase der Identifikator gemäß einer Kombination irgendwelcher Unteridentifikatoren diktiert werden kann. Das Verfahren der Erfindung ist dadurch gekennzeichnet, was im kennzeichnenden Teil des angehängten Anspruch 1 dargelegt wird. Die sprachgesteuerte Einheit der Erfindung ist dadurch gekennzeichnet, was im kennzeichnenden Teil des angehängten Anspruchs 3 dargelegt wird.
Die vorliegende Erfindung stellt bedeutende Vorteile gegenüber Sprachsteuerungsverfahren und sprachgesteuerten Vorrichtungen des Standes der Technik bereit.
Im Verfahren gemäß der Erfindung kann der Identifikator, der mit einer Telefonnummer in Beziehung steht, aus einem oder mehreren Unteridentifikatoren zusammengesetzt sein, die im Speicher der Vorrichtung gespeichert sind. Es ist in der Rufphase nicht erforderlich, die Unteridentifikatoren in der genauen Anordnung auszusprechen, in der sie gespeichert wurden, sondern es kann jede Kombination oder Teilkombination von Unteridentifikatoren verwendet werden. Es ist auch nicht notwendig, alle Unteridentifikatoren auszusprechen, vorausgesetzt dass die auszuwählende Telefonnummer durch die Gruppe der ausgesprochenen Unteridentifikatoren identifiziert wird. In einigen Fällen kann der Identifikator durch Aussprechen nur eines Unteridentifikators identifiziert werden.
Ein Verfahren gemäß einer zweiten vorteilhaften Ausführungsform der Erfindung stellt die Option bereit, Unteridentifikatoren auszusprechen, die nicht in der Gruppe von Unterindikatoren vorhanden sind, die im Speicher, das heißt in der Wortliste, gespeichert sind, wenn die Telefonnummer ausgewählt wird. Die Spracherkennung ignoriert diese Unteridentifikatoren vorteilhafterweise und führt die Auswahl basierend auf Unteridentifikatoren durch, die in der Wortliste gespeichert sind.
Im Folgenden wird die Erfindung unter Bezugnahme auf die beiliegende Zeichnung ausführlicher beschrieben, wobei
1 ein reduziertes Blockdiagramm einer vorteilhaften Wählvorrichtung gemäß der Erfindung darstellt;
2 ein reduziertes Flussdiagramm des Speicherns eines Identifikators im Speicher der Vorrichtung darstellt; und
3 ein reduziertes Flussdiagramm einer Situation darstellt, in welcher eine Telefonnummer gemäß einer vorteilhaften Ausführungsform der Erfindung gewählt wird.
Ein sprachgesteuertes Telekommunikationsterminal 1 gemäß einer vorteilhaften Ausführungsform der Erfindung, wie in 1 dargestellt, ist zum Beispiel eine Mobilstation, wie beispielsweise ein GSM-Mobiltelefon, oder ein festes Drahttelefon. 1 stellt nur jene Blöcke dar, welche für das Verständnis der Erfindung am wichtigsten sind. Eine Sprachsteuerungseinheit 2 umfasst vorteilhafterweise ein Spracherkennungsmittel 3, einen Sprachmusterspeicher 4, eine Steuereinheit 5, einen Nur-Lese-Speicher 6, einen Direktzugriffsspeicher 7, einen Sprachsynthesizer 8 und eine Schnittstelle 9. Sprachsteuerung kann z.B. mittels eines Mikrofons 10a des Telekommunikationsterminals 1 oder mittels eines Mikrofons 10b eines Freisprechgeräts 17 erfolgen. Die Anweisungen und Mitteilungen an den Benutzer können z.B. mittels Tonsignalen, die durch einen Sprachsynthesizer 8 erzeugt werden, entweder durch einen Lautsprecher 11a, der zum Telekommunikationsterminal 1 gehört, oder durch einen Lautsprecher 11b des Freisprechgeräts erteilt werden. Die Sprachsteuerungseinheit 2 der Erfindung kann auch ohne den Sprachsynthesizer 8 implementiert werden, wobei Anweisungen und Mitteilungen vorzugsweise in Textform auf dem Anzeigemittel 13 des Telekommunikationsterminals an den Benutzer übermittelt werden. Eine andere Option ist, Anweisungen und Mitteilungen sowohl als Ton als auch als Textnachrichten an den Benutzer zu übermitteln.
Im Folgenden wird die Funktionsweise des Verfahrens und des Telekommunikationsgeräts 1 gemäß der Erfindung beschrieben. Bevor die Sprachsteuerung funktioniert, müssen der Vorrichtung üblicherweise alle Sprachbefehle und Identifikatoren, die zu verwenden sind, gelehrt werden. Es ist vorzuziehen, dass die Sprachbefehle in der Herstellungsphase der Vorrichtung gelehrt wurden, wobei der Benutzer nur jene Identifikatoren lehrt, die er braucht. Dies kann z.B. durch Versetzen der Sprachsteuerungseinheit 2 in einen Lehrmodus zum Beispiel durch Antasten der Sprachspeichertaste A des Tastenfeldes 15 des Telekommunikationsterminals 1, durch Antasten der Zusatzsprachspeichertaste 12 oder durch die Menüeinrichtung des Telekommunikationsterminals 1 implementiert werden. Die Art und Weise, wie das Umschalten auf den Lehrmodus der Sprachbefehle implementiert wird, hängt z.B. vom verwendeten Telekommunikationsterminal 1 und von der Implementierung der Sprachsteuerung ab und ist eine Technologie, die einem Fachmann auf dem Gebiet an sich bekannt ist. Anschließend spricht der Benutzer den Befehl, der jeweils gelehrt wird, aus und informiert vorteilhafterweise durch Drücken der Tasten, welcher Befehl ausgesprochen wurde. Nötigenfalls wird der Befehl mehrere Male wiederholt, um ein zuverlässiges Speichern im Hinblick auf die Spracherkennung sicherzustellen. Gemäß dem ausgesprochenen Befehl bildet das Spracherkennungsmittel 3 einen Identifikator, welcher im Sprachmusterspeicher 4 gespeichert wird. Der Stand der Technik bezieht mehrere alternative Implementierungen für das Spracherkennungsmittel 3 und den Sprachäquivalenzspeicher 4 ein, und sie sind einem Fachmann auf dem Gebiet bekannt. Demnach ist eine ausführlichere Beschreibung dieser Implementierungen in diesem Zusammenhang unnötig; stattdessen wird zum Beispiel auf die Schriften verwiesen, die in Verbindung mit der Beschreibung des Standes der Technik erwähnt wurden.
Auch die Zahlzeichen von null bis neun werden vorteilhafterweise im Sprachäquivalenzspeicher gespeichert, wobei der Benutzer auch die Telefonnummer durch Aussprechen derselben speichern kann, wobei die Sprachsteuerungseinheit 2 die ausgesprochene Telefonnummer vorzugsweise in Signale umwandelt, die den Zahlzeichentasten entsprechen, und die Information über die Telefonnummer im Telefonnummernspeicher speichert, woraus sie beim Anrufen entnommen werden kann. Der Benutzer kann die Telefonnummer auch durch Eintasten von entsprechenden Zahlzeichen eingeben. Der Lehrmodus der Sprachbefehle wird vorteilhafterweise durch erneutes Antasten der Sprachspeichertaste A oder durch die Menüfunktion des Telekommunikationsterminals beendet.
In der Phase, in welcher der Benutzer den Identifikator der Telefonnummer zu speichern wünscht, wird die Sprachsteuerungseinheit 2 in einen Modus versetzt, in welchem die Sprachsteuerungseinheit den Empfang von Identifikatoren erwarten kann, welche aus einem oder mehreren Unteridentifikatoren zusammengesetzt sein können. Dieser Funktionsmodus wird im Folgenden unter Bezugnahme auf das Flussdiagramm von 2 beschrieben.
Das Umschalten auf den Identifikatorspeichermodus (Block 201) wird vorteilhafterweise durch Antasten der Sprachspeichertaste A oder durch die Menüeinrichtung, wie zuvor in Verbindung mit der Befehlsspeicherung dargelegt, implementiert. Die Spracherkennungseinheit 2 erzeugt vorteilhafterweise eine Nachricht „Den Identifikator aussprechen" (Block 202), wobei der Benutzer mit dem Aussprechen der Unteridentifikatoren des Identifikators beginnt. Demnach kann der Identifikator einen oder mehrere Unteridentifikatoren umfassen, zum Beispiel „Williams", „Matthew", „Herbert". Eine kurze Pause wird zwischen jedem Unteridentifikator eingehalten, wobei die Spracherkennungseinheit 2 imstande ist, die Unteridentifikatoren voneinander zu trennen. Jeder ausgesprochene Unteridentifikator wird im Sprachäquivalenzspeicher 4 gespeichert (Block 203). Die Sprachsteuerungseinheit 2 kann zusätzlich ein Kurztonsignal (z.B. einen Piepton) nach jedem ausgesprochenen Unteridentifikator als ein Zeichen, dass der Unteridentifikator gespeichert ist, erzeugen. Anschließend wird, nachdem alle Unteridentifikatoren ausgesprochen wurden (Block 204), der Benutzer aufgefordert, die Telefonnummer einzugeben, die mit dem Identifikator verbunden ist (Block 205), z.B. durch Aussprechen der Nummern oder durch Eintasten. Nachdem die Nummer eingegeben ist, speichert die Sprachsteuerungseinheit 2 die Telefonnummer z.B. im Direktzugriffsspeicher 7 (Block 206) und erzeugt Referenzen der Unteridentifikatoren für die Telefonnummer (Block 207). Anschließend wird der Benutzer gefragt, ob irgendwelche anderen Identifikatoren und Telefonnummern zu speichern sind (Block 209, 210). Falls der Benutzer mit dem Speichern fortzufahren wünscht, kehrt die Funktion zurück zu Block 202, bis keine Identifikatoren mehr eingegeben werden (Block 211).
Die Teilung der Unteridentifikatoren kann auf eine Art und Weise implementiert werden, dass der Benutzer den Identifikator in Unteridentifikatoren unterteilt und die Unteridentifikatoren z.B. durch Drücken einer Taste trennt.
In der Rufphase muss die Sprachsteuerungseinheit 2 z.B. durch einen Sprachbefehl „Anruf" oder durch Verwenden der Tasten des Telekommunikationsterminals 1 in einen Namenwählmodus versetzt werden. Wenn in einem Auto montiert, ist es auch möglich, eine Zusatzsteueroption außerhalb des Telekommunikationsterminals 1z.B. nahe an das Lenkrad des Autos zu bringen, wobei die Aktivierung des Namenwählmodus z.B. durch einen Aktivierungsschalter 14 leicht zu implementieren ist. Im Folgenden wird das sprachgesteuerte Wählen der Telefonnummer gemäß einer bevorzugten Ausführungsform der Erfindung unter Bezugnahme auf das Flussdiagram von 3 beschrieben.
Nachdem die Sprachsteuerungseinheit 2 den erteilten Befehl als den Aktivierungsbefehl des Namenwählmodus erkannt hat, begibt die Sprachsteuerungseinheit 2 sich in einen Telefonnummernwählmodus (Block 301). Die Sprachsteuerungseinheit 2 erzeugt vorteilhafterweise ein Tonsignal für den Lautsprecher 11 und/oder eine Textnachricht auf einem Anzeigemittel 13, wobei das Signal oder die Nachricht den Benutzer informiert, den Identifikator auszusprechen (Block 302). Der Benutzer kann die Unteridentifikatoren des Identifikators vorzugsweise durch Einhalten einer kurzen Pause zwischen Unteridentifikatoren, um die Unteridentifikatoren voneinander zu trennen, in jeder Anordnung aussprechen. Die Sprachsteuerungseinheit 2 berechnet die Wahrscheinlichkeit zwischen dem ersten gespeicherten Identifikator und dem ausgesprochenen Identifikator (Block 303). Anschließend wird geprüft, ob noch irgendwelche anderen Identifikatoren im Speicher gespeichert sind (Block 304). Falls noch irgendwelche nicht geprüfte Identifikatoren übrig sind, wird eine Wahrscheinlichkeit für den nächsten Identifikator erzeugt (Block 305). Wenn die Wahrscheinlichkeit für jeden gespeicherten Identifikator erzeugt wurde, wird die höchste berechnete Wahrscheinlichkeit gesucht. Falls die Wahrscheinlichkeit, die für einen gespeicherten Identifikator berechnet wurde, unverwechselbar höher als die für den Rest der Identifikatoren berechnete ist, kann angenommen werden, dass der Identifikator der korrekte ist (Block 306), wobei der Telefonnummernwählmodus gestartet werden kann (Block 307). Falls die Identifizierung des Identifikators nicht gelang, ist es z.B. möglich, zu Block 302 zurückzukehren und den Benutzer aufzufordern, den Identifikator zu wiederholen, bis die Auswahl identifiziert werden kann.
Es wird nicht immer eine vollständige Identifizierung erreicht, wobei die Sprachsteuerungseinheit 2 den Benutzer informieren und z.B. durch Zurückkehren zu Block 302 im Flussdiagramm von 3 auffordern kann, den Identifikator erneut auszusprechen. Die Sprachsteuerungseinheit 2 kann z.B. auch ein Tonsignal jener Identifikatoren erzeugen, die gemäß dem Vergleich, der durch das Spracherkennungsmittel 3 angestellt wird, am meisten dem ausgesprochenen Identifikator ähneln, wobei der Benutzer den korrekten Identifikator auswählen kann. Falls keiner der vorgeschlagenen Identifikatoren korrekt ist, kann der Benutzer den Identifikator wiederholen. Selbst wenn die Sprachsteuerungseinheit 2 den eingegebenen Identifikator erkennen konnte, ist es vorzuziehen, dass der Benutzer bestätigt, dass der ausgewählte Identifikator korrekt ist. Dies kann zum Beispiel derart erfolgen, dass der Benutzer einen Wählbefehl erteilt, wenn der Identifikator korrekt ist, oder einen Wiedererkennungsbefehl, wenn der Identifikator inkorrekt ist. Die Bestätigung kann vorteilhafterweise auch durch eine Aktivierungsschalttaste 14 erfolgen. Noch eine andere Alternative zur Bestätigung ist, dass das Telekommunikationsterminal 1 eine vorbestimmte Zeit auf den Befehl des Benutzers wartet, und falls kein Befehl kommt, nimmt es an, dass die ausgewählte Telefonnummer korrekt ist, und beginnt mit dem Wählen.
Die Telefonnummer wird gemäß den Informationen, die im Telefonnummernspeicher gespeichert sind, auf eine an sich bekannte Art und Weise gewählt. Der verwendete Speicher kann ein Speicher des Telekommunikationsterminals 1 (nicht dargestellt) oder der Direktzugriffsspeicher 7 der Sprachsteuerungseinheit 2 sein. Auch ein nichtflüchtiger Direktzugriffsspeicher (NVRAM) kann teilweise als der Direktzugriffsspeicher 7 der Sprachsteuerungseinheit 2 verwendet werden, wobei die Informationen, die im Speicher gespeichert sind, auch ohne Betriebsspannung bewahrt werden.
Das Verfahren gemäß der Erfindung kann z.B. derart implementiert werden, dass in der Speicherungsphase ein getrenntes Modell jedes ausgesprochenen Identifikators gebildet wird. Im Folgenden wird angenommen, dass eine Anzahl N von Namen, das heißt Unteridentifikatoren n₁, n₂, ..., n_N, mit der Telefonnummer verbunden ist. Für die Erkennungsphase wird eine Modellstruktur für die Telefonnummer gebildet, wobei die Struktur jede mögliche Unteridentifikatorkomposition enthält, das heißt 1 bis N Unteridentifikatoren in jeder möglichen Anordnung. Diese Unteridentifikatorkompositionen umfassen
Die Sprachsteuerungseinheit 2 definiert die Wahrscheinlichkeit für alle Unteridentifikatorkompositionen, und die Unteridentifikationskomposition, der die höchste Wahrscheinlichkeit erteilt wird, ist das Endergebnis der Erekennung.
Zum Beispiel sind im Fall, dass n₁ = Williams, n₂ = Matthew und n₃ = Herbert, die möglichen Unteridentifikatorkompositionen:
Williams, Matthew, Herbert, Williams Matthew, Matthew Williams, Williams Herbert, Herbert Williams, Matthew Herbert, Herbert Matthew, Williams Matthew Herbert, Williams Herbert Matthew, Matthew Williams Herbert, Matthew Herbert Williams, Herbert Williams Matthew und Herbert Matthew Williams.
Demnach gibt es insgesamt 15 mögliche Unteridentifikatorkompositionen, wenn die Anzahl von Unteridentifikatoren drei ist. Unteridentifikatorkombinationen sind demnach ganze Kombinationen von Unteridentifikatoren (die aus allen Unteridentifikatoren bestehen) oder Teilkombinationen von Unteridentifikatoren (die nur aus einem Teil der Unteridentifikatoren bestehen). Es sind auch Teilkombinationen mit nur einem Unteridentifikator möglich, wenn die Sprachsteuerung gemäß der Erfindung angepasst wird.
Die folgende Tabelle 1 stellt die Anzahl von Unteridentifikatorkombinationen als Funktion von Unteridentifikatoren dar.
Tabelle 1
Aus Tabelle 1 ist ersichtlich, dass die Anzahl von Unteridentifikatorkombinationen sehr schnell steigt. Sie ist so hoch wie 64, wenn die Anzahl der Unteridentifikatoren vier beträgt. Die Speichermenge und Berechnungszeit, die zum Speichern der Modellstruktur erforderlich sind, können mittels der Implementierung einer Alternative gemäß der bevorzugten Ausführungsform der Erfindung reduziert werden. In dieser Alternative werden getrennte Unteridentifikatoren, wobei diese unabhängig voneinander sind, aus der Gruppe aller ausgesprochenen Wörter erkannt (Worterkennung). In diesem Verfahren sieht es aus, als ob die Sprachsteuerungseinheit 2 ständig auf einen bestimmten Unteridentifikator wartet, und sie erkennt, ob er ausgesprochen wird oder nicht. In diesem Fall erzeugt die Sprachsteuerungseinheit 2 mehrere mögliche alternative Namen und eine Wahrscheinlichkeitsstufe dafür. Gemäß diesen Alternativen kann auf die Telefonnummer geschlossen werden, die der Benutzer meinte.
In diesem Verfahren macht es keinen Unterschied, wie viele Wörter, die nicht in der Wortliste (der Gruppe aller gespeicherten Unteridentifikatoren) enthalten sind, verwendet werden, was dieses Verfahren bei Verwendung hoch flexibel macht.
In der Lehrphase wandelt die Sprachsteuerungseinheit 2 die ausgesprochenen Unteridentifikatoren in eine Form um, die zum Speichern geeignet ist, und vergleicht jeden ausgesprochenen Unteridentifikator mit bereits gespeicherten Unteridentifikatoren. Falls der ausgesprochene Unteridentifikator bereits gespeichert war, z.B. der Benutzer den Namen „Matthew Taylor" bereits gespeichert hatte, erkennt die Sprachsteuerungseinheit 2, wenn „Matthew" ausgesprochen wird, dass dieser bereits gespeichert ist. In diesem Fall bildet die Sprachsteuerungseinheit 2 eine Referenz vom Unteridentifikator „Matthew" für die Telefonnummer von Taylor und die Telefonnummer von Williams. In dieser Situation bildete die Sprachsteuerungseinheit 2 in der Erkennungsphase nach dem Unteridentifikator „Matthew" z.B. eine Liste, welche sowohl Matthew Taylor als auch Matthew Williams enthält. Demnach weiß die Sprachsteuerungseinheit 2, dass sie Taylor oder Williams erwarten kann, und nachdem der Benutzer den nächsten Unteridentifikator ausgesprochen hat, urteilt die Sprachsteuerungseinheit 2, ob der Identifikator auf der Basis der gegebenen Unteridentifikatoren identifiziert werden kann oder ob sie auf einen möglichen, kommenden Unteridentifikator warten sollte. Dies könnte in solchen Fällen möglich sein, in welchen die beiden Unteridentifikatoren identisch sind und der dritte Unteridentifikator anders ist.
Obwohl die zuvor erwähnten Unteridentifikatoren nur die Nachnamen und Vornamen von Personen umfassen, können die Unteridentifikatoren z.B. den Namen des Unternehmens oder der Gruppe, in welcher die betreffende Person arbeitet, oder möglicherweise auch die Abteilung oder den Filialnamen („Matthew". „Williams", „Nokia", „Mobiltelefone") bezeichnen. Außerdem kann die Person mehrere Telefonnummern haben, auch in verschiedenen Ländern, wobei ein verwendeter Unteridentifikator ein Land („Matthew", „Williams", „Nokia", „Finnland") sein kann. Auch die Privattelefonnummer kann z.B. durch Verwenden eines Unteridentifikators „zu Hause" unterschieden werden.
Die Sprachsteuerungseinheit 2 gemäß der Erfindung ist vorzugsweise so ausgebildet, dass sie einen Teil des Telekommunikationsterminals 1 bildet, wobei die Funktionen der Sprachsteuerungseinheit vorteilhafterweise in der Funktionssoftware und im Funktionsteil des Telekommunikationsterminals 1 enthalten sind. Demnach sind die Steuereinheit 5, der Nur-Lese-Speicher 6 und der Direktzugriffsspeicher 7, die verwendet werden, die entsprechenden Teile des Telekommunikationsterminals. Um dies in 1 zu vereinfachen, sind diese Teile in einem Steuerblock 16 dargestellt.
Eine andere Alternative, das Telekommunikationsterminal 1 gemäß der Erfindung zu implementieren, ist, einen Teil der Blöcke in der Sprachsteuerungseinheit 2 in Verbindung mit dem Telekommunikationsterminal 1 zu bilden und derart, dass ein Teil der Blöcke z.B. eine getrennte Vorrichtung ist.
Die meisten Mobilstationen umfassen ein Zugangstor für die Möglichkeit des Anschließens von externen Hilfsvorrichtungen, wobei die Sprachsteuerungseinheit 2 als eine getrennte Hilfsvorrichtung implementiert werden kann, die an das Zugangstor angeschlossen wird. Demnach können die Wählsignale der Steuerung und die Telefonnummer über Verbinder des Zugangstors übertragen werden, was eine an sich bekannte Technik ist.
Noch eine andere Alternative, die Sprachsteuerungseinheit zu implementieren, ist, einen Sprachsteuerungsdienst in einem Telekommunikationsnetz, wie beispielsweise einem Mobilkommunikationsnetz, zu bilden, wobei im Sprachsteuerungsdienst die Funktionen der Sprachsteuerungseinheit angeordnet sind. Demnach wird die Spracherkennung z.B. durch die Menüfunktionen der Mobilstation ausgewählt, wobei eine Sprachverbindung von der Mobilstation zum Sprachsteuerungsdienst hergestellt wird. Anschließend wird vorteilhafterweise so verfahren, wie zuvor beschrieben. Nachdem der Identifikator identifiziert wurde, ist der Sprachsteuerungsdienst imstande, eine Verbindung mit der Telefonnummer herzustellen, die dem Identifikator entspricht.
Die Erfindung ist nicht nur auf die zuvor dargelegten Beispiele beschränkt, sondern kann innerhalb des Rahmens der beiliegenden Ansprüche modifiziert werden.

Claims

Verfahren zum Auswählen einer Telefonnummer mittels Sprachsteuerung, wobei in dem Verfahren die Telefonnummern, die ausgewählt werden können, gespeichert werden und für jede Telefonnummer, die ausgewählt werden kann, ein Identifikator gespeichert wird, dadurch gekennzeichnet, dass in der Speicherungsphase der Identifikator ausgesprochen und in mehrere Unteridentifikatoren unterteilt wird, die gespeichert werden und mit denen die Informationen zur Telefonnummer verbunden sind, wobei das Verfahren ein Auswählen der Telefonnummer in Antwort auf einen Sprachbefehl umfasst, der eine Kombination von einem oder einigen der mehreren Unteridentifikatoren umfasst, wobei in der Kombination die Anordnung der Unteridentifikatoren unabhängig von der Anordnung ist, in der die mehreren Unteridentifikatoren gespeichert sind.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Identifikator ein Name einer Person ist, wobei die verwendeten Unteridentifikatoren vorzugsweise der Nachname der Person und ein oder mehrere Vornamen der Person sind.
Sprachgesteuerte Vorrichtung (2), umfassend: – Mittel (7) zum Speichern der auszuwählenden Telefonnummern, – Mittel (4) zum Speichern des mindestens einen Identifikators für jede auszuwählende Telefonnummer, – Mittel (10a, 10b) zum Empfangen eines Identifikators, der in einer Sprachform gegeben wird, – Mittel (3) zum Auswerten der empfangenen Sprachbefehle, – Mittel (16) zum Auswählen einer Telefonnummer in Antwort auf einen Sprachbefehl, dadurch gekennzeichnet, dass der Identifikator mehrere Unteridentifikatoren umfasst und die sprachgesteuerte Vorrichtung Mittel (4) zum Speichern der Unteridentifikatoren und Mittel (3, 4, 5, 6, 7, 10a, 10b) zum Auswählen einer Telefonnummer in Antwort auf einen Sprachbefehl enthält, der eine Kombination von einem oder einigen der mehreren Unteridentifikatoren umfasst, wobei in der Kombination die Anordnung der Unteridentifikatoren unabhängig von der Anordnung ist, in der die mehreren Unteridentifikatoren gespeichert sind.
Sprachgesteuerte Vorrichtung (2) nach Anspruch 3, dadurch gekennzeichnet, dass ein Identifikator dazu eingerichtet ist, in der sprachgesteuerten Vorrichtung (2) automatisch in Unteridentifikatoren unterteilt zu werden.
Sprachgesteuerte Vorrichtung (2) nach Anspruch 4, dadurch gekennzeichnet, dass ein Identifikator dazu eingerichtet ist, in der sprachgesteuerten Vorrichtung (2) auf der Basis von Pausen, die zwischen den Unteridentifikatoren beim Aussprechen der Unteridentifikatoren eingehalten werden, in Unteridentifikatoren unterteilt zu werden.
Sprachgesteuerte Vorrichtung (2) nach Anspruch 3, die Mittel zum Erteilen von Befehlen an die sprachgesteuerte Vorrichtung (2) enthält, dadurch gekennzeichnet, dass ein Identifikator dazu eingerichtet ist, in Unteridentifikatoren unterteilt zu werden, indem Mittel zum Erteilen von Befehlen an die sprachgesteuerte Vorrichtung (2) verwendet werden.
Sprachgesteuerte Vorrichtung (2) nach einem der Ansprüche 3 bis 6, dadurch gekennzeichnet, dass die sprachgesteuerte Vorrichtung (2) dazu ausgestaltet ist, einen Teil eines Telekommunikationsterminals (1) zu bilden.
Sprachgesteuerte Vorrichtung (2) nach einem der Ansprüche 3 bis 6, dadurch gekennzeichnet, dass die sprachgesteuerte Vorrichtung (2) dazu ausgestaltet ist, eine Hilfsvorrichtung zu bilden.
Sprachgesteuerte Vorrichtung (2) nach einem der Ansprüche 3 bis 6 oder 7, dadurch gekennzeichnet, dass die sprachgesteuerte Vorrichtung (2) dazu eingerichtet ist, in Verbindung mit einem Telekommunikationsterminal (1) verwendet zu werden.
Sprachgesteuerte Vorrichtung (2) nach einem der Ansprüche 3 bis 6, dadurch gekennzeichnet, dass die sprachgesteuerte Vorrichtung (2) dazu eingerichtet ist, in Verbindung mit einem Telekommunikationsnetz verwendet zu werden.
Sprachgesteuerte Vorrichtung (2) nach Anspruch 9, dadurch gekennzeichnet, dass das Telekommunikationsterminal (1) eine Mobilstation ist.
Sprachgesteuerte Vorrichtung (2) nach Anspruch 11, dadurch gekennzeichnet, dass die Mobilstation eine GSM-Mobilstation ist.