-
Die
vorliegende Erfindung betrifft ein Verfahren zum Steuern eines Telekommunikationsterminals
mittels Sprache, wie im Oberbegriff von Anspruch 1 dargelegt, und
ein sprachgesteuertes Telekommunikationsterminal, wie im Oberbegriff
von Anspruch 3 dargelegt.
-
Wenn
ein Mobiltelefon in einem Auto verwendet wird, ist oft ein Freisprechmodus
erforderlich, wobei das Auto ein Freisprechgerät für das Mobiltelefon aufweist,
das einen getrennten Lautsprecher und ein Mikrofon umfasst. Demnach
kann der Sprecher während
des Anrufs beide Hände
zum Fahren verwenden. Die Vorteile des Freisprechmodus sind Bedienungskomfort
und eine verbesserte Sicherheit. Um den Bedienungskomfort zu steigern,
wird der Freisprechmodus auch in Büros als eine Tischfreisprechanlage
verwendet.
-
Die
Benutzerfreundlichkeit des Freisprechmodus wird durch die Tatsache
geschmälert,
dass der Fahrer zum Telefonieren die Telefonnummer durch Drücken der
Tasten des Telefons wählen
muss. Dies beeinträchtigt
die Verkehrssicherheit, da der Blick des Fahrers am Telefon haftet.
Zur Erleichterung des Wählens von
Nummern wurden Abkürzungsfunktionen
für Telefone
entwickelt, wobei Namen und Nummern von Personen im Speicher des
Telefons gespeichert wurden. Der Abkürzungsspeicher kann durchgerollt
werden, wobei es vorteilhaft ist, auf der Anzeigeeinrichtung des
Telefons einen Identifikator darzustellen, der jeder Telefonnummer
entspricht, wie beispielsweise den Namen der jeweiligen Person.
Nötigenfalls
ist es auch möglich,
die Telefonnummer darzustellen, die dem Identifikator entspricht.
Der Speicher kann vorwärts
und rückwärts gerollt
werden und, wenn der gewünschte
Identifikator auf der Anzeigeeinrichtung erscheint, kann mit dem
Wählen
der Telefonnummer zum Beispiel durch Drücken der Ruftaste begonnen
werden. Die Abkürzungsfunktion eliminiert
jedoch die Notwendigkeit, beim Telefonieren die Tasten drücken zu
müssen,
nicht vollständig.
-
Verschiedene
Verfahren, die auf Spracherkennung für Telekommunikationsterminals,
wie beispielsweise Mobiltelefone und Drahttelefone, basieren, wurden
speziell zum Wählen
einer Telfonnummer ohne das Drücken
von Tasten entwickelt. In solchen Verfahren kann die gewünschte Telefonnummer üblicherweise
derart gewählt
werden, dass der Anrufer die Telefonnummer oder einen Identifikator,
der mit der Telefonnummer in Beziehung steht, wie beispielsweise
den Namen der Person, ausspricht. Die Telefonnummer, die dem Identifikator
entspricht, wurde vorteilhafterweise im Abkürzungsspeicher gespeichert.
-
Einige
bekannte Telekommunikationsterminals und Verfahren, die auf Spracherkennung
basieren, wurden in den Patenschriften US-4,644,107, US-4,853,953,
US-4,928,302, US-5,182,765
und US-5,222,121 beschrieben.
-
Die
Steuer- und Rufverfahren eines Telkommunikationsterminals des Standes
der Technik, welche Spracherkennung verwenden, basieren in erster
Linie auf der Tatsache, dass ein charakteristisches Sprachmuster
für jeden
Befehl und jede Telefonnummer gespeichert wurde. Demnach muss der
Befehl oder der Identifikator in einer Form erteilt werden, die
mit der gespeicherten Form so identisch als möglich ist. Demnach muss der
Anrufer sich erinnern, in welcher Form z.B. der Name „Matthew
Herbert Williams" gespeichert
wurde; wurde er genau in dieser Form oder in der Form „Matthew Williams", „Williams
Matthew" oder „Williams Matthew
Herbert" gespeichert.
-
Die
US-Patentschrift 5,222,121 offenbart eine Spracherkennungswählvorrichtung,
die in Verbindung mit einem Telefon angeordnet ist, das in einem
Fahrzeug oder dergleichen montiert ist. Im Speicher der Wählvorrichtung
werden Sprachmuster gespeichert, die den Befehlen und Telefonnummern
entsprechen, wie beispielsweise Wörter „SPEICHER ABFRAGEN", „SENDEN" und „BESTÄTIGEN". Die Sprachmuster
werden vorzugsweise bereits gespeichert, wenn die Wählvorrichtung
hergestellt wird. Die Wähleinheit
kann auch derart implementiert werden, dass der Benutzer der Einheit
auch die Befehle und Nummern lehrt. Die Wählvorrichtung umfasst einen
Lautsprecher und/oder eine Anzeigeeinrichtung, wobei dem Benutzer
Befehle in Form von Sprachsignalen und/oder Text erteilt werden.
Der Ruf wird durch Aussprechen des Befehls „SPEICHER ABFRAGEN" eingeleitet, wobei
die Wählvorrichtung
den Benutzer auffordert, den Identifikator der gewünschten
Telefonnummer auszusprechen. Nachdem der Identifikator ausgesprochen
wurde, vergleicht die Vorrichtung die Identifikatoren, die im Speicher
gespeichert sind, und nach Auffinden eines Identifikator, der dem
ausgesprochenen Identifikator am meisten ähnelt, erteilt sie ein Sprachsignal.
Der Benutzer kann dann der Vorrichtung einen Rufbefehl „SENDEN" oder einen Befehl „BESTÄTIGEN" eingeben, wenn der
Benutzer zu prüfen
wünscht,
dass die Nummer korrekt ist. In diesem Fall teilt die Wählvorrichtung
den gewählten
Identifikator zum Beispiel in einem Tonsignal mit. Wenn der gewählte Identifikator
korrekt ist, wird durch Verwenden eines Rufbefehls eine Verbindung
hergestellt. Wenn der gewählte
Identifikator inkorrekt ist, kann der Benutzer durch Verwenden eines Befehls „NÄCHSTER" durch die anderen
Alternativen rollen. Die Identifikatoren müssen jedoch in derselben Form
angegeben werden, wie sie gespeichert wurden, was die Möglichkeit
von falschen Wahlen erhöht.
-
Die
US-Patentschrift 4,928,302 legt eine andere Wählvorrichtung zum Rufen einer
gewünschten
Telefonnummer durch Verwenden von Sprachbefehlen dar. In dieser
Vorrichtung können
die Telefonnummern zum Beispiel gemäß einem Anfangsteil des Namens
eingeteilt werden. Die Suche kann demnach zum Beispiel durch Aussprechen
des Nachnamens „Williams" implementiert werden,
wobei die Vorrichtung alle Namen sucht, die „Will" in ihrem Anfangsteil aufweisen, wie
beispielsweise „Williams", „Williamson" und „Willis". In der nächsten Phase
kann der gewünschte
Namen aus der Liste, welche durch die Vorrichtung gebildet wird
und welche demnach in dieser Phase kürzer als die Liste aller im
Speicher gespeicherten Namen ist, gewählt werden. Auch diese Vorrichtung
weist den Nachteil auf, dass der Benutzer sich an die Form erinnern
muss, in welcher der Name gespeichert wurde, das heißt „Williams
Matthew", „Matthew
Williams", „Williams
Matthew Herbert" oder „Matthew
Herbert Williams".
-
Die
US-Patentschrift 5,371,779 offenbart ein Rufeinleitungssystem für mobile
Telefoneinheiten. Die mobile Telefoneinheit umfasst ein Spracherkennungsgerät zum Eingeben
von Sprache und ein numerisches Tastenfeld zum Eingeben von Telefonnummern.
Das mobile Terminal umfasst auch eine Datenbank der Telefonnummern
und der jeweiligen Namen von Personen, wobei die Telefonnummern
durch Äußern des
Namens, Berufs und Stadtnamens der Person, deren Telefonnummer zu
suchen ist, aus der Datenbank herausgesucht werden können. Das
Problem hierbei ist, dass der Benutzer die Namen genau so äußern muss,
wie sie im Mobiltelefon gespeichert sind.
-
Die
internationale Patentanmeldung WO 87/04292 offenbart ein Verfahren
und eine Vorrichtung zum Synthetisieren von Sprache aus Spracherkennungsvorlagen.
In dem Verfahren lehrte der Benutzer die Vorrichtung, d.h. er äußerte Befehle
und Namen in Bezug auf Telefonnummern in einem Verzeichnis. Die
Vorrichtung bildete Vorlagen auf der Basis der Äußerungen. Diese Vorlagen können dann
im Spracherkennungsverfahren verwendet werden. Wenn zum Beispiel
der Benutzer wünscht,
einen Anruf zu tätigen, äußert er
zuerst das Wort „abfragen", und danach fordert
die Vorrichtung den Benutzer auf, den Namen im Verzeichnisindex
zu äußern, welcher
der Telefonnummer entspricht, die der Benutzer zu rufen wünscht. Das
Wort wird als ein gültiger Verzeichniseintrag
erkannt, wenn es einem vorbestimmten Namensindex entspricht. Als
eine Antwort auf das erkannte Wort erzeugt der Synthesizer der Vorrichtung
den Satz, welcher den Namen und die Telefonnummer enthält. Wenn
das Erkennungsergebnis korrekt war, äußert der Benutzer „senden", um die Vorrichtung
anzuweisen, einen Anruf einzuleiten. Auch in dieser Anordnung muss
der Benutzer den Namen genau so äußern, wie
er der Vorrichtung gelehrt wird.
-
Der
Zwecke der vorliegenden Erfindung ist es, die zuvor erwähnten Nachteile
in hohem Maße
zu eliminieren und eine Vorrichtung und ein Verfahren zum Steuern
eines Telekommunikationsterminals mittels Sprachbefehl und insbesondere
zum Wählen
einer Telefonnummer aus einer Gruppe von gespeicherten Telefonnummern
bereitzustellen. Die Erfindung basiert auf der Idee, dass der Identifikator
mehr als einen Unteridentifikator, d.h. ein Wort, umfassen kann,
wobei in der Suchphase der Identifikator gemäß einer Kombination irgendwelcher
Unteridentifikatoren diktiert werden kann. Das Verfahren der Erfindung
ist dadurch gekennzeichnet, was im kennzeichnenden Teil des angehängten Anspruch
1 dargelegt wird. Die sprachgesteuerte Einheit der Erfindung ist
dadurch gekennzeichnet, was im kennzeichnenden Teil des angehängten Anspruchs 3
dargelegt wird.
-
Die
vorliegende Erfindung stellt bedeutende Vorteile gegenüber Sprachsteuerungsverfahren
und sprachgesteuerten Vorrichtungen des Standes der Technik bereit.
-
Im
Verfahren gemäß der Erfindung
kann der Identifikator, der mit einer Telefonnummer in Beziehung steht,
aus einem oder mehreren Unteridentifikatoren zusammengesetzt sein,
die im Speicher der Vorrichtung gespeichert sind. Es ist in der
Rufphase nicht erforderlich, die Unteridentifikatoren in der genauen
Anordnung auszusprechen, in der sie gespeichert wurden, sondern
es kann jede Kombination oder Teilkombination von Unteridentifikatoren
verwendet werden. Es ist auch nicht notwendig, alle Unteridentifikatoren
auszusprechen, vorausgesetzt dass die auszuwählende Telefonnummer durch
die Gruppe der ausgesprochenen Unteridentifikatoren identifiziert
wird. In einigen Fällen
kann der Identifikator durch Aussprechen nur eines Unteridentifikators
identifiziert werden.
-
Ein
Verfahren gemäß einer
zweiten vorteilhaften Ausführungsform
der Erfindung stellt die Option bereit, Unteridentifikatoren auszusprechen,
die nicht in der Gruppe von Unterindikatoren vorhanden sind, die
im Speicher, das heißt
in der Wortliste, gespeichert sind, wenn die Telefonnummer ausgewählt wird.
Die Spracherkennung ignoriert diese Unteridentifikatoren vorteilhafterweise
und führt
die Auswahl basierend auf Unteridentifikatoren durch, die in der
Wortliste gespeichert sind.
-
Im
Folgenden wird die Erfindung unter Bezugnahme auf die beiliegende
Zeichnung ausführlicher
beschrieben, wobei
-
1 ein
reduziertes Blockdiagramm einer vorteilhaften Wählvorrichtung gemäß der Erfindung
darstellt;
-
2 ein
reduziertes Flussdiagramm des Speicherns eines Identifikators im
Speicher der Vorrichtung darstellt; und
-
3 ein
reduziertes Flussdiagramm einer Situation darstellt, in welcher
eine Telefonnummer gemäß einer
vorteilhaften Ausführungsform
der Erfindung gewählt
wird.
-
Ein
sprachgesteuertes Telekommunikationsterminal 1 gemäß einer
vorteilhaften Ausführungsform
der Erfindung, wie in 1 dargestellt, ist zum Beispiel
eine Mobilstation, wie beispielsweise ein GSM-Mobiltelefon, oder
ein festes Drahttelefon. 1 stellt nur jene Blöcke dar,
welche für
das Verständnis
der Erfindung am wichtigsten sind. Eine Sprachsteuerungseinheit 2 umfasst
vorteilhafterweise ein Spracherkennungsmittel 3, einen
Sprachmusterspeicher 4, eine Steuereinheit 5,
einen Nur-Lese-Speicher 6, einen Direktzugriffsspeicher 7, einen
Sprachsynthesizer 8 und eine Schnittstelle 9.
Sprachsteuerung kann z.B. mittels eines Mikrofons 10a des
Telekommunikationsterminals 1 oder mittels eines Mikrofons 10b eines
Freisprechgeräts 17 erfolgen.
Die Anweisungen und Mitteilungen an den Benutzer können z.B.
mittels Tonsignalen, die durch einen Sprachsynthesizer 8 erzeugt
werden, entweder durch einen Lautsprecher 11a, der zum
Telekommunikationsterminal 1 gehört, oder durch einen Lautsprecher 11b des Freisprechgeräts erteilt
werden. Die Sprachsteuerungseinheit 2 der Erfindung kann
auch ohne den Sprachsynthesizer 8 implementiert werden,
wobei Anweisungen und Mitteilungen vorzugsweise in Textform auf
dem Anzeigemittel 13 des Telekommunikationsterminals an
den Benutzer übermittelt
werden. Eine andere Option ist, Anweisungen und Mitteilungen sowohl
als Ton als auch als Textnachrichten an den Benutzer zu übermitteln.
-
Im
Folgenden wird die Funktionsweise des Verfahrens und des Telekommunikationsgeräts 1 gemäß der Erfindung
beschrieben. Bevor die Sprachsteuerung funktioniert, müssen der
Vorrichtung üblicherweise
alle Sprachbefehle und Identifikatoren, die zu verwenden sind, gelehrt
werden. Es ist vorzuziehen, dass die Sprachbefehle in der Herstellungsphase
der Vorrichtung gelehrt wurden, wobei der Benutzer nur jene Identifikatoren
lehrt, die er braucht. Dies kann z.B. durch Versetzen der Sprachsteuerungseinheit 2 in
einen Lehrmodus zum Beispiel durch Antasten der Sprachspeichertaste
A des Tastenfeldes 15 des Telekommunikationsterminals 1,
durch Antasten der Zusatzsprachspeichertaste 12 oder durch
die Menüeinrichtung
des Telekommunikationsterminals 1 implementiert werden.
Die Art und Weise, wie das Umschalten auf den Lehrmodus der Sprachbefehle
implementiert wird, hängt
z.B. vom verwendeten Telekommunikationsterminal 1 und von
der Implementierung der Sprachsteuerung ab und ist eine Technologie,
die einem Fachmann auf dem Gebiet an sich bekannt ist. Anschließend spricht
der Benutzer den Befehl, der jeweils gelehrt wird, aus und informiert
vorteilhafterweise durch Drücken
der Tasten, welcher Befehl ausgesprochen wurde. Nötigenfalls
wird der Befehl mehrere Male wiederholt, um ein zuverlässiges Speichern
im Hinblick auf die Spracherkennung sicherzustellen. Gemäß dem ausgesprochenen
Befehl bildet das Spracherkennungsmittel 3 einen Identifikator,
welcher im Sprachmusterspeicher 4 gespeichert wird. Der
Stand der Technik bezieht mehrere alternative Implementierungen
für das
Spracherkennungsmittel 3 und den Sprachäquivalenzspeicher 4 ein,
und sie sind einem Fachmann auf dem Gebiet bekannt. Demnach ist
eine ausführlichere
Beschreibung dieser Implementierungen in diesem Zusammenhang unnötig; stattdessen
wird zum Beispiel auf die Schriften verwiesen, die in Verbindung
mit der Beschreibung des Standes der Technik erwähnt wurden.
-
Auch
die Zahlzeichen von null bis neun werden vorteilhafterweise im Sprachäquivalenzspeicher
gespeichert, wobei der Benutzer auch die Telefonnummer durch Aussprechen
derselben speichern kann, wobei die Sprachsteuerungseinheit 2 die
ausgesprochene Telefonnummer vorzugsweise in Signale umwandelt,
die den Zahlzeichentasten entsprechen, und die Information über die
Telefonnummer im Telefonnummernspeicher speichert, woraus sie beim
Anrufen entnommen werden kann. Der Benutzer kann die Telefonnummer
auch durch Eintasten von entsprechenden Zahlzeichen eingeben. Der
Lehrmodus der Sprachbefehle wird vorteilhafterweise durch erneutes
Antasten der Sprachspeichertaste A oder durch die Menüfunktion
des Telekommunikationsterminals beendet.
-
In
der Phase, in welcher der Benutzer den Identifikator der Telefonnummer
zu speichern wünscht,
wird die Sprachsteuerungseinheit 2 in einen Modus versetzt,
in welchem die Sprachsteuerungseinheit den Empfang von Identifikatoren
erwarten kann, welche aus einem oder mehreren Unteridentifikatoren
zusammengesetzt sein können.
Dieser Funktionsmodus wird im Folgenden unter Bezugnahme auf das
Flussdiagramm von 2 beschrieben.
-
Das
Umschalten auf den Identifikatorspeichermodus (Block 201)
wird vorteilhafterweise durch Antasten der Sprachspeichertaste A
oder durch die Menüeinrichtung,
wie zuvor in Verbindung mit der Befehlsspeicherung dargelegt, implementiert.
Die Spracherkennungseinheit 2 erzeugt vorteilhafterweise
eine Nachricht „Den
Identifikator aussprechen" (Block 202),
wobei der Benutzer mit dem Aussprechen der Unteridentifikatoren
des Identifikators beginnt. Demnach kann der Identifikator einen
oder mehrere Unteridentifikatoren umfassen, zum Beispiel „Williams", „Matthew", „Herbert". Eine kurze Pause
wird zwischen jedem Unteridentifikator eingehalten, wobei die Spracherkennungseinheit 2 imstande
ist, die Unteridentifikatoren voneinander zu trennen. Jeder ausgesprochene
Unteridentifikator wird im Sprachäquivalenzspeicher 4 gespeichert
(Block 203). Die Sprachsteuerungseinheit 2 kann
zusätzlich
ein Kurztonsignal (z.B. einen Piepton) nach jedem ausgesprochenen
Unteridentifikator als ein Zeichen, dass der Unteridentifikator
gespeichert ist, erzeugen. Anschließend wird, nachdem alle Unteridentifikatoren
ausgesprochen wurden (Block 204), der Benutzer aufgefordert,
die Telefonnummer einzugeben, die mit dem Identifikator verbunden
ist (Block 205), z.B. durch Aussprechen der Nummern oder
durch Eintasten. Nachdem die Nummer eingegeben ist, speichert die
Sprachsteuerungseinheit 2 die Telefonnummer z.B. im Direktzugriffsspeicher 7 (Block 206)
und erzeugt Referenzen der Unteridentifikatoren für die Telefonnummer
(Block 207). Anschließend
wird der Benutzer gefragt, ob irgendwelche anderen Identifikatoren
und Telefonnummern zu speichern sind (Block 209, 210).
Falls der Benutzer mit dem Speichern fortzufahren wünscht, kehrt
die Funktion zurück
zu Block 202, bis keine Identifikatoren mehr eingegeben
werden (Block 211).
-
Die
Teilung der Unteridentifikatoren kann auf eine Art und Weise implementiert
werden, dass der Benutzer den Identifikator in Unteridentifikatoren
unterteilt und die Unteridentifikatoren z.B. durch Drücken einer Taste
trennt.
-
In
der Rufphase muss die Sprachsteuerungseinheit 2 z.B. durch
einen Sprachbefehl „Anruf" oder durch Verwenden
der Tasten des Telekommunikationsterminals 1 in einen Namenwählmodus
versetzt werden. Wenn in einem Auto montiert, ist es auch möglich, eine
Zusatzsteueroption außerhalb
des Telekommunikationsterminals 1z.B. nahe an das Lenkrad
des Autos zu bringen, wobei die Aktivierung des Namenwählmodus z.B.
durch einen Aktivierungsschalter 14 leicht zu implementieren
ist. Im Folgenden wird das sprachgesteuerte Wählen der Telefonnummer gemäß einer
bevorzugten Ausführungsform
der Erfindung unter Bezugnahme auf das Flussdiagram von 3 beschrieben.
-
Nachdem
die Sprachsteuerungseinheit 2 den erteilten Befehl als
den Aktivierungsbefehl des Namenwählmodus erkannt hat, begibt
die Sprachsteuerungseinheit 2 sich in einen Telefonnummernwählmodus (Block 301).
Die Sprachsteuerungseinheit 2 erzeugt vorteilhafterweise
ein Tonsignal für
den Lautsprecher 11 und/oder eine Textnachricht auf einem
Anzeigemittel 13, wobei das Signal oder die Nachricht den
Benutzer informiert, den Identifikator auszusprechen (Block 302).
Der Benutzer kann die Unteridentifikatoren des Identifikators vorzugsweise
durch Einhalten einer kurzen Pause zwischen Unteridentifikatoren,
um die Unteridentifikatoren voneinander zu trennen, in jeder Anordnung
aussprechen. Die Sprachsteuerungseinheit 2 berechnet die
Wahrscheinlichkeit zwischen dem ersten gespeicherten Identifikator
und dem ausgesprochenen Identifikator (Block 303). Anschließend wird
geprüft,
ob noch irgendwelche anderen Identifikatoren im Speicher gespeichert
sind (Block 304). Falls noch irgendwelche nicht geprüfte Identifikatoren übrig sind,
wird eine Wahrscheinlichkeit für
den nächsten
Identifikator erzeugt (Block 305). Wenn die Wahrscheinlichkeit
für jeden
gespeicherten Identifikator erzeugt wurde, wird die höchste berechnete
Wahrscheinlichkeit gesucht. Falls die Wahrscheinlichkeit, die für einen
gespeicherten Identifikator berechnet wurde, unverwechselbar höher als
die für
den Rest der Identifikatoren berechnete ist, kann angenommen werden,
dass der Identifikator der korrekte ist (Block 306), wobei
der Telefonnummernwählmodus
gestartet werden kann (Block 307). Falls die Identifizierung
des Identifikators nicht gelang, ist es z.B. möglich, zu Block 302 zurückzukehren
und den Benutzer aufzufordern, den Identifikator zu wiederholen,
bis die Auswahl identifiziert werden kann.
-
Es
wird nicht immer eine vollständige
Identifizierung erreicht, wobei die Sprachsteuerungseinheit 2 den
Benutzer informieren und z.B. durch Zurückkehren zu Block 302 im
Flussdiagramm von 3 auffordern kann, den Identifikator
erneut auszusprechen. Die Sprachsteuerungseinheit 2 kann
z.B. auch ein Tonsignal jener Identifikatoren erzeugen, die gemäß dem Vergleich,
der durch das Spracherkennungsmittel 3 angestellt wird,
am meisten dem ausgesprochenen Identifikator ähneln, wobei der Benutzer den
korrekten Identifikator auswählen
kann. Falls keiner der vorgeschlagenen Identifikatoren korrekt ist,
kann der Benutzer den Identifikator wiederholen. Selbst wenn die
Sprachsteuerungseinheit 2 den eingegebenen Identifikator
erkennen konnte, ist es vorzuziehen, dass der Benutzer bestätigt, dass
der ausgewählte
Identifikator korrekt ist. Dies kann zum Beispiel derart erfolgen,
dass der Benutzer einen Wählbefehl
erteilt, wenn der Identifikator korrekt ist, oder einen Wiedererkennungsbefehl,
wenn der Identifikator inkorrekt ist. Die Bestätigung kann vorteilhafterweise auch
durch eine Aktivierungsschalttaste 14 erfolgen. Noch eine
andere Alternative zur Bestätigung
ist, dass das Telekommunikationsterminal 1 eine vorbestimmte
Zeit auf den Befehl des Benutzers wartet, und falls kein Befehl
kommt, nimmt es an, dass die ausgewählte Telefonnummer korrekt
ist, und beginnt mit dem Wählen.
-
Die
Telefonnummer wird gemäß den Informationen,
die im Telefonnummernspeicher gespeichert sind, auf eine an sich
bekannte Art und Weise gewählt.
Der verwendete Speicher kann ein Speicher des Telekommunikationsterminals 1 (nicht
dargestellt) oder der Direktzugriffsspeicher 7 der Sprachsteuerungseinheit 2 sein.
Auch ein nichtflüchtiger
Direktzugriffsspeicher (NVRAM) kann teilweise als der Direktzugriffsspeicher 7 der
Sprachsteuerungseinheit 2 verwendet werden, wobei die Informationen,
die im Speicher gespeichert sind, auch ohne Betriebsspannung bewahrt
werden.
-
Das
Verfahren gemäß der Erfindung
kann z.B. derart implementiert werden, dass in der Speicherungsphase
ein getrenntes Modell jedes ausgesprochenen Identifikators gebildet
wird. Im Folgenden wird angenommen, dass eine Anzahl N von Namen,
das heißt
Unteridentifikatoren n
1, n
2,
..., n
N, mit der Telefonnummer verbunden
ist. Für
die Erkennungsphase wird eine Modellstruktur für die Telefonnummer gebildet,
wobei die Struktur jede mögliche
Unteridentifikatorkomposition enthält, das heißt 1 bis N Unteridentifikatoren
in jeder möglichen
Anordnung. Diese Unteridentifikatorkompositionen umfassen
-
Die
Sprachsteuerungseinheit 2 definiert die Wahrscheinlichkeit
für alle
Unteridentifikatorkompositionen, und die Unteridentifikationskomposition,
der die höchste
Wahrscheinlichkeit erteilt wird, ist das Endergebnis der Erekennung.
-
Zum
Beispiel sind im Fall, dass n1 = Williams,
n2 = Matthew und n3 =
Herbert, die möglichen
Unteridentifikatorkompositionen:
Williams, Matthew, Herbert,
Williams Matthew, Matthew Williams, Williams Herbert, Herbert Williams,
Matthew Herbert, Herbert Matthew, Williams Matthew Herbert, Williams
Herbert Matthew, Matthew Williams Herbert, Matthew Herbert Williams,
Herbert Williams Matthew und Herbert Matthew Williams.
-
Demnach
gibt es insgesamt 15 mögliche
Unteridentifikatorkompositionen, wenn die Anzahl von Unteridentifikatoren
drei ist. Unteridentifikatorkombinationen sind demnach ganze Kombinationen
von Unteridentifikatoren (die aus allen Unteridentifikatoren bestehen)
oder Teilkombinationen von Unteridentifikatoren (die nur aus einem
Teil der Unteridentifikatoren bestehen). Es sind auch Teilkombinationen
mit nur einem Unteridentifikator möglich, wenn die Sprachsteuerung
gemäß der Erfindung
angepasst wird.
-
Die
folgende Tabelle 1 stellt die Anzahl von Unteridentifikatorkombinationen
als Funktion von Unteridentifikatoren dar.
-
-
Aus
Tabelle 1 ist ersichtlich, dass die Anzahl von Unteridentifikatorkombinationen
sehr schnell steigt. Sie ist so hoch wie 64, wenn die Anzahl der
Unteridentifikatoren vier beträgt.
Die Speichermenge und Berechnungszeit, die zum Speichern der Modellstruktur
erforderlich sind, können
mittels der Implementierung einer Alternative gemäß der bevorzugten
Ausführungsform
der Erfindung reduziert werden. In dieser Alternative werden getrennte
Unteridentifikatoren, wobei diese unabhängig voneinander sind, aus
der Gruppe aller ausgesprochenen Wörter erkannt (Worterkennung).
In diesem Verfahren sieht es aus, als ob die Sprachsteuerungseinheit 2 ständig auf
einen bestimmten Unteridentifikator wartet, und sie erkennt, ob
er ausgesprochen wird oder nicht. In diesem Fall erzeugt die Sprachsteuerungseinheit 2 mehrere
mögliche
alternative Namen und eine Wahrscheinlichkeitsstufe dafür. Gemäß diesen
Alternativen kann auf die Telefonnummer geschlossen werden, die
der Benutzer meinte.
-
In
diesem Verfahren macht es keinen Unterschied, wie viele Wörter, die
nicht in der Wortliste (der Gruppe aller gespeicherten Unteridentifikatoren)
enthalten sind, verwendet werden, was dieses Verfahren bei Verwendung
hoch flexibel macht.
-
In
der Lehrphase wandelt die Sprachsteuerungseinheit 2 die
ausgesprochenen Unteridentifikatoren in eine Form um, die zum Speichern
geeignet ist, und vergleicht jeden ausgesprochenen Unteridentifikator
mit bereits gespeicherten Unteridentifikatoren. Falls der ausgesprochene
Unteridentifikator bereits gespeichert war, z.B. der Benutzer den
Namen „Matthew
Taylor" bereits
gespeichert hatte, erkennt die Sprachsteuerungseinheit 2,
wenn „Matthew" ausgesprochen wird,
dass dieser bereits gespeichert ist. In diesem Fall bildet die Sprachsteuerungseinheit 2 eine
Referenz vom Unteridentifikator „Matthew" für
die Telefonnummer von Taylor und die Telefonnummer von Williams.
In dieser Situation bildete die Sprachsteuerungseinheit 2 in
der Erkennungsphase nach dem Unteridentifikator „Matthew" z.B. eine Liste, welche sowohl Matthew
Taylor als auch Matthew Williams enthält. Demnach weiß die Sprachsteuerungseinheit 2,
dass sie Taylor oder Williams erwarten kann, und nachdem der Benutzer
den nächsten
Unteridentifikator ausgesprochen hat, urteilt die Sprachsteuerungseinheit 2,
ob der Identifikator auf der Basis der gegebenen Unteridentifikatoren
identifiziert werden kann oder ob sie auf einen möglichen,
kommenden Unteridentifikator warten sollte. Dies könnte in
solchen Fällen
möglich
sein, in welchen die beiden Unteridentifikatoren identisch sind
und der dritte Unteridentifikator anders ist.
-
Obwohl
die zuvor erwähnten
Unteridentifikatoren nur die Nachnamen und Vornamen von Personen umfassen,
können
die Unteridentifikatoren z.B. den Namen des Unternehmens oder der
Gruppe, in welcher die betreffende Person arbeitet, oder möglicherweise
auch die Abteilung oder den Filialnamen („Matthew". „Williams", „Nokia", „Mobiltelefone") bezeichnen. Außerdem kann
die Person mehrere Telefonnummern haben, auch in verschiedenen Ländern, wobei
ein verwendeter Unteridentifikator ein Land („Matthew", „Williams", „Nokia", „Finnland") sein kann. Auch
die Privattelefonnummer kann z.B. durch Verwenden eines Unteridentifikators „zu Hause" unterschieden werden.
-
Die
Sprachsteuerungseinheit 2 gemäß der Erfindung ist vorzugsweise
so ausgebildet, dass sie einen Teil des Telekommunikationsterminals 1 bildet,
wobei die Funktionen der Sprachsteuerungseinheit vorteilhafterweise
in der Funktionssoftware und im Funktionsteil des Telekommunikationsterminals 1 enthalten
sind. Demnach sind die Steuereinheit 5, der Nur-Lese-Speicher 6 und
der Direktzugriffsspeicher 7, die verwendet werden, die
entsprechenden Teile des Telekommunikationsterminals. Um dies in 1 zu
vereinfachen, sind diese Teile in einem Steuerblock 16 dargestellt.
-
Eine
andere Alternative, das Telekommunikationsterminal 1 gemäß der Erfindung
zu implementieren, ist, einen Teil der Blöcke in der Sprachsteuerungseinheit 2 in
Verbindung mit dem Telekommunikationsterminal 1 zu bilden
und derart, dass ein Teil der Blöcke
z.B. eine getrennte Vorrichtung ist.
-
Die
meisten Mobilstationen umfassen ein Zugangstor für die Möglichkeit des Anschließens von
externen Hilfsvorrichtungen, wobei die Sprachsteuerungseinheit 2 als
eine getrennte Hilfsvorrichtung implementiert werden kann, die an
das Zugangstor angeschlossen wird. Demnach können die Wählsignale der Steuerung und
die Telefonnummer über
Verbinder des Zugangstors übertragen
werden, was eine an sich bekannte Technik ist.
-
Noch
eine andere Alternative, die Sprachsteuerungseinheit zu implementieren,
ist, einen Sprachsteuerungsdienst in einem Telekommunikationsnetz,
wie beispielsweise einem Mobilkommunikationsnetz, zu bilden, wobei
im Sprachsteuerungsdienst die Funktionen der Sprachsteuerungseinheit
angeordnet sind. Demnach wird die Spracherkennung z.B. durch die
Menüfunktionen
der Mobilstation ausgewählt,
wobei eine Sprachverbindung von der Mobilstation zum Sprachsteuerungsdienst
hergestellt wird. Anschließend
wird vorteilhafterweise so verfahren, wie zuvor beschrieben. Nachdem
der Identifikator identifiziert wurde, ist der Sprachsteuerungsdienst
imstande, eine Verbindung mit der Telefonnummer herzustellen, die
dem Identifikator entspricht.
-
Die
Erfindung ist nicht nur auf die zuvor dargelegten Beispiele beschränkt, sondern
kann innerhalb des Rahmens der beiliegenden Ansprüche modifiziert
werden.