-
Die Erfindung betrifft ein Kommunikationsgerät, insbesondere
ein Mobiltelefon, ein Schnurlostelefon oder einen tragbaren Computer,
mit einer Spracherkennungseinrichtung.
-
Die rasante technische Entwicklung
auf dem Gebiet der Mobilkommunikation hat in den letzten Jahren
zu einer fortschreitenden Miniaturisierung der dabei verwendeten
Endgeräte
geführt.
-
Diese fortschreitende Miniaturisierung
der Endgeräte
bringt – nicht
nur auf dem Gebiet der Mobilkommunikation – erhebliche Probleme hinsichtlich des
Bedienkomforts mit sich, weil es aufgrund der kleinen Gehäuseoberflächen der
miniaturisierten Endgeräte
nicht mehr möglich
ist, diese mit einer dem Funktionsumfang der Geräte entsprechenden Anzahl von
Tasten zu versehen.
-
Bekannte Lösungen dieses Problems sehen entweder
eine weitersteigende Mehrfachbelegung von Tasten, eine Sprachsteuerung,
oder ergänzend zu
Tasten ein Eingaberad vor, das durch ein Scrollen (= Rollen) von
auswählbaren
Zeichen über
eine Anzeigefläche
die Eingabe unterschiedlicher Informationen ermöglicht.
-
Aus dem deutschen Patent
DE 19751123 C1 und
der europäischen
Anmeldung
EP 0477 688
A2 sind bereits Spracherkennungsverfahren zur Anwendung
im Telefoniebereich bekannt.
-
Der Erfindung liegt nun die Aufgabe
zugrunde, mit einfachen Mitteln eine komfortable und zuverlässige Steuerung
eines Kommunikationsgerätes mittels
Sprache zu ermöglichen.
-
Diese Aufgabe wird durch die Merkmale
der unabhängigen
Ansprüche
gelöst.
Vorteilhafte und zweckmäßige Weiterbildungen
ergeben sich aus den abhängigen
Ansprüchen.
-
Erfindungsgemäß wird also eine sprecherabhängigen und
eine sprecherunabhängigen
Spracherkennung eingesetzt.
-
Dadurch ist es möglich, die ohnehin von dem Nutzer
eingegebenen zu erkennenden Sprachinformationen, wie beispielsweise
Namens-Sprachinformationen, im Rahmen einer sprecherabhängigen Spracherkennung
zu verarbeiten und andere Sprachinformationen, wie beispielsweise
Kommandos oder Ziffern im Rahmen einer sprecherunabhängigen Spracherkennung
zu verarbeiten. Dies ermöglicht eine
zuverlässige
Spracherkennung mit einfachen Mitteln.
-
Ein Kommunikationsgerät bzw. eine
Spracherkennungseinrichtung kann dabei insbesondere eine Prozessoreinrichtung
enthalten oder durch eine Prozessoreinrichtung gesteuert werden.
-
Das Eingabeelement kann auch eine
Taste oder ein in mehrere Kipp-Richtungen kippbares Navigationseingabeelement
sein.
-
Weiterbildungen der Erfindung, welche durch
aufwändige
Untersuchungen an eigens für
diesen Zweck geschaffenen Man-Machine-Interface-Simulatoren
geschaffen wurden, ermöglichen
eine besonders intuitive Bedienung eines Kommunikationsgerätes mittels
einer Spracherkennungseinrichtung.
-
Die Erfindung wird im Folgenden anhand
bevorzugter Ausführungsbeispiele
näher beschrieben, zu
deren Erläuterung
nachstehend aufgelistete Figur dient:
-
1 Blockschaltbild
einer Mobilstation mit Bedieneinrichtung.
-
1 zeigt
als Kommunikationsgerät
eine Mobilstation MS, insbesondere ein Mobiltelefon, welche eine
Bedieneinrichtung MMI, eine Hochfrequenzeinrichtung HF und eine
Prozessoreinrichtung PE enthält.
Die Bedieneinrichtung MMI umfasst eine Anzeigeeinheit DPL, wie beispielsweise
ein Grafikdisplay, ein Mikrofon MIC und ein Navigationseingabeelement
NAV.
-
Gemäß einer Ausführungsvariante
weist die Bedieneinrichtung ein Tastenfeld (nicht dargestellt) auf
zur Eingabe von Buchstaben oder Ziffern.
-
Zur Steuerung der Mobilstation MS
und insbesondere der Bedieneinrichtung MMI ist eine programmgesteuerte
Prozessoreinrichtung PE, wie beispielsweise ein Mikrocontroller
vorgesehen, der auch einen Prozessor CPU und eine Speichereinrichtung SPE
umfassen kann. In der Speichereinrichtung SPE sind auch die Programmdaten,
wie beispielsweise die Steuerbefehle oder Steuerprozeduren, die
zur Steuerung der Mobilstation und insbesondere der Bedieneinrichtung
MMI herangezogen werden, Telefonbucheinträge mit verknüpften Namens-Sprachinformationen
und Steuerfunktionen mit verknüpften Kommando-Sprachinformationen
oder Ziffern-Sprachinformationen gespeichert.
-
Die unterschiedlichen Komponenten
der Prozessoreinrichtung können über ein
Bussystem BUS oder Ein-/Ausgabeschnittstellen und gegebenenfalls
geeignete Controller untereinander oder mit weiteren Komponenten
der Mobilstation Daten austauschen. Es ist einem Fachmann hinreichend
bekannt, zur Steuerung einer Mobilstation bzw. einer Bedieneinrichtung
und zur Realisierung bestimmter Funktionen und Anwendungen der Mobilstation
diese und weitere Komponenten einer Prozessoreinrichtung und damit
die Prozessoreinrichtung programmtechnisch entsprechend einzurichten.
-
Die Prozessoreinrichtung kann dabei
beispielsweise auch durch einen Chipsatz, der mehrere Prozessoren
aufweisen kann, rea lisiert sein, der eigens zur Steuerung einer
Bedieneinrichtung oder einer Mobilstation hergestellt worden ist.
-
Mittels des in vier Kipp-Richtungen
kippbaren Navigationseingabeelementes NAV werden Steuerfunktionen
ausgelöst
oder ein Marker über
die Anzeigeeinrichtung gescrollt.
-
Vereinfacht dargestellt werden sowohl
bei der sprecherabhängigen
als auch bei der sprecherunabhängigen
Spracherkennung durch ein Mikrofon aufgenommene und ggf. weiterverarbeitete
Audioinformationen mit einer Vielzahl von ggf. weiterverarbeiteten
und abgespeicherten Sprachinformationen verglichen. Unterschreitet
die Differenz zwischen aufgenommenen Audioinformationen und gespeicherten
Sprachinformationen eine vorgegebene Schwelle, so werden die aufgenommenen
Audioinformationen als die entsprechenden gespeicherten Sprachinformationen
erkannt. Da sprecherabhängige
und sprecherunabhängige
Spracherkennungsverfahren als solche bekannt sind, wird an dieser
Stelle darauf nicht näher
eingegangen. Realisierungen einer Spracherkennung mittels einer
Prozessoreinrichtung als solche sind dem Fachmann ebenfalls hinlänglich bekannt.
-
Im folgenden wird ein Ablauf einer
Bedienung mittels Spracherkennung für ein Kommunikationsgerät erläutert.
-
Nach dem Einschalten befindet sich
das Kommunikationsgerät
im Standby-Betriebsmodus. Nach dem Betätigen des Eingabeelementes,
beispielsweise dem Kippen eines Navigationseingabeelementes in eine
bestimmte Kipp-Richtung wird die Spracherkennung aktiviert. Die
nun über
das Mikrofon aufgenommenen Sprachinformationen werden im Rahmen
eines sprecherabhängigen
Spracherkennungsverfahrens mit den abgespeicherten und mit Telefonbucheinträgen verknüpften Namens-Sprachinformationen,
die durch verarbeitete Audioinformationen realisiert sind und die
gesprochenen Namen eines Telefonbucheintrages repräsentieren,
verglichen. Parallel dazu oder danach werden diese über das
Mikrofon aufgenommenen Sprachinformationen im Rahmen eines sprecherunabhängigen Spracherkennungsverfahrens
mit den abgespeicherten und mit Steuerfunktionen verknüpften Kommando-Sprachinformationen
("Clear", "Cancel", "Save", "Dial") und/oder Ziffer-Sprachinformationen
verglichen, die durch verarbeitete Audioinformationen realisiert
sind und gesprochene Kommandos und/oder Ziffern repräsentieren,
verglichen. Namens-Sprachinformationen können dabei beliebige sprachliche
Bezeichnungen eines Telefonbucheintrages, wie Vorname, Nachname,
Unternehmensname, Kosename etc. sein.
-
Werden dabei aufgenommene Audioinformationen
als gespeicherte Namens-Sprachinformation erkannt, so wird die dem
entsprechenden Telefonbucheintrag zugeordnete Rufnummer automatisch gewählt. Durch
eine Betätigung
des Eingabeelementes kann dieser Rufaufbau unterbrochen werden.
-
Werden aufgenommene Audioinformationen als
gespeicherte Kommando-Sprachinformationen erkannt, so wird die dem
entsprechenden Kommando zugeordnete Steuerfunktion ausgelöst. Beispielsweise
wird durch die Nummernwählkommando-Sprachinformation "Number", eine Steuerfunktion
ausgelöst,
die das Kommunikationsgerät
in einen Rufnummerneingabemodus versetzt. Alternativ oder zusätzlich dazu,
sieht eine Ausgestaltung der Erfindung vor, dass auch die Betätigung des
Eingabeelementes eine Steuerfunktion auslöst, die das Kommunikationsgerät in einen
Rufnummerneingabemodus versetzt. Eine Ausführungsvariante der Erfindung
sieht dabei vor, dass nach dem Aktivieren der Spracherkennung im
Standby-Betriebsmodus aufgenommene Audioinformationen zunächst nur
mit Namens-Sprachinformationen
und der Nummernwählkommando-Sprachinformation "Number" verglichen werden.
-
Werden in dem Rufnummerneingabemodus aufgenommene
Audioinformationen als gespeicherte Ziffern-Sprachinformationen
erkannt, so wird die der entsprechenden Ziffer zugeordnete Steuerfunktion ausgelöst, durch
welche eine Eingabe der ent sprechenden Ziffer in einen aktuellen
Rufnummernspeicher und deren Darstellung auf dem Display erfolgt.
-
Nach der Aufnahme von – mindestens
eine Ziffer oder eine Vielzahl von Ziffern repräsentierenden – Audioinformationen
werden auf der Anzeigeeinrichtung Informationen dargestellt, die
den Nutzer auffordern, die Eingabe weiterer Ziffern zunächst zu unterbrechen,
um der Sprachverarbeitungseinrichtung die erforderliche Verarbeitungszeit
zu geben. Nachdem die bisher aufgenommenen Audioinformationen durch
die Spracherkennungseinrichtung verarbeitet worden sind, werden
auf der Anzeigeeinrichtung Informationen dargestellt, die den Nutzer
auffordern, die Eingabe weiterer Ziffern fortzusetzen.
-
Falls nach der Aktivierung der Spracherkennung
die aufgenommenen Audioinformationen nicht als Nummernwählkommando-Sprachinformation "Number" erkannt wird und
keinem Telefonbucheintrag eine Namens-Sprachinformation zugeordnet
ist, werden auf der Anzeigeeinrichtung Informationen dargestellt,
die den Nutzer darauf hinweisen, dass kein Telefonbucheintrag mit
einer Namens-Sprachinformation verknüpft ist.
-
Neben den oben erläuterten
Ausführungsvarianten
der Erfindung liegt eine Vielzahl weiterer Ausführungsvarianten im Rahmen der
Erfindung, welche hier nicht weiter beschrieben werden, aber anhand der
erläuterten
Ausführungsbeispiele
einfach in die Praxis umgesetzt werden können.