DE10011178A1

DE10011178A1 - Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis

Info

Publication number: DE10011178A1
Application number: DE10011178A
Authority: DE
Inventors: Roland Aubauer
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2000-03-08
Filing date: 2000-03-08
Publication date: 2001-09-13
Also published as: CN1416560A; US20030040915A1; CN1217314C; WO2001067435A9; EP1261964A1; WO2001067435A1

Abstract

Um das Initiieren von in einem Gerät ausführbaren Aktionen mittels Sprache durch Benutzer eines begrenzten Benutzerkreises des Gerätes benutzerunabhängig zu steuern, wobei die Sprache auf der Basis eines sprecherabhängigen Spracherkennungssystems benutzerunabhängig und ohne Benutzeridentifikation erkannt wird, werden Erkennungssprachäußerungen der Benutzer des Benutzerkreises, z. B. den Wörtern eines Vokabulars, die für die Erkennung notwendigen Referenzsprachmuster aller Benutzer eines Spracherkennungssystems zugeordnet.

Description

Verfahren zum sprachgesteuerten Initiieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis

Die Eingabe von Informationen bzw. Daten oder Befehlen in ein Gerät - z. B. ein Telekommunikationsendgerät wie das schurge bundene oder schnurlose Telefon, das Mobilfunk-Handy etc., ein Haushaltsgerät wie die Waschmaschine, der Elektroherd, der Kühlschrank etc., ein Fahrzeug wie das Auto, das Flug zeug, das Schiff etc., ein Gerät der Unterhaltungselektronik wie der Fernseher, die HIFI-Anlage, etc., ein elektronisches Geräte zur Steuerung- und Befehlseingabe wie der Personal Computer, der Personal Digital Assistant, etc. -mittels Sprache, der natürlichen Kommunikationsform des Menschen, zum sprachgesteuerten Initiieren von in dem jeweiligen Gerät aus führbaren Aktionen hat das vorrangige Ziel, daß die hierfür zur Daten- oder Befehlseingabe benutzten Hände für andere Routine-Tätigkeiten frei werden.

Das Gerät weist dazu eine Spracherkennungseinrichtung auf, die in der Fachliteratur auch als Spracherkenner bezeichnet wird. Das Gebiet der automatischen Erkennung von Sprache als ein System von Zeichen und Lauten umfaßt das Erkennen der isoliert gesprochenen Zeichen und Laute - z. B. einzelne Wör ter, Befehle - bis hin zum Erkennen von fließend gesprochenen Zeichen und Laute - z. B. mehrere zusammenhängende Wörter, ein oder mehrere Sätze, eine Rede - entsprechend der Kommunikati onsform des Menschen. Die automatische Spracherkennung ist im Prinzip ein Suchprozeß, der sich gemäß der Druckschrift "Funkschau Heft 26, 1998, Seiten 72 bis 74" ganz grob in eine Phase zur Aufbereitung des Sprachsignals, eine Phase zur Re duktion der Datenmenge, eine Klassifizierungsphase, eine Pha se zur Bildung von Wortketten und eine Grammatikmodellphase unterteilen, die in der angegebenen Reihenfolge im Spracher kennungsprozeß ablaufen.

Die nach dieser Vorgehensweise arbeitenden Spracherkenner werden gemäß der Druckschrift "Funkschau Heft 13, 19998, Sei ten 78 bis 80" nach dem Grad ihrer Sprecherabhängigkeit un terschieden. Während bei sprecherabhängigen Spracherkennern der jeweilige Benutzer das gesamte Vokabular in mindestens einer Lern- bzw. Trainingsphase zum Erzeugen von Referenzmu stern einspricht, entfällt dieser Vorgang bei sprecherunab hängigen Spracherkennern.

Der sprecherunabhängigen Spracherkenner arbeitet fast aus schließlich auf der Basis von Phonemen, während der sprecher abhängige Spracherkenner mehr oder weniger ein Einzelworter kenner ist.

Entsprechend dieser Spracherkennerdefinition kommen die spre cherunabhängigen Spracherkenner insbesondere in solchen Gerä ten zum Einsatz, wo einerseits fließend gesprochene Sprache - z. B. mehrere zusammenhängende Wörter, Sätze etc. - und große bis sehr große Wortschätze - d. h. eine unbegrenzter Benutzer kreis benutzt das Gerät - verarbeitet werden müssen und ande rerseits der Rechen- und Speicheraufwand für das Erkennen dieser Sprache und Wortschätze keine Rolle spielt, weil die entsprechenden Kapazitäten vorhanden sind.

Die sprecherabhängigen Spracherkenner hingegen haben ihr be vorzugtes Einsatzgebiet in solchen Geräten, wo einerseits diskret gesprochene Sprache, z. B. einzelne Wörter und Befeh le, und kleine bis mittelgroße Wortschätze - d. h. eine be grenzter Benutzerkreis benutzt das Gerät - verarbeitet werden müssen und andererseits der Rechen- und Speicheraufwand für das Erkennen dieser Sprache und Wortschätze von Bedeutung ist, weil die entsprechenden Kapazitäten nicht vorhanden sind. Die sprecherabhängige Spracherkenner zeichnen sich da her durch eine geringe Komplexität bezüglich des Rechenauf wands und des Speicherbedarfs aus.

Bei derzeit zum Einsatz kommenden sprecherabhängigen Spra cherkennern werden bereits ausreichend hohe Worterkennungsra ten für kleine bis mittelgroße Vokabularien (10-100 Wörter) erzielt, so dass sich diese Spracherkenner besonders zur Steuerungs- und Befehlseingabe (command-and-control) aber auch für sprachgesteuerten Datenbankzugriff (z. B. Sprachwahl aus einem Telefonbuch) eignen. In zunehmendem Maße werden diese Spracherkenner daher in Geräten des Massenmarkts, wie z. B. in Telefonen, Haushaltsgeräten, Geräten der Unterhal tungselektronik, Geräten mit Steuerungs- und Befehlseingabe Spielzeugen aber auch in Kraftfahrzeugen eingesetzt.

Problematisch bei diesen Anwendungen ist allerdings, dass die Geräte oft nicht nur von einem Benutzer, sondern von mehreren Benutzern, z. B. häufig Mitglieder eines Haushalts, einer Fa milie verwendet werden (begrenzter Benutzerkreis).

Das Problem der Benutzerabhängigkeit von sprecherabhängigen Spracherkennern ist gemäß der Druckschrift "ntz (nachrichten technische zeitschrift) Band 37, Heft 8, 1984, Seiten 496 bis 499 insbesondere Seite 498, mittlere Spalte letzten sieben Zeilen bis rechte Spalte ersten sechs Zeilen" nur durch ge trennte Vokabularien für die einzelnen Benutzer umgangen. Der Nachteil des genannten Umgehungsverfahrens ist, dass sich die Benutzer vor einer Nutzung der Spracherkennung identifizieren müssen. Da eine sprecherabhängige Spracherkennung vorausge setzt wurde, muss die Sprecheridentifizierung über ein ande res Verfahren als die Spracherkennung erfolgen. Die Selbsti dentifikation des Benutzers über eine Tastatur und ein Dis play bietet sich in den meisten Fällen an. Der Zugriff auf die automatische Spracherkennung wird für den Benutzer hin sichtlich der Benutzerführung und des für eine Spracherken nung notwendigen Zeitaufwands erheblich erschwert. Dies gilt besonders, wenn sich mehrere Benutzer einer Spracherkennung häufig abwechseln. Das Verfahren der manuellen Benutzeriden tifizierung stellt hier sogar den Nutzen der Spracherkennung in Frage, da statt der manuellen Benutzeridentifikation mit dem gleichen Aufwand die gewünschte Ausführung der Aktion in dem Gerät manuell und ohne Spracherkennung initiiert werden kann.

Die der Erfindung zugrundeliegende Aufgabe besteht darin, das Initiieren von in einem Gerät ausführbaren Aktionen mittels Sprache durch Benutzer eines begrenzten Benutzerkreises des Gerätes benutzerunabhängig zu steuern, wobei die Sprache auf der Basis eines sprecherabhängigen Spracherkennungssystems benutzerunabhängig und ohne Benutzeridentifikation erkannt wird.

Diese Aufgabe wird durch die Merkmale des Patentanspruches 1 gelöst.

Die der Erfindung zugrundeliegende Idee besteht darin, daß den Erkennungssprachäußerungen der Benutzer des Benutzerkrei ses, z. B. den Wörtern eines Vokabulars, die für die Erkennung notwendigen Referenzsprachmuster aller Benutzer eines Spra cherkennungssystems zugeordnet werden. Das Vokabular (Tele fonbuch, Kommandowortliste, . . .) enthält dabei z. B. "i" Wör ter (Namen, Kommandos, . . .), denen jeweils eine auszuführende Handlung (Telefonnummern, die zu wählen sind, Aktion eines angeschlossenen Gerätes, . . .) eine eventuelle akustisch aus zugebende Sprachbestätigung (in der Regel die Aussprache des Wortes) (Voice Prompt) und bis zu "j" Referenzsprachmuster der "k" Benutzer des Spracherkennungssystems zugeordnet sind, wobei "i" ∈N, "j" ∈N und "k" ∈N.

Die Zuordnung einer Sprachbestätigung zu den Wörtern eines Vokabulars ist nicht unbedingt erforderlich, jedoch häufig für eine akustische Benutzerführung vorteilhaft. Die Sprach bestätigung kann dabei von einem der Benutzer des Spracher kennungssystems, einem Text-zu-Sprache-Transkriptionssystem oder falls die Wörter des Vokabulars feststehen, von einer dritten Person stammen.

Die bis zu "j" Referenzsprachmuster eines Wortes werden durch Training des Spracherkenners durch die m Benutzer gewonnen. Hierbei ist es nicht unbedingt notwendig, dass alle Benutzer alle Wörter des Vokabulars trainieren, sondern nur die Wör ter, die später von einem individuellen Benutzer auch automa tisch erkannt werden sollen. Trainieren mehrere Benutzer das gleiche Wort, so wird das Training des n-ten Sprechers auch dann akzeptiert, wenn das von dem Spracherkenner erzeugte Re ferenzsprachmuster ähnlich zu den bereits gespeicherten Refe renzsprachmustern des Wortes von den vorher trainierenden Sprechern ist. Die von den einzelnen Benutzern trainierten Worte bilden Teilmengen des Gesamtvokabulars, wobei die Schnittmengen der Teilvokabulare die von mehreren Benutzern trainierten Worte sind.

Nach der Erzeugung der Referenzsprachmuster (Training des Spracherkenners) können alle Benutzer das Spracherkennungssy stem ohne eine vorherige Benutzeridentifizierung nutzen. Bei der automatischen Worterkennung wird auf eine Rückweisung (Abweisung der Spracherkennung, weil die Äusserung nicht ein deutig einem Referenzsprachmuster zugeordnet werden kann) verzichtet, falls das von dem Spracherkenner erzeugte Erken nungssprachmuster ähnlich zu mehreren Referenzsprachmustern eines Wortes, aber nicht ähnlich zu den Referenzsprachmustern verschiedener Worte ist.

Die Vorteile des Verfahrens liegen in der benutzerunabhängi gen Spracherkennung. Das heißt, die Identifikation der Benut zer kann bei der Spracherkennung entfallen. Hierdurch wird eine wesentlich einfachere Bedienung des Spracherkennungssy stems erreicht. Weitere Vorteile des Verfahrens liegen in ei nem gemeinsamen Vokabular für alle Sprecher. Der Verwaltungs aufwand mehrerer Vokabulare entfällt und es wird eine höhere Übersichtlichkeit für die Benutzer erreicht. Da für jedes im Vokabular vorhandene Wort nur eine Sprachbestätigung (Voice Prompt) gespeichert werden muss, erlaubt das Verfahren dar über hinaus eine deutliche Reduktion des Speicheraufwands.

Der Speicheraufwand für eine Sprachbestätigung ist dabei ca. um eine Zehnerpotenz höher als der eines Referenzsprachmu sters. Zuallerletzt wird mit dem vorgestellten Verfahren in aller Regel eine höhere Worterkennungsrate als bei einer Ein zelnutzung (nur ein Sprecher) des Spracherkenners erzielt. Die Verbesserung der Worterkennungsrate beruht dabei auf der Erweiterung der Sprachreferenzbasis eines Wortes durch das Training mit mehreren Sprechern.

Der erfinderische Schritt liegt in der Nutzung eines gemein samen Vokabulars für alle Benutzer eines Spracherkennungssy stems, wobei einem Wort die Referenzsprachmuster von mehreren Benutzern zugeordnet werden. Das Verfahren erfordert die vor stehend beschriebene Rückweisungsstrategie beim Sprachtrai ning und bei der Spracherkennung.

Das Verfahren eignet sich für Spracherkennungsanwendungen mit einem eingeschränkten Benutzerkreis von mehr als einem Benut zer. Dies sind insbesondere Anwendungen mit einer Sprach steuerung und -befehlseingabe aber auch mit einem sprachge steuerten Datenbankzugriff. Ausführungsbeispiele sind sprach gesteuerte Telefone (sprachgesteuerte Wahl aus einem Telefon buch, sprachgesteuerte Steuerung einzelner Funktionen, wie z. B. die des Anrufbeantworters) als auch sonstige sprachge steuerte Maschinen/Geräte wie Haushaltsgeräte, Spielzeuge und Kraftfahrzeuge.

Vorteilhafte Weiterbildungen der Erfindung sind in Unteran sprüchen angegeben.

Ein Ausführungsbeispiel der Erfindung ist anhand der Fig. 1 bis 8 erläutert.

Claims

1. Verfahren zum sprachgesteuerten Initiieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzer kreis mit folgenden Merkmalen:

a) Durch die zu mindestens einem Benutzer des Benutzerkrei ses des Gerätes jeweils zugehörige Sprache wird das Gerät für mindestens einen von dem jeweiligen Benutzer gewählten Be triebsmodus jeweils in mindestens einer von dem Benutzer ein zuleitenden Sprachtrainingsphase derart trainiert, daß
- 1. mindestens einer dieser Benutzer zu mindestens einer Ak tion jeweils mindestens eine der Aktion jeweils zuzuordnenden Referenzsprachäußerung (reference speech utterance) in das Gerät eingibt,
- 2. aus der Referenzsprachäußerung durch Sprachanalyse ein Referenzsprachmuster erzeugt wird, wobei bei mehreren Refe renzsprachäußerungen das Referenzsprachmuster erzeugt wird, wenn die Referenzsprachäußerungen ähnlich sind,
- 3. das Referenzsprachmuster der Aktion zugeordnet wird,
- 4. das Referenzsprachmuster mit der zugeordneten Aktion vorbehaltlos gespeichert wird oder nur dann gespeichert wird, wenn das Referenzsprachmuster unähnlich zu den bereits ge speicherten anderen Referenzsprachmustern ist, die anderen Aktionen zugeordnet sind,
b) der jeweilige Benutzer gibt für den von dem Benutzer ge wählten Betriebsmodus des Gerätes in einer Spracherekennungs phase eine Erkennungssprachäußerung in das Gerät ein,
c) aus der Erkennungssprachäußerung wird durch Sprachanalyse ein Erkennungssprachmuster erzeugt,
d) das Erkennungssprachmuster wird zumindest mit einem Teil der für den gewählten Betriebsmodus gespeicherten Referenz sprachmustern derart verglichen, daß die Ähnlichkeit zwischen dem jeweiligen Referenzsprachmuster und dem Erkennungs sprachmuster ermittelt wird und eine Ähnlichkeitsrangfolge der gespeicherten Referenzsprachmuster anhand der ermittelten Ähnlichkeitswerte gebildet wird,
e) das mit der Erkennungssprachäußerung bezweckte sprachge steuerte Initiieren der in dem Gerät ausführbaren Aktion durch den Benutzer wird als zulässig erkannt, wenn das Erken nungssprachmuster zu dem in der Ähnlichkeitsrangfolge an er ster Stelle stehenden Referenzsprachmuster ähnlich ist oder das Erkennungssprachmuster zu dem in der Ähnlichkeitsrangfol ge an erster Stelle stehenden Referenzsprachmuster ähnlich ist und zu dem in der Ähnlichkeitsrangfolge an n-ter Stelle stehenden Referenzsprachmuster unähnlich ist, wobei dem in der Ähnlichkeitsrangfolge an n-ter Stelle stehenden Referenz sprachmuster eine andere Aktion zugeordnet ist, als der Akti on, die dem in der Ähnlichkeitsrangfolge an erster Stelle stehenden Referenzsprachmuster zugeordnet ist und wobei die in der Ähnlichkeitsrangfolge an der ersten bis einschließlich (n-1)-ten Stelle stehenden Referenzsprachmustern der gleichen Aktion zugeordnet sind,
f) in dem Gerät wird die Aktion, die dem in der Ähnlich keitsrangfolge an der ersten Stelle stehenden Referenz sprachmuster zugeordnet ist, nur dann ausgeführt, wenn die von dem Benutzer für den von dem Benutzer gewählten Betriebs modus des Gerätes in der Spracherkennungsphase eingegebene Erkennungssprachäußerung als zulässig erkannt worden ist.

2. Verfahren nach Anspruch 1, dadurch gekennzeich net, daß mehrere Sprachmuster werden als ähnlich definiert, wenn ein durch Analyse zu bestimmendes Abstandsmaß zwischen jeweils zwei Sprachmustern einen vorgegebenen Wert unterschreitet oder einen vorgegebenen Wert unterschreitet und mit diesem Wert identisch ist, wobei das Abstandsmaß die Entfernung des einen Sprachmusters von dem anderen Sprachmuster angibt.

3. Verfahren nach Anspruch 2, dadurch gekennzeich net, daß das Abstandsmaß wird der Methode mit der dynamischen Program mierung (dynamic time warping) der Hidden-Markov-Modellierung oder der neuronalen Netze ermittelt bzw. berechnet.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß vom Benutzer mindestens ein Wort als Referenzsprachäußerung eingegeben wird.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß der Benutzer den von ihm durchgeführten Sprachtrainingsphasen mindestens eine benutzerspezifische Kennung zuordnet.

6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die Benutzereingabe von mehreren zu einer Sprachtrainingspha se gehörenden Referenzsprachäußerungen vom Gerät automatisch gesteuert wird, indem das Ende der zuerst eingegebenen Refe renzsprachäußerung vom Gerät mittels einer Sprachaktivitäts detektion erkannt wird, weil innerhalb einer vorgegebenen Zeit keine zu dieser Referenzsprachäußerung zuzuordnende wei tere Sprachaktivität des Benutzer erfolgt ist, und der Benut zer vom Gerät von der zeitlich befristeten Eingabemöglichkeit mindestens einer weiteren Referenzsprachäußerung informiert wird.

7. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die Benutzereingabe von mehreren zu einer Sprachtrainingspha se gehörenden Referenzsprachäußerungen durch Interaktion zwi schen dem Benutzer und dem Gerät gesteuert wird, indem der Benutzer dem Gerät durch eine spezifische Bedienprozedur mit teilt, das mehrere Referenzsprachäußerungen von ihm eingege ben werden.

8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß in verschiedenen Sprachtrainingsphasen von den Benutzern zu einer Aktion unterschiedliche Referenzsprachäußerungen, z. B. in verschiedenen Sprachen "deutsch und englisch", eingegeben werden.

9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß der Benutzer eine Information, z. B. eine Telefonnummer, ein gibt, durch die die Aktion definiert wird.

10. Verfahren nach Anspruch 9, dadurch gekennzeich net, daß die Information mittels biometrischer Eingabetechniken einge geben wird.

11. Verfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, daß die Information vor oder nach der Eingabe der Referenz sprachäußerung eingegeben wird.

12. Verfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, daß die Aktion vom Gerät vorgegeben wird.

13. Verfahren nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, daß die Erkennungssprachäußerung in der Spracherkennungsphase je derzeit mit Ausnahme während der Sprachtrainingsphase einge geben werden kann.

14. Verfahren nach einem der Ansprüche 1 bis 13, dadurch gekennzeichnet, daß die Erkennungssprachäußerung erst dann eingegeben werden kann, wenn zuvor die Spracherkennungsphase in dem Gerät von dem Benutzer eingeleitet worden ist.

15. Verfahren nach einem der Ansprüche 1 bis 14, dadurch gekennzeichnet, daß der Sprachtrainingsmodus jeweils durch das Speichern des Re ferenzsprachmusters beendet wird.

16. Verfahren nach einem der Ansprüche 1 bis 15, dadurch gekennzeichnet, daß dem Benutzer die Eingabe eines unzulässigen Erkennungsprach muster mitgeteilt wird.

17. Verfahren nach einem der Ansprüche 1 bis 16, dadurch gekennzeichnet, daß die Spracherkennunghsphase wie die Sprachtrainingsphase ein geleitet wird.

18. Verfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, daß das sprachgesteuerte Initiieren von in einem Gerät ausführba ren Aktionen in Telekommunikationsendgeräten durchgeführt wird.

19. Verfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, daß das sprachgesteuerte Initiieren von in einem Gerät ausführba ren Aktionen in Haushaltsgeräten, in Fahrzeugen, in Geräten der Unterhaltungselektronik, in elektronischen Geräten zur Steuerung- und Befehlseingabe, z. B. einem Personal Computer oder einem Personal Digital Assistant, durchgeführt wird.

20. Verfahren nach Anspruch 17, dadurch gekennzeich net, daß in einem ersten Betriebsmodus des Telekommunikationsendgerä tes die Sprachwahl aus einem Telefonbuch oder das sprachge steuerte Senden von "Short Message Service"-Nachrichten aus einem "Short Message Service"-Speicher durchgeführt wird.

21. Verfahren nach Anspruch 17 oder 20, dadurch ge kennzeichnet, daß in einem zweiten Betriebsmodus des Telekommunikationsendgerä tes die Sprachsteuerung von Funktionseinheiten, z. B. Anrufbe antworter, "Short Message Service"-Speicher, durchgeführt wird.