DE10011178A1 - Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis - Google Patents

Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis

Info

Publication number
DE10011178A1
DE10011178A1 DE10011178A DE10011178A DE10011178A1 DE 10011178 A1 DE10011178 A1 DE 10011178A1 DE 10011178 A DE10011178 A DE 10011178A DE 10011178 A DE10011178 A DE 10011178A DE 10011178 A1 DE10011178 A1 DE 10011178A1
Authority
DE
Germany
Prior art keywords
speech
language
user
pattern
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10011178A
Other languages
English (en)
Inventor
Roland Aubauer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE10011178A priority Critical patent/DE10011178A1/de
Priority to PCT/DE2001/000891 priority patent/WO2001067435A1/de
Priority to US10/220,906 priority patent/US20030040915A1/en
Priority to CN01806169.9A priority patent/CN1217314C/zh
Priority to EP01921173A priority patent/EP1261964A1/de
Publication of DE10011178A1 publication Critical patent/DE10011178A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Um das Initiieren von in einem Gerät ausführbaren Aktionen mittels Sprache durch Benutzer eines begrenzten Benutzerkreises des Gerätes benutzerunabhängig zu steuern, wobei die Sprache auf der Basis eines sprecherabhängigen Spracherkennungssystems benutzerunabhängig und ohne Benutzeridentifikation erkannt wird, werden Erkennungssprachäußerungen der Benutzer des Benutzerkreises, z. B. den Wörtern eines Vokabulars, die für die Erkennung notwendigen Referenzsprachmuster aller Benutzer eines Spracherkennungssystems zugeordnet.

Description

Verfahren zum sprachgesteuerten Initiieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis
Die Eingabe von Informationen bzw. Daten oder Befehlen in ein Gerät - z. B. ein Telekommunikationsendgerät wie das schurge­ bundene oder schnurlose Telefon, das Mobilfunk-Handy etc., ein Haushaltsgerät wie die Waschmaschine, der Elektroherd, der Kühlschrank etc., ein Fahrzeug wie das Auto, das Flug­ zeug, das Schiff etc., ein Gerät der Unterhaltungselektronik wie der Fernseher, die HIFI-Anlage, etc., ein elektronisches Geräte zur Steuerung- und Befehlseingabe wie der Personal Computer, der Personal Digital Assistant, etc. -mittels Sprache, der natürlichen Kommunikationsform des Menschen, zum sprachgesteuerten Initiieren von in dem jeweiligen Gerät aus­ führbaren Aktionen hat das vorrangige Ziel, daß die hierfür zur Daten- oder Befehlseingabe benutzten Hände für andere Routine-Tätigkeiten frei werden.
Das Gerät weist dazu eine Spracherkennungseinrichtung auf, die in der Fachliteratur auch als Spracherkenner bezeichnet wird. Das Gebiet der automatischen Erkennung von Sprache als ein System von Zeichen und Lauten umfaßt das Erkennen der isoliert gesprochenen Zeichen und Laute - z. B. einzelne Wör­ ter, Befehle - bis hin zum Erkennen von fließend gesprochenen Zeichen und Laute - z. B. mehrere zusammenhängende Wörter, ein oder mehrere Sätze, eine Rede - entsprechend der Kommunikati­ onsform des Menschen. Die automatische Spracherkennung ist im Prinzip ein Suchprozeß, der sich gemäß der Druckschrift "Funkschau Heft 26, 1998, Seiten 72 bis 74" ganz grob in eine Phase zur Aufbereitung des Sprachsignals, eine Phase zur Re­ duktion der Datenmenge, eine Klassifizierungsphase, eine Pha­ se zur Bildung von Wortketten und eine Grammatikmodellphase unterteilen, die in der angegebenen Reihenfolge im Spracher­ kennungsprozeß ablaufen.
Die nach dieser Vorgehensweise arbeitenden Spracherkenner werden gemäß der Druckschrift "Funkschau Heft 13, 19998, Sei­ ten 78 bis 80" nach dem Grad ihrer Sprecherabhängigkeit un­ terschieden. Während bei sprecherabhängigen Spracherkennern der jeweilige Benutzer das gesamte Vokabular in mindestens einer Lern- bzw. Trainingsphase zum Erzeugen von Referenzmu­ stern einspricht, entfällt dieser Vorgang bei sprecherunab­ hängigen Spracherkennern.
Der sprecherunabhängigen Spracherkenner arbeitet fast aus­ schließlich auf der Basis von Phonemen, während der sprecher­ abhängige Spracherkenner mehr oder weniger ein Einzelworter­ kenner ist.
Entsprechend dieser Spracherkennerdefinition kommen die spre­ cherunabhängigen Spracherkenner insbesondere in solchen Gerä­ ten zum Einsatz, wo einerseits fließend gesprochene Sprache - z. B. mehrere zusammenhängende Wörter, Sätze etc. - und große bis sehr große Wortschätze - d. h. eine unbegrenzter Benutzer­ kreis benutzt das Gerät - verarbeitet werden müssen und ande­ rerseits der Rechen- und Speicheraufwand für das Erkennen dieser Sprache und Wortschätze keine Rolle spielt, weil die entsprechenden Kapazitäten vorhanden sind.
Die sprecherabhängigen Spracherkenner hingegen haben ihr be­ vorzugtes Einsatzgebiet in solchen Geräten, wo einerseits diskret gesprochene Sprache, z. B. einzelne Wörter und Befeh­ le, und kleine bis mittelgroße Wortschätze - d. h. eine be­ grenzter Benutzerkreis benutzt das Gerät - verarbeitet werden müssen und andererseits der Rechen- und Speicheraufwand für das Erkennen dieser Sprache und Wortschätze von Bedeutung ist, weil die entsprechenden Kapazitäten nicht vorhanden sind. Die sprecherabhängige Spracherkenner zeichnen sich da­ her durch eine geringe Komplexität bezüglich des Rechenauf­ wands und des Speicherbedarfs aus.
Bei derzeit zum Einsatz kommenden sprecherabhängigen Spra­ cherkennern werden bereits ausreichend hohe Worterkennungsra­ ten für kleine bis mittelgroße Vokabularien (10-100 Wörter) erzielt, so dass sich diese Spracherkenner besonders zur Steuerungs- und Befehlseingabe (command-and-control) aber auch für sprachgesteuerten Datenbankzugriff (z. B. Sprachwahl aus einem Telefonbuch) eignen. In zunehmendem Maße werden diese Spracherkenner daher in Geräten des Massenmarkts, wie z. B. in Telefonen, Haushaltsgeräten, Geräten der Unterhal­ tungselektronik, Geräten mit Steuerungs- und Befehlseingabe Spielzeugen aber auch in Kraftfahrzeugen eingesetzt.
Problematisch bei diesen Anwendungen ist allerdings, dass die Geräte oft nicht nur von einem Benutzer, sondern von mehreren Benutzern, z. B. häufig Mitglieder eines Haushalts, einer Fa­ milie verwendet werden (begrenzter Benutzerkreis).
Das Problem der Benutzerabhängigkeit von sprecherabhängigen Spracherkennern ist gemäß der Druckschrift "ntz (nachrichten­ technische zeitschrift) Band 37, Heft 8, 1984, Seiten 496 bis 499 insbesondere Seite 498, mittlere Spalte letzten sieben Zeilen bis rechte Spalte ersten sechs Zeilen" nur durch ge­ trennte Vokabularien für die einzelnen Benutzer umgangen. Der Nachteil des genannten Umgehungsverfahrens ist, dass sich die Benutzer vor einer Nutzung der Spracherkennung identifizieren müssen. Da eine sprecherabhängige Spracherkennung vorausge­ setzt wurde, muss die Sprecheridentifizierung über ein ande­ res Verfahren als die Spracherkennung erfolgen. Die Selbsti­ dentifikation des Benutzers über eine Tastatur und ein Dis­ play bietet sich in den meisten Fällen an. Der Zugriff auf die automatische Spracherkennung wird für den Benutzer hin­ sichtlich der Benutzerführung und des für eine Spracherken­ nung notwendigen Zeitaufwands erheblich erschwert. Dies gilt besonders, wenn sich mehrere Benutzer einer Spracherkennung häufig abwechseln. Das Verfahren der manuellen Benutzeriden­ tifizierung stellt hier sogar den Nutzen der Spracherkennung in Frage, da statt der manuellen Benutzeridentifikation mit dem gleichen Aufwand die gewünschte Ausführung der Aktion in dem Gerät manuell und ohne Spracherkennung initiiert werden kann.
Die der Erfindung zugrundeliegende Aufgabe besteht darin, das Initiieren von in einem Gerät ausführbaren Aktionen mittels Sprache durch Benutzer eines begrenzten Benutzerkreises des Gerätes benutzerunabhängig zu steuern, wobei die Sprache auf der Basis eines sprecherabhängigen Spracherkennungssystems benutzerunabhängig und ohne Benutzeridentifikation erkannt wird.
Diese Aufgabe wird durch die Merkmale des Patentanspruches 1 gelöst.
Die der Erfindung zugrundeliegende Idee besteht darin, daß den Erkennungssprachäußerungen der Benutzer des Benutzerkrei­ ses, z. B. den Wörtern eines Vokabulars, die für die Erkennung notwendigen Referenzsprachmuster aller Benutzer eines Spra­ cherkennungssystems zugeordnet werden. Das Vokabular (Tele­ fonbuch, Kommandowortliste, . . .) enthält dabei z. B. "i" Wör­ ter (Namen, Kommandos, . . .), denen jeweils eine auszuführende Handlung (Telefonnummern, die zu wählen sind, Aktion eines angeschlossenen Gerätes, . . .) eine eventuelle akustisch aus­ zugebende Sprachbestätigung (in der Regel die Aussprache des Wortes) (Voice Prompt) und bis zu "j" Referenzsprachmuster der "k" Benutzer des Spracherkennungssystems zugeordnet sind, wobei "i" ∈N, "j" ∈N und "k" ∈N.
Die Zuordnung einer Sprachbestätigung zu den Wörtern eines Vokabulars ist nicht unbedingt erforderlich, jedoch häufig für eine akustische Benutzerführung vorteilhaft. Die Sprach­ bestätigung kann dabei von einem der Benutzer des Spracher­ kennungssystems, einem Text-zu-Sprache-Transkriptionssystem oder falls die Wörter des Vokabulars feststehen, von einer dritten Person stammen.
Die bis zu "j" Referenzsprachmuster eines Wortes werden durch Training des Spracherkenners durch die m Benutzer gewonnen. Hierbei ist es nicht unbedingt notwendig, dass alle Benutzer alle Wörter des Vokabulars trainieren, sondern nur die Wör­ ter, die später von einem individuellen Benutzer auch automa­ tisch erkannt werden sollen. Trainieren mehrere Benutzer das gleiche Wort, so wird das Training des n-ten Sprechers auch dann akzeptiert, wenn das von dem Spracherkenner erzeugte Re­ ferenzsprachmuster ähnlich zu den bereits gespeicherten Refe­ renzsprachmustern des Wortes von den vorher trainierenden Sprechern ist. Die von den einzelnen Benutzern trainierten Worte bilden Teilmengen des Gesamtvokabulars, wobei die Schnittmengen der Teilvokabulare die von mehreren Benutzern trainierten Worte sind.
Nach der Erzeugung der Referenzsprachmuster (Training des Spracherkenners) können alle Benutzer das Spracherkennungssy­ stem ohne eine vorherige Benutzeridentifizierung nutzen. Bei der automatischen Worterkennung wird auf eine Rückweisung (Abweisung der Spracherkennung, weil die Äusserung nicht ein­ deutig einem Referenzsprachmuster zugeordnet werden kann) verzichtet, falls das von dem Spracherkenner erzeugte Erken­ nungssprachmuster ähnlich zu mehreren Referenzsprachmustern eines Wortes, aber nicht ähnlich zu den Referenzsprachmustern verschiedener Worte ist.
Die Vorteile des Verfahrens liegen in der benutzerunabhängi­ gen Spracherkennung. Das heißt, die Identifikation der Benut­ zer kann bei der Spracherkennung entfallen. Hierdurch wird eine wesentlich einfachere Bedienung des Spracherkennungssy­ stems erreicht. Weitere Vorteile des Verfahrens liegen in ei­ nem gemeinsamen Vokabular für alle Sprecher. Der Verwaltungs­ aufwand mehrerer Vokabulare entfällt und es wird eine höhere Übersichtlichkeit für die Benutzer erreicht. Da für jedes im Vokabular vorhandene Wort nur eine Sprachbestätigung (Voice Prompt) gespeichert werden muss, erlaubt das Verfahren dar­ über hinaus eine deutliche Reduktion des Speicheraufwands.
Der Speicheraufwand für eine Sprachbestätigung ist dabei ca. um eine Zehnerpotenz höher als der eines Referenzsprachmu­ sters. Zuallerletzt wird mit dem vorgestellten Verfahren in aller Regel eine höhere Worterkennungsrate als bei einer Ein­ zelnutzung (nur ein Sprecher) des Spracherkenners erzielt. Die Verbesserung der Worterkennungsrate beruht dabei auf der Erweiterung der Sprachreferenzbasis eines Wortes durch das Training mit mehreren Sprechern.
Der erfinderische Schritt liegt in der Nutzung eines gemein­ samen Vokabulars für alle Benutzer eines Spracherkennungssy­ stems, wobei einem Wort die Referenzsprachmuster von mehreren Benutzern zugeordnet werden. Das Verfahren erfordert die vor­ stehend beschriebene Rückweisungsstrategie beim Sprachtrai­ ning und bei der Spracherkennung.
Das Verfahren eignet sich für Spracherkennungsanwendungen mit einem eingeschränkten Benutzerkreis von mehr als einem Benut­ zer. Dies sind insbesondere Anwendungen mit einer Sprach­ steuerung und -befehlseingabe aber auch mit einem sprachge­ steuerten Datenbankzugriff. Ausführungsbeispiele sind sprach­ gesteuerte Telefone (sprachgesteuerte Wahl aus einem Telefon­ buch, sprachgesteuerte Steuerung einzelner Funktionen, wie z. B. die des Anrufbeantworters) als auch sonstige sprachge­ steuerte Maschinen/Geräte wie Haushaltsgeräte, Spielzeuge und Kraftfahrzeuge.
Vorteilhafte Weiterbildungen der Erfindung sind in Unteran­ sprüchen angegeben.
Ein Ausführungsbeispiel der Erfindung ist anhand der Fig. 1 bis 8 erläutert.

Claims (21)

1. Verfahren zum sprachgesteuerten Initiieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzer­ kreis mit folgenden Merkmalen:
  • a) Durch die zu mindestens einem Benutzer des Benutzerkrei­ ses des Gerätes jeweils zugehörige Sprache wird das Gerät für mindestens einen von dem jeweiligen Benutzer gewählten Be­ triebsmodus jeweils in mindestens einer von dem Benutzer ein­ zuleitenden Sprachtrainingsphase derart trainiert, daß
    • 1. mindestens einer dieser Benutzer zu mindestens einer Ak­ tion jeweils mindestens eine der Aktion jeweils zuzuordnenden Referenzsprachäußerung (reference speech utterance) in das Gerät eingibt,
    • 2. aus der Referenzsprachäußerung durch Sprachanalyse ein Referenzsprachmuster erzeugt wird, wobei bei mehreren Refe­ renzsprachäußerungen das Referenzsprachmuster erzeugt wird, wenn die Referenzsprachäußerungen ähnlich sind,
    • 3. das Referenzsprachmuster der Aktion zugeordnet wird,
    • 4. das Referenzsprachmuster mit der zugeordneten Aktion vorbehaltlos gespeichert wird oder nur dann gespeichert wird, wenn das Referenzsprachmuster unähnlich zu den bereits ge­ speicherten anderen Referenzsprachmustern ist, die anderen Aktionen zugeordnet sind,
  • b) der jeweilige Benutzer gibt für den von dem Benutzer ge­ wählten Betriebsmodus des Gerätes in einer Spracherekennungs­ phase eine Erkennungssprachäußerung in das Gerät ein,
  • c) aus der Erkennungssprachäußerung wird durch Sprachanalyse ein Erkennungssprachmuster erzeugt,
  • d) das Erkennungssprachmuster wird zumindest mit einem Teil der für den gewählten Betriebsmodus gespeicherten Referenz­ sprachmustern derart verglichen, daß die Ähnlichkeit zwischen dem jeweiligen Referenzsprachmuster und dem Erkennungs­ sprachmuster ermittelt wird und eine Ähnlichkeitsrangfolge der gespeicherten Referenzsprachmuster anhand der ermittelten Ähnlichkeitswerte gebildet wird,
  • e) das mit der Erkennungssprachäußerung bezweckte sprachge­ steuerte Initiieren der in dem Gerät ausführbaren Aktion durch den Benutzer wird als zulässig erkannt, wenn das Erken­ nungssprachmuster zu dem in der Ähnlichkeitsrangfolge an er­ ster Stelle stehenden Referenzsprachmuster ähnlich ist oder das Erkennungssprachmuster zu dem in der Ähnlichkeitsrangfol­ ge an erster Stelle stehenden Referenzsprachmuster ähnlich ist und zu dem in der Ähnlichkeitsrangfolge an n-ter Stelle stehenden Referenzsprachmuster unähnlich ist, wobei dem in der Ähnlichkeitsrangfolge an n-ter Stelle stehenden Referenz­ sprachmuster eine andere Aktion zugeordnet ist, als der Akti­ on, die dem in der Ähnlichkeitsrangfolge an erster Stelle stehenden Referenzsprachmuster zugeordnet ist und wobei die in der Ähnlichkeitsrangfolge an der ersten bis einschließlich (n-1)-ten Stelle stehenden Referenzsprachmustern der gleichen Aktion zugeordnet sind,
  • f) in dem Gerät wird die Aktion, die dem in der Ähnlich­ keitsrangfolge an der ersten Stelle stehenden Referenz­ sprachmuster zugeordnet ist, nur dann ausgeführt, wenn die von dem Benutzer für den von dem Benutzer gewählten Betriebs­ modus des Gerätes in der Spracherkennungsphase eingegebene Erkennungssprachäußerung als zulässig erkannt worden ist.
2. Verfahren nach Anspruch 1, dadurch gekennzeich­ net, daß mehrere Sprachmuster werden als ähnlich definiert, wenn ein durch Analyse zu bestimmendes Abstandsmaß zwischen jeweils zwei Sprachmustern einen vorgegebenen Wert unterschreitet oder einen vorgegebenen Wert unterschreitet und mit diesem Wert identisch ist, wobei das Abstandsmaß die Entfernung des einen Sprachmusters von dem anderen Sprachmuster angibt.
3. Verfahren nach Anspruch 2, dadurch gekennzeich­ net, daß das Abstandsmaß wird der Methode mit der dynamischen Program­ mierung (dynamic time warping) der Hidden-Markov-Modellierung oder der neuronalen Netze ermittelt bzw. berechnet.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß vom Benutzer mindestens ein Wort als Referenzsprachäußerung eingegeben wird.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß der Benutzer den von ihm durchgeführten Sprachtrainingsphasen mindestens eine benutzerspezifische Kennung zuordnet.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die Benutzereingabe von mehreren zu einer Sprachtrainingspha­ se gehörenden Referenzsprachäußerungen vom Gerät automatisch gesteuert wird, indem das Ende der zuerst eingegebenen Refe­ renzsprachäußerung vom Gerät mittels einer Sprachaktivitäts­ detektion erkannt wird, weil innerhalb einer vorgegebenen Zeit keine zu dieser Referenzsprachäußerung zuzuordnende wei­ tere Sprachaktivität des Benutzer erfolgt ist, und der Benut­ zer vom Gerät von der zeitlich befristeten Eingabemöglichkeit mindestens einer weiteren Referenzsprachäußerung informiert wird.
7. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die Benutzereingabe von mehreren zu einer Sprachtrainingspha­ se gehörenden Referenzsprachäußerungen durch Interaktion zwi­ schen dem Benutzer und dem Gerät gesteuert wird, indem der Benutzer dem Gerät durch eine spezifische Bedienprozedur mit­ teilt, das mehrere Referenzsprachäußerungen von ihm eingege­ ben werden.
8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß in verschiedenen Sprachtrainingsphasen von den Benutzern zu einer Aktion unterschiedliche Referenzsprachäußerungen, z. B. in verschiedenen Sprachen "deutsch und englisch", eingegeben werden.
9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß der Benutzer eine Information, z. B. eine Telefonnummer, ein­ gibt, durch die die Aktion definiert wird.
10. Verfahren nach Anspruch 9, dadurch gekennzeich­ net, daß die Information mittels biometrischer Eingabetechniken einge­ geben wird.
11. Verfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, daß die Information vor oder nach der Eingabe der Referenz­ sprachäußerung eingegeben wird.
12. Verfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, daß die Aktion vom Gerät vorgegeben wird.
13. Verfahren nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, daß die Erkennungssprachäußerung in der Spracherkennungsphase je­ derzeit mit Ausnahme während der Sprachtrainingsphase einge­ geben werden kann.
14. Verfahren nach einem der Ansprüche 1 bis 13, dadurch gekennzeichnet, daß die Erkennungssprachäußerung erst dann eingegeben werden kann, wenn zuvor die Spracherkennungsphase in dem Gerät von dem Benutzer eingeleitet worden ist.
15. Verfahren nach einem der Ansprüche 1 bis 14, dadurch gekennzeichnet, daß der Sprachtrainingsmodus jeweils durch das Speichern des Re­ ferenzsprachmusters beendet wird.
16. Verfahren nach einem der Ansprüche 1 bis 15, dadurch gekennzeichnet, daß dem Benutzer die Eingabe eines unzulässigen Erkennungsprach­ muster mitgeteilt wird.
17. Verfahren nach einem der Ansprüche 1 bis 16, dadurch gekennzeichnet, daß die Spracherkennunghsphase wie die Sprachtrainingsphase ein­ geleitet wird.
18. Verfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, daß das sprachgesteuerte Initiieren von in einem Gerät ausführba­ ren Aktionen in Telekommunikationsendgeräten durchgeführt wird.
19. Verfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, daß das sprachgesteuerte Initiieren von in einem Gerät ausführba­ ren Aktionen in Haushaltsgeräten, in Fahrzeugen, in Geräten der Unterhaltungselektronik, in elektronischen Geräten zur Steuerung- und Befehlseingabe, z. B. einem Personal Computer oder einem Personal Digital Assistant, durchgeführt wird.
20. Verfahren nach Anspruch 17, dadurch gekennzeich­ net, daß in einem ersten Betriebsmodus des Telekommunikationsendgerä­ tes die Sprachwahl aus einem Telefonbuch oder das sprachge­ steuerte Senden von "Short Message Service"-Nachrichten aus einem "Short Message Service"-Speicher durchgeführt wird.
21. Verfahren nach Anspruch 17 oder 20, dadurch ge­ kennzeichnet, daß in einem zweiten Betriebsmodus des Telekommunikationsendgerä­ tes die Sprachsteuerung von Funktionseinheiten, z. B. Anrufbe­ antworter, "Short Message Service"-Speicher, durchgeführt wird.
DE10011178A 2000-03-08 2000-03-08 Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis Withdrawn DE10011178A1 (de)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE10011178A DE10011178A1 (de) 2000-03-08 2000-03-08 Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis
PCT/DE2001/000891 WO2001067435A1 (de) 2000-03-08 2001-03-08 Verfahren zum sprachgesteuerten initiieren von in einem gerät ausführbaren aktionen durch einen begrenzten benutzerkreis
US10/220,906 US20030040915A1 (en) 2000-03-08 2001-03-08 Method for the voice-controlled initiation of actions by means of a limited circle of users, whereby said actions can be carried out in appliance
CN01806169.9A CN1217314C (zh) 2000-03-08 2001-03-08 由有限的用户圈用语音控制启动可在设备内执行的动作的方法
EP01921173A EP1261964A1 (de) 2000-03-08 2001-03-08 Verfahren zum sprachgesteuerten initiieren von in einem gerät ausführbaren aktionen durch einen begrenzten benutzerkreis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10011178A DE10011178A1 (de) 2000-03-08 2000-03-08 Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis

Publications (1)

Publication Number Publication Date
DE10011178A1 true DE10011178A1 (de) 2001-09-13

Family

ID=7633897

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10011178A Withdrawn DE10011178A1 (de) 2000-03-08 2000-03-08 Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis

Country Status (5)

Country Link
US (1) US20030040915A1 (de)
EP (1) EP1261964A1 (de)
CN (1) CN1217314C (de)
DE (1) DE10011178A1 (de)
WO (1) WO2001067435A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008024257A1 (de) * 2008-05-20 2009-11-26 Siemens Aktiengesellschaft Verfahren zur Sprecheridentifikation bei einer Spracherkennung

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1665748B1 (de) 2003-09-17 2013-05-15 Gigaset Communications GmbH Verfahren und telekommunikationssystem mit drahtloser telekommunikation zwischen einem mobilteil und einer basisstation zum registrieren eines mobilteils
US20060287864A1 (en) * 2005-06-16 2006-12-21 Juha Pusa Electronic device, computer program product and voice control method
CN102262879B (zh) * 2010-05-24 2015-05-13 乐金电子(中国)研究开发中心有限公司 语音命令竞争处理方法、装置、语音遥控器和数字电视
US9316400B2 (en) * 2013-09-03 2016-04-19 Panasonic Intellctual Property Corporation of America Appliance control method, speech-based appliance control system, and cooking appliance
US10767879B1 (en) * 2014-02-13 2020-09-08 Gregg W Burnett Controlling and monitoring indoor air quality (IAQ) devices
US20150336786A1 (en) * 2014-05-20 2015-11-26 General Electric Company Refrigerators for providing dispensing in response to voice commands
CN105224523A (zh) * 2014-06-08 2016-01-06 上海能感物联网有限公司 非特定人外语语音远程自动导航并驾驶汽车的控制器装置
US10257629B2 (en) 2017-04-18 2019-04-09 Vivint, Inc. Event detection by microphone
JP6771681B2 (ja) * 2017-10-11 2020-10-21 三菱電機株式会社 空調用コントローラ
CN108509225B (zh) * 2018-03-28 2021-07-16 联想(北京)有限公司 一种信息处理方法及电子设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4181821A (en) * 1978-10-31 1980-01-01 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system
US5040213A (en) * 1989-01-27 1991-08-13 Ricoh Company, Ltd. Method of renewing reference pattern stored in dictionary
US5794205A (en) * 1995-10-19 1998-08-11 Voice It Worldwide, Inc. Voice recognition interface apparatus and method for interacting with a programmable timekeeping device
US6073101A (en) * 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
DE19636452A1 (de) * 1996-09-07 1998-03-12 Altenburger Ind Naehmasch Mehrnutzersystem zur Spracheingabe
US5777571A (en) * 1996-10-02 1998-07-07 Holtek Microelectronics, Inc. Remote control device for voice recognition and user identification restrictions
KR19990087167A (ko) * 1996-12-24 1999-12-15 롤페스 요하네스 게라투스 알베르투스 음성 인식 시스템 훈련 방법 및 그 방법을실행하는 장치,특히, 휴대용 전화 장치
FR2761848B1 (fr) * 1997-04-04 2004-09-17 Parrot Sa Dispositif de commande vocale pour radiotelephone, notamment pour utilisation dans un vehicule automobile
US6289140B1 (en) * 1998-02-19 2001-09-11 Hewlett-Packard Company Voice control input for portable capture devices
US6018711A (en) * 1998-04-21 2000-01-25 Nortel Networks Corporation Communication system user interface with animated representation of time remaining for input to recognizer
DE19841166A1 (de) * 1998-09-09 2000-03-16 Deutsche Telekom Ag Verfahren zur Kontrolle der Zugangsberechtigung für die Sprachtelefonie an einem Festnetz- oder Mobiltelefonanschluß sowie Kommunikationsnetz
US20030093281A1 (en) * 1999-05-21 2003-05-15 Michael Geilhufe Method and apparatus for machine to machine communication using speech

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008024257A1 (de) * 2008-05-20 2009-11-26 Siemens Aktiengesellschaft Verfahren zur Sprecheridentifikation bei einer Spracherkennung

Also Published As

Publication number Publication date
CN1416560A (zh) 2003-05-07
US20030040915A1 (en) 2003-02-27
CN1217314C (zh) 2005-08-31
WO2001067435A9 (de) 2002-11-28
EP1261964A1 (de) 2002-12-04
WO2001067435A1 (de) 2001-09-13

Similar Documents

Publication Publication Date Title
DE69922104T2 (de) Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz
DE69922872T2 (de) Automatischer Hotelportier mit Spracherkennung
DE69427083T2 (de) Spracherkennungssystem für mehrere sprachen
DE60125542T2 (de) System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
EP0925578A1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE10334400A1 (de) Verfahren zur Spracherkennung und Kommunikationsgerät
DE102006006069A1 (de) Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon
DE10054583C2 (de) Verfahren und Vorrichtung zum Aufzeichnen, Suchen und Wiedergeben von Notizen
DE102006036338A1 (de) Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem
DE10011178A1 (de) Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis
DE60128372T2 (de) Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
DE60214850T2 (de) Für eine benutzergruppe spezifisches musterverarbeitungssystem
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
US20010056345A1 (en) Method and system for speech recognition of the alphabet
DE60014583T2 (de) Verfahren und vorrichtung zur integritätsprüfung von benutzeroberflächen sprachgesteuerter geräte
Schramm et al. Strategies for name recognition in automatic directory assistance systems
EP1125278A1 (de) Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte
DE19912405A1 (de) Bestimmung einer Regressionsklassen-Baumstruktur für Spracherkenner
DE10129005B4 (de) Verfahren zur Spracherkennung und Spracherkennungssystem
DE10229207B3 (de) Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik
EP1063633A2 (de) Verfahren zum Training eines automatischen Spracherkenners
EP1457966A1 (de) Verfahren zum Ermitteln der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung
EP1302928A1 (de) Verfahren zur Spracherkennung, insbesondere von Namen, und Spracherkenner
DE102004011426B3 (de) Vorrichtung zum Erkennen einer in einem Sprachsignal enthaltenen Emotion und Verfahren zum Erkennen einer in einem Sprachsignal enthaltenen Emotion

Legal Events

Date Code Title Description
8130 Withdrawal