DE10011178A1 - Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis - Google Patents
Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten BenutzerkreisInfo
- Publication number
- DE10011178A1 DE10011178A1 DE10011178A DE10011178A DE10011178A1 DE 10011178 A1 DE10011178 A1 DE 10011178A1 DE 10011178 A DE10011178 A DE 10011178A DE 10011178 A DE10011178 A DE 10011178A DE 10011178 A1 DE10011178 A1 DE 10011178A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- language
- user
- pattern
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000009471 action Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 14
- 230000000977 initiatory effect Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 230000014509 gene expression Effects 0.000 claims 2
- 238000013528 artificial neural network Methods 0.000 claims 1
- 230000003993 interaction Effects 0.000 claims 1
- 238000011017 operating method Methods 0.000 claims 1
- 230000001419 dependent effect Effects 0.000 description 9
- 238000012790 confirmation Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
Um das Initiieren von in einem Gerät ausführbaren Aktionen mittels Sprache durch Benutzer eines begrenzten Benutzerkreises des Gerätes benutzerunabhängig zu steuern, wobei die Sprache auf der Basis eines sprecherabhängigen Spracherkennungssystems benutzerunabhängig und ohne Benutzeridentifikation erkannt wird, werden Erkennungssprachäußerungen der Benutzer des Benutzerkreises, z. B. den Wörtern eines Vokabulars, die für die Erkennung notwendigen Referenzsprachmuster aller Benutzer eines Spracherkennungssystems zugeordnet.
Description
Verfahren zum sprachgesteuerten Initiieren von in einem Gerät
ausführbaren Aktionen durch einen begrenzten Benutzerkreis
Die Eingabe von Informationen bzw. Daten oder Befehlen in ein
Gerät - z. B. ein Telekommunikationsendgerät wie das schurge
bundene oder schnurlose Telefon, das Mobilfunk-Handy etc.,
ein Haushaltsgerät wie die Waschmaschine, der Elektroherd,
der Kühlschrank etc., ein Fahrzeug wie das Auto, das Flug
zeug, das Schiff etc., ein Gerät der Unterhaltungselektronik
wie der Fernseher, die HIFI-Anlage, etc., ein elektronisches
Geräte zur Steuerung- und Befehlseingabe wie der Personal
Computer, der Personal Digital Assistant, etc. -mittels
Sprache, der natürlichen Kommunikationsform des Menschen, zum
sprachgesteuerten Initiieren von in dem jeweiligen Gerät aus
führbaren Aktionen hat das vorrangige Ziel, daß die hierfür
zur Daten- oder Befehlseingabe benutzten Hände für andere
Routine-Tätigkeiten frei werden.
Das Gerät weist dazu eine Spracherkennungseinrichtung auf,
die in der Fachliteratur auch als Spracherkenner bezeichnet
wird. Das Gebiet der automatischen Erkennung von Sprache als
ein System von Zeichen und Lauten umfaßt das Erkennen der
isoliert gesprochenen Zeichen und Laute - z. B. einzelne Wör
ter, Befehle - bis hin zum Erkennen von fließend gesprochenen
Zeichen und Laute - z. B. mehrere zusammenhängende Wörter, ein
oder mehrere Sätze, eine Rede - entsprechend der Kommunikati
onsform des Menschen. Die automatische Spracherkennung ist im
Prinzip ein Suchprozeß, der sich gemäß der Druckschrift
"Funkschau Heft 26, 1998, Seiten 72 bis 74" ganz grob in eine
Phase zur Aufbereitung des Sprachsignals, eine Phase zur Re
duktion der Datenmenge, eine Klassifizierungsphase, eine Pha
se zur Bildung von Wortketten und eine Grammatikmodellphase
unterteilen, die in der angegebenen Reihenfolge im Spracher
kennungsprozeß ablaufen.
Die nach dieser Vorgehensweise arbeitenden Spracherkenner
werden gemäß der Druckschrift "Funkschau Heft 13, 19998, Sei
ten 78 bis 80" nach dem Grad ihrer Sprecherabhängigkeit un
terschieden. Während bei sprecherabhängigen Spracherkennern
der jeweilige Benutzer das gesamte Vokabular in mindestens
einer Lern- bzw. Trainingsphase zum Erzeugen von Referenzmu
stern einspricht, entfällt dieser Vorgang bei sprecherunab
hängigen Spracherkennern.
Der sprecherunabhängigen Spracherkenner arbeitet fast aus
schließlich auf der Basis von Phonemen, während der sprecher
abhängige Spracherkenner mehr oder weniger ein Einzelworter
kenner ist.
Entsprechend dieser Spracherkennerdefinition kommen die spre
cherunabhängigen Spracherkenner insbesondere in solchen Gerä
ten zum Einsatz, wo einerseits fließend gesprochene Sprache -
z. B. mehrere zusammenhängende Wörter, Sätze etc. - und große
bis sehr große Wortschätze - d. h. eine unbegrenzter Benutzer
kreis benutzt das Gerät - verarbeitet werden müssen und ande
rerseits der Rechen- und Speicheraufwand für das Erkennen
dieser Sprache und Wortschätze keine Rolle spielt, weil die
entsprechenden Kapazitäten vorhanden sind.
Die sprecherabhängigen Spracherkenner hingegen haben ihr be
vorzugtes Einsatzgebiet in solchen Geräten, wo einerseits
diskret gesprochene Sprache, z. B. einzelne Wörter und Befeh
le, und kleine bis mittelgroße Wortschätze - d. h. eine be
grenzter Benutzerkreis benutzt das Gerät - verarbeitet werden
müssen und andererseits der Rechen- und Speicheraufwand für
das Erkennen dieser Sprache und Wortschätze von Bedeutung
ist, weil die entsprechenden Kapazitäten nicht vorhanden
sind. Die sprecherabhängige Spracherkenner zeichnen sich da
her durch eine geringe Komplexität bezüglich des Rechenauf
wands und des Speicherbedarfs aus.
Bei derzeit zum Einsatz kommenden sprecherabhängigen Spra
cherkennern werden bereits ausreichend hohe Worterkennungsra
ten für kleine bis mittelgroße Vokabularien (10-100 Wörter)
erzielt, so dass sich diese Spracherkenner besonders zur
Steuerungs- und Befehlseingabe (command-and-control) aber
auch für sprachgesteuerten Datenbankzugriff (z. B. Sprachwahl
aus einem Telefonbuch) eignen. In zunehmendem Maße werden
diese Spracherkenner daher in Geräten des Massenmarkts, wie
z. B. in Telefonen, Haushaltsgeräten, Geräten der Unterhal
tungselektronik, Geräten mit Steuerungs- und Befehlseingabe
Spielzeugen aber auch in Kraftfahrzeugen eingesetzt.
Problematisch bei diesen Anwendungen ist allerdings, dass die
Geräte oft nicht nur von einem Benutzer, sondern von mehreren
Benutzern, z. B. häufig Mitglieder eines Haushalts, einer Fa
milie verwendet werden (begrenzter Benutzerkreis).
Das Problem der Benutzerabhängigkeit von sprecherabhängigen
Spracherkennern ist gemäß der Druckschrift "ntz (nachrichten
technische zeitschrift) Band 37, Heft 8, 1984, Seiten 496 bis
499 insbesondere Seite 498, mittlere Spalte letzten sieben
Zeilen bis rechte Spalte ersten sechs Zeilen" nur durch ge
trennte Vokabularien für die einzelnen Benutzer umgangen. Der
Nachteil des genannten Umgehungsverfahrens ist, dass sich die
Benutzer vor einer Nutzung der Spracherkennung identifizieren
müssen. Da eine sprecherabhängige Spracherkennung vorausge
setzt wurde, muss die Sprecheridentifizierung über ein ande
res Verfahren als die Spracherkennung erfolgen. Die Selbsti
dentifikation des Benutzers über eine Tastatur und ein Dis
play bietet sich in den meisten Fällen an. Der Zugriff auf
die automatische Spracherkennung wird für den Benutzer hin
sichtlich der Benutzerführung und des für eine Spracherken
nung notwendigen Zeitaufwands erheblich erschwert. Dies gilt
besonders, wenn sich mehrere Benutzer einer Spracherkennung
häufig abwechseln. Das Verfahren der manuellen Benutzeriden
tifizierung stellt hier sogar den Nutzen der Spracherkennung
in Frage, da statt der manuellen Benutzeridentifikation mit
dem gleichen Aufwand die gewünschte Ausführung der Aktion in
dem Gerät manuell und ohne Spracherkennung initiiert werden
kann.
Die der Erfindung zugrundeliegende Aufgabe besteht darin, das
Initiieren von in einem Gerät ausführbaren Aktionen mittels
Sprache durch Benutzer eines begrenzten Benutzerkreises des
Gerätes benutzerunabhängig zu steuern, wobei die Sprache auf
der Basis eines sprecherabhängigen Spracherkennungssystems
benutzerunabhängig und ohne Benutzeridentifikation erkannt
wird.
Diese Aufgabe wird durch die Merkmale des Patentanspruches 1
gelöst.
Die der Erfindung zugrundeliegende Idee besteht darin, daß
den Erkennungssprachäußerungen der Benutzer des Benutzerkrei
ses, z. B. den Wörtern eines Vokabulars, die für die Erkennung
notwendigen Referenzsprachmuster aller Benutzer eines Spra
cherkennungssystems zugeordnet werden. Das Vokabular (Tele
fonbuch, Kommandowortliste, . . .) enthält dabei z. B. "i" Wör
ter (Namen, Kommandos, . . .), denen jeweils eine auszuführende
Handlung (Telefonnummern, die zu wählen sind, Aktion eines
angeschlossenen Gerätes, . . .) eine eventuelle akustisch aus
zugebende Sprachbestätigung (in der Regel die Aussprache des
Wortes) (Voice Prompt) und bis zu "j" Referenzsprachmuster
der "k" Benutzer des Spracherkennungssystems zugeordnet sind,
wobei "i" ∈N, "j" ∈N und "k" ∈N.
Die Zuordnung einer Sprachbestätigung zu den Wörtern eines
Vokabulars ist nicht unbedingt erforderlich, jedoch häufig
für eine akustische Benutzerführung vorteilhaft. Die Sprach
bestätigung kann dabei von einem der Benutzer des Spracher
kennungssystems, einem Text-zu-Sprache-Transkriptionssystem
oder falls die Wörter des Vokabulars feststehen, von einer
dritten Person stammen.
Die bis zu "j" Referenzsprachmuster eines Wortes werden durch
Training des Spracherkenners durch die m Benutzer gewonnen.
Hierbei ist es nicht unbedingt notwendig, dass alle Benutzer
alle Wörter des Vokabulars trainieren, sondern nur die Wör
ter, die später von einem individuellen Benutzer auch automa
tisch erkannt werden sollen. Trainieren mehrere Benutzer das
gleiche Wort, so wird das Training des n-ten Sprechers auch
dann akzeptiert, wenn das von dem Spracherkenner erzeugte Re
ferenzsprachmuster ähnlich zu den bereits gespeicherten Refe
renzsprachmustern des Wortes von den vorher trainierenden
Sprechern ist. Die von den einzelnen Benutzern trainierten
Worte bilden Teilmengen des Gesamtvokabulars, wobei die
Schnittmengen der Teilvokabulare die von mehreren Benutzern
trainierten Worte sind.
Nach der Erzeugung der Referenzsprachmuster (Training des
Spracherkenners) können alle Benutzer das Spracherkennungssy
stem ohne eine vorherige Benutzeridentifizierung nutzen. Bei
der automatischen Worterkennung wird auf eine Rückweisung
(Abweisung der Spracherkennung, weil die Äusserung nicht ein
deutig einem Referenzsprachmuster zugeordnet werden kann)
verzichtet, falls das von dem Spracherkenner erzeugte Erken
nungssprachmuster ähnlich zu mehreren Referenzsprachmustern
eines Wortes, aber nicht ähnlich zu den Referenzsprachmustern
verschiedener Worte ist.
Die Vorteile des Verfahrens liegen in der benutzerunabhängi
gen Spracherkennung. Das heißt, die Identifikation der Benut
zer kann bei der Spracherkennung entfallen. Hierdurch wird
eine wesentlich einfachere Bedienung des Spracherkennungssy
stems erreicht. Weitere Vorteile des Verfahrens liegen in ei
nem gemeinsamen Vokabular für alle Sprecher. Der Verwaltungs
aufwand mehrerer Vokabulare entfällt und es wird eine höhere
Übersichtlichkeit für die Benutzer erreicht. Da für jedes im
Vokabular vorhandene Wort nur eine Sprachbestätigung (Voice
Prompt) gespeichert werden muss, erlaubt das Verfahren dar
über hinaus eine deutliche Reduktion des Speicheraufwands.
Der Speicheraufwand für eine Sprachbestätigung ist dabei ca.
um eine Zehnerpotenz höher als der eines Referenzsprachmu
sters. Zuallerletzt wird mit dem vorgestellten Verfahren in
aller Regel eine höhere Worterkennungsrate als bei einer Ein
zelnutzung (nur ein Sprecher) des Spracherkenners erzielt.
Die Verbesserung der Worterkennungsrate beruht dabei auf der
Erweiterung der Sprachreferenzbasis eines Wortes durch das
Training mit mehreren Sprechern.
Der erfinderische Schritt liegt in der Nutzung eines gemein
samen Vokabulars für alle Benutzer eines Spracherkennungssy
stems, wobei einem Wort die Referenzsprachmuster von mehreren
Benutzern zugeordnet werden. Das Verfahren erfordert die vor
stehend beschriebene Rückweisungsstrategie beim Sprachtrai
ning und bei der Spracherkennung.
Das Verfahren eignet sich für Spracherkennungsanwendungen mit
einem eingeschränkten Benutzerkreis von mehr als einem Benut
zer. Dies sind insbesondere Anwendungen mit einer Sprach
steuerung und -befehlseingabe aber auch mit einem sprachge
steuerten Datenbankzugriff. Ausführungsbeispiele sind sprach
gesteuerte Telefone (sprachgesteuerte Wahl aus einem Telefon
buch, sprachgesteuerte Steuerung einzelner Funktionen, wie
z. B. die des Anrufbeantworters) als auch sonstige sprachge
steuerte Maschinen/Geräte wie Haushaltsgeräte, Spielzeuge und
Kraftfahrzeuge.
Vorteilhafte Weiterbildungen der Erfindung sind in Unteran
sprüchen angegeben.
Ein Ausführungsbeispiel der Erfindung ist anhand der Fig.
1 bis 8 erläutert.
Claims (21)
1. Verfahren zum sprachgesteuerten Initiieren von in einem
Gerät ausführbaren Aktionen durch einen begrenzten Benutzer
kreis mit folgenden Merkmalen:
- a) Durch die zu mindestens einem Benutzer des Benutzerkrei
ses des Gerätes jeweils zugehörige Sprache wird das Gerät für
mindestens einen von dem jeweiligen Benutzer gewählten Be
triebsmodus jeweils in mindestens einer von dem Benutzer ein
zuleitenden Sprachtrainingsphase derart trainiert, daß
- 1. mindestens einer dieser Benutzer zu mindestens einer Ak tion jeweils mindestens eine der Aktion jeweils zuzuordnenden Referenzsprachäußerung (reference speech utterance) in das Gerät eingibt,
- 2. aus der Referenzsprachäußerung durch Sprachanalyse ein Referenzsprachmuster erzeugt wird, wobei bei mehreren Refe renzsprachäußerungen das Referenzsprachmuster erzeugt wird, wenn die Referenzsprachäußerungen ähnlich sind,
- 3. das Referenzsprachmuster der Aktion zugeordnet wird,
- 4. das Referenzsprachmuster mit der zugeordneten Aktion vorbehaltlos gespeichert wird oder nur dann gespeichert wird, wenn das Referenzsprachmuster unähnlich zu den bereits ge speicherten anderen Referenzsprachmustern ist, die anderen Aktionen zugeordnet sind,
- b) der jeweilige Benutzer gibt für den von dem Benutzer ge wählten Betriebsmodus des Gerätes in einer Spracherekennungs phase eine Erkennungssprachäußerung in das Gerät ein,
- c) aus der Erkennungssprachäußerung wird durch Sprachanalyse ein Erkennungssprachmuster erzeugt,
- d) das Erkennungssprachmuster wird zumindest mit einem Teil der für den gewählten Betriebsmodus gespeicherten Referenz sprachmustern derart verglichen, daß die Ähnlichkeit zwischen dem jeweiligen Referenzsprachmuster und dem Erkennungs sprachmuster ermittelt wird und eine Ähnlichkeitsrangfolge der gespeicherten Referenzsprachmuster anhand der ermittelten Ähnlichkeitswerte gebildet wird,
- e) das mit der Erkennungssprachäußerung bezweckte sprachge steuerte Initiieren der in dem Gerät ausführbaren Aktion durch den Benutzer wird als zulässig erkannt, wenn das Erken nungssprachmuster zu dem in der Ähnlichkeitsrangfolge an er ster Stelle stehenden Referenzsprachmuster ähnlich ist oder das Erkennungssprachmuster zu dem in der Ähnlichkeitsrangfol ge an erster Stelle stehenden Referenzsprachmuster ähnlich ist und zu dem in der Ähnlichkeitsrangfolge an n-ter Stelle stehenden Referenzsprachmuster unähnlich ist, wobei dem in der Ähnlichkeitsrangfolge an n-ter Stelle stehenden Referenz sprachmuster eine andere Aktion zugeordnet ist, als der Akti on, die dem in der Ähnlichkeitsrangfolge an erster Stelle stehenden Referenzsprachmuster zugeordnet ist und wobei die in der Ähnlichkeitsrangfolge an der ersten bis einschließlich (n-1)-ten Stelle stehenden Referenzsprachmustern der gleichen Aktion zugeordnet sind,
- f) in dem Gerät wird die Aktion, die dem in der Ähnlich keitsrangfolge an der ersten Stelle stehenden Referenz sprachmuster zugeordnet ist, nur dann ausgeführt, wenn die von dem Benutzer für den von dem Benutzer gewählten Betriebs modus des Gerätes in der Spracherkennungsphase eingegebene Erkennungssprachäußerung als zulässig erkannt worden ist.
2. Verfahren nach Anspruch 1, dadurch gekennzeich
net, daß
mehrere Sprachmuster werden als ähnlich definiert, wenn ein
durch Analyse zu bestimmendes Abstandsmaß zwischen jeweils
zwei Sprachmustern einen vorgegebenen Wert unterschreitet
oder einen vorgegebenen Wert unterschreitet und mit diesem
Wert identisch ist, wobei das Abstandsmaß die Entfernung des
einen Sprachmusters von dem anderen Sprachmuster angibt.
3. Verfahren nach Anspruch 2, dadurch gekennzeich
net, daß
das Abstandsmaß wird der Methode mit der dynamischen Program
mierung (dynamic time warping) der Hidden-Markov-Modellierung
oder der neuronalen Netze ermittelt bzw. berechnet.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch
gekennzeichnet, daß
vom Benutzer mindestens ein Wort als Referenzsprachäußerung
eingegeben wird.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch
gekennzeichnet, daß
der Benutzer den von ihm durchgeführten Sprachtrainingsphasen
mindestens eine benutzerspezifische Kennung zuordnet.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch
gekennzeichnet, daß
die Benutzereingabe von mehreren zu einer Sprachtrainingspha
se gehörenden Referenzsprachäußerungen vom Gerät automatisch
gesteuert wird, indem das Ende der zuerst eingegebenen Refe
renzsprachäußerung vom Gerät mittels einer Sprachaktivitäts
detektion erkannt wird, weil innerhalb einer vorgegebenen
Zeit keine zu dieser Referenzsprachäußerung zuzuordnende wei
tere Sprachaktivität des Benutzer erfolgt ist, und der Benut
zer vom Gerät von der zeitlich befristeten Eingabemöglichkeit
mindestens einer weiteren Referenzsprachäußerung informiert
wird.
7. Verfahren nach einem der Ansprüche 1 bis 5, dadurch
gekennzeichnet, daß
die Benutzereingabe von mehreren zu einer Sprachtrainingspha
se gehörenden Referenzsprachäußerungen durch Interaktion zwi
schen dem Benutzer und dem Gerät gesteuert wird, indem der
Benutzer dem Gerät durch eine spezifische Bedienprozedur mit
teilt, das mehrere Referenzsprachäußerungen von ihm eingege
ben werden.
8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch
gekennzeichnet, daß
in verschiedenen Sprachtrainingsphasen von den Benutzern zu
einer Aktion unterschiedliche Referenzsprachäußerungen, z. B.
in verschiedenen Sprachen "deutsch und englisch", eingegeben
werden.
9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch
gekennzeichnet, daß
der Benutzer eine Information, z. B. eine Telefonnummer, ein
gibt, durch die die Aktion definiert wird.
10. Verfahren nach Anspruch 9, dadurch gekennzeich
net, daß
die Information mittels biometrischer Eingabetechniken einge
geben wird.
11. Verfahren nach einem der Ansprüche 1 bis 10, dadurch
gekennzeichnet, daß
die Information vor oder nach der Eingabe der Referenz
sprachäußerung eingegeben wird.
12. Verfahren nach einem der Ansprüche 1 bis 11, dadurch
gekennzeichnet, daß
die Aktion vom Gerät vorgegeben wird.
13. Verfahren nach einem der Ansprüche 1 bis 12, dadurch
gekennzeichnet, daß
die Erkennungssprachäußerung in der Spracherkennungsphase je
derzeit mit Ausnahme während der Sprachtrainingsphase einge
geben werden kann.
14. Verfahren nach einem der Ansprüche 1 bis 13, dadurch
gekennzeichnet, daß
die Erkennungssprachäußerung erst dann eingegeben werden
kann, wenn zuvor die Spracherkennungsphase in dem Gerät von
dem Benutzer eingeleitet worden ist.
15. Verfahren nach einem der Ansprüche 1 bis 14, dadurch
gekennzeichnet, daß
der Sprachtrainingsmodus jeweils durch das Speichern des Re
ferenzsprachmusters beendet wird.
16. Verfahren nach einem der Ansprüche 1 bis 15, dadurch
gekennzeichnet, daß
dem Benutzer die Eingabe eines unzulässigen Erkennungsprach
muster mitgeteilt wird.
17. Verfahren nach einem der Ansprüche 1 bis 16, dadurch
gekennzeichnet, daß
die Spracherkennunghsphase wie die Sprachtrainingsphase ein
geleitet wird.
18. Verfahren nach einem der Ansprüche 1 bis 17, dadurch
gekennzeichnet, daß
das sprachgesteuerte Initiieren von in einem Gerät ausführba
ren Aktionen in Telekommunikationsendgeräten durchgeführt
wird.
19. Verfahren nach einem der Ansprüche 1 bis 17, dadurch
gekennzeichnet, daß
das sprachgesteuerte Initiieren von in einem Gerät ausführba
ren Aktionen in Haushaltsgeräten, in Fahrzeugen, in Geräten
der Unterhaltungselektronik, in elektronischen Geräten zur
Steuerung- und Befehlseingabe, z. B. einem Personal Computer
oder einem Personal Digital Assistant, durchgeführt wird.
20. Verfahren nach Anspruch 17, dadurch gekennzeich
net, daß
in einem ersten Betriebsmodus des Telekommunikationsendgerä
tes die Sprachwahl aus einem Telefonbuch oder das sprachge
steuerte Senden von "Short Message Service"-Nachrichten aus
einem "Short Message Service"-Speicher durchgeführt wird.
21. Verfahren nach Anspruch 17 oder 20, dadurch ge
kennzeichnet, daß
in einem zweiten Betriebsmodus des Telekommunikationsendgerä
tes die Sprachsteuerung von Funktionseinheiten, z. B. Anrufbe
antworter, "Short Message Service"-Speicher, durchgeführt
wird.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10011178A DE10011178A1 (de) | 2000-03-08 | 2000-03-08 | Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis |
PCT/DE2001/000891 WO2001067435A1 (de) | 2000-03-08 | 2001-03-08 | Verfahren zum sprachgesteuerten initiieren von in einem gerät ausführbaren aktionen durch einen begrenzten benutzerkreis |
US10/220,906 US20030040915A1 (en) | 2000-03-08 | 2001-03-08 | Method for the voice-controlled initiation of actions by means of a limited circle of users, whereby said actions can be carried out in appliance |
CN01806169.9A CN1217314C (zh) | 2000-03-08 | 2001-03-08 | 由有限的用户圈用语音控制启动可在设备内执行的动作的方法 |
EP01921173A EP1261964A1 (de) | 2000-03-08 | 2001-03-08 | Verfahren zum sprachgesteuerten initiieren von in einem gerät ausführbaren aktionen durch einen begrenzten benutzerkreis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10011178A DE10011178A1 (de) | 2000-03-08 | 2000-03-08 | Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10011178A1 true DE10011178A1 (de) | 2001-09-13 |
Family
ID=7633897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10011178A Withdrawn DE10011178A1 (de) | 2000-03-08 | 2000-03-08 | Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis |
Country Status (5)
Country | Link |
---|---|
US (1) | US20030040915A1 (de) |
EP (1) | EP1261964A1 (de) |
CN (1) | CN1217314C (de) |
DE (1) | DE10011178A1 (de) |
WO (1) | WO2001067435A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102008024257A1 (de) * | 2008-05-20 | 2009-11-26 | Siemens Aktiengesellschaft | Verfahren zur Sprecheridentifikation bei einer Spracherkennung |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1665748B1 (de) | 2003-09-17 | 2013-05-15 | Gigaset Communications GmbH | Verfahren und telekommunikationssystem mit drahtloser telekommunikation zwischen einem mobilteil und einer basisstation zum registrieren eines mobilteils |
US20060287864A1 (en) * | 2005-06-16 | 2006-12-21 | Juha Pusa | Electronic device, computer program product and voice control method |
CN102262879B (zh) * | 2010-05-24 | 2015-05-13 | 乐金电子(中国)研究开发中心有限公司 | 语音命令竞争处理方法、装置、语音遥控器和数字电视 |
US9316400B2 (en) * | 2013-09-03 | 2016-04-19 | Panasonic Intellctual Property Corporation of America | Appliance control method, speech-based appliance control system, and cooking appliance |
US10767879B1 (en) * | 2014-02-13 | 2020-09-08 | Gregg W Burnett | Controlling and monitoring indoor air quality (IAQ) devices |
US20150336786A1 (en) * | 2014-05-20 | 2015-11-26 | General Electric Company | Refrigerators for providing dispensing in response to voice commands |
CN105224523A (zh) * | 2014-06-08 | 2016-01-06 | 上海能感物联网有限公司 | 非特定人外语语音远程自动导航并驾驶汽车的控制器装置 |
US10257629B2 (en) | 2017-04-18 | 2019-04-09 | Vivint, Inc. | Event detection by microphone |
JP6771681B2 (ja) * | 2017-10-11 | 2020-10-21 | 三菱電機株式会社 | 空調用コントローラ |
CN108509225B (zh) * | 2018-03-28 | 2021-07-16 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4181821A (en) * | 1978-10-31 | 1980-01-01 | Bell Telephone Laboratories, Incorporated | Multiple template speech recognition system |
US5040213A (en) * | 1989-01-27 | 1991-08-13 | Ricoh Company, Ltd. | Method of renewing reference pattern stored in dictionary |
US5794205A (en) * | 1995-10-19 | 1998-08-11 | Voice It Worldwide, Inc. | Voice recognition interface apparatus and method for interacting with a programmable timekeeping device |
US6073101A (en) * | 1996-02-02 | 2000-06-06 | International Business Machines Corporation | Text independent speaker recognition for transparent command ambiguity resolution and continuous access control |
US5719921A (en) * | 1996-02-29 | 1998-02-17 | Nynex Science & Technology | Methods and apparatus for activating telephone services in response to speech |
DE19636452A1 (de) * | 1996-09-07 | 1998-03-12 | Altenburger Ind Naehmasch | Mehrnutzersystem zur Spracheingabe |
US5777571A (en) * | 1996-10-02 | 1998-07-07 | Holtek Microelectronics, Inc. | Remote control device for voice recognition and user identification restrictions |
KR19990087167A (ko) * | 1996-12-24 | 1999-12-15 | 롤페스 요하네스 게라투스 알베르투스 | 음성 인식 시스템 훈련 방법 및 그 방법을실행하는 장치,특히, 휴대용 전화 장치 |
FR2761848B1 (fr) * | 1997-04-04 | 2004-09-17 | Parrot Sa | Dispositif de commande vocale pour radiotelephone, notamment pour utilisation dans un vehicule automobile |
US6289140B1 (en) * | 1998-02-19 | 2001-09-11 | Hewlett-Packard Company | Voice control input for portable capture devices |
US6018711A (en) * | 1998-04-21 | 2000-01-25 | Nortel Networks Corporation | Communication system user interface with animated representation of time remaining for input to recognizer |
DE19841166A1 (de) * | 1998-09-09 | 2000-03-16 | Deutsche Telekom Ag | Verfahren zur Kontrolle der Zugangsberechtigung für die Sprachtelefonie an einem Festnetz- oder Mobiltelefonanschluß sowie Kommunikationsnetz |
US20030093281A1 (en) * | 1999-05-21 | 2003-05-15 | Michael Geilhufe | Method and apparatus for machine to machine communication using speech |
-
2000
- 2000-03-08 DE DE10011178A patent/DE10011178A1/de not_active Withdrawn
-
2001
- 2001-03-08 WO PCT/DE2001/000891 patent/WO2001067435A1/de active Application Filing
- 2001-03-08 EP EP01921173A patent/EP1261964A1/de not_active Withdrawn
- 2001-03-08 US US10/220,906 patent/US20030040915A1/en not_active Abandoned
- 2001-03-08 CN CN01806169.9A patent/CN1217314C/zh not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102008024257A1 (de) * | 2008-05-20 | 2009-11-26 | Siemens Aktiengesellschaft | Verfahren zur Sprecheridentifikation bei einer Spracherkennung |
Also Published As
Publication number | Publication date |
---|---|
CN1416560A (zh) | 2003-05-07 |
US20030040915A1 (en) | 2003-02-27 |
CN1217314C (zh) | 2005-08-31 |
WO2001067435A9 (de) | 2002-11-28 |
EP1261964A1 (de) | 2002-12-04 |
WO2001067435A1 (de) | 2001-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69922104T2 (de) | Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz | |
DE69922872T2 (de) | Automatischer Hotelportier mit Spracherkennung | |
DE69427083T2 (de) | Spracherkennungssystem für mehrere sprachen | |
DE60125542T2 (de) | System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen | |
EP1466317B1 (de) | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner | |
EP0925578A1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE10334400A1 (de) | Verfahren zur Spracherkennung und Kommunikationsgerät | |
DE102006006069A1 (de) | Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon | |
DE10054583C2 (de) | Verfahren und Vorrichtung zum Aufzeichnen, Suchen und Wiedergeben von Notizen | |
DE102006036338A1 (de) | Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem | |
DE10011178A1 (de) | Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis | |
DE60128372T2 (de) | Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem | |
DE60214850T2 (de) | Für eine benutzergruppe spezifisches musterverarbeitungssystem | |
EP1282897B1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
US20010056345A1 (en) | Method and system for speech recognition of the alphabet | |
DE60014583T2 (de) | Verfahren und vorrichtung zur integritätsprüfung von benutzeroberflächen sprachgesteuerter geräte | |
Schramm et al. | Strategies for name recognition in automatic directory assistance systems | |
EP1125278A1 (de) | Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte | |
DE19912405A1 (de) | Bestimmung einer Regressionsklassen-Baumstruktur für Spracherkenner | |
DE10129005B4 (de) | Verfahren zur Spracherkennung und Spracherkennungssystem | |
DE10229207B3 (de) | Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik | |
EP1063633A2 (de) | Verfahren zum Training eines automatischen Spracherkenners | |
EP1457966A1 (de) | Verfahren zum Ermitteln der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung | |
EP1302928A1 (de) | Verfahren zur Spracherkennung, insbesondere von Namen, und Spracherkenner | |
DE102004011426B3 (de) | Vorrichtung zum Erkennen einer in einem Sprachsignal enthaltenen Emotion und Verfahren zum Erkennen einer in einem Sprachsignal enthaltenen Emotion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8130 | Withdrawal |