DE10015960A1 - Spracherkennungsverfahren und Spracherkennungsvorrichtung - Google Patents
Spracherkennungsverfahren und SpracherkennungsvorrichtungInfo
- Publication number
- DE10015960A1 DE10015960A1 DE10015960A DE10015960A DE10015960A1 DE 10015960 A1 DE10015960 A1 DE 10015960A1 DE 10015960 A DE10015960 A DE 10015960A DE 10015960 A DE10015960 A DE 10015960A DE 10015960 A1 DE10015960 A1 DE 10015960A1
- Authority
- DE
- Germany
- Prior art keywords
- speech recognition
- state
- rate
- voice
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 16
- 230000008859 change Effects 0.000 claims abstract description 7
- 238000001514 detection method Methods 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 210000003608 fece Anatomy 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Selective Calling Equipment (AREA)
- Input From Keyboards Or The Like (AREA)
- Navigation (AREA)
Abstract
Zur Steuerung eines beliebigen Systems mittels Spracherkennung wird vorgeschlagen, die Spracherkennung in Form einer vordefinierten Zustandsfolge (100-104) durchzuführen, wobei bei Erkennen eines entsprechenden Sprachbefehls von einem Zustand in einen anderen Zustand gewechselt wird und der Wechsel in Abhängigkeit von mindestens einem Spracherkennungsparameter erfolgt. Die Spracherkennungsparameter können beispielsweise die sogenannte "False Acceptance Rate" (FAR) und/oder "False Rejection Rate" (FRR) beeinflussen, die somit für die einzelnen Zustände (100-104) auf zustandsindividuelle Werte eingestellt werden, um eine verbesserte Erkennungsgenauigkeit zu erzielen.
Description
Die vorliegende Erfindung betrifft ein Spracherkennungsver
fahren nach dem Oberbegriff des Anspruches 1 sowie eine Spra
cherkennungsvorrichtung nach dem Oberbegriff des Anspruches
8.
Sprachgesteuerte Systeme sind heutzutage weitläufig bekannt
und bieten den Vorteil, daß die steuernde Person nicht zu ei
nem direkten Kontakt mit dem jeweils zu steuernden Gerät ge
zwungen ist.
Die eigentliche Spracherkennung erfolgt mit Hilfe entspre
chender Spracherkennungsalgorithmen, die auf ein vorgegebenes
Sprachvokabular zugreifen. Die Spracherkennungsalgorithmen
müssen derart beschaffen sein, daß der an das zu steuernde
Gerät gerichtete Sprachbefehl möglichst gut von ähnlichen Um
gebungsgeräuschen oder Lautfolgen unterschieden werden kann.
Dabei tritt das Problem auf, daß teilweise auch Lautfolgen
als ein Sprachbefehl erkannt werden, obwohl diese nicht zu
dem ursprünglich vorgesehenen Sprachvokabular gehören. Diese
irrtümliche Akzeptierung einer vermeintlichen Sprachbefehls
wird durch die sogenannten 'False Acceptance Rate' (FAR) be
schrieben, die angibt, wie viele Lautfolgen als Sprachbefehl
erkannt wurden, obwohl sie nicht zu dem vorgesehenen Vokabu
lar gehörten. Die FAR-Rate ist somit ein Maß für die Akzep
tanzempfindlichkeit bzw. Akzeptanzschwelle, anhand der ent
schieden wird, daß eine Lautfolge als Sprachbefehl akzeptiert
und anschließend entsprechend ausgewertet wird.
Ebenso werden teilweise Sprachbefehle nicht erkannt, obwohl
sie zu dem ursprünglich vorgesehenen Sprachvokabular gehören.
Diese irrtümliche Zurückweisung von korrekten Sprachbefehlen
wird durch die sogenannten 'False Rejection Rate' (FRR) beschrieben,
die angibt, wie viele Sprachbefehle nicht erkannt
wurden, obwohl sie zu dem vorgesehenen Vokabular gehörten.
Die FRR-Rate ist somit ein Maß für die Zurückweisungsempfind
lichkeit oder Zurückweisungsschwelle, bei der ein Sprachbe
fehl nicht erkannt wird.
Bei der Steuerung eines Geräts mittels Sprache ohne Verwen
dung eines zusätzlichen Signalgebers, wie beispielsweise ei
nes Tasters oder Schalters, besteht das Problem darin,
gleichzeitig eine möglichst optimale FAR-Rate und FRR-Rate zu
erzielen. Beide Fehlerraten sollten im Idealfall minimal
sein.
Algorithmusbedingt sind die beiden Fehlerraten oder Empfind
lichkeiten jedoch gegenläufig, d. h. eine ansteigende FAR-Rate
ist mit einer abfallenden FRR-Rate verbunden und umgekehrt,
so daß sich beide Fehlerraten nicht gleichzeitig optimieren
lassen. Im Extremfall wird kein Sprachbefehl erkannt (d. h.
FAR = 0%, FRR = 100%) bzw. alle Lautfolgen als Sprachbefehl
akzeptiert (FAR = 100%, FRR = 0%).
In herkömmlichen Spracherkennungssystemen wird u. a. ein Spra
cherkennungsverfahren nach dem Oberbegriff des Anspruches 1
mit Hilfe von 'Keyword Spotting' angewendet, bei dem das Er
kennen eines Schlüsselworts ('Keyword') erforderlich ist,
welches den Beginn einer Befehlssequenz markiert und zur Ak
tivierung der eigentlichen Spracherkennungsfunktion des je
weiligen sprachgesteuerten Geräts dient. Nach dem Erkennen
des Schlüsselworts wird von dem Spracherkennungsalgorithmus
dann auf die Eingabe eines Sprachbefehls gewartet, der einen
Menüpunkt auswählt oder einen entsprechenden Steuerparameter
einstellt. Durch den Sprachbefehl 'Lautstärke' kann somit
beispielsweise der Menüpunkt zur Einstellung der Lautstärke
ausgewählt werden, während durch den Sprachbefehl 'leise' der
entsprechende Lautstärkeparameter eingestellt wird. Durch die
optionale Eingabe eines geeigneten Schlußbefehls, wie bei
spielsweise 'Ende', kann die Befehlssequenz beendet werden.
Ebenso kann der Spracherkennungsalgorithmus jedoch auch das
Ende der Befehlssequenz aus dem vorgegebenen und zuvor durch
laufenen Menüschema erkennen.
Bei diesen Spracherkennungssystemen werden somit verschiedene
Zustände durchlaufen, wobei im ersten Zustand auf die Erken
nung des Schlüsselworts gewartet wird. Nach dem Erkennen des
Schlüsselworts wird in mindestens einem weiteren Zustand auf
die Erkennung eines Sprachbefehls zur Auswahl eines Me
nüpunkts bzw. zur Einstellung eines entsprechenden Parameters
gewartet. Die Erkennung der einzelnen Sprachbefehle wird da
bei in den einzelnen Zuständen mit konstanten Werten für die
FAR-Rate und die FRR-Rate durchgeführt, die derart einge
stellt sind, daß ein suboptimaler Kompromiß realisiert ist.
Bei dieser Vorgehensweise treten jedoch, da keiner der Para
meter auf einen optimalen Wert eingestellt ist, wesentliche
Fehlauslösungen auf.
Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein
Spracherkennungsverfahren und eine Spracherkennungsvorrich
tung vorzuschlagen, bei der die Spracherkennungsgenauigkeit,
d. h. die Wahrscheinlichkeit von Fehlauslösungen, verringert
ist.
Diese Aufgabe wird erfindungsgemäß durch ein Spracherken
nungsverfahren mit den Merkmalen des Anspruches 1 bzw. eine
Spracherkennungsvorrichtung mit den Merkmalen des Anspruches
8 gelöst. Die Unteransprüche definieren jeweils bevorzugte
und vorteilhafte Ausführungsformen der vorliegenden Erfin
dung.
Erfindungsgemäß erfolgt die Spracherkennung mit zustandsspe
zifisch eingestellten Spracherkennungsparametern, welche auch
als sogenannten 'Scores' bezeichnet werden. Die Spracherken
nungsparameter werden in den einzelnen Zuständen somit auf
unterschiedliche Werte eingestellt, so daß beispielsweise die
FAR-Rate und die FRR-Rate entsprechend zustandsspezifisch beeinflußt
werden. Diese Vorgehensweise besitzt den Vorteil,
daß die Spracherkennungsparameter für jeden Zustand optimal
angepaßt werden können. Mit Hilfe der vorliegenden Erfindung
kann der Tatsache Rechnung getragen werden, daß das jeweils
gewünschte Empfindlichkeitsverhalten des Spracherkenners zu
mindest in gewissen Grenzen vom jeweiligen Zustand abhängig
ist.
Insbesondere ist es vorteilhaft, wenn in demjenigen Zustand,
in dem auf die Eingabe des Schlüsselworts gewartet wird, für
die FAR-Rate ein geringerer Wert als in den anderen Zuständen
gewählt wird, so daß die der FAR-Rate entsprechende Akzep
tanzschwelle, bei der eine Lautfolge als Sprachbefehl erkannt
wird, erhöht wird, wodurch der Benutzer gezwungen wird, das
Schlüsselwort deutlich zu sprechen und gegebenenfalls zu wie
derholen. Mit der Minimierung der FAR-Rate ist in der Regel
eine Erhöhung der FRR-Rate verbunden, d. h. die Zurückwei
sungsschwelle, bei der ein Sprachbefehl nicht erkannt wird,
wird herabgesetzt.
Nach Erkennen des Schlüsselworts kann die FAR-Rate erhöht und
damit die Akzeptanzschwelle herabgesetzt werden. Gleichzeitig
wird die FRR-Rate reduziert und damit die Wahrscheinlichkeit
einer irrtümlichen Zurückweisung eines Sprachbefehls verrin
gert. Hierdurch wird die Wahrscheinlichkeit einer Fehlauslö
sung von komplexeren Sprachbefehlen gesenkt und gleichzeitig
der Bedienungskomfort gesteigert.
Durch die zuvor beschriebene zustandsabhängige Einstellung
der Spracherkennungsparameter kann die Tatsache ausgenutzt
werden, daß die Wahrscheinlichkeit für ein Steuerwort bzw.
einen Steuerbefehl nach Erkennen des Schlüsselworts bei nahe
zu 100% liegt, da bei anderen Gelegenheiten als dem Ausgangs
zustand, in dem auf die Eingabe des Schlüsselworts gewartet
wird, das Auftreten des Schlüsselworts unwahrscheinlich ist.
Ein bevorzugtes Anwendungsgebiet der vorliegenden Erfindung
ist der Bereich der Unterhaltungselektronik, wo die Sprach
steuerung zunehmend an Bedeutung gewinnen wird. Die Erfindung
eignet sich jedoch im Prinzip für beliebig ausgestaltete Sy
steme, die mittels Spracherkennung gesteuert werden sollen.
Des weiteren ist die Erfindung nicht nur auf die Einstellung
der FAR-Rate und der FRR-Rate beschränkt, sondern kann auch
auf die Einstellung anderer Spracherkennungsparameter ange
wendet werden, die für die Spracherkennungsfunktion maßgeb
lich sind.
Die Erfindung wird nachfolgend näher unter Bezugnahme auf die
Zeichnung anhand eines bevorzugten Ausführungsbeispiels be
schrieben.
Fig. 1 zeigt den Ablauf eines erfindungsgemäßen Spracherken
nungsverfahrens, und
Fig. 2 zeigt ein vereinfachtes Blockschaltbild eines erfin
dungsgemäßen Spracherkennungsvorrichtung.
In Fig. 2 ist schematisch der Aufbau einer Spracherkennungs
vorrichtung dargestellt, wie sie beispielsweise in einem
sprachgesteuerten Fernsehgerät oder dergleichen eingesetzt
werden kann.
Die Spracherkennungsvorrichtung 7 umfaßt ein Mikrofon oder
Mikrofon-Array 1, über welches externe Schallsignale erfaßt
werden. Die Schallsignale werden mit Hilfe eines (nicht ge
zeigten) Verstärkers verstärkt und mit Hilfe eines Ana
log/Digital-Wandlers 2 digitalisiert. Der digitale Datenstrom
wird anschließend einer Spracherkennungseinheit 3 zugeführt,
welche mit Hilfe eines Spracherkennungsalgorithmus versucht,
in den einzelnen Schallsignalen enthaltene Sprachbefehle ei
nes Benutzers zu erkennen. Zu diesem Zweck greift die Spra
cherkennungseinheit 3 auf einen Programmspeicher 4 zu, in dem
das jeweils auszuführende Spracherkennungsprogramm abgelegt
ist. Zudem kommuniziert die Spracherkennungseinheit 3 mit ei
nem Datenspeicher 5, der zum Zwischenspeichern von Daten,
insbesondere der von dem Analog/Digital-Wandler 2 kommenden
Daten, dient und auch alternativ mit dem Programmspeicher 4
durch einen gemeinsamen Speicher realisiert sein kann.
Der Programmspeicher 4 ist mit einer Programmierschnittstelle
verbunden, über welche das gespeicherte Spracherkennungspro
gramm verändert und insbesondere die für den jeweiligen Spra
cherkennungsalgorithmus maßgeblichen Spracherkennungsparame
ter eingestellt werden können, um insbesondere die FAR-Rate
und die FRR-Rate für jeden Zustand auf gewünschte Werte ein
zustellen.
Nach Erkennen eines Sprachbefehls, welcher zu einer gewünsch
ten Einstellung eines bestimmten Parameters der jeweiligen
sprachgesteuerten Vorrichtung führen soll, wird dieser
Sprachbefehl von der Spracherkennungseinheit 3 in ein ent
sprechendes Steuersignal für einen geeigneten Aktor 6 bzw.
ein geeignetes Stellglied der sprachgesteuerten Vorrichtung,
wie beispielsweise einen Schalter oder Regler etc., umge
setzt, um die dem erkannten Sprachbefehl entsprechende ge
wünschte Einstellung herbeizuführen.
Die von der Spracherkennungseinheit 3 durchgeführte Spracher
kennung erfolgt im wesentlichen nach dem in Fig. 1 gezeigten
Zustandsschema.
In einem Bereitschaftszustand ('Idle State') 100 wartet die
Spracherkennungseinheit 3 auf das Erscheinen eines bestimmten
Schlüsselworts. Das Erkennen des Schlüsselworts hat die
Selbstaktivierung der Spracherkennungsfunktion zur Folge. Bei
dem Schlüsselwort sollte es sich um einen Begriff handeln,
der in der normalen Sprache nicht vorkommt (beispielsweise
'Akustik-TV' zur Sprachsteuerung eines Fernsehgeräts), so daß
Fehlauslösungen durch den nicht ausgewerteten Kontext des je
weils gesprochenen Befehls unwahrscheinlich sind.
Im Bereitschaftszustand 100, in dem auf die Eingabe des
Schlüsselworts gewartet wird, ist die FAR-Rate auf einen re
lativ niedrigen Wert, insbesondere auf einen niedrigeren Wert
als in den anderen Zuständen, eingestellt, so daß die der
FAR-Rate entsprechende Akzeptanzschwelle, bei der eine Laut
folge als Sprachbefehl erkannt wird, erhöht wird, wodurch der
Benutzer gezwungen wird, das Schlüsselwort deutlich zu spre
chen und gegebenenfalls zu wiederholen. Mit der Minimierung
der FAR-Rate ist in der Regel eine Erhöhung der FRR-Rate ver
bunden.
Nach Erkennen des Schlüsselworts wird in einen Zustand 101
gewechselt, in dem die Spracherkennungseinheit 3 auf das Auf
treten eines Sprachbefehls wartet, durch den ein Menüpunkt
ausgewählt oder ein gewünschter Parameter, beispielsweise die
Lautstärke, des sprachgesteuerten Geräts auf einen gewünsch
ten Wert eingestellt wird.
Im folgenden wird davon ausgegangen, daß bis zur Einstellung
eines Steuerparameters insgesamt N Sprachbefehle oder Me
nüwörter eingegeben werden müssen.
Nach Erkennen des ersten Menüworts wird somit in einen Zu
stand 102 gewechselt. Nach dem Erkennen des N-ten Menüworts,
durch welches der gewünschte Parameter auf einen gewünschten
Wert eingestellt wird, befindet sich die Spracherkennungsein
heit 3 in einem Zustand 103. Diesen Zustand 103 erreicht die
Spracherkennungseinheit 3 nur, wenn sowohl das Schlüsselwort
als auch sämtliche N Menüwörter erkannt wurden.
In diesem Zustand 103 kann die Spracherkennungseinheit 3 in
Kenntnis der sinnvollen Befehlssequenzlänge N das Ende dieser
Befehlsfolge erkennen und automatisch wieder in den Bereit
schaftszustand 100 wechseln.
Alternativ kann die Spracherkennungseinheit 3 im Zustand 103
auch auf das Auftreten eines geeigneten Schlußbefehls warten,
durch welchen der Benutzer das Ende der Befehlssequenz mit
teilt. Das Erkennen dieses Schlußbefehls hat einen Wechsel in
einen Endzustand 104 zur Folge, wobei anschließend die Spra
cherkennungseinheit 3 wieder in den Bereitschaftszustand 100
zurückkehrt.
Nach Erkennen des Schlüsselworts im Zustand 100 kann die FAR-
Rate erhöht und damit die Akzeptanzschwelle herabgesetzt wer
den. Gleichzeitig wird die FRR-Rate reduziert und damit die
Wahrscheinlichkeit einer irrtümlichen Zurückweisung eines
Sprachbefehls verringert. Diese Einstellung kann für die dem
Bereitschaftszustand 100 nachfolgenden Zustände 101-104 bei
behalten werden. Hierdurch wird die Wahrscheinlichkeit einer
Fehlauslösung von komplexeren Sprachbefehlen gesenkt und
gleichzeitig der Bedienungskomfort gesteigert.
Claims (10)
1. Spracherkennungsverfahren,
wobei ein Sprachbefehl erkannt und eine zu steuernde Vorrich tung entsprechend gesteuert wird,
wobei das Spracherkennungsverfahren in Form einer vordefi nierten Zustandsfolge (100-104) erfolgt, wobei bei Erkennen eines entsprechenden Sprachbefehls von einen Zustand in einen anderen Zustand gewechselt wird und in jedem Zustand die Spracherkennung gemäß mindestens einem Spracherkennungspara meter durchgeführt wird,
dadurch gekennzeichnet,
daß der mindestens eine Spracherkennungsparameter für die einzelnen Zustände (100-104) individuell eingestellt wird.
wobei ein Sprachbefehl erkannt und eine zu steuernde Vorrich tung entsprechend gesteuert wird,
wobei das Spracherkennungsverfahren in Form einer vordefi nierten Zustandsfolge (100-104) erfolgt, wobei bei Erkennen eines entsprechenden Sprachbefehls von einen Zustand in einen anderen Zustand gewechselt wird und in jedem Zustand die Spracherkennung gemäß mindestens einem Spracherkennungspara meter durchgeführt wird,
dadurch gekennzeichnet,
daß der mindestens eine Spracherkennungsparameter für die einzelnen Zustände (100-104) individuell eingestellt wird.
2. Spracherkennungsverfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß der mindestens eine Spracherkennungsparameter zur ent sprechenden zustandsindividuellen Einstellung einer ersten Spracherkennungsrate (FAR) für die einzelnen Zustände (100- 104) individuell eingestellt wird,
wobei die erste Spracherkennungsrate (FAR) ein Maß dafür ist, wie viele Sprachbefehle als solche erkannt werden, obwohl sie nicht zu einem dem Spracherkennungsverfahren zugrundeliegen den Spracherkennungsvokabular gehören.
daß der mindestens eine Spracherkennungsparameter zur ent sprechenden zustandsindividuellen Einstellung einer ersten Spracherkennungsrate (FAR) für die einzelnen Zustände (100- 104) individuell eingestellt wird,
wobei die erste Spracherkennungsrate (FAR) ein Maß dafür ist, wie viele Sprachbefehle als solche erkannt werden, obwohl sie nicht zu einem dem Spracherkennungsverfahren zugrundeliegen den Spracherkennungsvokabular gehören.
3. Spracherkennungsverfahren nach Anspruch 1 oder 2,
dadurch gekennzeichnet,
daß der mindestens eine Spracherkennungsparameter zur ent sprechenden zustandsindividuellen Einstellung einer zweiten Spracherkennungsrate (FRR) für die einzelnen Zustände (100- 104) individuell eingestellt wird,
wobei die zweite Spracherkennungsrate (FRR) ein Maß dafür ist, wie viele Sprachbefehle nicht erkannt werden, obwohl sie zu einem dem Spracherkennungsverfahren zugrundeliegenden Spracherkennungsvokabular gehören.
daß der mindestens eine Spracherkennungsparameter zur ent sprechenden zustandsindividuellen Einstellung einer zweiten Spracherkennungsrate (FRR) für die einzelnen Zustände (100- 104) individuell eingestellt wird,
wobei die zweite Spracherkennungsrate (FRR) ein Maß dafür ist, wie viele Sprachbefehle nicht erkannt werden, obwohl sie zu einem dem Spracherkennungsverfahren zugrundeliegenden Spracherkennungsvokabular gehören.
4. Spracherkennungsverfahren nach einem der vorhergehenden
Ansprüche,
dadurch gekennzeichnet,
daß in einem ersten Zustand (100) auf ein gesprochenes Schlüsselwort zur Aktivierung der Spracherkennung gewartet wird, und
daß nach Erkennen des gesprochenes Schlüsselworts von dem er sten Zustand (100) in mindestens einen zweiten Zustand (101- 103) gewechselt wird, in dem auf einen Sprachbefehl zur Aus wahl und/oder Einstellung eines Parameters der zu steuernden Vorrichtung gewartet wird.
daß in einem ersten Zustand (100) auf ein gesprochenes Schlüsselwort zur Aktivierung der Spracherkennung gewartet wird, und
daß nach Erkennen des gesprochenes Schlüsselworts von dem er sten Zustand (100) in mindestens einen zweiten Zustand (101- 103) gewechselt wird, in dem auf einen Sprachbefehl zur Aus wahl und/oder Einstellung eines Parameters der zu steuernden Vorrichtung gewartet wird.
5. Spracherkennungsverfahren nach Anspruch 4 und Anspruch 2,
dadurch gekennzeichnet,
daß die erste Spracherkennungsrate (FAR) in dem ersten Zu stand (100) auf einen ersten Wert und in dem zweiten Zustand (101-103) auf einen zweiten Wert eingestellt wird,
wobei der erste und zweite Wert für die erste Spracherken nungsrate (FAR) derart gewählt werden, daß die Rate der Sprachbefehle, die in dem jeweiligen Zustand als solche er kannt werden, obwohl sie nicht zu dem Spracherkennungsvokabu lar gehören, in dem ersten Zustand (100) kleiner als in dem zweiten Zustand (101-103) ist.
daß die erste Spracherkennungsrate (FAR) in dem ersten Zu stand (100) auf einen ersten Wert und in dem zweiten Zustand (101-103) auf einen zweiten Wert eingestellt wird,
wobei der erste und zweite Wert für die erste Spracherken nungsrate (FAR) derart gewählt werden, daß die Rate der Sprachbefehle, die in dem jeweiligen Zustand als solche er kannt werden, obwohl sie nicht zu dem Spracherkennungsvokabu lar gehören, in dem ersten Zustand (100) kleiner als in dem zweiten Zustand (101-103) ist.
6. Spracherkennungsverfahren nach Anspruch 4 und Anspruch 3,
dadurch gekennzeichnet,
daß die zweite Spracherkennungsrate (FRR) in dem ersten Zu stand (100) auf einen ersten Wert und in dem zweiten Zustand (101-103) auf einen zweiten Wert eingestellt wird,
wobei der erste und zweite Wert für die zweite Spracherken nungsrate (FRR) derart gewählt werden, daß die Rate der Sprachbefehle, die in dem jeweiligen Zustand nicht erkannt werden, obwohl sie zu dem Spracherkennungsvokabular gehören, in dem ersten Zustand (100) größer als in dem zweiten Zustand (101-103) ist.
daß die zweite Spracherkennungsrate (FRR) in dem ersten Zu stand (100) auf einen ersten Wert und in dem zweiten Zustand (101-103) auf einen zweiten Wert eingestellt wird,
wobei der erste und zweite Wert für die zweite Spracherken nungsrate (FRR) derart gewählt werden, daß die Rate der Sprachbefehle, die in dem jeweiligen Zustand nicht erkannt werden, obwohl sie zu dem Spracherkennungsvokabular gehören, in dem ersten Zustand (100) größer als in dem zweiten Zustand (101-103) ist.
7. Spracherkennungsverfahren nach einem der Ansprüche 4-6,
dadurch gekennzeichnet,
daß bei Erkennen eines gesprochenen Schlußbefehls, welcher
das Ende der Sprachsteuerung für die zu steuernde Vorrichtung
bezeichnet, oder bei Erkennen einer vorgegebenen Folge von
Sprachbefehlen von dem zweiten Zustand (101-103) wieder in
den ersten Zustand (100) gewechselt wird.
8. Spracherkennungsvorrichtung,
mit Schallerfassungsmitteln (1) zum Erfassen eines Schallsi gnals, und
mit Spracherkennungsmitteln (3) zum Erkennen eines in einem erfaßten Schallsignal enthaltenen Sprachbefehls und zum Um setzen des erkannten Sprachbefehls in ein entsprechendes Steuersignal für eine zu steuernde Vorrichtung,
wobei die Spracherkennungsmittel (3) derart ausgestaltet sind, daß sie die Spracherkennung in Form einer vordefinier ten Zustandsfolge (100-104) durchführen und bei Erkennen ei nes entsprechenden Sprachbefehls von einen Zustand in einen anderen Zustand wechseln, wobei sie Spracherkennungsmittel (3) die Spracherkennung in jedem Zustand gemäß mindestens ei nem Spracherkennungsparameter durchführen,
dadurch gekennzeichnet,
daß der mindestens eine Spracherkennungsparameter für die einzelnen Zustände (100-104) auf unterschiedliche Werte ein gestellt ist.
mit Schallerfassungsmitteln (1) zum Erfassen eines Schallsi gnals, und
mit Spracherkennungsmitteln (3) zum Erkennen eines in einem erfaßten Schallsignal enthaltenen Sprachbefehls und zum Um setzen des erkannten Sprachbefehls in ein entsprechendes Steuersignal für eine zu steuernde Vorrichtung,
wobei die Spracherkennungsmittel (3) derart ausgestaltet sind, daß sie die Spracherkennung in Form einer vordefinier ten Zustandsfolge (100-104) durchführen und bei Erkennen ei nes entsprechenden Sprachbefehls von einen Zustand in einen anderen Zustand wechseln, wobei sie Spracherkennungsmittel (3) die Spracherkennung in jedem Zustand gemäß mindestens ei nem Spracherkennungsparameter durchführen,
dadurch gekennzeichnet,
daß der mindestens eine Spracherkennungsparameter für die einzelnen Zustände (100-104) auf unterschiedliche Werte ein gestellt ist.
9. Spracherkennungsvorrichtung nach Anspruch 8,
dadurch gekennzeichnet,
daß Programmiermittel (4) zum Programmieren des mindestens
einen Spracherkennungsparameters auf die den einzelnen Zu
ständen (100-104) entsprechenden Werte vorgesehen sind.
10. Spracherkennungsvorrichtung nach Anspruch 8 oder 9,
dadurch gekennzeichnet,
daß die Spracherkennungsvorrichtung (7) bzw. die Spracherken
nungsmittel (3) der Spracherkennungsvorrichtung (7) zur
Durchführung des Verfahrens nach einem der Ansprüche 1-7 aus
gestaltet sind.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10015960A DE10015960C2 (de) | 2000-03-30 | 2000-03-30 | Spracherkennungsverfahren und Spracherkennungsvorrichtung |
EP01106000A EP1139333A3 (de) | 2000-03-30 | 2001-03-10 | Spracherkennungsverfahren und Spracherkennungsvorrichtung |
US09/822,778 US6826533B2 (en) | 2000-03-30 | 2001-03-30 | Speech recognition apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10015960A DE10015960C2 (de) | 2000-03-30 | 2000-03-30 | Spracherkennungsverfahren und Spracherkennungsvorrichtung |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10015960A1 true DE10015960A1 (de) | 2001-10-11 |
DE10015960C2 DE10015960C2 (de) | 2003-01-16 |
Family
ID=7637061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10015960A Expired - Fee Related DE10015960C2 (de) | 2000-03-30 | 2000-03-30 | Spracherkennungsverfahren und Spracherkennungsvorrichtung |
Country Status (3)
Country | Link |
---|---|
US (1) | US6826533B2 (de) |
EP (1) | EP1139333A3 (de) |
DE (1) | DE10015960C2 (de) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7162424B2 (en) | 2001-04-26 | 2007-01-09 | Siemens Aktiengesellschaft | Method and system for defining a sequence of sound modules for synthesis of a speech signal in a tonal language |
DE102014012158A1 (de) | 2013-09-12 | 2015-03-12 | Mechaless Systems Gmbh | Gestenerkennungsverfahren und Gestenerkennungsvorrichtung |
DE102016114280A1 (de) * | 2016-08-02 | 2018-02-08 | Endress+Hauser Conducta Gmbh+Co. Kg | Feldgerät der Prozessautomatisierungstechnik |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4068334B2 (ja) * | 2001-11-26 | 2008-03-26 | 日本電気株式会社 | 指紋認証方法、指紋認証システム、及び、バイオメトリクス認証システム |
JP4363076B2 (ja) * | 2002-06-28 | 2009-11-11 | 株式会社デンソー | 音声制御装置 |
US8230476B2 (en) * | 2002-09-17 | 2012-07-24 | Intel Corporation | Real-time interactive personal video recorder interface |
US20060123220A1 (en) * | 2004-12-02 | 2006-06-08 | International Business Machines Corporation | Speech recognition in BIOS |
US8396715B2 (en) * | 2005-06-28 | 2013-03-12 | Microsoft Corporation | Confidence threshold tuning |
US8731146B2 (en) * | 2007-01-04 | 2014-05-20 | At&T Intellectual Property I, L.P. | Call re-directed based on voice command |
EP2217132B1 (de) * | 2007-11-02 | 2013-05-15 | The Trustees of Columbia University in the City of New York | Einführbares chirurgisches bildgebungsgerät |
US20110276326A1 (en) * | 2010-05-06 | 2011-11-10 | Motorola, Inc. | Method and system for operational improvements in dispatch console systems in a multi-source environment |
US8738377B2 (en) | 2010-06-07 | 2014-05-27 | Google Inc. | Predicting and learning carrier phrases for speech input |
US9060224B1 (en) * | 2012-06-01 | 2015-06-16 | Rawles Llc | Voice controlled assistant with coaxial speaker and microphone arrangement |
US9110889B2 (en) | 2013-04-23 | 2015-08-18 | Facebook, Inc. | Methods and systems for generation of flexible sentences in a social networking system |
US9626963B2 (en) * | 2013-04-30 | 2017-04-18 | Paypal, Inc. | System and method of improving speech recognition using context |
US9606987B2 (en) | 2013-05-06 | 2017-03-28 | Facebook, Inc. | Methods and systems for generation of a translatable sentence syntax in a social networking system |
US9589564B2 (en) | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US9257120B1 (en) | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US9812128B2 (en) | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
US9318107B1 (en) * | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
CN104616653B (zh) * | 2015-01-23 | 2018-02-23 | 北京云知声信息技术有限公司 | 唤醒词匹配方法、装置以及语音唤醒方法、装置 |
US9779735B2 (en) | 2016-02-24 | 2017-10-03 | Google Inc. | Methods and systems for detecting and processing speech signals |
US11176930B1 (en) * | 2016-03-28 | 2021-11-16 | Amazon Technologies, Inc. | Storing audio commands for time-delayed execution |
FR3054362B1 (fr) * | 2016-07-22 | 2022-02-04 | Dolphin Integration Sa | Circuit et procede de reconnaissance de parole |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
WO2018085192A1 (en) | 2016-11-07 | 2018-05-11 | Google Llc | Recorded media hotword trigger suppression |
US10559309B2 (en) | 2016-12-22 | 2020-02-11 | Google Llc | Collaborative voice controlled devices |
US11348595B2 (en) | 2017-01-04 | 2022-05-31 | Blackberry Limited | Voice interface and vocal entertainment system |
CN117577099A (zh) | 2017-04-20 | 2024-02-20 | 谷歌有限责任公司 | 设备上的多用户认证的方法、系统和介质 |
US10395650B2 (en) | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
US10692496B2 (en) | 2018-05-22 | 2020-06-23 | Google Llc | Hotword suppression |
US11211061B2 (en) * | 2019-01-07 | 2021-12-28 | 2236008 Ontario Inc. | Voice control in a multi-talker and multimedia environment |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4029716C2 (de) * | 1989-12-29 | 1998-02-19 | Pioneer Electronic Corp | Sprachgesteuertes Fernbedienungssystem |
DE19709518C1 (de) * | 1997-03-10 | 1998-03-05 | Daimler Benz Aerospace Ag | Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4866778A (en) | 1986-08-11 | 1989-09-12 | Dragon Systems, Inc. | Interactive speech recognition apparatus |
US5191532A (en) | 1987-12-05 | 1993-03-02 | Aisin Aw Co., Ltd. | Navigation apparatus |
EP0810502A1 (de) * | 1996-05-30 | 1997-12-03 | DIEHL GMBH & CO. | Steuereinheit für eine Heizungsanlage |
US5842161A (en) * | 1996-06-25 | 1998-11-24 | Lucent Technologies Inc. | Telecommunications instrument employing variable criteria speech recognition |
DE59803137D1 (de) * | 1997-06-06 | 2002-03-28 | Bsh Bosch Siemens Hausgeraete | Haushaltsgerät, insbesondere elektrisch betriebenes haushaltsgerät |
US6151571A (en) * | 1999-08-31 | 2000-11-21 | Andersen Consulting | System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters |
US6594630B1 (en) * | 1999-11-19 | 2003-07-15 | Voice Signal Technologies, Inc. | Voice-activated control for electrical device |
-
2000
- 2000-03-30 DE DE10015960A patent/DE10015960C2/de not_active Expired - Fee Related
-
2001
- 2001-03-10 EP EP01106000A patent/EP1139333A3/de not_active Withdrawn
- 2001-03-30 US US09/822,778 patent/US6826533B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4029716C2 (de) * | 1989-12-29 | 1998-02-19 | Pioneer Electronic Corp | Sprachgesteuertes Fernbedienungssystem |
DE19709518C1 (de) * | 1997-03-10 | 1998-03-05 | Daimler Benz Aerospace Ag | Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7162424B2 (en) | 2001-04-26 | 2007-01-09 | Siemens Aktiengesellschaft | Method and system for defining a sequence of sound modules for synthesis of a speech signal in a tonal language |
DE102014012158A1 (de) | 2013-09-12 | 2015-03-12 | Mechaless Systems Gmbh | Gestenerkennungsverfahren und Gestenerkennungsvorrichtung |
DE202014010352U1 (de) | 2013-09-12 | 2015-06-17 | Mechaless Systems Gmbh | Gestenerkennungsvorrichtung |
DE102016114280A1 (de) * | 2016-08-02 | 2018-02-08 | Endress+Hauser Conducta Gmbh+Co. Kg | Feldgerät der Prozessautomatisierungstechnik |
Also Published As
Publication number | Publication date |
---|---|
DE10015960C2 (de) | 2003-01-16 |
US20020049596A1 (en) | 2002-04-25 |
US6826533B2 (en) | 2004-11-30 |
EP1139333A3 (de) | 2001-12-05 |
EP1139333A2 (de) | 2001-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10015960A1 (de) | Spracherkennungsverfahren und Spracherkennungsvorrichtung | |
DE112010005959B4 (de) | Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme | |
DE69229816T2 (de) | Einrichtung und Verfahren für Sprachmusteridentifizierung | |
DE69818930T2 (de) | Verfahren zur Ausrichtung von Text an Audiosignalen | |
DE3216800A1 (de) | Anordnung zur eingabe von befehlsworten durch sprache | |
DE69829187T2 (de) | Halbüberwachte Sprecheradaptation | |
EP1256936B1 (de) | Verfahren zum Training oder zur Adaption eines Spracherkenners | |
DE69923379T2 (de) | Nicht-interaktive Registrierung zur Spracherkennung | |
DE60033106T2 (de) | Korrektur der Betriebsartfehler, Steuerung oder Diktieren, in die Spracherkennung | |
DE60207742T2 (de) | Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes | |
DE69919842T2 (de) | Sprachmodell basierend auf der spracherkennungshistorie | |
DE2953262C2 (de) | ||
EP1927980B1 (de) | Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen | |
DE69938374T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle | |
DE60212725T2 (de) | Verfahren zur automatischen spracherkennung | |
DE3739681A1 (de) | Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens | |
DE3149134A1 (de) | Verfahren und vorrichtung zur bstimmung von sprachendpunkten | |
DE68914032T2 (de) | Spracherkennungssystem. | |
DE10216117A1 (de) | Verfahren und System zur Spracherkennung von Symbolfolgen | |
DE102005030967B4 (de) | Verfahren und Vorrichtung zur Interaktion mit einem Spracherkennungssystem zur Auswahl von Elementen aus Listen | |
DE102005030965B4 (de) | Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments | |
EP2034472B1 (de) | Spracherkennungsverfahren und Spracherkennungsvorrichtung | |
DE4022511A1 (de) | Sprachgesteuertes geraet der unterhaltungselektronik insbesondere videorecorder | |
EP1063633B1 (de) | Verfahren zum Training eines automatischen Spracherkenners | |
DE10163214A1 (de) | Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: MICRONAS GMBH, 79108 FREIBURG, DE |
|
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |
Effective date: 20111001 |