DE10015960A1 - Spracherkennungsverfahren und Spracherkennungsvorrichtung - Google Patents

Spracherkennungsverfahren und Spracherkennungsvorrichtung

Info

Publication number
DE10015960A1
DE10015960A1 DE10015960A DE10015960A DE10015960A1 DE 10015960 A1 DE10015960 A1 DE 10015960A1 DE 10015960 A DE10015960 A DE 10015960A DE 10015960 A DE10015960 A DE 10015960A DE 10015960 A1 DE10015960 A1 DE 10015960A1
Authority
DE
Germany
Prior art keywords
speech recognition
state
rate
voice
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE10015960A
Other languages
English (en)
Other versions
DE10015960C2 (de
Inventor
Bernd Burchard
Tobias Schneider
Thomas Volk
Jean-Philippe Fournier
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TDK Micronas GmbH
Original Assignee
TDK Micronas GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TDK Micronas GmbH filed Critical TDK Micronas GmbH
Priority to DE10015960A priority Critical patent/DE10015960C2/de
Priority to EP01106000A priority patent/EP1139333A3/de
Priority to US09/822,778 priority patent/US6826533B2/en
Publication of DE10015960A1 publication Critical patent/DE10015960A1/de
Application granted granted Critical
Publication of DE10015960C2 publication Critical patent/DE10015960C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Selective Calling Equipment (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Navigation (AREA)

Abstract

Zur Steuerung eines beliebigen Systems mittels Spracherkennung wird vorgeschlagen, die Spracherkennung in Form einer vordefinierten Zustandsfolge (100-104) durchzuführen, wobei bei Erkennen eines entsprechenden Sprachbefehls von einem Zustand in einen anderen Zustand gewechselt wird und der Wechsel in Abhängigkeit von mindestens einem Spracherkennungsparameter erfolgt. Die Spracherkennungsparameter können beispielsweise die sogenannte "False Acceptance Rate" (FAR) und/oder "False Rejection Rate" (FRR) beeinflussen, die somit für die einzelnen Zustände (100-104) auf zustandsindividuelle Werte eingestellt werden, um eine verbesserte Erkennungsgenauigkeit zu erzielen.

Description

Die vorliegende Erfindung betrifft ein Spracherkennungsver­ fahren nach dem Oberbegriff des Anspruches 1 sowie eine Spra­ cherkennungsvorrichtung nach dem Oberbegriff des Anspruches 8.
Sprachgesteuerte Systeme sind heutzutage weitläufig bekannt und bieten den Vorteil, daß die steuernde Person nicht zu ei­ nem direkten Kontakt mit dem jeweils zu steuernden Gerät ge­ zwungen ist.
Die eigentliche Spracherkennung erfolgt mit Hilfe entspre­ chender Spracherkennungsalgorithmen, die auf ein vorgegebenes Sprachvokabular zugreifen. Die Spracherkennungsalgorithmen müssen derart beschaffen sein, daß der an das zu steuernde Gerät gerichtete Sprachbefehl möglichst gut von ähnlichen Um­ gebungsgeräuschen oder Lautfolgen unterschieden werden kann.
Dabei tritt das Problem auf, daß teilweise auch Lautfolgen als ein Sprachbefehl erkannt werden, obwohl diese nicht zu dem ursprünglich vorgesehenen Sprachvokabular gehören. Diese irrtümliche Akzeptierung einer vermeintlichen Sprachbefehls wird durch die sogenannten 'False Acceptance Rate' (FAR) be­ schrieben, die angibt, wie viele Lautfolgen als Sprachbefehl erkannt wurden, obwohl sie nicht zu dem vorgesehenen Vokabu­ lar gehörten. Die FAR-Rate ist somit ein Maß für die Akzep­ tanzempfindlichkeit bzw. Akzeptanzschwelle, anhand der ent­ schieden wird, daß eine Lautfolge als Sprachbefehl akzeptiert und anschließend entsprechend ausgewertet wird.
Ebenso werden teilweise Sprachbefehle nicht erkannt, obwohl sie zu dem ursprünglich vorgesehenen Sprachvokabular gehören. Diese irrtümliche Zurückweisung von korrekten Sprachbefehlen wird durch die sogenannten 'False Rejection Rate' (FRR) beschrieben, die angibt, wie viele Sprachbefehle nicht erkannt wurden, obwohl sie zu dem vorgesehenen Vokabular gehörten. Die FRR-Rate ist somit ein Maß für die Zurückweisungsempfind­ lichkeit oder Zurückweisungsschwelle, bei der ein Sprachbe­ fehl nicht erkannt wird.
Bei der Steuerung eines Geräts mittels Sprache ohne Verwen­ dung eines zusätzlichen Signalgebers, wie beispielsweise ei­ nes Tasters oder Schalters, besteht das Problem darin, gleichzeitig eine möglichst optimale FAR-Rate und FRR-Rate zu erzielen. Beide Fehlerraten sollten im Idealfall minimal sein.
Algorithmusbedingt sind die beiden Fehlerraten oder Empfind­ lichkeiten jedoch gegenläufig, d. h. eine ansteigende FAR-Rate ist mit einer abfallenden FRR-Rate verbunden und umgekehrt, so daß sich beide Fehlerraten nicht gleichzeitig optimieren lassen. Im Extremfall wird kein Sprachbefehl erkannt (d. h. FAR = 0%, FRR = 100%) bzw. alle Lautfolgen als Sprachbefehl akzeptiert (FAR = 100%, FRR = 0%).
In herkömmlichen Spracherkennungssystemen wird u. a. ein Spra­ cherkennungsverfahren nach dem Oberbegriff des Anspruches 1 mit Hilfe von 'Keyword Spotting' angewendet, bei dem das Er­ kennen eines Schlüsselworts ('Keyword') erforderlich ist, welches den Beginn einer Befehlssequenz markiert und zur Ak­ tivierung der eigentlichen Spracherkennungsfunktion des je­ weiligen sprachgesteuerten Geräts dient. Nach dem Erkennen des Schlüsselworts wird von dem Spracherkennungsalgorithmus dann auf die Eingabe eines Sprachbefehls gewartet, der einen Menüpunkt auswählt oder einen entsprechenden Steuerparameter einstellt. Durch den Sprachbefehl 'Lautstärke' kann somit beispielsweise der Menüpunkt zur Einstellung der Lautstärke ausgewählt werden, während durch den Sprachbefehl 'leise' der entsprechende Lautstärkeparameter eingestellt wird. Durch die optionale Eingabe eines geeigneten Schlußbefehls, wie bei­ spielsweise 'Ende', kann die Befehlssequenz beendet werden.
Ebenso kann der Spracherkennungsalgorithmus jedoch auch das Ende der Befehlssequenz aus dem vorgegebenen und zuvor durch­ laufenen Menüschema erkennen.
Bei diesen Spracherkennungssystemen werden somit verschiedene Zustände durchlaufen, wobei im ersten Zustand auf die Erken­ nung des Schlüsselworts gewartet wird. Nach dem Erkennen des Schlüsselworts wird in mindestens einem weiteren Zustand auf die Erkennung eines Sprachbefehls zur Auswahl eines Me­ nüpunkts bzw. zur Einstellung eines entsprechenden Parameters gewartet. Die Erkennung der einzelnen Sprachbefehle wird da­ bei in den einzelnen Zuständen mit konstanten Werten für die FAR-Rate und die FRR-Rate durchgeführt, die derart einge­ stellt sind, daß ein suboptimaler Kompromiß realisiert ist. Bei dieser Vorgehensweise treten jedoch, da keiner der Para­ meter auf einen optimalen Wert eingestellt ist, wesentliche Fehlauslösungen auf.
Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Spracherkennungsverfahren und eine Spracherkennungsvorrich­ tung vorzuschlagen, bei der die Spracherkennungsgenauigkeit, d. h. die Wahrscheinlichkeit von Fehlauslösungen, verringert ist.
Diese Aufgabe wird erfindungsgemäß durch ein Spracherken­ nungsverfahren mit den Merkmalen des Anspruches 1 bzw. eine Spracherkennungsvorrichtung mit den Merkmalen des Anspruches 8 gelöst. Die Unteransprüche definieren jeweils bevorzugte und vorteilhafte Ausführungsformen der vorliegenden Erfin­ dung.
Erfindungsgemäß erfolgt die Spracherkennung mit zustandsspe­ zifisch eingestellten Spracherkennungsparametern, welche auch als sogenannten 'Scores' bezeichnet werden. Die Spracherken­ nungsparameter werden in den einzelnen Zuständen somit auf unterschiedliche Werte eingestellt, so daß beispielsweise die FAR-Rate und die FRR-Rate entsprechend zustandsspezifisch beeinflußt werden. Diese Vorgehensweise besitzt den Vorteil, daß die Spracherkennungsparameter für jeden Zustand optimal angepaßt werden können. Mit Hilfe der vorliegenden Erfindung kann der Tatsache Rechnung getragen werden, daß das jeweils gewünschte Empfindlichkeitsverhalten des Spracherkenners zu­ mindest in gewissen Grenzen vom jeweiligen Zustand abhängig ist.
Insbesondere ist es vorteilhaft, wenn in demjenigen Zustand, in dem auf die Eingabe des Schlüsselworts gewartet wird, für die FAR-Rate ein geringerer Wert als in den anderen Zuständen gewählt wird, so daß die der FAR-Rate entsprechende Akzep­ tanzschwelle, bei der eine Lautfolge als Sprachbefehl erkannt wird, erhöht wird, wodurch der Benutzer gezwungen wird, das Schlüsselwort deutlich zu sprechen und gegebenenfalls zu wie­ derholen. Mit der Minimierung der FAR-Rate ist in der Regel eine Erhöhung der FRR-Rate verbunden, d. h. die Zurückwei­ sungsschwelle, bei der ein Sprachbefehl nicht erkannt wird, wird herabgesetzt.
Nach Erkennen des Schlüsselworts kann die FAR-Rate erhöht und damit die Akzeptanzschwelle herabgesetzt werden. Gleichzeitig wird die FRR-Rate reduziert und damit die Wahrscheinlichkeit einer irrtümlichen Zurückweisung eines Sprachbefehls verrin­ gert. Hierdurch wird die Wahrscheinlichkeit einer Fehlauslö­ sung von komplexeren Sprachbefehlen gesenkt und gleichzeitig der Bedienungskomfort gesteigert.
Durch die zuvor beschriebene zustandsabhängige Einstellung der Spracherkennungsparameter kann die Tatsache ausgenutzt werden, daß die Wahrscheinlichkeit für ein Steuerwort bzw. einen Steuerbefehl nach Erkennen des Schlüsselworts bei nahe­ zu 100% liegt, da bei anderen Gelegenheiten als dem Ausgangs­ zustand, in dem auf die Eingabe des Schlüsselworts gewartet wird, das Auftreten des Schlüsselworts unwahrscheinlich ist.
Ein bevorzugtes Anwendungsgebiet der vorliegenden Erfindung ist der Bereich der Unterhaltungselektronik, wo die Sprach­ steuerung zunehmend an Bedeutung gewinnen wird. Die Erfindung eignet sich jedoch im Prinzip für beliebig ausgestaltete Sy­ steme, die mittels Spracherkennung gesteuert werden sollen. Des weiteren ist die Erfindung nicht nur auf die Einstellung der FAR-Rate und der FRR-Rate beschränkt, sondern kann auch auf die Einstellung anderer Spracherkennungsparameter ange­ wendet werden, die für die Spracherkennungsfunktion maßgeb­ lich sind.
Die Erfindung wird nachfolgend näher unter Bezugnahme auf die Zeichnung anhand eines bevorzugten Ausführungsbeispiels be­ schrieben.
Fig. 1 zeigt den Ablauf eines erfindungsgemäßen Spracherken­ nungsverfahrens, und
Fig. 2 zeigt ein vereinfachtes Blockschaltbild eines erfin­ dungsgemäßen Spracherkennungsvorrichtung.
In Fig. 2 ist schematisch der Aufbau einer Spracherkennungs­ vorrichtung dargestellt, wie sie beispielsweise in einem sprachgesteuerten Fernsehgerät oder dergleichen eingesetzt werden kann.
Die Spracherkennungsvorrichtung 7 umfaßt ein Mikrofon oder Mikrofon-Array 1, über welches externe Schallsignale erfaßt werden. Die Schallsignale werden mit Hilfe eines (nicht ge­ zeigten) Verstärkers verstärkt und mit Hilfe eines Ana­ log/Digital-Wandlers 2 digitalisiert. Der digitale Datenstrom wird anschließend einer Spracherkennungseinheit 3 zugeführt, welche mit Hilfe eines Spracherkennungsalgorithmus versucht, in den einzelnen Schallsignalen enthaltene Sprachbefehle ei­ nes Benutzers zu erkennen. Zu diesem Zweck greift die Spra­ cherkennungseinheit 3 auf einen Programmspeicher 4 zu, in dem das jeweils auszuführende Spracherkennungsprogramm abgelegt ist. Zudem kommuniziert die Spracherkennungseinheit 3 mit ei­ nem Datenspeicher 5, der zum Zwischenspeichern von Daten, insbesondere der von dem Analog/Digital-Wandler 2 kommenden Daten, dient und auch alternativ mit dem Programmspeicher 4 durch einen gemeinsamen Speicher realisiert sein kann.
Der Programmspeicher 4 ist mit einer Programmierschnittstelle verbunden, über welche das gespeicherte Spracherkennungspro­ gramm verändert und insbesondere die für den jeweiligen Spra­ cherkennungsalgorithmus maßgeblichen Spracherkennungsparame­ ter eingestellt werden können, um insbesondere die FAR-Rate und die FRR-Rate für jeden Zustand auf gewünschte Werte ein­ zustellen.
Nach Erkennen eines Sprachbefehls, welcher zu einer gewünsch­ ten Einstellung eines bestimmten Parameters der jeweiligen sprachgesteuerten Vorrichtung führen soll, wird dieser Sprachbefehl von der Spracherkennungseinheit 3 in ein ent­ sprechendes Steuersignal für einen geeigneten Aktor 6 bzw. ein geeignetes Stellglied der sprachgesteuerten Vorrichtung, wie beispielsweise einen Schalter oder Regler etc., umge­ setzt, um die dem erkannten Sprachbefehl entsprechende ge­ wünschte Einstellung herbeizuführen.
Die von der Spracherkennungseinheit 3 durchgeführte Spracher­ kennung erfolgt im wesentlichen nach dem in Fig. 1 gezeigten Zustandsschema.
In einem Bereitschaftszustand ('Idle State') 100 wartet die Spracherkennungseinheit 3 auf das Erscheinen eines bestimmten Schlüsselworts. Das Erkennen des Schlüsselworts hat die Selbstaktivierung der Spracherkennungsfunktion zur Folge. Bei dem Schlüsselwort sollte es sich um einen Begriff handeln, der in der normalen Sprache nicht vorkommt (beispielsweise 'Akustik-TV' zur Sprachsteuerung eines Fernsehgeräts), so daß Fehlauslösungen durch den nicht ausgewerteten Kontext des je­ weils gesprochenen Befehls unwahrscheinlich sind.
Im Bereitschaftszustand 100, in dem auf die Eingabe des Schlüsselworts gewartet wird, ist die FAR-Rate auf einen re­ lativ niedrigen Wert, insbesondere auf einen niedrigeren Wert als in den anderen Zuständen, eingestellt, so daß die der FAR-Rate entsprechende Akzeptanzschwelle, bei der eine Laut­ folge als Sprachbefehl erkannt wird, erhöht wird, wodurch der Benutzer gezwungen wird, das Schlüsselwort deutlich zu spre­ chen und gegebenenfalls zu wiederholen. Mit der Minimierung der FAR-Rate ist in der Regel eine Erhöhung der FRR-Rate ver­ bunden.
Nach Erkennen des Schlüsselworts wird in einen Zustand 101 gewechselt, in dem die Spracherkennungseinheit 3 auf das Auf­ treten eines Sprachbefehls wartet, durch den ein Menüpunkt ausgewählt oder ein gewünschter Parameter, beispielsweise die Lautstärke, des sprachgesteuerten Geräts auf einen gewünsch­ ten Wert eingestellt wird.
Im folgenden wird davon ausgegangen, daß bis zur Einstellung eines Steuerparameters insgesamt N Sprachbefehle oder Me­ nüwörter eingegeben werden müssen.
Nach Erkennen des ersten Menüworts wird somit in einen Zu­ stand 102 gewechselt. Nach dem Erkennen des N-ten Menüworts, durch welches der gewünschte Parameter auf einen gewünschten Wert eingestellt wird, befindet sich die Spracherkennungsein­ heit 3 in einem Zustand 103. Diesen Zustand 103 erreicht die Spracherkennungseinheit 3 nur, wenn sowohl das Schlüsselwort als auch sämtliche N Menüwörter erkannt wurden.
In diesem Zustand 103 kann die Spracherkennungseinheit 3 in Kenntnis der sinnvollen Befehlssequenzlänge N das Ende dieser Befehlsfolge erkennen und automatisch wieder in den Bereit­ schaftszustand 100 wechseln.
Alternativ kann die Spracherkennungseinheit 3 im Zustand 103 auch auf das Auftreten eines geeigneten Schlußbefehls warten, durch welchen der Benutzer das Ende der Befehlssequenz mit­ teilt. Das Erkennen dieses Schlußbefehls hat einen Wechsel in einen Endzustand 104 zur Folge, wobei anschließend die Spra­ cherkennungseinheit 3 wieder in den Bereitschaftszustand 100 zurückkehrt.
Nach Erkennen des Schlüsselworts im Zustand 100 kann die FAR- Rate erhöht und damit die Akzeptanzschwelle herabgesetzt wer­ den. Gleichzeitig wird die FRR-Rate reduziert und damit die Wahrscheinlichkeit einer irrtümlichen Zurückweisung eines Sprachbefehls verringert. Diese Einstellung kann für die dem Bereitschaftszustand 100 nachfolgenden Zustände 101-104 bei­ behalten werden. Hierdurch wird die Wahrscheinlichkeit einer Fehlauslösung von komplexeren Sprachbefehlen gesenkt und gleichzeitig der Bedienungskomfort gesteigert.

Claims (10)

1. Spracherkennungsverfahren,
wobei ein Sprachbefehl erkannt und eine zu steuernde Vorrich­ tung entsprechend gesteuert wird,
wobei das Spracherkennungsverfahren in Form einer vordefi­ nierten Zustandsfolge (100-104) erfolgt, wobei bei Erkennen eines entsprechenden Sprachbefehls von einen Zustand in einen anderen Zustand gewechselt wird und in jedem Zustand die Spracherkennung gemäß mindestens einem Spracherkennungspara­ meter durchgeführt wird,
dadurch gekennzeichnet,
daß der mindestens eine Spracherkennungsparameter für die einzelnen Zustände (100-104) individuell eingestellt wird.
2. Spracherkennungsverfahren nach Anspruch 1, dadurch gekennzeichnet,
daß der mindestens eine Spracherkennungsparameter zur ent­ sprechenden zustandsindividuellen Einstellung einer ersten Spracherkennungsrate (FAR) für die einzelnen Zustände (100- 104) individuell eingestellt wird,
wobei die erste Spracherkennungsrate (FAR) ein Maß dafür ist, wie viele Sprachbefehle als solche erkannt werden, obwohl sie nicht zu einem dem Spracherkennungsverfahren zugrundeliegen­ den Spracherkennungsvokabular gehören.
3. Spracherkennungsverfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet,
daß der mindestens eine Spracherkennungsparameter zur ent­ sprechenden zustandsindividuellen Einstellung einer zweiten Spracherkennungsrate (FRR) für die einzelnen Zustände (100- 104) individuell eingestellt wird,
wobei die zweite Spracherkennungsrate (FRR) ein Maß dafür ist, wie viele Sprachbefehle nicht erkannt werden, obwohl sie zu einem dem Spracherkennungsverfahren zugrundeliegenden Spracherkennungsvokabular gehören.
4. Spracherkennungsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet,
daß in einem ersten Zustand (100) auf ein gesprochenes Schlüsselwort zur Aktivierung der Spracherkennung gewartet wird, und
daß nach Erkennen des gesprochenes Schlüsselworts von dem er­ sten Zustand (100) in mindestens einen zweiten Zustand (101- 103) gewechselt wird, in dem auf einen Sprachbefehl zur Aus­ wahl und/oder Einstellung eines Parameters der zu steuernden Vorrichtung gewartet wird.
5. Spracherkennungsverfahren nach Anspruch 4 und Anspruch 2, dadurch gekennzeichnet,
daß die erste Spracherkennungsrate (FAR) in dem ersten Zu­ stand (100) auf einen ersten Wert und in dem zweiten Zustand (101-103) auf einen zweiten Wert eingestellt wird,
wobei der erste und zweite Wert für die erste Spracherken­ nungsrate (FAR) derart gewählt werden, daß die Rate der Sprachbefehle, die in dem jeweiligen Zustand als solche er­ kannt werden, obwohl sie nicht zu dem Spracherkennungsvokabu­ lar gehören, in dem ersten Zustand (100) kleiner als in dem zweiten Zustand (101-103) ist.
6. Spracherkennungsverfahren nach Anspruch 4 und Anspruch 3, dadurch gekennzeichnet,
daß die zweite Spracherkennungsrate (FRR) in dem ersten Zu­ stand (100) auf einen ersten Wert und in dem zweiten Zustand (101-103) auf einen zweiten Wert eingestellt wird,
wobei der erste und zweite Wert für die zweite Spracherken­ nungsrate (FRR) derart gewählt werden, daß die Rate der Sprachbefehle, die in dem jeweiligen Zustand nicht erkannt werden, obwohl sie zu dem Spracherkennungsvokabular gehören, in dem ersten Zustand (100) größer als in dem zweiten Zustand (101-103) ist.
7. Spracherkennungsverfahren nach einem der Ansprüche 4-6, dadurch gekennzeichnet, daß bei Erkennen eines gesprochenen Schlußbefehls, welcher das Ende der Sprachsteuerung für die zu steuernde Vorrichtung bezeichnet, oder bei Erkennen einer vorgegebenen Folge von Sprachbefehlen von dem zweiten Zustand (101-103) wieder in den ersten Zustand (100) gewechselt wird.
8. Spracherkennungsvorrichtung,
mit Schallerfassungsmitteln (1) zum Erfassen eines Schallsi­ gnals, und
mit Spracherkennungsmitteln (3) zum Erkennen eines in einem erfaßten Schallsignal enthaltenen Sprachbefehls und zum Um­ setzen des erkannten Sprachbefehls in ein entsprechendes Steuersignal für eine zu steuernde Vorrichtung,
wobei die Spracherkennungsmittel (3) derart ausgestaltet sind, daß sie die Spracherkennung in Form einer vordefinier­ ten Zustandsfolge (100-104) durchführen und bei Erkennen ei­ nes entsprechenden Sprachbefehls von einen Zustand in einen anderen Zustand wechseln, wobei sie Spracherkennungsmittel (3) die Spracherkennung in jedem Zustand gemäß mindestens ei­ nem Spracherkennungsparameter durchführen,
dadurch gekennzeichnet,
daß der mindestens eine Spracherkennungsparameter für die einzelnen Zustände (100-104) auf unterschiedliche Werte ein­ gestellt ist.
9. Spracherkennungsvorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß Programmiermittel (4) zum Programmieren des mindestens einen Spracherkennungsparameters auf die den einzelnen Zu­ ständen (100-104) entsprechenden Werte vorgesehen sind.
10. Spracherkennungsvorrichtung nach Anspruch 8 oder 9, dadurch gekennzeichnet, daß die Spracherkennungsvorrichtung (7) bzw. die Spracherken­ nungsmittel (3) der Spracherkennungsvorrichtung (7) zur Durchführung des Verfahrens nach einem der Ansprüche 1-7 aus­ gestaltet sind.
DE10015960A 2000-03-30 2000-03-30 Spracherkennungsverfahren und Spracherkennungsvorrichtung Expired - Fee Related DE10015960C2 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE10015960A DE10015960C2 (de) 2000-03-30 2000-03-30 Spracherkennungsverfahren und Spracherkennungsvorrichtung
EP01106000A EP1139333A3 (de) 2000-03-30 2001-03-10 Spracherkennungsverfahren und Spracherkennungsvorrichtung
US09/822,778 US6826533B2 (en) 2000-03-30 2001-03-30 Speech recognition apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10015960A DE10015960C2 (de) 2000-03-30 2000-03-30 Spracherkennungsverfahren und Spracherkennungsvorrichtung

Publications (2)

Publication Number Publication Date
DE10015960A1 true DE10015960A1 (de) 2001-10-11
DE10015960C2 DE10015960C2 (de) 2003-01-16

Family

ID=7637061

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10015960A Expired - Fee Related DE10015960C2 (de) 2000-03-30 2000-03-30 Spracherkennungsverfahren und Spracherkennungsvorrichtung

Country Status (3)

Country Link
US (1) US6826533B2 (de)
EP (1) EP1139333A3 (de)
DE (1) DE10015960C2 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7162424B2 (en) 2001-04-26 2007-01-09 Siemens Aktiengesellschaft Method and system for defining a sequence of sound modules for synthesis of a speech signal in a tonal language
DE102014012158A1 (de) 2013-09-12 2015-03-12 Mechaless Systems Gmbh Gestenerkennungsverfahren und Gestenerkennungsvorrichtung
DE102016114280A1 (de) * 2016-08-02 2018-02-08 Endress+Hauser Conducta Gmbh+Co. Kg Feldgerät der Prozessautomatisierungstechnik

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4068334B2 (ja) * 2001-11-26 2008-03-26 日本電気株式会社 指紋認証方法、指紋認証システム、及び、バイオメトリクス認証システム
JP4363076B2 (ja) * 2002-06-28 2009-11-11 株式会社デンソー 音声制御装置
US8230476B2 (en) * 2002-09-17 2012-07-24 Intel Corporation Real-time interactive personal video recorder interface
US20060123220A1 (en) * 2004-12-02 2006-06-08 International Business Machines Corporation Speech recognition in BIOS
US8396715B2 (en) * 2005-06-28 2013-03-12 Microsoft Corporation Confidence threshold tuning
US8731146B2 (en) * 2007-01-04 2014-05-20 At&T Intellectual Property I, L.P. Call re-directed based on voice command
EP2217132B1 (de) * 2007-11-02 2013-05-15 The Trustees of Columbia University in the City of New York Einführbares chirurgisches bildgebungsgerät
US20110276326A1 (en) * 2010-05-06 2011-11-10 Motorola, Inc. Method and system for operational improvements in dispatch console systems in a multi-source environment
US8738377B2 (en) 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
US9060224B1 (en) * 2012-06-01 2015-06-16 Rawles Llc Voice controlled assistant with coaxial speaker and microphone arrangement
US9110889B2 (en) 2013-04-23 2015-08-18 Facebook, Inc. Methods and systems for generation of flexible sentences in a social networking system
US9626963B2 (en) * 2013-04-30 2017-04-18 Paypal, Inc. System and method of improving speech recognition using context
US9606987B2 (en) 2013-05-06 2017-03-28 Facebook, Inc. Methods and systems for generation of a translatable sentence syntax in a social networking system
US9589564B2 (en) 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US9812128B2 (en) 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
CN104616653B (zh) * 2015-01-23 2018-02-23 北京云知声信息技术有限公司 唤醒词匹配方法、装置以及语音唤醒方法、装置
US9779735B2 (en) 2016-02-24 2017-10-03 Google Inc. Methods and systems for detecting and processing speech signals
US11176930B1 (en) * 2016-03-28 2021-11-16 Amazon Technologies, Inc. Storing audio commands for time-delayed execution
FR3054362B1 (fr) * 2016-07-22 2022-02-04 Dolphin Integration Sa Circuit et procede de reconnaissance de parole
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
WO2018085192A1 (en) 2016-11-07 2018-05-11 Google Llc Recorded media hotword trigger suppression
US10559309B2 (en) 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
US11348595B2 (en) 2017-01-04 2022-05-31 Blackberry Limited Voice interface and vocal entertainment system
CN117577099A (zh) 2017-04-20 2024-02-20 谷歌有限责任公司 设备上的多用户认证的方法、系统和介质
US10395650B2 (en) 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
US10692496B2 (en) 2018-05-22 2020-06-23 Google Llc Hotword suppression
US11211061B2 (en) * 2019-01-07 2021-12-28 2236008 Ontario Inc. Voice control in a multi-talker and multimedia environment

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4029716C2 (de) * 1989-12-29 1998-02-19 Pioneer Electronic Corp Sprachgesteuertes Fernbedienungssystem
DE19709518C1 (de) * 1997-03-10 1998-03-05 Daimler Benz Aerospace Ag Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4866778A (en) 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
US5191532A (en) 1987-12-05 1993-03-02 Aisin Aw Co., Ltd. Navigation apparatus
EP0810502A1 (de) * 1996-05-30 1997-12-03 DIEHL GMBH & CO. Steuereinheit für eine Heizungsanlage
US5842161A (en) * 1996-06-25 1998-11-24 Lucent Technologies Inc. Telecommunications instrument employing variable criteria speech recognition
DE59803137D1 (de) * 1997-06-06 2002-03-28 Bsh Bosch Siemens Hausgeraete Haushaltsgerät, insbesondere elektrisch betriebenes haushaltsgerät
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US6594630B1 (en) * 1999-11-19 2003-07-15 Voice Signal Technologies, Inc. Voice-activated control for electrical device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4029716C2 (de) * 1989-12-29 1998-02-19 Pioneer Electronic Corp Sprachgesteuertes Fernbedienungssystem
DE19709518C1 (de) * 1997-03-10 1998-03-05 Daimler Benz Aerospace Ag Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7162424B2 (en) 2001-04-26 2007-01-09 Siemens Aktiengesellschaft Method and system for defining a sequence of sound modules for synthesis of a speech signal in a tonal language
DE102014012158A1 (de) 2013-09-12 2015-03-12 Mechaless Systems Gmbh Gestenerkennungsverfahren und Gestenerkennungsvorrichtung
DE202014010352U1 (de) 2013-09-12 2015-06-17 Mechaless Systems Gmbh Gestenerkennungsvorrichtung
DE102016114280A1 (de) * 2016-08-02 2018-02-08 Endress+Hauser Conducta Gmbh+Co. Kg Feldgerät der Prozessautomatisierungstechnik

Also Published As

Publication number Publication date
DE10015960C2 (de) 2003-01-16
US20020049596A1 (en) 2002-04-25
US6826533B2 (en) 2004-11-30
EP1139333A3 (de) 2001-12-05
EP1139333A2 (de) 2001-10-04

Similar Documents

Publication Publication Date Title
DE10015960A1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung
DE112010005959B4 (de) Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme
DE69229816T2 (de) Einrichtung und Verfahren für Sprachmusteridentifizierung
DE69818930T2 (de) Verfahren zur Ausrichtung von Text an Audiosignalen
DE3216800A1 (de) Anordnung zur eingabe von befehlsworten durch sprache
DE69829187T2 (de) Halbüberwachte Sprecheradaptation
EP1256936B1 (de) Verfahren zum Training oder zur Adaption eines Spracherkenners
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE60033106T2 (de) Korrektur der Betriebsartfehler, Steuerung oder Diktieren, in die Spracherkennung
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
DE69919842T2 (de) Sprachmodell basierend auf der spracherkennungshistorie
DE2953262C2 (de)
EP1927980B1 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE60212725T2 (de) Verfahren zur automatischen spracherkennung
DE3739681A1 (de) Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
DE3149134A1 (de) Verfahren und vorrichtung zur bstimmung von sprachendpunkten
DE68914032T2 (de) Spracherkennungssystem.
DE10216117A1 (de) Verfahren und System zur Spracherkennung von Symbolfolgen
DE102005030967B4 (de) Verfahren und Vorrichtung zur Interaktion mit einem Spracherkennungssystem zur Auswahl von Elementen aus Listen
DE102005030965B4 (de) Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments
EP2034472B1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung
DE4022511A1 (de) Sprachgesteuertes geraet der unterhaltungselektronik insbesondere videorecorder
EP1063633B1 (de) Verfahren zum Training eines automatischen Spracherkenners
DE10163214A1 (de) Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: MICRONAS GMBH, 79108 FREIBURG, DE

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20111001