DE69425776T2 - Spracherkennungseinrichtung mit verbesserter Ausschliessung von Wörtern und Tönen welche nicht im Vokabular enthalten sind - Google Patents

Spracherkennungseinrichtung mit verbesserter Ausschliessung von Wörtern und Tönen welche nicht im Vokabular enthalten sind

Info

Publication number
DE69425776T2
DE69425776T2 DE69425776T DE69425776T DE69425776T2 DE 69425776 T2 DE69425776 T2 DE 69425776T2 DE 69425776 T DE69425776 T DE 69425776T DE 69425776 T DE69425776 T DE 69425776T DE 69425776 T2 DE69425776 T2 DE 69425776T2
Authority
DE
Germany
Prior art keywords
tone
acoustic
silence
sound
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69425776T
Other languages
English (en)
Other versions
DE69425776D1 (de
Inventor
Edward A. Epstein
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE69425776D1 publication Critical patent/DE69425776D1/de
Application granted granted Critical
Publication of DE69425776T2 publication Critical patent/DE69425776T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

    Grundlagen der Erfindung
  • Die Erfindung betrifft die Computerspracherkennung, insbesondere die Erkennung gesprochener Computerbefehle. Wenn ein gesprochener Befehl erkannt wird, führt der Computer eine oder mehrere dem Befehl zugeordnete Funktionen aus.
  • Im Allgemeinen besteht eine Spracherkennungsvorrichtung aus einem Akustikprozessor und einem gespeicherten Satz akustischer Modelle. Der Akustikprozessor misst Tonmerkmale einer Äußerung. Jedes akustische Modell stellt die akustischen Merkmale einer Äußerung eines oder mehrerer dem Modell zugeordneter Worte dar. Die Tonmerkmale der Äußerung werden .mit jedem akustischen Modell verglichen, um einen Vergleichswert zu erzeugen. Der Vergleichswert für eine Äußerung und ein akustisches Modell ist eine Schätzung der Genauigkeit der Tonmerkmale der Äußerung im Vergleich zum akustischen Modell.
  • Das Wort bzw. die Worte, die dem akustischen Modell mit dem besten Vergleichswert zugeordnet werden, können als Erkennungsergebnis ausgewählt werden. Alternativ kann der akustische Vergleichswert mit anderen Vergleichswerten kombiniert werden, beispielsweise mit zusätzlichen akustischen Vergleichswerten und Sprachmodellvergleichswerten. Das Wort bzw. die Worte, die dem(den) akustischen Modell(en) mit dem besten kombinierten Vergleichswert zugeordnet werden, können als Erkennungsergebnis ausgewählt werden.
  • Bei Befehls- und Steueranwendungen erkennt die Spracherkennungsvorrichtung vorzugsweise einen geäußerten Befehl, und das Computersystem führt den Befehl anschließend sofort aus, um eine dem erkannten Befehl zugeordnete Funktion auszuführen. Zu diesem Zweck kann der Befehl, der dem akustischen Modell mit dem besten Vergleichswert zugeordnet wird, als Erkennungsergebnis ausgewählt werden.
  • Ein schwerwiegendes Problem bei solchen Systemen besteht jedoch darin, dass unbeabsichtigte Töne, beispielsweise Husten, Seufzer oder gesprochene Worte, die nicht zur Erkennung vorgesehen sind, fälschlicherweise als gültige Befehle erkannt werden. Das Computersystem führt die falsch erkannten Befehle sodann sofort aus, um die zugeordneten Funktionen mit unbeabsichtigten Folgen auszuführen.
  • US-A-4 239 936 beschreibt ein Spracherkennungssystem, in dem die Intensität von Umgebungsgeräusch parallel zu den eingegebenen Sprachsignalen gemessen wird, wobei jedes dem eingegebenen Sprachsignal zugeordnetes Erkennungsergebnis zurückgewiesen wird, wenn die Intensität des Geräusches einen festgelegten Standardwert überschreitet.
  • Zusammenfassung der Erfindung
  • Eine Aufgabe der Erfindung ist die Bereitstellung einer Vorrichtung und eines Verfahrens zur Spracherkennung, das eine hohe Wahrscheinlichkeit aufweist, akustische Übereinstimmungen mit unbeabsichtigten Tönen oder gesprochenen Worten, die nicht für die Spracherkennungseinrichtung vorgesehen sind, auszuschließen.
  • Eine andere Aufgabe der Erfindung ist die Bereitstellung einer Vorrichtung und eines Verfahrens zur Spracherkennung, das das akustische Modell kennzeichnet, das am besten mit einem Ton übereinstimmt und das eine hohe Wahrscheinlichkeit hat, das am besten übereinstimmende akustische Modell auszuschließen, falls der Ton unbeabsichtigt oder nicht für die Spracherkennungseinrichtung vorgesehen ist, das jedoch eine hohe Wahrscheinlichkeit hat, das am besten übereinstimmende akustische Modell anzunehmen, falls der Ton ein oder mehrere zur Erkennung vorgesehene Worte darstellt.
  • Eine Spracherkennungsvorrichtung gemäß der Erfindung umfasst einen Akustikprozessor zum Messen des Wertes von mindestens einem Merkmal von jeder aus einer Folge von mindestens zwei Tönen. Der Akustikprozessor misst den Wert des Merkmals von jedem Ton während jeder aus einer Reihe aufeinanderfolgender Zeitintervalle, um eine Folge von Merkmalsignalen zu erzeugen, die die Merkmalwerte des Tons darstellen. Außerdem werden Mittel zur Speicherung eines Satzes akustischer Merkmale bereitgestellt. Jedes akustische Befehlsmodell stellt eine oder mehrere Folgen akustischer Merkmalwerte dar, die eine Äußerung eines dem akustischen Befehlsmodell zugeordneten Befehls darstellen.
  • Ein Vergleichswertprozessor erzeugt einen Vergleichswert für jeden Ton und jedes von einem oder mehreren Befehlsmodellen aus dem Satz akustischer Befehlsmodelle. Jeder Vergleichswert umfasst eine Schätzung der Genauigkeit einer Übereinstimmung zwischen dem akustischen Befehlsmodell und einer Reihe dem Ton entsprechender Merkmalsignale. Es werden Mittel zum Ausgeben eines Erkennungssignals bereitgestellt, das dem Befehlsmodell mit dem besten Vergleichswert für einen aktuellen Ton entspricht, falls der beste Vergleichswert für den aktuellen Ton besser als ein Erkennungsschwellenwert für den aktuellen Ton ist. Die Erkennungsschwelle für den aktuellen Ton umfasst (a) einen ersten Vertrauenswert, falls der beste Vergleichswert für einen früheren Ton besser als eine Erkennungsschwelle für diesen früheren Ton war, oder (b) einen zweiten Vertrauenswert, der besser als der erste Vertrauenswert ist, falls der beste Vergleichswert für einen früheren Ton schlechter als die Erkennungsschwelle für diesen früheren Ton war.
  • Vorzugsweise tritt der frühere Ton unmittelbar vor dem aktuellen Ton auf.
  • Eine Spracherkennungsvorrichtung gemäß der Erfindung kann außerdem Mittel zur Speicherung von mindestens einem akustischen Schweigemodell umfassen, das eine oder mehrere Folgen akustischer Merkmalwerte darstellt, die das Fehlen einer gesprochenen Äußerung darstellen. Der Vergleichswertprozessor erzeugt außerdem einen Vergleichswert für jeden Ton und das akustische Schweigemodell. Jeder Schweigevergleichswert umfasst eine Schätzung der Genauigkeit einer Übereinstimmung zwischen dem akustischen Schweigemodell und einer Reihe dem Ton entsprechender Merkmalsignale.
  • In diesem Aspekt der Erfindung umfasst die Erkennungsschwelle für den aktuellen Ton den ersten Vertrauenswert (a1), falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell besser als eine Schweigevergleichsschwelle ist, und falls der frühere Ton eine Dauer hat, die eine Schweigedauerschwelle überschreitet, oder (a2) falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell besser als die Schweigevergleichsschwelle ist und falls der frühere Ton eine Dauer hat, die geringer als die Schweigedauerschwelle ist, und falls der beste Vergleichswert für den nächsten früheren Ton und ein akustisches Befehlsmodell besser als eine Erkennungsschwelle für diesen nächsten früheren Ton war, oder (a3) falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell schlechter als die Schweigevergleichsschwelle ist, und falls der beste Vergleichswert für den früheren Ton und ein akustisches Befehlsmodell besser als eine Erkennungsschwelle für diesen früheren Ton war.
  • Die Erkennungsschwelle für den aktuellen Ton umfasst den zweiten Vertrauenswert, der besser als der erste Vertrauenswert ist, (b1) falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell besser als die Schweigevergleichsschwelle ist, und falls der frühere Ton eine Dauer hat, die geringer als die Schweigedauerschwelle ist, und falls der beste Vergleichswert für den nächsten früheren Ton und ein akustisches Befehlsmodell schlechter als die Erkennungsschwelle für diesen nächsten früheren Ton war, oder (b2) falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell schlechter als die Schweigevergleichsschwelle ist, und falls der beste Vergleichswert für den früheren Ton und ein akustisches Befehlsmodell schlechter als die Erkennungsschwelle für diesen früheren Ton war.
  • Das Erkennungssignal kann beispielsweise ein Befehlssignal zum Aufrufen eines dem Befehl zugeordneten Programms sein. In einem Aspekt der Erfindung umfasst das Ausgabemittel eine Anzeige, und das Ausgabemittel zeigt ein oder mehrere Worte an, die dem Befehlsmodell mit dem besten Vergleichswert für einen aktuellen Ton entsprechen, falls der beste Vergleichswert für den aktuellen Ton besser als der Erkennungsschwellenwert für den aktuellen Ton ist.
  • In einem anderen Aspekt der Erfindung gibt das Ausgabemittel ein Anzeigesignal für einen nicht erkennbaren Ton aus, falls der beste Vergleichswert für den aktuellen Ton schlechter als der Erkennungsschwellenwert für den aktuellen Ton ist. Das Ausgabemittel kann beispielsweise eine Anzeige für einen nicht erkennbaren Ton ausgeben, falls der beste Vergleichswert für den aktuellen Ton schlechter als der Erkennungsschwellenwert für den aktuellen Ton ist. Die Anzeige für einen nicht erkennbaren Ton kann beispielsweise ein oder mehrere Fragezeichen umfassen.
  • Der Akustikprozessor in der Spracherkennungsvorrichtung gemäß der Erfindung kann u. a. ein Mikrofon umfassen. Jeder Ton kann beispielsweise ein Vokalton sein, und jeder Befehl kann mindestens ein Wort umfassen.
  • Gemäß einem weiteren Aspekt der Erfindung wird ein Spracherkennungsverfahren bereitgestellt, wie es in Anspruch 11 definiert wird.
  • Gemäß der Erfindung können akustische Vergleichsprozessoren folglich in drei Kategorien unterteilt werden. Wenn der beste Vergleichswert besser als ein "guter" Vertrauenswert ist, entspricht das Wort bzw. die Worte, die dem akustischen Modell mit dem besten Vergleichswert entsprechen, fast immer den gemessenen Tönen. Andererseits entspricht das Wort, das dem akustischen Modell mit dem besten Vergleichswert entspricht, fast nie den gemessenen Tönen, falls der beste Vergleichswert schlechter als ein "schlechter" Vertrauenswert ist. Wenn der beste Vergleichswert besser als der "schlechte" Vertrauenswert, jedoch schlechter als der "gute" Vertrauenswert ist, entspricht das Wort, das dem akustischen Modell mit dem besten Vergleichswert entspricht, mit hoher Wahrscheinlichkeit dem gemessenen Ton, wenn für das zuvor erkannte Wort angenommen wurde, da es eine hohe Wahrscheinlichkeit hat, dem vorhergehenden Ton zu entsprechen. Wenn der beste Vergleichswert besser als der "schlechte" Vertrauenswert, jedoch schlechter als der "gute" Vertrauenswert ist, entspricht das Wort, das dem akustischen Modell mit dem besten Vergleichswert entspricht, mit geringer Wahrscheinlichkeit dem gemessenen Ton, wenn das zuvor erkannte Wort ausgeschlossen wurde, da es eine geringe Wahrscheinlichkeit hat, dem Vorhergehenden Ton zu entsprechen. Falls jedoch zwischen einem zuvor ausgeschlossenen Wort und dem aktuellen Wort mit dem besten Vergleichswert, der besser als der "schlechte" Vertrauenswert, jedoch schlechter als der "gute" Vertrauenswert ist, genügend Schweigen liegt, wird das aktuelle Wort ebenfalls mit einer hohen Wahrscheinlichkeit, dem gemessenen aktuellen Ton zu entsprechen, angenommen.
  • Durch die Annahme der Vertrauenswerte gemäß der Erfindung haben eine Vorrichtung und ein Verfahren zur Spracherkennung eine hohe Wahrscheinlichkeit, akustische Übereinstimmungen mit unbeabsichtigten Tönen oder gesprochenen Worten, die nicht für die Spracherkennungseinrichtung vorgesehen sind, auszuschließen. Das heißt, durch die Annahme der Vertrauenswerte gemäß der Erfindung haben eine Vorrichtung und ein Verfahren zur Spracherkennung, die das akustische Modell mit der besten Übereinstimmung mit einem Ton kennzeichnen, eine hohe Wahrscheinlichkeit, das am besten übereinstimmende akustische Modell auszuschließen, falls der Ton unbeabsichtigt oder nicht für die Spracherkennungseinrichtung vorgesehen ist, und eine hohe Wahrscheinlichkeit, das am besten übereinstimmende akustische Modell anzunehmen, falls der Ton ein oder mehrere Worte darstellt, die für die Spracherkennungseinrichtung vorgesehen sind.
  • Kurze Beschreibung der Zeichnungen
  • Fig. 1 ist ein Blockschaltbild eines Beispiels einer Spracherkennungsvorrichtung gemäß der Erfindung.
  • Fig. 2 zeigt schematisch ein Beispiel eines akustischen Befehlsmodells.
  • Fig. 3 zeigt schematisch ein Beispiel eines akustischen Schweigemodells.
  • Fig. 4 zeigt schematisch ein Beispiel des akustischen Schweigemodells von Fig. 3, das mit dem Ende des akustischen Befehlsmodells von Fig. 2 verkettet ist.
  • Fig. 5 zeigt schematisch die Status und möglichen Übergänge zwischen Status für das kombinierte akustische Modell von Fig. 4 zu jedem aus einer Anzahl von Zeitpunkten t.
  • Fig. 6 ist ein Blockschaltbild eines Beispiels des Akustikprozessors von Fig. 1.
  • Beschreibung der bevorzugten Ausführungsformen
  • Mit Bezugnahme auf Fig. 1 umfasst die Spracherkennungsvorrichtung gemäß der Erfindung einen Akustikprozessor 10 zum Messen des Wertes von mindestens einem Merkmal von jedem aus einer Folge von mindestens zwei Tönen. Der Akustikprozessor 10 misst den Wert des Merkmals jedes Tons während jedes aus einer Reihe aufeinanderfolgender Zeitintervalle, um eine Reihe von Merkmalsignalen zu erzeugen, die die Merkmalwerte des Tons darstellen.
  • Wie unten ausführlicher beschrieben wird, kann der Akustikprozessor beispielsweise die Amplitude jedes Tons in einem oder mehreren Frequenzbändern während einer Folge von Zeitintervallen von zehn Millisekunden messen, um eine Folge von Merkmalvektorsignalen zu erzeugen, die die Amplitudenwerte des Tons darstellen. Bei Bedarf können die Merkmalvektorsignale quantisiert werden, indem jedes Merkmalvektorsignal durch ein Prototypvektorsignal aus einem Satz von Prototypvektorsignalen ersetzt wird, das am besten mit dem Merkmalvektorsignal übereinstimmt. Jedes Prototypvektorsignal hat eine Kennzeichnung, und folglich erzeugt der Akustikprozessor in diesem Fall eine Reihe von Kennzeichnungssignalen, die die Merkmalwerte des Tons darstellen.
  • Die Spracherkennungsvorrichtung umfasst außerdem einen Speicher 12 für akustische Befehlsmodelle zur Speicherung eines Satzes akustischer Befehlsmodelle. Jedes akustische Befehlsmodell stellt eine oder mehrere Folgen akustischer Merkmalwerte dar, die eine Äußerung eines dem akustischen Befehlsmodell zugeordneten Befehls darstellen.
  • Die gespeicherten akustischen Befehlsmodelle können beispielsweise Markow-Modelle oder andere dynamische Programmiermodelle sein. Die Parameter der akustischen Befehlsmodelle können aus einem bekannten Übungstext geschätzt werden, beispielsweise durch Glättungsparameter, die durch den Vorwärts-Rückwärts-Algorithmus erhalten werden. (Siehe beispielsweise F. Jelinek, "Continous Speech Recognition by Statistical Methods." Proceedings of the IEEE, Band 64, Nr. 4, April 1976, Seiten 532 bis 556.)
  • Vorzugsweise stellt jedes akustische Befehlsmodell einen isolierten, gesprochenen Befehl dar (das heißt, unabhängig vom Kontext früherer und nachfolgender Äußerungen). Kontextunabhängige akustische Befehlsmodelle können beispielsweise manuell aus Modellen von Phonemen oder automatisch erzeugt werden, beispielsweise durch das von Lalit R. Bahl et al. in der US-Patentschrift 4 759 068, mit dem Titel "Constructing Markov Models of Words From Multiple Utterances", beschriebene Verfahren oder durch jedes andere bekannte Verfahren zur Erzeugung kontextunabhängiger Modelle.
  • Alternativ können kontextabhängige Modelle aus kontextunabhängigen Modellen erzeugt werden, indem Äußerungen eines Befehls in kontextabhängige Kategorien gruppiert werden. Ein Kontext kann zum Beispiel manuell oder automatisch ausgewählt werden, indem jedes einem Befehl entsprechende Merkmalsignal mit seinem Kontext gekennzeichnet wird und indem die Merkmalsignale gemäß ihrem Kontext gruppiert werden, um eine ausgewählte Bewertungsfunktion zu optimieren. (Siehe beispielsweise Lalit R. Bahl et al., "Apparatus and Method of Grouping Utterances of a Phoneme into Context-Dependent Categories Based an Sound-Similarity for Automatic Speech Recognition.", US-Patentschrift 5 195 167.)
  • Fig. 2 zeigt schematisch ein Beispiel eines hypothetischen akustischen Befehlsmodells. In diesem Beispiel umfasst das akustische Befehlsmodell vier Status S1, S2, S3 und S4, die in Fig. 2 als Punkte dargestellt werden. Das Modell beginnt beim Anfangsstatus S1 und endet beim letzten Status S4. Die gestrichelten Nullübergänge bedeuten, dass kein akustisches Merkmalsignal vom Akustikprozessor 10 ausgegeben wurde. Jedem Übergang mit durchgezogener Linie entspricht eine Ausgabewahrscheinlichkeitsverteilung über alle vom Akustikprozessor 10 erzeugten Merkmalvektorsignale oder Kennzeichnungssignale. Für jeden Status des Modells gibt es eine entsprechende Wahrscheinlichkeitsverteilung über die Übergänge aus diesem Status heraus.
  • Wiederum mit Bezugnahme auf Fig. 1 umfasst die Spracherkennungsvorrichtung außerdem einen Vergleichswertprozessor 14 zum Erzeugen eines Vergleichswertes für jeden Ton und ein oder mehrere akustische Befehlsmodelle aus dem Satz akustischer Befehlsmodelle im Speicher 12 für akustische Befehlsmodelle. Jeder Vergleichswert umfasst eine Schätzung der Genauigkeit einer Übereinstimmung zwischen dem akustischen Befehlsmodell und einer Folge dem Ton entsprechender Merkmalsignale vom Akustikprozessor 10.
  • Ein Erkennungsschwellenkomparator und -ausgabemittel 16 gibt ein Erkennungssignal aus, das dem Befehlsmodell aus dem Speicher 12 für akustische Befehlsmodelle mit dem besten Vergleichswert für einen aktuellen Ton entspricht, falls der beste Vergleichswert für den aktuellen Ton besser als ein Erkennungsschwellenwert für den aktuellen Ton ist. Die Erkennungsschwelle für den aktuellen Ton umfasst einen ersten Vertrauenswert aus dem Speicher 18 für Vertrauenswerte, falls der beste Vergleichswert für einen früheren Ton besser als eine Erkennungsschwelle für diesen früheren Ton war. Die Erkennungsschwelle für den aktuellen Ton umfasst einen zweiten Vertrauenswert aus dem Speicher 18 für Vertrauenswerte, der besser als der erste Vertrauenswert ist, falls der beste Vergleichswert für einen früheren Ton schlechter als die Erkennungsschwelle für diesen früheren Ton war.
  • Die Spracherkennungsvorrichtung kann außerdem einen Speicher 20 für akustische Schweigemodelle zur Speicherung von mindestens einem akustischem Schweigemodell, das eine oder mehrere Folgen akustischer Merkmalwerte darstellt, die das Fehlen einer gesprochenen Äußerung darstellen. Das akustische Schweigemodell kann beispielsweise ein Markow-Modell oder ein anderes dynamisches Programmiermodell sein. Die Parameter des akustischen Schweigemodells können aus einem bekannten geäußerten Übungstext beispielsweise durch Glättungsparameter geschätzt werden, die auf dieselbe Weise wie bei den akustischen Befehlsmodellen aus dem Vorwärts-Rückwärts- Algorithmus erhalten werden.
  • Fig. 3 zeigt schematisch ein Beispiel eines akustischen Schweigemodells. Das Modell beginnt beim Anfangsstatus S4 und endet beim Endstatus S10. Die gestrichelten Nullübergänge bedeuten, dass kein akustisches Merkmalsignal ausgegeben wird. Jedem Übergang mit durchgezogener Linie entspricht eine Ausgabewahrscheinlichkeitsverteilung über die vom Akustikprozessor 10 erzeugten Merkmalsignale (zum Beispiel Merkmalvektorsignale oder Kennzeichnungssignale). Für jeden Status S4 bis S10 gibt es eine entsprechende Wahrscheinlichkeitsverteilung über die Übergänge aus diesem Status heraus.
  • Wiederum mit Bezugnahme auf Fig. 1 erzeugt der Vergleichswertprozessor 14 einen Vergleichswert für jeden Ton und das akustische Schweigemodell im Speicher 20 für akustische Schweigemodelle. Jeder Vergleichswert mit dem akustischen Schweigemodell umfasst eine Schätzung der Genauigkeit einer Übereinstimmung zwischen dem akustischen Schweigemodell und einer Folge dem Ton entsprechender Merkmalsignale.
  • In dieser Variante der Erfindung umfasst die vom Erkennungsschwellenkomparator und -ausgabemittel 16 verwendete Erkennungsschwelle den ersten Vertrauenswert, falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell besser als eine aus dem Speicher 22 für Schweigevergleichs- und Schweigedauerschwellen erhaltene Schweigevergleichsschwelle ist, und falls der frühere Ton eine Dauer hat, die eine im Speicher 22 für Schweigevergleichs- und Schweigedauerschwellen gespeicherte Schweigedauerschwelle überschreitet. Alternativ umfasst die Erkennungsschwelle für den aktuellen Ton den ersten Vertrauenswert, falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell besser als die Schweigevergleichsschwelle ist und falls der frühere Ton eine Dauer hat, die geringer als die Schweigedauerschwelle ist, und falls der beste Vergleichswert für den nächsten früheren Ton und ein akustisches Befehlsmodell besser als eine Erkennungsschwelle für diesen nächsten früheren Ton war. Schließlich umfasst die Erkennungsschwelle für den aktuellen Ton den ersten Vertrauenswert, falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell schlechter als die Schweigevergleichsschwelle ist und falls der beste Vergleichswert für den früheren Ton und ein akustisches Befehlsmodell besser als eine Erkennungsschwelle für diesen früheren Ton war.
  • In dieser Ausführungsform der Erfindung umfasst die Erkennungsschwelle für den aktuellen Ton den zweiten Vertrauenswert, der besser als der erste Vertrauenswert aus dem Speicher 18 für Vertrauenswerte ist, falls der Vergleichswert vom Vergleichswertprozessor 18 für den früheren Ton und das akustische Schweigemodell besser als die Schweigevergleichsschwelle ist und falls der frühere Ton eine Dauer hat, die geringer als die Schweigedauerschwelle ist, und falls der beste Vergleichswert für den nächsten früheren Ton und ein akustisches Befehlsmodell schlechter als die Erkennungsschwelle für diesen nächsten früheren Ton war. Alternativ umfasst die Erkennungsschwelle für den aktuellen Ton den zweiten Vertrauenswert, der besser als der erste Vertrauenswert ist, falls der Vergleichswert den früheren Ton und das akustische Schweigemodell schlechter als die Schweigevergleichsschwelle ist und falls der beste Vergleichswert für den früheren Ton und ein akustisches Befehlsmodell schlechter als die Erkennungsschwelle für diesen früheren Ton war.
  • Zur Erzeugung eines Vergleichswertes für jeden Ton und jedes von einem oder mehreren akustischen Befehlsmodellen aus dem Satz akustischer Befehlsmodelle im Speicher 12 für akustische Befehlsmodelle und zur Erzeugung eines Vergleichswertes für jeden Ton und das akustische Schweigemodell im Speicher 20 für akustische Schweigemodelle kann das akustische Schweigemodell von Fig. 3 mit dem Ende des akustischen Befehlsmodells von Fig. 2 verkettet werden, wie in Fig. 4 gezeigt wird. Das kombinierte Modell beginnt im Anfangsstatus S1 und endet im Endstatus S10.
  • Die Status S1 bis S10 und die möglichen Übergänge zwischen den Status für das kombinierte akustische Modell von Fig. 4 werden zu jedem aus einer Anzahl von Zeitpunkten t in Fig. 5 schematisch gezeigt. Für jedes der Zeitintervalle zwischen t = n - 1 und t = n erzeugt der Akustikprozessor ein Merkmalsignal Xn.
  • Für jeden Status des in Fig. 4 gezeigten kombinierten Modells wird die bedingte Wahrscheinlichkeit P (st = Sσ X&sub1; ... Xt), dass der Status st zum Zeitpunkt t unter Berücksichtigung des Auftretens von Merkmalsignalen X&sub1; bis Xt, die zu den Zeitpunkten 1 bis t jeweils vom Akustikprozessor 10 erzeugt werden, gleich dem Status Sσ ist, durch die Gleichungen 1 bis 10 erhalten.
  • P(st = S1 X&sub1;...Xt) = MP(st-1 = S1) P(st = S1 st-1 = S1)
  • P(X&sub1; st = S1, st-1 = S1" [1]
  • P(st = S2 X&sub1;...Xt) = MP(st-1 = S1) P(st = S2 st-1 = S1)
  • P(Xt st = S2, st-1 = S1)"
  • + P(st = S1) P(st = St, st-1 = S2 st = S1)
  • + MP(st-1 = S2) P(st = S2/st-1 = S2
  • P(Xt st = S2, st-1 = S2)" [2]
  • P(st = S3 X&sub1;...Xt) = MP(st-1 = S2) P(st = S3 st-1 = S2)
  • P(Xt st = S3, st-1 = S2)"
  • + P(st = S2) P(st = St, st-1 = S3 st = S2)
  • + MP(st-1 = S3) P(st = S3/st-1 = S3
  • P(Xt st = S3, st-1 = S3)" [3]
  • P(st = S4 X&sub1;...Xt) = MP(st-1 = S3) P(st = S4 st-1 = S3)
  • P(Xt st = S4, st-1 = S3)"
  • + P(st = S3) P(st = S4 st = S3) [4]
  • P(st = S6 X&sub1;...Xt) = MP(st-1 = S5) P(st = S6 st-1 = S5)
  • P(Xt st = S6, st-1 = S5)"
  • + MP(st-1 = S6) P(st = S6/st-1 = S6
  • P(Xt st = S6, st-1 = S6)" [5]
  • P(st = S6 X&sub1;...Xt) = MP(st-1 = S5) P(st = S6 st-1 = S5)
  • P(Xt st = S6, st-1 = S5)"
  • + MP(st-1 = S6) P(st = S6/st-1 = S6
  • P(Xt st = S6, st-1 = S6)" [6]
  • P(st = S7 X&sub1;...Xt) = MP(st-1 = S6) P(st = S7 st-1 = S6)
  • P(Xt st = S7, st-1 = S6)"
  • + (st-1 = S7) P(st = S7 st-1 = S7)
  • P(Xt st = S7, st-1 = S7)" [7]
  • P(st = S8 X&sub1;...Xt) = MP(st-1 = S4) P(st = S8 st-1 = S4)
  • P(Xt st = S8, st-1 = S4)" [8]
  • P(st = S9 X&sub1;...Xt) = MP(st-1 = S8) P(st = S9 st-1 = S8)
  • P(Xt st = S9, st-1 = S8)" [9]
  • P(st = S10 X&sub1;...Xt) = MP(st = S4) P(st = S10 st = S4)
  • + P(st = S8), P(st = S10 st = S8)
  • + P(st = S9), P(st = S10 st = S9)
  • + MP(st-1 = S7) P(st = S10 st-1 = S7)
  • P(Xt st = S10, st-1 = S7)"
  • + MP(st-1 = S9) P(st = S10 st-1 = S9)
  • P(Xt st = S10, st-1 = S9)" [10]
  • Zur Normierung der bedingten Statuswahrscheinlichkeiten, um die verschiedenen Anzahlen von Merkmalsignalen (X&sub1;... Xn) zu verschiedenen Zeitpunkten t zu berücksichtigen, kann ein normierter Statusausgabewert Q für einen Status σ zum Zeitpunkt t durch die Gleichung 11 gegeben werden.
  • Q(σ, 1) = P(s&sub1; = Sσ X&sub1; ... Xt)/ P(Xi)
  • Geschätzte Werte für die bedingten Wahrscheinlichkeiten P(st = Sσ X&sub1; ... Xt) der Status (in diesem Beispiel der Status S1 bis S10) können aus den Gleichungen 1 bis 10 erhalten werden, indem die Werte der Übergangswahrscheinlichkeitsparameter und der Ausgabewahrscheinlichkeitsparameter der akustischen Befehlsmodelle und der akustischen Schweigemodelle verwendet werden.
  • Geschätzte Werte für den normierten Statusausgabewert Q können aus der Gleichung 11 erhalten werden, indem die Wahrscheinlichkeit P(Xi) jedes beobachteten Merkmalsignals Xi als Produkt aus der bedingten Wahrscheinlichkeit P(Xi Xi-1) des Merkmalsignals Xi unter Berücksichtigung des unmittelbar früheren Auftretens des Merkmalsignals Xi &submin;&sub1;, multipliziert mit der Wahrscheinlichkeit P(Xi-1) des Auftretens des Merkmalsignals Xi &submin;&sub1;, geschätzt wird. Der Wert von P(Xi Xi-1) P(Xi-1) kann für alle Merkmalsignale Xi und Xi-1 geschätzt werden, indem das Auftreten von Merkmalsignalen gezählt wird, die gemäß der Gleichung 12 aus einem Übungstext erzeugt werden.
  • P(Xi Xi-1)P(Xi-1) = N(Xi, Xi-1)/N(Xi-1) N(Xi-1)/N
  • = N(Xi, Xi-1)/N [12]
  • In der Gleichung 12 ist N(Xi, Xi-1) die Anzahl des Auftretens des Merkmalsignals Xi, dem das durch die Äußerung des Trainingstextes erzeugte Merkmalsignal Xi-1 unmittelbar vorangeht, und N ist die Gesamtanzahl von Merkmalsignalen, die durch die Äußerung des Übungstextes erzeugt werden.
  • Aus der obigen Gleichung 11 können die normierten Statusausgabewerte Q(S4, t) und Q(S10, t) für die Status S4 und S10 des kombinierten Modells von Fig. 4 erhalten werden. Der Status S4 ist der letzte Status des Befehlsmodells und der erste Status des Schweigemodells. Der Status S10 ist der letzte Status des Schweigemodells.
  • In einem Beispiel der Erfindung kann ein Vergleichswert für einen Ton und das akustische Schweigemodell zum Zeitpunkt t durch das Verhältnis des normierten Statusausgabewertes Q[S10,t] für den Status S10 dividiert durch den normierten Statusausgabewert Q[S4,t] für den Status 54 gegeben werden, wie in der Gleichung 13 gezeigt wird.
  • Schweigestart-Vergleichswert = Q [S10, t]/Q[S4, t] [13]
  • Der Zeitpunkt t = tstart, zu dem der Vergleichswert für den Ton und das akustische Schweigemodell (Gleichung 13) zuerst eine Schweigevergleichsschwelle überschreitet, kann als der Beginn eines Schweigeintervalls betrachtet werden. Die Schweigevergleichsschwelle ist ein Abgleichparameter, der vom Benutzer eingestellt werden kann. Es wurde festgestellt, dass eine Schweigevergleichsschwelle von 10¹&sup5; gute Ergebnisse erzeugt.
  • Das Ende des Schweigeintervalls kann beispielsweise festgestellt werden, indem das Verhältnis des normierten Statusausgabewertes Q[S10, t] für den Status S10 zum Zeitpunkt t, dividiert durch den erhaltenen Maximalwert für den normierten Statusausgabewert Qmax[S10, tstart, ...t] für den Status S10 über die Zeitintervalle tstart bis t ausgewertet wird.
  • Schweigeende-Vergleichswert = Q [S10, t]/Qmax [S10, tstart, ...t] [14]
  • Der Zeitpunkt t = tEnd, zu dem der Wert des Schweigeende- Vergleichswertes von Gleichung 14 zuerst unter den Wert einer Schweigeendeschwelle fällt, kann als das Ende des Schweigeintervalls betrachtet werden. Der Wert der Schweigeendeschwelle ist ein Abgleichparameter, der vom Benutzer eingestellt werden kann. Es wurde festgestellt, dass ein Wert von 10&supmin;²&sup5; gute Ergebnisse bereitstellt.
  • Falls der Vergleichswert für den Ton und das akustische Schweigemodell, wie er durch die Gleichung 13 gegeben wird, besser als die Schweigevergleichsschwelle ist, wird das Schweigen als beim ersten Zeitpunkt tstart beginnend betrachtet, zu dem das Verhältnis von Gleichung 13 die Schweigevergleichsschwelle überschreitet. Das Schweigen wird als beim Zeitpunkt tEnd endend betrachtet, zu dem das Verhältnis von Gleichung 14 kleiner als der zugeordnete Abgleichparameter ist. Die Dauer des Schweigens ist dann (tEnd - tStart).
  • Für die Entscheidung, ob die Erkennungsschwelle der erste Vertrauenswert oder der zweite Vertrauenswert sein sollte, ist die im Speicher 22 für Schweigevergleichs- und Schweigedauerschwellen gespeicherte Schweigedauerschwelle ein Abgleichparameter, der vom Benutzer eingestellt werden kann. Es wurde beispielsweise festgestellt, dass eine Schweigedauerschwelle von 25 Zentisekunden gute Ergebnisse bereitstellt.
  • Der Vergleichswert für jeden Ton und ein akustisches Befehlsmodell, das den Status S1 bis S4 der Fig. 2 und 4 entspricht, kann folgendermaßen erhalten werden. Falls das Verhältnis von Gleichung 13 die Schweigevergleichsschwelle nicht vor dem Zeitpunkt tEnd überschreitet, kann der Vergleichswert für jeden Ton und das den Status S1 bis S4 der Fig. 2 und 4 entsprechende akustische Befehlsmodell durch den maximalen normierten Statusausgabewert Q[S10, t'End, ...tEnd] für den Status S10 über die Zeitintervalle t'End bis tEnd gegeben werden, wobei t'End das Ende des vorhergehenden Tons oder Schweigens ist und wobei tEnd das Ende des aktuellen Tons oder Schweigens ist. Alternativ kann der Vergleichswert für jeden Ton und das akustische Befehlsmodell durch die Summe der normierten Statusausgabewerte Q[S10, t] für den Status S10 über die Zeitintervalle t'End bis tEnd gegeben werden.
  • Falls jedoch das Verhältnis von Gleichung 13 die Schweigevergleichsschwelle vor dem Zeitpunkt tEnd überschreitet, kann der Vergleichswert für den Ton und das akustische Befehlsmodell durch den normierten Statusausgabewert Q[S4, tStart] für den Status S4 zum Zeitpunkt tstart gegeben werden. Alternativ kann der Vergleichswert für jeden Ton und das akustische Befehlsmodell durch die Summe aus den normierten Statusausgabewerten Q[S4, t] für den Status S4 über die Zeitintervalle t'End bis tStart gegeben werden.
  • Der erste Vertrauenswert und der zweite Vertrauenswert für die Erkennungsschwelle sind Abgleichparameter, die vom Benutzer eingestellt werden können. Die ersten und zweiten Vertrauenswerte können beispielsweise folgendermaßen erzeugt werden.
  • Ein Übungstext, der im Vokabular enthaltene Befehlsworte, die durch gespeicherte akustische Befehlsmodelle dargestellt werden, und außerdem nicht im Vokabular enthaltene Worte umfasst, die nicht durch gespeicherte akustische Befehlsmodelle dargestellt werden, wird von einem oder mehreren Sprechern gesprochen. Unter Verwendung der Spracherkennungsvorrichtung gemäß der Erfindung, jedoch ohne eine Erkennungsschwelle, wird eine Folge erkannter Worte erzeugt, die am besten mit dem gesprochenen, bekannten Übungstext übereinstimmen. Jedem von der Spracherkennungsvorrichtung ausgegebenen Wort oder Befehl wird ein Vergleichswert zugeordnet.
  • Durch den Vergleich der Befehlsworte im bekannten Übungstext mit den von der Spracherkennungsvorrichtung ausgegebenen, erkannten Worten können korrekt erkannte Worte und falsch erkannte Worte gekennzeichnet werden. Der erste Vertrauenswert kann beispielsweise der beste Vergleichswert sein, der schlechter als die Vergleichswerte von 99% bis 100% der korrekt erkannten Worte ist. Der zweite Vertrauenswert kann beispielsweise der schlechteste Vergleichswert sein, der besser als die Vergleichswerte von beispielsweise 99% bis 100 % der falsch erkannten Worte im Übungstext ist.
  • Das vom Erkennungsschwellenkomparator und -ausgabemittel 16 ausgegebene Erkennungssignal kann ein Befehlssignal zum Aufrufen eines dem Befehl zugeordneten Programms umfassen. Das Befehlssignal kann beispielsweise die manuelle Eingabe von einem Befehl entsprechenden Tastenanschlägen simulieren. Alternativ kann das Befehlssignal ein Anwendungsprogramm- Schnittstellenaufruf sein.
  • Das Erkennungsschwellenkomparator und -ausgabemittel 16 kann eine Anzeige, beispielsweise eine Kathodenstrahlröhre, eine Flüssigkristallanzeige oder einen Drucker umfassen. Das Erkennungsschwellenkomparator und -ausgabemittel 16 kann ein oder mehrere Worte anzeigen, die dem Befehlsmodell mit dem besten Vergleichswert für einen aktuellen Ton entsprechen, falls der beste Vergleichswert für den aktuellen Ton besser als der Erkennungsschwellenwert für den aktuellen Ton ist.
  • Das Ausgabemittel 16 kann wahlweise ein Signal für einen nicht erkennbaren Ton ausgeben, falls der beste Vergleichswert für den aktuellen Ton schlechter als der Erkennungsschwellenwert für den aktuellen Ton ist. Die Ausgabe 16 kann beispielsweise eine Anzeige für einen nicht erkennbaren Ton anzeigen, falls der beste Vergleichswert für den aktuellen Ton schlechter als der Erkennungsschwellenwert für den aktuellen Ton ist. Die Anzeige für einen nicht erkennbaren Ton kann ein oder mehrere angezeigte Fragezeichen umfassen.
  • Jeder vom Akustikprozessor 10 gemessene Ton kann ein Vokalton oder ein anderer Ton sein. Jeder einem akustischen Befehlsmodell zugeordnete Befehl umfasst vorzugsweise mindestens ein Wort.
  • Zu Beginn einer Spracherkennungssitzung kann die Erkennungsschwelle am ersten Vertrauenswert oder am zweiten Vertrauenswert initialisiert werden. Vorzugsweise wird die Erkennungsschwelle für den aktuellen Ton zu Beginn einer Spracherkennungssitzung am ersten Vertrauenswert initialisiert.
  • Die Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung kann mit jeder bestehenden Spracherkennungseinrichtung verwendet werden, beispielsweise mit dem IBM Speech Server Series- (Warenzeichen) Produkt. Der Vergleichswertprozessor 14 und das Erkennungsschwellenkomparator und -ausgabemittel 16 können beispielsweise geeignet programmierte spezielle oder allgemeine digitale Prozessoren sein. Der Speicher 12 für akustische Befehlsmodelle, der Speicher 18 für Vertrauenswerte, der Speicher 20 für akustische Schweigemodelle und der Speicher 22 für Schweigevergleichs- und Schweigedauerschwellen können beispielsweise einen elektronisch lesbaren Computerspeicher umfassen.
  • Ein Beispiel des Akustikprozessors 10 von Fig. 3 wird in Fig. 6 gezeigt. Der Akustikprozessor umfasst ein Mikrofon 24 zum Erzeugen eines der Äußerung entsprechenden, analogen elektrischen Signals. Das analoge elektrische Signal vom Mikrofon 24 wird durch den Analog-Digital-Umsetzer 26 in ein digitales elektrisches Signal umgesetzt. Zu diesem Zweck kann das analoge Signal beispielsweise bei einer Geschwindigkeit von zwanzig Kilohertz vom Analog-Digital-Umsetzer 26 abgetastet werden.
  • Ein Fenstergenerator 28 erhält beispielsweise alle zehn Millisekunden (eine Zentisekunde) einen Abtastwert des digitalen Signals mit einer Dauer von zwanzig Millisekunden vom Analog-Digital-Umsetzer 26. Jeder zwanzig Millisekunden lange Abtastwert des digitalen Signals wird vom Spektrumanalysator 30 analysiert, um die Amplitude des digitalen Signalabtastwertes in jedem der beispielsweise zwanzig Frequenzbänder zu erhalten. Vorzugsweise erzeugt der Spektrumanalysator 30 außerdem ein einundzwanzigdimensionales Signal, das die Gesamtamplitude oder Gesamtleistung des zwanzig Millisekunden langen digitalen Signalabtastwertes darstellt. Der Spektrumanalysator 30 kann beispielsweise ein schneller Fourier-Transformations-Prozessor sein. Alternativ kann er eine Gruppe von zwanzig Bandpassfiltern sein.
  • Die vom Spektrumanalysator 30 erzeugten einundzwanzigdimensionalen Vektorsignale können so bearbeitet werden, dass Hintergrundrauschen durch einen adaptiven Rauschunterdrückungsprozessor 32 entfernt wird. Der Rauschunterdrückungsprozessor 32 subtrahiert einen Rauschvektor N(t) von dem in den Rauschunterdrückungsprozessor eingegebenen Merkmalvektor F(t), um einen ausgegebenen Merkmalvektor F'(t) zu erzeugen. Der Rauschunterdrückungsprozessor 32 passt sich an ändernde Rauschpegel an, indem er den Rauschvektor N(t) jedesmal, wenn der frühere Merkmalvektor F(t -1) als Rauschen oder Schweigen gekennzeichnet wird, periodisch aktualisiert. Der Rauschvektor N(t) wird gemäß der folgenden Formel aktualisiert
  • wobei N(t) der Rauschvektor zum Zeitpunkt t, N(t - 1) der Rauschvektor zum Zeitpunkt (t -1), k ein feststehender Parameter des adaptiven Rauschunterdrückungsmodells, F(t -1) der in den Rauschunterdrückungsprozessor 32 eingegebene Merkmalvektor zum Zeitpunkt (t - 1) ist und der Rauschen oder Schweigen darstellt, und Fp(t -1) ein Schweige- oder Rauschprototypvektor aus dem Speicher 24 ist, der die größte Annäherung zum Merkmalvektor F(t -1) hat.
  • Der frühere Merkmalvektor F(t - 1) wird als Rauschen oder Schweigen erkannt, falls (a) die Gesamtenergie des Vektors unter einer Schwelle liegt oder (b) der Prototypvektor im Anpassungsprototypvektorspeicher 36 mit der größten Annäherung an den Merkmalvektor ein Prototyp ist, der Rauschen oder Schweigen darstellt. Für die Analyse der Gesamtenergie des Merkmalvektors kann die Schwelle beispielsweise das fünfte Percentil aller Merkmalvektoren sein (sowohl Sprache als auch Schweigen entsprechend), die in den beiden Sekunden vor der Auswertung des Merkmalvektors erzeugt werden.
  • Nach der Rauschunterdrückung wird der Merkmalvektor F'(t) zur Anpassung an Änderungen der Lautstärke der eingegebenen Sprache durch den Normierungsprozessor 38 für kurzzeitige Mittelwerte normiert. Der Normierungsprozessor 38 normiert den einundzwanzigdimensionalen Merkmalvektor F'(t), um einen normierten einundzwanzigdimensionalen Merkmalvektor X(t) zu erzeugen. Die einundzwanzigste Dimension des Merkmalvektors F'(t), die die Gesamtamplitude oder die Gesamtenergie darstellt, wird gelöscht. Jede Komponente i des normierten Merkmalvektors X(t) zum Zeitpunkt t kann beispielsweise durch die folgende Gleichung im logarithmischen Bereich gegeben werden
  • Xi(t) = Fi(t) - Z(t)[16]
  • wobei F'i(t) die i-te Komponente des nicht normierten Vektors zum Zeitpunkt t ist und wobei Z(t) ein gewichtetes Mittel der Komponenten von F'(t) und Z(t -1) gemäß den Gleichungen 17 und 18 ist:
  • Z(t) 0.9 Z(t - 1) + 0.1 M(t) [17]
  • und wobei
  • M(t) = 1/20 Fi(t)[18]
  • Der normierte einundzwanzigdimensionale Merkmalvektor X(t) kann außerdem zur Anpassung an Änderungen bei der Aussprache von Sprachtönen durch eine adaptive Kennzeichnungseinrichtung 40 verarbeitet werden. Ein angepasster einundzwanzigdimensionaler Merkmalvektor X'(t) wird erzeugt, indem ein einundzwanzigdimensionaler Anpassungsvektor A(t) vom einundzwanzigdimensionalen Merkmalvektor X(t), der zum Eingang der adaptiven Kennzeichnungseinrichtung 40 gesendet wird, subtrahiert wird. Der Anpassungsvektor A(t) zum Zeitpunkt t kann beispielsweise durch die folgende Formel gegeben werden
  • wobei k ein feststehender Parameter des adaptiven Kennzeichnungsmodells, X(t - 1) der zum Zeitpunkt (t -1) in die adaptive Kennzeichnungseinrichtung 40 eingegebene, normierte einundzwanzigdimensionale Vektor, Xp(t - 1) der Anpassungsprototypvektor (aus dem Anpassungsprototypspeicher 36) mit der größten Annäherung an den einundzwanzigdimensionalen Merkmalvektor X(t - 1) zum Zeitpunkt (t - 1) und A(t - 1) der Anpassungsvektor zum Zeitpunkt (t - 1) ist.
  • Das angepasste einundzwanzigdimensionale Merkmalvektorsignal X'(t) aus der adaptiven Kennzeichnungseinrichtung 40 wird vorzugsweise zu einem Hörmodell (auditory model) 42 gesendet. Das Hörmodell 42 kann beispielsweise ein Modell davon bereitstellen, wie das menschliche Hörsystem Tonsignale wahrnimmt. Ein Beispiel eines Hörsystems wird in der US- Patentschrift 4 980 918 von Bahl et al. mit dem Titel "Speech Recognition System with Efficient Storage and Rapid Assembly of Phonological Graphs" beschrieben.
  • Vorzugsweise berechnet das Hörmodell 42 gemäß der Erfindung für jedes Frequenzband i des angepassten Merkmalvektorsignals X'(t) zum Zeitpunkt t einen neuen Parameter Ei(t) gemäß den Gleichungen 20 und 21:
  • Ei(t) = K&sub1; + K&sub2;(X'i(t))(Ni(t - 1))[20]
  • wobei
  • Ni(t) = K&sub3; · Ni(t - 1) - Ei(t - 1)[21]
  • und wobei K&sub1;, K&sub2; und K&sub3; feststehende Parameter des Hörmodells sind.
  • Für jedes Zentisekunden-Zeitintervall ist die Ausgabe des Hörmodells 42 ein geändertes einundzwanzigdimensionales Merkmalvektorsignal. Dieser Merkmalvektor wird durch eine einundzwanzigste Dimension mit einem Wert, der gleich der Quadratwurzel aus der Summe der Quadrate der anderen zwanzig Dimensionen ist, erhöht.
  • Für jedes Zentisekunden-Zeitintervall verkettet eine Verkettungseinrichtung 44 vorzugsweise neun einundzwanzigdimensionalen Merkmalvektoren, die das eine aktuelle Zentisekunden-Zeitintervall, die vier vorhergehenden Zentisekunden-Zeitintervalle und die vier folgenden Zentisekunden-Zeitintervalle darstellen, um einen einzigen verknüpften Vektor von 189 Dimensionen zu bilden. Jeder verknüpfte Vektor der 189 Dimensionen wird vorzugsweise in einem Drehoperator 46 mit einer Drehmatrix multipliziert, um den verknüpften Vektor zu drehen und um den verknüpften Vektor auf fünfzig Dimensionen zu reduzieren.
  • Die im Drehoperator 46 verwendete Drehmatrix kann beispielsweise erhalten werden, indem ein Satz verknüpfter Vektoren von 189 Dimensionen, die während einer Trainingssitzung erhalten werden, in M Klassen eingeteilt werden. Die Kovarianzmatrix wird für alle der verknüpften Vektoren im Trainingssatz mit dem Inversen der in der Klasse enthaltenen Kovarianzmatrix für alle der verknüpften Vektoren in allen M Klassen multipliziert. Die ersten fünfzig Eigenvektoren der resultierenden Matrix bilden die Drehmatrix. (Siehe zum Beispiel "Vector Quantization Procedure For Speech Recognition Systems Using Discrete Parameter Phoneme-Based Markov Word Models" von L.R. Bahl et al., IBM Technical Disclosure Bulletin, Band 32, Nr. 7, Dezember 1989, Seiten 320 und 321.)
  • Der Fenstergenerator 28, der Spektrumanalysator 30, der adaptive Rauschunterdrückungsprozessor 32, der Normierungsprozessor 38 für kurzzeitige Mittelwerte, die adaptive Kennzeichnungseinrichtung 40, das Hörmodell 42, die Verkettungseinrichtung 44 und der Drehoperator 46 können geeignet programmierte spezielle oder allgemeine digitale Signalprozessoren sein. Die Prototypspeicher 34 und 36 können elektronische Computerspeicher der oben erläuterten Typen sein.
  • Die Prototypvektoren im Prototypspeicher 34 können beispielsweise erhalten werden, indem die Merkmalvektorsignale aus einem Trainingssatz in eine Vielzahl von Zuordnungseinheiten eingeordnet und anschließend die Durchschnitts- und Standardabweichung für jede Zuordnungseinheit berechnet wird, um die Parameterwerte des Prototypvektors zu bilden. Wenn der Übungstext eine Folge von Wortsegmentmodellen (die ein Modell einer Folge von Worten bilden) und jedes Wortsegmentmodell eine Folge von Elementarmodellen mit angegebenen Positionen in den Wortsegmentmodellen umfasst, können die Merkmalvektorsignale in Gruppen geordnet werden, indem angegeben wird, dass jede Zuordnungseinheit einem einzigen Elementarmodell in einer einzigen Position in einem einzigen Wortsegmentmodell entspricht. Ein solches Verfahren wird in der US- Patentanmeldung mit der Seriennr. 730 714, eingereicht am 16. Juli 1991, mit dem Titel "Fast Algorithm for Deriving Acoustic Prototypes for Automatic Speech Recognition" ausführlicher beschrieben.
  • Alternativ können alle akustischen Merkmalvektoren, die durch die Äußerung eines Übungstextes erzeugt werden und die einem gegebenen Elementarmodell entsprechen, durch euklidische K- Mittelwert-Zuordnung oder Gaußsche K-Mittelwert-Zuordnung oder beides in Gruppen eingeordnet werden. Ein solches Verfahren wird beispielsweise von Bahl et al. in der US-Patentschrift 5 182 773 mit dem Titel "Speaker-Independent Label Coding Apparatus" beschrieben.

Claims (19)

1. Spracherkennungseinrichtung, die Folgendes umfasst:
einen Akustikprozessor (10) zum Messen des Wertes von mindestens einem Merkmal von jedem aus einer Folge von mindestens zwei Tönen, wobei der Akustikprozessor (10) den Wert des Merkmals jedes Tons während jedes aus einer Reihe aufeinanderfolgender Zeitintervalle misst, um eine Reihe von Merkmalsignalen zu erzeugen, die die Merkmalwerte des Tons darstellen;
Mittel (12) zum Speichern eines Satzes akustischer Befehlsmodelle, wobei jedes akustische Befehlsmodell eine oder mehrere Reihen akustischer Merkmalswerte darstellt, die eine Äußerung eines dem akustischen Befehlsmodell zugeordneten Befehls darstellen;
einen Vergleichswertprozessor (14) zum Erzeugen eines Vergleichswertes für jeden Ton und jedes von einem oder mehreren akustischen Befehlsmodellen aus dem Satz akustischer Befehlsmodelle, wobei jeder Vergleichswert eine Schätzung der Genauigkeit einer Übereinstimmung zwischen dem akustischen Befehlsmodell und einer Reihe dem Ton entsprechender Merkmalsignale umfasst;
gekennzeichnet durch:
Mittel (16) zum Ausgeben eines Erkennungssignals, das dem Befehlsmodell mit dem besten Vergleichswert für einen aktuellen Ton entspricht, falls der beste Vergleichswert für den aktuellen Ton besser als ein Erkennungsschwellenwert für den aktuellen Ton ist, wobei die Erkennungsschwelle für den aktuellen Ton Folgendes umfasst: (a) einen ersten Vertrauenswert, falls der beste Vergleichswert für einen früheren Ton besser als eine Erkennungsschwelle für diesen früheren Ton war, oder (b) einen zweiten Vertrauenswert, der besser als der erste Vertrauenswert ist, falls der beste Vergleichswert für einen früheren Ton schlechter als die Erkennungsschwelle für diesen früheren Ton war.
2. Spracherkennungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass der frühere Ton unmittelbar vor dem aktuellen Ton auftritt.
3. Spracherkennungsvorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass:
die Vorrichtung außerdem Mittel (20) zum Speichern von mindestens einem akustischen Schweigemodell umfasst, das eine oder mehrere Reihen akustischer Merkmalswerte darstellt, die das Nichtvorhandensein einer gesprochenen Äußerung darstellen;
der Vergleichswertprozessor (10) für jeden Ton und das akustische Schweigemodell einen Vergleichswert erzeugt, wobei jeder Vergleichswert eine Schätzung der Genauigkeit einer Übereinstimmung zwischen dem akustischen Schweigemodell und einer Reihe von dem Ton entsprechenden Merkmalsignalen umfasst; und
die Erkennungsschwelle für den aktuellen Ton den ersten Vertrauenswert umfasst, (a1) falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell besser als eine Schweigevergleichsschwelle ist und falls der frühere Ton eine Dauer aufweist, die eine Schweigedauerschwelle übersteigt, oder (a2) falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell besser als die Schweigevergleichsschwelle ist und falls der frühere Ton eine Dauer hat, die kürzer als die Schweigedauerschwelle ist und falls der beste Vergleichswert für den nächsten früheren Ton und ein akustisches Befehlsmodell besser als eine Erkennungsschwelle für diesen nächsten früheren Ton war, oder (a3) falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell schlechter als die Schweigevergleichsschwelle ist und falls der beste Vergleichswert für den früheren Ton und ein akustisches Befehlsmodell besser als eine Erkennungsschwelle für diesen früheren Ton war; oder
dass die Erkennungsschwelle für den aktuellen Ton den zweiten Vertrauenswert umfasst, der besser als der erste Vertrauenswert ist, (b1) falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell besser als die Schweigevergleichsschwelle ist und falls der frühere Ton eine Dauer hat, die kürzer als die Schweigedauerschwelle ist, und falls der beste Vergleichswert für den nächsten früheren Ton und ein akustisches Befehlsmodell schlechter als die Erkennungsschwelle für diesen nächsten früheren Ton war, oder (b2) falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell schlechter als die Schweigevergleichsschwelle ist und falls der beste Vergleichswert für den früheren Ton und ein akustisches Befehlsmodell schlechter als die Erkennungsschwelle für diesen früheren Ton war.
4. Spracherkennungsvorrichtung nach Anspruch 3, dadurch gekennzeichnet, dass das Erkennungssignal ein Befehlssignal zum Aufrufen eines dem Befehl zugeordneten Programms umfasst.
5. Spracherkennungsvorrichtung nach Anspruch 4, dadurch gekennzeichnet, dass:
das Ausgabemittel (16) eine Anzeige umfasst; und
das Ausgabemittel (16) eines oder mehrere Worte anzeigt, die dem Befehlsmodell mit dem besten Vergleichswert für einen aktuellen Ton entsprechen, falls der beste Vergleichswert für den aktuellen Ton besser als der Erkennungsschwellenwert für den aktuellen Ton ist.
6. Spracherkennungsvorrichtung nach Anspruch 5, dadurch gekennzeichnet, dass das Ausgabemittel (16) ein Anzeigesignal für einen nicht erkennbaren Ton ausgibt, falls der beste Vergleichswert für den aktuellen Ton schlechter als der Erkennungsschwellenwert für den aktuellen Ton ist.
7. Spracherkennungsvorrichtung nach Anspruch 6, dadurch gekennzeichnet, dass das Ausgabemittel (16) eine Anzeige für einen nicht erkennbaren Ton anzeigt, falls der beste Vergleichswert für den aktuellen Ton schlechter als der Erkennungsschwellenwert für den aktuellen Ton ist.
8. Spracherkennungsvorrichtung nach Anspruch 7, dadurch gekennzeichnet, dass die Anzeige für einen nicht erkennbaren Ton ein oder mehrere Fragezeichen umfasst.
9. Spracherkennungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass der Akustikprozessor (10) ein Mikrofon (24) umfasst.
10. Spracherkennungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass:
jeder Ton einen Vokalton umfasst; und
jeder Befehl mindestens ein Wort umfasst.
11. Spracherkennungsverfahren, das die folgenden Schritte umfasst:
Messen des Wertes von mindestens einem Merkmal von jedem aus einer Folge von mindestens zwei Tönen, wobei der Wert des Merkmals jedes Tons während jeder aus einer Reihe aufeinanderfolgender Zeitintervalle gemessen wird, um eine Reihe von Merkmalsignalen zu erzeugen, die die Merkmalwerte des Tons darstellen;
Speichern eines Satzes akustischer Befehlsmodelle, wobei jedes akustische Befehlsmodell eine oder mehrere Reihen akustischer Merkmalswerte darstellt, die eine Äußerung eines dem akustischen Befehlsmodell zugeordneten Befehls darstellen;
Erzeugen eines Vergleichswertes für jeden Ton und jedes von einem oder mehreren akustischen Befehlsmodellen aus dem Satz akustischer Befehlsmodelle, wobei jeder Vergleichswert eine Schätzung der Genauigkeit einer Übereinstimmung zwischen dem akustischen Befehlsmodell und einer Reihe dem Ton entsprechender Merkmalsignale umfasst;
gekennzeichnet durch
das Ausgeben eines Erkennungssignals, das dem Befehlsmodell mit dem besten Vergleichswert für einen aktuellen Ton entspricht, falls der beste Vergleichswert für den aktuellen Ton besser als ein Erkennungsschwellenwert für den aktuellen Ton ist, wobei die Erkennungsschwelle für den aktuellen Ton Folgendes umfasst: (a) ein erster Vertrauenswert, falls der beste Vergleichswert für einen früheren Ton besser als eine Erkennungsschwelle für diesen früheren Ton war, oder (b) ein zweiter Vertrauenswert, der besser als der erste Vertrauenswert ist, falls der beste Vergleichswert für einen früheren Ton schlechter als die Erkennungsschwelle für diesen früheren Ton war.
12. Spracherkennungsverfahren nach Anspruch 11, dadurch gekennzeichnet, dass der frühere Ton unmittelbar vor dem aktuellen Ton auftritt.
13. Spracherkennungsverfahren nach Anspruch 12, das außerdem die folgenden Schritte umfasst:
Speichern von mindestens einem akustischen Schweigemodell, das eine oder mehrere Reihen akustischer Merkmalswerte darstellt, die das Nichtvorhandensein einer gesprochenen Äußerung darstellen;
Erzeugen eines Vergleichswertes für jeden Ton und das akustische Schweigemodell, wobei jeder Vergleichswert eine Schätzung der Genauigkeit einer Übereinstimmung zwischen dem akustischen Schweigemodell und einer Reihe von dem Ton entsprechenden Merkmalsignalen umfasst; und das dadurch gekennzeichnet ist, dass
die Erkennungsschwelle für den aktuellen Ton den ersten Vertrauenswert umfasst, (a1) falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell besser als eine Schweigevergleichsschwelle ist und falls der frühere Ton eine Dauer aufweist, die eine Schweigedauerschwelle übersteigt, oder (a2) falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell besser als die Schweigevergleichsschwelle ist und falls der frühere Ton eine Dauer hat, die kürzer als die Schweigedauerschwelle ist und falls der beste Vergleichswert für den nächsten früheren Ton und ein akustisches Befehlsmodell besser als eine Erkennungsschwelle für diesen nächsten früheren Ton war, oder (a3) falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell schlechter als die Schweigevergleichsschwelle ist und falls der beste Vergleichswert für den früheren Ton und ein akustisches Befehlsmodell besser als eine Erkennungsschwelle für diesen früheren Ton war; oder dass die Erkennungsschwelle für den aktuellen Ton den zweiten Vertrauenswert umfasst, der besser als der erste Vertrauenswert ist, (b1) falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell besser als die Schweigevergleichsschwelle ist und falls der frühere Ton eine Dauer hat, die kürzer als die Schweigedauerschwelle ist, und falls der beste Vergleichswert für den nächsten früheren Ton und ein akustisches Befehlsmodell schlechter als die Erkennungsschwelle für diesen nächsten früheren Ton war, oder (b2) falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell schlechter als die Schweigevergleichsschwelle ist und falls der beste Vergleichswert für den früheren Ton und ein akustisches Befehlsmodell schlechter als die Erkennungsschwelle für diesen früheren Ton war.
14. Spracherkennungsverfahren nach Anspruch 13, dadurch gekennzeichnet, dass das Erkennungssignal ein Befehlssignal zum Aufrufen eines dem Befehl zugeordneten Programms umfasst.
15. Spracherkennungsverfahren nach Anspruch 14, das außerdem den Schritt des Anzeigens eines oder mehrerer Worte umfasst, die dem Befehlsmodell mit dem besten Vergleichswert für einen aktuellen Ton entsprechen, falls der beste Vergleichswert für den aktuellen Ton besser als der Erkennungsschwellenwert für den aktuellen Ton ist.
16. Spracherkennungsverfahren nach Anspruch 15, das außerdem den Schritt des Ausgebens eines Anzeigesignals für einen nicht erkennbaren Ton umfasst, falls der beste Vergleichswert für den aktuellen Ton schlechter als der Erkennungsschwellenwert für den aktuellen Ton ist.
17. Spracherkennungsverfahren nach Anspruch 16, das außerdem den Schritt des Anzeigens einer Anzeige für einen nicht erkennbaren Ton umfasst, falls der beste Vergleichswert für den aktuellen Ton schlechter als der Erkennungsschwellenwert für den aktuellen Ton ist.
18. Spracherkennungsverfahren nach Anspruch 17, dadurch gekennzeichnet, dass die Anzeige für einen nicht erkennbaren Ton eines oder mehrere Fragezeichen umfasst.
19. Spracherkennungsverfahren nach Anspruch 11, dadurch gekennzeichnet, dass
jeder Ton einen Vokalton umfasst; und
jeder Befehl mindestens ein Wort umfasst.
DE69425776T 1993-05-18 1994-03-28 Spracherkennungseinrichtung mit verbesserter Ausschliessung von Wörtern und Tönen welche nicht im Vokabular enthalten sind Expired - Fee Related DE69425776T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/062,972 US5465317A (en) 1993-05-18 1993-05-18 Speech recognition system with improved rejection of words and sounds not in the system vocabulary

Publications (2)

Publication Number Publication Date
DE69425776D1 DE69425776D1 (de) 2000-10-12
DE69425776T2 true DE69425776T2 (de) 2001-04-12

Family

ID=22046061

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69425776T Expired - Fee Related DE69425776T2 (de) 1993-05-18 1994-03-28 Spracherkennungseinrichtung mit verbesserter Ausschliessung von Wörtern und Tönen welche nicht im Vokabular enthalten sind

Country Status (4)

Country Link
US (1) US5465317A (de)
EP (1) EP0625775B1 (de)
JP (1) JP2642055B2 (de)
DE (1) DE69425776T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004001863A1 (de) * 2004-01-13 2005-08-11 Siemens Ag Verfahren und Vorrichtung zur Bearbeitung eines Sprachsignals

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5920837A (en) * 1992-11-13 1999-07-06 Dragon Systems, Inc. Word recognition system which stores two models for some words and allows selective deletion of one such model
DE4412745A1 (de) * 1994-04-14 1996-11-07 Philips Patentverwaltung Verfahren zum Ermitteln einer Folge von Wörtern und Anordnung zur Durchführung des Verfahrens
DE19508711A1 (de) * 1995-03-10 1996-09-12 Siemens Ag Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind
US5978756A (en) * 1996-03-28 1999-11-02 Intel Corporation Encoding audio signals using precomputed silence
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
US6026359A (en) * 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
US6212498B1 (en) 1997-03-28 2001-04-03 Dragon Systems, Inc. Enrollment in speech recognition
US6101472A (en) * 1997-04-16 2000-08-08 International Business Machines Corporation Data processing system and method for navigating a network using a voice command
US5893059A (en) * 1997-04-17 1999-04-06 Nynex Science And Technology, Inc. Speech recoginition methods and apparatus
US6163768A (en) 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
JP2000020089A (ja) * 1998-07-07 2000-01-21 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置、並びに音声制御システム
US8275617B1 (en) 1998-12-17 2012-09-25 Nuance Communications, Inc. Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands
US6233560B1 (en) 1998-12-16 2001-05-15 International Business Machines Corporation Method and apparatus for presenting proximal feedback in voice command systems
US6192343B1 (en) 1998-12-17 2001-02-20 International Business Machines Corporation Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms
US6937984B1 (en) 1998-12-17 2005-08-30 International Business Machines Corporation Speech command input recognition system for interactive computer display with speech controlled display of recognized commands
US7206747B1 (en) 1998-12-16 2007-04-17 International Business Machines Corporation Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands
US6253177B1 (en) * 1999-03-08 2001-06-26 International Business Machines Corp. Method and system for automatically determining whether to update a language model based upon user amendments to dictated text
US6345254B1 (en) * 1999-05-29 2002-02-05 International Business Machines Corp. Method and apparatus for improving speech command recognition accuracy using event-based constraints
GB9913773D0 (en) * 1999-06-14 1999-08-11 Simpson Mark C Speech signal processing
US6334102B1 (en) * 1999-09-13 2001-12-25 International Business Machines Corp. Method of adding vocabulary to a speech recognition system
US6556969B1 (en) * 1999-09-30 2003-04-29 Conexant Systems, Inc. Low complexity speaker verification using simplified hidden markov models with universal cohort models and automatic score thresholding
US7031923B1 (en) 2000-03-06 2006-04-18 International Business Machines Corporation Verbal utterance rejection using a labeller with grammatical constraints
GB2364814A (en) * 2000-07-12 2002-02-06 Canon Kk Speech recognition
JP3670217B2 (ja) * 2000-09-06 2005-07-13 国立大学法人名古屋大学 雑音符号化装置、雑音復号装置、雑音符号化方法および雑音復号方法
US20020107695A1 (en) * 2001-02-08 2002-08-08 Roth Daniel L. Feedback for unrecognized speech
US7739115B1 (en) 2001-02-15 2010-06-15 West Corporation Script compliance and agent feedback
US6985859B2 (en) * 2001-03-28 2006-01-10 Matsushita Electric Industrial Co., Ltd. Robust word-spotting system using an intelligibility criterion for reliable keyword detection under adverse and unknown noisy environments
US6792408B2 (en) * 2001-06-12 2004-09-14 Dell Products L.P. Interactive command recognition enhancement system and method
US7136813B2 (en) * 2001-09-25 2006-11-14 Intel Corporation Probabalistic networks for detecting signal content
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
US7003458B2 (en) * 2002-01-15 2006-02-21 General Motors Corporation Automated voice pattern filter
US8036893B2 (en) 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US20060069562A1 (en) * 2004-09-10 2006-03-30 Adams Marilyn J Word categories
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US20070219792A1 (en) * 2006-03-20 2007-09-20 Nu Echo Inc. Method and system for user authentication based on speech recognition and knowledge questions
US8275615B2 (en) * 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
US8520983B2 (en) 2009-10-07 2013-08-27 Google Inc. Gesture-based selective text recognition
US8515185B2 (en) * 2009-11-25 2013-08-20 Google Inc. On-screen guideline-based selective text recognition
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US9589564B2 (en) 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
WO2016039847A1 (en) * 2014-09-11 2016-03-17 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup
US9335966B2 (en) 2014-09-11 2016-05-10 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup
US9354687B2 (en) 2014-09-11 2016-05-31 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup with time-correlated acoustic events
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
CN111583907B (zh) * 2020-04-15 2023-08-15 北京小米松果电子有限公司 信息处理方法、装置及存储介质
CN112951219A (zh) * 2021-02-01 2021-06-11 思必驰科技股份有限公司 噪声拒识方法和装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
CA1116300A (en) * 1977-12-28 1982-01-12 Hiroaki Sakoe Speech recognition system
US4352957A (en) * 1980-03-17 1982-10-05 Storage Technology Corporation Speech detector circuit with associated gain control for a tasi system
JPS57202597A (en) * 1981-06-08 1982-12-11 Tokyo Shibaura Electric Co Voice recognizer
US4410763A (en) * 1981-06-09 1983-10-18 Northern Telecom Limited Speech detector
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
GB8517918D0 (en) * 1985-07-16 1985-08-21 British Telecomm Recognition system
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
DE3876379T2 (de) * 1987-10-30 1993-06-09 Ibm Automatische bestimmung von kennzeichen und markov-wortmodellen in einem spracherkennungssystem.
IT1229725B (it) * 1989-05-15 1991-09-07 Face Standard Ind Metodo e disposizione strutturale per la differenziazione tra elementi sonori e sordi del parlato
EP0438662A2 (de) * 1990-01-23 1991-07-31 International Business Machines Corporation Einrichtung und Verfahren zur Gruppierung von Äusserungen eines Phonemen in von Kontexten abhängigen Kategorien, die auf Tonähnlichkeit basiert sind für automatische Spracherkennung
US5182773A (en) * 1991-03-22 1993-01-26 International Business Machines Corporation Speaker-independent label coding apparatus
JPH04362698A (ja) * 1991-06-11 1992-12-15 Canon Inc 音声認識方法及び装置
US5276766A (en) * 1991-07-16 1994-01-04 International Business Machines Corporation Fast algorithm for deriving acoustic prototypes for automatic speech recognition
US5280562A (en) * 1991-10-03 1994-01-18 International Business Machines Corporation Speech coding apparatus with single-dimension acoustic prototypes for a speech recognizer

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004001863A1 (de) * 2004-01-13 2005-08-11 Siemens Ag Verfahren und Vorrichtung zur Bearbeitung eines Sprachsignals

Also Published As

Publication number Publication date
JP2642055B2 (ja) 1997-08-20
US5465317A (en) 1995-11-07
EP0625775A1 (de) 1994-11-23
DE69425776D1 (de) 2000-10-12
EP0625775B1 (de) 2000-09-06
JPH06332495A (ja) 1994-12-02

Similar Documents

Publication Publication Date Title
DE69425776T2 (de) Spracherkennungseinrichtung mit verbesserter Ausschliessung von Wörtern und Tönen welche nicht im Vokabular enthalten sind
DE69226594T2 (de) Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt.
DE69315374T2 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE69010722T2 (de) Spracherkennungssystem.
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE69427083T2 (de) Spracherkennungssystem für mehrere sprachen
DE69127961T2 (de) Verfahren zur Spracherkennung
DE3878071T2 (de) Sprachnormierung durch adaptive klassifizierung.
DE3783154T2 (de) Spracherkennungssystem.
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69225371T2 (de) Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier "Hidden Markov" Modelle
DE69420888T2 (de) Interaktives Rechnersystem, das gesprochene Befehle erkennt
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE69423692T2 (de) Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln
DE4397106B4 (de) Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung
DE69033084T2 (de) Schaltung zur Spracherkennung unter Anwendung von nichtlinearer Verarbeitung, Sprachelementmodellierung und Phonembewertung
DE69524036T2 (de) Vorrichtung zur erkennung von gesprächsthemen
DE69321656T2 (de) Verfahren zur Spracherkennung
DE69224253T2 (de) Sprachkodiergerät

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8328 Change in the person/name/address of the agent

Representative=s name: DUSCHER, R., DIPL.-PHYS. DR.RER.NAT., PAT.-ANW., 7

8339 Ceased/non-payment of the annual fee