DE69425776T2 - Spracherkennungseinrichtung mit verbesserter Ausschliessung von Wörtern und Tönen welche nicht im Vokabular enthalten sind - Google Patents
Spracherkennungseinrichtung mit verbesserter Ausschliessung von Wörtern und Tönen welche nicht im Vokabular enthalten sindInfo
- Publication number
- DE69425776T2 DE69425776T2 DE69425776T DE69425776T DE69425776T2 DE 69425776 T2 DE69425776 T2 DE 69425776T2 DE 69425776 T DE69425776 T DE 69425776T DE 69425776 T DE69425776 T DE 69425776T DE 69425776 T2 DE69425776 T2 DE 69425776T2
- Authority
- DE
- Germany
- Prior art keywords
- tone
- acoustic
- silence
- sound
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000007717 exclusion Effects 0.000 title 1
- 238000001514 detection method Methods 0.000 claims description 64
- 238000000034 method Methods 0.000 claims description 20
- 241000590419 Polygonia interrogationis Species 0.000 claims description 4
- 239000013598 vector Substances 0.000 description 62
- 230000015654 memory Effects 0.000 description 19
- 230000003044 adaptive effect Effects 0.000 description 9
- 230000007704 transition Effects 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
- Die Erfindung betrifft die Computerspracherkennung, insbesondere die Erkennung gesprochener Computerbefehle. Wenn ein gesprochener Befehl erkannt wird, führt der Computer eine oder mehrere dem Befehl zugeordnete Funktionen aus.
- Im Allgemeinen besteht eine Spracherkennungsvorrichtung aus einem Akustikprozessor und einem gespeicherten Satz akustischer Modelle. Der Akustikprozessor misst Tonmerkmale einer Äußerung. Jedes akustische Modell stellt die akustischen Merkmale einer Äußerung eines oder mehrerer dem Modell zugeordneter Worte dar. Die Tonmerkmale der Äußerung werden .mit jedem akustischen Modell verglichen, um einen Vergleichswert zu erzeugen. Der Vergleichswert für eine Äußerung und ein akustisches Modell ist eine Schätzung der Genauigkeit der Tonmerkmale der Äußerung im Vergleich zum akustischen Modell.
- Das Wort bzw. die Worte, die dem akustischen Modell mit dem besten Vergleichswert zugeordnet werden, können als Erkennungsergebnis ausgewählt werden. Alternativ kann der akustische Vergleichswert mit anderen Vergleichswerten kombiniert werden, beispielsweise mit zusätzlichen akustischen Vergleichswerten und Sprachmodellvergleichswerten. Das Wort bzw. die Worte, die dem(den) akustischen Modell(en) mit dem besten kombinierten Vergleichswert zugeordnet werden, können als Erkennungsergebnis ausgewählt werden.
- Bei Befehls- und Steueranwendungen erkennt die Spracherkennungsvorrichtung vorzugsweise einen geäußerten Befehl, und das Computersystem führt den Befehl anschließend sofort aus, um eine dem erkannten Befehl zugeordnete Funktion auszuführen. Zu diesem Zweck kann der Befehl, der dem akustischen Modell mit dem besten Vergleichswert zugeordnet wird, als Erkennungsergebnis ausgewählt werden.
- Ein schwerwiegendes Problem bei solchen Systemen besteht jedoch darin, dass unbeabsichtigte Töne, beispielsweise Husten, Seufzer oder gesprochene Worte, die nicht zur Erkennung vorgesehen sind, fälschlicherweise als gültige Befehle erkannt werden. Das Computersystem führt die falsch erkannten Befehle sodann sofort aus, um die zugeordneten Funktionen mit unbeabsichtigten Folgen auszuführen.
- US-A-4 239 936 beschreibt ein Spracherkennungssystem, in dem die Intensität von Umgebungsgeräusch parallel zu den eingegebenen Sprachsignalen gemessen wird, wobei jedes dem eingegebenen Sprachsignal zugeordnetes Erkennungsergebnis zurückgewiesen wird, wenn die Intensität des Geräusches einen festgelegten Standardwert überschreitet.
- Eine Aufgabe der Erfindung ist die Bereitstellung einer Vorrichtung und eines Verfahrens zur Spracherkennung, das eine hohe Wahrscheinlichkeit aufweist, akustische Übereinstimmungen mit unbeabsichtigten Tönen oder gesprochenen Worten, die nicht für die Spracherkennungseinrichtung vorgesehen sind, auszuschließen.
- Eine andere Aufgabe der Erfindung ist die Bereitstellung einer Vorrichtung und eines Verfahrens zur Spracherkennung, das das akustische Modell kennzeichnet, das am besten mit einem Ton übereinstimmt und das eine hohe Wahrscheinlichkeit hat, das am besten übereinstimmende akustische Modell auszuschließen, falls der Ton unbeabsichtigt oder nicht für die Spracherkennungseinrichtung vorgesehen ist, das jedoch eine hohe Wahrscheinlichkeit hat, das am besten übereinstimmende akustische Modell anzunehmen, falls der Ton ein oder mehrere zur Erkennung vorgesehene Worte darstellt.
- Eine Spracherkennungsvorrichtung gemäß der Erfindung umfasst einen Akustikprozessor zum Messen des Wertes von mindestens einem Merkmal von jeder aus einer Folge von mindestens zwei Tönen. Der Akustikprozessor misst den Wert des Merkmals von jedem Ton während jeder aus einer Reihe aufeinanderfolgender Zeitintervalle, um eine Folge von Merkmalsignalen zu erzeugen, die die Merkmalwerte des Tons darstellen. Außerdem werden Mittel zur Speicherung eines Satzes akustischer Merkmale bereitgestellt. Jedes akustische Befehlsmodell stellt eine oder mehrere Folgen akustischer Merkmalwerte dar, die eine Äußerung eines dem akustischen Befehlsmodell zugeordneten Befehls darstellen.
- Ein Vergleichswertprozessor erzeugt einen Vergleichswert für jeden Ton und jedes von einem oder mehreren Befehlsmodellen aus dem Satz akustischer Befehlsmodelle. Jeder Vergleichswert umfasst eine Schätzung der Genauigkeit einer Übereinstimmung zwischen dem akustischen Befehlsmodell und einer Reihe dem Ton entsprechender Merkmalsignale. Es werden Mittel zum Ausgeben eines Erkennungssignals bereitgestellt, das dem Befehlsmodell mit dem besten Vergleichswert für einen aktuellen Ton entspricht, falls der beste Vergleichswert für den aktuellen Ton besser als ein Erkennungsschwellenwert für den aktuellen Ton ist. Die Erkennungsschwelle für den aktuellen Ton umfasst (a) einen ersten Vertrauenswert, falls der beste Vergleichswert für einen früheren Ton besser als eine Erkennungsschwelle für diesen früheren Ton war, oder (b) einen zweiten Vertrauenswert, der besser als der erste Vertrauenswert ist, falls der beste Vergleichswert für einen früheren Ton schlechter als die Erkennungsschwelle für diesen früheren Ton war.
- Vorzugsweise tritt der frühere Ton unmittelbar vor dem aktuellen Ton auf.
- Eine Spracherkennungsvorrichtung gemäß der Erfindung kann außerdem Mittel zur Speicherung von mindestens einem akustischen Schweigemodell umfassen, das eine oder mehrere Folgen akustischer Merkmalwerte darstellt, die das Fehlen einer gesprochenen Äußerung darstellen. Der Vergleichswertprozessor erzeugt außerdem einen Vergleichswert für jeden Ton und das akustische Schweigemodell. Jeder Schweigevergleichswert umfasst eine Schätzung der Genauigkeit einer Übereinstimmung zwischen dem akustischen Schweigemodell und einer Reihe dem Ton entsprechender Merkmalsignale.
- In diesem Aspekt der Erfindung umfasst die Erkennungsschwelle für den aktuellen Ton den ersten Vertrauenswert (a1), falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell besser als eine Schweigevergleichsschwelle ist, und falls der frühere Ton eine Dauer hat, die eine Schweigedauerschwelle überschreitet, oder (a2) falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell besser als die Schweigevergleichsschwelle ist und falls der frühere Ton eine Dauer hat, die geringer als die Schweigedauerschwelle ist, und falls der beste Vergleichswert für den nächsten früheren Ton und ein akustisches Befehlsmodell besser als eine Erkennungsschwelle für diesen nächsten früheren Ton war, oder (a3) falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell schlechter als die Schweigevergleichsschwelle ist, und falls der beste Vergleichswert für den früheren Ton und ein akustisches Befehlsmodell besser als eine Erkennungsschwelle für diesen früheren Ton war.
- Die Erkennungsschwelle für den aktuellen Ton umfasst den zweiten Vertrauenswert, der besser als der erste Vertrauenswert ist, (b1) falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell besser als die Schweigevergleichsschwelle ist, und falls der frühere Ton eine Dauer hat, die geringer als die Schweigedauerschwelle ist, und falls der beste Vergleichswert für den nächsten früheren Ton und ein akustisches Befehlsmodell schlechter als die Erkennungsschwelle für diesen nächsten früheren Ton war, oder (b2) falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell schlechter als die Schweigevergleichsschwelle ist, und falls der beste Vergleichswert für den früheren Ton und ein akustisches Befehlsmodell schlechter als die Erkennungsschwelle für diesen früheren Ton war.
- Das Erkennungssignal kann beispielsweise ein Befehlssignal zum Aufrufen eines dem Befehl zugeordneten Programms sein. In einem Aspekt der Erfindung umfasst das Ausgabemittel eine Anzeige, und das Ausgabemittel zeigt ein oder mehrere Worte an, die dem Befehlsmodell mit dem besten Vergleichswert für einen aktuellen Ton entsprechen, falls der beste Vergleichswert für den aktuellen Ton besser als der Erkennungsschwellenwert für den aktuellen Ton ist.
- In einem anderen Aspekt der Erfindung gibt das Ausgabemittel ein Anzeigesignal für einen nicht erkennbaren Ton aus, falls der beste Vergleichswert für den aktuellen Ton schlechter als der Erkennungsschwellenwert für den aktuellen Ton ist. Das Ausgabemittel kann beispielsweise eine Anzeige für einen nicht erkennbaren Ton ausgeben, falls der beste Vergleichswert für den aktuellen Ton schlechter als der Erkennungsschwellenwert für den aktuellen Ton ist. Die Anzeige für einen nicht erkennbaren Ton kann beispielsweise ein oder mehrere Fragezeichen umfassen.
- Der Akustikprozessor in der Spracherkennungsvorrichtung gemäß der Erfindung kann u. a. ein Mikrofon umfassen. Jeder Ton kann beispielsweise ein Vokalton sein, und jeder Befehl kann mindestens ein Wort umfassen.
- Gemäß einem weiteren Aspekt der Erfindung wird ein Spracherkennungsverfahren bereitgestellt, wie es in Anspruch 11 definiert wird.
- Gemäß der Erfindung können akustische Vergleichsprozessoren folglich in drei Kategorien unterteilt werden. Wenn der beste Vergleichswert besser als ein "guter" Vertrauenswert ist, entspricht das Wort bzw. die Worte, die dem akustischen Modell mit dem besten Vergleichswert entsprechen, fast immer den gemessenen Tönen. Andererseits entspricht das Wort, das dem akustischen Modell mit dem besten Vergleichswert entspricht, fast nie den gemessenen Tönen, falls der beste Vergleichswert schlechter als ein "schlechter" Vertrauenswert ist. Wenn der beste Vergleichswert besser als der "schlechte" Vertrauenswert, jedoch schlechter als der "gute" Vertrauenswert ist, entspricht das Wort, das dem akustischen Modell mit dem besten Vergleichswert entspricht, mit hoher Wahrscheinlichkeit dem gemessenen Ton, wenn für das zuvor erkannte Wort angenommen wurde, da es eine hohe Wahrscheinlichkeit hat, dem vorhergehenden Ton zu entsprechen. Wenn der beste Vergleichswert besser als der "schlechte" Vertrauenswert, jedoch schlechter als der "gute" Vertrauenswert ist, entspricht das Wort, das dem akustischen Modell mit dem besten Vergleichswert entspricht, mit geringer Wahrscheinlichkeit dem gemessenen Ton, wenn das zuvor erkannte Wort ausgeschlossen wurde, da es eine geringe Wahrscheinlichkeit hat, dem Vorhergehenden Ton zu entsprechen. Falls jedoch zwischen einem zuvor ausgeschlossenen Wort und dem aktuellen Wort mit dem besten Vergleichswert, der besser als der "schlechte" Vertrauenswert, jedoch schlechter als der "gute" Vertrauenswert ist, genügend Schweigen liegt, wird das aktuelle Wort ebenfalls mit einer hohen Wahrscheinlichkeit, dem gemessenen aktuellen Ton zu entsprechen, angenommen.
- Durch die Annahme der Vertrauenswerte gemäß der Erfindung haben eine Vorrichtung und ein Verfahren zur Spracherkennung eine hohe Wahrscheinlichkeit, akustische Übereinstimmungen mit unbeabsichtigten Tönen oder gesprochenen Worten, die nicht für die Spracherkennungseinrichtung vorgesehen sind, auszuschließen. Das heißt, durch die Annahme der Vertrauenswerte gemäß der Erfindung haben eine Vorrichtung und ein Verfahren zur Spracherkennung, die das akustische Modell mit der besten Übereinstimmung mit einem Ton kennzeichnen, eine hohe Wahrscheinlichkeit, das am besten übereinstimmende akustische Modell auszuschließen, falls der Ton unbeabsichtigt oder nicht für die Spracherkennungseinrichtung vorgesehen ist, und eine hohe Wahrscheinlichkeit, das am besten übereinstimmende akustische Modell anzunehmen, falls der Ton ein oder mehrere Worte darstellt, die für die Spracherkennungseinrichtung vorgesehen sind.
- Fig. 1 ist ein Blockschaltbild eines Beispiels einer Spracherkennungsvorrichtung gemäß der Erfindung.
- Fig. 2 zeigt schematisch ein Beispiel eines akustischen Befehlsmodells.
- Fig. 3 zeigt schematisch ein Beispiel eines akustischen Schweigemodells.
- Fig. 4 zeigt schematisch ein Beispiel des akustischen Schweigemodells von Fig. 3, das mit dem Ende des akustischen Befehlsmodells von Fig. 2 verkettet ist.
- Fig. 5 zeigt schematisch die Status und möglichen Übergänge zwischen Status für das kombinierte akustische Modell von Fig. 4 zu jedem aus einer Anzahl von Zeitpunkten t.
- Fig. 6 ist ein Blockschaltbild eines Beispiels des Akustikprozessors von Fig. 1.
- Mit Bezugnahme auf Fig. 1 umfasst die Spracherkennungsvorrichtung gemäß der Erfindung einen Akustikprozessor 10 zum Messen des Wertes von mindestens einem Merkmal von jedem aus einer Folge von mindestens zwei Tönen. Der Akustikprozessor 10 misst den Wert des Merkmals jedes Tons während jedes aus einer Reihe aufeinanderfolgender Zeitintervalle, um eine Reihe von Merkmalsignalen zu erzeugen, die die Merkmalwerte des Tons darstellen.
- Wie unten ausführlicher beschrieben wird, kann der Akustikprozessor beispielsweise die Amplitude jedes Tons in einem oder mehreren Frequenzbändern während einer Folge von Zeitintervallen von zehn Millisekunden messen, um eine Folge von Merkmalvektorsignalen zu erzeugen, die die Amplitudenwerte des Tons darstellen. Bei Bedarf können die Merkmalvektorsignale quantisiert werden, indem jedes Merkmalvektorsignal durch ein Prototypvektorsignal aus einem Satz von Prototypvektorsignalen ersetzt wird, das am besten mit dem Merkmalvektorsignal übereinstimmt. Jedes Prototypvektorsignal hat eine Kennzeichnung, und folglich erzeugt der Akustikprozessor in diesem Fall eine Reihe von Kennzeichnungssignalen, die die Merkmalwerte des Tons darstellen.
- Die Spracherkennungsvorrichtung umfasst außerdem einen Speicher 12 für akustische Befehlsmodelle zur Speicherung eines Satzes akustischer Befehlsmodelle. Jedes akustische Befehlsmodell stellt eine oder mehrere Folgen akustischer Merkmalwerte dar, die eine Äußerung eines dem akustischen Befehlsmodell zugeordneten Befehls darstellen.
- Die gespeicherten akustischen Befehlsmodelle können beispielsweise Markow-Modelle oder andere dynamische Programmiermodelle sein. Die Parameter der akustischen Befehlsmodelle können aus einem bekannten Übungstext geschätzt werden, beispielsweise durch Glättungsparameter, die durch den Vorwärts-Rückwärts-Algorithmus erhalten werden. (Siehe beispielsweise F. Jelinek, "Continous Speech Recognition by Statistical Methods." Proceedings of the IEEE, Band 64, Nr. 4, April 1976, Seiten 532 bis 556.)
- Vorzugsweise stellt jedes akustische Befehlsmodell einen isolierten, gesprochenen Befehl dar (das heißt, unabhängig vom Kontext früherer und nachfolgender Äußerungen). Kontextunabhängige akustische Befehlsmodelle können beispielsweise manuell aus Modellen von Phonemen oder automatisch erzeugt werden, beispielsweise durch das von Lalit R. Bahl et al. in der US-Patentschrift 4 759 068, mit dem Titel "Constructing Markov Models of Words From Multiple Utterances", beschriebene Verfahren oder durch jedes andere bekannte Verfahren zur Erzeugung kontextunabhängiger Modelle.
- Alternativ können kontextabhängige Modelle aus kontextunabhängigen Modellen erzeugt werden, indem Äußerungen eines Befehls in kontextabhängige Kategorien gruppiert werden. Ein Kontext kann zum Beispiel manuell oder automatisch ausgewählt werden, indem jedes einem Befehl entsprechende Merkmalsignal mit seinem Kontext gekennzeichnet wird und indem die Merkmalsignale gemäß ihrem Kontext gruppiert werden, um eine ausgewählte Bewertungsfunktion zu optimieren. (Siehe beispielsweise Lalit R. Bahl et al., "Apparatus and Method of Grouping Utterances of a Phoneme into Context-Dependent Categories Based an Sound-Similarity for Automatic Speech Recognition.", US-Patentschrift 5 195 167.)
- Fig. 2 zeigt schematisch ein Beispiel eines hypothetischen akustischen Befehlsmodells. In diesem Beispiel umfasst das akustische Befehlsmodell vier Status S1, S2, S3 und S4, die in Fig. 2 als Punkte dargestellt werden. Das Modell beginnt beim Anfangsstatus S1 und endet beim letzten Status S4. Die gestrichelten Nullübergänge bedeuten, dass kein akustisches Merkmalsignal vom Akustikprozessor 10 ausgegeben wurde. Jedem Übergang mit durchgezogener Linie entspricht eine Ausgabewahrscheinlichkeitsverteilung über alle vom Akustikprozessor 10 erzeugten Merkmalvektorsignale oder Kennzeichnungssignale. Für jeden Status des Modells gibt es eine entsprechende Wahrscheinlichkeitsverteilung über die Übergänge aus diesem Status heraus.
- Wiederum mit Bezugnahme auf Fig. 1 umfasst die Spracherkennungsvorrichtung außerdem einen Vergleichswertprozessor 14 zum Erzeugen eines Vergleichswertes für jeden Ton und ein oder mehrere akustische Befehlsmodelle aus dem Satz akustischer Befehlsmodelle im Speicher 12 für akustische Befehlsmodelle. Jeder Vergleichswert umfasst eine Schätzung der Genauigkeit einer Übereinstimmung zwischen dem akustischen Befehlsmodell und einer Folge dem Ton entsprechender Merkmalsignale vom Akustikprozessor 10.
- Ein Erkennungsschwellenkomparator und -ausgabemittel 16 gibt ein Erkennungssignal aus, das dem Befehlsmodell aus dem Speicher 12 für akustische Befehlsmodelle mit dem besten Vergleichswert für einen aktuellen Ton entspricht, falls der beste Vergleichswert für den aktuellen Ton besser als ein Erkennungsschwellenwert für den aktuellen Ton ist. Die Erkennungsschwelle für den aktuellen Ton umfasst einen ersten Vertrauenswert aus dem Speicher 18 für Vertrauenswerte, falls der beste Vergleichswert für einen früheren Ton besser als eine Erkennungsschwelle für diesen früheren Ton war. Die Erkennungsschwelle für den aktuellen Ton umfasst einen zweiten Vertrauenswert aus dem Speicher 18 für Vertrauenswerte, der besser als der erste Vertrauenswert ist, falls der beste Vergleichswert für einen früheren Ton schlechter als die Erkennungsschwelle für diesen früheren Ton war.
- Die Spracherkennungsvorrichtung kann außerdem einen Speicher 20 für akustische Schweigemodelle zur Speicherung von mindestens einem akustischem Schweigemodell, das eine oder mehrere Folgen akustischer Merkmalwerte darstellt, die das Fehlen einer gesprochenen Äußerung darstellen. Das akustische Schweigemodell kann beispielsweise ein Markow-Modell oder ein anderes dynamisches Programmiermodell sein. Die Parameter des akustischen Schweigemodells können aus einem bekannten geäußerten Übungstext beispielsweise durch Glättungsparameter geschätzt werden, die auf dieselbe Weise wie bei den akustischen Befehlsmodellen aus dem Vorwärts-Rückwärts- Algorithmus erhalten werden.
- Fig. 3 zeigt schematisch ein Beispiel eines akustischen Schweigemodells. Das Modell beginnt beim Anfangsstatus S4 und endet beim Endstatus S10. Die gestrichelten Nullübergänge bedeuten, dass kein akustisches Merkmalsignal ausgegeben wird. Jedem Übergang mit durchgezogener Linie entspricht eine Ausgabewahrscheinlichkeitsverteilung über die vom Akustikprozessor 10 erzeugten Merkmalsignale (zum Beispiel Merkmalvektorsignale oder Kennzeichnungssignale). Für jeden Status S4 bis S10 gibt es eine entsprechende Wahrscheinlichkeitsverteilung über die Übergänge aus diesem Status heraus.
- Wiederum mit Bezugnahme auf Fig. 1 erzeugt der Vergleichswertprozessor 14 einen Vergleichswert für jeden Ton und das akustische Schweigemodell im Speicher 20 für akustische Schweigemodelle. Jeder Vergleichswert mit dem akustischen Schweigemodell umfasst eine Schätzung der Genauigkeit einer Übereinstimmung zwischen dem akustischen Schweigemodell und einer Folge dem Ton entsprechender Merkmalsignale.
- In dieser Variante der Erfindung umfasst die vom Erkennungsschwellenkomparator und -ausgabemittel 16 verwendete Erkennungsschwelle den ersten Vertrauenswert, falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell besser als eine aus dem Speicher 22 für Schweigevergleichs- und Schweigedauerschwellen erhaltene Schweigevergleichsschwelle ist, und falls der frühere Ton eine Dauer hat, die eine im Speicher 22 für Schweigevergleichs- und Schweigedauerschwellen gespeicherte Schweigedauerschwelle überschreitet. Alternativ umfasst die Erkennungsschwelle für den aktuellen Ton den ersten Vertrauenswert, falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell besser als die Schweigevergleichsschwelle ist und falls der frühere Ton eine Dauer hat, die geringer als die Schweigedauerschwelle ist, und falls der beste Vergleichswert für den nächsten früheren Ton und ein akustisches Befehlsmodell besser als eine Erkennungsschwelle für diesen nächsten früheren Ton war. Schließlich umfasst die Erkennungsschwelle für den aktuellen Ton den ersten Vertrauenswert, falls der Vergleichswert für den früheren Ton und das akustische Schweigemodell schlechter als die Schweigevergleichsschwelle ist und falls der beste Vergleichswert für den früheren Ton und ein akustisches Befehlsmodell besser als eine Erkennungsschwelle für diesen früheren Ton war.
- In dieser Ausführungsform der Erfindung umfasst die Erkennungsschwelle für den aktuellen Ton den zweiten Vertrauenswert, der besser als der erste Vertrauenswert aus dem Speicher 18 für Vertrauenswerte ist, falls der Vergleichswert vom Vergleichswertprozessor 18 für den früheren Ton und das akustische Schweigemodell besser als die Schweigevergleichsschwelle ist und falls der frühere Ton eine Dauer hat, die geringer als die Schweigedauerschwelle ist, und falls der beste Vergleichswert für den nächsten früheren Ton und ein akustisches Befehlsmodell schlechter als die Erkennungsschwelle für diesen nächsten früheren Ton war. Alternativ umfasst die Erkennungsschwelle für den aktuellen Ton den zweiten Vertrauenswert, der besser als der erste Vertrauenswert ist, falls der Vergleichswert den früheren Ton und das akustische Schweigemodell schlechter als die Schweigevergleichsschwelle ist und falls der beste Vergleichswert für den früheren Ton und ein akustisches Befehlsmodell schlechter als die Erkennungsschwelle für diesen früheren Ton war.
- Zur Erzeugung eines Vergleichswertes für jeden Ton und jedes von einem oder mehreren akustischen Befehlsmodellen aus dem Satz akustischer Befehlsmodelle im Speicher 12 für akustische Befehlsmodelle und zur Erzeugung eines Vergleichswertes für jeden Ton und das akustische Schweigemodell im Speicher 20 für akustische Schweigemodelle kann das akustische Schweigemodell von Fig. 3 mit dem Ende des akustischen Befehlsmodells von Fig. 2 verkettet werden, wie in Fig. 4 gezeigt wird. Das kombinierte Modell beginnt im Anfangsstatus S1 und endet im Endstatus S10.
- Die Status S1 bis S10 und die möglichen Übergänge zwischen den Status für das kombinierte akustische Modell von Fig. 4 werden zu jedem aus einer Anzahl von Zeitpunkten t in Fig. 5 schematisch gezeigt. Für jedes der Zeitintervalle zwischen t = n - 1 und t = n erzeugt der Akustikprozessor ein Merkmalsignal Xn.
- Für jeden Status des in Fig. 4 gezeigten kombinierten Modells wird die bedingte Wahrscheinlichkeit P (st = Sσ X&sub1; ... Xt), dass der Status st zum Zeitpunkt t unter Berücksichtigung des Auftretens von Merkmalsignalen X&sub1; bis Xt, die zu den Zeitpunkten 1 bis t jeweils vom Akustikprozessor 10 erzeugt werden, gleich dem Status Sσ ist, durch die Gleichungen 1 bis 10 erhalten.
- P(st = S1 X&sub1;...Xt) = MP(st-1 = S1) P(st = S1 st-1 = S1)
- P(X&sub1; st = S1, st-1 = S1" [1]
- P(st = S2 X&sub1;...Xt) = MP(st-1 = S1) P(st = S2 st-1 = S1)
- P(Xt st = S2, st-1 = S1)"
- + P(st = S1) P(st = St, st-1 = S2 st = S1)
- + MP(st-1 = S2) P(st = S2/st-1 = S2
- P(Xt st = S2, st-1 = S2)" [2]
- P(st = S3 X&sub1;...Xt) = MP(st-1 = S2) P(st = S3 st-1 = S2)
- P(Xt st = S3, st-1 = S2)"
- + P(st = S2) P(st = St, st-1 = S3 st = S2)
- + MP(st-1 = S3) P(st = S3/st-1 = S3
- P(Xt st = S3, st-1 = S3)" [3]
- P(st = S4 X&sub1;...Xt) = MP(st-1 = S3) P(st = S4 st-1 = S3)
- P(Xt st = S4, st-1 = S3)"
- + P(st = S3) P(st = S4 st = S3) [4]
- P(st = S6 X&sub1;...Xt) = MP(st-1 = S5) P(st = S6 st-1 = S5)
- P(Xt st = S6, st-1 = S5)"
- + MP(st-1 = S6) P(st = S6/st-1 = S6
- P(Xt st = S6, st-1 = S6)" [5]
- P(st = S6 X&sub1;...Xt) = MP(st-1 = S5) P(st = S6 st-1 = S5)
- P(Xt st = S6, st-1 = S5)"
- + MP(st-1 = S6) P(st = S6/st-1 = S6
- P(Xt st = S6, st-1 = S6)" [6]
- P(st = S7 X&sub1;...Xt) = MP(st-1 = S6) P(st = S7 st-1 = S6)
- P(Xt st = S7, st-1 = S6)"
- + (st-1 = S7) P(st = S7 st-1 = S7)
- P(Xt st = S7, st-1 = S7)" [7]
- P(st = S8 X&sub1;...Xt) = MP(st-1 = S4) P(st = S8 st-1 = S4)
- P(Xt st = S8, st-1 = S4)" [8]
- P(st = S9 X&sub1;...Xt) = MP(st-1 = S8) P(st = S9 st-1 = S8)
- P(Xt st = S9, st-1 = S8)" [9]
- P(st = S10 X&sub1;...Xt) = MP(st = S4) P(st = S10 st = S4)
- + P(st = S8), P(st = S10 st = S8)
- + P(st = S9), P(st = S10 st = S9)
- + MP(st-1 = S7) P(st = S10 st-1 = S7)
- P(Xt st = S10, st-1 = S7)"
- + MP(st-1 = S9) P(st = S10 st-1 = S9)
- P(Xt st = S10, st-1 = S9)" [10]
- Zur Normierung der bedingten Statuswahrscheinlichkeiten, um die verschiedenen Anzahlen von Merkmalsignalen (X&sub1;... Xn) zu verschiedenen Zeitpunkten t zu berücksichtigen, kann ein normierter Statusausgabewert Q für einen Status σ zum Zeitpunkt t durch die Gleichung 11 gegeben werden.
- Q(σ, 1) = P(s&sub1; = Sσ X&sub1; ... Xt)/ P(Xi)
- Geschätzte Werte für die bedingten Wahrscheinlichkeiten P(st = Sσ X&sub1; ... Xt) der Status (in diesem Beispiel der Status S1 bis S10) können aus den Gleichungen 1 bis 10 erhalten werden, indem die Werte der Übergangswahrscheinlichkeitsparameter und der Ausgabewahrscheinlichkeitsparameter der akustischen Befehlsmodelle und der akustischen Schweigemodelle verwendet werden.
- Geschätzte Werte für den normierten Statusausgabewert Q können aus der Gleichung 11 erhalten werden, indem die Wahrscheinlichkeit P(Xi) jedes beobachteten Merkmalsignals Xi als Produkt aus der bedingten Wahrscheinlichkeit P(Xi Xi-1) des Merkmalsignals Xi unter Berücksichtigung des unmittelbar früheren Auftretens des Merkmalsignals Xi &submin;&sub1;, multipliziert mit der Wahrscheinlichkeit P(Xi-1) des Auftretens des Merkmalsignals Xi &submin;&sub1;, geschätzt wird. Der Wert von P(Xi Xi-1) P(Xi-1) kann für alle Merkmalsignale Xi und Xi-1 geschätzt werden, indem das Auftreten von Merkmalsignalen gezählt wird, die gemäß der Gleichung 12 aus einem Übungstext erzeugt werden.
- P(Xi Xi-1)P(Xi-1) = N(Xi, Xi-1)/N(Xi-1) N(Xi-1)/N
- = N(Xi, Xi-1)/N [12]
- In der Gleichung 12 ist N(Xi, Xi-1) die Anzahl des Auftretens des Merkmalsignals Xi, dem das durch die Äußerung des Trainingstextes erzeugte Merkmalsignal Xi-1 unmittelbar vorangeht, und N ist die Gesamtanzahl von Merkmalsignalen, die durch die Äußerung des Übungstextes erzeugt werden.
- Aus der obigen Gleichung 11 können die normierten Statusausgabewerte Q(S4, t) und Q(S10, t) für die Status S4 und S10 des kombinierten Modells von Fig. 4 erhalten werden. Der Status S4 ist der letzte Status des Befehlsmodells und der erste Status des Schweigemodells. Der Status S10 ist der letzte Status des Schweigemodells.
- In einem Beispiel der Erfindung kann ein Vergleichswert für einen Ton und das akustische Schweigemodell zum Zeitpunkt t durch das Verhältnis des normierten Statusausgabewertes Q[S10,t] für den Status S10 dividiert durch den normierten Statusausgabewert Q[S4,t] für den Status 54 gegeben werden, wie in der Gleichung 13 gezeigt wird.
- Schweigestart-Vergleichswert = Q [S10, t]/Q[S4, t] [13]
- Der Zeitpunkt t = tstart, zu dem der Vergleichswert für den Ton und das akustische Schweigemodell (Gleichung 13) zuerst eine Schweigevergleichsschwelle überschreitet, kann als der Beginn eines Schweigeintervalls betrachtet werden. Die Schweigevergleichsschwelle ist ein Abgleichparameter, der vom Benutzer eingestellt werden kann. Es wurde festgestellt, dass eine Schweigevergleichsschwelle von 10¹&sup5; gute Ergebnisse erzeugt.
- Das Ende des Schweigeintervalls kann beispielsweise festgestellt werden, indem das Verhältnis des normierten Statusausgabewertes Q[S10, t] für den Status S10 zum Zeitpunkt t, dividiert durch den erhaltenen Maximalwert für den normierten Statusausgabewert Qmax[S10, tstart, ...t] für den Status S10 über die Zeitintervalle tstart bis t ausgewertet wird.
- Schweigeende-Vergleichswert = Q [S10, t]/Qmax [S10, tstart, ...t] [14]
- Der Zeitpunkt t = tEnd, zu dem der Wert des Schweigeende- Vergleichswertes von Gleichung 14 zuerst unter den Wert einer Schweigeendeschwelle fällt, kann als das Ende des Schweigeintervalls betrachtet werden. Der Wert der Schweigeendeschwelle ist ein Abgleichparameter, der vom Benutzer eingestellt werden kann. Es wurde festgestellt, dass ein Wert von 10&supmin;²&sup5; gute Ergebnisse bereitstellt.
- Falls der Vergleichswert für den Ton und das akustische Schweigemodell, wie er durch die Gleichung 13 gegeben wird, besser als die Schweigevergleichsschwelle ist, wird das Schweigen als beim ersten Zeitpunkt tstart beginnend betrachtet, zu dem das Verhältnis von Gleichung 13 die Schweigevergleichsschwelle überschreitet. Das Schweigen wird als beim Zeitpunkt tEnd endend betrachtet, zu dem das Verhältnis von Gleichung 14 kleiner als der zugeordnete Abgleichparameter ist. Die Dauer des Schweigens ist dann (tEnd - tStart).
- Für die Entscheidung, ob die Erkennungsschwelle der erste Vertrauenswert oder der zweite Vertrauenswert sein sollte, ist die im Speicher 22 für Schweigevergleichs- und Schweigedauerschwellen gespeicherte Schweigedauerschwelle ein Abgleichparameter, der vom Benutzer eingestellt werden kann. Es wurde beispielsweise festgestellt, dass eine Schweigedauerschwelle von 25 Zentisekunden gute Ergebnisse bereitstellt.
- Der Vergleichswert für jeden Ton und ein akustisches Befehlsmodell, das den Status S1 bis S4 der Fig. 2 und 4 entspricht, kann folgendermaßen erhalten werden. Falls das Verhältnis von Gleichung 13 die Schweigevergleichsschwelle nicht vor dem Zeitpunkt tEnd überschreitet, kann der Vergleichswert für jeden Ton und das den Status S1 bis S4 der Fig. 2 und 4 entsprechende akustische Befehlsmodell durch den maximalen normierten Statusausgabewert Q[S10, t'End, ...tEnd] für den Status S10 über die Zeitintervalle t'End bis tEnd gegeben werden, wobei t'End das Ende des vorhergehenden Tons oder Schweigens ist und wobei tEnd das Ende des aktuellen Tons oder Schweigens ist. Alternativ kann der Vergleichswert für jeden Ton und das akustische Befehlsmodell durch die Summe der normierten Statusausgabewerte Q[S10, t] für den Status S10 über die Zeitintervalle t'End bis tEnd gegeben werden.
- Falls jedoch das Verhältnis von Gleichung 13 die Schweigevergleichsschwelle vor dem Zeitpunkt tEnd überschreitet, kann der Vergleichswert für den Ton und das akustische Befehlsmodell durch den normierten Statusausgabewert Q[S4, tStart] für den Status S4 zum Zeitpunkt tstart gegeben werden. Alternativ kann der Vergleichswert für jeden Ton und das akustische Befehlsmodell durch die Summe aus den normierten Statusausgabewerten Q[S4, t] für den Status S4 über die Zeitintervalle t'End bis tStart gegeben werden.
- Der erste Vertrauenswert und der zweite Vertrauenswert für die Erkennungsschwelle sind Abgleichparameter, die vom Benutzer eingestellt werden können. Die ersten und zweiten Vertrauenswerte können beispielsweise folgendermaßen erzeugt werden.
- Ein Übungstext, der im Vokabular enthaltene Befehlsworte, die durch gespeicherte akustische Befehlsmodelle dargestellt werden, und außerdem nicht im Vokabular enthaltene Worte umfasst, die nicht durch gespeicherte akustische Befehlsmodelle dargestellt werden, wird von einem oder mehreren Sprechern gesprochen. Unter Verwendung der Spracherkennungsvorrichtung gemäß der Erfindung, jedoch ohne eine Erkennungsschwelle, wird eine Folge erkannter Worte erzeugt, die am besten mit dem gesprochenen, bekannten Übungstext übereinstimmen. Jedem von der Spracherkennungsvorrichtung ausgegebenen Wort oder Befehl wird ein Vergleichswert zugeordnet.
- Durch den Vergleich der Befehlsworte im bekannten Übungstext mit den von der Spracherkennungsvorrichtung ausgegebenen, erkannten Worten können korrekt erkannte Worte und falsch erkannte Worte gekennzeichnet werden. Der erste Vertrauenswert kann beispielsweise der beste Vergleichswert sein, der schlechter als die Vergleichswerte von 99% bis 100% der korrekt erkannten Worte ist. Der zweite Vertrauenswert kann beispielsweise der schlechteste Vergleichswert sein, der besser als die Vergleichswerte von beispielsweise 99% bis 100 % der falsch erkannten Worte im Übungstext ist.
- Das vom Erkennungsschwellenkomparator und -ausgabemittel 16 ausgegebene Erkennungssignal kann ein Befehlssignal zum Aufrufen eines dem Befehl zugeordneten Programms umfassen. Das Befehlssignal kann beispielsweise die manuelle Eingabe von einem Befehl entsprechenden Tastenanschlägen simulieren. Alternativ kann das Befehlssignal ein Anwendungsprogramm- Schnittstellenaufruf sein.
- Das Erkennungsschwellenkomparator und -ausgabemittel 16 kann eine Anzeige, beispielsweise eine Kathodenstrahlröhre, eine Flüssigkristallanzeige oder einen Drucker umfassen. Das Erkennungsschwellenkomparator und -ausgabemittel 16 kann ein oder mehrere Worte anzeigen, die dem Befehlsmodell mit dem besten Vergleichswert für einen aktuellen Ton entsprechen, falls der beste Vergleichswert für den aktuellen Ton besser als der Erkennungsschwellenwert für den aktuellen Ton ist.
- Das Ausgabemittel 16 kann wahlweise ein Signal für einen nicht erkennbaren Ton ausgeben, falls der beste Vergleichswert für den aktuellen Ton schlechter als der Erkennungsschwellenwert für den aktuellen Ton ist. Die Ausgabe 16 kann beispielsweise eine Anzeige für einen nicht erkennbaren Ton anzeigen, falls der beste Vergleichswert für den aktuellen Ton schlechter als der Erkennungsschwellenwert für den aktuellen Ton ist. Die Anzeige für einen nicht erkennbaren Ton kann ein oder mehrere angezeigte Fragezeichen umfassen.
- Jeder vom Akustikprozessor 10 gemessene Ton kann ein Vokalton oder ein anderer Ton sein. Jeder einem akustischen Befehlsmodell zugeordnete Befehl umfasst vorzugsweise mindestens ein Wort.
- Zu Beginn einer Spracherkennungssitzung kann die Erkennungsschwelle am ersten Vertrauenswert oder am zweiten Vertrauenswert initialisiert werden. Vorzugsweise wird die Erkennungsschwelle für den aktuellen Ton zu Beginn einer Spracherkennungssitzung am ersten Vertrauenswert initialisiert.
- Die Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung kann mit jeder bestehenden Spracherkennungseinrichtung verwendet werden, beispielsweise mit dem IBM Speech Server Series- (Warenzeichen) Produkt. Der Vergleichswertprozessor 14 und das Erkennungsschwellenkomparator und -ausgabemittel 16 können beispielsweise geeignet programmierte spezielle oder allgemeine digitale Prozessoren sein. Der Speicher 12 für akustische Befehlsmodelle, der Speicher 18 für Vertrauenswerte, der Speicher 20 für akustische Schweigemodelle und der Speicher 22 für Schweigevergleichs- und Schweigedauerschwellen können beispielsweise einen elektronisch lesbaren Computerspeicher umfassen.
- Ein Beispiel des Akustikprozessors 10 von Fig. 3 wird in Fig. 6 gezeigt. Der Akustikprozessor umfasst ein Mikrofon 24 zum Erzeugen eines der Äußerung entsprechenden, analogen elektrischen Signals. Das analoge elektrische Signal vom Mikrofon 24 wird durch den Analog-Digital-Umsetzer 26 in ein digitales elektrisches Signal umgesetzt. Zu diesem Zweck kann das analoge Signal beispielsweise bei einer Geschwindigkeit von zwanzig Kilohertz vom Analog-Digital-Umsetzer 26 abgetastet werden.
- Ein Fenstergenerator 28 erhält beispielsweise alle zehn Millisekunden (eine Zentisekunde) einen Abtastwert des digitalen Signals mit einer Dauer von zwanzig Millisekunden vom Analog-Digital-Umsetzer 26. Jeder zwanzig Millisekunden lange Abtastwert des digitalen Signals wird vom Spektrumanalysator 30 analysiert, um die Amplitude des digitalen Signalabtastwertes in jedem der beispielsweise zwanzig Frequenzbänder zu erhalten. Vorzugsweise erzeugt der Spektrumanalysator 30 außerdem ein einundzwanzigdimensionales Signal, das die Gesamtamplitude oder Gesamtleistung des zwanzig Millisekunden langen digitalen Signalabtastwertes darstellt. Der Spektrumanalysator 30 kann beispielsweise ein schneller Fourier-Transformations-Prozessor sein. Alternativ kann er eine Gruppe von zwanzig Bandpassfiltern sein.
- Die vom Spektrumanalysator 30 erzeugten einundzwanzigdimensionalen Vektorsignale können so bearbeitet werden, dass Hintergrundrauschen durch einen adaptiven Rauschunterdrückungsprozessor 32 entfernt wird. Der Rauschunterdrückungsprozessor 32 subtrahiert einen Rauschvektor N(t) von dem in den Rauschunterdrückungsprozessor eingegebenen Merkmalvektor F(t), um einen ausgegebenen Merkmalvektor F'(t) zu erzeugen. Der Rauschunterdrückungsprozessor 32 passt sich an ändernde Rauschpegel an, indem er den Rauschvektor N(t) jedesmal, wenn der frühere Merkmalvektor F(t -1) als Rauschen oder Schweigen gekennzeichnet wird, periodisch aktualisiert. Der Rauschvektor N(t) wird gemäß der folgenden Formel aktualisiert
- wobei N(t) der Rauschvektor zum Zeitpunkt t, N(t - 1) der Rauschvektor zum Zeitpunkt (t -1), k ein feststehender Parameter des adaptiven Rauschunterdrückungsmodells, F(t -1) der in den Rauschunterdrückungsprozessor 32 eingegebene Merkmalvektor zum Zeitpunkt (t - 1) ist und der Rauschen oder Schweigen darstellt, und Fp(t -1) ein Schweige- oder Rauschprototypvektor aus dem Speicher 24 ist, der die größte Annäherung zum Merkmalvektor F(t -1) hat.
- Der frühere Merkmalvektor F(t - 1) wird als Rauschen oder Schweigen erkannt, falls (a) die Gesamtenergie des Vektors unter einer Schwelle liegt oder (b) der Prototypvektor im Anpassungsprototypvektorspeicher 36 mit der größten Annäherung an den Merkmalvektor ein Prototyp ist, der Rauschen oder Schweigen darstellt. Für die Analyse der Gesamtenergie des Merkmalvektors kann die Schwelle beispielsweise das fünfte Percentil aller Merkmalvektoren sein (sowohl Sprache als auch Schweigen entsprechend), die in den beiden Sekunden vor der Auswertung des Merkmalvektors erzeugt werden.
- Nach der Rauschunterdrückung wird der Merkmalvektor F'(t) zur Anpassung an Änderungen der Lautstärke der eingegebenen Sprache durch den Normierungsprozessor 38 für kurzzeitige Mittelwerte normiert. Der Normierungsprozessor 38 normiert den einundzwanzigdimensionalen Merkmalvektor F'(t), um einen normierten einundzwanzigdimensionalen Merkmalvektor X(t) zu erzeugen. Die einundzwanzigste Dimension des Merkmalvektors F'(t), die die Gesamtamplitude oder die Gesamtenergie darstellt, wird gelöscht. Jede Komponente i des normierten Merkmalvektors X(t) zum Zeitpunkt t kann beispielsweise durch die folgende Gleichung im logarithmischen Bereich gegeben werden
- Xi(t) = Fi(t) - Z(t)[16]
- wobei F'i(t) die i-te Komponente des nicht normierten Vektors zum Zeitpunkt t ist und wobei Z(t) ein gewichtetes Mittel der Komponenten von F'(t) und Z(t -1) gemäß den Gleichungen 17 und 18 ist:
- Z(t) 0.9 Z(t - 1) + 0.1 M(t) [17]
- und wobei
- M(t) = 1/20 Fi(t)[18]
- Der normierte einundzwanzigdimensionale Merkmalvektor X(t) kann außerdem zur Anpassung an Änderungen bei der Aussprache von Sprachtönen durch eine adaptive Kennzeichnungseinrichtung 40 verarbeitet werden. Ein angepasster einundzwanzigdimensionaler Merkmalvektor X'(t) wird erzeugt, indem ein einundzwanzigdimensionaler Anpassungsvektor A(t) vom einundzwanzigdimensionalen Merkmalvektor X(t), der zum Eingang der adaptiven Kennzeichnungseinrichtung 40 gesendet wird, subtrahiert wird. Der Anpassungsvektor A(t) zum Zeitpunkt t kann beispielsweise durch die folgende Formel gegeben werden
- wobei k ein feststehender Parameter des adaptiven Kennzeichnungsmodells, X(t - 1) der zum Zeitpunkt (t -1) in die adaptive Kennzeichnungseinrichtung 40 eingegebene, normierte einundzwanzigdimensionale Vektor, Xp(t - 1) der Anpassungsprototypvektor (aus dem Anpassungsprototypspeicher 36) mit der größten Annäherung an den einundzwanzigdimensionalen Merkmalvektor X(t - 1) zum Zeitpunkt (t - 1) und A(t - 1) der Anpassungsvektor zum Zeitpunkt (t - 1) ist.
- Das angepasste einundzwanzigdimensionale Merkmalvektorsignal X'(t) aus der adaptiven Kennzeichnungseinrichtung 40 wird vorzugsweise zu einem Hörmodell (auditory model) 42 gesendet. Das Hörmodell 42 kann beispielsweise ein Modell davon bereitstellen, wie das menschliche Hörsystem Tonsignale wahrnimmt. Ein Beispiel eines Hörsystems wird in der US- Patentschrift 4 980 918 von Bahl et al. mit dem Titel "Speech Recognition System with Efficient Storage and Rapid Assembly of Phonological Graphs" beschrieben.
- Vorzugsweise berechnet das Hörmodell 42 gemäß der Erfindung für jedes Frequenzband i des angepassten Merkmalvektorsignals X'(t) zum Zeitpunkt t einen neuen Parameter Ei(t) gemäß den Gleichungen 20 und 21:
- Ei(t) = K&sub1; + K&sub2;(X'i(t))(Ni(t - 1))[20]
- wobei
- Ni(t) = K&sub3; · Ni(t - 1) - Ei(t - 1)[21]
- und wobei K&sub1;, K&sub2; und K&sub3; feststehende Parameter des Hörmodells sind.
- Für jedes Zentisekunden-Zeitintervall ist die Ausgabe des Hörmodells 42 ein geändertes einundzwanzigdimensionales Merkmalvektorsignal. Dieser Merkmalvektor wird durch eine einundzwanzigste Dimension mit einem Wert, der gleich der Quadratwurzel aus der Summe der Quadrate der anderen zwanzig Dimensionen ist, erhöht.
- Für jedes Zentisekunden-Zeitintervall verkettet eine Verkettungseinrichtung 44 vorzugsweise neun einundzwanzigdimensionalen Merkmalvektoren, die das eine aktuelle Zentisekunden-Zeitintervall, die vier vorhergehenden Zentisekunden-Zeitintervalle und die vier folgenden Zentisekunden-Zeitintervalle darstellen, um einen einzigen verknüpften Vektor von 189 Dimensionen zu bilden. Jeder verknüpfte Vektor der 189 Dimensionen wird vorzugsweise in einem Drehoperator 46 mit einer Drehmatrix multipliziert, um den verknüpften Vektor zu drehen und um den verknüpften Vektor auf fünfzig Dimensionen zu reduzieren.
- Die im Drehoperator 46 verwendete Drehmatrix kann beispielsweise erhalten werden, indem ein Satz verknüpfter Vektoren von 189 Dimensionen, die während einer Trainingssitzung erhalten werden, in M Klassen eingeteilt werden. Die Kovarianzmatrix wird für alle der verknüpften Vektoren im Trainingssatz mit dem Inversen der in der Klasse enthaltenen Kovarianzmatrix für alle der verknüpften Vektoren in allen M Klassen multipliziert. Die ersten fünfzig Eigenvektoren der resultierenden Matrix bilden die Drehmatrix. (Siehe zum Beispiel "Vector Quantization Procedure For Speech Recognition Systems Using Discrete Parameter Phoneme-Based Markov Word Models" von L.R. Bahl et al., IBM Technical Disclosure Bulletin, Band 32, Nr. 7, Dezember 1989, Seiten 320 und 321.)
- Der Fenstergenerator 28, der Spektrumanalysator 30, der adaptive Rauschunterdrückungsprozessor 32, der Normierungsprozessor 38 für kurzzeitige Mittelwerte, die adaptive Kennzeichnungseinrichtung 40, das Hörmodell 42, die Verkettungseinrichtung 44 und der Drehoperator 46 können geeignet programmierte spezielle oder allgemeine digitale Signalprozessoren sein. Die Prototypspeicher 34 und 36 können elektronische Computerspeicher der oben erläuterten Typen sein.
- Die Prototypvektoren im Prototypspeicher 34 können beispielsweise erhalten werden, indem die Merkmalvektorsignale aus einem Trainingssatz in eine Vielzahl von Zuordnungseinheiten eingeordnet und anschließend die Durchschnitts- und Standardabweichung für jede Zuordnungseinheit berechnet wird, um die Parameterwerte des Prototypvektors zu bilden. Wenn der Übungstext eine Folge von Wortsegmentmodellen (die ein Modell einer Folge von Worten bilden) und jedes Wortsegmentmodell eine Folge von Elementarmodellen mit angegebenen Positionen in den Wortsegmentmodellen umfasst, können die Merkmalvektorsignale in Gruppen geordnet werden, indem angegeben wird, dass jede Zuordnungseinheit einem einzigen Elementarmodell in einer einzigen Position in einem einzigen Wortsegmentmodell entspricht. Ein solches Verfahren wird in der US- Patentanmeldung mit der Seriennr. 730 714, eingereicht am 16. Juli 1991, mit dem Titel "Fast Algorithm for Deriving Acoustic Prototypes for Automatic Speech Recognition" ausführlicher beschrieben.
- Alternativ können alle akustischen Merkmalvektoren, die durch die Äußerung eines Übungstextes erzeugt werden und die einem gegebenen Elementarmodell entsprechen, durch euklidische K- Mittelwert-Zuordnung oder Gaußsche K-Mittelwert-Zuordnung oder beides in Gruppen eingeordnet werden. Ein solches Verfahren wird beispielsweise von Bahl et al. in der US-Patentschrift 5 182 773 mit dem Titel "Speaker-Independent Label Coding Apparatus" beschrieben.
Claims (19)
1. Spracherkennungseinrichtung, die Folgendes umfasst:
einen Akustikprozessor (10) zum Messen des Wertes von
mindestens einem Merkmal von jedem aus einer Folge von
mindestens zwei Tönen, wobei der Akustikprozessor (10)
den Wert des Merkmals jedes Tons während jedes aus einer
Reihe aufeinanderfolgender Zeitintervalle misst, um eine
Reihe von Merkmalsignalen zu erzeugen, die die
Merkmalwerte des Tons darstellen;
Mittel (12) zum Speichern eines Satzes akustischer
Befehlsmodelle, wobei jedes akustische Befehlsmodell eine
oder mehrere Reihen akustischer Merkmalswerte darstellt,
die eine Äußerung eines dem akustischen Befehlsmodell
zugeordneten Befehls darstellen;
einen Vergleichswertprozessor (14) zum Erzeugen eines
Vergleichswertes für jeden Ton und jedes von einem oder
mehreren akustischen Befehlsmodellen aus dem Satz
akustischer Befehlsmodelle, wobei jeder Vergleichswert
eine Schätzung der Genauigkeit einer Übereinstimmung
zwischen dem akustischen Befehlsmodell und einer Reihe
dem Ton entsprechender Merkmalsignale umfasst;
gekennzeichnet durch:
Mittel (16) zum Ausgeben eines Erkennungssignals, das dem
Befehlsmodell mit dem besten Vergleichswert für einen
aktuellen Ton entspricht, falls der beste Vergleichswert
für den aktuellen Ton besser als ein
Erkennungsschwellenwert für den aktuellen Ton ist, wobei
die Erkennungsschwelle für den aktuellen Ton Folgendes
umfasst: (a) einen ersten Vertrauenswert, falls der beste
Vergleichswert für einen früheren Ton besser als eine
Erkennungsschwelle für diesen früheren Ton war, oder (b)
einen zweiten Vertrauenswert, der besser als der erste
Vertrauenswert ist, falls der beste Vergleichswert für
einen früheren Ton schlechter als die Erkennungsschwelle
für diesen früheren Ton war.
2. Spracherkennungsvorrichtung nach Anspruch 1, dadurch
gekennzeichnet, dass der frühere Ton unmittelbar vor dem
aktuellen Ton auftritt.
3. Spracherkennungsvorrichtung nach Anspruch 2, dadurch
gekennzeichnet, dass:
die Vorrichtung außerdem Mittel (20) zum Speichern von
mindestens einem akustischen Schweigemodell umfasst, das
eine oder mehrere Reihen akustischer Merkmalswerte
darstellt, die das Nichtvorhandensein einer gesprochenen
Äußerung darstellen;
der Vergleichswertprozessor (10) für jeden Ton und das
akustische Schweigemodell einen Vergleichswert erzeugt,
wobei jeder Vergleichswert eine Schätzung der Genauigkeit
einer Übereinstimmung zwischen dem akustischen
Schweigemodell und einer Reihe von dem Ton entsprechenden
Merkmalsignalen umfasst; und
die Erkennungsschwelle für den aktuellen Ton den ersten
Vertrauenswert umfasst, (a1) falls der Vergleichswert für
den früheren Ton und das akustische Schweigemodell besser
als eine Schweigevergleichsschwelle ist und falls der
frühere Ton eine Dauer aufweist, die eine
Schweigedauerschwelle übersteigt, oder (a2) falls der
Vergleichswert für den früheren Ton und das akustische
Schweigemodell besser als die Schweigevergleichsschwelle
ist und falls der frühere Ton eine Dauer hat, die kürzer
als die Schweigedauerschwelle ist und falls der beste
Vergleichswert für den nächsten früheren Ton und ein
akustisches Befehlsmodell besser als eine
Erkennungsschwelle für diesen nächsten früheren Ton war,
oder (a3) falls der Vergleichswert für den früheren Ton
und das akustische Schweigemodell schlechter als die
Schweigevergleichsschwelle ist und falls der beste
Vergleichswert für den früheren Ton und ein akustisches
Befehlsmodell besser als eine Erkennungsschwelle für
diesen früheren Ton war; oder
dass die Erkennungsschwelle für den aktuellen Ton den
zweiten Vertrauenswert umfasst, der besser als der erste
Vertrauenswert ist, (b1) falls der Vergleichswert für den
früheren Ton und das akustische Schweigemodell besser als
die Schweigevergleichsschwelle ist und falls der frühere
Ton eine Dauer hat, die kürzer als die
Schweigedauerschwelle ist, und falls der beste
Vergleichswert für den nächsten früheren Ton und ein
akustisches Befehlsmodell schlechter als die
Erkennungsschwelle für diesen nächsten früheren Ton war,
oder (b2) falls der Vergleichswert für den früheren Ton
und das akustische Schweigemodell schlechter als die
Schweigevergleichsschwelle ist und falls der beste
Vergleichswert für den früheren Ton und ein akustisches
Befehlsmodell schlechter als die Erkennungsschwelle für
diesen früheren Ton war.
4. Spracherkennungsvorrichtung nach Anspruch 3, dadurch
gekennzeichnet, dass das Erkennungssignal ein
Befehlssignal zum Aufrufen eines dem Befehl zugeordneten
Programms umfasst.
5. Spracherkennungsvorrichtung nach Anspruch 4, dadurch
gekennzeichnet, dass:
das Ausgabemittel (16) eine Anzeige umfasst; und
das Ausgabemittel (16) eines oder mehrere Worte anzeigt,
die dem Befehlsmodell mit dem besten Vergleichswert für
einen aktuellen Ton entsprechen, falls der beste
Vergleichswert für den aktuellen Ton besser als der
Erkennungsschwellenwert für den aktuellen Ton ist.
6. Spracherkennungsvorrichtung nach Anspruch 5, dadurch
gekennzeichnet, dass das Ausgabemittel (16) ein
Anzeigesignal für einen nicht erkennbaren Ton ausgibt,
falls der beste Vergleichswert für den aktuellen Ton
schlechter als der Erkennungsschwellenwert für den
aktuellen Ton ist.
7. Spracherkennungsvorrichtung nach Anspruch 6, dadurch
gekennzeichnet, dass das Ausgabemittel (16) eine Anzeige
für einen nicht erkennbaren Ton anzeigt, falls der beste
Vergleichswert für den aktuellen Ton schlechter als der
Erkennungsschwellenwert für den aktuellen Ton ist.
8. Spracherkennungsvorrichtung nach Anspruch 7, dadurch
gekennzeichnet, dass die Anzeige für einen nicht
erkennbaren Ton ein oder mehrere Fragezeichen umfasst.
9. Spracherkennungsvorrichtung nach Anspruch 1, dadurch
gekennzeichnet, dass der Akustikprozessor (10) ein
Mikrofon (24) umfasst.
10. Spracherkennungsvorrichtung nach Anspruch 1, dadurch
gekennzeichnet, dass:
jeder Ton einen Vokalton umfasst; und
jeder Befehl mindestens ein Wort umfasst.
11. Spracherkennungsverfahren, das die folgenden Schritte
umfasst:
Messen des Wertes von mindestens einem Merkmal von jedem
aus einer Folge von mindestens zwei Tönen, wobei der Wert
des Merkmals jedes Tons während jeder aus einer Reihe
aufeinanderfolgender Zeitintervalle gemessen wird, um
eine Reihe von Merkmalsignalen zu erzeugen, die die
Merkmalwerte des Tons darstellen;
Speichern eines Satzes akustischer Befehlsmodelle, wobei
jedes akustische Befehlsmodell eine oder mehrere Reihen
akustischer Merkmalswerte darstellt, die eine Äußerung
eines dem akustischen Befehlsmodell zugeordneten Befehls
darstellen;
Erzeugen eines Vergleichswertes für jeden Ton und jedes
von einem oder mehreren akustischen Befehlsmodellen aus
dem Satz akustischer Befehlsmodelle, wobei jeder
Vergleichswert eine Schätzung der Genauigkeit einer
Übereinstimmung zwischen dem akustischen Befehlsmodell
und einer Reihe dem Ton entsprechender Merkmalsignale
umfasst;
gekennzeichnet durch
das Ausgeben eines Erkennungssignals, das dem
Befehlsmodell mit dem besten Vergleichswert für einen
aktuellen Ton entspricht, falls der beste Vergleichswert
für den aktuellen Ton besser als ein
Erkennungsschwellenwert für den aktuellen Ton ist, wobei
die Erkennungsschwelle für den aktuellen Ton Folgendes
umfasst: (a) ein erster Vertrauenswert, falls der beste
Vergleichswert für einen früheren Ton besser als eine
Erkennungsschwelle für diesen früheren Ton war, oder (b)
ein zweiter Vertrauenswert, der besser als der erste
Vertrauenswert ist, falls der beste Vergleichswert für
einen früheren Ton schlechter als die Erkennungsschwelle
für diesen früheren Ton war.
12. Spracherkennungsverfahren nach Anspruch 11, dadurch
gekennzeichnet, dass der frühere Ton unmittelbar vor dem
aktuellen Ton auftritt.
13. Spracherkennungsverfahren nach Anspruch 12, das außerdem
die folgenden Schritte umfasst:
Speichern von mindestens einem akustischen
Schweigemodell, das eine oder mehrere Reihen akustischer
Merkmalswerte darstellt, die das Nichtvorhandensein einer
gesprochenen Äußerung darstellen;
Erzeugen eines Vergleichswertes für jeden Ton und das
akustische Schweigemodell, wobei jeder Vergleichswert
eine Schätzung der Genauigkeit einer Übereinstimmung
zwischen dem akustischen Schweigemodell und einer Reihe
von dem Ton entsprechenden Merkmalsignalen umfasst; und
das dadurch gekennzeichnet ist, dass
die Erkennungsschwelle für den aktuellen Ton den ersten
Vertrauenswert umfasst, (a1) falls der Vergleichswert für
den früheren Ton und das akustische Schweigemodell besser
als eine Schweigevergleichsschwelle ist und falls der
frühere Ton eine Dauer aufweist, die eine
Schweigedauerschwelle übersteigt, oder (a2) falls der
Vergleichswert für den früheren Ton und das akustische
Schweigemodell besser als die Schweigevergleichsschwelle
ist und falls der frühere Ton eine Dauer hat, die kürzer
als die Schweigedauerschwelle ist und falls der beste
Vergleichswert für den nächsten früheren Ton und ein
akustisches Befehlsmodell besser als eine
Erkennungsschwelle für diesen nächsten früheren Ton war,
oder (a3) falls der Vergleichswert für den früheren Ton
und das akustische Schweigemodell schlechter als die
Schweigevergleichsschwelle ist und falls der beste
Vergleichswert für den früheren Ton und ein akustisches
Befehlsmodell besser als eine Erkennungsschwelle für
diesen früheren Ton war; oder dass die Erkennungsschwelle
für den aktuellen Ton den zweiten Vertrauenswert umfasst,
der besser als der erste Vertrauenswert ist, (b1) falls
der Vergleichswert für den früheren Ton und das
akustische Schweigemodell besser als die
Schweigevergleichsschwelle ist und falls der frühere Ton
eine Dauer hat, die kürzer als die Schweigedauerschwelle
ist, und falls der beste Vergleichswert für den nächsten
früheren Ton und ein akustisches Befehlsmodell schlechter
als die Erkennungsschwelle für diesen nächsten früheren
Ton war, oder (b2) falls der Vergleichswert für den
früheren Ton und das akustische Schweigemodell schlechter
als die Schweigevergleichsschwelle ist und falls der
beste Vergleichswert für den früheren Ton und ein
akustisches Befehlsmodell schlechter als die
Erkennungsschwelle für diesen früheren Ton war.
14. Spracherkennungsverfahren nach Anspruch 13, dadurch
gekennzeichnet, dass das Erkennungssignal ein
Befehlssignal zum Aufrufen eines dem Befehl zugeordneten
Programms umfasst.
15. Spracherkennungsverfahren nach Anspruch 14, das außerdem
den Schritt des Anzeigens eines oder mehrerer Worte
umfasst, die dem Befehlsmodell mit dem besten
Vergleichswert für einen aktuellen Ton entsprechen, falls
der beste Vergleichswert für den aktuellen Ton besser als
der Erkennungsschwellenwert für den aktuellen Ton ist.
16. Spracherkennungsverfahren nach Anspruch 15, das außerdem
den Schritt des Ausgebens eines Anzeigesignals für einen
nicht erkennbaren Ton umfasst, falls der beste
Vergleichswert für den aktuellen Ton schlechter als der
Erkennungsschwellenwert für den aktuellen Ton ist.
17. Spracherkennungsverfahren nach Anspruch 16, das außerdem
den Schritt des Anzeigens einer Anzeige für einen nicht
erkennbaren Ton umfasst, falls der beste Vergleichswert
für den aktuellen Ton schlechter als der
Erkennungsschwellenwert für den aktuellen Ton ist.
18. Spracherkennungsverfahren nach Anspruch 17, dadurch
gekennzeichnet, dass die Anzeige für einen nicht
erkennbaren Ton eines oder mehrere Fragezeichen umfasst.
19. Spracherkennungsverfahren nach Anspruch 11, dadurch
gekennzeichnet, dass
jeder Ton einen Vokalton umfasst; und
jeder Befehl mindestens ein Wort umfasst.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/062,972 US5465317A (en) | 1993-05-18 | 1993-05-18 | Speech recognition system with improved rejection of words and sounds not in the system vocabulary |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69425776D1 DE69425776D1 (de) | 2000-10-12 |
DE69425776T2 true DE69425776T2 (de) | 2001-04-12 |
Family
ID=22046061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69425776T Expired - Fee Related DE69425776T2 (de) | 1993-05-18 | 1994-03-28 | Spracherkennungseinrichtung mit verbesserter Ausschliessung von Wörtern und Tönen welche nicht im Vokabular enthalten sind |
Country Status (4)
Country | Link |
---|---|
US (1) | US5465317A (de) |
EP (1) | EP0625775B1 (de) |
JP (1) | JP2642055B2 (de) |
DE (1) | DE69425776T2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004001863A1 (de) * | 2004-01-13 | 2005-08-11 | Siemens Ag | Verfahren und Vorrichtung zur Bearbeitung eines Sprachsignals |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5920837A (en) * | 1992-11-13 | 1999-07-06 | Dragon Systems, Inc. | Word recognition system which stores two models for some words and allows selective deletion of one such model |
DE4412745A1 (de) * | 1994-04-14 | 1996-11-07 | Philips Patentverwaltung | Verfahren zum Ermitteln einer Folge von Wörtern und Anordnung zur Durchführung des Verfahrens |
DE19508711A1 (de) * | 1995-03-10 | 1996-09-12 | Siemens Ag | Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind |
US5978756A (en) * | 1996-03-28 | 1999-11-02 | Intel Corporation | Encoding audio signals using precomputed silence |
US5835890A (en) * | 1996-08-02 | 1998-11-10 | Nippon Telegraph And Telephone Corporation | Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon |
US6026359A (en) * | 1996-09-20 | 2000-02-15 | Nippon Telegraph And Telephone Corporation | Scheme for model adaptation in pattern recognition based on Taylor expansion |
US6212498B1 (en) | 1997-03-28 | 2001-04-03 | Dragon Systems, Inc. | Enrollment in speech recognition |
US6101472A (en) * | 1997-04-16 | 2000-08-08 | International Business Machines Corporation | Data processing system and method for navigating a network using a voice command |
US5893059A (en) * | 1997-04-17 | 1999-04-06 | Nynex Science And Technology, Inc. | Speech recoginition methods and apparatus |
US6163768A (en) | 1998-06-15 | 2000-12-19 | Dragon Systems, Inc. | Non-interactive enrollment in speech recognition |
JP2000020089A (ja) * | 1998-07-07 | 2000-01-21 | Matsushita Electric Ind Co Ltd | 音声認識方法及びその装置、並びに音声制御システム |
US8275617B1 (en) | 1998-12-17 | 2012-09-25 | Nuance Communications, Inc. | Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands |
US6233560B1 (en) | 1998-12-16 | 2001-05-15 | International Business Machines Corporation | Method and apparatus for presenting proximal feedback in voice command systems |
US6192343B1 (en) | 1998-12-17 | 2001-02-20 | International Business Machines Corporation | Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms |
US6937984B1 (en) | 1998-12-17 | 2005-08-30 | International Business Machines Corporation | Speech command input recognition system for interactive computer display with speech controlled display of recognized commands |
US7206747B1 (en) | 1998-12-16 | 2007-04-17 | International Business Machines Corporation | Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands |
US6253177B1 (en) * | 1999-03-08 | 2001-06-26 | International Business Machines Corp. | Method and system for automatically determining whether to update a language model based upon user amendments to dictated text |
US6345254B1 (en) * | 1999-05-29 | 2002-02-05 | International Business Machines Corp. | Method and apparatus for improving speech command recognition accuracy using event-based constraints |
GB9913773D0 (en) * | 1999-06-14 | 1999-08-11 | Simpson Mark C | Speech signal processing |
US6334102B1 (en) * | 1999-09-13 | 2001-12-25 | International Business Machines Corp. | Method of adding vocabulary to a speech recognition system |
US6556969B1 (en) * | 1999-09-30 | 2003-04-29 | Conexant Systems, Inc. | Low complexity speaker verification using simplified hidden markov models with universal cohort models and automatic score thresholding |
US7031923B1 (en) | 2000-03-06 | 2006-04-18 | International Business Machines Corporation | Verbal utterance rejection using a labeller with grammatical constraints |
GB2364814A (en) * | 2000-07-12 | 2002-02-06 | Canon Kk | Speech recognition |
JP3670217B2 (ja) * | 2000-09-06 | 2005-07-13 | 国立大学法人名古屋大学 | 雑音符号化装置、雑音復号装置、雑音符号化方法および雑音復号方法 |
US20020107695A1 (en) * | 2001-02-08 | 2002-08-08 | Roth Daniel L. | Feedback for unrecognized speech |
US7739115B1 (en) | 2001-02-15 | 2010-06-15 | West Corporation | Script compliance and agent feedback |
US6985859B2 (en) * | 2001-03-28 | 2006-01-10 | Matsushita Electric Industrial Co., Ltd. | Robust word-spotting system using an intelligibility criterion for reliable keyword detection under adverse and unknown noisy environments |
US6792408B2 (en) * | 2001-06-12 | 2004-09-14 | Dell Products L.P. | Interactive command recognition enhancement system and method |
US7136813B2 (en) * | 2001-09-25 | 2006-11-14 | Intel Corporation | Probabalistic networks for detecting signal content |
US6990445B2 (en) * | 2001-12-17 | 2006-01-24 | Xl8 Systems, Inc. | System and method for speech recognition and transcription |
US7003458B2 (en) * | 2002-01-15 | 2006-02-21 | General Motors Corporation | Automated voice pattern filter |
US8036893B2 (en) | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
US20060069562A1 (en) * | 2004-09-10 | 2006-03-30 | Adams Marilyn J | Word categories |
US7827032B2 (en) * | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7895039B2 (en) * | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7865362B2 (en) * | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US20070219792A1 (en) * | 2006-03-20 | 2007-09-20 | Nu Echo Inc. | Method and system for user authentication based on speech recognition and knowledge questions |
US8275615B2 (en) * | 2007-07-13 | 2012-09-25 | International Business Machines Corporation | Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation |
US8520983B2 (en) | 2009-10-07 | 2013-08-27 | Google Inc. | Gesture-based selective text recognition |
US8515185B2 (en) * | 2009-11-25 | 2013-08-20 | Google Inc. | On-screen guideline-based selective text recognition |
US8676581B2 (en) * | 2010-01-22 | 2014-03-18 | Microsoft Corporation | Speech recognition analysis via identification information |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
US9589564B2 (en) | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
WO2016039847A1 (en) * | 2014-09-11 | 2016-03-17 | Nuance Communications, Inc. | Methods and apparatus for unsupervised wakeup |
US9335966B2 (en) | 2014-09-11 | 2016-05-10 | Nuance Communications, Inc. | Methods and apparatus for unsupervised wakeup |
US9354687B2 (en) | 2014-09-11 | 2016-05-31 | Nuance Communications, Inc. | Methods and apparatus for unsupervised wakeup with time-correlated acoustic events |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
CN111583907B (zh) * | 2020-04-15 | 2023-08-15 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
CN112951219A (zh) * | 2021-02-01 | 2021-06-11 | 思必驰科技股份有限公司 | 噪声拒识方法和装置 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
CA1116300A (en) * | 1977-12-28 | 1982-01-12 | Hiroaki Sakoe | Speech recognition system |
US4352957A (en) * | 1980-03-17 | 1982-10-05 | Storage Technology Corporation | Speech detector circuit with associated gain control for a tasi system |
JPS57202597A (en) * | 1981-06-08 | 1982-12-11 | Tokyo Shibaura Electric Co | Voice recognizer |
US4410763A (en) * | 1981-06-09 | 1983-10-18 | Northern Telecom Limited | Speech detector |
US4980918A (en) * | 1985-05-09 | 1990-12-25 | International Business Machines Corporation | Speech recognition system with efficient storage and rapid assembly of phonological graphs |
US4759068A (en) * | 1985-05-29 | 1988-07-19 | International Business Machines Corporation | Constructing Markov models of words from multiple utterances |
US4977599A (en) * | 1985-05-29 | 1990-12-11 | International Business Machines Corporation | Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence |
GB8517918D0 (en) * | 1985-07-16 | 1985-08-21 | British Telecomm | Recognition system |
JPH06105394B2 (ja) * | 1986-03-19 | 1994-12-21 | 株式会社東芝 | 音声認識方式 |
CA1311059C (en) * | 1986-03-25 | 1992-12-01 | Bruce Allen Dautrich | Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words |
DE3876379T2 (de) * | 1987-10-30 | 1993-06-09 | Ibm | Automatische bestimmung von kennzeichen und markov-wortmodellen in einem spracherkennungssystem. |
IT1229725B (it) * | 1989-05-15 | 1991-09-07 | Face Standard Ind | Metodo e disposizione strutturale per la differenziazione tra elementi sonori e sordi del parlato |
EP0438662A2 (de) * | 1990-01-23 | 1991-07-31 | International Business Machines Corporation | Einrichtung und Verfahren zur Gruppierung von Äusserungen eines Phonemen in von Kontexten abhängigen Kategorien, die auf Tonähnlichkeit basiert sind für automatische Spracherkennung |
US5182773A (en) * | 1991-03-22 | 1993-01-26 | International Business Machines Corporation | Speaker-independent label coding apparatus |
JPH04362698A (ja) * | 1991-06-11 | 1992-12-15 | Canon Inc | 音声認識方法及び装置 |
US5276766A (en) * | 1991-07-16 | 1994-01-04 | International Business Machines Corporation | Fast algorithm for deriving acoustic prototypes for automatic speech recognition |
US5280562A (en) * | 1991-10-03 | 1994-01-18 | International Business Machines Corporation | Speech coding apparatus with single-dimension acoustic prototypes for a speech recognizer |
-
1993
- 1993-05-18 US US08/062,972 patent/US5465317A/en not_active Expired - Fee Related
-
1994
- 1994-03-28 EP EP94104846A patent/EP0625775B1/de not_active Expired - Lifetime
- 1994-03-28 DE DE69425776T patent/DE69425776T2/de not_active Expired - Fee Related
- 1994-04-12 JP JP6073532A patent/JP2642055B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004001863A1 (de) * | 2004-01-13 | 2005-08-11 | Siemens Ag | Verfahren und Vorrichtung zur Bearbeitung eines Sprachsignals |
Also Published As
Publication number | Publication date |
---|---|
JP2642055B2 (ja) | 1997-08-20 |
US5465317A (en) | 1995-11-07 |
EP0625775A1 (de) | 1994-11-23 |
DE69425776D1 (de) | 2000-10-12 |
EP0625775B1 (de) | 2000-09-06 |
JPH06332495A (ja) | 1994-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69425776T2 (de) | Spracherkennungseinrichtung mit verbesserter Ausschliessung von Wörtern und Tönen welche nicht im Vokabular enthalten sind | |
DE69226594T2 (de) | Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt. | |
DE69315374T2 (de) | Spracherkennungssystem zur naturgetreuen Sprachübersetzung | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE69707876T2 (de) | Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE3876207T2 (de) | Spracherkennungssystem unter verwendung von markov-modellen. | |
DE69010941T2 (de) | Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache. | |
DE69010722T2 (de) | Spracherkennungssystem. | |
DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
DE69519297T2 (de) | Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen | |
DE69427083T2 (de) | Spracherkennungssystem für mehrere sprachen | |
DE69127961T2 (de) | Verfahren zur Spracherkennung | |
DE3878071T2 (de) | Sprachnormierung durch adaptive klassifizierung. | |
DE3783154T2 (de) | Spracherkennungssystem. | |
DE69818231T2 (de) | Verfahren zum diskriminativen training von spracherkennungsmodellen | |
DE69225371T2 (de) | Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier "Hidden Markov" Modelle | |
DE69420888T2 (de) | Interaktives Rechnersystem, das gesprochene Befehle erkennt | |
DE60305568T2 (de) | Schlüsselworterkennung in einem Sprachsignal | |
DE69423692T2 (de) | Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln | |
DE4397106B4 (de) | Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung | |
DE69033084T2 (de) | Schaltung zur Spracherkennung unter Anwendung von nichtlinearer Verarbeitung, Sprachelementmodellierung und Phonembewertung | |
DE69524036T2 (de) | Vorrichtung zur erkennung von gesprächsthemen | |
DE69321656T2 (de) | Verfahren zur Spracherkennung | |
DE69224253T2 (de) | Sprachkodiergerät |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8320 | Willingness to grant licences declared (paragraph 23) | ||
8328 | Change in the person/name/address of the agent |
Representative=s name: DUSCHER, R., DIPL.-PHYS. DR.RER.NAT., PAT.-ANW., 7 |
|
8339 | Ceased/non-payment of the annual fee |