DE60124408T2 - System und Verfahren für automatische Spracherkennung unter Verwendung von Mapping bzw. Abbildung - Google Patents

System und Verfahren für automatische Spracherkennung unter Verwendung von Mapping bzw. Abbildung Download PDF

Info

Publication number
DE60124408T2
DE60124408T2 DE60124408T DE60124408T DE60124408T2 DE 60124408 T2 DE60124408 T2 DE 60124408T2 DE 60124408 T DE60124408 T DE 60124408T DE 60124408 T DE60124408 T DE 60124408T DE 60124408 T2 DE60124408 T2 DE 60124408T2
Authority
DE
Germany
Prior art keywords
speech recognition
word
candidate
unit
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60124408T
Other languages
English (en)
Other versions
DE60124408D1 (de
Inventor
Yingyong San Diego Qi
Ning San Diego BI
Harinath San Diego GARUDADRI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of DE60124408D1 publication Critical patent/DE60124408D1/de
Application granted granted Critical
Publication of DE60124408T2 publication Critical patent/DE60124408T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Electric Clocks (AREA)
  • Toys (AREA)
  • Selective Calling Equipment (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

  • 1. Gebiet
  • Die vorliegende Erfindung betrifft im Allgemeinen das Gebiet der Kommunikationen und im Speziellen ein neues und verbessertes System und Verfahren für die Spracherkennung.
  • II. Hintergrund
  • Spracherkennung (VR = voice recognition) stellt eine der wichtigsten Techniken dar, um eine Maschine mit simulierter Intelligenz auszustatten, um Benutzer- oder benutzergesprochene Befehle zu erkennen, und um das Mensch-Maschinen-Interface zu vereinfachen. VR repräsentiert ebenso eine Schlüsseltechnik für menschliche Sprachverständigung. Systeme, die Techniken anwenden, um eine linguistische Nachricht von einem akustischen Sprachsignal aufzudecken werden Spracherkenner genannt. Der Ausdruck "Spracherkenner" wird hierin benutzt, um im Allgemeinen jedes Sprachbenutzer-Interface fähiges Gerät abzudecken.
  • Die Verwendung von VR (ebenso üblich als Spracherkennung bezeichnet) wird immer wichtiger aus Sicherheitsgründen. VR kann zum Beispiel benutzt werden, um die manuelle Aufgabe des Knöpfedrückens auf einer Drahtfosteiefontastatur zu ersetzen. Das ist besonders wichtig, wenn ein Benutzer während einer Autofahrt einen Telefonanruf initiiert. Wenn ein Telefon ohne VR benutzt wird, muss der Fahrer eine Hand von dem Lenkrad entfernen und auf die Telefontastatur schauen, während er die Knöpfe für die Anrufswahl drückt. Diese Aktionen erhöhen die Wahrscheinlichkeit eines Autounfalls. Ein sprachfähiges Telefon (d.h. ein Telefon, das für Spracherkennung entwickelt wurde) würde dem Fahrer erlauben, Telefonanrufe zu platzieren, während er kontinuierlich auf die Straße schauen kann. Zusätzlich würde ein Freisprecheinrich tungssystem dem Fahrer erlauben, beide Hände auf dem Lenkrad zu behalten, und zwar während einer Anrufsinitiierung.
  • Spracherkennungsgeräte werden entweder als sprecherabhängige (SD = speaker dependent) oder sprecherunabhängige (SI = speaker independent) Geräte klassifiziert. Sprecherabhängige Geräte, die verbreiteter sind, werden trainiert, um Befehle von bestimmten Benutzern zu erkennen. Im Gegensatz dazu sind sprecherunabhängige Geräte dazu in der Lage, Sprachbefehle von jedem Benutzer zu akzeptieren. Um die Performance eines gegebenen VR-Systems zu erhöhen, ob sprecherabhängig oder sprecherunabhängig, wird Training benötigt, um das System mit gültigen Parametern auszustatten. Mit anderen Worten muss das System lernen, bevor es optimal funktionieren kann.
  • Ein sprecherabhängiges VR-Gerät operiert typischerweise in zwei Phasen, einer Trainingsphase und einer Erkennungsphase. In der Trainingsphase fordert das VR-System den Benutzer auf, jedes der Wörter in dem Vokabular des Systems einmal oder zweimal (typischerweise zweimal) zu sprechen, so dass das System die Charakteristiken der Sprache des Benutzers für diese bestimmten Wörter oder Phrasen lernen kann. Ein beispielhaftes Vokabular für eine Freisprecheinrichtung könnte die Zahlen auf der Tastatur beinhalten; die Schlüsselwörter "Call" bzw. „Anrufen", "Send" bzw. „Senden", "Dial" bzw. „Wählen", "Cancel" bzw. „Abbrechen", "Clear" bzw. „Löschen", "Add" bzw. "Hinzufügen", "Delete" bzw. „Entfernen", "History" bzw. „Historie", "Program" bzw. "Programmieren", "Yes" bzw. „Ja" und "No" bzw. „Nein"; und die Namen von einer vordefinierten Anzahl von öfters angerufenen Mitarbeitern, Freunden oder Familienmitgliedern. Sobald das Training vollständig ist, kann der Benutzer Anrufe in der Erkennungsphase durch Sprechen der trainierten Schlüsselwörter, die das VR-Gerät durch Vergleichen der gesprochenen Äußerungen mit den vorher trainierten Äußerungen (gespeichert als Templates bzw. Vorlagen) und durch Nehmen des besten Gegenstücks bzw. Treffers initiieren. Wenn der Name "John" zum Beispiel einer der trainierten Namen wäre, könnte der Benutzer einen Anruf zu John durch Sprechen der Phrase "Call John" bzw. "John anrufen" initiieren. Das VR-System würde die Wörter "Call" bzw. „Anrufen" und "John" erkennen, und würde die Nummer wählen, die der Benutzer vorher als Johns Telefonnummer eingegeben hat. Systeme und Verfahren für das Training.
  • Ein sprecherunabhängiges VR-Gerät benutzt ebenso ein Training-Template bzw. Trainings-Vorlage, das ein vorher aufgenommenes Vokabular einer vordefinierten Größe enthält (z.B. gewisse Steuerungswörter, die Zahlen Null bis Neun, und Ja und Nein). Eine große Anzahl von Sprechern (z.B. 100) müssen aufgenommen werden, während sie jedes Wort in dem Vokabular sagen.
  • Verschiedene sprecherunabhängige VR-Geräte können verschiedene Ergebnisse erzielen. Eine sprecherunabhängige (SI) Nidden-Markov-Modell-(HMM)-Einheit kann ein unterschiedliches Ergebnis erzielen als eine sprecherunabhängige Dynamic-Time-Warping-(DTW)-Einheit bzw. dynamische Zeitkrümmungsspracherkennungseinheit. Das Kombinieren der Ergebnisse von diesen beiden Einheiten kann in einem System mit besserer Erkennungsgenauigkeit und niedrigeren Zurückweisungsraten resultieren als unter Verwendung der Ergebnisse von nur einer der Einheiten.
  • Ein sprecherabhängiger VR und ein sprecherunabhängiger VR können unterschiedliche Ergebnisse erzielen. Eine sprecherabhängige Einheit führt Erkennung unter Verwendung von Templates, die einen spezifischen Benutzer betreffen, durch. Eine sprecherunabhängige Einheit führt Erkennung unter Verwendung von Templates durch, die unter Verwendung von Beispielen von einem Ensemble von Benutzern generiert wurden. Da Sprecher spezifischer Templates näher an einem vorhandenen Sprachstil des Benutzers sind, liefern SD-Einheiten bessere Genauigkeit als SI-Einheiten. SI-Einheiten haben jedoch den Vorteil, dass die Benutzer nicht durch den "Trainingsprozess" vor der Verwendung des Systems gehen müssen.
  • Ein System und ein Verfahren, das Einheiten unterschiedlicher Typen kombiniert ist erwünscht. Das Kombinieren vielfacher Einheiten würde eine verbes serte Genauigkeit vorsehen und eine größere Menge an Informationen in dem eingegebenen Sprachsignal benutzen. Ein System und Verfahren zum Kombinieren von VR-Einheiten ist beschrieben in der US-Patentanmeldung Nr. 09/618,177 mit dem Titel "Combined Einheit System and Method for Voice Recoginition", eingereicht am 18. Juli 2000, dem Rechtsnachfolger der vorliegenden Erfindung zugeordnet.
  • Ein VR-System mit Entscheidungslogik kann heuristische Logik benutzen, um Entscheidungsregeln zu entwickeln. Die Entscheidungslogik startet typischerweise mit den gemessenen Distanzen zwischen einer Testäußerung und den Top-Kandidaten-(Wort)-Templates jeder Engine. Zum Beispiel, zu der Annahme, dass zwei Einheiten (Einheiten D und H) benutzt werden. Es sei d1 und d2 die Distanz zwischen der Testäußerung und den Top-Zwei-Kandidatenwörtern der Einheit D, und h1 und h2 die Distanz zwischen der Testäußerung und den Top-Zwei-Kandidatenwörtern der Einheit H. Es sei dg und hg die Distanz zwischen der Testäußerung und den "Abfall"-Templates der Einheit D bzw. H. Die Abfall-Templates werden benutzt, um alle Wörter zu repräsentieren, die nicht in dem Vokabular sind. Die Entscheidungslogik involviert eine Sequenz von Vergleichen zwischen diesen gemessenen Distanzen und einem Satz von vordefinierten Schwellen. Die Vergleichsregeln und Schwellen müssen jedoch synthetisiert bzw. künstlich hergestellt werden und teilweise auf einer Trial-By-Error-Basis angepasst werden, weil sie nicht systematisch optimiert sein können. Dies ist ein Zeit verbrauchender und schwieriger Prozess. Zusätzlich können heuristische Regeln anwendungsabhängig sein. Ein neuer Satz von Regeln muss zum Beispiel künstlich hergestellt werden, wenn die Top-Drei-Wörter im Vergleich zu den Top-Zwei-Wörtern für jede Einheit benutzt werden. Es ist wahrscheinlich, dass der Satz von Regeln zum Erkennen von rauschfreier Sprache von denen zum Erkennen von verrauschter Sprache verschieden sein würde.
  • Somit ist ein System und Verfahren zum Auflösen bzw. Beheben von unterschiedlichen Ergebnissen von einer Vielzahl von verschiedenen VR-Einheiten erwünscht.
  • Es wird auf das Dokument US-A-5,754,978 aufmerksam gemacht, das ein Sprachenkennungssystem mit zwei Spracheinheiten offenbart. Die Spracherkennungseinheiten stellen ein erkanntes Textausgabesignal bereit, wobei jedes von diesen an einen Textkomparator geliefert wird. Der Komparaton vergleicht die erkannten Textausgabesignale und akzeptiert oder weist den Text, basierend auf dem Grad einer Übereinkunft zwischen den Ausgabesignalen, jeder der Einheiten zurück.
  • Es wird ebenso auf einen Artikel von Bouchaffra et al. aufmerksam gemacht, und zwar "A methodology for mapping scores to probabilities", IEEE transactions on pattern analysis and machine intelligence, IEEE Inc. New York, U.S., Volume 21, Nr. 9 XP, 000851870. Dieser Artikel beschreibt eine Ableitung der Wahrscheinlichkeit der Richtigkeit von Werten, die den meisten Erkennern zugewiesen wird. Die Ableitung der Wahrscheinlichkeitswerte stellt die Ausgabe verschiedener Erkenner auf die gleiche Skala, was einen Vergleich unter den Erkennern einfach macht.
  • Zum Schluss wird auf das Stand-der-Technik-Dokument US-A-5 734 793 aufmerksam gemacht, das ein System zum Erkennen von gesprochenen Klängen von kontinuierlicher Sprache beschreibt und eine Vielzahl von Klassifizierern und einen Auswähler bzw. Selektor beinhaltet. Jeder der Klassifizierer implementiert eine diskriminierte bzw. discriminated Funktion, die auf einer Polynonomerweiterung basiert. Durch das Bestimmen der Polynomkoeffizienten einer diskriminierten Funktion wird die entsprechende Klassifizierung eingestellt, um einen spezifischen gesprochenen Klang zu klassifizieren. Der Selektor wendet die klassifizierten Ausgaben an, um die gesprochenen Klänge zu identifizieren. Ein Verfahren zum Benutzen des Systems ist ebenso beschrieben.
  • Gemäß der vorliegenden Erfindung ist ein Spracherkennungssystem, wie dargelegt in den Ansprüchen 1 und 15 und ein Verfahren zur Spracherkennung, wie dargelegt in den Ansprüchen 16 und 20, vorgesehen. Ausführungsbeispiele der Erfindung sind in den Unteransprüchen beschrieben.
  • ZUSAMMENFASSUNG
  • Die beschriebenen Ausführungsbeispiele sind auf ein System und ein Verfahren für Spracherkennung gerichtet. In einem Ausführungsbeispiel ist ein Verfahren zum Kombinieren einer Vielzahl von Spracherkennungseinheiten vorgesehen, um die Spracherkennung zu verbessern. Das Verfahren beinhaltet auf vorteilhafte Weise das Koppeln einer Vielzahl von Spracherkennungseinheiten mit einem Abbildungsmodul. Jede VR-Einheit produziert eine Hypothese, d.h. einen Wortkandidat, anschließend wendet das Abbildungsmodul eine Abbildungsfunktion an, um eine Hypothese von den Hypothesen, die von der Vielzahl von VR-Einheiten produziert wurden, auszuwählen.
  • In einem Ausführungsbeispiel werden sprecherunabhängige Spracherkennungseinheiten kombiniert. In einem anderen Ausführungsbeispiel werden sprecherabhängige Spracherkennungseinheiten kombiniert. In noch einem anderen Ausführungsbeispiel wird eine sprecherunabhängige Spracherkennungseinheit mit einer sprecherabhängigen Spracherkennungseinheit kombiniert.
  • In einem Ausführungsbeispiel ist eine sprecherunabhängige Spracherkennungseinheit eine Dynamic-Time-Warping-Spracherkennungsengine. In einem Ausführungsbeispiel ist eine sprecherunabhängige Spracherkennungseinheit ein Hidden-Markov-Modell. In einem Ausführungsbeispiel ist eine sprecherabhängige Spracherkennungseinheit eine Dynamic-Time-Warping-Spracherkennungsengine. In einem Ausführungsbeispiel ist eine sprecherabhängige Spracherkennungseinheit ein Hidden-Markov-Modell.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Die Merkmale, Ziele und Vorteile der vorliegenden Erfindung werden ausgehend von der detaillierten Beschreibung, wie nachstehend dargelegt, noch deutlicher werden, wenn sie in Verbindung mit den Zeichnungen gebracht werden, in denen gleiche Bezugszeichen durchgehend das Entsprechende identifizieren und wobei:
  • 1 ein Ausführungsbeispiel eines Spracherkennungssystems zeigt, und zwar mit drei Typen von Spracherkennungseinheiten;
  • 2 ein Spracherkennungssystems zeigt, und zwar einschließlich einer DTW-Einheit und einer HMM-Engine; und
  • 3 ein Ausführungsbeispiel eines Spracherkennungssystems zeigt, und zwar mit zwei Spracherkennungseinheiten.
  • DETAILLIERTE BESCHREIBUNG
  • In einem Ausführungsbeispiel hat ein Spracherkennungssystem 100, wie in 1 gezeigt, drei Typen von Spracherkennungseinheiten, die zum Durchführen von isolierten Worterkennungsaufgaben in der Lage sind: eine sprecherunabhängige Dynamic-Time-Warping-Einheit bzw. DTW-SI-Einheit 104 (DTW-SI = DTW-speaker independent), eine sprecherabhängige DTW-Einheit bzw. DTW-SD-Einheit 106 (DTW-SD = DTW-speaker dependent) und ein Hidden-Markov-Modell-Einheit bzw. HMM-Einheit 108. Diese Einheiten werden für die Befehlsworterkennung und Ziffernerkennung benutzt, um umfassende Sprachbenutzerinterface für gemeinsame Aufgaben, die von einem handgehaltenen Gerät, wie zum Beispiel ein Mobiltelefon, einem persönlichen digitalen Assistenten (PDA = personal digital assistant) etc. durchgeführt werden, vorzusehen. In einem anderen Ausführungsbeispiel weist das Spracherkennungssystem 100 eine DTW-SI 104 und eine DTW-SD-Einheit 106 auf. In noch einem anderen Ausführungsbeispiel weist das Spracherkennungssystem 100 eine DTW-SI-Einheit 104 und eine HMM-Einheit 108 auf. In noch einem anderen Ausführungsbeispiel weist das Spracherkennungssystem 100 eine DTW-SD- Einheit 106 und eine HMM-Einheit 108 auf. In einem Ausführungsbeispiel ist die HMM-Einheit 108 sprecherunabhängig. In einem anderen Ausführungsbeispiel ist die HMM-Einheit 108 sprecherabhängig. Es sei angemerkt, dass es für den Fachmann klar sein sollte, dass jede VR-Engine, die auf dem Fachgebiet bekannt ist, benutzt werden kann. In noch einem anderen Ausführungsbeispiel wird eine Vielzahl von anderen VR-Engine-Typen kombiniert. Es sollte auch für den Fachmann leicht ersichtlich sein, dass die Einheiten in jeder Kombination konfiguriert werden können.
  • Gemäß einem Ausführungsbeispiel, wie in 1 dargestellt, beinhaltet das Spracherkennungssystem 100 einen Analog-zu-Digital-Konverter (A/D) 102, eine DTW-SI-Einheit 104, eine DTW-SD-Einheit 106 und eine HMM-Einheit 108. In einem Ausführungsbeispiel ist der A/D 102 ein Hardware-A/D. In einem anderen Ausführungsbeispiel ist der A/D 102 in Software implementiert. In einem Ausführungsbeispiel sind der A/D 102 und die Einheiten 104, 106, 108 als ein Gerät implementiert. Es sei für den Fachmann angemerkt, dass der A/D 102 und die Einheiten 104, 106, 108 implementiert werden können und unter jede Anzahl von Geräten verteilt werden können.
  • Der A/D 102 ist mit der DTW-SI-Einheit 104, der DTW-SD-Einheit 106 und der HMM-Einheit 108 gekoppelt. Die DTW-SI-Einheit 104, die DTW-SD-Einheit 106 und die HMM-Einheit 108 sind mit einem Abbildungsmodul 110 verkoppelt. Das Abbildungsmodul hat als Eingabe die Ausgaben der Einheiten 104, 106 und 108 und produziert ein Wort entsprechend einem Sprachsignal s(t).
  • Das Spracherkennungssystem 100 kann sich zum Beispiel in einem Drahtlostelefon oder einer Freisprecheinrichtung befinden. Ein Benutzer (nicht gezeigt) spricht ein Wort oder eine Phrase, um ein Sprachsignal zu generieren. Das Sprachsignal wird in ein elektrisches Sprachsignal s(t) konvertiert, und zwar mit einem konventionellen Transducer (nicht gezeigt). Das Sprachsignal s(t) wird an den A/D 102 geliefert, der das Sprachsignal in digitalisierte Sprachsamples gemäß einem bekannten Samplingverfahren bzw. Abtastungsverfahren, wie zum Beispiel pulscodierte Modulation (PCM = pulse coded modulati on), A-Law oder μ-Law konvertiert. In einem Ausführungsbeispiel gibt es typischerweise N 16-Bit-Sprachsamples jede Sekunde. Somit N = 8.000 für 8.000 Hz Samplingfrequenz und N = 16.000 für 16.000 Hz Samplingfrequenz.
  • Die Sprachsamples werden an die DTW-SI-Einheit 104, die DTW-SD-Einheit 106 und die HMM-Einheit 108 geliefert. Jede Einheit verarbeitet die Sprachsamples und produziert Hypothesen, d.h. Kandidantenworte für das Sprachsignal s(t). Das Abbildungsmodul bildet anschließend die Kandidatenworte auf einen Entscheidungsraum ab, der evaluiert wird, um das Kandidatenwort auszuwählen, das am besten das Sprachsignal s(t) reflektiert.
  • In einem Ausführungsbeispiel beinhaltet das Spracherkennungssystem zwei VR-Einheiten, wie in 2 gezeigt. Das Spracherkennungssystem 100 beinhaltet eine DTW-Einheit 112 und eine HMM-Einheit 114. In einem Ausführungsbeispiel ist die DTW-Einheit eine sprecherunabhängige VR-Engine. In einem anderen Ausführungsbeispiel ist die DTW-Einheit eine sprecherabhängige VR-Engine. In einem Ausführungsbeispiel ist die HMM-Einheit eine sprecherunabhängige VR-Engine. In einem anderen Ausführungsbeispiel ist die HMM-Einheit eine sprecherabhängige VR-Engine.
  • In diesen Ausführungsbeispielen hat das System die Vorteile von sowohl den DTW- als auch den HMM-Einheiten. In einem Ausführungsbeispiel werden die DTW- und HMM-Templates ausschließlich während einer Trainingsphase erzeugt, in der das Spracherkennungssystem trainiert wird, um Eingabesprachsignale zu erkennen. In einem anderen Ausführungsbeispiel werden DTW- und HMM-Templates erzeugt, und zwar implizit während des typischen Gebrauchs des Spracherkennungssystems. Exemplarische Trainingssysteme und -verfahren sind in der US-Patentanmeldung Nr. 09/248,513 mit dem Titel "VOICE RECOGINITION REJECTION SCHEME" beschrieben, eingereicht am 8. Februar 1999, dem Rechtsnachfolger der vorliegenden Erfindung zugeordnet, und US-Patentanmeldung Nr. 09/225,891 mit dem Titel "SYSTEM AND METHOD FOR SEGMENTATION AND RECOGNITION OF SPEECH SIG NALS", eingereicht am 4. Januar 1999, dem Rechtsnachfolger der vorliegenden Erfindung zugeordnet.
  • Ein Satz von Templates für alle Vokabularwörter des Spracherkennungssystems sind in irgendeiner konventionellen Form von nicht flüchtigem Speichermedium, wie z.B. Flash-Speicher, gespeichert. Dies erlaubt den Templates, in dem Speichermedium zu bleiben, wenn der Strom des Spracherkennungssystems 100 abgeschaltet ist. In einem Ausführungsbeispiel ist der Satz von Templates mit einem sprecherunabhängigen Template-Erzeugungssystem konstruiert. In einem Ausführungsbeispiel sind Befehlsworte in einem VR-Engine-Vokabular beinhaltet.
  • Die DTW-Technik ist auf dem Fachgebiet bekannt und beschrieben in Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition 200238 (1993). Gemäß der DTW-Technik wird ein Gitter gebildet, und zwar durch Zeichnen einer Zeitsequenz der Äußerung, die getestet werden soll, gegenüber einer Zeitsequenz für jede Äußerung, die in einer Template-Datenbank gespeichert ist. Die zu testende Äußerung wird anschließend verglichen, Punkt für Punkt (z.B. alle 10 ms), und zwar mit jeder Äußerung in der Template-Datenbank, jeweils eine Äußerung auf einmal. Für jede Äußerung in der Template-Datenbank wird die zu testende Äußerung angepasst, oder "warped", und zwar in der Zeit, wobei sie entweder so lange bei bestimmten Punkten komprimiert oder expandiert wird, bis der nächstmögliche Treffer mit der Äußerung in der Template-Datenbank erreicht wird. Zu jedem Punkt in der Zeit werden die zwei Äußerungen verglichen, und entweder ein Treffer wird an diesem Punkt (Null Kosten) erklärt, oder es wird eine Fehlanpassung erklärt. Bei dem Ereignis einer Fehlanpassung bei einem bestimmten Punkt wird die zu testende Äußerung komprimiert, expandiert oder wenn notwendig fehlangepasst. Der Prozess wird solange fortgeführt, bis die zwei Äußerungen vollständig gegeneinander verglichen wurden. Eine große Anzahl (typischerweise tausende) von unterschiedlich angepassten Äußerungen ist möglich. Die angepasste Äußerung mit der niedrigsten Kostenfunktion (d.h. die, die die wenigste Anzahl von Komprimierungen und/oder Expansionen und/oder Fehlan passungen benötigt) wird ausgewählt. Auf ähnliche Weise wie ein Viterbi-Decodieralgorithmus wird die Auswahl auf vorteilhafte Weise durch Zurückschauen von jedem Punkt in der Äußerung in die Template-Datenbank durchgeführt, um den Weg mit den niedrigsten totalen Kosten zu bestimmen. Das erlaubt, dass die angepasste Äußerung mit den niedrigsten Kosten (d.h. der nächst liegende Treffer) bestimmt wird, und zwar ohne auf das "Brachialverfahren" des Generierens von allen möglichen verschieden angepassten Äußerungen zurückzugreifen. Die angepassten Äußerungen mit den niedrigsten Kosten aus allen Äußerungen in der Template-Datenbank werden anschließend verglichen und diejenige mit den niedrigsten Kosten wird ausgewählt als die gespeicherte Äußerung, die am nächsten auf die getestete Äußerung abgebildet wird.
  • Obwohl DTW-Abgleichungsschemata in einer DTW-Einheit 104 und Viterbi-Decodierung in einer HMM-Einheit 108 ähnlich sind, wenden die DTW- und HMM-Einheiten verschiedene Front-End-Schemata an, d.h., Merkmalsextrahierungen, um Merkmalsvektoren zu der Abgleichungsstufe zu liefern. Aus diesem Grund sind die Fehlermuster der DTW- und HMM-Einheiten ziemlich unterschiedlich. Ein Spracherkennungssystem mit einer kombinierten Einheit hat den Vorteil der Unterschiedlichkeiten der Fehlermuster. Durch richtiges Kombinieren der Resultate bzw. Ergebnisse beider Einheiten, kann eine höhere Gesamterkennungsgenauigkeit erreicht werden. Und was noch wichtiger ist, es können niedrigere Zurückweisungsraten für die gewünschte Erkennungsgenauigkeit erreicht werden.
  • In einem Ausführungsbeispiel sind die sprecherunabhängigen Spracherkennungseinheiten, die auf dem gleichen Vokabularsatz operieren, kombiniert. In einem anderen Ausführungsbeispiel sind die sprecherabhängigen Spracherkennungseinheiten kombiniert. In noch einem anderen Ausführungsbeispiel ist die sprecherunabhängige Spracherkennungseinheit mit einer sprecherabhängigen Spracherkennungseinheit kombiniert, wobei beide Einheiten auf dem gleichen Vokabularsatz operieren. In noch einem anderen Ausführungsbeispiel ist eine sprecherunabhängige Spracherkennungseinheit mit einer spre cherabhängigen Spracherkennungseinheit kombiniert, wobei beide Einheiten auf verschiedenen Vokabularsätzen operieren.
  • Jede Einheit produziert eine Ausgabe über welches Wort aus ihrem Vokabular gesprochen wurde. Jede Ausgabe beinhaltet einen Wortkandidaten für das Eingabesignal. Wörter, die nicht dem Eingabesignal entsprechen, werden zurückgewiesen bzw. verworfen. Exemplarische Zurückweisungsschemata sind in der US-Patentanmeldung Nr. 09/248,513 beschrieben.
  • Genaue Spracherkennung ist für ein eingebettetes System schwierig, teilweise wegen seiner begrenzten Rechenressourcen. Um die Systemgenauigkeit zu erhöhen, wird die Spracherkennung unter Verwendung von mehreren Erkennungseinheiten durchgeführt. Unterschiedliche VR-Einheiten können jedoch unterschiedliche Ergebnisse produzieren. Eine Einheit könnte zum Beispiel "Jane" und "Joe" als Top-Kandidatenwörter wählen, während eine andere VR-Einheit "Julie" und "Joe" als die Top-Zwei-Kandidaten wählen könnte. Diese unterschiedlichen Ergebnisse müssen aufgelöst werden. Eine Antwort muss gegeben werden, d.h. ein Kandidatenwort muss ausgewählt werden. Das VR-System muss eine Entscheidung basierend auf diesen Kandidatenworten für mehrere Einheiten treffen, um funktional zu sein.
  • In einem Ausführungsbeispiel sind X (X = 2, 3, ...) Einheiten kombiniert, wobei jede Einheit Y (Y = 1, 2, ...) Kandidatenworte produziert. Deswegen gibt es X·Y Kandidaten, von denen nur einer die korrekte Antwort ist. In einem anderen Ausführungsbeispiel kann jede Einheit eine unterschiedliche Anzahl von Kandidaten produzieren. In einem Ausführungsbeispiel mit zwei Einheiten D und H, sind d1 und d2 die Distanzen zwischen der Testäußerung und der Top-Zwei-Kandidatenworte der Einheit D, und h1 und h2 die Distanz zwischen der Testäußerung und den Top-Zwei-Kandidatenworten der Einheit H. Die Variablen dg und hg sind die Distanz zwischen der Testäußerung und der "Abfall"-Templates der Einheit D bzw. H. Die Abfall-Templates werden benutzt, um alle Wörter, die nicht in dem Vokabular sind, zu repräsentieren.
  • In einem Ausführungsbeispiel wird die Entscheidung des Auswählens eines Kandidaten aus den Kandidaten, die von den VR-Einheiten produziert wurden, basierend auf einer Abbildung von dem Messungsraum (d1, d2, ... dg und h1, h2, ..., hg) auf den Entscheidungsraum (Akzeptieren/Zurückweisen der Testäußerung als eines der Wörter in der Liste) getroffen. In einem Ausführungsbeispiel ist die Abbildung eine lineare Abbildung. In einem anderen Ausführungsbeispiel ist die Abbildung eine nicht-lineare Abbildung.
  • Gemäß einem Ausführungsbeispiel ist ein Flussdiagramm der Verfahrensschritte, die von einem Gerät mit einer DTW-basierenden VR-Einheit und einer HMM-basierenden VR-Einheit durchgeführt wird, in 3 gezeigt. Im Schritt 200 wird eine Testäußerung Tu erlangt. Sobald die Testäußerung Tu erhalten wird, wird eine DTW-Spracherkennungsanalyse von der Testäußerung Tu im Schritt 202 durchgeführt und eine HMM-Spracherkennungsanalyse wird von der Testäußerung Tu im Schritt 204 durchgeführt. Im Schritt 206 wird ein Satz von DTW-Kandidatenworten Di erhalten. Im Schritt 208 wird ein Satz von HMM-Kandidatenworten Hi erhalten. Im Schritt 210 wird eine lineare Abbildungsfunktion auf jedes DTW-Kandidatenwort Di und auf jedes HMM-Kandidatenwort Hi angewandt. Im Schritt 212 basiert die Erkennung eines Kandidatenworts auf den linearen Abbildungsergebnissen. Im Schritt 212 wird das Kandidatenwort mit dem mimimalen Abbildungsfunktionswert als ein erkanntes Wort W(Tu) gewählt. Im Schritt 214 wird der Abbildungsfunktionswert des erkannten Wortes W(Tu) mit einer Schwelle verglichen. Wenn der Abbildungsfunktionswert des erkannten Worts W(Tu) kleiner als die Schwelle ist, wird das erkannte Wort im Schritt 216 zurückgewiesen. Wenn der Abbildungsfunktionswert des erkannten Wortes W(Tu) größer als die Schwelle ist, dann wird das erkannte Wort im Schritt 218 akzeptiert.
  • Figure 00130001
    ist die Distanz zwischen einer Testäußerung Tu 200 und den Wörtern im Vokabular Wj, j = 1, 2, ..., N. Wj ist ein Satz von Kandidatenworten, wobei Index j die Satznummer und N die Anzahl der Sätze ist. Jeder Satz hat eine An zahl von Kandidatenworten, wobei die Anzahl eine positive ganze Zahl ist. Index i ist die VR-Engine-Nummer.
  • Jede VR-Einheit produziert ebenso eine Distanz Dg zwischen der Testäußerung Tu und dem Nicht-In-Dem-Vokabular-Wort-Template Wg. Ein Im-Vokabular-Wort ist ein Wort, das in dem Vokabular einer VR-Einheit ist. Ein Nicht-Im-Vokabular-Wort ist ein Wort, das nicht in dem Vokabular einer VR-Einheit ist. Wenn das Ergebnis der Abbildungsfunktion größer als eine Schwelle ist, dann ist das berechnete Kandidatenwort gültig und die Eingabe wird akzeptiert. Anderenfalls wird die Eingabe zurückgewiesen.
  • Tabelle 1 zeigt eine Matrix von Distanzen in einem Ausführungsbeispiel mit einer DTW-Einheit und einer HMM-Engine, wobei die Top-Zwei-Worte von jeder Einheit als Kandidatensatz ausgewählt werden. D1 und D2 sind Distanzen für die Top-Zwei-Kandidatenworte von der DTW-VR-Einheit und H1 und H2 sind die Distanzen für die Top-Zwei-Kandidatenworte von der HMM-VR-Engine.
  • In einem Ausführungsbeispiel mit zwei VR-Einheiten, wobei eine VR-Einheit X Distanzen und die andere Einheit Y Distanzen produziert, wird eine Gesamtzahl von X·Y Kandidatenworten produziert. Nur ein Wort aus einem Kandidatensatz wird erkannt werden und eine Entscheidung wird getroffen, um zu bestimmen, ob die Erkennung zurückgewiesen/akzeptiert werden soll. In einem Ausführungsbeispiel wird eine lineare Abbildungsfunktion für beide benutzt, um ein Wort aus dem Kandidatensatz zu wählen, und um die Entscheidung zu treffen zu akzeptieren oder zurückzuweisen.
  • Jeder Satz von Kandidatenworten, Wi, i = 1, 2, 3, 4, hat seine entsprechenden Messungsvektoren, wie in Tabelle 1 gezeigt. TABELLE 1
    Figure 00150001
  • D bezeichnet eine DTW-Engine. H bezeichnet eine HMM-Engine.
    Figure 00150002
    ist die Distanz zwischen Tu und Wi.
    Figure 00150003
    ist die Distanz für den zweitbesten Kandidaten ausschließlich Wi. Dg bezeichnet die Distanz zwischen Tu und dem Abfall-Template.
    Figure 00150004
    Hg repräsentiert entsprechend die gleichen Quantitäten wie für die DTW-Engine.
  • Die lineare Abbildungsfunktion hat die Form:
    Figure 00150005
    wobei ci (i = 0, 1, ... n) eine reelle Konstante in einem Ausführungsbeispiel ist und ein Sprachparameter in einem anderen Ausführungsbeispiel ist. die obere Grenze des Index i ist n. Die obere Grenze n ist gleich der Anzahl der VR-Einheiten in dem Spracherkennungssystem plus die Anzahl der Kandidatenworte für jede VR-Engine. In einem Ausführungsbeispiel mit zwei VR-Einheiten und zwei Kandidatenworten pro VR-Engine, n = 6. Die Berechnung von n ist nachstehend gezeigt.
    Zwei VR-Einheiten 2
    zwei Kandidatenworte für die erste VR-Engine +2
    zwei Kandidatenworte für die zweite VR-Engine +2
    n = 6
  • Die Entscheidungsregeln für die Worterkennung und Wortakzeptierung sind wie folgend:
    • 1. Das Wort, das Mi (D, H) maximiert wird als das Wort, das erkannt werden soll, ausgewählt; und
    • 2. Die Erkennung wird akzeptiert, wenn Mi (D, H) > 0 und zurückgewiesen wenn Mi (D, H) ≤ 0.
  • Die Abbildungsfunktion kann konstruiert werden oder objektiv trainiert werden, um falsche Akzeptierungs-/Zurückweisungsfehler zu minimieren. In einem Ausführungsbeispiel werden die Konstanten ci, (i = 0, 1, ..., n) von dem Training erhalten. In dem Trainingsprozess ist die Identität jedes Testsamples bekannt. Der Messungsvektor eines Worts (unter W1, W2, W3, und W4) wird als korrekt (+1) markiert und der Rest wird als inkorrekt (–1) markiert. Das Training bestimmt den Wert des Koeffizientenvektors c = ci (i = 0, 1, ... n), um die Anzahl der fehlerhaften Klassifizierungen zu minimieren. Vektor b ist ein Vektor, der die korrekte/inkorrekte Natur jedes Trainingsvektors anzeigt, und W ist die Messungsmatrix, wo jede Zeile ein Messungsvektor
    Figure 00160001
    Hg, (i = i, ..., 4) ist. In einem Ausführungsbeispiel wird der Koeffizientenvektor c durch Berechnen der Pseudoinversen von W berechnet: c = (WTW)–1WTb
  • Diese Prozedur minimiert den mittleren quadratischen Fehler (MSE = mean square error). In einem anderen Ausführungsbeispiel werden ebenso verbesserte Fehlerminimierungsprozeduren, wie z.B. das Minimieren der Gesamtfehlerzahl, benutzt, um nach dem Koeffizientenvektor c aufzulösen. Es sei für den Fachmann angemerkt, dass andere Fehlerminimierungsprozeduren, die auf dem Fachgebiet bekannt sind, benutzt werden können, um nach dem Koeffizientenvektor c aufzulösen.
  • Das Abbildungsfunktionsverfahren ist gleichermaßen anwendbar auf mehrere (>2) Einheiten und mehrere (>2) Wortkandidaten. Wenn es L VR- gibt und jede N Wortkandidaten produziert, hat die verallgemeinerte Abbildungsfunktion die Form:
    Figure 00170001
    C0 ist die Schwellenkonstante. cl k ist die k-te Abbildungskonstante für VR-Einheit I.
    Figure 00170002
    ist die k-te Distanz für den Wortkandidaten Wi von der VR-Einheit I.
  • Eine oder mehrere Variablen/Parameter werden in der Abbildungsfunktion statt der Koeffizienten benutzt. In einem Ausführungsbeispiel sind der oder die mehreren Variablen/Parameter, die in der Abbildungsfunktion benutzt werden, Sprachparameter von einer VR-Engine. Es sei für den Fachmann ebenso angemerkt, dass der eine oder mehrere Variablen/Parameter Sprachparameter sein können, die aus der Messung oder Verarbeitung des Sprachsignals s(t) genommen wurden.
  • Somit wurde ein neues und verbessertes Verfahren und Vorrichtung zum Kombinieren von Einheiten für Spracherkennung beschrieben. Es sei für den Fachmann angemerkt, dass die verschiedenen illustrativen logischen Blöcke, Module und Abbildungen, die in Verbindung mit den Ausführungsbeispielen, die hierin offenbart wurden, beschrieben sind, als elektronische Hardware, Computersoftware oder Kombinationen davon implementiert werden können. Die verschiedenen illustrativen Komponenten, Blöcke, Module, Schaltungen und Schritte wurden im Allgemeinen mit Ausdrücken derer Funktionalität beschrieben. Ob die Funktionalität als Hardware oder Software implementiert wird, hängt von der bestimmten Anwendung und den Designeinschränkungen, die dem Gesamtsystem auferlegt sind, ab. Der Fachmann erkennt die Auswechselbarkeit von Hardware und Software unter diesen Umständen und wie die beschriebene Funktionalität für jede bestimmte Anwendung am besten implementiert wird. Als Beispiele können die verschiedenen illustrativen logischen Blöcke, Module und Abbildungen, die in Verbindung mit den hierin offenbarten Ausführungsbeispielen beschrieben wurden, mit einem Prozessor, der einen Satz von Firmwareinstruktionen ausführt, einer applikationsspezifischen integrierten Schaltung (ASIC = application specific integrated circuit), einem feldprogrammierbaren Gate-Array (FPGA = field programmable gate array) oder einem anderen programmierbaren logischen Gerät, einem diskreten Gatter oder einer Transistorlogik, diskreten Hardwarekomponenten wie z.B. Registern, jedem konventionellen programmierbaren Softwaremodul und einem Prozessor oder jeglicher Kombination davon, die entwickelt wurden, um die hierin beschriebenen Funktionen durchzuführen, implementiert oder durchgeführt werden. Der A/D 102, die VR-Einheiten und das Abbildungsmodul 110 können auf vorteilhafte Weise in einem Mikroprozessor ausgeführt werden, aber als Alternative können der A/D 102, die VR-Einheiten und das Abbildungsmodul 110 in jedem konventionellen Prozessor, Controller, Mikrocontroller oder jeder Zustandsmaschine ausgeführt werden. Die Templates können sich in einem RAM-Speicher, Flash-Speicher, ROM-Speicher, EPROM-Speicher, EEPROM-Speicher, Registern, einer Festplatte, einer entfernbaren Disk, einer CD-ROM oder jeder anderen Form von Speichermedium, die auf dem Fachgebiet bekannt ist, befinden. Der Speicher (nicht gezeigt) kann in jeglichem zuvor genannten Prozessor (nicht gezeigt) integriert sein. Ein Prozessor (nicht gezeigt) und ein Speicher (nicht gezeigt) können sich in einem ASIC (nicht gezeigt) befinden. Der ASIC kann sich in einem Telefon befinden.
  • Die vorhergehende Beschreibung der Ausführungsbeispiele der Erfindung ist vorgesehen um jedem Fachmann zu ermöglichen, die vorliegende Erfindung zu produzieren oder zu benutzen. Die verschiedenen Modifikationen dieser Ausführungsbeispiele werden dem Fachmann leicht ersichtlich sein, und die ursprünglichen Prinzipien, die hierin definiert wurden, können auf andere Ausführungsbeispiele ohne die Verwendung von erfinderischer Fähigkeit angewandt werden. Somit ist es nicht beabsichtigt, die vorliegende Erfindung auf die hierin gezeigten Ausführungsbeispiele zu begrenzen, sondern es soll ihr der breiteste Schutzumfang, der mit den Prinzipien und neuen Merkmalen, die hierin offenbart sind, konsistent ist, eingeräumt werden.

Claims (23)

  1. Ein Spracherkennungssystem (100), das Folgendes aufweist: eine Vielzahl von Spracherkennungs- bzw. VR-Einheiten (VR = voice recognition) (104, 106, 108), wobei jede Spracherkennungseinheit konfiguriert ist, um einen Wort-Kandidaten zu erzeugen; und ein Abbildungsmodul (110), das konfiguriert ist als eine Eingabe die Wort-Kandidaten von der Vielzahl von VR-Einheiten (104, 106, 108) aufzunehmen, und einen Wort-Kandidaten basierend auf einer Abbildungsfunktion auszuwählen, wobei die Abbildungsfunktion die Folgende ist:
    Figure 00200001
    wobei F eine erste Spracherkennungseinheit ist, S eine zweite Spracherkennungseinheit ist,
    Figure 00200002
    der Abstand zwischen der Äußerung Tu und Kandidaten-Wort Wi ist,
    Figure 00200003
    der Abstand des zweitbesten Kandidaten ausschließlich Wi ist, Dg den Abstand zwischen Tu und einer Abfallvorlage (garbage template) bezeichnet,
    Figure 00200004
    der Abstand zwischen Äußerung Tu und Wi ist,
    Figure 00200005
    der Abstand für den zweitbesten Kandidaten ausgenommen Wi ist, Sg den Abstand zwischen Tu und der Abfallvorlage bezeichnet und Ci (i = 0, 1, ... n) ein Koeffizient ist und die obere Grenze n gleich zu der Summe der Anzahl von VR-Einheiten ist plus der Summe der Kandidaten-Worte für jede VR-Einheit.
  2. Spracherkennungssystem (100) nach Anspruch 1, wobei die Vielzahl von Spracherkennungseinheiten eine sprecherunabhängige Spracherkennungseinheit (104) beinhaltet.
  3. Spracherkennungssystem (100) nach Anspruch 1, wobei die Vielzahl von Spracherkennungseinheiten eine sprecherabhängige Spracherkennungseinheit (106) enthält.
  4. Spracherkennungssystem (100) nach Anspruch 2, wobei die Vielzahl von Spracherkennungseinheiten eine sprecherabhängige Spracherkennungseinheit (106) beinhaltet.
  5. Spracherkennungssystem (100) nach Anspruch 4, wobei mindestens eine sprecherunabhängige Spracherkennungseinheit (104) eine dynamic time warping bzw. dynamische Zeitkrümmungsspracherkennungseinheit ist.
  6. Spracherkennungssystem (100) nach Anspruch 4, wobei mindestens eine sprecherunabhängige Spracherkennungseinheit (104) eine Hidden Markov Model-Spracherkennungseinheit ist.
  7. Spracherkennungssystem (100) nach Anspruch 4, wobei mindestens eine sprecherabhängige Spracherkennungseinheit (106) eine Dynamic Time Warping Spracherkennungseinheit ist.
  8. Spracherkennungssystem (100) nach Anspruch 4, wobei mindestens eine sprecherabhängige Spracherkennungseinheit (106) eine Hidden Markov Model Erkennungseinheit ist.
  9. Spracherkennungssystem (100) nach Anspruch 1, wobei die Abbildungsfunktion linear die Wort-Kandidaten aus einem Messraum in einen Entscheidungsraum abbildet.
  10. Spracherkennungssystem (100) nach Anspruch 1, wobei der Wort-Kandidat dargestellt wird durch einen Abstand zwischen einer Wortkandidaten-Vorlage bzw. template und der Äußerung.
  11. Spracherkennungssystem (100) nach Anspruch 1, wobei das Abbildungsmodul (110) jeden Abstand bzw. Distanz von jeder VR-Einheit mit einem Koeffizienten multipliziert und das Produkt und einen weiteren Koeffizienten Co addiert, wodurch eine Summe erzeugt wird.
  12. Spracherkennungssystem (100) nach Anspruch 11, wobei ein Wort-Kandidat ausgewählt wird, basierend auf der Summe.
  13. Spracherkennungssystem (100) nach Anspruch 12, wobei der Koeffizient eine reelle Konstante ist.
  14. Spracherkennungssystem (100) nach Anspruch 12, wobei der Koeffizient ein Sprachparameter ist.
  15. Ein Spracherkennungssystem (100), das Folgendes aufweist: eine Vielzahl von Spracherkennungs- bzw. VR-Einheiten (104, 106, 108), wobei jede Spracherkennungseinheit konfiguriert ist, um einen Wort-Kandidaten zu erzeugen; und ein Abbildungsmodul (110), das konfiguriert ist, um als eine Eingabe die Wort-Kandidaten von der Vielzahl von VR-Einheiten (104, 106, 108) aufzunehmen und einen Wort-Kandidaten basierend auf einer Abbildungsfunktion auszuwählen, wobei die Abbildungsfunktion gegeben ist durch:
    Figure 00220001
    wobei C0 eine Schwellenkonstante ist, C l / k eine k-te Abbildungskonstante der VR-Einheit I ist und
    Figure 00220002
    der k-te Abstand des Wort-Kandidaten Wi von der VR-Einheit I ist.
  16. Ein Verfahren zur Spracherkennung, die Folgendes aufweist: Erhalten mindestens eines Kandidaten-Worts für eine Testäußerung (200) und Auswählen eines erkannten Wortes von dem zumindest einen Kandidaten-Wort basierend auf einer Abbildungsfunktion; wobei die Abbildungsfunktion gegeben ist durch:
    Figure 00230001
    wobei F eine erste Spracherkennungseinheit ist, S eine zweite Spracherkennungseinheit ist,
    Figure 00230002
    der Abstand zwischen der Äußerung Tu und Kandidaten-Wort Wi ist,
    Figure 00230003
    der Abstand des zweitbesten Kandidaten ausschließlich W ist, Dg den Abstand zwischen Tu und einer Abfallvorlage (garbage template) bezeichnet,
    Figure 00230004
    der Abstand zwischen Äußerung Tu und Wi ist,
    Figure 00230005
    der Abstand für den zweitbesten Kandidaten ausgenommen Wi ist, Sg den Abstand zwischen Tu und der Abfallvorlage bezeichnet und Ci (i = 0, 1, ... n) ein Koeffizient ist und die obere Grenze n gleich zu der Summe der Anzahl von VR-Einheiten ist plus der Summe der Kandidaten-Worte für jede VR-Einheit.
  17. Verfahren nach Anspruch 16, wobei die Abbildungsfunktion linear das mindestens eine Kandidaten-Wort von einem Messraum zu einem Entscheidungsraum abbildet.
  18. Verfahren nach Anspruch 16, wobei der Koeffizient eine reelle Konstante ist.
  19. Verfahren nach Anspruch 16, wobei der Koeffizient ein Sprachparameter ist.
  20. Ein Verfahren zur Spracherkennung, das Folgendes aufweist: Erhalten mindestens eines Kandidaten-Wortes für eine Testäußerung (200); und Auswählen eines erkannten Wortes aus dem mindestens einen Kandidaten-Wort basierend auf einer Abbildungsfunktion; wobei die Abbildungsfunktion gegeben ist durch
    Figure 00240001
    wobei C0 eine Schwellenkonstante ist, C l / k eine k-te Abbildungskonstante der VR-Einheit I ist und
    Figure 00240002
    der k-te Abstand des Wort-Kandidaten Wi von der VR-Einheit I ist.
  21. Verfahren nach Anspruch 16 oder Anspruch 20, wobei der Schritt des Erhaltens weiterhin folgende Schritte aufweist: Erhalten der Testäußerung; Analysieren der Testäußerung bzw. utterance; Vorsehen mindestens eines Kandidaten-Wortes für die Testäußerung basierend auf der Analyse der Testäußerung; und wobei der Schritt des Auswählens weiterhin folgende Schritte aufweist: Anwenden der Abbildungsfunktion auf das mindestens eine KandidatenWort (210); Auswählen eines Kandidaten-Wortes von dem mindestens einem Kandidaten-Wort basierend auf dem Abbildungsfunktionswertes des mindestens einen Kandidaten-Wortes (212); und Vergleichen des Abbildungsfunktionswertes des ausgewählten Kandidaten-Wortes mit einer Schwelle (214).
  22. Verfahren nach Anspruch 21, das weiterhin das Akzeptieren des ausgewählten Kandidaten-Wortes basierend auf dem Vergleich (218) aufweist.
  23. Verfahren nach Anspruch 21, das weiterhin das Zurückweisen des ausgewählten Kandidaten-Wortes basierend auf dem Vergleich (216) aufweist.
DE60124408T 2000-09-08 2001-09-05 System und Verfahren für automatische Spracherkennung unter Verwendung von Mapping bzw. Abbildung Expired - Lifetime DE60124408T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US657760 2000-09-08
US09/657,760 US6754629B1 (en) 2000-09-08 2000-09-08 System and method for automatic voice recognition using mapping
PCT/US2001/027625 WO2002021513A1 (en) 2000-09-08 2001-09-05 Combining dtw and hmm in speaker dependent and independent modes for speech recognition

Publications (2)

Publication Number Publication Date
DE60124408D1 DE60124408D1 (de) 2006-12-21
DE60124408T2 true DE60124408T2 (de) 2007-09-06

Family

ID=24638560

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60124408T Expired - Lifetime DE60124408T2 (de) 2000-09-08 2001-09-05 System und Verfahren für automatische Spracherkennung unter Verwendung von Mapping bzw. Abbildung

Country Status (13)

Country Link
US (1) US6754629B1 (de)
EP (1) EP1316086B1 (de)
JP (1) JP2004518155A (de)
KR (1) KR100901092B1 (de)
CN (1) CN1238836C (de)
AT (1) ATE344959T1 (de)
AU (1) AU2001288808A1 (de)
BR (1) BR0113725A (de)
DE (1) DE60124408T2 (de)
ES (1) ES2273885T3 (de)
HK (1) HK1058428A1 (de)
TW (1) TW548630B (de)
WO (1) WO2002021513A1 (de)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE328345T1 (de) * 2000-09-19 2006-06-15 Thomson Licensing Sprachsteuerung von elektronischen geräten
US20030004720A1 (en) * 2001-01-30 2003-01-02 Harinath Garudadri System and method for computing and transmitting parameters in a distributed voice recognition system
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
US20040138885A1 (en) * 2003-01-09 2004-07-15 Xiaofan Lin Commercial automatic speech recognition engine combinations
DE10334400A1 (de) * 2003-07-28 2005-02-24 Siemens Ag Verfahren zur Spracherkennung und Kommunikationsgerät
KR100571574B1 (ko) * 2004-07-26 2006-04-17 한양대학교 산학협력단 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템
KR100693284B1 (ko) * 2005-04-14 2007-03-13 학교법인 포항공과대학교 음성 인식 장치
US20070225970A1 (en) * 2006-03-21 2007-09-27 Kady Mark A Multi-context voice recognition system for long item list searches
US8532984B2 (en) 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
GB0616070D0 (en) * 2006-08-12 2006-09-20 Ibm Speech Recognition Feedback
US8239190B2 (en) 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US7881928B2 (en) * 2006-09-01 2011-02-01 International Business Machines Corporation Enhanced linguistic transformation
CN101256769B (zh) * 2008-03-21 2011-06-15 深圳市汉音科技有限公司 语音识别装置及其方法
US9659559B2 (en) * 2009-06-25 2017-05-23 Adacel Systems, Inc. Phonetic distance measurement system and related methods
EP3610918B1 (de) * 2009-07-17 2023-09-27 Implantica Patent Ltd. Sprachsteuerung eines medizinischen implantats
KR101066472B1 (ko) * 2009-09-15 2011-09-21 국민대학교산학협력단 초성 기반 음성인식장치 및 음성인식방법
CN102651218A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于创建语音标签的方法以及设备
KR101255141B1 (ko) * 2011-08-11 2013-04-22 주식회사 씨에스 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법
US9767793B2 (en) 2012-06-08 2017-09-19 Nvoq Incorporated Apparatus and methods using a pattern matching speech recognition engine to train a natural language speech recognition engine
JP5677650B2 (ja) * 2012-11-05 2015-02-25 三菱電機株式会社 音声認識装置
CN103065627B (zh) * 2012-12-17 2015-07-29 中南大学 基于dtw与hmm证据融合的特种车鸣笛声识别方法
CN105027198B (zh) * 2013-02-25 2018-11-20 三菱电机株式会社 语音识别系统以及语音识别装置
CN104143330A (zh) * 2013-05-07 2014-11-12 佳能株式会社 语音识别方法和语音识别系统
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
TWI506458B (zh) 2013-12-24 2015-11-01 Ind Tech Res Inst 辨識網路產生裝置及其方法
CN104103272B (zh) * 2014-07-15 2017-10-10 无锡中感微电子股份有限公司 语音识别方法、装置和蓝牙耳机
EP3065132A1 (de) 2015-03-06 2016-09-07 ZETES Industries S.A. Methode und System zur Bestimmung der Gültigkeit eines Elements eines Spracherkennungsergebnisses
EP3065131B1 (de) 2015-03-06 2020-05-20 ZETES Industries S.A. Methode und System zur Nachbearbeitung des Ergebnisses einer Spracherkennung
EP3065133A1 (de) 2015-03-06 2016-09-07 ZETES Industries S.A. Methode und System zur Erzeugung einer optimierten Lösung bei der Spracherkennung
US10170110B2 (en) * 2016-11-17 2019-01-01 Robert Bosch Gmbh System and method for ranking of hybrid speech recognition results with neural networks
US10360914B2 (en) 2017-01-26 2019-07-23 Essence, Inc Speech recognition based on context and multiple recognition engines
US10861450B2 (en) 2017-02-10 2020-12-08 Samsung Electronics Co., Ltd. Method and apparatus for managing voice-based interaction in internet of things network system
CN107039037A (zh) * 2017-04-21 2017-08-11 南京邮电大学 一种基于dtw的孤立词语音识别方法
CN109767758B (zh) * 2019-01-11 2021-06-08 中山大学 车载语音分析方法、系统、存储介质以及设备

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4831551A (en) * 1983-01-28 1989-05-16 Texas Instruments Incorporated Speaker-dependent connected speech word recognizer
US4763278A (en) * 1983-04-13 1988-08-09 Texas Instruments Incorporated Speaker-independent word recognizer
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US5073939A (en) * 1989-06-08 1991-12-17 Itt Corporation Dynamic time warping (DTW) apparatus for use in speech recognition systems
WO1996008005A1 (en) 1994-09-07 1996-03-14 Motorola Inc. System for recognizing spoken sounds from continuous speech and method of using same
US5717826A (en) * 1995-08-11 1998-02-10 Lucent Technologies Inc. Utterance verification using word based minimum verification error training for recognizing a keyboard string
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
US6272455B1 (en) * 1997-10-22 2001-08-07 Lucent Technologies, Inc. Method and apparatus for understanding natural language
US6125341A (en) * 1997-12-19 2000-09-26 Nortel Networks Corporation Speech recognition system and method
US6321195B1 (en) * 1998-04-28 2001-11-20 Lg Electronics Inc. Speech recognition method
ITTO980383A1 (it) 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
US6275800B1 (en) * 1999-02-23 2001-08-14 Motorola, Inc. Voice recognition system and method
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US6671669B1 (en) 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition

Also Published As

Publication number Publication date
WO2002021513A8 (en) 2002-06-20
ES2273885T3 (es) 2007-05-16
KR20030061797A (ko) 2003-07-22
CN1454381A (zh) 2003-11-05
BR0113725A (pt) 2004-08-17
AU2001288808A1 (en) 2002-03-22
EP1316086B1 (de) 2006-11-08
EP1316086A1 (de) 2003-06-04
KR100901092B1 (ko) 2009-06-08
HK1058428A1 (en) 2004-05-14
ATE344959T1 (de) 2006-11-15
CN1238836C (zh) 2006-01-25
US6754629B1 (en) 2004-06-22
DE60124408D1 (de) 2006-12-21
JP2004518155A (ja) 2004-06-17
TW548630B (en) 2003-08-21
WO2002021513A1 (en) 2002-03-14

Similar Documents

Publication Publication Date Title
DE60124408T2 (de) System und Verfahren für automatische Spracherkennung unter Verwendung von Mapping bzw. Abbildung
DE60125542T2 (de) System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen
DE60124551T2 (de) Verfahren und vorrichtung zur erzeugung der referenzmuster für ein sprecherunabhängiges spracherkennungssystem
DE69433593T2 (de) Aufgeteiltes spracherkennungssystem
US6836758B2 (en) System and method for hybrid voice recognition
RU2393549C2 (ru) Способ и устройство для распознавания речи
JPS61262799A (ja) ヒドン形式マルコフモデル音声認識方法
JPH0422276B2 (de)
DE4310190A1 (de) Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn
JPH0394299A (ja) 音声認識方法と音声認識装置訓練方法
TW546632B (en) System and method for efficient storage of voice recognition models
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
EP1209659A2 (de) Verfahren und Vorrichtung zur Texteingabe durch Spracherkennung
Kannadaguli et al. A comparison of Bayesian and HMM based approaches in machine learning for emotion detection in native Kannada speaker
DE112006000225T5 (de) Dialogsystem und Dialogsoftware
DE60014583T2 (de) Verfahren und vorrichtung zur integritätsprüfung von benutzeroberflächen sprachgesteuerter geräte
JP2003535366A (ja) パターン分類のためのランクに基づく拒否
US4783809A (en) Automatic speech recognizer for real time operation
JP2980382B2 (ja) 話者適応音声認識方法および装置
Ming et al. Robust speaker identification using posterior union models.
JP3029654B2 (ja) 音声認識装置
Hataoka et al. Speaker-independent connected digit recognition
Mayora-Ibarra et al. Time-domain segmentation and labelling of speech with fuzzy-logic post-correction rules
CH717305A1 (de) Verfahren und Automat zur Spracherkennung deutscher Dialekte.
JP2000122693A (ja) 話者認識方法および話者認識装置

Legal Events

Date Code Title Description
8364 No opposition during term of opposition