DE60124408T2

DE60124408T2 - System und Verfahren für automatische Spracherkennung unter Verwendung von Mapping bzw. Abbildung

Info

Publication number: DE60124408T2
Application number: DE60124408T
Authority: DE
Inventors: Yingyong San Diego Qi; Ning San Diego BI; Harinath San Diego GARUDADRI
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2000-09-08
Filing date: 2001-09-05
Publication date: 2007-09-06
Anticipated expiration: 2021-09-06
Also published as: WO2002021513A8; ES2273885T3; KR20030061797A; CN1454381A; BR0113725A; AU2001288808A1; EP1316086B1; EP1316086A1; KR100901092B1; HK1058428A1; ATE344959T1; CN1238836C; US6754629B1; DE60124408D1; JP2004518155A; TW548630B; WO2002021513A1

Description

1. Gebiet
Die vorliegende Erfindung betrifft im Allgemeinen das Gebiet der Kommunikationen und im Speziellen ein neues und verbessertes System und Verfahren für die Spracherkennung.
II. Hintergrund
Spracherkennung (VR = voice recognition) stellt eine der wichtigsten Techniken dar, um eine Maschine mit simulierter Intelligenz auszustatten, um Benutzer- oder benutzergesprochene Befehle zu erkennen, und um das Mensch-Maschinen-Interface zu vereinfachen. VR repräsentiert ebenso eine Schlüsseltechnik für menschliche Sprachverständigung. Systeme, die Techniken anwenden, um eine linguistische Nachricht von einem akustischen Sprachsignal aufzudecken werden Spracherkenner genannt. Der Ausdruck "Spracherkenner" wird hierin benutzt, um im Allgemeinen jedes Sprachbenutzer-Interface fähiges Gerät abzudecken.
Die Verwendung von VR (ebenso üblich als Spracherkennung bezeichnet) wird immer wichtiger aus Sicherheitsgründen. VR kann zum Beispiel benutzt werden, um die manuelle Aufgabe des Knöpfedrückens auf einer Drahtfosteiefontastatur zu ersetzen. Das ist besonders wichtig, wenn ein Benutzer während einer Autofahrt einen Telefonanruf initiiert. Wenn ein Telefon ohne VR benutzt wird, muss der Fahrer eine Hand von dem Lenkrad entfernen und auf die Telefontastatur schauen, während er die Knöpfe für die Anrufswahl drückt. Diese Aktionen erhöhen die Wahrscheinlichkeit eines Autounfalls. Ein sprachfähiges Telefon (d.h. ein Telefon, das für Spracherkennung entwickelt wurde) würde dem Fahrer erlauben, Telefonanrufe zu platzieren, während er kontinuierlich auf die Straße schauen kann. Zusätzlich würde ein Freisprecheinrich tungssystem dem Fahrer erlauben, beide Hände auf dem Lenkrad zu behalten, und zwar während einer Anrufsinitiierung.
Spracherkennungsgeräte werden entweder als sprecherabhängige (SD = speaker dependent) oder sprecherunabhängige (SI = speaker independent) Geräte klassifiziert. Sprecherabhängige Geräte, die verbreiteter sind, werden trainiert, um Befehle von bestimmten Benutzern zu erkennen. Im Gegensatz dazu sind sprecherunabhängige Geräte dazu in der Lage, Sprachbefehle von jedem Benutzer zu akzeptieren. Um die Performance eines gegebenen VR-Systems zu erhöhen, ob sprecherabhängig oder sprecherunabhängig, wird Training benötigt, um das System mit gültigen Parametern auszustatten. Mit anderen Worten muss das System lernen, bevor es optimal funktionieren kann.
Ein sprecherabhängiges VR-Gerät operiert typischerweise in zwei Phasen, einer Trainingsphase und einer Erkennungsphase. In der Trainingsphase fordert das VR-System den Benutzer auf, jedes der Wörter in dem Vokabular des Systems einmal oder zweimal (typischerweise zweimal) zu sprechen, so dass das System die Charakteristiken der Sprache des Benutzers für diese bestimmten Wörter oder Phrasen lernen kann. Ein beispielhaftes Vokabular für eine Freisprecheinrichtung könnte die Zahlen auf der Tastatur beinhalten; die Schlüsselwörter "Call" bzw. „Anrufen", "Send" bzw. „Senden", "Dial" bzw. „Wählen", "Cancel" bzw. „Abbrechen", "Clear" bzw. „Löschen", "Add" bzw. "Hinzufügen", "Delete" bzw. „Entfernen", "History" bzw. „Historie", "Program" bzw. "Programmieren", "Yes" bzw. „Ja" und "No" bzw. „Nein"; und die Namen von einer vordefinierten Anzahl von öfters angerufenen Mitarbeitern, Freunden oder Familienmitgliedern. Sobald das Training vollständig ist, kann der Benutzer Anrufe in der Erkennungsphase durch Sprechen der trainierten Schlüsselwörter, die das VR-Gerät durch Vergleichen der gesprochenen Äußerungen mit den vorher trainierten Äußerungen (gespeichert als Templates bzw. Vorlagen) und durch Nehmen des besten Gegenstücks bzw. Treffers initiieren. Wenn der Name "John" zum Beispiel einer der trainierten Namen wäre, könnte der Benutzer einen Anruf zu John durch Sprechen der Phrase "Call John" bzw. "John anrufen" initiieren. Das VR-System würde die Wörter "Call" bzw. „Anrufen" und "John" erkennen, und würde die Nummer wählen, die der Benutzer vorher als Johns Telefonnummer eingegeben hat. Systeme und Verfahren für das Training.
Ein sprecherunabhängiges VR-Gerät benutzt ebenso ein Training-Template bzw. Trainings-Vorlage, das ein vorher aufgenommenes Vokabular einer vordefinierten Größe enthält (z.B. gewisse Steuerungswörter, die Zahlen Null bis Neun, und Ja und Nein). Eine große Anzahl von Sprechern (z.B. 100) müssen aufgenommen werden, während sie jedes Wort in dem Vokabular sagen.
Verschiedene sprecherunabhängige VR-Geräte können verschiedene Ergebnisse erzielen. Eine sprecherunabhängige (SI) Nidden-Markov-Modell-(HMM)-Einheit kann ein unterschiedliches Ergebnis erzielen als eine sprecherunabhängige Dynamic-Time-Warping-(DTW)-Einheit bzw. dynamische Zeitkrümmungsspracherkennungseinheit. Das Kombinieren der Ergebnisse von diesen beiden Einheiten kann in einem System mit besserer Erkennungsgenauigkeit und niedrigeren Zurückweisungsraten resultieren als unter Verwendung der Ergebnisse von nur einer der Einheiten.
Ein sprecherabhängiger VR und ein sprecherunabhängiger VR können unterschiedliche Ergebnisse erzielen. Eine sprecherabhängige Einheit führt Erkennung unter Verwendung von Templates, die einen spezifischen Benutzer betreffen, durch. Eine sprecherunabhängige Einheit führt Erkennung unter Verwendung von Templates durch, die unter Verwendung von Beispielen von einem Ensemble von Benutzern generiert wurden. Da Sprecher spezifischer Templates näher an einem vorhandenen Sprachstil des Benutzers sind, liefern SD-Einheiten bessere Genauigkeit als SI-Einheiten. SI-Einheiten haben jedoch den Vorteil, dass die Benutzer nicht durch den "Trainingsprozess" vor der Verwendung des Systems gehen müssen.
Ein System und ein Verfahren, das Einheiten unterschiedlicher Typen kombiniert ist erwünscht. Das Kombinieren vielfacher Einheiten würde eine verbes serte Genauigkeit vorsehen und eine größere Menge an Informationen in dem eingegebenen Sprachsignal benutzen. Ein System und Verfahren zum Kombinieren von VR-Einheiten ist beschrieben in der US-Patentanmeldung Nr. 09/618,177 mit dem Titel "Combined Einheit System and Method for Voice Recoginition", eingereicht am 18. Juli 2000, dem Rechtsnachfolger der vorliegenden Erfindung zugeordnet.
Ein VR-System mit Entscheidungslogik kann heuristische Logik benutzen, um Entscheidungsregeln zu entwickeln. Die Entscheidungslogik startet typischerweise mit den gemessenen Distanzen zwischen einer Testäußerung und den Top-Kandidaten-(Wort)-Templates jeder Engine. Zum Beispiel, zu der Annahme, dass zwei Einheiten (Einheiten D und H) benutzt werden. Es sei d₁ und d₂ die Distanz zwischen der Testäußerung und den Top-Zwei-Kandidatenwörtern der Einheit D, und h₁ und h₂ die Distanz zwischen der Testäußerung und den Top-Zwei-Kandidatenwörtern der Einheit H. Es sei d_g und h_g die Distanz zwischen der Testäußerung und den "Abfall"-Templates der Einheit D bzw. H. Die Abfall-Templates werden benutzt, um alle Wörter zu repräsentieren, die nicht in dem Vokabular sind. Die Entscheidungslogik involviert eine Sequenz von Vergleichen zwischen diesen gemessenen Distanzen und einem Satz von vordefinierten Schwellen. Die Vergleichsregeln und Schwellen müssen jedoch synthetisiert bzw. künstlich hergestellt werden und teilweise auf einer Trial-By-Error-Basis angepasst werden, weil sie nicht systematisch optimiert sein können. Dies ist ein Zeit verbrauchender und schwieriger Prozess. Zusätzlich können heuristische Regeln anwendungsabhängig sein. Ein neuer Satz von Regeln muss zum Beispiel künstlich hergestellt werden, wenn die Top-Drei-Wörter im Vergleich zu den Top-Zwei-Wörtern für jede Einheit benutzt werden. Es ist wahrscheinlich, dass der Satz von Regeln zum Erkennen von rauschfreier Sprache von denen zum Erkennen von verrauschter Sprache verschieden sein würde.
Somit ist ein System und Verfahren zum Auflösen bzw. Beheben von unterschiedlichen Ergebnissen von einer Vielzahl von verschiedenen VR-Einheiten erwünscht.
Es wird auf das Dokument US-A-5,754,978 aufmerksam gemacht, das ein Sprachenkennungssystem mit zwei Spracheinheiten offenbart. Die Spracherkennungseinheiten stellen ein erkanntes Textausgabesignal bereit, wobei jedes von diesen an einen Textkomparator geliefert wird. Der Komparaton vergleicht die erkannten Textausgabesignale und akzeptiert oder weist den Text, basierend auf dem Grad einer Übereinkunft zwischen den Ausgabesignalen, jeder der Einheiten zurück.
Es wird ebenso auf einen Artikel von Bouchaffra et al. aufmerksam gemacht, und zwar "A methodology for mapping scores to probabilities", IEEE transactions on pattern analysis and machine intelligence, IEEE Inc. New York, U.S., Volume 21, Nr. 9 XP, 000851870. Dieser Artikel beschreibt eine Ableitung der Wahrscheinlichkeit der Richtigkeit von Werten, die den meisten Erkennern zugewiesen wird. Die Ableitung der Wahrscheinlichkeitswerte stellt die Ausgabe verschiedener Erkenner auf die gleiche Skala, was einen Vergleich unter den Erkennern einfach macht.
Zum Schluss wird auf das Stand-der-Technik-Dokument US-A-5 734 793 aufmerksam gemacht, das ein System zum Erkennen von gesprochenen Klängen von kontinuierlicher Sprache beschreibt und eine Vielzahl von Klassifizierern und einen Auswähler bzw. Selektor beinhaltet. Jeder der Klassifizierer implementiert eine diskriminierte bzw. discriminated Funktion, die auf einer Polynonomerweiterung basiert. Durch das Bestimmen der Polynomkoeffizienten einer diskriminierten Funktion wird die entsprechende Klassifizierung eingestellt, um einen spezifischen gesprochenen Klang zu klassifizieren. Der Selektor wendet die klassifizierten Ausgaben an, um die gesprochenen Klänge zu identifizieren. Ein Verfahren zum Benutzen des Systems ist ebenso beschrieben.
Gemäß der vorliegenden Erfindung ist ein Spracherkennungssystem, wie dargelegt in den Ansprüchen 1 und 15 und ein Verfahren zur Spracherkennung, wie dargelegt in den Ansprüchen 16 und 20, vorgesehen. Ausführungsbeispiele der Erfindung sind in den Unteransprüchen beschrieben.
ZUSAMMENFASSUNG
Die beschriebenen Ausführungsbeispiele sind auf ein System und ein Verfahren für Spracherkennung gerichtet. In einem Ausführungsbeispiel ist ein Verfahren zum Kombinieren einer Vielzahl von Spracherkennungseinheiten vorgesehen, um die Spracherkennung zu verbessern. Das Verfahren beinhaltet auf vorteilhafte Weise das Koppeln einer Vielzahl von Spracherkennungseinheiten mit einem Abbildungsmodul. Jede VR-Einheit produziert eine Hypothese, d.h. einen Wortkandidat, anschließend wendet das Abbildungsmodul eine Abbildungsfunktion an, um eine Hypothese von den Hypothesen, die von der Vielzahl von VR-Einheiten produziert wurden, auszuwählen.
In einem Ausführungsbeispiel werden sprecherunabhängige Spracherkennungseinheiten kombiniert. In einem anderen Ausführungsbeispiel werden sprecherabhängige Spracherkennungseinheiten kombiniert. In noch einem anderen Ausführungsbeispiel wird eine sprecherunabhängige Spracherkennungseinheit mit einer sprecherabhängigen Spracherkennungseinheit kombiniert.
In einem Ausführungsbeispiel ist eine sprecherunabhängige Spracherkennungseinheit eine Dynamic-Time-Warping-Spracherkennungsengine. In einem Ausführungsbeispiel ist eine sprecherunabhängige Spracherkennungseinheit ein Hidden-Markov-Modell. In einem Ausführungsbeispiel ist eine sprecherabhängige Spracherkennungseinheit eine Dynamic-Time-Warping-Spracherkennungsengine. In einem Ausführungsbeispiel ist eine sprecherabhängige Spracherkennungseinheit ein Hidden-Markov-Modell.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die Merkmale, Ziele und Vorteile der vorliegenden Erfindung werden ausgehend von der detaillierten Beschreibung, wie nachstehend dargelegt, noch deutlicher werden, wenn sie in Verbindung mit den Zeichnungen gebracht werden, in denen gleiche Bezugszeichen durchgehend das Entsprechende identifizieren und wobei:
1 ein Ausführungsbeispiel eines Spracherkennungssystems zeigt, und zwar mit drei Typen von Spracherkennungseinheiten;
2 ein Spracherkennungssystems zeigt, und zwar einschließlich einer DTW-Einheit und einer HMM-Engine; und
3 ein Ausführungsbeispiel eines Spracherkennungssystems zeigt, und zwar mit zwei Spracherkennungseinheiten.
DETAILLIERTE BESCHREIBUNG
In einem Ausführungsbeispiel hat ein Spracherkennungssystem 100, wie in 1 gezeigt, drei Typen von Spracherkennungseinheiten, die zum Durchführen von isolierten Worterkennungsaufgaben in der Lage sind: eine sprecherunabhängige Dynamic-Time-Warping-Einheit bzw. DTW-SI-Einheit 104 (DTW-SI = DTW-speaker independent), eine sprecherabhängige DTW-Einheit bzw. DTW-SD-Einheit 106 (DTW-SD = DTW-speaker dependent) und ein Hidden-Markov-Modell-Einheit bzw. HMM-Einheit 108. Diese Einheiten werden für die Befehlsworterkennung und Ziffernerkennung benutzt, um umfassende Sprachbenutzerinterface für gemeinsame Aufgaben, die von einem handgehaltenen Gerät, wie zum Beispiel ein Mobiltelefon, einem persönlichen digitalen Assistenten (PDA = personal digital assistant) etc. durchgeführt werden, vorzusehen. In einem anderen Ausführungsbeispiel weist das Spracherkennungssystem 100 eine DTW-SI 104 und eine DTW-SD-Einheit 106 auf. In noch einem anderen Ausführungsbeispiel weist das Spracherkennungssystem 100 eine DTW-SI-Einheit 104 und eine HMM-Einheit 108 auf. In noch einem anderen Ausführungsbeispiel weist das Spracherkennungssystem 100 eine DTW-SD- Einheit 106 und eine HMM-Einheit 108 auf. In einem Ausführungsbeispiel ist die HMM-Einheit 108 sprecherunabhängig. In einem anderen Ausführungsbeispiel ist die HMM-Einheit 108 sprecherabhängig. Es sei angemerkt, dass es für den Fachmann klar sein sollte, dass jede VR-Engine, die auf dem Fachgebiet bekannt ist, benutzt werden kann. In noch einem anderen Ausführungsbeispiel wird eine Vielzahl von anderen VR-Engine-Typen kombiniert. Es sollte auch für den Fachmann leicht ersichtlich sein, dass die Einheiten in jeder Kombination konfiguriert werden können.
Gemäß einem Ausführungsbeispiel, wie in 1 dargestellt, beinhaltet das Spracherkennungssystem 100 einen Analog-zu-Digital-Konverter (A/D) 102, eine DTW-SI-Einheit 104, eine DTW-SD-Einheit 106 und eine HMM-Einheit 108. In einem Ausführungsbeispiel ist der A/D 102 ein Hardware-A/D. In einem anderen Ausführungsbeispiel ist der A/D 102 in Software implementiert. In einem Ausführungsbeispiel sind der A/D 102 und die Einheiten 104, 106, 108 als ein Gerät implementiert. Es sei für den Fachmann angemerkt, dass der A/D 102 und die Einheiten 104, 106, 108 implementiert werden können und unter jede Anzahl von Geräten verteilt werden können.
Der A/D 102 ist mit der DTW-SI-Einheit 104, der DTW-SD-Einheit 106 und der HMM-Einheit 108 gekoppelt. Die DTW-SI-Einheit 104, die DTW-SD-Einheit 106 und die HMM-Einheit 108 sind mit einem Abbildungsmodul 110 verkoppelt. Das Abbildungsmodul hat als Eingabe die Ausgaben der Einheiten 104, 106 und 108 und produziert ein Wort entsprechend einem Sprachsignal s(t).
Das Spracherkennungssystem 100 kann sich zum Beispiel in einem Drahtlostelefon oder einer Freisprecheinrichtung befinden. Ein Benutzer (nicht gezeigt) spricht ein Wort oder eine Phrase, um ein Sprachsignal zu generieren. Das Sprachsignal wird in ein elektrisches Sprachsignal s(t) konvertiert, und zwar mit einem konventionellen Transducer (nicht gezeigt). Das Sprachsignal s(t) wird an den A/D 102 geliefert, der das Sprachsignal in digitalisierte Sprachsamples gemäß einem bekannten Samplingverfahren bzw. Abtastungsverfahren, wie zum Beispiel pulscodierte Modulation (PCM = pulse coded modulati on), A-Law oder μ-Law konvertiert. In einem Ausführungsbeispiel gibt es typischerweise N 16-Bit-Sprachsamples jede Sekunde. Somit N = 8.000 für 8.000 Hz Samplingfrequenz und N = 16.000 für 16.000 Hz Samplingfrequenz.
Die Sprachsamples werden an die DTW-SI-Einheit 104, die DTW-SD-Einheit 106 und die HMM-Einheit 108 geliefert. Jede Einheit verarbeitet die Sprachsamples und produziert Hypothesen, d.h. Kandidantenworte für das Sprachsignal s(t). Das Abbildungsmodul bildet anschließend die Kandidatenworte auf einen Entscheidungsraum ab, der evaluiert wird, um das Kandidatenwort auszuwählen, das am besten das Sprachsignal s(t) reflektiert.
In einem Ausführungsbeispiel beinhaltet das Spracherkennungssystem zwei VR-Einheiten, wie in 2 gezeigt. Das Spracherkennungssystem 100 beinhaltet eine DTW-Einheit 112 und eine HMM-Einheit 114. In einem Ausführungsbeispiel ist die DTW-Einheit eine sprecherunabhängige VR-Engine. In einem anderen Ausführungsbeispiel ist die DTW-Einheit eine sprecherabhängige VR-Engine. In einem Ausführungsbeispiel ist die HMM-Einheit eine sprecherunabhängige VR-Engine. In einem anderen Ausführungsbeispiel ist die HMM-Einheit eine sprecherabhängige VR-Engine.
In diesen Ausführungsbeispielen hat das System die Vorteile von sowohl den DTW- als auch den HMM-Einheiten. In einem Ausführungsbeispiel werden die DTW- und HMM-Templates ausschließlich während einer Trainingsphase erzeugt, in der das Spracherkennungssystem trainiert wird, um Eingabesprachsignale zu erkennen. In einem anderen Ausführungsbeispiel werden DTW- und HMM-Templates erzeugt, und zwar implizit während des typischen Gebrauchs des Spracherkennungssystems. Exemplarische Trainingssysteme und -verfahren sind in der US-Patentanmeldung Nr. 09/248,513 mit dem Titel "VOICE RECOGINITION REJECTION SCHEME" beschrieben, eingereicht am 8. Februar 1999, dem Rechtsnachfolger der vorliegenden Erfindung zugeordnet, und US-Patentanmeldung Nr. 09/225,891 mit dem Titel "SYSTEM AND METHOD FOR SEGMENTATION AND RECOGNITION OF SPEECH SIG NALS", eingereicht am 4. Januar 1999, dem Rechtsnachfolger der vorliegenden Erfindung zugeordnet.
Ein Satz von Templates für alle Vokabularwörter des Spracherkennungssystems sind in irgendeiner konventionellen Form von nicht flüchtigem Speichermedium, wie z.B. Flash-Speicher, gespeichert. Dies erlaubt den Templates, in dem Speichermedium zu bleiben, wenn der Strom des Spracherkennungssystems 100 abgeschaltet ist. In einem Ausführungsbeispiel ist der Satz von Templates mit einem sprecherunabhängigen Template-Erzeugungssystem konstruiert. In einem Ausführungsbeispiel sind Befehlsworte in einem VR-Engine-Vokabular beinhaltet.
Die DTW-Technik ist auf dem Fachgebiet bekannt und beschrieben in Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition 200–238 (1993). Gemäß der DTW-Technik wird ein Gitter gebildet, und zwar durch Zeichnen einer Zeitsequenz der Äußerung, die getestet werden soll, gegenüber einer Zeitsequenz für jede Äußerung, die in einer Template-Datenbank gespeichert ist. Die zu testende Äußerung wird anschließend verglichen, Punkt für Punkt (z.B. alle 10 ms), und zwar mit jeder Äußerung in der Template-Datenbank, jeweils eine Äußerung auf einmal. Für jede Äußerung in der Template-Datenbank wird die zu testende Äußerung angepasst, oder "warped", und zwar in der Zeit, wobei sie entweder so lange bei bestimmten Punkten komprimiert oder expandiert wird, bis der nächstmögliche Treffer mit der Äußerung in der Template-Datenbank erreicht wird. Zu jedem Punkt in der Zeit werden die zwei Äußerungen verglichen, und entweder ein Treffer wird an diesem Punkt (Null Kosten) erklärt, oder es wird eine Fehlanpassung erklärt. Bei dem Ereignis einer Fehlanpassung bei einem bestimmten Punkt wird die zu testende Äußerung komprimiert, expandiert oder wenn notwendig fehlangepasst. Der Prozess wird solange fortgeführt, bis die zwei Äußerungen vollständig gegeneinander verglichen wurden. Eine große Anzahl (typischerweise tausende) von unterschiedlich angepassten Äußerungen ist möglich. Die angepasste Äußerung mit der niedrigsten Kostenfunktion (d.h. die, die die wenigste Anzahl von Komprimierungen und/oder Expansionen und/oder Fehlan passungen benötigt) wird ausgewählt. Auf ähnliche Weise wie ein Viterbi-Decodieralgorithmus wird die Auswahl auf vorteilhafte Weise durch Zurückschauen von jedem Punkt in der Äußerung in die Template-Datenbank durchgeführt, um den Weg mit den niedrigsten totalen Kosten zu bestimmen. Das erlaubt, dass die angepasste Äußerung mit den niedrigsten Kosten (d.h. der nächst liegende Treffer) bestimmt wird, und zwar ohne auf das "Brachialverfahren" des Generierens von allen möglichen verschieden angepassten Äußerungen zurückzugreifen. Die angepassten Äußerungen mit den niedrigsten Kosten aus allen Äußerungen in der Template-Datenbank werden anschließend verglichen und diejenige mit den niedrigsten Kosten wird ausgewählt als die gespeicherte Äußerung, die am nächsten auf die getestete Äußerung abgebildet wird.
Obwohl DTW-Abgleichungsschemata in einer DTW-Einheit 104 und Viterbi-Decodierung in einer HMM-Einheit 108 ähnlich sind, wenden die DTW- und HMM-Einheiten verschiedene Front-End-Schemata an, d.h., Merkmalsextrahierungen, um Merkmalsvektoren zu der Abgleichungsstufe zu liefern. Aus diesem Grund sind die Fehlermuster der DTW- und HMM-Einheiten ziemlich unterschiedlich. Ein Spracherkennungssystem mit einer kombinierten Einheit hat den Vorteil der Unterschiedlichkeiten der Fehlermuster. Durch richtiges Kombinieren der Resultate bzw. Ergebnisse beider Einheiten, kann eine höhere Gesamterkennungsgenauigkeit erreicht werden. Und was noch wichtiger ist, es können niedrigere Zurückweisungsraten für die gewünschte Erkennungsgenauigkeit erreicht werden.
In einem Ausführungsbeispiel sind die sprecherunabhängigen Spracherkennungseinheiten, die auf dem gleichen Vokabularsatz operieren, kombiniert. In einem anderen Ausführungsbeispiel sind die sprecherabhängigen Spracherkennungseinheiten kombiniert. In noch einem anderen Ausführungsbeispiel ist die sprecherunabhängige Spracherkennungseinheit mit einer sprecherabhängigen Spracherkennungseinheit kombiniert, wobei beide Einheiten auf dem gleichen Vokabularsatz operieren. In noch einem anderen Ausführungsbeispiel ist eine sprecherunabhängige Spracherkennungseinheit mit einer spre cherabhängigen Spracherkennungseinheit kombiniert, wobei beide Einheiten auf verschiedenen Vokabularsätzen operieren.
Jede Einheit produziert eine Ausgabe über welches Wort aus ihrem Vokabular gesprochen wurde. Jede Ausgabe beinhaltet einen Wortkandidaten für das Eingabesignal. Wörter, die nicht dem Eingabesignal entsprechen, werden zurückgewiesen bzw. verworfen. Exemplarische Zurückweisungsschemata sind in der US-Patentanmeldung Nr. 09/248,513 beschrieben.
Genaue Spracherkennung ist für ein eingebettetes System schwierig, teilweise wegen seiner begrenzten Rechenressourcen. Um die Systemgenauigkeit zu erhöhen, wird die Spracherkennung unter Verwendung von mehreren Erkennungseinheiten durchgeführt. Unterschiedliche VR-Einheiten können jedoch unterschiedliche Ergebnisse produzieren. Eine Einheit könnte zum Beispiel "Jane" und "Joe" als Top-Kandidatenwörter wählen, während eine andere VR-Einheit "Julie" und "Joe" als die Top-Zwei-Kandidaten wählen könnte. Diese unterschiedlichen Ergebnisse müssen aufgelöst werden. Eine Antwort muss gegeben werden, d.h. ein Kandidatenwort muss ausgewählt werden. Das VR-System muss eine Entscheidung basierend auf diesen Kandidatenworten für mehrere Einheiten treffen, um funktional zu sein.
In einem Ausführungsbeispiel sind X (X = 2, 3, ...) Einheiten kombiniert, wobei jede Einheit Y (Y = 1, 2, ...) Kandidatenworte produziert. Deswegen gibt es X·Y Kandidaten, von denen nur einer die korrekte Antwort ist. In einem anderen Ausführungsbeispiel kann jede Einheit eine unterschiedliche Anzahl von Kandidaten produzieren. In einem Ausführungsbeispiel mit zwei Einheiten D und H, sind d₁ und d₂ die Distanzen zwischen der Testäußerung und der Top-Zwei-Kandidatenworte der Einheit D, und h₁ und h₂ die Distanz zwischen der Testäußerung und den Top-Zwei-Kandidatenworten der Einheit H. Die Variablen d_g und h_g sind die Distanz zwischen der Testäußerung und der "Abfall"-Templates der Einheit D bzw. H. Die Abfall-Templates werden benutzt, um alle Wörter, die nicht in dem Vokabular sind, zu repräsentieren.
In einem Ausführungsbeispiel wird die Entscheidung des Auswählens eines Kandidaten aus den Kandidaten, die von den VR-Einheiten produziert wurden, basierend auf einer Abbildung von dem Messungsraum (d₁, d₂, ... d_g und h₁, h₂, ..., h_g) auf den Entscheidungsraum (Akzeptieren/Zurückweisen der Testäußerung als eines der Wörter in der Liste) getroffen. In einem Ausführungsbeispiel ist die Abbildung eine lineare Abbildung. In einem anderen Ausführungsbeispiel ist die Abbildung eine nicht-lineare Abbildung.
Gemäß einem Ausführungsbeispiel ist ein Flussdiagramm der Verfahrensschritte, die von einem Gerät mit einer DTW-basierenden VR-Einheit und einer HMM-basierenden VR-Einheit durchgeführt wird, in 3 gezeigt. Im Schritt 200 wird eine Testäußerung T_u erlangt. Sobald die Testäußerung T_u erhalten wird, wird eine DTW-Spracherkennungsanalyse von der Testäußerung T_u im Schritt 202 durchgeführt und eine HMM-Spracherkennungsanalyse wird von der Testäußerung T_u im Schritt 204 durchgeführt. Im Schritt 206 wird ein Satz von DTW-Kandidatenworten D_i erhalten. Im Schritt 208 wird ein Satz von HMM-Kandidatenworten H_i erhalten. Im Schritt 210 wird eine lineare Abbildungsfunktion auf jedes DTW-Kandidatenwort D_i und auf jedes HMM-Kandidatenwort H_i angewandt. Im Schritt 212 basiert die Erkennung eines Kandidatenworts auf den linearen Abbildungsergebnissen. Im Schritt 212 wird das Kandidatenwort mit dem mimimalen Abbildungsfunktionswert als ein erkanntes Wort W(T_u) gewählt. Im Schritt 214 wird der Abbildungsfunktionswert des erkannten Wortes W(T_u) mit einer Schwelle verglichen. Wenn der Abbildungsfunktionswert des erkannten Worts W(T_u) kleiner als die Schwelle ist, wird das erkannte Wort im Schritt 216 zurückgewiesen. Wenn der Abbildungsfunktionswert des erkannten Wortes W(T_u) größer als die Schwelle ist, dann wird das erkannte Wort im Schritt 218 akzeptiert.
ist die Distanz zwischen einer Testäußerung T_u 200 und den Wörtern im Vokabular W_j, j = 1, 2, ..., N. W_j ist ein Satz von Kandidatenworten, wobei Index j die Satznummer und N die Anzahl der Sätze ist. Jeder Satz hat eine An zahl von Kandidatenworten, wobei die Anzahl eine positive ganze Zahl ist. Index i ist die VR-Engine-Nummer.
Jede VR-Einheit produziert ebenso eine Distanz D_g zwischen der Testäußerung T_u und dem Nicht-In-Dem-Vokabular-Wort-Template W_g. Ein Im-Vokabular-Wort ist ein Wort, das in dem Vokabular einer VR-Einheit ist. Ein Nicht-Im-Vokabular-Wort ist ein Wort, das nicht in dem Vokabular einer VR-Einheit ist. Wenn das Ergebnis der Abbildungsfunktion größer als eine Schwelle ist, dann ist das berechnete Kandidatenwort gültig und die Eingabe wird akzeptiert. Anderenfalls wird die Eingabe zurückgewiesen.
Tabelle 1 zeigt eine Matrix von Distanzen in einem Ausführungsbeispiel mit einer DTW-Einheit und einer HMM-Engine, wobei die Top-Zwei-Worte von jeder Einheit als Kandidatensatz ausgewählt werden. D₁ und D₂ sind Distanzen für die Top-Zwei-Kandidatenworte von der DTW-VR-Einheit und H₁ und H₂ sind die Distanzen für die Top-Zwei-Kandidatenworte von der HMM-VR-Engine.
In einem Ausführungsbeispiel mit zwei VR-Einheiten, wobei eine VR-Einheit X Distanzen und die andere Einheit Y Distanzen produziert, wird eine Gesamtzahl von X·Y Kandidatenworten produziert. Nur ein Wort aus einem Kandidatensatz wird erkannt werden und eine Entscheidung wird getroffen, um zu bestimmen, ob die Erkennung zurückgewiesen/akzeptiert werden soll. In einem Ausführungsbeispiel wird eine lineare Abbildungsfunktion für beide benutzt, um ein Wort aus dem Kandidatensatz zu wählen, und um die Entscheidung zu treffen zu akzeptieren oder zurückzuweisen.
Jeder Satz von Kandidatenworten, W_i, i = 1, 2, 3, 4, hat seine entsprechenden Messungsvektoren, wie in Tabelle 1 gezeigt. TABELLE 1
D bezeichnet eine DTW-Engine. H bezeichnet eine HMM-Engine.
ist die Distanz zwischen T_u und W_i.
ist die Distanz für den zweitbesten Kandidaten ausschließlich W_i. D_g bezeichnet die Distanz zwischen T_u und dem Abfall-Template.
H_g repräsentiert entsprechend die gleichen Quantitäten wie für die DTW-Engine.
Die lineare Abbildungsfunktion hat die Form:
wobei c_i (i = 0, 1, ... n) eine reelle Konstante in einem Ausführungsbeispiel ist und ein Sprachparameter in einem anderen Ausführungsbeispiel ist. die obere Grenze des Index i ist n. Die obere Grenze n ist gleich der Anzahl der VR-Einheiten in dem Spracherkennungssystem plus die Anzahl der Kandidatenworte für jede VR-Engine. In einem Ausführungsbeispiel mit zwei VR-Einheiten und zwei Kandidatenworten pro VR-Engine, n = 6. Die Berechnung von n ist nachstehend gezeigt.

Zwei VR-Einheiten 2

zwei Kandidatenworte für die erste VR-Engine +2

zwei Kandidatenworte für die zweite VR-Engine +2

n = 6
Die Entscheidungsregeln für die Worterkennung und Wortakzeptierung sind wie folgend:

1. Das Wort, das M_i (D, H) maximiert wird als das Wort, das erkannt werden soll, ausgewählt; und
2. Die Erkennung wird akzeptiert, wenn M_i (D, H) > 0 und zurückgewiesen wenn M_i (D, H) ≤ 0.

Die Abbildungsfunktion kann konstruiert werden oder objektiv trainiert werden, um falsche Akzeptierungs-/Zurückweisungsfehler zu minimieren. In einem Ausführungsbeispiel werden die Konstanten c_i, (i = 0, 1, ..., n) von dem Training erhalten. In dem Trainingsprozess ist die Identität jedes Testsamples bekannt. Der Messungsvektor eines Worts (unter W₁, W₂, W₃, und W4) wird als korrekt (+1) markiert und der Rest wird als inkorrekt (–1) markiert. Das Training bestimmt den Wert des Koeffizientenvektors c = c_i (i = 0, 1, ... n), um die Anzahl der fehlerhaften Klassifizierungen zu minimieren. Vektor b ist ein Vektor, der die korrekte/inkorrekte Natur jedes Trainingsvektors anzeigt, und W ist die Messungsmatrix, wo jede Zeile ein Messungsvektor
H_g, (i = i, ..., 4) ist. In einem Ausführungsbeispiel wird der Koeffizientenvektor c durch Berechnen der Pseudoinversen von W berechnet: c = (WTW)–1WTb
Diese Prozedur minimiert den mittleren quadratischen Fehler (MSE = mean square error). In einem anderen Ausführungsbeispiel werden ebenso verbesserte Fehlerminimierungsprozeduren, wie z.B. das Minimieren der Gesamtfehlerzahl, benutzt, um nach dem Koeffizientenvektor c aufzulösen. Es sei für den Fachmann angemerkt, dass andere Fehlerminimierungsprozeduren, die auf dem Fachgebiet bekannt sind, benutzt werden können, um nach dem Koeffizientenvektor c aufzulösen.
Das Abbildungsfunktionsverfahren ist gleichermaßen anwendbar auf mehrere (>2) Einheiten und mehrere (>2) Wortkandidaten. Wenn es L VR- gibt und jede N Wortkandidaten produziert, hat die verallgemeinerte Abbildungsfunktion die Form:
C₀ ist die Schwellenkonstante. c^l _k ist die k-te Abbildungskonstante für VR-Einheit I.
ist die k-te Distanz für den Wortkandidaten W_i von der VR-Einheit I.
Eine oder mehrere Variablen/Parameter werden in der Abbildungsfunktion statt der Koeffizienten benutzt. In einem Ausführungsbeispiel sind der oder die mehreren Variablen/Parameter, die in der Abbildungsfunktion benutzt werden, Sprachparameter von einer VR-Engine. Es sei für den Fachmann ebenso angemerkt, dass der eine oder mehrere Variablen/Parameter Sprachparameter sein können, die aus der Messung oder Verarbeitung des Sprachsignals s(t) genommen wurden.
Somit wurde ein neues und verbessertes Verfahren und Vorrichtung zum Kombinieren von Einheiten für Spracherkennung beschrieben. Es sei für den Fachmann angemerkt, dass die verschiedenen illustrativen logischen Blöcke, Module und Abbildungen, die in Verbindung mit den Ausführungsbeispielen, die hierin offenbart wurden, beschrieben sind, als elektronische Hardware, Computersoftware oder Kombinationen davon implementiert werden können. Die verschiedenen illustrativen Komponenten, Blöcke, Module, Schaltungen und Schritte wurden im Allgemeinen mit Ausdrücken derer Funktionalität beschrieben. Ob die Funktionalität als Hardware oder Software implementiert wird, hängt von der bestimmten Anwendung und den Designeinschränkungen, die dem Gesamtsystem auferlegt sind, ab. Der Fachmann erkennt die Auswechselbarkeit von Hardware und Software unter diesen Umständen und wie die beschriebene Funktionalität für jede bestimmte Anwendung am besten implementiert wird. Als Beispiele können die verschiedenen illustrativen logischen Blöcke, Module und Abbildungen, die in Verbindung mit den hierin offenbarten Ausführungsbeispielen beschrieben wurden, mit einem Prozessor, der einen Satz von Firmwareinstruktionen ausführt, einer applikationsspezifischen integrierten Schaltung (ASIC = application specific integrated circuit), einem feldprogrammierbaren Gate-Array (FPGA = field programmable gate array) oder einem anderen programmierbaren logischen Gerät, einem diskreten Gatter oder einer Transistorlogik, diskreten Hardwarekomponenten wie z.B. Registern, jedem konventionellen programmierbaren Softwaremodul und einem Prozessor oder jeglicher Kombination davon, die entwickelt wurden, um die hierin beschriebenen Funktionen durchzuführen, implementiert oder durchgeführt werden. Der A/D 102, die VR-Einheiten und das Abbildungsmodul 110 können auf vorteilhafte Weise in einem Mikroprozessor ausgeführt werden, aber als Alternative können der A/D 102, die VR-Einheiten und das Abbildungsmodul 110 in jedem konventionellen Prozessor, Controller, Mikrocontroller oder jeder Zustandsmaschine ausgeführt werden. Die Templates können sich in einem RAM-Speicher, Flash-Speicher, ROM-Speicher, EPROM-Speicher, EEPROM-Speicher, Registern, einer Festplatte, einer entfernbaren Disk, einer CD-ROM oder jeder anderen Form von Speichermedium, die auf dem Fachgebiet bekannt ist, befinden. Der Speicher (nicht gezeigt) kann in jeglichem zuvor genannten Prozessor (nicht gezeigt) integriert sein. Ein Prozessor (nicht gezeigt) und ein Speicher (nicht gezeigt) können sich in einem ASIC (nicht gezeigt) befinden. Der ASIC kann sich in einem Telefon befinden.
Die vorhergehende Beschreibung der Ausführungsbeispiele der Erfindung ist vorgesehen um jedem Fachmann zu ermöglichen, die vorliegende Erfindung zu produzieren oder zu benutzen. Die verschiedenen Modifikationen dieser Ausführungsbeispiele werden dem Fachmann leicht ersichtlich sein, und die ursprünglichen Prinzipien, die hierin definiert wurden, können auf andere Ausführungsbeispiele ohne die Verwendung von erfinderischer Fähigkeit angewandt werden. Somit ist es nicht beabsichtigt, die vorliegende Erfindung auf die hierin gezeigten Ausführungsbeispiele zu begrenzen, sondern es soll ihr der breiteste Schutzumfang, der mit den Prinzipien und neuen Merkmalen, die hierin offenbart sind, konsistent ist, eingeräumt werden.

Claims

Ein Spracherkennungssystem (100), das Folgendes aufweist: eine Vielzahl von Spracherkennungs- bzw. VR-Einheiten (VR = voice recognition) (104, 106, 108), wobei jede Spracherkennungseinheit konfiguriert ist, um einen Wort-Kandidaten zu erzeugen; und ein Abbildungsmodul (110), das konfiguriert ist als eine Eingabe die Wort-Kandidaten von der Vielzahl von VR-Einheiten (104, 106, 108) aufzunehmen, und einen Wort-Kandidaten basierend auf einer Abbildungsfunktion auszuwählen, wobei die Abbildungsfunktion die Folgende ist:
wobei F eine erste Spracherkennungseinheit ist, S eine zweite Spracherkennungseinheit ist,
der Abstand zwischen der Äußerung T_u und Kandidaten-Wort W_i ist,
der Abstand des zweitbesten Kandidaten ausschließlich W_i ist, D_g den Abstand zwischen T_u und einer Abfallvorlage (garbage template) bezeichnet,
der Abstand zwischen Äußerung T_u und W_i ist,
der Abstand für den zweitbesten Kandidaten ausgenommen W_i ist, S_g den Abstand zwischen T_u und der Abfallvorlage bezeichnet und C_i (i = 0, 1, ... n) ein Koeffizient ist und die obere Grenze n gleich zu der Summe der Anzahl von VR-Einheiten ist plus der Summe der Kandidaten-Worte für jede VR-Einheit.
Spracherkennungssystem (100) nach Anspruch 1, wobei die Vielzahl von Spracherkennungseinheiten eine sprecherunabhängige Spracherkennungseinheit (104) beinhaltet.
Spracherkennungssystem (100) nach Anspruch 1, wobei die Vielzahl von Spracherkennungseinheiten eine sprecherabhängige Spracherkennungseinheit (106) enthält.
Spracherkennungssystem (100) nach Anspruch 2, wobei die Vielzahl von Spracherkennungseinheiten eine sprecherabhängige Spracherkennungseinheit (106) beinhaltet.
Spracherkennungssystem (100) nach Anspruch 4, wobei mindestens eine sprecherunabhängige Spracherkennungseinheit (104) eine dynamic time warping bzw. dynamische Zeitkrümmungsspracherkennungseinheit ist.
Spracherkennungssystem (100) nach Anspruch 4, wobei mindestens eine sprecherunabhängige Spracherkennungseinheit (104) eine Hidden Markov Model-Spracherkennungseinheit ist.
Spracherkennungssystem (100) nach Anspruch 4, wobei mindestens eine sprecherabhängige Spracherkennungseinheit (106) eine Dynamic Time Warping Spracherkennungseinheit ist.
Spracherkennungssystem (100) nach Anspruch 4, wobei mindestens eine sprecherabhängige Spracherkennungseinheit (106) eine Hidden Markov Model Erkennungseinheit ist.
Spracherkennungssystem (100) nach Anspruch 1, wobei die Abbildungsfunktion linear die Wort-Kandidaten aus einem Messraum in einen Entscheidungsraum abbildet.
Spracherkennungssystem (100) nach Anspruch 1, wobei der Wort-Kandidat dargestellt wird durch einen Abstand zwischen einer Wortkandidaten-Vorlage bzw. template und der Äußerung.
Spracherkennungssystem (100) nach Anspruch 1, wobei das Abbildungsmodul (110) jeden Abstand bzw. Distanz von jeder VR-Einheit mit einem Koeffizienten multipliziert und das Produkt und einen weiteren Koeffizienten Co addiert, wodurch eine Summe erzeugt wird.
Spracherkennungssystem (100) nach Anspruch 11, wobei ein Wort-Kandidat ausgewählt wird, basierend auf der Summe.
Spracherkennungssystem (100) nach Anspruch 12, wobei der Koeffizient eine reelle Konstante ist.
Spracherkennungssystem (100) nach Anspruch 12, wobei der Koeffizient ein Sprachparameter ist.
Ein Spracherkennungssystem (100), das Folgendes aufweist: eine Vielzahl von Spracherkennungs- bzw. VR-Einheiten (104, 106, 108), wobei jede Spracherkennungseinheit konfiguriert ist, um einen Wort-Kandidaten zu erzeugen; und ein Abbildungsmodul (110), das konfiguriert ist, um als eine Eingabe die Wort-Kandidaten von der Vielzahl von VR-Einheiten (104, 106, 108) aufzunehmen und einen Wort-Kandidaten basierend auf einer Abbildungsfunktion auszuwählen, wobei die Abbildungsfunktion gegeben ist durch:
wobei C₀ eine Schwellenkonstante ist, C l / k eine k-te Abbildungskonstante der VR-Einheit I ist und
der k-te Abstand des Wort-Kandidaten W_i von der VR-Einheit I ist.
Ein Verfahren zur Spracherkennung, die Folgendes aufweist: Erhalten mindestens eines Kandidaten-Worts für eine Testäußerung (200) und Auswählen eines erkannten Wortes von dem zumindest einen Kandidaten-Wort basierend auf einer Abbildungsfunktion; wobei die Abbildungsfunktion gegeben ist durch:
wobei F eine erste Spracherkennungseinheit ist, S eine zweite Spracherkennungseinheit ist,
der Abstand zwischen der Äußerung T_u und Kandidaten-Wort W_i ist,
der Abstand des zweitbesten Kandidaten ausschließlich W ist, D_g den Abstand zwischen T_u und einer Abfallvorlage (garbage template) bezeichnet,
der Abstand zwischen Äußerung T_u und W_i ist,
der Abstand für den zweitbesten Kandidaten ausgenommen W_i ist, S_g den Abstand zwischen T_u und der Abfallvorlage bezeichnet und C_i (i = 0, 1, ... n) ein Koeffizient ist und die obere Grenze n gleich zu der Summe der Anzahl von VR-Einheiten ist plus der Summe der Kandidaten-Worte für jede VR-Einheit.
Verfahren nach Anspruch 16, wobei die Abbildungsfunktion linear das mindestens eine Kandidaten-Wort von einem Messraum zu einem Entscheidungsraum abbildet.
Verfahren nach Anspruch 16, wobei der Koeffizient eine reelle Konstante ist.
Verfahren nach Anspruch 16, wobei der Koeffizient ein Sprachparameter ist.
Ein Verfahren zur Spracherkennung, das Folgendes aufweist: Erhalten mindestens eines Kandidaten-Wortes für eine Testäußerung (200); und Auswählen eines erkannten Wortes aus dem mindestens einen Kandidaten-Wort basierend auf einer Abbildungsfunktion; wobei die Abbildungsfunktion gegeben ist durch
wobei C₀ eine Schwellenkonstante ist, C l / k eine k-te Abbildungskonstante der VR-Einheit I ist und
der k-te Abstand des Wort-Kandidaten W_i von der VR-Einheit I ist.
Verfahren nach Anspruch 16 oder Anspruch 20, wobei der Schritt des Erhaltens weiterhin folgende Schritte aufweist: Erhalten der Testäußerung; Analysieren der Testäußerung bzw. utterance; Vorsehen mindestens eines Kandidaten-Wortes für die Testäußerung basierend auf der Analyse der Testäußerung; und wobei der Schritt des Auswählens weiterhin folgende Schritte aufweist: Anwenden der Abbildungsfunktion auf das mindestens eine KandidatenWort (210); Auswählen eines Kandidaten-Wortes von dem mindestens einem Kandidaten-Wort basierend auf dem Abbildungsfunktionswertes des mindestens einen Kandidaten-Wortes (212); und Vergleichen des Abbildungsfunktionswertes des ausgewählten Kandidaten-Wortes mit einer Schwelle (214).
Verfahren nach Anspruch 21, das weiterhin das Akzeptieren des ausgewählten Kandidaten-Wortes basierend auf dem Vergleich (218) aufweist.
Verfahren nach Anspruch 21, das weiterhin das Zurückweisen des ausgewählten Kandidaten-Wortes basierend auf dem Vergleich (216) aufweist.