DE112017004374T5

DE112017004374T5 - System und Verfahren zur Spracherkennung

Info

Publication number: DE112017004374T5
Application number: DE112017004374.3T
Authority: DE
Inventors: Zhengyu Zhou; Zhe Feng
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2016-09-30
Filing date: 2017-09-14
Publication date: 2019-06-06
Anticipated expiration: 2037-09-15
Also published as: DE112017004374B4; WO2018059957A1; US9959861B2; JP6869339B2; US20180096678A1; CN109791767A; JP2019535034A; CN109791767B

Abstract

Ein Verfahren zur automatisierten Spracherkennung beinhaltet Erzeugen von ersten und zweiten mehreren Kandidatenspracherkennungsergebnissen, die Audioeingabedaten entsprechen, unter Verwendung einer ersten Allgemeinzweck-Spracherkennungs-Engine bzw. einer zweiten domänenspezifischen Spracherkennungs-Engine. Das Verfahren beinhaltet ferner Erzeugen von dritten mehreren Kandidatenspracherkennungsergebnissen, die mehrere Wörter, die in einem der ersten mehreren Spracherkennungsergebnisse enthalten sind, und mindestens ein Wort, das in einem anderen der zweiten mehreren Spracherkennungsergebnisse enthalten ist, beinhalten, Einstufen der dritten mehreren Kandidatenspracherkennungsergebnisse unter Verwendung einer Paarweise-Einstufung-Vorrichtung, um ein am höchsten eingestuftes Kandidatenspracherkennungsergebnis zu identifizieren, und Betreiben des automatisierten Systems unter Verwendung des am höchsten eingestuften Spracherkennungsergebnisses als eine Eingabe vom Benutzer.

Description

GEBIET
Die vorliegende Offenbarung betrifft allgemein das Gebiet der automatisierten Spracherkennung und insbesondere Systeme und Verfahren, die den Betrieb von Spracherkennungssystemen verbessern, die mehrere Spracherkennungs-Engines nutzen.
HINTERGRUND
Automatisierte Spracherkennung ist eine wichtige Technik zum Implementieren von Mensch-Maschine-Schnittstellen (HMIs: Human Machine Interfaces) in einem breiten Bereich von Anwendungen. Insbesondere ist Spracherkennung in Situationen nützlich, bei denen sich ein menschlicher Benutzer auf das Durchführen einer Aufgabe konzentrieren muss, bei der das Verwenden von traditionellen Eingabeeinrichtungen, wie etwa einer Maus und Tastatur, ungeeignet oder unpraktisch sein würde. Fahrzeuginterne „Infotainment“-Systeme, Hausautomatisierungssysteme und viele Verwendungen von kleinen elektronischen mobilen Einrichtungen, wie etwa Smartphones, Tablets und tragbaren Computern, können zum Beispiel Spracherkennung einsetzen, um Sprachbefehle und eine andere Eingabe von einem Benutzer zu empfangen.
Die meisten Spracherkennungssysteme des Stands der Technik verwenden eine trainierte Spracherkennungs-Engine, um aufgezeichnete gesprochene Eingaben von einem Benutzer in digitale Daten umzuwandeln, die sich zur Verarbeitung in einem computergestützten System eignen. Verschiedene Sprach-Engines, die im Stand der Technik bekannt sind, führen Techniken zum Verstehen natürlicher Sprache durch, um die Wörter, die der Benutzer spricht, zu erkennen und eine semantische Bedeutung aus den Wörtern zu extrahieren, um den Betrieb eines computergestützten Systems zu steuern.
In manchen Situationen ist eine einzige Spracherkennungs-Engine zur Erkennung von Sprache von einem Benutzer, während der Benutzer andere Aufgaben durchführt, nicht notwendigerweise optimal. Lösungen des Stands der Technik versuchen, mehrere Spracherkennungssysteme zu kombinieren, um die Genauigkeit der Spracherkennung zu verbessern, einschließlich des Auswählens von Ausgaben niedriger Ebene von den akustischen Modellen, unterschiedlicher Sprachmodelle oder des Auswählens einer gesamten Menge von Ausgaben von unterschiedlichen Spracherkennungs-Engines basierend auf einem vorbestimmten Einstufungsprozess. Die Techniken des Stands der Technik, die Ausgaben von unterschiedlichen Spracherkennungs-Engines auswählen, eignen sich jedoch häufig nicht zur Verwendung in spezifischen Aufgaben, bei denen ein Benutzer häufig etwas Sprache von einer natürlichen Sprache einsetzt, aber die Sprachbefehle in natürlicher Sprache mit Wörtern und Sätzen kombiniert, die für einen spezifischen Zweck verwendet werden. In einem fahrzeuginternen Infotainment-System kann die Spracheingabe von einem Fahrzeugbetreiber zum Beispiel eine natürliche Sprache, wie etwa Englisch oder Chinesisch, kombiniert mit spezifischen Wörtern und Phrasen beinhalten, die durch Spracherkennungs-Engines nicht gut erkannt werden, und lediglich das Auswählen der Ausgaben unterschiedlicher Spracherkennungs-Engines, die jeweils Fehler mit einer hohen Wahrscheinlichkeitsrate beinhalten, erhöht nicht die Gesamtgenauigkeit der Spracherkennung. Des Weiteren können bestehende Spracherkennungssysteme, die nur Ausgaben niedriger Ebene, wie etwa die akustischen Modellausgaben, oder andere Merkmale niedriger Ebene von mehreren Spracherkennungs-Engines kombinieren, nicht die Ausgaben unterschiedlicher Spracherkennungs-Engines, die linguistische Merkmale höherer Ebene verwenden, evaluieren. Demzufolge würden Verbesserungen am Betrieb von automatisierten Systemen, um die Genauigkeit der Spracherkennung unter Verwendung mehrerer Spracherkennungs-Engines zu erhöhen, von Vorteil sein.
KURZDARSTELLUNG
Bei einer Ausführungsform ist ein Verfahren zum Durchführen einer Spracherkennung unter Verwendung von hybriden Spracherkennungsergebnissen entwickelt worden. Das Verfahren beinhaltet Erzeugen, mit einer Audioeingabeeinrichtung, von Audioeingabedaten, die einer Spracheingabe von einem Benutzer entsprechen, Erzeugen, mit einer Steuerung, von ersten mehreren Kandidatenspracherkennungsergebnissen, die den Audioeingabedaten entsprechen, unter Verwendung einer ersten Allgemeinzweck-Spracherkennungs-Engine, Erzeugen, mit der Steuerung, von zweiten mehreren Kandidatenspracherkennungsergebnissen, die den Audioeingabedaten entsprechen, unter Verwendung einer ersten domänenspezifischen Spracherkennungs-Engine, Erzeugen, mit der Steuerung, von dritten mehreren Kandidatenspracherkennungsergebnissen, wobei jedes Kandidatenspracherkennungsergebnis in den dritten mehreren Kandidatenspracherkennungsergebnissen mehrere Wörter, die in einem der ersten mehreren Kandidatenspracherkennungsergebnisse enthalten sind, und mindestens ein Wort, das in einem anderen der zweiten mehreren Kandidatenspracherkennungsergebnisse enthalten ist, beinhaltet, Einstufen, mit der Steuerung, zumindest der dritten mehreren Spracherkennungsergebnisse unter Verwendung einer Paarweise-Einstufung-Vorrichtung, um ein am höchsten eingestuftes Kandidatenspracherkennungsergebnis zu identifizieren, und Betreiben, mit der Steuerung, des automatisierten Systems unter Verwendung des am höchsten eingestuften Kandidatenspracherkennungsergebnisses als eine Eingabe vom Benutzer.
Bei einer anderen Ausführungsform ist ein automatisiertes System entwickelt worden, das eine Spracherkennung unter Verwendung von hybriden Spracherkennungsergebnissen durchführt. Das System beinhaltet eine Audioeingabeeinrichtung, die dazu ausgelegt ist, Audioeingabedaten zu erzeugen, die einer Spracheingabe von einem Benutzer entsprechen, und eine Steuerung, die funktionsfähig mit der Audioeingabeeinrichtung und einem Speicher verbunden ist. Die Steuerung ist ausgelegt zum Empfangen der Audioeingabedaten von der Audioeingabeeinrichtung, Erzeugen von ersten mehreren Kandidatenspracherkennungsergebnissen, die den Audioeingabedaten entsprechen, unter Verwendung einer ersten Allgemeinzweck-Spracherkennungs-Engine, Erzeugen von zweiten mehreren Kandidatenspracherkennungsergebnissen, die den Audioeingabedaten entsprechen, unter Verwendung einer ersten domänenspezifischen Spracherkennungs-Engine, Erzeugen von dritten mehreren Kandidatenspracherkennungsergebnissen, wobei jedes Kandidatenspracherkennungsergebnis in den dritten mehreren Kandidatenspracherkennungsergebnissen mehrere Wörter, die in einem der ersten mehreren Kandidatenspracherkennungsergebnisse enthalten sind, und mindestens ein Wort, das in einem anderen der zweiten mehreren Kandidatenspracherkennungsergebnisse enthalten ist, beinhaltet, Einstufen zumindest der dritten mehreren Kandidatenspracherkennungsergebnisse unter Verwendung einer Paarweise-Einstufung-Vorrichtung, um ein am höchsten eingestuftes Kandidatenspracherkennungsergebnis zu identifizieren, und Betreiben des automatisierten Systems unter Verwendung des am höchsten eingestuften Kandidatenspracherkennungsergebnisses als eine Eingabe vom Benutzer.
Figurenliste

1 ist eine schematische Ansicht von Komponenten eines computergestützten Systems, das Spracheingabebefehle von einem Benutzer empfängt, wie in einem fahrzeuginternen Informationssystem in einem Fahrgastraum eines Fahrzeugs umgesetzt.
2 ist ein Blockdiagramm eines Prozesses zum Durchführen einer Spracherkennung unter Verwendung
3 ist ein Blockdiagramm eines Prozesses zum Erzeugen von Merkmalsvektoren basierend auf Auslösewortsequenzen in Spracherkennungsergebnissen.
4 ist ein Diagramm, das zwei unterschiedliche Spracherkennungsergebnisse für eine einzige Spracheingabe und ein hybrides Spracherkennungsergebnis, das Wörter von beiden der Spracherkennungsergebnisse kombiniert, abbildet.

AUSFÜHRLICHE BESCHREIBUNG
Um ein Verständnis der Prinzipien der hierin offenbarten Ausführungsformen zu fördern, wird nun auf die Zeichnungen und Beschreibungen in der folgenden schriftlichen Beschreibung Bezug genommen. Es ist keine Beschränkung des Schutzumfangs des Gegenstands durch die Bezugnahmen beabsichtigt. Die vorliegende Offenbarung beinhaltet auch Abwandlungen und Modifikationen an den veranschaulichten Ausführungsformen und beinhaltet ferner Anwendungen der Prinzipien der offenbarten Ausführungsformen, wie sie einem Fachmann hinsichtlich dieser Offenbarung normalerweise ersichtlich sind.
Wie hierin verwendet, bezieht sich der Ausdruck „Spracherkennungs-Engine“ auf ein Datenmodell und einen ausführbaren Programmcode, das bzw. der einem computergestützten System ermöglicht, gesprochene Wörter von einem Betreiber basierend auf aufgezeichneten Audioeingabedaten der gesprochenen Wörter, die über ein Mikrofon oder eine andere Audioeingabeeinrichtung empfangen werden, zu identifizieren. Spracherkennungssysteme beinhalten häufig ein akustisches Modell niedrigerer Ebene, das die individuellen Töne einer menschlichen Sprache in einer Tonaufzeichnung erkennt, und Sprachmodelle höherer Ebene, die Wörter und Sätze basierend auf Sequenzen der Töne vom akustischen Modell für eine vorbestimmte Sprache erkennen. Spracherkennungs-Engines, die im Stand der Technik bekannt sind, implementieren typischerweise ein oder mehrere statistische Modelle, wie etwa zum Beispiel ein Hidden-Markov-Modell (HMM), eine Support Vector Machine (SVM: Stützvektormaschine), ein trainiertes neuronales Netzwerk oder ein anderes statistisches Modell, das statistische Vorhersagen für aufgezeichnete menschliche Sprache unter Verwendung von mehreren trainierten Parametern erzeugt, die an einem Merkmalsvektor von Eingabedaten angewendet werden, die der menschlichen Sprache entsprechen. Die Spracherkennungs-Engine erzeugt den Merkmalsvektor unter Verwendung von zum Beispiel verschiedenen Signalverarbeitungstechniken, die im Stand der Technik bekannt sind und Eigenschaften („Merkmale“) des aufgezeichneten Sprachsignals extrahieren und die Merkmale in einen eindimensionalen oder mehrdimensionalen Vektor organisieren, der unter Verwendung des statistischen Modells verarbeitet werden kann, um verschiedene Teile der Sprache, einschließlich individueller Wörter und Sätze, zu identifizieren. Spracherkennungs-Engines können Ergebnisse für Spracheingaben erzeugen, die individuellen gesprochenen Phonemen und komplexeren Tonmustern, einschließlich gesprochenen Wörtern und Sätzen, die Sequenzen von zugehörigen Wörtern beinhalten, entsprechen.
Wie hierin verwendet, bezieht sich der Ausdruck „Spracherkennungsergebnis“ auf eine maschinenlesbare Ausgabe, die die Spracherkennungs-Engine für eine gegebene Eingabe erzeugt. Das Ergebnis kann zum Beispiel Text sein, der in einem maschinenlesbaren Format codiert ist, oder eine andere Menge von codierten Daten sein, die als Eingaben dienen, um den Betrieb eines automatisierten Systems zu steuern. Aufgrund der statistischen Art von Spracherkennungs-Engines erzeugt die Sprach-Engine bei manchen Konfigurationen mehrere potenzielle Spracherkennungsergebnisse für eine einzige Eingabe. Die Sprach-Engine erzeugt außerdem eine „Konfidenzbewertung“ für jedes Spracherkennungsergebnis, wobei die Konfidenzbewertung eine statistische Schätzung der Wahrscheinlichkeit ist, dass jedes Spracherkennungsergebnis genau ist, basierend auf dem trainierten statistischen Modell der Spracherkennungs-Engine. Wie unten ausführlicher beschrieben, verwendet ein hybrides Spracherkennungssystem Spracherkennungsergebnisse, die durch mehrere Spracherkennungs-Engines erzeugt werden, erzeugt zusätzliche hybride Spracherkennungsergebnisse und erzeugt schließlich mindestens ein Ausgabespracherkennungsergebnis basierend auf den mehreren zuvor erzeugten Spracherkennungsergebnissen. Wie hierin verwendet, bezieht sich der Ausdruck „Kandidatenspracherkennungsergebnis“ oder einfacher „Kandidatenergebnis“ auf ein Spracherkennungsergebnis, das ein Kandidat für das endgültige Spracherkennungsergebnis vom hybriden Spracherkennungssystem ist, das mehrere Kandidatenergebnisse erzeugt und nur eine Teilmenge (typischerweise eines) der Ergebnisse als das endgültige Spracherkennungsergebnis auswählt. Bei verschiedenen Ausführungsformen beinhalten Kandidatenspracherkennungsergebnisse sowohl die Spracherkennungsergebnisse von Allgemeinzweck- und domänenspezifischen Spracherkennungs-Engines als auch hybride Spracherkennungsergebnisse, die das System 100 unter Verwendung von Wörtern von mehreren Kandidatenspracherkennungsergebnissen erzeugt.
Wie hierin verwendet, bezieht sich der Ausdruck „Allgemeinzweck-Spracherkennungs-Engine“ auf eine Art von Spracherkennungs-Engine, die trainiert ist, einen breiten Bereich von Sprache aus einer natürlichen menschlichen Sprache, wie etwa Englisch oder Chinesisch, zu erkennen. Die Allgemeinzweck-Spracherkennungs-Engines erzeugen Spracherkennungsergebnisse basierend auf einem breiten Vokabular von trainierten Wörtern und trainierten grammatischen Modellen, die weitgehend verwendeten Sprachmustern in einer natürlichen Sprache entsprechen. Wie hierin verwendet, bezieht sich der Ausdruck „domänenspezifische Spracherkennungs-Engine“ auf eine Art von Spracherkennungs-Engine, die trainiert ist, Spracheingaben in einem speziellen Verwendungsbereich oder einer „Domäne“ zu erkennen, der bzw. die häufig ein etwas unterschiedliches Vokabular und potenziell anders erwartete grammatische Strukturen von breiteren natürlichen Sprachen beinhaltet. Das Vokabular für eine spezifische Domäne beinhaltet typischerweise manche Ausdrücke von einer breiteren natürlichen Sprache, kann aber ein begrenzteres Gesamtvokabular beinhalten, und beinhaltet in manchen Fällen spezialisierte Ausdrücke, die nicht offiziell als offizielle Wörter in einer natürlichen Sprache erkannt werden, aber für eine spezielle Domäne wohl bekannt sind. In einer Navigationsanwendung kann eine domänenspezifische Spracherkennung zum Beispiel Ausdrücke für Straßen, Städte oder andere geographische Bezeichnungen erkennen, die nicht typischerweise als Eigennamen in einer allgemeineren Sprache erkannt werden. Bei anderen Konfigurationen verwendet eine spezielle Domäne eine spezielle Menge an Jargon, der für eine spezielle Domäne nützlich ist, aber in einer breiteren Sprache möglicherweise nicht gut erkannt wird. Flugzeugführer verwenden zum Beispiel offiziell Englisch als eine Kommunikationssprache, setzen aber auch eine große Anzahl von domänenspezifischen Jargonwörtern und andere Abkürzungen ein, die nicht Teil des standardmäßigen Englisch sind.
Wie hierin verwendet, bezieht sich der Ausdruck „Auslösepaar“ auf zwei Wörter, die jeweils entweder ein Wort (z. B. „abspielen“) oder eine vorbestimmte Klasse (z. B. <Liedname>) sein können, die eine Wortsequenz (z. B. „Poker Face“) repräsentieren, die in die vorbestimmte Klasse, wie etwa den Eigennamen eines Liedes, einer Person, Ortsname usw., fällt. Wörter im Auslösepaar, die wenn sie in einer spezifischen Reihenfolge in Wörtern im Satztextinhalt eines Spracherkennungsergebnisses auftreten, besitzen einen hohen Grad an Korrelation zwischen dem Auftreten eines späteren Wortes B in Situationen, in denen ein früheres Wort A in Audioeingabedaten für ein Auslösepaar von A →B beobachtet wird. In vielen Fällen beinhaltet ein Auslösepaar zwei Wörter in einem Auslösepaar obwohl ein Auslösepaar eine Sequenz mit mehr als zwei Wörtern beinhalten kann. Wie unten ausführlicher beschrieben, bildet, nach einer Identifikation einer Menge von Auslösepaaren über einen Trainingsprozess, das Auftreten von Auslösewortpaaren im Text von Kandidatenspracherkennungsergebnissen einen Teil eines Merkmalsvektors für jedes Kandidatenergebnis, den ein Einstufungsprozess verwendet, um unterschiedliche Kandidatenspracherkennungsergebnisse einzustufen.
1 bildet ein fahrzeuginternes Informationssystem 100 ab, das ein Head-Up-Display (HUD) 120, ein oder mehrere Konsolen-LCD-Felder 124, ein oder mehrere Eingabemikrofone 128 und einen oder mehrere Ausgabelautsprecher 132 beinhaltet. Die LCD-Anzeige 124 und das HUD 120 erzeugen visuelle Ausgaberückmeldungen vom System 100 zumindest teilweise basierend auf Spracheingabebefehlen, die das System 100 von einem Betreiber oder einem anderen Insassen des Fahrzeugs empfängt. Eine Steuerung 148 ist funktionsfähig mit jeder der Komponenten im fahrzeuginternen Informationssystem 100 verbunden. Bei manchen Ausführungsformen ist die Steuerung 148 mit zusätzlichen Komponenten, wie etwa einem Empfänger 152 eines globalen Positionierungssystems (GPS) und einer drahtlosen Netzwerkeinrichtung 154, verbunden oder integriert diese, um Navigation und Kommunikation mit externen Datennetzwerken und Recheneinrichtungen bereitzustellen.
In manchen Betriebsmodi arbeitet das fahrzeuginterne Informationssystem 100 unabhängig, während das fahrzeuginterne Informationssystem 100 in anderen Betriebsmodi mit einer mobilen elektronischen Einrichtung, wie etwa einem Smartphone 170, einem Tablet, einem Notebook-Computer oder einer anderen elektronischen Einrichtung, interagiert. Das fahrzeuginterne Informationssystem kommuniziert mit dem Smartphone 170 unter Verwendung einer verdrahteten Schnittstelle, wie etwa USB, oder einer drahtlosen Schnittstelle, wie etwa Bluetooth. Das fahrzeuginterne Informationssystem 100 stellt eine Spracherkennungsbenutzerschnittstelle bereit, die dem Betreiber ermöglicht, das Smartphone 170 oder eine andere mobile elektronische Kommunikationseinrichtung unter Verwendung von gesprochenen Befehlen zu steuern, die eine Ablenkung während des Betreibens des Fahrzeugs reduzieren. Das fahrzeuginterne Informationssystem 100 stellt zum Beispiel eine Sprachschnittstelle bereit, um dem Fahrzeugbetreiber zu ermöglichen, mit dem Smartphone 170 Telefonanrufe zu tätigen oder Textnachrichten zu senden, ohne zu erfordern, dass der Betreiber das Smartphone 170 hält oder auf dieses schaut. Bei manchen Ausführungsformen beinhaltet das Smartphone 170 verschiedene Einrichtungen, wie etwa GPS- und drahtlose Vernetzungseinrichtungen, die die Funktionalität von Einrichtungen, die im Fahrzeug untergebracht sind, komplementieren oder ersetzen.
Das Mikrofon 128 erzeugt Audiodaten aus einer gesprochenen Eingabe, die vom Fahrzeugbetreiber oder einem anderen Fahrzeugmitfahrer empfangen wird. Die Steuerung 148 beinhaltet Hardware, wie etwa DSPs, die die Audiodaten verarbeiten, und Softwarekomponenten, um die Eingangssignale vom Mikrofon 128 in Audioeingabedaten umzuwandeln. Wie unten dargelegt, verwendet die Steuerung 148 mindestens eine Allgemeinzweck- und mindestens eine domänenspezifische Spracherkennungs-Engine, um Kandidatenspracherkennungsergebnisse basierend auf den Audioeingabedaten zu erzeugen, und die Steuerung 148 verwendet ferner eine Paarweise-Einstufung-Vorrichtung, um die Genauigkeit der endgültigen Spracherkennungsergebnisausgabe zu verbessern. Zusätzlich dazu beinhaltet die Steuerung 148 Hardware- und Softwarekomponenten, die eine Erzeugung von synthetisierter Sprache oder einer anderen Audioausgabe durch die Lautsprecher 132 ermöglichen.
Das fahrzeuginterne Informationssystem 100 liefert eine visuelle Rückmeldung zum Fahrzeugbetreiber unter Verwendung des LCD-Feldes 124, des HUD 120, das auf die Windschutzscheibe 102 projiziert wird, und durch Messinstrumente, Indikatorlichter oder zusätzliche LCD-Felder, die sich im Armaturenbrett 108 befinden. Wenn sich das Fahrzeug in Bewegung befindet, deaktiviert die Steuerung 148 optional das LCD-Feld 124 oder zeigt nur eine vereinfachte Ausgabe über das LCD-Feld 124 an, um eine Ablenkung des Fahrzeugbetreibers zu reduzieren. Die Steuerung 148 zeigt eine visuelle Rückmeldung unter Verwendung des HUD 120 an, um dem Betreiber zu ermöglichen, die Umgebung um das Fahrzeug herum anzusehen, während er eine visuelle Rückmeldung empfängt. Die Steuerung 148 zeigt typischerweise vereinfachte Daten auf dem HUD 120 in einem Gebiet an, das dem peripheren Sichtfeld des Fahrzeugbetreibers entspricht, um zu gewährleisten, dass der Fahrzeugbetreiber eine uneingeschränkte Sicht auf die Straße und Umgebung um das Fahrzeug hat.
Wie oben beschrieben, zeigt das HUD 120 visuelle Informationen auf einem Teil der Windschutzscheibe 120 an. Wie hierin verwendet, bezieht sich der Ausdruck „HUD“ allgemein auf einen breiten Bereich von Head-Up-Display-Einrichtungen, einschließlich unter anderem kombinierter Head-Up-Displays (CHUDs), die ein separates Kombiniererelement beinhalten, und dergleichen. Bei manchen Ausführungsformen zeigt das HUD 120 monochromatischen Text und monochromatische Grafiken an, während andere HUD-Ausführungsformen mehrfarbige Anzeigen beinhalten. Obwohl das HUD 120 als auf der Windschutzscheibe 102 angezeigt abgebildet ist, ist eine Head-Up-Einheit bei alternativen Ausführungsformen mit einer Brille, einem Helmvisier oder einer Fadenkreuz-Einheit integriert, die bzw. das der Betreiber während des Betriebs trägt.
Die Steuerung 148 beinhaltet eine oder mehrere integrierte Schaltungen, die als eine Zentralverarbeitungseinheit (CPU: Central Processing Unit), ein Mikrocontroller, ein feldprogrammierbares Gate-Array (FPGA: Field Programmable Gate Array), eine anwendungsspezifische integrierte Schaltung (ASIC: Application Specific Integrated Circuit), ein Digitalsignalprozessor (DSP) oder eine beliebige andere geeignete digitale Logikeinrichtung konfiguriert sind. Die Steuerung 148 beinhaltet außerdem einen Speicher, wie etwa eine Festkörper- oder magnetische Datenspeicherungseinrichtung, die programmierte Anweisungen für den Betrieb des fahrzeuginternen Informationssystems 100 speichert.
Während des Betriebs empfängt das fahrzeuginterne Informationssystem 100 Eingabeanforderungen von mehreren Eingabeeinrichtungen, einschließlich Spracheingabebefehlen, die über das Mikrofon 128 empfangen werden. Insbesondere empfängt die Steuerung 148 Audioeingabedaten, die Sprache von einem Benutzer entsprechen, über das Mikrofon 128.
Die Steuerung 148 beinhaltet eine oder mehrere integrierte Schaltungen, die als eine Zentralverarbeitungseinheit (CPU: Central Processing Unit), ein Mikrocontroller, ein feldprogrammierbares Gate-Array (FPGA: Field Programmable Gate Array), eine anwendungsspezifische integrierte Schaltung (ASIC: Application Specific Integrated Circuit), ein Digitalsignalprozessor (DSP) oder eine beliebige andere geeignete digitale Logikeinrichtung konfiguriert sind. Die Steuerung 148 ist außerdem funktionsfähig mit einem Speicher 160 verbunden, wie etwa einer Festkörper- oder magnetischen Datenspeicherungseinrichtung, die programmierte Anweisungen für den Betrieb des fahrzeuginternen Informationssystems 100 speichert. Der Speicher 160 speichert Modelldaten und ausführbaren Programmanweisungscode, um mindestens eine Allgemeinzweck-Spracherkennungs-Engine und mindestens eine domänenspezifische Spracherkennungs-Engine 162, eine Hybrides-Spracherkennungsergebnis-Erzeugungs-Engine 163, eine Paarweise-Einstufung-Vorrichtung 164, die die Kandidatenspracherkennungsergebnisse von den Spracherkennungs-Engines 162 und die hybriden Kandidatenspracherkennungsergebnisse von der Hybrides-Spracherkennungsergebnis-Erzeugungs-Engine 163 einstuft, und mehrere vorbestimmte Auslösepaare 166, die die Paarweise-Einstufung-Vorrichtung 164 als Teil des Einstufungsprozesses verwendet, zu implementieren. Die Spracherkennungs-Engines 162 werden unter Verwendung eines vorbestimmten Trainingsprozesses trainiert und die Spracherkennungs-Engines 162 sind anderweitig im Stand der Technik bekannt. Obwohl die Ausführungsform von 1 Elemente beinhaltet, die im Speicher 160 des Systems 100 in einem Kraftfahrzeug gespeichert sind, implementiert bei manchen Ausführungsformen eine externe Recheneinrichtung, wie etwa ein netzwerkverbundener Server, manche oder alle der Merkmale, die im System 100 abgebildet sind. Somit werden Fachleute erkennen, dass eine beliebige Referenz auf den Betrieb des Systems 100, das die Steuerung 148 und den Speicher 160 beinhaltet, bei alternativen Ausführungsformen des Systems 100 ferner den Betrieb der Serverrecheneinrichtungen und anderer verteilter Rechenkomponenten beinhalten sollte.
Bei der Ausführungsform von 1 erzeugt die Hybrides-Spracherkennungsergebnis-Erzeugungs-Engine 163 eine zusätzliche Spracherkennung, die Wörter aus mindestens zwei unterschiedlichen Mengen von Spracherkennungsergebnissen beinhaltet, die die Spracherkennungs-Engines 162 während des Betriebs des Systems 100 erzeugen. Wie unten ausführlicher besprochen, kombiniert die Hybrides-Spracherkennungsergebnis-Erzeugungs-Engine 163 Wörter aus den Spracherkennungsergebnissen der Allgemeinzweck-Spracherkennungs-Engines mit ausgewählten Wörtern aus den domänenspezifischen Spracherkennungsergebnissen, um neue Spracherkennungsergebnisse zu erzeugen, die nicht durch irgendwelche der individuellen Spracherkennungs-Engines 162 erzeugt werden. Wie hierin verwendet, bezieht sich der Ausdruck „hybrides“ Spracherkennungsergebnis auf ein Spracherkennungsergebnis, das Wörter aus mindestens zwei der Spracherkennungsergebnisse beinhaltet, die durch die Allgemeinzweck- und domänenspezifische Spracherkennungs-Engines 162 erzeugt werden. Die Hybrides-Spracherkennungsergebnis-Erzeugungs-Engine 163 ist keine traditionelle Spracherkennungs-Engine. Stattdessen verwendet die Hybrides-Spracherkennungsergebnis-Erzeugungs-Engine 163 Sprachmodelle, um Wörter aus den domänenspezifischen Spracherkennungsergebnissen zu identifizieren, die in der domänenspezifischen Spracherkennungsdomäne linguistisch signifikant sind, und verwendet die Wörter aus den domänenspezifischen Spracherkennungsergebnissen, um Wörter in den Spracherkennungsergebnissen von den Allgemeinzweck-Spracherkennungs-Engines zu ersetzen. Die Hybrides-Spracherkennungsergebnis-Erzeugungs-Engine 163 erzeugt auch eine Konfidenzbewertung für jedes hybride Spracherkennungsergebnis als einen Mittelwert der Konfidenzbewertungen von den Spracherkennungs-Engines 162 für jedes der ursprünglichen Spracherkennungsergebnisse, die das hybride Ergebnis bilden.
Die Paarweise-Einstufung-Vorrichtung 164 ist eine Random-Forest-Paarweise-Einstufung-Vorrichtung, die unter Verwendung derselben Mengen von Trainingsdaten trainiert wird, die zum Trainieren der Spracherkennungs-Engines 162 verwendet werden. Die Paarweise-Einstufung-Vorrichtung 164 ist jedoch keine traditionelle Spracherkennungs-Engine. Stattdessen wird die Paarweise-Einstufung-Vorrichtung trainiert, die Kandidatenspracherkennungsergebnisse der Spracherkennungs-Engines 162 und die hybriden Kandidatenspracherkennungsergebnisse von der Hybrides-Spracherkennungsergebnis-Erzeugungs-Engine 163 unter Verwendung eines paarweisen Einstufungsprozesses einzustufen, der ein Spracherkennungsergebnis in einem Paar von eingegebenen Spracherkennungsergebnissen, das die niedrigste geschätzte Wortfehlerrate aufweist, als einen „Sieger“ für jede Paarkombination von Spracherkennungsergebnissen auswählt. Während des Trainingsprozesses wird die Paarweise-Einstufung-Vorrichtung 164 trainiert, Spracherkennungsergebnisse basierend auf Merkmalsvektoreingaben einzustufen, die jedem Kandidatenspracherkennungsergebnis entsprechen, um eine Wortfehlerrate zu schätzen, wobei die Spracherkennungseingabe mit der niedrigsten geschätzten Wortfehlerrate für ein gegebenes Paar der „Sieger“ ist. Die Paarweise-Einstufung-Vorrichtung wird unter Verwendung unterschiedlicher Spracherkennungsergebnisse unter Verwendung der Trainingseingaben mit vorbestimmten korrekten Werten als eine Basislinie trainiert, um Schätzungen über die Genauigkeit der Spracherkennungsergebnisse von den mehreren Spracherkennungs-Engines 162 vorzunehmen. Bei manchen Ausführungsformen wird die Paarweise-Einstufung-Vorrichtung 164 auch unter Verwendung von zusätzlichen Daten von den Spracherkennungsergebnissen trainiert, wie etwa Merkmalsvektoren, die die vorbestimmten Auslösepaare 166 identifizieren, und Konfidenzbewertungen, die jede der Spracherkennungs-Engines 162 mit den Spracherkennungsergebnissen erzeugt. Zusätzlich dazu, wie unten beschrieben ist, erzeugt die Steuerung 148 hybride Spracherkennungsergebnisse, die ausgewählte Wörter in den Ergebnissen der Allgemeinzweck-Spracherkennungs-Engines mit Wörtern aus den Ergebnissen der domänenspezifischen Spracherkennungs-Engines ersetzt, um mehrere hybride Spracherkennungsergebnisse zu erzeugen, die die Paarweise-Einstufung-Vorrichtung 164 als Eingaben verwendet.
Beispielsweise angesichts der Merkmalsvektoren, die für zwei Kandidatenspracherkennungsergebnisse h1 und h2 als Eingaben erzeugt werden, führt die Steuerung 148 die Paarweise-Einstufung-Vorrichtung 164 aus, um eine erste „positive“ Ausgabe zu erzeugen, was bedeutet, dass h1 siegt, falls die Merkmalsvektoreingabe für h1 eine niedrigere geschätzte Wortfehlerrate als h2 aufweist, was angibt, dass h1 „besser“ als h2 ist. Ansonsten erzeugt die Paarweise-Einstufung-Vorrichtung 164 eine zweite „negative“ Ausgabe, um anzugeben, dass die geschätzte Wortfehlerrate von h2 niedriger als h1 ist. Nach dem Verarbeiten jedes Paares von Kandidatenspracherkennungsergebnissen identifiziert das System 100 das Kandidatenspracherkennungsergebnis mit der größten Anzahl von Siegen von der Paarweise-Einstufung-Vorrichtung 164 als das am höchsten eingestufte Kandidatenspracherkennungsergebnis. Beispielsweise für eine Hypothesenliste „h1, h2, h3“, falls h2 in dem Hypothesenpaar (h1, h2) siegt, h1 in (h1, h3) siegt und h2 in (h2, h3) siegt, siegen h1, h2, h3 1-Mal, 2-Mal bzw. 0-Mal. Da h2 die größte Anzahl von Malen siegt, identifiziert das System 100 h2 als das am höchsten eingestufte Kandidatenspracherkennungsergebnis. Alternative Ausführungsformen der Paarweise-Einstufung-Vorrichtung 164 verwenden andere Klassifizierungstechniken anstelle des Random-Forest-Ansatzes, um die Kandidatenspracherkennungsergebnisse einzustufen. Bei manchen Ausführungsformen wird die Paarweise-Einstufung-Vorrichtung 164 auch unter Verwendung anderer Klassifizierungsmerkmale, wie etwa des Konfidenzbewertung-bezogenen Merkmals und der „Bag-of-Words-mit-Abklingen (Bag-of-Words with Decay)“-bezogenen Merkmale, zusätzlich zu den Merkmalen bezüglich des Auslösepaares trainiert. Die Konfidenzbewertung-zugehörigen Merkmale werden basierend auf den Satzebene-Konfidenzbewertungen der Kandidatenhypothesen unter Verwendung eines gewissen Ansatzes berechnet. In der Liste von Kandidatensatzhypothesen, die in Schrittl der Paarweise-Einstufung-Vorrichtung 164 erzeugt wird, besitzen jene Hypothesen, die die ursprünglichen Erkennungsergebnisse von den Spracherkennungs-Engines sind, Satzebene-Konfidenzbewertungen, die jede der Spracherkennungs-Engines 162 mit den Spracherkennungsergebnissen erzeugt, und die Konfidenzbewertungen für die hybriden Spracherkennungsergebnisse. Die „Bag-of-Words-mit-Abklingen“-bezogenen Merkmale werden basierend auf dem Textinhalt (d. h. den Wortsequenzen) der Kandidatenhypothesen berechnet.
Im System 100 beinhalten die Auslösepaare 166 jeweils eine vorbestimmte Menge von zwei oder mehr Wörtern, die zuvor als eine starke Korrelation in Spracheingabesequenzen von einem Trainings-Korpus, der die Struktur von erwarteten Spracheingaben repräsentiert, aufweisend identifiziert worden sind. Ein erstes Auslösewort besitzt eine hohe statistische Wahrscheinlichkeit, durch ein zweites Auslösewort im Auslösepaar in einer Spracheingabe gefolgt zu werden, obwohl die Wörter in unterschiedlichen Spracheingaben durch eine unbestimmte Anzahl von Zwischenwörtern getrennt sein können. Falls somit ein Spracherkennungsergebnis die Auslösewörter enthält, ist die Wahrscheinlichkeit, dass diese Auslösewörter im Spracherkennungsergebnis genau sind, aufgrund der statistischen Korrelation zwischen dem ersten und zweiten Auslösewort vergleichsweise hoch. Im System 100 werden die Auslösewörter 166 basierend auf einer gegenseitigen Informationsbewertung unter Verwendung von statistischen Verfahren, die im Stand der Technik bekannt sind, erzeugt. Der Speicher 160 speichert eine vorbestimmte Menge von N Auslösepaarelementen im Merkmalsvektor, die Auslösepaaren mit hohen Korrelationsgraden zwischen dem ersten Wort und einem oder mehreren anschließenden Wörtern in der Auslösewortsequenz basierend auf Mengen von Auslösewörtern mit hohen gegenseitigen Informationsbewertungen entsprechen. Wie unten beschrieben, liefern die Auslösewortsequenzen 166 zusätzliche Merkmale von Spracherkennungsergebnissen zu der Paarweise-Einstufung-Vorrichtung 164, die der Paarweise-Einstufung-Vorrichtung 164 ermöglichen, die Spracherkennungsergebnisse unter Verwendung von zusätzlichen Merkmalen der Spracherkennungsergebnisse, die über die Wörter hinausgehen, die im Spracherkennungsergebnis vorhanden sind, einzustufen.
Wie unten ausführlicher beschrieben, empfängt das System 100 Audioeingabedaten unter Verwendung des Mikrofons 128 und verwendet die mehreren Sprach-Engines 162, um mehrere Spracherkennungsergebnisse zu erzeugen. Die Steuerung 148 kombiniert auch ausgewählte Ausdrücke von den domänenspezifischen Spracherkennungs-Engine-Ergebnissen mit den Sprach-Engine-Ergebnissen von den Allgemeinzweck-Sprach-Engines, um hybride Spracherkennungsergebnisse zu erzeugen. Die Steuerung 148 verwendet die Paarweise-Einstufung-Vorrichtung 164, um die hybriden Spracherkennungsergebnisse einzustufen und das am höchsten eingestufte Ergebnis zum Steuern des Betriebs des fahrzeuginternen Informationssystems 100 oder bei alternativen Ausführungsformen eines beliebigen anderen automatisierten Systems zu verwenden. Als Teil des Einstufungsprozesses identifiziert die Paarweise-Einstufung-Vorrichtung 164 das Auftreten der vorbestimmten Auslösepaare 166 in Spracherkennungsergebnissen und erzeugt einen Merkmalsvektor basierend auf den identifizieren Auslösepaaren, um zusätzliche linguistische Informationen hoher Ebene für die Paarweise-Einstufung-Vorrichtung 164 bereitzustellen.
Obwohl 1 das fahrzeuginterne Informationssystem 100 als ein veranschaulichendes Beispiel eines automatisierten Systems abbildet, das eine Spracherkennung durchführt, um Befehle von einem Benutzer zu empfangen und durchzuführen, kann ein ähnlicher Spracherkennungsprozess in anderen Zusammenhängen implementiert werden. Eine mobile elektronische Einrichtung, wie etwa das Smartphone 170 oder eine andere geeignete Einrichtung, beinhaltet zum Beispiel typischerweise ein oder mehrere Mikrofone und einen Prozessor, der die Spracherkennungs-Engines implementieren kann, eine Paarweise-Einstufung-Vorrichtung, gespeicherte Auslösepaare und andere Komponenten, die ein Spracherkennungs- und Steuersystem implementieren. Bei einer anderen Ausführungsform steuert ein Hausautomatisierungssystem die HLK und Haushaltsgeräte in einem Haus unter Verwendung von mindestens einer Recheneinrichtung, die die Spracheingabe vom Benutzer empfängt und eine Spracherkennung unter Verwendung der mehreren Spracherkennungs-Engines durchführt, um den Betrieb verschiedener automatisierter Systeme im Haus zu steuern. Bei jeder Ausführungsform ist das System optional dazu ausgelegt, unterschiedliche Mengen von domänenspezifischen Spracherkennungs-Engines zu verwenden, die den spezifischen Anwendungen und Arbeitsvorgängen unterschiedlicher automatisierter Systeme zugeschnitten sind.
2 bildet einen Prozess 200 zum Durchführen einer Spracherkennung unter Verwendung mehrerer Spracherkennungs-Engines und einer Paarweise-Einstufung-Vorrichtung ab. In der untenstehenden Beschreibung bezieht sich eine Referenz auf den Prozess 200, der eine Funktion oder Handlung durchführt, auf den Betrieb einer Steuerung zum Ausführen von gespeicherten Programmanweisungen, um die Funktion oder Handlung unter Verwendung von einer oder mehreren Komponenten eines automatisierten Systems, das Befehlseingaben über eine Spracherkennungsschnittstelle empfängt, zu implementieren. Der Prozess 200 ist für veranschaulichende Zwecke in Verbindung mit dem System 100 von 1 beschrieben.
Der Prozess 200 beginnt, wenn das System 100 Audioeingabedaten von einem Benutzer empfängt (Block 204). Eine Audioeingabeeinrichtung, wie etwa das Mikrofon 128, erzeugt Audioeingabedaten, die einer Spracheingabe von einem Benutzer entsprechen. Die Steuerung 148 empfängt die Audioeingabedaten in einem digitalen Format und führt optional eine Filterung oder andere Digitalsignalverarbeitungsoperationen durch, um Rauschen aus den Audioeingabedaten zu entfernen.
Der Prozess 200 fährt fort, wenn das System 100 erste mehrere Kandidatenspracherkennungsergebnisse, die den Audioeingabedaten entsprechen, unter Verwendung einer ersten Allgemeinzweck-Spracherkennungs-Engine basierend auf den Audioeingabedaten erzeugt (Block 208). Das System 100 erzeugt außerdem zweite mehrere der Kandidatenspracherkennungsergebnisse unter Verwendung von mindestens einer domänenspezifischen Spracherkennungs-Engine (Block 212). Im System 100 verwendet die Steuerung 148 eine oder mehrere der Allgemeinzweck-Spracherkennungs-Engines 162, um die ersten mehreren Ergebnisse zu erzeugen, und eine oder mehrere der domänenspezifischen Spracherkennungs-Engines 162, um die zweiten mehreren Kandidatenergebnisse zu erzeugen. Bei manchen Ausführungsformen wählt die Steuerung 148 eine vorbestimmte Anzahl von Spracherkennungsergebnissen von jeder Spracherkennungs-Engine aus, die durch jede Spracherkennungs-Engine als die höchsten Konfidenzbewertungswerte aufweisend angegeben werden, um jede Mehrzahl von Spracherkennungsergebnissen zu bilden. Bei einer Ausführungsform erzeugt die Steuerung 148 zum Beispiel fünf Kandidatenspracherkennungsergebnisse mit den höchsten Konfidenzbewertungswerten von jeder der Spracherkennungs-Engines 162. Die Erzeugung der ersten, zweiten mehreren Kandidatenspracherkennungsergebnisse findet in einer beliebigen Reihenfolge oder, bei Ausführungsformen der Steuerung 148, die Parallelverarbeitungshardware, wie etwa mehrere Prozessorkerne, beinhalten, gleichzeitig statt.
Der Prozess 200 fährt fort, wenn die Steuerung 148 dritte mehrere hybride Kandidatenspracherkennungsergebnisse basierend auf den ersten mehreren Kandidatenspracherkennungsergebnissen und den zweiten mehreren Kandidatenspracherkennungsergebnissen erzeugt (Block 216). Die dritten mehreren Kandidatenspracherkennungsergebnisse werden auch als hybride Spracherkennungsergebnisse bezeichnet, da diese Ergebnisse Wörter aus Spracherkennungsergebnissen kombinieren, die durch zwei oder mehr Spracherkennungs-Engines erzeugt werden. Die Steuerung 148 erzeugt jedes Spracherkennungsergebnis in den dritten mehreren Kandidatenspracherkennungsergebnissen, die mehrere Wörter, die in einem der ersten mehreren Kandidatenspracherkennungsergebnisse von der Allgemeinzweck-Spracherkennung enthalten sind, und mindestens ein Wort, das in einem anderen der zweiten mehreren Kandidatenspracherkennungsergebnisse von den domänenspezifischen Spracherkennungs-Engines enthalten ist, beinhalten. Die Steuerung 148 identifiziert gemeinsame Wörter in den Kandidatenspracherkennungsergebnissen von beiden Sprach-Engines und substituiert Wörter vom Allgemeinzweck-Sprach-Engine-Ergebnis mit entsprechenden Wörtern vom domänenspezifischen Sprach-Engine-Ergebnis, die sich von den Allgemeinzweck-Spracherkennungsergebnissen unterscheiden.
Um jedes hybride Kandidatenspracherkennungsergebnis in den dritten mehreren Spracherkennungsergebnissen zu erzeugen, gleicht die Steuerung 148 zuerst gemeinsame Wörter in jedem der Spracherkennungsergebnisse unter Verwendung einer Technik ab, die im Stand der Technik bekannt ist, wie etwa unter Verwendung eines dynamischen Programmierungsprozesses, um die Wörter mit einer „minimalen Editierdistanz“ abzugleichen, die die Unterschiede zwischen den Wortsequenzen minimiert. Die Steuerung 148 wählt dann Wörter aus dem Kandidatenspracherkennungsergebnis der domänenspezifischen Spracherkennungs-Engine aus, die mit anderen Wörtern im ersten Spracherkennungsergebnis abgeglichen sind, und substituiert jene Wörter in das Kandidatenspracherkennungsergebnis der Allgemeinzweck-Spracherkennungs-Engine, um das hybride Kandidatenspracherkennungsergebnis in den dritten mehreren Kandidatenspracherkennungsergebnissen zu erzeugen. Falls das Kandidatenspracherkennungsergebnis von der domänenspezifischen Spracherkennungs-Engine domänenspezifische Wörter t₁ , t₂ , .. t_k beinhaltet, die nicht im entsprechenden Kandidatenspracherkennungsergebnis der Allgemeinzweck-Spracherkennungs-Engine erscheinen, dann substituiert die Steuerung 148 Permutationen der individuellen Wörter und Kombinationen der individuellen Wörter von der domänenspezifischen Spracherkennungs-Engine in das Kandidatenspracherkennungsergebnis von der Allgemeinzweck-Spracherkennungs-Engine, um mehrere hybride Kandidatenspracherkennungsergebnisse zu erzeugen, die die Permutationen unterschiedlicher Wörter von der domänenspezifischen Spracherkennungs-Engine beinhalten.
4 bildet ein Beispiel für zwei Kandidatenspracherkennungsergebnisse 404 und 408 und ein hybrides Kandidatenspracherkennungsergebnis 450 ab. In dem Beispiel von 4 basiert die Spracheingabe auf einer Navigationsanforderung von einem Benutzer in ein fahrzeuginternes Navigationssystem. Die Allgemeinzweck-Spracherkennungs-Engine erzeugt das Spracherkennungsergebnis 404 basierend auf einem allgemeinen englischen Sprachmodell. Die domänenspezifische Spracherkennungs-Engine ist auf Navigation ausgerichtet und beinhaltet zusätzliche Ausdrücke für Straßen- und Ortsnamen, die Ausdrücke beinhalten, die nicht Teil des offiziellen englischen Sprachvokabulars sind. Im System 100 führt die Steuerung 148 Programmcode in der Hybrides-Spracherkennungsergebnis-Erzeugungs-Engine 163 aus, um ein hybrides Spracherkennungsergebnis unter Verwendung von Wörtern von mindestens zwei Spracherkennungsergebnissen, die durch die Allgemeinzweck- und domänenspezifischen Spracherkennungs-Engines 162 erzeugt werden, zu erzeugen. Jedes Spracherkennungsergebnis beinhaltet eine Sequenz von Wörtern, die einen Satz bildet. Die Steuerung 148 gleicht die beiden Spracherkennungsergebnisse 404 und 408 basierend auf Wörtern ab, die beiden Sequenzen gemein sind, wie etwa dem beispielhaften Wort „Boulevard“, das als ein gemeinsames Wort 406 im ersten Spracherkennungsergebnis und 410 im zweiten Spracherkennungsergebnis gezeigt ist. Das Wort „mope (Trauerkloß)“ 420 im ersten Spracherkennungsergebnis 404 wird mit dem Wort „Mopac“ 424 im Spracherkennungsergebnis 408 abgeglichen. Die Steuerung 148 identifiziert dann Wörter in der zweiten Spracherkennung 408 von der domänenspezifischen Spracherkennungs-Engine, die nicht in den abgeglichenen Spracherkennungsergebnissen 404 vorhanden sind. Im Beispiel von 4 ist der Ausdruck „Mopac“ 424 im zweiten Erkennungsergebnis 404 ein umgangssprachlicher Ausdruck, der zum Beschreiben eines wichtigen Boulevards in Austin, Texas verwendet wird und den die domänenspezifische Spracherkennungs-Engine in den Audioeingabedaten erkennt. Die Allgemeinzweck-Spracherkennungs-Engine identifiziert das Wort Mopac jedoch falsch als „mope“, da die Allgemeinzweck-Spracherkennungs-Engine trainiert ist, einen breiten Bereich von englischen Wörtern zu erkennen. Des Weiteren beinhaltet das zweite Spracherkennungsergebnis 408 einen begrenzteren Satz von Ausdrücken, da die domänenspezifische Spracherkennungs-Engine manche der Wörter von den Audioeingabedaten nicht direkt erkennt.
Die Steuerung 148 erzeugt die hybride Kandidatenspracherkennungsausgabe 450 unter Verwendung der Wörter vom ersten Kandidatenspracherkennungsergebnis 404 als eine Basis und mit dem Ausdruck „Mopac“ substituiert, um das Wort „mope“ zu ersetzen, um die unterschiedlichen Ausdrücke vom zweiten Kandidatenspracherkennungsergebnis 408 zu integrieren. Die Steuerung 148 ersetzt optional mehrere Ausdrücke vom Spracherkennungsergebnis der Allgemeinzweck-Spracherkennungs-Engine mit anderen Wörtern von der domänenspezifischen Spracherkennungs-Engine, um das hybride Spracherkennungsergebnis zu bilden. Während des Prozesses 200 führt die Steuerung 148 den oben beschriebenen Prozess für mehrere Mengen von Allgemeinzweck-Spracherkennungsergebnissen und domänenspezifischen Spracherkennungsergebnissen durch, um dritte mehrere hybride Spracherkennungsergebnisse zu erzeugen, die Wörter von sowohl einer oder mehreren Allgemeinzweck-Spracherkennungs-Engines als auch domänenspezifischen Spracherkennungs-Engines beinhalten.
Bei manchen Ausführungsformen substituiert die Steuerung 148 nur Wörter, die eine spezifische semantische Bedeutung in den Kandidatenspracherkennungsergebnissen der domänenspezifischen Spracherkennungs-Engine aufweisen, in die Spracherkennungsergebnisse der Allgemeinzweck-Spracherkennungs-Engine. In 4 ist die domänenspezifische Spracherkennungs-Engine 162 zum Beispiel spezifisch trainiert, Straßennamen und andere geographische Ausdrücke mit einer höheren Genauigkeit als eine Allgemeinzweck-Spracherkennungs-Engine zu erkennen. Somit tauscht die Steuerung 148 in 4 das Wort „mope“ mit „Mopac“ aus, da der Ausdruck „Mopac“ eine semantische Bedeutung als der Name einer Straße in der domänenspezifischen Spracherkennungs-Engine aufweist. Falls die domänenspezifische Spracherkennungs-Engine jedoch ein anderes Ergebnis für ein anderes Wort, wie etwa ein gewöhnlich verwendetes englisches Verb oder Pronomen, erzeugt, dann fährt die Steuerung 148 fort, auf die Ergebnisse von der Allgemeinzweck-Spracherkennungs-Engine zu vertrauen, die wohl genauere Ergebnisse für typischere natürliche Sprachmuster erzeugt. Die Steuerung 148 identifiziert die semantischen Klassifizierungen spezieller Wörter basierend auf Informationen vom Sprachmodell in jeder der Spracherkennungs-Engines 162.
Während des Prozesses 200 verwendet die Steuerung 148 außerdem die Hybrides-Spracherkennungsergebnis-Erzeugungs-Engine 163, um eine Konfidenzbewertung für jedes hybride Kandidatenspracherkennungsergebnis zu erzeugen. Im System 100 erzeugt die Steuerung 148 einen Mittelwert der Konfidenzbewertungen von den Spracherkennungsergebnissen der Allgemeinzweck- und domänenspezifischen Spracherkennungs-Engines 162 als den Konfidenzwert für das hybride Spracherkennungsergebnis. Wie unten ausführlicher beschrieben, verwendet die Steuerung 148 einen linearen Regressionsprozess, um die Konfidenzbewertungen von zwei oder mehr unterschiedlichen Spracherkennungs-Engines zu normieren, und bei einer Ausführungsform normiert die Steuerung 148 die Konfidenzbewertungen von den ursprünglichen Spracherkennungsergebnissen, die die Basis des hybriden Spracherkennungsergebnisses bilden, um die Konfidenzbewertung für das hybride Spracherkennungsergebnis zu erzeugen. Während des Prozesses 200 empfängt die Paarweise-Einstufung-Vorrichtung 164 die normierte Konfidenzbewertung für das hybride Spracherkennungsergebnis als ein Merkmal in einem Eingabemerkmalsvektor, um Paare von Kandidatenspracherkennungsergebnissen einzustufen.
Wiederum mit Bezug auf 2 fährt der Prozess 200 fort, wenn die Steuerung 148 die Paarweise-Einstufung-Vorrichtung 164 verwendet, um Einstufungsbewertungen für die dritten mehreren hybriden Kandidatensprachergebnis-Erkennungsergebnisse, basierend auf einer geschätzten Wortfehlerrate von Spracherkennungsergebnissen und optional identifizierten Wortauslösepaaren und Bag-of-Words-Merkmalen in den Spracherkennungsergebnissen, und Konfidenzbewertungen für die Spracherkennungsergebnisse zu erzeugen (Block 220). Wie oben angemerkt, verwendet die Steuerung 148 die Paarweise-Einstufung-Vorrichtung 164, um die Spracherkennungsergebnisse unter Verwendung eines paarweisen Prozesses einzustufen, in dem die Paarweise-Einstufung-Vorrichtung 164 zwei Spracherkennungsergebnisse empfängt und ein „siegreiches“ Ergebnis als das Spracherkennungsergebnis mit einer niedrigsten geschätzten Wortfehlerrate in dem Paar identifiziert. Zusätzlich dazu stuft das System 100 bei manchen Ausführungsformen manche oder alle der ersten mehreren Kandidatenspracherkennungsergebnisse von der Allgemeinzweck-Spracherkennungs-Engine oder der zweiten mehreren Kandidatenspracherkennungsergebnisse von den domänenspezifischen Spracherkennungs-Engines oder sowohl die ersten als auch die zweiten mehreren, zusätzlich zu den dritten mehreren hybriden Kandidatenspracherkennungsergebnissen ein.
Im System 100 ist die Paarweise-Einstufung-Vorrichtung 164 ein Random-Forest-Einstufungssystem, das zwei Spracherkennungsergebnisse als Eingaben empfängt und das Paar von Spracherkennung basierend auf einer geschätzten Wortfehlerrate für jedes Spracherkennungsergebnis einstuft, wobei eine niedrigere geschätzte Wortfehlerrate eine höhere Einstufung erzeugt. Während des Prozesses 200 liefert die Steuerung 148 jede Paarkombination von Spracherkennungsergebnissen zu der Paarweise-Einstufung-Vorrichtung 164, um die relativen Einstufungen von unterschiedlichen Paaren von Spracherkennungsergebnissen zu bestimmen. Die Steuerung 148 inkrementiert eine Einstufungsbewertung, die mit entweder einem ersten oder zweiten Kandidatenspracherkennungsergebnis assoziiert ist, das jeden Vergleich mit der Paarweise-Einstufung-Vorrichtung „gewinnt“, indem es die niedrigste geschätzte Wortfehlerrate aufweist. Die Steuerung 148 identifiziert dann das Ergebnis mit der höchsten Einstufung als das Kandidatenspracherkennungsergebnis, das die höchste Einstufungsbewertung aufweist, nachdem die Paarweise-Einstufung-Vorrichtung 164 die niedrigste Wortfehlerrate zwischen jedem Paar von Spracherkennungsergebnissen identifiziert.
Während des Betriebs empfängt die Paarweise-Einstufung-Vorrichtung 164 die Spracherkennungsergebnisse in einem vorbestimmten Merkmalsvektorformat und das trainierte Random-Forest-Modell in der Paarweise-Einstufung-Vorrichtung erzeugt Schätzungen der Wortfehlerrate in jedem Spracherkennungsergebnis basierend auf den Wörtern in jedem Spracherkennungsergebnis, der Struktur der Wörter und der Identität der Spracherkennungs-Engine, die jedes Spracherkennungsergebnis erzeugte. Insbesondere kann die trainierte Random-Forest-Paarweise-Einstufung-Vorrichtung bei Konfigurationen des Systems 100, das mehr als eine Allgemeinzweck- oder Spezial-Spracherkennungs-Engine verwendet, unterschiedliche Schätzungen für Wortfehlerraten basierend auf der Identität der Spracherkennungs-Engine, die jedes Spracherkennungsergebnis erzeugte, erzeugen, da zum Beispiel manche Spracherkennungs-Engines genauer sind, wenn sie spezifische Mengen von Wörtern oder Phrasen identifizieren. Die Paarweise-Einstufung-Vorrichtung 164 ist trainiert, die Wortfehlerraten basierend auf den beobachteten Raten von Wortfehlern von jeder der Spracherkennungs-Engines 162 basierend auf einer Menge von vorbestimmten Trainingsdaten während eines Trainingsprozesses, der vor dem Prozess 200 stattfindet, zu schätzen. Wie unten ausführlicher beschrieben, zusätzlich zu der Einstufung der Spracherkennungsergebnisse basierend auf den tatsächlichen Inhalten jedes Ergebnisses, verwendet die Paarweise-Einstufung-Vorrichtung 164 optional Wortauslösepaare, Kandidatenspracherkennungsergebnis-Konfidenzbewertungswerte und Bag-of-Words-mit-Abklingen-Merkmale, die mit den Merkmalsvektoren der Kandidatenspracherkennungsergebnisse assoziiert sind, um die niedrigste Wortfehlerrate zu schätzen und Einstufungen für jedes Paar von Kandidatenspracherkennungsergebnissen zu erzeugen.
3 bildet einen Prozess 300 zum Erzeugen eines Merkmalsvektors ab, der Auslösepaaren entspricht, die in einem oder mehreren der Spracherkennungsergebnisse vorhanden sind. In der untenstehenden Beschreibung bezieht sich eine Referenz auf den Prozess 300, der eine Funktion oder Handlung durchführt, auf den Betrieb einer Steuerung zum Ausführen von gespeicherten Programmanweisungen, um die Funktion oder Handlung unter Verwendung von einer oder mehreren Komponenten eines automatisierten Systems, das Befehlseingaben über eine Spracherkennungsschnittstelle empfängt, zu implementieren. Der Prozess 300 ist für veranschaulichende Zwecke in Verbindung mit dem System 100 von 1 und dem Prozess 200 von 2 beschrieben.
Der Prozess 300 beginnt, wenn die Steuerung 148 Merkmale einschließlich der Auslösepaare und/oder Konfidenzbewertungen und/oder Bag-of-Words-mit-Abklingen-Merkmalen in den Textdaten identifiziert, die einem Paar von Kandidatenspracherkennungsergebnissen entsprechen (Block 304). Unter Verwendung des beispielhaften Spracherkennungsergebnisses 450 von 4, falls zum Beispiel eine der Auslösewortsequenzen 166, die im Speicher 160 gespeichert sind, das Auslösepaar („Läden“, „rund um“) beinhaltet, dann identifiziert die Steuerung 148 das Wort „Läden“ als ein erster Auslöseausdruck in dem Auslösepaar und parst jegliche nachfolgenden Wörter im Spracherkennungsergebnis, um zusätzliche Wörter im Auslösepaar, wie etwa das Wort „rund um“ zu identifizieren. In manchen Fällen identifiziert die Steuerung 148 mehrere Mengen von Auslösewortsequenzen in einem einzigen Spracherkennungsergebnis.
Der Prozess 300 fährt fort, wenn die Steuerung 148 einen Merkmalsvektor erzeugt, der Werte für sowohl die Auslösepaare, Konfidenzbewertungen als auch die Bag-of-Words-mit-Abklingen-Merkmale beinhaltet, die im Spracherkennungsergebnis identifiziert werden (Block 308). Die Steuerung 148 erzeugt einen Merkmalsvektor mit einer vorbestimmten Anzahl von N Elementen, die jeweils einer der N Auslösewortsequenzen 166, die im Speicher 160 gespeichert sind, entsprechen. Somit entspricht jeder Index im Merkmalsvektor einer Auslösephrase auf eine konsistente Art und Weise zwischen mehreren Spracherkennungsergebnissen. In einem typischen Fall sind die meisten (manchmal alle) der Auslösewortsequenzen nicht in den Spracherkennungsergebnissen vorhanden und die Steuerung 148 erzeugt optional den Merkmalsvektor als einen dünn besetzten Vektor, der nur nichttriviale Einträge für die Auslösewortsequenzen beinhaltet, die tatsächlich im Spracherkennungsergebnis vorhanden sind.
Im paarweisen Einstufungsprozess hebt die Steuerung 148 das Auftreten jedes Auslösepaares in zwei Merkmalsvektoren, die beide dasselbe Auslösepaar beinhalten, auf. Falls zum Beispiel beide Kandidatenspracherkennungsergebnisse das Auslösepaar („Läden“, „rund um“) beinhalten, dann entfernt die Steuerung 148 diesen Eintrag vom Merkmalsvektor beider Kandidatenspracherkennungsergebnisse, da das Auslösepaar in beiden Kandidatenergebnissen auftritt und in einem paarweisen Vergleichsprozess effektiv aufgehoben wird. Falls jedoch nur ein Kandidatenergebnis das Auslösepaar beinhaltet, dann beinhaltet der Merkmalsvektor für dieses Kandidatenergebnis einen Wert, um anzugeben, dass das Auslösepaar nur in diesem Kandidatenspracherkennungsergebnis vorhanden ist. Die Steuerung 148 erzeugt dann einen Eingabemerkmalsvektor für die Paarweise-Einstufung-Vorrichtung 164, der dem Paar von Kandidatenspracherkennungsergebnissen entspricht, basierend auf einer Differenz zwischen den beiden Merkmalsvektoren der beiden Kandidatenergebnisse. Während des Prozesses 200 erzeugt die Steuerung 148 einen dritten Merkmalsvektor basierend auf dem ersten Merkmalsvektor und dem zweiten Merkmalsvektor für jeden paarweisen Vergleich. Der dritte Merkmalsvektor bildet die Eingabe in die Paarweise-Einstufung-Vorrichtung 164, die codierte Differenzen zwischen den Ergebnissen der beiden ursprünglichen Merkmalsvektoren beinhaltet. Der dritte Merkmalsvektor beinhaltet negative Werte und positive Werte, die der Paarweise-Einstufung-Vorrichtung 164 ermöglichen, das spezielle Spracherkennungsergebnis zu identifizieren, das jedes Merkmal beinhaltet. Zum Beispiel unter Verwendung eines vereinfachten Merkmalsvektorarrays, das Auslösepaaren, Bag-of-Words-mit-Abklingen-Werten, Konfidenzbewertungen oder anderen Merkmalen entspricht, beinhaltet das erste Kandidatenspracherkennungsergebnis [0, 0 , 1, 1, 0, 0], beinhaltet das zweite Kandidatenspracherkennungsergebnis [0, 1, 1, 0, 0, 0], und die Steuerung 148 erzeugt das endgültige Spracherkennungsergebnis für die Paarweise-Einstufung-Vorrichtung 164 basierend auf dem zweiten Merkmalsvektor, der vom ersten Merkmalsvektor subtrahiert wird: [0, -1, 0, 1, 0, 0]. In diesem Beispiel geben die negativen Werte an, dass ein Merkmal in nur dem zweiten Merkmalsvektor vorhanden ist oder dass der zweite Merkmalsvektor einen höheren numerischen Merkmalswert für ein gegebenes Merkmal aufweist. In dem obigen Beispiel ist der dritte indizierte Wert für sowohl den ersten als auch zweiten Merkmalsvektor „1“ und der endgültige Merkmalsvektor beinhaltet den trivialen Wert „0“ im dritten Index, da beide Eingabemerkmalsvektoren dasselbe Merkmal beinhalten, das die Paarweise-Einstufung-Vorrichtung 164 ignoriert, da das Merkmal nicht zwischen den beiden Kandidatenspracherkennungsergebnissen unterscheidet.
Bei manchen Ausführungsformen identifiziert die Steuerung 148 die Häufigkeit des Auftretens jedes Auslösepaares in jedem Paar von Kandidatenspracherkennungsergebnissen. Falls die Kandidatenspracherkennungsergebnisse jeweils dasselbe Auslösepaar beinhalten, das mit derselben Häufigkeit auftritt, dann entfernt die Steuerung 148 das Auslösepaar aus den Merkmalsvektoren beider Kandidatenspracherkennungsergebnisse, da das Auftreten des Auslösepaares keine zusätzlichen Informationen für die Paarweise-Einstufung-Vorrichtung 164 liefert, um den Einstufungsprozess durchzuführen. Falls jedoch eines der Kandidatenspracherkennungsergebnisse das Auslösepaar häufiger als das andere Spracherkennungsergebnis in dem Paar beinhaltet, dann schließt die Steuerung 148 die Differenz in der Häufigkeit als den Wert, der der Auslösephrase entspricht, im endgültigen Merkmalsvektor ein, der für das Paar von Kandidatenspracherkennungsergebnissen erzeugt wird.
Der Prozess 300 wird beendet, wenn die Steuerung 148 die Merkmalsvektordaten, die den Auslösewortpaaren entsprechen, Konfidenzbewertungen und die Bag-of-Words-mit-Abklingen-Merkmale als Teil des Prozesses zum Einstufen der Spracherkennungsergebnisse, wie oben unter Bezugnahme auf die Verarbeitung des Blocks 220 in 2 beschrieben, verwendet (Block 312). Während des Prozesses 200 führt die Steuerung 148 den Prozess 300 durch, um die zusätzlichen Merkmalsvektordaten für jedes der Spracherkennungsergebnisse zu erzeugen. Die Steuerung 148 verwendet die Paarweise-Einstufung-Vorrichtung 164, um die Wortfehlerrate in jedem Spracherkennungsergebnis zumindest teilweise basierend auf dem Merkmalsvektor zu schätzen, der zusätzliche Informationen über die Beziehungen zwischen nicht benachbarten Wörtern in einem Auslösepaar codiert. Die zusätzlichen Informationen im Merkmalsvektor codieren linguistische Merkmale höherer Ebene über Auslösewortsequenzen, die typischerweise keine benachbarten Wörter in einer Sequenz beinhalten, für die Paarweise-Einstufung-Vorrichtung 164, was die Genauigkeit des Einstufungsprozesses verbessert.
Zusätzlich zum Erzeugen des Merkmalsvektors für jedes Kandidatenspracherkennungsergebnis, das Auslösepaarelemente beinhaltet, fügt die Paarweise-Einstufung-Vorrichtung 164 optional „Bag-of-Words-mit-Abklingen“-Merkmale, die basierend auf den Kandidatensatzhypothesen berechnet werden, zu dem Merkmalsvektor hinzu. Der Ausdruck „Bag-of-Words-mit-Abklingen“-Merkmale, wie hierin verwendet, bezieht sich auf eine numerische Bewertung, die die Steuerung 148 jedem Wort, das in den Kandidatenspracherkennungsergebnissen vorhanden ist, basierend auf der Position des Wortes im Ergebnis und, wie häufig das Wort auftritt, zuweist. Die Steuerung 148 erzeugt die Bag-of-Words-mit-Abklingen-Bewertung für jedes erkannte Wörterbuchwort, das in dem Kandidatenspracherkennungsergebnis vorhanden ist. Im System 100 werden die Wörterbuchdaten in Assoziation mit zum Beispiel den Spracherkennungs-Engine-Modelldaten 162 im Speicher 160 gespeichert. Für ein gegebenes Wort w_i in einem vorbestimmten Wörterbuch ist die Bag-of-Words-mit-Abklingen-Bewertung: bow_i = ∑_p∈P'(w _i) γ^p, wobei P'(w_i) die Menge von Positionen im Kandidatenspracherkennungsergebnis ist, an denen das Wort w_i auftritt, und der Ausdruck γ ein vorbestimmter numerischer Abklingfaktor in einem Bereich von (0, 1,0) ist, das heißt zum Beispiel auf 0,9 im veranschaulichten Beispiel des Systems 100 gesetzt ist.
Während des Prozesses 200 erzeugt die Steuerung 148 den Merkmalsvektor einschließlich der Bag-of-Words-mit-Abklingen-Werte, um die Merkmalsvektorwerte, die das Vorhandensein oder Nichtvorhandensein jedes Wortes aus einem vorbestimmten Wörterbuch in den Kandidatenspracherkennungsergebnissen angeben, entweder zu ergänzen oder zu ersetzen. Auf eine ähnliche Art und Weise zu den Auslösepaar-Merkmalsvektorwerten erzeugt die Steuerung 148 die individuellen Bag-of-Words-mit-Abklingen-Merkmalswerte für jedes Kandidatenspracherkennungsergebnis in dem Paar und erzeugt anschließend die Differenz zwischen den beiden Merkmalsvektoren als die endgültigen Merkmalsvektorwerte, die der Paarweise-Einstufung-Vorrichtung 164 bereitgestellt werden. Demzufolge erzeugt die Steuerung 148 einen Merkmalsvektor mit einem nichttrivialen Eintrag für ein Wort nur, falls die beiden Spracherkennungsergebnisse in dem Paar unterschiedliche Bag-of-Words-mit-Abklingen-Bewertungen für dieses Wort aufweisen, und beinhaltet einen Nullwert-Merkmalsvektoreintrag für jedes Wort, das entweder nicht in jedem der beiden Kandidatenspracherkennungsergebnisse in dem Paar erscheint oder dieselben Bag-of-Words-mit-Abklingen-Bewertungen für beide der Kandidatenspracherkennungsergebnisse in dem Paar aufweist.
Zusätzlich zum Erzeugen des Merkmalsvektors für jedes Paar von Kandidatenspracherkennungsergebnissen, die Auslösepaarelemente und Bag-of-Words-mit-Abklingen-Merkmale beinhalten, fügt die Paarweise-Einstufung-Vorrichtung 164 optional Konfidenzbewertungsmerkmale als ein zusätzliches Merkmal in dem Merkmalsvektor, der der Paarweise-Einstufung-Vorrichtung bereitgestellt wird, hinzu. Das Konfidenzbewertungsmerkmal wird als die Differenz zwischen den Konfidenzbewertungen der beiden Spracherkennungsergebnisse in dem Paar berechnet.
Wiederum unter Bezugnahme auf 2 erzeugt der Prozess 200 die Einstufungsbewertungen für jedes Paar der dritten mehreren hybriden Kandidatenspracherkennungsergebnisse basierend auf den Merkmalsvektoreingaben, die oben beschrieben sind. Bei manchen Konfigurationen erzeugt die Steuerung 148 außerdem Einstufungsbewertungen für die ersten mehreren Spracherkennungsergebnisse von den Allgemeinzweck-Spracherkennungs-Engines und/oder die zweiten mehreren Spracherkennungsergebnisse von den domänenspezifischen Spracherkennungs-Engines.
Bei der Ausführungsform von 2 sind die Einstufungsbewertungen, die für jedes der Spracherkennungsergebnisse erzeugt werden, nicht die einzige Metrik, die die Steuerung 148 verwendet, um das am höchsten eingestufte Spracherkennungsergebnis zu identifizieren. Die Steuerung 148 verwendet auch die Konfidenzbewertungen, die jede der Spracherkennungs-Engines in Assoziation mit jedem Spracherkennungsergebnis erzeugt, einschließlich der hybriden Spracherkennungsergebnisse, im Einstufungsprozess. Während des Prozesses 200 identifiziert die Steuerung 148 das Kandidatenspracherkennungsergebnis mit der höchsten Konfidenzbewertung und vergleicht die höchste Konfidenzbewertung mit der Konfidenzbewertung des Spracherkennungsergebnisses mit der höchsten Einstufungsbewertung. Falls die Konfidenzbewertung des Kandidatenspracherkennungsergebnisses mit der höchsten Einstufungsbewertung innerhalb eines vorbestimmten Schwellenbereichs der höchsten Gesamtkonfidenzbewertung liegt (Block 224), dann wählt die Steuerung 148 das Kandidatenspracherkennungsergebnis mit der höchsten Einstufungsbewertung als das am höchsten eingestufte Ausgabespracherkennungsergebnis aus, das aus den Kandidatenspracherkennungsergebnissen ausgewählt wird (Block 228). Falls die Differenz in den Konfidenzbewertungen zum Beispiel innerhalb 15 % zu einem normierten Konfidenzbewertungsbereich liegt, der unten ausführlicher beschrieben ist, dann wählt die Steuerung 148 das Spracherkennungsergebnis mit der höchsten Einstufungsbewertung als das insgesamt am höchsten eingestufte Spracherkennungsergebnis aus. Falls die höchste Konfidenzbewertung des anderen Spracherkennungsergebnisses jedoch die Konfidenzbewertung des Spracherkennungsergebnisses mit der höchsten Einstufungsbewertung um mehr als die vorbestimmte Schwelle überschreitet (Block 224), dann wählt die Steuerung 148 das Spracherkennungsergebnis mit der höchsten Konfidenzbewertung als das Ausgabespracherkennungsergebnis aus (Block 232). Bei einer alternativen Ausfuhrungsform zu der Verarbeitung, die in den Blöcken 224 - 232 abgebildet ist, wählt die Steuerung 148 das Kandidatenspracherkennungsergebnis mit der höchsten Einstufungsbewertung als das endgültige Ausgabespracherkennungsergebnis aus, ohne eine zusätzliche Verarbeitung durchzuführen, um die Konfidenzbewertungen der Kandidatenspracherkennungsergebnisse zu vergleichen.
In vielen Fällen ist die Konfidenzbewertung des Spracherkennungsergebnisses mit der höchsten Einstufungsbewertung natürlich auch die höchste Konfidenzbewertung oder eine sehr hohe Konfidenzbewertung unter allen der Spracherkennungsergebnisse, und die Steuerung 148 identifiziert das Spracherkennungsergebnis mit der höchsten Einstufungsbewertung als das am höchsten eingestufte Spracherkennungsergebnis. In anderen Situationen wählt die Steuerung 148 jedoch das Spracherkennungsergebnis mit der höchsten Konfidenzbewertung aus, falls das Spracherkennungsergebnis mit der höchsten Einstufungsbewertung eine viel niedrigere Konfidenzbewertung aufweist. Bei anderen Konfigurationen kombiniert die Steuerung 148 die Einstufungsbewertung und die Konfidenzbewertung in eine zusammengesetzte Bewertung, um das am höchsten eingestufte Spracherkennungsergebnis zu identifizieren. In manchen Situationen kann ein Spracherkennungsergebnis zum Beispiel eine hohe Einstufungsbewertung und eine hohe Konfidenzbewertung aufweisen, wird aber möglicherweise nicht die höchste Einstufungsbewertung oder Konfidenzbewertung unter allen der Spracherkennungsergebnisse aufweisen. Die Steuerung 148 identifiziert das Spracherkennungsergebnis unter Verwendung einer zusammengesetzten Bewertung, wie etwa eines gewichteten Mittelwerts oder einer anderen Kombination der Einstufungsbewertung und der Konfidenzbewertung, als die höchste Einstufung aufweisend.
Wie oben beschrieben, identifiziert die Steuerung 148 das am höchsten eingestufte Spracherkennungsergebnis teilweise basierend auf den Konfidenzbewertungen, die mit jedem Spracherkennungsergebnis assoziiert sind. Die Konfidenzbewertungen sind statistische Werte einer Genauigkeitsschätzung (Konfidenz) für jedes Spracherkennungsergebnis, das die Spracherkennungs-Engines 162 in Assoziation mit den Spracherkennungsergebnissen erzeugen. Die numerischen Konfidenzbewertungsbereiche für eine Spracherkennungs-Engine können jedoch typischerweise nicht zu einer anderen Spracherkennungs-Engine übertragen werden, was das Vergleichen der Konfidenzbewertungen von Spracherkennungsergebnissen von mehreren Spracherkennungs-Engines schwieriger gestaltet. Eine erste Spracherkennungs-Engine A erzeugt zum Beispiel Konfidenzbewertungen auf einer Skala von 1 - 100, während eine zweite Spracherkennungs-Engine B Konfidenzbewertungen auf einer Skala von 1 - 1000 erzeugt. Ein ledigliches Skalieren der numerischen Ergebnisse der Engine A, um mit dem Bereich von Konfidenzbewertungen in der Engine B übereinzustimmen, oder umgekehrt, reicht jedoch nicht aus, um die Konfidenzbewertungen vergleichbar zu machen. Dies beruht darauf, dass die tatsächliche Genauigkeitsschätzung, die einer speziellen Konfidenzbewertung entspricht, typischerweise zwischen zwei unterschiedlichen Spracherkennungs-Engines nicht dieselbe ist. Eine willkürliche Konfidenzbewertung von 330 auf einer normierten Skala für Engine A könnte zum Beispiel einer geschätzten Genauigkeit von 75 % entsprechen, aber dieselbe Bewertung für Engine B könnte einer geschätzten Genauigkeit von 84 % entsprechen, was eine wesentliche Differenz hinsichtlich des Bereichs von Genauigkeitsgraden sein kann, die in Spracherkennungs-Engines hoher Qualität erwartet werden.
Im System 100 normiert die Steuerung 148 die Konfidenzbewertungen zwischen unterschiedlichen Spracherkennungs-Engines unter Verwendung eines linearen Regressionsprozesses. Die Steuerung 148 unterteilt zuerst die Konfidenzbewertungsbereiche in eine vorbestimmte Anzahl von Unterteilungen oder „Bins“, wie etwa zwanzig eindeutige Bins für die beiden Spracherkennungs-Engines A und B. Die Steuerung 148 identifiziert dann die tatsächlichen Genauigkeitsraten für verschiedene Spracherkennungsergebnisse, die jedem Bin von Bewertungen entsprechen, basierend auf den beobachteten Spracherkennungsergebnissen und den tatsächlichen zugrundeliegenden Eingaben, die während des Trainingsprozesses vor dem Prozess 200 verwendet wurden. Die Steuerung 148 führt eine Clustering-Operation der Konfidenzbewertungen innerhalb vorbestimmter numerischer Fenster um „Ränder“, die Bins für jede Menge von Ergebnissen von den unterschiedlichen Spracherkennungs-Engines trennen, durch und identifiziert eine durchschnittliche Genauigkeitsbewertung, die jedem Randkonfidenzbewertungswert entspricht. Die „Rand“-Konfidenzbewertungen werden entlang des Konfidenzbewertungsbereichs jeder Spracherkennungs-Engine gleichmäßig verteilt und stellen eine vorbestimmte Anzahl von Vergleichspunkten bereit, um eine lineare Regression durchzuführen, die die Konfidenzbewertungen einer ersten Spracherkennungs-Engine zu Konfidenzbewertungen einer anderen Spracherkennungs-Engine, die ähnliche Genauigkeitsraten aufweisen, abbildet. Die Steuerung 148 verwendet die identifizierten Genauigkeitsdaten für jede Randbewertung, um eine lineare Regressionsabbildung durchzuführen, die der Steuerung 148 ermöglicht, eine Konfidenzbewertung von einer ersten Spracherkennungs-Engine zu einem anderen Konfidenzbewertungswert umzuwandeln, der einer äquivalenten Konfidenzbewertung von einer zweiten Spracherkennungs-Engine entspricht. Das Abbilden einer Konfidenzbewertung von einer ersten Spracherkennungs-Engine zu einer anderen Konfidenzbewertung von einer anderen Spracherkennung wird auch als ein Bewertungsabgleichprozess bezeichnet, und bei manchen Ausführungsformen bestimmt die Steuerung 148 eine Abgleichung einer Konfidenzbewertung von einer ersten Spracherkennungs-Engine mit einer zweiten Spracherkennungs-Engine unter Verwendung der folgenden Gleichung: $x' = e_{i}^{'} + \frac{(x - e_{i})}{(e_{i + 1} - e_{i})} (e_{i + 1}^{'} - e_{1}^{'})$
Wobei x die Bewertung von der ersten Spracherkennungs-Engine ist, x' der äquivalente Wert von x innerhalb des Konfidenzbewertungsbereichs der zweiten Spracherkennungs-Engine ist, die Werte e_i und e_i+1 geschätzten Genauigkeitsbewertungen für unterschiedliche Randwerte entsprechen, die dem Wert x_ für die erste Spracherkennungs-Engine am nächsten liegen (z. B. den geschätzten Genauigkeitsbewertungen für Randwerte 20 und 25 um eine Konfidenzbewertung von 22) und die Werte e_i' und e_i+1' den geschätzten Genauigkeitsbewertungen bei denselben relativen Randwerten für die zweite Spracherkennungs-Engine entsprechen.
Bei manchen Ausführungsformen speichert die Steuerung 148 die Ergebnisse der linearen Regression im Speicher 160 als eine Nachschlagetabelle oder eine andere geeignete Datenstruktur, um eine effiziente Normierung von Konfidenzbewertungen zwischen den unterschiedlichen Spracherkennungs-Engines 162 zu ermöglichen, ohne die lineare Regression für jeden Vergleich erneut erzeugen zu müssen.
Wiederum unter Bezugnahme auf 2 fährt der Prozess 200 fort, wenn die Steuerung 148 das ausgewählte am höchsten eingestufte Spracherkennungsergebnis als Eingabe vom Benutzer verwendet, um das automatisierte System zu steuern (Block 236). In dem fahrzeuginternen Informationssystem 100 von 1 betreibt die Steuerung 148 verschiedene Systeme, einschließlich zum Beispiel eines Fahrzeugnavigationssystems, das das GPS 152 verwendet, der drahtlosen Netzwerkeinrichtung 154 und der LCD-Anzeige 124 oder des HUD 120, um Fahrzeugnavigationsoperationen als Reaktion auf die Spracheingabe vom Benutzer durchzuführen. Bei einer anderen Konfiguration spielt die Steuerung 148 Musik durch die Audioausgabeeinrichtung 132 als Reaktion auf den Sprachbefehl ab. Bei noch einer anderen Konfiguration verwendet das System 100 das Smartphone 170 oder eine andere netzverbundene Einrichtung, um basierend auf der Spracheingabe vom Benutzer einen Freisprechanruf zu tätigen oder eine Textnachrichten zu übertragen. Obwohl 1 eine Ausführungsform eines fahrzeuginternen Informationssystems abbildet, setzen andere Ausführungsformen automatisierte Systeme ein, die die Audioeingabedaten verwenden, um den Betrieb verschiedener Hardwarekomponenten und Softwareanwendungen zu steuern.
Es versteht sich, dass Varianten der oben offenbarten und anderer Merkmale und Funktionen, oder Alternativen zu diesen, wünschenswerterweise zu vielen anderen unterschiedlichen Systemen, Anwendungen und Verfahren kombiniert werden können. Verschiedene vorliegend unvorhergesehene oder nicht erwartete Alternativen, Modifikationen, Variationen oder Verbesserungen können nachfolgend durch einen Fachmann vorgenommen werden, die auch durch die folgenden Ansprüche eingeschlossen werden sollen.

Claims

Verfahren zur Spracherkennung in einem automatisierten System, umfassend: Erzeugen, mit einer Audioeingabeeinrichtung, von Audioeingabedaten, die einer Spracheingabe von einem Benutzer entsprechen; Erzeugen, mit einer Steuerung, von ersten mehreren Kandidatenspracherkennungsergebnissen, die den Audioeingabedaten entsprechen, unter Verwendung einer ersten Allgemeinzweck-Spracherkennungs-Engine; Erzeugen, mit der Steuerung, von zweiten mehreren Kandidatenspracherkennungsergebnissen, die den Audioeingabedaten entsprechen, unter Verwendung einer ersten domänenspezifischen Spracherkennungs-Engine; Erzeugen, mit der Steuerung, von dritten mehreren Kandidatenspracherkennungsergebnissen, wobei jedes Kandidatenspracherkennungsergebnis in den dritten mehreren Kandidatenspracherkennungsergebnissen mehrere Wörter, die in einem der ersten mehreren Kandidatenspracherkennungsergebnisse enthalten sind, und mindestens ein Wort, das in einem anderen der zweiten mehreren Kandidatenspracherkennungsergebnisse enthalten ist, beinhaltet; Einstufen, mit der Steuerung, von zumindest den dritten mehreren Kandidatenspracherkennungsergebnissen unter Verwendung einer Paarweise-Einstufung-Vorrichtung, um ein am höchsten eingestuftes Kandidatenspracherkennungsergebnis zu identifizieren; und Betreiben, mit der Steuerung, des automatisierten Systems unter Verwendung des am höchsten eingestuften Kandidatenspracherkennungsergebnisses als eine Eingabe vom Benutzer.
Verfahren nach Anspruch 1, wobei das Erzeugen von mindestens einem Kandidatenspracherkennungsergebnis in den dritten mehreren Kandidatenspracherkennungsergebnissen ferner Folgendes umfasst: Identifizieren, mit der Steuerung, eines ersten Wortes in ersten mehreren Wörtern eines ersten Kandidatenspracherkennungsergebnisses in den ersten mehreren Kandidatenspracherkennungsergebnissen, das einem zweiten Wort in zweiten mehreren Wörtern in einem zweiten Kandidatenspracherkennungsergebnis in den zweiten mehreren Kandidatenspracherkennungsergebnissen entspricht, wobei sich das zweite Wort vom ersten Wort unterscheidet; und Erzeugen, mit der Steuerung, des Kandidatenspracherkennungsergebnisses für die dritten mehreren Kandidatenspracherkennungsergebnisse einschließlich der ersten mehreren Wörter vom ersten Kandidatenspracherkennungsergebnis, wobei das zweite Wort vom zweiten Kandidatenspracherkennungsergebnis das erste Wort vom ersten Kandidatenspracherkennungsergebnis ersetzt.
Verfahren nach Anspruch 2, ferner umfassend: Abgleichen, mit der Steuerung, der zweiten mehreren Wörter im zweiten Kandidatenspracherkennungsergebnis mit den ersten mehreren Wörtern im ersten Kandidatenspracherkennungsergebnis basierend auf einer Position von mindestens einem Wort in den zweiten mehreren Wörtern, das auch in den ersten mehreren Wörtern vorhanden ist; und Identifizieren, mit der Steuerung, des ersten Wortes in den ersten mehreren Wörtern des ersten Kandidatenspracherkennungsergebnisses in den ersten mehreren Spracherkennung, das dem zweiten Wort in den zweiten mehreren Wörtern in einem zweiten Kandidatenspracherkennungsergebnis entspricht, an einer Wortposition in den ersten mehreren Wörtern, die mit den zweiten mehreren Wörtern abgeglichen ist.
Verfahren nach Anspruch 1, wobei das Einstufen ferner Folgendes umfasst: Identifizieren, mit der Steuerung, des am höchsten eingestuften Kandidatenspracherkennungsergebnisses basierend auf einer Einstufungsbewertung unter Verwendung eines paarweisen Einstufungsprozesses zwischen mehreren Paaren von Kandidatenspracherkennungsergebnissen, die aus den dritten mehreren Kandidatenspracherkennungsergebnissen ausgewählt werden, unter Verwendung der Paarweise-Einstufung-Vorrichtung, wobei das Einstufen jedes Paares von Kandidatenspracherkennungsergebnissen ferner Folgendes umfasst: Schätzen, mit der Steuerung, einer ersten Wortfehlerrate eines ersten Kandidatenspracherkennungsergebnisses in den dritten mehreren Kandidatenspracherkennungsergebnissen unter Verwendung der Paarweise-Einstufung-Vorrichtung; Schätzen, mit der Steuerung, einer zweiten Wortfehlerrate eines zweiten Kandidatenspracherkennungsergebnisses in den dritten mehreren Kandidatenspracherkennungsergebnissen unter Verwendung der Paarweise-Einstufung-Vorrichtung; Inkrementieren, mit der Steuerung, einer Einstufungsbewertung, die mit dem ersten Kandidatenspracherkennungsergebnis assoziiert ist, als Reaktion darauf, dass die erste Wortfehlerrate geringer als die zweite Wortfehlerrate ist; und Inkrementieren, mit der Steuerung, einer anderen Einstufungsbewertung, die mit dem zweiten Kandidatenspracherkennungsergebnis assoziiert ist, als Reaktion darauf, dass die erste Wortfehlerrate größer als die zweite Wortfehlerrate ist.
Verfahren nach Anspruch 4, ferner umfassend: Erzeugen, mit der Steuerung, eines ersten Merkmalsvektors, der ein Merkmal beinhaltet, das mindestens einem Auslösepaar entspricht, das zwei vorbestimmte Auslösewörter innerhalb des ersten Kandidatenspracherkennungsergebnisses beinhaltet, unter Bezug auf mehrere vorbestimmte Auslösepaare, die in einem Speicher gespeichert sind; Erzeugen, mit der Steuerung, eines zweiten Merkmalsvektors, der ein Merkmal beinhaltet, das mindestens einem Auslösepaar entspricht, das zwei vorbestimmte Auslösewörter innerhalb des zweiten Kandidatenspracherkennungsergebnisses beinhaltet, unter Bezug auf die mehreren vorbestimmten Auslösepaare; Erzeugen, mit der Steuerung, eines dritten Merkmalsvektors basierend auf einer Differenz zwischen dem ersten Merkmalsvektor und dem zweiten Merkmalsvektor; und Schätzen, mit der Steuerung, der ersten Wortfehlerrate im ersten Kandidatenspracherkennungsergebnis und der zweiten Wortfehlerrate im zweiten Kandidatenspracherkennungsergebnis basierend auf dem dritten Merkmalsvektor unter Verwendung einer Paarweise-Einstufung-Vorrichtung.
Verfahren nach Anspruch 4, ferner umfassend: Erzeugen, mit der Steuerung, eines ersten Merkmalsvektors, der ein Merkmal beinhaltet, das einem Bag-of-Words-mit-Abklingen-Wert entspricht, der mindestens einem Wort im ersten Kandidatenspracherkennungsergebnis entspricht; Erzeugen, mit der Steuerung, eines zweiten Merkmalsvektors, wobei der erste Merkmalsvektor ein Merkmal beinhaltet, das einem Bag-of-Words-mit-Abklingen-Wert entspricht, der mindestens einem Wort im zweiten Kandidatenspracherkennungsergebnis entspricht; Erzeugen, mit der Steuerung, eines dritten Merkmalsvektors basierend auf einer Differenz zwischen dem ersten Merkmalsvektor und dem zweiten Merkmalsvektor; und Schätzen, mit der Steuerung, der ersten Wortfehlerrate im ersten Kandidatenspracherkennungsergebnis und der zweiten Wortfehlerrate im zweiten Kandidatenspracherkennungsergebnis basierend auf dem dritten Merkmalsvektor unter Verwendung einer Paarweise-Einstufung-Vorrichtung.
Verfahren nach Anspruch 4, wobei das Einstufen ferner Folgendes umfasst: Identifizieren, mit der Steuerung, des am höchsten eingestuften Kandidatenspracherkennungsergebnisses als ein Kandidatenspracherkennungsergebnis in den dritten mehreren Kandidatenspracherkennungsergebnissen mit der höchsten Einstufungsbewertung als Reaktion darauf, dass eine Konfidenzbewertung des einen Kandidatenspracherkennungsergebnisses innerhalb einer vorbestimmten Schwelle eines anderen Kandidatenspracherkennungsergebnisses in den dritten mehreren Kandidatenspracherkennungsergebnissen mit einer höchsten Konfidenzbewertung liegt; und Identifizieren, mit der Steuerung, des anderen Kandidatenspracherkennungsergebnisses in den dritten mehreren Kandidatenspracherkennungsergebnissen mit der höchsten Konfidenzbewertung als das am höchsten eingestufte Kandidatenspracherkennungsergebnis als Reaktion darauf, dass die höchste Konfidenzbewertung um mehr als die vorbestimmte Schwelle größer als die Konfidenzbewertung des einen Kandidatenspracherkennungsergebnisses mit der höchsten Einstufungsbewertung ist.
Verfahren nach Anspruch 4, wobei das Einstufen ferner Folgendes umfasst: Identifizieren, mit der Steuerung, des am höchsten eingestuften Kandidatenspracherkennungsergebnisses als ein Kandidatenspracherkennungsergebnis in den dritten mehreren Kandidatenspracherkennungsergebnissen mit der höchsten Einstufungsbewertung.
Verfahren nach Anspruch 1, wobei das Einstufen ferner Folgendes umfasst: Einstufen, mit der Steuerung, der ersten mehreren Kandidatenspracherkennungsergebnisse und der dritten mehreren Kandidatenspracherkennungsergebnisse unter Verwendung der Paarweise-Einstufung-Vorrichtung, um das am höchsten eingestufte Kandidatenspracherkennungsergebnis zu identifizieren.
Automatisiertes System mit Spracheingabesteuerung, umfassend: eine Audioeingabeeinrichtung, die dazu ausgelegt ist, Audioeingabedaten, die einer Spracheingabe von einem Benutzer entsprechen, zu erzeugen; und eine Steuerung, die funktionsfähig mit der Audioeingabeeinrichtung und einem Speicher verbunden ist, wobei die Steuerung ausgelegt ist zum: Empfangen der Audioeingabedaten von der Audioeingabeeinrichtung; Erzeugen von ersten mehreren Kandidatenspracherkennungsergebnissen, die den Audioeingabedaten entsprechen, unter Verwendung einer ersten Allgemeinzweck-Spracherkennungs-Engine; Erzeugen von zweiten mehreren Kandidatenspracherkennungsergebnissen, die den Audioeingabedaten entsprechen, unter Verwendung einer ersten domänenspezifischen Spracherkennungs-Engine; Erzeugen von dritten mehreren Kandidatenspracherkennungsergebnissen, wobei jedes Kandidatenspracherkennungsergebnis in den dritten mehreren Kandidatenspracherkennungsergebnissen mehrere Wörter, die in einem der ersten mehreren Kandidatenspracherkennungsergebnissen enthalten sind, und mindestens ein Wort, das in einem anderen der zweiten mehreren Kandidatenspracherkennungsergebnisse enthalten ist, beinhaltet; Einstufen von zumindest den dritten mehreren Kandidatenspracherkennungsergebnissen unter Verwendung einer Paarweise-Einstufung-Vorrichtung, um ein am höchsten eingestuftes Kandidatenspracherkennungsergebnis zu identifizieren; und Betreiben des automatisierten Systems unter Verwendung des am höchsten eingestuften Kandidatenspracherkennungsergebnisses als eine Eingabe vom Benutzer.
Automatisiertes System nach Anspruch 10, wobei die Steuerung ferner ausgelegt ist zum: Identifizieren eines ersten Wortes in ersten mehreren Wörtern eines ersten Kandidatenspracherkennungsergebnisses in den ersten mehreren Kandidatenspracherkennungsergebnissen, das einem zweiten Wort in zweiten mehreren Wörtern in einem zweiten Kandidatenspracherkennungsergebnis in den zweiten mehreren Kandidatenspracherkennungsergebnissen entspricht, wobei sich das zweite Wort vom ersten Wert unterscheidet; und Erzeugen des Kandidatenspracherkennungsergebnisses für die dritten mehreren Kandidatenspracherkennungsergebnisse einschließlich der ersten mehreren Wörter vom ersten Kandidatenspracherkennungsergebnis, wobei das zweite Wort vom zweiten Kandidatenspracherkennungsergebnis das erste Wort vom ersten Kandidatenspracherkennungsergebnis ersetzt.
Automatisiertes System nach Anspruch 11, wobei die Steuerung ferner ausgelegt ist zum: Abgleichen der zweiten mehreren Wörter im zweiten Kandidatenspracherkennungsergebnis mit den ersten mehreren Wörtern im ersten Kandidatenspracherkennungsergebnis basierend auf einer Position von mindestens einem Wort in den zweiten mehreren Wörtern, das auch in den ersten mehreren Wörtern vorhanden ist; und Identifizieren des ersten Wortes in den ersten mehreren Wörtern des ersten Kandidatenspracherkennungsergebnisses in den ersten mehreren Kandidatenspracherkennungsergebnissen, das dem zweiten Wort in den zweiten mehreren Wörtern in einem zweiten Kandidatenspracherkennungsergebnis entspricht, an einer Wortposition in den ersten mehreren Wörtern, die mit den zweiten mehreren Wörtern abgeglichen ist.
Automatisiertes System nach Anspruch 10, wobei die Steuerung ferner ausgelegt ist zum: Identifizieren des am höchsten eingestuften Kandidatenspracherkennungsergebnisses basierend auf einer Einstufungsbewertung unter Verwendung eines paarweisen Einstufungsprozesses zwischen mehreren Paaren von Kandidatenspracherkennungsergebnissen, die aus den dritten mehreren Kandidatenspracherkennungsergebnissen ausgewählt werden, unter Verwendung der Paarweise-Einstufung-Vorrichtung, wobei das Einstufen jedes Paares von Kandidatenspracherkennungsergebnissen ferner umfasst, dass die Steuerung ausgelegt ist zum: Schätzen einer ersten Wortfehlerrate eines ersten Kandidatenspracherkennungsergebnisses in den dritten mehreren Kandidatenspracherkennungsergebnissen unter Verwendung der Paarweise-Einstufung-Vorrichtung; Schätzen einer zweiten Wortfehlerrate eines zweiten Kandidatenspracherkennungsergebnisses in den dritten mehreren Kandidatenspracherkennungsergebnissen unter Verwendung der Paarweise-Einstufung-Vorrichtung; Inkrementieren, mit der Steuerung, einer Einstufungsbewertung, die mit dem ersten Kandidatenspracherkennungsergebnis assoziiert ist, als Reaktion darauf, dass die erste Wortfehlerrate geringer als die zweite Wortfehlerrate ist; und Inkrementieren einer anderen Einstufungsbewertung, die mit dem zweiten Kandidatenspracherkennungsergebnis assoziiert ist, als Reaktion darauf, dass die erste Wortfehlerrate größer als die zweite Wortfehlerrate ist.
Automatisiertes System nach Anspruch 13, wobei die Steuerung ferner ausgelegt ist zum: Erzeugen eines ersten Merkmalsvektors, der ein Merkmal beinhaltet, das mindestens einem Auslösepaar entspricht, das zwei vorbestimmte Auslösewörter innerhalb des ersten Kandidatenspracherkennungsergebnisses beinhaltet, unter Bezug auf mehrere vorbestimmte Auslösepaare, die in dem Speicher gespeichert sind; Erzeugen eines zweiten Merkmalsvektors, der ein Merkmal beinhaltet, das mindestens einem Auslösepaar entspricht, das zwei vorbestimmte Auslösewörter innerhalb des zweiten Kandidatenspracherkennungsergebnisses beinhaltet, unter Bezug auf die mehreren vorbestimmten Auslösepaare; Erzeugen eines dritten Merkmalsvektors basierend auf einer Differenz zwischen dem ersten Merkmalsvektor und dem zweiten Merkmalsvektor; und Schätzen der ersten Wortfehlerrate im ersten Kandidatenspracherkennungsergebnis und der zweiten Wortfehlerrate im zweiten Kandidatenspracherkennungsergebnis basierend auf dem dritten Merkmalsvektor unter Verwendung einer Paarweise-Einstufung-Vorrichtung.
Automatisiertes System nach Anspruch 13, wobei die Steuerung ferner ausgelegt ist zum: Erzeugen eines ersten Merkmalsvektors, der ein Merkmal beinhaltet, das einem Bag-of-Words-mit-Abklingen-Wert entspricht, der mindestens einem Wort im ersten Kandidatenspracherkennungsergebnis entspricht; Erzeugen eines zweiten Merkmalsvektors, wobei der erste Merkmalsvektor ein Merkmal beinhaltet, das einem Bag-of-Words-mit-Abklingen-Wert entspricht, der mindestens einem Wort im zweiten Kandidatenspracherkennungsergebnis entspricht; Erzeugen eines dritten Merkmalsvektors basierend auf einer Differenz zwischen dem ersten Merkmalsvektor und dem zweiten Merkmalsvektor; und Schätzen der ersten Wortfehlerrate im ersten Kandidatenspracherkennungsergebnis und der zweiten Wortfehlerrate im zweiten Kandidatenspracherkennungsergebnis basierend auf dem dritten Merkmalsvektor unter Verwendung einer Paarweise-Einstufung-Vorrichtung.
Automatisiertes System nach Anspruch 13, wobei die Steuerung ferner ausgelegt ist zum: Identifizieren des am höchsten eingestuften Kandidatenspracherkennungsergebnisses als ein Kandidatenspracherkennungsergebnis in den dritten mehreren Kandidatenspracherkennungsergebnissen mit der höchsten Einstufungsbewertung als Reaktion darauf, dass eine Konfidenzbewertung des einen Kandidatenspracherkennungsergebnisses innerhalb einer vorbestimmten Schwelle eines anderen Kandidatenspracherkennungsergebnisses in den dritten mehreren Kandidatenspracherkennungsergebnissen mit einer höchsten Konfidenzbewertung liegt; und Identifizieren des anderen Kandidatenspracherkennungsergebnisses in den dritten mehreren Kandidatenspracherkennungsergebnissen mit der höchsten Konfidenzbewertung als das am höchsten eingestufte Kandidatenspracherkennungsergebnis als Reaktion darauf, dass die höchste Konfidenzbewertung um mehr als die vorbestimmte Schwelle größer als die Konfidenzbewertung des einen Kandidatenspracherkennungsergebnisses mit der höchsten Einstufungsbewertung ist.
Automatisiertes System nach Anspruch 13, wobei die Steuerung ferner ausgelegt ist zum: Identifizieren des am höchsten eingestuften Kandidatenspracherkennungsergebnisses als ein Kandidatenspracherkennungsergebnis in den dritten mehreren Spracherkennungsergebnissen mit der höchsten Einstufungsbewertung.
Automatisiertes System nach Anspruch 10, wobei die Steuerung ferner ausgelegt ist zum: Einstufen der ersten mehreren Kandidatenspracherkennungsergebnisse und der dritten mehreren Kandidatenspracherkennungsergebnisse unter Verwendung der Paarweise-Einstufung-Vorrichtung, um das am höchsten eingestufte Kandidatenspracherkennungsergebnis zu identifizieren.