DE102016125104A1

DE102016125104A1 - Dynamisches umschalten von akustischen modellen zur verbesserung der erkennung verrauschter sprachsignale

Info

Publication number: DE102016125104A1
Application number: DE102016125104.6A
Authority: DE
Inventors: Ali Hassani; Scott Andrew Amman; Francois Charette; Brigitte Frances Mora Richardson; Gintaras Vincent Puskorius; An Jl; Ranjani Rangarajan; John Edward Huber
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2016-01-21
Filing date: 2016-12-21
Publication date: 2017-07-27
Also published as: GB2548681A; MX2017000938A; CN106992002A; US20170213549A1; US10297251B2; GB201701046D0; RU2017101192A

Abstract

Ein automatisches Spracherkennungssystem für ein Fahrzeug umfasst eine Steuereinheit, die konfiguriert ist, um ein akustisches Modell aus einer Bibliothek akustischer Modelle auf Basis von Hintergrundgeräuschen in einer Kabine des Fahrzeugs und von Betriebsparametern des Fahrzeugs auszuwählen. Die Steuereinheit ist ferner konfiguriert, um das ausgewählte akustische Modell auf ein verrauschtes Sprachsignal anzuwenden, um die Spracherkennung zu verbessern.

Description

TECHNISCHES GEBIET
Die vorliegende Offenbarung betrifft das dynamische Umschalten zwischen akustischen Modellen, um die Spracherkennungsleistung zu verbessern.
HINTERGRUND
Das Erlebnis eines Benutzers in einem Fahrzeug kann aufgewertet werden, indem verbessert wird, wie Benutzer mit ihren Fahrzeugen über die Sprache interagieren. In dieser Hinsicht ist es wünschenswert, die Fähigkeit eines automatischen Spracherkennungs(ASR)-Systems eines Fahrzeugs zu verbessern, Sprachbefehle konsequent zu erkennen, während das Fahrzeug unter verschiedenen Betriebsbedingungen betrieben wird.
Herkömmliche akustische Modelle sind statisch und für eine Vielzahl von Betriebsbedingungen trainiert, die als typisch für ASR-Anwendungsfälle betrachtet werden. Bei einem Fahrzeug umfassen typische Betriebsbedingungen den Fahrzeugstillstand auf einem Parkplatz, das Lenken des Fahrzeugs auf der Autobahn bei geschlossenen Fenstern, das Lenken des Fahrzeugs auf der Autobahn bei offenen Fenstern etc. Die Struktur des Fahrzeugs wie z. B. die Menge an Isolierung in der Fahrzeugkabine, Kraftstoffeffizienz-Strukturcharakteristika des Fahrzeugs etc. werden ebenfalls berücksichtigt. Die typischen Betriebsbedingungen weisen signifikant unterschiedliche Hintergrundgeräuschpegel auf, die grundsätzlich eine Herausforderung bei der Erstellung eines statischen akustischen Modells darstellen. Folglich ist ein einziges, statisches akustisches Modell nicht dazu fähig, unter verschiedenen Betriebsbedingungen gut zu funktionieren.
Der Lombard-Effekt ist eine menschliche Reaktion auf Umgebungsgeräusche, wobei der Sprecher als Kompensationsmechanismus lauter spricht. Zusätzlich dazu, dass der Lombard-Effekt eine Erhöhung der Ausgangslautstärke eines Sprachsignals ist, wird die spektrale Dichte des Sprachsignals hin zu höheren Frequenzen verschoben, und die Dauer von Phonemen nimmt zu. Diese spektralen Änderungen stellen für Spracherkennungsmaschinen mehr als die Abnahme des Signal-Rausch-Verhältnisses eine Herausforderung dar. Deshalb besteht eine Problemstellung darin, dass ein robustes akustisches Modell trotz der spektralen Änderungen sowohl für neutrale (Nicht-Lombard-)Sprachsignale als auch für verrauschte (Lombard-)Signale gleich gut funktioniert.
ZUSAMMENFASSUNG
Ein automatisches Spracherkennungssystem für ein Fahrzeug umfasst eine Steuereinheit. Die Steuereinheit ist konfiguriert, um ein akustisches Modell aus einer Bibliothek von akustischen Modellen auf Basis von Umgebungsgeräuschen in einer Kabine des Fahrzeugs und von Betriebsparametern des Fahrzeugs auszuwählen. Die Steuereinheit ist ferner konfiguriert, um das ausgewählte akustische Modell auf ein verrauschtes Sprachsignal anzuwenden, um die Erkennung des Sprachsignals zu verbessern.
Das System kann ferner Kabinengeräuschmikrofone umfassen, die konfiguriert sind, um Umgebungsgeräusche in der Kabine des Fahrzeugs zu detektieren. Die Steuereinheit kann mit den Kabinengeräuschmikrofonen in Kommunikation sein, um Informationen zu empfangen, welche die Umgebungsgeräusche in der Kabine des Fahrzeugs angeben.
Die Steuereinheit kann mit einem Controller-Area-Network(CAN)-Bus des Fahrzeugs in Kommunikation sein, um Informationen zu erhalten, welche die Betriebsparameter des Fahrzeugs angeben. Die Informationen, welche die Betriebsparameter des Fahrzeugs angeben, können Informationen umfassen, welche die Fahrzeugmotordrehzahl, die Fahrzeuggeschwindigkeit und die Klimaanlageneinstellungen des Fahrzeugs angeben.
Die Steuereinheit kann ferner konfiguriert sein, um das akustische Modell auszuwählen, indem zuerst auf Basis der Umgebungsgeräusche in der Kabine des Fahrzeugs eine Untergruppe der akustischen Modelle aus der Bibliothek ausgewählt wird und danach das akustische Modell auf Basis der Betriebsparameter des Fahrzeugs aus der Untergruppe der akustischen Modelle ausgewählt wird.
Die Steuereinheit kann mit einem tragbaren Gerät in Kommunikation sein, das von einem Benutzer des Fahrzeugs getragen wird, um Kontextinformationen von dem tragbaren Gerät zu erhalten. Die Steuereinheit kann ferner konfiguriert sein, um das akustische Modell auf Basis von Umgebungsgeräuschen in der Kabine des Fahrzeugs, von Betriebsparametern des Fahrzeugs und der Kontextinformationen aus der Bibliothek akustischer Modelle auszuwählen.
Die Steuereinheit kann mit einem Benutzermikrofon in der Kabine des Fahrzeugs in Kommunikation sein, um das verrauschte Sprachsignal zu empfangen.
Die akustischen Modelle können akustische Lombard-Effekt-Modelle sein.
Die Steuereinheit kann ferner konfiguriert sein, um einen Lombard-Effekt des verrauschten Sprachsignals auf Basis der Umgebungsgeräusche in der Kabine des Fahrzeugs und der Betriebsparameter des Fahrzeugs zu schätzen und das akustische Modell auf Basis des geschätzten Lombard-Effekts aus der Bibliothek akustischer Modelle auswählen.
Die Steuereinheit kann ferner konfiguriert sein, um auf Basis eines dB-Pegels und einer Spektralanalyse der Umgebungsgeräusche in der Kabine des Fahrzeugs eine Lombard-Effekt-Komponente des verrauschten Sprachsignals zu schätzen, auf Basis der Betriebsparameter des Fahrzeugs eine Lombard-Effekt-Komponente des verrauschten Sprachsignals zu schätzen und das akustische Modell auf Basis der geschätzten Lombard-Effekt-Komponenten aus der Bibliothek akustischer Modelle auszuwählen.
Ein automatisches Spracherkennungsverfahren für ein Fahrzeug umfasst das Auswählen eines akustischen Modells aus einer Bibliothek akustischer Modelle auf Basis von Umgebungsgeräuschen in einer Kabine des Fahrzeugs und von Betriebsparametern des Fahrzeugs. Das Verfahren umfasst ferner das Anwenden des ausgewählten akustischen Modells auf das verrauschte Sprachsignal, um die Erkennung des Sprachsignals zu verbessern.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 veranschaulicht ein Blockdiagramm eines automatischen Spracherkennungs(ASR)-Systems zur Verwendung in einem Fahrzeug;
2 veranschaulicht ein Blockdiagramm, welches die Operationen zur Geräuschquantifizierung und zur Identifizierung eines akustischen Modells des ASR-Systems darstellt; und
3 veranschaulicht ein Blockdiagramm, welches die Auswahl eines akustischen Modells und die Verwendung des ausgewählten akustischen Modells für Spracherkennungsoperationen des ASR-Systems darstellt.
DETAILBESCHREIBUNG
Hier werden detaillierte Ausführungsformen der vorliegenden Erfindung offenbart; es versteht sich jedoch, dass die offenbarten Ausführungsformen lediglich beispielhaft für die Erfindung sind, welche in verschiedenen und alternativen Formen ausgeführt werden kann. Die Figuren sind nicht notwendigerweise maßstabsgetreu; einige Merkmale können übertrieben oder minimiert sein, um Einzelheiten bestimmter Komponenten zu zeigen. Daher sollen hier offenbarte, spezielle strukturelle und funktionale Details nicht als einschränkend interpretiert werden, sondern lediglich als repräsentative Basis, um einen Fachmann anzuleiten, die vorliegende Erfindung auf unterschiedliche Weise einzusetzen.
Die vorliegende Offenbarung stellt automatische Spracherkennungs(ASR)-Systeme und Verfahren bereit, die ein dynamisches Umschalten zwischen akustischen Lombard-Effekt-Modellen („akustischen Modellen“) einsetzen, um die Spracherkennungsleistung zu verbessern. Die ASR-Systeme und -Verfahren nutzen Daten, die über den hervorgerufenen Lombard-Effekt gesammelt werden, um den Geräuschtyp mit Änderungen der spektralen Bestandteile in Verbindung zu bringen, um sowohl reinen als auch verrauschten Sprachsignalen gerecht zu werden.
Wie oben im Abschnitt „Hintergrund“ angegeben, besteht ein Problem darin, dass ein robustes akustisches Modell trotz der spektralen Änderungen sowohl für neutrale (Nicht-Lombard-)Sprachsignale als auch für verrauschte (Lombard-)Signale gleich gut funktioniert. Um dieses Problem zu lösen, setzen die von der vorliegenden Offenbarung bereitgestellten ASR-Systeme und -Verfahren für ein Fahrzeug eine Architektur ein, die die Auswirkungen des Lombard-Effekts schätzt, indem verschiedene Eingangssignale von Kabinengeräuschen im Fahrzeug berücksichtigt werden. Auf diese Weise können die ASR-Systeme und Verfahren sogar dynamisch auf das akustische Modell umschalten, das aus einer Bibliothek von vorher erstellten akustischen Modellen ausgewählt wird, das am besten für diese Situation geeignet ist, um den verschiedenen Arten verrauschter Sprachsignale zusätzlich zu neutralen Sprachsignalen am besten gerecht zu werden.
Da eingebettete Plattformen nun grafische Verarbeitungseinheiten (GPUs) mit großen Direktzugriffsspeicher(RAM)-Kapazitäten für enorme Parallelisierungsfähigkeiten umfassen, ist es möglich, mehrere akustische Modelle in ein einzelnes Fahrzeugsystem einzugeben. Die ASR-Systeme und -Verfahren der vorliegenden Offenbarung wählen dynamisch aus einer Bibliothek von vorher ausgelegten, in das Fahrzeugsystem eingegebenen akustischen Modellen ein geeignetes akustisches Modell als eine Funktion der Fahrzeugparameter und der Umgebungsgeräusche aus.
Die von der vorliegenden Offenbarung bereitgestellten ASR-Systeme und -Verfahren beinhalten, dass eine Handvoll akustischer Modelle in einer Laborumgebung trainiert wird, in der die Ressourcen verfügbar sind, um die wichtigen Anwendungsfälle zu erfassen. Dann wird eine Funktion generiert, um ein Geräusch mit dem am besten repräsentativen Modell zu korrelieren. Das Geräusch wird durch mehrere unterschiedliche Mittel quantifiziert, welche die folgenden umfassen, aber nicht auf diese beschränkt ist: Informationen, welche Fahrzeugparameter angeben, wie z. B. Informationen vom Controller-Area-Network(CAN)-Bus des Fahrzeugs, über die Fahrzeuggeschwindigkeit, über die Motordrehzahl und die Klimaanlageneinstellungen; Informationen, welche die Kabinengeräusche anzeigen, wie z. B. Informationen von Kabinengeräuschmikrofonen während einer passiven Geräuschanalyse; und/oder Kontextinformationen, die von tragbaren Geräten bereitgestellt werden.
Als ein Beispiel verwenden die ASR-Systeme und -Verfahren der vorliegenden Offenbarung in einem Fahrzeug eine Analyse des dB-Pegels/Spektrums der Kabinengeräusche, um die Auswahl akustischer Modelle aus einer Bibliothek vorher trainierter akustischer Modelle vorauszuwählen. Die ASR-Systeme und Verfahren verwenden dann Fahrzeugparameter wie z. B. die Motordrehzahl und die Klimaanlageneinstellungen, um die Auswahl weiter einzugrenzen, da sich das akustische Modell für Motorgeräusche von dem akustischen Modell für Klimaanlagengeräusche aufgrund der spektralen Natur der Geräusche unterscheiden kann. Sobald das am besten repräsentative akustische Modell identifiziert wurde, verwenden die ASR-Systeme und -Verfahren dieses einfach, um die Spracherkennung fertigzustellen. Dieses dynamische Umschalten kann auch verwendet werden, um unterschiedlichen Sprechern Rechnung zu tragen.
Nun auf 1 Bezug nehmend, wird ein Blockdiagramm eines automatischen Spracherkennungs(ASR)-Systems 10 zur Verwendung in einem Fahrzeug gezeigt. Das ASR-System 10 umfasst eine Steuereinheit 12. Die Steuereinheit 12 ist mit einem Benutzermikrofon 14 innerhalb der Kabine des Fahrzeugs in Kommunikation. Das Benutzermikrofon 14 ist konfiguriert, um Sprachsignale (z. B. Befehle) zu detektieren, die von einem Benutzer in der Kabine des Fahrzeugs gesprochen werden. Das Benutzermikrofon 14 stellt der Steuereinheit 12 ein elektronisches Signal bereit, welches das Sprachsignal angibt. Unter gewöhnlichen, realistischen Betriebsbedingungen des Fahrzeugs gibt es eine gewisse Menge an Geräuschen in der Kabine. Daher ist das vom Benutzermikrofon 14 detektierte Sprachsignal ein verrauschtes Sprachsignal. Das Benutzermikrofon 14 stellt der Steuereinheit 12 daher, wie in 1 angegeben, ein elektronisches Signal 16 bereit, welches das verrauschte Sprachsignal angibt.
Die Steuereinheit 12 ist ferner mit einem oder mehreren Kabinengeräuschmikrofonen 18 in Kommunikation. Die Kabinengeräuschmikrofone 18 sind an verschiedenen Stellen innerhalb der Kabine und sind konfiguriert, um die Geräusche in der Kabine zu detektieren. Die Kabinengeräuschmikrofone 18 stellen der Steuereinheit 12 ein elektronisches Signal 20 bereit, welches die Kabinengeräusche angibt.
Die Steuereinheit 12 ist ferner mit dem CAN-Bus 22 des Fahrzeugs in Kommunikation. Elektronische Signale, welche Fahrzeugparameter angeben, werden über den CAN-Bus 22 kommuniziert. Die Steuereinheit 12 empfängt vom CAN-Bus 22 ein elektronisches Signal 24, welches Fahrzeugparameter wie z. B. die Fahrzeuggeschwindigkeit, die Motordrehzahl und die Klimaanlageneinstellungen angibt.
Die Steuereinheit 12 ist ferner mit tragbaren Geräten 26, die vom Benutzer getragen werden, in Kommunikation. Die Steuereinheit 12 empfängt von den tragbaren Geräten 26 ein elektronisches Signal 28, welches Kontextinformationen angibt.
Die Steuereinheit 12 umfasst eine (mit dem Ausdruck „Geräuschquantifizierung“ gekennzeichnete) Prozessorstufe 30, um eine Geräuschquantifizierungsoperation durchzuführen. Die Prozessorstufe 30 empfängt das elektronische Signal 20, welches die Kabinengeräusche angibt, von den Kabinengeräuschmikrofonen 18, das elektronische Signal 24, welches die Fahrzeugparameter angibt, vom CAN-Bus 22, und das elektronische Signal 28, welches die Kontextinformationen angibt, von den tragbaren Geräten 26. Die Prozessorstufe 30 verarbeitet die elektronischen Signale 20, 24 und 28, um die Geräusche zu quantifizieren, die in der Fahrzeugkabine vorhanden sind. Die Prozessorstufe 30 erzeugt ein elektronisches Signal 32, welches die quantifizierten Geräusche angibt.
Auf diese Weise quantifiziert die Prozessorstufe 30 die Geräusche anhand mehrerer unterschiedlicher Mittel, einschließlich Informationen, welche die Fahrzeugkabinengeräusche angeben, von den Kabinengeräuschmikrofonen 18, die eine passive Geräuschanalyse durchführen, Informationen vom CAN-Bus 22, welche Fahrzeugparameter wie z. B. die Fahrzeuggeschwindigkeit, die Motordrehzahl und Klimaanlageneinstellungen angeben, und/oder Kontextinformationen von tragbaren Geräten 26. Die quantifizierten Geräusche geben die Auswirkungen des Lombard-Effekts an. Dabei schätzt die Prozessorstufe 30 die Auswirkungen des Lombard-Effekts, indem verschiedene Eingangssignale (z. B. detektierte Kabinengeräusche, Fahrzeugparameter und Kontextinformationen) betreffend die Kabinengeräusche in einem Fahrzeug berücksichtigt werden.
Die Steuereinheit 12 umfasst ferner eine (mit dem Ausdruck „optimales akustisches Modell ausgewählt“ gekennzeichnete) Prozessorstufe 34, um eine Operation zur Auswahl eines optimalen akustischen Modells durchzuführen. Die Prozessorstufe 34 hat Zugang zu einer (in 3 gezeigten) Bibliothek 36 von vorher erstellten akustischen Modellen. Die Bibliothek 36 enthält mehrere akustische Modelle, die in ein einzelnes Fahrzeugsystem eingegeben wurden. Die akustischen Modelle der Bibliothek 36 werden vorher erstellt, indem sie in einer Laborumgebung trainiert werden, um die wichtigen Anwendungsfälle zu erfassen. Dabei entspricht jedes akustische Modell in der Bibliothek 36 einem entsprechenden der Anwendungsfälle.
Die Prozessorstufe 34 empfängt ein elektronisches Signal 32, welches die quantifizierten Geräusche angibt, von der Prozessorstufe 30. Die Prozessorstufe 34 wählt eines aus den akustischen Modellen aus der Bibliothek 36 als Funktion der quantifizierten Geräusche aus. Die Funktion korreliert die Geräusche mit dem am besten repräsentativen akustischen Modell. Das bedeutet, dass die Prozessorstufe 34 aus der Bibliothek 36 das akustische Modell auswählt, das relativ zu den anderen akustischen Modellen in der Bibliothek 36 den quantifizierten Geräuschen am besten entspricht. Das von der Prozessorstufe 34 ausgewählte akustische Modell ist das akustische Modell, das am besten trainiert ist, um dem verrauschten Sprachsignal gerecht zu werden, das aufgrund der Geräusche, die quantifiziert werden, verrauscht ist. Auf diese Weise wählt die Prozessorstufe 34 dynamisch ein geeignetes akustisches Modell aus der Bibliothek 36 akustischer Modelle als eine Funktion von Fahrzeugparametern und Umgebungsgeräuschen aus. Die Prozessorstufe 34 gibt ein elektronisches Signal 38 aus, welches das ausgewählte akustische Modell angibt.
Die Steuereinheit 12 umfasst ferner eine (mit dem Ausdruck „Anwendung des ausgewählten akustischen Modells auf verrauschte Sprachsignale“ gekennzeichnete) Prozessorstufe 40, um das verrauschte Sprachsignal mit dem ausgewählten akustischen Modell zu verarbeiten. Die Prozessorstufe 40 empfängt das elektronische Signal 16, welches das verrauschte Sprachsignal angibt, vom Benutzermikrofon 14 und empfängt das akustische Signal 38, welches das ausgewählte akustische Modell angibt, von der Prozessorstufe 34. Die Prozessorstufe 40 wendet das ausgewählte akustische Modell auf das verrauschte Sprachsignal an, um die Erkennung der Sprache zu verbessern, und gibt ein elektronisches Signal 42 aus, welches die Sprache angibt.
Ein (mit dem Ausdruck „Sprachsignal erkannt“ gekennzeichneter) Empfänger 44 des ASR-Systems 10 empfängt ein elektronisches Signal 42, welches das Sprachsignal angibt. Der Empfänger 44 vergleicht das Sprachsignal mit einer Liste von Befehlen oder Ähnlichem, um das Sprachsignal zu erkennen, und reagiert entsprechend auf das erkannte Sprachsignal.
Wie beschrieben, stellt die Steuereinheit 12 gemeinsam mit dem Benutzermikrofon 14, den Kabinengeräuschmikrofonen 18, dem CAN-Bus 22 und den tragbaren Geräten 26 ein akustisches Modellsystem mit dynamischem Umschalten bereit. Die Steuereinheit 12 quantifiziert Geräusche auf Basis verschiedener Eingangssignale, wählt ein akustisches Modell auf Basis der quantifizierten Geräusche aus und wendet das ausgewählte akustische Modell auf das verrauschte Sprachsignal an, um die Erkennung des Sprachsignals zu verbessern. Die Steuereinheit 12 führt diese Operation kontinuierlich durch, sodass, wenn sich die Geräusche ändern, die Steuereinheit ein anderes akustisches Modell auswählt, das am besten für die anderen Geräusche geeignet ist, und wendet dieses ausgewählte akustische Modell auf das verrauschte Sprachsignal an, um die Erkennung des Sprachsignals zu verbessern. Auf diese Weise setzt die Steuereinheit 12 ein dynamisches Umschalten zwischen akustischen Modellen ein, um die Spracherkennungsleistung zu verbessern.
In einer Variante detektiert das Benutzermikrofon 14 Umgebungsgeräusche in der Kabine und kommuniziert Informationen, welche die detektierten Umgebungsgeräusche angeben, an die Steuereinheit 12. Auf diese Weise fungiert das Benutzermikrofon 14 zusätzlich zum Detektieren von Sprachsignalen, die von einem Benutzer in der Kabine gesprochen werden, als ein Kabinengeräuschmikrofon, das konfiguriert ist, um Umgebungsgeräusche in der Kabine zu detektieren. Dabei kann das Benutzermikrofon 14 verwendet werden, um Umgebungsgeräusche in der Kabine zu erfassen, wenn kein Kabinenmikrofon verfügbar ist, um dies zu tun.
Nun auf 2 Bezug nehmend und unter weiterer Bezugnahme auf 1 wird ein Blockdiagramm gezeigt, welches die Operationen des ASR-Systems 10 zur Geräuschquantifizierung und zur akustischen Modellidentifikation darstellt. Wie oben beschrieben, dient die Prozessorstufe 30 der Steuereinheit 12 des ASR-Systems 10 dem Durchführen einer Geräuschquantifizierungsoperation. Wie in 2 gezeigt, umfasst die Prozessorstufe 30 eine erste Prozessor-Unterstufe 30a und eine zweite Prozessor-Unterstufe 30b. Die erste Prozessor-Unterstufe 30a empfängt das elektronische Signal 24, welches die Fahrzeugparameter angibt, vom CAN-Bus 22, und die zweite Prozessor-Unterstufe 30b empfängt das elektronische Signal 20, welches die Kabinengeräusche angibt, von den Kabinengeräuschmikrofonen 18.
Die erste (mit dem Ausdruck „Geräusch-Schätzfunktion“ gekennzeichnete) Prozessor-Unterstufe 30a dient dem Schätzen des Lombard-Effekts auf Basis der Fahrzeugparameter. Die erste Prozessor-Unterstufe 30a erzeugt ein elektronisches Signal 32a, welches den geschätzten Lombard-Effekt auf Basis der Fahrzeugparameter angibt. Die zweite (mit dem Ausdruck „Kabinengeräusch-Spektralanalyse“ gekennzeichnete) Prozessor-Unterstufe 30b erzeugt ein elektronisches Signal 32b, welches den geschätzten Lombard-Effekt auf Basis der Kabinengeräusche angibt. Die elektronischen Signale 32a und 32b geben in Verbindung miteinander die quantifizierte Geräuschumgebung an, welche das Gesamtergebnis der Geräuschquantifizierungsoperation der Prozessorstufe 30 ist.
Die (in 2 mit dem Ausdruck „Bestimmung des optimalen akustischen Modells“ gekennzeichnete) Prozessorstufe 34 der Steuereinheit 12 empfängt die elektronischen Signale 32a und 32b, welche den geschätzten Lombard-Effekt auf Basis von Fahrzeug-Parametern beziehungsweise Kabinengeräuschen angeben. Die Prozessorstufe 34 wählt eines der akustischen Modelle aus der (in 3 gezeigten) Bibliothek 36 als Funktion des geschätzten Lombard-Effekts auf Basis von Fahrzeugparametern und Kabinengeräuschen aus. Allgemeiner gesagt wählt die Prozessorstufe 34 eines der akustischen Modelle auf Basis der quantifizierten Geräusche aus der Bibliothek 36 aus. Auf diese Weise wählt die Prozessorstufe 34 das akustische Modell aus der Bibliothek 36 aus, das den quantifizierten Geräuschen am besten entspricht.
Die Prozessorstufe 34 gibt ein elektronisches Kalibrierungssignal 46 aus, das angibt, welches akustische Modell die Prozessorstufe 34 ausgewählt hat. Unter Bezugnahme auf 3, leitet die Prozessorstufe 34 das elektronische Kalibrierungssignal 46 an die Bibliothek 36, sodass die Prozessorstufe 40 der Steuereinheit 12 auf das ausgewählte akustische Modell zugreifen kann. Die Prozessorstufe 40 wendet dann das ausgewählte akustische Modell auf das verrauschte Sprachsignal an.
In einer Variante umfasst die Operation der Prozessorstufe 34 des Auswählens eines akustischen Modells aus der Bibliothek 36, dass die Prozessorstufe 34 die akustischen Modelle gemäß dem geschätzten Lombard-Effekt auf Basis der Kabinengeräusche vorauswählt, um eine Untergruppe von in Frage kommenden akustischen Modellen zu erhalten, und dann die Untergruppe von in Frage kommenden akustischen Modellen gemäß dem geschätzten Lombard-Effekt auf Basis der Fahrzeugparameter weiter eingrenzt, um das am besten geeignete akustische Modell aus der Untergruppe von in Frage kommenden akustischen Modellen auszuwählen. Als ein Beispiel verwendet die Prozessorstufe 34 Informationen aus einer dB-Pegel-/Spektralanalyse der Kabinengeräusche gemäß dem elektronischen Signal 32b, um die Auswahl akustischer Modelle aus der Bibliothek 36 vorauszuwählen. Die Prozessorstufe 34 verwendet danach Fahrzeugparameterinformationen wie z. B. die Motordrehzahl und die Klimaanlageneinstellung gemäß dem elektronischen Signal 32a, um die Auswahl weiter einzugrenzen. Die Prozessorstufe 34 grenzt die Auswahl auf diese Weise weiter ein, da sich ein akustisches Modell für Motorgeräusche von einem akustischen Modell für Klimaanlagengeräusche aufgrund der spektralen Natur der Geräusche unterscheiden kann.
Wie beschrieben, zeigt 2 in Verbindung mit 3 das ASR-System 10, welches zuerst die Geräusche quantifiziert und danach eine nachschlagtabellenartige Funktion benutzt, um das optimale akustische Modell in der Bibliothek 36 zu identifizieren.
Die akustischen Modelle in der in 3 veranschaulichten Bibliothek 36 sind mit der allgemeinen Bezugszahl 48 gekennzeichnet. Die akustischen Modelle 48 sind mit dem Ausdruck AM ‚x‘ versehen, wobei ‚x‘ eine eindeutige Identifikationszahl ist. Als ein Beispiel ist das akustische Modell „AM 5“ 48a das akustische Modell, das vom elektronischen Kalibrierungssignal 46 als das akustische Modell identifiziert wird, das von der Prozessorstufe 34 der Steuereinheit 12 ausgewählt wurde.
Das Blockdiagramm in 3 stellt die akustische Modellauswahl und die Verwendung des ausgewählten akustischen Modells für Spracherkennungsoperationen des ASR-Systems 10 dar. Während des Betriebs gibt die Prozessorstufe 34 ein elektronisches Kalibrierungssignal 46 aus, welches das ausgewählte akustische Modell der Bibliothek 36 angibt. Die Prozessorstufe 40 greift wiederum auf das ausgewählte akustische Modell zu und wendet das ausgewählte akustische Modell auf das verrauschte Sprachsignal an, um das Sprachsignal zu erkennen.
3 zeigt das in einem Fahrzeug verfügbare ASR-System 10 mit einer Bibliothek 36 aus N akustischen Modellen und wie das ASR-System eines der akustischen Modelle (z. B. das akustische Modell 48a), das vom elektronischen Kalibrierungssignal 46 bestimmt wird, auswählt und das ausgewählte akustische Modell auf das verrauschte Sprachsignal anwendet. Wie hier beschrieben, hängt das ausgewählte akustische Modell allein von der Geräuschanalyse ab.
Obwohl oben beispielhafte Ausführungsformen beschrieben werden, wird nicht beabsichtigt, dass diese Ausführungsformen alle möglichen Formen der Erfindung beschreiben. Vielmehr sind die in der Beschreibung verwendeten Worte Worte der Beschreibung als der Einschränkung, und es versteht sich, dass verschiedene Änderungen vorgenommen werden können, ohne vom Sinn und Schutzumfang der Erfindung abzuweichen. Darüber hinaus können die Merkmale verschiedener implementierender Ausführungsformen kombiniert werden, um weitere Ausführungsformen der Erfindung auszubilden.

Claims

Automatisches Spracherkennungssystem für ein Fahrzeug, umfassend: eine Steuereinheit, die konfiguriert ist, um ein akustisches Modell aus einer Bibliothek akustischer Modelle auf Basis von Umgebungsgeräuschen in einer Kabine des Fahrzeugs und von Betriebsparametern des Fahrzeugs auszuwählen und das ausgewählte akustische Modell auf ein verrauschtes Sprachsignal anzuwenden, um die Spracherkennung zu verbessern.
Automatisches Spracherkennungssystem nach Anspruch 1, ferner umfassend: eine Vielzahl von Kabinengeräuschmikrofonen, die konfiguriert sind, um Umgebungsgeräusche in der Kabine des Fahrzeugs zu detektieren; und wobei die Steuereinheit mit den Kabinengeräuschmikrofonen in Kommunikation ist, um Informationen zu empfangen, welche die Umgebungsgeräusche in der Kabine des Fahrzeugs angeben.
Automatisches Spracherkennungssystem nach Anspruch 1, worin: die Steuereinheit mit einem Controller-Area-Network(CAN)-Bus des Fahrzeugs in Kommunikation ist, um Informationen zu erhalten, welche die Betriebsparameter des Fahrzeugs angeben.
Automatisches Spracherkennungssystem nach Anspruch 3, worin: die Informationen, welche die Betriebsparameter des Fahrzeugs angeben, Informationen umfassen, welche die Fahrzeugmotordrehzahl, die Fahrzeuggeschwindigkeit und die Einstellungen für die Fahrzeugklimaanlage angeben.
Automatisches Spracherkennungssystem nach Anspruch 1, worin: die Steuereinheit ferner konfiguriert ist, um das akustische Modell dadurch auszuwählen, indem zuerst eine Untergruppe der akustischen Modelle aus der Bibliothek auf Basis der Umgebungsgeräusche in der Kabine des Fahrzeugs ausgewählt wird und anschließend das akustische Modell aus der Untergruppe der akustischen Modelle auf Basis der Betriebsparameter des Fahrzeugs ausgewählt wird.
Automatisches Spracherkennungssystem nach Anspruch 1, worin: die Steuereinheit mit einem tragbaren Gerät, das von einem Benutzer des Fahrzeugs getragen wird, in Kommunikation ist, um Kontextinformationen von dem tragbaren Gerät zu erhalten; und die Steuereinheit ferner konfiguriert ist, um das akustische Modell auf Basis von Hintergrundgeräuschen in der Kabine des Fahrzeugs, Betriebsparametern des Fahrzeugs und den Kontextinformationen aus der Bibliothek auszuwählen.
Automatisches Spracherkennungssystem nach Anspruch 1, worin: die Steuereinheit mit einem Benutzermikrofon in der Kabine des Fahrzeugs in Kommunikation ist, um das verrauschte Sprachsignal zu empfangen.
Automatisches Spracherkennungssystem nach Anspruch 1, worin: sich die akustischen Modelle in der Bibliothek voneinander unterscheiden, da die akustischen Modelle jeweils unterschiedlichen Anwendungsfällen entsprechen.
Automatisches Spracherkennungssystem nach Anspruch 1, worin: die akustischen Modelle akustische Lombard-Effekt-Modelle sind.
Automatisches Spracherkennungssystem nach Anspruch 1, worin: die Steuereinheit ferner konfiguriert ist, um einen Lombard-Effekt des verrauschten Sprachsignals auf Basis der Umgebungsgeräusche in der Kabine des Fahrzeugs und der Betriebsparameter des Fahrzeugs zu schätzen; und die Steuereinheit ferner konfiguriert ist, um das akustische Modell aus der Bibliothek von akustischen Modellen auf Basis des geschätzten Lombard-Effekts auszuwählen.
Automatisches Spracherkennungssystem nach Anspruch 1, worin: die Steuereinheit ferner konfiguriert ist, eine Lombard-Effekt-Komponente des verrauschten Sprachsignals auf Basis eines dB-Pegels und einer Spektralanalyse der Umgebungsgeräusche in der Kabine des Fahrzeugs zu schätzen und auf Basis der Betriebsparameter des Fahrzeugs eine Lombard-Effekt-Komponente des verrauschten Sprachsignals zu schätzen; und die Steuereinheit ferner konfiguriert ist, um das akustische Modell aus der Bibliothek akustischer Modelle auf Basis der geschätzten Lombard-Effekt-Komponenten auszuwählen.
Automatisches Spracherkennungsverfahren für ein Fahrzeug, wobei das Verfahren Folgendes umfasst: Auswählen eines akustischen Modells aus einer Bibliothek akustischer Modelle auf Basis von Umgebungsgeräuschen in einer Kabine des Fahrzeugs und von Betriebsparametern des Fahrzeugs; und Anwenden des ausgewählten akustischen Modells auf ein verrauschtes Sprachsignal, um die Spracherkennung zu verbessern.
Automatisches Spracherkennungsverfahren nach Anspruch 12, ferner umfassend: Empfangen von Informationen, welche die Umgebungsgeräusche in der Kabine des Fahrzeugs angeben, von einer Vielzahl von Kabinengeräuschmikrofonen.
Automatisches Spracherkennungsverfahren nach Anspruch 12, ferner umfassend: Empfangen von Informationen, welche die Betriebsparameter des Fahrzeugs angeben, von einem Controller-Network-Area(CAN)-Bus des Fahrzeugs.
Automatisches Spracherkennungsverfahren nach Anspruch 12, ferner umfassend: Auswählen des akustischen Modells, indem zuerst auf Basis der Umgebungsgeräusche in der Kabine des Fahrzeugs eine Untergruppe der akustischen Modelle aus der Bibliothek ausgewählt wird und danach auf Basis der Betriebsparameter des Fahrzeugs das akustische Modell aus der Untergruppe akustischer Modelle ausgewählt wird.
Automatisches Spracherkennungsverfahren nach Anspruch 12, ferner umfassend: Empfangen von Kontextinformationen von einem tragbaren Gerät, das von einem Benutzer des Fahrzeugs getragen wird; und Auswählen des akustischen Modells ferner auf Basis der Kontextinformationen.
Automatisches Spracherkennungsverfahren nach Anspruch 12, ferner umfassend: Empfangen des verrauschten Sprachsignals von einem Benutzermikrofon in der Kabine des Fahrzeugs.
Automatisches Spracherkennungsverfahren nach Anspruch 17, ferner umfassend: Empfangen von Informationen, welche die Umgebungsgeräusche in der Kabine des Fahrzeugs angeben, vom Benutzermikrofon.
Automatisches Spracherkennungsverfahren nach Anspruch 12, ferner umfassend: Schätzen eines Lombard-Effekts des verrauschten Sprachsignals auf Basis der Umgebungsgeräusche in der Kabine des Fahrzeugs und der Betriebsparameter des Fahrzeugs; sowie Auswählen des akustischen Modells aus der Bibliothek akustischer Modelle auf Basis des geschätzten Lombard-Effekts.
Automatisches Spracherkennungsverfahren nach Anspruch 12, ferner umfassend: Schätzen einer Lombard-Effekt-Komponente des verrauschten Sprachsignals auf Basis eines dB-Pegels und einer Spektralanalyse der Umgebungsgeräusche in der Kabine des Fahrzeugs; Schätzen einer Lombard-Effekt-Komponente des verrauschten Sprachsignals auf Basis der Betriebsparameter des Fahrzeugs; sowie Auswählen des akustischen Modells aus der Bibliothek akustischer Modelle auf Basis der geschätzten Lombard-Effekt-Komponenten.