DE102016125104A1 - Dynamisches umschalten von akustischen modellen zur verbesserung der erkennung verrauschter sprachsignale - Google Patents

Dynamisches umschalten von akustischen modellen zur verbesserung der erkennung verrauschter sprachsignale Download PDF

Info

Publication number
DE102016125104A1
DE102016125104A1 DE102016125104.6A DE102016125104A DE102016125104A1 DE 102016125104 A1 DE102016125104 A1 DE 102016125104A1 DE 102016125104 A DE102016125104 A DE 102016125104A DE 102016125104 A1 DE102016125104 A1 DE 102016125104A1
Authority
DE
Germany
Prior art keywords
vehicle
cabin
speech recognition
acoustic model
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102016125104.6A
Other languages
English (en)
Inventor
Ali Hassani
Scott Andrew Amman
Francois Charette
Brigitte Frances Mora Richardson
Gintaras Vincent Puskorius
An Jl
Ranjani Rangarajan
John Edward Huber
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ford Global Technologies LLC
Original Assignee
Ford Global Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ford Global Technologies LLC filed Critical Ford Global Technologies LLC
Publication of DE102016125104A1 publication Critical patent/DE102016125104A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

Ein automatisches Spracherkennungssystem für ein Fahrzeug umfasst eine Steuereinheit, die konfiguriert ist, um ein akustisches Modell aus einer Bibliothek akustischer Modelle auf Basis von Hintergrundgeräuschen in einer Kabine des Fahrzeugs und von Betriebsparametern des Fahrzeugs auszuwählen. Die Steuereinheit ist ferner konfiguriert, um das ausgewählte akustische Modell auf ein verrauschtes Sprachsignal anzuwenden, um die Spracherkennung zu verbessern.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Offenbarung betrifft das dynamische Umschalten zwischen akustischen Modellen, um die Spracherkennungsleistung zu verbessern.
  • HINTERGRUND
  • Das Erlebnis eines Benutzers in einem Fahrzeug kann aufgewertet werden, indem verbessert wird, wie Benutzer mit ihren Fahrzeugen über die Sprache interagieren. In dieser Hinsicht ist es wünschenswert, die Fähigkeit eines automatischen Spracherkennungs(ASR)-Systems eines Fahrzeugs zu verbessern, Sprachbefehle konsequent zu erkennen, während das Fahrzeug unter verschiedenen Betriebsbedingungen betrieben wird.
  • Herkömmliche akustische Modelle sind statisch und für eine Vielzahl von Betriebsbedingungen trainiert, die als typisch für ASR-Anwendungsfälle betrachtet werden. Bei einem Fahrzeug umfassen typische Betriebsbedingungen den Fahrzeugstillstand auf einem Parkplatz, das Lenken des Fahrzeugs auf der Autobahn bei geschlossenen Fenstern, das Lenken des Fahrzeugs auf der Autobahn bei offenen Fenstern etc. Die Struktur des Fahrzeugs wie z. B. die Menge an Isolierung in der Fahrzeugkabine, Kraftstoffeffizienz-Strukturcharakteristika des Fahrzeugs etc. werden ebenfalls berücksichtigt. Die typischen Betriebsbedingungen weisen signifikant unterschiedliche Hintergrundgeräuschpegel auf, die grundsätzlich eine Herausforderung bei der Erstellung eines statischen akustischen Modells darstellen. Folglich ist ein einziges, statisches akustisches Modell nicht dazu fähig, unter verschiedenen Betriebsbedingungen gut zu funktionieren.
  • Der Lombard-Effekt ist eine menschliche Reaktion auf Umgebungsgeräusche, wobei der Sprecher als Kompensationsmechanismus lauter spricht. Zusätzlich dazu, dass der Lombard-Effekt eine Erhöhung der Ausgangslautstärke eines Sprachsignals ist, wird die spektrale Dichte des Sprachsignals hin zu höheren Frequenzen verschoben, und die Dauer von Phonemen nimmt zu. Diese spektralen Änderungen stellen für Spracherkennungsmaschinen mehr als die Abnahme des Signal-Rausch-Verhältnisses eine Herausforderung dar. Deshalb besteht eine Problemstellung darin, dass ein robustes akustisches Modell trotz der spektralen Änderungen sowohl für neutrale (Nicht-Lombard-)Sprachsignale als auch für verrauschte (Lombard-)Signale gleich gut funktioniert.
  • ZUSAMMENFASSUNG
  • Ein automatisches Spracherkennungssystem für ein Fahrzeug umfasst eine Steuereinheit. Die Steuereinheit ist konfiguriert, um ein akustisches Modell aus einer Bibliothek von akustischen Modellen auf Basis von Umgebungsgeräuschen in einer Kabine des Fahrzeugs und von Betriebsparametern des Fahrzeugs auszuwählen. Die Steuereinheit ist ferner konfiguriert, um das ausgewählte akustische Modell auf ein verrauschtes Sprachsignal anzuwenden, um die Erkennung des Sprachsignals zu verbessern.
  • Das System kann ferner Kabinengeräuschmikrofone umfassen, die konfiguriert sind, um Umgebungsgeräusche in der Kabine des Fahrzeugs zu detektieren. Die Steuereinheit kann mit den Kabinengeräuschmikrofonen in Kommunikation sein, um Informationen zu empfangen, welche die Umgebungsgeräusche in der Kabine des Fahrzeugs angeben.
  • Die Steuereinheit kann mit einem Controller-Area-Network(CAN)-Bus des Fahrzeugs in Kommunikation sein, um Informationen zu erhalten, welche die Betriebsparameter des Fahrzeugs angeben. Die Informationen, welche die Betriebsparameter des Fahrzeugs angeben, können Informationen umfassen, welche die Fahrzeugmotordrehzahl, die Fahrzeuggeschwindigkeit und die Klimaanlageneinstellungen des Fahrzeugs angeben.
  • Die Steuereinheit kann ferner konfiguriert sein, um das akustische Modell auszuwählen, indem zuerst auf Basis der Umgebungsgeräusche in der Kabine des Fahrzeugs eine Untergruppe der akustischen Modelle aus der Bibliothek ausgewählt wird und danach das akustische Modell auf Basis der Betriebsparameter des Fahrzeugs aus der Untergruppe der akustischen Modelle ausgewählt wird.
  • Die Steuereinheit kann mit einem tragbaren Gerät in Kommunikation sein, das von einem Benutzer des Fahrzeugs getragen wird, um Kontextinformationen von dem tragbaren Gerät zu erhalten. Die Steuereinheit kann ferner konfiguriert sein, um das akustische Modell auf Basis von Umgebungsgeräuschen in der Kabine des Fahrzeugs, von Betriebsparametern des Fahrzeugs und der Kontextinformationen aus der Bibliothek akustischer Modelle auszuwählen.
  • Die Steuereinheit kann mit einem Benutzermikrofon in der Kabine des Fahrzeugs in Kommunikation sein, um das verrauschte Sprachsignal zu empfangen.
  • Die akustischen Modelle können akustische Lombard-Effekt-Modelle sein.
  • Die Steuereinheit kann ferner konfiguriert sein, um einen Lombard-Effekt des verrauschten Sprachsignals auf Basis der Umgebungsgeräusche in der Kabine des Fahrzeugs und der Betriebsparameter des Fahrzeugs zu schätzen und das akustische Modell auf Basis des geschätzten Lombard-Effekts aus der Bibliothek akustischer Modelle auswählen.
  • Die Steuereinheit kann ferner konfiguriert sein, um auf Basis eines dB-Pegels und einer Spektralanalyse der Umgebungsgeräusche in der Kabine des Fahrzeugs eine Lombard-Effekt-Komponente des verrauschten Sprachsignals zu schätzen, auf Basis der Betriebsparameter des Fahrzeugs eine Lombard-Effekt-Komponente des verrauschten Sprachsignals zu schätzen und das akustische Modell auf Basis der geschätzten Lombard-Effekt-Komponenten aus der Bibliothek akustischer Modelle auszuwählen.
  • Ein automatisches Spracherkennungsverfahren für ein Fahrzeug umfasst das Auswählen eines akustischen Modells aus einer Bibliothek akustischer Modelle auf Basis von Umgebungsgeräuschen in einer Kabine des Fahrzeugs und von Betriebsparametern des Fahrzeugs. Das Verfahren umfasst ferner das Anwenden des ausgewählten akustischen Modells auf das verrauschte Sprachsignal, um die Erkennung des Sprachsignals zu verbessern.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • 1 veranschaulicht ein Blockdiagramm eines automatischen Spracherkennungs(ASR)-Systems zur Verwendung in einem Fahrzeug;
  • 2 veranschaulicht ein Blockdiagramm, welches die Operationen zur Geräuschquantifizierung und zur Identifizierung eines akustischen Modells des ASR-Systems darstellt; und
  • 3 veranschaulicht ein Blockdiagramm, welches die Auswahl eines akustischen Modells und die Verwendung des ausgewählten akustischen Modells für Spracherkennungsoperationen des ASR-Systems darstellt.
  • DETAILBESCHREIBUNG
  • Hier werden detaillierte Ausführungsformen der vorliegenden Erfindung offenbart; es versteht sich jedoch, dass die offenbarten Ausführungsformen lediglich beispielhaft für die Erfindung sind, welche in verschiedenen und alternativen Formen ausgeführt werden kann. Die Figuren sind nicht notwendigerweise maßstabsgetreu; einige Merkmale können übertrieben oder minimiert sein, um Einzelheiten bestimmter Komponenten zu zeigen. Daher sollen hier offenbarte, spezielle strukturelle und funktionale Details nicht als einschränkend interpretiert werden, sondern lediglich als repräsentative Basis, um einen Fachmann anzuleiten, die vorliegende Erfindung auf unterschiedliche Weise einzusetzen.
  • Die vorliegende Offenbarung stellt automatische Spracherkennungs(ASR)-Systeme und Verfahren bereit, die ein dynamisches Umschalten zwischen akustischen Lombard-Effekt-Modellen („akustischen Modellen“) einsetzen, um die Spracherkennungsleistung zu verbessern. Die ASR-Systeme und -Verfahren nutzen Daten, die über den hervorgerufenen Lombard-Effekt gesammelt werden, um den Geräuschtyp mit Änderungen der spektralen Bestandteile in Verbindung zu bringen, um sowohl reinen als auch verrauschten Sprachsignalen gerecht zu werden.
  • Wie oben im Abschnitt „Hintergrund“ angegeben, besteht ein Problem darin, dass ein robustes akustisches Modell trotz der spektralen Änderungen sowohl für neutrale (Nicht-Lombard-)Sprachsignale als auch für verrauschte (Lombard-)Signale gleich gut funktioniert. Um dieses Problem zu lösen, setzen die von der vorliegenden Offenbarung bereitgestellten ASR-Systeme und -Verfahren für ein Fahrzeug eine Architektur ein, die die Auswirkungen des Lombard-Effekts schätzt, indem verschiedene Eingangssignale von Kabinengeräuschen im Fahrzeug berücksichtigt werden. Auf diese Weise können die ASR-Systeme und Verfahren sogar dynamisch auf das akustische Modell umschalten, das aus einer Bibliothek von vorher erstellten akustischen Modellen ausgewählt wird, das am besten für diese Situation geeignet ist, um den verschiedenen Arten verrauschter Sprachsignale zusätzlich zu neutralen Sprachsignalen am besten gerecht zu werden.
  • Da eingebettete Plattformen nun grafische Verarbeitungseinheiten (GPUs) mit großen Direktzugriffsspeicher(RAM)-Kapazitäten für enorme Parallelisierungsfähigkeiten umfassen, ist es möglich, mehrere akustische Modelle in ein einzelnes Fahrzeugsystem einzugeben. Die ASR-Systeme und -Verfahren der vorliegenden Offenbarung wählen dynamisch aus einer Bibliothek von vorher ausgelegten, in das Fahrzeugsystem eingegebenen akustischen Modellen ein geeignetes akustisches Modell als eine Funktion der Fahrzeugparameter und der Umgebungsgeräusche aus.
  • Die von der vorliegenden Offenbarung bereitgestellten ASR-Systeme und -Verfahren beinhalten, dass eine Handvoll akustischer Modelle in einer Laborumgebung trainiert wird, in der die Ressourcen verfügbar sind, um die wichtigen Anwendungsfälle zu erfassen. Dann wird eine Funktion generiert, um ein Geräusch mit dem am besten repräsentativen Modell zu korrelieren. Das Geräusch wird durch mehrere unterschiedliche Mittel quantifiziert, welche die folgenden umfassen, aber nicht auf diese beschränkt ist: Informationen, welche Fahrzeugparameter angeben, wie z. B. Informationen vom Controller-Area-Network(CAN)-Bus des Fahrzeugs, über die Fahrzeuggeschwindigkeit, über die Motordrehzahl und die Klimaanlageneinstellungen; Informationen, welche die Kabinengeräusche anzeigen, wie z. B. Informationen von Kabinengeräuschmikrofonen während einer passiven Geräuschanalyse; und/oder Kontextinformationen, die von tragbaren Geräten bereitgestellt werden.
  • Als ein Beispiel verwenden die ASR-Systeme und -Verfahren der vorliegenden Offenbarung in einem Fahrzeug eine Analyse des dB-Pegels/Spektrums der Kabinengeräusche, um die Auswahl akustischer Modelle aus einer Bibliothek vorher trainierter akustischer Modelle vorauszuwählen. Die ASR-Systeme und Verfahren verwenden dann Fahrzeugparameter wie z. B. die Motordrehzahl und die Klimaanlageneinstellungen, um die Auswahl weiter einzugrenzen, da sich das akustische Modell für Motorgeräusche von dem akustischen Modell für Klimaanlagengeräusche aufgrund der spektralen Natur der Geräusche unterscheiden kann. Sobald das am besten repräsentative akustische Modell identifiziert wurde, verwenden die ASR-Systeme und -Verfahren dieses einfach, um die Spracherkennung fertigzustellen. Dieses dynamische Umschalten kann auch verwendet werden, um unterschiedlichen Sprechern Rechnung zu tragen.
  • Nun auf 1 Bezug nehmend, wird ein Blockdiagramm eines automatischen Spracherkennungs(ASR)-Systems 10 zur Verwendung in einem Fahrzeug gezeigt. Das ASR-System 10 umfasst eine Steuereinheit 12. Die Steuereinheit 12 ist mit einem Benutzermikrofon 14 innerhalb der Kabine des Fahrzeugs in Kommunikation. Das Benutzermikrofon 14 ist konfiguriert, um Sprachsignale (z. B. Befehle) zu detektieren, die von einem Benutzer in der Kabine des Fahrzeugs gesprochen werden. Das Benutzermikrofon 14 stellt der Steuereinheit 12 ein elektronisches Signal bereit, welches das Sprachsignal angibt. Unter gewöhnlichen, realistischen Betriebsbedingungen des Fahrzeugs gibt es eine gewisse Menge an Geräuschen in der Kabine. Daher ist das vom Benutzermikrofon 14 detektierte Sprachsignal ein verrauschtes Sprachsignal. Das Benutzermikrofon 14 stellt der Steuereinheit 12 daher, wie in 1 angegeben, ein elektronisches Signal 16 bereit, welches das verrauschte Sprachsignal angibt.
  • Die Steuereinheit 12 ist ferner mit einem oder mehreren Kabinengeräuschmikrofonen 18 in Kommunikation. Die Kabinengeräuschmikrofone 18 sind an verschiedenen Stellen innerhalb der Kabine und sind konfiguriert, um die Geräusche in der Kabine zu detektieren. Die Kabinengeräuschmikrofone 18 stellen der Steuereinheit 12 ein elektronisches Signal 20 bereit, welches die Kabinengeräusche angibt.
  • Die Steuereinheit 12 ist ferner mit dem CAN-Bus 22 des Fahrzeugs in Kommunikation. Elektronische Signale, welche Fahrzeugparameter angeben, werden über den CAN-Bus 22 kommuniziert. Die Steuereinheit 12 empfängt vom CAN-Bus 22 ein elektronisches Signal 24, welches Fahrzeugparameter wie z. B. die Fahrzeuggeschwindigkeit, die Motordrehzahl und die Klimaanlageneinstellungen angibt.
  • Die Steuereinheit 12 ist ferner mit tragbaren Geräten 26, die vom Benutzer getragen werden, in Kommunikation. Die Steuereinheit 12 empfängt von den tragbaren Geräten 26 ein elektronisches Signal 28, welches Kontextinformationen angibt.
  • Die Steuereinheit 12 umfasst eine (mit dem Ausdruck „Geräuschquantifizierung“ gekennzeichnete) Prozessorstufe 30, um eine Geräuschquantifizierungsoperation durchzuführen. Die Prozessorstufe 30 empfängt das elektronische Signal 20, welches die Kabinengeräusche angibt, von den Kabinengeräuschmikrofonen 18, das elektronische Signal 24, welches die Fahrzeugparameter angibt, vom CAN-Bus 22, und das elektronische Signal 28, welches die Kontextinformationen angibt, von den tragbaren Geräten 26. Die Prozessorstufe 30 verarbeitet die elektronischen Signale 20, 24 und 28, um die Geräusche zu quantifizieren, die in der Fahrzeugkabine vorhanden sind. Die Prozessorstufe 30 erzeugt ein elektronisches Signal 32, welches die quantifizierten Geräusche angibt.
  • Auf diese Weise quantifiziert die Prozessorstufe 30 die Geräusche anhand mehrerer unterschiedlicher Mittel, einschließlich Informationen, welche die Fahrzeugkabinengeräusche angeben, von den Kabinengeräuschmikrofonen 18, die eine passive Geräuschanalyse durchführen, Informationen vom CAN-Bus 22, welche Fahrzeugparameter wie z. B. die Fahrzeuggeschwindigkeit, die Motordrehzahl und Klimaanlageneinstellungen angeben, und/oder Kontextinformationen von tragbaren Geräten 26. Die quantifizierten Geräusche geben die Auswirkungen des Lombard-Effekts an. Dabei schätzt die Prozessorstufe 30 die Auswirkungen des Lombard-Effekts, indem verschiedene Eingangssignale (z. B. detektierte Kabinengeräusche, Fahrzeugparameter und Kontextinformationen) betreffend die Kabinengeräusche in einem Fahrzeug berücksichtigt werden.
  • Die Steuereinheit 12 umfasst ferner eine (mit dem Ausdruck „optimales akustisches Modell ausgewählt“ gekennzeichnete) Prozessorstufe 34, um eine Operation zur Auswahl eines optimalen akustischen Modells durchzuführen. Die Prozessorstufe 34 hat Zugang zu einer (in 3 gezeigten) Bibliothek 36 von vorher erstellten akustischen Modellen. Die Bibliothek 36 enthält mehrere akustische Modelle, die in ein einzelnes Fahrzeugsystem eingegeben wurden. Die akustischen Modelle der Bibliothek 36 werden vorher erstellt, indem sie in einer Laborumgebung trainiert werden, um die wichtigen Anwendungsfälle zu erfassen. Dabei entspricht jedes akustische Modell in der Bibliothek 36 einem entsprechenden der Anwendungsfälle.
  • Die Prozessorstufe 34 empfängt ein elektronisches Signal 32, welches die quantifizierten Geräusche angibt, von der Prozessorstufe 30. Die Prozessorstufe 34 wählt eines aus den akustischen Modellen aus der Bibliothek 36 als Funktion der quantifizierten Geräusche aus. Die Funktion korreliert die Geräusche mit dem am besten repräsentativen akustischen Modell. Das bedeutet, dass die Prozessorstufe 34 aus der Bibliothek 36 das akustische Modell auswählt, das relativ zu den anderen akustischen Modellen in der Bibliothek 36 den quantifizierten Geräuschen am besten entspricht. Das von der Prozessorstufe 34 ausgewählte akustische Modell ist das akustische Modell, das am besten trainiert ist, um dem verrauschten Sprachsignal gerecht zu werden, das aufgrund der Geräusche, die quantifiziert werden, verrauscht ist. Auf diese Weise wählt die Prozessorstufe 34 dynamisch ein geeignetes akustisches Modell aus der Bibliothek 36 akustischer Modelle als eine Funktion von Fahrzeugparametern und Umgebungsgeräuschen aus. Die Prozessorstufe 34 gibt ein elektronisches Signal 38 aus, welches das ausgewählte akustische Modell angibt.
  • Die Steuereinheit 12 umfasst ferner eine (mit dem Ausdruck „Anwendung des ausgewählten akustischen Modells auf verrauschte Sprachsignale“ gekennzeichnete) Prozessorstufe 40, um das verrauschte Sprachsignal mit dem ausgewählten akustischen Modell zu verarbeiten. Die Prozessorstufe 40 empfängt das elektronische Signal 16, welches das verrauschte Sprachsignal angibt, vom Benutzermikrofon 14 und empfängt das akustische Signal 38, welches das ausgewählte akustische Modell angibt, von der Prozessorstufe 34. Die Prozessorstufe 40 wendet das ausgewählte akustische Modell auf das verrauschte Sprachsignal an, um die Erkennung der Sprache zu verbessern, und gibt ein elektronisches Signal 42 aus, welches die Sprache angibt.
  • Ein (mit dem Ausdruck „Sprachsignal erkannt“ gekennzeichneter) Empfänger 44 des ASR-Systems 10 empfängt ein elektronisches Signal 42, welches das Sprachsignal angibt. Der Empfänger 44 vergleicht das Sprachsignal mit einer Liste von Befehlen oder Ähnlichem, um das Sprachsignal zu erkennen, und reagiert entsprechend auf das erkannte Sprachsignal.
  • Wie beschrieben, stellt die Steuereinheit 12 gemeinsam mit dem Benutzermikrofon 14, den Kabinengeräuschmikrofonen 18, dem CAN-Bus 22 und den tragbaren Geräten 26 ein akustisches Modellsystem mit dynamischem Umschalten bereit. Die Steuereinheit 12 quantifiziert Geräusche auf Basis verschiedener Eingangssignale, wählt ein akustisches Modell auf Basis der quantifizierten Geräusche aus und wendet das ausgewählte akustische Modell auf das verrauschte Sprachsignal an, um die Erkennung des Sprachsignals zu verbessern. Die Steuereinheit 12 führt diese Operation kontinuierlich durch, sodass, wenn sich die Geräusche ändern, die Steuereinheit ein anderes akustisches Modell auswählt, das am besten für die anderen Geräusche geeignet ist, und wendet dieses ausgewählte akustische Modell auf das verrauschte Sprachsignal an, um die Erkennung des Sprachsignals zu verbessern. Auf diese Weise setzt die Steuereinheit 12 ein dynamisches Umschalten zwischen akustischen Modellen ein, um die Spracherkennungsleistung zu verbessern.
  • In einer Variante detektiert das Benutzermikrofon 14 Umgebungsgeräusche in der Kabine und kommuniziert Informationen, welche die detektierten Umgebungsgeräusche angeben, an die Steuereinheit 12. Auf diese Weise fungiert das Benutzermikrofon 14 zusätzlich zum Detektieren von Sprachsignalen, die von einem Benutzer in der Kabine gesprochen werden, als ein Kabinengeräuschmikrofon, das konfiguriert ist, um Umgebungsgeräusche in der Kabine zu detektieren. Dabei kann das Benutzermikrofon 14 verwendet werden, um Umgebungsgeräusche in der Kabine zu erfassen, wenn kein Kabinenmikrofon verfügbar ist, um dies zu tun.
  • Nun auf 2 Bezug nehmend und unter weiterer Bezugnahme auf 1 wird ein Blockdiagramm gezeigt, welches die Operationen des ASR-Systems 10 zur Geräuschquantifizierung und zur akustischen Modellidentifikation darstellt. Wie oben beschrieben, dient die Prozessorstufe 30 der Steuereinheit 12 des ASR-Systems 10 dem Durchführen einer Geräuschquantifizierungsoperation. Wie in 2 gezeigt, umfasst die Prozessorstufe 30 eine erste Prozessor-Unterstufe 30a und eine zweite Prozessor-Unterstufe 30b. Die erste Prozessor-Unterstufe 30a empfängt das elektronische Signal 24, welches die Fahrzeugparameter angibt, vom CAN-Bus 22, und die zweite Prozessor-Unterstufe 30b empfängt das elektronische Signal 20, welches die Kabinengeräusche angibt, von den Kabinengeräuschmikrofonen 18.
  • Die erste (mit dem Ausdruck „Geräusch-Schätzfunktion“ gekennzeichnete) Prozessor-Unterstufe 30a dient dem Schätzen des Lombard-Effekts auf Basis der Fahrzeugparameter. Die erste Prozessor-Unterstufe 30a erzeugt ein elektronisches Signal 32a, welches den geschätzten Lombard-Effekt auf Basis der Fahrzeugparameter angibt. Die zweite (mit dem Ausdruck „Kabinengeräusch-Spektralanalyse“ gekennzeichnete) Prozessor-Unterstufe 30b erzeugt ein elektronisches Signal 32b, welches den geschätzten Lombard-Effekt auf Basis der Kabinengeräusche angibt. Die elektronischen Signale 32a und 32b geben in Verbindung miteinander die quantifizierte Geräuschumgebung an, welche das Gesamtergebnis der Geräuschquantifizierungsoperation der Prozessorstufe 30 ist.
  • Die (in 2 mit dem Ausdruck „Bestimmung des optimalen akustischen Modells“ gekennzeichnete) Prozessorstufe 34 der Steuereinheit 12 empfängt die elektronischen Signale 32a und 32b, welche den geschätzten Lombard-Effekt auf Basis von Fahrzeug-Parametern beziehungsweise Kabinengeräuschen angeben. Die Prozessorstufe 34 wählt eines der akustischen Modelle aus der (in 3 gezeigten) Bibliothek 36 als Funktion des geschätzten Lombard-Effekts auf Basis von Fahrzeugparametern und Kabinengeräuschen aus. Allgemeiner gesagt wählt die Prozessorstufe 34 eines der akustischen Modelle auf Basis der quantifizierten Geräusche aus der Bibliothek 36 aus. Auf diese Weise wählt die Prozessorstufe 34 das akustische Modell aus der Bibliothek 36 aus, das den quantifizierten Geräuschen am besten entspricht.
  • Die Prozessorstufe 34 gibt ein elektronisches Kalibrierungssignal 46 aus, das angibt, welches akustische Modell die Prozessorstufe 34 ausgewählt hat. Unter Bezugnahme auf 3, leitet die Prozessorstufe 34 das elektronische Kalibrierungssignal 46 an die Bibliothek 36, sodass die Prozessorstufe 40 der Steuereinheit 12 auf das ausgewählte akustische Modell zugreifen kann. Die Prozessorstufe 40 wendet dann das ausgewählte akustische Modell auf das verrauschte Sprachsignal an.
  • In einer Variante umfasst die Operation der Prozessorstufe 34 des Auswählens eines akustischen Modells aus der Bibliothek 36, dass die Prozessorstufe 34 die akustischen Modelle gemäß dem geschätzten Lombard-Effekt auf Basis der Kabinengeräusche vorauswählt, um eine Untergruppe von in Frage kommenden akustischen Modellen zu erhalten, und dann die Untergruppe von in Frage kommenden akustischen Modellen gemäß dem geschätzten Lombard-Effekt auf Basis der Fahrzeugparameter weiter eingrenzt, um das am besten geeignete akustische Modell aus der Untergruppe von in Frage kommenden akustischen Modellen auszuwählen. Als ein Beispiel verwendet die Prozessorstufe 34 Informationen aus einer dB-Pegel-/Spektralanalyse der Kabinengeräusche gemäß dem elektronischen Signal 32b, um die Auswahl akustischer Modelle aus der Bibliothek 36 vorauszuwählen. Die Prozessorstufe 34 verwendet danach Fahrzeugparameterinformationen wie z. B. die Motordrehzahl und die Klimaanlageneinstellung gemäß dem elektronischen Signal 32a, um die Auswahl weiter einzugrenzen. Die Prozessorstufe 34 grenzt die Auswahl auf diese Weise weiter ein, da sich ein akustisches Modell für Motorgeräusche von einem akustischen Modell für Klimaanlagengeräusche aufgrund der spektralen Natur der Geräusche unterscheiden kann.
  • Wie beschrieben, zeigt 2 in Verbindung mit 3 das ASR-System 10, welches zuerst die Geräusche quantifiziert und danach eine nachschlagtabellenartige Funktion benutzt, um das optimale akustische Modell in der Bibliothek 36 zu identifizieren.
  • Die akustischen Modelle in der in 3 veranschaulichten Bibliothek 36 sind mit der allgemeinen Bezugszahl 48 gekennzeichnet. Die akustischen Modelle 48 sind mit dem Ausdruck AM ‚x‘ versehen, wobei ‚x‘ eine eindeutige Identifikationszahl ist. Als ein Beispiel ist das akustische Modell „AM 5“ 48a das akustische Modell, das vom elektronischen Kalibrierungssignal 46 als das akustische Modell identifiziert wird, das von der Prozessorstufe 34 der Steuereinheit 12 ausgewählt wurde.
  • Das Blockdiagramm in 3 stellt die akustische Modellauswahl und die Verwendung des ausgewählten akustischen Modells für Spracherkennungsoperationen des ASR-Systems 10 dar. Während des Betriebs gibt die Prozessorstufe 34 ein elektronisches Kalibrierungssignal 46 aus, welches das ausgewählte akustische Modell der Bibliothek 36 angibt. Die Prozessorstufe 40 greift wiederum auf das ausgewählte akustische Modell zu und wendet das ausgewählte akustische Modell auf das verrauschte Sprachsignal an, um das Sprachsignal zu erkennen.
  • 3 zeigt das in einem Fahrzeug verfügbare ASR-System 10 mit einer Bibliothek 36 aus N akustischen Modellen und wie das ASR-System eines der akustischen Modelle (z. B. das akustische Modell 48a), das vom elektronischen Kalibrierungssignal 46 bestimmt wird, auswählt und das ausgewählte akustische Modell auf das verrauschte Sprachsignal anwendet. Wie hier beschrieben, hängt das ausgewählte akustische Modell allein von der Geräuschanalyse ab.
  • Obwohl oben beispielhafte Ausführungsformen beschrieben werden, wird nicht beabsichtigt, dass diese Ausführungsformen alle möglichen Formen der Erfindung beschreiben. Vielmehr sind die in der Beschreibung verwendeten Worte Worte der Beschreibung als der Einschränkung, und es versteht sich, dass verschiedene Änderungen vorgenommen werden können, ohne vom Sinn und Schutzumfang der Erfindung abzuweichen. Darüber hinaus können die Merkmale verschiedener implementierender Ausführungsformen kombiniert werden, um weitere Ausführungsformen der Erfindung auszubilden.

Claims (20)

  1. Automatisches Spracherkennungssystem für ein Fahrzeug, umfassend: eine Steuereinheit, die konfiguriert ist, um ein akustisches Modell aus einer Bibliothek akustischer Modelle auf Basis von Umgebungsgeräuschen in einer Kabine des Fahrzeugs und von Betriebsparametern des Fahrzeugs auszuwählen und das ausgewählte akustische Modell auf ein verrauschtes Sprachsignal anzuwenden, um die Spracherkennung zu verbessern.
  2. Automatisches Spracherkennungssystem nach Anspruch 1, ferner umfassend: eine Vielzahl von Kabinengeräuschmikrofonen, die konfiguriert sind, um Umgebungsgeräusche in der Kabine des Fahrzeugs zu detektieren; und wobei die Steuereinheit mit den Kabinengeräuschmikrofonen in Kommunikation ist, um Informationen zu empfangen, welche die Umgebungsgeräusche in der Kabine des Fahrzeugs angeben.
  3. Automatisches Spracherkennungssystem nach Anspruch 1, worin: die Steuereinheit mit einem Controller-Area-Network(CAN)-Bus des Fahrzeugs in Kommunikation ist, um Informationen zu erhalten, welche die Betriebsparameter des Fahrzeugs angeben.
  4. Automatisches Spracherkennungssystem nach Anspruch 3, worin: die Informationen, welche die Betriebsparameter des Fahrzeugs angeben, Informationen umfassen, welche die Fahrzeugmotordrehzahl, die Fahrzeuggeschwindigkeit und die Einstellungen für die Fahrzeugklimaanlage angeben.
  5. Automatisches Spracherkennungssystem nach Anspruch 1, worin: die Steuereinheit ferner konfiguriert ist, um das akustische Modell dadurch auszuwählen, indem zuerst eine Untergruppe der akustischen Modelle aus der Bibliothek auf Basis der Umgebungsgeräusche in der Kabine des Fahrzeugs ausgewählt wird und anschließend das akustische Modell aus der Untergruppe der akustischen Modelle auf Basis der Betriebsparameter des Fahrzeugs ausgewählt wird.
  6. Automatisches Spracherkennungssystem nach Anspruch 1, worin: die Steuereinheit mit einem tragbaren Gerät, das von einem Benutzer des Fahrzeugs getragen wird, in Kommunikation ist, um Kontextinformationen von dem tragbaren Gerät zu erhalten; und die Steuereinheit ferner konfiguriert ist, um das akustische Modell auf Basis von Hintergrundgeräuschen in der Kabine des Fahrzeugs, Betriebsparametern des Fahrzeugs und den Kontextinformationen aus der Bibliothek auszuwählen.
  7. Automatisches Spracherkennungssystem nach Anspruch 1, worin: die Steuereinheit mit einem Benutzermikrofon in der Kabine des Fahrzeugs in Kommunikation ist, um das verrauschte Sprachsignal zu empfangen.
  8. Automatisches Spracherkennungssystem nach Anspruch 1, worin: sich die akustischen Modelle in der Bibliothek voneinander unterscheiden, da die akustischen Modelle jeweils unterschiedlichen Anwendungsfällen entsprechen.
  9. Automatisches Spracherkennungssystem nach Anspruch 1, worin: die akustischen Modelle akustische Lombard-Effekt-Modelle sind.
  10. Automatisches Spracherkennungssystem nach Anspruch 1, worin: die Steuereinheit ferner konfiguriert ist, um einen Lombard-Effekt des verrauschten Sprachsignals auf Basis der Umgebungsgeräusche in der Kabine des Fahrzeugs und der Betriebsparameter des Fahrzeugs zu schätzen; und die Steuereinheit ferner konfiguriert ist, um das akustische Modell aus der Bibliothek von akustischen Modellen auf Basis des geschätzten Lombard-Effekts auszuwählen.
  11. Automatisches Spracherkennungssystem nach Anspruch 1, worin: die Steuereinheit ferner konfiguriert ist, eine Lombard-Effekt-Komponente des verrauschten Sprachsignals auf Basis eines dB-Pegels und einer Spektralanalyse der Umgebungsgeräusche in der Kabine des Fahrzeugs zu schätzen und auf Basis der Betriebsparameter des Fahrzeugs eine Lombard-Effekt-Komponente des verrauschten Sprachsignals zu schätzen; und die Steuereinheit ferner konfiguriert ist, um das akustische Modell aus der Bibliothek akustischer Modelle auf Basis der geschätzten Lombard-Effekt-Komponenten auszuwählen.
  12. Automatisches Spracherkennungsverfahren für ein Fahrzeug, wobei das Verfahren Folgendes umfasst: Auswählen eines akustischen Modells aus einer Bibliothek akustischer Modelle auf Basis von Umgebungsgeräuschen in einer Kabine des Fahrzeugs und von Betriebsparametern des Fahrzeugs; und Anwenden des ausgewählten akustischen Modells auf ein verrauschtes Sprachsignal, um die Spracherkennung zu verbessern.
  13. Automatisches Spracherkennungsverfahren nach Anspruch 12, ferner umfassend: Empfangen von Informationen, welche die Umgebungsgeräusche in der Kabine des Fahrzeugs angeben, von einer Vielzahl von Kabinengeräuschmikrofonen.
  14. Automatisches Spracherkennungsverfahren nach Anspruch 12, ferner umfassend: Empfangen von Informationen, welche die Betriebsparameter des Fahrzeugs angeben, von einem Controller-Network-Area(CAN)-Bus des Fahrzeugs.
  15. Automatisches Spracherkennungsverfahren nach Anspruch 12, ferner umfassend: Auswählen des akustischen Modells, indem zuerst auf Basis der Umgebungsgeräusche in der Kabine des Fahrzeugs eine Untergruppe der akustischen Modelle aus der Bibliothek ausgewählt wird und danach auf Basis der Betriebsparameter des Fahrzeugs das akustische Modell aus der Untergruppe akustischer Modelle ausgewählt wird.
  16. Automatisches Spracherkennungsverfahren nach Anspruch 12, ferner umfassend: Empfangen von Kontextinformationen von einem tragbaren Gerät, das von einem Benutzer des Fahrzeugs getragen wird; und Auswählen des akustischen Modells ferner auf Basis der Kontextinformationen.
  17. Automatisches Spracherkennungsverfahren nach Anspruch 12, ferner umfassend: Empfangen des verrauschten Sprachsignals von einem Benutzermikrofon in der Kabine des Fahrzeugs.
  18. Automatisches Spracherkennungsverfahren nach Anspruch 17, ferner umfassend: Empfangen von Informationen, welche die Umgebungsgeräusche in der Kabine des Fahrzeugs angeben, vom Benutzermikrofon.
  19. Automatisches Spracherkennungsverfahren nach Anspruch 12, ferner umfassend: Schätzen eines Lombard-Effekts des verrauschten Sprachsignals auf Basis der Umgebungsgeräusche in der Kabine des Fahrzeugs und der Betriebsparameter des Fahrzeugs; sowie Auswählen des akustischen Modells aus der Bibliothek akustischer Modelle auf Basis des geschätzten Lombard-Effekts.
  20. Automatisches Spracherkennungsverfahren nach Anspruch 12, ferner umfassend: Schätzen einer Lombard-Effekt-Komponente des verrauschten Sprachsignals auf Basis eines dB-Pegels und einer Spektralanalyse der Umgebungsgeräusche in der Kabine des Fahrzeugs; Schätzen einer Lombard-Effekt-Komponente des verrauschten Sprachsignals auf Basis der Betriebsparameter des Fahrzeugs; sowie Auswählen des akustischen Modells aus der Bibliothek akustischer Modelle auf Basis der geschätzten Lombard-Effekt-Komponenten.
DE102016125104.6A 2016-01-21 2016-12-21 Dynamisches umschalten von akustischen modellen zur verbesserung der erkennung verrauschter sprachsignale Withdrawn DE102016125104A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/002,563 US10297251B2 (en) 2016-01-21 2016-01-21 Vehicle having dynamic acoustic model switching to improve noisy speech recognition
US15/002,563 2016-01-21

Publications (1)

Publication Number Publication Date
DE102016125104A1 true DE102016125104A1 (de) 2017-07-27

Family

ID=58462988

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102016125104.6A Withdrawn DE102016125104A1 (de) 2016-01-21 2016-12-21 Dynamisches umschalten von akustischen modellen zur verbesserung der erkennung verrauschter sprachsignale

Country Status (6)

Country Link
US (1) US10297251B2 (de)
CN (1) CN106992002A (de)
DE (1) DE102016125104A1 (de)
GB (1) GB2548681A (de)
MX (1) MX2017000938A (de)
RU (1) RU2017101192A (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10957317B2 (en) 2018-10-18 2021-03-23 Ford Global Technologies, Llc Vehicle language processing

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10593335B2 (en) * 2015-08-24 2020-03-17 Ford Global Technologies, Llc Dynamic acoustic model for vehicle
US10629081B2 (en) * 2017-11-02 2020-04-21 Ford Global Technologies, Llc Accelerometer-based external sound monitoring for backup assistance in a vehicle
CN108022596A (zh) * 2017-11-28 2018-05-11 湖南海翼电子商务股份有限公司 语音信号处理方法及车载电子设备
CN108091341A (zh) * 2017-11-28 2018-05-29 湖南海翼电子商务股份有限公司 语音信号处理方法及车载电子设备
CN109087659A (zh) * 2018-08-03 2018-12-25 三星电子(中国)研发中心 音频优化方法及设备
CN109754803B (zh) * 2019-01-23 2021-06-22 上海华镇电子科技有限公司 车载多音区语音交互系统及方法
CN112581935B (zh) 2019-09-27 2024-09-06 苹果公司 环境感知语音辅助设备以及相关系统和方法
US11501758B2 (en) 2019-09-27 2022-11-15 Apple Inc. Environment aware voice-assistant devices, and related systems and methods
CN112767965B (zh) * 2019-11-01 2023-01-17 博泰车联网科技(上海)股份有限公司 噪声识别模型的生成/应用方法、系统、介质及服务/终端
CN112652304B (zh) * 2020-12-02 2022-02-01 北京百度网讯科技有限公司 智能设备的语音交互方法、装置和电子设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864809A (en) 1994-10-28 1999-01-26 Mitsubishi Denki Kabushiki Kaisha Modification of sub-phoneme speech spectral models for lombard speech recognition
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6889189B2 (en) * 2003-09-26 2005-05-03 Matsushita Electric Industrial Co., Ltd. Speech recognizer performance in car and home applications utilizing novel multiple microphone configurations
DE10360655A1 (de) * 2003-12-23 2005-07-21 Daimlerchrysler Ag Bediensystem für ein Fahrzeug
EP1760696B1 (de) 2005-09-03 2016-02-03 GN ReSound A/S Verfahren und Vorrichtung zur verbesserten Bestimmung von nichtstationärem Rauschen für Sprachverbesserung
US7729911B2 (en) 2005-09-27 2010-06-01 General Motors Llc Speech recognition method and system
US7676363B2 (en) 2006-06-29 2010-03-09 General Motors Llc Automated speech recognition using normalized in-vehicle speech
KR20100101986A (ko) * 2009-03-10 2010-09-20 엘지전자 주식회사 텔레매틱스 단말기, 텔레매틱스 단말기의 음성인식방법 및 컴퓨터로 읽을 수 있는 기록매체
RU2421827C2 (ru) * 2009-08-07 2011-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Способ синтеза речи
US8700394B2 (en) 2010-03-24 2014-04-15 Microsoft Corporation Acoustic model adaptation using splines
US9263040B2 (en) * 2012-01-17 2016-02-16 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance speech recognition
WO2013187932A1 (en) * 2012-06-10 2013-12-19 Nuance Communications, Inc. Noise dependent signal processing for in-car communication systems with multiple acoustic zones
US9798799B2 (en) * 2012-11-15 2017-10-24 Sri International Vehicle personal assistant that interprets spoken natural language input based upon vehicle context
CN104361887A (zh) * 2014-11-20 2015-02-18 哈尔滨工业大学 行车噪声环境下的快速声学事件检测系统
US20160379630A1 (en) * 2015-06-25 2016-12-29 Intel Corporation Speech recognition services

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10957317B2 (en) 2018-10-18 2021-03-23 Ford Global Technologies, Llc Vehicle language processing

Also Published As

Publication number Publication date
GB2548681A (en) 2017-09-27
MX2017000938A (es) 2017-08-11
CN106992002A (zh) 2017-07-28
US20170213549A1 (en) 2017-07-27
US10297251B2 (en) 2019-05-21
GB201701046D0 (en) 2017-03-08
RU2017101192A (ru) 2018-07-18

Similar Documents

Publication Publication Date Title
DE102016125104A1 (de) Dynamisches umschalten von akustischen modellen zur verbesserung der erkennung verrauschter sprachsignale
DE112017004548B4 (de) Verfahren und Vorrichtung zur robusten Geräuschschätzung für eine Sprachverbesserung in variablen Geräuschbedingungen
DE60023517T2 (de) Klassifizierung von schallquellen
DE102017116528B4 (de) Verfahren und Vorrichtung zur Audiosignal-Qualitätsverbesserung basierend auf quantitativer SNR-Analyse und adaptiver Wiener-Filterung
DE60123161T2 (de) Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE102018126133A1 (de) Generieren von Dialog auf Basis von Verifikationswerten
DE102007051261A1 (de) Verfahren und Vorrichtung zur akustischen Beurteilung eines Kraftfahrzeuges
DE102009051508A1 (de) Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und/oder -führung
DE112017007005B4 (de) Akustiksignal-verarbeitungsvorrichtung, akustiksignalverarbeitungsverfahren und freisprech-kommunikationsvorrichtung
DE69819438T2 (de) Verfahren zur Spracherkennung
DE102021211812A1 (de) Vorrichtung und verfahren zur überwachung von emotion basierend auf einem fahrzeuggeräusch
DE102014118450A1 (de) Audiobasiertes System und Verfahren zur Klassifikation von fahrzeuginternem Kontext
DE102016104689A1 (de) Steuerungssystem für von funktionellen Hardwarekomponenten erzeugten Lärm
DE4010028C2 (de) Spracherkennungsverfahren
DE102022106036A1 (de) Kontextabhängige signalaufbereitung für den sprachassistenten im fahrzeug
DE102014207437B4 (de) Spracherkennung mit einer Mehrzahl an Mikrofonen
DE102008060194B4 (de) Verfahren und Kraftfahrzeug für ein Fahrzeugflotten-Qualifikationsmanagement
EP1704561A1 (de) Verfahren und vorrichtung zur bearbeitung eines sprachsignals für die robuste spracherkennung
DE3875894T2 (de) Adaptive multivariable analyseeinrichtung.
EP4040433A1 (de) Dynamische generierung einer kette von funktionsmodulen eines virtuellen assistenten
DE102019132054A1 (de) Verfahren zum Betreiben eines virtuellen Assistenten
DE102019005149B4 (de) Klassifizierung von Audiodaten
DE102022133571A1 (de) Vorrichtung zur verarbeitung natürlicher sprache und verfahren zur verarbeitung natürlicher sprache
DE102013011922A1 (de) Verfahren und Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug
DE102004011426B3 (de) Vorrichtung zum Erkennen einer in einem Sprachsignal enthaltenen Emotion und Verfahren zum Erkennen einer in einem Sprachsignal enthaltenen Emotion

Legal Events

Date Code Title Description
R082 Change of representative

Representative=s name: ETL IP PATENTANWALTSGESELLSCHAFT MBH, DE

Representative=s name: ETL IP PATENT- UND RECHTSANWALTSGESELLSCHAFT M, DE

Representative=s name: ETL WABLAT & KOLLEGEN PATENT- UND RECHTSANWALT, DE

R082 Change of representative

Representative=s name: ETL IP PATENTANWALTSGESELLSCHAFT MBH, DE

Representative=s name: ETL IP PATENT- UND RECHTSANWALTSGESELLSCHAFT M, DE

R005 Application deemed withdrawn due to failure to request examination