DE102019119171A1 - Spracherkennung für fahrzeugsprachbefehle - Google Patents

Spracherkennung für fahrzeugsprachbefehle Download PDF

Info

Publication number
DE102019119171A1
DE102019119171A1 DE102019119171.8A DE102019119171A DE102019119171A1 DE 102019119171 A1 DE102019119171 A1 DE 102019119171A1 DE 102019119171 A DE102019119171 A DE 102019119171A DE 102019119171 A1 DE102019119171 A1 DE 102019119171A1
Authority
DE
Germany
Prior art keywords
voice command
vehicle
signal
machine
initial identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102019119171.8A
Other languages
English (en)
Inventor
Ranjani Rangarajan
John Edward Huber
Leah N. Busch
Joshua Wheeler
Scott Andrew Amman
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ford Global Technologies LLC
Original Assignee
Ford Global Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ford Global Technologies LLC filed Critical Ford Global Technologies LLC
Publication of DE102019119171A1 publication Critical patent/DE102019119171A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Arrangement of adaptations of instruments
    • B60K35/10
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • B60K2360/148
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Abstract

Diese Offenbarung stellt Spracherkennung für Fahrzeugsprachbefehle bereit. Es werden ein Verfahren und eine Vorrichtung zur Spracherkennung für Fahrzeugsprachbefehle offenbart. Ein beispielhaftes Fahrzeug beinhaltet ein Mikrofon zum Sammeln eines Signals, das einen Sprachbefehl beinhaltet, einen Speicher und eine Steuerung. Die Steuerung ist konfiguriert, um eine anfängliche Identifikation durch Einspeisen des Signals in eine erste automatische Spracherkennungsmaschine (automatic speech recognition - ASR) zu bestimmen und Gewohnheiten durch Einspeisen der Benutzerhistorie in eine Gewohnheitsmaschine zu bestimmen. Die Steuerung ist auch konfiguriert, um den Sprachbefehl durch Einspeisen des Signals, der anfänglichen Identifikation und der Gewohnheiten in eine zweite ASR-Maschine zu identifizieren. Die Steuerung ist auch konfiguriert, um eine Fahrzeugfunktion basierend auf dem Sprachbefehl durchzuführen.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Offenbarung betrifft im Allgemeinen Spracherkennung und insbesondere Spracherkennung für Fahrzeugsprachbefehle.
  • STAND DER TECHNIK
  • Typischerweise beinhalten Fahrzeuge eine Vielzahl von Merkmalen und/oder Funktionen, die von einem Bediener (z. B. einem Fahrer) gesteuert werden. Oft beinhaltet ein Fahrzeug eine Vielzahl von Eingabevorrichtungen, um es dem Bediener zu ermöglichen, die Merkmale und/oder Funktionen des Fahrzeugs zu steuern. Beispielsweise kann ein Fahrzeug eine oder mehrere Tasten, einen oder mehrere Bedienknöpfe, eine oder mehrere Instrumententafeln, einen oder mehrere Touchscreens und/oder ein oder mehrere Touchpads beinhalten, mit denen dem Bediener ermöglicht wird, die Merkmale und/oder Funktionen des Fahrzeugs zu steuern. Ferner beinhaltet ein Fahrzeug in einigen Fällen eine Kommunikationsplattform, die kommunikativ mit einer oder mehreren in dem Fahrzeug befindlichen mobilen Vorrichtung(en) gekoppelt ist, um es dem Bediener und/oder einem anderen Insassen zu ermöglichen, über die mobile(n) Vorrichtung(en) mit den Merkmalen und/oder Funktionen des Fahrzeugs zu interagieren.
  • KURZDARSTELLUNG
  • Die beigefügten Ansprüche definieren diese Anmeldung. Die vorliegende Offenbarung fasst Aspekte der Ausführungsformen zusammen und sollte nicht zur Einschränkung der Ansprüche genutzt werden. Andere Umsetzungen werden in Übereinstimmung mit den hierin beschriebenen Techniken in Betracht gezogen, wie dem Durchschnittsfachmann bei der Durchsicht der folgenden Zeichnungen und detaillierten Beschreibung ersichtlich wird, und diese Umsetzungen sollen innerhalb des Umfangs dieser Anmeldung liegen.
  • Es werden beispielhafte Ausführungsformen zur Spracherkennung für Fahrzeugsprachbefehle gezeigt. Ein beispielhaftes offenbartes Fahrzeug beinhaltet ein Mikrofon zum Sammeln eines Signals, das einen Sprachbefehl beinhaltet, einen Speicher und eine Steuerung. Die Steuerung ist konfiguriert, um eine anfängliche Identifikation durch Einspeisen des Signals in eine erste automatische Spracherkennungsmaschine (automatic speech recognition - ASR) zu bestimmen und Gewohnheiten durch Einspeisen der Benutzerhistorie in eine Gewohnheitsmaschine zu bestimmen. Die Steuerung ist auch konfiguriert, um den Sprachbefehl durch Einspeisen des Signals, der anfänglichen Identifikation und der Gewohnheiten in eine zweite ASR-Maschine zu identifizieren. Die Steuerung ist auch konfiguriert, um eine Fahrzeugfunktion basierend auf dem Sprachbefehl durchzuführen.
  • In einigen Beispielen verwendet die Steuerung die zweite ASR-Maschine, um den Sprachbefehl als Reaktion auf das Bestimmen zu identifizieren, dass die anfängliche Identifikation einem Konfidenzniveau entspricht, das kleiner als ein Konfidenzschwellenwert ist. In einigen Beispielen verwendet die Steuerung die zweite ASR-Maschine, um den Sprachbefehl als Reaktion auf das Bestimmen zu identifizieren, dass ein Rauschpegel des Signals größer als ein Rauschschwellenwert ist. In einigen Beispielen identifiziert die Steuerung die anfängliche Identifikation als den Sprachbefehl als Reaktion auf das Bestimmen, dass die anfängliche Identifikation einem Konfidenzniveau entspricht, das größer als ein Konfidenzschwellenwert ist, und ein Rauschpegel des Signals kleiner als ein Rauschschwellenwert ist.
  • In einigen Beispielen beinhaltet die erste ASR-Maschine ein akustisches Modell zum Identifizieren eines oder mehrerer Phoneme eines Dialekts in dem Signal und ein Sprachenmodell zum Identifizieren eines oder mehrerer Wörter in dem Signal durch Bestimmen von Wortwahrscheinlichkeitsverteilungen basierend auf dem einen oder den mehreren durch das akustische Modell identifizierten Phonemen. In einigen Beispielen beinhaltet die zweite ASR-Maschine ein tiefes neuronales Netzwerk. In einigen Beispielen beinhaltet die Gewohnheitsmaschine einen Mustererkennungsalgorithmus.
  • Einige Beispiele beinhalten ferner eine oder mehrere Eingabevorrichtungen. In derartigen Beispielen bestimmt die Steuerung die Benutzerhistorie basierend auf Benutzereingaben, die von der einen oder den mehreren Eingabevorrichtungen empfangen werden.
  • Ein beispielhaftes offenbartes System beinhaltet ein Fahrzeug, um basierend auf einem Sprachbefehl zu arbeiten. Das Fahrzeug beinhaltet ein Mikrofon zum Sammeln eines Signals, das den Sprachbefehl beinhaltet. Das beispielhafte offenbarte Verfahren beinhaltet auch einen entfernten Server in Kommunikation mit dem Fahrzeug, um eine anfängliche Identifikation über eine erste Maschine basierend auf dem Signal zu bestimmen und Gewohnheiten über eine Gewohnheitsmaschine zu bestimmen. Der entfernte Server dient auch dazu, den Sprachbefehl für das Fahrzeug über eine zweite Maschine basierend auf dem Signal, der anfänglichen Identifikation und den Gewohnheiten zu identifizieren.
  • In einigen Beispielen verwendet der entfernte Server die zweite Maschine, um den Sprachbefehl als Reaktion auf das Bestimmen zu identifizieren, dass die anfängliche Identifikation einem Konfidenzniveau entspricht, das kleiner als ein Konfidenzschwellenwert ist. In einigen Beispielen verwendet der entfernte Server die zweite Maschine, um den Sprachbefehl als Reaktion auf das Bestimmen zu identifizieren, dass ein Rauschpegel des Signals größer als ein Rauschschwellenwert ist. In einigen Beispielen identifiziert der entfernte Server die anfängliche Identifikation als den Sprachbefehl als Reaktion auf das Bestimmen, dass die anfängliche Identifikation einem Konfidenzniveau entspricht, das größer als ein Konfidenzschwellenwert ist, und ein Rauschpegel des Signals kleiner als ein Rauschschwellenwert ist.
  • In einigen Beispielen beinhaltet die erste Maschine ein akustisches Modell zum Identifizieren eines oder mehrerer Phoneme eines Dialekts in dem Signal und ein Sprachenmodell zum Identifizieren eines oder mehrerer Wörter in dem Signal durch Bestimmen von Wortwahrscheinlichkeitsverteilungen basierend auf dem einen oder den mehreren durch das akustische Modell identifizierten Phonemen. In einigen Beispielen beinhaltet die zweite Maschine ein tiefes neuronales Netzwerk. In einigen Beispielen beinhaltet die Gewohnheitsmaschine einen Mustererkennungsalgorithmus.
  • In einigen Beispielen beinhaltet das Fahrzeug eine oder mehrere Eingabevorrichtungen. In derartigen Beispielen bestimmt der entfernte Server die Benutzerhistorie, die in die Gewohnheitsmaschine einzuspeisen ist, basierend auf Benutzereingaben, die von der einen oder den mehreren Eingabevorrichtungen empfangen werden.
  • Ein beispielhaftes offenbartes Verfahren beinhaltet das Sammeln eines Signals, das einen Sprachbefehl beinhaltet, über ein Fahrzeugmikrofon. Das beispielhafte offenbarte Verfahren beinhaltet auch das Bestimmen einer anfänglichen Identifikation durch Einspeisen des Signals in eine erste automatische Spracherkennungsmaschine (ASR) und das Bestimmen von Gewohnheiten durch Einspeisen der Benutzerhistorie in eine Gewohnheitsmaschine. Das beispielhafte offenbarte Verfahren beinhaltet auch das Identifizieren des Sprachbefehls durch Einspeisen des Signals, der anfänglichen Identifikation und der Gewohnheiten in eine zweite ASR-Maschine. Das beispielhafte offenbarte Verfahren beinhaltet auch das Durchführen einer Fahrzeugfunktion basierend auf dem Sprachbefehl über einen Prozessor.
  • In einigen Beispielen wird der Sprachbefehl über die zweite ASR-Maschine als Reaktion auf das Bestimmen identifiziert, dass die anfängliche Identifikation einem Konfidenzniveau entspricht, das kleiner als ein Konfidenzschwellenwert ist. In einigen derartigen Beispielen wird der Sprachbefehl über die zweite ASR-Maschine als Reaktion auf das Bestimmen identifiziert, dass ein Rauschpegel des Signals größer als ein Rauschschwellenwert ist. Ferner beinhalten einige derartige Beispiele ferner das Identifizieren der anfänglichen Identifikation als den Sprachbefehl als Reaktion auf das Bestimmen, dass das Konfidenzniveau größer als der Konfidenzschwellenwert ist und der Rauschpegel des Signals kleiner als der Rauschschwellenwert ist.
  • Figurenliste
  • Zum besseren Verständnis der Erfindung kann auf Ausführungsformen Bezug genommen werden, die in den folgenden Zeichnungen dargestellt sind. Die Komponenten in den Zeichnungen sind nicht zwingend maßstabsgetreu und zugehörige Elemente können weggelassen sein oder in einigen Fällen können Proportionen vergrößert dargestellt sein, um die hier beschriebenen neuartigen Merkmale hervorzuheben und eindeutig zu veranschaulichen. Zusätzlich können Systemkomponenten verschiedenartig angeordnet sein, wie es auf dem Gebiet bekannt ist. Ferner bezeichnen in den Zeichnungen gleiche Bezugszeichen durchgängig entsprechende Teile in den verschiedenen Ansichten.
    • 1 veranschaulicht ein beispielhaftes Fahrzeug gemäß den Lehren in dieser Schrift.
    • 2 ist ein Blockdiagramm von Spracherkennungsmaschinen, die Sprachbefehle für das Fahrzeug aus 1 identifizieren.
    • 3 ist ein Blockdiagramm elektronischer Komponenten des Fahrzeugs aus 1.
    • 4 ist ein Flussdiagramm zum Identifizieren eines Sprachbefehls für ein Fahrzeug über Spracherkennung gemäß den Lehren in dieser Schrift.
  • DETAILLIERTE BESCHREIBUNG BEISPIELHAFTER AUSFÜHRUNGSFORMEN
  • Auch wenn die Erfindung in verschiedenen Formen ausgeführt sein kann, werden in den Zeichnungen einige beispielhafte und nicht einschränkende Ausführungsformen gezeigt und nachfolgend beschrieben, wobei es sich versteht, dass die vorliegende Offenbarung als Erläuterung der Erfindung anhand von Beispielen anzusehen ist und damit nicht beabsichtigt wird, die Erfindung auf die konkreten veranschaulichten Ausführungsformen zu beschränken. Typischerweise beinhalten Fahrzeuge eine Vielzahl von Merkmalen und/oder Funktionen, die von einem Bediener (z. B. einem Fahrer) gesteuert werden. Oft beinhaltet ein Fahrzeug eine Vielzahl von Eingabevorrichtungen, um es dem Bediener zu ermöglichen, die Merkmale und/oder Funktionen des Fahrzeugs zu steuern. Beispielsweise kann ein Fahrzeug eine oder mehrere Tasten, einen oder mehrere Bedienknöpfe, eine oder mehrere Instrumententafeln, einen oder mehrere Touchscreens und/oder ein oder mehrere Touchpads beinhalten, mit denen dem Bediener ermöglicht wird, die Merkmale und/oder Funktionen des Fahrzeugs zu steuern. Ferner beinhaltet ein Fahrzeug in einigen Fällen eine Kommunikationsplattform, die kommunikativ mit einer oder mehreren in dem Fahrzeug befindlichen mobilen Vorrichtung(en) gekoppelt ist, um es dem Bediener und/oder einem anderen Insassen zu ermöglichen, über die mobile(n) Vorrichtung(en) mit den Merkmalen und/oder Funktionen des Fahrzeugs zu interagieren.
  • In letzter Zeit beinhalten einige Fahrzeuge (ein) Mikrofon(e), das/die es einem in einer Kabine des Fahrzeugs befindlichen Bediener ermöglicht/ermöglichen, hörbar mit Merkmalen und/oder Funktionen des Fahrzeugs zu interagieren (z. B. über einen digitalen persönlichen Assistenten). Beispielsweise verwenden derartige Fahrzeuge eine Spracherkennungssoftware (z. B. eine Spracherkennungsmaschine), um einen Sprachbefehl eines Benutzers zu identifizieren, der von dem/den Mikrofon(en) erfasst wird. In einigen Fällen kann eine solche Spracherkennungssoftware möglicherweise nicht in der Lage sein, einen von einem Benutzer gegebenen Sprachbefehl genau zu identifizieren, beispielsweise aufgrund von Unkenntnis des Sprachbefehls, lauten Umgebungsgeräuschen, gemurmelter Sprache durch den Benutzer usw. Ferner können in einigen Fällen die akustischen Modelle und die Spracherkennungssoftware möglicherweise sehr viel Speicherplatz beanspruchen. Die Robustheit von Spracherkennungssoftware, die in dem Speicher des Fahrzeugs gespeichert ist, kann wiederum aufgrund der begrenzten eingebetteten Speicherfähigkeiten in einem Fahrzeug möglicherweise begrenzt sein. Hierin offenbarte beispielhafte Verfahren und Vorrichtungen beinhalten mehrere Spracherkennungsmaschinen, die die Robustheit der Spracherkennungssoftware für Sprachbefehle für ein Fahrzeug auf eine Weise verbessern, die die dafür verwendete Verarbeitungsleistung, den Speicher und die Rechenzeit begrenzt.
  • Hierin offenbarte Beispiele beinhalten eine erste automatische Spracherkennungsmaschine (ASR), eine zweite ASR-Maschine und eine Gewohnheitsmaschine. Beispielsweise beinhaltet die erste ASR-Maschine ein akustisches Modell und ein Sprachenmodell, die zum Erfassen eines Sprachbefehls in einem von einem Fahrzeugmikrofon erfassten Audiosignal konfiguriert sind, und beinhaltet die zweite ASR-Maschine ein tiefes neuronales Netzwerk, das zum Erfassen des Sprachbefehls in dem Audiosignal konfiguriert ist. Ferner beinhaltet die Gewohnheitsmaschine zum Beispiel einen Mustererkennungsalgorithmus (z. B. k-Means-Clustering, Hauptkomponentenanalyse, ein künstliches neuronales Netzwerk wie zum Beispiel ein tiefes neuronales Netzwerk usw.), um Gewohnheiten eines Benutzers, der den Sprachbefehl bereitgestellt hat, zu identifizieren. Zu Beginn speist eine Steuerung das Audiosignal in die erste ASR-Maschine ein, um eine anfängliche Identifikation des Sprachbefehls zu bestimmen. Wenn (1) die anfängliche Identifikation einem Konfidenzniveau entspricht, das größer als ein Konfidenzschwellenwert ist, und (2) ein Rauschpegel (z. B. ein Dezibelpegel) des Audiosignals kleiner als ein Rauschschwellenwert ist, identifiziert eine Steuerung die anfängliche Identifikation als den Sprachbefehl. Andernfalls verwendet eine Steuerung zum Erhöhen der Robustheit des Spracherkennungssystems eine Kombination aus der ersten ASR-Maschine, der zweiten ASR-Maschine und der Gewohnheitsmaschine, um den Sprachbefehl zu identifizieren, wenn (1) die anfängliche Identifikation einem Konfidenzniveau entspricht, das kleiner als der Konfidenzschwellenwert ist und/oder (2) das Rauschpegelsignal größer als der Rauschschwellenwert ist. Beispielsweise ist eine Steuerung so konfiguriert, dass sie das vom Mikrofon erfasste Audiosignal, die Ausgabe der ersten ASR-Maschine und die Ausgabe der Gewohnheitsmaschine in die zweite ASR-Maschine einspeist, um den von dem Benutzer bereitgestellten Sprachbefehl zu identifizieren. Nach dem Identifizieren des Sprachbefehls führt eine Steuerung des Fahrzeugs eine Fahrzeugfunktion basierend auf dem Sprachbefehl durch.
  • Unter Bezugnahme auf die Figuren veranschaulicht 1 ein beispielhaftes Fahrzeug 100 gemäß den Lehren in dieser Schrift. Das Fahrzeug 100 kann ein standardmäßiges benzinbetriebenes Fahrzeug, ein Hybridfahrzeug, ein Elektrofahrzeug, ein Brennstoffzellenfahrzeug und/oder ein Fahrzeugtyp mit beliebiger anderer Antriebsart sein. Das Fahrzeug 100 beinhaltet Teile, die mit Mobilität in Verbindung stehen, wie etwa einen Antriebsstrang, ein Getriebe, eine Aufhängung, eine Antriebswelle und/oder Räder usw. Das Fahrzeug 100 kann nichtautonom, halbautonom (z. B. werden einige routinemäßige Fahrfunktionen durch das Fahrzeug 100 gesteuert) oder autonom (z. B. werden Fahrfunktionen durch das Fahrzeug 100 ohne direkte Fahrereingabe gesteuert) sein. Das Fahrzeug 100 des veranschaulichten Beispiels beinhaltet eine Kabine 102, in der sich ein Fahrersitz 104 und ein Beifahrersitz 106 befinden. In dem veranschaulichten Beispiel sitzt ein Bediener 108 (z. B. ein Fahrer) auf dem Fahrersitz 104 und sitzt ein Beifahrer 110 auf dem Beifahrersitz 106.
  • Das Fahrzeug 100 beinhaltet auch ein oder mehrere Mikrofone 112. Die Mikrofone 112 sind Audioeingabevorrichtungen, die zum Sammeln von Audiosignalen (z. B. Sprachbefehlen, Telefondialog und/oder anderen Informationen) aus der Kabine 102 konfiguriert sind. In dem veranschaulichten Beispiel sammelt eines oder sammeln mehrere der Mikrofone 112 ein Audiosignal 114 von dem Bediener 108, das einen Aufweckbegriff 116 und einen Sprachbefehl 118 beinhaltet. Der Bediener 108 stellt den Aufweckbegriff 116 bereit, um einem Sprachbefehlssystem anzuzeigen, dass der Bediener 108 im Begriff ist, den Sprachbefehl 118 bereitzustellen. Das heißt, dass der Aufweckbegriff 116 dem Sprachbefehl 118 in dem Audiosignal 114 vorausgeht. Der Aufweckbegriff 116 kann ein beliebiges Wort oder ein beliebiger Ausdruck sein, der vom Hersteller oder vom Fahrer vorausgewählt wird, wie beispielsweise ein ungewöhnliches Wort (z. B. „SYNC“), ein ungewöhnlicher Name (z. B. „Boyle“) und/oder ein ungewöhnlicher Ausdruck (z. B. „Hey SYNC“, „Hey Boyle“). Zusätzlich beinhaltet der Sprachbefehl 118 eine Anforderung zum Durchführen einer Fahrzeugfunktion, wie zum Beispiel das Bereitstellen von Informationen an den Bediener 108 und/oder (einen) andere(n) Insassen des Fahrzeugs 100. Beispielhafte angeforderte Informationen beinhalten Richtungen zu einem gewünschten Ort, Informationen in einer Bedienungsanleitung des Fahrzeugs 100 (z. B. ein vom Hersteller empfohlener Reifendruck), Fahrzeugeigenschaftsdaten (z. B. Kraftstoffstand) und/oder in einem externen Netzwerk gespeicherte Daten (z. B. Wetterbedingungen). Andere beispielhafte Fahrzeugfunktionen beinhalten das Starten eines Fahrzeugmotors, das Verriegeln und/oder Entriegeln von Fahrzeugtüren, das Öffnen und/oder Schließen von Fahrzeugfenstern, das Hinzufügen eines Punktes zu einer Aufgaben- oder Einkaufsliste, das Senden einer Textnachricht, das Initiieren eines Telefonanrufs usw.
  • In dem veranschaulichten Beispiel beinhaltet das Fahrzeug 100 auch eine Mensch-Maschine-Schnittstellen-(HMI-)Einheit 120. Beispielsweise stellt die HMI-Einheit 120 eine Schnittstelle zwischen dem Fahrzeug 100 und dem/den Benutzer (n) bereit, wie zum Beispiel dem Bediener 108 und/oder dem Beifahrer 110. Die HMI-Einheit 120 beinhaltet eine oder mehrere Eingabevorrichtungen 122 (z. B. digitale Schnittstellen, analoge Schnittstellen), um Eingaben von dem/den Benutzer(n) zu empfangen. Die Eingabevorrichtungen 122 beinhalten beispielsweise einen Bedienknopf, eine Instrumententafel, eine Digitalkamera zur Bilderfassung und/oder visuellen Befehlserkennung, einen Touchscreen, Knöpfe, ein Touchpad usw. Ferner beinhaltet die HMI-Einheit 120 eine oder mehrere Ausgabevorrichtungen (z. B. digitale Schnittstellen, analoge Schnittstellen) zur Bereitstellung von Ausgabe an den/die Benutzer. Die Ausgabevorrichtungen können Kombiinstrumentausgaben (z. B. Wählscheiben, Beleuchtungsvorrichtungen), Aktoren, eine Heads-up-Anzeige usw. beinhalten. In dem veranschaulichten Beispiel beinhalten die Ausgabevorrichtungen eine Mittelkonsolenanzeige 124 (z. B. eine Flüssigkristallanzeige (LCD), eine Anzeige mit organischer Leuchtdiode (OLED), eine Flachbildschirmanzeige, eine Festkörperanzeige usw.), um dem/den Benutzer(n) Informationen visuell darzustellen, und Lautsprecher 126, um dem/den Benutzer(n) Informationen akustisch darzustellen. In dem veranschaulichten Beispiel beinhaltet die HMI-Einheit 120 Hardware (z. B. einen Prozessor oder eine Steuerung, Arbeitsspeicher, Datenspeicher usw.) und Software (z. B. ein Betriebssystem usw.) für ein Infotainment-System (z. B. SYNC® und MyFord Touch® von Ford®). Zusätzlich zeigt die HMI-Einheit 120 das Infotainment-System beispielsweise auf der Mittelkonsolenanzeige 124 an.
  • Das Fahrzeug 100 des veranschaulichten Beispiels beinhaltet auch eine Sprachbefehlssteuerung 128, die konfiguriert ist, um eine Fahrzeugfunktion basierend auf dem Sprachbefehl 118 durchzuführen, der von dem Bediener 108 bereitgestellt wird. Die Sprachbefehlssteuerung 128 führt die Fahrzeugfunktion durch, wenn die Sprachbefehlssteuerung 128 des Fahrzeugs 100 und/oder eine Sprachbefehlssteuerung eines entfernten Servers (z.B. eine Sprachbefehlssteuerung 318 eines entfernten Servers 314 aus 3) den Sprachbefehl 118 identifiziert, der von dem Bediener 108 bereitgestellt wird.
  • 2 ist ein Blockdiagramm der Sprachbefehlssteuerung 128, einer ersten Spracherkennungsmaschine 202, einer zweiten Spracherkennungsmaschine 204 und einer Gewohnheitsmaschine 206, die zum Identifizieren von Sprachbefehlen (z. B. des Sprachbefehls 118) für das Fahrzeug 100 konfiguriert sind. Wie hierin verwendet, bezieht sich eine „Maschine“ auf strukturierten Maschinencode, der in Speicher gespeichert ist und von einem Prozessor ausgeführt wird, um eine Funktion durchzuführen. Beispielsweise verwendet die Sprachbefehlssteuerung 128 die erste Spracherkennungsmaschine 202 und/oder die zweite Spracherkennungsmaschine 204, um den Sprachbefehl 118 zu identifizieren, und verwendet die Gewohnheitsmaschine 206, um Gewohnheiten des Benutzers (z. B. des Bedieners 108) zu identifizieren, der den Sprachbefehl 118 bereitstellte.
  • Die erste Spracherkennungsmaschine 202 (auch als erste ASR-Maschine und erste Maschine bezeichnet) ist konfiguriert, um den Sprachbefehl 118 in dem Audiosignal 114 zu identifizieren. In dem veranschaulichten Beispiel beinhaltet die erste Spracherkennungsmaschine 202 ein akustisches Modell und ein Sprachenmodell, um den Sprachbefehl 118 in dem Audiosignal 114 zu identifizieren. Beispielsweise ist das akustische Modell konfiguriert, um ein Phonem eines Dialekts in dem Audiosignal 114 zu identifizieren, und ist das Sprachenmodell konfiguriert, um ein oder mehrere Wörter in dem Audiosignal 114 durch Bestimmen von Wortwahrscheinlichkeitsverteilungen basierend auf dem einen oder den mehreren Phonemen, die durch das akustische Modell identifiziert werden, zu identifizieren. Wie hierin verwendet, beziehen sich ein „akustisches Modell“, ein „Dialektmodell“ und ein „akustisches Dialektmodell“ auf einen Algorithmus, der konfiguriert ist, um ein oder mehrere Phoneme eines Dialekts in einer Audioprobe zu identifizieren, um die Identifizierung von Wörtern in der Audioprobe zu ermöglichen. Wie hierin verwendet, bezieht sich ein „Dialekt“ auf eine Varietät oder Unterklasse einer Sprache, die Eigenschaften (z. B. Akzente, Sprachmuster, Schreibweisen usw.) beinhaltet, die für eine bestimmte Untergruppe (z. B. eine regionale Untergruppe, eine Untergruppe sozialer Klassen, eine kulturelle Untergruppe usw.) von Benutzern der Sprache spezifisch sind. Wie hierin verwendet, bezieht sich ein „Phonem“ auf einen einzigartigen Sprachklang. Beispiele für Dialekte der englischen Sprache sind britisches Englisch, Cockney-Englisch, Scouse-Englisch, schottisches Englisch, amerikanisches Englisch, mittelatlantisches Englisch, Appalachen-Englisch, indisches Englisch usw.
  • Wie hierin verwendet, bezieht sich ein „Sprachenmodell“ auf einen Algorithmus, der konfiguriert ist, um ein oder mehrere Wörter in einer Audioprobe zu identifizieren, indem Wortwahrscheinlichkeitsverteilungen basierend auf einem oder mehreren durch ein akustisches Modell identifizierten Phonemen bestimmt werden. Wie hierin verwendet, bezieht sich eine „Sprache“ auf ein Kommunikationssystem zwischen Personen (z. B. verbale Kommunikation, schriftliche Kommunikation usw.), das Wörter auf eine strukturierte Weise verwendet. Beispielsprachen sind Englisch, Spanisch, Deutsch usw.
  • Die Gewohnheitsmaschine 206 ist konfiguriert, um Gewohnheiten des Benutzers (z. B. des Bedieners 108), der den Sprachbefehl 118 bereitgestellt hat, basierend auf der Benutzerhistorie 208 zu bestimmen, die dem Benutzer entspricht. In dem veranschaulichten Beispiel beinhaltet die Gewohnheitsmaschine 206 einen Mustererkennungsalgorithmus, wie beispielsweise einen Maschinenlernalgorithmus, um die Gewohnheiten des Benutzers zu bestimmen. Maschinenlernalgorithmen sind eine Form der künstlichen Intelligenz (KI), mit deren Hilfe ein System automatisch aus Erfahrungen lernen und diese verbessern kann, ohne von einem Programmierer explizit für eine bestimmte Funktion programmiert zu werden. Beispielsweise greifen Maschinenlernalgorithmen auf Daten zu und lernen aus den Daten, auf die zugegriffen wird, um die Leistung einer bestimmten Funktion zu verbessern. In einigen Beispielen beinhaltet der Mustererkennungsalgorithmus der Gewohnheitsmaschine 206 k-Means-Clustering, Markov-Modelle, Hauptkomponentenanalyse, Entscheidungsbäume, Unterstützungsvektoren, Bayes'sche Netzwerke, spärliches Wörterbuchlernen, regelbasiertes maschinelles Lernen, ein künstliches neuronales Netzwerk (z. B. ein tiefes neuronales Netzwerk) und/oder einen beliebigen anderen Mustererkennungsalgorithmus, der konfiguriert ist, um Gewohnheiten eines Benutzers zu bestimmen.
  • Um die Gewohnheiten des Benutzers zu bestimmen, ist die Sprachbefehlssteuerung 128 konfiguriert, um die Benutzerhistorie 208 (auch als Benutzerhistoriendaten, Benutzereingabehistorie und Benutzereingabehistoriendaten bezeichnet) in die Gewohnheitsmaschine 206 einzuspeisen. Zum Beispiel beinhaltet die Benutzerhistorie 208, die durch die Sprachbefehlssteuerung 128 gesammelt wird, vorheriges Fahrverhalten, Sprachbefehle, Verwendung der Eingabevorrichtungen 122 usw. In einigen Beispielen beinhaltet die Benutzerhistorie 208 eine Tageszeit, einen Wochentag und/oder einen GPS-Standort, an dem das Fahrverhalten, Sprachbefehle, die Verwendung der Eingabevorrichtungen 122 usw. durchgeführt werden. Ferner ist in einigen Beispielen geplant, dass die Sprachbefehlssteuerung 128 die Benutzerhistorie 208 in die Gewohnheitsmaschine 206 einspeist, sobald jede vorbestimmte Anzahl an Eingaben von dem Benutzer empfangen wurde (z. B. zwischen ungefähr 10 und 15 empfangenen Eingaben), um regelmäßig aktualisierte Gewohnheiten des Benutzers zu bestimmen.
  • Die zweite Spracherkennungsmaschine 204 (auch als zweite ASR-Maschine und zweite Maschine bezeichnet) ist konfiguriert, um den Sprachbefehl 118 in dem Audiosignal 114 zu identifizieren. In dem veranschaulichten Beispiel beinhaltet die zweite Spracherkennungsmaschine 204 ein tiefes neuronales Netzwerk, um den Sprachbefehl 118 in dem Audiosignal 114 zu identifizieren. Beispielsweise fungiert das tiefe neuronale Netzwerk als ein akustisches Modell und ein Sprachenmodell, um den Sprachbefehl 118 in dem Audiosignal 114 zu identifizieren. Ein tiefes neuronales Netzwerk ist eine Form eines künstlichen neuronalen Netzwerks, das mehrere versteckte Ebenen zwischen einer Eingabeebene (z.B. dem Audiosignal 114) und einer Ausgabeebene (der identifizierten Sprache und dem Dialekt) beinhaltet. Ein künstliches neuronales Netzwerk ist eine Art Maschinenlernmodell, das von einem biologischen neuronalen Netzwerk inspiriert ist. Beispielsweise beinhaltet ein künstliches neuronales Netzwerk eine Sammlung von Knoten, die in Ebenen organisiert sind, um eine bestimmte Funktion durchzuführen (z. B., um eine Eingabe zu kategorisieren). Jeder Knoten wird trainiert (z. B. auf unbeaufsichtigte Weise), um ein Eingangssignal von einem Knoten einer vorhergehenden Ebene zu empfangen und ein Ausgangssignal an einen Knoten einer nachfolgenden Ebene bereitzustellen. Beispielsweise wird das tiefe neuronale Netzwerk der zweiten Spracherkennungsmaschine 204 auf vorherige Sprache des Benutzers, vorherige Ausgaben der ersten Spracherkennungsmaschine 202 und vorherige Ausgaben der Gewohnheitsmaschine 206 trainiert.
  • Im Betrieb achtet die Sprachbefehlssteuerung 128 beim Sammeln des Audiosignals 114 auf den Aufweckbegriff 116.In einigen Beispielen extrahiert die Sprachbefehlssteuerung 128 das Audiosignal 114 aus einem CAN-Bus (CAN - Controller Area Network) des Fahrzeugs 100 (z. B. einem Fahrzeugdatenbus 308 aus 3). Die Sprachbefehlssteuerung 128 speist beispielsweise das Audiosignal 114 in die erste Spracherkennungsmaschine 202 ein, um den Aufweckbegriff 116 in dem Audiosignal 114 zu erfassen. Beim Erfassen des Aufweckbegriffs 116 wird die Sprachbefehlssteuerung 128 ausgelöst, um auf den Sprachbefehl 118 zu achten. Beispielsweise speist die Sprachbefehlssteuerung 128 beim Erfassen des Aufweckbegriffs 116 zu Beginn das Audiosignal 114 in die erste Spracherkennungsmaschine 202 ein, um eine anfängliche Identifikation des Sprachbefehls 118 zu bestimmen. In einigen Beispielen speist die Sprachbefehlssteuerung 128 das Audiosignal 114 in die erste Spracherkennungsmaschine 202 ein, um gleichzeitig den Aufweckbegriff 116 zu erfassen und die anfängliche Identifikation zu bestimmen. In anderen Beispielen speist die Sprachbefehlssteuerung 128 das Audiosignal 114 ein erstes Mal in die erste Spracherkennungsmaschine 202 ein, um den Aufweckbegriff 116 zu erfassen, und speist anschließend das Audiosignal 114 beim Erfassen des Aufweckbegriffs 116 ein zweites Mal in die erste Spracherkennungsmaschine 202 ein, um die anfängliche Identifikation zu bestimmen.
  • Die erste Spracherkennungsmaschine 202 bestimmt auch ein Konfidenzniveau, das der anfänglichen Identifikation entspricht. Beispielsweise zeigt ein hohes Konfidenzniveau eine erhöhte Wahrscheinlichkeit an, dass die anfängliche Identifikation mit dem Sprachbefehl 118 übereinstimmt, und zeigt ein niedriges Konfidenzniveau eine verringerte Wahrscheinlichkeit an, dass die anfängliche Identifikation mit dem Sprachbefehl 118 übereinstimmt. Nach dem Bestimmen der anfänglichen Identifikation des Sprachbefehls 118 vergleicht die Sprachbefehlssteuerung 128 das Konfidenzniveau der anfänglichen Identifikation mit einem vorbestimmten Konfidenzschwellenwert.
  • Ferner vergleicht die Sprachbefehlssteuerung 128 einen Rauschpegel (z. B. einen Dezibelpegel) des Audiosignals 114, das von einem oder mehreren der Mikrofone 112 erfasst wird, mit einem vorbestimmten Rauschschwellenwert (z. B. Pegel von 80 Dezibel). Beispielsweise kann der Rauschpegel des Audiosignals 114 aufgrund von Umgebungsgeräuschen von außerhalb des Fahrzeugs 100 und/oder innerhalb der Kabine 102 des Fahrzeugs 100 erhöht sein, wie z. B. Audio, das von den Lautsprechern 126 ausgegeben wird, Sprache anderer Insassen (z. B. des Beifahrers 110) usw.
  • Als Reaktion darauf, dass die Sprachbefehlssteuerung 128 bestimmt, dass (1) das Konfidenzniveau für die anfängliche Identifizierung größer als der vorbestimmte Konfidenzschwellenwert ist und (2) der Rauschpegel kleiner als der vorbestimmte Rauschschwellenwert ist, identifiziert die Sprachbefehlssteuerung 128 die anfängliche Identifikation, die von der ersten Spracherkennungsmaschine 202 vorgenommen wird, als einen identifizierten Sprachbefehl 210. Das heißt, dass die Sprachbefehlssteuerung 128 bestimmt, dass die erste Spracherkennungsmaschine 202 den Sprachbefehl 118 in dem Audiosignal 114 genau identifiziert hat.
  • Andernfalls fährt die Sprachbefehlssteuerung 128 als Reaktion darauf, dass die Sprachbefehlssteuerung 128 bestimmt, dass (1) das Konfidenzniveau für die anfängliche Identifikation kleiner als der vorbestimmte Konfidenzschwellenwert ist und/oder (2) der Rauschpegel größer als der vorbestimmte Rauschschwellenwert ist, damit fort, die zweite Spracherkennungsmaschine 204 zu verwenden, um den identifizierten Sprachbefehl 210 zu identifizieren. Beispielsweise verwendet die Sprachbefehlssteuerung 128 das tiefe neuronale Netzwerk der zweiten Spracherkennungsmaschine 204, um die Genauigkeit des identifizierten Sprachbefehls 210 zu erhöhen. Ferner verwendet die Sprachbefehlssteuerung 128 einen zweistufigen Ansatz, bei dem die zweite Spracherkennungsmaschine 204 nur verwendet wird, wenn bestimmt wird, dass die erste Spracherkennungsmaschine 202 den Sprachbefehl 118 möglicherweise nicht genau identifiziert hat, um die Verarbeitungsleistung, den Speicher und die Rechenzeit in Verbindung mit der Verwendung eines tiefen neuronalen Netzwerks zu reduzieren. Um den identifizierten Sprachbefehl 210 unter Verwendung der zweiten Spracherkennungsmaschine 204 zu bestimmen, speist die Sprachbefehlssteuerung 128 (1) das Audiosignal 114, (2) die durch die erste Spracherkennungsmaschine 202 vorgenommene anfängliche Identifikation und (3) die durch die Gewohnheitsmaschine 206 identifizierten Gewohnheiten des Benutzers in die zweite Spracherkennungsmaschine 204 ein.
  • In dem veranschaulichten Beispiel verwendet die Sprachbefehlssteuerung 128 an Bord des Fahrzeugs 100 die erste Spracherkennungsmaschine 202, die zweite Spracherkennungsmaschine 204 und die Gewohnheitsmaschine 206, die in Speicher (z. B. dem Speicher 312 aus 3) an Bord des Fahrzeugs 100 gespeichert sind. In anderen Beispielen verwendet das Fahrzeug 100 Cloud-Computing, um die Menge an Bordspeicher zu reduzieren, der für die Spracherkennung verwendet wird. Beispielsweise kommuniziert die Sprachbefehlssteuerung 128 des Fahrzeugs 100 das Audiosignal 114 und die Benutzerhistorie 208 an einen entfernten Server (z.B. einen entfernten Server 314 aus 3), um einer Steuerung des entfernten Servers (z.B. einer Sprachbefehlssteuerung 318 aus 3) zu ermöglichen, die erste Spracherkennungsmaschine 202, die zweite Spracherkennungsmaschine 204 und die Gewohnheitsmaschine 206 zu verwenden, die in Speicher (z. B. dem Speicher 320 aus 3) in dem entfernten Server gespeichert sind. Zusätzlich oder alternativ verwendet das Fahrzeug 100 eine Kombination aus On-Board-Computing und Cloud-Computing, um den Sprachbefehl 118 in dem Audiosignal 114 zu identifizieren. Beispielsweise ist eine oder sind mehrere der Maschinen (z. B. die zweite Spracherkennungsmaschine 204 und die Gewohnheitsmaschine 206) in Speicher an Bord des Fahrzeugs 100 gespeichert und ist eine oder sind mehrere der Maschinen (z. B. die erste Spracherkennungsmaschine 202) in Speicher in einem entfernten Server gespeichert.
  • 3 ist ein Blockdiagramm elektronischer Komponenten 300 des Fahrzeugs 100.In dem veranschaulichten Beispiel beinhalten die elektronischen Komponenten 300 eine On-Board-Rechenplattform 302, die HMI-Einheit 120, ein Kommunikationsmodul 304, die Mikrofone 112, elektronische Steuereinheiten (electronic control units - ECUS) 306 und einen Fahrzeugdatenbus 308.
  • Die On-Board-Rechenplattform 302 beinhaltet einen Prozessor 310 (auch als Mikrosteuereinheit und Steuerung bezeichnet) und einen Speicher 312. Beispielsweise ist der Prozessor 310 der On-Board-Rechenplattform 302 so strukturiert, dass er die Sprachbefehlssteuerung 128 beinhaltet, und ist der Speicher 312 so konfiguriert, dass er die erste Spracherkennungsmaschine 202, die zweite Spracherkennungsmaschine 204 und die Gewohnheitsmaschine 206 speichert. In anderen Beispielen sind die Sprachbefehlssteuerung 128, die erste Spracherkennungsmaschine 202, die zweite Spracherkennungsmaschine 204 und/oder die Gewohnheitsmaschine 206 in (eine) andere ECU(s) mit ihrem/ihren eigenen Prozessor(en) und ihrem eigenen Speicher eingebaut.
  • Bei dem Prozessor 310 kann es sich um jede geeignete Verarbeitungsvorrichtung oder einen Satz von Verarbeitungsvorrichtungen handeln, wie etwa unter anderem einen Mikroprozessor, eine mikrosteuerungsbasierte Plattform, eine integrierte Schaltung, ein oder mehrere feldprogrammierbare Gate-Arrays (field programmable gate arrays - FPGAs) und/oder eine oder mehrere anwendungsspezifische integrierte Schaltungen (application-specific integrated circuits - ASICs). Bei dem Speicher 312 kann es sich um flüchtigen Speicher (z. B. RAM, einschließlich eines nichtflüchtigen RAM, magnetischen RAM, ferroelektrischen RAM usw.), nichtflüchtigen Speicher (z. B. Plattenspeicher, FLASH-Speicher, EPROM, EEPROM, memristorbasierten nichtflüchtigen Solid-State-Speicher usw.), unveränderbaren Speicher (z. B. EPROM), Festwertspeicher und/oder Speichervorrichtungen mit hoher Kapazität (z. B. Festplatten, Solid-State-Laufwerke usw.) handeln. In einigen Beispielen beinhaltet der Speicher 312 mehrere Speicherarten, insbesondere flüchtigen Speicher und nichtflüchtigen Speicher.
  • Bei dem Speicher 312 handelt es sich um computerlesbare Medien, auf denen ein oder mehrere Sätze von Anweisungen, wie etwa die Software zum Ausführen der Verfahren der vorliegenden Offenbarung, eingebettet sein können. Die Anweisungen können eines oder mehrere der Verfahren oder eine Logik, wie in dieser Schrift beschrieben, verkörpern. Zum Beispiel können sich die Anweisungen während der Ausführung der Anweisungen vollständig oder mindestens teilweise innerhalb eines beliebigen oder mehrerer von dem Speicher 312, dem computerlesbaren Medium und/oder innerhalb des Prozessors 310 befinden.
  • Die Ausdrücke „nichtflüchtiges computerlesbares Medium“ und „computerlesbares Medium“ schließen ein einzelnes Medium oder mehrere Medien ein, wie etwa eine zentralisierte oder verteilte Datenbank und/oder zugehörige Zwischenspeicher und Server, in denen ein oder mehrere Sätze von Anweisungen gespeichert sind. Ferner beinhalten die Ausdrücke „nichttransitorisches computerlesbares Medium“ und „computerlesbares Medium“ jedes beliebige physische Medium, das zum Speichern, Verschlüsseln oder Tragen eines Satzes von Anweisungen zur Ausführung durch einen Prozessor in der Lage ist oder das ein System dazu veranlasst, ein beliebiges oder mehrere der hier offenbarten Verfahren oder Vorgänge durchzuführen. Der Begriff „computerlesbares Medium“ wie hierin verwendet ist ausdrücklich so definiert, dass er jede beliebige Art von computerlesbarer Speichervorrichtung und/oder Speicherplatte beinhaltet und das Verbreiten von Signalen ausschließt.
  • Das Kommunikationsmodul 304 beinhaltet drahtgebundene oder drahtlose Netzschnittstellen, um eine Kommunikation mit externen Netzen zu ermöglichen. Das Kommunikationsmodul 304 beinhaltet auch Hardware (z. B. Prozessoren, Arbeitsspeicher, Datenspeicher, eine Antenne usw.) und Software zum Steuern der drahtgebundenen oder drahtlosen Netzschnittstellen. In dem veranschaulichten Beispiel beinhaltet das Kommunikationsmodul 304 eine oder mehrere Kommunikationssteuerungen für Funknetzwerke (z. B. GSM (Global System for Mobile Communications), UMTS (Universal Mobile Telecommunications System), LTE (Long Term Evolution), CDMA (Code Division Multiple Access)), NFC (Near Field Communication) und/oder andere auf Standards basierende Netzwerke (z.B. WiMAX (IEEE 802.16m), lokales drahtloses Netzwerk (einschließlich IEEE 802.11 a/b/g/n/ac oder andere), Wireless Gigabit (IEEE 802.11ad) usw.). In einigen Beispielen beinhaltet das Kommunikationsmodul 304 eine drahtgebundene oder drahtlose Schnittstelle (z. B. einen Hilfsanschluss, einen Universal-Serial-Bus-(USB-)Anschluss, einen Bluetooth®-Drahtlosknoten usw.), um kommunikativ mit einer mobilen Vorrichtung (z. B. einem Smartphone, einem Wearable, einer Smartwatch, einem Tablet usw.) gekoppelt zu werden. In derartigen Beispielen kann das Fahrzeug 100 über die gekoppelte mobile Vorrichtung mit dem externen Netzwerk kommunizieren. Das/die externe(n) Netzwerk(e) kann ein öffentliches Netzwerk, wie etwa das Internet; ein privates Netzwerk, wie etwa ein Intranet; oder Kombinationen davon sein, und kann eine Vielfalt von Netzwerkprotokollen verwenden, die derzeit zur Verfügung stehen oder später entwickelt werden, einschließlich unter anderem TCP/IP-basierter Netzwerkprotokolle.
  • Beispielsweise ist das Kommunikationsmodul 304 kommunikativ mit einem entfernten Server 314 eines externen Netzwerks 316 gekoppelt. Wie in 3 veranschaulicht, beinhaltet der entfernte Server 314 eine Sprachbefehlssteuerung 318 und beinhaltet der Speicher 320 die erste Spracherkennungsmaschine 202, die zweite Spracherkennungsmaschine 204 und die Gewohnheitsmaschine 206.
  • Bei dem Speicher 320 kann es sich um flüchtigen Speicher (z. B. RAM, einschließlich nichtflüchtiger RAM, magnetischer RAM, ferroelektrischer RAM usw.), nichtflüchtigen Speicher (z. B. Plattenspeicher, FLASH-Speicher, EPROMs, EEPROMs, memristorbasierten nichtflüchtigen Solid-State-Speicher usw.), unveränderbaren Speicher (z. B. EPROMs), Festwertspeicher und/oder Speichervorrichtungen mit hoher Kapazität (z. B. Festplatten, Solid-State-Laufwerke usw.) handeln. In einigen Beispielen beinhaltet der Speicher 320 mehrere Speicherarten, insbesondere flüchtigen Speicher und nichtflüchtigen Speicher. Bei dem Speicher 320 handelt es sich um computerlesbare Medien, auf denen ein oder mehrere Sätze von Anweisungen, wie etwa die Software zum Ausführen der Verfahren der vorliegenden Offenbarung, eingebettet sein können. Die Anweisungen können eines oder mehrere der Verfahren oder eine Logik wie hierin beschrieben verkörpern. Beispielsweise befinden sich die Anweisungen während der Ausführung der Anweisungen vollständig oder zumindest teilweise in einem beliebigen oder mehreren von dem Speicher 320, dem computerlesbaren Medium und/oder in dem entfernten Server 314.
  • Das Kommunikationsmodul 304 ermöglicht es dem Fahrzeug 100, Cloud-Computing zur Spracherkennung von Sprachbefehlen zu verwenden. Beispielsweise sammelt die Sprachbefehlssteuerung 128 des Fahrzeugs 100 das Audiosignal 114 und die Benutzerhistorie 208 und kommuniziert das Audiosignal 114 und die Benutzerhistorie 208 über das Kommunikationsmodul 304 an den entfernten Server 314. Die Sprachbefehlssteuerung 318 des entfernten Servers 314 ist konfiguriert, um die anfängliche Identifikation über die erste Spracherkennungsmaschine 202 basierend auf dem Audiosignal 114 zu bestimmen; Benutzergewohnheiten über die Gewohnheitsmaschine 206 basierend auf der Benutzerhistorie 208 zu bestimmen; und/oder den identifizierten Sprachbefehl 210 für das Fahrzeug 100 über die zweite Spracherkennungsmaschine 204 basierend auf dem Audiosignal 114, der anfänglichen Identifikation und den Gewohnheiten zu bestimmen.
  • In dem veranschaulichten Beispiel ist die Sprachbefehlssteuerung 318 des entfernten Servers 314 konfiguriert, um das Audiosignal 114 in die erste Spracherkennungsmaschine 202 einzuspeisen, um die anfängliche Identifikation zu bestimmen. Ferner ist die Sprachbefehlssteuerung 318 konfiguriert, um die Benutzerhistorie 208 in die Gewohnheitsmaschine 206 einzuspeisen, um die Gewohnheiten des Benutzers zu bestimmen. Die Sprachbefehlssteuerung 318 des veranschaulichten Beispiels ist auch konfiguriert, um das Audiosignal 114, die anfängliche Identifikation und die identifizierten Gewohnheiten in die zweite Spracherkennungsmaschine 204 einzuspeisen, um den identifizierten Sprachbefehl 210 zu bestimmen.
  • Zum Beispiel identifiziert die Sprachbefehlssteuerung 318 als Reaktion darauf, dass die Sprachbefehlssteuerung 318 bestimmt, dass (1) ein Konfidenzniveau für die anfängliche Identifikation größer als der vorbestimmte Konfidenzschwellenwert ist und (2) ein Rauschpegel des Audiosignals 114 kleiner als der vorbestimmte Rauschschwellenwert ist, die anfängliche Identifikation, die von der ersten Spracherkennungsmaschine 202 vorgenommen wird, als einen identifizierten Sprachbefehl 210. Andernfalls verwendet die Sprachbefehlssteuerung 318 als Reaktion darauf, dass die Sprachbefehlssteuerung 318 bestimmt, dass (1) das Konfidenzniveau kleiner als der vorbestimmte Konfidenzschwellenwert ist und/oder (2) der Rauschpegel größer als der vorbestimmte Rauschschwellenwert ist, die zweite Spracherkennungsmaschine 204, um den identifizierten Sprachbefehl 210 zu identifizieren. Nachdem der entfernte Server 314 den identifizierten Sprachbefehl 210 bestimmt hat, empfängt die Sprachbefehlssteuerung 128 des Fahrzeugs 100 den identifizierten Sprachbefehl 210 von dem entfernten Server 314 über das Kommunikationsmodul 304 und führt eine Fahrzeugfunktion basierend auf dem identifizierten Sprachbefehl 210 durch.
  • Die ECUs 306 überwachen und steuern die Teilsysteme des Fahrzeugs 100, um Fahrzeugfunktionen durchzuführen. Beispielsweise stehen die ECUs 306 in Kommunikation mit der Sprachbefehlssteuerung 128, um das Fahrzeug 100 zu betreiben. Zum Beispiel sind die ECUs 306 separate Sätze elektronischer Bauteile, die ihre eigene(n) Schaltung(en) (z. B. integrierte Schaltungen, Mikroprozessoren, Speicher, Datenspeicher usw.) und Firmware, Sensoren, Aktoren und/oder Montage-Hardware beinhalten. Die ECUs 306 kommunizieren über einen Fahrzeugdatenbus (z. B. den Fahrzeugdatenbus 308) und tauschen darüber Informationen aus. Zusätzlich können die ECUs 306 einander Eigenschaften (z. B. Status der ECUs 306, Sensormesswerte, Steuerzustand, Fehler- und Diagnosecodes usw.) kommunizieren und/oder Anforderungen voneinander empfangen. Zum Beispiel kann das Fahrzeug 100 Dutzende der ECUs 306 aufweisen, die an verschiedenen Stellen um das Fahrzeug 100 herum positioniert sind und kommunikativ durch den Fahrzeugdatenbus 308 gekoppelt sind.
  • Der Fahrzeugdatenbus 308 koppelt die Mikrofone 112, die HMI-Einheit 120, die On-Board-Rechenplattform 302, das Kommunikationsmodul 304 und die ECUs 306 kommunikativ. In einigen Beispielen beinhaltet der Fahrzeugdatenbus 308 einen oder mehrere Datenbusse. Der Fahrzeugdatenbus 308 kann gemäß einem Controller-Area-Network-(CAN-)Bus-Protokoll laut der Definition durch die International Standards Organization (ISO) 11898-1, einem Media-Oriented-Systems-Transport-(MOST-)Bus-Protokoll, einem CAN-Flexible-Data-(CAN-FD-)Bus-Protokoll (ISO 11898-7) und/oder einem K-Leitungs-Bus-Protokoll (ISO 9141 und ISO 14230-1) und/oder einem Ethernet™-Bus-Protokoll IEEE 802.3 (ab 2002) usw. umgesetzt sein.
  • 4 ist ein Flussdiagramm eines beispielhaften Verfahrens 400 zum Identifizieren eines Sprachbefehls für ein Fahrzeug über Spracherkennung. Das Flussdiagramm aus 4 ist repräsentativ für maschinenlesbare Anweisungen, die in Speicher (zum Beispiel dem Speicher 312 aus 3) gespeichert sind und ein oder mehrere Programme beinhalten, die, wenn sie von einem Prozessor (zum Beispiel dem Prozessor 310 aus 3) ausgeführt werden, das Fahrzeug 100 und/oder den entfernten Server 314 dazu veranlassen, die beispielhafte Sprachbefehlssteuerung 128, die beispielhafte erste Spracherkennungsmaschine 202, die beispielhafte zweite Spracherkennungsmaschine 204, die beispielhafte Gewohnheitsmaschine 206 und/oder die beispielhafte Sprachbefehlssteuerung 318 aus 1-3 zu implementieren. Während das beispielhafte Programm unter Bezugnahme auf das in 4 veranschaulichte Flussdiagramm beschrieben wird, können alternativ viele andere Verfahren zum Implementieren der beispielhaften Sprachbefehlssteuerung 128, der beispielhaften ersten Spracherkennungsmaschine 202, der beispielhaften zweiten Spracherkennungsmaschine 204, der beispielhaften Gewohnheitsmaschine 206 und/oder der beispielhaften Sprachbefehlssteuerung 318 angewandt werden. Zum Beispiel kann die Reihenfolge der Ausführung der Blöcke neu angeordnet, verändert, weggelassen und/oder kombiniert werden, um das Verfahren 400 durchzuführen. Da das Verfahren 400 in Verbindung mit den Komponenten aus 1-3 offenbart wird, sind ferner einige Funktionen dieser Komponenten nachstehend nicht ausführlich beschrieben.
  • Zu Beginn sammelt bei Block 402 eines oder mehrere der Mikrofone 112 das Audiosignal 114, das den Sprachbefehl 118 beinhaltet. Bei Block 404 speist die Sprachbefehlssteuerung 128 und/oder die Sprachbefehlssteuerung 318 das Audiosignal 114 in die erste Spracherkennungsmaschine 202 ein. Bei Block 406 bestimmt die Sprachbefehlssteuerung 128 und/oder die Sprachbefehlssteuerung 318 eine anfängliche Identifikation des identifizierten Sprachbefehls 210 basierend auf der Anwendung der ersten Spracherkennungsmaschine 202. Bei Block 408 bestimmt die Sprachbefehlssteuerung 128 und/oder die Sprachbefehlssteuerung 318, ob das Konfidenzniveau entsprechend der anfänglichen Identifikation größer als ein vorbestimmter Konfidenzschwellenwert ist. Als Reaktion darauf, dass die Sprachbefehlssteuerung 128 und/oder die Sprachbefehlssteuerung 318 bestimmt, dass das Konfidenzniveau nicht größer als der vorbestimmte Konfidenzschwellenwert ist, fährt das Verfahren 400 mit Block 414 fort. Andernfalls, als Reaktion darauf, dass die Sprachbefehlssteuerung 128 und/oder die Sprachbefehlssteuerung 318 bestimmt, dass das Konfidenzniveau größer als der vorbestimmte Konfidenzschwellenwert ist, fährt das Verfahren 400 mit Block 410 fort.
  • Bei Block 410 bestimmt die Sprachbefehlssteuerung 128 und/oder die Sprachbefehlssteuerung 318, ob ein Rauschpegel des Audiosignals 114 kleiner als ein vorbestimmter Rauschschwellenwert ist. Als Reaktion darauf, dass die Sprachbefehlssteuerung 128 und/oder die Sprachbefehlssteuerung 318 bestimmt, dass der Rauschpegel nicht kleiner als der vorbestimmte Rauschschwellenwert ist, fährt das Verfahren 400 mit Block 414 fort. Andernfalls, als Reaktion darauf, dass die Sprachbefehlssteuerung 128 und/oder die Sprachbefehlssteuerung 318 bestimmt, dass der Rauschpegel kleiner als der vorbestimmte Konfidenzschwellenwert ist, fährt das Verfahren 400 mit Block 412 fort.
  • Bei Block 412 bestimmt die Sprachbefehlssteuerung 128 und/oder die Sprachbefehlssteuerung 318 den identifizierten Sprachbefehl 210. Wenn zum Beispiel (1) in Block 408 bestimmt wird, dass das Konfidenzniveau größer als der vorbestimmte Konfidenzschwellenwert ist, und (2) in Block 410 bestimmt wird, dass der Rauschpegel kleiner als der vorbestimmte Rauschschwellenwert ist, identifiziert die Sprachbefehlssteuerung 128 und/oder die Sprachbefehlssteuerung 318 die durch die erste Spracherkennungsmaschine 202 vorgenommene anfängliche Identifikation als den identifizierten Sprachbefehl 210.
  • Zurückkehrend zu Block 414 sammelt die Sprachbefehlssteuerung 128 und/oder die Sprachbefehlssteuerung 318 die Benutzerhistorie 208 für den Benutzer (z. B. den Bediener 108), der den Sprachbefehl 118 in dem Audiosignal 114 bereitgestellt hat. Bei Block 416 speist die Sprachbefehlssteuerung 128 und/oder die Sprachbefehlssteuerung 318 die Benutzerhistorie 208 des Benutzers in die Gewohnheitsmaschine 206 ein. Bei Block 418 bestimmt die Sprachbefehlssteuerung 128 und/oder die Sprachbefehlssteuerung 318 Gewohnheiten des Benutzers basierend auf der Anwendung der ersten Spracherkennungsmaschine 202.
  • Bei Block 420 speist die Sprachbefehlssteuerung 128 und/oder die Sprachbefehlssteuerung 318 (1) das von einem oder mehreren der Mikrofone 112 gesammelte Audiosignal 114, (2) die von der ersten Spracherkennungsmaschine 202 bestimmte anfängliche Identifikation, und (3) die durch die Gewohnheitsmaschine 206 identifizierten Gewohnheiten des Benutzers in die zweite Spracherkennungsmaschine 204 ein. Bei Block 412 bestimmt die Sprachbefehlssteuerung 128 und/oder die Sprachbefehlssteuerung 318 den identifizierten Sprachbefehl 210. Beispielsweise identifiziert beim Anwenden der zweiten Spracherkennungsmaschine 204 bei Block 420 die Sprachbefehlssteuerung 128 und/oder die Sprachbefehlssteuerung 318 die Ausgabe der zweiten Spracherkennungsmaschine 204 als den identifizierten Sprachbefehl 210.
  • Bei Block 422 führt die Sprachbefehlssteuerung 128 des Fahrzeugs 100 eine Fahrzeugfunktion basierend auf dem identifizierten Sprachbefehl 210 durch. Beispielsweise weist die Sprachbefehlssteuerung 128 eine oder mehrere der ECUs 306 an, eine Fahrzeugfunktion durchzuführen, die dem Sprachbefehl entspricht, oder bewirkt dies anderweitig.
  • In dieser Anmeldung soll die Verwendung der Disjunktion die Konjunktion einschließen. Die Verwendung von bestimmten oder unbestimmten Artikeln soll keine Kardinalität anzeigen. Insbesondere soll ein Verweis auf „das“ Objekt oder „ein“ Objekt auch eines aus einer möglichen Vielzahl solcher Objekte bezeichnen. Ferner kann die Konjunktion „oder“ dazu verwendet werden, Merkmale wiederzugeben, die gleichzeitig vorhanden sind, anstelle von sich gegenseitig ausschließenden Alternativen. Mit anderen Worten sollte die Konjunktion „oder“ so verstanden werden, dass sie „und/oder“ einschließt. Die Ausdrücke „beinhaltet“, „beinhaltend“ und „beinhalten“ sind einschließend und verfügen über denselben Umfang wie „umfasst“, „umfassend“ bzw. „umfassen“. Zusätzlich bezeichnen die Ausdrücke „Modul“ und „Einheit“ wie hierin verwendet Hardware mit Schaltung zum Bereitstellen von Kommunikations-, Steuer- und/oder Überwachungsfähigkeiten. Ein „Modul“ und eine „Einheit“ können zudem Firmware einschließen, die auf der Schaltung ausgeführt wird.
  • Die vorstehend beschriebenen Ausführungsformen und insbesondere jegliche „bevorzugte“ Ausführungsformen sind mögliche beispielhafte Umsetzungen und werden lediglich für ein eindeutiges Verständnis der Grundsätze der Erfindung dargelegt. Viele Variationen und Modifikationen können an der (bzw. den) vorstehend beschriebenen Ausführungsform(en) vorgenommen werden, ohne wesentlich vom Geist und von den Grundsätzen der hier beschriebenen Techniken abzuweichen. Sämtliche Modifikationen sollen im Umfang dieser Offenbarung in dieser Schrift beinhaltet und durch die folgenden Ansprüche geschützt sein. Gemäß der vorliegenden Erfindung wird ein Fahrzeug bereitgestellt, das ein Mikrofon zum Sammeln eines Signals einschließlich eines Sprachbefehls, einen Speicher und eine Steuerung aufweist, die konfiguriert ist, um eine anfängliche Identifikation durch Einspeisen des Signals in eine erste automatische Spracherkennungsmaschine (ASR) zu bestimmen, Gewohnheiten zu bestimmen, indem Benutzerhistorie in eine Gewohnheitsmaschine eingespeist wird, den Sprachbefehl durch Einspeisen des Signals, der anfänglichen Identifikation und der Gewohnheiten in eine zweite ASR-Maschine zu identifizieren und eine Fahrzeugfunktion basierend auf dem Sprachbefehl durchzuführen.
  • Gemäß einer Ausführungsform verwendet die Steuerung die zweite ASR-Maschine, um den Sprachbefehl als Reaktion auf das Bestimmen zu identifizieren, dass die anfängliche Identifikation einem Konfidenzniveau entspricht, das kleiner als ein Konfidenzschwellenwert ist.
  • Gemäß einer Ausführungsform verwendet die Steuerung die zweite ASR-Maschine, um den Sprachbefehl als Reaktion auf das Bestimmen zu identifizieren, dass ein Rauschpegel des Signals größer als ein Rauschschwellenwert ist.
  • Gemäß einer Ausführungsform identifiziert die Steuerung die anfängliche Identifikation als den Sprachbefehl als Reaktion auf das Bestimmen, dass die anfängliche Identifikation einem Konfidenzniveau entspricht, das größer als ein Konfidenzschwellenwert ist, und ein Rauschpegel des Signals kleiner als ein Rauschschwellenwert ist.
  • Gemäß einer Ausführungsform beinhaltet die erste ASR-Maschine ein akustisches Modell zum Identifizieren eines oder mehrerer Phoneme eines Dialekts in dem Signal und ein Sprachenmodell zum Identifizieren eines oder mehrerer Wörter in dem Signal durch Bestimmen von Wortwahrscheinlichkeitsverteilungen basierend auf dem einen oder den mehreren durch das akustische Modell identifizierten Phonemen.
  • Gemäß einer Ausführungsform beinhaltet die zweite ASR-Maschine ein tiefes neuronales Netzwerk.
  • Gemäß einer Ausführungsform beinhaltet die Gewohnheitsmaschine einen Mustererkennungsalgori thmus.
  • Gemäß einer Ausführungsform ist die Erfindung ferner durch ein oder mehrere Eingabevorrichtungen gekennzeichnet, wobei die Steuerung die Benutzerhistorie basierend auf Benutzereingaben bestimmt, die von der einen oder den mehreren Eingabevorrichtungen empfangen werden.
  • Gemäß der vorliegenden Erfindung wird ein System bereitgestellt, das ein Fahrzeug zum Betreiben basierend auf einem Sprachbefehl aufweist, wobei das Fahrzeug ein Mikrofon zum Sammeln eines Signals, das den Sprachbefehl beinhaltet, und einen entfernten Server in Kommunikation mit dem Fahrzeug beinhaltet, um eine anfängliche Identifikation über eine erste Maschine basierend auf dem Signal zu bestimmen, Gewohnheiten über eine Gewohnheitsmaschine zu bestimmen und den Sprachbefehl für das Fahrzeug über eine zweite Maschine basierend auf dem Signal, der anfänglichen Identifikation und den Gewohnheiten zu identifizieren.
  • Gemäß einer Ausführungsform verwendet der entfernte Server die zweite Maschine, um den Sprachbefehl als Reaktion auf das Bestimmen zu identifizieren, dass die anfängliche Identifikation einem Konfidenzniveau entspricht, das kleiner als ein Konfidenzschwellenwert ist.
  • Gemäß einer Ausführungsform verwendet der entfernte Server die zweite Maschine, um den Sprachbefehl als Reaktion auf das Bestimmen zu identifizieren, dass ein Rauschpegel des Signals größer als ein Rauschschwellenwert ist.
  • Gemäß einer Ausführungsform identifiziert der entfernte Server die anfängliche Identifikation als den Sprachbefehl als Reaktion auf das Bestimmen, dass die anfängliche Identifikation einem Konfidenzniveau entspricht, das größer als ein Konfidenzschwellenwert ist, und ein Rauschniveau des Signals kleiner als ein Rauschschwellenwert ist.
  • Gemäß einer Ausführungsform beinhaltet die erste Maschine ein akustisches Modell zum Identifizieren eines oder mehrerer Phoneme eines Dialekts in dem Signal und ein Sprachenmodell zum Identifizieren eines oder mehrerer Wörter in dem Signal durch Bestimmen von Wortwahrscheinlichkeitsverteilungen basierend auf dem einen oder den mehreren durch das akustische Modell identifizierten Phonemen.
  • Gemäß einer Ausführungsform beinhaltet die zweite Maschine ein tiefes neuronales Netzwerk. Gemäß einer Ausführungsform beinhaltet die Gewohnheitsmaschine einen Mustererkennungsalgori thmus.
  • Gemäß einer Ausführungsform beinhaltet das Fahrzeug eine oder mehrere Eingabevorrichtungen, wobei der entfernte Server basierend auf Benutzereingaben, die von der einen oder den mehreren Eingabevorrichtungen empfangen werden, eine Benutzerhistorie bestimmt, die in die Gewohnheitsmaschine eingespeist werden soll.
  • Gemäß der vorliegenden Erfindung beinhaltet ein Verfahren: Sammeln eines Signals, das einen Sprachbefehl beinhaltet, über ein Fahrzeugmikrofon, Bestimmen einer anfänglichen Identifikation durch Einspeisen des Signals in eine erste automatische Spracherkennungsmaschine (ASR), Bestimmen von Gewohnheiten durch Einspeisen der Benutzerhistorie in eine Gewohnheitsmaschine, Identifizieren des Sprachbefehls durch Einspeisen des Signals, der anfänglichen Identifikation und der Gewohnheiten in eine zweite ASR-Maschine und Durchführen einer Fahrzeugfunktion basierend auf dem Sprachbefehl über einen Prozessor.
  • Gemäß einer Ausführungsform wird der Sprachbefehl über die zweite ASR-Maschine als Reaktion auf das Bestimmen identifiziert, dass die anfängliche Identifikation einem Konfidenzniveau entspricht, das kleiner als ein Konfidenzschwellenwert ist.
  • Gemäß einer Ausführungsform wird der Sprachbefehl über die zweite ASR-Maschine als Reaktion auf das Bestimmen identifiziert, dass ein Rauschpegel des Signals größer als ein Rauschschwellenwert ist.
  • Gemäß einer Ausführungsform ist die Erfindung ferner dadurch gekennzeichnet, dass die anfängliche Identifikation als Reaktion auf das Bestimmen als der Sprachbefehl identifiziert wird, dass das Konfidenzniveau größer als der Konfidenzschwellenwert ist, und der Rauschpegel des Signals kleiner als der Rauschschwellenwert ist.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • ISO 11898-7 [0046]
    • ISO 9141 [0046]
    • ISO 14230-1 [0046]

Claims (15)

  1. Fahrzeug, umfassend: ein Mikrofon zum Sammeln eines Signals, das einen Sprachbefehl beinhaltet; Speicher; und eine Steuerung, die für Folgendes konfiguriert ist: Bestimmen einer anfänglichen Identifikation durch Einspeisen des Signals in eine erste automatische Spracherkennungsmaschine (ASR); Bestimmen von Gewohnheiten durch Einspeisen der Benutzerhistorie in eine Gewohnheitsmaschine; Identifizieren des Sprachbefehls durch Einspeisen des Signals, der anfänglichen Identifikation und der Gewohnheiten in eine zweite ASR-Maschine; und Durchführen einer Fahrzeugfunktion basierend auf dem Sprachbefehl.
  2. Fahrzeug nach Anspruch 1, wobei die Steuerung die zweite ASR-Maschine zum Identifizieren des Sprachbefehls als Reaktion auf das Bestimmen verwendet, dass die anfängliche Identifikation einem Konfidenzniveau entspricht, das kleiner als ein Konfidenzschwellenwert ist.
  3. Fahrzeug nach Anspruch 1, wobei die Steuerung die zweite ASR-Maschine zum Identifizieren des Sprachbefehls als Reaktion auf das Bestimmen verwendet, dass ein Rauschpegel des Signals größer als ein Rauschschwellenwert ist.
  4. Fahrzeug nach Anspruch 1, wobei die Steuerung die anfängliche Identifikation als Reaktion auf das Bestimmen von Folgendem als den Sprachbefehl identifiziert: die anfängliche Identifikation entspricht einem Konfidenzniveau, das größer als ein Konfidenzschwellenwert ist, und ein Rauschpegel des Signals ist kleiner als ein Rauschschwellenwert.
  5. Fahrzeug nach Anspruch 1, wobei die erste ASR-Maschine Folgendes beinhaltet: ein akustisches Modell zum Identifizieren eines oder mehrerer Phoneme eines Dialekts in dem Signal; und ein Sprachenmodell zum Identifizieren eines oder mehrerer Wörter in dem Signal durch Bestimmen von Wortwahrscheinlichkeitsverteilungen basierend auf dem einen oder den mehreren durch das akustische Modell identifizierten Phonemen.
  6. Fahrzeug nach Anspruch 1, wobei die zweite ASR-Maschine ein tiefes neuronales Netzwerk beinhaltet.
  7. Fahrzeug nach Anspruch 1, wobei die Gewohnheitsmaschine einen Mustererkennungsalgorithmus beinhaltet.
  8. Fahrzeug nach Anspruch 1, ferner beinhaltend eine oder mehrere Eingabevorrichtungen, wobei die Steuerung die Benutzerhistorie basierend auf Benutzereingaben bestimmt, die von der einen oder den mehreren Eingabevorrichtungen empfangen werden.
  9. System, umfassend: ein Fahrzeug zum Betreiben basierend auf einem Sprachbefehl, wobei das Fahrzeug ein Mikrofon zum Sammeln eines Signals beinhaltet, das den Sprachbefehl beinhaltet; und einen entfernten Server in Kommunikation mit dem Fahrzeug, zum: Bestimmen einer anfänglichen Identifikation über eine erste Maschine basierend auf dem Signal; Bestimmen von Gewohnheiten über eine Gewohnheitsmaschine; und Identifizieren des Sprachbefehls für das Fahrzeug über eine zweite Maschine basierend auf dem Signal, der anfänglichen Identifikation und den Gewohnheiten.
  10. System nach Anspruch 9, wobei der entfernte Server die zweite Maschine zum Identifizieren des Sprachbefehls als Reaktion auf das Bestimmen verwendet, dass die anfängliche Identifikation einem Konfidenzniveau entspricht, das kleiner als ein Konfidenzschwellenwert ist.
  11. System nach Anspruch 9, wobei der entfernte Server die zweite Maschine zum Identifizieren des Sprachbefehls als Reaktion auf das Bestimmen verwendet, dass ein Rauschpegel des Signals größer als ein Rauschschwellenwert ist.
  12. System nach Anspruch 9, wobei der entfernte Server die anfängliche Identifikation als Reaktion auf das Bestimmen des Folgenden als den Sprachbefehl identifiziert: die anfängliche Identifikation entspricht einem Konfidenzniveau, das größer als ein Konfidenz schwellenwert ist, und ein Rauschpegel des Signals ist kleiner als ein Rauschschwellenwert.
  13. System nach Anspruch 9, wobei die erste Maschine Folgendes beinhaltet: ein akustisches Modell zum Identifizieren eines oder mehrerer Phoneme eines Dialekts in dem Signal; und ein Sprachenmodell zum Identifizieren eines oder mehrerer Wörter in dem Signal durch Bestimmen von Wortwahrscheinlichkeitsverteilungen basierend auf dem einen oder den mehreren durch das akustische Modell identifizierten Phonemen.
  14. System nach Anspruch 9, wobei die zweite Maschine ein tiefes neuronales Netzwerk beinhaltet.
  15. Verfahren, umfassend: Sammeln eines Signals, das einen Sprachbefehl beinhaltet, über ein Fahrzeugmikrofon; Bestimmen einer anfänglichen Identifikation durch Einspeisen des Signals in eine erste automatische Spracherkennungsmaschine (ASR); Bestimmen von Gewohnheiten durch Einspeisen der Benutzerhistorie in eine Gewohnheitsmaschine; Identifizieren des Sprachbefehls durch Einspeisen des Signals, der anfänglichen Identifikation und der Gewohnheiten in eine zweite ASR-Maschine; und Durchführen einer Fahrzeugfunktion basierend auf dem Sprachbefehl über einen Prozessor.
DE102019119171.8A 2018-07-17 2019-07-15 Spracherkennung für fahrzeugsprachbefehle Pending DE102019119171A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/037,945 2018-07-17
US16/037,945 US11037556B2 (en) 2018-07-17 2018-07-17 Speech recognition for vehicle voice commands

Publications (1)

Publication Number Publication Date
DE102019119171A1 true DE102019119171A1 (de) 2020-01-23

Family

ID=69147977

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019119171.8A Pending DE102019119171A1 (de) 2018-07-17 2019-07-15 Spracherkennung für fahrzeugsprachbefehle

Country Status (3)

Country Link
US (1) US11037556B2 (de)
CN (1) CN110797007A (de)
DE (1) DE102019119171A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102020214556A1 (de) 2020-11-19 2022-05-19 Volkswagen Aktiengesellschaft Kommunikationssystem für ein Fahrzeug zum Vorgehen bei einer Schlafstörung eines Insassen
WO2022242986A1 (de) * 2021-05-17 2022-11-24 Volkswagen Aktiengesellschaft Verfahren zum anzeigen eines zustands eines sprachassistenzsystems, sprachassistenzsystem und kraftfahrzeug

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200065664A1 (en) * 2018-08-22 2020-02-27 Fujitsu Limited System and method of measuring the robustness of a deep neural network
WO2020072759A1 (en) * 2018-10-03 2020-04-09 Visteon Global Technologies, Inc. A voice assistant system for a vehicle cockpit system
US10943598B2 (en) 2019-03-18 2021-03-09 Rovi Guides, Inc. Method and apparatus for determining periods of excessive noise for receiving smart speaker voice commands
JP7191792B2 (ja) * 2019-08-23 2022-12-19 株式会社東芝 情報処理装置、情報処理方法およびプログラム
KR20210047173A (ko) * 2019-10-21 2021-04-29 엘지전자 주식회사 오인식된 단어를 바로잡아 음성을 인식하는 인공 지능 장치 및 그 방법
CN111767021A (zh) * 2020-06-28 2020-10-13 广州小鹏车联网科技有限公司 语音交互方法、车辆、服务器、系统和存储介质
CN114765027A (zh) * 2021-01-15 2022-07-19 沃尔沃汽车公司 用于车辆语音控制的控制设备、车载系统和方法
CN113335205B (zh) * 2021-06-09 2022-06-03 东风柳州汽车有限公司 语音唤醒方法、装置、设备及存储介质
US11620993B2 (en) * 2021-06-09 2023-04-04 Merlyn Mind, Inc. Multimodal intent entity resolver
CN113674742B (zh) * 2021-08-18 2022-09-27 北京百度网讯科技有限公司 人机交互方法、装置、设备以及存储介质
DE102021129535A1 (de) * 2021-11-12 2023-05-17 Ford Global Technologies, Llc System und Verfahren zum Steuern von autonom steuerbaren Fahrzeugfunktionen eines mit Partnersubjekten kooperierenden autonomen Fahrzeugs, Computerprogrammprodukt, computerlesbarer Datenträger und Fahrzeug

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7640159B2 (en) * 2004-07-22 2009-12-29 Nuance Communications, Inc. System and method of speech recognition for non-native speakers of a language
US8005668B2 (en) * 2004-09-22 2011-08-23 General Motors Llc Adaptive confidence thresholds in telematics system speech recognition
US8688451B2 (en) * 2006-05-11 2014-04-01 General Motors Llc Distinguishing out-of-vocabulary speech from in-vocabulary speech
KR101415534B1 (ko) 2007-02-23 2014-07-07 삼성전자주식회사 다단계 음성인식장치 및 방법
JP2013529794A (ja) 2010-06-24 2013-07-22 本田技研工業株式会社 車載音声認識システム及び車両外音声認識システム間の通信システム及び方法
US9093076B2 (en) 2012-04-30 2015-07-28 2236008 Ontario Inc. Multipass ASR controlling multiple applications
WO2013192535A1 (en) * 2012-06-22 2013-12-27 Johnson Controls Technology Company Multi-pass vehicle voice recognition systems and methods
KR101598948B1 (ko) 2014-07-28 2016-03-02 현대자동차주식회사 음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법
US20160111090A1 (en) 2014-10-16 2016-04-21 General Motors Llc Hybridized automatic speech recognition
US20190147855A1 (en) * 2017-11-13 2019-05-16 GM Global Technology Operations LLC Neural network for use in speech recognition arbitration

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ISO 11898-7
ISO 14230-1
ISO 9141

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102020214556A1 (de) 2020-11-19 2022-05-19 Volkswagen Aktiengesellschaft Kommunikationssystem für ein Fahrzeug zum Vorgehen bei einer Schlafstörung eines Insassen
WO2022106176A1 (de) 2020-11-19 2022-05-27 Volkswagen Aktiengesellschaft Kommunikationssystem für ein fahrzeug zum vorgehen bei einer schlafstörung eines insassen
WO2022242986A1 (de) * 2021-05-17 2022-11-24 Volkswagen Aktiengesellschaft Verfahren zum anzeigen eines zustands eines sprachassistenzsystems, sprachassistenzsystem und kraftfahrzeug

Also Published As

Publication number Publication date
US11037556B2 (en) 2021-06-15
CN110797007A (zh) 2020-02-14
US20200027452A1 (en) 2020-01-23

Similar Documents

Publication Publication Date Title
DE102019119171A1 (de) Spracherkennung für fahrzeugsprachbefehle
DE102019105251A1 (de) Dialekt- und sprachenerkennung zur spracherkennung in fahrzeugen
DE102014109121B4 (de) Systeme und Verfahren zur Arbitrierung eines Sprachdialogdienstes
DE102019105269B4 (de) Verfahren zur spracherkennung mit spracherkennungs-arbitrierungslogik
DE102017105459A1 (de) Interaktive anzeige auf grundlage der interpretation von fahrerhandlungen
DE102014109122A1 (de) Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen
DE102017105885A1 (de) Verfahren und Einrichtung für vorausschauende Fahrerassistenz
DE102016212647B4 (de) Verfahren zum Betreiben eines Sprachsteuerungssystems in einem Innenraum und Sprachsteuerungssystem
DE102018100097A1 (de) Interaktives fahrersystem für halbautonome modi eines fahrzeugs
DE102013216975A1 (de) Verfahren und Vorrichtung zur subjektiven Befehlssteuerung von Fahrzeugsystemen
DE102018116832A1 (de) Spracherkennungsbenutzermakros zum verbessern von fahrzeuggrammatiken
DE102018103188A1 (de) Verbesserte Aufgabenerledigung bei der Spracherkennung
DE112015006831T5 (de) Dynamisches Akustikmodell für Fahrzeug
DE102015121098A1 (de) Multimodale Antwort auf eine Multimodale Suche
DE112015003379T5 (de) Systeme und Verfahren für eine adaptive Schnittstelle, um Anwendererfahrungen in einem Fahrzeug zu verbessern
DE102018215293A1 (de) Multimodale Kommunikation mit einem Fahrzeug
DE102016211034A1 (de) Informationsbereitstellungsvorrichtung für ein Fahrzeug
EP3735688B1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum verarbeiten einer spracheingabe, kraftfahrzeug und nutzerendgerät mit einer sprachverarbeitung
DE112021006996T5 (de) Anpassungsvorrichtung, Anpassungssystem und Anpassungsverfahren
DE102018130754A1 (de) Nahtloser berater-eingriff
DE102015207177A1 (de) Verfahren und Vorrichtung für ein Spracherkennungstraining ausserhalb eines Fahrzeugs, einschliesslich einer Fahrzeugaktualisierung
DE112018006597T5 (de) Sprachverarbeitungsvorrichtung und Sprachverarbeitungsverfahren
DE102015106530B4 (de) Systeme und Verfahren zum Koordinieren einer Spracherkennung
DE102019204849A1 (de) Erkennung eines durch Personen ausgehenden Gefahrenpotentials
DE102018118585A1 (de) Elektronische kommunikationsmodule, die für intelligente konnektivität eingerichtet sind

Legal Events

Date Code Title Description
R082 Change of representative

Representative=s name: BONSMANN - BONSMANN - FRANK PATENTANWAELTE, DE