DE102019128133A1 - Sprachverarbeitung für fahrzeug - Google Patents

Sprachverarbeitung für fahrzeug Download PDF

Info

Publication number
DE102019128133A1
DE102019128133A1 DE102019128133.4A DE102019128133A DE102019128133A1 DE 102019128133 A1 DE102019128133 A1 DE 102019128133A1 DE 102019128133 A DE102019128133 A DE 102019128133A DE 102019128133 A1 DE102019128133 A1 DE 102019128133A1
Authority
DE
Germany
Prior art keywords
vehicle
command
procedure according
spoken voice
computing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102019128133.4A
Other languages
English (en)
Inventor
Lisa Scaria
Ryan Burke
Praveen Narayanan
Francois Charette
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ford Global Technologies LLC
Original Assignee
Ford Global Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ford Global Technologies LLC filed Critical Ford Global Technologies LLC
Publication of DE102019128133A1 publication Critical patent/DE102019128133A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • B60K35/10Input arrangements, i.e. from user to vehicle, associated with vehicle functions or specially adapted therefor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • B60K35/20Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor
    • B60K35/26Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor using acoustic output
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • B60K35/80Arrangements for controlling instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K2360/00Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
    • B60K2360/148Instrument input by voice
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • B60K35/85Arrangements for transferring vehicle- or driver-related data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
  • Traffic Control Systems (AREA)

Abstract

Die Offenbarung stellt Sprachverarbeitung für ein Fahrzeug bereit. Eine Rechenvorrichtung kann einen Fahrzeugbefehl auf Grundlage eines empfangenen gesprochenen Sprachbefehls und bestimmter Konfidenzniveaus bestimmen. Das Rechensystem kann ein Fahrzeug auf Grundlage des Fahrzeugbefehls betreiben. Das Rechensystem kann ferner den gesprochenen Sprachbefehl durch Verarbeiten von Audiospektrumdaten, die gesprochener natürlicher Sprache entsprechen, mit einem System zur automatischen Spracherkennung (ASR) bestimmen.

Description

  • TECHNISCHES GEBIET
  • Die Offenbarung betrifft im Allgemeinen Fahrzeugrechensysteme und insbesondere Sprachverarbeitung eines Fahrzeugcomputers.
  • ALLGEMEINER STAND DER TECHNIK
  • Fahrzeuge können dazu ausgestattet sein, sowohl in einem autonomen als auch in einem insassengelenkten Modus betrieben zu werden. Fahrzeuge können mit Rechenvorrichtungen, Netzwerken, Sensoren und Steuerungen ausgestattet sein, um Informationen bezüglich der Umgebung des Fahrzeugs zu erlangen und das Fahrzeug auf Grundlage der Informationen zu betreiben. Der sichere und komfortable Betrieb des Fahrzeugs kann vom Erlangen genauer und rechtzeitiger Informationen bezüglich der Umgebung des Fahrzeugs abhängen. Fahrzeugsensoren können Daten hinsichtlich zu fahrender Routen und zu umfahrender Objekte in der Umgebung des Fahrzeugs bereitstellen. Der sichere und effiziente Betrieb des Fahrzeugs kann vom Erlangen genauer und rechtzeitiger Informationen bezüglich Routen und Objekten in der Umgebung eines Fahrzeugs abhängig sein, während das Fahrzeug auf einer Fahrbahn betrieben wird.
  • KURZDARSTELLUNG
  • Fahrzeuge können ausgestattet sein, um sowohl in einem autonomen als auch in einem insassengelenkten Modus betrieben zu werden. Unter einem halb- oder vollautonomen Modus verstehen die Erfinder einen Betriebsmodus, in dem ein Fahrzeug von einer Rechenvorrichtung als Teil eines Fahrzeuginformationssystems gesteuert werden kann, das Sensoren und Steuereinheiten aufweist. Das Fahrzeug kann besetzt oder unbesetzt sein, jedoch kann das Fahrzeug in beiden Fällen ohne die Unterstützung eines Insassen gesteuert werden. Für die Zwecke dieser Offenbarung ist ein autonomer Modus als ein Modus definiert, bei dem sowohl Antrieb (z. B. über einen Antriebsstrang, der eine Brennkraftmaschine und/oder einen Elektromotor beinhaltet), Bremsung als auch Lenkung des Fahrzeugs durch einen oder mehrere Fahrzeugcomputer gesteuert werden; in einem halbautonomen Modus steuert (steuern) der (die) Fahrzeugcomputer eines oder zwei von Antrieb, Bremsung und Lenkung des Fahrzeugs. In einem nicht autonomen Fahrzeug wird keines von diesen von einem Computer gesteuert.
  • Eine Rechenvorrichtung in einem Fahrzeug kann programmiert sein, um Daten in Bezug auf die äußere Umgebung eines Fahrzeugs zu erfassen und die Daten zu verwenden, um Bewegungsbahnen zu bestimmen, die zum Betreiben eines Fahrzeugs in einem autonomen oder halbautonomen Modus verwendet werden sollen, wobei die Rechenvorrichtung beispielsweise Steuerungen Informationen bereitstellen kann, um ein Fahrzeug auf einer Fahrbahn im Verkehr, der andere Fahrzeuge beinhaltet, zu betreiben. Auf Grundlage von Sensordaten kann eine Rechenvorrichtung einen Weg bestimmen, auf dem ein Fahrzeug fahren soll, um ein Ziel auf einer Fahrbahn in Gegenwart anderer Fahrzeuge und Fußgänger zu erreichen, wobei ein Weg als eine Linie definiert ist, die aufeinanderfolgende Standorte eines Fahrzeugs verbindet, wenn sich dieses von einem ersten Standort auf einer Fahrbahn zu einem zweiten Standort auf einer Fahrbahn bewegt. Ein Weg, bei dem die Linie, die einen ersten Standort und einen zweiten Standort verbindet, durch eine Polynomfunktion definiert ist, ist ein Wegpolynom.
  • Fahrzeuge können auf eine Eingabe mittels gesprochener Sprache von einem Insassen eines Fahrzeugs zurückgreifen, um ein Fahrzeugwegpolynom zu bestimmen. Eine Rechenvorrichtung in einem Fahrzeug kann gesprochene Sprachbefehle eingeben, indem Audiospektrumdaten, die den gesprochenen Sprachbefehlen entsprechen, mit einem Audioeingabesystem erfasst werden, das ein Mikrofon und einen Analog/Digital(A/D)-Wandler beinhaltet, die Schallwellen erfassen und in digitale Audiospektrumdaten umwandeln. Die Audiospektrumdaten können durch ein System zum Verstehen natürlicher Sprache (natural language understanding - NLU) verarbeitet werden, um einen Fahrzeugbefehl zu bestimmen, der durch eine Rechenvorrichtung verarbeitet werden kann, um ein Wegpolynom zu bestimmen, auf dem das Fahrzeug zu betreiben ist. Fahrzeugbefehle sind Anweisungen im Hinblick auf den Betrieb eines Fahrzeugs. Zum Beispiel können gesprochene Sprachbefehle wie etwa „links abbiegen“, „beschleunigen“, „langsamer werden“ usw. durch einen Insassen gesprochen werden. Diese gesprochenen Sprachbefehle können erfasst und verarbeitet werden, um Fahrzeugbefehle zu bestimmen, die durch eine Rechenvorrichtung empfangen und interpretiert werden können, um Informationen bereitzustellen, die verwendet werden können, um den Betrieb des Fahrzeugs zu regeln. Das Regeln des Betriebs des Fahrzeugs kann Bereitstellen von Fahrzeugbefehlsinformationen für einen Prozess, der ein Wegpolynom bestimmt, beinhalten.
  • Hierin wird ein Verfahren offenbart, das Bestimmen eines Fahrzeugbefehls durch Verarbeiten eines empfangenen gesprochenen Sprachbefehls und bestimmter Konfidenzniveaus mit einem System zum Verstehen natürlicher Sprache (NLU) und Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls beinhaltet. Der gesprochene Sprachbefehl kann durch Verarbeiten von Audiospektrumdaten, die einer gesprochenen natürlichen Sprache entsprechen, mit einem System zur automatischen Spracherkennung (automatic speech recognition - ASR) bestimmt werden. Das ASR-System kann Konfidenzniveaus für jedes Wort des gesprochenen Sprachbefehls auf Grundlage eines Fahrzeuggeräuschmodells bestimmen. Das Fahrzeuggeräuschmodell kann durch ein Maschinenlernsystem bestimmt werden, das Fahrzeughintergrundrauschen eingibt. Das Maschinenlernsystem kann eine regelbasierte Zustandsmaschine sein. Das System zum Verstehen natürlicher Sprache (NLU) kann einen Decodierer eines tiefen neuronalen Netzes und einen Codierer eines tiefen neuronalen Netzes beinhalten.
  • Das NLU-System kann den gesprochenen Sprachbefehl und Konfidenzniveaus, die jedem Wort in dem gesprochenen Sprachbefehl entsprechen, eingeben und den Fahrzeugbefehl unter Verwendung des Decodierers des tiefen neuronalen Netzes bestimmen. Der Decodierer des tiefen neuronalen Netzes kann unter Verwendung von Ground Truth auf Grundlage gesprochener Sprachbefehle, die in Fahrzeugbefehle übersetzt sind, und simuliertem Fahrzeuggeräusch auf Grundlage des Fahrzeuggeräuschmodells trainiert werden. Das Betreiben des Fahrzeugs kann Bestimmen eines Wegpolynoms beinhalten. Das Wegpolynom kann auf dem Fahrzeugbefehl beruhen. Das Betreiben des Fahrzeugs kann Bestimmen von Geschwindigkeitsunterschieden zwischen dem Fahrzeug und Objekten in einer Umgebung um das Fahrzeug beinhalten. Die Geschwindigkeitsunterschiede zwischen dem Fahrzeug und Objekten in einer Umgebung um das Fahrzeug können auf Grundlage einer Fahrzeugsensoreingabe bestimmt werden. Das Betreiben des Fahrzeugs kann Steuern von Antriebsstrang, Bremsung und Lenkung des Fahrzeugs beinhalten.
  • Ferner ist ein computerlesbares Medium offenbart, auf dem Programmanweisungen zum Ausführen einiger oder aller der vorstehenden Verfahrensschritte gespeichert sind. Ferner ist ein Computer offenbart, der zum Ausführen einiger oder aller der obigen Verfahrensschritte programmiert ist, beinhaltend eine Computervorrichtung, die programmiert ist, um einen Fahrzeugbefehl durch Verarbeiten eines empfangenen gesprochenen Sprachbefehls und bestimmter Konfidenzniveaus mit einem System zum Verstehen natürlicher Sprache (NLU) zu bestimmen und ein Fahrzeug auf Grundlage des Fahrzeugbefehls zu betreiben. Der gesprochene Sprachbefehl kann durch Verarbeiten von Audiospektrumdaten, die einer gesprochenen natürlichen Sprache entsprechen, mit einem System zur automatischen Spracherkennung (ASR) bestimmt werden. Das ASR-System kann Konfidenzniveaus für jedes Wort des gesprochenen Sprachbefehls auf Grundlage eines Fahrzeuggeräuschmodells bestimmen. Das Fahrzeuggeräuschmodell kann durch ein Maschinenlernsystem bestimmt werden, das Fahrzeughintergrundrauschen eingibt. Das Maschinenlernsystem kann eine regelbasierte Zustandsmaschine sein. Das System zum Verstehen natürlicher Sprache (NLU) kann einen Decodierer eines tiefen neuronalen Netzes und einen Codierer eines tiefen neuronalen Netzes beinhalten.
  • Die Computervorrichtung kann ferner programmiert sein, um den gesprochenen Sprachbefehl und Konfidenzniveaus, die jedem Wort in dem gesprochenen Sprachbefehl entsprechen, in das NLU-System einzugeben und den Fahrzeugbefehl unter Verwendung des Decodierers des tiefen neuronalen Netzes zu bestimmen. Der Decodierer des tiefen neuronalen Netzes kann unter Verwendung von Ground Truth auf Grundlage gesprochener Sprachbefehle, die in Fahrzeugbefehle übersetzt sind, und simuliertem Fahrzeuggeräusch auf Grundlage des Fahrzeuggeräuschmodells trainiert werden. Das Betreiben des Fahrzeugs kann Bestimmen eines Wegpolynoms beinhalten. Das Wegpolynom kann auf dem Fahrzeugbefehl beruhen. Das Betreiben des Fahrzeugs kann Bestimmen von Geschwindigkeitsunterschieden zwischen dem Fahrzeug und Objekten in einer Umgebung um das Fahrzeug beinhalten. Die Geschwindigkeitsunterschiede zwischen dem Fahrzeug und Objekten in einer Umgebung um das Fahrzeug können auf Grundlage einer Fahrzeugsensoreingabe bestimmt werden. Das Betreiben des Fahrzeugs kann Steuern von Antriebsstrang, Bremsung und Lenkung des Fahrzeugs beinhalten.
  • Figurenliste
    • 1 ist ein Blockdiagramm eines beispielhaften Verkehrsinfrastruktursystems.
    • 2 ist ein Schaubild einer beispielhaften Verkehrsszene.
    • 3 ist ein Schaubild eines beispielhaften Sprachverarbeitungssystems eines Fahrzeugs.
    • 4 ist ein Ablaufdiagramm eines beispielhaften Systems zum Verstehen natürlicher Sprache.
    • 5 ist ein Ablaufdiagramm eines Prozesses zum Betreiben eines Fahrzeugs auf Grundlage des Verstehens natürlicher Sprache.
  • DETAILLIERTE BESCHREIBUNG
  • 1 ist ein Diagramm eines Fahrzeuginformationssystems 100, das ein Fahrzeug 110 beinhaltet, das in einem autonomen („autonom“ allein bedeutet in dieser Offenbarung „vollautonom“) und insassengelenkten (auch als nicht autonom bezeichneten) Modus betrieben werden kann. Das Fahrzeug 110 beinhaltet zudem eine oder mehrere Rechenvorrichtungen 115 zum Durchführen von Berechnungen zum Steuern des Fahrzeugs 110 während des autonomen Betriebs. Die Rechenvorrichtungen 115 können von den Sensoren 116 Informationen in Bezug auf den Betrieb des Fahrzeugs empfangen. Die Rechenvorrichtung 115 kann das Fahrzeug 110 in einem autonomen Modus, einem halbautonomen Modus oder einem nicht autonomen Modus betreiben. Für die Zwecke dieser Offenbarung ist ein autonomer Modus als einer definiert, bei dem jedes von Antrieb, Bremsung und Lenkung des Fahrzeugs 110 durch die Rechenvorrichtung gesteuert wird; in einem halbautonomen Modus steuert die Rechenvorrichtung 115 eines oder zwei von Antrieb, Bremsung und Lenkung des Fahrzeugs 110; in einem nicht autonomen Modus steuert ein menschlicher Bediener den Antrieb, die Bremsung und die Lenkung des Fahrzeugs.
  • Die Rechenvorrichtung 115 beinhaltet einen Prozessor und einen Speicher, wie sie etwa bekannt sind. Ferner beinhaltet der Speicher eine oder mehrere Formen von computerlesbaren Medien und speichert Anweisungen, die durch den Prozessor ausführbar sind, um verschiedene Vorgänge durchzuführen, zu denen die hierin offenbarten gehören. Zum Beispiel kann die Rechenvorrichtung 115 Programmierung beinhalten, um eines oder mehrere von Bremsen, Antrieb (z. B. Steuerung der Beschleunigung in dem Fahrzeug 110 durch Steuern von einem oder mehreren von einer Brennkraftmaschine, einem Elektromotor, Hybridmotor usw.), Lenkung, Klimasteuerung, Innen- und/oder Außenleuchten usw. des Fahrzeugs zu betreiben sowie um zu bestimmen, ob und wann die Rechenvorrichtung 115 im Gegensatz zu einem menschlichen Fahrzeugführer derartige Vorgänge steuern soll.
  • Die Rechenvorrichtung 115 kann mehr als eine Rechenvorrichtung, z. B. Steuerungen oder dergleichen, die in dem Fahrzeug 110 zum Überwachen und/oder Steuern verschiedener Fahrzeugkomponenten enthalten sind, z. B. eine Antriebsstrangsteuerung 112, eine Bremssteuerung 113, eine Lenksteuerung 114 usw., beinhalten oder z. B. über einen Fahrzeugkommunikationsbus, wie weiter unten beschrieben, kommunikativ damit gekoppelt sein. Die Rechenvorrichtung 115 ist im Allgemeinen zur Kommunikation in einem Fahrzeugkommunikationsnetzwerk angeordnet, das z. B. einen Bus in dem Fahrzeug 110 beinhaltet, wie etwa einem Controller Area Network (CAN) oder dergleichen; das Netzwerk des Fahrzeugs 110 kann zusätzlich oder alternativ drahtgebundene oder drahtlose Kommunikationsmechanismen beinhalten, wie sie bekannt sind, z. B. Ethernet oder andere Kommunikationsprotokolle.
  • Über das Fahrzeugnetzwerk kann die Rechenvorrichtung 115 Nachrichten an verschiedene Vorrichtungen in dem Fahrzeug übertragen und/oder Nachrichten von den verschiedenen Vorrichtungen empfangen, z. B. Steuerungen, Aktoren, Sensoren usw. einschließlich der Sensoren 116. Alternativ oder zusätzlich kann in Fällen, in denen die Rechenvorrichtung 115 tatsächlich mehrere Vorrichtungen umfasst, das Fahrzeugkommunikationsnetzwerk zur Kommunikation zwischen Vorrichtungen verwendet werden, die in dieser Offenbarung als die Rechenvorrichtung 115 dargestellt sind. Ferner können, wie nachstehend erwähnt, verschiedene Steuerungen oder Sensorelemente wie etwa die Sensoren 116 der Rechenvorrichtung 115 über das Fahrzeugkommunikationsnetzwerk Daten bereitstellen.
  • Zusätzlich kann die Rechenvorrichtung 115 dazu konfiguriert sein, über ein Netzwerk 130, das, wie nachstehend beschrieben, Hardware, Firmware und Software beinhaltet, die ermöglichen, dass die Rechenvorrichtung 115 über ein Netzwerk 130 wie etwa drahtloses Internet (WLAN) oder Mobilfunknetze mit einem entfernten Servercomputer 120 kommuniziert, durch eine Fahrzeug-Infrastruktur-Schnittstelle (F-I-Schnittstelle) 111 mit einem entfernten Servercomputer 120, z. B. einem Cloud-Server, zu kommunizieren. Die F-I-Schnittstelle 111 kann dementsprechend Prozessoren, Speicher, Sender/Empfänger usw. beinhalten, die dazu konfiguriert sind, verschiedene drahtgebundene und/oder drahtlose Netztechnologien zu verwenden, z. B. Mobilfunk, BLUETOOTH® und drahtgebundene und/oder drahtlose Paketnetze. Die Rechenvorrichtung 115 kann zum Kommunizieren mit anderen Fahrzeugen 110 durch die F-I-Schnittstelle 111 unter Verwendung von Fahrzeug-Fahrzeug-(F-F-)Netzwerken z. B. gemäß dedizierter Nahbereichskommunikation (Dedicated Short Range Communications - DSRC) und/oder dergleichen konfiguriert sein, die z. B. ad hoc zwischen Fahrzeugen 110 in der Nähe gebildet werden oder über infrastrukturbasierte Netzwerke gebildet werden. Die Rechenvorrichtung 115 beinhaltet auch nichtflüchtigen Speicher, wie er bekannt ist. Die Rechenvorrichtung 115 kann Informationen protokollieren, indem sie die Informationen zum späteren Abrufen und Übertragen über das Fahrzeugkommunikationsnetzwerk und eine Fahrzeug-Infrastruktur-(F-I-)Schnittstelle 111 an einen Servercomputer 120 oder eine mobile Benutzervorrichtung 160 in nichtflüchtigem Speicher speichert.
  • Wie bereits erwähnt, ist in Anweisungen, die in dem Speicher gespeichert sind und durch den Prozessor der Rechenvorrichtung 115 ausgeführt werden können, im Allgemeinen Programmierung zum Betreiben einer oder mehrerer Komponenten des Fahrzeugs 110, z. B. Bremsung, Lenkung, Antrieb usw., ohne Eingriff eines menschlichen Fahrzeugführers enthalten. Unter Verwendung von in der Rechenvorrichtung 115 empfangenen Daten, z. B. der Sensordaten von den Sensoren 116, dem Servercomputer 120 usw., kann die Rechenvorrichtung 115 ohne einen Fahrer zum Betreiben des Fahrzeugs 110 verschiedene Bestimmungen vornehmen und/oder verschiedene Komponenten und/oder Vorgänge des Fahrzeugs 110 steuern. Zum Beispiel kann die Rechenvorrichtung 115 Programmierung beinhalten, um Betriebsverhalten des Fahrzeugs 110 (d.h. physische Manifestationen des Betriebs des Fahrzeugs 110) wie etwa Geschwindigkeit, Beschleunigung, Verzögerung, Lenkung usw. sowie taktisches Verhalten (d. h. Steuerung des Betriebsverhaltens typischerweise auf eine Weise, mit der eine sichere und effiziente Zurücklegung einer Route erreicht werden soll) wie etwa einen Abstand zwischen Fahrzeugen und/oder eine Zeitspanne zwischen Fahrzeugen, einen Spurwechsel, einen Mindestabstand zwischen Fahrzeugen, einen minimalen Linksabbiegeweg, eine Zeit bis zur Ankunft an einem bestimmten Ort und eine minimale Zeit bis zur Ankunft an einer Kreuzung (ohne Ampel) zum Überqueren der Kreuzung zu regulieren.
  • Im hierin verwendeten Sinne beinhaltet der Ausdruck „Steuerungen“ Rechenvorrichtungen, die typischerweise zum Steuern eines konkreten Fahrzeugteilsystems programmiert sind. Beispiele beinhalten eine Antriebsstrangsteuerung 112, eine Bremssteuerung 113 und eine Lenksteuerung 114. Eine Steuerung kann eine elektronische Steuereinheit (Electronic Control Unit - ECU) sein, wie sie bekannt ist, und möglicherweise eine zusätzliche Programmierung wie in dieser Schrift beschrieben beinhalten. Die Steuerungen können kommunikativ mit der Rechenvorrichtung 115 verbunden sein und Anweisungen von dieser empfangen, um das Teilsystem gemäß den Anweisungen zu betätigen. Beispielsweise kann die Bremssteuerung 113 Anweisungen zum Betreiben der Bremsen des Fahrzeugs 110 von der Rechenvorrichtung 115 empfangen.
  • Die eine oder mehreren Steuerungen 112, 113, 114 für das Fahrzeug 110 können bekannte elektronische Steuereinheiten (ECUs) oder dergleichen beinhalten, die als nicht einschränkende Beispiele eine oder mehrere Antriebsstrangsteuerungen 112, eine oder mehrere Bremssteuerungen 113 und eine oder mehrere Lenksteuerungen 114 beinhalten. Jede der Steuerungen 112, 113, 114 kann jeweilige Prozessoren und Speicher und einen oder mehrere Aktoren beinhalten. Die Steuerungen 112, 113, 114 können mit einem Kommunikationsbus des Fahrzeugs 110, wie etwa einem CAN(Controller Area Network)-Bus oder einem LIN(Local Interconnect Network)-Bus, programmiert und verbunden sein, um Anweisungen von dem Computer 115 zu empfangen und Aktoren auf Grundlage der Anweisungen zu steuern.
  • Zu den Sensoren 116 können vielfältige Vorrichtungen gehören, die bekanntlich Daten über den Fahrzeugkommunikationsbus bereitstellen. Zum Beispiel kann ein Radar, das an einer Frontstoßstange (nicht gezeigt) des Fahrzeugs 110 befestigt ist, einen Abstand von dem Fahrzeug 110 zu einem nächsten Fahrzeug vor dem Fahrzeug 110 bereitstellen, oder kann ein Sensor eines globalen Positionsbestimmungssystems (GPS), der in dem Fahrzeug 110 angeordnet ist, geografische Koordinaten des Fahrzeugs 110 bereitstellen. Der bzw. die durch das Radar und/oder die anderen Sensoren 116 bereitgestellte(n) Abstand bzw. Abstände und/oder die durch den GPS-Sensor bereitgestellten geografischen Koordinaten können durch die Rechenvorrichtung 115 verwendet werden, um das Fahrzeug 110 autonom oder teilautonom zu betreiben.
  • Das Fahrzeug 110 ist im Allgemeinen ein Landfahrzeug 110, das autonom und/oder halbautonom betrieben werden kann und das drei oder mehr Räder aufweist, z. B. ein PKW, ein Kleinlaster usw. Das Fahrzeug 110 beinhaltet einen oder mehrere Sensoren 116, die F-I-Schnittstelle 111, die Rechenvorrichtung 115 und eine oder mehrere Steuerungen 112, 113, 114. Die Sensoren 116 können Daten in Bezug auf das Fahrzeug 110 und die Umgebung, in der das Fahrzeug 110 betrieben wird, sammeln. Beispielhaft und nicht einschränkend können die Sensoren 116 z. B. Höhenmesser, Kameras, LiDAR, Radar, Ultraschallsensoren, Infrarotsensoren, Drucksensoren, Beschleunigungsmesser, Gyroskope, Temperatursensoren, Drucksensoren, Hallsensoren, optische Sensoren, Spannungssensoren, Stromsensoren, mechanische Sensoren wie etwa Schalter usw. beinhalten. Die Sensoren 116 können verwendet werden, um die Umgebung zu erfassen, in der das Fahrzeug 110 betrieben wird, z. B. können die Sensoren 116 Phänomene wie etwa Wetterbedingungen (Niederschlag, äußere Umgebungstemperatur usw.), die Neigung einer Straße, den Standort einer Straße (z. B. unter Verwendung von Straßenrändern, Spurmarkierungen usw.) oder Standorte von Zielobjekten wie etwa Nachbarfahrzeugen 110 erfassen. Die Sensoren 116 können ferner verwendet werden, um Daten, einschließlich dynamischer Daten des Fahrzeugs 110, die sich auf Vorgänge des Fahrzeugs 110 beziehen, wie etwa Geschwindigkeit, Gierrate, Lenkwinkel, Motordrehzahl, Bremsdruck, Öldruck, den auf die Steuerungen 112, 113, 114 in dem Fahrzeug 110 angewandten Leistungspegel, Konnektivität zwischen Komponenten und ein genaues und rechtzeitiges Leistungsverhalten von Komponenten des Fahrzeugs 110, zu sammeln.
  • 2 ist ein Diagramm einer beispielhaften Verkehrsszene 200. Die Verkehrsszene 200 beinhaltet eine Fahrbahn 202 mit einer Fahrspur 204, die durch ein Fahrzeug 110 und ein weiteres Fahrzeug 208 belegt ist, die beide auf der Fahrbahn 202 fahren. Die Rechenvorrichtung 115 kann das Fahrzeug 110 auf einer Fahrbahn 202 betreiben, indem Daten des Sensors 116, einschließlich Videosensoren, LiDAR-Sensoren und Radarsensoren, erfasst werden, um den Standort und die relative Geschwindigkeit von Objekten, wie etwa ein weiteres Fahrzeug 208, in einer realen Umgebung um das Fahrzeug 110 zu bestimmen. Der Standort, die Geschwindigkeit und Richtung des Fahrzeugs 110 in einem realen Koordinatensystem können durch die sechsachsige 3D-Stellung des Fahrzeugs 110 definiert werden, die räumliche 3D-Koordinaten in x, y und z-Richtung in Bezug auf einen globalen Referenzrahmen, wie Breitengrad, Längengrad und Höhe, und 3D-Rotationskoordinaten als Rollen, Nicken und Gieren in Bezug auf die x, y und z-Achse beinhalten. Die sechsachsige 3D-Stellung und Beschleunigungen auf jeder der sechs Achsen definieren den Standort, die Geschwindigkeit und Richtung des Fahrzeugs 110 im 3D-Raum.
  • Das Betreiben des Fahrzeugs 110 auf einer Fahrbahn 202 kann durch Schätzen zukünftiger Standorte, Geschwindigkeiten und Richtungen für das Fahrzeug 110 erreicht werden. Die zukünftigen Standorte, Geschwindigkeiten und Richtungen für das Fahrzeug 110 können auf Grundlage eines Fahrzeugbefehls bestimmt werden. Ein Fahrzeugbefehl ist eine Anweisung hinsichtlich des Betriebs eines Fahrzeugs 110 auf der Fahrbahn 202 und kann durch die Rechenvorrichtung 115 als ein Schritt in einem Prozess zum autonomen oder halbautonomen Betreiben des Fahrzeugs 110 bestimmt werden. Beispiele für Fahrzeugbefehle beinhalten „Anhalten“, „auf Zielgeschwindigkeit beschleunigen“, „an der Kreuzung links abbiegen“ usw. Die Rechenvorrichtung 115 kann zudem einen Fahrzeugbefehl auf Grundlage einer gesprochenen Spracheingabe von einem Insassen eines Fahrzeugs 110 bestimmen. Die gesprochene Spracheingabe kann durch die Rechenvorrichtung 115 erfasst und verarbeitet werden, um einen Fahrzeugbefehl zu bestimmen, um das Fahrzeug 110 zu betreiben. Die hierin erörterten Techniken können den Betrieb eines Fahrzeugs 110 auf Grundlage einer gesprochenen Spracheingabe durch Bestimmen von Konfidenzniveaus auf Grundlage eines Fahrzeuggeräuschmodells verbessern. Die Konfidenzniveaus können den Betrieb des Fahrzeugs 110 durch ein System zum Verstehen natürlicher Sprache (NLU) verbessern, um Fahrzeugbefehle auf Grundlage einer gesprochenen Spracheingabe zu bestimmen.
  • Die Rechenvorrichtung 115 kann einen Fahrzeugbefehl verarbeiten und ein Wegpolynom 210 bestimmen, das die Rechenvorrichtung 115 verwenden kann, um das Fahrzeug 110 zu betreiben und somit einen Fahrzeugbefehl auszuführen. Ein Wegpolynom 210 ist eine Polynomfunktion ersten, zweiten oder dritten Grads, die aufeinanderfolgende Standorte eines Fahrzeugs 110 veranschaulicht, während es einen Fahrzeugbefehl ausführt und damit auf einer Fahrbahn 202 fährt. Die Rechenvorrichtung 115 kann ein Wegpolynom 210 auf Grundlage einer prognostizierten Bewegung des Fahrzeugs 110, die auf Grundlage von empirischen Daten geschätzt wird, bestimmen. Die Rechenvorrichtung kann ein Wegpolynom 210 auf Grundlage des Standorts, der Geschwindigkeit und Richtung des Fahrzeugs und Standort, Geschwindigkeit und Richtung von Objekten, wie etwa andere Fahrzeuge 208, und Endstandort, -geschwindigkeit und -richtung auf Grundlage des Fahrzeugbefehls, der Quer- und Längsbeschleunigungen zwischen oberen und unteren Grenzwerten beibehält, bestimmen. Die Rechenvorrichtung 115 kann das Fahrzeug 110 auf dem Wegpolynom betreiben, indem Befehle an die Steuerungen 112, 113, 114 gesendet werden, um Antriebsstrang, Bremsen und Lenkung des Fahrzeugs 110 zu regeln, um zu veranlassen, dass das Fahrzeug 110 entlang dem Wegpolynom 210 fährt.
  • Zum Beispiel kann sich das Fahrzeug 110 in der Verkehrsszene 200 einem anderen Fahrzeug 208 mit einer Geschwindigkeit annähern, die größer als die Geschwindigkeit des anderen Fahrzeugs 208 ist. Die Rechenvorrichtung 115 kann ein regelbasiertes Maschinenintelligenzsystem beinhalten, um Geschwindigkeitsunterschiede zwischen dem Fahrzeug 110 und Objekten in einer realen Umgebung um das Fahrzeug 110, einschließlich zum Beispiel des anderen Fahrzeugs 208, auf Grundlage von Daten des Sensors 116 zu erkennen und zu messen. Das regelbasierte Maschinenintelligenzsystem kann zum Beispiel eine endliche Zustandsmaschine sein, wobei ein Fahrzeugzustand entsprechend einem aktuellen Fahrzeugstatus aufrechterhalten wird, einschließlich Standort, Geschwindigkeit und Richtung des Fahrzeugs 110 und Standort, Geschwindigkeit in Bezug auf die Fahrbahn 202 und die Fahrspur 204. Auf Grundlage aktueller Zustandsinformationen und einer Eingabe des Fahrzeugsensors 116 für nahegelegene Objekte kann eine regelbasierte endliche Zustandsmaschine programmiert sein, um einen Fahrzeugbefehl auszugeben, um die Rechenvorrichtung 115 anzuleiten, um das Fahrzeug 110 zu betreiben.
  • Regelbasierte endliche Zustandsmaschinen (oder einfach „regelbasierte Zustandsmaschinen“) können durch Antizipieren von Fahrzeugzuständen und Eingaben des Sensors 116 und Verknüpfen von ausgegebenen Fahrzeugbefehlen mit jedem antizipierten Fahrzeugzustand gemäß der antizipierten Eingabe des Sensors 116 programmiert werden. Zum Beispiel kann in der Verkehrsszene 200 der Zustand des Fahrzeugs 110 „auf der Fahrspur 204“, „Geschwindigkeit = Zielgeschwindigkeit“ und „benachbarte Fahrspur 206 = leer“ beinhalten. In diesem Beispiel kann die Eingabe des Sensors 116 in eine regelbasierte Zustandsmaschine angeben, dass sich das Fahrzeug 110 einem anderen Fahrzeug 208 annähert, wodurch ein Wegpolynom bestimmt wird, dass prognostiziert, dass sich das Fahrzeug 110 dem anderen Fahrzeug 208 viel näher annähern wird als ein vom Benutzer eingegebener Grenzwert, wenn die Rechenvorrichtung 115 keine Handlung vornimmt. Dies kann durch die Rechenvorrichtung 115 verwendet werden, um ein Wegpolynom 210 zu bestimmen. Wenn bestimmt wird, dass ein vom Benutzer eingegebener Grenzwert verletzt wird, kann eine regelbasierte endliche Zustandsmaschine einen Fahrzeugbefehl ausgeben, der ein Fahrzeug 110 auf der Fahrspur 204 mit einer neuen Zielgeschwindigkeit hält.
  • In diesem Beispiel kann die regelbasierte Zustandsmaschine einen Fahrzeugbefehl, zum Beispiel „Spurwechsel nach links durchführen“, an die Rechenvorrichtung 115 ausgeben. Die Rechenvorrichtung 115 kann ein Wegpolynom 210 bestimmen, das ein Spurwechselmanöver nach links auf eine benachbarte Fahrspur 206 erreicht, und dann das Fahrzeug 110 entlang dem Wegpolynom 210 betreiben, um das Spurwechselmanöver zu erreichen. Die Rechenvorrichtung 115 kann ein Wegpolynom bestimmen, das das Fahrzeug 110 von der Fahrspur 204 auf die benachbarte Fahrspur 206 bewegt, während die Geschwindigkeit des Fahrzeugs 110 beibehalten wird. Die Rechenvorrichtung 115 kann die Fahrzeuggeschwindigkeit einstellen, damit sie zu den für Objekte (Fahrzeuge) bestimmten Geschwindigkeiten passt, die - soweit vorhanden - auf einer benachbarten Fahrspur 206 erkannt werden, indem zum Beispiel Befehle ausgegeben werden, um Antriebsstrang, Brems- und Lenkkomponenten des Fahrzeugs zu regeln. Ein Fahrzeugbefehl kann eine Vielzahl von Fahrzeugbefehlen beinhalten. Zum Beispiel kann ein Fahrzeugbefehl die Fahrzeugbefehle „Zielgeschwindigkeit beibehalten“, „mittig auf Fahrspur bleiben“ und „2,3 Meilen weiterfahren“ oder „anhalten“, „warten, bis Verkehr sich auflöst“ und „nach links auf linke Fahrspur der Fahrbahn abbiegen“ beinhalten.
  • Eine regelbasierte Zustandsmaschine kann zusätzlich zum Ausgeben eines Fahrzeugbefehls auch eine Nachricht an einen Insassen eines Fahrzeugs 110 ausgeben, um den Insassen über einen Fahrzeugbefehl zu informieren. Die Nachricht kann mittels einer Mensch-Maschine-Schnittstelle (human-machine interface - HMI), z. B. einer visuellen Anzeige, an einen Insassen kommuniziert werden, zum Beispiel eine Warnung auf einer am Armaturenbrett montierten Anzeige. In diesem Beispiel kann eine Anzeige, die „Spurwechsel nach links in t Sekunden“ angibt, wobei t einer kleinen Zahl an Sekunden entspricht, zum Beispiel zwei oder drei, dargestellt werden. Die Rechenvorrichtung 115 kann auch über eine hörbare Warnung kommunizieren, indem ein Audioausgabesystem verwendet wird, das einen Digital/Analog(D/A)-Wandler und einen Lautsprecher beinhaltet, um Schallwellen zu emittieren, die einer gesprochenen Sprachaufforderung entsprechen, zum Beispiel „Spurwechsel nach links in t Sekunden“. Als Reaktion auf die gesprochene Sprachaufforderung kann ein Insasse eines Fahrzeugs 110 einen Befehl in natürlicher Sprache sprechen, der durch die Rechenvorrichtung 115 unter Verwendung eines NLU-Systems erfasst und verarbeitet wird, um einen Fahrzeugbefehl zum Betreiben des Fahrzeugs 110 zu bestimmen. Zum Beispiel kann ein Insasse als Reaktion auf die Nachricht „Spurwechsel nach links in t Sekunden“ einen Befehl in natürlicher Sprache „Spurwechsel abbrechen“ sprechen. Als Reaktion auf diese Eingabe kann die Rechenvorrichtung 115 das Spurwechselmanöver abbrechen, indem ein Abschnitt des Wegpolynoms 210, der zurückgelegt wurde, umgekehrt wird, um das Fahrzeug 110 auf die Fahrspur 204 zurückzuführen. Das Umkehren eines Abschnitts eines Wegpolynoms 210 beinhaltet mathematisches Spiegeln des Abschnitts des Wegpolynoms 210, der durch das Fahrzeug zurückgelegt wurde, um eine Achse senkrecht zu der Fahrtrichtung. Das gespiegelte Wegpolynom 210 kann durch das Fahrzeug 110 zurückgelegt werden, um das Fahrzeug 110 zu einem Standort und einer Richtung in Bezug auf eine Fahrspur 204 zurückzuführen. Die Geschwindigkeit des Fahrzeugs 110 kann eingestellt werden, um eine vorbestimmte Entfernung von einem anderen Fahrzeug 208 in einer Fahrspur 204 beizubehalten, indem Befehle an die Steuerungen 112, 113, 114 gesendet werden, um Antriebsstrang, Bremsen und Lenkkomponenten des Fahrzeugs 110 zu regeln, um Standort, Richtung und Geschwindigkeit des Fahrzeugs 110 zu steuern.
  • 3 ist ein Diagramm eines beispielhaften Sprachverarbeitungssystems 300 des Fahrzeugs. Das Sprachverarbeitungssystem 300 des Fahrzeugs gibt einen gesprochenen Sprachbefehl 302 ein und verarbeitet ihn, um einen Fahrzeugbefehl 316 und eine gesprochene Sprachantwort 314 zu bestimmen, während Fahrzeugdaten 318 eingegeben werden. Ein gesprochener Sprachbefehl entspricht Audiospektrumdaten, die einer gesprochenen natürlichen Sprache entsprechen, erfasst durch die Rechenvorrichtung 115 unter Verwendung eines Audioeingabesystems, wie vorstehend in Bezug auf 2 beschrieben. Das Sprachsystem 300 des Fahrzeugs beinhaltet ein System 306 zur automatischen Spracherkennung (ASR) und ein System 312 zum Verstehen natürlicher Sprache (NLU). Zu Beispielen für Sprachsysteme, die sowohl ein ASR-System 306 als auch ein NLU-System 312 beinhalten, gehören Siri (Apple, Inc., Cupertino, CA 95014) und Alexa (Amazon.com Inc., Seattle, WN 98109). Das ASR-System 306 gibt Audiospektrumdaten ein, die gesprochenen Sprachbefehlen 302 entsprechen. Die Audiospektrumdaten werden mit einer nicht-linearen Transformation in Mel-Frequenz-Daten transformiert, die eine menschliche Hörreaktion simulieren. Die Mel-Frequenz-Daten werden mit einem tiefen neuronalen Netz (deep neural network - DNN) mit einer Vielzahl von ID-Faltungsschichten und einer Vielzahl von vollverbundenen Schichten verarbeitet, um gesprochene Sprachbefehle zu verarbeiten, um Textdatenbefehle 308 zu bilden, die den gesprochenen Sprachbefehlen entsprechen. Tabelle 1
    Textdaten Hallo Henry kannst Du das Radio ein schalten
    Konfidenzniveau 0,1 0,2 0,3 0,2 0,5 0,8 0,4 0,3
  • Die Textdatenbefehle 308 sind buchstabenbasierte Wörter, die dem eingegebenen gesprochenen Sprachbefehl 302 entsprechen. Tabelle 1 veranschaulicht die Textdatenausgabe, die der gesprochenen natürlichen Spracheeingabe entsprechen: „Hallo Henry, kannst Du das Radio einschalten?“. Tabelle 1 beinhaltet zudem ein Konfidenzniveau für jedes Wort des ausgegebenen Textdatenbefehls 308. ASR 306 kann ein Konfidenzniveau für jedes Wort des ausgegebenen Textdatenbefehls 308 bestimmen, indem in Unterschied zwischen den eingegebenen Audiospektrumdaten und rekonstruierten rauschfreien Audiospektrumdaten auf Grundlage erkannter Textdaten gemessen wird. Ein Konfidenzniveau ist eine Zahl zwischen 0 und 1 auf Grundlage der Bestimmung eines Rauschpegels durch das ASR-System 306, wenn der Abschnitt der eingegebenen Audiospektrumdaten, die einem Wort entsprechen, verarbeitet wird. Ein Konfidenzniveau unter 0,4 entspricht einem niedrigen Konfidenzniveau, ein Konfidenzniveau zwischen 0,4 und 0,7 entspricht einem mittleren Konfidenzniveau und ein Konfidenzniveau über 0,7 entspricht einem hohen Konfidenzniveau.
  • Das ASR-System 306 kann trainiert werden, um Textdaten aus Audiospektrumdaten einschließlich Rauschpegeln zu bestimmen, indem ein DNN-Abschnitt des ASR-Systems 306 unter Verwendung von Ground-Truth-Daten, die Audiospektrumdaten beinhalten, die durch Addition von synthetisch bestimmten Rauschdaten modifiziert wurden, trainiert wird, wobei sich „Ground-Truth-Daten“ auf Ergebnisdaten, die von einer Quelle unabhängig von dem zu testenden System erlangt werden, bezieht. Ground-Truth-Daten können auf Grundlage von Experimenten, die mit realen Rauschdaten durchgeführt werden, empirisch bestimmt werden oder können auf Grundlage von Informationen hinsichtlich Amplitude und Spektralverteilung von synthetischen Rauschdaten analytisch bestimmt werden. Rauschpegel können durch Rekonstruieren von rauschfreien Audiospektrumdaten auf Grundlage ausgegebener Textdaten bestimmt werden. Die rekonstruierten rauschfreien Audiospektrumdaten können mit den eingegebenen Audiospektrumdaten verglichen werden, um einen Rauschpegel zu bestimmen, der auf Grundlage der Amplitude und Spektralverteilung eines Unterschieds zwischen rekonstruierten rauschfreien Audiospektrumdaten und eingegebenen Audiospektrumdaten bestimmt werden kann.
  • Die synthetisch bestimmten Rauschdaten können auf Grundlage eines Fahrzeuggeräuschmodells auf Grundlage der Amplitude und Spektralverteilung von Umgebungsgeräuschen, die in einem Fahrzeug 110 auftreten, bestimmt werden. Quellen für Umgebungsgeräusche, die in einem Fahrzeug 110 auftreten, können zum Beispiel Schallwellen von Straßengeräusch, Windgeräusch, belanglosen gesprochenen Unterhaltungen und belangloser Audiosystemausgabe, z. B. Musik oder Video, beinhalten. Jede Geräuschquelle kann Audiospektrumproben erzeugen, die eine Vielzahl von unterschiedlichen Amplituden und Spektralverteilung beinhalten. Eine Vielzahl von Audiospektrumproben von einer Vielzahl von Geräuschquellen kann auf eine Vielzahl von gesprochenen Sprachbefehlen als Rauschpegel angewendet werden, um verrauschte gesprochene Sprachbefehle zu erzeugen. Die verrauschten gesprochenen Sprachbefehle und die Informationen hinsichtlich der entsprechenden Rauschpegel können zusammen mit Informationen hinsichtlich entsprechender Textdatenbefehle verwendet werden, um ein DNN zu trainieren, damit es korrekte Textdatenbefehle zusammen mit Konfidenzniveaus, wie in Tabelle 1 gezeigt, ausgibt. Verrauschte gesprochene Sprachbefehle können auch durch Verwenden realer Fahrzeuggeräuschquellen und Aufzeichnen verrauschter gesprochener Sprachbefehle erzeugt werden, bezeichnet mit der Geräuschquellenamplitude und Spektralinhalt, die in der Probe vorhanden sind. Die bezeichneten verrauschten gesprochenen Sprachbefehle und entsprechende Ground Truth können verwendet werden, um ein DNN zu trainieren, damit es Textdaten und Konfidenzniveaus entsprechend der eingegebenen gesprochenen Sprache ausgibt. Das NLU-System 312 kann einen Textdatenbefehl 308 einschließlich Konfidenzniveaus für jedes Wort des Textdatenbefehls 308 eingeben und einen Fahrzeugbefehl 316 und eine gesprochene Sprachantwort 314 bestimmen, während Fahrzeugdaten 318 eingegeben werden.
  • 4 ist ein genaueres Diagramm eines beispielhaften Systems 312 zum Verstehen natürlicher Sprache (NLU). Das NLU-System 312 ist ein Codierer/Decodierer von Sequenz zu Sequenz (Seq2Seq) und im Aufbau ähnlich zu Googles Neural Machine Translation System (Google, Inc., Mountain View, CA 94043). Ein Seq2Seq-Codierer/Decodierer beinhaltet zwei ähnliche DNN, um zuerst eine Sequenz von Textdatenwörtern zu codieren, um Semantik oder Bedeutung entsprechend der Sequenz von Textdatenwörtern zu bestimmen, eine Handlung auf Grundlage der Semantik durchzuführen, d. h. auf die Semantik zu „achten“, und eine Antwort auszugeben. Die Antwort kann durch das zweite DNN decodiert werden, um eine Textdatenantwort zu bilden. Seq2Seq-NLU-Systeme beruhen auf dem Prinzip, dass ein Eingabesystem für gesprochene Sprache in der Lage sein sollte, auf einen eingegebenen Befehl mit einer gesprochenen Sprachantwort zu antworten oder Informationen anzufordern. Die zwei DNN beinhalten eine Vielzahl von ID-Faltungsschichten, die mit einer Vielzahl von vollverbundenen Rechenschichten verbunden ist, die als ein wiederkehrendes neuronales Netz mit langem Kurzzeitspeicher (long short-term memory - LSTM) konfiguriert ist, das zulässt, dass mehrere Textdatenwörter in einem Textdatensatz zu einer Semantikausgabe auf Grundlage ihrer relativen Position in dem Textdatensatz beitragen.
  • Das NLU-System 312 beinhaltet einen Verarbeitungsblock 402 des Codierers des tiefen neuronalen Netzes (DNN), der einen Textdatenbefehl 308 als eine Reihe von Textdatenwort/Konfidenzniveau-Paaren 404, 406, 410 eingibt, wobei die Auslassungspunkte zwischen Textdatenwort/Konfidenzniveau-Paaren 406, 410 eine oder mehrere Eingaben zusätzlicher Textdatenwort/Konfidenzniveau-Paare angeben. Der DNN-Codierer 402 beinhaltet ID-Faltungsschichten und LSTM-konfigurierte vollverbundene Rechenschichten, wie vorstehend beschrieben, und kann trainiert werden, um Fahrzeughandlung/Konfidenzniveau-Paare 412, 414, 416 auszugeben, wobei die Auslassungspunkte zwischen Fahrzeughandlung/Konfidenzniveau-Paaren 414, 416 eine oder mehrere Ausgaben zusätzlicher Fahrzeughandlung/Konfidenzniveau-Paare angeben. Jedes Fahrzeughandlung/Konfidenzniveau-Paar 412, 414, 416 beinhaltet einen Token, der einer Fahrzeughandlung entspricht, und ein Konfidenzniveau, das der bestimmten Fahrzeughandlung entspricht.
  • Die hierin offenbarten Techniken verbessern den Betrieb eines Fahrzeugs 110 durch Verbessern der Verarbeitung des NLU-Systems 312, indem ein Konfidenzniveau für jedes ausgegebene Textdatenwort als ein Textdatenwort/Konfidenzniveau-Paar 404, 406, 410 bestimmt wird. Das Konfidenzniveau für jedes Textdatenwort ist eine Kombination aus den Konfidenzniveaus der durch ASR ausgegebenen Textdatenwörter 318, wie zuvor in Bezug auf 3 beschrieben, und einem Score für die Wichtigkeit auf Grundlage eines vom Benutzer eingegebenen Wichtigkeitsmaßes, das jedem Wort eines eingegebenen Satzes zugeordnet ist. Zum Beispiel muss in Tabelle 1 der Aktivierungssatz „Hallo Henry“ jedem Befehl vorausgehen und weist somit eine hohe Wichtigkeit auf. Die Wörter „schalten“, „ein“ und „Radio“ weisen ebenfalls eine hohe Wichtigkeit auf, da sie eine Fahrzeughandlung bestimmen können. Die Wörter „kannst“, „Du“ und „das“ sind Momentwörter und tragen wenig zu der Bedeutung des Satzes bei, und somit kann ihnen eine geringe Wichtigkeit zugeordnet werden. Die Textdaten, die der Eingabe in Tabelle 1 entsprechen, können der Satz „Radio einschalten“ sein, wobei die Konfidenzniveaus, die jedem Wort des Satzes zugeordnet sind, zum Beispiel das Konfidenzniveau ist, das dem Wort aus Tabelle 1 zugeordnet ist.
  • Eine Fahrzeughandlung ist ein Token oder eine Reihe von Token entsprechend den eingegebenen Textdatenwort/Konfidenzniveau-Paaren 404, 406, 410, die angeben, welche Fahrzeughandlung eines vorbestimmten Satzes von Fahrzeughandlungen zu einem Beachtungsverarbeitungsblock (ATTN) 418 zur Verarbeitung ausgegeben werden soll. Ein Satz von Fahrzeughandlungen kann durch Benutzer eines NLU-Systems 312 bestimmt werden, indem eine Teilmenge von Handlungen, die durch das Fahrzeug 110 unter dem Kommando zum Beispiel der Rechenvorrichtung 115 durchgeführt werden können, ausgewählt wird. Durch Begrenzen der Anzahl von Fahrzeughandlungen auf eine Teilmenge der möglichen Fahrzeughandlungen wird das Rechenproblem des Bestimmens von Fahrzeughandlungen auf Grundlage von eingegebenen Textdatenwort/Konfidenzniveau-Paaren 404, 406, 410 lenkbar und somit durch die Rechenvorrichtung 115 berechenbar. Rechenaufgaben, die dem Bestimmen von Fahrzeughandlungen durch das NLU-System 312 entsprechen, können auch durch einen Servercomputer 120 über das Netzwerk 130 durchgeführt werden. Den Fahrzeughandlungen werden Konfidenzniveaus auf Grundlage der kombinierten Konfidenzniveaus der eingegebenen Textdatenwörter zugeordnet, um die Fahrzeughandlungen zu bilden. In dem Beispiel der Tabelle 1 würden beispielsweise die hohe Konfidenz in das Wort „Radio“ und das Vorkommen von „schalten“ wie auch „ein“ in benachbarten Positionen nahe dem Wort „Radio“ mit hoher Konfidenz (0,8) deren eingegebene niedrigen Konfidenzniveaus (0,3, 0,4) überwinden, um zu einem ausgegebenen Fahrzeugbefehl „Radio einschalten“ mit einem hohen Konfidenzniveau zu führen.
  • In Beispielen, in denen das einer Fahrzeughandlung zugeordnete Konfidenzniveau „mittel“ oder „niedrig“ sein kann, kann der ATTN-Verarbeitungsblock 418 reagieren, indem er eine Textdatenantwort ausgibt, die eine Nachfrage nach mehr Informationen ist. Wenn zum Beispiel das NLU-System 312 einem Fahrzeugbefehl „Radio einschalten“ ein Konfidenzniveau „mittel“ zuordnet, kann der ATTN-Verarbeitungsblock 418 reagieren, indem er keinen Fahrzeugbefehl 316 ausgibt, sondern stattdessen eine Textdatenantwort 314 „Sagten Sie ,Radio einschalten‘?“ ausgibt. In einem Beispiel, in dem das NLU-System 312 einer Fahrzeughandlung ein Konfidenzniveau „niedrig“ zuordnet, kann der ATTN-Verarbeitungsblock 418 reagieren, indem er eine Textdatenantwort 314 „Es tut mir leid, ich habe Ihre Anforderung nicht verstanden, könnten Sie diese bitte wiederholen?“ ausgibt. Auf diese Weise kann das NLU-System 302 versuchen, das Konfidenzniveau, das einer Fahrzeughandlung entspricht, zu verbessern, indem mehr Informationen von einem Insassen angefordert werden.
  • Der ATTN-Verarbeitungsblock 418 kann ein regelbasiertes Maschinenintelligenzsystem sein, das als eine endliche Zustandsmaschine implementiert ist. Der ATTN-Verarbeitungsblock 418 zieht die Fahrzeughandlung/Konfidenzniveau-Paare 412, 414, 416 als Eingabe für einen aktuellen Zustand heran. Ein aktueller Zustand der regelbasierten endlichen Zustandsmaschine auf Grundlage der eingegebenen Fahrzeughandlung/Konfidenzniveau-Paare 412, 414, 416 und interner Variablen kann einen Fahrzeugbefehl 316 an die Rechenvorrichtung 115 ausgeben. Ein Fahrzeugbefehl 316 ist eine Anweisung an die Rechenvorrichtung 115 hinsichtlich des Betriebs des Fahrzeugs 110, die eine Anforderung nach Informationen beinhaltet. Die Rechenvorrichtung 115 kann einen Fahrzeugbefehl 316 von dem ATTN-Verarbeitungsblock 418 empfangen und das Fahrzeug 110 auf Grundlage des Fahrzeugbefehls betreiben, indem Antriebsstrang, Bremsung und Lenkung des Fahrzeugs gesteuert werden. Die Rechenvorrichtung 115 kann auf einen Fahrzeugbefehl 316 des ATTN-Verarbeitungsblocks 418 mit Fahrzeugdaten 318 antworten. Die Fahrzeugdaten 318 können eine Bestätigung, dass die Rechenvorrichtung 115 den Fahrzeugbefehl 316 ausführt, oder eine Negativbestätigung, dass die Rechenvorrichtung den Fahrzeugbefehl 316 nicht ausführen wird, beinhalten. Die Rechenvorrichtung 115 kann auf einen Fahrzeugbefehl 316, der Informationen anfordert, antworten, indem Fahrzeugdaten 318 ausgegeben werden, die den angeforderten Informationen, die durch den ATTN-Verarbeitungsblock 418 einzugeben sind, entsprechen.
  • Als Reaktion auf die eingegebenen Fahrzeughandlung/Konfidenzniveau-Paare 412, 414, 416, interne Variable und eingegebene Fahrzeugdaten 318 kann die regelbasierte endliche Zustandsmaschine des ATTN-Verarbeitungsblocks 418 eine Fahrzeugantwort 424 an den DNN-Decodierer 426 ausgeben. Eine Fahrzeugantwort 424 ist ein Token oder eine Reihe von Token entsprechend einer codierten Textdatenantwort. Die regelbasierte endliche Zustandsmaschine des ATTN-Verarbeitungsblocks 418 kann das Bestimmen einer ausgegebenen Fahrzeugantwort 424 verbessern, indem ein Konfidenzniveau beim Bestimmen der Fahrzeugantwort berücksichtigt wird.
  • Der Verarbeitungsblock 426 des DNN-Decodierers kann eine Fahrzeugantwort 424 eingeben und auf Grundlage des vorherigen Trainings eine Textdatenantwort 314 bestimmen, die der eingegebenen Fahrzeugantwort 424 entspricht. Der Verarbeitungsblock 426 des DNN-Decodierers kann unter Verwendung eines Satzes von Fahrzeugantworten 424 zusammen mit Ground Truth in der Form von Textdatenantworten 314, die den Fahrzeugantworten 424 entsprechen, trainiert werden. Sobald er auf diese Weise trainiert wurde, kann der Verarbeitungsblock 426 des DNN-Decodierers zuverlässig Textdatenantworten 314 ausgeben, die den eingegebenen Fahrzeugantworten 424 entsprechen. Die ausgegebenen Textdatenantworten 314 können durch die Rechenvorrichtung 115 in Audiospektrumdaten umgewandelt und mit einem Audioausgabesystem als Schallwellen ausgegeben werden, wie zuvor in Bezug auf 2 beschrieben.
  • 5 ist ein Diagramm eines Ablaufplans, beschrieben in Bezug auf die 1-4, eines Prozesses 500 zum Betreiben eines Fahrzeugs 110 auf Grundlage des Empfangs von gesprochenen Sprachbefehlen. Der Prozess 500 kann durch einen Prozessor der Rechenvorrichtung 115 implementiert werden, indem beispielsweise Informationen von den Sensoren 116 als Eingabe herangezogen und Befehle ausgeführt und Steuersignale über die Steuerungen 112, 113, 114 gesendet werden. Der Prozess 500 beinhaltet mehrere Blöcke, die in der offenbarten Reihenfolge erfolgen. Der Prozess 500 könnte alternativ oder zusätzlich weniger Blöcke beinhalten oder kann die Blöcke in einer anderen Reihenfolge beinhalten.
  • Der Prozess 500 beginnt bei Block 502, bei dem eine Rechenvorrichtung 115 in einem Fahrzeug einen Fahrzeugbefehl 316 auf Grundlage eines gesprochenen Sprachbefehls 302 bestimmen kann. Wie vorstehend in Bezug auf die 2-4 erörtert, kann die Rechenvorrichtung 115 Schallwellen, die gesprochenen Sprachbefehlen entsprechen, erfassen und umwandeln und diese in Audiospektrumdaten umwandeln. Die Audiospektrumdaten können durch ein ASR-System 306 verarbeitet werden, um Textdatenbefehle zu bestimmen, die Textdatenwörter und Konfidenzniveaus 404, 406, 410 beinhalten. Die Textdatenwörter und Konfidenzniveaus 404, 406, 408 werden durch das NLU-System 312 verarbeitet, um einen Fahrzeugbefehl 316 auszugeben, Fahrzeugdaten 318 einzugeben und eine ausgegebene Textdatenantwort 424 zu bestimmen, wobei der Fahrzeugbefehl 316 und die ausgegebene Textdatenantwort 424 auf den Textdatenwörtern und Konfidenzniveaus 404, 406, 410 beruhen.
  • Bei Block 504 kann die Rechenvorrichtung 115 einen Fahrzeugbefehl 316 eingeben und das Fahrzeug 110 auf Grundlage des Fahrzeugbefehls betreiben, wie zuvor in Bezug auf 2 erörtert. Auf Grundlage des Fahrzeugbefehls 316 kann die Rechenvorrichtung 115 ein Wegpolynom 210 bestimmen, auf dem der Betrieb des Fahrzeugs 110 zu regeln ist. Die Rechenvorrichtung 115 kann das Fahrzeug 110 so betreiben, dass es entlang einem Wegpolynom 210 fährt, indem Anweisungen an Steuerungen 112, 113, 114 übertragen werden, um Antriebsstrang, Bremsung und Lenkung des Fahrzeugs 110 zu regeln, um Standort, Richtung und Geschwindigkeit des Fahrzeugs 110 zu steuern, wie zuvor in Bezug auf 1 erörtert. Die Rechenvorrichtung 115 kann Daten von den Sensoren 116 erfassen, um Standort, Richtung und Geschwindigkeit des Fahrzeugs zu bestätigen. Die Rechenvorrichtung 115 kann die Textdatenantwort 314 als Schallwellen ausgeben, um einem Insassen eines Fahrzeugs 110 zu bestätigen, dass ein gesprochener Sprachbefehl ordnungsgemäß empfangen wurde und durch die Rechenvorrichtung 115 ausgeführt wird. Im Anschluss an Block 504 endet der Prozess 500.
  • Rechenvorrichtungen, wie etwa die in dieser Schrift erörterten, beinhalten im Allgemeinen jeweils Befehle, die durch eine oder mehrere Rechenvorrichtungen, wie etwa die vorstehend genannten, und zum Ausführen von Blöcken oder Schritten von vorstehend beschriebenen Prozessen ausführbar sind. Die vorstehend erörterten Prozessblöcke können z. B. als computerausführbare Befehle ausgeführt sein.
  • Computerausführbare Befehle können von Computerprogrammen zusammengestellt oder interpretiert werden, die unter Verwendung einer Vielzahl von Programmiersprachen und/oder -techniken erstellt wurden, darunter unter anderem entweder allein oder in Kombination Java™, C, C++, Visual Basic, Java Script, Perl, HTML usw. Im Allgemeinen empfängt ein Prozessor (z. B. ein Mikroprozessor) Befehle, z. B. von einem Speicher, einem computerlesbaren Medium usw., und führt diese Befehle aus, wodurch er ein oder mehrere Prozesse durchführt, einschließlich eines oder mehrerer der hierin beschriebenen Prozesse. Derartige Befehle und andere Daten können in Dateien gespeichert sein und unter Verwendung vielfältiger computerlesbarer Medien übertragen werden. Eine Datei in einer Rechenvorrichtung ist im Allgemeinen eine Sammlung von Daten, die auf einem computerlesbaren Medium, wie etwa einem Speichermedium, einem Direktzugriffsspeicher usw., gespeichert ist.
  • Ein computerlesbares Medium beinhaltet ein beliebiges Medium, das am Bereitstellen von Daten (z. B. Befehlen) beteiligt ist, die durch einen Computer ausgelesen werden können. Ein derartiges Medium kann viele Formen annehmen, einschließlich unter anderem nichtflüchtiger Medien, flüchtiger Medien usw. Zu nichtflüchtigen Medien gehören zum Beispiel optische Platten oder Magnetplatten und andere dauerhafte Speicher. Zu flüchtigen Medien gehört ein dynamischer Direktzugriffsspeicher (dynamic random access memory - DRAM), der typischerweise einen Hauptspeicher darstellt. Zu gängigen Formen computerlesbarer Medien gehören zum Beispiel eine Diskette, eine Folienspeicherplatte, eine Festplatte, ein Magnetband, ein beliebiges anderes magnetisches Medium, eine CD-ROM, eine DVD, ein beliebiges anderes optisches Medium, Lochkarten, Lochstreifen, ein beliebiges anderes physisches Medium mit Lochmustern, ein RAM, ein PROM, ein EPROM, ein FLASH-EEPROM, ein beliebiger anderer Speicherchip oder eine beliebige andere Speicherkassette oder ein beliebiges anderes Medium, das durch einen Computer ausgelesen werden kann.
  • Allen in den Patentansprüchen verwendeten Ausdrücken soll deren allgemeine und gewöhnliche Bedeutung zukommen, wie sie vom Fachmann verstanden wird, sofern nicht ausdrücklich etwas anderes angegeben ist. Insbesondere ist die Verwendung der Singularartikel wie etwa „ein“, „eine“, „der“, „die“, „das“ usw. dahingehend auszulegen, dass eines oder mehrere der aufgeführten Elemente genannt wird bzw. werden, es sei denn, ein Patentanspruch enthält ausdrücklich eine gegenteilige Einschränkung.
  • Der Ausdruck „beispielhaft“ wird hierin in dem Sinne verwendet, dass er ein Beispiel angibt, z. B. sollte ein Verweis auf eine „beispielhafte Vorrichtung“ einfach als Bezugnahme auf ein Beispiel für eine Vorrichtung gelesen werden.
  • Das einen Wert oder ein Ergebnis modifizierende Adverb „ungefähr“ bedeutet, dass eine Form, eine Struktur, ein Messwert, ein Wert, eine Bestimmung, eine Berechnung usw. von einer bzw. einem genau beschriebenen Geometrie, Abstand, Messwert, Wert, Bestimmung, Berechnung usw. aufgrund von Mängeln hinsichtlich Materialien, Bearbeitung, Herstellung, Sensormessungen, Berechnungen, Verarbeitungszeit, Kommunikationszeit usw. abweichen kann.
  • In den Zeichnungen kennzeichnen die gleichen Bezugszeichen die gleichen Elemente. Ferner könnten einige oder alle dieser Elemente geändert werden. Hinsichtlich der in dieser Schrift beschriebenen Medien, Prozesse, Systeme, Verfahren usw. versteht es sich, dass, obwohl die Schritte oder Blöcke derartiger Prozesse usw. zwar als gemäß einer bestimmten Abfolge erfolgend beschrieben worden sind, derartige Prozesse jedoch so umgesetzt werden könnten, dass die beschriebenen Schritte in einer anderen Reihenfolge als der in dieser Schrift beschriebenen Reihenfolge durchgeführt werden. Es versteht sich ferner, dass bestimmte Schritte gleichzeitig durchgeführt, andere Schritte hinzugefügt oder bestimmte in dieser Schrift beschriebene Schritte weggelassen werden könnten. Anders ausgedrückt, dienen die vorliegenden Beschreibungen von Prozessen der Veranschaulichung bestimmter Ausführungsformen und sollten keinesfalls dahingehend ausgelegt werden, dass sie die beanspruchte Erfindung einschränken.
  • Gemäß der vorliegenden Erfindung beinhaltet ein Verfahren Folgendes: Bestimmen eines Fahrzeugbefehls durch Verarbeiten eines empfangenen gesprochenen Sprachbefehls und bestimmter Konfidenzniveaus mit einem System zum Verstehen natürlicher Sprache (NLU); und Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls.
  • Gemäß einer Ausführungsform ist die Erfindung ferner durch Bestimmen des gesprochenen Sprachbefehls durch Verarbeiten von Audiospektrumdaten, die gesprochener natürlicher Sprache entsprechen, mit einem System zur automatischen Spracherkennung (ASR) gekennzeichnet.
  • Gemäß einer Ausführungsform bestimmt das ASR-System Konfidenzniveaus für jedes Wort des gesprochenen Sprachbefehls auf Grundlage eines Fahrzeuggeräuschmodells.
  • Gemäß einer Ausführungsform wird das Fahrzeuggeräuschmodell durch ein Maschinenlernsystem bestimmt, das Fahrzeughintergrundrauschen eingibt.
  • Gemäß einer Ausführungsform ist das Maschinenlernsystem ein tiefes neuronales Netz.
  • Gemäß einer Ausführungsform beinhaltet das System zum Verstehen natürlicher Sprache (NLU) einen Decodierer des tiefen neuronalen Netzes und einen Codierer des tiefen neuronalen Netzes.
  • Gemäß einer Ausführungsform gibt das NLU-System den gesprochenen Sprachbefehl und Konfidenzniveaus, die jedem Wort in dem gesprochenen Sprachbefehl entsprechen, ein und bestimmt den Fahrzeugbefehl unter Verwendung des Decodierers des tiefen neuronalen Netzes.
  • Gemäß einer Ausführungsform wird der Decodierer des tiefen neuronalen Netzes unter Verwendung von Ground Truth auf Grundlage gesprochener Sprachbefehle, die in Fahrzeugbefehle übersetzt sind, und simuliertem Fahrzeuggeräusch auf Grundlage des Fahrzeuggeräuschmodells trainiert.
  • Gemäß einer Ausführungsform beinhaltet das Betreiben des Fahrzeugs Bestimmen eines Wegpolynoms.
  • Gemäß der vorliegenden Erfindung wird ein System bereitgestellt, das Folgendes aufweist: einen Prozessor; und einen Speicher, wobei der Speicher Anweisungen beinhaltet, die durch den Prozessor für Folgendes ausgeführt werden: Bestimmen eines Fahrzeugbefehls durch Verarbeiten eines empfangenen gesprochenen Sprachbefehls und bestimmter Konfidenzniveaus mit einem System zum Verstehen natürlicher Sprache (NLU); und Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls.
  • Gemäß einer Ausführungsform ist die Erfindung ferner durch Bestimmen des gesprochenen Sprachbefehls durch Verarbeiten von Audiospektrumdaten, die gesprochener natürlicher Sprache entsprechen, mit einem System zur automatischen Spracherkennung (ASR) gekennzeichnet.
  • Gemäß einer Ausführungsform bestimmt das ASR-System Konfidenzniveaus für jedes Wort des gesprochenen Sprachbefehls auf Grundlage eines Fahrzeuggeräuschmodells.
  • Gemäß einer Ausführungsform wird das Fahrzeuggeräuschmodell durch ein Maschinenlernsystem bestimmt, das Fahrzeughintergrundrauschen eingibt.
  • Gemäß einer Ausführungsform ist das Maschinenlernsystem ein tiefes neuronales Netz.
  • Gemäß einer Ausführungsform beinhaltet das System zum Verstehen natürlicher Sprache (NLU) einen Decodierer des tiefen neuronalen Netzes und einen Codierer des tiefen neuronalen Netzes.
  • Gemäß einer Ausführungsform gibt das NLU-System den gesprochenen Sprachbefehl und Konfidenzniveaus, die jedem Wort in dem gesprochenen Sprachbefehl entsprechen, ein und bestimmt den Fahrzeugbefehl unter Verwendung des Decodierers des tiefen neuronalen Netzes.
  • Gemäß einer Ausführungsform wird der Decodierer des tiefen neuronalen Netzes unter Verwendung von Ground Truth auf Grundlage gesprochener Sprachbefehle, die in Fahrzeugbefehle übersetzt sind, und simuliertem Fahrzeuggeräusch auf Grundlage des Fahrzeuggeräuschmodells trainiert.
  • Gemäß einer Ausführungsform beinhaltet das Betreiben des Fahrzeugs Bestimmen eines Wegpolynoms.
  • Gemäß der vorliegenden Erfindung wird ein System bereitgestellt, das Folgendes aufweist: Mittel zum Steuern von Lenkung, Bremsung und Antriebsstrang eines Fahrzeugs; und Mittel zum: Bestimmen eines Fahrzeugbefehls durch Verarbeiten eines empfangenen gesprochenen Sprachbefehls und bestimmter Konfidenzniveaus mit einem System zum Verstehen natürlicher Sprache (NLU); und Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls und der Mittel zum Steuern von Lenkung, Bremsung und Antriebsstrang des Fahrzeugs.
  • Gemäß einer Ausführungsform ist die Erfindung ferner durch Bestimmen des gesprochenen Sprachbefehls durch Verarbeiten von Audiospektrumdaten, die gesprochener natürlicher Sprache entsprechen, mit einem System zur automatischen Spracherkennung (ASR) gekennzeichnet.

Claims (14)

  1. Verfahren, umfassend: Bestimmen eines Fahrzeugbefehls durch Verarbeiten eines empfangenen gesprochenen Sprachbefehls und bestimmter Konfidenzniveaus mit einem System zum Verstehen natürlicher Sprache (NLU); und Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls.
  2. Verfahren nach Anspruch 1, ferner umfassend Bestimmen des gesprochenen Sprachbefehls durch Verarbeiten von Audiospektrumdaten, die gesprochener natürlicher Sprache entsprechen, mit einem System zur automatischen Spracherkennung (ASR).
  3. Verfahren nach Anspruch 2, wobei das ASR-System Konfidenzniveaus für jedes Wort des gesprochenen Sprachbefehls auf Grundlage eines Fahrzeuggeräuschmodells bestimmt.
  4. Verfahren nach Anspruch 3, wobei das Fahrzeuggeräuschmodell durch ein Maschinenlernsystem bestimmt wird, das Fahrzeughintergrundrauschen eingibt.
  5. Verfahren nach Anspruch 4, wobei das Maschinenlernsystem ein tiefes neuronales Netz ist.
  6. Verfahren nach Anspruch 5, wobei das System zum Verstehen natürlicher Sprache (NLU) einen Decodierer des tiefen neuronalen Netzes und einen Codierer des tiefen neuronalen Netzes beinhaltet.
  7. Verfahren nach Anspruch 6, wobei das NLU-System den gesprochenen Sprachbefehl und Konfidenzniveaus, die jedem Wort in dem gesprochenen Sprachbefehl entsprechen, eingibt und den Fahrzeugbefehl unter Verwendung des Decodierers des tiefen neuronalen Netzes bestimmt.
  8. Verfahren nach Anspruch 7, wobei der Decodierer des tiefen neuronalen Netzes unter Verwendung von Ground Truth auf Grundlage gesprochener Sprachbefehle, die in Fahrzeugbefehle übersetzt sind, und simuliertem Fahrzeuggeräusch auf Grundlage des Fahrzeuggeräuschmodells trainiert wird.
  9. Verfahren nach Anspruch 1, wobei das Betreiben des Fahrzeugs Bestimmen eines Wegpolynoms beinhaltet.
  10. Verfahren nach Anspruch 9, wobei das Wegpolynom auf dem Fahrzeugbefehl beruht.
  11. Verfahren nach Anspruch 1, wobei das Betreiben des Fahrzeugs Bestimmen von Geschwindigkeitsunterschieden zwischen dem Fahrzeug und Objekten in einer Umgebung um das Fahrzeug beinhaltet.
  12. Verfahren nach Anspruch 11, wobei die Geschwindigkeitsunterschiede zwischen dem Fahrzeug und Objekten in einer Umgebung um das Fahrzeug auf Grundlage einer Fahrzeugsensoreingabe bestimmt werden.
  13. Verfahren nach Anspruch 1, wobei das Betreiben des Fahrzeugs Steuern von Antriebsstrang, Bremsung und Lenkung des Fahrzeugs beinhaltet.
  14. System, umfassend einen Computer, der programmiert ist, um die Verfahren nach einem der Ansprüche 1-13 durchzuführen.
DE102019128133.4A 2018-10-18 2019-10-17 Sprachverarbeitung für fahrzeug Pending DE102019128133A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/164,355 US10957317B2 (en) 2018-10-18 2018-10-18 Vehicle language processing
US16/164,355 2018-10-18

Publications (1)

Publication Number Publication Date
DE102019128133A1 true DE102019128133A1 (de) 2020-04-23

Family

ID=70280224

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019128133.4A Pending DE102019128133A1 (de) 2018-10-18 2019-10-17 Sprachverarbeitung für fahrzeug

Country Status (3)

Country Link
US (1) US10957317B2 (de)
CN (1) CN111161716A (de)
DE (1) DE102019128133A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11003920B2 (en) * 2018-11-13 2021-05-11 GM Global Technology Operations LLC Detection and planar representation of three dimensional lanes in a road scene
CN113129891A (zh) * 2021-04-29 2021-07-16 平顶山聚新网络科技有限公司 一种汽车使用指导系统及方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9224394B2 (en) 2009-03-24 2015-12-29 Sirius Xm Connected Vehicle Services Inc Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
EP2040250B8 (de) * 2007-09-21 2011-09-28 The Boeing Company Gesprochene Fahrzeugsteuerung
US9484027B2 (en) 2009-12-10 2016-11-01 General Motors Llc Using pitch during speech recognition post-processing to improve recognition accuracy
US9934780B2 (en) * 2012-01-17 2018-04-03 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch
US9619645B2 (en) * 2013-04-04 2017-04-11 Cypress Semiconductor Corporation Authentication for recognition systems
US9286029B2 (en) 2013-06-06 2016-03-15 Honda Motor Co., Ltd. System and method for multimodal human-vehicle interaction and belief tracking
US9443527B1 (en) 2013-09-27 2016-09-13 Amazon Technologies, Inc. Speech recognition capability generation and control
US20160284349A1 (en) * 2015-03-26 2016-09-29 Binuraj Ravindran Method and system of environment sensitive automatic speech recognition
US9691380B2 (en) * 2015-06-15 2017-06-27 Google Inc. Negative n-gram biasing
WO2017112813A1 (en) 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
US10297251B2 (en) 2016-01-21 2019-05-21 Ford Global Technologies, Llc Vehicle having dynamic acoustic model switching to improve noisy speech recognition
CN112581982B (zh) * 2017-06-06 2024-06-25 谷歌有限责任公司 询问结束检测
US20190172453A1 (en) * 2017-12-06 2019-06-06 GM Global Technology Operations LLC Seamless advisor engagement

Also Published As

Publication number Publication date
CN111161716A (zh) 2020-05-15
US20200126546A1 (en) 2020-04-23
US10957317B2 (en) 2021-03-23

Similar Documents

Publication Publication Date Title
DE102019122027A1 (de) Fahrzeugwegplanung
DE112012007183B4 (de) Fahrunterstützungsvorrichtung und Fahrunterstützungsverfahren
US9956956B2 (en) Adaptive driving system
DE112015001150B4 (de) Verfahren, Vorrichtung und System zur Unterstützung von Platooning
DE102019121140A1 (de) Sensorfusion
DE102018117380A1 (de) Bremsvorhersage und -eingriff
DE102018113782A1 (de) Personalisierte Fahreigenschaften eines autonomen Fahrzeugs
DE102019129232A1 (de) Sprachverarbeitung für ein fahrzeug
DE102017100323A1 (de) Steuerung für die Fahrt eines Fahrzeugs
DE102020103509A1 (de) Erkennung und vermeidung von kollisionsverhalten
DE102015103410A1 (de) Nachrichtenübermittlung über fahrzeuglenkrad
DE112017006567T5 (de) Autonomes fahrzeug mit fahrerausbildung
DE102019124155A1 (de) Sprachverarbeitung in einem fahrzeug
DE102019134050A1 (de) Fahrzeugpfadverarbeitung
DE102020102962A1 (de) Fahrzeugzielverfolgung
DE102018125207A1 (de) Fahrzeuginterne verkehrsassistenz
DE102020107339A1 (de) Objektverfolgung für fahrzeuge
DE102018100487A1 (de) Objektverfolgung durch unüberwachtes lernen
DE102017100210A1 (de) Anhaltedistanzsystem
DE112016003658T5 (de) Informationsübertragungsvorrichtung, elektronische steuerungsvorrichtung, informationssendevorrichtung und elektronisches steuerungssystem
DE102018106804A1 (de) Routenerzeugungsvorrichtung, Routenerzeugungsverfahren und Routenerzeugungsprogramm
DE102019113876A1 (de) Nothaltestopp-planung während des autonomen fahrzeugbetriebs
DE102020125307A1 (de) Adaptive sensorfusion
DE102019127833A1 (de) Sprachverarbeitung in einem fahrzeug
DE102016117140A1 (de) Aktive Fahrzeugfederung

Legal Events

Date Code Title Description
R082 Change of representative

Representative=s name: LORENZ SEIDLER GOSSEL RECHTSANWAELTE PATENTANW, DE