DE102019127833A1 - Sprachverarbeitung in einem fahrzeug - Google Patents

Sprachverarbeitung in einem fahrzeug Download PDF

Info

Publication number
DE102019127833A1
DE102019127833A1 DE102019127833.3A DE102019127833A DE102019127833A1 DE 102019127833 A1 DE102019127833 A1 DE 102019127833A1 DE 102019127833 A DE102019127833 A DE 102019127833A DE 102019127833 A1 DE102019127833 A1 DE 102019127833A1
Authority
DE
Germany
Prior art keywords
vehicle
language
natural language
command
spoken
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102019127833.3A
Other languages
English (en)
Inventor
Lisa Scaria
Praveen Narayanan
Francois Charette
Ryan Burke
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ford Global Technologies LLC
Original Assignee
Ford Global Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ford Global Technologies LLC filed Critical Ford Global Technologies LLC
Publication of DE102019127833A1 publication Critical patent/DE102019127833A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Navigation (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
  • Traffic Control Systems (AREA)

Abstract

Diese Offenbarung stellt Sprachverarbeitung in einem Fahrzeug bereit. Ein Rechensystem kann einen Befehl in gesprochener natürlicher Sprache mit einem ersten tiefen neuronalen Netz in einen Zwischenbefehl in konstruierter Sprache übersetzen und einen Fahrzeugbefehl und eine Zwischenantwort in konstruierter Sprache mit einem zweiten tiefen neuronalen Netz auf Grundlage des Empfangens von Fahrzeuginformationen bestimmen. Das Rechensystem kann die Zwischenantwort in konstruierter Sprache mit einem dritten tiefen neuronalen Netz in eine Antwort in gesprochener natürlicher Sprache übersetzen und ein Fahrzeug auf Grundlage des Fahrzeugbefehls betreiben.

Description

  • GEBIET DER TECHNIK
  • Die Offenbarung betrifft im Allgemeinen Fahrzeugrechensysteme und insbesondere Computersprachverarbeitung in einem Fahrzeug.
  • ALLGEMEINER STAND DER TECHNIK
  • Fahrzeuge können dazu ausgestattet sein, sowohl in einem autonomen als auch von einem Insassen gesteuerten Modus betrieben zu werden. Fahrzeuge können mit Rechenvorrichtungen, Netzen, Sensoren und Steuerungen ausgestattet sein, um Informationen bezüglich der Umgebung des Fahrzeugs zu erfassen und das Fahrzeug auf Grundlage der Informationen zu betreiben. Der sichere und komfortable Betrieb des Fahrzeugs kann vom Erfassen genauer und rechtzeitiger Informationen bezüglich der Umgebung des Fahrzeugs abhängen. Fahrzeugsensoren können Daten hinsichtlich zu fahrender Routen und zu umfahrender Objekte in der Umgebung des Fahrzeugs bereitstellen. Der sichere und effiziente Betrieb des Fahrzeugs kann vom Erfassen genauer und rechtzeitiger Informationen bezüglich Routen und Objekten in der Umgebung eines Fahrzeugs abhängig sein, während das Fahrzeug auf einer Fahrbahn betrieben wird.
  • KURZDARSTELLUNG
  • Fahrzeuge können dazu ausgestattet sein, sowohl in einem autonomen als auch von einem Insassen gesteuerten Modus betrieben zu werden. Mit einem teil- oder vollautonomen Modus ist ein Betriebsmodus gemeint, bei dem ein Fahrzeug teilweise oder gänzlich durch eine Rechenvorrichtung als Teil eines Fahrzeuginformationssystems gesteuert werden kann, das Sensoren und Steuerungen aufweist. Das Fahrzeug kann besetzt oder unbesetzt sein, doch in beiden Fällen kann das Fahrzeug teilweise oder vollständig ohne die Unterstützung eines Insassen gesteuert werden. Für die Zwecke dieser Offenbarung ist ein autonomer Modus als ein Modus definiert, bei dem Antrieb (z. B. über einen Antriebsstrang, der eine Brennkraftmaschine und/oder einen Elektromotor beinhaltet), Bremsung und Lenkung des Fahrzeugs jeweils durch einen oder mehrere Fahrzeugcomputer gesteuert werden; in einem teilautonomen Modus steuert der bzw. steuern die Fahrzeugcomputer eines oder zwei von Antrieb, Bremsung und Lenkung des Fahrzeugs. In einem nichtautonomen Fahrzeug werden keine davon durch einen Computer gesteuert.
  • Eine Rechenvorrichtung in einem Fahrzeug kann dazu programmiert sein, Daten bezüglich der äußeren Umgebung eines Fahrzeugs zu erfassen und die Daten dazu zu verwenden, Trajektorien zu bestimmen, die dazu verwendet werden sollen, ein Fahrzeug in einem autonomen oder teilautonomen Modus zu betreiben. Zum Beispiel kann die Rechenvorrichtung Steuerungen (z. B. elektronischen Steuereinheiten oder ECUs) Informationen zum Betreiben des Fahrzeugs auf einer Fahrbahn in Verkehr bereitstellen, die Orte von Objekten einschließlich anderer Fahrzeuge und Fußgänger beinhalten. Auf Grundlage von Sensordaten kann eine Rechenvorrichtung einen Weg bestimmen, auf dem ein Fahrzeug fährt, um ein Ziel auf einer Fahrbahn in Gegenwart von Objekten einschließlich anderer Fahrzeuge und Fußgänger zu erreichen, wobei ein Weg als eine Linie definiert ist, die aufeinanderfolgende Standorte eines Fahrzeugs verbindet, während es sich von einem ersten Ort auf einer Fahrbahn zu einem zweiten Ort auf einer Fahrbahn bewegt. Eine Rechenvorrichtung in einem Fahrzeug kann einen Weg bestimmen, der vorhergesagte Fahrzeugtrajektorien beinhaltet, entlang derer die Rechenvorrichtung ein Fahrzeug betreiben kann, um einen zweiten Ort, einen Zielort, auf einer Fahrbahn zu erreichen, während Objekten einschließlich anderer Fahrzeuge und Fußgänger ausgewichen wird.
  • Ein Weg kann eine Veranschaulichung eines Wegpolynoms sein, wobei eine Linie, die einen ersten Ort und einen zweiten Ort verbindet, durch eine Polynomfunktion ersten, zweiten oder dritten Grades an einem Fahrzeugvektor definiert ist. Der Fahrzeugvektor beinhaltet eine reale Fahrzeug-3D-Pose (dreidimensionale Pose), die einen realen sechsachsigen Fahrzeug-3D-Standort in x-, y- und z-Raumkoordinaten und Roll-, Nick- und Gier-Drehkoordinaten um die x-, y- und z-Achsen. Die Raum- und Drehkoordinaten werden in Bezug auf ein 3D-Koordinatensystem bestimmt, zum Beispiel Breite, Länge und Höhe. Ein Fahrzeugvektor kann zudem sechsachsige 3D-Fahrzeugbeschleunigungen entlang der sechsachsigen 3D-Posenrichtungen beinhalten. Fahrzeugvektordaten können verarbeitet werden, um eine Fahrzeugtrajektorie zu bestimmen, die die Fahrzeug-2D-Ortsgeschwindigkeit, die 2D-Richtung (zweidimensionale Richtung) und die Breiten- und Längsbeschleunigung des Fahrzeugs hinsichtlich einer 2D-Ebene parallel zu einer Fahrbahn definiert, zum Beispiel einer Fahrbahn, die aktuell das Fahrzeug abstützt. Quer- und Längsbeschleunigungen werden hinsichtlich der 2D-Richtung bestimmt. Auf Grundlage des Standorts, der Geschwindigkeit, der Richtung und der Quer- und Längsbeschleunigung des Fahrzeugs kann eine Rechenvorrichtung ein Wegpolynom bestimmen, das zukünftige Fahrzeugtrajektorien des Fahrzeugs schätzt, die einen Zielort erreichen werden, während die Ober- und Untergrenze der Quer- und Längsbeschleunigung eingehalten werden.
  • Zusätzlich zu den Fahrzeugsensordaten kann sich eine Rechenvorrichtung auf das Eingeben von Befehlen in natürlicher Sprache und das Ausgeben von Antworten in natürlicher Sprache stützen, um ein Wegpolynom zu bestimmen, auf dem das Fahrzeug betrieben werden soll. Die Rechenvorrichtung kann einen Befehl in natürlicher Sprache in einer von einer Vielzahl von natürlichen Sprachen eingeben, eine Fahrzeugaktion bestimmen, Fahrzeuginformationen empfangen und eine Antwort in natürlicher Sprache einschließlich der Fahrzeuginformationen in einer von einer Vielzahl von natürlichen Sprachen ausgeben. Eine natürliche Sprache ist eine Sprache, die von Menschen gesprochen wird und die sich im Laufe der Zeit infolge der anthropologischen und kulturellen Entwicklung des Menschen entwickelt hat. Dies steht im Gegensatz zu konstruierten Sprachen, bei denen es sich um künstliche Sprachen handeln kann, die entwickelt wurden, um konkrete Probleme zu beheben. Beispiele für konstruierte Sprachen sind Esperanto und Interlingua. Konstruierte Sprachen können zudem latente Sprachen sein, die durch tiefe neuronale Netze als Zwischenergebnisse bestimmt werden. Der Befehl in natürlicher Sprache und die Antwort in natürlicher Sprache können in derselben oder in unterschiedlichen natürlichen Sprachen sein. Der Befehl in natürlicher Sprache kann eine Abfrage beinhalten, wobei die Fahrzeugaktion das Bestimmen von Informationen von der Rechenvorrichtung umfassen kann, die in der Antwort in natürlicher Sprache zurückgegeben werden sollen. Der Befehl in natürlicher Sprache kann als Reaktion auf eine Aufforderung in natürlicher Sprache erfolgen, die durch die Rechenvorrichtung erzeugt wird, um den Befehl in natürlicher Sprache hervorzurufen.
  • Hier offenbart ist ein Verfahren, das Folgendes beinhaltet: Übersetzen eines Befehls in gesprochener natürlicher Sprache in einen Zwischenbefehl in konstruierter Sprache mit einem ersten tiefen neuronalen Netz, Bestimmen eines Fahrzeugbefehls und einer Zwischenantwort in konstruierter Sprache mit einem zweiten tiefen neuronalen Netz auf Grundlage des Empfangens von Fahrzeuginformationen, Übersetzen der Zwischenantwort in konstruierter Sprache in eine Antwort in gesprochener natürlicher Sprache mit einem dritten tiefen neuronalen Netz und Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls. Die konstruierte Sprache kann eine latente konstruierte Sprache sein. Bei dem Befehl in gesprochener natürlicher Sprache kann es sich um Textdaten handeln, die einem in einer natürlichen Sprache durch einen Fahrzeugbenutzer gesprochenen Befehl entsprechen und durch ein viertes tiefes neuronales Netz von erfassten Audiospektrumdaten in den Befehl in gesprochener natürlicher Sprache transformiert werden. Bei der Antwort in gesprochener Sprache kann es sich um Textdaten handeln, die durch ein fünftes tiefes neuronales Netz in Audiospektrumdaten, die einer in einer natürlichen Sprache gesprochenen Antwort entsprechen, transformiert werden. Der Befehl in gesprochener natürlicher Sprache und die Antwort in gesprochener Sprache können jeweils in einer von einer Vielzahl von natürlichen Sprachen sein. Das erste tiefe neuronale Netz, das zweite tiefe neuronale Netz und das dritte tiefe neuronale Netz können zum Eingeben des Befehls in gesprochener natürlicher Sprache, Ausgeben des Fahrzeugbefehls, Eingeben von Fahrzeuginformationen und Ausgeben einer Antwort in gesprochener natürlicher Sprache unter Verwendung von Ground-Truth-Fahrzeugbefehlen und -Fahrzeuginformationen, Mustern für Befehle in gesprochener natürlicher Sprache und Mustern für Antworten in gesprochener natürlicher Sprache trainiert werden.
  • Das erste und dritte tiefe neuronale Netz können unabhängig trainiert werden, um natürliche Sprachen aus der Vielzahl von natürlichen Sprachen hinzuzufügen. Betreiben des Fahrzeugs kann Bestimmen einer kognitiven Karte auf Grundlage von Kartendaten und Fahrzeugsensordaten beinhalten. Betreiben des Fahrzeugs kann Bestimmen eines Wegpolynoms in der kognitiven Karte auf Grundlage des Befehls in konstruierter Sprache und der Fahrzeugsensordaten beinhalten. Betreiben des Fahrzeugs kann Bestimmen eines Zielorts auf der kognitiven Karte und Bestimmen eines Wegpolynoms, das ermöglicht, dass das Fahrzeug den Zielort erreicht, beinhalten. Das erste tiefe neuronale Netz beinhaltet eine Vielzahl von 1-D-Faltungsschichten und eine Vielzahl von vollständig verbundenen Schichten, die als LSTM-Netz konfiguriert sind. Das zweite tiefe neuronale Netz beinhaltet eine Vielzahl von 1-D-Faltungsschichten und eine Vielzahl von vollständig verbundenen Schichten, die als LSTM-Netz konfiguriert sind. Der Befehl in gesprochener natürlicher Sprache und die Antwort in gesprochener Sprache können in der gleichen oder unterschiedlichen natürlichen Sprachen sein.
  • Ferner ist ein computerlesbares Medium offenbart, auf dem Programmanweisungen zum Ausführen einiger oder aller der vorstehenden Verfahrensschritte gespeichert sind. Ferner offenbart ist ein Computer, der zum Ausführen einiger oder aller der vorstehenden Verfahrensschritte programmiert ist und eine Computereinrichtung beinhaltet, die programmiert ist zum Übersetzen eines Befehls in gesprochener natürlicher Sprache in einen Zwischenbefehl in konstruierter Sprache mit einem ersten tiefen neuronalen Netz, Bestimmen eines Fahrzeugbefehls und einer Zwischenantwort in konstruierter Sprache mit einem zweiten tiefen neuronalen Netz auf Grundlage des Empfangens von Fahrzeuginformationen, Übersetzen der Zwischenantwort in konstruierter Sprache in eine Antwort in gesprochener natürlicher Sprache mit einem dritten tiefen neuronalen Netz und Betreiben eines Fahrzeugs auf Grundlage des Befehls in konstruierter Sprache. Die konstruierte Sprache kann eine latente konstruierte Sprache sein. Bei dem Befehl in gesprochener natürlicher Sprache kann es sich um Textdaten handeln, die einem in einer natürlichen Sprache durch einen Fahrzeugbenutzer gesprochenen Befehl entsprechen und durch ein viertes tiefes neuronales Netz von erfassten Audiospektrumdaten in den Befehl in gesprochener natürlicher Sprache transformiert werden. Bei der Antwort in gesprochener Sprache kann es sich um Textdaten handeln, die durch ein fünftes tiefes neuronales Netz in Audiospektrumdaten, die einer in einer natürlichen Sprache gesprochenen Antwort entsprechen, transformiert werden. Der Befehl in gesprochener natürlicher Sprache und die Antwort in gesprochener Sprache können jeweils in einer von einer Vielzahl von natürlichen Sprachen sein. Das erste tiefe neuronale Netz, das zweite tiefe neuronale Netz und das dritte tiefe neuronale Netz können zum Eingeben des Befehls in gesprochener natürlicher Sprache, Ausgeben des Fahrzeugbefehls, Eingeben von Fahrzeuginformationen und Ausgeben einer Antwort in gesprochener natürlicher Sprache unter Verwendung von Ground-Truth-Fahrzeugbefehlen und -Fahrzeuginformationen, Mustern für Befehle in gesprochener natürlicher Sprache und Mustern für Antworten in gesprochener natürlicher Sprache trainiert werden.
  • Die Computereinrichtung kann ferner programmiert sein zum unabhängigen Trainieren des ersten und dritten tiefen neuronalen Netzes, um natürliche Sprachen aus der Vielzahl von natürlichen Sprachen hinzuzufügen. Betreiben des Fahrzeugs kann Bestimmen einer kognitiven Karte auf Grundlage von Kartendaten und Fahrzeugsensordaten beinhalten. Betreiben des Fahrzeugs kann Bestimmen eines Wegpolynoms in der kognitiven Karte auf Grundlage des Befehls in konstruierter Sprache und der Fahrzeugsensordaten beinhalten. Betreiben des Fahrzeugs kann Bestimmen eines Zielorts auf der kognitiven Karte und Bestimmen eines Wegpolynoms, das ermöglicht, dass das Fahrzeug den Zielort erreicht, beinhalten. Das erste tiefe neuronale Netz beinhaltet eine Vielzahl von 1-D-Faltungsschichten und eine Vielzahl von vollständig verbundenen Schichten, die als LSTM-Netz konfiguriert sind. Das zweite tiefe neuronale Netz beinhaltet eine Vielzahl von 1-D-Faltungsschichten und eine Vielzahl von vollständig verbundenen Schichten, die als LSTM-Netz konfiguriert sind. Der Befehl in gesprochener natürlicher Sprache und die Antwort in gesprochener Sprache können in der gleichen oder unterschiedlichen natürlichen Sprachen sein.
  • Figurenliste
    • 1 ist ein Blockschaubild eines beispielhaften Verkehrsinfrastruktursystems.
    • 2 ist eine Darstellung einer beispielhaften kognitiven Karte.
    • 3 ist eine Darstellung eines beispielhaften Übersetzungssystems für natürliche Sprache.
    • 4 ist eine Darstellung eines Systems zur Verarbeitung natürlicher Sprache in einem Fahrzeug.
    • 5 ist ein Ablaufdiagramm eines Prozesses zum Betreiben eines Fahrzeugs auf Grundlage der Verarbeitung natürlicher Sprache.
  • DETAILLIERTE BESCHREIBUNG
  • 1 ist eine Darstellung eines Verkehrsinfrastruktursystems 100, das ein Fahrzeug 110 beinhaltet, das in einem autonomen („autonom“ bedeutet in dieser Offenbarung alleinstehend „vollautonom“) und einem von einem Insassen gesteuerten (auch als nichtautonom bezeichneten) Modus betrieben werden kann. Das Fahrzeug 110 beinhaltet zudem eine oder mehrere Rechenvorrichtungen 115 zum Durchführen von Berechnungen zum Steuern des Fahrzeugs 110 während des autonomen Betriebs. Die Rechenvorrichtungen 115 können von den Sensoren 116 Informationen bezüglich des Betriebs des Fahrzeugs empfangen. Die Rechenvorrichtung 115 kann das Fahrzeug 110 in einem autonomen Modus, einem teilautonomen Modus oder einem nichtautonomen Modus betreiben. Für die Zwecke dieser Offenbarung ist ein autonomer Modus als ein Modus definiert, bei dem Antrieb, Bremsung und Lenkung des Fahrzeugs 110 jeweils durch die Rechenvorrichtung gesteuert werden; in einem teilautonomen Modus steuert die Rechenvorrichtung 115 eines oder zwei des Antriebs, der Bremsung und der Lenkung des Fahrzeugs 110; in einem nichtautonomen Modus steuert ein menschlicher Fahrzeugführer den Antrieb, die Bremsung und die Lenkung des Fahrzeugs.
  • Die Rechenvorrichtung 115 beinhaltet einen Prozessor und einen Speicher, wie sie bekannt sind. Ferner beinhaltet der Speicher eine oder mehrere Formen von computerlesbaren Medien und speichert Anweisungen, die durch den Prozessor ausführbar sind, um verschiedene Vorgänge durchzuführen, zu denen die hier offenbarten gehören. Zum Beispiel kann die Rechenvorrichtung 115 Programmierung beinhalten, um eines oder mehrere von Bremsen, Antrieb (z. B. Steuerung der Beschleunigung in dem Fahrzeug 110 durch Steuern von einem oder mehreren von einer Brennkraftmaschine, einem Elektromotor, einem Hybridmotor usw.), Lenkung, Klimasteuerung, Innen- und/oder Außenleuchten usw. des Fahrzeugs zu betreiben sowie um zu bestimmen, ob und wann die Rechenvorrichtung 115 im Gegensatz zu einem menschlichen Fahrzeugführer derartige Vorgänge steuern soll.
  • Die Rechenvorrichtung 115 kann mehr als eine Rechenvorrichtung beinhalten oder z. B. über einen Fahrzeugkommunikationsbus, wie weiter unten beschrieben, kommunikativ an diese gekoppelt sein, z. B. Steuerungen oder dergleichen, die zum Überwachen und/oder Steuern verschiedener Fahrzeugkomponenten in dem Fahrzeug 110 enthalten sind, z.B. eine Antriebsstrangsteuerung 112, eine Bremssteuerung 113, eine Lenksteuerung 114 usw. Die Rechenvorrichtung 115 ist im Allgemeinen zur Kommunikation in einem Fahrzeugkommunikationsnetz angeordnet, das z. B. einen Bus in dem Fahrzeug 110 beinhaltet, wie etwa einem Controller Area Network (CAN) oder dergleichen; das Netz des Fahrzeugs 110 kann zusätzlich oder alternativ drahtgebundene oder drahtlose Kommunikationsmechanismen beinhalten, wie sie bekannt sind, z. B. Ethernet oder andere Kommunikationsprotokolle.
  • Über das Fahrzeugnetz kann die Rechenvorrichtung 115 Nachrichten an verschiedene Vorrichtungen in dem Fahrzeug übertragen und/oder Nachrichten von den verschiedenen Vorrichtungen empfangen, z. B. Steuerungen, Aktoren, Sensoren usw. einschließlich der Sensoren 116. Alternativ oder zusätzlich kann in Fällen, in denen die Rechenvorrichtung 115 tatsächlich mehrere Vorrichtungen umfasst, das Fahrzeugkommunikationsnetz zur Kommunikation zwischen Vorrichtungen verwendet werden, die in dieser Offenbarung als die Rechenvorrichtung 115 dargestellt sind. Ferner können, wie nachstehend erwähnt, verschiedene Steuerungen oder Sensorelemente wie etwa die Sensoren 116 der Rechenvorrichtung 115 über das Fahrzeugkommunikationsnetz Daten bereitstellen.
  • Zusätzlich kann die Rechenvorrichtung 115 zum Kommunizieren durch eine Fahrzeug-Infrastruktur-Schnittstelle (F-I-Schnittstelle) 111 mit einem entfernten Servercomputer 120, z. B. einem Cloud-Server, über ein Netz 130 konfiguriert sein, das, wie nachstehend beschrieben, Hardware, Firmware und Software beinhaltet, die ermöglichen, dass die Rechenvorrichtung 115 über ein Netz 130 wie etwa drahtloses Internet (WLAN) oder Mobilfunknetze mit einem entfernten Servercomputer 120 kommuniziert. Die F-I-Schnittstelle 111 kann dementsprechend Prozessoren, Speicher, Sender/Empfänger usw. beinhalten, die dazu konfiguriert sind, verschiedene drahtgebundene und/oder drahtlose Netztechnologien zu verwenden, z. B. Mobilfunk, BLUETOOTH® und drahtgebundene und/oder drahtlose Paketnetze. Die Rechenvorrichtung 115 kann zum Kommunizieren mit anderen Fahrzeugen 110 durch die F-I-Schnittstelle 111 unter Verwendung von Fahrzeug-Fahrzeug-(F-F-)Netzen z. B. gemäß dedizierter Nahbereichskommunikation (Dedicated Short Range Communications - DSRC) und/oder dergleichen konfiguriert sein, die z. B. ad hoc zwischen Fahrzeugen 110 in der Nähe gebildet werden oder über infrastrukturbasierte Netze gebildet werden. Die Rechenvorrichtung 115 beinhaltet zudem nichtflüchtigen Speicher, wie er bekannt ist. Die Rechenvorrichtung 115 kann Informationen protokollieren, indem sie die Informationen zum späteren Abrufen und Übertragen über das Fahrzeugkommunikationsnetz und eine Fahrzeug-Infrastruktur-(F-I-)Schnittstelle 111 an einen Servercomputer 120 oder eine mobile Benutzervorrichtung 160 in nichtflüchtigem Speicher speichert.
  • Wie bereits erwähnt, ist in Anweisungen, die in dem Speicher gespeichert sind und durch den Prozessor der Rechenvorrichtung 115 ausgeführt werden können, im Allgemeinen Programmierung zum Betreiben einer oder mehrerer Komponenten des Fahrzeugs 110, z. B. Bremsung, Lenkung, Antrieb usw., ohne Eingriff eines menschlichen Fahrzeugführers enthalten. Unter Verwendung von in der Rechenvorrichtung 115 empfangenen Daten, z. B. der Sensordaten von den Sensoren 116, dem Servercomputer 120 usw., kann die Rechenvorrichtung 115 ohne einen Fahrer zum Betreiben des Fahrzeugs 110 verschiedene Bestimmungen vornehmen und/oder verschiedene Komponenten und/oder Vorgänge des Fahrzeugs 110 steuern. Zum Beispiel kann die Rechenvorrichtung 115 Programmierung beinhalten, um Betriebsverhalten des Fahrzeugs 110 (d.h. physische Manifestationen des Betriebs des Fahrzeugs 110) wie etwa Geschwindigkeit, Beschleunigung, Verzögerung, Lenkung usw. sowie taktisches Verhalten (d. h. Steuerung des Betriebsverhaltens typischerweise auf eine Weise, mit der eine sichere und effiziente Zurücklegung einer Route erreicht werden soll) wie etwa einen Abstand zwischen Fahrzeugen und/oder eine Zeitspanne zwischen Fahrzeugen, einen Spurwechsel, einen Mindestabstand zwischen Fahrzeugen, einen minimalen Linksabbiegeweg, eine Zeit bis zur Ankunft an einem bestimmten Ort und eine minimale Zeit bis zur Ankunft an einer Kreuzung (ohne Ampel) zum Überqueren der Kreuzung zu regulieren.
  • Steuerungen beinhalten im hier verwendeten Sinne des Ausdrucks Rechenvorrichtungen, die typischerweise zum Steuern eines konkreten Fahrzeugteilsystems programmiert sind. Zu Beispielen gehören eine Antriebsstrangsteuerung 112, eine Bremssteuerung 113 und eine Lenksteuerung 114. Eine Steuerung kann eine elektronische Steuereinheit (electronic control unit - ECU) sein, wie sie bekannt ist, die möglicherweise zusätzliche Programmierung beinhaltet, wie hier beschrieben. Die Steuerungen können kommunikativ mit der Rechenvorrichtung 115 verbunden sein und Anweisungen von dieser empfangen, um das Teilsystem gemäß den Anweisungen zu betätigen. Zum Beispiel kann die Bremssteuerung 113 Anweisungen zum Betreiben der Bremsen des Fahrzeugs 110 von der Rechenvorrichtung 115 empfangen.
  • Die eine oder mehreren Steuerungen 112, 113, 114 für das Fahrzeug 110 können bekannte elektronische Steuereinheiten (ECUs) oder dergleichen beinhalten, zu denen als nicht einschränkende Beispiele eine oder mehrere Antriebsstrangsteuerungen 112, eine oder mehrere Bremssteuerungen 113 und eine oder mehrere Lenksteuerungen 114 gehören. Jede der Steuerungen 112, 113, 114 kann jeweilige Prozessoren und Speicher und einen oder mehrere Aktoren beinhalten. Die Steuerungen 112, 113, 114 können mit einem Kommunikationsbus des Fahrzeugs 110 programmiert und verbunden sein, wie etwa einem Controller-Area-Network-(CAN-)Bus oder Local-Interconnect-Network-(LIN-)Bus, um Anweisungen von dem Computer 115 zu empfangen und Aktoren auf Grundlage der Anweisungen zu steuern.
  • Zu den Sensoren 116 können vielfältige Vorrichtungen gehören, die bekanntlich Daten über den Fahrzeugkommunikationsbus bereitstellen. Zum Beispiel kann ein Radar, das an einer Frontstoßstange (nicht gezeigt) des Fahrzeugs 110 befestigt ist, einen Abstand von dem Fahrzeug 110 zu einem nächsten Fahrzeug vor dem Fahrzeug 110 bereitstellen oder ein Sensor eines globalen Positionsbestimmungssystems (GPS), der in dem Fahrzeug 110 angeordnet ist, geografische Koordinaten des Fahrzeugs 110 bereitstellen. Der bzw. die durch das Radar und/oder die anderen Sensoren 116 bereitgestellte(n) Abstand bzw. Abstände und/oder die durch den GPS-Sensor bereitgestellten geografischen Koordinaten können durch die Rechenvorrichtung 115 verwendet werden, um das Fahrzeug 110 autonom oder teilautonom zu betreiben.
  • Das Fahrzeug 110 ist im Allgemeinen ein landbasiertes Fahrzeug 110, das zu einem autonomen und/oder teilautonomen Betrieb in der Lage ist und drei oder mehr Räder aufweist, z. B. ein Personenkraftwagen, ein Leichtlastkraftwagen usw. Das Fahrzeug 110 beinhaltet einen oder mehrere Sensoren 116, die F-I-Schnittstelle 111, die Rechenvorrichtung 115 und eine oder mehrere Steuerungen 112, 113, 114. Die Sensoren 116 können Daten in Bezug auf das Fahrzeug 110 und die Umgebung, in der das Fahrzeug 110 betrieben wird, erheben. Beispielsweise und nicht einschränkend können zu den Sensoren 116 z. B. Höhenmesser, Kameras, LIDAR, Radar, Ultraschallsensoren, Infrarotsensoren, Drucksensoren, Beschleunigungsmesser, Gyroskope, Temperatursensoren, Drucksensoren, Hall-Sensoren, optische Sensoren, Spannungssensoren, Stromsensoren, mechanische Sensoren wie etwa Schalter usw. gehören. Die Sensoren 116 können dazu verwendet werden, die Umgebung zu erfassen, in der das Fahrzeug 110 betrieben wird, z. B. können die Sensoren 116 Phänomene wie etwa Wetterbedingungen (Niederschlag, externe Umgebungstemperatur usw.), die Neigung einer Straße, die Lage einer Straße (z. B. unter Verwendung von Straßenrändern, Spurmarkierungen usw.) oder Standorte von Zielobjekten wie etwa benachbarten Fahrzeugen 110 detektieren. Die Sensoren 116 können ferner dazu verwendet werden, Daten zu erheben, zu denen dynamische Daten des Fahrzeugs 110 in Bezug auf Vorgänge des Fahrzeugs 110 wie etwa Geschwindigkeit, Gierrate, Lenkwinkel, Motordrehzahl, Bremsdruck, Öldruck, der an die Steuerungen 112, 113, 114 in dem Fahrzeug 110 angelegte Leistungspegel, Konnektivität zwischen Komponenten und genaue und rechtzeitige Leistung von Komponenten des Fahrzeugs 110 gehören.
  • 2 ist eine Darstellung einer kognitiven Karte 200, die eine Umgebung nahe dem Fahrzeug 110 einschließlich einer Fahrbahn 202, die die Spuren 204, 206 aufweist, und eines anderen Fahrzeugs 208 beinhaltet. Die kognitive Karte 200 ist eine 2D-Darstellung der Umgebung in der Nähe des Fahrzeugs 110, z. B. innerhalb eines vorgegebenen Radius von 500 Metern, und wird auf Grundlage der Daten der Fahrzeugsensoren 116 und der Kartendaten bestimmt, zum Beispiel GOOGLE™-Karten, die über die F-I-Schnittstelle 111 und das Netz 130 zum Beispiel aus dem Internet heruntergeladen werden und in nichtflüchtigem Speicher der Rechenvorrichtung 115 gespeichert sind. Die kognitive Karte 200 kann auf Grundlage des Fahrzeugstandorts bestimmt werden, der anhand der Sensoren 116 einschließlich GPS und auf Beschleunigungsmessern beruhender Trägheitsnavigationssysteme (inertial navigation systems - INS) bestimmt wird. Die kognitive Karte 200 kann zudem Informationen bezüglich Objekten beinhalten, die zum Beispiel andere Fahrzeuge 208 und Fußgänger beinhalten. Ort, Größe, Geschwindigkeit und Richtung für Objekte nahe dem Fahrzeug 110 können durch die Rechenvorrichtung 115 auf Grundlage von Daten von den Fahrzeugsensoren 116 bestimmt werden, die zum Beispiel Video-, Radar- und Lidarsensoren beinhalten.
  • Die kognitive Karte 200 kann ein Wegpolynom 210 beinhalten, das Fahrzeugtrajektorien von einem aktuellen Ort zu einem Zielort 212 in der kognitiven Karte 200 schätzt oder vorhersagt. Auf Grundlage des Wegpolynoms 210 kann die Rechenvorrichtung 115 Befehle zum Übertragen an die Steuerungen 112, 113, 114 bestimmen, um die Lenkung, die Bremsung und den Antriebsstrang des Fahrzeugs zu steuern, um zu bewirken, dass das Fahrzeug 110 entlang des Wegpolynoms 210 fährt. Die Rechenvorrichtung 115 kann bestimmen, welche Befehle zu welchen Zeiten übertragen werden, um das Fahrzeug 110 auf Grundlage von empirisch bestimmten Daten bezüglich des Betriebs des Fahrzeugs 110 als Reaktion auf die Befehle zu betreiben. Auf Grundlage der empirisch bestimmten Daten kann die Rechenvorrichtung eine Reihe von Befehlen bestimmen, die an die Steuerungen 112, 113, 114 übertragen werden sollen, wenn das Fahrzeug 110 auf der Fahrbahn 202 fährt, und dadurch das Fahrzeug 110 auf der Fahrbahn 202 betreiben, um einen Zielort 212 zu erreichen.
  • Zusätzlich zu den Daten der Sensoren 116 kann sich die Rechenvorrichtung 115 auf einen Befehl in natürlicher Sprache von einem Insassen des Fahrzeugs 110 stützen, um ein Wegpolynom 210 zu bestimmen. Zum Beispiel kann sich das Fahrzeug 110 in der kognitiven Karte 200 einem anderen Fahrzeug 208 in einer ersten Spur 204 von hinten nähern. Das Fahrzeug 110 kann sich einem anderen Fahrzeug 208 mit einer Geschwindigkeit nähern, bei der das Fahrzeug 110 sich entweder verlangsamen muss, einschließlich der Möglichkeit, bis zum Stillstand zu bremsen, oder auf die benachbarte Spur 206 wechseln muss, um eine Kollision oder Beinahekollision mit einem anderen Fahrzeug 208 zu vermeiden. Ein Insasse des Fahrzeugs 110 kann auf Grundlage der eigenen visuellen Wahrnehmung des Insassen bestimmen, dass sich das Fahrzeug 110 einem anderen Fahrzeug 208 nähert, oder durch die Rechenvorrichtung 115 entweder unter Verwendung von visuellen Anzeigeelementen oder Aufforderungen in natürlicher Sprache gewarnt werden. Zum Beispiel kann die Rechenvorrichtung eine Warnmeldung und/oder Blinklichter auf einer Informationstafel anzeigen oder Schallwellen aus einem Audiosystem emittieren, die einer Aufforderung in natürlicher Sprache zu einer Handlung durch einen Insassen eines Fahrzeugs 110 entsprechen.
  • Als Reaktion auf eine visuelle oder akustische Aufforderung kann ein Insasse einen Befehl in natürlicher Sprache an die Rechenvorrichtung 115 abgeben, um den Betrieb des Fahrzeugs 110 anzuleiten. In diesem Beispiel können die Befehle in natürlicher Sprache, die ein Insasse sagen kann, „Fahrzeug überholen“ oder „Fahrzeug hinterherfahren“ beinhalten. In dem Beispiel aus 2 kann der Insasse „Fahrzeug überholen“ sagen und die Rechenvorrichtung 115 kann das Wegpolynom 210 bestimmen, das ein Spurwechselmanöver bewerkstelligt. Die Rechenvorrichtung kann Audiospektrumdaten, die dem Befehl in natürlicher Sprache entsprechen, mithilfe eines Audiosystems erfassen, das ein Mikrofon und Analog-DigitalWandler (A/D-Wandler) zum Umwandeln eines elektrischen Signals von dem Mikrofon in digitale Audiospektrumdaten beinhaltet. Die Audiospektrumdaten können durch ein automatischer Spracherkennungssystem (automatic speech recognizer system - ASR-System) verarbeitet werden, um einen Textdatenbefehl in natürlicher Sprache zu bestimmen, der dem eingegebenen Befehl in natürlicher Sprache entspricht. Ein Textdatenbefehl in natürlicher Sprache beinhaltet digitale Zeichen, die den Audiospektrumdaten entsprechen, d. h. geschriebene Sprache, die der gesprochenen Sprache entspricht. Ein Token, das die Sprache identifiziert, in der der Befehl in natürlicher Sprache gesprochen wurde, wird ebenfalls durch die ASR ausgegeben.
  • Ein ASR-System kann ein tiefes neuronales Netz beinhalten, das Mel-Spektrum-Daten (d. h. Mel-Frequenz-Cepstrum- oder MFC-Daten) verarbeitet, die dadurch gebildet werden, dass zuerst eingegebene Audiospektrumdaten auf ein nichtlineares Log-Skala-Mel-Spektrum auf Grundlage der menschlichen Hörreaktion transformiert werden. Die ASR gibt Mel-Spektrum-Daten ein, die dem Befehl in natürlicher Sprache entsprechen, und gibt einen Textdatenbefehl in natürlicher Sprache aus, der dem eingegebenen Befehl in natürlicher Sprache entspricht. Die ASR gibt zudem ein Sprachtoken aus, um anzugeben, in welcher natürlichen Sprache einer Vielzahl von natürlichen Sprachen der Befehl in natürlicher Sprache war. Eine ASR kann ein tiefes neuronales Netz beinhalten, das sowohl Faltungsschichten als auch vollständig verbundene Schichten beinhaltet und unter Verwendung von Ground Truth trainiert wird, die eingegebene Befehle in natürlicher Sprache und entsprechende Textdatenbefehle in natürlicher Sprache und Sprachtoken beinhaltet. Ground Truth ist als Daten-/Ergebnispaare definiert, die durch von dem getesteten System unabhängige Mittel erfasst werden. Unabhängig erfasste Ground Truth kann verwendet werden, um tiefe neuronale Netze zu trainieren.
  • Der Textdatenbefehl in gesprochener Sprache und das Sprachtoken können durch das System 400 zum Verstehen natürlicher Sprache (natural language understanding - NLU) verarbeitet werden, wie in 4 gezeigt, um einen Fahrzeugbefehl und eine Textdatenantwort in natürlicher Sprache zu erzeugen. Die Textdatenantwort in natürlicher Sprache kann unter Verwendung eines Griffin-/Lim-Algorithmus in eine Antwort in gesprochener natürlicher Sprache umgewandelt werden, um Audiospektrumdaten aus der Textdatenantwort in natürlicher Sprache zu bestimmen. Die Audiospektrumdaten können über ein Audiosystem ausgegeben werden, das zum Beispiel Digital-Analog-Wandler (D/A-Wandler) zum Umwandeln der digitalen Daten in ein elektrisches Signal und Lautsprecher beinhaltet. In diesem Beispiel kann die Rechenvorrichtung 115 eine Antwort in gesprochener natürlicher Sprache gleich „Fahrzeug wird überholt“ ausgeben, um zu bestätigen, dass der Befehl in natürlicher Sprache empfangen wurde und dass ein Fahrzeugbefehl gleich „Fahrzeug überholen“ durchgeführt wurde. Befehle in gesprochener natürlicher Sprache und Antworten in gesprochener natürlicher Sprache können jeweils in einer von einer Vielzahl von natürlichen Sprachen sein. Hier erörterte Techniken verbessern ein NLU-System 400, indem Befehle in natürlicher Sprache in einen Zwischenbefehl in konstruierter Sprache übersetzt werden und der Zwischenbefehl in konstruierter Sprache verarbeitet wird, um einen Fahrzeugbefehl zu bestimmen und Fahrzeuginformationen zu erfassen. Der Befehl in natürlicher Sprache kann in einer von einer Vielzahl von natürlichen Sprachen sein. Das verbesserte NLU-System 400 kann eine Antwort in der Interlingua-Sprache einschließlich erfasster Fahrzeugdaten bestimmen und dann die Antwort in der Interlingua-Sprache in eine von einer Vielzahl von natürlichen Sprachen übersetzen.
  • 3 ist eine Darstellung eines beispielhaften Übersetzungssystems 300 mit einem tiefen neuronalen Netz (deep neural network - DNN). Das DNN-Übersetzungssystem 300 beinhaltet einen DNN-Codierer 306 und einen DNN-Decodierer 312. Der DNN-Codierer 306 gibt Textdatenbefehle 302 in natürlicher Sprache und ein Sprachtoken 304 ein, das angibt, in welcher natürlichen Sprache einer Vielzahl von natürlichen Sprachen der Textdatenbefehl 302 in natürlicher Sprache ist. Das DNN-Übersetzungssystem 300 gibt die Textdaten 302 in gesprochener Sprache und ein Sprachtoken 304 in den Codierer 306 für ein tiefes neuronales Netz (DNN) ein. Textdaten in gesprochener Sprache und Sprachtoken können von einem ASR-System wie vorstehend beschrieben als Reaktion auf eingegebene natürliche Sprache in einer von einer Vielzahl von natürlichen Sprachen ausgegeben werden. Das ASR-System ist auf Grundlage der Vielzahl von Sprachen trainiert worden, um Textdaten 302 in natürlicher Sprache auszugeben, die den eingegebenen Audiospektrumdaten in natürlicher Sprache entsprechen. Der DNN-Codierer 306 übersetzt die eingegebenen Textdaten 302 in natürlicher Sprache und ein Sprachtoken 304 in latente konstruierte Sprache 308. Eine konstruierte Sprache ist eine künstliche Sprache, die entwickelt wurde, um die Kommunikation zwischen Sprechern unterschiedlicher natürlicher Sprachen zu ermöglichen. Der DNN-Codierer 306 gibt eine konstruierte Sprache aus, um mit dem DNN-Decodierer 312 zu kommunizieren. Die konstruierte Sprache 308 ist latent, da sie nicht als Zwischenergebnis ausgegeben wird. Die latente konstruierte Sprache 308 wird durch den DNN-Codierer 306 bestimmt, um mit dem DNN-Decodierer 312 zu kommunizieren, und ist für einen Benutzer typischerweise nicht verständlich.
  • Der DNN-Codierer 306 kann eine Vielzahl von vollständig verbundenen Rechenschichten oder eine Vielzahl von Faltungsschichten und vollständig verbundenen Rechenschichten beinhalten. In einem Beispiel beinhaltet der DNN-Codierer 306 eine Vielzahl von 1-D-Faltungsschichten, die die Eingabe filtern, um redundante Informationen und Rauschen zu entfernen, wobei 1-D-Faltung bedeutet, dass die Faltungen an Vektoren durchgeführt werden. Der DNN-Codierer 306 beinhaltet zudem eine Vielzahl von vollständig verbundenen Schichten, die Rechenknoten beinhalten, die Zwischenergebnisse aus der Vielzahl von 1-D-Faltungsschichten eingeben und Funktionen von n Variablen berechnen, wobei n die Anzahl der eingegebenen Variablen aus der 1-D-Schicht ist. Die vollständig verbundenen Schichten sind in einer Konfiguration mit langem Kurzzeitgedächtnis (long short-term memory - LSTM) verbunden, um zu ermöglichen, dass das DNN 306 Wörter und Phrasen in der Interlingua-Sprache durch Verarbeiten der Eingabe 302 in gesprochener Sprache zu bestimmen, die mehrere Textdatenwörter beinhalten. Die Textdateneingabe 302 in natürlicher Sprache kann mehrere Textdatenwörter beinhalten, die mehreren Zeitabtastungen innerhalb der Eingabe 302 in gesprochener Sprache entsprechen. Das DNN 306 bestimmt eine Ausgabe 308 in der Interlingua-Sprache auf Grundlage des Kontexts, der durch die relative Position von Wörtern in der Textdateneingabe 302 in natürlicher Sprache gebildet wird, auf Grundlage des Sprachtokens 304. Ein Beispiel für ein tiefes neuronales Netz mit 1-D-Faltungs- und LSTM-Schichten ist das Multilingual Neural Machine Translation System, ein System, das von Google, Inc., Mountain View, Kalifornien, entwickelt wurde.
  • Der Decodierer 312 für das tiefe neuronale Netz (DNN) kann eine Architektur für ein tiefes neuronales Netz beinhalten, die eine Vielzahl von vollständig verbundenen Rechenknoten beinhaltet, oder die gleiche Architektur wie der DNN-Codierer 306 beinhalten, die 1-D-Faltungsschichten und vollständig verbundenen Schichten in einer LSTM-Konfiguration beinhaltet. Das DNN-Übersetzungssystem 300 wird unter Verwendung von Ground-Truth-Eingaben 302 in natürlicher Sprache, Sprachtoken 304, 310 und Ground-Truth-Ausgaben 314 in natürlicher Sprache trainiert. Das Eingabesprachtoken 304 gibt an, welche natürliche Sprache einer Vielzahl von natürlichen Sprachen in die latente konstruierte Sprache 308 zu übersetzen ist. Der DNN-Codierer 306 kann dazu trainiert sein, Textdaten 302 in natürlicher Sprache und ein Sprachtoken unter Verwendung von Ground Truth auf Grundlage der eingegebenen natürlichen Sprache 302 und des Eingabesprachtokens 304 in eine latente konstruierte Sprache zu übersetzen, während der DNN-Decodierer 312 dazu trainiert ist, eingegebene latente konstruierte Sprache 308 auf Grundlage des Sprachtokens 310 und der Ground Truth für gesprochene natürliche Sprache 314 in Wörter und Phrasen der Textdaten in gesprochener natürlicher Sprache 314 zu übersetzen. Die Ausgabe von Textdaten 314 in natürlicher Sprache kann durch vorstehend in Bezug auf 2 erörterte Techniken in Audiospektrumdaten zur Ausgabe als gesprochene natürliche Sprache transformiert werden. Indem das Sprachtoken 310 so ausgewählt wird, dass es sich von dem Sprachtoken 304 unterscheidet, kann das DNN-Übersetzungssystem 300 Wörter und Phrasen aus einer ersten natürlichen Sprache einer Vielzahl von natürlichen Sprachen in Wörter und Phrasen einer zweiten natürlichen Sprache einer Vielzahl von natürlichen Sprachen übersetzen.
  • Das DNN-Übersetzungssystem 300 kann eine „Zero-Shot“-Übersetzung erreichen, was bedeutet, dass das DNN-Übersetzungssystem 300 aus einer ersten Sprache in eine zweite Sprache übersetzen kann, ohne für das Übersetzen aus der ersten Sprache in die zweite Sprache trainiert worden zu sein. Das DNN-Übersetzungssystem 300 erreicht dies, indem es aus einer ersten Sprache in die Interlingua-Sprache übersetzt und dann von Interlingua aus in die zweite Sprache übersetzt, wobei nur Übersetzungen in jede und aus jeder Sprache und latente konstruierte Sprache erforderlich sind, wodurch die Erhebung von Ground-Truth-Daten, die Trainingszeit und die Modellgröße reduziert werden.
  • 4 ist eine Darstellung eines beispielhaften Systems 400 zur Verarbeitung natürlicher Sprache (natural language processing - NLP). Das NLP-System 400 kann ermöglichen, dass eine in einem Fahrzeug 110 enthaltene Rechenvorrichtung 115 einen von einem Insassen eines Fahrzeugs 110 empfangenen Textdatenbefehl 402 in natürlicher Sprache verarbeitet und auf Grundlage eines Sprachtokens 404 einen Befehl 406 in latenter konstruierter Sprache unter Verwendung des DNN-Codierers 302 bestimmt, wie vorstehend in Bezug auf 3 erörtert. Ein Befehl in gesprochener Sprache wird durch Verarbeiten eines Befehls in natürlicher Sprache mit einer ASR gebildet, wie vorstehend in Bezug auf 3 beschrieben, um Befehle in gesprochener Sprache und ein Sprachtoken 404 zu bilden, das angibt, in welcher natürlichen Sprache einer Vielzahl von natürlichen Sprachen der Befehl in natürlicher Sprache ist. Befehle in natürlicher Sprache sind ein Teilsatz von Wörtern und Phrasen, der in einer natürlichen Sprache verfügbar ist und nach Relevanz für den Betrieb des Fahrzeugs 110 ausgewählt wird. Der Satz von Befehlen in natürlicher Sprache beinhaltet Wörter und Phrasen, bei denen erwartet werden kann, dass das Fahrzeug 110 im Verlauf des Anleitens des Betriebs des Fahrzeugs 110 auf Grundlage der von einem Insassen eingegebenen natürlichen Sprache darauf reagiert. Zum Beispiel kann erwartet werden, dass das NLP-System 400 auf Wörter und Phrasen in natürlicher Sprache reagiert, die „Zur 123 Park Street fahren“, „Anhalten“, „Links abbiegen“, „Bring mich zur Arbeit“ usw. beinhalten. Befehle in natürlicher Sprache können zudem Informationsabfragen beinhalten, zum Beispiel „Wann komme ich zu Hause an?“
  • Die DNN-Aufmerksamkeit 408 ist ein tiefes neuronales Netz mit einer Architektur wie der DNN-Decodierer 312 und der DNN-Codierer 306, das Befehle in latenter konstruierter Sprache verarbeitet, um semantische Informationen zu bestimmen, die Informationen in Wörtern und Phrasen der eingegebenen Befehle in gesprochener natürlicher Sprache entsprechen, die durch den DNN-Codierer 302 in den Befehl 406 in latenter konstruierter Sprache übersetzt worden sind. Semantische Informationen sind Informationen bezüglich der Bedeutung der Wörter und Phrasen der eingegebenen Befehle in gesprochener natürlicher Sprache, die in den Befehl 406 in latenter konstruierter Sprache übersetzt worden sind. Durch Begrenzen der Eingabe auf einen Teilsatz möglicher Wörter und Phrasen in natürlicher Sprache werden die Rechenressourcen überschaubar, die erforderlich sind, um semantische Informationen, die den eingegebenen Befehlen in natürlicher Sprache entsprechen, zuverlässig zu bestimmen. Die semantischen Informationen beinhalten Fahrzeugbefehle 410, die an die Rechenvorrichtung 115 ausgegeben werden, um den Betrieb des Fahrzeugs 110 anzuleiten. Fahrzeugbefehle 410 können zudem Fahrzeuginformationen 412 anfordern, einschließlich einer Bestätigung von der Rechenvorrichtung 115, dass ein Fahrzeugbefehl 410 empfangen worden ist und ausgeführt wird. Die Fahrzeuginformationen 412 können Statusinformationen über Vorgänge des Fahrzeugs 110 beinhalten, einschließlich zum Beispiel Informationen bezüglich des Orts, der Geschwindigkeit und der Richtung des Fahrzeugs 110. In Beispielen, in denen die Rechenvorrichtung 115 den Fahrzeugbefehl 410 nicht ausführen kann, kann die Rechenvorrichtung 115 mit Fahrzeuginformationen 412 antworten, die eine negative Quittung beinhalten. Die DNN-Aufmerksamkeit 408 kombiniert semantische Informationen aus dem latenten konstruierten Fahrzeugbefehl 406 mit Fahrzeuginformationen 412, um eine Antwort 414 in latenter konstruierter Sprache zu bestimmen. Zum Beispiel kann die Antwort 414 in latenter konstruierter Sprache Wörter und Phrasen in der latenten konstruierten Sprache beinhalten, die einem Insassen quittieren, dass ein Befehl in natürlicher Sprache empfangen und verarbeitet worden ist. In Beispielen, in denen der Befehl in natürlicher Sprache eine Abfrage beinhaltet, kann die Antwort 414 in latenter konstruierter Sprache Informationen als Reaktion auf die Abfrage beinhalten.
  • Der DNN-Decodierer 312 gibt eine Antwort 414 in latenter konstruierter Sprache ein und übersetzt durch den gleichen Prozess, wie vorstehend in Bezug auf 3 beschrieben, die Antwort 414 in latenter konstruierter Sprache in eine Textdatenantwort 418 in natürlicher Sprache in einer von einer Vielzahl von natürlichen Sprachen, wobei die natürliche Sprache ausgewählt wird, indem ein Sprachtoken 416 eingegeben wird, bei dem es sich um das gleiche wie das Sprachtoken 404 oder ein anderes handeln kann. Eine Textdatenantwort 418 in natürlicher Sprache kann in Audiospektrumdaten transformiert werden, die einer Antwort in natürlicher Sprache zur Emission als Audiowellen durch einen Prozess, wie vorstehend in Bezug auf 2 beschrieben, entsprechen. Ein System zur Verarbeitung natürlicher Sprache kann durch hier offenbarte Techniken verbessert werden, die das Übersetzen von Befehlen in natürlicher Sprache aus einer Vielzahl von natürlichen Sprachen in eine latente konstruierte Sprache vor dem semantischen Verarbeiten auf Grundlage einer latenten konstruierten Sprache beinhalten, wobei das semantische Verarbeiten Ausgeben eines Fahrzeugbefehls, Empfangen von Fahrzeugdaten und Ausgeben einer Antwort in latenter konstruierter Sprache beinhaltet. Eine Antwort in latenter konstruierter Sprache kann in eine von einer Vielzahl von natürlichen Sprachen übersetzt werden, bevor sie als Audiowellen ausgegeben wird.
  • Die Architektur des Systems zur Verarbeitung natürlicher Sprache, die dem NLP-System 400 entspricht, kann für Anwendungen zusätzlich zum Betrieb des Fahrzeugs 110 verwendet werden. Jede Anwendung, die eine mehrsprachige gesprochene Eingabe und Ausgabe erfordert, um Aufgaben durchzuführen, die mit einem Satz von Befehlen in latenter konstruierter Sprache beschrieben werden können, kann von den hier beschriebenen Verbesserungen profitieren. Zum Beispiel könnte ein NLP-System 400 so programmiert sein, dass es ein digitaler Assistent ist, um Termine zu vereinbaren und einen Benutzer an Projektfälligkeitstermine zu erinnern. Der digitale Assistent kann gleichzeitig auf Deutsch, Französisch und Englisch arbeiten, indem das NLP-System 400 für jede Sprache einmal trainiert wird. Zusätzliche Sprachen können durch zusätzliches Umtrainieren des DNN-Codierers 302 und des DNN-Decodierers 312 hinzugefügt werden. Der DNN-Codierer 302 und der DNN-Decodierer 312 können unabhängig für zusätzliche natürliche Sprachen trainiert werden, was bedeutet, dass die Modellgröße hinsichtlich der Anzahl von natürlichen Sprachen linear wächst und nicht exponentiell, falls alle natürlichen Sprachpaare berücksichtigt werden. Die Architektur des NLP-Systems 400 reduziert die Erhebung von Ground-Truth-Daten, die Trainingszeit und die Modellgröße, indem die DNN-Aufmerksamkeit 408 nur unter Verwendung einer latenten konstruierten Sprache trainiert wird im Gegensatz dazu, dass die DNN-Aufmerksamkeit 408 zum Beispiel für jede einer Vielzahl von natürlichen Sprachen trainiert wird. Verbesserungen und Umtrainieren der DNN-Aufmerksamkeit 408 sind für eine Vielzahl von natürlichen Sprachen unverzüglich verfügbar, sobald die Verbesserungen und das Umtrainieren abgeschlossen sind, ohne dass für jede natürliche Sprache ein erneutes Training durchgeführt werden muss. Zusätzlich kann die DNN-Aufmerksamkeit 408 an einem einzelnen Datensatz natürlicher Sprache trainiert werden, da die Befehle in latenter konstruierter Sprache für die Vielzahl von natürlichen Sprachen gleich sind. Die Modellgröße, die ein Maß für die Menge der zum Programmieren der DNN-Aufmerksamkeit 408 erforderlichen Programmierdaten ist, ist bei dem NLP-System 400 konstant, wohingegen bei NLP-Systemen ohne einen Befehl 406 in latenter konstruierter Sprache und eine Antwort 414 in latenter konstruierter Sprache die Modellgröße mit der Anzahl der unterstützten natürlichen Sprachen linear wachsen kann.
  • 5 ist eine Darstellung eines Ablaufdiagramms, das in Bezug auf 1-4 beschrieben wird, für einen Prozess 500 zum Betreiben eines Fahrzeugs 110 auf Grundlage der Verarbeitung von natürlicher Sprache unter Verwendung einer latenten konstruierten Sprache. Der Prozess 500 kann durch einen Prozessor der Rechenvorrichtung 115 umgesetzt sein, wobei zum Beispiel Informationen von den Sensoren 116 als Eingabe herangezogen werden und über die Steuerungen 112, 113, 114 Befehle ausgeführt und Steuersignale gesendet werden. Der Prozess 500 beinhaltet mehrere Blöcke, die in der offenbarten Reihenfolge ausgeführt werden. Der Prozess 500 könnte alternativ oder zusätzlich weniger Blöcke beinhalten oder kann die Blöcke in unterschiedlichen Reihenfolgen beinhalten.
  • Der Prozess 500 beginnt bei Block 502, in dem ein System 400 zur Verarbeitung natürlicher Sprache (NLP) einen Textdatenbefehl 402 in gesprochener natürlicher Sprache und ein Sprachtoken 404 empfängt. Der Befehl 402 in gesprochener natürlicher Sprache und das Sprachtoken 404 können Textdaten sein, die von einer ASR ausgegeben werden, wie in Bezug auf 3 beschrieben, um Audiospektraldaten einzugeben, die einem Befehl in natürlicher Sprache entsprechen, der von einem Insassen eines Fahrzeugs 110 gesprochen wird. Der trainierte DNN-Codierer 302 gibt den Textdatenbefehl 402 in natürlicher Sprache und das Sprachtoken 404 ein, übersetzt den Befehl in natürlicher Sprache in eine latente konstruierte Sprache und gibt einen Befehl 406 in latenter konstruierter Sprache, der dem Textdatenbefehl 402 in natürlicher Sprache entspricht, an die DNN-Aufmerksamkeit 408 aus, wie vorstehend in Bezug auf 4 erörtert.
  • Bei Block 504 verarbeitet die DNN-Aufmerksamkeit 408 den von dem DNN-Codierer 302 eingegebenen Befehl 406 in latenter konstruierter Sprache, um in dem latenten konstruierten Befehl 406 enthaltene semantische Informationen zu bestimmen, die einen Fahrzeugbefehl 410 beinhalten, der an die Rechenvorrichtung 115 ausgegeben wird. Die Rechenvorrichtung 115 gibt den Fahrzeugbefehl 410 ein und bestimmt Fahrzeuginformationen 412, die an die DNN-Aufmerksamkeit 408 ausgegeben werden sollen. Die DNN-Aufmerksamkeit 408 gibt Fahrzeuginformationen 412 ein und auf Grundlage des latenten konstruierten Befehls 406 und der Fahrzeuginformationen 412 bestimmt die DNN-Aufmerksamkeit 408 eine Antwort 414 in latenter konstruierter Sprache zum Ausgeben an den DNN-Decodierer 312.
  • Bei Block 506 gibt der DNN-Decodierer 312 eine Antwort 414 in latenter konstruierter Sprache und ein Sprachtoken 416 ein. Das Sprachtoken kann als das gleiche wie das Sprachtoken 404 bestimmt sein oder durch eine Benutzereingabe bestimmt sein, um aus den natürlichen Sprachen auszuwählen, für deren Übersetzung der DNN-Decodierer 312 trainiert worden ist. Der DNN-Decodierer 312 übersetzt die Antwort 414 in latenter konstruierter Sprache in Textdaten, die einer Antwort in gesprochener natürlicher Sprache in einer natürlichen Sprache entsprechen. Der DNN-Decodierer 312 kann dazu trainiert sein, Antworten 414 in latenter konstruierter Sprache unabhängig vom Training des DNN-Codierers 302 und der DNN-Aufmerksamkeit 408 in neue und andere natürliche Sprachen zu übersetzen. Der DNN-Decodierer 312 gibt eine Textdatenantwort 418 in gesprochener natürlicher Sprache aus, die in Audiospektrumdaten umzuwandeln ist und als Audiowellen auszugeben ist, die einer Antwort in natürlicher Sprache entsprechen, wie vorstehend in Bezug auf 2 beschrieben. Die Antwort in natürlicher Sprache kann zum Beispiel den Empfang eines Befehls in natürlicher Sprache quittieren und übersetzte Fahrzeuginformationen 412 als Reaktion auf Abfragen beinhalten.
  • Bei Block 508 betreibt die Rechenvorrichtung 115 das Fahrzeug 110 auf Grundlage des in Block 504 von der DNN-Aufmerksamkeit 408 empfangenen Fahrzeugbefehls 410. Zum Beispiel kann ein Fahrzeugbefehl dazu verwendet werden, ein Wegpolynom 210, auf dem das Fahrzeug 110 betrieben werden soll, zu bestimmen, wie vorstehend in Bezug auf 2 erörtert. Die Rechenvorrichtung 115 kann auf einen Fahrzeugbefehl 410 reagieren, indem sie die Fahrzeuginformationen 412 an die DNN-Aufmerksamkeit 408 zurückgibt. Die Fahrzeuginformationen 412 können zum Beispiel Informationen beinhalten, die bestätigen, dass der Fahrzeugbefehl 410 ausgeführt wird, oder auf eine Informationsabfrage reagieren. Im Anschluss an Block 508 endet der Prozess 500.
  • Rechenvorrichtungen, wie etwa die hier erörterten, beinhalten im Allgemeinen jeweils Befehle, die durch eine oder mehrere Rechenvorrichtungen, wie etwa die vorstehend genannten, und zum Ausführen von Blöcken oder Schritten von vorstehend beschriebenen Prozessen ausführbar sind. Zum Beispiel können die vorstehend erörterten Prozessblöcke als computerausführbare Befehle ausgeführt sein.
  • Computerausführbare Befehle können von Computerprogrammen zusammengestellt oder ausgewertet werden, die unter Verwendung vielfältiger Programmiersprachen und/oder -technologien erstellt worden sind, einschließlich unter anderem und entweder für sich oder in Kombination Java™, C, C++, Visual Basic, Java Script, Perl, HTML usw. Im Allgemeinen empfängt ein Prozessor (z. B. ein Mikroprozessor) Befehle z. B. von einem Speicher, einem computerlesbaren Medium usw. und führt diese Befehle aus, wodurch er einen oder mehrere Prozesse einschließlich eines oder mehrerer der hier beschriebenen Prozesse durchführt. Derartige Befehle und andere Daten können in Dateien gespeichert und unter Verwendung vielfältiger computerlesbarer Medien übertragen werden. Eine Datei in einer Rechenvorrichtung ist im Allgemeinen eine Sammlung von Daten, die auf einem computerlesbaren Medium, wie etwa einem Speichermedium, einem Direktzugriffsspeicher usw., gespeichert sind.
  • Ein computerlesbares Medium beinhaltet ein beliebiges Medium, das am Bereitstellen von Daten (z. B. Befehlen) beteiligt ist, die durch einen Computer ausgelesen werden können. Ein derartiges Medium kann viele Formen annehmen, einschließlich unter anderem nichtflüchtiger Medien, flüchtiger Medien usw. Zu nichtflüchtigen Medien gehören zum Beispiel optische Platten oder Magnetplatten und andere dauerhafte Speicher. Zu flüchtigen Medien gehört dynamischer Direktzugriffsspeicher (dynamic random access memory - DRAM), der typischerweise einen Hauptspeicher darstellt. Zu gängigen Formen computerlesbarer Medien gehören zum Beispiel eine Diskette, eine Folienspeicherplatte, eine Festplatte, ein Magnetband, ein beliebiges anderes magnetisches Medium, eine CD-ROM, eine DVD, ein beliebiges anderes optisches Medium, Lochkarten, Lochstreifen, ein beliebiges anderes physisches Medium mit Lochmustern, ein RAM, ein PROM, ein EPROM, ein FLASH-EEPROM, ein beliebiger anderer Speicherchip oder eine beliebige andere Speicherkassette oder ein beliebiges anderes Medium, das durch einen Computer ausgelesen werden kann.
  • Allen in den Patentansprüchen verwendeten Ausdrücken soll deren allgemeine und gewöhnliche Bedeutung zukommen, wie sie vom Fachmann verstanden wird, sofern nicht ausdrücklich etwas anderes angegeben ist. Insbesondere ist die Verwendung der Singularartikel wie etwa „ein“, „eine“, „der“, „die“, „das“ usw. dahingehend auszulegen, dass eines oder mehrere der aufgeführten Elemente genannt wird bzw. werden, es sei denn, ein Patentanspruch enthält ausdrücklich eine gegenteilige Einschränkung.
  • Der Ausdruck „beispielhaft“ wird hier in dem Sinne verwendet, dass er ein Beispiel angibt, z. B. sollte ein Verweis auf eine „beispielhafte Vorrichtung“ einfach als Bezugnahme auf ein Beispiel für eine Vorrichtung gelesen werden.
  • Das einen Wert oder ein Ergebnis modifizierende Adverb „ungefähr“ bedeutet, dass eine Form, eine Struktur, ein Messwert, ein Wert, eine Bestimmung, eine Berechnung usw. von einer bzw. einem genau beschriebenen Geometrie, Abstand, Messwert, Wert, Bestimmung, Berechnung usw. aufgrund von Mängeln hinsichtlich Materialien, Bearbeitung, Herstellung, Sensormessungen, Berechnungen, Verarbeitungszeit, Kommunikationszeit usw. abweichen kann.
  • In den Zeichnungen geben die gleichen Bezugszeichen die gleichen Elemente an. Ferner könnten einige oder alle dieser Elemente geändert werden. Hinsichtlich der hier beschriebenen Medien, Prozesse, Systeme, Verfahren usw. versteht es sich, dass die Schritte oder Blöcke derartiger Prozesse usw. zwar als gemäß einer bestimmten Abfolge stattfindend beschrieben worden sind, derartige Prozesse jedoch so umgesetzt werden könnten, dass die beschriebenen Schritte in einer anderen Reihenfolge als der hier beschriebenen Reihenfolge durchgeführt werden. Es versteht sich ferner, dass gewisse Schritte gleichzeitig durchgeführt, andere Schritte hinzugefügt oder gewisse hier beschriebene Schritte weggelassen werden könnten. Mit anderen Worten dienen die Beschreibungen von Prozessen in dieser Schrift dem Zwecke der Veranschaulichung gewisser Ausführungsformen und sollten keinesfalls dahingehend ausgelegt werden, dass sie die beanspruchte Erfindung einschränken.
  • Gemäß der vorliegenden Erfindung ist ein Verfahren bereitgestellt, das Folgendes aufweist: Übersetzen eines Befehls in gesprochener natürlicher Sprache in einen Zwischenbefehl in konstruierter Sprache mit einem ersten tiefen neuronalen Netz; Bestimmen eines Fahrzeugbefehls und einer Zwischenantwort in konstruierter Sprache mit einem zweiten tiefen neuronalen Netz auf Grundlage des Empfangens von Fahrzeuginformationen; Übersetzen der Zwischenantwort in konstruierter Sprache in eine Antwort in gesprochener natürlicher Sprache mit einem dritten tiefen neuronalen Netz; und Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls.
  • Gemäß einer Ausführungsform ist die konstruierte Sprache eine latente konstruierte Sprache.
  • Gemäß einer Ausführungsform handelt es sich bei dem Befehl in gesprochener natürlicher Sprache um Textdaten, die einem in einer natürlichen Sprache durch einen Fahrzeugbenutzer gesprochenen Befehl entsprechen und durch ein viertes tiefes neuronales Netz von erfassten Audiospektrumdaten in den Befehl in gesprochener natürlicher Sprache transformiert werden.
  • Gemäß einer Ausführungsform handelt es sich bei der Antwort in gesprochener natürlicher Sprache um Textdaten, die durch ein fünftes tiefes neuronales Netz in Audiospektrumdaten, die einer in einer natürlichen Sprache gesprochenen Antwort entsprechen, transformiert werden.
  • Gemäß einer Ausführungsform sind der Befehl in gesprochener natürlicher Sprache und die Antwort in gesprochener natürlicher Sprache jeweils in einer von einer Vielzahl von natürlichen Sprachen.
  • Gemäß einer Ausführungsform ist die Erfindung ferner gekennzeichnet durch Trainieren des ersten tiefen neuronalen Netzes, des zweiten tiefen neuronalen Netzes und des dritten tiefen neuronalen Netzes zum Eingeben des Befehls in gesprochener natürlicher Sprache, Ausgeben des Fahrzeugbefehls, Eingeben von Fahrzeuginformationen und Ausgeben einer Antwort in gesprochener natürlicher Sprache unter Verwendung von Ground-Truth-Fahrzeugbefehlen und -Fahrzeuginformationen, Mustern für Befehle in gesprochener natürlicher Sprache und Mustern für Antworten in gesprochener natürlicher Sprache.
  • Gemäß einer Ausführungsform werden das erste und dritte tiefe neuronale Netz unabhängig trainiert, um natürliche Sprachen aus der Vielzahl von natürlichen Sprachen hinzuzufügen.
  • Gemäß einer Ausführungsform beinhaltet Betreiben des Fahrzeugs Bestimmen einer kognitiven Karte auf Grundlage von Kartendaten und Fahrzeugsensordaten.
  • Gemäß einer Ausführungsform beinhaltet Betreiben des Fahrzeugs Bestimmen eines Wegpolynoms in der kognitiven Karte auf Grundlage des Befehls in konstruierter Sprache und der Fahrzeugsensordaten.
  • Gemäß der vorliegenden Erfindung ist ein System bereitgestellt, das einen Prozessor; und einen Speicher aufweist, wobei der Speicher Anweisungen beinhaltet, die durch den Prozessor zu Folgendem ausgeführt werden sollen: Übersetzen eines Befehls in gesprochener natürlicher Sprache in einen Zwischenbefehl in konstruierter Sprache mit einem ersten tiefen neuronalen Netz; Bestimmen eines Fahrzeugbefehls und einer Zwischenantwort in konstruierter Sprache mit einem zweiten tiefen neuronalen Netz auf Grundlage des Empfangens von Fahrzeuginformationen; Übersetzen der Zwischenantwort in konstruierter Sprache in eine Antwort in gesprochener natürlicher Sprache mit einem dritten tiefen neuronalen Netz; und Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls.
  • Gemäß einer Ausführungsform ist die konstruierte Sprache eine latente konstruierte Sprache.
  • Gemäß einer Ausführungsform handelt es sich bei dem Befehl in gesprochener natürlicher Sprache um Textdaten, die einem in einer natürlichen Sprache durch einen Fahrzeugbenutzer gesprochenen Befehl entsprechen und durch ein viertes tiefes neuronales Netz von erfassten Audiospektrumdaten in den Befehl in gesprochener natürlicher Sprache transformiert werden.
  • Gemäß einer Ausführungsform handelt es sich bei der Antwort in gesprochener natürlicher Sprache um Textdaten, die durch ein fünftes tiefes neuronales Netz in Audiospektrumdaten, die einer in einer natürlichen Sprache gesprochenen Antwort entsprechen, transformiert werden.
  • Gemäß einer Ausführungsform sind der Befehl in gesprochener natürlicher Sprache und die Antwort in gesprochener natürlicher Sprache jeweils in einer von einer Vielzahl von natürlichen Sprachen.
  • Gemäß einer Ausführungsform ist die Erfindung ferner gekennzeichnet durch Trainieren des ersten tiefen neuronalen Netzes, des zweiten tiefen neuronalen Netzes und des dritten tiefen neuronalen Netzes zum Eingeben, Ausgeben des Fahrzeugbefehls, Eingeben von Fahrzeuginformationen und Ausgeben einer Antwort in gesprochener natürlicher Sprache unter Verwendung von Ground-Truth-Fahrzeugbefehlen und -Fahrzeuginformationen, Mustern für Befehle in gesprochener natürlicher Sprache und Mustern für Antworten in gesprochener natürlicher Sprache.
  • Gemäß einer Ausführungsform werden das erste und dritte tiefe neuronale Netz unabhängig trainiert, um natürliche Sprachen aus der Vielzahl von natürlichen Sprachen hinzuzufügen.
  • Gemäß einer Ausführungsform beinhaltet Betreiben des Fahrzeugs Bestimmen einer kognitiven Karte auf Grundlage von Kartendaten und Fahrzeugsensordaten.
  • Gemäß einer Ausführungsform beinhaltet Betreiben des Fahrzeugs Bestimmen eines Wegpolynoms in der kognitiven Karte auf Grundlage des Befehls in gesprochener Sprache und der Fahrzeugsensordaten.
  • Gemäß der vorliegenden Erfindung ist ein System bereitgestellt, das Folgendes aufweist: Mittel zum Steuern der Lenkung, der Bremsung und des Antriebsstrangs eines Fahrzeugs; und Mittel zum: Übersetzen eines Befehls in gesprochener natürlicher Sprache in einen Zwischenbefehl in konstruierter Sprache mit einem ersten tiefen neuronalen Netz; Bestimmen eines Fahrzeugbefehls und einer Zwischenantwort in konstruierter Sprache mit einem zweiten tiefen neuronalen Netz auf Grundlage des Empfangens von Fahrzeuginformationen; Übersetzen der Zwischenantwort in konstruierter Sprache in eine Antwort in gesprochener natürlicher Sprache mit einem dritten tiefen neuronalen Netz; und Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls und der Mittel zum Steuern der Lenkung, der Bremsung und des Antriebsstrangs des Fahrzeugs.
  • Gemäß einer Ausführungsform ist die konstruierte Sprache eine latente konstruierte Sprache.

Claims (14)

  1. Verfahren, umfassend: Übersetzen eines Befehls in gesprochener natürlicher Sprache in einen Zwischenbefehl in konstruierter Sprache mit einem ersten tiefen neuronalen Netz; Bestimmen eines Fahrzeugbefehls und einer Zwischenantwort in konstruierter Sprache mit einem zweiten tiefen neuronalen Netz auf Grundlage des Empfangens von F ahrzeuginformati onen; Übersetzen der Zwischenantwort in konstruierter Sprache in eine Antwort in gesprochener natürlicher Sprache mit einem dritten tiefen neuronalen Netz; und Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls.
  2. Verfahren nach Anspruch 1, wobei die konstruierte Sprache eine latente konstruierte Sprache ist.
  3. Verfahren nach Anspruch 1, wobei es sich bei dem Befehl in gesprochener natürlicher Sprache um Textdaten handelt, die einem in einer natürlichen Sprache durch einen Fahrzeugbenutzer gesprochenen Befehl entsprechen und durch ein viertes tiefes neuronales Netz von erfassten Audiospektrumdaten in den Befehl in gesprochener natürlicher Sprache transformiert werden.
  4. Verfahren nach Anspruch 3, wobei es sich bei der Antwort in gesprochener natürlicher Sprache um Textdaten handelt, die durch ein fünftes tiefes neuronales Netz in Audiospektrumdaten, die einer in einer natürlichen Sprache gesprochenen Antwort entsprechen, transformiert werden.
  5. Verfahren nach Anspruch 1, wobei der Befehl in gesprochener natürlicher Sprache und die Antwort in gesprochener natürlicher Sprache jeweils in einer von einer Vielzahl von natürlichen Sprachen sind.
  6. Verfahren nach Anspruch 5, ferner umfassend Trainieren des ersten tiefen neuronalen Netzes, des zweiten tiefen neuronalen Netzes und des dritten tiefen neuronalen Netzes zum Eingeben des Befehls in gesprochener natürlicher Sprache, Ausgeben des Fahrzeugbefehls, Eingeben von Fahrzeuginformationen und Ausgeben einer Antwort in gesprochener natürlicher Sprache unter Verwendung von Ground-Truth-Fahrzeugbefehlen und -Fahrzeuginformationen, Mustern für Befehle in gesprochener natürlicher Sprache und Mustern für Antworten in gesprochener natürlicher Sprache.
  7. Verfahren nach Anspruch 6, wobei das erste und dritte tiefe neuronale Netz unabhängig trainiert werden, um natürliche Sprachen aus der Vielzahl von natürlichen Sprachen hinzuzufügen.
  8. Verfahren nach Anspruch 1, wobei Betreiben des Fahrzeugs Bestimmen einer kognitiven Karte auf Grundlage von Kartendaten und Fahrzeugsensordaten beinhaltet.
  9. Verfahren nach Anspruch 8, wobei Betreiben des Fahrzeugs Bestimmen eines Wegpolynoms in der kognitiven Karte auf Grundlage des Befehls in konstruierter Sprache und der Fahrzeugsensordaten beinhaltet.
  10. Verfahren nach Anspruch 9, wobei Betreiben des Fahrzeugs Bestimmen eines Zielorts auf der kognitiven Karte und Bestimmen eines Wegpolynoms, das ermöglicht, dass das Fahrzeug den Zielort erreicht, beinhaltet.
  11. Verfahren nach Anspruch 1, wobei das erste tiefe neuronale Netz eine Vielzahl von 1-D-Faltungsschichten und eine Vielzahl von vollständig verbundenen Schichten beinhaltet, die als LSTM-Netz konfiguriert sind.
  12. Verfahren nach Anspruch 1, wobei das dritte tiefe neuronale Netz eine Vielzahl von 1-D-Faltungsschichten und eine Vielzahl von vollständig verbundenen Schichten beinhaltet, die als LSTM-Netz konfiguriert sind.
  13. Verfahren nach Anspruch 1, wobei der Befehl in gesprochener natürlicher Sprache und die Antwort in gesprochener Sprache in der gleichen oder unterschiedlichen natürlichen Sprachen sind.
  14. System, umfassend einen Computer, der dazu programmiert ist, die Verfahren nach einem der Ansprüche 1-13 durchzuführen.
DE102019127833.3A 2018-10-17 2019-10-15 Sprachverarbeitung in einem fahrzeug Pending DE102019127833A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/162,556 US10891951B2 (en) 2018-10-17 2018-10-17 Vehicle language processing
US16/162,556 2018-10-17

Publications (1)

Publication Number Publication Date
DE102019127833A1 true DE102019127833A1 (de) 2020-04-23

Family

ID=70280831

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019127833.3A Pending DE102019127833A1 (de) 2018-10-17 2019-10-15 Sprachverarbeitung in einem fahrzeug

Country Status (3)

Country Link
US (1) US10891951B2 (de)
CN (1) CN111145731A (de)
DE (1) DE102019127833A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11210565B2 (en) * 2018-11-30 2021-12-28 Microsoft Technology Licensing, Llc Machine learning model with depth processing units
US20220222450A1 (en) * 2019-05-24 2022-07-14 Nippon Telegraph And Telephone Corporation Data generation model learning apparatus, latent variable generation model learning apparatus, translation data generation apparatus, data generation model learning method, latent variable generation model learning method, translation data generation method, and program
CN112364658A (zh) * 2019-07-24 2021-02-12 阿里巴巴集团控股有限公司 翻译以及语音识别方法、装置、设备

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9552354B1 (en) 2003-09-05 2017-01-24 Spoken Traslation Inc. Method and apparatus for cross-lingual communication
EP1856630A2 (de) 2005-03-07 2007-11-21 Linguatec Sprachtechnologien GmbH Hybrides maschinen-übersetzungssystem
US8478581B2 (en) 2010-01-25 2013-07-02 Chung-ching Chen Interlingua, interlingua engine, and interlingua machine translation system
CN104123274B (zh) 2013-04-26 2018-06-12 富士通株式会社 评价中间语的词语的方法和装置以及机器翻译方法和设备
US9940321B2 (en) 2015-03-15 2018-04-10 Graham MOREHEAD System for machine translation
US10186252B1 (en) * 2015-08-13 2019-01-22 Oben, Inc. Text to speech synthesis using deep neural network with constant unit length spectrogram
US10332509B2 (en) * 2015-11-25 2019-06-25 Baidu USA, LLC End-to-end speech recognition
CN106844368B (zh) * 2015-12-03 2020-06-16 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
US10332508B1 (en) * 2016-03-31 2019-06-25 Amazon Technologies, Inc. Confidence checking for speech processing and query answering
KR102323548B1 (ko) 2016-09-26 2021-11-08 구글 엘엘씨 신경 기계 번역 시스템
US10459928B2 (en) * 2016-12-14 2019-10-29 Microsoft Technology Licensing, Llc Dynamic tensor attention for information retrieval scoring
KR102304701B1 (ko) * 2017-03-28 2021-09-24 삼성전자주식회사 사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치
US10571921B2 (en) * 2017-09-18 2020-02-25 Baidu Usa Llc Path optimization based on constrained smoothing spline for autonomous driving vehicles
US10593321B2 (en) * 2017-12-15 2020-03-17 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for multi-lingual end-to-end speech recognition
KR102608469B1 (ko) * 2017-12-22 2023-12-01 삼성전자주식회사 자연어 생성 방법 및 장치
US10437936B2 (en) * 2018-02-01 2019-10-08 Jungle Disk, L.L.C. Generative text using a personality model
US10431207B2 (en) * 2018-02-06 2019-10-01 Robert Bosch Gmbh Methods and systems for intent detection and slot filling in spoken dialogue systems
US11501076B2 (en) * 2018-02-09 2022-11-15 Salesforce.Com, Inc. Multitask learning as question answering
US11436484B2 (en) * 2018-03-27 2022-09-06 Nvidia Corporation Training, testing, and verifying autonomous machines using simulated environments
US11776036B2 (en) * 2018-04-19 2023-10-03 Adobe Inc. Generating and utilizing classification and query-specific models to generate digital responses to queries from client device
US10770066B2 (en) * 2018-05-31 2020-09-08 Robert Bosch Gmbh Slot filling in spoken language understanding with joint pointer and attention
US10978051B2 (en) * 2018-09-28 2021-04-13 Capital One Services, Llc Adversarial learning framework for persona-based dialogue modeling

Also Published As

Publication number Publication date
CN111145731A (zh) 2020-05-12
US20200126544A1 (en) 2020-04-23
US10891951B2 (en) 2021-01-12

Similar Documents

Publication Publication Date Title
CN111123933B (zh) 车辆轨迹规划的方法、装置、智能驾驶域控制器和智能车
DE102017117698B4 (de) Fahrassistenzvorrichtung für ein Fahrzeug
DE102014109936B4 (de) Interaktives automatisiertes Fahrsystem
DE102019122027A1 (de) Fahrzeugwegplanung
DE102019133034A1 (de) Steuerung eines autonomen fahrzeugs basierend auf einem vorher erlernten fahrgast- und umgebungsbewussten fahrstilprofil
DE102019121140A1 (de) Sensorfusion
DE102018113926A1 (de) Autonome Fahrzeugantriebssysteme und Verfahren für kritische Zustände
DE102016206318A1 (de) Fahrtsteuervorrichtung
DE102020130387A1 (de) Fahrzeugwegplanung
DE102015103410A1 (de) Nachrichtenübermittlung über fahrzeuglenkrad
DE112019001046T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren, programm und mobiler körper
EP2594446B1 (de) Vorrichtung und Verfahren zum Betreiben eines Fahrzeugs
DE102018118220B4 (de) Verfahren zur Schätzung der Lokalisierungsgüte bei der Eigenlokalisierung eines Fahrzeuges, Vorrichtung für die Durchführung von Verfahrensschritten des Verfahrens, Fahrzeug sowie Computerprogramm
DE102017100323A1 (de) Steuerung für die Fahrt eines Fahrzeugs
DE102019129232A1 (de) Sprachverarbeitung für ein fahrzeug
DE102020103509A1 (de) Erkennung und vermeidung von kollisionsverhalten
DE102019119162A1 (de) Posenschätzung
DE102019127833A1 (de) Sprachverarbeitung in einem fahrzeug
DE102019124155A1 (de) Sprachverarbeitung in einem fahrzeug
DE102016207421A1 (de) Fahrzeugfahrtsteuervorrichtung
DE102018100487A1 (de) Objektverfolgung durch unüberwachtes lernen
DE102017100210A1 (de) Anhaltedistanzsystem
DE112016003658T5 (de) Informationsübertragungsvorrichtung, elektronische steuerungsvorrichtung, informationssendevorrichtung und elektronisches steuerungssystem
DE102016108146A1 (de) Vollautomatisches Lenkrad, das durch Fußgängerdetektion geführt wird
DE102020129369A1 (de) Verbesserter fahrzeugbetrieb

Legal Events

Date Code Title Description
R082 Change of representative

Representative=s name: LORENZ SEIDLER GOSSEL RECHTSANWAELTE PATENTANW, DE