DE102019124155A1 - Sprachverarbeitung in einem fahrzeug - Google Patents

Sprachverarbeitung in einem fahrzeug Download PDF

Info

Publication number
DE102019124155A1
DE102019124155A1 DE102019124155.3A DE102019124155A DE102019124155A1 DE 102019124155 A1 DE102019124155 A1 DE 102019124155A1 DE 102019124155 A DE102019124155 A DE 102019124155A DE 102019124155 A1 DE102019124155 A1 DE 102019124155A1
Authority
DE
Germany
Prior art keywords
vehicle
spoken
gan
command
mel frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102019124155.3A
Other languages
English (en)
Inventor
Praveen Narayanan
Lisa Scaria
Ryan Burke
Francois Charette
Punarjay Chakravarty
Kaushik Balakrishnan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ford Global Technologies LLC
Original Assignee
Ford Global Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ford Global Technologies LLC filed Critical Ford Global Technologies LLC
Publication of DE102019124155A1 publication Critical patent/DE102019124155A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W10/00Conjoint control of vehicle sub-units of different type or different function
    • B60W10/04Conjoint control of vehicle sub-units of different type or different function including control of propulsion units
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W10/00Conjoint control of vehicle sub-units of different type or different function
    • B60W10/18Conjoint control of vehicle sub-units of different type or different function including control of braking systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W10/00Conjoint control of vehicle sub-units of different type or different function
    • B60W10/20Conjoint control of vehicle sub-units of different type or different function including control of steering systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/10Interpretation of driver requests or demands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0062Adapting control system settings
    • B60W2050/007Switching between manual and automatic parameter input, and vice versa
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/21Voice
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Navigation (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
  • Traffic Control Systems (AREA)

Abstract

Diese Offenbarung stellt Sprachverarbeitung in einem Fahrzeug bereit. Ein Rechensystem kann programmiert sein zum Empfangen eines Befehls in gesprochener Sprache als Reaktion auf Emittieren eines Hinweises in gesprochener Sprache und Verarbeiten des Befehls in gesprochener Sprache mit einem verallgemeinerten gegnerischen neuronalen Netz (generalized adversarial neural network - GAN) zum Bestimmen eines Fahrzeugbefehls. Das Rechensystem kann ferner zum Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls programmiert sein.

Description

  • ALLGEMEINER STAND DER TECHNIK
  • Fahrzeuge können dazu ausgestattet sein, sowohl in einem autonomen als auch von einem Insassen gesteuerten Modus betrieben zu werden. Fahrzeuge können mit Rechenvorrichtungen, Netzen, Sensoren und Steuerungen ausgestattet sein, um Informationen bezüglich der Umgebung des Fahrzeugs zu erlangen und das Fahrzeug auf Grundlage der Informationen zu betreiben. Der sichere und komfortable Betrieb des Fahrzeugs kann vom Erlangen genauer und rechtzeitiger Informationen bezüglich der Umgebung des Fahrzeugs abhängen. Fahrzeugsensoren können Daten hinsichtlich zu fahrender Routen und zu umfahrender Objekte in der Umgebung des Fahrzeugs bereitstellen. Der sichere und effiziente Betrieb des Fahrzeugs kann vom Erlangen genauer und rechtzeitiger Informationen bezüglich Routen und Objekten in der Umgebung eines Fahrzeugs abhängig sein, während das Fahrzeug auf einer Fahrbahn betrieben wird.
  • Figurenliste
    • 1 ist ein Blockschaubild eines beispielhaften Verkehrsinfrastruktursystems.
    • 2 ist eine Darstellung einer beispielhaften Fahrzeugszene.
    • 3 ist eine Darstellung eines beispielhaften neuronalen Netzes zum Verarbeiten von gesprochener Sprache.
    • 4 ist eine Darstellung eines beispielhaften neuronalen Netzes zum Verarbeiten von gesprochener Sprache.
    • 5 ist eine Darstellung eines beispielhaften neuronalen Netzes zum Verarbeiten von gesprochener Sprache.
    • 6 ist ein Ablaufdiagramm eines beispielhaften Prozesses zum Betreiben eines Fahrzeugs auf Grundlage von gesprochener Sprache.
  • GEBIET DER TECHNIK
  • Die Erfindung betrifft ein Rechensystem, das programmiert sein kann zum Empfangen eines Befehls in gesprochener Sprache als Reaktion auf Emittieren eines Hinweises in gesprochener Sprache und Verarbeiten des Befehls in gesprochener Sprache mit einem verallgemeinerten gegnerischen neuronalen Netz (generalized adversarial neural network - GAN) zum Bestimmen eines Fahrzeugbefehls. Das Rechensystem kann ferner zum Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls programmiert sein.
  • KURZDARSTELLUNG DER ERFINDUNG
  • Ein Verfahren beinhaltet Empfangen eines Befehls in gesprochener Sprache als Reaktion auf Emittieren eines Hinweises in gesprochener Sprache, Verarbeiten des Befehls in gesprochener Sprache mit einem verallgemeinerten gegnerischen neuronalen Netz (GAN) zum Bestimmen eines Fahrzeugbefehls und Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls.
  • Das Verfahren kann Transformieren des Befehls in gesprochener Sprache in Mel-Frequenzabtastungen vor dem Verarbeiten mit dem GAN beinhalten.
  • Die Mel-Frequenzabtastungen können jeweils zu einem einzigen Vektor komprimiert werden, indem vor dem Verarbeiten mit dem GAN Mel-Werte entlang einer y-Achse gefaltet werden.
  • Eine Mel-Frequenzskala kann ein log-Leistungsspektrum von Frequenzen von Befehlen in gesprochener Sprache auf einer nichtlinearen Frequenzskala sein.
  • Das Verfahren kann Trainieren des GAN zum Bestimmen von echter oder unechter gesprochener Sprache unter Verwendung einer Vielzahl von aufgezeichneten Befehlen in gesprochener Sprache, Ground Truth, die die aufgezeichneten Befehle in gesprochener Sprache als echt oder unecht identifiziert, und einer auf Ground Truth beruhenden Verlustfunktion beinhalten.
  • Betreiben des Fahrzeugs kann Bestimmen eines Wegpolynoms auf Grundlage des Fahrzeugbefehls beinhalten.
  • Verfahren nach Anspruch 1, wobei Betreiben des Fahrzeugs Bestimmen einer kognitiven Karte auf Grundlage von Fahrzeugsensordaten beinhaltet.
  • Das Verfahren kann Verarbeiten von synthetischen Sprachdaten mit einem GAN zum Bestimmen des Hinweises in gesprochener Sprache beinhalten.
  • Der Fahrzeugbefehl kann eine Anforderung von zielgerichtetem Verhalten des Fahrzeugs sein.
  • Ein System beinhaltet einen Prozessor und einen Speicher, der programmiert ist zum Empfangen eines Befehls in gesprochener Sprache als Reaktion auf Emittieren eines Hinweises in gesprochener Sprache, Verarbeiten des Befehls in gesprochener Sprache mit einem verallgemeinerten gegnerischen neuronalen Netz (GAN) zum Bestimmen eines Fahrzeugbefehls und Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls.
  • Das System kann Transformieren des Befehls in gesprochener Sprache in Mel-Frequenzabtastungen vor dem Verarbeiten mit dem GAN beinhalten.
  • Die Mel-Frequenzabtastungen können jeweils zu einem einzigen Vektor komprimiert werden, indem vor dem Verarbeiten mit dem GAN Mel-Werte entlang einer y-Achse gefaltet werden.
  • Eine Mel-Frequenzskala kann ein log-Leistungsspektrum von Frequenzen von Befehlen in gesprochener Sprache auf einer nichtlinearen Frequenzskala sein.
  • Das System kann Trainieren des GAN zum Bestimmen von echter oder unechter gesprochener Sprache unter Verwendung einer Vielzahl von aufgezeichneten Befehlen in gesprochener Sprache, Ground Truth, die die aufgezeichneten Befehle in gesprochener Sprache als echt oder unecht identifiziert, und einer auf Ground Truth beruhenden Verlustfunktion beinhalten.
  • Betreiben des Fahrzeugs kann Bestimmen eines Wegpolynoms auf Grundlage des Fahrzeugbefehls beinhalten.
  • Betreiben des Fahrzeugs kann Bestimmen einer kognitiven Karte auf Grundlage von Fahrzeugsensordaten beinhalten.
  • Das System kann Verarbeiten von synthetischen Sprachdaten mit einem GAN zum Bestimmen des Hinweises in gesprochener Sprache beinhalten.
  • Der Fahrzeugbefehl kann eine Anforderung von zielgerichtetem Verhalten des Fahrzeugs sein.
  • Ein System beinhaltet Mittel zum Steuern der Lenkung, der Bremsung und des Antriebsstrangs eines zweiten Fahrzeugs, Computermittel zum Empfangen eines Befehls in gesprochener Sprache als Reaktion auf Emittieren eines Hinweises in gesprochener Sprache, Verarbeiten des Befehls in gesprochener Sprache mit einem verallgemeinerten gegnerischen neuronalen Netz (GAN) zum Bestimmen eines Fahrzeugbefehls und Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls und der Mittel zum Steuern der Lenkung, der Bremsung und des Antriebsstrangs des zweiten Fahrzeugs.
  • Das System kann Transformieren des Befehls in gesprochener Sprache in Mel-Frequenzabtastungen vor dem Verarbeiten mit dem GAN beinhalten.
  • DETAILLIERTE BESCHREIBUNG
  • Fahrzeuge können dazu ausgestattet sein, sowohl in einem autonomen als auch von einem Insassen gesteuerten Modus betrieben zu werden. Mit einem teil- oder vollautonomen Modus ist ein Betriebsmodus gemeint, bei dem ein Fahrzeug durch eine Rechenvorrichtung als Teil eines Fahrzeuginformationssystems gesteuert werden kann, das Sensoren und Steuerungen aufweist. Das Fahrzeug kann besetzt oder unbesetzt sein, jedoch kann das Fahrzeug in beiden Fällen ohne die Unterstützung eines Insassen gesteuert werden. Für die Zwecke dieser Offenbarung ist ein autonomer Modus als ein Modus definiert, bei dem Antrieb (z. B. über einen Antriebsstrang, der eine Brennkraftmaschine und/oder einen Elektromotor beinhaltet), Bremsung und Lenkung des Fahrzeugs jeweils durch einen oder mehrere Fahrzeugcomputer gesteuert werden; in einem teilautonomen Modus steuert der bzw. steuern die Fahrzeugcomputer eines oder zwei von Antrieb, Bremsung und Lenkung des Fahrzeugs. In einem nichtautonomen Fahrzeug werden keine davon durch einen Computer gesteuert.
  • Eine Rechenvorrichtung in einem Fahrzeug kann dazu programmiert sein, Daten bezüglich der äußeren Umgebung eines Fahrzeugs zu erlangen und die Daten dazu zu verwenden, Trajektorien zu bestimmen, die zu verwenden sind, um ein Fahrzeug in einem autonomen oder teilautonomen Modus zu betreiben, wobei zum Beispiel die Rechenvorrichtung Steuerungen Informationen bereitstellen kann, um das Fahrzeug auf einer Fahrbahn in Verkehr, an dem andere Fahrzeuge beteiligt sind, zu betreiben. Auf Grundlage von Sensordaten kann eine Rechenvorrichtung ein Wegpolynom bestimmen, auf dem ein Fahrzeug fährt, um ein Ziel auf einer Fahrbahn in Gegenwart anderer Fahrzeuge und Fußgänger zu erreichen, wobei ein Wegpolynom eine Polynomfunktion ist, die eine Linie beschreibt, die aufeinanderfolgende Trajektorien eines Fahrzeugs verbindet, wenn es sich von einem ersten Ort auf einer Fahrbahn zu einem zweiten Ort auf einer Fahrbahn bewegt. Ein Wegpolynom kann bestimmt werden, um das Fahrzeug innerhalb der Fahrbahn zu halten und Zusammenstöße mit Objekten, zu denen zum Beispiel andere Fahrzeuge und Fußgänger gehören, zu vermeiden. Eine Rechenvorrichtung in einem Fahrzeug kann dazu programmiert sein, Audiohinweise bezüglich des Betriebs des Fahrzeugs in Form von gesprochener Sprache zu emittieren. Die Rechenvorrichtung kann Antworten auf die Audiohinweise in Form von gesprochener Sprache empfangen und die gesprochene Sprache verarbeiten, um ein Wegpolynom zum Betreiben des Fahrzeugs zu bestimmen.
  • Hier ist ein Verfahren offenbart, das Folgendes beinhaltet: Empfangen eines Befehls in gesprochener Sprache als Reaktion auf Emittieren eines Hinweises in gesprochener Sprache, Verarbeiten des Befehls in gesprochener Sprache mit einem verallgemeinerten gegnerischen neuronalen Netz (GAN) zum Bestimmen eines Fahrzeugbefehls und Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls. Der Befehl in gesprochener Sprache kann vor dem Verarbeiten mit dem GAN in Mel-Frequenzabtastungen transformiert werden. Die Mel-Frequenzabtastungen können jeweils zu einem einzigen Vektor komprimiert werden, indem vor dem Verarbeiten mit dem GAN Mel-Werte entlang einer y-Achse gefaltet werden. Eine Mel-Frequenzskala ist ein log-Leistungsspektrum von Frequenzen von Befehlen in gesprochener Sprache auf einer nichtlinearen Frequenzskala. Ein erster Schritt beim Verarbeiten der Mel-Frequenzabtastungen mit einem GAN kann darin bestehen, eine ID-Faltung in der X-Richtung durchzuführen, um die Anzahl der Mel-Frequenzabtastungen auf eine Anzahl zu reduzieren, die größer als eins ist. Ein zweiter Schritt beim Verarbeiten der Mel-Frequenzabtastungen mit einem GAN besteht darin, eine ID-Faltung in der Y-Richtung durchzuführen. Ein dritter Schritt beim Verarbeiten der Mel-Frequenzabtastungen mit einem GAN besteht darin, die Mel-Frequenzabtastungen mit einem neuronalen Netz zu verarbeiten.
  • Das GAN kann trainiert werden zum Bestimmen von echter oder unechter gesprochener Sprache unter Verwendung einer Vielzahl von aufgezeichneten Befehlen in gesprochener Sprache, Ground Truth, die die aufgezeichneten Befehle in gesprochener Sprache als echt oder unecht identifiziert, und einer auf Ground Truth beruhenden Verlustfunktion. Die Verlustfunktion kann durch Summieren einer Verlustfunktion auf Grundlage einer Ausgabe von einem Diskriminatorabschnitt des GAN mit einer Verlustfunktion auf Grundlage von Ground Truth berechnet werden. Betreiben des Fahrzeugs kann Bestimmen eines Wegpolynoms auf Grundlage des Fahrzeugbefehls beinhalten. Betreiben des Fahrzeugs kann Bestimmen einer kognitiven Karte auf Grundlage von Fahrzeugsensordaten beinhalten. Betreiben des Fahrzeugs kann Bestimmen eines Zielorts auf der kognitiven Karte und Bestimmen eines Wegpolynoms, das ermöglicht, dass das Fahrzeug den Zielort erreicht, beinhalten. Synthetische Sprachdaten können mit einem GAN zum Bestimmen des Hinweises in gesprochener Sprache verarbeitet werden. Der Fahrzeugbefehl kann eine Anforderung von zielgerichtetem Verhalten des Fahrzeugs sein.
  • Ferner ist ein computerlesbares Medium offenbart, auf dem Programmanweisungen zum Ausführen einiger oder aller der vorstehenden Verfahrensschritte gespeichert sind. Ferner ist ein Computer offenbart, der zum Ausführen einiger oder aller der vorstehenden Verfahrensschritte programmiert ist, einschließlich einer Computereinrichtung, die programmiert ist zum Empfangen eines Befehls in gesprochener Sprache als Reaktion auf Emittieren eines Hinweises in gesprochener Sprache, Verarbeiten des Befehls in gesprochener Sprache mit einem verallgemeinerten gegnerischen neuronalen Netz (GAN) zum Bestimmen eines Fahrzeugbefehls und Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls. Der Befehl in gesprochener Sprache kann vor dem Verarbeiten mit dem GAN in Mel-Frequenzabtastungen transformiert werden. Die Mel-Frequenzabtastungen können jeweils zu einem einzigen Vektor komprimiert werden, indem vor dem Verarbeiten mit dem GAN Mel-Werte entlang einer y-Achse summiert werden. Eine Mel-Frequenzskala ist ein log-Leistungsspektrum von Frequenzen von Befehlen in gesprochener Sprache auf einer nichtlinearen Frequenzskala. Ein erster Schritt beim Verarbeiten der Mel-Frequenzabtastungen mit einem GAN kann darin bestehen, eine ID-Faltung in der X-Richtung durchzuführen, um die Anzahl der Mel-Frequenzabtastungen auf eine Anzahl zu reduzieren, die größer als eins ist. Ein zweiter Schritt beim Verarbeiten der Mel-Frequenzabtastungen mit einem GAN besteht darin, eine 1D-Faltung in der Y-Richtung durchzuführen. Ein dritter Schritt beim Verarbeiten der Mel-Frequenzabtastungen mit einem GAN besteht darin, die Mel-Frequenzabtastungen mit einem neuronalen Netz zu verarbeiten.
  • Die Computereinrichtung kann ferner programmiert sein zum Trainieren des GAN zum Bestimmen von echter oder unechter gesprochener Sprache unter Verwendung einer Vielzahl von aufgezeichneten Befehlen in gesprochener Sprache, Ground Truth, die die aufgezeichneten Befehle in gesprochener Sprache als echt oder unecht identifiziert, und einer auf Ground Truth beruhenden Verlustfunktion. Die Verlustfunktion kann durch Summieren einer Verlustfunktion auf Grundlage einer Ausgabe von einem Diskriminatorabschnitt des GAN mit einer Verlustfunktion auf Grundlage von Ground Truth berechnet werden. Betreiben des Fahrzeugs kann Bestimmen eines Wegpolynoms auf Grundlage des Fahrzeugbefehls beinhalten. Betreiben des Fahrzeugs kann Bestimmen einer kognitiven Karte auf Grundlage von Fahrzeugsensordaten beinhalten. Betreiben des Fahrzeugs kann Bestimmen eines Zielorts auf der kognitiven Karte und Bestimmen eines Wegpolynoms, das ermöglicht, dass das Fahrzeug den Zielort erreicht, beinhalten. Synthetische Sprachdaten können mit einem GAN zum Bestimmen des Hinweises in gesprochener Sprache verarbeitet werden. Der Fahrzeugbefehl kann eine Anforderung von zielgerichtetem Verhalten des Fahrzeugs sein.
  • 1 ist eine Darstellung eines Verkehrsinfrastruktursystems 100, das ein Fahrzeug 110 beinhaltet, das in einem autonomen („autonom“ bedeutet in dieser Offenbarung alleinstehend „vollautonom“) und einem von einem Insassen gesteuerten (auch als nichtautonom bezeichneten) Modus betrieben werden kann. Das Fahrzeug 110 beinhaltet zudem eine oder mehrere Rechenvorrichtungen 115 zum Durchführen von Berechnungen zum Steuern des Fahrzeugs 110 während des autonomen Betriebs. Die Rechenvorrichtung 115 kann von den Sensoren 116 Informationen bezüglich des Betriebs des Fahrzeugs empfangen. Der Rechenvorrichtung 115 kann das Fahrzeug 110 in einem autonomen Modus, einem teilautonomen Modus oder einem nichtautonomen Modus betreiben.
  • Die Rechenvorrichtung 115 beinhaltet einen Prozessor und einen Speicher, wie sie bekannt sind. Ferner beinhaltet der Speicher eine oder mehrere Formen von computerlesbaren Medien und speichert Anweisungen, die durch den Prozessor ausführbar sind, um verschiedene Vorgänge durchzuführen, zu denen die hier offenbarten gehören. Zum Beispiel kann die Rechenvorrichtung 115 Programmierung beinhalten, um eines oder mehrere von Bremsen, Antrieb (z. B. Steuerung der Beschleunigung in dem Fahrzeug 110 durch Steuern von einem oder mehreren von einer Brennkraftmaschine, einem Elektromotor, Hybridmotor usw.), Lenkung, Klimasteuerung, Innen- und/oder Außenleuchten usw. des Fahrzeugs zu betreiben sowie um zu bestimmen, ob und wann die Rechenvorrichtung 115 im Gegensatz zu einem menschlichen Fahrzeugführer derartige Vorgänge steuern soll.
  • Die Rechenvorrichtung 115 kann mehr als eine Rechenvorrichtung beinhalten oder z. B. über einen Fahrzeugkommunikationsbus, wie weiter unten beschrieben, kommunikativ an diese gekoppelt sein, z. B. Steuerungen oder dergleichen, die zum Überwachen und/oder Steuern verschiedener Fahrzeugkomponenten in dem Fahrzeug 110 enthalten sind, z.B. eine Antriebsstrangsteuerung 112, eine Bremssteuerung 113, eine Lenksteuerung 114 usw. Die Rechenvorrichtung 115 ist im Allgemeinen zur Kommunikation in einem Fahrzeugkommunikationsnetz angeordnet, das z. B. einen Bus in dem Fahrzeug 110 beinhaltet, wie etwa einem Controller Area Network (CAN) oder dergleichen; das Netz des Fahrzeugs 110 kann zusätzlich oder alternativ drahtgebundene oder drahtlose Kommunikationsmechanismen beinhalten, wie sie bekannt sind, z. B. Ethernet oder andere Kommunikationsprotokolle.
  • Über das Fahrzeugnetz kann die Rechenvorrichtung 115 Nachrichten an verschiedene Vorrichtungen in dem Fahrzeug übertragen und/oder Nachrichten von den verschiedenen Vorrichtungen empfangen, z. B. Steuerungen, Aktoren, Sensoren usw. einschließlich der Sensoren 116. Alternativ oder zusätzlich kann in Fällen, in denen die Rechenvorrichtung 115 tatsächlich mehrere Vorrichtungen umfasst, das Fahrzeugkommunikationsnetz zur Kommunikation zwischen Vorrichtungen verwendet werden, die in dieser Offenbarung als die Rechenvorrichtung 115 dargestellt sind. Ferner können, wie nachstehend erwähnt, verschiedene Steuerungen oder Sensorelemente wie etwa die Sensoren 116 der Rechenvorrichtung 115 über das Fahrzeugkommunikationsnetz Daten bereitstellen.
  • Zusätzlich kann die Rechenvorrichtung 115 dazu konfiguriert sein, über ein Netz 130, das, wie nachstehend beschrieben, Hardware, Firmware und Software beinhaltet, die ermöglichen, dass die Rechenvorrichtung 115 über ein Netz 130 wie etwa drahtloses Internet (WLAN) oder Mobilfunknetze mit einem entfernten Servercomputer 120 kommuniziert, durch eine Fahrzeug-Infrastruktur-Schnittstelle (F-I-Schnittstelle) 111 mit einem entfernten Servercomputer 120, z. B. einem Cloud-Server, zu kommunizieren. Die F-I-Schnittstelle 111 kann dementsprechend Prozessoren, Speicher, Sender/Empfänger usw. beinhalten, die dazu konfiguriert sind, verschiedene drahtgebundene und/oder drahtlose Netztechnologien zu verwenden, z. B. Mobilfunk, BLUETOOTH® und drahtgebundene und/oder drahtlose Paketnetze. Die Rechenvorrichtung 115 kann zum Kommunizieren mit anderen Fahrzeugen 110 durch die F-I-Schnittstelle 111 unter Verwendung von Fahrzeug-Fahrzeug-(F-F-)Netzen z. B. gemäß dedizierter Nahbereichskommunikation (Dedicated Short Range Communications - DSRC) und/oder dergleichen konfiguriert sein, die z. B. ad hoc zwischen Fahrzeugen 110 in der Nähe gebildet werden oder über infrastrukturbasierte Netze gebildet werden. Die Rechenvorrichtung 115 beinhaltet zudem nichtflüchtigen Speicher, wie er bekannt ist. Die Rechenvorrichtung 115 kann Informationen protokollieren, indem sie die Informationen zum späteren Abrufen und Übertragen über das Fahrzeugkommunikationsnetz und eine Fahrzeug-Infrastruktur-(F-I-)Schnittstelle 111 an einen Servercomputer 120 oder eine mobile Benutzervorrichtung 160 in nichtflüchtigem Speicher speichert.
  • Wie bereits erwähnt, ist in Anweisungen, die in dem Speicher gespeichert sind und durch den Prozessor der Rechenvorrichtung 115 ausgeführt werden können, im Allgemeinen Programmierung zum Betreiben einer oder mehrerer Komponenten des Fahrzeugs 110, z. B. Bremsung, Lenkung, Antrieb usw., ohne Eingriff eines menschlichen Fahrzeugführers enthalten. Unter Verwendung von in der Rechenvorrichtung 115 empfangenen Daten, z. B. der Sensordaten von den Sensoren 116, dem Servercomputer 120 usw., kann die Rechenvorrichtung 115 ohne einen Fahrer zum Betreiben des Fahrzeugs 110 verschiedene Bestimmungen vornehmen und/oder verschiedene Komponenten und/oder Vorgänge des Fahrzeugs 110 steuern. Zum Beispiel kann die Rechenvorrichtung 115 Programmierung beinhalten, um Betriebsverhalten des Fahrzeugs 110 (d.h. physische Manifestationen des Betriebs des Fahrzeugs 110) wie etwa Geschwindigkeit, Beschleunigung, Verzögerung, Lenkung usw. sowie taktisches Verhalten (d. h. Steuerung des Betriebsverhaltens typischerweise auf eine Weise, mit der eine sichere und effiziente Zurücklegung einer Route erreicht werden soll) wie etwa einen Abstand zwischen Fahrzeugen und/oder eine Zeitspanne zwischen Fahrzeugen, einen Spurwechsel, einen Mindestabstand zwischen Fahrzeugen, einen minimalen Linksabbiegeweg, eine Zeit bis zur Ankunft an einem bestimmten Ort und eine minimale Zeit bis zur Ankunft an einer Kreuzung (ohne Ampel) zum Überqueren der Kreuzung zu regulieren.
  • Steuerungen beinhalten im hier verwendeten Sinne des Ausdrucks Rechenvorrichtungen, die typischerweise zum Steuern eines konkreten Fahrzeugteilsystems programmiert sind. Zu Beispielen gehören eine Antriebsstrangsteuerung 112, eine Bremssteuerung 113 und eine Lenksteuerung 114. Eine Steuerung kann eine elektronische Steuereinheit (electronic control unit - ECU) sein, wie sie bekannt ist, die möglicherweise zusätzliche Programmierung beinhaltet, wie hier beschrieben. Die Steuerungen können kommunikativ mit der Rechenvorrichtung 115 verbunden sein und Anweisungen von dieser empfangen, um das Teilsystem gemäß den Anweisungen zu betätigen. Zum Beispiel kann die Bremssteuerung 113 Anweisungen zum Betreiben der Bremsen des Fahrzeugs 110 von der Rechenvorrichtung 115 empfangen.
  • Die eine oder mehreren Steuerungen 112, 113, 114 für das Fahrzeug 110 können bekannte elektronische Steuereinheiten (ECUs) oder dergleichen beinhalten, zu denen als nicht einschränkende Beispiele eine oder mehrere Antriebsstrangsteuerungen 112, eine oder mehrere Bremssteuerungen 113 und eine oder mehrere Lenksteuerungen 114 gehören. Jede der Steuerungen 112, 113, 114 kann jeweilige Prozessoren und Speicher und einen oder mehrere Aktoren beinhalten. Die Steuerungen 112, 113, 114 können mit einem Kommunikationsbus des Fahrzeugs 110 programmiert und verbunden sein, wie etwa einem Controller-Area-Network-(CAN-)Bus oder Local-Interconnect-Network-(LIN-)Bus, um Anweisungen von dem Computer 115 zu empfangen und Aktoren auf Grundlage der Anweisungen zu steuern.
  • Zu den Sensoren 116 können vielfältige Vorrichtungen gehören, die bekanntlich Daten über den Fahrzeugkommunikationsbus bereitstellen. Zum Beispiel kann ein Radar, das an einer Frontstoßstange (nicht gezeigt) des Fahrzeugs 110 befestigt ist, einen Abstand von dem Fahrzeug 110 zu einem nächsten Fahrzeug vor dem Fahrzeug 110 bereitstellen oder ein Sensor eines globalen Positionsbestimmungssystems (GPS), der in dem Fahrzeug 110 angeordnet ist, geografische Koordinaten des Fahrzeugs 110 bereitstellen. Der bzw. die durch das Radar und/oder die anderen Sensoren 116 bereitgestellte(n) Abstand bzw. Abstände und/oder die durch den GPS-Sensor bereitgestellten geografischen Koordinaten können durch die Rechenvorrichtung 115 verwendet werden, um das Fahrzeug 110 autonom oder teilautonom zu betreiben.
  • Das Fahrzeug 110 ist im Allgemeinen ein landbasiertes Fahrzeug 110, das zu einem autonomen und/oder teilautonomen Betrieb in der Lage ist und drei oder mehr Räder aufweist, z. B. ein Personenkraftwagen, ein Leichtlastkraftwagen usw. Das Fahrzeug 110 beinhaltet einen oder mehrere Sensoren 116, die F-I-Schnittstelle 111, die Rechenvorrichtung 115 und eine oder mehrere Steuerungen 112, 113, 114. Die Sensoren 116 können Daten in Bezug auf das Fahrzeug 110 und die Umgebung, in der das Fahrzeug 110 betrieben wird, erheben. Beispielsweise und nicht einschränkend können zu den Sensoren 116 z. B. Höhenmesser, Kameras, LIDAR, Radar, Ultraschallsensoren, Infrarotsensoren, Drucksensoren, Beschleunigungsmesser, Gyroskope, Temperatursensoren, Drucksensoren, Hall-Sensoren, optische Sensoren, Spannungssensoren, Stromsensoren, mechanische Sensoren wie etwa Schalter usw. gehören. Die Sensoren 116 können dazu verwendet werden, die Umgebung zu erfassen, in der das Fahrzeug 110 betrieben wird, z. B. können die Sensoren 116 Phänomene wie etwa Wetterbedingungen (Niederschlag, externe Umgebungstemperatur usw.), die Neigung einer Straße, die Lage einer Straße (z. B. unter Verwendung von Straßenrändern, Spurmarkierungen usw.) oder Standorte von Zielobjekten wie etwa benachbarten Fahrzeugen 110 detektieren. Die Sensoren 116 können ferner dazu verwendet werden, Daten zu erheben, zu denen dynamische Daten des Fahrzeugs 110 in Bezug auf Vorgänge des Fahrzeugs 110 wie etwa Geschwindigkeit, Gierrate, Lenkwinkel, Motordrehzahl, Bremsdruck, Öldruck, der an die Steuerungen 112, 113, 114 in dem Fahrzeug 110 angelegte Leistungspegel, Konnektivität zwischen Komponenten und genaue und rechtzeitige Leistung von Komponenten des Fahrzeugs 110 gehören.
  • 2 ist eine Darstellung einer beispielhaften Verkehrsszene 200, die ein Fahrzeug 110 beinhaltet, das auf einer Fahrbahn 202 in einer Spur 204 betrieben wird. Der Betrieb des Fahrzeugs 110 kann durch ein Wegpolynom 210 dargestellt werden. Ein Fahrzeugvektor ist eine Sammlung von Datenwerten, die den Standort, die Position und die Bewegung eines Fahrzeugs einschließlich einer Fahrzeugtrajektorie beschreiben, wobei die Fahrzeugtrajektorie eine Fahrzeug-3D-Stellung und eine Fahrzeug-3D-Beschleunigung beinhaltet, wobei eine 3D-Stellung x-, y- und z-Positionskoordinaten und Roll-, Nick- und Gier-Drehkoordinaten in Bezug auf ein Koordinatensystem wie etwa Breite, Länge und Höhe beinhaltet und die 3D-Beschleunigung Beschleunigungen in linearen x-, y- und z-Richtungen und Roll-, Nick- und Gier-Drehrichtungen beinhaltet. Ein Wegpolynom ist eine Polynomfunktion dritten oder geringeren Grads, die zu einem Fahrzeugvektor berechnet wird, der geschätzte oder vorhergesagte Fahrzeugtrajektorien beinhaltet. Ein Wegpolynom kann Fahrzeugtrajektorien einschließlich Standort, Geschwindigkeit und Richtung des Fahrzeugs zum Beispiel auf Grundlage eines aktuellen Fahrzeugstandorts und Zielorts schätzen oder vorhersagen. Zu Berechnungszwecken können 3D-Fahrzeugtrajektoriedaten als 2D-Ort in einer Ebene parallel zu einer Fahrbahn, 2D-Richtung in der Ebene, Geschwindigkeit in 2D-Richtung und Quer- und Längsbeschleunigung in Bezug auf die 2D-Richtung eines Fahrzeugs 110 ausgedrückt werden. Die Rechenvorrichtung 115 in dem Fahrzeug 110 kann ein Wegpolynom durch Schätzen zukünftiger Trajektorien für das Fahrzeug 110 bestimmen. Die zukünftigen Trajektorien können auf Grundlage eines bestimmten Zielorts oder Orts eines Ziels in der Verkehrsszene 200 geschätzt werden und dann auf Grundlage dessen, dass eine Abfolge von Orten bestimmt wird, die den Zielort oder das Ziel mit einer Sollgeschwindigkeit erreichen, während die Querbeschleunigung (Gierrate) und Längsbeschleunigung (x) aufgrund von Lenkung, Bremsung und Antriebsstrang auf Benutzereingabegrenzen begrenzt werden. Die Rechenvorrichtung 115 kann dann das Wegpolynom dazu verwenden, Befehle für die Steuerungen 112, 113, 114 zu bestimmen, um zu bewirken, dass der Antriebsstrang, die Lenkung und die Bremsung des Fahrzeugs auf Grundlage dessen betrieben werden, dass die Befehle auf ein mathematisches Modell des Fahrzeugs 110 angewendet werden, das das Verhalten des Fahrzeugs 110 vorhersagt, und Befehle ausgewählt werden, die dazu führen, dass das Fahrzeug 110 entlang des Wegpolynoms betrieben wird.
  • In der beispielhaften Verkehrsszene 200 ist ein anderes Fahrzeug 208 enthalten, das auf der Fahrbahn 202 betrieben wird. In diesem Beispiel kann das Fahrzeug 110 mit einer höheren Geschwindigkeit als ein anderes Fahrzeug 208 fahren. Falls das Fahrzeug 110 seine Trajektorie, die Geschwindigkeit und Richtung beinhaltet, nicht ändert, kann sich ein Zusammenstoß oder Beinahezusammenstoß mit einem anderen Fahrzeug 208 ereignen. In diesem Beispiel kann sich das Fahrzeug 110 verlangsamen, um im Wesentlichen der Geschwindigkeit eines anderen Fahrzeugs 208 zu entsprechen, oder kann ein Spurwechselmanöver (d. h. zum Überholen) durchführen, das durch das Wegpolynom 210 veranschaulicht ist. Die Rechenvorrichtung 115 kann dazu programmiert sein, zu bestimmen, wie auf diese Situation zu reagieren ist, entweder durch Verlangsamen, um dem Verkehr zu entsprechen, oder Überholen eines anderen Fahrzeugs 208 auf Grundlage der Daten des Sensors 116 des Fahrzeugs 110, und eine Antwort in Abhängigkeit von einem zuvor bestimmten Satz von Kriterien auszuwählen, der auf Benutzereingaben beruht und in dem Speicher der Rechenvorrichtung 115 gespeichert ist. Diese Kriterien können in eine regelbasierte Zustandsmaschine eingegeben werden, die durch die Rechenvorrichtung 115 verwendet werden kann, um Entscheidungen bezüglich Verkehrssituationen zu treffen. Falls zum Beispiel die Sensoren 116 des Fahrzeugs 110 angeben, dass kein Verkehr auf der benachbarten Spur 206 vorhanden ist, kann die Rechenvorrichtung 115 die Geschwindigkeit des Fahrzeugs 110 aufrechterhalten, indem ein Spurwechselmanöver ausgeführt wird, wie es durch das Wegpolynom 210 veranschaulicht ist. Falls die Sensoren 116 des Fahrzeugs 110 angeben, dass die benachbarte Spur 206 durch andere Fahrzeuge belegt ist, kann die Rechenvorrichtung 115 dem Fahrzeug 110 befehlen, auf der Spur 204 zu bleiben und langsamer zu fahren, um einen Mindestabstand von einem anderen Fahrzeug 208 einzuhalten. Unter Verwendung der hier erörterten Techniken wird der Betrieb des Fahrzeugs 110 dadurch verbessert, dass die Rechenvorrichtung 115 Hinweise in gesprochener Sprache synthetisiert und emittiert und Antworten in gesprochener Sprache empfängt und interpretiert und dadurch bestimmt, welche Aktion bezüglich Verkehrssituationen auszuführen ist, anstatt sich mindestens vollständig auf zuvor bestimmte Kriterien zu stützen.
  • 3 ist eine Darstellung eines beispielhaften neuronalen Netzes (NN) 300. Das NN 300 kann durch die Rechenvorrichtung 115 verwendet werden, um Hinweise in gesprochener Sprache zu synthetisieren und Antworten in gesprochener Sprache zu interpretieren, indem Mel-Frequenzdaten 302 verarbeitet werden, die Audiospektrumdaten 310 gesprochener Sprache sind, die mit einer log-Leistungstransformation transformiert worden sind, wobei Transformationsergebnisse auf einer nichtlinearen Mel-Frequenzskala codiert werden, wobei die Mel-Skala eine log-basierte Skala ist, die die menschliche Hörreaktion approximiert. Synthetische Hinweise in gesprochener Sprache können als Mel-Frequenzdaten 302 gespeichert und verarbeitet werden, da Mel-Frequenzdaten 302 Audiodaten mit einer Reduktion der Speichergröße von mehr als 90 % im Vergleich zu Audiospektrumdaten 310 darstellen können. Synthetische Hinweise in gesprochener Sprache können in dem Speicher der Rechenvorrichtung 115 als Mel-Frequenzdaten 302 gespeichert und durch das NN 300 verarbeitet werden, um Audiospektrumdaten 310 zu erzeugen, die durch die Rechenvorrichtung mit einem zweckmäßigen Audiosystem, zum Beispiel Audioverstärkern und Lautsprechern, ausgegeben werden können, um einen Hinweis in gesprochener Sprache zu emittieren, den ein Insasse in oder nahe dem Fahrzeug 110 hören kann. Synthetische Hinweise in gesprochener Sprache sind Hinweise in gesprochener Sprache, die durch die Rechenvorrichtung 115 unter Verwendung von Technologie für computergenerierte Sprache generiert werden.
  • Das NN 330 beinhaltet eine Faltungsfilterbank (convolutional filter bank - CFB) 304 und ein bidirektionales langes Kurzzeitgedächtnis (bidirectional long short-term memory - BLSTM) 308. Das NN 308 kann auf einem rekurrenten neuronalen Netz zum Verarbeiten von Audiosignalen beruhen, das als CBHG-Netz bezeichnet wird und von GOOGLE™, Mountain View, Kalifornien, erhältlich ist. Das NN 330 kann Mel-Frequenzdaten 302 eingeben und Audiospektrumdaten 310 ausgeben, die gesprochener Sprache entsprechen, die in den Mel-Frequenzdaten 302 codiert ist. Die Mel-Frequenzdaten 302 sind eine Folge eindimensionaler Vektorgrößen mit einer Anzahl von Einträgen, die geringer ist als die Anzahl von Einträgen in einer entsprechenden Audiospektrumabtastung. In diesem Beispiel können die Mel-Frequenzdaten 302 etwa 80 Einträge pro eindimensionalem Vektor weisen. Die Mel-Frequenzdaten 302 können bestimmt werden, indem die Rechenvorrichtung 115 Text, der gesprochene Sprache darstellt, in Mel-Frequenzdaten 302 umwandelt. Text, der gesprochene Sprache darstellt, kann auf Grundlage von zuvor bestimmten Regeln, die Mel-Frequenzdaten 302 bestimmen, die einem bestimmten Teil von Text entsprechen, in Mel-Frequenzdaten 302 umgewandelt werden. Diese Regeln können zuvor bestimmt werden, indem Text mit Audiospektrumdaten 310 abgeglichen wird, die dem Klang des laut gesprochenen Textes entsprechen, und dann die Audiospektrumdaten 310 transformiert werden, um die Mel-Frequenzdaten 302 zu bestimmen, die den Audiospektrumdaten 310 entsprechen. Die Mel-Frequenzdaten 302 können in dem Speicher der Rechenvorrichtung 115 gespeichert werden, der gemäß dem entsprechenden Text indexiert ist, und auf Grundlage des Textes abgerufen werden.
  • Die CFB 304 gibt Mel-Frequenzdaten 302 ein und führt eindimensionale Faltungen durch, um in den Mel-Frequenzdaten 302 vorhandene Kontextinformationen zu modellieren. Die Mel-Frequenzdaten 302 werden durch die CFB 304 gefiltert, um zum Beispiel die zeitliche Korrelation zwischen den Abtastungen der Mel-Frequenzdaten 302 zu verstärken. Ein Phonem ist eine Grundeinheit von gesprochener Sprache. Gesprochene Sprache kann als ein Strom von Phonemen angesehen werden, bei dem Tonhöhe, Lautstärke und Klang jedes Phonems durch die Phoneme um dieses herum im Strom gesprochener Sprache beeinflusst werden. Da die Mel-Frequenzdaten 302 auf transformierten Phonemen beruhen, kann das Filtern der Mel-Frequenzdaten 302 in der zeitlichen Richtung (x) die Mel-Frequenzdaten 302 mit Kontext versorgen, um die Mel-Frequenzdaten 302 in modifizierte Mel-Frequenzdaten 306 zu transformieren, die lokale und kontextbezogene Informationen beinhalten, die explizit durch die CFB 304 modelliert wurden.
  • Die modifizierten Mel-Frequenzdaten 306 werden zur Umwandlung in Audiospektrumdaten 310 an das BLSTM 308 ausgegeben. Das BLSTM 308 ist ein Beispiel für ein rekurrentes neuronales Netz, bei dem Rechenknoten miteinander verbunden sind, um einen gerichteten Graphen zu bilden, und Informationen in vorgegebenen Richtungen zwischen Rechenknoten wandern, damit das BLSTM 308 Zeitdaten verarbeiten kann. Das BLSTM 308 verarbeitet die modifizierten Mel-Frequenzdaten 306 als zeitliche Daten, wobei ein Ort der Daten in dem Datenstrom auf eine Zeitfolge hinweist, in der die Daten auftreten, wie die modifizierten Mel-Frequenzdaten 306. Verarbeitungsknoten des BLSTM 308 können vorherige Ergebnisse speichern und abrufen und sie auf aktuelle Daten anwenden. Dies ermöglicht, dass das BLSTM 308 zeitliche Daten wie die modifizierten Mel-Frequenzdaten 306 verarbeitet, indem Daten aus einem aktuellen Vektor für die modifizierten Mel-Frequenzdaten 306 mit Daten aus Vektoren für die modifizierten Mel-Frequenzdaten 306 kombiniert werden, die vor und nach den aktuellen modifizierten Mel-Frequenzdaten 306 auftreten.
  • Die von dem NN 300 ausgegebenen Audiospektrumdaten 310 liegen in Form eines Leistungsspektrums vor, wobei die Audiospektrumdaten 310 gleich dem Absolutwert oder dem Quadrat einer zugrundeliegenden Audiowellenform sind. Die Audiospektrumdaten 310 können durch die Rechenvorrichtung 115 unter Verwendung einer Griffin-Lim-Transformation in eine Audiowellenform transformiert werden. Eine Griffin-Lim-Transformation transformiert Leistungsspektrumdaten wie die Audiospektrumdaten 310 in Audiowellenformen, die durch ein Audiosystem eines Fahrzeugs emittiert werden können, um gesprochene Sprache unter Verwendung von Kurzzeit-Fourier-Transformationen zu reproduzieren, um Phaseninformationen für die Audiospektrumdaten 310 aus Eingangssignalen zu bestimmen und dadurch zu ermöglichen, dass die Rechenvorrichtung 115 die Audiospektrumdaten 310 in Audiowellenformen zur Ausgabe als Hinweis in gesprochener Sprache transformiert.
  • 4 ist eine Darstellung eines beispielhaften verallgemeinerten gegnerischen Netzes (GAN) 400. Das GAN 400 beinhaltet einen Generator NN 300 und einen Diskriminator DIS 412. Ein GAN 400 wird verwendet, um das NN 300 zu trainieren, indem eine Verlustfunktion 414 als Rückkopplung bestimmt wird, die gemeinsam mit den Mel-Frequenzdaten 302 zur Trainingszeit in das NN 300 einzugeben ist. Ein GAN 400 klassifiziert die ausgegebenen Audiospektrumdaten 310 von dem NN 300 entweder als „wahr“, was bedeutet, dass die Audiospektrumdaten 310 gesprochene Sprache sind, oder als „falsch“, was bedeutet, dass die Audiospektrumdaten 310 keine gesprochene Sprache sind. Die von dem NN 330 als Reaktion auf die Eingabe der Mel-Frequenzdaten 302 ausgegebenen Audiospektrumdaten 310 werden in den DIS 412 eingegeben, um eine Ein-Bit-Größe (wahr/falsch) zu bestimmen, die als Verlustfunktion 414 zum Trainieren des NN 300 verwendet werden kann. Während des Trainierens ist die Verlustfunktion 414 eine Rückkopplung zu dem NN 300, die mit der Eingabe 302 gemäß der nachstehenden Gleichung (2) zu kombinieren ist, um die Verstärkungs- und Biasparameter für Rechenknoten (Neuronen) des NN 300 positiv oder negativ zu verstärken, die Audiospektrumdaten 310 erzeugen, und dadurch das NN 300 zu trainieren. In diesem Beispiel sind das NN 300 und das GAN 412 als Generator und Diskriminator eines verallgemeinerten gegnerischen Netzes konfiguriert, wobei der Generator und der Diskriminator dadurch trainiert werden, dass der Generator Audioabtastungen erzeugt und der Diskriminator die Abtastungen durch Ausgeben einer Ein-Bit-Größe (wahr/falsch) als echt oder unecht klassifiziert. Der Generator kann Audioabtastungen auf Grundlage von eingegebenen Mel-Frequenzdaten 302 erzeugen. Den Mel-Frequenzdaten 302 kann Ground Truth beigefügt sein, wobei es sich um Audioabtastungen handelt, die den Mel-Frequenzdaten 302 entsprechen, die durch eine Benutzereingabe bestimmt worden sind, z. B. kann ein menschlicher Zuhörer die durch den Generator des NN 300 erzeugten Audioabtastungen anhören und bestimmen, ob sie „echt“ oder „unecht“ sind. Die Ergebnisse des Bewertens der Audioabtastungen durch menschliche Benutzereingaben sind die Ground Truth, die den Mel-Frequenzdaten 302 entspricht, und werden zur Trainingszeit in das NN 300 eingegeben.
  • Die Verlustfunktion 414 kann mit auf Ground Truth beruhenden Verlustfunktionen L1 kombiniert werden. Die auf Ground Truth beruhende Verlustfunktion L1 klassifiziert die Audiospektrumdaten 300 als „echt“, was bedeutet, dass ein menschlicher Zuhörer, der eine Audiowellenform auf Grundlage der Audiospektrumdaten 300 hört, glauben würde, dass es sich um gesprochene Sprache handelt, oder als „unecht“, falls ein menschlicher Zuhörer glauben würde, dass es sich nicht um gesprochene Sprache handelt. Ground Truth sind Daten, die unter Verwendung von Mitteln erlangt und verarbeitet worden sind, die unabhängig von den zu trainierenden Mitteln sind, in diesem Beispiel dem NN 300. Zum Beispiel können auf Ground Truth beruhende Verlustfunktionen bestimmt werden, indem die Audiospektrumdaten 300 in eine Audiowellenform umgewandelt werden, die Audiowellenform verstärkt wird und sie durch Lautsprecher einer Vielzahl von menschlichen Zuhörern vorgespielt wird und die Verlustfunktion L1 (wahr/falsch) auf Grundlage von statistischer Analyse der Meinungen der Vielzahl von menschlichen Zuhörern bestimmt wird. Hier offenbarte Techniken verbessern das Trainieren des NN 300 durch Bereitstellen der Verlustfunktion 414 zusätzlich zu der Verlustfunktion L1, die die Verlustfunktion 414 in Beispielen bereitstellen kann, in denen die Audiospektrumdaten 310 nicht in dem Trainingssatz für die Verlustfunktion L, L2 enthalten waren, wodurch sie zum Beispiel fehlen.
  • 5 ist eine Darstellung des DIS 412 einschließlich des vollständig verbundenen neuronalen Netzes in der y-Richtung FCY 516, der eindimensionalen Faltung in der x-Richtung 1DX und des neuronalen Faltungsnetzes CNN 524. Diese Architektur ermöglicht es, die Audiospektrumdaten 310 zu verarbeiten, um die Verlustfunktion 414 zu erzeugen, indem die Audiospektrumdaten 310 als nur in der Zeitrichtung (x) translationsinvariant verarbeitet werden. Faltungen sind daher nur in der x-Richtung zulässig. Die Frequenzrichtung (y) muss separat als eindimensionale Kanäle behandelt werden. Die Anzahl von Filtern wird in den Faltungsschichten des Diskriminators erhöht, um mehr Merkmale bei erhöhten Rechenkosten zu erlernen. Da in diesem Beispiel die Anzahl der energiehaltigen Abschnitte in dem Spektrogramm erheblich kleiner als die Größe des Spektrogramms ist, kann die Abschnittsgröße in der y-Richtung durch vollständig verbundene Schichten des FCY 516 minimiert werden. Die vertikale Dimension des komprimierten Audiospektrums 518 wird von den eingegebenen Audiospektrumdaten 310 reduziert, bleibt jedoch größer als eins. Hier beschriebene Techniken verbessern die Berechnung der Verlustfunktion 414, indem ermöglicht wird, dass der Diskriminator DIS 412 eine ausreichend umfangreiche Beschreibung von Merkmalen aufweist, während zudem die Berechnungskosten im Vergleich zur Verwendung des ursprünglichen unkomprimierten Spektrogramms reduziert werden.
  • Die 1DX 520 filtert die komprimierten Audiospektrumdaten 518, um gefilterte Audiospektrumdaten 522 zu bilden. Das Filtern der Audiospektrumdaten 518 kann Signalrauschen entfernen und dadurch die Audiospektrumdaten 518 verbessern. Die gefilterten Audiospektrumdaten 522 werden an das CNN 524 weitergeleitet, wo das gefilterte Audiospektrum durch Faltungsschichten und Pooling-Schichten des CNN 524 verarbeitet wird, bevor es durch vollständig verbundene Schichten des CNN 524 verarbeitet wird, um eine Verlustfunktion zu bestimmen: L G A N = E x p e c h t log [ D i s ( x ) ] + E x p u n e c h t log [ 1 D i s ( x ) ]
    Figure DE102019124155A1_0001
    wobei die Verlustfunktion LGAN auf Grundlage einer erwarteten log-Wahrscheinlichkeit Ex~p echt dafür, dass die Ausgabe des CNN 524 Dis(x) wahr ist, oder einer erwarteten log-Wahrscheinlichkeit Ex~p unecht dafür, dass die Ausgabe des CNN 524 Dis(x) falsch ist, bestimmt wird. Um das NN 300 zu trainieren, wird die „i“-te Schicht des CNN 524 verwendet, um den Unterschied zwischen echten und unechten Abtastungen zu vergleichen. Die Verlustfunktion LNN kann folgendermaßen geschrieben werden: L N N = L 1 ( D i s i ( x e c h t ) , D i s i ( x u n e c h t ) ) + θ L 1 ( x e c h t , x u n e c h t )
    Figure DE102019124155A1_0002
    wobei θ ein Abstimmungsparameter ist, der es ermöglicht, dass ein Teil der auf Ground Truth beruhenden Verlustfunktion L1 beibehalten wird, und auf Benutzereingaben beruht, xecht. xunecht echte und unechte Abtastungen sind, die durch Ground Truth bestimmt werden, und Disti die Ausgangsfunktion der „i“-ten Schicht des CNN 524 ist, wobei Ground Truth durch menschliche Benutzereingaben bestimmt wird, wie vorstehend erörtert.
  • 6 ist eine Darstellung eines Ablaufdiagramms, das in Bezug auf 1-6 beschrieben ist, eines Verfahrens 600 zum Betreiben eines Fahrzeugs auf Grundlage von Fahrzeugbefehlen auf Grundlage von Befehlen in gesprochener Sprache als Reaktion auf einen Hinweis in gesprochener Sprache. Der Prozess 600 kann durch einen Prozessor der Rechenvorrichtung 115 umgesetzt werden, wobei zum Beispiel Informationen von den Sensoren 116 als Eingabe herangezogen werden und Befehle ausgeführt und Steuersignale über die Steuerungen 112, 113, 114 gesendet werden. Der Prozess 600 beinhaltet mehrere Blöcke, die in der offenbarten Reihenfolge ausgeführt werden. Der Prozess 600 beinhaltet zudem Umsetzungen, die weniger Blöcke beinhalten oder die Blöcke in anderen Reihenfolgen beinhalten können.
  • Der Prozess 600 beginnt bei Block 602, wo eine Rechenvorrichtung 115 in einem Fahrzeug 110 einen Befehl in gesprochener Sprache als Antwort auf einen Hinweis in gesprochener Sprache empfängt. Sowohl der Befehl in gesprochener Sprache als auch der Hinweis in gesprochener Sprache können durch die Rechenvorrichtung 115 unter Verwendung eines neuronalen Netzes (NN) 300 verarbeitet werden. Das NN 300 kann trainiert werden, indem das NN 300 in ein verallgemeinertes neuronales Netz (GAN) 400 eingeschlossen wird, wie vorstehend in Bezug auf 3-5 erörtert. Ein Hinweis in gesprochener Sprache kann durch ein in einem Fahrzeug 110 enthaltenes Audiosystem (Verstärker und Lautsprecher) emittiert werden. Die Antwort, die durch die Rechenvorrichtung 115 empfangen wird, kann ein gesprochener Befehl sein, der durch einen Menschen oder eine Rechenvorrichtung gesprochen wird. Der Hinweis in gesprochener Sprache kann eine Anforderung von Informationen oder Anleitung von der Rechenvorrichtung 115 sein und der Befehl in gesprochener Sprache kann eine Antwort auf den Hinweis in gesprochener Sprache sein. Zum Beispiel kann in der Verkehrsszene 200 aus 2 die Rechenvorrichtung 115 in dem Fahrzeug 110 einen Insassen des Fahrzeugs 110 mit dem Hinweis in gesprochener Sprache „Sollen wir langsamer fahren oder überholen?“ zu einer Eingabe auffordern. Eine Antwort auf den Hinweis in gesprochener Sprache kann zum Beispiel der Befehl in gesprochener Sprache „Überholen“ sein, wobei die Rechenvorrichtung 115 auf Grundlage der Eingabe eines Befehls in gesprochener Sprache „Überholen“ einen Fahrzeugbefehl bestimmen kann, der einem Spurwechselmanöver entspricht.
  • Bei Block 604 kann die Rechenvorrichtung 115 das NN 300 dazu verwenden, eine Reihe von Mel-Frequenzabtastungen zu verarbeiten, die gebräuchlich gesprochenen Befehlen entsprechen. Wenn ein Befehl in gesprochener Sprache empfangen wird, kann die Rechenvorrichtung die Audiowellenform unter Verwendung von nichtlinearen Fourier-Transformationen in Mel-Frequenzdaten 302 transformieren, wie vorstehend in Bezug auf 3 erörtert. Unter Verwendung eines GAN 400 kann die Rechenvorrichtung 115 bestimmen, ob die Mel-Frequenzdaten 302 nicht gesprochener Sprache entsprechen und daher nicht weiterverarbeitet werden sollten oder ob die Mel-Frequenzdaten 302 gesprochener Sprache entsprechen und daher verarbeitet werden sollten, um zu bestimmen, ob die gesprochene Sprache einem Fahrzeugbefehl entspricht. Die Mel-Frequenzdaten 302 können zum Beispiel mit einem tiefen neuronalen Netz verarbeitet werden, das dazu trainiert ist, Fahrzeugbefehle in den Mel-Frequenzdaten 302 zu identifizieren, oder mit einer regelbasierten Zustandsmaschine verarbeitet werden, die dazu programmiert ist, Schlüsselwörter oder Kombinationen von Schlüsselwörtern in Mel-Frequenzdaten 302 zu detektieren.
  • Bei Block 606 verarbeitet die Rechenvorrichtung 115 den bei Block 604 bestimmten Fahrzeugbefehl, um das Fahrzeug 110 auf Grundlage des Fahrzeugbefehls zu betreiben. Die Rechenvorrichtung kann ein Wegpolynom 210, wie es in 2 veranschaulicht ist, auf Grundlage des Fahrzeugbefehls bestimmen. In der Verkehrsszene 200 in 2 kann der Fahrzeugbefehl „Spurwechselmanöver ausführen“ in das Wegpolynom 210 transformiert werden, indem ein Zielort in der Spur 206 ausgewählt wird und die Quer- und Längsbeschleunigungen und Fahrzeuggeschwindigkeiten bestimmt werden, die erforderlich sind, um das Fahrzeug 110 auf einem Wegpolynom 210 zu betreiben, das an einem Zielort endet, wobei das Fahrzeug 110 eine Sollgeschwindigkeit und -richtung beibehält, während es zum Beispiel innerhalb unterer und oberer Beschleunigungsgrenzwerte bleibt, d. h. die Rechenvorrichtung 115 kann für sogenanntes zielgerichtetes Verhalten programmiert sein. Die Rechenvorrichtung 115 kann dann Befehle an die Steuerungen 112, 113, 114 emittieren, um Antriebsstrang, Lenkung und Bremsung des Fahrzeugs 110 zu steuern, um zu bewirken, dass das Fahrzeug 110 entlang des Wegpolynoms 210 betrieben wird. Im Anschluss an Block 608 endet der Prozess 600.
  • Rechenvorrichtungen, wie etwa die hier erörterten, beinhalten im Allgemeinen jeweils Befehle, die durch eine oder mehrere Rechenvorrichtungen, wie etwa die vorstehend genannten, und zum Ausführen von Blöcken oder Schritten von vorstehend beschriebenen Prozessen ausführbar sind. Zum Beispiel können die vorstehend erörterten Prozessblöcke als computerausführbare Befehle ausgeführt sein.
  • Computerausführbare Befehle können von Computerprogrammen zusammengestellt oder ausgewertet werden, die unter Verwendung vielfältiger Programmiersprachen und/oder -technologien erstellt worden sind, einschließlich unter anderem und entweder für sich oder in Kombination Java™, C, C++, Visual Basic, Java Script, Perl, HTML usw. Im Allgemeinen empfängt ein Prozessor (z. B. ein Mikroprozessor) Befehle z. B. von einem Speicher, einem computerlesbaren Medium usw. und führt diese Befehle aus, wodurch er einen oder mehrere Prozesse einschließlich eines oder mehrerer der hier beschriebenen Prozesse durchführt. Derartige Befehle und andere Daten können in Dateien gespeichert und unter Verwendung vielfältiger computerlesbarer Medien übertragen werden. Eine Datei in einer Rechenvorrichtung ist im Allgemeinen eine Sammlung von Daten, die auf einem computerlesbaren Medium, wie etwa einem Speichermedium, einem Direktzugriffsspeicher usw., gespeichert sind.
  • Ein computerlesbares Medium beinhaltet ein beliebiges Medium, das am Bereitstellen von Daten (z. B. Befehlen) beteiligt ist, die durch einen Computer ausgelesen werden können. Ein derartiges Medium kann viele Formen annehmen, einschließlich unter anderem nichtflüchtiger Medien, flüchtiger Medien usw. Zu nichtflüchtigen Medien gehören zum Beispiel optische Platten oder Magnetplatten und andere dauerhafte Speicher. Zu flüchtigen Medien gehört ein dynamischer Direktzugriffsspeicher (dynamic random access memory - DRAM), der typischerweise einen Hauptspeicher darstellt. Zu gängigen Formen computerlesbarer Medien gehören zum Beispiel eine Diskette, eine Folienspeicherplatte, eine Festplatte, ein Magnetband, ein beliebiges anderes magnetisches Medium, eine CD-ROM, eine DVD, ein beliebiges anderes optisches Medium, Lochkarten, Lochstreifen, ein beliebiges anderes physisches Medium mit Lochmustern, ein RAM, ein PROM, ein EPROM, ein FLASH-EEPROM, ein beliebiger anderer Speicherchip oder eine beliebige andere Speicherkassette oder ein beliebiges anderes Medium, das durch einen Computer ausgelesen werden kann.
  • Allen in den Patentansprüchen verwendeten Ausdrücken soll deren allgemeine und gewöhnliche Bedeutung zukommen, wie sie vom Fachmann verstanden wird, sofern nicht ausdrücklich etwas anderes angegeben ist. Insbesondere ist die Verwendung der Singularartikel wie etwa „ein“, „eine“, „der“, „die“, „das“ usw. dahingehend auszulegen, dass eines oder mehrere der aufgeführten Elemente genannt wird bzw. werden, es sei denn, ein Patentanspruch enthält ausdrücklich eine gegenteilige Einschränkung.
  • Der Ausdruck „beispielhaft“ wird hier in dem Sinne verwendet, dass er ein Beispiel angibt, z. B. sollte ein Verweis auf eine „beispielhafte Vorrichtung“ einfach als Bezugnahme auf ein Beispiel für eine Vorrichtung gelesen werden.
  • Das einen Wert oder ein Ergebnis modifizierende Adverb „ungefähr“ bedeutet, dass eine Form, eine Struktur, ein Messwert, ein Wert, eine Bestimmung, eine Berechnung usw. von einer bzw. einem genau beschriebenen Geometrie, Abstand, Messwert, Wert, Bestimmung, Berechnung usw. aufgrund von Mängeln hinsichtlich Materialien, Bearbeitung, Herstellung, Sensormessungen, Berechnungen, Verarbeitungszeit, Kommunikationszeit usw. abweichen kann.
  • In den Zeichnungen geben die gleichen Bezugszeichen die gleichen Elemente an. Ferner könnten einige oder alle dieser Elemente geändert werden. Hinsichtlich der hier beschriebenen Medien, Prozesse, Systeme, Verfahren usw. versteht es sich, dass die Schritte oder Blöcke derartiger Prozesse usw. zwar als gemäß einer bestimmten Abfolge erfolgend beschrieben worden sind, derartige Prozesse jedoch so umgesetzt werden könnten, dass die beschriebenen Schritte in einer anderen Reihenfolge als der hier beschriebenen Reihenfolge durchgeführt werden. Es versteht sich ferner, dass gewisse Schritte gleichzeitig durchgeführt, andere Schritte hinzugefügt oder gewisse hier beschriebene Schritte weggelassen werden könnten. Mit anderen Worten dienen die Beschreibungen von Prozessen in dieser Schrift der Veranschaulichung bestimmter Ausführungsformen und sollten keinesfalls dahingehend ausgelegt werden, dass sie die beanspruchte Erfindung einschränken.
  • Gemäß der vorliegenden Erfindung beinhaltet ein Verfahren Folgendes: Empfangen eines Befehls in gesprochener Sprache als Reaktion auf Emittieren eines Hinweises in gesprochener Sprache; Verarbeiten des Befehls in gesprochener Sprache mit einem verallgemeinerten gegnerischen neuronalen Netz (GAN) zum Bestimmen eines Fahrzeugbefehls; und Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls.
  • Gemäß einer Ausführungsform ist die Erfindung ferner gekennzeichnet durch Transformieren des Befehls in gesprochener Sprache in Mel-Frequenzabtastungen vor dem Verarbeiten mit dem GAN.
  • Gemäß einer Ausführungsform werden die Mel-Frequenzabtastungen jeweils zu einem einzigen Vektor komprimiert, indem vor dem Verarbeiten mit dem GAN Mel-Werte entlang einer y-Achse gefaltet werden.
  • Gemäß einer Ausführungsform ist eine Mel-Frequenzskala ein log-Leistungsspektrum von Frequenzen von Befehlen in gesprochener Sprache auf einer nichtlinearen Frequenzskala.
  • Gemäß einer Ausführungsform ist die Erfindung ferner gekennzeichnet durch Trainieren des GAN zum Bestimmen von echter oder unechter gesprochener Sprache unter Verwendung einer Vielzahl von aufgezeichneten Befehlen in gesprochener Sprache, Ground Truth, die die aufgezeichneten Befehle in gesprochener Sprache als echt oder unecht identifiziert, und einer auf Ground Truth beruhenden Verlustfunktion.
  • Gemäß einer Ausführungsform beinhaltet Betreiben des Fahrzeugs Bestimmen eines Wegpolynoms auf Grundlage des Fahrzeugbefehls.
  • Gemäß einer Ausführungsform beinhaltet Betreiben des Fahrzeugs Bestimmen einer kognitiven Karte auf Grundlage von Fahrzeugsensordaten.
  • Gemäß einer Ausführungsform ist die Erfindung ferner gekennzeichnet durch Verarbeiten von synthetischen Sprachdaten mit einem GAN zum Bestimmen des Hinweises in gesprochener Sprache.
  • Gemäß einer Ausführungsform ist der Fahrzeugbefehl eine Anforderung von zielgerichtetem Verhalten des Fahrzeugs.
  • Gemäß der vorliegenden Erfindung ist ein System bereitgestellt, das einen Prozessor umfasst und Folgendes aufweist: einen Speicher, der programmiert ist zum: Empfangen eines Befehls in gesprochener Sprache als Reaktion auf Emittieren eines Hinweises in gesprochener Sprache; Verarbeiten des Befehls in gesprochener Sprache mit einem verallgemeinerten gegnerischen neuronalen Netz (GAN) zum Bestimmen eines Fahrzeugbefehls; und Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls.
  • Gemäß einer Ausführungsform ist die Erfindung ferner gekennzeichnet durch Transformieren des Befehls in gesprochener Sprache in Mel-Frequenzabtastungen vor dem Verarbeiten mit dem GAN.
  • Gemäß einer Ausführungsform werden die Mel-Frequenzabtastungen jeweils zu einem einzigen Vektor komprimiert, indem vor dem Verarbeiten mit dem GAN Mel-Werte entlang einer y-Achse gefaltet werden.
  • Gemäß einer Ausführungsform ist eine Mel-Frequenzskala ein log-Leistungsspektrum von Frequenzen von Befehlen in gesprochener Sprache auf einer nichtlinearen Frequenzskala.
  • Gemäß einer Ausführungsform ist die Erfindung ferner gekennzeichnet durch Trainieren des GAN zum Bestimmen von echter oder unechter gesprochener Sprache unter Verwendung einer Vielzahl von aufgezeichneten Befehlen in gesprochener Sprache, Ground Truth, die die aufgezeichneten Befehle in gesprochener Sprache als echt oder unecht identifiziert, und einer auf Ground Truth beruhenden Verlustfunktion.
  • Gemäß einer Ausführungsform beinhaltet Betreiben des Fahrzeugs Bestimmen eines Wegpolynoms auf Grundlage des Fahrzeugbefehls.
  • Gemäß einer Ausführungsform beinhaltet Betreiben des Fahrzeugs Bestimmen einer kognitiven Karte auf Grundlage von Fahrzeugsensordaten.
  • Gemäß einer Ausführungsform ist die Erfindung ferner gekennzeichnet durch Verarbeiten von synthetischen Sprachdaten mit einem GAN zum Bestimmen des Hinweises in gesprochener Sprache.
  • Gemäß einer Ausführungsform ist der Fahrzeugbefehl eine Anforderung von zielgerichtetem Verhalten des Fahrzeugs.
  • Gemäß der vorliegenden Erfindung ist ein System bereitgestellt, das Folgendes aufweist: Mittel zum Steuern der Lenkung, der Bremsung und des Antriebsstrangs eines zweiten Fahrzeugs; Computermittel zum: Empfangen eines Befehls in gesprochener Sprache als Reaktion auf Emittieren eines Hinweises in gesprochener Sprache; Verarbeiten des Befehls in gesprochener Sprache mit einem verallgemeinerten gegnerischen neuronalen Netz (GAN) zum Bestimmen eines Fahrzeugbefehls; und Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls und der Mittel zum Steuern der Lenkung, der Bremsung und des Antriebsstrangs des zweiten Fahrzeugs.
  • Gemäß einer Ausführungsform ist die Erfindung ferner gekennzeichnet durch Transformieren des Befehls in gesprochener Sprache in Mel-Frequenzabtastungen vor dem Verarbeiten mit dem GAN.

Claims (15)

  1. Verfahren, umfassend: Empfangen eines Befehls in gesprochener Sprache als Reaktion auf Emittieren eines Hinweises in gesprochener Sprache; Verarbeiten des Befehls in gesprochener Sprache mit einem verallgemeinerten gegnerischen neuronalen Netz (generalized adversarial neural network - GAN) zum Bestimmen eines Fahrzeugbefehls; und Betreiben eines Fahrzeugs auf Grundlage des Fahrzeugbefehls.
  2. Verfahren nach Anspruch 1, ferner umfassend Transformieren des Befehls in gesprochener Sprache in Mel-Frequenzabtastungen vor dem Verarbeiten mit dem GAN.
  3. Verfahren nach Anspruch 2, wobei die Mel-Frequenzabtastungen jeweils zu einem einzigen Vektor komprimiert werden, indem vor dem Verarbeiten mit dem GAN Mel-Werte entlang einer y-Achse gefaltet werden.
  4. Verfahren nach Anspruch 3, wobei eine Mel-Frequenzskala ein log-Leistungsspektrum von Frequenzen von Befehlen in gesprochener Sprache auf einer nichtlinearen Frequenzskala ist.
  5. Verfahren nach Anspruch 4, wobei ein erster Schritt beim Verarbeiten der Mel-Frequenzabtastungen mit einem GAN darin besteht, eine ID-Faltung in der X-Richtung durchzuführen, um die Anzahl der Mel-Frequenzabtastungen auf eine Anzahl zu reduzieren, die größer als eins ist.
  6. Verfahren nach Anspruch 5, wobei ein zweiter Schritt beim Verarbeiten der Mel-Frequenzabtastungen mit einem GAN darin besteht, eine ID-Faltung in der Y-Richtung durchzuführen.
  7. Verfahren nach Anspruch 6, wobei ein dritter Schritt beim Verarbeiten der Mel-Frequenzabtastungen mit einem GAN darin besteht, die Mel-Frequenzabtastungen mit einem neuronalen Netz zu verarbeiten.
  8. Verfahren nach Anspruch 1, ferner umfassend Trainieren des GAN zum Bestimmen von echter oder unechter gesprochener Sprache unter Verwendung einer Vielzahl von aufgezeichneten Befehlen in gesprochener Sprache, Ground Truth, die die aufgezeichneten Befehle in gesprochener Sprache als echt oder unecht identifiziert, und einer auf Ground Truth beruhenden Verlustfunktion.
  9. Verfahren nach Anspruch 5, wobei die Verlustfunktion durch Summieren einer Verlustfunktion auf Grundlage einer Ausgabe von einem Diskriminatorabschnitt des GAN mit einer Verlustfunktion auf Grundlage von Ground Truth berechnet wird.
  10. Verfahren nach Anspruch 1, wobei Betreiben des Fahrzeugs Bestimmen eines Wegpolynoms auf Grundlage des Fahrzeugbefehls beinhaltet.
  11. Verfahren nach Anspruch 7, wobei Betreiben des Fahrzeugs Bestimmen einer kognitiven Karte auf Grundlage von Fahrzeugsensordaten beinhaltet.
  12. Verfahren nach Anspruch 8, wobei Betreiben des Fahrzeugs Bestimmen eines Zielorts auf der kognitiven Karte und Bestimmen eines Wegpolynoms, das ermöglicht, dass das Fahrzeug den Zielort erreicht, beinhaltet.
  13. Verfahren nach Anspruch 1, ferner umfassend Verarbeiten von synthetischen Sprachdaten mit einem GAN zum Bestimmen des Hinweises in gesprochener Sprache.
  14. Verfahren nach Anspruch 1, wobei der Fahrzeugbefehl eine Anforderung von zielgerichtetem Verhalten des Fahrzeugs ist.
  15. System, umfassend einen Computer, der dazu programmiert ist, die Verfahren nach einem der Ansprüche 1-14 durchzuführen.
DE102019124155.3A 2018-09-10 2019-09-09 Sprachverarbeitung in einem fahrzeug Pending DE102019124155A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/125,944 US10891949B2 (en) 2018-09-10 2018-09-10 Vehicle language processing
US16/125,944 2018-09-10

Publications (1)

Publication Number Publication Date
DE102019124155A1 true DE102019124155A1 (de) 2020-03-12

Family

ID=69621694

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019124155.3A Pending DE102019124155A1 (de) 2018-09-10 2019-09-09 Sprachverarbeitung in einem fahrzeug

Country Status (3)

Country Link
US (1) US10891949B2 (de)
CN (1) CN110890091A (de)
DE (1) DE102019124155A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022208250B3 (de) 2022-08-09 2024-01-25 Zf Friedrichshafen Ag System zur Verwaltung verschiedener Fahrzeugkomponenten in einer elektrischen-elektronischen Fahrzeugarchitektur und Fahrzeugarchitektur

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10770063B2 (en) * 2018-04-13 2020-09-08 Adobe Inc. Real-time speaker-dependent neural vocoder
US10981564B2 (en) * 2018-08-17 2021-04-20 Ford Global Technologies, Llc Vehicle path planning
US11269341B2 (en) * 2019-06-28 2022-03-08 Woven Planet North America, Inc. Systems and methods for automated trajectory prediction
US20220305647A1 (en) * 2019-08-27 2022-09-29 Google Llc Future prediction, using stochastic adversarial based sampling, for robotic control and/or other purpose(s)
CN111627429B (zh) * 2020-05-20 2022-10-14 浙江工业大学 一种基于CycleGAN的语音识别模型的防御方法及装置
CN112289324B (zh) * 2020-10-27 2024-05-10 湖南华威金安企业管理有限公司 声纹身份识别的方法、装置和电子设备

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6420975B1 (en) * 1999-08-25 2002-07-16 Donnelly Corporation Interior rearview mirror sound processing system
US7183944B2 (en) * 2001-06-12 2007-02-27 Koninklijke Philips Electronics N.V. Vehicle tracking and identification of emergency/law enforcement vehicles
US7774202B2 (en) * 2006-06-12 2010-08-10 Lockheed Martin Corporation Speech activated control system and related methods
KR100908121B1 (ko) * 2006-12-15 2009-07-16 삼성전자주식회사 음성 특징 벡터 변환 방법 및 장치
US8433469B2 (en) * 2011-03-18 2013-04-30 The Raymond Corporation Communication technique by which an autonomous guidance system controls an industrial vehicle
US9547945B2 (en) * 2011-03-18 2017-01-17 The Raymond Corporation Integration of an autonomous industrial vehicle into an asset management system
US9466292B1 (en) * 2013-05-03 2016-10-11 Google Inc. Online incremental adaptation of deep neural networks using auxiliary Gaussian mixture models in speech recognition
US9761223B2 (en) * 2014-10-13 2017-09-12 Ford Global Technologies, Llc Acoustic impulse response simulation
US9821763B2 (en) * 2015-04-03 2017-11-21 Honda Motor Co., Ltd. Hierarchical based vehicular control systems, and methods of use and manufacture thereof
US20170125038A1 (en) * 2015-11-03 2017-05-04 Ford Global Technologies, Llc Transfer function to generate lombard speech from neutral speech
US9978399B2 (en) * 2015-11-13 2018-05-22 Ford Global Technologies, Llc Method and apparatus for tuning speech recognition systems to accommodate ambient noise
US10384548B2 (en) * 2016-04-28 2019-08-20 Ge Global Sourcing Llc Systems and methods for a vehicle inverter connection bus
US10259390B2 (en) * 2016-05-27 2019-04-16 GM Global Technology Operations LLC Systems and methods for towing vehicle and trailer with surround view imaging devices
US20180032902A1 (en) * 2016-07-27 2018-02-01 Ford Global Technologies, Llc Generating Training Data For A Conversational Query Response System
JP6649210B2 (ja) 2016-08-30 2020-02-19 日本電信電話株式会社 音声合成学習装置、方法、及びプログラム
CN106847294B (zh) 2017-01-17 2018-11-30 百度在线网络技术(北京)有限公司 基于人工智能的音频处理方法和装置
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US10762892B2 (en) * 2017-02-23 2020-09-01 Semantic Machines, Inc. Rapid deployment of dialogue system
US10338594B2 (en) * 2017-03-13 2019-07-02 Nio Usa, Inc. Navigation of autonomous vehicles to enhance safety under one or more fault conditions
US10423162B2 (en) * 2017-05-08 2019-09-24 Nio Usa, Inc. Autonomous vehicle logic to identify permissioned parking relative to multiple classes of restricted parking
CN111201565B (zh) * 2017-05-24 2024-08-16 调节股份有限公司 用于声对声转换的系统和方法
CN107293289B (zh) 2017-06-13 2020-05-29 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
US10475465B2 (en) * 2017-07-03 2019-11-12 Yissum Research Development Company, of The Hebrew University of Jerusalem Ltd. Method and system for enhancing a speech signal of a human speaker in a video using visual information
US10369974B2 (en) * 2017-07-14 2019-08-06 Nio Usa, Inc. Control and coordination of driverless fuel replenishment for autonomous vehicles
US20190043487A1 (en) * 2017-08-02 2019-02-07 Veritone, Inc. Methods and systems for optimizing engine selection using machine learning modeling
AU2017101166A4 (en) 2017-08-25 2017-11-02 Lai, Haodong MR A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks
US10647332B2 (en) * 2017-09-12 2020-05-12 Harman International Industries, Incorporated System and method for natural-language vehicle control
US10650306B1 (en) * 2017-09-29 2020-05-12 Amazon Technologies, Inc. User representation using a generative adversarial network
US20190147320A1 (en) * 2017-11-15 2019-05-16 Uber Technologies, Inc. "Matching Adversarial Networks"
US10665222B2 (en) * 2018-06-28 2020-05-26 Intel Corporation Method and system of temporal-domain feature extraction for automatic speech recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022208250B3 (de) 2022-08-09 2024-01-25 Zf Friedrichshafen Ag System zur Verwaltung verschiedener Fahrzeugkomponenten in einer elektrischen-elektronischen Fahrzeugarchitektur und Fahrzeugarchitektur

Also Published As

Publication number Publication date
US10891949B2 (en) 2021-01-12
CN110890091A (zh) 2020-03-17
US20200082817A1 (en) 2020-03-12

Similar Documents

Publication Publication Date Title
DE102019124155A1 (de) Sprachverarbeitung in einem fahrzeug
DE102017126877B4 (de) Kraftfahrzeug
DE102019122027A1 (de) Fahrzeugwegplanung
DE102019127058A1 (de) Fahrzeugwegplanung
DE102019121140A1 (de) Sensorfusion
DE102019133034A1 (de) Steuerung eines autonomen fahrzeugs basierend auf einem vorher erlernten fahrgast- und umgebungsbewussten fahrstilprofil
DE102019122826A1 (de) Adaptives fahrzeuglernen
DE102018118220B4 (de) Verfahren zur Schätzung der Lokalisierungsgüte bei der Eigenlokalisierung eines Fahrzeuges, Vorrichtung für die Durchführung von Verfahrensschritten des Verfahrens, Fahrzeug sowie Computerprogramm
DE102019129232A1 (de) Sprachverarbeitung für ein fahrzeug
DE102018120845A1 (de) Verfahren und Vorrichtung zum Überwachen eines autonomen Fahrzeugs
DE102018117380A1 (de) Bremsvorhersage und -eingriff
DE102020102962A1 (de) Fahrzeugzielverfolgung
DE102021125932A1 (de) System und Verfahren für auf Neuronalem Netzwerk basiertes autonomes Fahren
DE102020122357A1 (de) Fahrerbewusstseinserfassungssystem
DE102020119541A1 (de) Detektieren von fahrzeugbetriebsbedingungen
DE112016007237T5 (de) Ein system und verfahren zum identifizieren von unbelegten parkpositionen
DE102019127833A1 (de) Sprachverarbeitung in einem fahrzeug
DE102020122086A1 (de) Messen von vertrauen in tiefen neuronalen netzwerken
DE102020107339A1 (de) Objektverfolgung für fahrzeuge
DE102020120085A1 (de) Erfassung von fahrzeugbedrohungen und reaktion darauf
DE102021105159A1 (de) Erfassung von fahrzeugen und reaktion darauf
DE102020128978A1 (de) Trainieren von tiefen neuronalen netzwerken mit synthetischen bildern
DE102021104324A1 (de) Verbesserte objekterkennung und -reaktion
DE102021104044A1 (de) Neuronales netzwerk zur positionsbestimmung und objektdetektion
DE102020129802A1 (de) Fahrzeugbetriebskennzeichnung

Legal Events

Date Code Title Description
R082 Change of representative

Representative=s name: LORENZ SEIDLER GOSSEL RECHTSANWAELTE PATENTANW, DE