DE102019105269A1 - Spracherkennungs-arbitrierungslogik - Google Patents

Spracherkennungs-arbitrierungslogik Download PDF

Info

Publication number
DE102019105269A1
DE102019105269A1 DE102019105269.6A DE102019105269A DE102019105269A1 DE 102019105269 A1 DE102019105269 A1 DE 102019105269A1 DE 102019105269 A DE102019105269 A DE 102019105269A DE 102019105269 A1 DE102019105269 A1 DE 102019105269A1
Authority
DE
Germany
Prior art keywords
speech
topic
local
vehicle
confidence level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102019105269.6A
Other languages
English (en)
Other versions
DE102019105269B4 (de
Inventor
Gaurav Talwar
Xu Fang Zhao
Scott M. Pennock
Kenneth R. BOOKER
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of DE102019105269A1 publication Critical patent/DE102019105269A1/de
Application granted granted Critical
Publication of DE102019105269B4 publication Critical patent/DE102019105269B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Navigation (AREA)
  • Telephonic Communication Services (AREA)
  • Traffic Control Systems (AREA)

Abstract

Ein Verfahren und ein zugehöriges System zur Spracherkennung unter Verwendung mehrerer Spracherkennungsalgorithmen. Das Verfahren beinhaltet das Empfangen von Sprache an einem in einem Fahrzeug installierten Mikrofon und das Bestimmen von Ergebnissen für die Sprache unter Verwendung eines ersten Algorithmus, z. B. lokal im Fahrzeug eingebettet. Sprachergebnisse können auch am Fahrzeug für die mit einem zweiten Algorithmus bestimmte Sprache empfangen werden, z. B. für die von einer entfernten Einrichtung bestimmte Sprache. Die Ergebnisse für beide können ein bestimmtes Sprachthema und einen bestimmten Sprachschlitzwert sowie entsprechende Konfidenzniveaus für jedes einzelne beinhalten. Das Verfahren kann ferner die Verwendung mindestens eines der bestimmten ersten Sprachthemen und der empfangenen zweiten Sprachthemen beinhalten, um das mit der empfangenen Sprache verbundene Thema zu bestimmen, auch wenn das erste Sprachthema-Konfidenzniveau des ersten Sprachthemas und das zweite Sprachthema-Konfidenzniveau des zweiten Sprachthemas beide ein niedriges Konfidenzniveau sind.

Description

  • EINLEITUNG
  • Die vorliegende Offenbarung bezieht sich auf die Spracharbitrierung und insbesondere auf die Implementierung eines Spracharbitrierungsprozesses, der Ergebnisse verschiedener Spracherkennungsmaschinen oder Algorithmen kombiniert.
  • Traditionell erfordert die Verwendung mehrerer Sprachalgorithmen oder -maschinen die Verwendung von Normierungsergebnissen in numerischer Form, z. B. mit Vertrauenswerten. Die Normalisierung der Spracherkennungs-Vertrauenswerte ist jedoch stark abhängig von den jeweiligen Methodiken, die in den einzelnen Algorithmen verwendet werden, und kann daher die Ergebnisse des Vertrauens der Spracherkennung aus verschiedenen Algorithmen nicht genau vergleichen. Zusätzlich kann die Normalisierung der Spracherkennungs-Vertrauenswerte dazu führen, dass Ergebnisse, die mit relativ niedrigeren numerischen Vertrauenswerten verbunden sind, vollständig verworfen werden, basierend auf der Erwartung, dass niedrigere Vertrauenswerte ein Problem bei der Spracherkennung widerspiegeln oder anderweitig nicht hilfreich beim Bestimmen des Inhalts der Sprache sind.
  • Dementsprechend besteht Bedarf an einer verbesserten Methodik zum Kombinieren von Spracherkennungsergebnissen aus verschiedenen Spracherkennungsmaschinen oder Algorithmen.
  • KURZDARSTELLUNG
  • Gemäß einem Aspekt der Erfindung ist ein Verfahren zur Spracherkennung unter Verwendung von ersten und zweiten Spracherkennungsalgorithmen vorgesehen. Ein Verfahren kann das Empfangen von Sprache an einem in einem Fahrzeug installierten Mikrofon, das Bestimmen von Sprachergebnissen unter Verwendung eines ersten Algorithmus, der ein erstes Sprachthema und einen ersten Sprachschlitzwert beinhaltet, das Bestimmen eines ersten Sprachthema-Konfidenzniveaus für das erste Sprachthema und das Bestimmen eines ersten Sprachwert-Konfidenzniveaus für den ersten Sprachschlitzwert beinhalten. Das Verfahren kann ferner das Empfangen von zweiten Sprachergebnissen beinhalten, die mit einem zweiten Algorithmus bestimmt wurden, der sich vom ersten Algorithmus unterscheidet, einschließlich eines zweiten Sprachthemas und eines zweiten Sprachschlitzwertes am Fahrzeug, das Empfangen eines zweiten Sprachthema-Konfidenzniveaus für das zweite Sprachthema und das Empfangen eines zweiten Sprachschlitzwert-Konfidenzniveaus für den zweiten Sprachschlitzwert. Das Verfahren kann ferner die Verwendung mindestens eines der bestimmten ersten Sprachthemen und der empfangenen zweiten Sprachthemen beinhalten, um das mit der empfangenen Sprache verbundene Thema zu bestimmen, auch wenn das erste Sprachthema-Konfidenzniveau des ersten Sprachthemas und das zweite Sprachthema-Konfidenzniveau des zweiten Sprachthemas beide ein niedriges Konfidenzniveau sind.
  • In mindestens einigen Beispielen ist der erste Spracherkennungsalgorithmus ein lokaler Spracherkennungsalgorithmus, der unter Verwendung einer in die im Fahrzeug installierte Elektronik eingebetteten Heuristik des natürlichen Sprachverständnisses bestimmt wird. In weiteren Beispielen ist der zweite Spracherkennungsalgorithmus ein entfernter Spracherkennungsalgorithmus, der von einer entfernten Einrichtung am Fahrzeug empfangen wird.
  • In einigen exemplarischen Ansätzen beinhaltet das Verfahren ferner das Anfordern einer Benutzerbestätigung des mit der empfangenen Sprache verbundenen Sprachthemas, wenn das erste Sprechthema mit dem zweiten Sprechthema übereinstimmt.
  • Die exemplarischen Verfahren können in einigen Fällen die Anforderung einer Benutzereingabe beinhalten, die dem ersten Sprachthema zugeordnet ist, wenn der Benutzer das erste Sprachthema bestätigt.
  • In anderen Beispielen, wenn sich das bestimmte erste Sprachthema vom zweiten Sprachthema unterscheidet, kann das Verfahren das Anfordern einer Auswahl des Sprachthemas durch den Benutzer beinhalten. In diesen Beispielen kann als Reaktion auf die Benutzer-Themenauswahl eine Benutzer-Menüauswahl bereitgestellt werden, die eine Vielzahl von geschlitzten Werten beinhaltet, die der Benutzer-Themenauswahl zugeordnet sind. In einigen Ansätzen kann das Verfahren das Verwerfen von mindestens einem der ersten Sprachschlitzwerte oder den zweiten Sprachschlitzwerten beinhalten, die nicht der Themenauswahl des Benutzers als Reaktion auf die Themenauswahl des Benutzers zugeordnet sind.
  • In mindestens einigen Beispielen kann ein Verfahren das Bestimmen des Konfidenzniveaus des lokalen Sprachthemas und des lokalen Sprachwert-Konfidenzniveaus beinhalten, einschließlich nur eines hohen Niveaus, eines mittleren Niveaus und eines niedrigen Konfidenzniveaus, und ohne das Bestimmen eines Zahlenwerts für das Konfidenzniveau des lokalen Sprachthemas und den lokalen Sprachwert-Konfidenzniveau.
  • In mindestens einigen Beispielen enthält ein nicht-flüchtiges, computerlesbares Medium Programmanweisungen zur Spracherkennung in einem Fahrzeug, worin die Ausführung der Programmanweisungen durch einen oder mehrere am Fahrzeug installierte Prozessoren bewirkt, dass der eine oder die mehreren Prozessoren die hierin offenbarten Verfahren ausführen. So kann beispielsweise das computerlesbare Medium bewirken, dass der eine oder die mehreren Prozessoren Sprache an einem im Fahrzeug installierten Mikrofon empfangen, lokale Sprachergebnisse, einschließlich eines lokalen Sprachthemas und eines lokalen Sprachschlitzwertes, unter Verwendung einer im Fahrzeug installierten Elektronik bestimmen und ein lokales Sprachthema-Konfidenzniveau für das lokale Sprachthema bestimmen, und ein lokales Sprachwert-Konfidenzniveau für den lokalen Sprachschlitzwert festlegen. Der/die Prozessor(en) kann/können ferner entfernte Sprachergebnisse empfangen, einschließlich eines entfernten Sprachthemas und eines entfernten Sprachschlitzwertes am Fahrzeug, und ein entferntes Sprachthema-Konfidenzniveau für das entfernte Sprachthema empfangen, und ein entferntes Sprachschlitzwert-Konfidenzniveau für den entfernten Sprachschlitzwert empfangen. Der/die Prozessor(en) können auch mindestens eines der bestimmten lokalen Sprachthemen und das empfangene entfernte Sprachthema verwenden, um das der empfangenen Sprache zugeordnete Thema zu bestimmen, selbst wenn das Konfidenzniveau des lokalen Sprachthemas und das Konfidenzniveau des entfernten Sprachthemas beide ein niedriges Konfidenzniveau sind.
  • In mindestens einigen Beispielen bewirkt das Ausführen der Programmanweisungen durch einen oder mehrere im Fahrzeug installierte Prozessoren, dass der eine oder die mehreren Prozessoren den Schritt ausführen, eine Benutzerbestätigung des der empfangenen Sprache zugeordneten Sprachthemas anzufordern, wenn das lokale Sprachthema mit dem entfernten Sprachthema übereinstimmt. In mindestens einigen dieser Beispiele bewirkt das Ausführen der Programmanweisungen durch einen oder mehrere im Fahrzeug installierte Prozessoren, dass der eine oder die mehreren Prozessoren den Schritt des Anforderns einer dem lokalen Sprachthema zugeordneten Benutzereingabe ausführen, wenn der Benutzer das lokale Sprachthema bestätigt.
  • In anderen exemplarischen Ansätzen bewirkt das Ausführen der Programmanweisungen durch einen oder mehrere im Fahrzeug installierte Prozessoren, dass der eine oder die mehreren Prozessoren die Schritte des Anforderns einer benutzerdefinierten Themenauswahl des Sprachthemas ausführen, wenn sich das bestimmte lokale Sprachthema vom entfernten Sprachthema unterscheidet, und als Reaktion auf die benutzerdefinierte Themenauswahl das Bereitstellen einer Benutzermenüauswahl mit einer Vielzahl von geschlitzten Werten, die der benutzerdefinierten Themenauswahl zugeordnet sind.
  • Figurenliste
  • Eine oder mehrere Ausführungsformen der Erfindung werden im Folgenden in Verbindung mit den beigefügten Zeichnungen beschrieben, wobei gleiche Bezeichnungen gleiche Elemente bezeichnen, und wobei Folgendes gilt:
    • 1 ist ein Blockdiagramm, das eine Ausführungsform eines Kommunikationssystems darstellt, das in der Lage ist, die hierin offenbarten exemplarischen Verfahren zu verwenden;
    • 2 ist ein Blockdiagramm, das eine Ausführungsform eines automatischen Spracherkennungs-(ASR)-Systems darstellt;
    • 3 ist ein Prozessflussdiagramm, das exemplarische Verfahren zum Arbitrieren zwischen Spracherkennungsalgorithmen veranschaulicht; und
    • 4 ist eine Tabelle, die eine Methodik zur Arbitrierung der Spracherkennung gemäß einer exemplarischen Darstellung veranschaulicht.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Nachfolgend werden exemplarische Darstellungen von Verfahren und Systemen zum Arbitrieren zwischen zwei getrennten oder unterschiedlichen Spracherkennungsmaschinen oder Algorithmen, wie beispielsweise in einem Fahrzeug, bereitgestellt. Spracherkennungsmaschinen oder -algorithmen können die Spracheingabe im Allgemeinen interpretieren und den Inhalt der Spracheingabe bestimmen. Lediglich als Beispiele können Spracherkennungsalgorithmen endliche Grammatik (FSG), natürliches Sprachverständnis (NLU) oder Kombinationen aus beiden verwenden.
  • Die Verwendung mehrerer Spracherkennungsmaschinen oder -algorithmen ermöglicht die Verwendung eines eingebetteten oder lokalen Spracherkennungsalgorithmus in einem Fahrzeug in Kombination mit einem Algorithmus zur entfernten Spracherkennung. In einigen Beispielen ist ein erster Spracherkennungsalgorithmus ein lokaler Algorithmus, z.B. durch Einbettung in die Fahrzeugelektronik, während ein zweiter Spracherkennungsalgorithmus über einen entfernten Server oder eine Einrichtung bereitgestellt wird.
  • Entfernte Spracherkennungsalgorithmen können eine höhere Verarbeitungsleistung aufweisen als die in einem Fahrzeug vorhandenen, indem sie sich auf entfernte Systeme stützen, die durch die Installation im Fahrzeug nicht eingeschränkt sind. Die entfernte Spracherkennung kann jedoch Nachteile aufweisen, wie beispielsweise die Notwendigkeit, Sprache an eine entfernte Einrichtung zu senden, was die von Drahtlos-Trägersystemen erhobenen Nutzungsgebühren für das Senden von Sprache vom Fahrzeug an die entfernte Einrichtung mit sich bringen kann. Jedes Mal, wenn das Fahrzeug die von der Fernvorrichtung zu analysierende Sprachausgabe sendet, erhebt der Fahrzeug- oder Telematikdienstleister hierfür eine Gebühr. Diese Gebühr könnte auf der Zeitdauer, die benötigt wird, um die Sprachausgabe zu senden, der Datenmenge, die die Sprachausgabe enthält oder beidem basieren. Andererseits können Fernvorrichtungen, die eine Sprachausgabe vom Fahrzeug empfangen, leistungsfähigere Computerverarbeitungsfähigkeiten gewährleisten, die auf Sprachmodellen basieren, die anspruchsvoller sind als die, die im Fahrzeug verfügbar sind.
  • Eine Fahrzeug-basierte Sprachverarbeitung kann eigene Nachteile aufweisen. Während die Erkennung der empfangenen Sprachausgabe im Fahrzeug die Gebühren, die durch drahtlose Trägersysteme erhoben werden, minimiert, können die Computerverarbeitungsfähigkeiten des Fahrzeugs weniger leistungsfähig sein als die, die an der Fernvorrichtung verfügbar sind, und das Fahrzeug kann einfachere Sprachmodelle verwenden, die weniger Inhalte enthalten können als die, die bei der Fernvorrichtung verfügbar sein können, was weniger genaue Ergebnisse bedeuten kann.
  • Dementsprechend kann die Kombination von lokalen und entfernten Algorithmen eine Mischung aus den Vorteilen der einzelnen Ansätze ermöglichen und gleichzeitig Nachteile reduzieren.
  • In zumindest einigen exemplarischen Ansätzen wählt eine Spracherkennungsarbitrierungsmethodik die Ergebnisse verschiedener Spracherkennungsmaschinen aus, indem sie eines der Ergebnisse zumindest teilweise basierend auf Konfidenzniveaus auswählt. Den für diese Bestimmungen verwendeten Konfidenzniveaus werden Konfidenzquoten gegenübergestellt, die in früheren Ansätzen typischerweise einen Zahlenwert bestimmen würden, z. B. von 0 bis 100 als Hinweis auf das Vertrauen in ein Ergebnis. Die hierin verwendeten „Konfidenzniveaus“ hingegen beruhen nicht auf numerischen oder normierten Werten zugunsten einer relativ kleinen Anzahl von Kategorien, z. B. „niedrig“, „mittel“ und „hoch“. Die niedrigen/mittleren/hohen Konfidenzniveaus können nach jeder Metrik bestimmt werden, die für die jeweilige verwendete Spracherkennungsmaschine/Algorithmus geeignet ist.
  • In einigen Beispielen können unter Umständen Spracherkennungsergebnisse mit einem relativ niedrigen Konfidenzniveau verwendet werden. Im Gegensatz dazu werden bei früheren Ansätzen Spracherkennungsergebnisse mit niedrigen Vertrauenswerten unter einer bestimmten Basislinie oder einem Schwellenwert in der Regel vollständig verworfen. Diese Ablehnung von niedrigen Vertrauenswerten würde im Allgemeinen dazu führen, dass die Spracherkennungssitzung in einigen Fällen beendet oder neu gestartet wird, was die Wahrscheinlichkeit verringert, dass ein Benutzer die Spracherkennungssitzung erfolgreich abschließen würde. Die Ablehnung von Werten mit niedrigem Vertrauen wurde typischerweise unter der Annahme durchgeführt, dass die Werte mit niedrigem Vertrauen auf ein ungenaues Ergebnis oder ein anderes Problem mit der Spracherkennungsanalyse hinweisen. Unter bestimmten, im Folgenden näher beschriebenen exemplarischen Umständen wurde jedoch festgestellt, dass Spracherkennungsergebnisse mit relativ niedrigem Konfidenzniveau nützlich sein können. Darüber hinaus kann in diesen Beispielen die Verwendung von Ergebnissen mit niedrigem Konfidenzniveau die Fertigstellungsrate der Spracherkennungsaufgabe erhöhen, d. h. den Prozentsatz der Sprachsitzungen, die mit einem erfolgreich identifizierten Befehl enden.
  • In exemplarischen Ansätzen kann die Spracherkennung im Allgemeinen aufgeteilt werden zwischen dem Erkennen von (1) einem Thema, das einer Spracheingabe zugeordnet ist (z. B. ein Navigationsbefehl, Funkbefehl, Telefonbefehl usw.) und (2) dem Befehl selbst (z. B. einen Kontakt anzurufen, eine Wegbeschreibung zu einer Sehenswürdigkeit zu erhalten, das Radio auf einen bestimmten Sender einzustellen, usw.). Wie im Folgenden näher erläutert, wird das Erkennen eines Befehls in einer Spracheingabe im Folgenden als Erkennen eines „geschlitzten Werts“ oder „Schlitzes“ bezeichnet, welcher der Spracheingabe zugeordnet ist. Das Erkennen eines Themas und der einer Spracheingabe zugeordnete geschlitzte Wert können unabhängig voneinander sein. Mit anderen Worten, eine separate Analyse oder sogar dedizierte Spracherkennungsalgorithmen können verwendet werden, um das Thema und den geschlitzten Wert zu bestimmen, der einer bestimmten Spracheingabe zugeordnet ist.
  • In einigen Beispielen wird eine Methodik zum Verstehen natürlicher Sprachen (NLU) verwendet, um sowohl ein Thema als auch einen mit einer Spracheingabe verbundenen geschlitzten Wert zu erkennen. Verfahren zum Verstehen natürlicher Sprache werden der Grammatik des endlichen Zustands (FSG) gegenübergestellt, die eine endliche Anzahl von anerkannten Befehlen verwendet. Dementsprechend kann eine Methodik oder Heuristik zum Verstehen natürlicher Sprache (NLU), wie sie hierin verwendet wird, im Allgemeinen nicht durch eine begrenzte Anzahl von erkannten Befehlen begrenzt sein und ist daher im Allgemeinen konfiguriert, um auf Sprachbefehle zu reagieren, die in einer empfangenen Spracheingabe enthalten sind. Dennoch können sich einige Beispiele zumindest teilweise auf eine Methodik der endlichen Grammatik (FSG) stützen, d. h. wenn einem Benutzer eine endliche Anzahl von Befehlen zur Verfügung steht und die Methodik oder Heuristik daher versucht, die Spracheingabe mit einem der verfügbaren Befehle abzugleichen.
  • Wie die Fachleute auf dem Gebiet verstehen werden, können nicht nur exemplarische Spracharbitrierungsprozesse oder -anwendungen in eine Vielzahl von verschiedenen Clientvorrichtungen implementiert werden, einschließlich handgehaltener mobiler Vorrichtungen (z. B. Smartphones), Heimautomatisierungsvorrichtungen (z. B. intelligente persönliche Assistenten wie Amazon™ Alexa™ und Google™ Home), Fahrzeuge und/oder jede Vorrichtung, die Sprache empfangen, eine Verbindung mit einem entfernten Computernetzwerk eingehen können und konfiguriert werden können, um die hierin erläuterten Spracharbitrierungsprozesse oder -anwendungen durchzuführen.
  • In einigen Beispielen stellen erste und zweite automatische Spracherkennungsalgorithmen (ASR) einen lokalen oder fahrzeugintegrierten Spracherkennungsalgorithmus bzw. einen entfernten Spracherkennungsalgorithmus dar. In diesen Ansätzen können die Ergebnisse aus jedem von diesen verwendet werden, um den Inhalt der Sprache in Abhängigkeit von den Konfidenzniveaus (z. B. niedrig, mittel und hoch) zu bestimmen, die einem Ergebnis des Sprachthemas und einem Ergebnis des Sprachschlitzwertes für die einzelnen zugeordnet sind.
  • Kommunikationssystem -
  • Unter Bezugnahme auf 1, ist eine Betriebsumgebung dargestellt, die ein Kommunikationssystem 10 umfasst und die zum Implementieren des hierin offenbarten Verfahrens verwendet werden kann. Das Kommunikationssystem 10 beinhaltet im Allgemeinen ein Fahrzeug 12 mit einem Bordnetzsteuergerät (BCM) 26 und einer drahtlosen Kommunikationsvorrichtung 30, eine Konstellation von Satelliten des globalen Navigationssatellitensystems (GNSS) 60, einem oder mehreren Drahtlosträgersystemen 70, einem Festnetz-Kommunikationsnetzwerk 76, einem Computer 78, einer entfernten Einrichtung 80 und einer persönlichen mobilen Vorrichtungen 90. Es versteht sich, dass das offenbarte Verfahren mit einer beliebigen Anzahl an unterschiedlichen Systemen verwendet werden kann und nicht speziell auf die hier gezeigte Betriebsumgebung eingeschränkt ist. Auch die Architektur, Konstruktion, Einrichtung und der allgemeine Betrieb des Systems 10 und seiner einzelnen Komponenten sind in der Technik allgemein bekannt. Somit stellen die folgenden Absätze lediglich einen kurzen Überblick über ein solches Kommunikationssystem 10 bereit; aber auch andere, hier nicht dargestellte Systeme könnten die offenbarten Verfahren einsetzen.
  • Das Drahtlosträgersystem 70 kann jedes geeignete Mobiltelefonsystem sein. Das Trägersystem 70 ist mit einem Mobilfunkmast 72 dargestellt; jedoch kann das Trägersystem 70 eine oder mehrere der folgenden Komponenten beinhalten (z. B. abhängig von der Mobilfunktechnologie): Mobilfunkmasten, Basisübertragungsstationen, Mobilvermittlungszentralen, Basisstationssteuerungen, entwickelte Knotenpunkte (z. B. eNodeBs), Mobilitätsmanagement-Einheiten (MMEs), Serving- und PGN-Gateways usw. sowie alle anderen Netzwerkkomponenten, die erforderlich sind, um das Drahtlosträgersystem 70 mit dem Festnetz 76 zu verbinden oder das Drahtlosträgersystem mit der Benutzerausrüstung (UEs, die z. B. die Telematikausrüstung im Fahrzeug 12 beinhalten können) zu verbinden. Das Trägersystem 70 kann jede geeignete Kommunikationstechnik realisieren, einschließlich GSM/GPRS-Technologie, CDMA- oder CDMA2000-Technologie, LTE-Technologie, usw. Im Allgemeinen sind Drahtlosträgersysteme 70, deren Komponenten, die Anordnung ihrer Komponenten, das Zusammenwirken der Komponenten usw. weitgehend im dem Stand der Technik bekannt.
  • Abgesehen vom Verwenden des Drahtlosträgersystems 70 kann ein unterschiedliches Drahtlosträgersystem in der Form von Satellitenkommunikation verwendet werden, um unidirektionale oder bidirektionale Kommunikation mit dem Fahrzeug bereitzustellen. Dies kann unter Verwendung von einem oder mehreren Kommunikationssatelliten (nicht dargestellt) und einer aufwärts gerichteten Sendestation (nicht dargestellt) erfolgen. Die unidirektionale Kommunikation können beispielsweise Satellitenradiodienste sein, worin programmierte Inhaltsdaten (Nachrichten, Musik usw.) von der Uplink-Sendestation erhalten werden, für das Hochladen gepackt und anschließend zum Satelliten gesendet werden, der die Programmierung an die Teilnehmer sendet. Bidirektionale Kommunikation kann beispielsweise Satellitentelefoniedienste unter Verwendung der ein oder mehreren Kommunikationssatelliten sein, um Telefonkommunikationen zwischen dem Fahrzeug 12 und der Aufwärtssendestation weiterzugeben. Bei Verwendung kann diese Satellitentelefonie entweder zusätzlich oder anstatt des Drahtlosträgersystems 70 verwendet werden.
  • Das Festnetz 76 kann ein konventionelles landgebundenes Telekommunikationsnetzwerk sein, das mit einem oder mehreren Festnetztelefonen verbunden ist und das Drahtlosträgersystem 70 mit dem entfernten Standort 80 verbindet. Zum Beispiel kann das Festnetz 76 ein Fernsprechnetz (PSTN) beinhalten, wie es verwendet wird, um die Festnetz-Telefonie, die paketvermittelte Datenkommunikation und die Internet-Infrastruktur bereitzustellen. Ein oder mehrere Segmente des Festnetzes 76 könnten durch die Verwendung eines Standard-Festnetzes, eines Glasfasernetzwerks oder eines anderen LWL-Netzwerks, eines Kabelnetzwerks, durch die Verwendung von Stromleitungen, anderer drahtloser Netzwerke, wie beispielsweise lokaler Drahtlosnetze (WLAN) oder von Netzwerken, die einen drahtlosen Breitbandzugang (BWA) oder eine beliebige Kombination davon bereitstellen, implementiert werden.
  • Die Computer 78 (nicht dargestellt) können einige von einer Anzahl an Computern sein, die über ein privates oder öffentliches Netzwerk, wie das Internet, zugänglich sind. Jeder dieser Computer 78 kann eine Clientvorrichtung sein, die Sprachverarbeitung und/oder Spracharbitrierung durchführen kann, oder die für einen oder mehrere Zwecke verwendet werden kann, wie beispielsweise ein entfernter Server, auf den vom Fahrzeug 12 aus zugegriffen werden kann (z. B. ein entfernter Sprachverarbeitungsserver). Bei anderen derartig zugänglichen Computern 78 kann es sich beispielsweise um Folgende handeln: einen Server eines Drittanbieters, der zum Bereitstellen von Standortdiensten verwendet werden kann, einen Computer in einem Kundendienstzentrum, bei dem Diagnoseinformationen und andere Fahrzeugdaten vom Fahrzeug hochgeladen werden können; einen Clientcomputer, der von dem Fahrzeugbesitzer oder einem anderen Teilnehmer für derartige Zwecke, wie etwa das Zugreifen auf oder Empfangen von Fahrzeugdaten oder zum Einstellen oder Konfigurieren von Teilnehmerpräferenzen oder Steuern von Fahrzeugfunktionen verwendet wird; einen Carsharing-Server, der Reservierungen und/oder Registrierungen von mehreren Benutzern koordiniert, welche die Nutzung eines Fahrzeugs als Teil eines Carsharing-Dienstes beantragen; oder einen Speicherort eines Drittanbieters, dem oder von dem Fahrzeugdaten oder andere Informationen entweder durch Kommunizieren mit dem Fahrzeug 12 oder der entfernten Einrichtung 80 oder beiden bereitgestellt werden. Ein Computer 78 kann auch für das Bereitstellen von Internetkonnektivität, wie DNS-Dienste oder als ein Netzwerkadressenserver, verwendet werden, der DHCP oder ein anderes geeignetes Protokoll verwendet, um dem Fahrzeug 12 eine IP-Adresse zuzuweisen.
  • Die entfernte Einrichtung 80 kann so ausgelegt sein, dass sie die Fahrzeugelektronik 20 und die mobile Vorrichtung 90 mit einer Reihe verschiedener System-Backend-Funktionen unter Verwendung eines oder mehrerer elektronischer Server versieht. So kann beispielsweise die entfernte Einrichtung 80 teilweise verwendet werden, um Informationen zu erleichtern oder zu koordinieren, die zwischen dem Fahrzeug 12 und einer oder mehreren ClientVorrichtungen, wie beispielsweise der mobilen Vorrichtung 90 oder dem Computer 78, gesendet werden. In einer Ausführungsform kann die entfernte Einrichtung 80 Spracherkennungsdienste vorsehen, die den Empfang von Sprachsignalen von einer Kundenvorrichtung und die Verarbeitung der empfangenen Sprachsignale unter Verwendung eines Spracherkennungssystems beinhalten können. Zusätzlich oder alternativ kann die entfernte Einrichtung 80 eine oder mehrere Switches, Server, Datenbanken, Live-Berater, sowie ein automatisiertes Sprachausgabesystem (VRS) beinhalten, mit denen die Sachverständigen auf dem Fachgebiet vertraut sind. Die entfernte Einrichtung 80 kann eine oder alle der verschiedenen Komponenten beinhalten, wobei sämtliche der verschiedenen Komponenten vorzugsweise über ein drahtgebundenes oder drahtloses lokales Netzwerk miteinander gekoppelt sind. Die entfernte Einrichtung 80 empfängt und überträgt Daten über ein mit dem Festnetz 76 verbundenes Modem.
  • Die entfernte Einrichtung 80 kann auch eine oder mehrere Datenbanken beinhalten, die Kontoinformationen, wie Teilnehmerauthentifizierungsinformationen, Fahrzeugidentifikatoren, Profildatensätze, Verhaltensmuster, Spracherkennung und/oder Arbitrationsinformationen und andere relevante Teilnehmerinformationen speichern können. Wie hierin verwendet, beinhalten Spracherkennungs- und/oder -arbitrierungsinformationen Informationen, die für das Training eines Spracherkennungs- oder Spracharbitrierungssystems verwendet werden können, wie beispielsweise der im Folgenden ausführlich beschriebene Spracharbitrierungsprozess neuronaler Netzwerke. Datenübertragungen können auch durch drahtlose Systeme, wie z. B. IEEE 802.11x, GPRS und dergleichen, erfolgen. Fachleute auf dem Gebiet werden erkennen, dass, obwohl nur eine entfernte Einrichtung 80 und ein Computer 78 in der veranschaulichten Ausführungsform dargestellt sind, jedoch zahlreiche entfernte Einrichtungen 80 und/oder Computer 78 verwendet werden können.
  • Die persönliche mobile Vorrichtung 90 ist eine mobile Vorrichtung und kann beinhalten: Hardware, Software und/oder Firmware, die Mobilfunktelekommunikation und SRWC sowie andere Mobilgeräteanwendungen ermöglichen. Wie hierin verwendet, ist eine persönliche mobile Vorrichtung eine mobile Vorrichtung, die SRWC-fähig ist und die von einem Benutzer tragbar ist, und wobei die Tragbarkeit der Vorrichtung zumindest teilweise vom Benutzer abhängig ist, wie beispielsweise ein tragbares Gerät (z. B. eine Smartwatch), ein implantierbares Gerät oder ein Handheld-Gerät (z. B. ein Smartphone, ein Tablet, ein Laptop). Wie hierin verwendet, ist eine drahtlose Nahbereichs-Kommunikations-(SRWC)-Vorrichtung eine SRWC-fähige Vorrichtung. Die persönliche mobile Vorrichtung 90 kann eine Clientvorrichtung sein und kann einen Prozessor und einen Speicher (z. B. ein nicht-flüchtiges, computerlesbares Medium, das für den Betrieb mit dem Prozessor konfiguriert ist) zum Speichern der Software, Firmware usw. beinhalten. Der Prozessor und der Speicher der persönlichen mobilen Vorrichtungen können verschiedene Softwareanwendungen 92 ermöglichen, die vom Benutzer (oder Hersteller) vorinstalliert oder installiert werden können (z. B. mit einer Softwareanwendung oder grafischen Benutzeroberfläche (GUI)).
  • Eine Implementierung einer Anwendung 92 für mobile Vorrichtungen kann Empfangen von Sprache und Verarbeiten der empfangenen Sprache unter Verwendung von Spracherkennungsmethoden ermöglichen, von denen einige eine Spracharbitrierung gemäß verschiedenen Ausführungsformen des hierin erörterten Verfahrens beinhalten können. So kann beispielsweise die mobile Vorrichtung ein Mikrofon beinhalten, das den Empfang von Sprachwellen ermöglicht, die von einem oder mehreren Benutzern erzeugt werden. Die Spracharbitrierung kann auf der mobilen Vorrichtung gemäß dem im Folgenden beschriebenen Spracharbitrierungsprozess neuronaler Netzwerke durchgeführt werden. In einigen Ausführungsformen kann die Anwendung 92 oder eine andere Anwendung für mobile Vorrichtungen eine grafische Benutzeroberfläche beinhalten, die es einem Benutzer ermöglicht, Anmeldeinformationen einzugeben, Anmeldeinformationen zur Autorisierung und/oder Authentifizierung zu übermitteln, eine Verbindung mit dem Fahrzeug 12 einzugehen, Fahrzeugzustandsinformationen anzuzeigen, Fahrzeugfunktionen anzufordern, auszuführende Funktionen zu konfigurieren und/oder eine oder mehrere Fahrzeugeinstellungen zu konfigurieren. Die mobile Vorrichtung 90 können mit der drahtlosen Kommunikationsvorrichtung 30 gemäß einer oder mehreren SRWC-Technologien oder drahtgebundenen Verbindungen, wie beispielsweise einer Verbindung über ein universelles serielles Buskabel (USB), kommunizieren. Obwohl eine einzelne mobile Vorrichtung 90 dargestellt ist, kann die Kommunikation 10 eine Vielzahl von mobilen Vorrichtungen 90 beinhalten.
  • Das Fahrzeug 12 ist in der veranschaulichten Ausführungsform als ein Personenkraftwagen dargestellt, es versteht sich jedoch, dass jedes andere Fahrzeug einschließlich Motorräder, Lastwagen, Geländewagen (SUVs), Campingfahrzeuge (RVs), Seeschiffe, Flugzeuge usw. ebenfalls verwendet werden kann. Ein Teil der Fahrzeugelektronik 20 wird im Allgemeinen in 1 gezeigt und beinhaltet ein globales Navigationssatellitensystem (GNSS) Modul 22, eine Motorsteuereinheit (ECU) 24, ein Karosserie-Steuermodul (BCM) 26, eine drahtlose Kommunikationsvorrichtung 30, die konfiguriert werden kann, um eine Spracharbitrierung neuronaler Netzwerke und/oder eine Spracherkennungsverarbeitung durchzuführen, andere Fahrzeugsystemmodule (VSMs) 42 und zahlreiche andere Komponenten und Vorrichtungen. Ein Teil bzw. die gesamte Fahrzeugelektronik kann zur Kommunikation miteinander über eine oder mehrere Kommunikationsbusse, wie z. B. Bus 44, verbunden werden. Der Kommunikationsbus 44 stellt der Fahrzeugelektronik unter Verwendung einer oder mehrerer Netzwerkprotokolle Netzwerkverbindungen bereit. Beispiele geeigneter Netzwerkverbindungen beinhalten ein Controller Area Network (CAN), einen medienorientierten Systemtransfer (MOST), ein lokales Kopplungsstrukturnetzwerk (LIN), ein lokales Netzwerk (LAN) und andere geeignete Verbindungen, wie z. B. Ethernet, oder andere, die u. a. den bekannten ISO-, SAE- und IEEE-Standards und -Spezifikationen entsprechen.
  • Das Fahrzeug 12 kann zahlreiche Fahrzeugsystemmodule (VSMs) als Teil der Fahrzeugelektroniken 20 beinhalten, wie beispielsweise das GNSS-Modul 22, das ECU 24, das BCM 26, die drahtlose Kommunikationsvorrichtung 30, sowie die Fahrzeugbenutzeroberflächen 52-58, wie im Folgenden näher beschrieben wird. Das Fahrzeug 12 kann auch andere VSMs 42 in Form von elektronischen Hardwarekomponenten beinhalten, die sich im gesamten Fahrzeug befinden und eine Eingabe von einem oder mehreren Sensoren empfangen und die erfassten Eingaben verwenden, um Diagnose-, Überwachungs-, Steuerungs-, Berichterstattungs- und/oder andere Funktionen auszuführen. Jedes der VSMs 42 kann über den Kommunikationsbus 44 mit den anderen VSMs verbunden werden und kann zur Durchführung von Tests des Fahrzeugsystems und der Untersystemdiagnose programmiert werden. Ein oder mehrere VSMs 42 können ihre Software oder Firmware periodisch oder gelegentlich aktualisieren lassen und, in einigen Ausführungsformen können derartige Fahrzeug-Updates Over-the-Air-(OTA)-Updates sein, die von einem Computer 78 oder einem entfernten Standort 80 über das Festnetz 76 und Kommunikationsvorrichtungen 30 empfangen werden. Fachleute auf dem Fachgebiet werden erkennen, dass es sich bei den vorgenannten VSMs nur um Beispiele von einigen der Module handelt, die im Fahrzeug 12 verwendet werden können, zahlreiche andere Module jedoch ebenfalls möglich sind.
  • Das globale Navigationssatellitensystem-(GNSS)-Modul 22 empfängt Funksignale von einer Konstellation von GNSS-Satelliten. In einer Ausführungsform kann das GNSS-Modul 22 ein globales Positionsbestimmungssystem-(GPS-Global Positioning System)-Modul sein, das GPS-Signale von einer Konstellation von GPS-Satelliten 60 empfängt. Mithilfe dieser Signale kann das Modul 22 die Fahrzeugposition bestimmen, die es dem Fahrzeug ermöglichen kann, zu bestimmen, ob es sich an einem bekannten Ort, wie dem Zuhause oder am Arbeitsplatz, befindet. Darüber hinaus kann das GNSS-Modul 22 diese Ortsdaten (z. B. geografische Koordinaten) der drahtlosen Datenübertragungsvorrichtung 30 bereitstellen, die diese Daten verwenden kann, um bekannte Standorte, wie das Zuhause oder den Arbeitsplatz des Fahrzeugführers, zu identifizieren. Zusätzlich kann das GNSS Modul 22 verwendet werden, um dem Fahrzeugführer Navigations- und sonstige positionsbezogene Dienste bereitzustellen. Navigationsinformationen können auf der Anzeige 58 (oder einer anderen Anzeige innerhalb des Fahrzeugs) dargestellt oder in verbaler Form präsentiert werden, wie es beispielsweise bei der Wegbeschreibungsnavigation der Fall ist. Die Navigationsdienste können unter Verwendung von einem zugehörigen Fahrzeugnavigationsmodul (das Teil des GNSS-Moduls 22 sein kann) bereitgestellt werden, oder einige oder alle Navigationsdienste können über eine im Fahrzeug installierte Telematikeinheit erfolgen, worin die Positionsinformationen zum Zweck des Ausstattens des Fahrzeugs mit Navigationskarten, Kartenanmerkungen (Sehenswürdigkeiten, Restaurants usw.), Routenberechnungen und dergleichen zu einem entfernten Standort gesendet werden. Die Standortinformationen können an die entfernte Einrichtung 80 oder an ein anderes Remotecomputersystem, wie beispielsweise den Computer 78, für andere Zwecke, wie beispielsweise einen Carsharing-Dienst, übermittelt werden. Außerdem können neue oder aktualisierte Kartendaten über eine im Fahrzeug eingebaute Telematikeinheit vom entfernten Standort 80 in das GNSS-Modul 22 heruntergeladen werden.
  • Die Fahrzeugelektroniken 20 beinhalten auch eine Anzahl an Fahrzeugbenutzeroberflächen, die Fahrzeuginsassen mit einem Mittel zum Bereitstellen und/oder das Empfangen von Informationen ausstattet, einschließlich Drucktaste(n) 52, Audiosystem 54, Mikrofon 56 und optische Anzeige 58. Wie hierin verwendet, umfasst der Begriff „Fahrzeugbenutzeroberfläche“ weitgehend jede geeignete Form von elektronischer Vorrichtung, zu dem sowohl im Fahrzeug befindliche Hardware- als auch Softwarekomponenten gehören und einem Fahrzeugbenutzer wird ermöglicht, mit oder durch eine(r) Komponente des Fahrzeugs zu kommunizieren. Die Drucktaste(n) 52 ermöglichen eine manuelle Benutzereingabe in die Kommunikationsvorrichtung 30, um weitere Daten, Reaktionen oder Steuereingänge bereitzustellen. Das Audiosystem 54 stellt eine Audioausgabe an einen Fahrzeuginsassen bereit und kann ein zugehöriges selbstständiges System oder Teil des primären Fahrzeugaudiosystems sein. Gemäß der bestimmten Ausführungsform, die hier gezeigt ist, ist das Audiosystem 54 operativ sowohl mit dem Fahrzeugbus 44 als auch mit einem Entertainmentbus (nicht dargestellt) gekoppelt und kann AM-, FM- und Satellitenradio, CD-, DVD- und andere Multimediafunktionalität bereitstellen. Diese Funktionalität kann in Verbindung mit dem Infotainmentmodul oder davon unabhängig bereitgestellt werden. Das Mikrofon 56 stellt eine Audioeingabe für die drahtlose Kommunikationsvorrichtung 30 zur Verfügung, damit der Fahrer oder ein anderer Insasse Sprachbefehle und/oder Freisprechfunktionen über das drahtlose Trägersystem 70 ausführen kann, die mit Spracharbitrations- und -erkennungstechniken verarbeitet werden können, wie im Folgenden näher erläutert. Das Mikrofon 56 kann mit einer integrierten automatisierten Sprachverarbeitungseinheit verbunden werden, die die in der Technik bekannte Mensch-Maschine-Schnittstelle (HMI) nutzt. Die optische Anzeige oder der Touchscreen 58 ist vorzugsweise eine Grafikanzeige, wie beispielsweise ein Touchscreen am Armaturenbrett oder eine Warnanzeige, die von der Frontscheibe reflektiert wird und verwendet werden kann, um eine Vielzahl von Eingabe- und Ausgabefunktionen bereitzustellen. Verschiedene andere Fahrzeugbenutzeroberflächen können ebenfalls verwendet werden, denn die Schnittstellen von 1 dienen lediglich als Beispiel für eine bestimmte Implementierung.
  • Das Bordnetzsteuergerät (BCM) 26 wird in der exemplarischen Ausführungsform aus 1 als mit dem Kommunikationsbus 44 elektrisch verbunden, dargestellt. In einigen Ausführungsformen kann das BCM 26 mit oder als Teil eines Mittelstapelmoduls (CSM) und/oder mit der drahtlosen Kommunikationsvorrichtung 30 integriert werden. Alternativ dazu sind das BCM und das CSM voneinander getrennte Vorrichtungen, die über Bus 44 miteinander verbunden sind. Das BCM 26 kann einen Prozessor und/oder Speicher beinhalten, der dem Prozessor 36 und dem Speicher 38 der drahtlosen Kommunikationsvorrichtung 30 ähnlich sein kann, wie nachfolgend erläutert wird. Das BCM 26 kann mit der drahtlosen Datenübertragungsvorrichtung 30 und/oder einem oder mehreren Fahrzeugsystem-Modulen, wie beispielsweise dem GNSS 22, dem Audiosystem 54, und sonstigen VSMs 42 kommunizieren. Der Prozessor und der Speicher des BCM 36 können verwendet werden, um einen oder mehrere Fahrzeugvorgänge zu steuern oder auszuführen, einschließlich beispielsweise der Steuerung von Zentralverriegelung, Klimaanlage, Außenspiegeln, der Steuerung der Fahrzeugzündung oder des Primärbewegers (z. B. Motor, Primärantriebssystem) und/oder der Steuerung verschiedener anderer Fahrzeugmodule. Das BCM 26 kann Daten von der drahtlosen Kommunikationsvorrichtung 30 empfangen, und die Daten anschließend an ein oder mehrere Fahrzeugmodule senden.
  • Darüber hinaus kann das BCM 26 Informationen bereitstellen, die dem Fahrzeugzustand oder bestimmten Fahrzeugkomponenten oder -systemen entsprechen. So kann beispielsweise das BCM der drahtlosen Kommunikationsvorrichtung 30 Informationen zur Verfügung stellen, die anzeigen, ob die Zündung des Fahrzeugs eingeschaltet ist, in welchem Gang sich das Fahrzeug gerade befindet (d. h. im Gangzustand) und/oder weitere Informationen bezüglich des Fahrzeugs. Das BCM 26 kann verwendet werden, um einen oder mehrere Fahrzeugzustände zu bestimmen, wie beispielsweise ob das Fahrzeug eingeschaltet ist, die Batterieladung einer Fahrzeugbatterie und/oder andere Fahrzeugzustände. Diese verschiedenen Fahrzeugzustände können als drahtlose Kommunikationsvorrichtung 30 erhalten und als Eingabe in den Spracharbitrierungsprozess neuronaler Netzwerke verwendet wird.
  • Die drahtlose Kommunikationsvorrichtung 30 ist in der Lage, Daten über die drahtlose Kurzstreckenkommunikation (SRWC) zu übertragen und kann in einigen Ausführungsformen Daten über die Kommunikation über das Mobilfunknetz übertragen. Wie in der exemplarischen Ausführungsform aus 1 dargestellt, beinhaltet die drahtlose Kommunikationsvorrichtung 30 eine SRWC-Schaltung 32, einen Mobilfunk-Chipsatz 34, einen Prozessor 36, einen Speicher 38 und die Antennen 40 und 50. In einigen Ausführungsformen kann die drahtlose Kommunikationsvorrichtung 30 speziell konfiguriert sein, um das hierin offenbarte Verfahren durchzuführen. In einer Ausführungsform kann die drahtlose Kommunikationsvorrichtung 30 ein selbständiges Modul sein oder die Vorrichtung 30 kann in anderen Ausführungsformen als Teil eines oder mehrerer anderer Fahrzeugsystemmodule integriert oder mit einbezogen werden, wie beispielsweise eines Center-Stack-Moduls (CSM), eines BCM 26, eines Infotainment-Moduls, einer Telematikeinheit, einer Kopfeinheit, und/oder eines Gateway-Moduls. In einigen Ausführungsformen, kann die Vorrichtung 30 als eine OEM-installierte (eingebettete) oder als eine Aftermarket-Vorrichtung, die in das Fahrzeug installiert wird, implementiert werden.
  • Die drahtlose Kommunikationsvorrichtung 30 kann für die drahtlose Kommunikation gemäß einem oder mehreren drahtlosen Protokollen, einschließlich drahtloser Nahbereichskommunikation (SRWC), wie beispielsweise eines der IEEE 802.11-Protokolle, Wi-Fi™, WiMAX™, ZigBee™, Wi-Fi™ direkt, Bluetooth™, Bluetooth™ Low Energy (BLE) oder Nahfeldkommunikation (NFC), konfiguriert sein. Wie hierin verwendet, bezieht sich Bluetooth™ auf jede der Bluetooth™-Technologien, wie beispielsweise Bluetooth Low Energy™ (BLE), Bluetooth™ 4.1, Bluetooth™ 4.2, Bluetooth™ 5.0 und andere Bluetooth™-Technologien, die entwickelt werden können. Wie hierin verwendet, bezieht sich Wi-Fi™ oder Wi-Fi™-Technologie auf jede der Wi-Fi™-Technologien, wie beispielsweise IEEE 802.11b/g/n/ac oder jede andere IEEE 802.11-Technologie. Die drahtlose Nahbereichskommunikations-Schaltung 32 ermöglicht der drahtlosen Kommunikationsvorrichtung 30 das Senden und Empfangen von SRWC-Signalen, wie beispielsweise BLE-Signale. Die SRWC-Schaltung kann die Verbindung zwischen der Vorrichtung 30 und einer anderen SRWC-Vorrichtung ermöglichen. Darüber hinaus kann die drahtlose Kommunikationsvorrichtung in einigen Ausführungsformen einen Mobilfunk-Chipsatz 34 enthalten, wodurch der Vorrichtung ermöglicht wird, über ein oder mehrere Mobilfunkprotokolle zu kommunizieren, wie sie beispielsweise vom Mobilfunkträgersystem 70 verwendet werden.
  • Die drahtlose Kommunikationsvorrichtung 30 kann dem Fahrzeug 12 ermöglichen, über paketvermittelte Datenkommunikation mit einem oder mehreren entfernten Netzwerken verbunden sein. Diese paketvermittelte Datenkommunikation kann durch die Nutzung eines nicht fahrzeuggebundenen drahtlosen Zugangspunkts erfolgen, der über einen Router oder ein Modem mit einem Festnetz verbunden ist. Wenn die Datenübertragungsvorrichtung 30 für paketvermittelte Datenkommunikation, wie etwa TCP/IP, verwendet wird, kann sie mit einer statischen IP-Adresse konfiguriert oder eingerichtet werden, um eine zugewiesene IP-Adresse von einer anderen Vorrichtung im Netzwerk, wie z. B. einem Router oder einem Netzwerkadressenserver, automatisch zu empfangen.
  • Paketvermittelte Datenübertragungen können auch über die Verwendung eines Mobilfunknetzes durchgeführt werden, auf das die Vorrichtung 30 zugreifen kann. Die Kommunikationsvorrichtung 30 kann Daten mittels einem Mobilfunk-Chipsatz 34 über das Drahtlosträgersystem 70 übertragen. In einer derartigen Ausführungsform können Funkübertragungen dazu verwendet werden, einen Kommunikationskanal, wie beispielsweise einen Sprachkanal und/oder einen Datenkanal, mit dem Drahtlosträgersystem 70 einzurichten, sodass Sprach- und/oder Datenübertragungen über den Kanal gesendet und empfangen werden können. Daten können entweder über eine Datenverbindung, wie Paketdatenübertragung über einen Datenkanal oder über einen Sprachkanal, unter Verwendung von auf dem Fachgebiet bekannten Techniken gesendet werden. Für kombinierte Dienste, die sowohl Sprach- als auch Datenkommunikation einschließen, kann das System einen einzelnen Anruf über einen Sprachkanal verwenden und nach Bedarf zwischen Sprach- und Datenübertragung über den Sprachkanal umschalten, auch hier kommen Techniken zum Einsatz, die unter Fachleuten bekannt sind. Es ist zu beachten, dass die mobile Vorrichtung 90 einen Mobilfunk-Chipsatz und/oder andere Kommunikationsmittel beinhalten kann, die für die paketvermittelte Datenkommunikation verwendet werden können.
  • Der Prozessor 36 kann jede Geräteart sein, die fähig ist elektronische Befehle zu verarbeiten, einschließlich Mikroprozessoren, Mikrocontrollern, Hostprozessoren, Steuerungen, Fahrzeugkommunikationsprozessoren und anwendungsspezifische integrierte Schaltungen (ASICs). Er kann ein speziell für die Datenübertragungsvorrichtung 30 vorgesehener Prozessor sein oder er kann mit anderen Fahrzeugsystemen gemeinsam genutzt werden. Der Prozessor 36 führt verschiedene Arten von digital gespeicherten Befehlen aus, wie Software oder Firmwareprogramme, die im Speicher 38 gespeichert sind, welche dem Gerät 30 ermöglichen, eine große Vielfalt von Diensten bereitzustellen. So kann beispielsweise der Prozessor 36 in mindestens einer Ausführungsform Programme oder Prozessdaten ausführen, um mindestens einen Teil des hierin beschriebenen Verfahrens auszuführen, was die Durchführung einer Spracharbitrierung unter Verwendung eines neuronalen Netzwerkmodells beinhalten kann. Der Speicher 38 kann einen flüchtigen RAM-Speicher oder einen anderen temporär betriebenen Speicher sowie ein nichtflüchtiges computerlesbares Medium (z. B. EEPROM) oder jedes andere elektronische Computermedium beinhalten, das einen Teil oder die gesamte Software zur Durchführung der verschiedenen hierin beschriebenen externen Gerätefunktionen speichert.
  • In einer Ausführungsform kann die drahtlose Kommunikationsvorrichtung 30 sowohl im eingeschalteten Zustand als auch im ausgeschalteten Zustand betrieben werden. Wie hierin verwendet, ist ein „eingeschalteter Zustand“ ein Zustand des Fahrzeugs, in dem das Zünd- oder Primärantriebssystem des Fahrzeugs eingeschaltet ist und, wie hierin verwendet, ist ein „abgeschalteter Zustand“ ein Zustand des Fahrzeugs, in dem die Zündung oder das Primärantriebssystem des Fahrzeugs nicht eingeschaltet ist. Der Betrieb oder Zustand der drahtlosen Kommunikationsvorrichtung 30 kann durch ein anderes Fahrzeugsystemmodul, wie beispielsweise durch das BCM 26 oder durch ein Infotainment-Modul gesteuert werden. Im eingeschalteten Zustand kann die drahtlose Kommunikationsvorrichtung 30 immer „eingeschaltet“ bleiben oder von einer Fahrzeugbatterie oder einer anderen Stromquelle versorgt werden. Im ausgeschalteten Zustand kann die drahtlose Kommunikationsvorrichtung 30 in einem Niedrigverbrauchsmodus gehalten werden oder periodisch mit Energie versorgt werden, sodass die Vorrichtung 30 aktiviert werden und Funktionen ausführen kann.
  • Unter nun erfolgender Bezugnahme auf 2, wird eine veranschaulichende Architektur für ein ASR-System 210 gezeigt, das für die Umsetzung des hierin offenbarten Verfahrens verwendet werden kann. Obwohl das ASR-System 210 im Folgenden in Bezug auf die drahtlose Kommunikationsvorrichtung 30 des Fahrzeugs 12 erläutert wird, kann das ASR-System 210 in jede Clientvorrichtung, wie die oben beschriebenen, integriert werden, einschließlich der mobilen Vorrichtung 90 und der Computer 78. Ein ASR-System, das dem ASR-System 210 ähnlich oder gleich ist, kann in einen oder mehrere entfernte Sprachverarbeitungsserver integriert werden, einschließlich eines oder mehrerer sich an der entfernten Einrichtung 80 befindlicher Server. Generell interagiert ein Fahrzeuginsasse über seine Stimme mit einem automatischen Spracherkennungssystem (ASR) aus einem oder mehreren der folgenden Gründe: Trainieren des Systems auf die spezifische Stimme der Person im Fahrzeug; Speichern von Wort-für-Wort-Begriffen, wie ein gesprochener Kontakt, oder ein gesprochenes Kontrollwort, wie eine Bezugszahl oder ein Schlüsselwort; oder Erkennung der Sprache der Person im Fahrzeug für alle geeigneten Zweck, wie Sprachanwahl, Menü-Navigation, Transkription, Dienstabrufe, Steuerung von Geräten und deren Funktion im Fahrzeug oder ähnliches. Generell zieht ASR akustische Daten aus der menschlichen Sprache, vergleicht und kontrastiert die akustischen Daten mit gespeicherten Daten von Teilwörtern, trifft eine Auswahl eines geeigneten Teilwortes das mit anderen gewählten Teilwörtern verkettet werden kann und gibt die verketteten Teil-Wörter zur Nachbearbeitung weiter, beispielsweise Diktat oder Transkription, Anwahl aus dem Adressbuch, Speichern, Training der ASR-Modelle oder Anpassung der Parameter usw.
  • ASR-Systeme sind Fachleuten im Allgemeinen bekannt und 2 veranschaulicht nur ein spezifisches veranschaulichendes ASR-System 210. Das System 210 beinhaltet eine Vorrichtung zum Empfangen von Sprache, wie beispielsweise das Fahrzeugmikrofon 56, und eine akustische Schnittstelle 33, wie beispielsweise eine Soundkarte der drahtlosen Kommunikationsvorrichtung 30 mit einem Analog-Digital-Wandler zum Digitalisieren der Sprache in akustische Daten. Das System 210 beinhaltet auch einen Speicher, wie den Fahrzeugspeicher 38 zum Speichern der akustischen Daten und zum Speichern von Spracherkennungssoftware und von Datenbanken, und einen Prozessor, wie den Fahrzeugprozessor 36 zum Verarbeiten der akustischen Daten. Der Prozessor arbeitet mit dem Speicher und in Verbindung mit den folgenden Modulen: ein oder mehrere Front-End-Prozessor(en) oder Präprozessor-Softwaremodule 212 zur Zerlegung akustischer Daten der Sprachausgabe in parametrischen Darstellungen, wie z.B. akustische Eigenschaften; ein oder mehrere Decoder-Softwaremodul(e) 214 zur Decodierung der akustischen Eigenschaften in digitale Ausgabedaten in Form von (Teil-)Wörtern entsprechend der Eingabe-Sprachäußerungen; und ein oder mehrere Postprozessor-Softwaremodule 276 zur Verwendung der Ausgabedaten aus dem/den Decoder-Modul(en) 214 für alle geeigneten Zwecke.
  • Das System 210 kann auch Sprachaufnahmen aus anderen geeigneten Audioquellen 31 empfangen, entweder in direkter Kommunikation mit dem/den Modulen der Präprozessor-Software 212, wie anhand der durchgezogenen Linie zu sehen, oder indirekt über die akustische Schnittstelle 33. Zu den Audioquellen 31 können zum Beispiel eine telefonische Quelle, wie ein Voicemail-System oder andere, beliebige telefongestützte Dienste gehören.
  • Ein oder mehrere Module oder Modelle kann/können als Eingabe für das/die Decoder-Module 214 verwendet werden. Zunächst können Grammatik- und/oder Lexikonmodelle 278 Regeln liefern, die festlegen, welche Wörter logischerweise auf andere Wörter folgen können, um gültige Sätze zu bilden. Grob gesagt kann eine Grammatik ein Vokabeluniversum definieren, welches das System 210 zu jeder gegebenen Zeit bei jedem ASR-Modus erwartet. Befindet sich das System 210 beispielsweise im Trainingsmodus, um Befehle zu erlernen, dann kann/können das/die Grammatikmodelle 278 Befehle einschließen, die dem System 210 bekannt sind und von diesem genutzt werden. Befindet sich das System 210 bei einem anderen Beispiel im Hauptmenü-Modus, dann kann/können das/die aktiven Grammatikmodelle 278 alle Hauptmenübefehle einschließen, die das System 210 erwartet, beispielsweise Anruf, Wählen, Verlassen, Löschen, Verzeichnis oder ähnliches. Weiterhin wird durch das/die akustischen Modelle 280 eine Unterstützung bei der Auswahl des wahrscheinlichsten TeilWortes entsprechend der Eingabe des Präprozessor-Moduls 212 geleistet. Drittens können Wortmodelle 222 und Satz-/Sprachmodelle 224 Regeln, Syntax, und/oder Semantik bei der Einordnung der ausgewählten Teil-Wörter oder Wörter in den Kontext der Wörter oder Sätze liefern. Weiterhin kann/können Satz- und Sprachmodelle 224 ein Universum von Sätzen schaffen, die das System 210 zu jeder gegebenen Zeit bei jedem ASR-Modus erwartet und/oder Regeln bereitstellen, die festlegen, welche Sätze logischerweise auf andere Sätze folgen können, um eine erweiterte, gültige Sprachausgabe zu bilden.
  • Gemäß einer alternativen veranschaulichenden Ausführungsform kann ein Teil oder das gesamte ASR-System 210 auf einer Rechenausrüstung an einem vom Fahrzeug 12 entfernten Ort, wie beispielsweise dem Computer 78 oder der entfernten Einrichtung 80, untergebracht und verarbeitet werden. So können beispielsweise Grammatikmodelle, akustische Modelle und dergleichen im Speicher eines der Server und/oder Datenbanken in der entfernten Einrichtung 80 gespeichert und an die drahtlose Fahrzeugkommunikationsvorrichtung 30 zur fahrzeugeigenen Sprachverarbeitung übermittelt werden. Ebenso kann die Spracherkennungssoftware unter Verwendung von Prozessoren eines der entfernten Server in der entfernten Einrichtung 80 verarbeitet werden. Mit anderen Worten kann das ASR-System 210 in der drahtlosen Kommunikationsvorrichtung 30, die über den Computer 78/der entfernten Einrichtung 80 und das Fahrzeug 12 in beliebiger Weise verteilt ist, untergebracht sein, und/oder auf dem Computer 78 oder der entfernten Einrichtung 80 untergebracht sein.
  • Zunächst werden akustische Daten aus der menschlichen Sprache extrahiert, die ein Fahrzeuginsasse über das Mikrofon 56 eingegeben hat, welches die Laute in elektrische Signale umwandelt und an die akustische Schnittstelle 33 übergibt. Ein klangempfindliches Element im Mikrofon 56 erfasst die Äußerungen des Insassen als Variationen im Luftdruck und wandelt die Äußerungen in entsprechende Variationen eines analogen, elektrischen Signals um, wie zum Beispiel Gleichstrom oder Spannung. Die akustische Schnittstelle 33 empfängt die analogen elektrischen Signale, die zunächst abgetastet werden, sodass die Werte des analogen Signals an bestimmten Punkten der Zeit erfasst werden, danach erfolgt eine Quantisierung in der Art, dass die Amplituden der analogen Signale an jedem Abtastzeitpunkt in einen kontinuierlichen Strom digitaler Sprachsignale konvertiert werden. Mit anderen Worten, die akustische Schnittstelle 33 wandelt die analogen, elektrischen Signale in digitale, elektronische Signale um. Die digitalen Daten sind Binärbits, die im Speicher 38 der drahtlosen Kommunikationsvorrichtung 30 gepuffert und dann vom Prozessor 36 der drahtlosen Kommunikationsvorrichtung 30 verarbeitet werden oder die verarbeitet werden können, sobald sie vom Prozessor 36 in Echtzeit empfangen werden.
  • Dann wird der kontinuierliche Strom von digitalen Sprachsignalen durch das/die Präprozessor-Module 212 in diskrete Sequenzen akustischer Parameter umgewandelt. Genauer gesagt, führt der Prozessor 36 das/die Präprozessormodul(e) 212 aus, um die digitalen Sprachdaten in überlappende phonetische oder akustische Einzelbilder von beispielsweise 10-30 Millisekunden (ms) Dauer zu segmentieren. Die Rahmen entsprechen akustischen Teilwörtern, wie Silben, Halbsilben, Phonen, Diphonen, Phonemen usw. Das/die Präprozessor-Module 212 führt/führen für jeden Rahmen auch eine phonetische Analyse zur Extraktion akustischer Parameter aus der Sprachausgabe des Insassen durch, wie beispielsweise zeitvariable Merkmalsvektoren. Äußerungen in der Sprache des Insassen können als Sequenzen dieser Merkmalsvektoren dargestellt werden. Wie unter Fachleuten wohl bekannt ist, können Merkmalsvektoren extrahiert werden und beispielsweise beinhalten: Stimmlage, Energieprofil, spektrale Merkmale und/oder Cepstral-Koeffizienten durch Fouriertransformationen der Rahmen und Dekorrelieren der akustischen Spektren mittels einer Cosinus-Transformation. Akustische Rahmen und entsprechende Parameter die eine bestimmte Sprechdauer abdecken, werden für die Dekodierung zu unbekannten Testmustern verkettet.
  • Als dritten Schritt lässt der Prozessor das/die Decoder-Module 214 ablaufen, um die eingehenden Merkmalsvektoren jedes Testmusters zu verarbeiten. Das/die Decoder-Module 214 sind auch als Erkennungs-Engine oder Klassifikator bekannt und verwenden gespeicherte Sprachreferenzmuster. Wie die Prüfmuster sind auch die Referenzmuster als eine Verkettung verwandter akustischer Rahmen und entsprechender Parameter definiert. Das Decoder-Modul 214 vergleicht und kontrastiert die akustischen Merkmalsvektoren eines Testmusters für Teilwörter zum Abgleich mit gespeicherten Referenzmustern für Teilwörter, untersucht den Grad der Differenz oder Ähnlichkeit dazwischen, und wendet schließlich Entscheidungslogik zur Auswahl des am ehesten übereinstimmenden Teilwortes als das erkannte Teilwort an. Generell ist das am ehesten übereinstimmende Teilwort das, welches dem gespeicherten Referenzmuster mit der geringsten Abweichung gleicht, oder mit der höchsten Wahrscheinlichkeit übereinstimmt, das Testmuster wird durch eine der verschiedenen unter Fachleuten bekannten Techniken zur Analyse und Erkennung von Teilwörtern ermittelt. Derartige Techniken können beinhalten: dynamische Time-Warping-Klassifikatoren, KI-Techniken, Neuronale Netze, freie Phonemerkenner, und/oder probabilistische Musteranpassungseinrichtungen, wie ein Engine nach dem Hidden Markov Model (HMM).
  • Das HMM ist unter Fachleuten für die Erstellung vieler Modellhypothesen für Spracherkennung einer akustischen Eingabe bekannt. Die Hypothesen werden bei der abschließenden Identifikation und Auswahl der Ausgabe berücksichtigt, die aufgrund der Merkmalsanalyse der Sprache die wahrscheinlichste korrekte Dekodierung der akustischen Eingabe darstellt. Genauer gesagt erzeugt ein HMM-Engine statistische Modelle in Form einer „N-best“-Liste der Hypothesen für Teilwort-Modelle, die abgestuft anhand von HMMberechneten Vertrauenswerten oder Wahrscheinlichkeiten einer beobachteten Sequenz von akustischen Daten das eine oder andere Teilwort durch eine Anwendung, wie das Bayes'-Theorem, ermitteln.
  • Ein Bayesisches HMM-Verfahren identifiziert eine beste Hypothese entsprechend der wahrscheinlichsten Äußerung, oder Teilwort-Sequenz für eine gegebene Beobachtungsreihe von akustischen Merkmalsvektoren, deren Vertrauenswerte von einer Vielzahl von Faktoren abhängen, so auch dem Rauschabstand des eingehenden Akustiksignals. Das HMM kann auch eine statistische Verteilung enthalten, die als Mischung diagonaler Gauss'scher Werte bekannt ist und einen Wahrscheinlichkeitswert für jeden festgestellten Merkmalsvektor jedes Teilwortes enthält, die Werte können zur Neuordnung der N-best-Liste von Hypothesen verwendet werden. Der HMM-Engine kann auch zur Identifikation und Auswahl eines Teilwortes verwendet werden, dessen Wert im Wahrscheinlichkeitsmodell am höchsten ist.
  • Auf ähnliche Weise können einzelne HMM für eine Abfolge von Teilwörtern verkettet werden kann, um HMM für einzelne oder mehrere Wörter zu bilden. Danach kann eine N-best Liste von Wortreferenzmustern und zugeordneten Parameterwerten für einzelne oder mehrere Wörter erzeugt und weiter ausgewertet werden.
  • In einem Beispiel verarbeitet der Spracherkennungs-Decoder 214 die Merkmalsvektoren unter Verwendung der geeigneten akustischen Modelle, Grammatik und Algorithmen zur Erzeugung einer N-best Liste von Referenzmustern. In seiner Verwendung hierin ist der Begriff Referenzmuster austauschbar mit Modellen, Wellenformen, Vorlagen, Durchsatz-Modellen, Exemplaren, Hypothesen oder anderen Arten von Referenzen. Ein Referenzmuster kann eine Reihe von Merkmalsvektoren repräsentativ für ein Wort (oder mehrere Wörter) oder Teilwörter beinhalten und auf bestimmten Sprechern, Sprechstilen und akustischen Umgebungsbedingungen basieren. Fachleute werden erkennen, dass Referenzmuster durch entsprechendes Referenzmuster-Training des ASR-Systems erstellt und im Speicher abgelegt werden können. Fachleute werden weiterhin erkennen, dass auch gespeicherte Muster verändert werden können, worin die Parameterwerte der Referenzmuster aufgrund von Unterschieden bei den Signalen der Spracheingabe beim Referenzmuster-Training und dem aktuellen Einsatz des ASR-Systems angepasst werden. So kann beispielsweise ein Satz von Referenzmustern, die für einen Fahrzeuginsassen, oder bestimmte akustische Verhältnisse erlernt wurden, für einen anderen Fahrzeuginsassen, oder andere akustische Bedingungen angepasst und als anderer Satz von Referenzmuster gespeichert werden, das beruht auf begrenzten Anlerndaten der anderen Person oder akustischen Bedingungen. Mit anderen Worten sind die Muster nicht notwendigerweise starr, sie können während der Spracherkennung angepasst werden.
  • Bei der Verwendung der Grammatik im Vokabular und aller geeigneten Decoder-Algorithmen und akustischen Modelle greift der Prozessor auf zahlreiche Referenzmuster im Speicher zu, die das Testmuster interpretieren. So kann der Prozessor beispielsweise eine Liste von N-best Vokabularergebnissen oder Referenzmustern zusammen mit entsprechenden Parameterwerten erstellen und abspeichern. Anschauliche Parameterwerte können für jedes Referenzmuster in der N-best-Liste des Vokabulars und zugehöriger Segmentdauern Wertungen für Vertrauen und Wahrscheinlichkeit, Werte für den Rauschspannungsabstand und/oder dergleichen beinhalten. Die N-best-Liste des Vokabulars kann in abnehmender Größe der Parameterwerte sortiert werden. Das Vokabular-Referenzmuster ist beispielsweise mit dem höchsten Vertrauenswert das beste Referenzmuster und so weiter. Sobald eine Reihe von erkannten Teilwörtern erstellt ist, können diese zur Formung von Wörtern mit Eingaben der Wortmodelle 222 genutzt werden, Sätze hingegen mit Eingaben der Sprachmodelle 224.
  • Abschließend empfangen die Postprozessor-Softwaremodul(e) 276 die Ausgabedaten aus dem/den Decoder-Modul(en) 214 für alle geeigneten Zwecke. Bei einem Beispiel kann/können das/die Postprozessor-Softwaremodul(e) 276 ein oder mehrere Referenzmuster aus der N-best-Liste für Referenzmuster einzelner oder mehrerer Wörter als erkannte Sprache identifizieren. In einem anderen Beispiel kann/können das/die Postprozessor-Softwaremodul(e) 276 verwendet werden, um akustische Daten in Text oder Ziffern für die Verwendung mit anderen Funktionen des ASR-Systems oder anderer Fahrzeugsysteme umzuwandeln. In einem weiteren Beispiel kann/können das/die Postprozessor-Softwaremodul(e) 276 verwendet werden, um ein Trainings-Feedback für den Decoder 214 oder Präprozessor 212 bereitzustellen. Genauer gesagt kann der Postprozessor 276 dafür eingesetzt werden, akustische Modelle für das/die Decoder-Modell(e) 214 oder Anpassungs-Parameter für das/die Präprozessor-Modul(e) 212 zu trainieren.
  • Und, wie aus der nachstehenden Diskussion hervorgeht, kann das ASR-System in eine Clientvorrichtung, wie beispielsweise Fahrzeug 12 oder mobile Vorrichtung 90, und/oder in eine Servervorrichtung, wie beispielsweise einen sich in der entfernten Einrichtung 80 befindlichen Server, integriert werden. Zumindest gemäß einigen Ausführungsformen kann das sich auf dem entfernten Server befindliche ASR-System mehr Rechenleistung sowie mehr Spracherkennungsinformationen beinhalten, die verwendet werden können, um ein leistungsfähigeres ASR-System als das sich auf der Clientvorrichtung befindliche bereitzustellen; wie Fachleuten auf dem Gebiet bereits bekannt ist, existieren jedoch auch andere Ausführungsformen.
  • Das ASR-System oder Teile davon können in einem Computerprogrammprodukt implementiert werden, das in einem computerlesbaren Medium verkörpert ist und Anweisungen enthält, die von einem oder mehreren Prozessoren eines oder mehrerer Computer eines oder mehrerer Systeme verwendet werden können. Ein Computersoftwareprodukt kann ein oder mehrere aus Programmanweisungen in Quellcode, Objektcode, ausführbarem Code oder einem anderen Format bestehende Softwareprogramme; ein oder mehrere Firmwareprogramme; oder Dateien einer Hardwarebeschreibungssprache (HDL); und andere programmbezogene Daten beinhalten. Die Daten können Datenstrukturen, Wertetabellen oder Daten in einem anderen geeigneten Format beinhalten. Die Programmbefehle können Programmmodule, Routinen, Programme, Objekte, Komponenten und/oder dergleichen beinhalten. Das Computerprogramm kann von einem oder mehreren Computern in Verbindung miteinander ausgeführt werden.
  • Das/die Programm(e) kann/können auf computerlesbaren Medien verkörpert sein, die ggf. nicht-flüchtig sind und ein oder mehrere Speichergeräte, Herstellungsartikel oder dergleichen beinhalten. Zu den Beispielen für computerlesbare Medien gehören Systemspeicher von Computern, z.B. RAM (Speicher mit wahlfreiem Zugriff), ROM (Nur-Lese-Speicher); Halbleiterspeicher, z.B. EPROM (löschbarer, programmierbarer ROM), EEPROM (elektrisch löschbarer, programmierbarer ROM), Flash-Speicher; magnetische oder optische Platten oder Bänder; und/oder dergleichen. Ein computerlesbares Medium kann außerdem Verbindungen von Rechner zu Rechner beinhalten, wenn beispielsweise Daten über ein Netzwerk oder eine andere Kommunikationsverbindung (drahtgebunden, drahtlos oder in einer Kombination von beiden) übertragen oder bereitgestellt werden. Sämtliche Kombinationen aus den vorstehenden Beispielen fallen ebenfalls in den Umfang der computerlesbaren Medien. Es versteht sich daher, dass das Verfahren zumindest teilweise durch elektronische Artikel und/oder Geräte ausgeführt werden kann, die Anweisungen gemäß eines oder mehrerer Schritte des offenbarten Verfahrens ausführen können.
  • Spracherkennungsarbitrierung -
  • Wie vorstehend erwähnt, können in einigen Beispielen zwei verschiedene automatische Spracherkennungsalgorithmen (ASR) (1) einen lokalen oder fahrzeugintegrierten Spracherkennungsalgorithmus und (2) einen Algorithmus zur entfernten Spracherkennung beinhalten. Lediglich als ein Beispiel kann die Telematikeinheit 30 des Fahrzeugs 12 einen ASR-Algorithmus als lokalen ASR-Motor aufweisen, während die entfernte Einrichtung 80 den entfernten ASR-Motor bereitstellt. In diesen Ansätzen können die Ergebnisse vom Fahrzeug 12 und der entfernten Einrichtung 80 jeweils verwendet werden, um den Inhalt der Sprache in Abhängigkeit von den Konfidenzniveaus (z. B. niedrig, mittel und hoch) zu bestimmen, die einem Ergebnis des Sprachthemas und einem Ergebnis des Sprachschlitzwertes für die einzelnen zugeordnet sind.
  • Unter Bezugnahme auf 4 sind Beispiele für die Auswahl von ASR-Ergebnissen aus zwei verschiedenen ASR-Methodiken aufgeführt, z. B. einem lokalen ASR und einem entfernten ASR. Unter Verwendung einer Heuristik zum Verstehen natürlicher Sprache (NLU) können ein Themenwert (z. B. aus Navigation, Audio, Telefonbefehl, E-Mail/SMS-Nachrichtenbefehl usw.) und ein Schlitzwert für eine bestimmte Spracheingabe unter Verwendung lokaler und entfernter ASR-Maschinen bestimmt werden. Die den einzelnen lokalen und entfernten ASR-Ergebnismaschinen zugeordneten Konfidenzniveaus können dann analysiert werden, um zu bestimmen, ob eines der Ergebnisse ausgewählt werden soll, und wenn ja, welches der beiden Ergebnisse ausgewählt werden soll.
  • Im Allgemeinen, wenn sowohl lokale ASR-Ergebnisse als auch entfernte/Server-ASR-Ergebnisse ein hohes Konfidenzniveau für das Thema oder den Schlitzwert aufweisen, dann wird das entfernte ASR-Ergebnis durch das Fahrzeug 12 nach einem „Server-auf-Top“-Verfahren bestimmt (oder dem Benutzer zur Bestätigung vorgelegt). In einer „eingebetteten-on-Top“-Methodik hingegen werden die eingebetteten oder lokalen ASR-Ergebnisse verwendet, wenn die jeweils zugehörigen Vertrauenswerte gleich sind.
  • Im Allgemeinen wählt die in 4 dargestellte exemplarische Methodik das Ergebnis, das dem Ergebnis mit dem höheren Konfidenzniveau zugeordnet ist, in einem Vergleich zwischen den lokalen und entfernten ASR-Ergebnissen aus, sofern das Ergebnis mit dem höheren Konfidenzniveau zumindest ein mittleres Konfidenzniveau ist. In Fällen, in denen sowohl lokale als auch entfernte Ergebnisse mit dem gleichen Konfidenzniveau, z. B. sowohl entfernte als auch Server-ASR-Ergebnisse niedrige, mittlere oder hohe Konfidenzniveaus aufweisen, kann ein Standard-ASR-Algorithmus der entfernten und Server-ASR-Algorithmen ausgewählt werden, sodass jede Verbindung zugunsten des Standard-ASR-Algorithmus gelöst wird. Darüber hinaus können in Fällen, in denen sowohl die entfernten als auch die Server-ASR-Ergebnisse ein niedriges Konfidenzniveau aufweisen, in einigen Fällen die Ergebnisse mit niedrigem Konfidenzniveau (entweder für das Thema oder den Schlitzwert, welcher der Spracheingabe zugeordnet ist) verwendet werden, um eine Bestimmung über den beabsichtigten Befehl in der Spracheingabe zu erreichen.
  • Die Verwendung von Ergebnissen mit niedrigem Konfidenzniveau kann in mehreren exemplarischen Ansätzen auftreten. In einem Ansatz, bei dem ein Thema sowohl von der entfernten als auch von der lokalen ASR-Maschine mit geringer Sicherheit bestimmt wird, können die Ergebnisse dennoch verwendet werden, solange die entfernten und lokalen ASR-Ergebnisse übereinstimmen. Wenn beispielsweise sowohl die eingebetteten/lokalen als auch die Server/entfernten Ergebnisse das gleiche Thema mit einem niedrigen Konfidenzniveau bestimmt haben, kann dieses Thema dem Benutzer durch das Fahrzeug 12 zur Bestätigung präsentiert werden, z. B. kann das Fahrzeug 12 den Benutzer fragen: „Haben Sie einen <Themen>-Befehl ausgesprochen?“ Die exemplarischen Themen können Navigation, Audiobefehle, Telefonbefehle oder andere fahrzeugbezogene Themen oder Funktionen mit hohem Komfort beinhalten. Auf diese Weise kann die Bestätigungsanforderung für den Benutzer beruhigend sein. Nach Bestätigung des Themas durch den Benutzer kann das Fahrzeug 12 den Benutzer auffordern, einen Folgebefehl in dem gegebenen Thema auszuführen. In einem Beispiel, in dem der Benutzer bestätigt, dass das Thema „Navigation“ ist, fordert das Fahrzeug 12 den Benutzer auf, „Bitte nennen Sie den Namen der Sehenswürdigkeit oder des Ziels“. Auf diese Weise kann es wahrscheinlicher sein, dass der Benutzer mit der Sprachsitzung fortfahren kann, wobei das allgemeine Thema bestätigt wird, unabhängig von dem niedrigen Konfidenzniveau in den ersten Ergebnissen für das Thema.
  • In Fällen, in denen die lokale und die Server-ASR jeweils ein Thema mit niedrigem Konfidenzniveau bestimmen, die Themen aber nicht übereinstimmen (z.B. eines bestimmt ein Thema zur Navigation, während das andere ein Thema zum Audiosystem bestimmt), können die Themenergebnisse dennoch zum Bestimmen des Inhalts der Sprachsteuerung verwendet werden. Wenn beispielsweise die von der lokalen oder Server-ASR bestimmten Schlitzwerte mindestens einen Konfidenzniveau-Schwellenwert aufweisen (z. B. ein mittleres Sicherheitsniveau), kann das Fahrzeug 12 den Benutzer um weitere Unterstützung bitten. Insbesondere kann das Fahrzeug 12 den Benutzer auffordern, ein auf den Befehl anwendbares Thema auszuwählen, indem er ein Menü mit verfügbaren Themen für Sprachbefehle bereitstellt. Lediglich als Beispiel kann das Fahrzeug 12 dem Benutzer, der nach einer Menüeingabe sucht, eine Anforderung anzeigen oder ein Audio abspielen, z. B. „Ich bemühe mich, Ihre Anforderung zu verstehen, bitte wählen Sie die entsprechende Anforderung aus der angezeigten Liste aus“. Dem Benutzer kann eine Liste mit verfügbaren Themen angezeigt werden, wie beispielsweise Navigation, Musik, Radiotuner, E-Mail/SMS-Nachricht, usw. Nachdem der Benutzer ausgewählt hat, welches Thema seinem Befehl zugeordnet ist, kann das Fahrzeug 12 und/oder die entfernte Einrichtung 80 Schlitzwerte anzeigen, die dem vom Benutzer bestätigten Thema zugeordnet sind. Mit anderen Worten, die Auswahl einer vom Benutzer erhaltenen Themeneingabe kann verwendet werden, um das entsprechende Thema zu lösen und einen oder mehrere Schlitzwerte zu identifizieren, die diesem Thema entsprechen. Wenn der Benutzer beispielsweise angibt, dass das Thema Navigation ist, kann das Fahrzeug 12 dem Benutzer eine Liste mit Sehenswürdigkeiten vorgeben oder anzeigen, die den Schlitzwerten entsprechen, z. B. „Sagten Sie, 1) Big Apple Bagels 2) Apple Retail Store 3) Apple-Makler?“ Auf diese Weise kann es wahrscheinlicher sein, dass der Benutzer mit der Sprachsitzung bis zum Abschluss fortfährt, wenn das Fahrzeug 12 weitere Informationen zum Befehl über die Anforderung, dass der Benutzer das zugehörige Thema bestätigt, anfordert.
  • Verfahren -
  • Unter nun erfolgender Bezugnahme auf 3, wird ein Prozessablaufdiagramm veranschaulicht, das exemplarische Verfahren zur Darstellung von Inhalten von einer oder mehreren mobilen Vorrichtungen in einem Fahrzeug darstellt. Der Prozess 300 kann unter Verwendung des Systems der 1 und 2 durchgeführt werden. Es beginnt bei Block 305, wobei Sprache an einem in einem Fahrzeug installierten Mikrofon empfangen wird, beispielsweise an einem im Fahrzeug 12 installierten Mikrofon 56 als Teil der Fahrzeugelektronik 20. So kann beispielsweise ein Insasse des Fahrzeugs 12 eine Sprachsitzung einleiten und einen Befehl bereitstellen. Das Verfahren 300 kann dann mit Block 310 fortfahren.
  • Bei Block 310 können Sprachergebnisse unter Verwendung eines ersten Algorithmus bestimmt werden, der ein erstes Sprechthema und einen ersten Sprachschlitzwert beinhaltet. In einigen Beispielen kann der erste Algorithmus ein lokaler Algorithmus sein, z. B. der auf einem Prozessor oder Computersystem läuft, das im Fahrzeug 12 installiert ist, wie beispielsweise die Telematikeinheit 30.
  • Fortfahrend zu Block 315 wird ein erstes Sprachthema-Konfidenzniveau für das erste Sprachthema bestimmt, sowie ein erstes Sprachwert-Konfidenzniveau für den ersten Sprachschlitzwert. In einem Beispiel werden die Konfidenzniveaus jeweils ohne Verwendung von numerischen Werten oder Normierung bestimmt. Vielmehr werden in diesen Beispielen das Konfidenzniveau des lokalen Sprachthemas und das Konfidenzniveau des lokalen Sprachwerts als eines von einem hohen Niveau, einem mittleren Niveau oder einem niedrigen Niveau bestimmt. Das Verfahren 300 kann dann mit Block 320 fortfahren.
  • Bei Block 320 können Sprachergebnisse unter Verwendung eines zweiten Algorithmus bestimmt werden, der sich vom ersten Algorithmus unterscheidet. Die Sprachergebnisse können ein zweites Sprachthema und einen zweiten Sprachschlitzwert beinhalten. In einigen Beispielen kann der zweite Algorithmus auf einem entfernten Server bestimmt werden, z. B. auf einem Prozessor oder Computersystem, das vom Fahrzeug 12 entfernt ist, wie beispielsweise der entfernten Einrichtung 80. In diesen Beispielen ist der zweite Spracherkennungsalgorithmus oder -maschine nicht durch die Fahrzeugelektronik begrenzt, die aufgrund von Platz, Gewicht und anderen Faktoren des Fahrzeugdesigns relativ begrenzt ist.
  • Fortfahrend zu Block 325 wird ein zweites Sprachthema-Konfidenzniveau für das zweite Sprachthema bestimmt, ebenso wie ein zweites Sprachwert-Konfidenzniveau für den zweiten Sprachschlitzwert. In einigen exemplarischen Ansätzen werden, wie bei den Ergebnissen der ersten Spracherkennungsschritte in den Blöcken 310 und 315, die Konfidenzniveaus jeweils ohne numerische Werte oder Normierung bestimmt. So können beispielsweise das Konfidenzniveau des zweiten/entfernten Sprachthemas und das Konfidenzniveau des zweiten Sprachwerts als eines von einem hohen, einem mittleren oder einem niedrigen Niveau bestimmt werden. Das Verfahren 300 kann dann mit Block 330 fortfahren.
  • Bei Block 330 kann der Prozess 300 abfragen, ob das Konfidenzniveau des ersten Sprachthemas (d. h. wie bei Block 315 bestimmt) und das Konfidenzniveau des zweiten Sprachthemas (d. h. wie bei Block 325 bestimmt) beide ein niedriges Konfidenzniveau sind. Wenn entweder das Konfidenzniveau des ersten Sprachthemas oder das des zweiten Sprachthemas nicht niedrige Konfidenzniveaus des zweiten Sprachthemas sind, kann der Prozess 300 mit Block 335 fortfahren. Bei Block 335 kann die Spracherkennung unter Verwendung eines oder beiden der Ergebnisse des ersten und zweiten Sprachthemas bestimmt werden.
  • Wenn das Ergebnis in Block 330 ja ist, d. h. sowohl das erste Sprachthema-Konfidenzniveau des ersten Sprachthemas als auch das zweite Sprachthema-Konfidenzniveau des zweiten Sprachthemas niedrig sind, kann der Prozess 300 mit Block 340 fortfahren. Bei Block 340 werden mindestens eines der bestimmten ersten Sprachthemen und das empfangene zweite Sprachthema verwendet, um das der empfangenen Sprache zugeordnete Thema zu bestimmen. Wie bereits erwähnt, können beispielsweise, wenn die durch den ersten und zweiten ASR-Algorithmus bestimmten Sprachthemen übereinstimmen, zum Bestimmen des beabsichtigten Befehls verwendet werden. Alternativ, wenn die Themen nicht übereinstimmen, kann eine Benutzereingabe zur Bestätigung des Themas angefordert werden, und dann können dem Benutzer Schlitzwerte angezeigt werden, die dem bestätigten Thema entsprechen. Das Verfahren 300 kann dann beendet sein.
  • Dementsprechend kann die Verwendung von Ergebnissen mit niedrigem Vertrauen durch das Fahrzeug 12 und die entfernte Einrichtung 80 im Allgemeinen eine verbesserte Aufgabenerfüllungsrate bereitstellen. Wie vorstehend erläutert, kann etwas Intelligenz aus den Ergebnissen mit geringem Vertrauen extrahiert werden, indem die Themenklassifizierung zwischen den lokalen und entfernten Ergebnissen gelöst wird, wobei bei Bedarf zusätzliche Eingaben des Benutzers verwendet werden. Diese Verbesserung der Aufgabenerfüllungsrate kann wiederum die Benutzerfreundlichkeit verbessern, aber auch die Rate erhöhen, mit der Sprachsitzungen erfolgreich abgeschlossen werden.
  • Es versteht sich, dass das Vorstehende eine Beschreibung einer oder mehrerer Ausführungsformen der Erfindung ist. Die Erfindung ist nicht auf die besondere(n) hierin offenbarte(n) Ausführungsform(en) beschränkt, sondern ausschließlich durch die folgenden Patentansprüche definiert. Darüber hinaus beziehen sich die in der vorstehenden Beschreibung gemachten Aussagen auf bestimmte Ausführungsformen und sind nicht als Einschränkungen des Umfangs der Erfindung oder der Definition der in den Patentansprüchen verwendeten Begriffe zu verstehen, außer dort, wo ein Begriff oder Ausdruck ausdrücklich vorstehend definiert wurde. Verschiedene andere Ausführungsformen und verschiedene Änderungen und Modifikationen an der/den ausgewiesenen Ausführungsform(en) sind für Fachleute offensichtlich. Alle diese anderen Ausführungsformen, Änderungen und Modifikationen sollten im Geltungsbereich der angehängten Patentansprüche verstanden werden.
  • Wie in dieser Beschreibung und den Ansprüchen verwendet, sind die Begriffe „zum Beispiel“, „beispielsweise“, „z. B.“, „wie“ und „gleich“ und die Verben „umfassen“, „aufweisen“, „beinhalten“ und ihre anderen Verbformen, wenn sie in Verbindung mit einer Auflistung einer oder mehrerer Komponenten oder anderen Gegenständen verwendet werden, jeweils als offen auszulegen, was bedeutet, dass die Auflistung nicht so berücksichtigt wird, als dass sie andere, zusätzliche Komponenten oder Elemente ausschließt. Andere Begriffe sind in deren weitesten vernünftigen Sinn auszulegen, es sei denn, diese werden in einem Kontext verwendet, der eine andere Auslegung erfordert.

Claims (10)

  1. Verfahren zur Spracherkennung, umfassend: (a) Empfangen von Sprache an einem in einem Fahrzeug installierten Mikrofon; (b) Bestimmen von lokalen Sprachergebnissen unter Verwendung einer Methodik zum Verstehen natürlicher Sprache, einschließlich eines lokalen Sprachthemas und eines lokalen Sprachschlitzwertes, unter Verwendung einer im Fahrzeug installierten Elektronik; (c) Bestimmen eines lokalen Sprachthema-Konfidenzniveaus für das lokale Sprachthema und Bestimmen eines lokalen Sprachwert-Konfidenzniveaus für den lokalen Sprachschlitzwert; (d) Empfangen von entfernten Sprachergebnissen, einschließlich eines entfernten Sprachthemas und eines entfernten Sprachschlitzwertes am Fahrzeug; (e) Empfangen eines entfernten Sprachthema-Konfidenzniveaus für das entfernte Sprachthema und Empfangen eines entfernten Sprachschlitzwert-Konfidenzniveaus für den entfernten Sprachschlitzwert; und (f) wenn das lokale Sprachthema-Konfidenzniveau des in Schritt (b) bestimmten lokalen Sprachthemas und das entfernte Sprachthema-Konfidenzniveau des in Schritt (d) empfangenen entfernten Sprachthemas beide ein niedriges Konfidenzniveau sind, unter Verwendung mindestens eines der bestimmten lokalen Sprachthemen und des empfangenen entfernten Sprachthemas zum Bestimmen des der empfangenen Sprache zugeordneten Themas.
  2. Verfahren nach Anspruch 1, weiterhin folgende Schritte umfassend: (g) wenn das lokale Sprachthema mit dem entfernten Sprachthema übereinstimmt, Anfordern einer Benutzerbestätigung des Sprachthemas, das der empfangenen Sprache zugeordnet ist.
  3. Verfahren nach Anspruch 2, weiterhin folgende Schritte umfassend: (h) wenn der Benutzer das lokale Sprachthema bestätigt und eine Benutzereingabe anfordert, die dem lokalen Sprechthema zugeordnet ist.
  4. Verfahren nach Anspruch 1, weiterhin folgende Schritte umfassend: (g) wenn sich das bestimmte erste Sprachthema vom zweiten Sprachthema unterscheidet, Anfordern einer Auswahl des Sprachthemas durch den Benutzer.
  5. Verfahren nach Anspruch 4, weiterhin folgende Schritte umfassend: (h) als Reaktion auf die Benutzer-Themenauswahl Bereitstellen einer Benutzer-Menüauswahl, die eine Vielzahl von Schlitzwerten beinhaltet, die der Benutzer-Themenauswahl zugeordnet sind.
  6. Verfahren nach Anspruch 5, weiterhin folgende Schritte umfassend: (i) als Reaktion auf die Benutzer-Themenauswahl, Verwerfen mindestens eines der lokalen Sprachschlitzwerte oder der entfernten Sprachschlitzwerte, des mindestens einen der lokalen Sprachschlitzwerte oder der entfernten Sprachschlitzwerte, die nicht der Benutzer-Themenauswahl zugeordnet sind.
  7. Verfahren nach Anspruch 1, ferner umfassend das Bestimmen des Konfidenzniveaus des lokalen Sprachthemas und des lokalen Sprachwert-Konfidenzniveaus, einschließlich eines hohen Niveaus, eines mittleren Niveaus und eines niedrigen Konfidenzniveaus, und ohne das Bestimmen eines numerischen Werts für das lokale Sprachthema-Konfidenzniveau und das lokale Sprachwert-Konfidenzniveau.
  8. Verfahren zur Spracherkennung unter Verwendung erster und zweiter Spracherkennungsalgorithmen, umfassend: (a) Empfangen von Sprache an einem in einem Fahrzeug installierten Mikrofon; (b) Bestimmen von Sprachergebnissen unter Verwendung eines ersten Algorithmus, der ein erstes Sprachthema und einen ersten Sprachschlitzwert beinhaltet; (c) Bestimmen eines ersten Sprachthema-Konfidenzniveaus für das erste Sprachthema und Bestimmen eines ersten Sprachwert-Konfidenzniveaus für den ersten Sprachschlitzwert; (d) Empfangen von Ergebnissen einer zweiten Sprache, die mit einem zweiten Algorithmus bestimmt wurden, der sich von dem ersten Algorithmus unterscheidet, einschließlich eines zweiten Sprachthemas und eines zweiten Sprachschlitzwertes am Fahrzeug; (e) Empfangen eines zweiten Sprachthema-Konfidenzniveaus für das zweite Sprachthema und Empfangen eines zweiten Sprachschlitzwert-Konfidenzniveaus für den zweiten Sprachschlitzwert; und (f) wenn sowohl das erste Sprachthema-Konfidenzniveau des in Schritt (b) bestimmten ersten Sprachthemas als auch das zweite Sprachthema-Konfidenzniveau des in Schritt (d) empfangenen zweiten Sprachthemas ein niedriges Konfidenzniveau sind, unter Verwendung mindestens eines der bestimmten ersten Sprachthemen und des empfangenen zweiten Sprachthemas, zum Bestimmen des der empfangenen Sprache zugeordneten Themas.
  9. Verfahren nach Anspruch 8, worin der erste Spracherkennungsalgorithmus ein lokaler Spracherkennungsalgorithmus ist, der unter Verwendung einer in die im Fahrzeug installierte Elektronik eingebetteten Heuristik zum Verstehen natürlicher Sprache bestimmt wird, und worin der zweite Spracherkennungsalgorithmus ein von einer entfernten Einrichtung am Fahrzeug empfangener Algorithmus zur entfernten Spracherkennung ist.
  10. Nicht-flüchtiges, computerlesbares Medium, das Programmanweisungen zur Spracherkennung in einem Fahrzeug enthält, worin das Ausführen der Programmanweisungen durch einen oder mehrere am Fahrzeug installierte Prozessoren bewirkt, dass der eine oder die mehreren Prozessoren die folgenden Schritte ausführen: (a) Empfangen von Sprache an einem in einem Fahrzeug installierten Mikrofon; (b) Bestimmen von lokalen Sprachergebnissen, einschließlich eines lokalen Sprachthemas und eines lokalen Sprachschlitzwertes, unter Verwendung einer im Fahrzeug installierten Elektronik; (c) Bestimmen eines lokalen Sprachthema-Konfidenzniveaus für das lokale Sprachthema und Bestimmen eines lokalen Sprachwert-Konfidenzniveaus für den lokalen Sprachschlitzwert; (d) Empfangen von entfernten Sprachergebnissen, einschließlich eines entfernten Sprachthemas und eines entfernten Sprachschlitzwertes am Fahrzeug; (e) Empfangen eines entfernten Sprachthema-Konfidenzniveaus für das entfernte Sprachthema und Empfangen eines entfernten Sprachschlitzwert-Konfidenzniveaus für den entfernten Sprachschlitzwert; und (f) wenn das lokale Sprachthema-Konfidenzniveau des in Schritt (b) bestimmten lokalen Sprachthemas und das entfernte Sprachthema-Konfidenzniveau des in Schritt (d) empfangenen entfernten Sprachthemas beide ein niedriges Konfidenzniveau sind, unter Verwendung mindestens eines der bestimmten lokalen Sprachthemen und des empfangenen entfernten Sprachthemas zum Bestimmen des der empfangenen Sprache zugeordneten Themas.
DE102019105269.6A 2018-03-06 2019-03-01 Verfahren zur spracherkennung mit spracherkennungs-arbitrierungslogik Active DE102019105269B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/913,224 US10679620B2 (en) 2018-03-06 2018-03-06 Speech recognition arbitration logic
US15/913,224 2018-03-06

Publications (2)

Publication Number Publication Date
DE102019105269A1 true DE102019105269A1 (de) 2019-09-12
DE102019105269B4 DE102019105269B4 (de) 2022-07-07

Family

ID=67701363

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019105269.6A Active DE102019105269B4 (de) 2018-03-06 2019-03-01 Verfahren zur spracherkennung mit spracherkennungs-arbitrierungslogik

Country Status (3)

Country Link
US (1) US10679620B2 (de)
CN (1) CN110232912B (de)
DE (1) DE102019105269B4 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102611386B1 (ko) * 2018-06-27 2023-12-08 구글 엘엘씨 로컬 텍스트-응답 맵을 활용하여 사용자의 음성 발화에 대한 응답 렌더링
CN108932946B (zh) * 2018-06-29 2020-03-13 百度在线网络技术(北京)有限公司 客需服务的语音交互方法和装置
JP7142315B2 (ja) * 2018-09-27 2022-09-27 パナソニックIpマネジメント株式会社 説明支援装置および説明支援方法
US11087739B1 (en) * 2018-11-13 2021-08-10 Amazon Technologies, Inc. On-device learning in a hybrid speech processing system
US11128435B2 (en) * 2019-07-08 2021-09-21 Tencent America LLC Distributed and collaborative analytics of encrypted data using deep polynomial networks
CN111243587A (zh) * 2020-01-08 2020-06-05 北京松果电子有限公司 语音交互方法、装置、设备及存储介质
US11908469B2 (en) 2020-01-10 2024-02-20 Stmicroelectronics S.R.L. Voice control system, corresponding motorcycle, helmet and method
CN111477225B (zh) * 2020-03-26 2021-04-30 北京声智科技有限公司 语音控制方法、装置、电子设备及存储介质
JP7380416B2 (ja) * 2020-05-18 2023-11-15 トヨタ自動車株式会社 エージェント制御装置
JP7380415B2 (ja) 2020-05-18 2023-11-15 トヨタ自動車株式会社 エージェント制御装置
US20220366911A1 (en) * 2021-05-17 2022-11-17 Google Llc Arranging and/or clearing speech-to-text content without a user providing express instructions
US20240104311A1 (en) * 2022-09-23 2024-03-28 Qualcomm Incorporated Hybrid language translation on mobile devices
CN116825108B (zh) * 2023-08-25 2023-12-08 深圳市友杰智新科技有限公司 语音命令词识别方法、装置、设备和介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003463B1 (en) * 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
US6898567B2 (en) * 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
US9224394B2 (en) * 2009-03-24 2015-12-29 Sirius Xm Connected Vehicle Services Inc Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US20090271200A1 (en) * 2008-04-23 2009-10-29 Volkswagen Group Of America, Inc. Speech recognition assembly for acoustically controlling a function of a motor vehicle
US9111540B2 (en) * 2009-06-09 2015-08-18 Microsoft Technology Licensing, Llc Local and remote aggregation of feedback data for speech recognition
US8892439B2 (en) * 2009-07-15 2014-11-18 Microsoft Corporation Combination and federation of local and remote speech recognition
US20110184740A1 (en) * 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
US9620122B2 (en) * 2011-12-08 2017-04-11 Lenovo (Singapore) Pte. Ltd Hybrid speech recognition
US8914014B2 (en) * 2012-02-12 2014-12-16 Joel Vidal Phone that prevents concurrent texting and driving
KR101961139B1 (ko) * 2012-06-28 2019-03-25 엘지전자 주식회사 이동 단말기 및 그것의 음성 인식 방법
WO2014060054A1 (de) * 2012-10-16 2014-04-24 Audi Ag Spracherkennung in einem kraftfahrzeug
DE102014109122A1 (de) * 2013-07-12 2015-01-15 Gm Global Technology Operations, Llc Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen
KR102215579B1 (ko) 2014-01-22 2021-02-15 삼성전자주식회사 대화형 시스템, 디스플레이 장치 및 그 제어 방법
US20160111090A1 (en) * 2014-10-16 2016-04-21 General Motors Llc Hybridized automatic speech recognition
CN105551494A (zh) * 2015-12-11 2016-05-04 奇瑞汽车股份有限公司 一种基于手机互联的车载语音识别系统及识别方法

Also Published As

Publication number Publication date
DE102019105269B4 (de) 2022-07-07
US20190279620A1 (en) 2019-09-12
CN110232912A (zh) 2019-09-13
CN110232912B (zh) 2023-05-16
US10679620B2 (en) 2020-06-09

Similar Documents

Publication Publication Date Title
DE102019105269B4 (de) Verfahren zur spracherkennung mit spracherkennungs-arbitrierungslogik
DE102018128006B4 (de) Verfahren zum erzeugen von ausgaben natürlichsprachlicher generierung basierend auf dem benutzersprachstil
DE102019111529A1 (de) Automatisierte spracherkennung unter verwendung einer dynamisch einstellbaren hörzeitüberschreitung
DE102018103188B4 (de) Verfahren zur spracherkennung in einem fahrzeug zur verbesserung der aufgabenerledigung
CN106816149B (zh) 车辆自动语音识别系统的优先化内容加载
US10083685B2 (en) Dynamically adding or removing functionality to speech recognition systems
DE102014109121B4 (de) Systeme und Verfahren zur Arbitrierung eines Sprachdialogdienstes
DE102017121059A1 (de) Identifikation und erzeugung von bevorzugten emoji
DE102012218938B4 (de) Verfahren zur Bereitstellung von Freihanddiensten unter Verwendung einer Mobilvorrichtung, die einen drahtlosen Zugriff auf computerbasierte Dienste aufweist
DE102011120315B4 (de) Anpassung männlicher Akustikmodelle auf der Basis von sprachunabhängigen weiblichen Sprechdaten
DE102017102392A1 (de) Automatische spracherkennung bei stockender sprechweise
DE102017121054A1 (de) Remote-spracherkennung in einem fahrzeug
DE102018125966A1 (de) System und verfahren zur erfassung von stichworten in einer unterhaltung
DE102012220796B4 (de) Verfahren zum Initiieren eines Freisprechkonferenzgesprächs
DE102014111816A1 (de) Fahrzeugtelematikeinheit und Verfahren zum Bedienen dieser
DE102018128003A1 (de) Neuronales netzwerk zum anwenden bei der spracherkennungsarbitrierung
DE102008062542A1 (de) Fahrzeuginterne die Umstände berücksichtigende Spracherkennung
US20160111090A1 (en) Hybridized automatic speech recognition
DE102015117380B4 (de) Selektive Geräuschunterdrückung während automatischer Spracherkennung
DE102018125564A1 (de) Reaktionsschnelle aktivierung eines fahrzeugmerkmals
DE102015105876A1 (de) Verfahren zum Bereitstellen einer Betreiberunterstützung unter Verwendung eines Telematikdienstsystems eines Fahrzeugs
DE102019115685A1 (de) Sprachaktivierter fahrzeugalarm
US20170018273A1 (en) Real-time adaptation of in-vehicle speech recognition systems
DE102019110418A1 (de) System und verfahren zum auswählen und betreiben einer mobilen vorrichtung über eine telematikeinheit

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015183000

Ipc: G10L0015300000

R082 Change of representative

Representative=s name: MANITZ FINSTERWALD PATENT- UND RECHTSANWALTSPA, DE

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015300000

Ipc: G10L0015320000

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final