DE102018132160A1 - System und verfahren zum verstehen von standardsprache und dialekten - Google Patents

System und verfahren zum verstehen von standardsprache und dialekten Download PDF

Info

Publication number
DE102018132160A1
DE102018132160A1 DE102018132160.0A DE102018132160A DE102018132160A1 DE 102018132160 A1 DE102018132160 A1 DE 102018132160A1 DE 102018132160 A DE102018132160 A DE 102018132160A DE 102018132160 A1 DE102018132160 A1 DE 102018132160A1
Authority
DE
Germany
Prior art keywords
utterance
command
signature
response
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102018132160.0A
Other languages
English (en)
Inventor
Ron M. Hecht
Yael Shmueli Friedland
Ariel Telpaz
Omer Tsimhoni
Peggy Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of DE102018132160A1 publication Critical patent/DE102018132160A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • G10L15/075Adaptation to the speaker supervised, i.e. under machine guidance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Es sind Verfahren und Systeme für ein Sprachsystem eines Fahrzeugs vorgesehen. Insbesondere wird ein Verfahren zum Zuordnen einer Sprachäußerung zu einem Sprachbefehl als Reaktion auf einen fehlgeschlagenen Sprachsteuerungsversuch, gefolgt von einem erfolgreichen Sprachsteuerungsversuch, eingelernt.

Description

  • TECHNISCHES GEBIET
  • Das technische Gebiet bezieht sich im Allgemeinen auf Sprachsysteme, und insbesondere auf Verfahren und Systeme zum Verständnis einer Äußerungsabsicht für Sprachsysteme eines Fahrzeugs.
  • HINTERGRUND
  • Fahrzeug-Spracherkennungssysteme führen eine Spracherkennung für Sprachäußerungen von Insassen des Fahrzeugs aus. Die Sprachäußerungen beinhalten normalerweise Befehle, die eine oder mehrere Funktionen des Fahrzeugs oder eines anderen Systems, das für das Fahrzeug zugänglich ist, wie beispielsweise die Fahrzeugsteuerung, Telekommunikation und Unterhaltung, steuern. Die Sprachdialogsysteme nutzen generische Dialogtechniken mit einem kleinen Vokabular für jede unterstützte Sprache. Möglicherweise berücksichtigt dieses kleine Vokabular nicht die verschiedenen Dialekte. Dieses Problem wird noch weiter verschärft, da einige Benutzer einen Dialekt, eine Standardsprache oder eine Mischung von Dialekten austauschbar verwenden können.
  • Demzufolge ist es wünschenswert, Verfahren und Systeme zum Identifizieren und Verfolgen von Dialekten und zum Zuordnen von Dialekten zu Standardsprachvokabularen vorzusehen. Demzufolge ist es weiterhin wünschenswert, Verfahren und Systeme zum Verwalten und Anpassen eines Sprachdialogsystems vorzusehen, basierend auf der Zuordnung von Dialekten zu Standardsprachvokabularen. Ferner werden andere wünschenswerte Funktionen und Merkmale der vorliegenden Erfindung aus der nachfolgenden ausführlichen Beschreibung und den beigefügten Ansprüchen, in Verbindung mit den beigefügten Zeichnungen, sowie mit dem vorangehenden technischen Gebiet und Hintergrund ersichtlich offensichtlich.
  • KURZDARSTELLUNG
  • Es sind Verfahren und Systeme für ein Sprachsystem eines Fahrzeugs vorgesehen. In einer Ausführungsform beinhaltet das Verfahren für ein Sprachsystem eines Fahrzeugs, umfassend das Empfangen einer ersten Sprachäußerung, das Erzeugen einer ersten Äußerungssignatur aus der ersten Sprachäußerung, das Nichtzuordnen der ersten Äußerungssignatur zu einem Befehl, das Empfangen einer zweiten Sprachäußerung, das Erzeugen einer zweiten Äußerungssignatur aus einer zweiten Sprachäußerung, Bestimmen einer Zuordnung zwischen der zweiten Äußerungssignatur und einem ersten Befehl, Zuordnen der ersten Äußerungssignatur zum ersten Befehl als Reaktion auf eine Zeitdauer zwischen der ersten Sprachäußerung und der zweiten Sprachäußerung und Bestimmen der Zuordnung zwischen der zweiten Äußerungssignatur und dem ersten Befehl, und Ausführen des ersten Befehls als Reaktion auf das Empfangen der ersten Sprachäußerung.
  • In einer weiteren Ausführungsform wird eine Vorrichtung eingelernt, die ein Mikrofon zum Empfangen einer ersten Äußerung und einer zweiten Äußerung, eine Steuerung zum Ausführen eines Befehls, einen Speicher zum Speichern einer Sprachbefehlsdatenbank und einen Prozessor zum Zuordnen der zweiten Äußerung zu dem Befehl umfasst, um ein Steuersignal zum Anweisen der Steuerung zum Ausführen des Befehls zu erzeugen, wobei der Prozessor ferner funktionsfähig ist, dem Befehl als Reaktion auf ein Zeitintervall zwischen der ersten Äußerung, der zweiten Äußerung und dem Ausführen des ersten Befehls eine Verbindung mit der ersten Äußerung herzustellen; und Aktualisieren der Sprachbefehlsdatenbank, die die Verbindung zwischen der ersten Äußerung und dem Befehl anzeigt.
  • In einer weiteren Ausführungsform wird ein Verfahren zum Verarbeiten von Sprache eingelernt, umfassend das Empfangen einer ersten Sprachäußerung, das Empfangen einer zweiten Sprachäußerung, das Zuordnen der zweiten Sprachäußerung zu einem ersten Befehl, das Ausführen des ersten Befehls und das Zuordnen der ersten Sprachäußerung zum ersten Befehl als Reaktion auf ein Zeitintervall zwischen der ersten Sprachäußerung und dem Ausführen des ersten Befehls sowie das Aktualisieren einer Datenbank mit der Zuordnung zwischen der ersten Sprachäußerung und dem ersten Befehl.
  • Figurenliste
  • Die exemplarischen Ausführungsformen werden nachfolgend in Verbindung mit den folgenden Zeichnungen beschrieben, worin gleiche Bezugszeichen gleiche Elemente bezeichnen, und worin gilt:
    • 1 ist ein Funktionsblockdiagramm eines Fahrzeugs, das ein Sprachsystem gemäß verschiedenen exemplarischen Ausführungsformen beinhaltet;
    • 2 ist ein Datenflussdiagramm, welches eine Signaturmaschine des Sprachsystems gemäß verschiedenen exemplarischen Ausführungsformen veranschaulicht; und
    • 3 ist ein exemplarischer Äußerungserkennungs-Workflow 300 gemäß einer exemplarischen Ausführungsform.
    • 4 ist eine exemplarische Vorrichtung zum Verständnis von Standardsprache und Dialekten.
    • 5 ist ein exemplarisches Verfahren zum Verständnis von Standardsprache und Dialekten.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Die folgende ausführliche Beschreibung dient lediglich als Beispiel und soll die Anwendung und Verwendung in keiner Weise einschränken. Weiterhin besteht keine Absicht, im vorstehenden technischen Bereich, Hintergrund, der Kurzzusammenfassung oder der folgenden ausführlichen Beschreibung an eine ausdrücklich oder implizit vorgestellte Theorie gebunden zu sein. Der hier verwendete Begriff „Modul“ bezieht sich auf eine anwendungsspezifische integrierte Schaltung (ASIC), eine elektronische Schaltung, einen Prozessor (gemeinsam genutzt, dediziert oder Gruppenprozessor) und einen Speicher, der ein oder mehrere Software- oder Firmwareprogramme, eine kombinatorische Logikschaltung und/oder andere geeignete Komponenten ausführt, die die beschriebene Funktionalität bieten.
  • In Übereinstimmung mit den exemplarischen Ausführungsformen der vorliegenden Offenbarung wird ein Sprachsystem 10 als in einem Fahrzeug 12 integriert dargestellt. In verschiedenen exemplarischen Ausführungsformen bietet das Sprachsystem 10 Spracherkennung oder -verständnis und einen Dialog für ein oder mehrere Fahrzeugsystem(e) über ein HMI-Modul 14 (Mensch-Maschine-Benutzeroberfläche) an. Ohne Einschränkung können zu diesen Fahrzeugsystemen ein Telefonsystem 16, ein Navigationssystem 18, ein Mediensystem 20, ein Telematiksystem 22, ein Netzsystem 24 oder irgendein anderes Fahrzeugsystem gehören, das eine sprachgestützte Anwendung enthält. Es sollte klar sein, dass eine oder mehrere Ausführungsform(en) des Sprachsystems 10 auch außerhalb des automobilen Sektors mit sprachgestützten Anwendungen eingesetzt werden können und damit nicht auf das vorliegenden Fahrzeugbeispiel beschränkt sind.
  • Das Sprachsystem 10 kommuniziert mit den verschiedenen Fahrzeugsystemen 16-24 über das HMI-Modul 14 und einem Kommunikationsbus und/oder andere Kommunikationsmittel 26 (z. B. verdrahtet, mit kurzer oder langer Reichweite). Der Kommunikationsbus kann beispielsweise ein CAN-Bus sein, ist aber nicht darauf beschränkt.
  • Das Sprachsystem 10 beinhaltet ein Spracherkennungsmaschinen-(ASR)-Modul 32 und ein Dialogmanagermodul 34. Wie ersichtlich ist, können das ASR-Modul 32 und Dialogmanagermodul 34, wie dargestellt, als separate Systeme und/oder als kombiniertes System implementiert sein. Das ASR-Modul 32 empfängt und verarbeitet Sprachäußerungen vom HMI-Modul 14. Einige (z. B. basierend auf einem Vertrauensschwellenwert) erkannte Befehle aus der Sprachäußerung werden an das Dialogmanagermodul 34 gesendet. Das Dialogmanagermodul 34 verwaltet eine Interaktionssequenz und Eingabeaufforderungen basierend auf dem Befehl. In verschiedenen Ausführungsformen kann das Sprachsystem 10 ferner eine Text-zu-Sprache-Maschine (nicht dargestellt) beinhalten, die den vom HMI-Modul 14 empfangenen Text empfängt und verarbeitet. Die Text-zu-Sprache-Maschine erzeugt Befehle, welche in ähnlicher Weise durch das Dialogmanagermodul 34 zu verwenden sind.
  • In verschiedenen exemplarischen Ausführungsformen beinhaltet das Sprachsystem 10 ferner ein Signaturmaschinen-Modul 40. Das Signaturmaschinen-Modul 30 empfängt und verarbeitet Sprachäußerungen vom HMI-Modul 14. Zusätzlich oder alternativ empfängt und verarbeitet das Signaturmaschinen-Modul 40 Informationen, die durch die vom ASR-Modul 32 durchgeführte Verarbeitung erzeugt werden (z. B. durch den Spracherkennungsprozess extrahierte Merkmale, durch den Spracherkennungsprozess identifizierte Wortgrenzen, usw.). Das Signaturmaschinen-Modul 40 kann nicht erkannte Sprachbefehle identifizieren und speichern sowie eine Datenbank mit nicht erkannten Sprachbefehlen und zugehörigen Daten basierend auf den Sprachäußerungen erstellen.
  • Unter Bezugnahme auf 2, veranschaulicht ein Datenflussdiagramm das Ursachenerkennungs- und Wiederherstellungsmodul 36 gemäß verschiedenen Ausführungsformen. Wie zu erkennen ist, können verschiedene Ausführungsformen des Fehlererkennungs- und Wiederherstellungsmoduls 36 gemäß der vorliegenden Offenbarung eine beliebige Anzahl von Untermodulen beinhalten. Die beispielsweise in 2 dargestellten Untermodule können kombiniert werden und/oder weiter aufgeteilt werden, um in ähnlicher Weise eine Ursache für Fehler zu identifizieren und sich von der Grundursache zu erholen. In verschiedenen Ausführungsformen können die vom Grundursachenerkennungs- und Wiederherstellungsmodul 36 empfangenen Daten vom ASR-Modul 32 oder anderen Modulen des Sprachsystems 10 empfangen werden. In verschiedenen exemplarischen Ausführungsformen beinhaltet das Fehlererkennungs- und Wiederherstellungsmodul 36 ein Fehlererkennungsmodul 42, ein Grundursachenbestimmungsmodul 44, ein Grundursachen-Wiederherstellungsmodul 46, eine Fehlermodelldatenbank 48 und eine Wiederherstellungsprozess-Datenbank 50.
  • Die Fehlermodell-Datenbank 48 speichert ein oder mehrere Fehlermodelle. Die Fehlermodelle beinhalten eine oder mehrere Regeln zum Verarbeiten von Befehlsdaten, um eine Grundursache zu ermitteln. Die Wiederherstellungsprozess-Datenbank 50 speichert einen oder mehrere Wiederherstellungsprozesse. Die Wiederherstellungsprozesse beinhalten einen oder mehrere Schritte zum Wiederherstellen eines Fehlers, der einer Grundursache gegeben wird.
  • Das Fehlererkennungsmodul 42 Erstbefehlsdaten 52 entsprechend dem ersten erkannten Befehl aus dem ersten Sprachmodell und zweiten Befehlsdaten, die den zweiten Befehlsdaten 54 aus dem zweiten Sprachmodell entsprechen. Das Fehlererkennungsmodul 42 vergleicht die ersten Befehlsdaten 52 und die zweiten Befehlsdaten 54. Wenn genügend Unterschiede bestehen (z. B. eine Schwellenanzahl an Unterschieden wurde identifiziert), dann ermittelt das Fehlererkennungsmodul 42, dass ein Fehler vorliegt. Wenn ein Fehler vorliegt, vergleicht das Fehlererkennungsmodul 42 die ersten Befehlsdaten 52 und die zweiten Befehlsdaten 54 und erzeugt Ähnlichkeitsdaten 56, welche die Ähnlichkeiten und/oder Unähnlichkeiten in den beiden Befehlen anzeigen.
  • Das Grundursachen-Bestimmungsmodul 44 empfängt als Eingabe die ersten Befehlsdaten 52, die zweiten Befehlsdaten 54 und die Ähnlichkeitsdaten 56. Das Grundursachen-Bestimmungsmodul 44 verarbeitet die ersten Befehlsdaten 52 und die zweiten Befehlsdaten 54 auf der Grundlage der Ähnlichkeitsdaten 56. Das Grundursachen-Bestimmungsmodul 44 ermittelt zum Beispiel aus der Fehlermodelldatenbank 48 das Fehlermodell, das eine oder mehrere Regeln definiert, die den Ähnlichkeiten und/oder Unähnlichkeiten zugeordnet sind, die durch die Ähnlichkeitsdaten 56 identifiziert wurden. Das Grundursachen-Bestimmungsmodul 44 verarbeitet dann die ersten Befehlsdaten 52 und die zweiten Befehlsdaten 54 unter Verwendung der einen oder mehreren Regeln, um die Grundursache zu identifizieren. Das Grundursachen-Bestimmungsmodul 44 erzeugt Grundursachen-Daten 58 basierend darauf.
  • Das Grundursachen-Wiederherstellungsmodul 46 empfängt als Eingabe die Grundursachendaten 58. Basierend auf den Grundursachen-Daten 58 ruft das Grundursachen-Ermittlungsmodul 46 einen Wiederherstellungsprozess aus der Wiederherstellungsprozess-Datenbank 50 ab und führt den Wiederherstellungsprozess aus. In verschiedenen Ausführungsformen wählt das Grundursachen-Wiederherstellungsmodul 46, falls mehrere Wiederherstellungsprozesse für eine bestimmte Grundursache vorgesehen sind, einen Wiederherstellungsprozess, der basierend auf einem Prioritätsschema verwendet werden soll. So kann beispielsweise das Prioritätsschema darauf hindeuten, dass ein Wiederherstellungsprozess, der keine Benutzerinteraktion erfordert, zuerst ausgewählt werden kann und danach Wiederherstellungsprozesse, die eine Benutzerinteraktion erfordern, ausgewählt werden können (z. B. wenn der erste Wiederherstellungsprozess keine Wiederherstellung zulässt) basierend auf einer Ebene der Wechselwirkung ausgewählt werden kann (z. B. dieser Wiederherstellungsprozess mit einer minimalen Wechselwirkung, die zuerst ausgewählt wird, und so weiter).
  • In verschiedenen Ausführungsformen erzeugt der Wiederherstellungsprozess, wenn er vom Grundursachen-Wiederherstellungsmodul 46 ausgeführt wird, ein oder mehrere Steuersignale 60 zu einem oder mehreren Fahrzeugsystemen 13, um zu bewirken, dass sich das Fahrzeugsystem 13 von dem Fehler erholt. So kann beispielsweise der Wiederherstellungsprozess ein oder mehrere Steuersignale 60 zu einem Kurzstreckennetzwerksystem erzeugen, um zu bewirken, dass die Nahbereichskommunikation eine Kontaktliste von einer gekoppelten Vorrichtung erhält. Wie zu erkennen ist, können andere Steuersignale erzeugt werden, da die Offenbarung nicht auf die vorliegenden Beispiele beschränkt ist. In verschiedenen Ausführungsformen erzeugt der Wiederherstellungsprozess, wenn er vom Grundursachen-Wiederherstellungsmodul 46 ausgeführt wird, ein oder mehrere Benachrichtigungssignale 62, um zu bewirken, dass ein Fahrzeugsystem den Benutzer über die Grundursache informiert. So kann beispielsweise der Wiederherstellungsprozess ein oder mehrere Benachrichtigungssignale 62 zum Mediensystem 20 erzeugen, um zu bewirken, dass eine Nachricht durch eine Anzeigevorrichtung angezeigt wird.
  • In verschiedenen Ausführungsformen erzeugt der Wiederherstellungsprozess, wenn er vom Grundursachen-Wiederherstellungsmodul 46 ausgeführt wird, Dialogaufforderungsdaten und/oder Interaktionssequenzdaten 64, die vom Dialogmanagermodul 34 empfangen werden. So kann beispielsweise der Wiederherstellungsprozess Dialogbefehle erzeugen, die vom Dialogmanager verwendet werden, um dem Benutzer über das Sprachsystem 10 die Grundursache und/oder den Fehler zu übermitteln. Wie ersichtlich ist kann der Wiederherstellungsprozess in verschiedenen Ausführungsformen jede Kombination von Steuersignalen, Benachrichtigungssignalen und/oder Dialogaufforderungsdaten und / oder Interaktionssequenzdaten 64 erzeugen, um sich basierend auf der ermittelten Grundursache von dem Fehler zu erholen.
  • Wie ersichtlich ist, ist dieser Ansatz lediglich exemplarisch. Weitere Ansätze zum Erzeugen der Benutzersignatur werden innerhalb des Umfangs der vorliegenden Offenbarung in Betracht gezogen. Somit ist die Offenbarung nicht auf die vorliegenden Beispiele beschränkt.
  • Unter Bezugnahme auf 3 wird nun ein exemplarischer Äußerungserkennungs-Workflow 300 gemäß einer exemplarischen Ausführungsform dargestellt. Eine Eingangsschnittstelle 310 ist zunächst zum Empfangen einer Sprachäußerung funktionsfähig. Die Sprachäußerung ist mit einem gemeinsamen Sprachdecoder 320 gekoppelt, worin die Sprachäußerung entweder identifiziert oder nicht identifiziert ist. Wenn die Sprachäußerung nicht identifiziert wird, speichert der Workflow die nicht identifizierte Sprachäußerung in einem Speicher, optional mit einer Zeitanzeige, und kehrt zurück, um auf eine nachfolgende Sprachäußerung an der Eingangsschnittstelle 310 zu warten. Wenn die Sprachäußerung erkannt wird, speichert der Workflow die Sprachäußerung 330 in einem Speicher oder einem anderen geeigneten Speichermedium.
  • Nachdem eine Sprachäußerung erkannt wurde, ist das System dann in der Lage, die der Sprachäußerung 340 zugeordneten Aktionen auszuführen. Der Workflow sendet dann eine Anforderung, alle Aktionen im nächsten vorgegebenen Zeitintervall zu melden, die an den Äußerungsspeicher 330 oder dergleichen zurückgegeben werden. Das nächste vorgegebene Zeitintervall kann 10 Sekunden bis 2 Minuten oder dergleichen betragen.
  • Das Zeitintervall ist so gewählt, dass es eine identifizierte Sprachäußerung durch einen Benutzer ermöglicht wird, nachdem eine nicht identifizierte Sprachäußerung versuchsweise erfolgt ist. Wenn somit ein Benutzer einen Befehl mit einem Dialekt spricht und den Befehl dann mit einer Standardaussage wiederholt, kann das Verfahren annehmen, dass die nicht identifizierte Sprachäußerung mit der identifizierten Sprachäußerung zusammenhängt. Nach einer vorbestimmten Zeitspanne oder als Reaktion auf eine Anforderung kann der Äußerungsspeicher 330 die gespeicherten unerkannten Befehle und die zugehörigen nachfolgenden Aktionen an einen Server übertragen, um die unerkannten Befehle offline zu analysieren.
  • Mit Bezug nun auf 4, ist eine exemplarische Vorrichtung zum Verarbeiten und Verstehen von Standardsprache und Dialekten 400 dargestellt. Die Eingangssprache kann von einem Frontend-Signalprozessor 410 empfangen und mit diesem gekoppelt werden. Der Frontend-Signalprozessor kann ein empfangenes Sprachäußerungssignal verstärken und das empfangene Sprachsignal filtern, um ein verarbeitetes Sprachäußerungssignal zu erhalten, das frei von Hintergrundrauschen und anderen störenden Signalen ist. Der Frontend-Signalprozessor 410 kann ferner einen Analog-Digital-Wandler beinhalten, um das verarbeitete analoge Audiosignal in ein digitales Signal umzuwandeln.
  • Das verarbeitete Sprachäußerungssignal wird dann mit einem Sprachprozessor 420 mit sprachlicher Dekodierung und einem Suchalgorithmus gekoppelt. Der Sprachprozessor 420 ist funktionsfähig, um das verarbeitete Sprachäußerungssignal zu untersuchen, das Sprachmerkmalvektoren und dergleichen beinhalten kann. Beim Durchführen der Sprachverarbeitung kann der Sprachprozessor 420 Informationen aus einem Speicher 450 beziehen, der akustische Modelle, Lexika und Sprachmodelle speichern kann. Der Sprachprozessor 420 kann dann als Reaktion auf das verarbeitete Sprachäußerungssignal eine Sprachäußerungssignatur erzeugen. Der Sprachprozessor kann das verarbeitete Sprachsignal mit bekannten Sprachäußerungssignaturen vergleichen, um einen Befehl der Sprachäußerungssignatur zuzuordnen. Der Sprachprozessor 420 erzeugt dann als Reaktion auf den positiven Vergleich ein Steuersignal und koppelt dieses Steuersignal mit dem Steuerprozessor 440. Der Sprachprozessor 420 kann ferner funktionsfähig sein, um über einen Sender 430 die gespeicherten unerkannten Befehle und die zugehörigen nachfolgenden Aktionen an einen Server zur Offline-Analyse der unerkannten Befehle zu übertragen. Der Steuerprozessor 440 ist funktionsfähig, um Fahrzeugsteuersignale als Reaktion auf die Steuersignale des Sprachprozessors 420 zu erzeugen.
  • Mit Bezug nun auf 5, ist ein exemplarisches Verfahren zum Verstehen von Standardsprache und Dialekten 500 dargestellt. Das Verfahren kann in einem Fahrzeug-Infotainmentsystem oder durch einen entfernten Server ausgeführt werden. Das Verfahren ist zunächst funktionsfähig, um eine erste Sprachäußerung 510 zu empfangen. Diese Sprachäußerung kann über ein Mikrofon in einem Fahrzeug-Infotainmentsystem oder über eine Netzwerkübertragung empfangen werden, nachdem sie von einem Fahrzeug oder einem anderen System übertragen wurde.
  • Das Verfahren ist dann funktionsfähig, um eine erste Äußerungssignatur aus der ersten Sprachäußerung 520 zu erzeugen. Dies kann vom Fahrzeug-Infotainmentsystem, einem Prozessor innerhalb des Fahrzeugs, wie vorstehend beschrieben, oder über einen entfernten Server durchgeführt werden.
  • Das Verfahren bestimmt anschließend, ob der ersten Äußerungssignatur 522 ein Befehl zugeordnet ist. Wenn der ersten Äußerungssignatur ein Befehl zugeordnet ist, ist das Verfahren anschließend funktionsfähig, um den der ersten Äußerungssignatur zugeordneten Befehl 530 auszuführen. Wenn das Verfahren die erste Äußerungssignatur nicht mit einem Befehl verknüpft, speichert das Verfahren anschließend Daten in einem Speicher oder dergleichen und zeigt den Fehler 525 und die Rückkehr in einen Wartezustand an, um eine weitere Sprachäußerung 510 zu empfangen.
  • Das Verfahren kann dann zum Empfangen einer zweiten Sprachäußerung 510 verwendet werden. Das Verfahren ist dann funktionsfähig, um eine zweite Äußerungssignatur aus der zweiten Sprachäußerung 520 zu erzeugen. Das Verfahren bestimmt anschließend, ob der zweiten Äußerungssignatur 522 ein Befehl zugeordnet ist. Wenn der zweiten Äußerungssignatur ein Befehl zugeordnet ist, ist das Verfahren anschließend funktionsfähig, um den der zweiten Äußerungssignatur zugeordneten Befehl 530 auszuführen. Wenn das Verfahren die zweite Äußerungssignatur nicht mit einem Befehl verknüpft, speichert das Verfahren anschließend Daten in einem Speicher oder dergleichen und zeigt den Fehler 525 und die Rückkehr in einen Wartezustand an, um eine weitere Sprachäußerung 510 zu empfangen.
  • Nach dem erfolgreichen Erzeugen des Befehls 530 bestimmt das Verfahren eine Zuordnung zu einem zuvor fehlgeschlagenen Zuordnungsversuch 540. Eine Zuordnung kann durch Bezugnahme der Daten, die den Ausfall anzeigen, auf die Zeit zwischen dem Ausfall und der erfolgreichen Zuordnung bestimmt werden, wobei das Verfahren anschließend eine Aktualisierung erzeugen kann, die das erste Äußerungssignal mit der Fahrzeugaktionssteuerung als Reaktion auf die zweite Anzeige 550 verknüpft. Die Aktualisierung kann als Reaktion auf ein vorgegebenes Zeitintervall erfolgen, wie beispielsweise das Empfangen der zweiten Sprachäußerung innerhalb von 30 Sekunden nach der fehlgeschlagenen Befehlszuordnung. Die Aktualisierung kann als Reaktion auf eine Vielzahl von fehlgeschlagenen Befehlen und Zuordnungen erfolgen. Die Aktualisierung kann an einen Server, an andere Fahrzeuge innerhalb einer geografischen Region oder dergleichen weitergeleitet werden. Der zweite Befehl beschränkt sich möglicherweise nicht auf einen Sprachbefehl, sondern kann auf eine andere Art und Weise, durch Berühren des Bildschirms oder der Taste oder durch Blickkontakt erfolgen. Diese Informationen können in Bezug auf den angezeigten Bildschirm verwendet werden, um die Verknüpfung zwischen zwei Befehlen zu unterstützen. Das exemplarische System ist ein System, um Dialektunterschiede zu beseitigen, bei denen ein gemeinsamer Dialekt existiert, der allen bekannt ist, jedoch weniger Muttersprachler aufweist. In diesem Fall sind einige Systeme nur auf den gemeinsamen Dialekt trainiert, wobei es wünschenswert ist, sich an andere Dialekte anzupassen. Das System und Verfahren ist auf andere Anwendungen anwendbar und beschränkt sich nicht auf diese exemplarische Ausführungsform.
  • Während mindestens eine exemplarische Ausführungsform in der vorstehenden ausführlichen Beschreibung dargestellt wurde, versteht es sich, dass es eine große Anzahl an Varianten gibt. Es versteht sich weiterhin, dass die exemplarische Ausführungsform oder die exemplarischen Ausführungsformen lediglich Beispiele sind und den Umfang, die Anwendbarkeit oder die Konfiguration dieser Offenbarung in keiner Weise einschränken sollen. Die vorstehende ausführliche Beschreibung stellt Fachleuten auf dem Gebiet vielmehr einen zweckmäßigen Plan zur Implementierung der exemplarischen Ausführungsform bzw. der exemplarischen Ausführungsformen zur Verfügung. Es versteht sich, dass verschiedene Veränderungen an der Funktion und der Anordnung von Elementen vorgenommen werden können, ohne vom Umfang der Offenbarung, wie er in den beigefügten Ansprüchen und deren rechtlichen Entsprechungen aufgeführt ist, abzuweichen.

Claims (10)

  1. Verfahren für ein Sprachsystem eines Fahrzeugs, Folgendes umfassend: - Empfangen einer ersten Sprachäußerung; - Erzeugen einer ersten Äußerungssignatur aus der ersten Sprachäußerung; - Nicht-Zuordnen der ersten Äußerungssignatur mit einem Befehl; - Empfangen einer zweiten Sprachäußerung; - Erzeugen einer zweiten Äußerungssignatur aus einer zweiten Sprachäußerung; - Bestimmen einer Zuordnung zwischen der zweiten Äußerungssignatur mit einem ersten Befehl; - Zuordnen der ersten Äußerungssignatur zum ersten Befehl als Reaktion auf eine Zeitdauer zwischen der ersten Sprachäußerung und der zweiten Sprachäußerung und dem Bestimmen der Zuordnung zwischen der zweiten Äußerungssignatur und dem ersten Befehl; und - Ausführen des ersten Befehls als Reaktion auf das Empfangen der ersten Sprachäußerung.
  2. Verfahren nach Anspruch 1, worin das Zuordnen der ersten Sprachäußerungssignatur zum ersten Befehl als Reaktion auf das Empfangen der zweiten Sprachäußerung innerhalb von zehn Sekunden durchgeführt wird, nachdem die erste Sprachäußerungssignatur nicht dem Befehl zugeordnet wurde.
  3. Verfahren nach Anspruch 1, ferner umfassend das Erzeugen eines Indikators als Reaktion auf das Empfangen der zweiten Sprachäußerung, nachdem die erste Sprachsignatur nicht dem Befehl zugeordnet wurde, und worin das Zuordnen der ersten Sprachsignatur zum ersten Befehl als Reaktion auf den Indikator und das Empfangen der zweiten Sprachäußerung erfolgt, nachdem die erste Sprachsignatur dem Befehl nicht zugeordnet wurde.
  4. Verfahren nach Anspruch 1, worin das Zuordnen der ersten Äußerungssignatur zum ersten Befehl als Reaktion auf das Empfangen der zweiten Sprachäußerung erfolgt, nachdem die erste Äußerungssignatur nicht dem Befehl zugeordnet wurde.
  5. Vorrichtung, umfassend: - ein Mikrofon zum Empfangen einer ersten Äußerung und einer zweiten Äußerung; - eine Steuerung zum Ausführen eines Befehls; - einen Speicher zum Speichern einer Sprachbefehlsdatenbank; und - einen Prozessor zum Zuordnen der zweiten Äußerung zu dem Befehl, zum Erzeugen eines Steuersignals, um die Steuerung anzuweisen, den Befehl auszuführen, wobei der Prozessor ferner dazu dient, dem Befehl als Reaktion auf ein Zeitintervall zwischen der ersten Äußerung, der zweiten Äußerung und dem Ausführen des ersten Befehls eine erste Äußerung zuzuordnen; und Aktualisieren der Sprachbefehlsdatenbank, die den Zusammenhang zwischen der ersten Äußerung und dem Befehl anzeigt.
  6. Vorrichtung nach Anspruch 5, ferner umfassend den Versuch, die erste Äußerung mindestens einem aus einer Vielzahl von Befehlen zuzuordnen und eine Fehleranzeige als Reaktion darauf zu erzeugen, dass die erste Äußerung nicht einem aus einer Vielzahl von Befehlen zugeordnet wurde.
  7. Vorrichtung nach Anspruch 5, worin die zweite Äußerung innerhalb von 30 Sekunden nach der ersten Äußerung empfangen wird.
  8. Vorrichtung nach Anspruch 5, worin das Aktualisieren der Sprachbefehlsdatenbank als Reaktion auf das Bestimmen einer Vielzahl von Zuordnungen zwischen der ersten Äußerung und dem Befehl ausgeführt wird.
  9. Vorrichtung nach Anspruch 5, worin die erste Äußerung in einem ersten Dialekt gesprochenen wird und die zweite Äußerung in einem zweiten Dialekt gesprochen wird und worin die erste Äußerung und die zweite Äußerung dieselbe Bedeutung haben.
  10. Vorrichtung nach Anspruch 5, worin die erste Äußerung und die zweite Äußerung dieselbe Bedeutung haben.
DE102018132160.0A 2017-12-14 2018-12-13 System und verfahren zum verstehen von standardsprache und dialekten Pending DE102018132160A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/841,397 2017-12-14
US15/841,397 US10468017B2 (en) 2017-12-14 2017-12-14 System and method for understanding standard language and dialects

Publications (1)

Publication Number Publication Date
DE102018132160A1 true DE102018132160A1 (de) 2019-06-19

Family

ID=66674972

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102018132160.0A Pending DE102018132160A1 (de) 2017-12-14 2018-12-13 System und verfahren zum verstehen von standardsprache und dialekten

Country Status (3)

Country Link
US (1) US10468017B2 (de)
CN (1) CN109979445A (de)
DE (1) DE102018132160A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11367438B2 (en) 2019-05-16 2022-06-21 Lg Electronics Inc. Artificial intelligence apparatus for recognizing speech of user and method for the same
US11093319B2 (en) * 2019-05-29 2021-08-17 Microsoft Technology Licensing, Llc Automated recovery of webpage functionality
KR20220133414A (ko) 2021-03-25 2022-10-05 삼성전자주식회사 음성 어시스턴트 서비스 제공 방법 및 이를 지원하는 전자 장치

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5865626A (en) * 1996-08-30 1999-02-02 Gte Internetworking Incorporated Multi-dialect speech recognition method and apparatus
US7280964B2 (en) * 2000-04-21 2007-10-09 Lessac Technologies, Inc. Method of recognizing spoken language with recognition of language color
US7236859B2 (en) * 2000-09-01 2007-06-26 Cattron Intellectual Property Corporation Remote control system for a locomotive
US7620549B2 (en) * 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US11012732B2 (en) * 2009-06-25 2021-05-18 DISH Technologies L.L.C. Voice enabled media presentation systems and methods
EP2860726B1 (de) * 2011-12-30 2017-12-06 Samsung Electronics Co., Ltd Elektronische Vorrichtung und Verfahren zur Steuerung der elektronischen Vorrichtung
US9064492B2 (en) * 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US9558739B2 (en) * 2012-11-13 2017-01-31 GM Global Technology Operations LLC Methods and systems for adapting a speech system based on user competance
US9589562B2 (en) * 2014-02-21 2017-03-07 Microsoft Technology Licensing, Llc Pronunciation learning through correction logs
JP6821393B2 (ja) * 2016-10-31 2021-01-27 パナソニック株式会社 辞書修正方法、辞書修正プログラム、音声処理装置及びロボット
US10430449B2 (en) * 2017-03-28 2019-10-01 Rovi Guides, Inc. Systems and methods for correcting a voice query based on a subsequent voice query with a lower pronunciation rate
US20190073994A1 (en) * 2017-09-05 2019-03-07 Microsoft Technology Licensing, Llc Self-correcting computer based name entity pronunciations for speech recognition and synthesis

Also Published As

Publication number Publication date
US20190189113A1 (en) 2019-06-20
CN109979445A (zh) 2019-07-05
US10468017B2 (en) 2019-11-05

Similar Documents

Publication Publication Date Title
EP3224831B1 (de) Kraftfahrzeug-bedienvorrichtung mit korrekturstrategie für spracherkennung
DE102019119171A1 (de) Spracherkennung für fahrzeugsprachbefehle
DE102015109758B4 (de) Verfahren und Systeme zum Anpassen von Sprachsystemen
DE102015213715A1 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
DE102016125954A1 (de) Sprachwiedererkennung mit externen Datenquellen
DE102014109122A1 (de) Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
DE102018108947A1 (de) Vorrichtung zum Korrigieren eines Äußerungsfehlers eines Benutzers und Verfahren davon
DE102017220266B3 (de) Verfahren zum Überprüfen eines Onboard-Spracherkenners eines Kraftfahrzeugs sowie Steuervorrichtung und Kraftfahrzeug
DE102018132160A1 (de) System und verfahren zum verstehen von standardsprache und dialekten
DE102016125141B4 (de) Suchergebnis unter vorherigem Abrufen von Sprachanfragen
DE112015003382T5 (de) Spracherkennungseinrichtung und Spracherkennungsverfahren
DE102014017385B4 (de) Kraftfahrzeug-Gerätebedienung mit Bedienkorrektur
DE102015106280B4 (de) Systeme und Verfahren zum Kompensieren von Sprachartefakten in Spracherkennungssystemen
DE102015109379A1 (de) Systeme und Verfahren für ein Navigationssystem, das eine Suche mit Diktieren und Teilübereinstimmung verwendet
DE102005018174A1 (de) Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11
DE112015006831T5 (de) Dynamisches Akustikmodell für Fahrzeug
EP3152753B1 (de) Assistenzsystem, das mittels spracheingaben steuerbar ist, mit einer funktionseinrichtung und mehreren spracherkennungsmodulen
DE102016204315A1 (de) Fortbewegungsmittel, System und Verfahren zur Anpassung einer Länge einer erlaubten Sprechpause im Rahmen einer Spracheingabe
DE102013222520A1 (de) Verfahren und systeme für sprachsysteme
EP3735688B1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum verarbeiten einer spracheingabe, kraftfahrzeug und nutzerendgerät mit einer sprachverarbeitung
DE102017216571B4 (de) Kraftfahrzeug
DE102017203840A1 (de) Ursachenanalyse sowie wiederherstellungssysteme und -verfahren
DE102015106530B4 (de) Systeme und Verfahren zum Koordinieren einer Spracherkennung
WO2018188907A1 (de) Verarbeitung einer spracheingabe

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: MANITZ FINSTERWALD PATENT- UND RECHTSANWALTSPA, DE