DE102014017384A1 - Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung - Google Patents

Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung Download PDF

Info

Publication number
DE102014017384A1
DE102014017384A1 DE102014017384.4A DE102014017384A DE102014017384A1 DE 102014017384 A1 DE102014017384 A1 DE 102014017384A1 DE 102014017384 A DE102014017384 A DE 102014017384A DE 102014017384 A1 DE102014017384 A1 DE 102014017384A1
Authority
DE
Germany
Prior art keywords
user
speech
input
recognition
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102014017384.4A
Other languages
English (en)
Other versions
DE102014017384B4 (de
Inventor
Doreen Engelhardt
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Audi AG
Original Assignee
Audi AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Audi AG filed Critical Audi AG
Priority to DE102014017384.4A priority Critical patent/DE102014017384B4/de
Priority to EP15784573.6A priority patent/EP3224831B1/de
Priority to PCT/EP2015/002098 priority patent/WO2016082904A1/de
Priority to US15/503,053 priority patent/US10176806B2/en
Priority to CN201580038873.4A priority patent/CN106537492B/zh
Publication of DE102014017384A1 publication Critical patent/DE102014017384A1/de
Application granted granted Critical
Publication of DE102014017384B4 publication Critical patent/DE102014017384B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0485Scrolling or panning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

Die Erfindung betrifft ein Verfahren zum Betreiben einer Kraftfahrzeug-Bedienvorrichtung (2), wobei eine erste Spracheingabe (11) eines Benutzers (3) empfangen wird, mittels eines Spracherkennungssystems zumindest ein Erkennungsergebnis (A–D) zu der ersten Spracheingabe (11) ermittelt wird, das zumindest eine Erkennungsergebnis (A–D) an eine Ausgabeeinrichtung (7) des Kraftfahrzeugs (1) als Ergebnisliste (12) ausgegeben wird und eine zweite Spracheingabe (16) des Benutzer (3) empfangen wird. Aufgabe der Erfindung ist es, eine doppelte Ausgabe falscher Erkennungsergebnisse zu vermeiden. In der zweiten Spracheingabe (16) wird zunächst eine inhaltliche Eingabewiederholung der ersten Spracheingabe (11) erkannt, was auf einen Korrekturwunsch des Benutzers (3) hindeutet. Es wird daraufhin ein auszuschließender Anteil (22) der Ergebnisliste (12) ermittelt und beim Ermitteln eines Erkennungsergebnisses (C–E) zu der zweiten Spracheingabe (16) wird der auszuschließende Anteil (22) als mögliches Erkennungsergebnis ausgeschlossen.

Description

  • Die Erfindung betrifft ein Verfahren zum Betreiben einer Kraftfahrzeug-Bedienvorrichtung, um zu einer Spracheingabe eines Benutzers mittels eines Spracherkennungssystems zumindest ein Erkennungsergebnis zu ermitteln und dieses in Form einer Ergebnisliste auszugeben. Falls der Benutzer danach eine zweite Spracheingabe macht, wird überprüft, ob der Benutzer seine erste Spracheingabe inhaltlich wiederholt oder korrigiert, weil er das gewünschte Erkennungsergebnis nicht in der Ergebnisliste gefunden hat. Zu der Erfindung gehören auch eine Bedienvorrichtung zum Durchführen des Verfahrens sowie ein Kraftfahrzeug mit der Bedienvorrichtung.
  • Bei dem Kraftfahrzeug kann eine Bedienvorrichtung ein Spracherkennungssystem aufweisen und/oder über eine Funkverbindung mit einem stationären Spracherkennungssystem gekoppelt sein. Werden per Sprache Sprachinhalte eingegeben, wird dem Benutzer das erkannte Erkennungsergebnis in Form von sprachlichen und/oder graphischen Rückmeldungen präsentiert. Werden zu einer Spracheingabe mehrere Erkennungsergebnisse ermittelt, können diese als Alternativen zur Auswahl in einer Ergebnisliste präsentiert werden.
  • Falls ein Benutzer in der Ergebnisliste das gewünschte oder gemeinte Erkennungsergebnis, also den von ihm ausgesprochenen Sprachinhalt, nicht findet, spricht er in der Regel den Sprachinhalt noch einmal aus. Hierbei kann er dieselbe Formulierung verwenden wie bei der ersten Spracheingabe oder auch eine alternative Formulierung. Bei der Auswertung dieser zweiten Spracheingabe ist dabei seitens der Bedienvorrichtung nicht klar, ob es sich hier entweder um eine Korrektur oder einen neuen Sprachinhalt handelt. Daher wird die zweite Spracheingabe in der Regel mittels des Spracherkennungssystems genauso verarbeitet, wie die erste Spracheingabe. In der hierdurch ermittelten Ergebnisliste können also wieder dieselben Erkennungsergebnisse enthalten sein und dem Benutzer überflüssigerweise noch einmal präsentiert werden. Die im ersten Schritt vom Benutzer als inkorrekt identifizierten Ergebnisse können also nach einer erneuten Spracheingabe erneut erkannt und dem Benutzer präsentiert werden.
  • Aus der US 2007/0033025 A1 ist bekannt, zu einem von einem Benutzer ausgesprochenen Satz mehrere Ergebnissätze mittels eines Erkennungssystems zu ermitteln. Anschließend wird dem Benutzer eine Testfrage gestellt, ob in dem von ihm ausgesprochenen Satz ein bestimmtes Wort enthalten war. Bejaht dies der Benutzer, so werden all diejenigen Ergebnisssätze gelöscht, die das Wort nicht enthalten. Verneint der Benutzer die Testfrage, so werden all diejenigen Ergebnisssätze gelöscht, die das Wort enthalten.
  • Aus der US 2003/0216912 A1 ist ein Spracherkennungssystem bekannt, dass für den Fall, dass ein Benutzer denselben Satz zweimal ausspricht, übereinstimmende Anteile und voneinander abweichende Anteile in den beiden Erkennungsergebnissen zu ermitteln. Falls ein Benutzer bei der zweiten Aussprache des Satzes ein bestimmtes Wort besonders betont, so wird davon ausgegangen, dass dieses Wort im ersten Erkennungsergebnis falsch erkannt worden ist. Aus dem übereinstimmenden Anteilen und dem erneut erkannten abweichenden Anteil wird dann ein Erkennungsergebnis für eine Weiterverarbeitung gebildet.
  • Aus der EP 1 215 659 A1 wird zu einer Spracheingabe eines Benutzers ein erstes Erkennungsergebnis ermittelt und der Benutzer gefragt, ob dieses Ergebnis korrekt ist. Falls der Benutzer verneint, wird dieselbe Spracheingabe noch einmal mit geänderten Parametern des Spracherkennungssystems verarbeitet.
  • Der Erfindung liegt die Aufgabe zugrunde, das wiederholte Ausgeben eines falschen Erkennungsergebnisses zu vermeiden.
  • Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Weiterbildungen der Erfindung ergeben sich durch die Merkmale der abhängigen Patentansprüche.
  • Erfindungsgemäß bereitgestellt ist ein Verfahren zum Betreiben einer Kraftfahrzeug-Bedienvorrichtung. In der bereits beschriebenen Weise wird eine erste Spracheingabe des Benutzers empfangen. Die erste Spracheingabe enthält einen Sprachinhalt, beispielsweise einen Satz oder ein Wort. Mittels eines Spracherkennungssystems, das fahrzeugintern (on-board) bereitgestellt sein kann oder fahrzeugextern, wird zumindest ein Erkennungsergebnis zu der ersten Spracheingabe ermittelt. Jedes Erkennungsergebnis kann also einen erkannten Satz oder ein erkanntes Wort umfassen. Davon können mehrere alternative Erkennungsergebnisse erzeugt werden, beispielsweise eine an sich bekannte N-best-Liste (N beste Erkennungsergebnisse).
  • Das zumindest eine Erkennungsergebnis wird an eine Ausgabeeinrichtung des Kraftfahrzeugs als Ergebnisliste ausgegeben. Durch die Ausgabeeinrichtung kann eine sprachliche oder graphische Rückmeldung an den Benutzer ausgegeben werden, nämlich die Ergebnisliste. Bei dem Verfahren wird davon ausgegangen, dass danach eine zweite Spracheingabe des Benutzers empfangen wird.
  • Das erfindungsgemäße Verfahren ist dadurch gekennzeichnet, dass in der zweiten Spracheingabe eine inhaltliche Eingabewiederholung der ersten Spracheingabe erkannt wird. Zu beachten ist, dass eine inhaltliche Eingabewiederholung erkannt wird. Diese kann durch wortwörtliches Wiederholen der ersten Spracheingabe oder durch eine alternative sprachlichen Formulierung der ersten Spracheingabe erfolgen. Es wird also überprüft, ob der Benutzer neuen Text oder Sprachinhalt eingeben möchte oder ob der Benutzer eine Wiederholung des Sprachinhalts der ersten Spracheingabe vornimmt, weil er das gewünschte Erkennungsergebnis nicht finden in der Ausgabe der Ausgabeeinrichtung kann.
  • Wird erkannt, dass es sich um eine inhaltliche Eingabewiederholung handelt, so wird ein auszuschließender Anteil der Ergebnisliste ermittelt. Mit anderen Worten werden all diejenigen zur ersten Spracheingaben ermittelten Erkennungsergebnisse oder ein Teil eines Erkennungsergebnisses ermittelt, der im Zusammenhang mit der Spracherkennung der zweiten Spracheingabe nicht noch einmal als Erkennungsergebnisse präsentiert werden sollen. Beim Ermitteln eines Erkennungsergebnisses zu der zweiten Spracheingabe wird entsprechend dieser auszuschließende Anteil als mögliches Erkennungsergebnis ausgeschlossen.
  • Durch die Erfindung ergibt sich der Vorteil, dass dem Benutzer der auszuschließende Anteil nicht noch einmal ausgegeben wird, sodass ein falsches Erkennungsergebnis hierdurch mit hoher Wahrscheinlichkeit kein zweites Mal ausgegeben wird.
  • Bei dem erfindungsgemäßen Verfahren ergeben sich unterschiedliche Weiterbildungen in Abhängigkeit davon, wie die beschriebene inhaltliche Eingabewiederholung erkannt wird.
  • Eine Weiterbildung der Erfindung sieht hierzu vor, dass die inhaltliche Eingabewiederholung daran erkannt wird, dass der Benutzer eine vorbestimmte, für eine Eingabekorrektur vorgesehene Bedienhandlung durchführt. Beispielsweise kann hierfür eine Bedientaste oder ein Signalwort vorgesehen sein.
  • Bei einer anderen Weiterbildung wird die inhaltliche Eingabewiederholung daran erkannt, dass in der zweiten Spracheingabe selbst ein vorbestimmtes Korrekturschlagwort erkannt wird. Beispielsweise kann überprüft werden, ob in der zweiten Spracheingabe folgende Worte enthalten sind: „Nein, ich meinte ...”.
  • Bei einer anderen Weiterbildung wird die inhaltliche Eingabewiederholung daran erkannt, dass die erste Spracheingabe und die zweite Spracheingabe einen vorbestimmten prosodischen Unterschied aufweisen. Mit anderen Worten wird hier die Sprachmelodie erfasst und klassifiziert. Für die Erkennung und Klassifizierung der Prosodie in einer Spracheingabe kann auf an sich bekannte Verfahren zurückgegriffen werden. Typische Klassifizierungen können ergeben: ruhig, nervös, gereizt. Indem zwischen der ersten und der zweiten Spracheingabe ein vorbestimmter prosodischer Unterschied erkannt wird, beispielsweise der Wechsel von ruhig nach gereizt, kann ebenfalls darauf geschlossen werden, dass es sich um eine inhaltliche Eingabewiederholung handelt.
  • Bei einer anderen Weiterbildung wird die inhaltliche Eingabewiederholung daran erkannt, dass die erste Spracheingabe und die zweite Spracheingabe zu einem vorbestimmten Mindestanteil miteinander übereinstimmen. Hierbei wird also die zweite Spracheingabe ebenfalls mittels des Spracherkennungssystems zunächst in zumindest ein Erkennungsergebnis umgewandelt und anschließend die Erkennungsergebnisse zur ersten Spracheingabe und zur zweiten Spracheingabe verglichen, z. B. auf Wortebene oder Buchstabenebene.
  • Andere Weiterbildungen des erfindungsgemäßen Verfahrens betreffen die Art und Weise, wie der auszuschließende Anteil beim Ermitteln des Erkennungsergebnisses zu der zweiten Spracheingabe ausgeschlossen wird.
  • Eine Weiterbildung sieht hierzu vor, dass zum Ausschließen des auszuschließenden Anteils ein Vokabular oder eine Grammatik des Spracherkennungssystems verändert wird. Es können also beispielsweise Erkennhypothesen aus der ersten Erkennung für die zweite Erkennung verworfen werden. Mit anderen Worten wird die Grammatik des Spracherkennungssystems dynamisch angepasst. Hierdurch ergibt sich der Vorteil, dass die Laufzeitdauer für den Erkennungsvorgang verkürzt wird.
  • Eine andere Weiterbildung sieht vor, dass zum Ausschließen des auszuschließenden Anteils zunächst mittels des Spracherkennungssystems zumindest ein Standarderkennungsergebnis zu der zweiten Spracheingabe ermittelt wird. Mit Standard-Erkennungsergebnis ist gemeint, dass eine im Vergleich zur Erkennung der ersten Sprecheingabe verwendete unveränderte Grammatik verwendet wird. Anschließend wird aus dem Standard-Erkennungsergebnis der auszuschließende Anteil herausgefiltert. Mit anderen Worten werden z. B. all diejenigen Erkennungsergebnisse, die schon einmal ausgegeben worden sind, aus der Ergebnisliste gelöscht. Hierdurch ergibt sich der Vorteil, dass das Spracherkennungssystem nicht manipuliert werden muss, was insbesondere bei fahrzeugexternen Spracherkennungssystemen vorteilhaft ist.
  • Im Folgenden sind Weiterbildungen des erfindungsgemäßen Verfahrens beschrieben, die das Ermitteln des auszuschließenden Anteils betreffen.
  • Eine Weiterbildung sieht hierzu vor, dass als der auszuschließende Anteil derjenige Anteil der Ergebnisliste ermittelt wird, der von der Ausgabeeinrichtung erfolgreich an den Benutzer ausgegeben worden ist. Es wird also nur das ausgeschlossen, was auch tatsächlich dem Benutzer z. B. angezeigt worden ist.
  • Eine Weiterbildung hierzu betrifft das Ausgeben der Ergebnisliste über eine graphische Anzeigevorrichtung deren Anzeigefläche kleiner als die Ergebnisliste ist. Bei dieser Weiterbildung wird zum Ermitteln des erfolgreich ausgegebenen Anteils ein Scrollvorgang der Ausgabeeinrichtung ausgewertet. Es wird also überprüft, welcher Anteil der Ergebnisliste tatsächlich auf der Anzeigefläche angezeigt oder dargestellt worden ist. Das Auswerten des Scrollvorgangs, beispielsweise das Auswerten von Koordinaten oder eines Scrollsignals, ist ein zuverlässiger Indikator für die erfolgreiche Ausgabe.
  • Gemäß einer anderen Weiterbildung wird dahingehend unterschieden, ob ein Erkennungsergebnis der Ergebnisliste nur ausgegeben oder ob es auch vom Benutzer wahrgenommen worden ist. Hierzu sieht die Weiterbildung vor, dass eine Augenbewegung des Benutzers mittels eines Eyetrackingsystems oder kurz Eyetrackers (Augenverfolger) erfasst wird. Zum Ermitteln des erfolgreich ausgegebenen Anteils wird aus der Ergebnisliste nur derjenige Anteil ausgewählt, welcher gemäß der erfassten Augenbewegung von dem Benutzer betrachtet worden ist. Beispielsweise kann hierzu also ein Blickrichtungsvektor extrapoliert werden und überprüft werden, wo der extrapolierte Blickrichtungsvektor auf der Anzeigefläche auftrifft. Hierzu geeignete Eyetracker sind an sich im Stand der Technik verfügbar.
  • Eine andere Weiterbildung sieht vor, dass zusätzlich aus der Ergebnisliste der vom Benutzer betrachtete Anteil nur dann ausgewählt wird, falls der Benutzer dieses Erkennungsergebnis für eine vorbestimmte Mindestzeitdauer betrachtet hat. Hierdurch ergibt sich der Vorteil, dass zwischen einem abwesenden Überfliegen der Ergebnisse einerseits und einer tatsächlichen inhaltlichen Wahrnehmung durch Lesen unterschieden werden kann. Es wird also die Geschwindigkeit beim Lesen ausgewertet.
  • Zu der Erfindung gehört auch eine Bedienvorrichtung für ein Kraftfahrzeug. Diese weist eine Spracherfassungseinrichtung zum Erfassen einer Spracheingabe eines Benutzers auf, also beispielsweise ein Mikrofon oder eine Anordnung aus mehreren Mikrofonen. Des Weiteren ist eine Ausgabeeinrichtung zum Ausgeben einer Ergebnisliste mit zumindest einem zu der erfassten Spracheingabe ermittelten Erkennungsergebnis bereitgestellt. Die Ausgabeeinrichtung kann für eine sprachliche Ausgabe durch eine synthetische Stimme und/oder eine graphische Ausgabe ausgelegt sein. Für eine graphische Ausgabe kann sie beispielsweise einen Bildschirm aufweisen. Die erfindungsgemäße Bedienvorrichtung ist durch eine Prozessoreinrichtung gekennzeichnet, welche dazu ausgelegt ist, eine Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen.
  • Schließlich gehört zu der Erfindung auch ein Kraftfahrzeug, welches eine Ausführungsform der erfindungsgemäßen Bedienvorrichtung aufweist. Das erfindungsgemäße Kraftfahrzeug ist bevorzugt als Kraftwagen, insbesondere als Personenkraftwagen, ausgestaltet.
  • Im Folgenden ist ein Ausführungsbeispiel der Erfindung beschrieben. Hierzu zeigt die einzige Fig. eine schematische Darstellung einer Ausführungsform des erfindungsgemäßen Kraftfahrzeugs.
  • Bei dem im Folgenden erläuterten Ausführungsbeispiel handelt es sich um eine bevorzugte Ausführungsform der Erfindung. Bei dem Ausführungsbeispiel stellen aber die beschriebenen Komponenten der Ausführungsform jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden und damit auch einzeln oder in einer anderen als der gezeigten Kombination als Bestandteil der Erfindung anzusehen sind. Des Weiteren ist die beschriebene Ausführungsform auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.
  • Die Figur zeigt schematisch ein Kraftfahrzeug 1, bei dem es sich um einen Kraftwagen, insbesondere einen Personenkraftwagen, handeln kann. Das Kraftfahrzeug 1 kann eine Bedienvorrichtung 2 aufweisen, mittels welcher ein Benutzer 3 des Kraftfahrzeugs 1 eines oder mehrere Geräte 4 des Kraftfahrzeugs bedienen kann. Bei den Geräten kann es sich beispielsweise um eines oder mehrere aus den folgenden handeln: ein Medienabspielgerät, ein Telematiksystem, ein Navigationsgerät, ein Telefon.
  • Durch die Bedienvorrichtung 2 kann eine Sprachbedienung der Geräte 4 ermöglicht sein. Hierzu kann die Bedienvorrichtung 2 eine Spracherfassungseinrichtung 5, eine Spracherkennungseinrichtung 6, eine Ausgabeeinrichtung 7, eine Steuereinrichtung 8 und eine Signalerzeugungseinrichtung 9 aufweisen. Es kann auch eine Ausführungsform vorgesehen sein, bei welcher ein Eyetracker 10 bereitgestellt ist, wie er an sich aus dem Stand der Technik bekannt ist. Mittels eines Eyetrackers 10 kann beispielsweise die Blickrichtung der Augen des Benutzers 3 ermittelt und/oder verfolgt werden.
  • Zur Sprachbedienung kann der Benutzer 3 eine Spracheingabe 11 machen. In der Figur ist symbolisch ein Sprachinhalt oder eine Sprachäußerung S1 als Spracheingabe 11 dargestellt. In dem veranschaulichten Beispiel möchte der Benutzer 3 ein Navigationsgerät bedienen und eine Routenplanung nach München anstoßen. Die Sprachäußerung S1 kann beispielsweise lauten: „Führe mich nach München!”. Die Spracherfassungseinrichtung kann den Sprachschall der Spracheingabe 11 erfassen. Hierzu kann die Erfassungseinrichtung 5 beispielsweise eines oder mehrere Mikrofone aufweisen. Durch die Spracherfassungseinrichtung 5 wird der Sprachschall in ein elektrisches und/oder digitales Sprachsignal gewandelt und an die Spracherkennungseinrichtung 6 (ASR – Automatic Speech Recognition – automatische Spracherkennung) ausgegeben.
  • Die Spracherkennungseinrichtung 6 kann ein Spracherkennungssystem umfassen oder beispielsweise über eine (nicht dargestellten) Mobilfunkverbindung mit einem stationären Spracherkennungssystem, beispielsweise ein Spracherkennungssystem des Internets, gekoppelt sein. Durch die Spracherkennungseinrichtung 6 kann die Spracheingabe 11 in an sich bekannter Weise dekodiert werden, das heißt die Sprachäußerung S1 als Text erkannt werden. Die Spracherkennung kann beispielsweise auf der Grundlage von Hidden-Markrov-Modellen (HMM) durchgeführt werden.
  • Bei einer Spracherkennung kann es zu einer Spracheingabe 11 eines oder mehrere Erkennungsergebnisse geben. In dem Beispiel sei angenommen, dass die Spracheingabe 11 mit der Sprachäußerung S1 zu mehreren Spracherkennungsergebnissen A, B, C, D führt. Beispielsweise können sich die Spracherkennungsergebnisse in dem erkannten Zielort unterscheiden, sodass beispielsweise das Erkennungsergebnis A lauten kann: „Führe mich nach Bonn!”, die das Spracherkennungsergebnis B: „Führe mich nach Berlin!”, das Erkennungsergebnis C: „Führe mich nach München!” und das Erkennungsergebnis D: „Führe mich nach Salzburg!”
  • Die Erkennungsergebnisse A, B, C, D können von der Spracherkennungseinrichtung 6 zu einer Ergebnisliste 12 zusammengefasst werden, die an die Ausgabeeinrichtung 7 ausgegeben werden kann. Die Ausgabeeinrichtung 7 kann die Erkennungsergebnisse A, B, C, D an den Benutzer 3 ausgeben, damit dieser das richtige Erkennungsergebnis aussucht. Hierzu kann die Ausgabeeinrichtung 7 die Ergebnisliste 7 beispielsweise als Sprachsignal ausgeben, also eine akustische Ausgabe, oder eine Anzeigeeinrichtung 13 aufweisen, beispielsweise einen Bildschirm. Auf einer Anzeigefläche 14 der Anzeigeeinrichtung 13 kann ein Auswahlmenü 15 mit den Erkennungsergebnissen A, B, C, D der Ergebnisliste 12 aus angezeigt werden. Die Anzeigefläche 14 kann derart klein sein, dass die Ergebnisliste 12 zu einem gegebenen Zeitpunkt nicht vollständig angezeigt werden kann. In dem Beispiel der Figur ist veranschaulicht, dass das Erkennungsergebnis D gerade nicht angezeigt wird. Der Benutzer 3 kann das Auswahlmenü 15 beispielsweise durch Scrollen auf der Anzeigefläche 14 verschieben, sodass weitere Erkennungsergebnisse auf der Anzeigefläche 14 dargestellt werden.
  • Der Benutzer 3 kann nun das von ihm gemeinte Ergebnis auswählen. Hierzu kann die Anzeigeeinrichtung 13 beispielsweise berührungssensitiv ausgestaltet sein, sodass der Benutzer 3 das korrekte Erkennungsergebnis in dem Auswahlmenü 15 beispielsweise antippen kann. Das ausgewählte Erkennungsergebnis kann an die Signalerzeugungseinrichtung 9 übergeben werden. Die Signalerzeugungseinrichtung 9 kann in Abhängigkeit von dem ausgewählten Erkennungsergebnis dann in an sich bekannter Weise einen Steuerbefehl erzeugen, welcher an das passende Gerät aus der Gruppe der Geräte 4 ausgegeben werden kann. In dem Beispiel wird dann bei dem Navigationsgerät eine Routenplanung veranlasst oder ausgelöst oder parametriert.
  • Bei dem Kraftfahrzeug 1 ist dem Benutzer die Möglichkeit gegeben, eine Erkennungskorrektur vorzunehmen. Falls der Benutzer 3 das gewünschte Erkennungsergebnis nicht in der Ergebnisliste 12 finden kann, kann er eine weitere Spracheingabe 16 vornehmen oder tätigen. Beispielsweise kann als Spracheingabe 16 von dem Benutzer 3 ein Sprachinhalt oder eine Sprachäußerung S2 ausgesprochen werden. Hierbei kann der Benutzer 3 die Sprachäußerung S1 einfach wiederholen, also nochmal aussprechen: „Führe mich nach München!”. Er kann aber auch eine andere Sprachäußerung aussprechen, beispielsweise: „Nein, ich meine München.”
  • Die Spracheingabe 16 kann in der beschriebenen Weise durch die Spracherfassungseinrichtung 5 erfasst werden und durch die Spracherkennungseinrichtung 6 bearbeitet werden. Die Spracherkennungseinrichtung 6 kann eine Wiederholungserkennung 17 aufweisen, welche dazu ausgelegt sein kann, eine inhaltliche Eingabewiederholung der ersten Spracheingabe 11 zu erkennen. Beispielsweise kann nach einer Dekodierung oder Erkennung der Spracheingabe 16 durch die Wiederholungserkennung 17 erkannt werden, ob ein Signalwort oder Schlüsselwort in der Spracheingabe 16 enthalten ist. Im vorliegenden Fall kann also beispielsweise das Wort „Nein” als Korrekturwunsch interpretiert werden. Falls der Benutzer 3 seine Eingabe wiederholt, also nochmal ausspricht beispielsweise: „Führe mich nach München!”, so kann durch die Wiederholungserkennung 17 beispielsweise an dem Erkennungsergebnis erkannt werden, dass mehrere Worte, beispielsweise mehr als 60 Prozent oder mehr als 70 Prozent, mit den Erkennungsergebnissen zur ersten Spracheingabe 11 übereinstimmen. Es kann auch beispielsweise vorgesehen sein, dass der Benutzer 3 während des Aussprechens der Spracheingabe 16 eine Korrekturtaste drücken muss, was dann ebenfalls von der Wiederholungserkennung 17 erkannt werden kann. Es kann auch beispielsweise eine Prosodieanalyse der Sprachmelodie der Spracheingaben 11 und 16 erfolgen und ein Vergleich durchgeführt werden. Wird der Benutzer 3 ungeduldig oder wütend, so kann dies an einer Veränderung der Prosodie, also des Sprachmelodieverlaufs, erkannt werden. Prosodieerkennung ist an sich aus dem Stand der Technik bekannt. Die Wiederholungserkennung 17 kann beispielsweise ein Programmmodul einer Prozessoreinrichtung der Bedienvorrichtung 2 sein.
  • Die Wiederholungserkennung 17 kann den erkannten Korrekturwunsch des Benutzers 3 dann beispielsweise an die Steuereinrichtung 8 signalisieren. Die Steuereinrichtung 8 kann dazu ausgelegt sein, für die Erzeugung einer zweiten Ergebnisliste 18 durch die Spracherkennungseinrichtung 6 zunächst diejenigen Erkennungsergebnisse, die der Benutzer 3 schon überprüft hat, aus der Ergebnisliste 18 auszuschließen, damit der Benutzer 3 nicht noch einmal mit den falschen Erkennungsergebnissen konfrontiert wird. Die Steuereinrichtung 8 kann beispielsweise ein Programmmodul einer Prozessoreinrichtung der Bedienvorrichtung 2 sein.
  • Die Steuervorrichtung 8 kann beispielsweise von der Anzeigeeinrichtung 7 eine Anzeigeliste 19 empfangen, welche angibt, welcher Teil der Ergebnisliste 12 bereits auf der Anzeigefläche 14 dargestellt worden ist. Zusätzlich oder alternativ dazu kann die Steuereinrichtung 8 von dem Eyetracker 10 beispielsweise Blickrichtungskoordinaten empfangen, welche über eine Blickrichtungsspur 20 beschreiben können, anhand welcher ermittelt werden kann, welche Menüeinträge des Menüs 15 der Benutzer 3 tatsächlich angeschaut hat und/oder wie lange er welchen Menüeintrag des Menü 15 angeschaut hat. Entsprechende Blickrichtungsdaten 21 können von dem Eyetracker 10 an die Steuereinrichtung 8 bereitgestellt sein.
  • In dem Beispiel ist davon ausgegangen, dass die Steuereinrichtung 8 von dem Eyetracker 10 die Blickrichtungsdaten 21 empfängt und die Spracherkennungseinrichtung 6 dahingehend konfiguriert dass ein auszuschließender Anteil 22 aus dem Spracherkennungsergebnissen A, B, C, D der ersten Spracheingabe 11 für die Erkennung des Sprachinhalts S2 auszuschließen ist. Beispielsweise können also die Worte Bonn und Berlin (A, B) ausgeschlossen werden. Insbesondere kann also nicht ein vollständiges Spracherkennungsergebnis, sondern nur ein Einzelwort daraus als auszuschließender Anteil 22 festgelegt sein. Die Spracherkennungseinrichtung 6 kann dann aus dem Erkennungsergebnissen, die zu der Spracheingabe 16 ermittelt wurden, den auszuschließenden Anteil 22 ausschließen oder herausfiltern.
  • Entsprechend wird durch die Spracherkennungseinrichtung 6 in dem veranschaulichten Beispiel eine Ergebnisliste 18 erzeugt, die zu der Sprachäußerung S2 die Spracherkennungsergebnisse C, D, E enthalten kann. Es sind also die auszuschließenden Anteile, hier A, B, ausgeschlossen. Die Ergebnisliste 18 kann also zusätzlich zu den Erkennungsergebnissen C, D auch noch beispielsweise das Erkennungsergebnis E: „Führe mich nach Paris!” enthalten.
  • In der Figur ist nicht weiter veranschaulicht, die durch den Benutzer 3 durch die Ausgabeeinrichtung 7 nun beispielsweise auf der Anzeigefläche 14 die Ergebnisliste 18 angezeigt oder ausgegeben werden kann. Der Benutzer 3 kann dann das Richtige Erkennungsergebnis auswählen, woraufhin in der beschriebenen Weise durch die Signalerzeugungseinrichtung 9 ausgegeben werden kann und hierdurch die Geräte 4 angesteuert werden können.
  • Durch die Bedienvorrichtung 2 wird also eine nutzerseitige Korrektur festgestellt, sodass bereits erkannte Ergebnisse der vorhergehenden Eingabe als Hypothese verworfen werden können und somit dem Benutzer nicht erneut präsentiert werden. Hierdurch ergibt sich der Vorteil, dass die Erkennung für die zweite Eingabe verbessert werden kann, da die Erkennungsergebnisse aus der ersten Eingabe nicht berücksichtigt werden müssen. Zusätzlich werden dem Benutzer nicht die als falsch identifizierten Ergebnisse präsentiert. Das System erscheint dem Benutzer deutlich intelligenter. Umgesetzt wird dies, indem eine nutzerseitige Korrektur festgestellt wird, sodass die Erkennungsergebnisse von der ersten Eingabe nicht für die Erkennung im zweiten Schritt genutzt werden. Die Erkennungshypothesen aus der ersten Erkennung werden für die zweite Erkennung somit verworfen.
  • Insgesamt zeigt das Beispiel, wie durch die Erfindung eine Korrekturstrategie für Spracheingaben per Sprache bereitgestellt werden kann.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 2007/0033025 A1 [0004]
    • US 2003/0216912 A1 [0005]
    • EP 1215659 A1 [0006]

Claims (10)

  1. Verfahren zum Betreiben einer Kraftfahrzeug-Bedienvorrichtung (2), wobei – eine erste Spracheingabe (11) eines Benutzers (3) empfangen wird, – mittels eines Spracherkennungssystems zumindest ein Erkennungsergebnis (A–D) zu der ersten Spracheingabe (11) ermittelt wird, – das zumindest eine Erkennungsergebnis (A–D) an eine Ausgabeeinrichtung (7) des Kraftfahrzeugs (1) als Ergebnisliste (12) ausgegeben wird, und – eine zweite Spracheingabe (16) des Benutzer (3) empfangen wird, dadurch gekennzeichnet, dass – in der zweiten Spracheingabe (16) eine inhaltliche Eingabewiederholung der ersten Spracheingabe (11) erkannt wird, – ein auszuschließender Anteil (22) der Ergebnisliste (12) ermittelt wird und – beim Ermitteln eines Erkennungsergebnisses (C–E) zu der zweiten Spracheingabe (16) der auszuschließende Anteil (22) als mögliches Erkennungsergebnis ausgeschlossen wird.
  2. Verfahren nach Anspruch 1, wobei die inhaltliche Eingabewiederholung auf der Grundlage zumindest eines der folgenden Kriterien erkannt wird: – Der Benutzer (3) führt eine vorbestimmte, für eine Eingabekorrektur vorgesehene Bedienhandlung durch; – Es wird in der zweiten Spracheingabe (16) ein vorbestimmtes Korrekturschlagwort erkannt; – Die erste Spracheingabe (11) und die zweite Spracheingabe (16) weisen einen vorbestimmten prosodischen Unterschied auf; – Die erste Spracheingabe (11) und die zweite Spracheingabe (16) stimmen zu einem vorbestimmten Mindestanteil miteinander überein.
  3. Verfahren nach einem der vorhergehenden Ansprüche, wobei zum Ausschließen des auszuschließende Anteils (22) eine Grammatik des Spracherkennungssystems verändert wird.
  4. Verfahren nach einem der vorhergehenden Ansprüche, wobei zum Ausschließen des auszuschließende Anteils (22) mittels des Spracherkennungssystems zumindest ein Standard-Erkennungsergebnis zu der zweiten Spracheingabe (16) ermittelt wird und aus dem Standard-Erkennungsergebnis der auszuschließende Anteil (22) herausgefiltert wird.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei als der auszuschließende Anteil (22) derjenige Anteil der Ergebnisliste (12) ermittelt wird, der von der Ausgabeeinrichtung (7) erfolgreich an den Benutzer (3) ausgegeben worden ist.
  6. Verfahren nach Anspruch 5, wobei zum Ermitteln des erfolgreich ausgegebenen Anteils (19) ein Scrollvorgang der Ausgabeeinrichtung (7) ausgewertet wird.
  7. Verfahren nach Anspruch 5 oder 6, wobei eine Augenbewegung (20) des Benutzers (3) mittels eines Eyetrackers (10) erfasst wird und zum Ermitteln des erfolgreich ausgegebenen Anteils (21) aus der Ergebnisliste (12) nur derjenige Anteil (A, B), welcher gemäß der erfassten Augenbewegung (20) von dem Benutzer (3) betrachtet worden ist, ausgewählt wird.
  8. Verfahren nach Anspruch 7, wobei aus der Ergebnisliste (12) ein vom Benutzer (3) betrachtete Anteil (A, B) nur ausgewählt wird, falls der Benutzer (3) dieses für eine vorbestimmte Mindestzeitdauer betrachtet hat.
  9. Bedienvorrichtung (2) für ein Kraftfahrzeug (1), aufweisend: – eine Spracherfassungseinrichtung (5) zum Erfassen einer Spracheingabe (11, 16) eines Benutzers (3), – eine Ausgabeeinrichtung (7) zum Ausgeben einer Ergebnisliste (12, 16) mit zumindest einem zu der erfassten Sprachausgabe (11, 16) ermittelten Erkennungsergebnis (A–E), gekennzeichnet durch eine Prozessoreinrichtung, welche dazu ausgelegt ist, ein Verfahren nach einem der vorhergehenden Ansprüche durchzuführen.
  10. Kraftfahrzeug (1) mit einer Bedienvorrichtung (2) nach Anspruch 9.
DE102014017384.4A 2014-11-24 2014-11-24 Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung Expired - Fee Related DE102014017384B4 (de)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE102014017384.4A DE102014017384B4 (de) 2014-11-24 2014-11-24 Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung
EP15784573.6A EP3224831B1 (de) 2014-11-24 2015-10-22 Kraftfahrzeug-bedienvorrichtung mit korrekturstrategie für spracherkennung
PCT/EP2015/002098 WO2016082904A1 (de) 2014-11-24 2015-10-22 Kraftfahrzeug-bedienvorrichtung mit korrekturstrategie für spracherkennung
US15/503,053 US10176806B2 (en) 2014-11-24 2015-10-22 Motor vehicle operating device with a correction strategy for voice recognition
CN201580038873.4A CN106537492B (zh) 2014-11-24 2015-10-22 具有用于语音识别的校正策略的机动车操作装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102014017384.4A DE102014017384B4 (de) 2014-11-24 2014-11-24 Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung

Publications (2)

Publication Number Publication Date
DE102014017384A1 true DE102014017384A1 (de) 2016-05-25
DE102014017384B4 DE102014017384B4 (de) 2018-10-25

Family

ID=54347476

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102014017384.4A Expired - Fee Related DE102014017384B4 (de) 2014-11-24 2014-11-24 Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung

Country Status (5)

Country Link
US (1) US10176806B2 (de)
EP (1) EP3224831B1 (de)
CN (1) CN106537492B (de)
DE (1) DE102014017384B4 (de)
WO (1) WO2016082904A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018200088B3 (de) 2018-01-04 2019-06-13 Volkswagen Aktiengesellschaft Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zum Verarbeiten einer Spracheingabe, Kraftfahrzeug und Nutzerendgerät mit einer Sprachverarbeitung

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014017384B4 (de) * 2014-11-24 2018-10-25 Audi Ag Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung
JP6724511B2 (ja) * 2016-04-12 2020-07-15 富士通株式会社 音声認識装置、音声認識方法および音声認識プログラム
JP6690484B2 (ja) * 2016-09-15 2020-04-28 富士通株式会社 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
CN106601254B (zh) * 2016-12-08 2020-11-06 阿里巴巴(中国)有限公司 信息输入方法和装置及计算设备
US20180315415A1 (en) * 2017-04-26 2018-11-01 Soundhound, Inc. Virtual assistant with error identification
DE102017213946B4 (de) * 2017-08-10 2022-11-10 Audi Ag Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät
CN108733214A (zh) * 2018-05-15 2018-11-02 宇龙计算机通信科技(深圳)有限公司 阅读器控制方法、装置、阅读器及计算机可读存储介质
US10679610B2 (en) * 2018-07-16 2020-06-09 Microsoft Technology Licensing, Llc Eyes-off training for automatic speech recognition
DE102018133694B4 (de) 2018-12-28 2023-09-07 Volkswagen Aktiengesellschaft Verfahren zur Verbesserung der Spracherkennung einer Benutzerschnittstelle
US11263198B2 (en) 2019-09-05 2022-03-01 Soundhound, Inc. System and method for detection and correction of a query
JP7363307B2 (ja) * 2019-09-30 2023-10-18 日本電気株式会社 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体
US11721322B2 (en) * 2020-02-28 2023-08-08 Rovi Guides, Inc. Automated word correction in speech recognition systems

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6067521A (en) * 1995-10-16 2000-05-23 Sony Corporation Interrupt correction of speech recognition for a navigation device
EP1215659A1 (de) 2000-12-14 2002-06-19 Nokia Corporation Örtlich verteiltes Spracherkennungssystem und entsprechendes Betriebsverfahren
US20030216912A1 (en) 2002-04-24 2003-11-20 Tetsuro Chino Speech recognition method and speech recognition apparatus
US20070033025A1 (en) 2005-05-05 2007-02-08 Nuance Communications, Inc. Algorithm for n-best ASR result processing to improve accuracy
US7809567B2 (en) * 2004-07-23 2010-10-05 Microsoft Corporation Speech recognition application or server using iterative recognition constraints

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
JPH10108284A (ja) * 1996-09-27 1998-04-24 Sony Corp マイクロホン、ナビゲーション装置、通信装置、オーディオ装置及び自動車
US6351273B1 (en) * 1997-04-30 2002-02-26 Jerome H. Lemelson System and methods for controlling automatic scrolling of information on a display or screen
US6246672B1 (en) * 1998-04-28 2001-06-12 International Business Machines Corp. Singlecast interactive radio system
US6081780A (en) * 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system
IL136652A0 (en) * 2000-06-08 2001-06-14 Arlinsky David A closed-loop control system in a car
US7020608B2 (en) * 2001-06-21 2006-03-28 Delphi Technologies, Inc. Speech recognition handling with synthesized manual input events
JP4542974B2 (ja) * 2005-09-27 2010-09-15 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
JP4867654B2 (ja) * 2006-12-28 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
US8370157B2 (en) * 2010-07-08 2013-02-05 Honeywell International Inc. Aircraft speech recognition and voice training data storage and retrieval methods and apparatus
JP5110149B2 (ja) * 2010-10-28 2012-12-26 株式会社Jvcケンウッド 車載器制御装置、車載器制御方法、及び、プログラム
CN102036051A (zh) * 2010-12-20 2011-04-27 华为终端有限公司 实现视频会议中提词的方法以及装置
US9349234B2 (en) * 2012-03-14 2016-05-24 Autoconnect Holdings Llc Vehicle to vehicle social and business communications
US20150287406A1 (en) * 2012-03-23 2015-10-08 Google Inc. Estimating Speech in the Presence of Noise
US9564125B2 (en) * 2012-11-13 2017-02-07 GM Global Technology Operations LLC Methods and systems for adapting a speech system based on user characteristics
CN102968989B (zh) * 2012-12-10 2014-08-13 中国科学院自动化研究所 一种用于语音识别的Ngram模型改进方法
DE102014017384B4 (de) * 2014-11-24 2018-10-25 Audi Ag Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung
DE102014017385B4 (de) * 2014-11-24 2016-06-23 Audi Ag Kraftfahrzeug-Gerätebedienung mit Bedienkorrektur
US9890576B2 (en) * 2015-07-29 2018-02-13 Ford Global Technologies, Llc Active door operation based on voice commands
CN105940445B (zh) * 2016-02-04 2018-06-12 曾新晓 一种语音通信系统及其方法
GB2555661A (en) * 2016-11-07 2018-05-09 Cirrus Logic Int Semiconductor Ltd Methods and apparatus for biometric authentication in an electronic device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6067521A (en) * 1995-10-16 2000-05-23 Sony Corporation Interrupt correction of speech recognition for a navigation device
EP1215659A1 (de) 2000-12-14 2002-06-19 Nokia Corporation Örtlich verteiltes Spracherkennungssystem und entsprechendes Betriebsverfahren
US20030216912A1 (en) 2002-04-24 2003-11-20 Tetsuro Chino Speech recognition method and speech recognition apparatus
US7809567B2 (en) * 2004-07-23 2010-10-05 Microsoft Corporation Speech recognition application or server using iterative recognition constraints
US20070033025A1 (en) 2005-05-05 2007-02-08 Nuance Communications, Inc. Algorithm for n-best ASR result processing to improve accuracy

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018200088B3 (de) 2018-01-04 2019-06-13 Volkswagen Aktiengesellschaft Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zum Verarbeiten einer Spracheingabe, Kraftfahrzeug und Nutzerendgerät mit einer Sprachverarbeitung
WO2019134774A1 (de) 2018-01-04 2019-07-11 Volkswagen Aktiengesellschaft Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum verarbeiten einer spracheingabe, kraftfahrzeug und nutzerendgerät mit einer sprachverarbeitung
US11646031B2 (en) 2018-01-04 2023-05-09 Volkswagen Aktiengesellschaft Method, device and computer-readable storage medium having instructions for processing a speech input, transportation vehicle, and user terminal with speech processing

Also Published As

Publication number Publication date
US10176806B2 (en) 2019-01-08
EP3224831B1 (de) 2018-08-22
WO2016082904A1 (de) 2016-06-02
EP3224831A1 (de) 2017-10-04
US20170229120A1 (en) 2017-08-10
DE102014017384B4 (de) 2018-10-25
CN106537492B (zh) 2019-05-10
CN106537492A (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
EP3224831B1 (de) Kraftfahrzeug-bedienvorrichtung mit korrekturstrategie für spracherkennung
DE102013222507B4 (de) Verfahren zum Adaptieren eines Sprachsystems
DE102013223036B4 (de) Adaptionsverfahren für Sprachsysteme
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
DE112011105407T5 (de) Spracherkennungsvorrichtung und Navigationsvorrichtung
EP1892700A1 (de) Verfahren zur Spracherkennung und Sprachwiedergabe
DE102017220266B3 (de) Verfahren zum Überprüfen eines Onboard-Spracherkenners eines Kraftfahrzeugs sowie Steuervorrichtung und Kraftfahrzeug
DE102015106280B4 (de) Systeme und Verfahren zum Kompensieren von Sprachartefakten in Spracherkennungssystemen
EP3430615B1 (de) Fortbewegungsmittel, system und verfahren zur anpassung einer länge einer erlaubten sprechpause im rahmen einer spracheingabe
DE102005018174A1 (de) Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11
EP3152753A1 (de) Assistenzsystem, das mittels spracheingaben steuerbar ist, mit einer funktionseinrichtung und mehreren spracherkennungsmodulen
EP1238250B1 (de) Spracherkennungsverfahren und -einrichtung
DE102018132160A1 (de) System und verfahren zum verstehen von standardsprache und dialekten
DE102013222520B4 (de) Verfahren für ein sprachsystem eines fahrzeugs
EP2548382A1 (de) Verfahren zum test von hörhilfegeräten
EP3115886B1 (de) Verfahren zum betreiben eines sprachsteuerungssystems und sprachsteuerungssystem
DE102013013695A1 (de) Kraftfahrzeug mit Spracherkennung
EP2907048A1 (de) Kraftwagen mit einem sprachübersetzungssystem
DE102022124133B3 (de) Verfahren zum Verarbeiten gestottert gesprochener Sprache mittels eines Sprachassistenten für ein Kraftfahrzeug
DE102017203840A1 (de) Ursachenanalyse sowie wiederherstellungssysteme und -verfahren
DE102016005629B4 (de) Kraftfahrzeug-Bedienvorrichtung und Verfahren zum Ermitteln zumindest eines Erkennungsergebnisses zu einem Sprachsignal
DE102004029873B3 (de) Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme
DE102016005731B4 (de) Verfahren zum Betreiben mehrerer Spracherkenner
DE102015006662B4 (de) Verfahren zum Konfigurieren einer Sprachbedieneinrichtung
DE102015213720B4 (de) Verfahren zum Erfassen einer Eingabe durch ein Spracherkennungssystem und Spracherkennungssystem

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee