DE10191732B4 - Selektive Sprecheradaption für ein fahrzeuggebundenes Spracherkennungssystem - Google Patents

Selektive Sprecheradaption für ein fahrzeuggebundenes Spracherkennungssystem Download PDF

Info

Publication number
DE10191732B4
DE10191732B4 DE10191732T DE10191732T DE10191732B4 DE 10191732 B4 DE10191732 B4 DE 10191732B4 DE 10191732 T DE10191732 T DE 10191732T DE 10191732 T DE10191732 T DE 10191732T DE 10191732 B4 DE10191732 B4 DE 10191732B4
Authority
DE
Germany
Prior art keywords
speaker
command
vehicle
speech
spoken utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE10191732T
Other languages
English (en)
Other versions
DE10191732T1 (de
Inventor
Charles Allen Canton Everhart
Scott Alan Canton Thompson
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Visteon Global Technologies Inc
Original Assignee
Visteon Global Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Visteon Global Technologies Inc filed Critical Visteon Global Technologies Inc
Publication of DE10191732T1 publication Critical patent/DE10191732T1/de
Application granted granted Critical
Publication of DE10191732B4 publication Critical patent/DE10191732B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

Verfahren für die selektive Sprecheradaption eines fahrzeuggebundenen Spracherkennungssystems zum Betätigen von Fahrzeugzusatzgeräten per Stimme, aufweisend die Schritte:
(A) Empfangen einer gesprochenen Äußerung von einem Sprecher mit sprecherabhängigen Sprech- und Spracheigenschaften und betreffend einen eines Satzes bekannter Fahrzeugbefehle,
(B) Verarbeiten der gesprochenen Äußerung in Übereinstimmung mit einem Erkennungsparameter,
(C) Identifizieren eines N-Best-Satzes bekannter Fahrzeugbefehle, die mit der verarbeiteten, gesprochenen Äußerung abgeglichen sind,
(D) Identifizieren einer wiederholt gesprochenen Äußerung von einem Sprecher als Trainingsbetriebsarteneingabe, wenn eine erwartete Zusatzgerätebetätigung ausgeführt worden ist, (E) Ausgabe des N-Best-Befehlssatzes an den Sprecher,
(F) Empfangen einer Sprechereingabe zum Wählen eines korrekten Fahrzeugbefehls aus dem N-Best-Befehlssatz und
(G) Einstellen des Erkennungsparameters derart, dass das Spracherkennungssystem den Sprecher adaptiert durch Erkennen einer gesprochenen Äußerung mit den Sprecheigenschaften als korrekten Fahrzeugbefehl.

Description

  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung betrifft Spracherkennungssysteme, und insbesondere ein Verfahren zum wahlweisen Trainieren von fahrzeuggebundenen Spracherkennungssystemen zum Adaptieren der Spracheigenschaften einzelner Sprecher.
  • HINTERGRUND DER ERFINDUNG
  • Spracherkennungssysteme an Bord von Kraftfahrzeugen erlauben es Fahrern und Fahrgästen, verschiedene Fahrzeugfunktionen zu steuern durch Sprechen von Wörtern und Sätzen entsprechend Sprachbefehlen. Ein Mikrofon oder mehrere Mikrofone, die in der Fahrgastzelle angeordnet sind, empfangen Audiosignale, die die gesprochenen Wörter und Sätze darstellen. Sprachmaschinenerkennungsalgorithmen, die unterschiedliche Akustik- und Sprachmodellierungstechniken verwenden, werden eingesetzt, um die Audiosignale zu verarbeiten und einen passenden Sprachbefehl zu identifizieren, der in einem oder mehreren gespeicherten Befehlsgrammatiksätzen gespeichert ist. Der Sprachbefehl wird daraufhin zu einer geeigneten Steuerung zum Betreiben einer beliebigen Anzahl von Fahrzeugfunktionen und Fahrzeugzusatzgeräten übertragen, wie etwa zu motorangetriebenen Fenstern, zu Schlössern und zu Klimatisierungssteuervorrichtungen.
  • Die Effizienz eines Spracherkennungssystems wird weitgehend im Hinblick auf die Erkennungsgenauigkeit gemessen, d. h., ob das System einen Sprachbefehl mit einer gesprochenen Lautäußerung korrekt zur Übereinstimmung bringt bzw. abgleicht. Die Spracherkennung ist üblicherweise ein schwieriges Problem auf Grund einer großen Vielfalt von Sprach/Phonetikeigenschaften, wie etwa die Aussprache, der Dialekt und die Diktion von einzelnen Sprechern. Dies trifft insbesondere zu für in Fahrzeugen vorgesehene Spracherkennungssysteme, weil Fahrzeuge typischerweise eine Anzahl von Fahrgästen transportieren. Darüber hinaus können die akustischen Eigenschaften innerhalb der Fahrgastzelle auf Grund von Motor- und Straßengeräuschen variieren, beispielsweise von vorbeifahrendem Verkehr und Sirenen sowie Wetterbedingungen, wie etwa Wind, Regen und Donner, was die Spracherkennung besonders schwierig macht.
  • Akustische, lexikalische und Sprachmodelle sind typischerweise in Sprachmaschinen enthalten, um den Erkennungsprozess durch Reduzieren des Suchraums von möglichen Wörtern zu reduzieren und um zwischen ähnlich klingenden Wörtern und Sätzen Zweideutigkeiten aufzulösen. Diese Modelle sind üblicherweise auf Statistiken basierende Systeme, und sie können in einer Vielzahl von Formen bereit gestellt werden. Akustische Modelle können akustische Signaturen oder Wellenformmodelle von den Audiosignalen, entsprechend jedem Befehl, enthalten. Lexikalische und Sprachmodelle enthalten typischerweise Algorithmen, die die Sprachmaschine hinsichtlich der Befehlswortwahl und der Grammatikstruktur instruieren. Beispielsweise kann ein einfaches Sprachmodell als endlich festgesetztes Netz spezifiziert sein, wenn die zulässigen Wörter, die jedem Wort folgen, explizit gegeben sind. Außerdem existieren ausgeklügeltere Sprachmodelle.
  • Um die Erkennungsgenauigkeit zu verbessern, erlauben herkömmliche, fahrzeuggebundene Spracherkennungssysteme, dass diese Modelle an die phonetischen Eigenschaften des Sprechers angepasst werden, indem eine Trainingsroutine durchgeführt wird. Typischerweise beginnen diese Trainingsroutinen damit, dass der Sprecher das System anweist, eine Trainingsbetriebsart einzuleiten.
  • Das System fordert den Sprecher mit einer Anzahl von vorbestimmten und zufälligen Sprachbefehlen auf und instruiert den Sprecher, jeden Befehl zu sprechen. Das System adaptiert daraufhin den gesamten Satz von Sprachbefehlen in Übereinstimmung mit der Varianz der gesprochenen Wörter von den Modellen für die entsprechenden Sprachbefehle. Da der gesamte Satz von Sprachbefehlen adaptiert wird, ist jedoch eine große Anzahl von Iterationen erforderlich, um das System mit einer angemessenen Probenahme der Spracheigenschaften des Sprechers auszustatten. Typischerweise enthalten diese Trainingsroutinen zumindest 20–40 Befehlsaufforderungen und Antwortiterationen.
  • Diese Technik kann unbequem und zeitaufwendig für den Nutzer sein auf Grund der zahlreichen Trainingsbefehlseingabeiterationen. Die Trainingsroutine kann insbesondere für einen Fahrer entnervend sein, so dass es für den Fahrer unangemessen sein kann, die Routine durchzuführen, während das Fahrzeug sich in Bewegung befindet. Die vorstehend angesprochene Technik kann zum Korrigieren besonders problematischer Wörter ineffektiv sein, die wiederholt fehlerkannt werden. Dies ist deshalb der Fall, weil die Technik dazu ausgelegt ist, das Spracherkennungssystem auf eine gegebene, phonetische Sprechereigenschaft breit abzustimmen.
  • In der DE 32 16 800 C2 ist eine Worteingabeanordnung für sprachgesteuerte Geräte, umfassend eine Kodiereinrichtung, eine Sprechereinrichtung, einen Steuerschaltkreis, eine Anzeigeneinrichtung sowie eine Steuereinrichtung beschrieben. Kennzeichnend für diese Erfindung ist, dass der Steuerschaltkreis eine Detektoreinrichtung zum Erfassen einer Wiederholung eines vorhergehend gesprochenen Wortes bei zwei aufeinander folgenden Worten in Abhängigkeit von einem dritten vorgegebenen Algorithmus umfasst. Der Steuerkreis ist hierbei derart ausgebildet, dass im Fall der Wiederholung dasjenige Wort angezeigt wird, das in der Reihe der Ähnlichkeiten dem unmittelbar zuvor angezeigten Wort folgt. Des Weiteren ist eine Anordnung zum Modifizieren der in der Sprechereinrichtung enthaltenen Referenzen vorgesehen, die die Referenz, die dem zuletzt angezeigten Wort zugeordnet ist, durch die Information entsprechend der Kodierung des wiederholten Wortes ersetzt, wobei diese Substitution durch Betätigung der Steuereinrichtung aktiviert wird.
  • Aus der DE 195 33 541 C1 ist ein Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens vorbekannt. Das Verfahren ist gekennzeichnet durch eine Fixierung der Syntax- und Kommandostruktur während des Echtzeitdialogbetriebs, wobei die Vorverarbeitung, die Erkennung und die Dialogsteuerung für einen Betrieb in geräuschbehafteter Umgebung ausgelegt sind. Weitere Verfahrensmerkmale bestehen darin, dass für die Erkennung allgemeiner Kommandos kein Training, jedoch für die Erkennung spezifischer Kommandos ein Training durch den Benutzer erforderlich ist. Ferner ist dem Verfahren immanent, dass die Eingabe von Kommandos verbunden erfolgt, wobei die Anzahl der Worte, aus denen ein Kommando für die Spracheingabe gebildet wird, variabel ist. Letztlich erfolgt die Spracheingabe und -ausgabe im Freisprechbetrieb und es erfolgt eine echtzeitige Verarbeitung und Abwicklung des Sprechdialogs.
  • Die US 5,864,810 A offenbart ein Verfahren und eine Vorrichtung für die automatische Spracherkennung, die sich unter Nutzung von Anpassungsdaten an einen ausgewählten Sprecher anpasst, um eine Umwandlung zu entwickeln, durch die sprecherunabhängige Modelle in sprecherabhängige Modelle umgewandelt werden. Die sprecherabhängigen Modelle werden dann für die Sprechererkennung genutzt und erreichen eine bessere Genauigkeit bei der Erkennung als bei nicht angepassten Modellen. In einer weiteren Ausgestaltung der Erfindung wird die umwandlungsbasierte Anpassungstechnologie mit einer bekannten Bayesian-Anpassungstechnik kombiniert. Die Vorrichtung umfasst hierbei ein Empfangsgerät, ein Charakteristikerkennungsgerät, ein Gerät zum Speichern von sprecherunabhängigen Modellen, eine Trainingsmaschine, eine Adaptionsmaschine sowie eine Erkennungsmaschine.
  • Es besteht deshalb ein Bedarf an einer einfachen und effektiven Technik zum Adaptieren eines fahrzeuggebundenen Spracherkennungssystems zum Korrigieren inkorrekt erkannter Sprachbefehle.
  • KURZE ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorliegende Erfindung schafft ein Verfahren zum Verbessern der Erkennungsgenauigkeit von fahrzeuggebundenen Spracherkennungssystemen durch Adaptieren ihrer Sprachmaschine an die Spracheigenschaften eines Sprechers in der erforderlichen Weise, um einen bestimmten Sprachbefehl sowie spezifische, problematische Zielwörter oder -sätze zu erkennen. Das Verfahren verwendet die N-best-Abgleichtechnik zum Bereitstellen einer Liste von bekannten Fahrzeugbefehlen, die einer gesprochenen Lautäußerung am ehesten entsprechen. Wenn der Sprecher den beabsichtigten oder korrekten Fahrzeugbefehl aus den N-best-Abgleichen auswählt, wird die gesprochene Lautäußerung genutzt, um die Sprachmaschine in der erforderlichen Weise zu adaptieren, um diesen Fahrzeugbefehl automatisch zu erkennen.
  • Insbesondere handelt es sich bei der vorliegenden Erfindung um ein Verfahren für die selektive Sprecheradaption eines fahrzeuggebundenen Spracherkennungssystems, das genutzt wird, um Fahrzeugzusatzgeräte per Sprache zu betätigen. Dieses Verfahren umfasst die Schritte:
    Empfangen einer gesprochenen Äußerung von einem Sprecher mit sprecherabhängigen Sprech- bzw. Spracheigenschaften und betreffend einen eines Satzes bekannter Fahrzeugbefehle, Verarbeiten der gesprochenen Äußerung in Übereinstimmung mit einem Erkennungsparameter, Identifizieren eines N-best-Satzes bekannter Fahrzeugbefehle, die mit der verarbeiteten, gesprochenen Äußerung abgeglichen sind, Ausgeben des N-best- Befehlssatzes an den Sprecher, Empfangen einer Sprechereingabe zum Wählen eines korrekten Fahrzeugbefehls aus dem N-best-Befehlssatz, und Einstellen des Erkennungsparameters derart, dass das Spracherkennungssystem den Sprecher adaptiert durch Erkennen einer gesprochenen Äußerung mit den Sprecheigenschaften als korrekten Fahrzeugbefehl. Außerdem umfasst das Verfahren das Durchführen einer Zusatzgerätebetätigung entsprechend dem korrekten Fahrzeugbefehl.
  • In Übereinstimmung mit einem Aspekt der vorliegenden Erfindung handelt es sich bei dem Erkennungsparameter um ein akustisches Wellenformmodell, und die gesprochene Sprach/Lautäußerungseigenschaft enthält eine sprecherabhängige, akustische Signatur. In diesem Fall ist die Sprachmaschine dazu ausgelegt, das Wellenformmodell des korrekten Fahrzeugbefehls durch die akustische Signatur zu ersetzen. Alternativ handelt es sich bei dem Erkennungsparameter um einen phonetischen Klassifikationssatz, und die Sprachmaschine ist dazu ausgelegt, den phonetischen Klassifikationssatz in Übereinstimmung mit der Spracheigenschaft der gesprochenen Lautäußerung für den korrekten Fahrzeugbefehl zu ändern.
  • In Übereinstimmung mit einem weiteren Aspekt der Erfindung kann der N-best-Befehlssatz auf einer Instrumentenpultanzeige angezeigt werden und die Sprecherwahleingabe erfolgt über eine Eingabevorrichtung. Alternativ kann der N-best-Befehlssatz hörbar über einen Lautsprecher ausgegeben werden, wie etwa über ein Fahrzeugaudiosystem durch Verarbeiten von Text/Sprachealgorithmen und/oder voraufgezeichneten Sprachdateien. In diesem Fall enthält die hörbare Ausgabe Identifizierer für jeden N-best-Befehl, den der Sprecher äußern kann als Sprecherwahleingabe.
  • In Übereinstimmung mit einem noch weiteren Aspekt umfasst das Verfahren das Empfangen einer Trainingsbetriebsarteingabe von dem Sprecher, so dass die Ausgabe-, Wahl- und Adaptionsschritte nur bei Empfang der Trainingsbetriebsarteingabe durchgeführt werden. Die Trainingsbetriebsarteingabe kann in einer Vielzahl von Arten durchgeführt werden, einschließlich der Betätigung einer Trainingsbetriebsartsteuertaste und der Ausgabe eines Trainingsbetriebsartsprachbefehls. Der Trainingsbetriebsartsprachbefehl kann ein bestimmtes Wort oder eine Phrase sein, wie etwa „trainiere" oder „lerne Wort". Alternativ kann es sich bei ihm um jegliche gesprochene Lautäußerung handeln, bei der die Zusatzgerätebetätigung, entsprechend dem gesprochenen Befehl, bereits durchgeführt wurde, wie er durch die Sprachmaschine erkannt wird. Wenn beispielsweise die Sprachmaschine einen gesprochenen Satz als „Schalte Himmellicht ein" erkennt, wenn das Himmellicht bereits eingeschaltet ist, kann sie dies als Fehlerkennungsfehler erkennen und in die Trainingsbetriebsart übergehen. Die Trainingsbetriebsarteingabe kann eine gesprochene Äußerung sein, die in Aufeinanderfolge wiederholt wird, wie etwa „Himmellicht ein ... Himmellicht ein". Wiederholte Sätze können für ausschließlich gewählte Sprachbefehle als Trainingsbetriebsarteingabe angenommen werden, die nicht typischerweise in Aufeinanderfolge und/oder nur dann ausgegeben werden, wenn die erwartete Zusatzgerätebetätigung bereits durchgeführt worden ist.
  • In Übereinstimmung mit noch einem weiteren Aspekt der Erfindung kann das Verfahren in Übereinstimmung mit der vorliegenden Erfindung die Zuordnung einer Abgleichwahrscheinlichkeitswichtung zu jedem der bekannten Fahrzeugbefehle in dem N-best-Befehlssatz enthalten. Bevorzugt weist einer der N-best-Fahrzeugbefehle eine höchste Abgleichwahrscheinlich keitswichtung auf, in welchem Fall die Adaption nur dann durchgeführt wird, wenn der Sprecher den höchsten Abgleichwahrscheinlichkeitsbefehl als den korrekten Fahrzeugbefehl nicht wählt.
  • Die vorliegende Erfindung stellt damit ein einfaches und schnelles Verfahren zum selektiven Adaptieren einer Sprachmaschine zum Erkennen eines bestimmten Sprachbefehls in Übereinstimmung mit den Spracheigenschaften des Sprechers bereit. Durch Adaptieren der Sprachmaschine in Übereinstimmung mit der Korrelation der gesprochenen Lautäußerung mit dem beabsichtigten oder korrekten Sprachbefehl, erlaubt dieses Verfahren dem Sprecher, die Fehlerkennung spezifischer Sprachbefehle zu korrigieren. Da es die Sprachmaschine an eine bereits gesprochene Lautäußerung adaptiert, vermag dieses Verfahren die Notwendigkeit für eine lange Zeit dauernde, iterative Trainingsroutine überflüssig zu machen, die erfordert, dass der Sprecher auf eine Anzahl von Trainingsbefehlsanfragen antwortet.
  • Diese sowie weitere Vorteile der vorliegenden Erfindung erschließen sich aus der nunmehr folgenden Beschreibung der bevorzugten Ausführungsformen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 zeigt eine teilweise Vorderansicht eines Instrumentenbretts eines Kraftfahrzeugs mit einem Spracherkennungssystem zum Steuern von Fahrzeugzusatzgeräten;
  • 2 zeigt ein Blockdiagramm des fahrzeuggebundenen Spracherkennungssystems von 1, in dem das Verfahren für die selektive Sprecheradaption gemäß der vorliegenden Erfindung eingesetzt werden kann;
  • 3 zeigt ein Blockdiagramm der Sprachmaschinenarchitektur zur Verwendung in dem Spracherkennungssystem von 2;
  • 4 zeigt ein Blockdiagramm eines Verfahrens gemäß dem Stand der Technik zum Adaptieren einer Sprachmaschine in Übereinstimmung mit einer iterativen Trainingsprozedur, demnach der Sprecher mehrmals aufgefordert wird, zufällig erzeugte oder vorab festgelegte Sprachbefehle nachzusprechen;
  • 5 zeigt ein Blockdiagramm des Verfahrens zum selektiven Adaptieren einer Sprachmaschine durch einen Sprecher, der einen Satz spricht, und zum Wählen des beabsichtigten Befehls aus einer Liste von N-best-Abgleichbefehlen; und
  • 6 zeigt ein Flussdiagramm einer bevorzugten Technik zum Ausführen des erfindungsgemäßen, selektiven Sprecheradaptionsverfahrens.
  • DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Wie in 1 gezeigt, umfasst ein Kraftfahrzeug 10 eine Fahrgastzelle 12 mit einem Lenkrad 14, einem Instrumentenbrett/einer Spritzwand 16 und einem Audiosystem 18 (siehe 2) mit einem Abspielgerät und Lautsprechern (nicht gezeigt). Wie in 1 und 2 gezeigt, enthält das Instrumentenbrett 16 bevorzugt eine zentrale Steuereinheit 19 mit einem Hauptprozessor 20, einem Hauptspeicher 22, einem Ein/Ausgabe(I/O)modul 24, einer Nutzerschnittstelle 26 und einem Sprachsteuersystem(VCS)modul 30. Die zentrale Steuereinheit 19 befindet sich bevorzugt in einer geeigneten Position zur Betätigung durch einen Fahrer und einen Beifahrer (nicht gezeigt). Der Hauptspeicher 22, bevorzugt ein geeigneter Siliziumchip, enthält eine Programmierung zum Bereitstellen eines Betriebssystems 32 zum Steuern des Betriebs des Hauptprozessors 20 und von Prozessen der übrigen Bestandteile der zent ralen Steuereinheit 19. Dieser Hauptprozessor 20 kann ein beliebiger, geeigneter Mikroprozessorchip bekannter Art sein.
  • Die Nutzerschnittstelle 26 umfasst eine Anzeige 34 und ein Mikrofon 36. Zusätzliche Zusatzmikrofone 38 können außerdem an verschiedenen Stellen in der Fahrgastzelle angeordnet sein, um den Empfang von Befehlen von Fahrzeuginsassen zu verbessern, die an verschiedenen Orten in der Fahrgastzelle sitzen. Beispielsweise kann ein Zusatzmikrofon 38 (1) am Lenkrad 14 angebracht sein sowie an Armstützen für Fahrgäste im vorderen und hinteren Bereich der Fahrgastzelle (nicht gezeigt).
  • Die Nutzerschnittstelle 26 umfasst außerdem Steuertasten 40, einschließlich solcher zur Betätigung von Fahrzeugzusatzgeräten, wie etwa Zusatzgeräte 42, 44, 46. Diese Steuertasten 40 können Mehrfunktionstasten sein, die wiederkonfigurierbar oder wiederprogrammierbar sind, um verschiedene Steuervorgänge durchzuführen. Beispielsweise kann die Zusatzsteuerung 82 als Trainingsbetriebsarteingabevorrichtung genutzt werden, wie nachfolgend erläutert. Die Nutzerschnittstelle 26 ist mit den Fahrzeugzusatzgeräten bevorzugt über das I/O-Modul 24 und einen Fahrzeugnetzbus 48 verbunden. Die Nutzerschnittstelle 26 erlaubt die Einstellung von sämtlichen steuerbaren Funktionsparametern, die jedem Zusatzgerät zugeordnet sind. Die Fahrzeugzusatzgeräte können außerdem beliebige, strombetriebene Vorrichtungen sein, wie etwa eine Klimatisierungssteuerung, eine Uhr, Innen- oder Außenleuchten, das Audiosystem 18, hintere Betrachtungsspiegel, Türschlösser, Tür- und Fenstersteuerungen und ein Navigationssystem.
  • Die Nutzerschnittstelle 26 ist mit dem Hauptprozessor 20 zum Empfangen von Audiosignalen über das Mikrofon 26 und Steuer signalen von den Steuertasten 40 sowie zum Senden von Anzeige- und Audiosignalen zu dem Nutzer verbunden. Es wird bemerkt, dass, obwohl 2 die Nutzerschnittstelle 26 und das VCS-Modul 30 als Teil der zentralen Steuereinheit 19 zeigt, diese Bestandteile sämtliche getrennte Vorrichtungen sein können, die direkt oder über den Fahrzeugnetzbus 48 verbunden sind.
  • Das VCS-Modul 30 umfasst einen Sprachprozessor 50 und einen Speicher 52. Bei dem Sprachprozessor 50 kann es sich um eine beliebige Anzahl von geeigneten Mikroprozessorchips handeln, und bei dem Speicher 52 kann es sich um eine beliebige geeignete elektronische Speichervorrichtung handeln. Abgespeichert in dem VCS-Speicher 52 befindet sich eine Softwareprogrammierung zum Bereitstellen einer Sprachmaschine 54, und ein Adapter 56 zum Durchführen des Verfahrens gemäß der vorliegenden Erfindung. Die Sprachmaschine 54 enthält einen oder mehrere Befehls- und Steuergrammatik(CCG)sätze. Die CCG-Sätze enthalten die Liste bekannter, fahrzeugbezogener Sprachbefehle zum Steuern von Fahrzeugzusatzgerätefunktionen. Beispielsweise können die CCG-Sätze Befehle enthalten, die durch die Navigationseinheit zum Zugriff auf verschiedene Navigationsmenüs ausführbar sind, die zu einer kartografischen Kartenführung, zu einer Bestimmungsorteingabe, zu Anzeigebefehlen und zur Navigationserstellung gehören. Außerdem können die Befehle synthetisierte Sprachmitteilungen sein, die in Übereinstimmung mit Text-/Sprachealgorithmen verarbeitet und zu dem Fahrzeugaudiosystem 18 übertragen werden, um für Insassen eine hörbare Rückkopplung bezüglich der Funktion oder Zustände der gesteuerten Zusatzgeräte zu ermöglichen. Alternativ können vorher aufgezeichnete Sprachdateien verarbeitet und zur Nutzerrückkopplung hörbar ausgegeben werden.
  • Einer oder mehrere CCG-Sätze, enthaltend unterschiedliche Sätze von Befehlen, können aktiviert werden, so dass unterschiedliche Zusatzgeräte oder Zusatzgerätefunktionen sprachaktiviert werden können durch verschiedene Fahrzeuginsassen. Beispielsweise kann ein Fahrer-CCG-Satz aktiviert werden, der einen Befehl zum Einstellen des Rückspiegels aufweist, der es dem Fahrer erlaubt, den bzw. die Rückspiegel einzustellen, während ein aktiver Fahrgastgrammatiksatz einen derartigen Befehl nicht enthalten kann.
  • Eine beliebige Anzahl unterschiedlicher Arten von Grammatikstrukturen, die auf diesem Gebiet der Technik bekannt sind, können verwendet werden. Beispielsweise können die Sprachbefehle Schlüsselbegriffe enthalten, die einen Parameter zur Einstellung identifizieren, wie etwa der Temperatur, der Lautstärke, der Geschwindigkeit und der Fenster- und Sitzpositionen. Alternativ können die Sprachbefehle in einem Menüsystem derart organisiert sein, so dass die Sprachbefehle entsprechend dem zu steuernden Zusatzgerät lauten, gefolgt von einem Funktionsparameter. Ein Beispiel dieser Unterscheidung ist ein schlüsselwortgetriebenes System, wobei ein beispielhafter Sprachbefehl zum Absenken eines Fensters lautet „Senke Fenster ab", während ein entsprechender Sprachbefehl in einem menügetriebenen System lautet „Fenster herunter". Die vorliegende Erfindung kann genutzt werden, um Sprachbefehle entweder in dem einen oder dem anderen System oder in beiden oder in anderen bekannten Sprachbefehlsstrukturen zu organisieren und zu erkennen.
  • Eine Ausführungsform einer Sprachmaschinenarchitektur, die mit der vorliegenden Erfindung einsetzbar ist, wird nunmehr erläutert. Die Sprachmaschine 54 verwendet üblicherweise Spracherkennungstechniken zum Erkennen gesprochener Töne und zum Übertragen entsprechender Befehle zu Steuerungen für sprachaktivierte Fahrzeugzusatzgeräte, wie etwa die Zusatzgeräte 42, 44 und 46. Der Sprachprozessor 50 empfängt digitalisierte Audiosignale von dem Mikrofon 36. Unter Steuerung der Sprachmaschine 54 analysiert der Sprachprozessor 50 die digitalisierten Sprachsignale unter Verwendung der Sprachmaschinenerkennungsalgorithmen zum Identifizieren eines entsprechenden Sprachbefehls, der in dem aktiven Grammatiksatz enthalten ist.
  • Unter Bezug auf 3 nutzt der Sprachprozessor im Signal/Datenumsetzungskasten 58 Erkennungsalgorithmen zum Wandeln der digitalisierten Sprachsignale in eine alternative Form, wie etwa eine solche, die spektrale Eigenschaften bzw. Kennlinien anzeigt. Der Signal-/Datenumsetzungskasten 58 erzeugt eine neue Darstellung der Sprachsignale, die daraufhin in nachfolgenden Stufen des Spracherkennungsprozesses verwendet werden kann. Im Modulierungskasten 60 werden Modulierungsalgorithmen verwendet, um die Sprachsignale zusätzlich zu verarbeiten, indem sprecherunabhängige Akustikmodelle sowie weitere bekannte, lexikalische und Sprachmodelle auf die Signale angewendet werden. Schließlich werden im Suchkasten 62 Suchalgorithmen verwendet, um den Sprachprozessor 50 zu dem wahrscheinlichsten Befehl, entsprechend den Sprachsignalen, zu führen. Die Suchalgorithmen können einen einzigen Best-Abgleichbefehl oder einen Satz von N-best-Abgleichbefehlen des CCG-Satzes identifizieren. Unter Verwendung der N-best-Technik wird ein Satz von wahrscheinlichsten Befehlen erzeugt, von denen jeder bevorzugt einer Abgleichwahrscheinlichkeitswichtung zugeordnet ist.
  • Unter erneutem Bezug auf 2 geben daraufhin, sobald der Abgleichbefehl identifiziert ist, die Prozessoren 20, 50 den Befehl über das I/O-Modul 24 an das relevante Zusatzgerät aus, das die gewünschte Aufgabe durchführt. Als ein Beispiel kann der vorstehend genannte Prozess genutzt werden, um ein sprachaktiviertes Klimatisierungssteuersystem durch den Fahrer zu steuern, der einen Sprachbefehl ausgibt, wie etwa „Temperatur erhöhen", um die Fahrgastzellentemperatur zu erhöhen.
  • Der Sprachprozessor 50 vermag diesen Prozess automatisch durchzuführen, wenn ein Sprecher, Fahrer oder Fahrgast einen Sprachbefehl spricht. Damit ein Zusatzgerät per Sprache aktiviert werden kann, kann das Betriebssystem 32 alternativ so programmiert sein, dass der Sprachprozessor 50 den Empfang eines Sprach- bzw. Redesteuersignals von einer Steuertaste 40 über die Nutzerschnittstelle 26 empfangen muss, wodurch eine „Zuhör"-Periode aufgerufen wird, in der die Audiosignale empfangen und daraufhin verarbeitet werden. Im normalen Betrieb ist der Sprachmaschinenadapter 56 in jedem Fall inaktiv, bis eine Trainingsbetriebsarteingabe empfangen wird.
  • In Übereinstimmung mit typischen Techniken gemäß dem Stand der Technik, wie etwa in 4 gezeigt, initiiert eine durch einen Sprecher 64 eingegebene Trainingsbetriebsart eine gespeicherte Trainingsroutine zum Adaptieren der gesamten Sprachmaschine 54 auf die Spracheigenschaft des Sprechers 64. Unter Bezug auf 4 beginnt die Trainingsroutine mit einem Trainingsbefehlsgenerator 66, der bekannte Befehle zur Verwendung beim Trainieren der Sprachmaschine 54 wählt. Die Befehle können zufällig erzeugt werden oder es kann sich um einen vorab festgelegten Satz von Befehlen handeln, die eine repräsentative Abtastung bzw. Probenahme des phonetischen Ansatzes bzw. der phonetischen Zusammenstellung des einen oder der mehreren aktiven Grammatiksätze bereit stellt. Eine Trai ningsbefehlseingabeaufforderungseinrichtung 68 empfängt den ersten erzeugten Befehl und gibt den Befehl an den Sprecher 64 aus, indem der Sprecher 64 aufgefordert wird, den erzeugten Befehl zu sprechen. Der Befehl kann an den Sprecher 64 akustisch über ein Lautsprechersystem, wie etwa das Audiosystem 18 des Fahrzeugs, unter Verwendung von Text-/Sprachealgorithmen oder vorab aufgezeichneten Sprachdateien ausgegeben werden, wie an sich bekannt, herrührend von der Sprachmaschine 54, oder unter visueller Verwendung der Anzeige 34. Ansprechend auf die Befehlsaufforderung, spricht der Sprecher 64 den Befehl, der unter Verwendung der Sprachmaschine 54 empfangen und verarbeitet wird. Dieser Prozess wird für eine Anzahl von Iterationen, typischerweise 20–40 Mal, stark abhängig von der Qualität und der phonetischen Disparität der bekannten Sprachbefehle in der aktiven Grammatik bzw. den aktiven Grammatiken wiederholt. Für jeden neuen Trainingsbefehl wird der Sprecher 64 aufgefordert, den Befehl hörbar bzw. verständlich nachzusprechen. Wenn der jeweilige, erzeugte Trainingsbefehl empfangen und verarbeitet wurde, stellt ein Systemtrainer 70 den gesamten Satz akustischer Modelle ein sowie weitere bekannte Erkennungsparameter, wie in Übereinstimmung mit der spezifischen Spracheigenschaft des Sprechers 64 erforderlich, unter Verwendung der Korrelation von jedem Trainingsbefehl mit den akustischen und phonetischen Eigenschaften der jeweiligen Antwort des Sprechers 64. Dieser mehrfache, iterative Prozess kann recht lang dauern, häufig bis 20 Minuten, und erfordert starke Aufmerksamkeit des Sprechers 64. Aus diesem Grund ist dieser Prozess nicht so gut geeignet zur Verwendung durch den Fahrer des Kraftfahrzeugs 10.
  • In Übereinstimmung mit der vorliegenden Erfindung ist in dem Blockdiagramm von 5 ein einfaches und schnelles Verfah ren zum selektiven Adaptieren der Sprachmaschine 54 zum Erkennen eines bestimmten Sprachbefehls in Übereinstimmung mit den Sprecheigenschaften des bestimmten Sprechers 64 gezeigt. Demnach ist die Sprachmaschine 54 durch einen Befehlsadapter 72 adaptiert unter Verwendung der Korrelation von Audiosignalen, die die Sprecherbefehlseingabe wiedergeben, und der Wahl der N-best-Abgleichliste 74. Es wird deutlich, dass das Verfahren die Notwendigkeit einer getrennten Trainingsroutine beseitigt, die es erfordert, dass der Sprecher auf eine Anzahl von Trainingsbefehlsaufforderungen antwortet. Darüber hinaus umfasst dieses Verfahren den „Befehlsadapter", der Adaptionsalgorithmen enthält, die dazu ausgelegt sind, die Sprachmaschine 54 an die Sprecheigenschaften des Sprechers 64 lediglich für einen bestimmten Befehl zu adaptieren. Im Gegensatz hierzu verwendet das Verfahren von 4 gemäß dem Stand der Technik Algorithmen des Systemtrainers 70 zum Modifizieren des gesamten Satzes der Sprachmaschinenparameter zum Adaptieren der Sprecheigenschaften bzw. Spracheigenschaften des Sprechers. Während das Verfahren gemäß dem Stand der Technik eine Adaption der gesamten Sprachmaschine 54 vorsieht, sieht das Verfahren in Übereinstimmung mit der Erfindung eine sprecherselektierte Adaption eines bestimmten Sprachbefehls vor. Das Verfahren gemäß dem Stand der Technik adaptiert die Sprachmaschine 54 an die Sprecheigenschaften des Sprechers 64, während die vorliegende Erfindung es dem Sprecher 64 erlaubt, spezifische, fehlerkannte Sprachbefehle zu korrigieren, die beim Verfahren gemäß dem Stand der Technik unerkannt bleiben können. Es wird bemerkt, dass die vorliegende Erfindung eingesetzt werden kann, um eine Feinabstimmung der Grobeinstellung der Sprachmaschine 54 bereit zu stellen, wie bei dem vorstehend erläuterten Verfahren gemäß dem Stand der Technik vorgesehen.
  • In den 2 und 6 ist ein bevorzugtes Verfahren zum Durchführen des selektiven Adaptionsprozesses gemäß der vorliegenden Erfindung angegeben. Im Schritt 76 empfängt der Sprachprozessor 50 und verarbeitet die Audiosignale, die den gesprochenen Sprachbefehl darstellen. Im Schritt 78 verwendet die Sprachmaschine 54 daraufhin die beschriebenen Spracherkennungstechniken zum Kompilieren eines Satzes von Sprachbefehlen aus dem aktiven CCG-Satz, die mit den Audiosignalen den besten Abgleich darstellen, d. h., die N-best-Abgleiche.
  • Der Sprachprozessor 50 prüft daraufhin auf eine Trainingsbetriebsarteingabe von dem Sprecher im Entscheidungsblock 80. Dieser Schritt kann vor dem Schritt 78 durchgeführt werden, so dass die N-best-Liste nur dann erzeugt wird, wenn der Sprecher wünscht, dass die Sprachmaschine 54 adaptiert. Wie angesprochen, enthalten Sprachmaschinenerkennungsalgorithmen jedoch häufig die N-best-Technik als Teil der Versicherung des Abgleichbefehls, in dem Fall dieser Schritt im normalen Betrieb ohne zusätzliche Verarbeitung durchgeführt wird.
  • Die Trainingsbetriebsarteingabe kann in unterschiedlichster Weise durchgeführt werden, einschließlich dem Betätigen einer Trainingsbetriebsartsteuertaste 82 (1), und dem Ausgeben eines Trainingsbetriebsartsprachbefehls. Der Trainingsbetriebsartsprachbefehl kann ein spezielles Wort oder ein Satz sein, wie etwa „trainiere" oder „lerne Wort". Alternativ kann es sich um eine gesprochene Äußerung handeln, in der die Zusatzgerätebetätigung, entsprechend dem gesprochenen Befehl, erkannt durch die Sprachmaschine 54, bereits ausgeführt worden ist. Wenn beispielsweise die Sprachmaschine 54 einen gesprochenen Satz, wie etwa „Himmellicht einschalten" erkennt, wenn das Himmellicht bereits eingeschaltet ist, kann sie dies als Fehlerkennungsfehler erkennen und in die Trainingsbe triebsart eintreten. Die Trainingsbetriebsarteingabe kann eine gesprochene Äußerung sein, die aufeinanderfolgend wiederholt wird, wie etwa „Himmellicht einschalten ... Himmellicht einschalten". Wiederholte Sätze können als Trainingsbetriebsarteingabe für ausschließlich gewählte Sprachbefehle angesehen werden, die nicht typischerweise in Aufeinanderfolge und/oder nur dann ausgegeben werden, wenn die erwartete Zusatzgerätebetätigung bereits durchgeführt worden ist.
  • Wenn keine Trainingsbetriebsartanfrage eingegeben wird, geben die Prozessoren 20, 50 bevorzugt den Abgleichsprachbefehl an das relevante Zusatzgerät über das I/O-Modul 24 aus, das das Zusatzgerät wie erforderlich aktiviert, um die entsprechende Aufgabe durchzuführen, und zwar im Schritt 84. Wenn eine Trainingsbetriebsartanfrage eingegeben wird, geben die Prozessoren 20, 50 die N-best-Abgleichliste an die Nutzerschnittstelle 26 im Schritt 86 aus. Die N-best-Abgleichliste kann dem Sprecher akustisch über das Fahrzeugaudiosystem 18, oder visuell auf der Anzeige 34 mitgeteilt werden. In jedem Fall wird der Sprecher aufgefordert, einen der gelisteten N-best-Abgleiche als denjenigen zu wählen, der dem beabsichtigten Sprachbefehl entspricht.
  • Es ist möglich, dass die Sprachmaschine 54 in der N-best-Abgleichliste den Sprachbefehl nicht identifiziert, den der Sprecher ausgeführt haben möchte. In diesem Fall kann der Nutzer im Schritt 86 visuell oder akustisch aufgefordert werden, den Befehl erneut zu sprechen. Zusätzlich oder alternativ kann der Sprecher aufgefordert werden, den Befehl aus einer Liste sämtlicher Sprachbefehle in dem aktiven oder einem beliebigen CCD-Satz zu wählen.
  • Im Schritt 88 wählt der Sprecher den beabsichtigten Sprachbefehl. Die Eingabe kann eine Kontakteingabe über eine der Steuertasten 40 oder eine Spracheingabe sein. Bevorzugt enthält die Spracheingabe das Sprechen eines Selektions- bzw. Wahlidentifizierers, der jedem Befehl in der N-best-Abgleichliste zugeordnet ist. Beispielsweise kann der Nutzer aufgefordert werden, „eins" oder „a" zu sprechen, um den beabsichtigten Befehl des ersten gelisteten Abgleichsbefehls zu wählen, und „zwei" oder „b" für den zweiten gelisteten Befehl usw.
  • Sobald der Sprecher einen Befehl aus der N-best-Abgleichliste wählt, vermag der Prozessor 20 bevorzugt zu ermitteln, ob der gewählte Befehl die höchste Abgleichwahrscheinlichkeitswichtung aufweist. Falls dies der Fall ist, erkennt die Sprachmaschine 54 in korrekter Weise den gesprochenen Befehl, und es findet keine Adaption statt. Anderweitig werden im Schritt 90 die Adaptionsalgorithmen ausgeführt unter Verwendung der Korrelation der Audiosignale, die im Schritt 76 empfangen werden, mit dem gewählten Befehl. Die Adaptionsalgorithmen modifizieren die Sprachmaschine 54, um die gewählten Befehlsaudiosignale mit den Sprachmustern und phonetischen Eigenschaften zu erkennen, die im Schritt 76 empfangen werden. Dies kann unter Verwendung von Adaptionsalgorithmen erfolgen, in denen Erkennungsparameter der Sprachmaschinenmodelle modifiziert sind. Diese Parameter können akustische Wellenformmodelle enthalten, die in dem VCS-Speicher 52 für jeden bekannten Sprachbefehl gespeichert sind, und Adaptionsalgorithmen können das Modell, das für den relevanten Befehl aktiv ist, durch die akustische Signatur der im Schritt 76 empfangenen Sprachsignale ersetzen. Alternativ enthalten die Erkennungsparameter einen phonetischen Klassifikationssatz mit dem re levanten Befehl, der in Übereinstimmung mit den im Schritt 76 empfangenen Sprach- bzw. Sprechsignalen modifiziert wird.
  • Schließlich geben die Prozessoren 20, 50 im Schritt 84 den gewählten Befehl an das relevante Zusatzgerät aus und die Aufgabe ist durchgeführt.
  • Die vorliegende Erfindung kann weitere, nicht speziell in den vorstehend angeführten bevorzugten Ausführungsformen genannte Aspekte umfassen. Die vorstehende Erläuterung und Darstellung ist in keinster Weise beschränkend für den Umfang der vorliegenden Erfindung, die in den anliegenden Ansprüchen festgelegt ist.

Claims (10)

  1. Verfahren für die selektive Sprecheradaption eines fahrzeuggebundenen Spracherkennungssystems zum Betätigen von Fahrzeugzusatzgeräten per Stimme, aufweisend die Schritte: (A) Empfangen einer gesprochenen Äußerung von einem Sprecher mit sprecherabhängigen Sprech- und Spracheigenschaften und betreffend einen eines Satzes bekannter Fahrzeugbefehle, (B) Verarbeiten der gesprochenen Äußerung in Übereinstimmung mit einem Erkennungsparameter, (C) Identifizieren eines N-Best-Satzes bekannter Fahrzeugbefehle, die mit der verarbeiteten, gesprochenen Äußerung abgeglichen sind, (D) Identifizieren einer wiederholt gesprochenen Äußerung von einem Sprecher als Trainingsbetriebsarteneingabe, wenn eine erwartete Zusatzgerätebetätigung ausgeführt worden ist, (E) Ausgabe des N-Best-Befehlssatzes an den Sprecher, (F) Empfangen einer Sprechereingabe zum Wählen eines korrekten Fahrzeugbefehls aus dem N-Best-Befehlssatz und (G) Einstellen des Erkennungsparameters derart, dass das Spracherkennungssystem den Sprecher adaptiert durch Erkennen einer gesprochenen Äußerung mit den Sprecheigenschaften als korrekten Fahrzeugbefehl.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Erkennungsparameter ein akustisches Wellenformmodell ist und wobei die Sprecheigenschaften der gesprochenen Äußerung eine sprecherabhängige, akustische Signatur enthalten, wobei der Adaptionsschritt (G) außerdem das Ersetzen des Wellenformmodells des korrekten Fahrzeugbefehls durch die akustische Signatur vorsieht.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass der Erkennungsparameter ein phonetischer Klassifikationssatz ist und wobei der Adaptionsschritt (G) das Ändern des phonetischen Klassifikationssatzes für den korrekten Befehl in Übereinstimmung mit der gesprochenen Äußerung enthält.
  4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass der Schritt (E) das Anzeigen des N-Best-Befehlssatzes auf einer Anzeige vorsieht.
  5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass der Schritt (E) das Verarbeiten des N-Best-Befehlssatzes und Ausgeben des N-Best-Befehlssatzes in akustischer Weise über ein Fahrzeugaudiosystem vorsieht.
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass der akustisch ausgegebene N-Best-Befehlssatz Selektionsidentifizierer enthält und wobei die Sprecherwahleingabe eine gesprochene Äußerung ist, die Selektionsidentifizierer enthält.
  7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass der Identifikationsschritt (C) das Zuordnen einer Abgleichswahrscheinlichkeitswichtung zu den bekannten Fahrzeugbefehlen in den N-Best-Befehlssatz enthält.
  8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass einer der Fahrzeugbefehle in dem N-Best-Befehlssatz eine höchste Anpasswahrscheinlichkeitswichtung aufweist und wobei der Adaptionsschritt (F) nur dann durchgeführt wird, wenn der Sprecher den höchsten Ansprechwahrscheinlichkeitsbefehl nicht als den korrekten Fahrzeugbefehl wählt.
  9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass der Schritt: Durchführen einer Zusatzgerätebetätigung, entsprechend dem korrekten Fahrzeugbefehl, vorgesehen ist.
  10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass der N-Best-Befehlssatz aus zumindest drei bekannten Fahrzeugbefehlen besteht.
DE10191732T 2000-05-04 2001-05-04 Selektive Sprecheradaption für ein fahrzeuggebundenes Spracherkennungssystem Expired - Fee Related DE10191732B4 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/565,304 US6587824B1 (en) 2000-05-04 2000-05-04 Selective speaker adaptation for an in-vehicle speech recognition system
US09/565,304 2000-05-04
PCT/US2001/014402 WO2001084538A1 (en) 2000-05-04 2001-05-04 Selective speaker adaptation for an in-vehicle speech recognition system

Publications (2)

Publication Number Publication Date
DE10191732T1 DE10191732T1 (de) 2003-04-03
DE10191732B4 true DE10191732B4 (de) 2005-10-06

Family

ID=24258018

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10191732T Expired - Fee Related DE10191732B4 (de) 2000-05-04 2001-05-04 Selektive Sprecheradaption für ein fahrzeuggebundenes Spracherkennungssystem

Country Status (5)

Country Link
US (1) US6587824B1 (de)
JP (1) JP2003532163A (de)
DE (1) DE10191732B4 (de)
GB (1) GB2366434B (de)
WO (1) WO2001084538A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013222520B4 (de) * 2012-11-13 2016-09-22 Gm Global Technology Operations, Llc Verfahren für ein sprachsystem eines fahrzeugs
WO2018010853A1 (de) 2016-07-12 2018-01-18 Audi Ag Steuervorrichtung und verfahren zum sprachbasierten betreiben eines kraftfahrzeugs

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7580782B2 (en) * 1995-10-30 2009-08-25 Automotive Technologies International, Inc. Vehicular electronic system with crash sensors and occupant protection systems
JP2004505322A (ja) * 2000-07-28 2004-02-19 シーメンス ヴィディーオー オートモーティヴ コーポレイション 遠隔操作系のユーザーインターフェイス
US7236859B2 (en) * 2000-09-01 2007-06-26 Cattron Intellectual Property Corporation Remote control system for a locomotive
JP3919210B2 (ja) * 2001-02-15 2007-05-23 アルパイン株式会社 音声入力案内方法及び装置
US6754627B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Detecting speech recognition errors in an embedded speech recognition system
US6963760B2 (en) * 2001-10-01 2005-11-08 General Motors Corporation Method and apparatus for generating DTMF tones using voice-recognition commands during hands-free communication in a vehicle
US7996232B2 (en) * 2001-12-03 2011-08-09 Rodriguez Arturo A Recognition of voice-activated commands
US6889191B2 (en) * 2001-12-03 2005-05-03 Scientific-Atlanta, Inc. Systems and methods for TV navigation with compressed voice-activated commands
US20030120493A1 (en) * 2001-12-21 2003-06-26 Gupta Sunil K. Method and system for updating and customizing recognition vocabulary
JP2003241790A (ja) * 2002-02-13 2003-08-29 Internatl Business Mach Corp <Ibm> 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム
KR100434545B1 (ko) * 2002-03-15 2004-06-05 삼성전자주식회사 홈네트워크로 연결된 가전기기들을 제어하는 방법 및 장치
US7676366B2 (en) * 2003-01-13 2010-03-09 Art Advanced Recognition Technologies Inc. Adaptation of symbols
JP2004239963A (ja) * 2003-02-03 2004-08-26 Mitsubishi Electric Corp 車載制御装置
DE10313310A1 (de) * 2003-03-25 2004-10-21 Siemens Ag Verfahren zur sprecherabhängigen Spracherkennung und Spracherkennungssystem dafür
WO2004102329A2 (en) * 2003-05-08 2004-11-25 Good Health Network, Inc. Secure healthcare database system and method
US7986974B2 (en) * 2003-05-23 2011-07-26 General Motors Llc Context specific speaker adaptation user interface
US20100246837A1 (en) * 2009-03-29 2010-09-30 Krause Lee S Systems and Methods for Tuning Automatic Speech Recognition Systems
US9844326B2 (en) 2008-08-29 2017-12-19 University Of Florida Research Foundation, Inc. System and methods for creating reduced test sets used in assessing subject response to stimuli
US9319812B2 (en) 2008-08-29 2016-04-19 University Of Florida Research Foundation, Inc. System and methods of subject classification based on assessed hearing capabilities
US9553984B2 (en) 2003-08-01 2017-01-24 University Of Florida Research Foundation, Inc. Systems and methods for remotely tuning hearing devices
US20050186992A1 (en) * 2004-02-20 2005-08-25 Slawomir Skret Method and apparatus to allow two way radio users to access voice enabled applications
US7421387B2 (en) * 2004-02-24 2008-09-02 General Motors Corporation Dynamic N-best algorithm to reduce recognition errors
US20050187767A1 (en) * 2004-02-24 2005-08-25 Godden Kurt S. Dynamic N-best algorithm to reduce speech recognition errors
US20050280524A1 (en) * 2004-06-18 2005-12-22 Applied Digital, Inc. Vehicle entertainment and accessory control system
US20060155429A1 (en) * 2004-06-18 2006-07-13 Applied Digital, Inc. Vehicle entertainment and accessory control system
US8005668B2 (en) * 2004-09-22 2011-08-23 General Motors Llc Adaptive confidence thresholds in telematics system speech recognition
US20060258336A1 (en) * 2004-12-14 2006-11-16 Michael Sajor Apparatus an method to store and forward voicemail and messages in a two way radio
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7895039B2 (en) 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7826945B2 (en) * 2005-07-01 2010-11-02 You Zhang Automobile speech-recognition interface
US7904300B2 (en) * 2005-08-10 2011-03-08 Nuance Communications, Inc. Supporting multiple speech enabled user interface consoles within a motor vehicle
US20070136063A1 (en) * 2005-12-12 2007-06-14 General Motors Corporation Adaptive nametag training with exogenous inputs
US20070136069A1 (en) * 2005-12-13 2007-06-14 General Motors Corporation Method and system for customizing speech recognition in a mobile vehicle communication system
US20070157285A1 (en) * 2006-01-03 2007-07-05 The Navvo Group Llc Distribution of multimedia content
US20070156853A1 (en) * 2006-01-03 2007-07-05 The Navvo Group Llc Distribution and interface for multimedia content and associated context
US8626506B2 (en) * 2006-01-20 2014-01-07 General Motors Llc Method and system for dynamic nametag scoring
US7872574B2 (en) * 2006-02-01 2011-01-18 Innovation Specialists, Llc Sensory enhancement systems and methods in personal electronic devices
US9583096B2 (en) * 2006-08-15 2017-02-28 Nuance Communications, Inc. Enhancing environment voice macros via a stackable save/restore state of an object within an environment controlled by voice commands for control of vehicle components
TWI311311B (en) * 2006-11-16 2009-06-21 Inst Information Industr Speech recognition device, method, application program, and computer readable medium for adjusting speech models with selected speech data
US20080147411A1 (en) * 2006-12-19 2008-06-19 International Business Machines Corporation Adaptation of a speech processing system from external input that is not directly related to sounds in an operational acoustic environment
US20090055180A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method for optimizing speech recognition in a vehicle
KR20090107365A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
US20100082559A1 (en) * 2008-09-19 2010-04-01 General Motors Corporation Method of managing a schedule-based software package update
US8285545B2 (en) * 2008-10-03 2012-10-09 Volkswagen Ag Voice command acquisition system and method
KR101556594B1 (ko) * 2009-01-14 2015-10-01 삼성전자 주식회사 신호처리장치 및 신호처리장치에서의 음성 인식 방법
US20120004910A1 (en) * 2009-05-07 2012-01-05 Romulo De Guzman Quidilig System and method for speech processing and speech to text
DE102009039889B4 (de) 2009-09-03 2021-10-07 Volkswagen Ag Vorrichtung und Verfahren zum Erfassen von Sprache in einem Kraftfahrzeug
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US8787977B2 (en) * 2010-04-08 2014-07-22 General Motors Llc Method of controlling dialing modes in a vehicle
US8738377B2 (en) * 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
JP2013529794A (ja) * 2010-06-24 2013-07-22 本田技研工業株式会社 車載音声認識システム及び車両外音声認識システム間の通信システム及び方法
US8532674B2 (en) * 2010-12-10 2013-09-10 General Motors Llc Method of intelligent vehicle dialing
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US20120323574A1 (en) * 2011-06-17 2012-12-20 Microsoft Corporation Speech to text medical forms
EP2665059B1 (de) * 2011-10-25 2016-02-10 Olympus Corporation Endoskopbetriebssystem
US9317605B1 (en) 2012-03-21 2016-04-19 Google Inc. Presenting forked auto-completions
AU2013290340B2 (en) 2012-07-16 2017-10-26 Valco Acquisition Llc Medical procedure monitoring system
US9558739B2 (en) * 2012-11-13 2017-01-31 GM Global Technology Operations LLC Methods and systems for adapting a speech system based on user competance
US9502030B2 (en) * 2012-11-13 2016-11-22 GM Global Technology Operations LLC Methods and systems for adapting a speech system
US9601111B2 (en) * 2012-11-13 2017-03-21 GM Global Technology Operations LLC Methods and systems for adapting speech systems
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US9646606B2 (en) 2013-07-03 2017-05-09 Google Inc. Speech recognition using domain knowledge
TWI536366B (zh) * 2014-03-18 2016-06-01 財團法人工業技術研究院 新增口說語彙的語音辨識系統與方法及電腦可讀取媒體
CN105334997A (zh) * 2014-08-12 2016-02-17 扬智科技股份有限公司 智能输入装置及其设定方法与控制方法
US10325591B1 (en) * 2014-09-05 2019-06-18 Amazon Technologies, Inc. Identifying and suppressing interfering audio content
JP2016061954A (ja) * 2014-09-18 2016-04-25 株式会社東芝 対話装置、方法およびプログラム
KR102371697B1 (ko) * 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
EP3089159B1 (de) * 2015-04-28 2019-08-28 Google LLC Korrekturspracherkennung mittels selektivem re-speak
KR101910383B1 (ko) * 2015-08-05 2018-10-22 엘지전자 주식회사 차량 운전 보조 장치 및 이를 구비한 차량
US9996517B2 (en) * 2015-11-05 2018-06-12 Lenovo (Singapore) Pte. Ltd. Audio input of field entries
US10475447B2 (en) * 2016-01-25 2019-11-12 Ford Global Technologies, Llc Acoustic and domain based speech recognition for vehicles
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10950229B2 (en) * 2016-08-26 2021-03-16 Harman International Industries, Incorporated Configurable speech interface for vehicle infotainment systems
US20190179416A1 (en) * 2017-12-12 2019-06-13 Ford Global Technologies, Llc Interactive vehicle speech recognition and correction system
EP3781452B1 (de) * 2018-06-21 2022-03-02 Siemens Mobility GmbH Verfahren und vorrichtung zum steuern eines schienenfahrzeugs mittels sprachmitteilung
KR20200098079A (ko) * 2019-02-11 2020-08-20 현대자동차주식회사 대화 시스템 및 대화 처리 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3216800C2 (de) * 1981-05-15 1988-03-10 Asulab S.A., Biel/Bienne, Ch
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5870287A (ja) * 1981-10-22 1983-04-26 日産自動車株式会社 音声認識装置
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
EP0559349B1 (de) * 1992-03-02 1999-01-07 AT&T Corp. Lernverfahren und Gerät zur Spracherkennung
ATE251058T1 (de) * 1994-03-18 2003-10-15 Vcs Ind Inc D B A Voice Contro Sprachgesteuertes fahrzeugalarmsystem
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
US6205426B1 (en) * 1999-01-25 2001-03-20 Matsushita Electric Industrial Co., Ltd. Unsupervised speech model adaptation using reliable information among N-best strings
US6377924B1 (en) * 1999-03-12 2002-04-23 Texas Instruments Incorporated Method of enrolling phone-based speaker specific commands
US6374221B1 (en) * 1999-06-22 2002-04-16 Lucent Technologies Inc. Automatic retraining of a speech recognizer while using reliable transcripts
US6230138B1 (en) 2000-06-28 2001-05-08 Visteon Global Technologies, Inc. Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3216800C2 (de) * 1981-05-15 1988-03-10 Asulab S.A., Biel/Bienne, Ch
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013222520B4 (de) * 2012-11-13 2016-09-22 Gm Global Technology Operations, Llc Verfahren für ein sprachsystem eines fahrzeugs
WO2018010853A1 (de) 2016-07-12 2018-01-18 Audi Ag Steuervorrichtung und verfahren zum sprachbasierten betreiben eines kraftfahrzeugs
DE102016212681A1 (de) 2016-07-12 2018-01-18 Audi Ag Steuervorrichtung und Verfahren zum sprachbasierten Betreiben eines Kraftfahrzeugs
US11535100B2 (en) 2016-07-12 2022-12-27 Audi Ag Control device and method for the voice-based operation of a motor vehicle

Also Published As

Publication number Publication date
US6587824B1 (en) 2003-07-01
JP2003532163A (ja) 2003-10-28
WO2001084538A1 (en) 2001-11-08
GB2366434B (en) 2004-01-21
GB2366434A (en) 2002-03-06
DE10191732T1 (de) 2003-04-03

Similar Documents

Publication Publication Date Title
DE10191732B4 (de) Selektive Sprecheradaption für ein fahrzeuggebundenes Spracherkennungssystem
US6230138B1 (en) Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system
DE102008034143B4 (de) Verfahren zur Umgebungsgeräuscheinkopplung für eine Spracherkennung in einem Serienfahrzeug
EP0852051B1 (de) Verfahren zur automatischen steuerung eines oder mehrerer geräte durch sprachkommandos oder per sprachdialog im echtzeitbetrieb und vorrichtung zum ausführen des verfahrens
US7676363B2 (en) Automated speech recognition using normalized in-vehicle speech
CN109545219A (zh) 车载语音交互方法、系统、设备及计算机可读存储介质
DE102012217160B4 (de) Verfahren zum Korrigieren unverständlicher synthetischer Sprache
US8738368B2 (en) Speech processing responsive to a determined active communication zone in a vehicle
DE102009017177B4 (de) Spracherkennungsanordnung und Verfahren zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges
DE102016212647B4 (de) Verfahren zum Betreiben eines Sprachsteuerungssystems in einem Innenraum und Sprachsteuerungssystem
DE102008062542A1 (de) Fahrzeuginterne die Umstände berücksichtigende Spracherkennung
DE102019111529A1 (de) Automatisierte spracherkennung unter verwendung einer dynamisch einstellbaren hörzeitüberschreitung
DE102019107624A1 (de) System und Verfahren zur Erfüllung einer Sprachanforderung
DE102013200378A1 (de) Verfahren und System zum Verwenden einer mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation zum Verbessern einer Spracherkennung
DE102017102392A1 (de) Automatische spracherkennung bei stockender sprechweise
WO2005022511A1 (de) Unterstützungsverfahren für sprachdialoge zur bedienung von kraftfahrzeugfunktionen
WO2014019899A1 (de) Verfahren und vorrichtung zum betreiben eines sprachgesteuerten informationssystems für ein fahrzeug
DE102015117380A1 (de) Selektive Geräuschunterdrückung während automatischer Spracherkennung
DE102016204315A1 (de) Fortbewegungsmittel, System und Verfahren zur Anpassung einer Länge einer erlaubten Sprechpause im Rahmen einer Spracheingabe
EP1238250B1 (de) Spracherkennungsverfahren und -einrichtung
DE102016212681A1 (de) Steuervorrichtung und Verfahren zum sprachbasierten Betreiben eines Kraftfahrzeugs
DE102017206876B4 (de) Verfahren zum Betreiben eines Sprachsteuerungssystems in einem Kraftfahrzeug undSprachsteuerungssystem
JP2020144285A (ja) エージェントシステム、情報処理装置、移動体搭載機器制御方法、及びプログラム
EP3735688B1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum verarbeiten einer spracheingabe, kraftfahrzeug und nutzerendgerät mit einer sprachverarbeitung
DE102022133571A1 (de) Vorrichtung zur verarbeitung natürlicher sprache und verfahren zur verarbeitung natürlicher sprache

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law

Ref document number: 10191732

Country of ref document: DE

Date of ref document: 20030403

Kind code of ref document: P

8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee