DE10191732B4

DE10191732B4 - Selektive Sprecheradaption für ein fahrzeuggebundenes Spracherkennungssystem

Info

Publication number: DE10191732B4
Application number: DE10191732T
Authority: DE
Inventors: Charles Allen Canton Everhart; Scott Alan Canton Thompson
Original assignee: Visteon Global Technologies Inc
Current assignee: Visteon Global Technologies Inc
Priority date: 2000-05-04
Filing date: 2001-05-04
Publication date: 2005-10-06
Anticipated expiration: 2021-05-05
Also published as: JP2003532163A; GB2366434A; US6587824B1; DE10191732T1; GB2366434B; WO2001084538A1

Abstract

Verfahren für die selektive Sprecheradaption eines fahrzeuggebundenen Spracherkennungssystems zum Betätigen von Fahrzeugzusatzgeräten per Stimme, aufweisend die Schritte:
(A) Empfangen einer gesprochenen Äußerung von einem Sprecher mit sprecherabhängigen Sprech- und Spracheigenschaften und betreffend einen eines Satzes bekannter Fahrzeugbefehle,
(B) Verarbeiten der gesprochenen Äußerung in Übereinstimmung mit einem Erkennungsparameter,
(C) Identifizieren eines N-Best-Satzes bekannter Fahrzeugbefehle, die mit der verarbeiteten, gesprochenen Äußerung abgeglichen sind,
(D) Identifizieren einer wiederholt gesprochenen Äußerung von einem Sprecher als Trainingsbetriebsarteneingabe, wenn eine erwartete Zusatzgerätebetätigung ausgeführt worden ist, (E) Ausgabe des N-Best-Befehlssatzes an den Sprecher,
(F) Empfangen einer Sprechereingabe zum Wählen eines korrekten Fahrzeugbefehls aus dem N-Best-Befehlssatz und
(G) Einstellen des Erkennungsparameters derart, dass das Spracherkennungssystem den Sprecher adaptiert durch Erkennen einer gesprochenen Äußerung mit den Sprecheigenschaften als korrekten Fahrzeugbefehl.

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft Spracherkennungssysteme, und insbesondere ein Verfahren zum wahlweisen Trainieren von fahrzeuggebundenen Spracherkennungssystemen zum Adaptieren der Spracheigenschaften einzelner Sprecher.
HINTERGRUND DER ERFINDUNG
Spracherkennungssysteme an Bord von Kraftfahrzeugen erlauben es Fahrern und Fahrgästen, verschiedene Fahrzeugfunktionen zu steuern durch Sprechen von Wörtern und Sätzen entsprechend Sprachbefehlen. Ein Mikrofon oder mehrere Mikrofone, die in der Fahrgastzelle angeordnet sind, empfangen Audiosignale, die die gesprochenen Wörter und Sätze darstellen. Sprachmaschinenerkennungsalgorithmen, die unterschiedliche Akustik- und Sprachmodellierungstechniken verwenden, werden eingesetzt, um die Audiosignale zu verarbeiten und einen passenden Sprachbefehl zu identifizieren, der in einem oder mehreren gespeicherten Befehlsgrammatiksätzen gespeichert ist. Der Sprachbefehl wird daraufhin zu einer geeigneten Steuerung zum Betreiben einer beliebigen Anzahl von Fahrzeugfunktionen und Fahrzeugzusatzgeräten übertragen, wie etwa zu motorangetriebenen Fenstern, zu Schlössern und zu Klimatisierungssteuervorrichtungen.
Die Effizienz eines Spracherkennungssystems wird weitgehend im Hinblick auf die Erkennungsgenauigkeit gemessen, d. h., ob das System einen Sprachbefehl mit einer gesprochenen Lautäußerung korrekt zur Übereinstimmung bringt bzw. abgleicht. Die Spracherkennung ist üblicherweise ein schwieriges Problem auf Grund einer großen Vielfalt von Sprach/Phonetikeigenschaften, wie etwa die Aussprache, der Dialekt und die Diktion von einzelnen Sprechern. Dies trifft insbesondere zu für in Fahrzeugen vorgesehene Spracherkennungssysteme, weil Fahrzeuge typischerweise eine Anzahl von Fahrgästen transportieren. Darüber hinaus können die akustischen Eigenschaften innerhalb der Fahrgastzelle auf Grund von Motor- und Straßengeräuschen variieren, beispielsweise von vorbeifahrendem Verkehr und Sirenen sowie Wetterbedingungen, wie etwa Wind, Regen und Donner, was die Spracherkennung besonders schwierig macht.
Akustische, lexikalische und Sprachmodelle sind typischerweise in Sprachmaschinen enthalten, um den Erkennungsprozess durch Reduzieren des Suchraums von möglichen Wörtern zu reduzieren und um zwischen ähnlich klingenden Wörtern und Sätzen Zweideutigkeiten aufzulösen. Diese Modelle sind üblicherweise auf Statistiken basierende Systeme, und sie können in einer Vielzahl von Formen bereit gestellt werden. Akustische Modelle können akustische Signaturen oder Wellenformmodelle von den Audiosignalen, entsprechend jedem Befehl, enthalten. Lexikalische und Sprachmodelle enthalten typischerweise Algorithmen, die die Sprachmaschine hinsichtlich der Befehlswortwahl und der Grammatikstruktur instruieren. Beispielsweise kann ein einfaches Sprachmodell als endlich festgesetztes Netz spezifiziert sein, wenn die zulässigen Wörter, die jedem Wort folgen, explizit gegeben sind. Außerdem existieren ausgeklügeltere Sprachmodelle.
Um die Erkennungsgenauigkeit zu verbessern, erlauben herkömmliche, fahrzeuggebundene Spracherkennungssysteme, dass diese Modelle an die phonetischen Eigenschaften des Sprechers angepasst werden, indem eine Trainingsroutine durchgeführt wird. Typischerweise beginnen diese Trainingsroutinen damit, dass der Sprecher das System anweist, eine Trainingsbetriebsart einzuleiten.
Das System fordert den Sprecher mit einer Anzahl von vorbestimmten und zufälligen Sprachbefehlen auf und instruiert den Sprecher, jeden Befehl zu sprechen. Das System adaptiert daraufhin den gesamten Satz von Sprachbefehlen in Übereinstimmung mit der Varianz der gesprochenen Wörter von den Modellen für die entsprechenden Sprachbefehle. Da der gesamte Satz von Sprachbefehlen adaptiert wird, ist jedoch eine große Anzahl von Iterationen erforderlich, um das System mit einer angemessenen Probenahme der Spracheigenschaften des Sprechers auszustatten. Typischerweise enthalten diese Trainingsroutinen zumindest 20–40 Befehlsaufforderungen und Antwortiterationen.
Diese Technik kann unbequem und zeitaufwendig für den Nutzer sein auf Grund der zahlreichen Trainingsbefehlseingabeiterationen. Die Trainingsroutine kann insbesondere für einen Fahrer entnervend sein, so dass es für den Fahrer unangemessen sein kann, die Routine durchzuführen, während das Fahrzeug sich in Bewegung befindet. Die vorstehend angesprochene Technik kann zum Korrigieren besonders problematischer Wörter ineffektiv sein, die wiederholt fehlerkannt werden. Dies ist deshalb der Fall, weil die Technik dazu ausgelegt ist, das Spracherkennungssystem auf eine gegebene, phonetische Sprechereigenschaft breit abzustimmen.

In der DE 32 16 800 C2 ist eine Worteingabeanordnung für sprachgesteuerte Geräte, umfassend eine Kodiereinrichtung, eine Sprechereinrichtung, einen Steuerschaltkreis, eine Anzeigeneinrichtung sowie eine Steuereinrichtung beschrieben. Kennzeichnend für diese Erfindung ist, dass der Steuerschaltkreis eine Detektoreinrichtung zum Erfassen einer Wiederholung eines vorhergehend gesprochenen Wortes bei zwei aufeinander folgenden Worten in Abhängigkeit von einem dritten vorgegebenen Algorithmus umfasst. Der Steuerkreis ist hierbei derart ausgebildet, dass im Fall der Wiederholung dasjenige Wort angezeigt wird, das in der Reihe der Ähnlichkeiten dem unmittelbar zuvor angezeigten Wort folgt. Des Weiteren ist eine Anordnung zum Modifizieren der in der Sprechereinrichtung enthaltenen Referenzen vorgesehen, die die Referenz, die dem zuletzt angezeigten Wort zugeordnet ist, durch die Information entsprechend der Kodierung des wiederholten Wortes ersetzt, wobei diese Substitution durch Betätigung der Steuereinrichtung aktiviert wird.

Aus der DE 195 33 541 C1 ist ein Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens vorbekannt. Das Verfahren ist gekennzeichnet durch eine Fixierung der Syntax- und Kommandostruktur während des Echtzeitdialogbetriebs, wobei die Vorverarbeitung, die Erkennung und die Dialogsteuerung für einen Betrieb in geräuschbehafteter Umgebung ausgelegt sind. Weitere Verfahrensmerkmale bestehen darin, dass für die Erkennung allgemeiner Kommandos kein Training, jedoch für die Erkennung spezifischer Kommandos ein Training durch den Benutzer erforderlich ist. Ferner ist dem Verfahren immanent, dass die Eingabe von Kommandos verbunden erfolgt, wobei die Anzahl der Worte, aus denen ein Kommando für die Spracheingabe gebildet wird, variabel ist. Letztlich erfolgt die Spracheingabe und -ausgabe im Freisprechbetrieb und es erfolgt eine echtzeitige Verarbeitung und Abwicklung des Sprechdialogs.

Die US 5,864,810 A offenbart ein Verfahren und eine Vorrichtung für die automatische Spracherkennung, die sich unter Nutzung von Anpassungsdaten an einen ausgewählten Sprecher anpasst, um eine Umwandlung zu entwickeln, durch die sprecherunabhängige Modelle in sprecherabhängige Modelle umgewandelt werden. Die sprecherabhängigen Modelle werden dann für die Sprechererkennung genutzt und erreichen eine bessere Genauigkeit bei der Erkennung als bei nicht angepassten Modellen. In einer weiteren Ausgestaltung der Erfindung wird die umwandlungsbasierte Anpassungstechnologie mit einer bekannten Bayesian-Anpassungstechnik kombiniert. Die Vorrichtung umfasst hierbei ein Empfangsgerät, ein Charakteristikerkennungsgerät, ein Gerät zum Speichern von sprecherunabhängigen Modellen, eine Trainingsmaschine, eine Adaptionsmaschine sowie eine Erkennungsmaschine.

Es besteht deshalb ein Bedarf an einer einfachen und effektiven Technik zum Adaptieren eines fahrzeuggebundenen Spracherkennungssystems zum Korrigieren inkorrekt erkannter Sprachbefehle.

KURZE ZUSAMMENFASSUNG DER ERFINDUNG

Die vorliegende Erfindung schafft ein Verfahren zum Verbessern der Erkennungsgenauigkeit von fahrzeuggebundenen Spracherkennungssystemen durch Adaptieren ihrer Sprachmaschine an die Spracheigenschaften eines Sprechers in der erforderlichen Weise, um einen bestimmten Sprachbefehl sowie spezifische, problematische Zielwörter oder -sätze zu erkennen. Das Verfahren verwendet die N-best-Abgleichtechnik zum Bereitstellen einer Liste von bekannten Fahrzeugbefehlen, die einer gesprochenen Lautäußerung am ehesten entsprechen. Wenn der Sprecher den beabsichtigten oder korrekten Fahrzeugbefehl aus den N-best-Abgleichen auswählt, wird die gesprochene Lautäußerung genutzt, um die Sprachmaschine in der erforderlichen Weise zu adaptieren, um diesen Fahrzeugbefehl automatisch zu erkennen.

Insbesondere handelt es sich bei der vorliegenden Erfindung um ein Verfahren für die selektive Sprecheradaption eines fahrzeuggebundenen Spracherkennungssystems, das genutzt wird, um Fahrzeugzusatzgeräte per Sprache zu betätigen. Dieses Verfahren umfasst die Schritte:
Empfangen einer gesprochenen Äußerung von einem Sprecher mit sprecherabhängigen Sprech- bzw. Spracheigenschaften und betreffend einen eines Satzes bekannter Fahrzeugbefehle, Verarbeiten der gesprochenen Äußerung in Übereinstimmung mit einem Erkennungsparameter, Identifizieren eines N-best-Satzes bekannter Fahrzeugbefehle, die mit der verarbeiteten, gesprochenen Äußerung abgeglichen sind, Ausgeben des N-best- Befehlssatzes an den Sprecher, Empfangen einer Sprechereingabe zum Wählen eines korrekten Fahrzeugbefehls aus dem N-best-Befehlssatz, und Einstellen des Erkennungsparameters derart, dass das Spracherkennungssystem den Sprecher adaptiert durch Erkennen einer gesprochenen Äußerung mit den Sprecheigenschaften als korrekten Fahrzeugbefehl. Außerdem umfasst das Verfahren das Durchführen einer Zusatzgerätebetätigung entsprechend dem korrekten Fahrzeugbefehl.

In Übereinstimmung mit einem Aspekt der vorliegenden Erfindung handelt es sich bei dem Erkennungsparameter um ein akustisches Wellenformmodell, und die gesprochene Sprach/Lautäußerungseigenschaft enthält eine sprecherabhängige, akustische Signatur. In diesem Fall ist die Sprachmaschine dazu ausgelegt, das Wellenformmodell des korrekten Fahrzeugbefehls durch die akustische Signatur zu ersetzen. Alternativ handelt es sich bei dem Erkennungsparameter um einen phonetischen Klassifikationssatz, und die Sprachmaschine ist dazu ausgelegt, den phonetischen Klassifikationssatz in Übereinstimmung mit der Spracheigenschaft der gesprochenen Lautäußerung für den korrekten Fahrzeugbefehl zu ändern.

In Übereinstimmung mit einem weiteren Aspekt der Erfindung kann der N-best-Befehlssatz auf einer Instrumentenpultanzeige angezeigt werden und die Sprecherwahleingabe erfolgt über eine Eingabevorrichtung. Alternativ kann der N-best-Befehlssatz hörbar über einen Lautsprecher ausgegeben werden, wie etwa über ein Fahrzeugaudiosystem durch Verarbeiten von Text/Sprachealgorithmen und/oder voraufgezeichneten Sprachdateien. In diesem Fall enthält die hörbare Ausgabe Identifizierer für jeden N-best-Befehl, den der Sprecher äußern kann als Sprecherwahleingabe.

In Übereinstimmung mit einem noch weiteren Aspekt umfasst das Verfahren das Empfangen einer Trainingsbetriebsarteingabe von dem Sprecher, so dass die Ausgabe-, Wahl- und Adaptionsschritte nur bei Empfang der Trainingsbetriebsarteingabe durchgeführt werden. Die Trainingsbetriebsarteingabe kann in einer Vielzahl von Arten durchgeführt werden, einschließlich der Betätigung einer Trainingsbetriebsartsteuertaste und der Ausgabe eines Trainingsbetriebsartsprachbefehls. Der Trainingsbetriebsartsprachbefehl kann ein bestimmtes Wort oder eine Phrase sein, wie etwa „trainiere" oder „lerne Wort". Alternativ kann es sich bei ihm um jegliche gesprochene Lautäußerung handeln, bei der die Zusatzgerätebetätigung, entsprechend dem gesprochenen Befehl, bereits durchgeführt wurde, wie er durch die Sprachmaschine erkannt wird. Wenn beispielsweise die Sprachmaschine einen gesprochenen Satz als „Schalte Himmellicht ein" erkennt, wenn das Himmellicht bereits eingeschaltet ist, kann sie dies als Fehlerkennungsfehler erkennen und in die Trainingsbetriebsart übergehen. Die Trainingsbetriebsarteingabe kann eine gesprochene Äußerung sein, die in Aufeinanderfolge wiederholt wird, wie etwa „Himmellicht ein ... Himmellicht ein". Wiederholte Sätze können für ausschließlich gewählte Sprachbefehle als Trainingsbetriebsarteingabe angenommen werden, die nicht typischerweise in Aufeinanderfolge und/oder nur dann ausgegeben werden, wenn die erwartete Zusatzgerätebetätigung bereits durchgeführt worden ist.

In Übereinstimmung mit noch einem weiteren Aspekt der Erfindung kann das Verfahren in Übereinstimmung mit der vorliegenden Erfindung die Zuordnung einer Abgleichwahrscheinlichkeitswichtung zu jedem der bekannten Fahrzeugbefehle in dem N-best-Befehlssatz enthalten. Bevorzugt weist einer der N-best-Fahrzeugbefehle eine höchste Abgleichwahrscheinlich keitswichtung auf, in welchem Fall die Adaption nur dann durchgeführt wird, wenn der Sprecher den höchsten Abgleichwahrscheinlichkeitsbefehl als den korrekten Fahrzeugbefehl nicht wählt.

Die vorliegende Erfindung stellt damit ein einfaches und schnelles Verfahren zum selektiven Adaptieren einer Sprachmaschine zum Erkennen eines bestimmten Sprachbefehls in Übereinstimmung mit den Spracheigenschaften des Sprechers bereit. Durch Adaptieren der Sprachmaschine in Übereinstimmung mit der Korrelation der gesprochenen Lautäußerung mit dem beabsichtigten oder korrekten Sprachbefehl, erlaubt dieses Verfahren dem Sprecher, die Fehlerkennung spezifischer Sprachbefehle zu korrigieren. Da es die Sprachmaschine an eine bereits gesprochene Lautäußerung adaptiert, vermag dieses Verfahren die Notwendigkeit für eine lange Zeit dauernde, iterative Trainingsroutine überflüssig zu machen, die erfordert, dass der Sprecher auf eine Anzahl von Trainingsbefehlsanfragen antwortet.

Diese sowie weitere Vorteile der vorliegenden Erfindung erschließen sich aus der nunmehr folgenden Beschreibung der bevorzugten Ausführungsformen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 zeigt eine teilweise Vorderansicht eines Instrumentenbretts eines Kraftfahrzeugs mit einem Spracherkennungssystem zum Steuern von Fahrzeugzusatzgeräten;
2 zeigt ein Blockdiagramm des fahrzeuggebundenen Spracherkennungssystems von 1, in dem das Verfahren für die selektive Sprecheradaption gemäß der vorliegenden Erfindung eingesetzt werden kann;
3 zeigt ein Blockdiagramm der Sprachmaschinenarchitektur zur Verwendung in dem Spracherkennungssystem von 2;
4 zeigt ein Blockdiagramm eines Verfahrens gemäß dem Stand der Technik zum Adaptieren einer Sprachmaschine in Übereinstimmung mit einer iterativen Trainingsprozedur, demnach der Sprecher mehrmals aufgefordert wird, zufällig erzeugte oder vorab festgelegte Sprachbefehle nachzusprechen;
5 zeigt ein Blockdiagramm des Verfahrens zum selektiven Adaptieren einer Sprachmaschine durch einen Sprecher, der einen Satz spricht, und zum Wählen des beabsichtigten Befehls aus einer Liste von N-best-Abgleichbefehlen; und
6 zeigt ein Flussdiagramm einer bevorzugten Technik zum Ausführen des erfindungsgemäßen, selektiven Sprecheradaptionsverfahrens.
DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Wie in 1 gezeigt, umfasst ein Kraftfahrzeug 10 eine Fahrgastzelle 12 mit einem Lenkrad 14, einem Instrumentenbrett/einer Spritzwand 16 und einem Audiosystem 18 (siehe 2) mit einem Abspielgerät und Lautsprechern (nicht gezeigt). Wie in 1 und 2 gezeigt, enthält das Instrumentenbrett 16 bevorzugt eine zentrale Steuereinheit 19 mit einem Hauptprozessor 20, einem Hauptspeicher 22, einem Ein/Ausgabe(I/O)modul 24, einer Nutzerschnittstelle 26 und einem Sprachsteuersystem(VCS)modul 30. Die zentrale Steuereinheit 19 befindet sich bevorzugt in einer geeigneten Position zur Betätigung durch einen Fahrer und einen Beifahrer (nicht gezeigt). Der Hauptspeicher 22, bevorzugt ein geeigneter Siliziumchip, enthält eine Programmierung zum Bereitstellen eines Betriebssystems 32 zum Steuern des Betriebs des Hauptprozessors 20 und von Prozessen der übrigen Bestandteile der zent ralen Steuereinheit 19. Dieser Hauptprozessor 20 kann ein beliebiger, geeigneter Mikroprozessorchip bekannter Art sein.
Die Nutzerschnittstelle 26 umfasst eine Anzeige 34 und ein Mikrofon 36. Zusätzliche Zusatzmikrofone 38 können außerdem an verschiedenen Stellen in der Fahrgastzelle angeordnet sein, um den Empfang von Befehlen von Fahrzeuginsassen zu verbessern, die an verschiedenen Orten in der Fahrgastzelle sitzen. Beispielsweise kann ein Zusatzmikrofon 38 (1) am Lenkrad 14 angebracht sein sowie an Armstützen für Fahrgäste im vorderen und hinteren Bereich der Fahrgastzelle (nicht gezeigt).
Die Nutzerschnittstelle 26 umfasst außerdem Steuertasten 40, einschließlich solcher zur Betätigung von Fahrzeugzusatzgeräten, wie etwa Zusatzgeräte 42, 44, 46. Diese Steuertasten 40 können Mehrfunktionstasten sein, die wiederkonfigurierbar oder wiederprogrammierbar sind, um verschiedene Steuervorgänge durchzuführen. Beispielsweise kann die Zusatzsteuerung 82 als Trainingsbetriebsarteingabevorrichtung genutzt werden, wie nachfolgend erläutert. Die Nutzerschnittstelle 26 ist mit den Fahrzeugzusatzgeräten bevorzugt über das I/O-Modul 24 und einen Fahrzeugnetzbus 48 verbunden. Die Nutzerschnittstelle 26 erlaubt die Einstellung von sämtlichen steuerbaren Funktionsparametern, die jedem Zusatzgerät zugeordnet sind. Die Fahrzeugzusatzgeräte können außerdem beliebige, strombetriebene Vorrichtungen sein, wie etwa eine Klimatisierungssteuerung, eine Uhr, Innen- oder Außenleuchten, das Audiosystem 18, hintere Betrachtungsspiegel, Türschlösser, Tür- und Fenstersteuerungen und ein Navigationssystem.
Die Nutzerschnittstelle 26 ist mit dem Hauptprozessor 20 zum Empfangen von Audiosignalen über das Mikrofon 26 und Steuer signalen von den Steuertasten 40 sowie zum Senden von Anzeige- und Audiosignalen zu dem Nutzer verbunden. Es wird bemerkt, dass, obwohl 2 die Nutzerschnittstelle 26 und das VCS-Modul 30 als Teil der zentralen Steuereinheit 19 zeigt, diese Bestandteile sämtliche getrennte Vorrichtungen sein können, die direkt oder über den Fahrzeugnetzbus 48 verbunden sind.
Das VCS-Modul 30 umfasst einen Sprachprozessor 50 und einen Speicher 52. Bei dem Sprachprozessor 50 kann es sich um eine beliebige Anzahl von geeigneten Mikroprozessorchips handeln, und bei dem Speicher 52 kann es sich um eine beliebige geeignete elektronische Speichervorrichtung handeln. Abgespeichert in dem VCS-Speicher 52 befindet sich eine Softwareprogrammierung zum Bereitstellen einer Sprachmaschine 54, und ein Adapter 56 zum Durchführen des Verfahrens gemäß der vorliegenden Erfindung. Die Sprachmaschine 54 enthält einen oder mehrere Befehls- und Steuergrammatik(CCG)sätze. Die CCG-Sätze enthalten die Liste bekannter, fahrzeugbezogener Sprachbefehle zum Steuern von Fahrzeugzusatzgerätefunktionen. Beispielsweise können die CCG-Sätze Befehle enthalten, die durch die Navigationseinheit zum Zugriff auf verschiedene Navigationsmenüs ausführbar sind, die zu einer kartografischen Kartenführung, zu einer Bestimmungsorteingabe, zu Anzeigebefehlen und zur Navigationserstellung gehören. Außerdem können die Befehle synthetisierte Sprachmitteilungen sein, die in Übereinstimmung mit Text-/Sprachealgorithmen verarbeitet und zu dem Fahrzeugaudiosystem 18 übertragen werden, um für Insassen eine hörbare Rückkopplung bezüglich der Funktion oder Zustände der gesteuerten Zusatzgeräte zu ermöglichen. Alternativ können vorher aufgezeichnete Sprachdateien verarbeitet und zur Nutzerrückkopplung hörbar ausgegeben werden.
Einer oder mehrere CCG-Sätze, enthaltend unterschiedliche Sätze von Befehlen, können aktiviert werden, so dass unterschiedliche Zusatzgeräte oder Zusatzgerätefunktionen sprachaktiviert werden können durch verschiedene Fahrzeuginsassen. Beispielsweise kann ein Fahrer-CCG-Satz aktiviert werden, der einen Befehl zum Einstellen des Rückspiegels aufweist, der es dem Fahrer erlaubt, den bzw. die Rückspiegel einzustellen, während ein aktiver Fahrgastgrammatiksatz einen derartigen Befehl nicht enthalten kann.
Eine beliebige Anzahl unterschiedlicher Arten von Grammatikstrukturen, die auf diesem Gebiet der Technik bekannt sind, können verwendet werden. Beispielsweise können die Sprachbefehle Schlüsselbegriffe enthalten, die einen Parameter zur Einstellung identifizieren, wie etwa der Temperatur, der Lautstärke, der Geschwindigkeit und der Fenster- und Sitzpositionen. Alternativ können die Sprachbefehle in einem Menüsystem derart organisiert sein, so dass die Sprachbefehle entsprechend dem zu steuernden Zusatzgerät lauten, gefolgt von einem Funktionsparameter. Ein Beispiel dieser Unterscheidung ist ein schlüsselwortgetriebenes System, wobei ein beispielhafter Sprachbefehl zum Absenken eines Fensters lautet „Senke Fenster ab", während ein entsprechender Sprachbefehl in einem menügetriebenen System lautet „Fenster herunter". Die vorliegende Erfindung kann genutzt werden, um Sprachbefehle entweder in dem einen oder dem anderen System oder in beiden oder in anderen bekannten Sprachbefehlsstrukturen zu organisieren und zu erkennen.
Eine Ausführungsform einer Sprachmaschinenarchitektur, die mit der vorliegenden Erfindung einsetzbar ist, wird nunmehr erläutert. Die Sprachmaschine 54 verwendet üblicherweise Spracherkennungstechniken zum Erkennen gesprochener Töne und zum Übertragen entsprechender Befehle zu Steuerungen für sprachaktivierte Fahrzeugzusatzgeräte, wie etwa die Zusatzgeräte 42, 44 und 46. Der Sprachprozessor 50 empfängt digitalisierte Audiosignale von dem Mikrofon 36. Unter Steuerung der Sprachmaschine 54 analysiert der Sprachprozessor 50 die digitalisierten Sprachsignale unter Verwendung der Sprachmaschinenerkennungsalgorithmen zum Identifizieren eines entsprechenden Sprachbefehls, der in dem aktiven Grammatiksatz enthalten ist.
Unter Bezug auf 3 nutzt der Sprachprozessor im Signal/Datenumsetzungskasten 58 Erkennungsalgorithmen zum Wandeln der digitalisierten Sprachsignale in eine alternative Form, wie etwa eine solche, die spektrale Eigenschaften bzw. Kennlinien anzeigt. Der Signal-/Datenumsetzungskasten 58 erzeugt eine neue Darstellung der Sprachsignale, die daraufhin in nachfolgenden Stufen des Spracherkennungsprozesses verwendet werden kann. Im Modulierungskasten 60 werden Modulierungsalgorithmen verwendet, um die Sprachsignale zusätzlich zu verarbeiten, indem sprecherunabhängige Akustikmodelle sowie weitere bekannte, lexikalische und Sprachmodelle auf die Signale angewendet werden. Schließlich werden im Suchkasten 62 Suchalgorithmen verwendet, um den Sprachprozessor 50 zu dem wahrscheinlichsten Befehl, entsprechend den Sprachsignalen, zu führen. Die Suchalgorithmen können einen einzigen Best-Abgleichbefehl oder einen Satz von N-best-Abgleichbefehlen des CCG-Satzes identifizieren. Unter Verwendung der N-best-Technik wird ein Satz von wahrscheinlichsten Befehlen erzeugt, von denen jeder bevorzugt einer Abgleichwahrscheinlichkeitswichtung zugeordnet ist.
Unter erneutem Bezug auf 2 geben daraufhin, sobald der Abgleichbefehl identifiziert ist, die Prozessoren 20, 50 den Befehl über das I/O-Modul 24 an das relevante Zusatzgerät aus, das die gewünschte Aufgabe durchführt. Als ein Beispiel kann der vorstehend genannte Prozess genutzt werden, um ein sprachaktiviertes Klimatisierungssteuersystem durch den Fahrer zu steuern, der einen Sprachbefehl ausgibt, wie etwa „Temperatur erhöhen", um die Fahrgastzellentemperatur zu erhöhen.
Der Sprachprozessor 50 vermag diesen Prozess automatisch durchzuführen, wenn ein Sprecher, Fahrer oder Fahrgast einen Sprachbefehl spricht. Damit ein Zusatzgerät per Sprache aktiviert werden kann, kann das Betriebssystem 32 alternativ so programmiert sein, dass der Sprachprozessor 50 den Empfang eines Sprach- bzw. Redesteuersignals von einer Steuertaste 40 über die Nutzerschnittstelle 26 empfangen muss, wodurch eine „Zuhör"-Periode aufgerufen wird, in der die Audiosignale empfangen und daraufhin verarbeitet werden. Im normalen Betrieb ist der Sprachmaschinenadapter 56 in jedem Fall inaktiv, bis eine Trainingsbetriebsarteingabe empfangen wird.
In Übereinstimmung mit typischen Techniken gemäß dem Stand der Technik, wie etwa in 4 gezeigt, initiiert eine durch einen Sprecher 64 eingegebene Trainingsbetriebsart eine gespeicherte Trainingsroutine zum Adaptieren der gesamten Sprachmaschine 54 auf die Spracheigenschaft des Sprechers 64. Unter Bezug auf 4 beginnt die Trainingsroutine mit einem Trainingsbefehlsgenerator 66, der bekannte Befehle zur Verwendung beim Trainieren der Sprachmaschine 54 wählt. Die Befehle können zufällig erzeugt werden oder es kann sich um einen vorab festgelegten Satz von Befehlen handeln, die eine repräsentative Abtastung bzw. Probenahme des phonetischen Ansatzes bzw. der phonetischen Zusammenstellung des einen oder der mehreren aktiven Grammatiksätze bereit stellt. Eine Trai ningsbefehlseingabeaufforderungseinrichtung 68 empfängt den ersten erzeugten Befehl und gibt den Befehl an den Sprecher 64 aus, indem der Sprecher 64 aufgefordert wird, den erzeugten Befehl zu sprechen. Der Befehl kann an den Sprecher 64 akustisch über ein Lautsprechersystem, wie etwa das Audiosystem 18 des Fahrzeugs, unter Verwendung von Text-/Sprachealgorithmen oder vorab aufgezeichneten Sprachdateien ausgegeben werden, wie an sich bekannt, herrührend von der Sprachmaschine 54, oder unter visueller Verwendung der Anzeige 34. Ansprechend auf die Befehlsaufforderung, spricht der Sprecher 64 den Befehl, der unter Verwendung der Sprachmaschine 54 empfangen und verarbeitet wird. Dieser Prozess wird für eine Anzahl von Iterationen, typischerweise 20–40 Mal, stark abhängig von der Qualität und der phonetischen Disparität der bekannten Sprachbefehle in der aktiven Grammatik bzw. den aktiven Grammatiken wiederholt. Für jeden neuen Trainingsbefehl wird der Sprecher 64 aufgefordert, den Befehl hörbar bzw. verständlich nachzusprechen. Wenn der jeweilige, erzeugte Trainingsbefehl empfangen und verarbeitet wurde, stellt ein Systemtrainer 70 den gesamten Satz akustischer Modelle ein sowie weitere bekannte Erkennungsparameter, wie in Übereinstimmung mit der spezifischen Spracheigenschaft des Sprechers 64 erforderlich, unter Verwendung der Korrelation von jedem Trainingsbefehl mit den akustischen und phonetischen Eigenschaften der jeweiligen Antwort des Sprechers 64. Dieser mehrfache, iterative Prozess kann recht lang dauern, häufig bis 20 Minuten, und erfordert starke Aufmerksamkeit des Sprechers 64. Aus diesem Grund ist dieser Prozess nicht so gut geeignet zur Verwendung durch den Fahrer des Kraftfahrzeugs 10.
In Übereinstimmung mit der vorliegenden Erfindung ist in dem Blockdiagramm von 5 ein einfaches und schnelles Verfah ren zum selektiven Adaptieren der Sprachmaschine 54 zum Erkennen eines bestimmten Sprachbefehls in Übereinstimmung mit den Sprecheigenschaften des bestimmten Sprechers 64 gezeigt. Demnach ist die Sprachmaschine 54 durch einen Befehlsadapter 72 adaptiert unter Verwendung der Korrelation von Audiosignalen, die die Sprecherbefehlseingabe wiedergeben, und der Wahl der N-best-Abgleichliste 74. Es wird deutlich, dass das Verfahren die Notwendigkeit einer getrennten Trainingsroutine beseitigt, die es erfordert, dass der Sprecher auf eine Anzahl von Trainingsbefehlsaufforderungen antwortet. Darüber hinaus umfasst dieses Verfahren den „Befehlsadapter", der Adaptionsalgorithmen enthält, die dazu ausgelegt sind, die Sprachmaschine 54 an die Sprecheigenschaften des Sprechers 64 lediglich für einen bestimmten Befehl zu adaptieren. Im Gegensatz hierzu verwendet das Verfahren von 4 gemäß dem Stand der Technik Algorithmen des Systemtrainers 70 zum Modifizieren des gesamten Satzes der Sprachmaschinenparameter zum Adaptieren der Sprecheigenschaften bzw. Spracheigenschaften des Sprechers. Während das Verfahren gemäß dem Stand der Technik eine Adaption der gesamten Sprachmaschine 54 vorsieht, sieht das Verfahren in Übereinstimmung mit der Erfindung eine sprecherselektierte Adaption eines bestimmten Sprachbefehls vor. Das Verfahren gemäß dem Stand der Technik adaptiert die Sprachmaschine 54 an die Sprecheigenschaften des Sprechers 64, während die vorliegende Erfindung es dem Sprecher 64 erlaubt, spezifische, fehlerkannte Sprachbefehle zu korrigieren, die beim Verfahren gemäß dem Stand der Technik unerkannt bleiben können. Es wird bemerkt, dass die vorliegende Erfindung eingesetzt werden kann, um eine Feinabstimmung der Grobeinstellung der Sprachmaschine 54 bereit zu stellen, wie bei dem vorstehend erläuterten Verfahren gemäß dem Stand der Technik vorgesehen.
In den 2 und 6 ist ein bevorzugtes Verfahren zum Durchführen des selektiven Adaptionsprozesses gemäß der vorliegenden Erfindung angegeben. Im Schritt 76 empfängt der Sprachprozessor 50 und verarbeitet die Audiosignale, die den gesprochenen Sprachbefehl darstellen. Im Schritt 78 verwendet die Sprachmaschine 54 daraufhin die beschriebenen Spracherkennungstechniken zum Kompilieren eines Satzes von Sprachbefehlen aus dem aktiven CCG-Satz, die mit den Audiosignalen den besten Abgleich darstellen, d. h., die N-best-Abgleiche.
Der Sprachprozessor 50 prüft daraufhin auf eine Trainingsbetriebsarteingabe von dem Sprecher im Entscheidungsblock 80. Dieser Schritt kann vor dem Schritt 78 durchgeführt werden, so dass die N-best-Liste nur dann erzeugt wird, wenn der Sprecher wünscht, dass die Sprachmaschine 54 adaptiert. Wie angesprochen, enthalten Sprachmaschinenerkennungsalgorithmen jedoch häufig die N-best-Technik als Teil der Versicherung des Abgleichbefehls, in dem Fall dieser Schritt im normalen Betrieb ohne zusätzliche Verarbeitung durchgeführt wird.
Die Trainingsbetriebsarteingabe kann in unterschiedlichster Weise durchgeführt werden, einschließlich dem Betätigen einer Trainingsbetriebsartsteuertaste 82 (1), und dem Ausgeben eines Trainingsbetriebsartsprachbefehls. Der Trainingsbetriebsartsprachbefehl kann ein spezielles Wort oder ein Satz sein, wie etwa „trainiere" oder „lerne Wort". Alternativ kann es sich um eine gesprochene Äußerung handeln, in der die Zusatzgerätebetätigung, entsprechend dem gesprochenen Befehl, erkannt durch die Sprachmaschine 54, bereits ausgeführt worden ist. Wenn beispielsweise die Sprachmaschine 54 einen gesprochenen Satz, wie etwa „Himmellicht einschalten" erkennt, wenn das Himmellicht bereits eingeschaltet ist, kann sie dies als Fehlerkennungsfehler erkennen und in die Trainingsbe triebsart eintreten. Die Trainingsbetriebsarteingabe kann eine gesprochene Äußerung sein, die aufeinanderfolgend wiederholt wird, wie etwa „Himmellicht einschalten ... Himmellicht einschalten". Wiederholte Sätze können als Trainingsbetriebsarteingabe für ausschließlich gewählte Sprachbefehle angesehen werden, die nicht typischerweise in Aufeinanderfolge und/oder nur dann ausgegeben werden, wenn die erwartete Zusatzgerätebetätigung bereits durchgeführt worden ist.
Wenn keine Trainingsbetriebsartanfrage eingegeben wird, geben die Prozessoren 20, 50 bevorzugt den Abgleichsprachbefehl an das relevante Zusatzgerät über das I/O-Modul 24 aus, das das Zusatzgerät wie erforderlich aktiviert, um die entsprechende Aufgabe durchzuführen, und zwar im Schritt 84. Wenn eine Trainingsbetriebsartanfrage eingegeben wird, geben die Prozessoren 20, 50 die N-best-Abgleichliste an die Nutzerschnittstelle 26 im Schritt 86 aus. Die N-best-Abgleichliste kann dem Sprecher akustisch über das Fahrzeugaudiosystem 18, oder visuell auf der Anzeige 34 mitgeteilt werden. In jedem Fall wird der Sprecher aufgefordert, einen der gelisteten N-best-Abgleiche als denjenigen zu wählen, der dem beabsichtigten Sprachbefehl entspricht.
Es ist möglich, dass die Sprachmaschine 54 in der N-best-Abgleichliste den Sprachbefehl nicht identifiziert, den der Sprecher ausgeführt haben möchte. In diesem Fall kann der Nutzer im Schritt 86 visuell oder akustisch aufgefordert werden, den Befehl erneut zu sprechen. Zusätzlich oder alternativ kann der Sprecher aufgefordert werden, den Befehl aus einer Liste sämtlicher Sprachbefehle in dem aktiven oder einem beliebigen CCD-Satz zu wählen.
Im Schritt 88 wählt der Sprecher den beabsichtigten Sprachbefehl. Die Eingabe kann eine Kontakteingabe über eine der Steuertasten 40 oder eine Spracheingabe sein. Bevorzugt enthält die Spracheingabe das Sprechen eines Selektions- bzw. Wahlidentifizierers, der jedem Befehl in der N-best-Abgleichliste zugeordnet ist. Beispielsweise kann der Nutzer aufgefordert werden, „eins" oder „a" zu sprechen, um den beabsichtigten Befehl des ersten gelisteten Abgleichsbefehls zu wählen, und „zwei" oder „b" für den zweiten gelisteten Befehl usw.
Sobald der Sprecher einen Befehl aus der N-best-Abgleichliste wählt, vermag der Prozessor 20 bevorzugt zu ermitteln, ob der gewählte Befehl die höchste Abgleichwahrscheinlichkeitswichtung aufweist. Falls dies der Fall ist, erkennt die Sprachmaschine 54 in korrekter Weise den gesprochenen Befehl, und es findet keine Adaption statt. Anderweitig werden im Schritt 90 die Adaptionsalgorithmen ausgeführt unter Verwendung der Korrelation der Audiosignale, die im Schritt 76 empfangen werden, mit dem gewählten Befehl. Die Adaptionsalgorithmen modifizieren die Sprachmaschine 54, um die gewählten Befehlsaudiosignale mit den Sprachmustern und phonetischen Eigenschaften zu erkennen, die im Schritt 76 empfangen werden. Dies kann unter Verwendung von Adaptionsalgorithmen erfolgen, in denen Erkennungsparameter der Sprachmaschinenmodelle modifiziert sind. Diese Parameter können akustische Wellenformmodelle enthalten, die in dem VCS-Speicher 52 für jeden bekannten Sprachbefehl gespeichert sind, und Adaptionsalgorithmen können das Modell, das für den relevanten Befehl aktiv ist, durch die akustische Signatur der im Schritt 76 empfangenen Sprachsignale ersetzen. Alternativ enthalten die Erkennungsparameter einen phonetischen Klassifikationssatz mit dem re levanten Befehl, der in Übereinstimmung mit den im Schritt 76 empfangenen Sprach- bzw. Sprechsignalen modifiziert wird.
Schließlich geben die Prozessoren 20, 50 im Schritt 84 den gewählten Befehl an das relevante Zusatzgerät aus und die Aufgabe ist durchgeführt.
Die vorliegende Erfindung kann weitere, nicht speziell in den vorstehend angeführten bevorzugten Ausführungsformen genannte Aspekte umfassen. Die vorstehende Erläuterung und Darstellung ist in keinster Weise beschränkend für den Umfang der vorliegenden Erfindung, die in den anliegenden Ansprüchen festgelegt ist.

Claims

Verfahren für die selektive Sprecheradaption eines fahrzeuggebundenen Spracherkennungssystems zum Betätigen von Fahrzeugzusatzgeräten per Stimme, aufweisend die Schritte: (A) Empfangen einer gesprochenen Äußerung von einem Sprecher mit sprecherabhängigen Sprech- und Spracheigenschaften und betreffend einen eines Satzes bekannter Fahrzeugbefehle, (B) Verarbeiten der gesprochenen Äußerung in Übereinstimmung mit einem Erkennungsparameter, (C) Identifizieren eines N-Best-Satzes bekannter Fahrzeugbefehle, die mit der verarbeiteten, gesprochenen Äußerung abgeglichen sind, (D) Identifizieren einer wiederholt gesprochenen Äußerung von einem Sprecher als Trainingsbetriebsarteneingabe, wenn eine erwartete Zusatzgerätebetätigung ausgeführt worden ist, (E) Ausgabe des N-Best-Befehlssatzes an den Sprecher, (F) Empfangen einer Sprechereingabe zum Wählen eines korrekten Fahrzeugbefehls aus dem N-Best-Befehlssatz und (G) Einstellen des Erkennungsparameters derart, dass das Spracherkennungssystem den Sprecher adaptiert durch Erkennen einer gesprochenen Äußerung mit den Sprecheigenschaften als korrekten Fahrzeugbefehl.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Erkennungsparameter ein akustisches Wellenformmodell ist und wobei die Sprecheigenschaften der gesprochenen Äußerung eine sprecherabhängige, akustische Signatur enthalten, wobei der Adaptionsschritt (G) außerdem das Ersetzen des Wellenformmodells des korrekten Fahrzeugbefehls durch die akustische Signatur vorsieht.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass der Erkennungsparameter ein phonetischer Klassifikationssatz ist und wobei der Adaptionsschritt (G) das Ändern des phonetischen Klassifikationssatzes für den korrekten Befehl in Übereinstimmung mit der gesprochenen Äußerung enthält.
Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass der Schritt (E) das Anzeigen des N-Best-Befehlssatzes auf einer Anzeige vorsieht.
Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass der Schritt (E) das Verarbeiten des N-Best-Befehlssatzes und Ausgeben des N-Best-Befehlssatzes in akustischer Weise über ein Fahrzeugaudiosystem vorsieht.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass der akustisch ausgegebene N-Best-Befehlssatz Selektionsidentifizierer enthält und wobei die Sprecherwahleingabe eine gesprochene Äußerung ist, die Selektionsidentifizierer enthält.
Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass der Identifikationsschritt (C) das Zuordnen einer Abgleichswahrscheinlichkeitswichtung zu den bekannten Fahrzeugbefehlen in den N-Best-Befehlssatz enthält.
Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass einer der Fahrzeugbefehle in dem N-Best-Befehlssatz eine höchste Anpasswahrscheinlichkeitswichtung aufweist und wobei der Adaptionsschritt (F) nur dann durchgeführt wird, wenn der Sprecher den höchsten Ansprechwahrscheinlichkeitsbefehl nicht als den korrekten Fahrzeugbefehl wählt.
Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass der Schritt: Durchführen einer Zusatzgerätebetätigung, entsprechend dem korrekten Fahrzeugbefehl, vorgesehen ist.
Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass der N-Best-Befehlssatz aus zumindest drei bekannten Fahrzeugbefehlen besteht.