-
GEBIET DER
ERFINDUNG
-
Die
vorliegende Erfindung betrifft Spracherkennungssysteme, und insbesondere
ein Verfahren zum wahlweisen Trainieren von fahrzeuggebundenen Spracherkennungssystemen
zum Adaptieren der Spracheigenschaften einzelner Sprecher.
-
HINTERGRUND DER ERFINDUNG
-
Spracherkennungssysteme
an Bord von Kraftfahrzeugen erlauben es Fahrern und Fahrgästen, verschiedene
Fahrzeugfunktionen zu steuern durch Sprechen von Wörtern und
Sätzen
entsprechend Sprachbefehlen. Ein Mikrofon oder mehrere Mikrofone,
die in der Fahrgastzelle angeordnet sind, empfangen Audiosignale,
die die gesprochenen Wörter
und Sätze
darstellen. Sprachmaschinenerkennungsalgorithmen, die unterschiedliche
Akustik- und Sprachmodellierungstechniken
verwenden, werden eingesetzt, um die Audiosignale zu verarbeiten
und einen passenden Sprachbefehl zu identifizieren, der in einem
oder mehreren gespeicherten Befehlsgrammatiksätzen gespeichert ist. Der Sprachbefehl
wird daraufhin zu einer geeigneten Steuerung zum Betreiben einer
beliebigen Anzahl von Fahrzeugfunktionen und Fahrzeugzusatzgeräten übertragen,
wie etwa zu motorangetriebenen Fenstern, zu Schlössern und zu Klimatisierungssteuervorrichtungen.
-
Die
Effizienz eines Spracherkennungssystems wird weitgehend im Hinblick
auf die Erkennungsgenauigkeit gemessen, d. h., ob das System einen
Sprachbefehl mit einer gesprochenen Lautäußerung korrekt zur Übereinstimmung
bringt bzw. abgleicht. Die Spracherkennung ist üblicherweise ein schwieriges
Problem auf Grund einer großen
Vielfalt von Sprach/Phonetikeigenschaften, wie etwa die Aussprache,
der Dialekt und die Diktion von einzelnen Sprechern. Dies trifft
insbesondere zu für
in Fahrzeugen vorgesehene Spracherkennungssysteme, weil Fahrzeuge
typischerweise eine Anzahl von Fahrgästen transportieren. Darüber hinaus
können die
akustischen Eigenschaften innerhalb der Fahrgastzelle auf Grund
von Motor- und Straßengeräuschen variieren,
beispielsweise von vorbeifahrendem Verkehr und Sirenen sowie Wetterbedingungen,
wie etwa Wind, Regen und Donner, was die Spracherkennung besonders
schwierig macht.
-
Akustische,
lexikalische und Sprachmodelle sind typischerweise in Sprachmaschinen
enthalten, um den Erkennungsprozess durch Reduzieren des Suchraums
von möglichen
Wörtern
zu reduzieren und um zwischen ähnlich
klingenden Wörtern
und Sätzen
Zweideutigkeiten aufzulösen.
Diese Modelle sind üblicherweise
auf Statistiken basierende Systeme, und sie können in einer Vielzahl von
Formen bereit gestellt werden. Akustische Modelle können akustische
Signaturen oder Wellenformmodelle von den Audiosignalen, entsprechend
jedem Befehl, enthalten. Lexikalische und Sprachmodelle enthalten
typischerweise Algorithmen, die die Sprachmaschine hinsichtlich
der Befehlswortwahl und der Grammatikstruktur instruieren. Beispielsweise
kann ein einfaches Sprachmodell als endlich festgesetztes Netz spezifiziert
sein, wenn die zulässigen
Wörter,
die jedem Wort folgen, explizit gegeben sind. Außerdem existieren ausgeklügeltere
Sprachmodelle.
-
Um
die Erkennungsgenauigkeit zu verbessern, erlauben herkömmliche,
fahrzeuggebundene Spracherkennungssysteme, dass diese Modelle an die
phonetischen Eigenschaften des Sprechers angepasst werden, indem
eine Trainingsroutine durchgeführt
wird. Typischerweise beginnen diese Trainingsroutinen damit, dass
der Sprecher das System anweist, eine Trainingsbetriebsart einzuleiten.
-
Das
System fordert den Sprecher mit einer Anzahl von vorbestimmten und
zufälligen
Sprachbefehlen auf und instruiert den Sprecher, jeden Befehl zu
sprechen. Das System adaptiert daraufhin den gesamten Satz von Sprachbefehlen
in Übereinstimmung
mit der Varianz der gesprochenen Wörter von den Modellen für die entsprechenden
Sprachbefehle. Da der gesamte Satz von Sprachbefehlen adaptiert wird,
ist jedoch eine große
Anzahl von Iterationen erforderlich, um das System mit einer angemessenen Probenahme
der Spracheigenschaften des Sprechers auszustatten. Typischerweise
enthalten diese Trainingsroutinen zumindest 20–40 Befehlsaufforderungen und
Antwortiterationen.
-
Diese
Technik kann unbequem und zeitaufwendig für den Nutzer sein auf Grund
der zahlreichen Trainingsbefehlseingabeiterationen. Die Trainingsroutine
kann insbesondere für
einen Fahrer entnervend sein, so dass es für den Fahrer unangemessen sein
kann, die Routine durchzuführen,
während
das Fahrzeug sich in Bewegung befindet. Die vorstehend angesprochene
Technik kann zum Korrigieren besonders problematischer Wörter ineffektiv
sein, die wiederholt fehlerkannt werden. Dies ist deshalb der Fall,
weil die Technik dazu ausgelegt ist, das Spracherkennungssystem
auf eine gegebene, phonetische Sprechereigenschaft breit abzustimmen.
-
In
der
DE 32 16 800 C2 ist
eine Worteingabeanordnung für
sprachgesteuerte Geräte,
umfassend eine Kodiereinrichtung, eine Sprechereinrichtung, einen
Steuerschaltkreis, eine Anzeigeneinrichtung sowie eine Steuereinrichtung
beschrieben. Kennzeichnend für
diese Erfindung ist, dass der Steuerschaltkreis eine Detektoreinrichtung
zum Erfassen einer Wiederholung eines vorhergehend gesprochenen
Wortes bei zwei aufeinander folgenden Worten in Abhängigkeit
von einem dritten vorgegebenen Algorithmus umfasst. Der Steuerkreis
ist hierbei derart ausgebildet, dass im Fall der Wiederholung dasjenige
Wort angezeigt wird, das in der Reihe der Ähnlichkeiten dem unmittelbar
zuvor angezeigten Wort folgt. Des Weiteren ist eine Anordnung zum
Modifizieren der in der Sprechereinrichtung enthaltenen Referenzen
vorgesehen, die die Referenz, die dem zuletzt angezeigten Wort zugeordnet
ist, durch die Information entsprechend der Kodierung des wiederholten
Wortes ersetzt, wobei diese Substitution durch Betätigung der
Steuereinrichtung aktiviert wird.
-
Aus
der
DE 195 33 541
C1 ist ein Verfahren zur automatischen Steuerung eines
oder mehrerer Geräte
durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und
Vorrichtung zum Ausführen
des Verfahrens vorbekannt. Das Verfahren ist gekennzeichnet durch
eine Fixierung der Syntax- und Kommandostruktur während des
Echtzeitdialogbetriebs, wobei die Vorverarbeitung, die Erkennung
und die Dialogsteuerung für
einen Betrieb in geräuschbehafteter
Umgebung ausgelegt sind. Weitere Verfahrensmerkmale bestehen darin,
dass für
die Erkennung allgemeiner Kommandos kein Training, jedoch für die Erkennung
spezifischer Kommandos ein Training durch den Benutzer erforderlich
ist. Ferner ist dem Verfahren immanent, dass die Eingabe von Kommandos
verbunden erfolgt, wobei die Anzahl der Worte, aus denen ein Kommando
für die
Spracheingabe gebildet wird, variabel ist. Letztlich erfolgt die Spracheingabe
und -ausgabe im Freisprechbetrieb und es erfolgt eine echtzeitige
Verarbeitung und Abwicklung des Sprechdialogs.
-
Die
US 5,864,810 A offenbart
ein Verfahren und eine Vorrichtung für die automatische Spracherkennung,
die sich unter Nutzung von Anpassungsdaten an einen ausgewählten Sprecher
anpasst, um eine Umwandlung zu entwickeln, durch die sprecherunabhängige Modelle
in sprecherabhängige
Modelle umgewandelt werden. Die sprecherabhängigen Modelle werden dann
für die
Sprechererkennung genutzt und erreichen eine bessere Genauigkeit
bei der Erkennung als bei nicht angepassten Modellen. In einer weiteren
Ausgestaltung der Erfindung wird die umwandlungsbasierte Anpassungstechnologie
mit einer bekannten Bayesian-Anpassungstechnik kombiniert. Die Vorrichtung
umfasst hierbei ein Empfangsgerät,
ein Charakteristikerkennungsgerät,
ein Gerät
zum Speichern von sprecherunabhängigen Modellen,
eine Trainingsmaschine, eine Adaptionsmaschine sowie eine Erkennungsmaschine.
-
Es
besteht deshalb ein Bedarf an einer einfachen und effektiven Technik
zum Adaptieren eines fahrzeuggebundenen Spracherkennungssystems zum
Korrigieren inkorrekt erkannter Sprachbefehle.
-
KURZE ZUSAMMENFASSUNG
DER ERFINDUNG
-
Die
vorliegende Erfindung schafft ein Verfahren zum Verbessern der Erkennungsgenauigkeit
von fahrzeuggebundenen Spracherkennungssystemen durch Adaptieren
ihrer Sprachmaschine an die Spracheigenschaften eines Sprechers
in der erforderlichen Weise, um einen bestimmten Sprachbefehl sowie
spezifische, problematische Zielwörter oder -sätze zu erkennen.
Das Verfahren verwendet die N-best-Abgleichtechnik zum Bereitstellen
einer Liste von bekannten Fahrzeugbefehlen, die einer gesprochenen
Lautäußerung am
ehesten entsprechen. Wenn der Sprecher den beabsichtigten oder korrekten
Fahrzeugbefehl aus den N-best-Abgleichen
auswählt,
wird die gesprochene Lautäußerung genutzt, um
die Sprachmaschine in der erforderlichen Weise zu adaptieren, um
diesen Fahrzeugbefehl automatisch zu erkennen.
-
Insbesondere
handelt es sich bei der vorliegenden Erfindung um ein Verfahren
für die
selektive Sprecheradaption eines fahrzeuggebundenen Spracherkennungssystems,
das genutzt wird, um Fahrzeugzusatzgeräte per Sprache zu betätigen. Dieses Verfahren
umfasst die Schritte:
Empfangen einer gesprochenen Äußerung von
einem Sprecher mit sprecherabhängigen
Sprech- bzw. Spracheigenschaften und betreffend einen eines Satzes
bekannter Fahrzeugbefehle, Verarbeiten der gesprochenen Äußerung in Übereinstimmung
mit einem Erkennungsparameter, Identifizieren eines N-best-Satzes
bekannter Fahrzeugbefehle, die mit der verarbeiteten, gesprochenen Äußerung abgeglichen
sind, Ausgeben des N-best- Befehlssatzes
an den Sprecher, Empfangen einer Sprechereingabe zum Wählen eines
korrekten Fahrzeugbefehls aus dem N-best-Befehlssatz, und Einstellen des Erkennungsparameters
derart, dass das Spracherkennungssystem den Sprecher adaptiert durch
Erkennen einer gesprochenen Äußerung mit
den Sprecheigenschaften als korrekten Fahrzeugbefehl. Außerdem umfasst
das Verfahren das Durchführen
einer Zusatzgerätebetätigung entsprechend
dem korrekten Fahrzeugbefehl.
-
In Übereinstimmung
mit einem Aspekt der vorliegenden Erfindung handelt es sich bei
dem Erkennungsparameter um ein akustisches Wellenformmodell, und
die gesprochene Sprach/Lautäußerungseigenschaft
enthält
eine sprecherabhängige, akustische
Signatur. In diesem Fall ist die Sprachmaschine dazu ausgelegt,
das Wellenformmodell des korrekten Fahrzeugbefehls durch die akustische
Signatur zu ersetzen. Alternativ handelt es sich bei dem Erkennungsparameter
um einen phonetischen Klassifikationssatz, und die Sprachmaschine
ist dazu ausgelegt, den phonetischen Klassifikationssatz in Übereinstimmung
mit der Spracheigenschaft der gesprochenen Lautäußerung für den korrekten Fahrzeugbefehl
zu ändern.
-
In Übereinstimmung
mit einem weiteren Aspekt der Erfindung kann der N-best-Befehlssatz
auf einer Instrumentenpultanzeige angezeigt werden und die Sprecherwahleingabe
erfolgt über
eine Eingabevorrichtung. Alternativ kann der N-best-Befehlssatz
hörbar über einen
Lautsprecher ausgegeben werden, wie etwa über ein Fahrzeugaudiosystem durch
Verarbeiten von Text/Sprachealgorithmen und/oder voraufgezeichneten
Sprachdateien. In diesem Fall enthält die hörbare Ausgabe Identifizierer für jeden
N-best-Befehl, den der Sprecher äußern kann
als Sprecherwahleingabe.
-
In Übereinstimmung
mit einem noch weiteren Aspekt umfasst das Verfahren das Empfangen
einer Trainingsbetriebsarteingabe von dem Sprecher, so dass die
Ausgabe-, Wahl- und Adaptionsschritte nur bei Empfang der Trainingsbetriebsarteingabe durchgeführt werden.
Die Trainingsbetriebsarteingabe kann in einer Vielzahl von Arten
durchgeführt
werden, einschließlich
der Betätigung
einer Trainingsbetriebsartsteuertaste und der Ausgabe eines Trainingsbetriebsartsprachbefehls.
Der Trainingsbetriebsartsprachbefehl kann ein bestimmtes Wort oder eine
Phrase sein, wie etwa „trainiere" oder „lerne Wort". Alternativ kann
es sich bei ihm um jegliche gesprochene Lautäußerung handeln, bei der die
Zusatzgerätebetätigung,
entsprechend dem gesprochenen Befehl, bereits durchgeführt wurde,
wie er durch die Sprachmaschine erkannt wird. Wenn beispielsweise
die Sprachmaschine einen gesprochenen Satz als „Schalte Himmellicht ein" erkennt, wenn das
Himmellicht bereits eingeschaltet ist, kann sie dies als Fehlerkennungsfehler
erkennen und in die Trainingsbetriebsart übergehen. Die Trainingsbetriebsarteingabe
kann eine gesprochene Äußerung sein,
die in Aufeinanderfolge wiederholt wird, wie etwa „Himmellicht
ein ... Himmellicht ein".
Wiederholte Sätze
können
für ausschließlich gewählte Sprachbefehle
als Trainingsbetriebsarteingabe angenommen werden, die nicht typischerweise
in Aufeinanderfolge und/oder nur dann ausgegeben werden, wenn die
erwartete Zusatzgerätebetätigung bereits
durchgeführt worden
ist.
-
In Übereinstimmung
mit noch einem weiteren Aspekt der Erfindung kann das Verfahren
in Übereinstimmung
mit der vorliegenden Erfindung die Zuordnung einer Abgleichwahrscheinlichkeitswichtung
zu jedem der bekannten Fahrzeugbefehle in dem N-best-Befehlssatz
enthalten. Bevorzugt weist einer der N-best-Fahrzeugbefehle eine höchste Abgleichwahrscheinlich keitswichtung
auf, in welchem Fall die Adaption nur dann durchgeführt wird, wenn
der Sprecher den höchsten
Abgleichwahrscheinlichkeitsbefehl als den korrekten Fahrzeugbefehl
nicht wählt.
-
Die
vorliegende Erfindung stellt damit ein einfaches und schnelles Verfahren
zum selektiven Adaptieren einer Sprachmaschine zum Erkennen eines
bestimmten Sprachbefehls in Übereinstimmung mit
den Spracheigenschaften des Sprechers bereit. Durch Adaptieren der
Sprachmaschine in Übereinstimmung
mit der Korrelation der gesprochenen Lautäußerung mit dem beabsichtigten
oder korrekten Sprachbefehl, erlaubt dieses Verfahren dem Sprecher,
die Fehlerkennung spezifischer Sprachbefehle zu korrigieren. Da
es die Sprachmaschine an eine bereits gesprochene Lautäußerung adaptiert,
vermag dieses Verfahren die Notwendigkeit für eine lange Zeit dauernde,
iterative Trainingsroutine überflüssig zu
machen, die erfordert, dass der Sprecher auf eine Anzahl von Trainingsbefehlsanfragen
antwortet.
-
Diese
sowie weitere Vorteile der vorliegenden Erfindung erschließen sich
aus der nunmehr folgenden Beschreibung der bevorzugten Ausführungsformen.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
1 zeigt
eine teilweise Vorderansicht eines Instrumentenbretts eines Kraftfahrzeugs
mit einem Spracherkennungssystem zum Steuern von Fahrzeugzusatzgeräten;
-
2 zeigt
ein Blockdiagramm des fahrzeuggebundenen Spracherkennungssystems
von 1, in dem das Verfahren für die selektive Sprecheradaption
gemäß der vorliegenden
Erfindung eingesetzt werden kann;
-
3 zeigt
ein Blockdiagramm der Sprachmaschinenarchitektur zur Verwendung
in dem Spracherkennungssystem von 2;
-
4 zeigt
ein Blockdiagramm eines Verfahrens gemäß dem Stand der Technik zum
Adaptieren einer Sprachmaschine in Übereinstimmung mit einer iterativen
Trainingsprozedur, demnach der Sprecher mehrmals aufgefordert wird,
zufällig
erzeugte oder vorab festgelegte Sprachbefehle nachzusprechen;
-
5 zeigt
ein Blockdiagramm des Verfahrens zum selektiven Adaptieren einer
Sprachmaschine durch einen Sprecher, der einen Satz spricht, und zum
Wählen
des beabsichtigten Befehls aus einer Liste von N-best-Abgleichbefehlen;
und
-
6 zeigt
ein Flussdiagramm einer bevorzugten Technik zum Ausführen des
erfindungsgemäßen, selektiven
Sprecheradaptionsverfahrens.
-
DETAILLIERTE BESCHREIBUNG
DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
-
Wie
in 1 gezeigt, umfasst ein Kraftfahrzeug 10 eine
Fahrgastzelle 12 mit einem Lenkrad 14, einem Instrumentenbrett/einer
Spritzwand 16 und einem Audiosystem 18 (siehe 2)
mit einem Abspielgerät
und Lautsprechern (nicht gezeigt). Wie in 1 und 2 gezeigt,
enthält
das Instrumentenbrett 16 bevorzugt eine zentrale Steuereinheit 19 mit einem
Hauptprozessor 20, einem Hauptspeicher 22, einem
Ein/Ausgabe(I/O)modul 24, einer Nutzerschnittstelle 26 und
einem Sprachsteuersystem(VCS)modul 30. Die zentrale Steuereinheit 19 befindet
sich bevorzugt in einer geeigneten Position zur Betätigung durch
einen Fahrer und einen Beifahrer (nicht gezeigt). Der Hauptspeicher 22,
bevorzugt ein geeigneter Siliziumchip, enthält eine Programmierung zum
Bereitstellen eines Betriebssystems 32 zum Steuern des
Betriebs des Hauptprozessors 20 und von Prozessen der übrigen Bestandteile
der zent ralen Steuereinheit 19. Dieser Hauptprozessor 20 kann
ein beliebiger, geeigneter Mikroprozessorchip bekannter Art sein.
-
Die
Nutzerschnittstelle 26 umfasst eine Anzeige 34 und
ein Mikrofon 36. Zusätzliche
Zusatzmikrofone 38 können
außerdem
an verschiedenen Stellen in der Fahrgastzelle angeordnet sein, um
den Empfang von Befehlen von Fahrzeuginsassen zu verbessern, die
an verschiedenen Orten in der Fahrgastzelle sitzen. Beispielsweise
kann ein Zusatzmikrofon 38 (1) am Lenkrad 14 angebracht
sein sowie an Armstützen
für Fahrgäste im vorderen
und hinteren Bereich der Fahrgastzelle (nicht gezeigt).
-
Die
Nutzerschnittstelle 26 umfasst außerdem Steuertasten 40,
einschließlich
solcher zur Betätigung
von Fahrzeugzusatzgeräten,
wie etwa Zusatzgeräte 42, 44, 46.
Diese Steuertasten 40 können Mehrfunktionstasten
sein, die wiederkonfigurierbar oder wiederprogrammierbar sind, um
verschiedene Steuervorgänge
durchzuführen.
Beispielsweise kann die Zusatzsteuerung 82 als Trainingsbetriebsarteingabevorrichtung
genutzt werden, wie nachfolgend erläutert. Die Nutzerschnittstelle 26 ist
mit den Fahrzeugzusatzgeräten
bevorzugt über
das I/O-Modul 24 und einen Fahrzeugnetzbus 48 verbunden.
Die Nutzerschnittstelle 26 erlaubt die Einstellung von
sämtlichen
steuerbaren Funktionsparametern, die jedem Zusatzgerät zugeordnet
sind. Die Fahrzeugzusatzgeräte
können
außerdem
beliebige, strombetriebene Vorrichtungen sein, wie etwa eine Klimatisierungssteuerung,
eine Uhr, Innen- oder Außenleuchten,
das Audiosystem 18, hintere Betrachtungsspiegel, Türschlösser, Tür- und Fenstersteuerungen
und ein Navigationssystem.
-
Die
Nutzerschnittstelle 26 ist mit dem Hauptprozessor 20 zum
Empfangen von Audiosignalen über
das Mikrofon 26 und Steuer signalen von den Steuertasten 40 sowie
zum Senden von Anzeige- und Audiosignalen zu dem Nutzer verbunden.
Es wird bemerkt, dass, obwohl 2 die Nutzerschnittstelle 26 und
das VCS-Modul 30 als Teil der zentralen Steuereinheit 19 zeigt,
diese Bestandteile sämtliche getrennte
Vorrichtungen sein können,
die direkt oder über
den Fahrzeugnetzbus 48 verbunden sind.
-
Das
VCS-Modul 30 umfasst einen Sprachprozessor 50 und
einen Speicher 52. Bei dem Sprachprozessor 50 kann
es sich um eine beliebige Anzahl von geeigneten Mikroprozessorchips
handeln, und bei dem Speicher 52 kann es sich um eine beliebige
geeignete elektronische Speichervorrichtung handeln. Abgespeichert
in dem VCS-Speicher 52 befindet sich eine Softwareprogrammierung
zum Bereitstellen einer Sprachmaschine 54, und ein Adapter 56 zum
Durchführen
des Verfahrens gemäß der vorliegenden
Erfindung. Die Sprachmaschine 54 enthält einen oder mehrere Befehls-
und Steuergrammatik(CCG)sätze.
Die CCG-Sätze
enthalten die Liste bekannter, fahrzeugbezogener Sprachbefehle zum Steuern
von Fahrzeugzusatzgerätefunktionen.
Beispielsweise können
die CCG-Sätze
Befehle enthalten, die durch die Navigationseinheit zum Zugriff
auf verschiedene Navigationsmenüs
ausführbar
sind, die zu einer kartografischen Kartenführung, zu einer Bestimmungsorteingabe,
zu Anzeigebefehlen und zur Navigationserstellung gehören. Außerdem können die
Befehle synthetisierte Sprachmitteilungen sein, die in Übereinstimmung
mit Text-/Sprachealgorithmen verarbeitet und zu dem Fahrzeugaudiosystem 18 übertragen
werden, um für
Insassen eine hörbare Rückkopplung
bezüglich
der Funktion oder Zustände der
gesteuerten Zusatzgeräte
zu ermöglichen.
Alternativ können
vorher aufgezeichnete Sprachdateien verarbeitet und zur Nutzerrückkopplung
hörbar
ausgegeben werden.
-
Einer
oder mehrere CCG-Sätze,
enthaltend unterschiedliche Sätze
von Befehlen, können
aktiviert werden, so dass unterschiedliche Zusatzgeräte oder
Zusatzgerätefunktionen
sprachaktiviert werden können
durch verschiedene Fahrzeuginsassen. Beispielsweise kann ein Fahrer-CCG-Satz
aktiviert werden, der einen Befehl zum Einstellen des Rückspiegels
aufweist, der es dem Fahrer erlaubt, den bzw. die Rückspiegel
einzustellen, während
ein aktiver Fahrgastgrammatiksatz einen derartigen Befehl nicht enthalten
kann.
-
Eine
beliebige Anzahl unterschiedlicher Arten von Grammatikstrukturen,
die auf diesem Gebiet der Technik bekannt sind, können verwendet
werden. Beispielsweise können
die Sprachbefehle Schlüsselbegriffe
enthalten, die einen Parameter zur Einstellung identifizieren, wie
etwa der Temperatur, der Lautstärke,
der Geschwindigkeit und der Fenster- und Sitzpositionen. Alternativ
können
die Sprachbefehle in einem Menüsystem
derart organisiert sein, so dass die Sprachbefehle entsprechend
dem zu steuernden Zusatzgerät
lauten, gefolgt von einem Funktionsparameter. Ein Beispiel dieser
Unterscheidung ist ein schlüsselwortgetriebenes
System, wobei ein beispielhafter Sprachbefehl zum Absenken eines
Fensters lautet „Senke
Fenster ab", während ein
entsprechender Sprachbefehl in einem menügetriebenen System lautet „Fenster
herunter". Die vorliegende
Erfindung kann genutzt werden, um Sprachbefehle entweder in dem
einen oder dem anderen System oder in beiden oder in anderen bekannten
Sprachbefehlsstrukturen zu organisieren und zu erkennen.
-
Eine
Ausführungsform
einer Sprachmaschinenarchitektur, die mit der vorliegenden Erfindung einsetzbar
ist, wird nunmehr erläutert.
Die Sprachmaschine 54 verwendet üblicherweise Spracherkennungstechniken
zum Erkennen gesprochener Töne und zum Übertragen
entsprechender Befehle zu Steuerungen für sprachaktivierte Fahrzeugzusatzgeräte, wie
etwa die Zusatzgeräte 42, 44 und 46.
Der Sprachprozessor 50 empfängt digitalisierte Audiosignale
von dem Mikrofon 36. Unter Steuerung der Sprachmaschine 54 analysiert
der Sprachprozessor 50 die digitalisierten Sprachsignale
unter Verwendung der Sprachmaschinenerkennungsalgorithmen zum Identifizieren
eines entsprechenden Sprachbefehls, der in dem aktiven Grammatiksatz
enthalten ist.
-
Unter
Bezug auf 3 nutzt der Sprachprozessor
im Signal/Datenumsetzungskasten 58 Erkennungsalgorithmen
zum Wandeln der digitalisierten Sprachsignale in eine alternative
Form, wie etwa eine solche, die spektrale Eigenschaften bzw. Kennlinien anzeigt.
Der Signal-/Datenumsetzungskasten 58 erzeugt eine neue
Darstellung der Sprachsignale, die daraufhin in nachfolgenden Stufen
des Spracherkennungsprozesses verwendet werden kann. Im Modulierungskasten 60 werden
Modulierungsalgorithmen verwendet, um die Sprachsignale zusätzlich zu
verarbeiten, indem sprecherunabhängige
Akustikmodelle sowie weitere bekannte, lexikalische und Sprachmodelle
auf die Signale angewendet werden. Schließlich werden im Suchkasten 62 Suchalgorithmen
verwendet, um den Sprachprozessor 50 zu dem wahrscheinlichsten
Befehl, entsprechend den Sprachsignalen, zu führen. Die Suchalgorithmen können einen
einzigen Best-Abgleichbefehl
oder einen Satz von N-best-Abgleichbefehlen des CCG-Satzes identifizieren.
Unter Verwendung der N-best-Technik
wird ein Satz von wahrscheinlichsten Befehlen erzeugt, von denen
jeder bevorzugt einer Abgleichwahrscheinlichkeitswichtung zugeordnet
ist.
-
Unter
erneutem Bezug auf 2 geben daraufhin, sobald der
Abgleichbefehl identifiziert ist, die Prozessoren 20, 50 den Befehl über das
I/O-Modul 24 an das relevante Zusatzgerät aus, das die gewünschte Aufgabe
durchführt.
Als ein Beispiel kann der vorstehend genannte Prozess genutzt werden, um
ein sprachaktiviertes Klimatisierungssteuersystem durch den Fahrer
zu steuern, der einen Sprachbefehl ausgibt, wie etwa „Temperatur
erhöhen", um die Fahrgastzellentemperatur
zu erhöhen.
-
Der
Sprachprozessor 50 vermag diesen Prozess automatisch durchzuführen, wenn
ein Sprecher, Fahrer oder Fahrgast einen Sprachbefehl spricht. Damit
ein Zusatzgerät
per Sprache aktiviert werden kann, kann das Betriebssystem 32 alternativ
so programmiert sein, dass der Sprachprozessor 50 den Empfang
eines Sprach- bzw. Redesteuersignals von einer Steuertaste 40 über die
Nutzerschnittstelle 26 empfangen muss, wodurch eine „Zuhör"-Periode aufgerufen
wird, in der die Audiosignale empfangen und daraufhin verarbeitet
werden. Im normalen Betrieb ist der Sprachmaschinenadapter 56 in
jedem Fall inaktiv, bis eine Trainingsbetriebsarteingabe empfangen wird.
-
In Übereinstimmung
mit typischen Techniken gemäß dem Stand
der Technik, wie etwa in 4 gezeigt, initiiert eine durch
einen Sprecher 64 eingegebene Trainingsbetriebsart eine
gespeicherte Trainingsroutine zum Adaptieren der gesamten Sprachmaschine 54 auf
die Spracheigenschaft des Sprechers 64. Unter Bezug auf 4 beginnt
die Trainingsroutine mit einem Trainingsbefehlsgenerator 66,
der bekannte Befehle zur Verwendung beim Trainieren der Sprachmaschine 54 wählt. Die
Befehle können
zufällig
erzeugt werden oder es kann sich um einen vorab festgelegten Satz
von Befehlen handeln, die eine repräsentative Abtastung bzw. Probenahme des
phonetischen Ansatzes bzw. der phonetischen Zusammenstellung des
einen oder der mehreren aktiven Grammatiksätze bereit stellt. Eine Trai ningsbefehlseingabeaufforderungseinrichtung 68 empfängt den
ersten erzeugten Befehl und gibt den Befehl an den Sprecher 64 aus,
indem der Sprecher 64 aufgefordert wird, den erzeugten
Befehl zu sprechen. Der Befehl kann an den Sprecher 64 akustisch über ein
Lautsprechersystem, wie etwa das Audiosystem 18 des Fahrzeugs,
unter Verwendung von Text-/Sprachealgorithmen oder vorab aufgezeichneten
Sprachdateien ausgegeben werden, wie an sich bekannt, herrührend von
der Sprachmaschine 54, oder unter visueller Verwendung
der Anzeige 34. Ansprechend auf die Befehlsaufforderung,
spricht der Sprecher 64 den Befehl, der unter Verwendung
der Sprachmaschine 54 empfangen und verarbeitet wird. Dieser
Prozess wird für
eine Anzahl von Iterationen, typischerweise 20–40 Mal, stark abhängig von
der Qualität
und der phonetischen Disparität
der bekannten Sprachbefehle in der aktiven Grammatik bzw. den aktiven
Grammatiken wiederholt. Für
jeden neuen Trainingsbefehl wird der Sprecher 64 aufgefordert, den
Befehl hörbar
bzw. verständlich
nachzusprechen. Wenn der jeweilige, erzeugte Trainingsbefehl empfangen
und verarbeitet wurde, stellt ein Systemtrainer 70 den
gesamten Satz akustischer Modelle ein sowie weitere bekannte Erkennungsparameter, wie
in Übereinstimmung
mit der spezifischen Spracheigenschaft des Sprechers 64 erforderlich,
unter Verwendung der Korrelation von jedem Trainingsbefehl mit den
akustischen und phonetischen Eigenschaften der jeweiligen Antwort
des Sprechers 64. Dieser mehrfache, iterative Prozess kann
recht lang dauern, häufig
bis 20 Minuten, und erfordert starke Aufmerksamkeit des Sprechers 64.
Aus diesem Grund ist dieser Prozess nicht so gut geeignet zur Verwendung durch
den Fahrer des Kraftfahrzeugs 10.
-
In Übereinstimmung
mit der vorliegenden Erfindung ist in dem Blockdiagramm von 5 ein
einfaches und schnelles Verfah ren zum selektiven Adaptieren der
Sprachmaschine 54 zum Erkennen eines bestimmten Sprachbefehls
in Übereinstimmung mit
den Sprecheigenschaften des bestimmten Sprechers 64 gezeigt.
Demnach ist die Sprachmaschine 54 durch einen Befehlsadapter 72 adaptiert
unter Verwendung der Korrelation von Audiosignalen, die die Sprecherbefehlseingabe
wiedergeben, und der Wahl der N-best-Abgleichliste 74.
Es wird deutlich, dass das Verfahren die Notwendigkeit einer getrennten
Trainingsroutine beseitigt, die es erfordert, dass der Sprecher
auf eine Anzahl von Trainingsbefehlsaufforderungen antwortet. Darüber hinaus
umfasst dieses Verfahren den „Befehlsadapter", der Adaptionsalgorithmen
enthält,
die dazu ausgelegt sind, die Sprachmaschine 54 an die Sprecheigenschaften
des Sprechers 64 lediglich für einen bestimmten Befehl zu
adaptieren. Im Gegensatz hierzu verwendet das Verfahren von 4 gemäß dem Stand
der Technik Algorithmen des Systemtrainers 70 zum Modifizieren des
gesamten Satzes der Sprachmaschinenparameter zum Adaptieren der
Sprecheigenschaften bzw. Spracheigenschaften des Sprechers. Während das Verfahren
gemäß dem Stand
der Technik eine Adaption der gesamten Sprachmaschine 54 vorsieht,
sieht das Verfahren in Übereinstimmung
mit der Erfindung eine sprecherselektierte Adaption eines bestimmten Sprachbefehls
vor. Das Verfahren gemäß dem Stand der
Technik adaptiert die Sprachmaschine 54 an die Sprecheigenschaften
des Sprechers 64, während
die vorliegende Erfindung es dem Sprecher 64 erlaubt, spezifische,
fehlerkannte Sprachbefehle zu korrigieren, die beim Verfahren gemäß dem Stand
der Technik unerkannt bleiben können.
Es wird bemerkt, dass die vorliegende Erfindung eingesetzt werden
kann, um eine Feinabstimmung der Grobeinstellung der Sprachmaschine 54 bereit
zu stellen, wie bei dem vorstehend erläuterten Verfahren gemäß dem Stand der
Technik vorgesehen.
-
In
den 2 und 6 ist ein bevorzugtes Verfahren
zum Durchführen
des selektiven Adaptionsprozesses gemäß der vorliegenden Erfindung
angegeben. Im Schritt 76 empfängt der Sprachprozessor 50 und
verarbeitet die Audiosignale, die den gesprochenen Sprachbefehl
darstellen. Im Schritt 78 verwendet die Sprachmaschine 54 daraufhin
die beschriebenen Spracherkennungstechniken zum Kompilieren eines
Satzes von Sprachbefehlen aus dem aktiven CCG-Satz, die mit den
Audiosignalen den besten Abgleich darstellen, d. h., die N-best-Abgleiche.
-
Der
Sprachprozessor 50 prüft
daraufhin auf eine Trainingsbetriebsarteingabe von dem Sprecher im
Entscheidungsblock 80. Dieser Schritt kann vor dem Schritt 78 durchgeführt werden,
so dass die N-best-Liste nur dann erzeugt wird, wenn der Sprecher
wünscht,
dass die Sprachmaschine 54 adaptiert. Wie angesprochen,
enthalten Sprachmaschinenerkennungsalgorithmen jedoch häufig die N-best-Technik
als Teil der Versicherung des Abgleichbefehls, in dem Fall dieser
Schritt im normalen Betrieb ohne zusätzliche Verarbeitung durchgeführt wird.
-
Die
Trainingsbetriebsarteingabe kann in unterschiedlichster Weise durchgeführt werden,
einschließlich
dem Betätigen
einer Trainingsbetriebsartsteuertaste 82 (1),
und dem Ausgeben eines Trainingsbetriebsartsprachbefehls. Der Trainingsbetriebsartsprachbefehl
kann ein spezielles Wort oder ein Satz sein, wie etwa „trainiere" oder „lerne
Wort". Alternativ
kann es sich um eine gesprochene Äußerung handeln, in der die
Zusatzgerätebetätigung,
entsprechend dem gesprochenen Befehl, erkannt durch die Sprachmaschine 54,
bereits ausgeführt
worden ist. Wenn beispielsweise die Sprachmaschine 54 einen
gesprochenen Satz, wie etwa „Himmellicht
einschalten" erkennt,
wenn das Himmellicht bereits eingeschaltet ist, kann sie dies als
Fehlerkennungsfehler erkennen und in die Trainingsbe triebsart eintreten.
Die Trainingsbetriebsarteingabe kann eine gesprochene Äußerung sein,
die aufeinanderfolgend wiederholt wird, wie etwa „Himmellicht
einschalten ... Himmellicht einschalten". Wiederholte Sätze können als Trainingsbetriebsarteingabe
für ausschließlich gewählte Sprachbefehle
angesehen werden, die nicht typischerweise in Aufeinanderfolge und/oder nur
dann ausgegeben werden, wenn die erwartete Zusatzgerätebetätigung bereits
durchgeführt
worden ist.
-
Wenn
keine Trainingsbetriebsartanfrage eingegeben wird, geben die Prozessoren 20, 50 bevorzugt
den Abgleichsprachbefehl an das relevante Zusatzgerät über das
I/O-Modul 24 aus, das das Zusatzgerät wie erforderlich aktiviert,
um die entsprechende Aufgabe durchzuführen, und zwar im Schritt 84.
Wenn eine Trainingsbetriebsartanfrage eingegeben wird, geben die
Prozessoren 20, 50 die N-best-Abgleichliste an
die Nutzerschnittstelle 26 im Schritt 86 aus.
Die N-best-Abgleichliste kann dem Sprecher akustisch über das
Fahrzeugaudiosystem 18, oder visuell auf der Anzeige 34 mitgeteilt
werden. In jedem Fall wird der Sprecher aufgefordert, einen der
gelisteten N-best-Abgleiche
als denjenigen zu wählen,
der dem beabsichtigten Sprachbefehl entspricht.
-
Es
ist möglich,
dass die Sprachmaschine 54 in der N-best-Abgleichliste den
Sprachbefehl nicht identifiziert, den der Sprecher ausgeführt haben möchte. In
diesem Fall kann der Nutzer im Schritt 86 visuell oder
akustisch aufgefordert werden, den Befehl erneut zu sprechen. Zusätzlich oder
alternativ kann der Sprecher aufgefordert werden, den Befehl aus
einer Liste sämtlicher
Sprachbefehle in dem aktiven oder einem beliebigen CCD-Satz zu wählen.
-
Im
Schritt 88 wählt
der Sprecher den beabsichtigten Sprachbefehl. Die Eingabe kann eine
Kontakteingabe über
eine der Steuertasten 40 oder eine Spracheingabe sein.
Bevorzugt enthält
die Spracheingabe das Sprechen eines Selektions- bzw. Wahlidentifizierers,
der jedem Befehl in der N-best-Abgleichliste zugeordnet ist. Beispielsweise kann
der Nutzer aufgefordert werden, „eins" oder „a" zu sprechen, um den beabsichtigten
Befehl des ersten gelisteten Abgleichsbefehls zu wählen, und „zwei" oder „b" für den zweiten
gelisteten Befehl usw.
-
Sobald
der Sprecher einen Befehl aus der N-best-Abgleichliste wählt, vermag
der Prozessor 20 bevorzugt zu ermitteln, ob der gewählte Befehl
die höchste
Abgleichwahrscheinlichkeitswichtung aufweist. Falls dies der Fall
ist, erkennt die Sprachmaschine 54 in korrekter Weise den
gesprochenen Befehl, und es findet keine Adaption statt. Anderweitig werden
im Schritt 90 die Adaptionsalgorithmen ausgeführt unter
Verwendung der Korrelation der Audiosignale, die im Schritt 76 empfangen
werden, mit dem gewählten
Befehl. Die Adaptionsalgorithmen modifizieren die Sprachmaschine 54,
um die gewählten
Befehlsaudiosignale mit den Sprachmustern und phonetischen Eigenschaften
zu erkennen, die im Schritt 76 empfangen werden. Dies kann
unter Verwendung von Adaptionsalgorithmen erfolgen, in denen Erkennungsparameter
der Sprachmaschinenmodelle modifiziert sind. Diese Parameter können akustische
Wellenformmodelle enthalten, die in dem VCS-Speicher 52 für jeden
bekannten Sprachbefehl gespeichert sind, und Adaptionsalgorithmen
können das
Modell, das für
den relevanten Befehl aktiv ist, durch die akustische Signatur der
im Schritt 76 empfangenen Sprachsignale ersetzen. Alternativ
enthalten die Erkennungsparameter einen phonetischen Klassifikationssatz
mit dem re levanten Befehl, der in Übereinstimmung mit den im Schritt 76 empfangenen Sprach-
bzw. Sprechsignalen modifiziert wird.
-
Schließlich geben
die Prozessoren 20, 50 im Schritt 84 den
gewählten
Befehl an das relevante Zusatzgerät aus und die Aufgabe ist durchgeführt.
-
Die
vorliegende Erfindung kann weitere, nicht speziell in den vorstehend
angeführten
bevorzugten Ausführungsformen
genannte Aspekte umfassen. Die vorstehende Erläuterung und Darstellung ist
in keinster Weise beschränkend
für den
Umfang der vorliegenden Erfindung, die in den anliegenden Ansprüchen festgelegt
ist.