-
Die Erfindung betrifft ein Verfahren zur Spracherkennung in einem Kraftfahrzeug mittels Garbage-Grammatiken gemäß dem Oberbegriff des Anspruchs 1 sowie eine entsprechende Vorrichtung gemäß dem Oberbegriff des Anspruchs 5.
-
Spracherkennung beschreibt die Erkennung und Verarbeitung gesprochener Sprache durch Computer. Dieser Prozess läuft in zwei Schritten ab. Zuerst wird in einer akustischen Ebene der aufgenommene Sprachschall mit Hilfe eines Akustikmodells analysiert. Hierbei ist es nicht möglich einem gegebenen Schallmuster ein bestimmtes Wort zuzuordnen, sondern es werden pro Schallmuster mehrere Wortwahrscheinlichkeiten ermittelt. Die Analyse dieser Wortwahrscheinlichkeiten erfolgt in einem zweiten Schritt, der als Sprachmodell bezeichnet wird. Die Analyse auf der Ebene des Sprachmodells kann einerseits mittels Grammatiken auf der Basis von einfachen Wortfolgen oder andererseits mittels probabilistischer Sprachmodelle, wie beispielsweise N-Gram-Modellen, die statistische Beschreibungen der Sprache darstellen, erfolgen.
-
Für die Spracherkennung in einem Kraftfahrzeug, wie sie beispielsweise zur Bedienung von Fahrerassistenzeinrichtungen eingesetzt wird, werden weitgehend Grammatiken verwendet, da diese sich sehr gut dazu eignen Einzelwörter oder kurze Wortfolgen zu beschreiben, wie sie zur Bedienung und Steuerung von Fahrerassistenzsystemen zum Einsatz kommen. Dabei stellt eine Grammatik ein Regelwerk dar, nach dem Elemente einer Sprache miteinander zu einem Zusammenhang kombiniert werden, wobei das Regelwerk jedem Wort seine Funktion innerhalb der Grammatik zuweist. Das Regelwerk, d.h. die Grammatik, besteht aus einzelnen Grammatikregeln, wobei eine Grammatikregel eine oder mehrere mögliche Spracheingaben beschreibt, mit anderen Worten eine zulässige Wortkombination darstellt.
-
Nun kann die gesprochene Anweisung aus dem zur Steuerung notwendigen Schlüsselwort bzw. der notwendigen Schüsselwortkombination und beispielsweise einem oder mehreren Füllwörtern bestehen, wobei die Füllwörter für die Steuerung keine Bedeutung haben. Da die Grammatik nur Regeln bezüglich der zur Steuerung notwendigen Schlüsselwörter bzw. Schlüsselwortkombinationen aufweist, kann der Spracherkenner bei einer gesprochenen Anweisung bestehend aus Schlüsselwörtern und Füllwörtern keine Erkennung durchführen, sondern liefert als Ergebnis folglich die Feststellung eines Nichterkennens der Spracheingabe. Um dies zu vermeiden werden die Grammatikregeln um Füllwortelemente erweitert, die üblicherweise als Garbage-Elemente bezeichnet werden. So enthält eine Garbage-Grammatik zusätzlich zu den zulässigen Wörtern oder Wortkombinationen Garbage-Elemente, denen keine festgelegte Lautfolge zugewiesen ist, da die Garbage-Elemente für jegliche Wortfolgen stehen. Auf diese Weise können Spracheingaben besser erkannt werden, welche Füllwörter enthalten, die nicht in einer Grammatikregel spezifiziert sind.
-
Trotz der Verwendung von Garbage-Elementen kann es zu Fehl-Erkennungen kommen, indem beispielsweise ein Schlüsselwort einer Schlüsselwortkombination fälschlicherweise als Garbage-Element interpretiert wird. Um diesen Effekt zu verringern wird eine als Garbage-Parameter bezeichnete Kostenfunktion eingeführt, welche die Garbage-Elemente mit zusätzlichen „Kosten“ belegt. Dieser Garbage-Parameter hat üblicherweise einen Wert zwischen 0 und 100, wobei der Wert 100 für keine Kosten für das Garbage-Element steht, während der Wert 0 hohe Kosten für das Garbage-Element beinhaltet. Mit anderen Worten, wird der Garbage-Parameter auf einen geringen Wert gesetzt, so gibt es weniger Verwechselungsfehler, dafür ist der Spracherkenner weniger tolerant gegenüber Füllwörtern und wird öfter eine Spracheingabe nicht erkennen können.
-
Aus der Druckschrift
US 7,392,188 B2 ist ein Verfahren zum Abbrechen oder Unterdrücken einer Sprachmeldung eines Kommunikationssystems durch eine Spracheingabe bekannt. Dabei wird das akustische Signal bestehend aus der Spracheingabe und der akustischen Rückkopplung der Sprachmeldung in einem Spracherkenner untersucht, welcher eine Garbage-Grammatik für die Sprachmeldung des Kommunikationssystems und ein akustisches Wortmodell für die Spracheingabe einsetzt.
-
Die Druckschrift
EP 1 475 777 A2 offenbart eine Spracherkennungsvorrichtung unter Verwendung eines statistischen Modells, welches auch unter dem Namen „Hidden Markov Modell“ bekannt ist. Dabei werden in einem Speicher Sprachmodelle für die Schlüsselwörter und Sprachmodelle für mögliche Füllwörter, also Garbage, gespeichert. Die gespeicherten Sprachmodelle werden basierend auf früheren erkannten Schlüssel- und Füllwörtern sprecherindividuell aktualisiert.
-
Die Druckschrift
DE 103 05 369 A1 beschreibt ein Verfahren zur Spracherkennung, wobei eines von mehreren Hintergrundgeräuschprofilen ausgewählt und die Spracherkennung unter Berücksichtigung dieses Hintergrundgeräuschprofils vorgenommen wird. Dabei entsprechen die Hintergrundgeräuschprofile jeweils unterschiedlichen Geräuschprofilen, wobei die Auswahl eines Hintergrundgeräuschprofils entweder automatisch oder von Benutzer vorgenommen werden kann.
-
Die Druckschrift
DE 603 05 568 T2 betrifft eine Spracherkennungsvorrichtung zum Erkennen wenigstens eines der Schlüsselworte, enthalten in einer ausgesprochenen, spontanen Sprache aufweisend:
- - eine Extraktionsvorrichtung zum Extrahieren eines Merkmalswerts einer spontanen Sprache, der ein Merkmalswert eines Sprachsegments der spontanen Sprache ist, durch Analysieren der spontanen Sprache;
- - eine Datenbank, in der mindestens ein Datenteil eines Schlüsselwort-Merkmals einen Merkmalswert eines Sprachsegments des Schlüsselworts anzeigt und mindestens ein Merkmalsdatenteil einer belanglosen Sprache, der einen Merkmalswert eines Sprachsegments einer belanglosen Sprache anzeigt, vorab gespeichert ist,
- - eine Berechnungsvorrichtung zum Berechnen einer Wahrscheinlichkeit, die eine Wahrscheinlichkeit anzeigt, dass mindestens ein Teil der Merkmalswerte der extrahierten, spontanen Sprache an die Schlüsselwort-Merkmalsdaten und die Merkmalsdaten der belanglosen Sprache angepasst ist;
- - eine Bestimmungsvorrichtung zum Bestimmen mindestens eines der Schlüsselworte, um erkannt zu werden, und der belanglosen Sprache basierend auf der berechneten Wahrscheinlichkeit, wobei die Berechnungsvorrichtung die Wahrscheinlichkeit unter Verwendung eines vorbestimmten Korrekturwerts berechnet, wenn die Berechnungsvorrichtung die Wahrscheinlichkeit berechnet, die eine Wahrscheinlichkeit anzeigt, dass mindestens ein Teil der Merkmalswerte der extrahierten, spontanen Sprache an die Merkmalsdaten der belanglosen Sprache angepasst ist; und
- - eine Einstellvorrichtung zum Einstellen des Korrekturwerts basierend auf einem Rauschpegel, im Bereich dessen die spontane Sprache ausgesprochen ist, wobei die Berechnungsvorrichtung die Wahrscheinlichkeit unter Verwendung des eingestellten Korrekturwerts berechnet, wenn die Berechnungsvorrichtung die Wahrscheinlichkeit berechnet, die eine Wahrscheinlichkeit anzeigt, dass mindestens ein Teil der Merkmalswerte der extrahierten, spontanen Sprache an die Merkmalsdaten der belanglosen Sprache angepasst ist.
-
Die Druckschrift
US 2010 / 0 036 659 A1 betrifft ein Verfahren zur Signalverarbeitung, umfassend die Schritte der Bereitstellung eines Satzes von Prototypenspektralhüllkurven, der Bereitstellung eines Satzes von Referenzrauschprototypen, wobei die Referenzrauschprototypen aus mindestens einer Teilmenge des bereitgestellten Satzes von Prototyp-Spektralhüllen erhalten werden, wobei eine verbale Äußerung durch mindestens ein Mikrofon erkannt wird, um ein Mikrofonsignal zu erhalten, Verarbeitung des Mikrofonsignals zur Rauschunterdrückung basierend auf den bereitgestellten Referenzrauschprototypen, um ein verbessertes Signal zu erhalten, und Kodierung des erweiterten Signals basierend auf den bereitgestellten Prototyp-Spektralhüllen, um ein codiertes verbessertes Signal zu erhalten.
-
Bei dem Einsatz von Garbage-Grammatiken zur Spracherkennung von Schlüsselwörtern oder Schlüsselwortkombinationen in einem Kraftfahrzeug ist das Erkennungsergebnis von Umgebungsgeräuschen und Hintergrundgeräuschen stark abhängig.
-
Der Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung zur Spracherkennung mittels Garbage-Grammatiken unter Verwendung eines Garbage-Parameters in einem Kraftfahrzeug zu verbessern und den Einfluss von Hintergrundgeräuschen zu vermindern.
-
Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 sowie durch eine Vorrichtung mit den Merkmalen des Anspruchs 5 gelöst. Bevorzugte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
-
Bei dem erfindungsgemäßen Verfahren zur Spracherkennung in einem Kraftfahrzeug, wobei die Spracherkennung auf einer Garbage-Grammatik mit einer vorgegebenen Anzahl von Grammatikregeln basiert, eine Grammatikregel mindestens ein Schlüsselwort und ein Garbage-Element aufweist, und ein Garbage-Element der Garbage-Grammatik mit einem Garbage-Parameter beaufschlagt ist, wird der Garbage-Parameter als Funktion der Geschwindigkeit des Kraftfahrzeugs eingestellt.
-
Der optimale Wert des Garbage-Parameters, d.h. der Wert der zur niedrigsten Fehlerrate bei der Spracherkennung führt, ist abhängig von der Lautstärke der Umgebung. In einem Kraftfahrzeug ist die Umgebungslautstärke in erster Linie eine Funktion der Fahrzeuggeschwindigkeit. Durch die Verknüpfung der Fahrzeuggeschwindigkeit mit dem Garbage-Parameter wird für jede Fahrzeuggeschwindigkeit der für die Spracherkennung optimale Garbage-Parameter eingestellt und in der Spracherkennungsvorrichtung verwendet, so dass sich eine optimale Spracherkennungsrate ergibt.
-
Vorzugsweise weist der Garbage-Parameter einen Wertebereich zwischen 0 und 100 auf, wobei ein Garbage-Parameter von 100 für das Garbage-Element mit keinen Kosten verbunden ist, während ein Garbage-Parameter des Wertes 0 hohe Kosten für das Garbage-Element bedeutet. Ein anderer, den Umständen angepasster Wertebereich ist möglich, beispielsweise könnte die Kostenfunktion feiner oder gröber abgestuft sein oder könnte in Wahrscheinlichkeiten ausgedrückt werden.
-
Weiter bevorzugt kann die Geschwindigkeitsabhängigkeit des Garbage-Parameters in Form einer Kennlinie vorliegen, was zu einem schnellen Zugriff auf den einer Geschwindigkeit zugeordneten Garbage-Parameter führt.
-
Weiter bevorzugt kann die Funktion Garbage-Parameter - Kraftfahrzeuggeschwindigkeit parametrisch von den Umfeldbedingungen des Kraftfahrzeugs abhängen. Mit anderen Worten, beispielsweise bei einem heftigen Regen ist der funktionale Zusammenhang zwischen Fahrzeuggeschwindigkeit und Garbage-Parameter ein anderer wie bei einer trockenen Umgebung. Es kann daher sinnvoll sein, die Umfeldbedingungen des Kraftfahrzeugs zu klassifizieren, beispielsweise in „trockenes Umfeld“, „regnerisches Umfeld“ und „Starkregen“, so dass für jede Klasse der Umfeldbedingungen eine darauf abgestimmte Kennlinie oder Funktion verwendet wird. Die Unmfeldbedingungen können dabei mit einer geeigneten Umfeldsensorik bestimmt werden.
-
Die erfindungsgemäße Vorrichtung ausgelegt zur Durchführung des im Vorangegangenen beschriebenen Verfahrens umfasst eine Spracherkennungsvorrichtung basierend auf einer Garbage-Grammatik, eine Einrichtung zur Bestimmung der Geschwindigkeit des Kraftfahrzeugs, und eine Einrichtung zur Einstellung des Garbage-Parameters als Funktion der Fahrzeuggeschwindigkeit. Auf diese Weise kann der Garbage-Parameter an die Umgebungslautstärke angepasst werden, die in erster Linie von der Geschwindigkeit des Fahrzeugs abhängt.
-
Weiter bevorzugt weist die Vorrichtung eine Einrichtung zur Bestimmung und Klassifikation der Umfeldbedingungen des Kraftfahrzeugs auf, wobei die Einrichtung zur Bestimmung des Garbage-Parameters den Garbage-Parameter als Funktion der Geschwindigkeit des Fahrzeugs und der klassifizierten Umgebungsbedingungen bestimmt. Beispielsweise könnte die Umgebung in eine normale Geräuschkulisse, regnerische Geräuschkulisse und Starkregen klassifiziert werden.
-
Eine bevorzugte Ausführungsform der Erfindung wird nachfolgend anhand der Figuren erläutert. Dabei zeigt
- 1 die erfindungsgemäßen Spracherkennungsvorrichtung in schematischer Darstellung, und
- 2 Spracherkennungsraten als Funktion des Garbage-Parameters für verschiedene Fahrzeuggeschwindigkeiten.
-
Eine Spracherkennungs-Grammatik, wie sie in einer Spracherkennungsvorrichtung eines Kraftfahrzeugs zum Einsatz kommt, besteht aus einer Vielzahl einzelner Grammatikregeln, wobei eine Grammatikregel eine oder mehrere mögliche Spracheingaben, d.h. zulässige Wortkombinationen beschreibt.
-
Ein erstes Beispiel einer Grammatikregel für eine Spracherkennungsvorrichtung wäre:
-
Bei einer Spracherkennungsgrammatik, die nur aus Grammatikregel_1 besteht, kann die Spracherkennungsvorrichtung nur die Spracheingabe „Nummer wählen“ erkennen. Wenn der Nutzer etwas anderes sagen würde, würde die Spracherkennungsvorrichtung daher entweder fälschlicherweise „Nummer wählen“ erkennen oder eine Fehlermeldung, wie beispielsweise „Nichts wurde erkannt“, ausgeben.
-
Eine Grammatik kann zusätzlich zu den zu erkennenden Wörtern, den Schlüsselwörtern, auch sogenannte Garbage-Elemente enthalten, die im Folgenden in einer Grammatikregel mit $GARBAGE bezeichnet werden. Einem Garbage-Element ist im Gegensatz zu einem Schlüsselwort keine festgelegte Lautfolge zugewiesen, sondern es kann für jegliche Lautfolge stehen. Auf diese Weise können Spracheingaben besser erkannt werden, die Füllwörter enthalten, welche nicht in der Grammatikregel spezifiziert wurden.
-
Ein weiteres Beispiel einer Grammatikregel wäre:
-
Passende Eingaben dazu wären Ausdrücke wie beispielsweise „Nummer wählen“, „Ich möchte eine Nummer wählen“, „Bitte Nummer wählen“ oder ähnliche Ausdrücke. Der Nachteil hierbei ist, dass durch die Verwendung von Garbage-Elementen die Gefahr von Verwechslungsfehlern, d.h. das Erkennen einer falschen Regel, steigt.
-
Ein Beispiel hierfür wären die folgenden Regeln:
-
Bei einer Grammatik bestehend aus Grammatikregel_1 und Grammatikregel_2 könnte daher die Spracheingabe „Notrufnummer wählen“ fälschlicherweise als Grammatikregel 2 erkannt werden und der Bestandteil „Notruf“ des Schlüsselworts „Notrufnummer“ würde als Füllwort, d.h. als Garbage, betrachtet werden. Daher würde die Anweisung zur Wahl der Notrufnummer gemäß Grammatikregel_3 nicht befolgt werden.
-
Um diese Effekte zu beeinflussen und abzuschwächen, wird ein Garbage-Parameter P eingeführt, der Garbage-Elemente mit zusätzlichen „Kosten“ belegt. Der Garbage-Parameter P hat üblicherweise einem Wert zwischen 0 und 100, wobei der Wert 100 keine Kosten verursacht, während der Wert 0 für hohe Kosten steht. Wenn dem Garbage-Parameter P ein geringer Wert zugewiesen wird, treten weniger Verwechslungsfehler auf, dafür ist die Spracherkennungsvorrichtung jedoch auch weniger tolerant gegenüber Füllwörtern, da in diesem Fall der Garbage bzw. das Füllwort teurer bzw. unwahrscheinlicher ist.
-
1 zeigt nun in schematischer Darstellung eine Vorrichtung zur Spracherkennung in einem Kraftfahrzeug. Dargestellt ist eine grammatikbasierte Spracherkennungsvorrichtung 1, deren Garbage-Parameter P mittels einer Vorrichtung 2 zur Einstellung des Garbage-Parameters P eingestellt wird. Die Vorrichtung 2 zur Einstellung des Garbage-Parameters P beinhaltet mindestens eine Funktion, vorzugsweise in Form einer Kennlinie, welche die funktionale Zuordnung des Garbage-Parameters zur aktuellen Geschwindigkeit des Fahrzeugs herstellt. Die aktuelle Geschwindigkeit des Fahrzeugs wird der Vorrichtung 2 zur Einstellung des Garbage-Parameters P von einem Fahrgeschwindigkeitsdetektor 3 geliefert.
-
Nun ist die Geräuschkulisse eines Fahrzeugs, d.h. die Fahrgeräusche, in erster Linie bedingt durch die Geschwindigkeit des Fahrzeugs. Allerdings kann in einer zweiten Ausführungsform die Ursache der Geräuschkulisse differenzierter betrachtet werden, indem eine Geräuschklassifikation der Fahrzeugumgebung durch einen Umfelddetektor 4 vorgenommen wird. So verändert sich beispielsweise die Umgebungsgeräuschkulisse von trockener Umgebung zu einer Starkregenumgebung. Mittels des Umfelddetektors 4 kann eine Klassifikation der Umfeld des Fahrzeugs hinsichtlich der Hintergrundgeräusche vorgenommen werden, so dass in der Vorrichtung 2 zur Einstellung des Garbage-Parameters P entsprechend der bestimmten Umfeldklasse eine Auswahl einer entsprechenden Garbage-Parameter-Funktion erfolgt. Im Fall der Verwendung von Kennlinien für den funktionalen Zusammenhang von Garbage-Parameter und Fahrzeuggeschwindigkeit würde dann in der Vorrichtung 2 zur Einstellung des Garbage-Parameters P jeweils eine Kennlinie pro Umfeldklasse vorliegen. Mit anderen Worten, die Kennlinien hängen parametrisch von den Umfeldklassen ab.
-
2 zeigt ermittelte Spracherkennungsraten R in Prozent für die Garbage-Parameter mit den Werten 0, 10, 20, 40, 60, 80 und 100 für drei unterschiedliche Fahrzeuggeschwindigkeiten, nämlich 0 km/h, 50 km/h und 130 km/h. Zu erkennen ist im oberen Bild der 2, dass bei einem stehenden Fahrzeug ein Garbage-Parameter von 40 das beste Ergebnis liefert, nämlich eine Erkennungsrate R von 69%. Bei einer Geschwindigkeit von 50 km/h zeigt das mittlere Bild, das ein Garbage-Parameterbereich zwischen 10 und 40 eine Erkennungsrate R von 84 % bis 82% liefert, mit anderen Worten ein Plateau. Für hohe Geschwindigkeiten, wie hier das untere Bild der 2 für eine Geschwindigkeit von 130 km/h zeigt, liefert ein Garbage-Parameter von 10 das beste Erkennungsergebnis R von 80%. In erster Näherung muss daher für kleine Geschwindigkeiten ein relativ hoher Garbage-Parameter verwendet werden und für hohe Geschwindigkeiten ein kleiner Garbage-Parameter. Mit anderen Worten, je höher die Geschwindigkeit umso kleiner muss der Garbage-Parameter eingestellt werden.
-
Bezugszeichenliste
-
- 1
- Spracherkennungsvorrichtung
- 2
- Vorrichtung zur Einstellung des Garbage-Parameters P
- 3
- Detektion der Fahrzeuggeschwindigkeit
- 4
- Umfelddetektion
- P
- Garbage-Parameter
- R
- Spracherkennungsrate in Prozent