-
Die Erfindung betrifft ein Verfahren zum Konfigurieren einer Bedieneinrichtung, mittels welcher eine sprachgesteuerte Aktivierung einer Funktionalität eines Geräts ermöglicht ist. Die Bedieneinrichtung berücksichtigt, mit welcher Auftrittswahrscheinlichkeit ein Benutzer unterschiedliche Aktivierungsphrasen zum Aktivieren des Geräts voraussichtlich nutzt. Durch das Konfigurieren werden diese Aktivierungswahrscheinlichkeiten ermittelt und hieraus ein Sprachmodell für die Bedieneinrichtung generiert.
-
Bei einem natürlich-sprachlichen Sprachdialogsystem auf Basis einer Spracherkennungseinrichtung oder kurz Erkennungseinrichtung, ist es ermöglicht, dass ein Benutzer die Sprachäußerung, mittels welcher er eine Funktionalität des Gerätes aktivieren möchte, frei wählt. Beispielsweise kann es sich bei dem Gerät um ein Radio oder ein Informations- und Unterhaltungssystem (Infotainmentsystem) eines Kraftfahrzeugs handeln. Möchte der Benutzer dann beispielsweise während einer Fahrt die Funktionalität „Radio“ aktivieren, das heißt zum Radiohören das Radio sprachgesteuert einschalten, so ist hierzu eine Vielzahl unterschiedlicher Sprachäußerungen denkbar, die alle von der Bedieneinrichtung verstanden werden, also eine Aktivierung der Funktionalität „Radio“ bewirken sollen. Beispielsweise kann der Benutzer folgende Sprachäußerungen aussprechen: „Schalte das Radio ein!“, „Ich möchte Radio hören.“ oder „Was gibt es für Musik im Radio?“. Damit eine Erkennungseinrichtung anhand der Sprachäußerung ermitteln kann, welche Funktionalität aktiviert werden soll, muss die Erkennungseinrichtung auf eine Vielzahl von möglichen oder zulässigen oder bereitgestellten Sprachäußerungen oder Sprachbefehlen vorbereitet sein.
-
Ein Problem bei der Bereitstellung einer Vielzahl von möglichen Sprachäußerungen ist der Berechnungsaufwand, der durch die Erkennungseinrichtung betrieben werden muss, um eine Übereinstimmungswahrscheinlichkeit des erfassten Sprachäußerungssignals mit allen zulässigen Aktivierungsphrasen zu ermitteln. Eine Möglichkeit, den Berechnungsaufwand beim Berechnen der Übereinstimmungswahrscheinlichkeit zu verringern, besteht in der Gewichtung der Aktivierungsphrasen mit einer jeweiligen Auftrittswahrscheinlichkeit, welche angibt, mit welcher Wahrscheinlichkeit Benutzer typischerweise diese Aktivierungsphrase verwenden. Um aber eine solche Auftrittswahrscheinlichkeit zu ermitteln, ist es notwendig, von vielen Versuchspersonen bis zu 50.000 oder 60.000 unterschiedliche Phrasen mittels Befragung zu sammeln. Erst dann kann das Sprachmodell dahingehend zuverlässig konfiguriert werden, dass es für einzelne Aktivierungsphasen jeweils deren Auftrittswahrscheinlichkeit ermitteln kann. Mittels der ermittelten Phrasen ist es auch möglich, falls diese durch die Versuchsperson ausgesprochen und deren Sprachsignal aufgenommen wurde, anhand solcher Audio-Trainingsdaten auch die eigentliche Erkennungseinrichtung für den Erkennungsprozess zu trainieren.
-
Das Problem der Befragung von Versuchspersonen vervielfacht sich für den Fall, dass die Bedieneinrichtung eine sprachbasierte Aktivierung der Funktionalität für eine Vielzahl von Sprachen (englisch: languages) zur Verfügung stellen soll. Hier muss für jede Sprache erneut auf der Grundlage einer Befragung von Versuchspersonen ermittelt werden, welche Aktivierungsphrasen typisch sind, damit auf Grundlage der ermittelten Phrasen das Sprachmodell für diese jeweilige Zielsprache konfiguriert werden kann.
-
Aus der
US 2007/0118352 A1 ist ein Sprach-Verständnissystem (languageunderstanding system) bekannt, das mit einer erweiterten Trainings-Datenbasis trainiert wird, die generiert wird, indem eine Ausgangsdatenbasis, die in einer ersten Sprache abgefasst ist, in eine zweite Sprache übersetzt wird und dann zurück aus der zweiten Sprache in die erste Sprache übersetzt wird, sodass Varianten der in der Datenbasis enthaltenen Sprachäußerungen in der ersten Sprache vorhanden sind.
-
Aus der
DE 100 22 586 A1 ist ein Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems beschrieben. Um ausreichend Audiomaterial oder Sprachaufnahmen zu generieren, werden Worte eines Zielwortschatzes aus Segmenten zusammengesetzt, die jeweils aus einem oder mehreren Phonemen bestehen, die konkateniert werden. Hierdurch können zusätzliche Sprachaufnahmen generiert werden, ohne dass Sprecher den entsprechenden Text aussprechen müssen.
-
Aus der
WO 2013/083132 A1 ist eine Übersetzungsmethode bekannt, bei welcher sowohl eine Person als auch eine Maschine jeweils eine Übersetzung anfertigen und die beiden Übersetzungsergebnisse kombiniert werden.
-
In der
DE 36 00 762 A1 ist eine Spracherkennungseinrichtung beschrieben, bei welcher eine Übereinstimmung zwischen einem gesprochenen Befehl und einem Befehl aus einer Gruppe möglicher Befehle ermittelt wird. Beim Vergleich wird eine Reihenfolge der Wahrscheinlichkeiten des Auftretens der Befehle berücksichtigt, um hierdurch den wahrscheinlichsten Befehl zuerst zu prüfen. Hierdurch wird eine Beschleunigung des Erkennungsverfahrens erreicht.
-
Aus der
US 2006/0136220 A1 ist ein Sprachbedienungssystem bekannt, das zu einem möglichen Sprachbefehl mittels eines Programmmoduls zum Übersetzen automatisiert übersetzte Varianten des Sprachbefehls erzeugt.
-
Aus der
DE 697 17 899 T2 geht hervor, dass für eine Wortkette eine Auftrittswahrscheinlichkeit ermittelt werden kann, indem ein N-gramm-Modell zugrunde gelegt wird, welches Wahrscheinlichkeiten für einzelne Worte angibt, die zu der Wortkette verknüpft sind.
-
Der Erfindung liegt die Aufgabe zugrunde, eine mehrsprachig bedienbare Bedieneinrichtung mit geringem Bereitstellungsaufwand zu realisieren.
-
Die Aufgabe wird durch das Verfahren gemäß dem unabhängigen Patentanspruch gelöst. Vorteilhafte Weiterbildungen der Erfindung sind durch die Merkmale der abhängigen Patentansprüche gegeben.
-
Durch die Erfindung ist ein Verfahren zum Konfigurieren einer Bedieneinrichtung zum Aktivieren einer vorbestimmten Funktionalität eines Geräts bereitgestellt. Die Bedieneinrichtung kann beispielsweise als Bestandteil eines Infotainmentsystems eines Kraftfahrzeugs ausgestaltet sein. Das durch die Bedieneinrichtung gesteuerte Gerät kann ein Modul des Infotainmentsystems, beispielsweise ein Radio oder ein Telefon oder eine Navigationseinrichtung, sein. Als Funktionalität kann beispielsweise das Auswählen eines Senders eines Radios oder das Auswählen eines Navigationsziels bei einer Navigationseinrichtung oder das Auswählen einer Telefonnummer in einem Telefon sein. Das Verfahren geht dabei von folgender Funktionsweise der Bedieneinrichtung aus. Die Bedieneinrichtung ist dazu ausgelegt, mittels einer Erfassungseinrichtung eine in einer Zielsprache gesprochene Sprachäußerung eines Benutzers zu empfangen. Die Erfassungseinrichtung kann hierzu beispielsweise ein Mikrofon M und einen Analog-Digital-Wandler aufweisen. Die Sprachäußerung liegt dann als digitales Audiosignal oder Waveform-Signal vor. Mittels einer Erkennungseinrichtung wird durch die Bedieneinrichtung anhand der Sprachäußerung ermittelt, ob durch den Benutzer eine gültige Aktivierungsphrase gesprochen worden ist. Die Menge der gültigen Aktivierungsphrasen ist bei der Bedieneinrichtung vorgegeben. Es handelt sich um eine Vielzahl solcher Aktivierungsphrasen, die zum Aktivieren der Funktionalität vorgesehen sind. Es handelt sich also um gültige Sprachäußerungen, durch welche das Aktivieren der Funktionalität ausgelöst oder getriggert wird. Beispielsweise kann eine Aktivierungsphrase lauten: „Schalte das Radio ein!“ oder „Ich möchte Radio hören.“. Mittels eines Sprachmodells ordnet hierbei die Bedieneinrichtung den Aktivierungsphrasen jeweils eine Auftrittswahrscheinlichkeit zu. Diese gibt an, wie typisch die Aktivierungsphrase ist. Durch die Erkennungseinrichtung wird dann eine Übereinstimmungswahrscheinlichkeit einer Übereinstimmung der Sprachäußerung mit zumindest einer der Aktivierungsphrasen ermittelt, wobei die jeweilige Auftrittswahrscheinlichkeit der Aktivierungsphrase berücksichtigt wird. Dies erfolgt durch eine multiplikative Verknüpfung, indem die Wahrscheinlichkeit, dass bei gegebenen Sprachäußerungssignal eine bestimmte Aktivierungsphrase gesprochen wurde, P(Aktivierungsphrase | Sprachäußerungssignal), berechnet wird durch die Multiplikation der Wahrscheinlichkeit, dass der Benutzer das Sprachäußerungssignal tatsächlich so generiert P(Sprachäußerungssignal | Aktivierungsphrase), falls er die Aktivierungsphrase aussprechen wollte, multipliziert mit der Auftrittswahrscheinlichkeit P(Aktivierungsphrase) der Aktivierungsphrase:
-
Die Erkennungseinrichtung ermittelt nun diejenige Aktivierungsphrase, für welche sich der größte Wert P(Aktivierungsphrase | Sprachäußerungssignal) ergibt. Hierzu kann die Erkennungseinrichtung beispielsweise den an sich bekannten Viterbi-Algorithmus zugrundelegen. Dabei kann die Wahrscheinlichkeit P(Sprachäußerungssignal | Aktivierungsphrase) auf der Grundlage eines Hidden-Markov-Modells (HMM) und dem erfassten Sprachäußerungssignal ermittelt werden.
-
Bei Detektieren einer Übereinstimmungswahrscheinlichkeit P(Aktivierungsphrase | Sprachäußerungssignal) größer als ein vorbestimmter Schwellenwert, wird dann ein Aktivierungssignal zum Aktivieren der Funktionalität durch die Bedieneinrichtung erzeugt.
-
Um hierbei ein Sprachmodell bereitzustellen, das den in der Zielsprache definierten Aktivierungsphrasen eine jeweilige Auftrittswahrscheinlichkeit P(Aktivierungsphrase) zuordnen kann, ohne dass hierzu eine Vielzahl von Versuchspersonen dazu befragt werden muss, welche Sprachäußerung sie zum Aktivieren der Funktion in der Zielsprache nutzen würden, sieht die Erfindung nun das folgende Verfahren vor. Bei dem Verfahren werden mehrere Phrasen ermittelt, die durch Testpersonen zum Aktivieren der Funktionalität in einer Ausgangssprache verwendet werden. Die Befragung erfolgt also in einer anderen Sprache, die hier als Ausgangssprache bezeichnet ist. Mit anderen Worten greift man auf solche Phrasen zurück, die bei einer Befragung von Testpersonen ermittelt wurden, die befragt dazu wurden, mit welcher Phrase sie die Funktion aktivieren würden, wenn sie in einer Ausgangssprache mit der Bedieneinrichtung kommunizieren würden. Die Ausgangssprache kann beispielsweise Englisch sein. Die Zielsprache, für welche das Sprachmodell ermittelt werden soll, ist beispielsweise Französisch. Es wird nun eine Übersetzung der ermittelten Phrasen in die Zielsprache bereitgestellt. Mit anderen Worten werden all diejenigen Phrasen, die von den Versuchspersonen als Antwort geäußert wurden, von der Ausgangssprache in die Zielsprache übersetzt. Dies kann mit weitaus geringerem Aufwand durchgeführt werden als eine erneute Befragung von Versuchspersonen in der Zielsprache. Insbesondere, wenn mehrere unterschiedliche Zielsprachen bei der Bedieneinrichtung bereitgestellt werden sollen und entsprechend viele Sprachmodelle generiert werden müssen, reicht es nun, nur eine Gruppe von Testpersonen in der Ausgangssprache nach den verwendeten Phrasen zu befragen. Diese Sammlung von Phrasen oder Datensammlung kann dann in mehrere unterschiedliche Zielsprachen übersetzt werden. Das Verfahren sieht also auch vor, mehrere Sprachmodelle für unterschiedliche Zielsprachen auf der Grundlage einer jeweiligen Übersetzung der Phrasen bereitzustellen. Für jede Zielsprache wird dann das Sprachmodell auf der Grundlage der übersetzten Phrasen konfiguriert.
-
Durch die Erfindung ergibt sich der Vorteil, dass nun auf der Grundlage einer einzelnen Datensammlung, nämlich den in einer Ausgangssprache verwendeten Phrasen zum Aktivieren der Funktionalität, eine Vielzahl von Sprachmodellen in unterschiedlichen Zielsprachen erzeugt werden kann, ohne dass hierzu eine erneute Befragung von Versuchspersonen in der jeweiligen Zielsprache nötig ist. Dies ergibt eine enorme Aufwandsersparnis.
-
Die Übersetzungen können beispielsweise auf der Grundlage einer maschinellen Übersetzungseinrichtung ermittelt werden. Es kann auch vorgesehen sein, die Übersetzung durch geschulte Übersetzer anzufertigen.
-
Um nun das Sprachmodell zu konfigurieren, sieht die Erfindung vor, durch eine Analyseeinrichtung eine Häufigkeitsanalyse oder Histogrammanalyse der übersetzten Phrasen durchzuführen. Hierdurch wird für einzelne Wortteile oder Wörter oder Wortkombinationen jeweils eine Häufigkeit ermittelt, mit welcher sie jeweils in der Menge der übersetzten Phrasen enthalten sind. Die Analyseeinrichtung kann beispielsweise durch ein Programmmodul einer Rechenrichtung gebildet sein.
-
Eine Weiterbildung der Erfindung sieht vor, dass das Sprachmodell einen jeweiligen Teilwahrscheinlichkeitswert für mehrere aus jeweils N Wörtern oder N Wortteilen gebildete N-Gramme aufweist. N ist hierbei eine natürliche Zahl. Ein jeweiliges N-Gramm wird durch Aneinanderreihen von N der Wörtern oder Wortteilen in einer vorgegebenen Reihenfolge gebildet. Die N-Gramme werden dann zu einer jeweiligen Aktivierungsphrase konkateniert. Die Auftrittswahrscheinlichkeit dieser Aktivierungsphrase wird dann aus den Teilwahrscheinlichkeiten der konkatenierten N-Gramme berechnet. Hierdurch wird das Sprachmodell sehr flexibel, was die Auswahl der Aktivierungsphrasen angeht, da im Nachhinein neue Aktivierungsphrasen hinzugefügt werden können und durch das Sprachmodell dennoch eine Auftrittswahrscheinlichkeit anhand der N-Gramme ermittelt werden kann.
-
Eine besonders bevorzugte Ausführungsform der Erfindung ist gegeben, indem beim Übersetzen der ermittelten Phrasen eine sprachspezifische Zuordnungsvorschrift zugrundegelegt wird. Es wird also keine wortweise, direkte Übersetzung vorgenommen, sondern es werden grammatikalische und/oder stilistische und/oder semantische Zusammenhänge zwischen der Ausgangssprache und der Zielsprache durch die Zuordnungsvorschrift festgelegt. Ein Beispiel ist, dass in der deutschen Sprache ein Mobiltelefon als „Handy“ bezeichnet wird, während in der englischen Sprache ein Mobiltelefon als „mobile phone“ bezeichnet ist. Das Wort „Handy“ bedeutet im Englischen dagegen „bequem“. Die kann durch die Zuordnungsvorschrift berücksichtigt werden. Ein weiterer wichtiger Aspekt, der durch die Zuordnungsvorschrift berücksichtigt werden kann, sind interkulturelle Faktoren zwischen Sprechern der Ausgangssprache und der Zielsprache. Beispielsweise wird in einigen Sprachräumen der Begriff „Toilette“ nicht verwendet, sondern durch andere Vokabeln umschrieben, beispielsweise „restroom“.
-
Um das Sprachmodell an die Erkennungsaufgabe in der Bedieneinrichtung anzupassen, sieht eine vorteilhafte Weiterbildung vor, dass beim Übersetzen der ermittelten Phrasen ein Zielvokabular der Zielsprache zugrundegelegt wird, welches auf den Bedienkontext betreffend die zu aktivierende Funktionalität und/oder das Gerät beschränkt ist. Beispielsweise kann das Zielvokabular auf die Bedienung eines Infotainmentsystems im Kraftfahrzeug beschränkt werden. Hierdurch können bei mehrdeutigen Vokabeln in der Ausgangssprache die korrekten Wörter in der Zielsprache ausgewählt werden.
-
Um die Natürlichsprachlichkeit bei der Sprachbedienung noch weiter zu vergrößern, ist vorgesehen, dass zumindest eine der Aktivierungsphrasen sowohl zumindest ein Funktionswort, welches die zu identifizierende Funktionalität betrifft, als auch zumindest ein Füllwort, welches von der Funktionalität unabhängig gehäußert wurde, vorgesehen wird. Ein Füllwort kann beispielsweise sein „bitte“ oder „hmm“. Ein Funktionswort kann beispielsweise das zu aktivieren Gerät identifizieren, beispielsweise „Radio“, oder die zu Funktion identifiziert, z.B. „einschalten“.
-
Im Folgenden ist ein Ausführungsbeispiel der Erfindung beschrieben. Hierzu zeigt die einzige Figur ein Flussschaudiagramm zur Veranschaulichung eines Ablaufs einer Ausführungsform des erfindungsgemäßen Verfahrens.
-
Bei dem im Folgenden erläuterten Ausführungsbeispiel handelt es sich um eine bevorzugte Ausführungsform der Erfindung. Bei dem Ausführungsbeispiel stellen die beschriebenen Komponenten der Ausführungsform jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden und damit auch einzeln oder in einer anderen als der gezeigten Kombination als Bestandteil der Erfindung anzusehen sind. Des Weiteren ist die beschriebene Ausführungsform auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.
-
In einem Schritt S1 wird festgelegt, welche Funktionalität F oder Funktionalitäten bei einem Gerät 1 durch eine sprachbasierte Bedieneinrichtung 2 in einer Zielsprache L1 oder mehreren Zielsprachen L1, L2 aktiviert werden können soll. Beispielsweise können das Gerät 1 und die Bedieneinrichtung 2 in einem Kraftfahrzeug 3 angeordnet sein. Die Bedieneinrichtung 2, insbesondere deren Erkennungseinrichtung, kann auch außerhalb des Kraftfahrzeugs, beispielsweise durch einen Server im Internet, bereitgestellt sein und mit der Erfassungseinrichtung 4 und/oder dem Gerät 1 über eine Funkverbindung kommunizieren.
-
Eine Erfassungseinrichtung 4 kann eine Sprachäußerung 5 eines Benutzers 6 erfassen und als Sprachäußerungssignal 7 an die Bedieneinrichtung 2 übergeben. Die Erfassungseinrichtung 4 kann zum Erfassen der Sprachäußerung 5 beispielsweise ein Mikrofon aufweisen. Damit die Funktionalität F durch die Bedieneinrichtung 2 in Abhängigkeit von der Sprachäußerung 5 aktiviert wird, muss der Benutzer 6 keine besondere Regel beim Aussprechen der Sprachäußerung 5 befolgen. Er kann sich natürlich ausdrücken, das heißt natürlichsprachlich. Die Bedieneinrichtung 2 weist für jede der Zielsprachen L1, L2 ein Sprachmodell SLM (statistical language model) auf, mittels welchem zu allen gültigen Aktivierungsphrasen, auf welche die Bedieneinrichtung 2 mit der Aktivierung der Funktionalität F durch Erzeugen eines Aktivierungssignals 9 reagiert, eine Auftrittswahrscheinlichkeit angegeben werden kann. Dies macht es möglich, sehr viele unterschiedliche Aktivierungsphrasen durch die Bedieneinrichtung 2 bereitzustellen, ohne dass hierdurch der Berechnungsaufwand beim Berechnen einer Übereinstimmungswahrscheinlichkeit zwischen der Sprachäußerung 5 und allen zulässigen Aktivierungsphrasen 8 entsteht.
-
Das Sprachmodell SLM wird dabei wie folgt konfiguriert. Die im Schritt S1 ausgewählten oder festgelegten Funktionalitäten F oder die einzelne Funktionalität F wird einer Gruppe von Versuchspersonen 10 mitgeteilt. Die Versuchspersonen 10 legen dann Sprachäußerungen in einer Ausgangssprache L0 fest. Diese Phrasen 11 sind Sprachausdrücke oder Wortfolgen, welche die Versuchspersonen 10 wählen würden, um im Bedienkontext der Bedieneinrichtung 2 die jeweilige Funktionalität F zu aktivieren. Die in dem Schritt S2 ermittelten Phrasen 11 werden in einem Schritt S3 durch eine Übersetzung TRANS in die gewünschten Zielsprachen L1, L2 übersetzt. die übersetzten Phrasen 12 werden in einem Schritt S4 von einer Analyseeinrichtung entgegengenommen. In einem Schritt S5 wird durch die Analyseeinrichtung mittels der übersetzten Phrasen 12 das jeweilige Sprachmodel SLM trainiert oder konfiguriert. Hierbei können die übersetzten Phrasen 12 auch in N-Gramme aufgeteilt werden. Mittels der konfigurierten Sprachmodelle SLM kann dann jeweils in einem Schritt S6 eine Konfiguration CONF der Bedieneinrichtung 2 erfolgen.
-
Somit kann mittels des gezeigten Verfahrens eine zeitaufwendige Datensammlung für alle Zielsprachen L1, L2 umgangen werden, indem die Datensammlung nur in der Ausgangssprache L0 erfolgt. Die Datensammlung wird dann auf Textbasis beispielsweise von geschulten Übersetzern oder mittels einer maschinellen Übersetzung übersetzt.
-
Die Ausgangsdaten für die Übersetzung sind beispielsweise Deutsch oder Englisch. Für diese Hauptsprachen werden die Trainingsdaten für die Sprachmodelle durch eine reguläre Befragung angesammelt. Bei der Übersetzungsart handelt es sich bevorzugt um eine spezielle Art von Übersetzung, die die sprachlich-grammatikalischen, stilistischen, semantischen (das heißt sinngemäß, aber nicht unbedingt eins zu eins übersetzt) sowie interkulturellen Faktoren berücksichtigt. Diese Übersetzung sollte seitens solcher Fachkräfte mit einem starken linguistischen Background sowie der Kenntnisse über die zu bedienenden Funktionalitäten und den Bedienkontext durchgeführt werden. Auch eine spezielle Konfiguration von maschinellen Übersetzungseinrichtungen mittels der beschriebenen Zuordnungsvorschrift und/oder des Zielvokabulars ist möglich.
-
Insgesamt zeigt das Beispiel, wie durch die Erfindung ein Verfahren zur Erzeugung von Natürlichsprachlichkeit bei einer Spracherkennungseinrichtung bereitgestellt wird.