DE102015006662B4 - Verfahren zum Konfigurieren einer Sprachbedieneinrichtung - Google Patents

Verfahren zum Konfigurieren einer Sprachbedieneinrichtung Download PDF

Info

Publication number
DE102015006662B4
DE102015006662B4 DE102015006662.5A DE102015006662A DE102015006662B4 DE 102015006662 B4 DE102015006662 B4 DE 102015006662B4 DE 102015006662 A DE102015006662 A DE 102015006662A DE 102015006662 B4 DE102015006662 B4 DE 102015006662B4
Authority
DE
Germany
Prior art keywords
activation
activation phrase
phrases
language
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102015006662.5A
Other languages
English (en)
Other versions
DE102015006662A1 (de
Inventor
Doreen Engelhardt
Manya Sahakyan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Audi AG
Original Assignee
Audi AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Audi AG filed Critical Audi AG
Priority to DE102015006662.5A priority Critical patent/DE102015006662B4/de
Publication of DE102015006662A1 publication Critical patent/DE102015006662A1/de
Application granted granted Critical
Publication of DE102015006662B4 publication Critical patent/DE102015006662B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Verfahren zum Konfigurieren einer Bedieneinrichtung (2) zum Aktivieren einer vorbestimmten Funktionalität (F) eines Geräts (1), wobei die Bedieneinrichtung (2) dazu ausgelegt ist, mittels einer Erfassungseinrichtung (4) eine in einer Zielsprache (L1, L2) gesprochene Sprachäußerung (5) eines Benutzers (6) zu empfangen und mittels einer Erkennungseinrichtung (REC) anhand der Sprachäußerung (5) zu ermitteln, ob durch den Benutzer (6) eine aus einer Vielzahl von zum Aktivieren der Funktionalität (F) vorgesehenen Aktivierungsphrasen (8) gesprochen worden ist, und hierbei mittels eines Sprachmodells (SLM) den Aktivierungsphrasen (8) jeweils eine Auftrittswahrscheinlichkeit zuzuordnen und eine Übereinstimmungswahrscheinlichkeit P(Aktivierungsphrase | Sprachäußerungssignal) einer Übereinstimmung der Sprachäußerung (5) mit zumindest einer der Aktivierungsphrasen (8) zu ermitteln und hierbei die jeweilige Auftrittswahrscheinlichkeit P(Aktivierungsphrase) der Aktivierungsphrase (8) durch eine multiplikative Verknüpfung zu berücksichtigen, indem die Übereinstimmungswahrscheinlichkeit, dass bei gegebenem Sprachäußerungssignal der Sprachäußerung (5) eine bestimmte Aktivierungsphrase gesprochen wurde, P(Aktivierungsphrase | Sprachäußerungssignal), durch die Multiplikation der Wahrscheinlichkeit, dass der Benutzer das Sprachäußerungssignal tatsächlich so generiert P(Sprachäußerungssignal | Aktivierungsphrase), falls er die Aktivierungsphrase aussprechen wollte, multipliziert mit der Auftrittswahrscheinlichkeit P(Aktivierungsphrase) der Aktivierungsphrase berechnet wird: P ( Aktivierungsphrase | Sprachäußerungssignal ) = P ( Sprachäußerungssignal | Aktivierungsphrase ) P ( Aktivierungsphrase ) ,
Figure DE102015006662B4_0001
und bei Detektieren einer Übereinstimmungswahrscheinlichkeit P(Aktivierungsphrase | Sprachäußerungssignal) größer als ein vorbestimmter Schwellenwert ein Aktivierungssignal (9) zum Aktivieren der Funktionalität (F) zu erzeugen, wobei bei dem Verfahren mehrere zum Aktivieren der Funktionalität (F) durch Testpersonen (10) in einer Ausgangssprache (L0) verwendete Phrasen (11) ermittelt werden und eine Übersetzung (TRANS) der ermittelten Phrasen (11) in die Zielsprache (L1, L2) bereitgestellt wird und das Sprachmodell (SLM) auf der Grundlage der übersetzten Phrasen (12) konfiguriert wird, wobei zum Konfigurieren des Sprachmodells (SLM) eine Analyseeinrichtung eine Histogrammanalyse der übersetzten Phrasen (12) durchführt.

Description

  • Die Erfindung betrifft ein Verfahren zum Konfigurieren einer Bedieneinrichtung, mittels welcher eine sprachgesteuerte Aktivierung einer Funktionalität eines Geräts ermöglicht ist. Die Bedieneinrichtung berücksichtigt, mit welcher Auftrittswahrscheinlichkeit ein Benutzer unterschiedliche Aktivierungsphrasen zum Aktivieren des Geräts voraussichtlich nutzt. Durch das Konfigurieren werden diese Aktivierungswahrscheinlichkeiten ermittelt und hieraus ein Sprachmodell für die Bedieneinrichtung generiert.
  • Bei einem natürlich-sprachlichen Sprachdialogsystem auf Basis einer Spracherkennungseinrichtung oder kurz Erkennungseinrichtung, ist es ermöglicht, dass ein Benutzer die Sprachäußerung, mittels welcher er eine Funktionalität des Gerätes aktivieren möchte, frei wählt. Beispielsweise kann es sich bei dem Gerät um ein Radio oder ein Informations- und Unterhaltungssystem (Infotainmentsystem) eines Kraftfahrzeugs handeln. Möchte der Benutzer dann beispielsweise während einer Fahrt die Funktionalität „Radio“ aktivieren, das heißt zum Radiohören das Radio sprachgesteuert einschalten, so ist hierzu eine Vielzahl unterschiedlicher Sprachäußerungen denkbar, die alle von der Bedieneinrichtung verstanden werden, also eine Aktivierung der Funktionalität „Radio“ bewirken sollen. Beispielsweise kann der Benutzer folgende Sprachäußerungen aussprechen: „Schalte das Radio ein!“, „Ich möchte Radio hören.“ oder „Was gibt es für Musik im Radio?“. Damit eine Erkennungseinrichtung anhand der Sprachäußerung ermitteln kann, welche Funktionalität aktiviert werden soll, muss die Erkennungseinrichtung auf eine Vielzahl von möglichen oder zulässigen oder bereitgestellten Sprachäußerungen oder Sprachbefehlen vorbereitet sein.
  • Ein Problem bei der Bereitstellung einer Vielzahl von möglichen Sprachäußerungen ist der Berechnungsaufwand, der durch die Erkennungseinrichtung betrieben werden muss, um eine Übereinstimmungswahrscheinlichkeit des erfassten Sprachäußerungssignals mit allen zulässigen Aktivierungsphrasen zu ermitteln. Eine Möglichkeit, den Berechnungsaufwand beim Berechnen der Übereinstimmungswahrscheinlichkeit zu verringern, besteht in der Gewichtung der Aktivierungsphrasen mit einer jeweiligen Auftrittswahrscheinlichkeit, welche angibt, mit welcher Wahrscheinlichkeit Benutzer typischerweise diese Aktivierungsphrase verwenden. Um aber eine solche Auftrittswahrscheinlichkeit zu ermitteln, ist es notwendig, von vielen Versuchspersonen bis zu 50.000 oder 60.000 unterschiedliche Phrasen mittels Befragung zu sammeln. Erst dann kann das Sprachmodell dahingehend zuverlässig konfiguriert werden, dass es für einzelne Aktivierungsphasen jeweils deren Auftrittswahrscheinlichkeit ermitteln kann. Mittels der ermittelten Phrasen ist es auch möglich, falls diese durch die Versuchsperson ausgesprochen und deren Sprachsignal aufgenommen wurde, anhand solcher Audio-Trainingsdaten auch die eigentliche Erkennungseinrichtung für den Erkennungsprozess zu trainieren.
  • Das Problem der Befragung von Versuchspersonen vervielfacht sich für den Fall, dass die Bedieneinrichtung eine sprachbasierte Aktivierung der Funktionalität für eine Vielzahl von Sprachen (englisch: languages) zur Verfügung stellen soll. Hier muss für jede Sprache erneut auf der Grundlage einer Befragung von Versuchspersonen ermittelt werden, welche Aktivierungsphrasen typisch sind, damit auf Grundlage der ermittelten Phrasen das Sprachmodell für diese jeweilige Zielsprache konfiguriert werden kann.
  • Aus der US 2007/0118352 A1 ist ein Sprach-Verständnissystem (languageunderstanding system) bekannt, das mit einer erweiterten Trainings-Datenbasis trainiert wird, die generiert wird, indem eine Ausgangsdatenbasis, die in einer ersten Sprache abgefasst ist, in eine zweite Sprache übersetzt wird und dann zurück aus der zweiten Sprache in die erste Sprache übersetzt wird, sodass Varianten der in der Datenbasis enthaltenen Sprachäußerungen in der ersten Sprache vorhanden sind.
  • Aus der DE 100 22 586 A1 ist ein Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems beschrieben. Um ausreichend Audiomaterial oder Sprachaufnahmen zu generieren, werden Worte eines Zielwortschatzes aus Segmenten zusammengesetzt, die jeweils aus einem oder mehreren Phonemen bestehen, die konkateniert werden. Hierdurch können zusätzliche Sprachaufnahmen generiert werden, ohne dass Sprecher den entsprechenden Text aussprechen müssen.
  • Aus der WO 2013/083132 A1 ist eine Übersetzungsmethode bekannt, bei welcher sowohl eine Person als auch eine Maschine jeweils eine Übersetzung anfertigen und die beiden Übersetzungsergebnisse kombiniert werden.
  • In der DE 36 00 762 A1 ist eine Spracherkennungseinrichtung beschrieben, bei welcher eine Übereinstimmung zwischen einem gesprochenen Befehl und einem Befehl aus einer Gruppe möglicher Befehle ermittelt wird. Beim Vergleich wird eine Reihenfolge der Wahrscheinlichkeiten des Auftretens der Befehle berücksichtigt, um hierdurch den wahrscheinlichsten Befehl zuerst zu prüfen. Hierdurch wird eine Beschleunigung des Erkennungsverfahrens erreicht.
  • Aus der US 2006/0136220 A1 ist ein Sprachbedienungssystem bekannt, das zu einem möglichen Sprachbefehl mittels eines Programmmoduls zum Übersetzen automatisiert übersetzte Varianten des Sprachbefehls erzeugt.
  • Aus der DE 697 17 899 T2 geht hervor, dass für eine Wortkette eine Auftrittswahrscheinlichkeit ermittelt werden kann, indem ein N-gramm-Modell zugrunde gelegt wird, welches Wahrscheinlichkeiten für einzelne Worte angibt, die zu der Wortkette verknüpft sind.
  • Der Erfindung liegt die Aufgabe zugrunde, eine mehrsprachig bedienbare Bedieneinrichtung mit geringem Bereitstellungsaufwand zu realisieren.
  • Die Aufgabe wird durch das Verfahren gemäß dem unabhängigen Patentanspruch gelöst. Vorteilhafte Weiterbildungen der Erfindung sind durch die Merkmale der abhängigen Patentansprüche gegeben.
  • Durch die Erfindung ist ein Verfahren zum Konfigurieren einer Bedieneinrichtung zum Aktivieren einer vorbestimmten Funktionalität eines Geräts bereitgestellt. Die Bedieneinrichtung kann beispielsweise als Bestandteil eines Infotainmentsystems eines Kraftfahrzeugs ausgestaltet sein. Das durch die Bedieneinrichtung gesteuerte Gerät kann ein Modul des Infotainmentsystems, beispielsweise ein Radio oder ein Telefon oder eine Navigationseinrichtung, sein. Als Funktionalität kann beispielsweise das Auswählen eines Senders eines Radios oder das Auswählen eines Navigationsziels bei einer Navigationseinrichtung oder das Auswählen einer Telefonnummer in einem Telefon sein. Das Verfahren geht dabei von folgender Funktionsweise der Bedieneinrichtung aus. Die Bedieneinrichtung ist dazu ausgelegt, mittels einer Erfassungseinrichtung eine in einer Zielsprache gesprochene Sprachäußerung eines Benutzers zu empfangen. Die Erfassungseinrichtung kann hierzu beispielsweise ein Mikrofon M und einen Analog-Digital-Wandler aufweisen. Die Sprachäußerung liegt dann als digitales Audiosignal oder Waveform-Signal vor. Mittels einer Erkennungseinrichtung wird durch die Bedieneinrichtung anhand der Sprachäußerung ermittelt, ob durch den Benutzer eine gültige Aktivierungsphrase gesprochen worden ist. Die Menge der gültigen Aktivierungsphrasen ist bei der Bedieneinrichtung vorgegeben. Es handelt sich um eine Vielzahl solcher Aktivierungsphrasen, die zum Aktivieren der Funktionalität vorgesehen sind. Es handelt sich also um gültige Sprachäußerungen, durch welche das Aktivieren der Funktionalität ausgelöst oder getriggert wird. Beispielsweise kann eine Aktivierungsphrase lauten: „Schalte das Radio ein!“ oder „Ich möchte Radio hören.“. Mittels eines Sprachmodells ordnet hierbei die Bedieneinrichtung den Aktivierungsphrasen jeweils eine Auftrittswahrscheinlichkeit zu. Diese gibt an, wie typisch die Aktivierungsphrase ist. Durch die Erkennungseinrichtung wird dann eine Übereinstimmungswahrscheinlichkeit einer Übereinstimmung der Sprachäußerung mit zumindest einer der Aktivierungsphrasen ermittelt, wobei die jeweilige Auftrittswahrscheinlichkeit der Aktivierungsphrase berücksichtigt wird. Dies erfolgt durch eine multiplikative Verknüpfung, indem die Wahrscheinlichkeit, dass bei gegebenen Sprachäußerungssignal eine bestimmte Aktivierungsphrase gesprochen wurde, P(Aktivierungsphrase | Sprachäußerungssignal), berechnet wird durch die Multiplikation der Wahrscheinlichkeit, dass der Benutzer das Sprachäußerungssignal tatsächlich so generiert P(Sprachäußerungssignal | Aktivierungsphrase), falls er die Aktivierungsphrase aussprechen wollte, multipliziert mit der Auftrittswahrscheinlichkeit P(Aktivierungsphrase) der Aktivierungsphrase: P ( Aktivierungsphrase | Sprachäußerungssignal ) = P ( Sprachäußerungssignal | Aktivierungsphrase ) P ( Aktivierungsphrase ) .
    Figure DE102015006662B4_0002
  • Die Erkennungseinrichtung ermittelt nun diejenige Aktivierungsphrase, für welche sich der größte Wert P(Aktivierungsphrase | Sprachäußerungssignal) ergibt. Hierzu kann die Erkennungseinrichtung beispielsweise den an sich bekannten Viterbi-Algorithmus zugrundelegen. Dabei kann die Wahrscheinlichkeit P(Sprachäußerungssignal | Aktivierungsphrase) auf der Grundlage eines Hidden-Markov-Modells (HMM) und dem erfassten Sprachäußerungssignal ermittelt werden.
  • Bei Detektieren einer Übereinstimmungswahrscheinlichkeit P(Aktivierungsphrase | Sprachäußerungssignal) größer als ein vorbestimmter Schwellenwert, wird dann ein Aktivierungssignal zum Aktivieren der Funktionalität durch die Bedieneinrichtung erzeugt.
  • Um hierbei ein Sprachmodell bereitzustellen, das den in der Zielsprache definierten Aktivierungsphrasen eine jeweilige Auftrittswahrscheinlichkeit P(Aktivierungsphrase) zuordnen kann, ohne dass hierzu eine Vielzahl von Versuchspersonen dazu befragt werden muss, welche Sprachäußerung sie zum Aktivieren der Funktion in der Zielsprache nutzen würden, sieht die Erfindung nun das folgende Verfahren vor. Bei dem Verfahren werden mehrere Phrasen ermittelt, die durch Testpersonen zum Aktivieren der Funktionalität in einer Ausgangssprache verwendet werden. Die Befragung erfolgt also in einer anderen Sprache, die hier als Ausgangssprache bezeichnet ist. Mit anderen Worten greift man auf solche Phrasen zurück, die bei einer Befragung von Testpersonen ermittelt wurden, die befragt dazu wurden, mit welcher Phrase sie die Funktion aktivieren würden, wenn sie in einer Ausgangssprache mit der Bedieneinrichtung kommunizieren würden. Die Ausgangssprache kann beispielsweise Englisch sein. Die Zielsprache, für welche das Sprachmodell ermittelt werden soll, ist beispielsweise Französisch. Es wird nun eine Übersetzung der ermittelten Phrasen in die Zielsprache bereitgestellt. Mit anderen Worten werden all diejenigen Phrasen, die von den Versuchspersonen als Antwort geäußert wurden, von der Ausgangssprache in die Zielsprache übersetzt. Dies kann mit weitaus geringerem Aufwand durchgeführt werden als eine erneute Befragung von Versuchspersonen in der Zielsprache. Insbesondere, wenn mehrere unterschiedliche Zielsprachen bei der Bedieneinrichtung bereitgestellt werden sollen und entsprechend viele Sprachmodelle generiert werden müssen, reicht es nun, nur eine Gruppe von Testpersonen in der Ausgangssprache nach den verwendeten Phrasen zu befragen. Diese Sammlung von Phrasen oder Datensammlung kann dann in mehrere unterschiedliche Zielsprachen übersetzt werden. Das Verfahren sieht also auch vor, mehrere Sprachmodelle für unterschiedliche Zielsprachen auf der Grundlage einer jeweiligen Übersetzung der Phrasen bereitzustellen. Für jede Zielsprache wird dann das Sprachmodell auf der Grundlage der übersetzten Phrasen konfiguriert.
  • Durch die Erfindung ergibt sich der Vorteil, dass nun auf der Grundlage einer einzelnen Datensammlung, nämlich den in einer Ausgangssprache verwendeten Phrasen zum Aktivieren der Funktionalität, eine Vielzahl von Sprachmodellen in unterschiedlichen Zielsprachen erzeugt werden kann, ohne dass hierzu eine erneute Befragung von Versuchspersonen in der jeweiligen Zielsprache nötig ist. Dies ergibt eine enorme Aufwandsersparnis.
  • Die Übersetzungen können beispielsweise auf der Grundlage einer maschinellen Übersetzungseinrichtung ermittelt werden. Es kann auch vorgesehen sein, die Übersetzung durch geschulte Übersetzer anzufertigen.
  • Um nun das Sprachmodell zu konfigurieren, sieht die Erfindung vor, durch eine Analyseeinrichtung eine Häufigkeitsanalyse oder Histogrammanalyse der übersetzten Phrasen durchzuführen. Hierdurch wird für einzelne Wortteile oder Wörter oder Wortkombinationen jeweils eine Häufigkeit ermittelt, mit welcher sie jeweils in der Menge der übersetzten Phrasen enthalten sind. Die Analyseeinrichtung kann beispielsweise durch ein Programmmodul einer Rechenrichtung gebildet sein.
  • Eine Weiterbildung der Erfindung sieht vor, dass das Sprachmodell einen jeweiligen Teilwahrscheinlichkeitswert für mehrere aus jeweils N Wörtern oder N Wortteilen gebildete N-Gramme aufweist. N ist hierbei eine natürliche Zahl. Ein jeweiliges N-Gramm wird durch Aneinanderreihen von N der Wörtern oder Wortteilen in einer vorgegebenen Reihenfolge gebildet. Die N-Gramme werden dann zu einer jeweiligen Aktivierungsphrase konkateniert. Die Auftrittswahrscheinlichkeit dieser Aktivierungsphrase wird dann aus den Teilwahrscheinlichkeiten der konkatenierten N-Gramme berechnet. Hierdurch wird das Sprachmodell sehr flexibel, was die Auswahl der Aktivierungsphrasen angeht, da im Nachhinein neue Aktivierungsphrasen hinzugefügt werden können und durch das Sprachmodell dennoch eine Auftrittswahrscheinlichkeit anhand der N-Gramme ermittelt werden kann.
  • Eine besonders bevorzugte Ausführungsform der Erfindung ist gegeben, indem beim Übersetzen der ermittelten Phrasen eine sprachspezifische Zuordnungsvorschrift zugrundegelegt wird. Es wird also keine wortweise, direkte Übersetzung vorgenommen, sondern es werden grammatikalische und/oder stilistische und/oder semantische Zusammenhänge zwischen der Ausgangssprache und der Zielsprache durch die Zuordnungsvorschrift festgelegt. Ein Beispiel ist, dass in der deutschen Sprache ein Mobiltelefon als „Handy“ bezeichnet wird, während in der englischen Sprache ein Mobiltelefon als „mobile phone“ bezeichnet ist. Das Wort „Handy“ bedeutet im Englischen dagegen „bequem“. Die kann durch die Zuordnungsvorschrift berücksichtigt werden. Ein weiterer wichtiger Aspekt, der durch die Zuordnungsvorschrift berücksichtigt werden kann, sind interkulturelle Faktoren zwischen Sprechern der Ausgangssprache und der Zielsprache. Beispielsweise wird in einigen Sprachräumen der Begriff „Toilette“ nicht verwendet, sondern durch andere Vokabeln umschrieben, beispielsweise „restroom“.
  • Um das Sprachmodell an die Erkennungsaufgabe in der Bedieneinrichtung anzupassen, sieht eine vorteilhafte Weiterbildung vor, dass beim Übersetzen der ermittelten Phrasen ein Zielvokabular der Zielsprache zugrundegelegt wird, welches auf den Bedienkontext betreffend die zu aktivierende Funktionalität und/oder das Gerät beschränkt ist. Beispielsweise kann das Zielvokabular auf die Bedienung eines Infotainmentsystems im Kraftfahrzeug beschränkt werden. Hierdurch können bei mehrdeutigen Vokabeln in der Ausgangssprache die korrekten Wörter in der Zielsprache ausgewählt werden.
  • Um die Natürlichsprachlichkeit bei der Sprachbedienung noch weiter zu vergrößern, ist vorgesehen, dass zumindest eine der Aktivierungsphrasen sowohl zumindest ein Funktionswort, welches die zu identifizierende Funktionalität betrifft, als auch zumindest ein Füllwort, welches von der Funktionalität unabhängig gehäußert wurde, vorgesehen wird. Ein Füllwort kann beispielsweise sein „bitte“ oder „hmm“. Ein Funktionswort kann beispielsweise das zu aktivieren Gerät identifizieren, beispielsweise „Radio“, oder die zu Funktion identifiziert, z.B. „einschalten“.
  • Im Folgenden ist ein Ausführungsbeispiel der Erfindung beschrieben. Hierzu zeigt die einzige Figur ein Flussschaudiagramm zur Veranschaulichung eines Ablaufs einer Ausführungsform des erfindungsgemäßen Verfahrens.
  • Bei dem im Folgenden erläuterten Ausführungsbeispiel handelt es sich um eine bevorzugte Ausführungsform der Erfindung. Bei dem Ausführungsbeispiel stellen die beschriebenen Komponenten der Ausführungsform jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden und damit auch einzeln oder in einer anderen als der gezeigten Kombination als Bestandteil der Erfindung anzusehen sind. Des Weiteren ist die beschriebene Ausführungsform auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.
  • In einem Schritt S1 wird festgelegt, welche Funktionalität F oder Funktionalitäten bei einem Gerät 1 durch eine sprachbasierte Bedieneinrichtung 2 in einer Zielsprache L1 oder mehreren Zielsprachen L1, L2 aktiviert werden können soll. Beispielsweise können das Gerät 1 und die Bedieneinrichtung 2 in einem Kraftfahrzeug 3 angeordnet sein. Die Bedieneinrichtung 2, insbesondere deren Erkennungseinrichtung, kann auch außerhalb des Kraftfahrzeugs, beispielsweise durch einen Server im Internet, bereitgestellt sein und mit der Erfassungseinrichtung 4 und/oder dem Gerät 1 über eine Funkverbindung kommunizieren.
  • Eine Erfassungseinrichtung 4 kann eine Sprachäußerung 5 eines Benutzers 6 erfassen und als Sprachäußerungssignal 7 an die Bedieneinrichtung 2 übergeben. Die Erfassungseinrichtung 4 kann zum Erfassen der Sprachäußerung 5 beispielsweise ein Mikrofon aufweisen. Damit die Funktionalität F durch die Bedieneinrichtung 2 in Abhängigkeit von der Sprachäußerung 5 aktiviert wird, muss der Benutzer 6 keine besondere Regel beim Aussprechen der Sprachäußerung 5 befolgen. Er kann sich natürlich ausdrücken, das heißt natürlichsprachlich. Die Bedieneinrichtung 2 weist für jede der Zielsprachen L1, L2 ein Sprachmodell SLM (statistical language model) auf, mittels welchem zu allen gültigen Aktivierungsphrasen, auf welche die Bedieneinrichtung 2 mit der Aktivierung der Funktionalität F durch Erzeugen eines Aktivierungssignals 9 reagiert, eine Auftrittswahrscheinlichkeit angegeben werden kann. Dies macht es möglich, sehr viele unterschiedliche Aktivierungsphrasen durch die Bedieneinrichtung 2 bereitzustellen, ohne dass hierdurch der Berechnungsaufwand beim Berechnen einer Übereinstimmungswahrscheinlichkeit zwischen der Sprachäußerung 5 und allen zulässigen Aktivierungsphrasen 8 entsteht.
  • Das Sprachmodell SLM wird dabei wie folgt konfiguriert. Die im Schritt S1 ausgewählten oder festgelegten Funktionalitäten F oder die einzelne Funktionalität F wird einer Gruppe von Versuchspersonen 10 mitgeteilt. Die Versuchspersonen 10 legen dann Sprachäußerungen in einer Ausgangssprache L0 fest. Diese Phrasen 11 sind Sprachausdrücke oder Wortfolgen, welche die Versuchspersonen 10 wählen würden, um im Bedienkontext der Bedieneinrichtung 2 die jeweilige Funktionalität F zu aktivieren. Die in dem Schritt S2 ermittelten Phrasen 11 werden in einem Schritt S3 durch eine Übersetzung TRANS in die gewünschten Zielsprachen L1, L2 übersetzt. die übersetzten Phrasen 12 werden in einem Schritt S4 von einer Analyseeinrichtung entgegengenommen. In einem Schritt S5 wird durch die Analyseeinrichtung mittels der übersetzten Phrasen 12 das jeweilige Sprachmodel SLM trainiert oder konfiguriert. Hierbei können die übersetzten Phrasen 12 auch in N-Gramme aufgeteilt werden. Mittels der konfigurierten Sprachmodelle SLM kann dann jeweils in einem Schritt S6 eine Konfiguration CONF der Bedieneinrichtung 2 erfolgen.
  • Somit kann mittels des gezeigten Verfahrens eine zeitaufwendige Datensammlung für alle Zielsprachen L1, L2 umgangen werden, indem die Datensammlung nur in der Ausgangssprache L0 erfolgt. Die Datensammlung wird dann auf Textbasis beispielsweise von geschulten Übersetzern oder mittels einer maschinellen Übersetzung übersetzt.
  • Die Ausgangsdaten für die Übersetzung sind beispielsweise Deutsch oder Englisch. Für diese Hauptsprachen werden die Trainingsdaten für die Sprachmodelle durch eine reguläre Befragung angesammelt. Bei der Übersetzungsart handelt es sich bevorzugt um eine spezielle Art von Übersetzung, die die sprachlich-grammatikalischen, stilistischen, semantischen (das heißt sinngemäß, aber nicht unbedingt eins zu eins übersetzt) sowie interkulturellen Faktoren berücksichtigt. Diese Übersetzung sollte seitens solcher Fachkräfte mit einem starken linguistischen Background sowie der Kenntnisse über die zu bedienenden Funktionalitäten und den Bedienkontext durchgeführt werden. Auch eine spezielle Konfiguration von maschinellen Übersetzungseinrichtungen mittels der beschriebenen Zuordnungsvorschrift und/oder des Zielvokabulars ist möglich.
  • Insgesamt zeigt das Beispiel, wie durch die Erfindung ein Verfahren zur Erzeugung von Natürlichsprachlichkeit bei einer Spracherkennungseinrichtung bereitgestellt wird.

Claims (5)

  1. Verfahren zum Konfigurieren einer Bedieneinrichtung (2) zum Aktivieren einer vorbestimmten Funktionalität (F) eines Geräts (1), wobei die Bedieneinrichtung (2) dazu ausgelegt ist, mittels einer Erfassungseinrichtung (4) eine in einer Zielsprache (L1, L2) gesprochene Sprachäußerung (5) eines Benutzers (6) zu empfangen und mittels einer Erkennungseinrichtung (REC) anhand der Sprachäußerung (5) zu ermitteln, ob durch den Benutzer (6) eine aus einer Vielzahl von zum Aktivieren der Funktionalität (F) vorgesehenen Aktivierungsphrasen (8) gesprochen worden ist, und hierbei mittels eines Sprachmodells (SLM) den Aktivierungsphrasen (8) jeweils eine Auftrittswahrscheinlichkeit zuzuordnen und eine Übereinstimmungswahrscheinlichkeit P(Aktivierungsphrase | Sprachäußerungssignal) einer Übereinstimmung der Sprachäußerung (5) mit zumindest einer der Aktivierungsphrasen (8) zu ermitteln und hierbei die jeweilige Auftrittswahrscheinlichkeit P(Aktivierungsphrase) der Aktivierungsphrase (8) durch eine multiplikative Verknüpfung zu berücksichtigen, indem die Übereinstimmungswahrscheinlichkeit, dass bei gegebenem Sprachäußerungssignal der Sprachäußerung (5) eine bestimmte Aktivierungsphrase gesprochen wurde, P(Aktivierungsphrase | Sprachäußerungssignal), durch die Multiplikation der Wahrscheinlichkeit, dass der Benutzer das Sprachäußerungssignal tatsächlich so generiert P(Sprachäußerungssignal | Aktivierungsphrase), falls er die Aktivierungsphrase aussprechen wollte, multipliziert mit der Auftrittswahrscheinlichkeit P(Aktivierungsphrase) der Aktivierungsphrase berechnet wird: P ( Aktivierungsphrase | Sprachäußerungssignal ) = P ( Sprachäußerungssignal | Aktivierungsphrase ) P ( Aktivierungsphrase ) ,
    Figure DE102015006662B4_0003
    und bei Detektieren einer Übereinstimmungswahrscheinlichkeit P(Aktivierungsphrase | Sprachäußerungssignal) größer als ein vorbestimmter Schwellenwert ein Aktivierungssignal (9) zum Aktivieren der Funktionalität (F) zu erzeugen, wobei bei dem Verfahren mehrere zum Aktivieren der Funktionalität (F) durch Testpersonen (10) in einer Ausgangssprache (L0) verwendete Phrasen (11) ermittelt werden und eine Übersetzung (TRANS) der ermittelten Phrasen (11) in die Zielsprache (L1, L2) bereitgestellt wird und das Sprachmodell (SLM) auf der Grundlage der übersetzten Phrasen (12) konfiguriert wird, wobei zum Konfigurieren des Sprachmodells (SLM) eine Analyseeinrichtung eine Histogrammanalyse der übersetzten Phrasen (12) durchführt.
  2. Verfahren nach Anspruch 1, wobei das Sprachmodell (SLM) einen jeweiligen Teilwahrscheinlichkeitswert für mehrere aus jeweils N Wörtern oder N Wortteilen gebildete N-Gramme aufweist und die N-Gramme zu der jeweiligen Aktivierungsphrase konkateniert werden und die Auftrittswahrscheinlichkeit P(Aktivierungsphrase) aus den Teilwahrscheinlichkeiten der konkatenierten N-Gramme berechnet wird.
  3. Verfahren nach einem der vorhergehenden Ansprüche, wobei beim Übersetzen der ermittelten Phrasen (10) eine sprachspezifische Zuordnungsvorschrift zugrunde gelegt wird, durch welche grammatikalische und/oder stilistische und/oder semantische Zusammenhänge zwischen der Ausgangssprache (L0) und der Zielsprache (L1, L2) und/oder interkulturelle Faktoren zwischen Sprechern (10) der Ausgangssprache (L0) und der Zielsprache (L1, L2) angegeben sind.
  4. Verfahren nach einem der vorhergehenden Ansprüche, wobei beim Übersetzen der ermittelten Phrasen (10) ein Zielvokabular der Zielsprache (L1, L2) zugrunde gelegt wird, welches auf den Bedienkontext betreffend die zu aktivierende Funktionalität (F) und/oder das Gerät (1) beschränkt ist.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei in zumindest einer Aktivierungsphrase (8) sowohl zumindest ein Funktionswort als auch zumindest ein Füllwort vorgesehen wird.
DE102015006662.5A 2015-05-22 2015-05-22 Verfahren zum Konfigurieren einer Sprachbedieneinrichtung Active DE102015006662B4 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102015006662.5A DE102015006662B4 (de) 2015-05-22 2015-05-22 Verfahren zum Konfigurieren einer Sprachbedieneinrichtung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102015006662.5A DE102015006662B4 (de) 2015-05-22 2015-05-22 Verfahren zum Konfigurieren einer Sprachbedieneinrichtung

Publications (2)

Publication Number Publication Date
DE102015006662A1 DE102015006662A1 (de) 2016-11-24
DE102015006662B4 true DE102015006662B4 (de) 2019-11-14

Family

ID=57231605

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102015006662.5A Active DE102015006662B4 (de) 2015-05-22 2015-05-22 Verfahren zum Konfigurieren einer Sprachbedieneinrichtung

Country Status (1)

Country Link
DE (1) DE102015006662B4 (de)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3600762A1 (de) * 1985-02-07 1986-08-07 N.V. Philips' Gloeilampenfabrieken, Eindhoven Anpassungsfaehig ansprechendes system
DE69717899T2 (de) * 1996-04-10 2003-08-21 Lucent Technologies Inc., Murray Hill Verfahren und Vorrichtung zur Spracherkennung
US20060136220A1 (en) * 2004-12-22 2006-06-22 Rama Gurram Controlling user interfaces with voice commands from multiple languages

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10022586A1 (de) 2000-05-09 2001-11-22 Siemens Ag Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems
US20020072914A1 (en) 2000-12-08 2002-06-13 Hiyan Alshawi Method and apparatus for creation and user-customization of speech-enabled services
WO2013083132A1 (en) 2011-12-05 2013-06-13 Copenhagen Business School Translation method and computer programme for assisting the same

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3600762A1 (de) * 1985-02-07 1986-08-07 N.V. Philips' Gloeilampenfabrieken, Eindhoven Anpassungsfaehig ansprechendes system
DE69717899T2 (de) * 1996-04-10 2003-08-21 Lucent Technologies Inc., Murray Hill Verfahren und Vorrichtung zur Spracherkennung
US20060136220A1 (en) * 2004-12-22 2006-06-22 Rama Gurram Controlling user interfaces with voice commands from multiple languages

Also Published As

Publication number Publication date
DE102015006662A1 (de) 2016-11-24

Similar Documents

Publication Publication Date Title
DE112014006542B4 (de) Einrichtung und Verfahren zum Verständnis von einer Benutzerintention
DE69829235T2 (de) Registrierung für die Spracherkennung
EP1927980B1 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
DE69427083T2 (de) Spracherkennungssystem für mehrere sprachen
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
EP3224831B1 (de) Kraftfahrzeug-bedienvorrichtung mit korrekturstrategie für spracherkennung
EP1649450A1 (de) Verfahren zur spracherkennung und kommunikationsger t
EP1217610A1 (de) Verfahren und System zur multilingualen Spracherkennung
EP0925578A1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
DE112006000225B4 (de) Dialogsystem und Dialogsoftware
EP3010014A1 (de) Verfahren zur interpretation von automatischer spracherkennung
DE60022291T2 (de) Unüberwachte anpassung eines automatischen spracherkenners mit grossem wortschatz
WO2001086634A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
EP2907048B1 (de) Kraftwagen mit einem sprachübersetzungssystem
Schramm et al. Strategies for name recognition in automatic directory assistance systems
DE102015006662B4 (de) Verfahren zum Konfigurieren einer Sprachbedieneinrichtung
DE102017216571B4 (de) Kraftfahrzeug
DE102008025532B4 (de) Kommunikationssystem und Verfahren zum Durchführen einer Kommunikation zwischen einem Nutzer und einer Kommunikationseinrichtung
DE10308611A1 (de) Ermittlung der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final