DE102016005731B4

DE102016005731B4 - Verfahren zum Betreiben mehrerer Spracherkenner

Info

Publication number: DE102016005731B4
Application number: DE102016005731.9A
Authority: DE
Inventors: Andre Eisenmann; Andreja JANEZIC
Original assignee: Audi AG
Current assignee: Audi AG
Priority date: 2016-05-10
Filing date: 2016-05-10
Publication date: 2018-03-29
Anticipated expiration: 2036-05-11
Also published as: DE102016005731A1

Abstract

Verfahren zum Betreiben mehrerer Spracherkenner (18, 19) und zum Auswählen eines Erkennungsergebnisses (27, 28) aus mehreren Erkennungsergebnissen (27, 28), die von den Spracherkennern (18, 19) in Abhängigkeit von einem Sprachsignal (17), das einen zu erkennenden Sprachbefehl (14) für eine Sprachbedienung einer Vorrichtung enthält, erzeugt werden, wobei die Spracherkenner (18, 19) mit unterschiedlichen Erkennungsvokabularien (25, 26) betrieben werden, dadurch gekennzeichnet, dass – jeder Spracherkenner (18, 19) für eine vorbestimmte Befehlsdomäne spezialisiert ist, indem sein jeweiliges Erkennungsvokabular (25, 26) zum Erkennen von Sprachbefehlen (14) aus der Befehlsdomäne ausgelegt ist, und – jedem Erkennungsergebnis (27, 28) anhand von zumindest einem in dem Erkennungsergebnis (27, 28) enthaltenen Wort (W1, W2), das in dem Sprachsignal (17) erkannt wurde, eine Befehlsdomäne (DOM) zugeordnet wird, und – für die Erkennungsergebnisse (27, 28) aller Spracherkenner (18, 19) jeweils ermittelt wird, ob eine Domänenübereinstimmung dahingehend vorliegt, dass die jeweils dem Erkennungsergebnis (27, 28) zugeordnete Befehlsdomäne (DOM) mit der Befehlsdomäne desjenigen Spracherkenners (18, 19), der das jeweilige Erkennungsergebnis (27, 28) erzeugt hat, übereinstimmt, und – für den Fall, dass es nur eine einzige Domänenübereinstimmung gibt, das zugehörige Erkennungsergebnis (27, 28) ausgewählt wird.

Description

Die Erfindung betrifft ein Verfahren zum Betreiben mehrerer Spracherkenner und zum Auswählen eines Erkennungsergebnisses aus mehreren Erkennungsergebnissen, die von den Spracherkennern in Abhängigkeit von einem Sprachsignal erzeugt werden, das einen zu erkennenden Sprachbefehl für eine Sprachbedienung enthält. Zu der Erfindung gehören auch eine Bedienvorrichtung zum Durchführen des Verfahrens sowie ein Kraftfahrzeug mit der erfindungsgemäßen Bedienvorrichtung.
Unter einem Spracherkenner ist im Zusammenhang mit der Erfindung eine Erkennungseinrichtung zum Durchführen einer automatischen Spracherkennung (ASR – Automatic Speech Recognition) zu verstehen. Ein Spracherkenner kann beispielsweise auf der Grundlage von Hidden-Markov-Modellen gebildet sein. Welche Worte ein Spracherkenner in einem Sprachsignal erkennen kann, wird durch sein Erkennungsvokabular festgelegt.
Ein Spracherkenner der beschriebenen Art ist beispielsweise aus der US 2015/0269939 A1 bekannt. Die darin beschriebene Bedienvorrichtung für ein Kraftfahrzeug nutzt zwei Spracherkenner, nämlich einen im Kraftfahrzeug selbst und einen Online-Spracherkennungsdienst. Die beiden Spracherkenner können gleichzeitig betrieben werden. Für den Fall, dass beide Spracherkenner zu ein und demselben Sprachsignal eines Benutzers unterschiedliche Erkennungsergebnisse bereitstellen, muss durch die Bedienvorrichtung eine Auswahl getroffen werden.
Aus der DE 10 2007 042 971 A1 ist ein Spracherkennungsverfahren bekannt, bei welchem zum Überprüfen, ob ein Erkennungsergebnis eines Spracherkenners zuverlässig ist, ein Grammatik-Score ausgewertet wird. Die Überprüfung des Erkennungsergebnisses basiert hierdurch auf dem tatsächlich gesprochenen Text. Dies macht den Ansatz stark sprachenspezifisch.
Aus der DE 10 2014 210 716 A1 ist bekannt, einen Spracherkenner mit einem spezialisierten Erkennungsvokabular zu betreiben, sodass dieser Spracherkenner im Vergleich zu einem zweiten Spracherkenner einen größeren Erkennungswortschatz in Bezug auf eine vorbestimmte Befehlsdomäne, beispielsweise das Suchen in einer Adressdatenbank oder nach einer besonderen Örtlichkeit (POI) aufweist. Bei dem Verfahren muss allerdings eine Spracheingabe derart aufgeteilt werden, dass der erste Sprecherkenner einen Anweisungsteil und der zweite Spracherkenner die Inhalte betreffend Ortsnamen oder Adressen zugeordnet bekommt.
Aus der US 2002/0194000 A1 , der US 2013/0289996 A1 und der US 2002/0133346 A1 sind jeweils Verfahren zum Betreiben mehrerer Spracherkenner bekannt, bei denen die Spracherkenner jeweils unterschiedliche Erkennungsvokabularien für vorbestimmte Befehlsdomänen aufweisen.
Der Erfindung liegt die Aufgabe zugrunde, für eine Sprachbedienung mehrere Spracherkenner zum Auswerten eine Sprachsignals zu nutzen.
Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Weiterbildungen der Erfindung sind durch die Merkmale der abhängigen Patentansprüche, die folgende Beschreibung sowie die Figur offenbart.
Durch die Erfindung ist ein Verfahren bereitgestellt, mittels welchem mehrere Spracherkenner betrieben werden und ein Erkennungsergebnis aus mehreren Erkennungsergebnissen ausgewählt wird, die von den Spracherkennern in Abhängigkeit von einem Sprachsignal erzeugt werden, das einen zu erkennenden Sprachbefehl für die Sprachbedienung eines Geräts oder einer Vorrichtung enthält. Insbesondere ist eine Sprachbedienung eines Kraftfahrzeugs vorgesehen. Das Verfahren ist aber auch in einem anderen Gerät vorsehbar, z. B. in einem portablen, mobilen Endgerät, wie z. B. einem Smartphone, einem Tablet-PC oder einer Smartwatch. Die Spracherkenner werden hierbei mit unterschiedlichen Erkennungsvokabularien betrieben. Mit anderen Worten wird das Sprachsignal an mehrere Spracherkenner ausgesendet oder übergeben, die jeweils ein anderes Erkennungsvokabular nutzen oder bereitstellen. Hierdurch ist jeder Spracherkenner für eine vorbestimmte Befehlsdomäne spezialisiert, indem sein jeweiliges Erkennungsvokabular zum Erkennen von Sprachbefehlen aus der Befehlsdomäne ausgelegt ist. Insbesondere ist vorgesehen, dass Erkennungsvokabulare für zumindest eine der folgenden Befehlsdomänen bereitgestellt sind: eine Bedienung einer Navigationseinrichtung, eine Bedienung eines Infotainmentsystems, eine Bedienung einer Telefoneinrichtung, eine Bedienung einer Medienabspieleinrichtung, eine Bedienung einer Sucheinrichtung, zum Beispiel zum Suchen in einer Navigationsdatenbank und/oder in einem digitalen Adressbuch und/oder im Internet. Mit der Angabe „zumindest eine” ist hierbei gemeint, dass eine oder einige oder alle der Befehlsdomänen durch jeweils ein oder mehrere der Erkennungsvokabulare umfasst sind.
Bei einem Sprachbefehl handelt es sich insbesondere um eine vollständige Befehlsphrase, also eine Wortfolge, also nicht nur ein einzelnes Wort. Beispielsweise kann der Sprachbefehl besagen: „Fahre mich zum Restaurant XY!” Hierbei können allgemeine Worte wie „Fahre” und „Restaurant” in einem Erkennungsvokabular eines nicht-spezialisierten Spracherkenners enthalten sein, also jedes der Spracherkenner. Dagegen bedarf es eines spezialisierten Erkennungsvokabulars, um auch die Namen einzelner Restaurants, wie zum Beispiel „XY” ebenfalls fehlerfrei erkennen zu können. Ein nicht-spezialisierter Spracherkenner kann somit beispielsweise in seinen Erkennungsergebnis zwar die erkannten Worte „Fahre” und „Restaurant” angeben, aber anstelle des Namens des Restaurants („XY”) ein unerkanntes Wort signalisieren. Dagegen kann durch einen spezialisierten Spracherkenner, der das Erkennungsvokabular zum Beispiel für eine Navigation oder für eine Navigation zu vorbestimmten Fahrzielen (POI – Point-of-Interest) verwendet, auch der Name erkannt werden. Ein spezialisierter Spracherkenner, welcher für die Befehlsdomäne das zugehörige Erkennungsvokabular. aufweist, kann somit ein vollständiges Erkennungsergebnis erzeugen, also auch zum Beispiel den Namen des Restaurants XY identifizieren, also alle zum Ausführen des Sprachbefehls nötigen Worte.
Durch das erfindungsgemäße Verfahren wird das richtige Erkennungsergebnis, welches potentiell alle zum Ausführen des Sprachbefehls nötigen Elemente als erkannte Worte enthält, mit geringem Aufwand identifiziert. Das erfindungsgemäße Verfahren kann durch eine Bedienvorrichtung durchgeführt werden. Die Bedienvorrichtung sendet in der beschriebenen Weise das Sprachsignal an die Spracherkenner aus und empfängt das jeweilige Erkennungsergebnis von jedem Spracherkenner.
Das Erkennungsergebnis eine Spracherkenners kann eine erkannte Wortfolgen oder Zeichenfolge umfassen, die in dem Sprachsignal erkannt wurde.
Bei dem erfindungsgemäßen Verfahren ist vorgesehen, dass jedem Erkennungsergebnis anhand von zumindest einem in dem Erkennungsergebnis enthaltenen Wort eine Befehlsdomäne zugeordnet wird. Diese Zuordnung kann durch jeden der Spracherkenner selbst oder durch die Bedienvorrichtung vorgenommen werden. Für die Zuordnung kann beispielsweise eine Zuordnungstabelle vorgesehen sein. Darin kann jeweils einem Wort oder einer Folge von Worten eine Befehlsdomäne zugeordnet werden. Beispielsweise kann dem Wort „Fahre” die Befehlsdomäne „Navigationsbedienung” oder kurz „Navigation” zugeordnet werden. Somit ist also bei dem erfindungsgemäßen Verfahren vorgesehen, dass zum einen zu jedem Spracherkenner eine Angabe betreffend dessen Befehlsdomäne bereitgestellt ist (basierend auf dessen Erkennungsvokabular), und zum anderen für jedes Erkennungsergebnis eine Angabe, zu welcher Befehlsdomäne zumindest ein darin enthaltenes Wort gehört (basierend auf der besagten Zuordnung).
Für die Erkennungsergebnisse aller Spracherkenner wird jeweils ermittelt, ob eine Domänenübereinstimmung dahingehend vorliegt, dass die dem Erkennungsergebnis zugeordnete Befehlsdomäne mit der Befehlsdomäne desjenigen Spracherkenners übereinstimmt, der das Erkennungsergebnis erzeugt hat. Hat beispielsweise ein Spracherkenner für die Befehlsdomäne „Navigationsbedienung” ein Erkennungsergebnis erzeugt, in welchem das Wort „Radio” vorkommt, so wird dieses Erkennungsergebnis nicht der Befehlsdomäne „Navigationsbedienung”, sondern der Befehlsdomäne „Radiobedienung” zugeordnet. Damit liegt keine Domänenübereinstimmung vor. Enthält das Erkennungsergebnis dagegen zum Beispiel das Wort „Navigiere” oder „Fahre” so wird dieses Erkennungsergebnis der Befehlsdomäne „Navigationsbedienung zugeordnet und es liegt somit eine Domänenübereinstimmung vor.
Für den Fall, dass es nur eine einzige Domänenübereinstimmung gibt, wird das zugehörige Erkennungsergebnis ausgewählt.
Durch die Erfindung ergibt sich der Vorteil, dass allein durch eine Klassifizierung oder Zuordnung eines Erkennungsergebnisses zu einer Befehlsdomäne erkannt wird, ob eines der Erkennungsergebnisse von einem passenden, spezialisierten Spracherkenner erzeugt wurde. So kann durch den beschriebenen Vergleich dasjenige Erkennungsergebnis ausgewählt oder erkannt werden, das mit der größten Wahrscheinlichkeit richtig und/oder vollständig erkannt wurde.
Zu der Erfindung gehören auch optionale Weiterbildungen, durch deren Merkmale sich zusätzliche Vorteile ergeben.
Für den Fall, dass nur einem der Erkennungsergebnisse überhaupt eine Befehlsdomäne zuordenbar ist, wird dieses Erkennungsergebnis ausgewählt. Dann müssen nicht die beschriebenen Schritte durchgeführt werden. Mit anderen Worten wird die Überprüfung, ob nur einem der Erkennungsergebnisse eine Befehlsdomäne zuordenbar ist, zuerst durchgeführt. Das Zuordnen einer Befehlsdomäne zu einem Erkennungsergebnis kann unmöglich sein, falls für keines der in dem Erkennungsergebnis enthaltenen erkannten Worte eine vorbestimmte Befehlsdomäne identifiziert wurde oder überhaupt kein erkanntes Wort in dem Erkennungsergebnis enthalten ist.
Ein Erkennungsergebnis kann auch semantisch aufgeschlüsselt sein. In dem bereits beschriebenen Beispiel zu dem Sprachbefehl: „Fahre mich zum Restaurant XY!” kann beispielsweise eine semantische Aufschlüsselung dahingehend erfolgen, dass eine Aktion („Fahre”) definiert ist und ein Objekt der Aktion („Restaurant XY”). Anhand des erkannten Wortes „Fahre” kann festgelegt werden, dass zwei semantische Elemente nötig sind, nämlich die Aktion „Fahren” und das Objekt der Aktion, nämlich das Navigationsziel. Semantische Elemente werden auch als Slots bezeichnet. Allgemein kann also vorgesehen sein, dass von jedem Spracherkenner sein Erkennungsergebnis in Abhängigkeit von zumindest einem in dem Sprachsignal erkannten Wort in eine vorbestimmte Anzahl von semantischen Elementen eingeteilt ist. Es wird also festgelegt, dass das Erkennungsergebnis nur vollständig ist, wenn eine vorbestimmte Anzahl von semantischen Elementen (Aktion und zumindest ein Objekt der Aktion) jeweils durch ein erkanntes Wort oder mehrere erkannte Worte beschrieben ist. Zumindest ist einem semantischen Element zumindest ein in dem Sprachsignal erkanntes Wort zugeordnet. Für den Fall, dass es mehrere Domänenübereinstimmungen gibt, also nicht nur ein einziger Spracherkenner, sondern mehrere Spracherkenner ein Erkennungsergebnis mit Domänenübereinstimmung bereitstellen, wird für die Erkennungsergebnisse mit Domänenübereinstimmung ermittelt, ob eine Vollständigkeit dahingehend vorliegt, dass jedem der darin vorgesehenen semantischen Elemente zumindest ein erkanntes Wort zugeordnet ist. Es wird also überprüft, ob ein Erkennungsergebnis auch vollständig ist, d. h. alle zum Ausführen des Sprachbefehls nötigen Informationen, nämlich jedes vorbestimmte semantischen Element, ausgefüllt oder mit zumindest einem erkannten Wort belegt ist. Falls nur bei einem der Erkennungsergebnisse mit Domänenübereinstimmung auch Vollständigkeit vorliegt, wird dieses Erkennungsergebnis ausgewählt. Hierdurch wird eine Rückfrage beim Benutzer vermieden.
Für den Fall, dass bei keinem der Erkennungsergebnisse Domänenübereinstimmung und/oder Vollständigkeit erkannt wird oder bei mehreren Erkennungsergebnissen mit Domänenübereinstimmung auch Vollständigkeit erkannt wird, also insgesamt kein Erkennungsergebnis eindeutig ermittelt werden kann, wird zumindest eines der Erkennungsergebnisse auf der Grundlage eines Auswahlkriteriums ausgewählt, das auf einer Erkennungsstatistik basiert. Insbesondere wird nur für diesen Fall auf die Erkennungsstatistik, also die von den Spracherkennern berechneten statistischen Kennzahlen oder Kennwerte zurückgegriffen. Hierdurch ergibt sich der Vorteil, dass man nur für diese Fälle die Erkennungsstatistiken der Spracherkenner miteinander vergleichen muss. Denn dies kann ansonsten insbesondere bei Spracherkennern unterschiedlichen Typs schwierig sein.
Das Auswahlkriterium umfasst hierbei insbesondere, dass ein solches oder jedes der Erkennungsergebnisse ausgewählt wird, bei welchem ein durch eine Erkennungsgrammatik bereitgestellter Score-Wert und/oder ein durch einen statistischen Klassifizierer bereitgestellter Konfidenzwert jeweils größer als ein vorbestimmter Schwellenwert ist. Der Score-Wert kann beispielsweise der eingangs beschriebenen Score sein. Ein Konfidenzwert kann beispielsweise eine Angabe zu einer Likelihood sein, wie sie von einem Hidden-Markov-Modell bereitgestellt werden kann. Durch diese Ausführungsform werden all diejenigen Erkennungsergebnisse ausgewählt, die im statistischen Sinn gemäß dem jeweiligen Schwellenwert zuverlässig sind.
Das Auswahlkriterium kann auch umfassen, dass mittels einer Priorisierungsvorschrift den Spracherkennern eine Rangfolge zugeordnet wird. Die Priorisierungsvorschrift kann beispielsweise durch einen Benutzer vorgegeben sein. Durch sie wird festgelegt, welcher der Spracherkenner in Bezug auf die zumindest einen anderen Spracherkenner als zuverlässiger eingestuft oder angesehen wird. Es wird dann bevorzugt ein Erkennungsergebnis eines ranghöheren Spracherkenners ausgewählt, also eines Spracherkenners der als zuverlässiger eingestuft wird. Zusätzlich oder alternativ dazu kann vorgesehen sein, dass der besagte Score-Wert und/oder der besagte Konfidenzwert jedes Erkennungsergebnisses mit einem vom Rang des zugehörigen Spracherkenners abhängigen Faktor gewichtet oder multipliziert wird. Hierdurch bleibt der besagte Schwellwertvergleich weiterhin möglich, selbst wenn den Spracherkennern eine Rangfolge zugewiesen ist.
Bevorzugt ist vorgesehen, dass zum Ermitteln der Erkennungsergebnisse das Sprachsignal an zumindest einen vorrichtungsinternen Spracherkenner und an zumindest einen vorrichtungsexternen Spracherkenner ausgesendet wird. Hierdurch wird zum einen sichergestellt, dass zumindest ein Spracherkenner auch dann verfügbar ist, wenn keine Kommunikationsverbindung zum Beispiel zum Internet oder zu einem Mobilfunknetz besteht. Des Weiteren wird sichergestellt, dass auch ein Spracherkenner mit umfangreichem Erkennungsvokabular, nämlich ein Online-Spracherkennungsdienst, genutzt werden kann.
Zu der Erfindung gehört auch eine Bedienvorrichtung zum Bedienen einer Vorrichtung mittels Sprachbedienung. Insbesondere ist eine Sprachbedienung eines Kraftfahrzeugs vorgesehen. Die Bedieneinrichtung ist dazu eingerichtet, eine Ausführungsform des erfindungsgemäßen Verfahrens. durchzuführen. Insbesondere ist die Bedienvorrichtung für ein Kraftfahrzeug vorgesehen. Die Bedienvorrichtung kann beispielsweise als ein Steuergerät eines Kraftfahrzeugs ausgestaltet sein. Die Bedienvorrichtung ist aber auch in einer anderen Vorrichtung vorsehbar, z. B. in einem portablen, mobilen Endgerät, wie z. B. einem Smartphone, einem Tablet-PC oder einer Smartwatch. Die Bedienvorrichtung kann zum Beispiel einen Prozessoreinrichtung aufweisen, die einen Programmcode aufweist, der beim Ausführen durch die Prozessoreinrichtung eine Ausführungsform des erfindungsgemäßen Verfahrens ausführt. Die Prozessoreinrichtung kann hier zum Beispiel einen Mikroprozessor oder einen Mikrocontroller aufweisen. Der Programmcode kann in einem Speicher der Prozessoreinrichtung gespeichert sein.
Zu der Erfindung gehört schließlich auch ein Kraftfahrzeug mit einer Ausführungsform der erfindungsgemäßen Bedienvorrichtung. Das erfindungsgemäße Kraftfahrzeug ist bevorzugt als Kraftwagen, insbesondere als Personenkraftwagen, ausgestaltet.
Im Folgenden ist ein Ausführungsbeispiel der Erfindung beschrieben. Hierzu zeigt:
1 eine schematische Darstellung einer Ausführungsform des erfindungsgemäßen Kraftfahrzeugs; und
2 ein Flussschaudiagramm zur Veranschaulichung einer Ausführungsform des erfindungsgemäßen Verfahrens, die von einer Bedienvorrichtung des Kraftfahrzeugs von 1 ausgeführt werden kann.
Bei dem im Folgenden erläuterten Ausführungsbeispiel handelt es sich um eine bevorzugte Ausführungsform der Erfindung. Bei dem Ausführungsbeispiel stellen die beschriebenen Komponenten der Ausführungsform jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden und damit auch einzeln oder in einer anderen als der gezeigten Kombination als Bestandteil der Erfindung anzusehen sind. Des Weiteren ist die beschriebene Ausführungsform auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.
In den Figuren sind funktionsgleiche Elemente jeweils mit denselben Bezugszeichen versehen.
1 zeigt ein Kraftfahrzeug 10, bei dem es sich um einen Kraftwagen, insbesondere einen Personenkraftwagen, handeln kann. Das Kraftfahrzeug 10 kann eine Bedienvorrichtung 11 aufweisen, mittels welcher ein Benutzer 12 zumindest eine Fahrzeugkomponente 13 des Kraftfahrzeugs 10 bedienen kann. Die Fahrzeugkomponente 13 kann beispielsweise ein Infotainmentsystem (Information-Unterhaltungssystem) des Kraftfahrzeugs 10 sein.
Durch die Bedienvorrichtung 11 ist hierbei eine Sprachbedienung der zumindest einen Fahrzeugkomponente 13 ermöglicht. Hierzu kann der Benutzer 12 einen Sprachbefehl 14 aussprechen, welcher als Sprachschall durch eine Mikrofonanordnung 15 des Kraftfahrzeugs 10 empfangen werden kann. Die Mikrofonanordnung 15 kann in bekannter Weise zum Beispiel ein oder mehrere Mikrofone umfassen. Ein Mikrofonsignal 16 der Mikrofonanordnung 15 kann durch die Bedienvorrichtung 11 empfangen werden. Die Bedienvorrichtung 11 kann das Mikrofonsignal 16 selbst oder aus dem Mikrofonsignal 16 erzeugten Erkennungsmerkmale, beispielsweise cepstrale Koeffizienten, als ein Sprachsignal 17 an mehrere Spracherkenner 18, 19 ausgeben. Zumindest einer der Spracherkenner 18, 19 kann ein fahrzeugeigener Spracherkenner sein, was in 1 durch den Spracherkenner 18 symbolisiert ist. Zumindest ein weiterer Spracherkenner 19 kann ein fahrzeugexterner Spracherkenner sein, was in 1 durch den Spracherkenner 19 symbolisiert ist.
Das Sprachsignal 17 kann an den fahrzeugexternen Spracherkenner 19 beispielsweise über eine Kommunikationseinrichtung 20 des Kraftfahrzeugs 10 ausgesendet werden. Die Kommunikationseinrichtung 20 kann beispielsweise ein Mobilfunkmodul und/oder ein WLAN-Funkmodul umfassen. Mittels der Kommunikationseinrichtung 20 kann eine Funkverbindung 21 beispielsweise zu einem Mobilfunknetzwerk 22 oder einen WLAN-Router aufgebaut oder bereitgestellt werden. Insgesamt kann somit eine Kommunikationsverbindung 23 zwischen der Bedienvorrichtung 11 und dem Spracherkenner 19 bereitgestellt werden, die auch über das Internet 24 führen kann. Jeder der Spracherkenner 18, 19 wird mit einem vorbestimmten Erkennungsvokabular 25, 26 betrieben. Hierdurch kann jeder der Spracherkenner 18, 19 für eine vorbestimmte Befehlsdomäne, zum Beispiel das Bedienen einer Navigationseinrichtung oder eines Telefons, spezialisiert sein. Es kann auch ein allgemeines Erkennungsvokabular ohne Spezialisierung oder es können mehre Erkennungsvokabularien mit unterschiedlich großem Wortschatz vorgesehen sein, die dann unterschiedliche Grade der Spezialisierung ergeben.
Jeder der Spracherkenner 18, 19 soll auf der Grundlage seines Erkennungsvokabulars 25, 26 aus dem Sprachsignal 17 den Sprachbefehl 14 ermitteln. Das hierdurch entstehende jeweilige Erkennungsergebnis 27, 28 hängt dabei vom verwendeten Erkennungsvokabular 25, 26 ab. Es kann sein, dass einer der Spracherkenner 18, 19 den Sprachbefehl 14 gar nicht oder nur teilweise (nur ein Wort oder nur einige Worte) oder vollständig erkennen kann.
Um aus zumindest einem der Erkennungsergebnis 27, 28 ein Steuersignal 29 zum Steuern der zumindest einen Fahrzeugkomponente 13 zu erzeugen, wird durch die Bedienvorrichtung 11 zum Beispiel das im Folgenden anhand von 2 veranschaulichte Verfahren durchgeführt. 2 veranschaulicht hierzu, wie durch die Bedienvorrichtung 11 die empfangenen Erkennungsergebnisse verarbeitet werden können, um zumindest eines der Erkennungsergebnisse 27, 28 für die Erzeugung des Steuersignals 29 zugrunde zu legen oder zu nutzen.
In 2 ist dazu gezeigt, wie jedes Erkennungsergebnis 27, 28 zum einen eine Erkenneridentifikation aufweisen kann, durch welche derjenige Spracherkenner 18, 19 identifiziert ist, der das jeweilige Erkennungsergebnis 27, 28 erzeugt hat. Damit ist auch die Befehlsdomäne dieses Spracherkenners aufgrund des bekannten Erkennungsvokabulars 25, 26 bekannt. Des Weiteren kann eine Domänenangabe DOM vorgesehen sein, durch welche diejenige Befehlsdomäne identifiziert ist, die dem jeweiligen Erkennungsergebnis 27, 28 zugeordnet worden ist. Die in dem Sprachsignal 17 erkannten Worte können semantisch aufgegliedert sein, indem das jeweilige Erkennungsergebnis 27, 28 ein oder mehrere semantische Elemente E1, E2 aufweist, denen jeweils zumindest eines der erkannten Worte W1, W2 zugeordnet sein kann. Handelt es sich bei dem Erkennungsergebnis 27, 28 beispielsweise um einen Sprachbefehl aus der Befehlsdomäne „Navigationsbedienung”, so kann beispielsweise das erkannte Wort W1 besagen: „Fahre” oder „Navigiere”. Damit steht fest, dass zumindest ein weiteres semantisches Element E2 nötig ist, nämlich das Navigationsziel. Falls dieses ebenfalls durch den Spracherkenner erkannt worden ist, so gibt es auch ein erkanntes Wort W2, das dem semantischen Element E2 erfolgreich zugeordnet worden ist, welches für das Navigationsziel steht. Fehlt das Wort W2, so ist dem semantischen Element E2 kein erkanntes Wort zugeordnet, d. h. es ist leer. Damit ist das Erkennungsergebnis aber unvollständig, da zwar bekannt ist, welche Aktion durchgeführt werden soll, in dem Beispiel nämlich das Navigieren, aber das zugehörige Objekt, in dem Beispiel das Navigationsziel, fehlt.
Durch die Bedienvorrichtung 11 kann in einem Schritt S1 zu jedem Erkennungsergebnis überprüft werden, ob diesem erfolgreich eine Domänenangabe DOM zugeordnet worden ist, also eine Befehlsdomäne identifiziert wurde, zu welcher das Erkennungsergebnis gehört. Es kann nun sein, dass keines der Erkennungsergebnisse (0), genau ein Erkennungsergebnis (1) oder mehrere Erkennungsergebnisse (2 ... N) der insgesamt N Erkennungsergebnisse positiv getestet werden. Falls genau einem Erkennungsergebnis eine Befehlsdomäne zugeordnet werden konnte (1), wird in einem Schritt S2 dieses Erkennungsergebnis ausgewählt.
Falls mehreren Erkennungsergebnissen erfolgreich eine Befehlsdomäne zugeordnet werden konnte, so wird in einem Schritt S3 überprüft, ob die Befehlsdomäne desjenigen Spracherkenners, der durch die Erkenneridentifikation identifiziert ist, mit der Domänenangabe DOM übereinstimmt. Gibt es nur eine einzige solche Domänenübereinstimmung (1), so wird das zugehörige Erkennungsergebnis im Schritt S2 ausgewählt. Gibt es mehrere Domänenübereinstimmungen, so wird in einem Schritt S4 überprüft, ob es ein Erkennungsergebnis gibt, bei welchem allen vorgesehenen semantischen Elementen E1, E2 ein oder mehrere erkannte Worte W1, W2 zugeordnet worden sind. Trifft dies nur für ein einziges Erkennungsergebnis zu (1), so wird dieses im Schritt S2 ausgewählt.
Für den Fall, dass keines der Erkennungsergebnisse eine Domänenübereinstimmung aufweist oder keines der Erkennungsergebnisse Vollständigkeit aufweist (0), d. h. vollständig erkannte semantische Elemente E1, E2 aufweist oder mehrere Erkennungsergebnisse Vollständigkeit aufweisen (2 ... N), so wird in einem Schritt S5 für die Auswahl ein Auswahlkriterium 30 angewendet. Es wird zum Beispiel überprüft, ob ein Score-Wert einer Erkennungsgrammatik bei zumindest einem Erkennungsergebnis größer als ein vorbestimmter Schwellenwert SC0 ist. Zusätzlich oder alternativ dazu kann auch die Auswahl in der beschriebenen Weise auf einer Rangfolge basieren, die durch eine Priorisierungsvorschrift PRIO festgelegt sein kann, wie dies bereits beschrieben worden ist. Wird hierdurch wieder ein einziges Erkennungsergebnis identifiziert (1), so wird dieses im Schritt S2 ausgewählt.
Ergeben sich mehrere Erkennungsergebnisse (2 ... N), die das Auswahlkriterium 30 erfüllen, so werden diese in dem Schritt S6 bereitgestellt. Um daraus ein einzelnes Erkennungsergebnis auszuwählen, kann beispielsweise der Befehlskontext berücksichtigt werden. Hierdurch kann ein mehrdeutiger Sprachbefehl eindeutig ausgelegt oder erkannt werden. Lautet der Sprachbefehl beispielsweise „Spiele Lied Nummer 5”, so kann dies das 5. Lied beispielsweise auf einer CD oder in einer MP3-Sammlung sein. Läuft während des Empfangs des Sprachbefehls ein MP3-Abspielgerät, so ist unter Berücksichtigung dieses Bedienkontextes (laufendes MP3-Abspielgerät) das Erkennungsergebnis, welches sich auf das MP3-Abspielgerät bezieht, vorzuziehen oder zu verwenden.
Für den Fall, dass keines der Erkennungsergebnisse das Auswahlkriterium 30 erfüllt (0), kann in einem Schritt S7 erneut ein Sprachsignal erfasst werden. Hierzu kann der Benutzer zum Beispiel aufgefordert werden, seinen Sprachbefehl zu wiederholen. Der Schritt S7 kann auch auf den Schritt S1 folgen, falls keinem der Erkennungsergebnisse überhaupt eine Befehlsdomäne zugeordnet werden konnte (0).
Insgesamt ist es somit in den Schritten S1, S3, S4 möglich, ein Erkennungsergebnis auszuwählen, ohne überhaupt die erkannten Worte W1, W2 zu überprüfen. Es können die Angaben zur Befehlsdomäne und die Slotbelegung genutzt werden. Ein Spracherkenner kann entsprechende Klassifizierungsergebnisse in seinem Erkennungsergebnis integrieren, durch welche angegeben wird, ob das Erkennungsergebnis von seiner Befehlsdomäne umfasst ist (T – Top-Topic) und/oder ob der Spracherkenner allen vorgesehenen semantischen Elementen E1, E2 zumindest ein erkanntes Wort W1, W2 zuordnen konnte (F – Full-Info). Hierdurch ist dann durch die Bedienvorrichtung 11 lediglich eine Auswertung der Flags T, F in den Schritten S3, S4 nötig.
Insgesamt zeigt das Beispiel, wie durch die Erfindung eine Ergebnisarbitrierung oder Ergebnisauswahl bei mehreren parallel laufenden Spracherkennern durchgeführt werden kann.

Claims

Verfahren zum Betreiben mehrerer Spracherkenner (18, 19) und zum Auswählen eines Erkennungsergebnisses (27, 28) aus mehreren Erkennungsergebnissen (27, 28), die von den Spracherkennern (18, 19) in Abhängigkeit von einem Sprachsignal (17), das einen zu erkennenden Sprachbefehl (14) für eine Sprachbedienung einer Vorrichtung enthält, erzeugt werden, wobei die Spracherkenner (18, 19) mit unterschiedlichen Erkennungsvokabularien (25, 26) betrieben werden, dadurch gekennzeichnet, dass – jeder Spracherkenner (18, 19) für eine vorbestimmte Befehlsdomäne spezialisiert ist, indem sein jeweiliges Erkennungsvokabular (25, 26) zum Erkennen von Sprachbefehlen (14) aus der Befehlsdomäne ausgelegt ist, und – jedem Erkennungsergebnis (27, 28) anhand von zumindest einem in dem Erkennungsergebnis (27, 28) enthaltenen Wort (W1, W2), das in dem Sprachsignal (17) erkannt wurde, eine Befehlsdomäne (DOM) zugeordnet wird, und – für die Erkennungsergebnisse (27, 28) aller Spracherkenner (18, 19) jeweils ermittelt wird, ob eine Domänenübereinstimmung dahingehend vorliegt, dass die jeweils dem Erkennungsergebnis (27, 28) zugeordnete Befehlsdomäne (DOM) mit der Befehlsdomäne desjenigen Spracherkenners (18, 19), der das jeweilige Erkennungsergebnis (27, 28) erzeugt hat, übereinstimmt, und – für den Fall, dass es nur eine einzige Domänenübereinstimmung gibt, das zugehörige Erkennungsergebnis (27, 28) ausgewählt wird.
Verfahren nach Anspruch 1, wobei für den Fall, dass nur einem der Erkennungsergebnisse (27, 28) überhaupt eine Befehlsdomäne (DOM) zuordenbar ist, dieses Erkennungsergebnis (27, 28) ausgewählt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei – von jedem Spracherkenner (18, 19) sein Erkennungsergebnis (27, 28) in Abhängigkeit von zumindest einem in dem Sprachsignal (17) erkannten Wort (W1, W2) in eine vorbestimmte Anzahl von semantischen Elementen (E1, E2) eingeteilt wird und – zumindest einem semantischen Element (E1, E2) zumindest ein in dem Sprachsignal (17) erkanntes Wort (W1, W2) zugeordnet wird, und – für den Fall, dass es mehrere Domänenübereinstimmungen gibt, für die Erkennungsergebnisse (27, 28) mit Domänenübereinstimmung ermittelt wird, ob eine Vollständigkeit dahingehend vorliegt, dass jedem der darin vorgesehenen semantischen Elemente (E1, E2) zumindest ein erkanntes Wort (W1, W2) zugeordnet ist, und – falls nur bei einem der Erkennungsergebnisse (27, 28) mit Domänenübereinstimmung auch Vollständigkeit vorliegt, dieses Erkennungsergebnis (27, 28) ausgewählt wird.
Verfahren nach Anspruch 3, wobei für den Fall, dass bei keinem der Erkennungsergebnisse (27, 28) Domänenübereinstimmung und/oder Vollständigkeit vorliegt oder bei mehreren der Erkennungsergebnisse (27, 28) mit Domänenübereinstimmung Vollständigkeit vorliegt, zumindest eines der Erkennungsergebnisse (27, 28) auf der Grundlage eines Auswahlkriteriums (30), das auf einer Erkennungsstatistik basiert, ausgewählt wird.
Verfahren nach Anspruch 4, wobei das Auswahlkriterium (30) umfasst, dass jedes der Erkennungsergebnisse (27, 28) ausgewählt wird, bei welchem ein durch eine Erkennungsgrammatik bereitgestellter Score-Wert und/oder ein durch einen statistischen Klassifizierer bereitgestellter Konfidenzwert jeweils größer als ein vorbestimmter Schwellenwert (SCO) ist.
Verfahren nach Anspruch 4 oder 5, wobei das Auswahlkriterium (30) umfasst, dass mittels einer Priorisierungsvorschrift (PRIO) den Spracherkennern (18, 19) eine Rangfolge zugeordnet wird und ein Erkennungsergebnis (27, 28) eines ranghöheren Spracherkenners (18, 19) ausgewählt wird und/oder der Score-Wert und/oder der Konfidenzwert jedes Erkennungsergebnisses (27, 28) mit einem vom Rang des zugehörigen Spracherkenners (18, 19) abhängigen Faktor gewichtet wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei Erkennungsvokabulare (25, 26) für zumindest eine der folgenden Befehlsdomänen bereitgestellt sind: eine Bedienung einer Navigationseinrichtung, eine Bedienung eines Infotainmentsystems, eine Bedienung einer Telefoneinrichtung, eine Bedienung einer Medienabspieleinrichtung, eine Bedienung einer Sucheinrichtung.
Verfahren nach einem der vorhergehenden Ansprüche, wobei zum Ermitteln der Erkennungsergebnisse (27, 28) das Sprachsignal (17) an zumindest einen vorrichtungsinternen Spracherkenner (18) und an zumindest einen vorrichtungsexternen Spracherkenner (19) ausgesendet wird.
Bedienvorrichtung (11) zum Bedienen einer Vorrichtung mittels Sprachbedienung, wobei die Bedienvorrichtung (11) dazu eingerichtet ist, ein Verfahren nach einem der vorhergehenden Ansprüche durchzuführen.
Kraftfahrzeug (10) mit einer Bedienvorrichtung (11) nach Anspruch 9.