DE102016005731B4 - Verfahren zum Betreiben mehrerer Spracherkenner - Google Patents

Verfahren zum Betreiben mehrerer Spracherkenner Download PDF

Info

Publication number
DE102016005731B4
DE102016005731B4 DE102016005731.9A DE102016005731A DE102016005731B4 DE 102016005731 B4 DE102016005731 B4 DE 102016005731B4 DE 102016005731 A DE102016005731 A DE 102016005731A DE 102016005731 B4 DE102016005731 B4 DE 102016005731B4
Authority
DE
Germany
Prior art keywords
recognition
speech
domain
recognition result
command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE102016005731.9A
Other languages
English (en)
Other versions
DE102016005731A1 (de
Inventor
Andre Eisenmann
Andreja JANEZIC
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Audi AG
Original Assignee
Audi AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Audi AG filed Critical Audi AG
Priority to DE102016005731.9A priority Critical patent/DE102016005731B4/de
Publication of DE102016005731A1 publication Critical patent/DE102016005731A1/de
Application granted granted Critical
Publication of DE102016005731B4 publication Critical patent/DE102016005731B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

Verfahren zum Betreiben mehrerer Spracherkenner (18, 19) und zum Auswählen eines Erkennungsergebnisses (27, 28) aus mehreren Erkennungsergebnissen (27, 28), die von den Spracherkennern (18, 19) in Abhängigkeit von einem Sprachsignal (17), das einen zu erkennenden Sprachbefehl (14) für eine Sprachbedienung einer Vorrichtung enthält, erzeugt werden, wobei die Spracherkenner (18, 19) mit unterschiedlichen Erkennungsvokabularien (25, 26) betrieben werden, dadurch gekennzeichnet, dass – jeder Spracherkenner (18, 19) für eine vorbestimmte Befehlsdomäne spezialisiert ist, indem sein jeweiliges Erkennungsvokabular (25, 26) zum Erkennen von Sprachbefehlen (14) aus der Befehlsdomäne ausgelegt ist, und – jedem Erkennungsergebnis (27, 28) anhand von zumindest einem in dem Erkennungsergebnis (27, 28) enthaltenen Wort (W1, W2), das in dem Sprachsignal (17) erkannt wurde, eine Befehlsdomäne (DOM) zugeordnet wird, und – für die Erkennungsergebnisse (27, 28) aller Spracherkenner (18, 19) jeweils ermittelt wird, ob eine Domänenübereinstimmung dahingehend vorliegt, dass die jeweils dem Erkennungsergebnis (27, 28) zugeordnete Befehlsdomäne (DOM) mit der Befehlsdomäne desjenigen Spracherkenners (18, 19), der das jeweilige Erkennungsergebnis (27, 28) erzeugt hat, übereinstimmt, und – für den Fall, dass es nur eine einzige Domänenübereinstimmung gibt, das zugehörige Erkennungsergebnis (27, 28) ausgewählt wird.

Description

  • Die Erfindung betrifft ein Verfahren zum Betreiben mehrerer Spracherkenner und zum Auswählen eines Erkennungsergebnisses aus mehreren Erkennungsergebnissen, die von den Spracherkennern in Abhängigkeit von einem Sprachsignal erzeugt werden, das einen zu erkennenden Sprachbefehl für eine Sprachbedienung enthält. Zu der Erfindung gehören auch eine Bedienvorrichtung zum Durchführen des Verfahrens sowie ein Kraftfahrzeug mit der erfindungsgemäßen Bedienvorrichtung.
  • Unter einem Spracherkenner ist im Zusammenhang mit der Erfindung eine Erkennungseinrichtung zum Durchführen einer automatischen Spracherkennung (ASR – Automatic Speech Recognition) zu verstehen. Ein Spracherkenner kann beispielsweise auf der Grundlage von Hidden-Markov-Modellen gebildet sein. Welche Worte ein Spracherkenner in einem Sprachsignal erkennen kann, wird durch sein Erkennungsvokabular festgelegt.
  • Ein Spracherkenner der beschriebenen Art ist beispielsweise aus der US 2015/0269939 A1 bekannt. Die darin beschriebene Bedienvorrichtung für ein Kraftfahrzeug nutzt zwei Spracherkenner, nämlich einen im Kraftfahrzeug selbst und einen Online-Spracherkennungsdienst. Die beiden Spracherkenner können gleichzeitig betrieben werden. Für den Fall, dass beide Spracherkenner zu ein und demselben Sprachsignal eines Benutzers unterschiedliche Erkennungsergebnisse bereitstellen, muss durch die Bedienvorrichtung eine Auswahl getroffen werden.
  • Aus der DE 10 2007 042 971 A1 ist ein Spracherkennungsverfahren bekannt, bei welchem zum Überprüfen, ob ein Erkennungsergebnis eines Spracherkenners zuverlässig ist, ein Grammatik-Score ausgewertet wird. Die Überprüfung des Erkennungsergebnisses basiert hierdurch auf dem tatsächlich gesprochenen Text. Dies macht den Ansatz stark sprachenspezifisch.
  • Aus der DE 10 2014 210 716 A1 ist bekannt, einen Spracherkenner mit einem spezialisierten Erkennungsvokabular zu betreiben, sodass dieser Spracherkenner im Vergleich zu einem zweiten Spracherkenner einen größeren Erkennungswortschatz in Bezug auf eine vorbestimmte Befehlsdomäne, beispielsweise das Suchen in einer Adressdatenbank oder nach einer besonderen Örtlichkeit (POI) aufweist. Bei dem Verfahren muss allerdings eine Spracheingabe derart aufgeteilt werden, dass der erste Sprecherkenner einen Anweisungsteil und der zweite Spracherkenner die Inhalte betreffend Ortsnamen oder Adressen zugeordnet bekommt.
  • Aus der US 2002/0194000 A1 , der US 2013/0289996 A1 und der US 2002/0133346 A1 sind jeweils Verfahren zum Betreiben mehrerer Spracherkenner bekannt, bei denen die Spracherkenner jeweils unterschiedliche Erkennungsvokabularien für vorbestimmte Befehlsdomänen aufweisen.
  • Der Erfindung liegt die Aufgabe zugrunde, für eine Sprachbedienung mehrere Spracherkenner zum Auswerten eine Sprachsignals zu nutzen.
  • Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Weiterbildungen der Erfindung sind durch die Merkmale der abhängigen Patentansprüche, die folgende Beschreibung sowie die Figur offenbart.
  • Durch die Erfindung ist ein Verfahren bereitgestellt, mittels welchem mehrere Spracherkenner betrieben werden und ein Erkennungsergebnis aus mehreren Erkennungsergebnissen ausgewählt wird, die von den Spracherkennern in Abhängigkeit von einem Sprachsignal erzeugt werden, das einen zu erkennenden Sprachbefehl für die Sprachbedienung eines Geräts oder einer Vorrichtung enthält. Insbesondere ist eine Sprachbedienung eines Kraftfahrzeugs vorgesehen. Das Verfahren ist aber auch in einem anderen Gerät vorsehbar, z. B. in einem portablen, mobilen Endgerät, wie z. B. einem Smartphone, einem Tablet-PC oder einer Smartwatch. Die Spracherkenner werden hierbei mit unterschiedlichen Erkennungsvokabularien betrieben. Mit anderen Worten wird das Sprachsignal an mehrere Spracherkenner ausgesendet oder übergeben, die jeweils ein anderes Erkennungsvokabular nutzen oder bereitstellen. Hierdurch ist jeder Spracherkenner für eine vorbestimmte Befehlsdomäne spezialisiert, indem sein jeweiliges Erkennungsvokabular zum Erkennen von Sprachbefehlen aus der Befehlsdomäne ausgelegt ist. Insbesondere ist vorgesehen, dass Erkennungsvokabulare für zumindest eine der folgenden Befehlsdomänen bereitgestellt sind: eine Bedienung einer Navigationseinrichtung, eine Bedienung eines Infotainmentsystems, eine Bedienung einer Telefoneinrichtung, eine Bedienung einer Medienabspieleinrichtung, eine Bedienung einer Sucheinrichtung, zum Beispiel zum Suchen in einer Navigationsdatenbank und/oder in einem digitalen Adressbuch und/oder im Internet. Mit der Angabe „zumindest eine” ist hierbei gemeint, dass eine oder einige oder alle der Befehlsdomänen durch jeweils ein oder mehrere der Erkennungsvokabulare umfasst sind.
  • Bei einem Sprachbefehl handelt es sich insbesondere um eine vollständige Befehlsphrase, also eine Wortfolge, also nicht nur ein einzelnes Wort. Beispielsweise kann der Sprachbefehl besagen: „Fahre mich zum Restaurant XY!” Hierbei können allgemeine Worte wie „Fahre” und „Restaurant” in einem Erkennungsvokabular eines nicht-spezialisierten Spracherkenners enthalten sein, also jedes der Spracherkenner. Dagegen bedarf es eines spezialisierten Erkennungsvokabulars, um auch die Namen einzelner Restaurants, wie zum Beispiel „XY” ebenfalls fehlerfrei erkennen zu können. Ein nicht-spezialisierter Spracherkenner kann somit beispielsweise in seinen Erkennungsergebnis zwar die erkannten Worte „Fahre” und „Restaurant” angeben, aber anstelle des Namens des Restaurants („XY”) ein unerkanntes Wort signalisieren. Dagegen kann durch einen spezialisierten Spracherkenner, der das Erkennungsvokabular zum Beispiel für eine Navigation oder für eine Navigation zu vorbestimmten Fahrzielen (POI – Point-of-Interest) verwendet, auch der Name erkannt werden. Ein spezialisierter Spracherkenner, welcher für die Befehlsdomäne das zugehörige Erkennungsvokabular. aufweist, kann somit ein vollständiges Erkennungsergebnis erzeugen, also auch zum Beispiel den Namen des Restaurants XY identifizieren, also alle zum Ausführen des Sprachbefehls nötigen Worte.
  • Durch das erfindungsgemäße Verfahren wird das richtige Erkennungsergebnis, welches potentiell alle zum Ausführen des Sprachbefehls nötigen Elemente als erkannte Worte enthält, mit geringem Aufwand identifiziert. Das erfindungsgemäße Verfahren kann durch eine Bedienvorrichtung durchgeführt werden. Die Bedienvorrichtung sendet in der beschriebenen Weise das Sprachsignal an die Spracherkenner aus und empfängt das jeweilige Erkennungsergebnis von jedem Spracherkenner.
  • Das Erkennungsergebnis eine Spracherkenners kann eine erkannte Wortfolgen oder Zeichenfolge umfassen, die in dem Sprachsignal erkannt wurde.
  • Bei dem erfindungsgemäßen Verfahren ist vorgesehen, dass jedem Erkennungsergebnis anhand von zumindest einem in dem Erkennungsergebnis enthaltenen Wort eine Befehlsdomäne zugeordnet wird. Diese Zuordnung kann durch jeden der Spracherkenner selbst oder durch die Bedienvorrichtung vorgenommen werden. Für die Zuordnung kann beispielsweise eine Zuordnungstabelle vorgesehen sein. Darin kann jeweils einem Wort oder einer Folge von Worten eine Befehlsdomäne zugeordnet werden. Beispielsweise kann dem Wort „Fahre” die Befehlsdomäne „Navigationsbedienung” oder kurz „Navigation” zugeordnet werden. Somit ist also bei dem erfindungsgemäßen Verfahren vorgesehen, dass zum einen zu jedem Spracherkenner eine Angabe betreffend dessen Befehlsdomäne bereitgestellt ist (basierend auf dessen Erkennungsvokabular), und zum anderen für jedes Erkennungsergebnis eine Angabe, zu welcher Befehlsdomäne zumindest ein darin enthaltenes Wort gehört (basierend auf der besagten Zuordnung).
  • Für die Erkennungsergebnisse aller Spracherkenner wird jeweils ermittelt, ob eine Domänenübereinstimmung dahingehend vorliegt, dass die dem Erkennungsergebnis zugeordnete Befehlsdomäne mit der Befehlsdomäne desjenigen Spracherkenners übereinstimmt, der das Erkennungsergebnis erzeugt hat. Hat beispielsweise ein Spracherkenner für die Befehlsdomäne „Navigationsbedienung” ein Erkennungsergebnis erzeugt, in welchem das Wort „Radio” vorkommt, so wird dieses Erkennungsergebnis nicht der Befehlsdomäne „Navigationsbedienung”, sondern der Befehlsdomäne „Radiobedienung” zugeordnet. Damit liegt keine Domänenübereinstimmung vor. Enthält das Erkennungsergebnis dagegen zum Beispiel das Wort „Navigiere” oder „Fahre” so wird dieses Erkennungsergebnis der Befehlsdomäne „Navigationsbedienung zugeordnet und es liegt somit eine Domänenübereinstimmung vor.
  • Für den Fall, dass es nur eine einzige Domänenübereinstimmung gibt, wird das zugehörige Erkennungsergebnis ausgewählt.
  • Durch die Erfindung ergibt sich der Vorteil, dass allein durch eine Klassifizierung oder Zuordnung eines Erkennungsergebnisses zu einer Befehlsdomäne erkannt wird, ob eines der Erkennungsergebnisse von einem passenden, spezialisierten Spracherkenner erzeugt wurde. So kann durch den beschriebenen Vergleich dasjenige Erkennungsergebnis ausgewählt oder erkannt werden, das mit der größten Wahrscheinlichkeit richtig und/oder vollständig erkannt wurde.
  • Zu der Erfindung gehören auch optionale Weiterbildungen, durch deren Merkmale sich zusätzliche Vorteile ergeben.
  • Für den Fall, dass nur einem der Erkennungsergebnisse überhaupt eine Befehlsdomäne zuordenbar ist, wird dieses Erkennungsergebnis ausgewählt. Dann müssen nicht die beschriebenen Schritte durchgeführt werden. Mit anderen Worten wird die Überprüfung, ob nur einem der Erkennungsergebnisse eine Befehlsdomäne zuordenbar ist, zuerst durchgeführt. Das Zuordnen einer Befehlsdomäne zu einem Erkennungsergebnis kann unmöglich sein, falls für keines der in dem Erkennungsergebnis enthaltenen erkannten Worte eine vorbestimmte Befehlsdomäne identifiziert wurde oder überhaupt kein erkanntes Wort in dem Erkennungsergebnis enthalten ist.
  • Ein Erkennungsergebnis kann auch semantisch aufgeschlüsselt sein. In dem bereits beschriebenen Beispiel zu dem Sprachbefehl: „Fahre mich zum Restaurant XY!” kann beispielsweise eine semantische Aufschlüsselung dahingehend erfolgen, dass eine Aktion („Fahre”) definiert ist und ein Objekt der Aktion („Restaurant XY”). Anhand des erkannten Wortes „Fahre” kann festgelegt werden, dass zwei semantische Elemente nötig sind, nämlich die Aktion „Fahren” und das Objekt der Aktion, nämlich das Navigationsziel. Semantische Elemente werden auch als Slots bezeichnet. Allgemein kann also vorgesehen sein, dass von jedem Spracherkenner sein Erkennungsergebnis in Abhängigkeit von zumindest einem in dem Sprachsignal erkannten Wort in eine vorbestimmte Anzahl von semantischen Elementen eingeteilt ist. Es wird also festgelegt, dass das Erkennungsergebnis nur vollständig ist, wenn eine vorbestimmte Anzahl von semantischen Elementen (Aktion und zumindest ein Objekt der Aktion) jeweils durch ein erkanntes Wort oder mehrere erkannte Worte beschrieben ist. Zumindest ist einem semantischen Element zumindest ein in dem Sprachsignal erkanntes Wort zugeordnet. Für den Fall, dass es mehrere Domänenübereinstimmungen gibt, also nicht nur ein einziger Spracherkenner, sondern mehrere Spracherkenner ein Erkennungsergebnis mit Domänenübereinstimmung bereitstellen, wird für die Erkennungsergebnisse mit Domänenübereinstimmung ermittelt, ob eine Vollständigkeit dahingehend vorliegt, dass jedem der darin vorgesehenen semantischen Elemente zumindest ein erkanntes Wort zugeordnet ist. Es wird also überprüft, ob ein Erkennungsergebnis auch vollständig ist, d. h. alle zum Ausführen des Sprachbefehls nötigen Informationen, nämlich jedes vorbestimmte semantischen Element, ausgefüllt oder mit zumindest einem erkannten Wort belegt ist. Falls nur bei einem der Erkennungsergebnisse mit Domänenübereinstimmung auch Vollständigkeit vorliegt, wird dieses Erkennungsergebnis ausgewählt. Hierdurch wird eine Rückfrage beim Benutzer vermieden.
  • Für den Fall, dass bei keinem der Erkennungsergebnisse Domänenübereinstimmung und/oder Vollständigkeit erkannt wird oder bei mehreren Erkennungsergebnissen mit Domänenübereinstimmung auch Vollständigkeit erkannt wird, also insgesamt kein Erkennungsergebnis eindeutig ermittelt werden kann, wird zumindest eines der Erkennungsergebnisse auf der Grundlage eines Auswahlkriteriums ausgewählt, das auf einer Erkennungsstatistik basiert. Insbesondere wird nur für diesen Fall auf die Erkennungsstatistik, also die von den Spracherkennern berechneten statistischen Kennzahlen oder Kennwerte zurückgegriffen. Hierdurch ergibt sich der Vorteil, dass man nur für diese Fälle die Erkennungsstatistiken der Spracherkenner miteinander vergleichen muss. Denn dies kann ansonsten insbesondere bei Spracherkennern unterschiedlichen Typs schwierig sein.
  • Das Auswahlkriterium umfasst hierbei insbesondere, dass ein solches oder jedes der Erkennungsergebnisse ausgewählt wird, bei welchem ein durch eine Erkennungsgrammatik bereitgestellter Score-Wert und/oder ein durch einen statistischen Klassifizierer bereitgestellter Konfidenzwert jeweils größer als ein vorbestimmter Schwellenwert ist. Der Score-Wert kann beispielsweise der eingangs beschriebenen Score sein. Ein Konfidenzwert kann beispielsweise eine Angabe zu einer Likelihood sein, wie sie von einem Hidden-Markov-Modell bereitgestellt werden kann. Durch diese Ausführungsform werden all diejenigen Erkennungsergebnisse ausgewählt, die im statistischen Sinn gemäß dem jeweiligen Schwellenwert zuverlässig sind.
  • Das Auswahlkriterium kann auch umfassen, dass mittels einer Priorisierungsvorschrift den Spracherkennern eine Rangfolge zugeordnet wird. Die Priorisierungsvorschrift kann beispielsweise durch einen Benutzer vorgegeben sein. Durch sie wird festgelegt, welcher der Spracherkenner in Bezug auf die zumindest einen anderen Spracherkenner als zuverlässiger eingestuft oder angesehen wird. Es wird dann bevorzugt ein Erkennungsergebnis eines ranghöheren Spracherkenners ausgewählt, also eines Spracherkenners der als zuverlässiger eingestuft wird. Zusätzlich oder alternativ dazu kann vorgesehen sein, dass der besagte Score-Wert und/oder der besagte Konfidenzwert jedes Erkennungsergebnisses mit einem vom Rang des zugehörigen Spracherkenners abhängigen Faktor gewichtet oder multipliziert wird. Hierdurch bleibt der besagte Schwellwertvergleich weiterhin möglich, selbst wenn den Spracherkennern eine Rangfolge zugewiesen ist.
  • Bevorzugt ist vorgesehen, dass zum Ermitteln der Erkennungsergebnisse das Sprachsignal an zumindest einen vorrichtungsinternen Spracherkenner und an zumindest einen vorrichtungsexternen Spracherkenner ausgesendet wird. Hierdurch wird zum einen sichergestellt, dass zumindest ein Spracherkenner auch dann verfügbar ist, wenn keine Kommunikationsverbindung zum Beispiel zum Internet oder zu einem Mobilfunknetz besteht. Des Weiteren wird sichergestellt, dass auch ein Spracherkenner mit umfangreichem Erkennungsvokabular, nämlich ein Online-Spracherkennungsdienst, genutzt werden kann.
  • Zu der Erfindung gehört auch eine Bedienvorrichtung zum Bedienen einer Vorrichtung mittels Sprachbedienung. Insbesondere ist eine Sprachbedienung eines Kraftfahrzeugs vorgesehen. Die Bedieneinrichtung ist dazu eingerichtet, eine Ausführungsform des erfindungsgemäßen Verfahrens. durchzuführen. Insbesondere ist die Bedienvorrichtung für ein Kraftfahrzeug vorgesehen. Die Bedienvorrichtung kann beispielsweise als ein Steuergerät eines Kraftfahrzeugs ausgestaltet sein. Die Bedienvorrichtung ist aber auch in einer anderen Vorrichtung vorsehbar, z. B. in einem portablen, mobilen Endgerät, wie z. B. einem Smartphone, einem Tablet-PC oder einer Smartwatch. Die Bedienvorrichtung kann zum Beispiel einen Prozessoreinrichtung aufweisen, die einen Programmcode aufweist, der beim Ausführen durch die Prozessoreinrichtung eine Ausführungsform des erfindungsgemäßen Verfahrens ausführt. Die Prozessoreinrichtung kann hier zum Beispiel einen Mikroprozessor oder einen Mikrocontroller aufweisen. Der Programmcode kann in einem Speicher der Prozessoreinrichtung gespeichert sein.
  • Zu der Erfindung gehört schließlich auch ein Kraftfahrzeug mit einer Ausführungsform der erfindungsgemäßen Bedienvorrichtung. Das erfindungsgemäße Kraftfahrzeug ist bevorzugt als Kraftwagen, insbesondere als Personenkraftwagen, ausgestaltet.
  • Im Folgenden ist ein Ausführungsbeispiel der Erfindung beschrieben. Hierzu zeigt:
  • 1 eine schematische Darstellung einer Ausführungsform des erfindungsgemäßen Kraftfahrzeugs; und
  • 2 ein Flussschaudiagramm zur Veranschaulichung einer Ausführungsform des erfindungsgemäßen Verfahrens, die von einer Bedienvorrichtung des Kraftfahrzeugs von 1 ausgeführt werden kann.
  • Bei dem im Folgenden erläuterten Ausführungsbeispiel handelt es sich um eine bevorzugte Ausführungsform der Erfindung. Bei dem Ausführungsbeispiel stellen die beschriebenen Komponenten der Ausführungsform jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden und damit auch einzeln oder in einer anderen als der gezeigten Kombination als Bestandteil der Erfindung anzusehen sind. Des Weiteren ist die beschriebene Ausführungsform auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.
  • In den Figuren sind funktionsgleiche Elemente jeweils mit denselben Bezugszeichen versehen.
  • 1 zeigt ein Kraftfahrzeug 10, bei dem es sich um einen Kraftwagen, insbesondere einen Personenkraftwagen, handeln kann. Das Kraftfahrzeug 10 kann eine Bedienvorrichtung 11 aufweisen, mittels welcher ein Benutzer 12 zumindest eine Fahrzeugkomponente 13 des Kraftfahrzeugs 10 bedienen kann. Die Fahrzeugkomponente 13 kann beispielsweise ein Infotainmentsystem (Information-Unterhaltungssystem) des Kraftfahrzeugs 10 sein.
  • Durch die Bedienvorrichtung 11 ist hierbei eine Sprachbedienung der zumindest einen Fahrzeugkomponente 13 ermöglicht. Hierzu kann der Benutzer 12 einen Sprachbefehl 14 aussprechen, welcher als Sprachschall durch eine Mikrofonanordnung 15 des Kraftfahrzeugs 10 empfangen werden kann. Die Mikrofonanordnung 15 kann in bekannter Weise zum Beispiel ein oder mehrere Mikrofone umfassen. Ein Mikrofonsignal 16 der Mikrofonanordnung 15 kann durch die Bedienvorrichtung 11 empfangen werden. Die Bedienvorrichtung 11 kann das Mikrofonsignal 16 selbst oder aus dem Mikrofonsignal 16 erzeugten Erkennungsmerkmale, beispielsweise cepstrale Koeffizienten, als ein Sprachsignal 17 an mehrere Spracherkenner 18, 19 ausgeben. Zumindest einer der Spracherkenner 18, 19 kann ein fahrzeugeigener Spracherkenner sein, was in 1 durch den Spracherkenner 18 symbolisiert ist. Zumindest ein weiterer Spracherkenner 19 kann ein fahrzeugexterner Spracherkenner sein, was in 1 durch den Spracherkenner 19 symbolisiert ist.
  • Das Sprachsignal 17 kann an den fahrzeugexternen Spracherkenner 19 beispielsweise über eine Kommunikationseinrichtung 20 des Kraftfahrzeugs 10 ausgesendet werden. Die Kommunikationseinrichtung 20 kann beispielsweise ein Mobilfunkmodul und/oder ein WLAN-Funkmodul umfassen. Mittels der Kommunikationseinrichtung 20 kann eine Funkverbindung 21 beispielsweise zu einem Mobilfunknetzwerk 22 oder einen WLAN-Router aufgebaut oder bereitgestellt werden. Insgesamt kann somit eine Kommunikationsverbindung 23 zwischen der Bedienvorrichtung 11 und dem Spracherkenner 19 bereitgestellt werden, die auch über das Internet 24 führen kann. Jeder der Spracherkenner 18, 19 wird mit einem vorbestimmten Erkennungsvokabular 25, 26 betrieben. Hierdurch kann jeder der Spracherkenner 18, 19 für eine vorbestimmte Befehlsdomäne, zum Beispiel das Bedienen einer Navigationseinrichtung oder eines Telefons, spezialisiert sein. Es kann auch ein allgemeines Erkennungsvokabular ohne Spezialisierung oder es können mehre Erkennungsvokabularien mit unterschiedlich großem Wortschatz vorgesehen sein, die dann unterschiedliche Grade der Spezialisierung ergeben.
  • Jeder der Spracherkenner 18, 19 soll auf der Grundlage seines Erkennungsvokabulars 25, 26 aus dem Sprachsignal 17 den Sprachbefehl 14 ermitteln. Das hierdurch entstehende jeweilige Erkennungsergebnis 27, 28 hängt dabei vom verwendeten Erkennungsvokabular 25, 26 ab. Es kann sein, dass einer der Spracherkenner 18, 19 den Sprachbefehl 14 gar nicht oder nur teilweise (nur ein Wort oder nur einige Worte) oder vollständig erkennen kann.
  • Um aus zumindest einem der Erkennungsergebnis 27, 28 ein Steuersignal 29 zum Steuern der zumindest einen Fahrzeugkomponente 13 zu erzeugen, wird durch die Bedienvorrichtung 11 zum Beispiel das im Folgenden anhand von 2 veranschaulichte Verfahren durchgeführt. 2 veranschaulicht hierzu, wie durch die Bedienvorrichtung 11 die empfangenen Erkennungsergebnisse verarbeitet werden können, um zumindest eines der Erkennungsergebnisse 27, 28 für die Erzeugung des Steuersignals 29 zugrunde zu legen oder zu nutzen.
  • In 2 ist dazu gezeigt, wie jedes Erkennungsergebnis 27, 28 zum einen eine Erkenneridentifikation aufweisen kann, durch welche derjenige Spracherkenner 18, 19 identifiziert ist, der das jeweilige Erkennungsergebnis 27, 28 erzeugt hat. Damit ist auch die Befehlsdomäne dieses Spracherkenners aufgrund des bekannten Erkennungsvokabulars 25, 26 bekannt. Des Weiteren kann eine Domänenangabe DOM vorgesehen sein, durch welche diejenige Befehlsdomäne identifiziert ist, die dem jeweiligen Erkennungsergebnis 27, 28 zugeordnet worden ist. Die in dem Sprachsignal 17 erkannten Worte können semantisch aufgegliedert sein, indem das jeweilige Erkennungsergebnis 27, 28 ein oder mehrere semantische Elemente E1, E2 aufweist, denen jeweils zumindest eines der erkannten Worte W1, W2 zugeordnet sein kann. Handelt es sich bei dem Erkennungsergebnis 27, 28 beispielsweise um einen Sprachbefehl aus der Befehlsdomäne „Navigationsbedienung”, so kann beispielsweise das erkannte Wort W1 besagen: „Fahre” oder „Navigiere”. Damit steht fest, dass zumindest ein weiteres semantisches Element E2 nötig ist, nämlich das Navigationsziel. Falls dieses ebenfalls durch den Spracherkenner erkannt worden ist, so gibt es auch ein erkanntes Wort W2, das dem semantischen Element E2 erfolgreich zugeordnet worden ist, welches für das Navigationsziel steht. Fehlt das Wort W2, so ist dem semantischen Element E2 kein erkanntes Wort zugeordnet, d. h. es ist leer. Damit ist das Erkennungsergebnis aber unvollständig, da zwar bekannt ist, welche Aktion durchgeführt werden soll, in dem Beispiel nämlich das Navigieren, aber das zugehörige Objekt, in dem Beispiel das Navigationsziel, fehlt.
  • Durch die Bedienvorrichtung 11 kann in einem Schritt S1 zu jedem Erkennungsergebnis überprüft werden, ob diesem erfolgreich eine Domänenangabe DOM zugeordnet worden ist, also eine Befehlsdomäne identifiziert wurde, zu welcher das Erkennungsergebnis gehört. Es kann nun sein, dass keines der Erkennungsergebnisse (0), genau ein Erkennungsergebnis (1) oder mehrere Erkennungsergebnisse (2 ... N) der insgesamt N Erkennungsergebnisse positiv getestet werden. Falls genau einem Erkennungsergebnis eine Befehlsdomäne zugeordnet werden konnte (1), wird in einem Schritt S2 dieses Erkennungsergebnis ausgewählt.
  • Falls mehreren Erkennungsergebnissen erfolgreich eine Befehlsdomäne zugeordnet werden konnte, so wird in einem Schritt S3 überprüft, ob die Befehlsdomäne desjenigen Spracherkenners, der durch die Erkenneridentifikation identifiziert ist, mit der Domänenangabe DOM übereinstimmt. Gibt es nur eine einzige solche Domänenübereinstimmung (1), so wird das zugehörige Erkennungsergebnis im Schritt S2 ausgewählt. Gibt es mehrere Domänenübereinstimmungen, so wird in einem Schritt S4 überprüft, ob es ein Erkennungsergebnis gibt, bei welchem allen vorgesehenen semantischen Elementen E1, E2 ein oder mehrere erkannte Worte W1, W2 zugeordnet worden sind. Trifft dies nur für ein einziges Erkennungsergebnis zu (1), so wird dieses im Schritt S2 ausgewählt.
  • Für den Fall, dass keines der Erkennungsergebnisse eine Domänenübereinstimmung aufweist oder keines der Erkennungsergebnisse Vollständigkeit aufweist (0), d. h. vollständig erkannte semantische Elemente E1, E2 aufweist oder mehrere Erkennungsergebnisse Vollständigkeit aufweisen (2 ... N), so wird in einem Schritt S5 für die Auswahl ein Auswahlkriterium 30 angewendet. Es wird zum Beispiel überprüft, ob ein Score-Wert einer Erkennungsgrammatik bei zumindest einem Erkennungsergebnis größer als ein vorbestimmter Schwellenwert SC0 ist. Zusätzlich oder alternativ dazu kann auch die Auswahl in der beschriebenen Weise auf einer Rangfolge basieren, die durch eine Priorisierungsvorschrift PRIO festgelegt sein kann, wie dies bereits beschrieben worden ist. Wird hierdurch wieder ein einziges Erkennungsergebnis identifiziert (1), so wird dieses im Schritt S2 ausgewählt.
  • Ergeben sich mehrere Erkennungsergebnisse (2 ... N), die das Auswahlkriterium 30 erfüllen, so werden diese in dem Schritt S6 bereitgestellt. Um daraus ein einzelnes Erkennungsergebnis auszuwählen, kann beispielsweise der Befehlskontext berücksichtigt werden. Hierdurch kann ein mehrdeutiger Sprachbefehl eindeutig ausgelegt oder erkannt werden. Lautet der Sprachbefehl beispielsweise „Spiele Lied Nummer 5”, so kann dies das 5. Lied beispielsweise auf einer CD oder in einer MP3-Sammlung sein. Läuft während des Empfangs des Sprachbefehls ein MP3-Abspielgerät, so ist unter Berücksichtigung dieses Bedienkontextes (laufendes MP3-Abspielgerät) das Erkennungsergebnis, welches sich auf das MP3-Abspielgerät bezieht, vorzuziehen oder zu verwenden.
  • Für den Fall, dass keines der Erkennungsergebnisse das Auswahlkriterium 30 erfüllt (0), kann in einem Schritt S7 erneut ein Sprachsignal erfasst werden. Hierzu kann der Benutzer zum Beispiel aufgefordert werden, seinen Sprachbefehl zu wiederholen. Der Schritt S7 kann auch auf den Schritt S1 folgen, falls keinem der Erkennungsergebnisse überhaupt eine Befehlsdomäne zugeordnet werden konnte (0).
  • Insgesamt ist es somit in den Schritten S1, S3, S4 möglich, ein Erkennungsergebnis auszuwählen, ohne überhaupt die erkannten Worte W1, W2 zu überprüfen. Es können die Angaben zur Befehlsdomäne und die Slotbelegung genutzt werden. Ein Spracherkenner kann entsprechende Klassifizierungsergebnisse in seinem Erkennungsergebnis integrieren, durch welche angegeben wird, ob das Erkennungsergebnis von seiner Befehlsdomäne umfasst ist (T – Top-Topic) und/oder ob der Spracherkenner allen vorgesehenen semantischen Elementen E1, E2 zumindest ein erkanntes Wort W1, W2 zuordnen konnte (F – Full-Info). Hierdurch ist dann durch die Bedienvorrichtung 11 lediglich eine Auswertung der Flags T, F in den Schritten S3, S4 nötig.
  • Insgesamt zeigt das Beispiel, wie durch die Erfindung eine Ergebnisarbitrierung oder Ergebnisauswahl bei mehreren parallel laufenden Spracherkennern durchgeführt werden kann.

Claims (10)

  1. Verfahren zum Betreiben mehrerer Spracherkenner (18, 19) und zum Auswählen eines Erkennungsergebnisses (27, 28) aus mehreren Erkennungsergebnissen (27, 28), die von den Spracherkennern (18, 19) in Abhängigkeit von einem Sprachsignal (17), das einen zu erkennenden Sprachbefehl (14) für eine Sprachbedienung einer Vorrichtung enthält, erzeugt werden, wobei die Spracherkenner (18, 19) mit unterschiedlichen Erkennungsvokabularien (25, 26) betrieben werden, dadurch gekennzeichnet, dass – jeder Spracherkenner (18, 19) für eine vorbestimmte Befehlsdomäne spezialisiert ist, indem sein jeweiliges Erkennungsvokabular (25, 26) zum Erkennen von Sprachbefehlen (14) aus der Befehlsdomäne ausgelegt ist, und – jedem Erkennungsergebnis (27, 28) anhand von zumindest einem in dem Erkennungsergebnis (27, 28) enthaltenen Wort (W1, W2), das in dem Sprachsignal (17) erkannt wurde, eine Befehlsdomäne (DOM) zugeordnet wird, und – für die Erkennungsergebnisse (27, 28) aller Spracherkenner (18, 19) jeweils ermittelt wird, ob eine Domänenübereinstimmung dahingehend vorliegt, dass die jeweils dem Erkennungsergebnis (27, 28) zugeordnete Befehlsdomäne (DOM) mit der Befehlsdomäne desjenigen Spracherkenners (18, 19), der das jeweilige Erkennungsergebnis (27, 28) erzeugt hat, übereinstimmt, und – für den Fall, dass es nur eine einzige Domänenübereinstimmung gibt, das zugehörige Erkennungsergebnis (27, 28) ausgewählt wird.
  2. Verfahren nach Anspruch 1, wobei für den Fall, dass nur einem der Erkennungsergebnisse (27, 28) überhaupt eine Befehlsdomäne (DOM) zuordenbar ist, dieses Erkennungsergebnis (27, 28) ausgewählt wird.
  3. Verfahren nach einem der vorhergehenden Ansprüche, wobei – von jedem Spracherkenner (18, 19) sein Erkennungsergebnis (27, 28) in Abhängigkeit von zumindest einem in dem Sprachsignal (17) erkannten Wort (W1, W2) in eine vorbestimmte Anzahl von semantischen Elementen (E1, E2) eingeteilt wird und – zumindest einem semantischen Element (E1, E2) zumindest ein in dem Sprachsignal (17) erkanntes Wort (W1, W2) zugeordnet wird, und – für den Fall, dass es mehrere Domänenübereinstimmungen gibt, für die Erkennungsergebnisse (27, 28) mit Domänenübereinstimmung ermittelt wird, ob eine Vollständigkeit dahingehend vorliegt, dass jedem der darin vorgesehenen semantischen Elemente (E1, E2) zumindest ein erkanntes Wort (W1, W2) zugeordnet ist, und – falls nur bei einem der Erkennungsergebnisse (27, 28) mit Domänenübereinstimmung auch Vollständigkeit vorliegt, dieses Erkennungsergebnis (27, 28) ausgewählt wird.
  4. Verfahren nach Anspruch 3, wobei für den Fall, dass bei keinem der Erkennungsergebnisse (27, 28) Domänenübereinstimmung und/oder Vollständigkeit vorliegt oder bei mehreren der Erkennungsergebnisse (27, 28) mit Domänenübereinstimmung Vollständigkeit vorliegt, zumindest eines der Erkennungsergebnisse (27, 28) auf der Grundlage eines Auswahlkriteriums (30), das auf einer Erkennungsstatistik basiert, ausgewählt wird.
  5. Verfahren nach Anspruch 4, wobei das Auswahlkriterium (30) umfasst, dass jedes der Erkennungsergebnisse (27, 28) ausgewählt wird, bei welchem ein durch eine Erkennungsgrammatik bereitgestellter Score-Wert und/oder ein durch einen statistischen Klassifizierer bereitgestellter Konfidenzwert jeweils größer als ein vorbestimmter Schwellenwert (SCO) ist.
  6. Verfahren nach Anspruch 4 oder 5, wobei das Auswahlkriterium (30) umfasst, dass mittels einer Priorisierungsvorschrift (PRIO) den Spracherkennern (18, 19) eine Rangfolge zugeordnet wird und ein Erkennungsergebnis (27, 28) eines ranghöheren Spracherkenners (18, 19) ausgewählt wird und/oder der Score-Wert und/oder der Konfidenzwert jedes Erkennungsergebnisses (27, 28) mit einem vom Rang des zugehörigen Spracherkenners (18, 19) abhängigen Faktor gewichtet wird.
  7. Verfahren nach einem der vorhergehenden Ansprüche, wobei Erkennungsvokabulare (25, 26) für zumindest eine der folgenden Befehlsdomänen bereitgestellt sind: eine Bedienung einer Navigationseinrichtung, eine Bedienung eines Infotainmentsystems, eine Bedienung einer Telefoneinrichtung, eine Bedienung einer Medienabspieleinrichtung, eine Bedienung einer Sucheinrichtung.
  8. Verfahren nach einem der vorhergehenden Ansprüche, wobei zum Ermitteln der Erkennungsergebnisse (27, 28) das Sprachsignal (17) an zumindest einen vorrichtungsinternen Spracherkenner (18) und an zumindest einen vorrichtungsexternen Spracherkenner (19) ausgesendet wird.
  9. Bedienvorrichtung (11) zum Bedienen einer Vorrichtung mittels Sprachbedienung, wobei die Bedienvorrichtung (11) dazu eingerichtet ist, ein Verfahren nach einem der vorhergehenden Ansprüche durchzuführen.
  10. Kraftfahrzeug (10) mit einer Bedienvorrichtung (11) nach Anspruch 9.
DE102016005731.9A 2016-05-10 2016-05-10 Verfahren zum Betreiben mehrerer Spracherkenner Expired - Fee Related DE102016005731B4 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102016005731.9A DE102016005731B4 (de) 2016-05-10 2016-05-10 Verfahren zum Betreiben mehrerer Spracherkenner

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102016005731.9A DE102016005731B4 (de) 2016-05-10 2016-05-10 Verfahren zum Betreiben mehrerer Spracherkenner

Publications (2)

Publication Number Publication Date
DE102016005731A1 DE102016005731A1 (de) 2017-11-16
DE102016005731B4 true DE102016005731B4 (de) 2018-03-29

Family

ID=60163503

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102016005731.9A Expired - Fee Related DE102016005731B4 (de) 2016-05-10 2016-05-10 Verfahren zum Betreiben mehrerer Spracherkenner

Country Status (1)

Country Link
DE (1) DE102016005731B4 (de)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133346A1 (en) 2001-03-16 2002-09-19 International Business Machines Corporation Method for processing initially recognized speech in a speech recognition session
US20020194000A1 (en) 2001-06-15 2002-12-19 Intel Corporation Selection of a best speech recognizer from multiple speech recognizers using performance prediction
US20130289996A1 (en) 2012-04-30 2013-10-31 Qnx Software Systems Limited Multipass asr controlling multiple applications

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007042971A1 (de) 2007-09-10 2009-03-12 Siemens Ag Spracherkennungsverfahren und Spracherkennungsvorrichtung
WO2014060054A1 (de) 2012-10-16 2014-04-24 Audi Ag Spracherkennung in einem kraftfahrzeug
DE102014210716A1 (de) 2014-06-05 2015-12-17 Continental Automotive Gmbh Assistenzsystem, das mittels Spracheingaben steuerbar ist, mit einer Funktionseinrichtung und mehreren Spracherkennungsmodulen

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133346A1 (en) 2001-03-16 2002-09-19 International Business Machines Corporation Method for processing initially recognized speech in a speech recognition session
US20020194000A1 (en) 2001-06-15 2002-12-19 Intel Corporation Selection of a best speech recognizer from multiple speech recognizers using performance prediction
US20130289996A1 (en) 2012-04-30 2013-10-31 Qnx Software Systems Limited Multipass asr controlling multiple applications

Also Published As

Publication number Publication date
DE102016005731A1 (de) 2017-11-16

Similar Documents

Publication Publication Date Title
DE102013222507B4 (de) Verfahren zum Adaptieren eines Sprachsystems
DE102013223036B4 (de) Adaptionsverfahren für Sprachsysteme
DE102014109121A1 (de) Systeme und Verfahren zur Arbitrierung eines Sprachdialogdienstes
EP3224831B1 (de) Kraftfahrzeug-bedienvorrichtung mit korrekturstrategie für spracherkennung
DE102018113034A1 (de) Stimmenerkennungssystem und stimmenerkennungsverfahren zum analysieren eines befehls, welcher mehrere absichten hat
DE102017220266B3 (de) Verfahren zum Überprüfen eines Onboard-Spracherkenners eines Kraftfahrzeugs sowie Steuervorrichtung und Kraftfahrzeug
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
DE102015213722B4 (de) Verfahren zum Betreiben eines Spracherkennungssystems in einem Fahrzeug und Spracherkennungssystem
DE102009017176A1 (de) Navigationsanordnung für ein Kraftfahrzeug
DE102013222757A1 (de) Adaptionsverfahren und -systeme für Sprachsysteme
DE102018108947A1 (de) Vorrichtung zum Korrigieren eines Äußerungsfehlers eines Benutzers und Verfahren davon
EP1926081A1 (de) Verfahren zur Dialoganpassung und Dialogsystem zur Durchführung
WO2006111230A1 (de) Verfahren zur gezielten ermittlung eines vollständigen eingabedatensatzes in einem sprachdialogsystem
EP3152753B1 (de) Assistenzsystem, das mittels spracheingaben steuerbar ist, mit einer funktionseinrichtung und mehreren spracherkennungsmodulen
EP1238250B1 (de) Spracherkennungsverfahren und -einrichtung
DE102016005731B4 (de) Verfahren zum Betreiben mehrerer Spracherkenner
DE102017211447B4 (de) Verfahren zum Auswählen eines Listeneintrags aus einer Auswahlliste einer Bedienvorrichtung mittels Sprachbedienung sowie Bedienvorrichtung
EP3115886B1 (de) Verfahren zum betreiben eines sprachsteuerungssystems und sprachsteuerungssystem
DE102017213946B4 (de) Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät
DE102014010315B4 (de) Computer-implementiertes Verfahren und Vorrichtung zur Verarbeitung von Spracheingaben
DE102010049869B4 (de) Verfahren zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug und Vorrichtung dazu
DE10129005A1 (de) Verfahren zur Spracherkennung und Spracherkennungssystem
DE102015014206B4 (de) Verfahren und Vorrichtung zum Auswählen eines Navigationsziels aus einer von mehreren Sprachregionen mittels Spracheingabe
DE102008025532B4 (de) Kommunikationssystem und Verfahren zum Durchführen einer Kommunikation zwischen einem Nutzer und einer Kommunikationseinrichtung
DE102016005629B4 (de) Kraftfahrzeug-Bedienvorrichtung und Verfahren zum Ermitteln zumindest eines Erkennungsergebnisses zu einem Sprachsignal

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee