DE102021120246A1

DE102021120246A1 - Spracherkennungssystem

Info

Publication number: DE102021120246A1
Application number: DE102021120246.9A
Authority: DE
Inventors: Victor Orlinskiy; Tianyuan Luo
Original assignee: Bayerische Motoren Werke AG
Current assignee: Bayerische Motoren Werke AG
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2023-02-09
Also published as: WO2023011769A1

Abstract

Es wird ein Spracherkennungssystem für ein Fahrzeug vorgeschlagen, wobei das Spracherkennungssystem zumindest eine Empfangseinheit zum Empfangen einer Spracheingabe von einem Benutzer aufweist, wobei das Spracherkennungssystem eine Bestimmungseinheit, die dazu ausgebildet ist, zumindest eine fahrzeugspezifische Kontextinformation zu bestimmen, und eine Verarbeitungseinheit aufweist, die dazu ausgebildet ist, die Spracheingabe, die ein oder mehrere Schlüsselwörter aufweist, zumindest teilweise zu verarbeiten, wobei die Verarbeitungseinheit des Weiteren dazu ausgebildet ist, basierend auf zumindest einem ersten der Schlüsselwörter und der fahrzeugspezifischen Kontextinformation die Spracheingabe zu interpretieren und eine der Spracheingabe entsprechende Aktion auszuführen.

Description

Die vorliegende Erfindung betrifft ein Spracherkennungssystem für ein Fahrzeug gemäß dem Oberbegriff von Patentanspruch 1. Des Weiteren betrifft die vorliegende Erfindung ein Verfahren zum Erkennen einer Spracheingabe für ein Fahrzeug gemäß dem Oberbegriff von Patentanspruch 10.
Spracherkennungssysteme können für verschiedene Zwecke verwendet werden, in Fahrzeugen beispielsweise zur Steuerung verschiedener Funktionen sowohl innerhalb als auch außerhalb des Fahrzeugs. Hierfür wird ein Sprachbefehl eines Benutzers von dem Spracherkennungssystem empfangen, der mit einem sogenannten Wake-Wort eingeleitet werden. Ein solches Wake-Wort dient dazu, dem Spracherkennungssystem mitzuteilen, dass nun ein Befehl folgt. Nach der Erkennung des Wake-Worts wird für eine bestimmte Zeit die akustische Eingabe, d.h. der Sprachbefehl des Benutzers, aufgenommen.
Dieser Sprachbefehl wird durch ein Sprachmodell analysiert und am Ende wird aus dem Sprachbefehl eine Intention abgeleitet und eine entsprechende Aktion umgesetzt. Durch viele äußere Einflussfaktoren, insbesondere außerhalb eines Fahrzeugs, d.h. Straßengeräusche, andere Fahrzeuge, variable Sprecherposition etc., ist es eine Herausforderung, eine robuste Sprachsteuerung außerhalb eines Fahrzeugs umzusetzen.
Des Weiteren wird üblicherweise bei Spracherkennungssystemen der Sprachbefehl durch ein Speech-zu-Text-Modell analysiert und auf Basis des extrahierten Texts eine Intentionserkennung vorgenommen und daraus die erforderliche Aktion abgeleitet. Solche Modelle erfordern jedoch einen großen Arbeitsspeicher und eine hohe Rechenleistung und werden daher in einem Rechenzentrum, beispielsweise einer Cloud, durchgeführt. Um einen solchen Sprachbefehl interpretieren zu können, wird daher viel Zeit benötigt.
Zwar kann die Zeitdauer reduziert werden, indem ein Modell, insbesondere im Rahmen einer lokalen Berechnung, verwendet wird, das nur wenige Kommandos beherrscht und daher eine schnellere Interpretation zulässt. Allerdings können durch ein solches Sprachmodell nur wenige Befehle ausgeführt werden.
Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, eine sowohl schnelle als auch umfassende Spracherkennung für ein Fahrzeug zu ermöglichen.
Diese Aufgabe wird durch ein Spracherkennungssystem gemäß Patentanspruch 1 sowie ein Verfahren zum Erkennen einer Spracheingabe für ein Fahrzeug gemäß Patentanspruch 10 gelöst.
Das vorgeschlagene Spracherkennungssystem für ein Fahrzeug weist zumindest eine Empfangseinheit zum Empfangen einer Spracheingabe von einem Benutzer auf. Insbesondere ist die Empfangseinheit so ausgebildet, dass sie eine Spracheingabe von einem Benutzer im Außenraum des Fahrzeugs erfassen kann. Durch das Spracherkennungssystem können beliebige Befehle an das Fahrzeug gegeben werden, die sich beispielsweise auf Fahrzeugzugangsfunktionen beziehen können. Hierzu zählen unter anderem das Öffnen/Schließen einer Fahrzeugtür oder das Öffnen/Schließen des Kofferraums.
Die Spracheingabe kann optional mit einem Wake-Wort beginnen, um dem Spracherkennungssystem mitzuteilen, dass nun eine Spracheingabe erfolgt. Dies hat den Vorteil, dass beliebige Geräusche und Unterhaltungen um das Fahrzeug herum nicht durch das Spracherkennungssystem verarbeitet werden, sondern nur tatsächliche Spracheingaben.
Um nun eine schnelle und umfassende Spracherkennung zu ermöglichen, weist das Spracherkennungssystem eine Bestimmungseinheit auf, die dazu ausgebildet ist, zumindest eine fahrzeugspezifische Kontextinformation zu bestimmen. Die fahrzeugspezifische Kontextinformation kann durch Sensoren oder ähnliches bestimmt werden und gibt Informationen über das Fahrzeug an, z.B. einen aktuellen Zustand des Fahrzeugs.
Das Spracherkennungssystem weist des Weiteren eine Verarbeitungseinheit auf, die dazu ausgebildet ist, die empfangene Spracheingabe zumindest teilweise zu verarbeiten. Die Spracheingabe kann insbesondere ein oder mehrere aufweisen, die durch die Verarbeitungseinheit erkannt werden können. Unter Schlüsselwörtern werden in diesem Zusammenhang Worte verstanden, die einen Sinn enthalten und keine reinen Füllwörter darstellen. Beispielsweise bei dem Sprachbefehl „öffne den Kofferraum“ können die Worte „öffne“ und „Kofferraum“ als Schlüsselwörter angesehen werden.
Die Verarbeitungseinheit ist des Weiteren dazu ausgebildet, während der Verarbeitung der Spracheingabe basierend auf zumindest einem ersten der Schlüsselwörter und der fahrzeugspezifischen Kontextinformation die Spracheingabe zu interpretieren und eine der Spracheingabe entsprechende Aktion auszuführen. Die Verarbeitungseinheit verwendet also nicht nur die Spracheingabe selbst, sondern zieht zur Interpretation auch die fahrzeugspezifische Kontextinformation heran. Auf diese Weise kann die Verarbeitungseinheit die Spracheingabe, bzw. die Schlüsselwörter, unter Umständen bereits nach dem ersten oder zumindest wenigen Schlüsselwörtern interpretieren. Somit kann ein Sprachbefehl eines Benutzers schnell verarbeitet und die entsprechende Aktion durchgeführt werden. Im Vergleich zu existierenden Systemen, bei denen eine Interpretation ohne eine solche fahrzeugspezifische Kontextinformation durchgeführt wird, kann somit sehr genau eine Intention des Benutzers bereits zu Beginn der Spracheingabe basierend auf den Schlüsselwörtern und der Kontextinformation erkannt werden.
Gemäß einer Ausführungsform ist die fahrzeugspezifische Kontextinformation ein Zustand des Fahrzeugs, eine Position des Fahrzeugs und/oder eine Umgebungsbedingung des Fahrzeugs. Bei dem Zustand des Fahrzeugs kann es sich beispielsweise um den Zustand der Türen (geöffnet oder geschlossen), der Fenster, der Lichter, des Kofferraums etc. handeln. Ein solcher Zustand des Fahrzeugs kann verwendet werden, um die Schlüsselwörter schnell zu interpretieren, indem der Zustand des Fahrzeugs mitberücksichtigt wird. Lautet die Spracheingabe beispielsweise „schließe die Fahrertür“, und es ist lediglich eine Tür geöffnet und alle anderen Türen, der Kofferraum und die Fenster sind geschlossen, kann die Verarbeitungseinheit bereits nach dem ersten Schlüsselwort, nämlich „schließe“, im Zusammenhang mit der fahrzeugspezifischen Kontextinformation, dass sämtliche Türen sowie der Kofferraum und die Fenster bis auf die Fahrertür geschlossen sind, den Befehl „schließe“ direkt umsetzen, und die Fahrertür schließen. Eine Interpretation des zweiten Schlüsselworts ist nicht mehr nötig. Des Weiteren können hierdurch auch ungenaue Befehle genau interpretiert werden. Lautet die Spracheingabe in dem obigen Beispiel beispielsweise „schließe die Tür“, ohne eine Spezifizierung der Tür, kann die Verarbeitungseinheit aufgrund der fahrzeugspezifischen Kontextinformation trotzdem entscheiden, dass es sich um die Fahrertür handeln muss, da alle anderen Türen bereits geschlossen sind.
Durch das Spracherkennungssystem, das zusätzlich zu einer Spracheingabe auch die fahrzeugspezifische Kontextinformation verwendet, kann also nicht nur die Interpretation der Spracheingabe beschleunigt werden, sondern zusätzlich können auch ungenaue Spracheingaben interpretiert und die richtige Aktion durchgeführt werden.
Weitere fahrzeugspezifische Kontextinformationen können die Position des Fahrzeugs (z.B. steht das Fahrzeug auf einem Parkplatz eines Supermarkts, etc.) und/oder eine sonstige Umgebungsbedingung des Fahrzeugs sein. Wird beispielsweise erkannt, dass die Position des Fahrzeugs ein Supermarktparkplatz ist, kann die Verarbeitungseinheit den Befehl „öffne den Kofferraum“ bereits nach dem Schlüsselwort „öffne“ dahingehend interpretieren, dass der Kofferraum geöffnet wird, da davon auszugehen ist, dass der Benutzer Einkäufe in den Kofferraum laden möchte. Eine Umgebungsbedingung des Fahrzeugs kann beispielsweise eine Innen- oder Außentemperatur, Wetterbedingungen, eine Parkdauer etc. sein. Auch solche Umgebungsbedingungen können dazu verwendet werden, die Spracheingabe bereits nach einem oder wenigen Schlüsselwörtern zu interpretieren.
Gemäß einer weiteren Ausführungsform ist die Bestimmungseinheit dazu ausgebildet, des Weiteren eine benutzerspezifische Kontextinformation zu bestimmen. Eine solche benutzerspezifische Kontextinformation kann beispielsweise die Position des Benutzers, eine Benutzereigenschaft und/oder eine Benutzeridentifikation sein. Solche benutzerspezifischen Kontextinformationen können durch die Empfangseinheit bestimmt werden, beispielsweise unter Verwendung von Schlüsseln, Kameras, Mikrofonen, oder ähnlichem, die eine Position, Identifikation oder ähnliches des Benutzers ermöglicht. Gemäß dieser Ausführungsform ist die Verarbeitungseinheit dazu ausgebildet, die Spracheingabe nicht nur unter Verwendung der fahrzeugspezifischen, sondern auch der benutzerspezifischen Kontextinformation zu interpretieren. Durch die zusätzliche Verwendung einer solchen benutzerspezifischen Kontextinformation kann die Spracherkennung weiter verbessert werden. Wird beispielsweise erkannt, dass sich der Benutzer in der Nähe des Kofferraums befindet, kann der Sprachbefehl „öffne den Kofferraum“ bereits nach dem Wort „öffne“ als „öffne den Kofferraum“ interpretiert werden. In diesem Fall wird aufgrund der Position des Benutzers darauf geschlossen, was zu öffnen ist.
Gemäß einer weiteren Ausführungsform weist die Empfangseinheit mehrere Mikrofone auf, die an verschiedenen Positionen des Fahrzeugs angeordnet sind. Durch die verschiedenen Mikrofonpositionen kann die Bestimmungseinheit basierend auf einem Empfangen der Mikrofone eine Position des Benutzers bestimmen. Insbesondere können hierzu Mikrofon-Arrays verwendet werden, die aus einer Anordnung von zwei oder mehr Mikrofonen in einer bestimmten geometrischen Konfiguration bestehen. Je nachdem, welches der Mikrofone zuerst die Spracheingabe des Benutzers empfängt, kann basierend darauf eine Position des Benutzers bestimmt werden. Ebenfalls kann die Lautstärke, mit der eine Spracheingabe empfangen wird, zur Bestimmung der Position verwendet werden.
Gemäß einer weiteren Ausführungsform ist die Bestimmungseinheit dazu ausgebildet, basierend auf der Spracheingabe den Benutzer zu identifizieren. Eine solche Identifizierung kann durch Erkennen der Stimme und Vergleich mit einer gespeicherten Stimmprobe durchgeführt werden. Indem die Bestimmungseinheit den Benutzer identifiziert, kann zum einen die Sicherheit des Systems verbessert werden. Beispielsweise kann nur bei einer korrekten Identifizierung des Benutzers die Spracheingabe verarbeitet werden. Des Weiteren kann die Identifizierung des Benutzers als benutzerspezifische Kontextinformation verwendet werden, um die Spracheingabe zu interpretieren.
Die Identifizierung des Benutzers kann auch durchgeführt werden, indem jeder Benutzer ein spezielles Wake-Wort verwendet. Diese Wörter können den verschiedenen Benutzern des Spracherkennungssystems eindeutig zugeordnet sein, sodass durch Verwendung eines speziellen Worts zu Beginn der Spracheingabe das Spracherkennungssystem bzw. die Bestimmungseinheit basierend darauf den Benutzer identifizieren kann.
Gemäß einer weiteren Ausführungsform ist die Verarbeitungseinheit dazu ausgebildet, einen Erkennungsgrad der Spracheingabe nach Interpretation des ersten Schlüsselworts zu bestimmen, und, wenn der Erkennungsgrad größer als ein vordefinierter Schwellwert ist, die der Spracheingabe entsprechende Aktion auszuführen. Der Schwellwert kann beispielsweise 90 % oder höher sein. Wenn die Verarbeitungseinheit nach Interpretation des ersten Schlüsselworts in Kombination mit der fahrzeugspezifischen Kontextinformation und eventuell einer benutzerspezifischen Kontextinformation feststellt, dass es sich mit einer gewissen Wahrscheinlichkeit um einen bestimmten Befehl handelt, und diese Wahrscheinlichkeit beispielsweise größer als 90 % ist, kann die Spracheingabe entsprechend interpretiert und die korrespondierende Aktion ausgeführt werden.
Wenn die Verarbeitungseinheit jedoch bestimmt, dass der Erkennungsgrad nach der Interpretation des ersten Schlüsselworts kleiner als der vordefinierte Schwellwert ist, kann die Verarbeitungseinheit ein zweites Schlüsselwort interpretieren und wiederum den Erkennungsgrad bestimmen. Dies kann so lange wiederholt werden, bis der Erkennungsgrad größer als der vordefinierte Schwellwert ist. Das bedeutet, dass die Verarbeitungseinheit so lange weitere Schlüsselwörter der Spracheingabe interpretiert, bis sie feststellt, das mit einer ausreichenden Wahrscheinlichkeit ein bestimmter Befehl erkannt wird. Sollten nicht genug Schlüsselwörter vorhanden sein, um die Spracheingabe interpretieren zu können, kann die Verarbeitungseinheit beispielsweise ein Signal an den Benutzer ausgegeben, damit dieser eine erneute Spracheingabe vornimmt oder die Spracheingabe weiter spezifiziert.
Alternativ kann die Verarbeitungseinheit die Interpretation der Schlüsselwörter nach einer vorgegebenen Zeitdauer abbrechen. Das bedeutet, dass die Verarbeitungseinheit (auch für den Fall, dass noch weitere Schlüsselwörter in der Spracheingabe enthalten sind) die Interpretation abbrechen, wenn die dafür benötigte Zeit eine vorgegebene Zeitdauer überschreitet. Auf diese Weise kann der Benutzer nach einer für ihn nachvollziehbaren Zeitspanne, die vorzugsweise immer gleich ist, davon ausgehen, dass der Sprachbefehl nicht interpretiert werden konnte.
Gemäß einem weiteren Aspekt wird ein Verfahren zum Erkennen einer Spracheingabe für ein Fahrzeug vorgeschlagen. Das Verfahren weist die folgenden Schritte auf: Empfangen einer Spracheingabe von einem Benutzer, Bestimmen zumindest einer fahrzeugspezifischen Kontextinformation, zumindest teilweise Verarbeiten der Spracheingabe, die ein oder mehrere Schlüsselwörter aufweist, Interpretieren der Spracheingabe basierend auf zumindest einem ersten der Schlüsselwörter und der fahrzeugspezifischen Kontextinformation und Ausführen einer der Spracheingabe entsprechenden Aktion.
Die für das vorgeschlagene Spracherkennungssystem beschriebenen Ausführungsformen und Merkmale gelten für das vorgeschlagene Verfahren entsprechend.
Weiterhin wird ein Computerprogrammprodukt vorgeschlagen, welches einen Programmcode aufweist, der dazu ausgebildet ist, auf einem Computer die Durchführung des wie oben erläuterten Verfahrens zu veranlassen.
Ein Computerprogrammprodukt, wie z.B. ein Computerprogramm-Mittel, kann beispielsweise als Speichermedium, wie z.B. Speicherkarte, USB-Stick, CD-ROM, DVD, oder auch in Form einer herunterladbaren Datei von einem Server in einem Netzwerk bereitgestellt oder geliefert werden. Dies kann z.B. in einem drahtlosen Kommunikationsnetzwerk durch die Übertragung einer entsprechenden Datei mit dem Computerprogrammprodukt oder dem Computerprogramm-Mittel erfolgen.
Weitere mögliche Implementierungen der Erfindung umfassen auch nicht explizit genannte Kombinationen von zuvor oder im Folgenden bezüglich der Ausführungsbeispiele beschriebenen Merkmale oder Ausführungsformen. Dabei wird der Fachmann auch Einzelaspekte als Verbesserungen oder Ergänzungen zu der jeweiligen Grundform der Erfindung hinzufügen.
Weitere Vorteile und vorteilhafte Ausführungsformen sind in der Beschreibung, den Zeichnungen und den Ansprüchen angegeben. Dabei sind insbesondere die in der Beschreibung und in den Zeichnungen angegebenen Kombinationen der Merkmale rein exemplarisch, so dass die Merkmale auch einzeln oder anders kombiniert vorliegen können.
Im Folgenden soll die Erfindung anhand von in den Zeichnungen dargestellten Ausführungsbeispielen näher beschrieben werden. Dabei sind die Ausführungsbeispiele und die in den Ausführungsbeispielen gezeigten Kombinationen rein exemplarisch und sollen nicht den Schutzbereich der Erfindung festlegen. Dieser wird allein durch die anhängigen Ansprüche definiert.
Es zeigen:

1: eine schematische Ansicht eines Fahrzeugs mit einem Spracherkennungssystem;
2: ein schematisches Blockdiagramm des Spracherkennungssystems von 1;
3: ein schematisches Ablaufdiagramm einer Spracherkennung, die durch das Spracherkennungssystem von 2 durchgeführt wird; und
4: ein weiteres Ausführungsbeispiel eines beispielhaften Ablaufdiagramms einer Spracherkennung, die durch das Spracherkennungssystem von 2 durchgeführt wird.

Im Folgenden werden gleiche oder funktionell gleichwirkende Elemente mit denselben Bezugszeichen gekennzeichnet.
1 zeigt ein Fahrzeug 1, das ein Spracherkennungssystems 10 aufweist. Das Spracherkennungssystem 10 kann beispielsweise dazu verwendet werden, verschiedene Funktionen des Fahrzeugs 1 zu steuern. Um eine Spracheingabe eines Benutzers zu empfangen, weist das Spracherkennungssystem 10 eine Empfangseinheit auf, die verschiedene Mikrofone M1 bis M3 enthalten kann.
Die Mikrofone M1 bis M3 sind hier nur beispielhaft gezeigt. Sie können auch an anderen Positionen des Fahrzeugs 1 angeordnet sein und es können mehr oder weniger als drei Mikrofone M1 bis M3 sein.
Wie in 1 gezeigt ist, ist das Mikrofon M2 als Mikrofonarray mit zwei getrennten Mikrofonen ausgebildet. Die anderen Mikrofone M1, M3 können ebenfalls als Mikrofonarray ausgebildet sein. Die Mikrofone M1 bis M3 können ebenfalls in Kombination als Mikrofonarray realisiert werden. Ein solches Array kann zum einen aufgrund der spezifischen geometrischen Konfiguration zueinander eine genaue Bestimmung der Position eines Benutzers ermöglichen und kann zum anderen die Genauigkeit der Erfassung der Spracheingabe verbessern, da auch bei Abdeckung eines Mikrofons die anderen Mikrofone des Arrays die Spracheingabe noch erfassen können.
Das Spracherkennungssystem 10 weist eine Empfangseinheit 12 auf, wie in 2 gezeigt ist. Die Empfangseinheit 12 kann beispielsweise die Mikrofone M1 bis M3 aufweisen, um die Spracheingabe 2 zu empfangen. Die Empfangseinheit 12 kann weitere Mikrofone (nicht gezeigt) aufweisen oder kann in einem mobilen Gerät, wie beispielsweise einem Mobiltelefon, implementiert sein, welches die Spracheingabe an das Fahrzeug 1 überträgt.
Nach Empfangen der Spracheingabe 2 bestimmt eine Bestimmungseinheit 14 des Spracherkennungssystems 10 zumindest eine fahrzeugspezifische Kontextinformation. Eine solche fahrzeugspezifische Kontextinformation kann beispielsweise ein Zustand des Fahrzeugs, eine Position des Fahrzeugs und/oder eine Umgebungsbedingungen des Fahrzeugs 1 sein. Die Bestimmungseinheit 12 kann des Weiteren eine benutzerspezifische Kontextinformation bestimmen, wie beispielsweise eine Position des Benutzers, oder eine Benutzeridentifikation. Insbesondere die Position des Benutzers kann unter Verwendung der Mikrofone M1 bis M3 bestimmt werden, indem die Empfangseinheit 12 in Zusammenwirkung mit der Bestimmungseinheit 14 ermittelt, welches der Mikrofone M1 bis M3 die Spracheingabe 2 am lautesten und/oder am schnellsten empfängt.
Eine Verarbeitungseinheit 16 des Spracherkennungssystems 10 kann basierend auf der fahrzeugspezifischen Kontextinformation sowie auf einem oder mehreren Schlüsselwörtern, die in der Spracheingabe enthalten sind, die Spracheingabe interpretieren und eine der Spracheingabe entsprechende Aktion 4 ausführen.
Eine Interpretation der Spracheingabe ist beispielhaft in den 3 und 4 gezeigt.
In 3 besteht die Spracheingabe aus einem Wake-Wort W sowie einem ersten Schlüsselwort A2 und einem zweiten Schlüsselwort B3. Beispielsweise kann die Spracheingabe also lauten: „Hallo Auto, öffne den Kofferraum“. „Hallo Auto“ entspricht in diesem Fall dem Wake-Wort W, „öffne“ entspricht dem ersten Schlüsselwort A2 und „Kofferraum“ entspricht dem zweiten Schlüsselwort B3.
Die Verarbeitungseinheit 16 erfasst das Wake-Wort W und durchsucht anschließend einen ersten Datensatz A von Schlüsselwörtern A1, A2, A3, A4... nach dem ersten Schlüsselwort A2. Insbesondere kann die Verarbeitungseinheit 16 entscheiden, mit welcher Wahrscheinlichkeit das erste Schlüsselwort welchem der Schlüsselwörtern A1, A2, A3, A4... entspricht und das Schlüsselwort mit der höchsten Wahrscheinlichkeit, in diesem Fall A2, als Treffer für das erste Schlüsselwort auswählt.
Nachdem die Verarbeitungseinheit 16 das erste Schlüsselwort A2 identifiziert hat, stellt die Verarbeitungseinheit 16 in diesem Fall fest, dass mit dem Wort „öffne“ kein ausreichender Erkennungsgrad vorliegt, um eine entsprechende Aktion 4 durchzuführen.
Daher fährt die Verarbeitungseinheit 16 damit fort, die Spracheingabe 2 weiter zu interpretieren. Die verschiedenen Schlüsselwörter A1, A2, A3, A4... sind jeweils mit einem zweiten Datensatz B oder C verknüpft. Beispielsweise können die Schlüsselwörter A1 (z.B. schließe) und A2 (z.B. öffne) mit dem zweiten Datensatz B verknüpft sein, der Teile des Fahrzeugs enthält, die geöffnet oder geschlossen werden können. Das Schlüsselwort A3 (z.B. starte) kann mit einem weiteren Datensatz C verknüpft sein, der Elemente des Fahrzeugs 1 enthält, die gestartet werden können, wie z.B. den Motor. Die Verarbeitungseinheit 16 kann daher ausgehend von den Schlüsselwörtern A1, A2 direkt zu dem Datensatz B springen, da nur dieser Datensatz in Kombination mit den Schlüsselwörtern A1, A2 eine sinnvolle Spracheingabe 2 darstellt.
Bei Durchsuchen des Datensatzes B erkennt die Verarbeitungseinheit 16, dass es sich bei dem zweiten Schlüsselwort „Kofferraum“ um das Schlüsselwort B3 handelt. Durch die Kombination der Schlüsselwörter A2 und B3 (d.h. „öffne“ plus „Kofferraum“) kann die Verarbeitungseinheit 16 die entsprechende Aktion 4 durchführen, d.h. den Kofferraum öffnen.
Sollte die Verarbeitungseinheit 16 bereits nach der Interpretation des ersten Schlüsselworts A2 in Kombination mit einer fahrzeugspezifischen Kontextinformation oder einer benutzerspezifischen Kontextinformation erkennen, dass es sich bei dem zu öffnenden Element nur um den Kofferraum handeln kann, kann die Aktion 4 bereits nach der Interpretation des Schlüsselworts A2 durchgeführt werden, ohne dass noch ein weiterer Datensatz durchsucht werden muss.
Wird beispielsweise durch die Bestimmungseinheit 14 erkannt, dass bis auf den Kofferraum alle anderen Türen oder Fenster des Fahrzeugs 1 bereits geöffnet sind, kann es sich nur noch um den Kofferraum handeln. Des Weiteren kann die Bestimmungseinheit 14 erkennen, dass der Benutzer vor dem Kofferraum des Fahrzeugs 1 steht, und die Verarbeitungseinheit 16 kann durch diese benutzerspezifische Kontextinformation den Befehl „öffne den Kofferraum“ bereits nach dem Schlüsselwort „öffne“ (A2) dahingehend interpretieren, dass der Kofferraum geöffnet werden soll. Auch in diesem Fall kann die Verarbeitungseinheit bereits nach der Interpretation des Schlüsselworts A2 die Aktion 4 durchführen.
In 4 ist eine weitere Variante einer Spracherkennung gezeigt, wie sie durch das Spracherkennungssystem 10 durchgeführt werden kann. In diesem Fall kann die Verarbeitungseinheit 16 nach der Erkennung des Wake-Wortes W parallel zwei Datensätze A und B durchsuchen. Jeder der Datensätze A und B führt zu weiteren Datensätzen C, D, E, wobei hier nur für den Datensatz B beispielhaft weitere Datensätze gezeigt sind. Durch die Aufteilung auf mehrere parallele Datensätze A, B können diese parallel durchsucht werden, wodurch die Verarbeitung des ersten Schlüsselworts beschleunigt wird. Eine solche parallele Verarbeitung kann auch für weitere, nachgeordnete Datensätze durchgeführt werden.
Wie im Zusammenhang mit 3 beschrieben, kann die Verarbeitungseinheit 16 nach der Interpretation des ersten Schlüsselwortes, in diesem Fall B2, entscheiden, ob die Spracheingabe 2 bereits mit einer ausreichenden Wahrscheinlichkeit interpretiert werden kann, und eine entsprechende Aktion 4 durchführen. Wenn die Wahrscheinlichkeit noch nicht ausreicht, kann die Verarbeitungseinheit 16 nach dem Schlüsselwort B2 das nächste Schlüsselwort, in diesem Fall D3 verwenden, um die Spracheingabe 2 weiter zu interpretieren. Auch in diesem Fall kann eine fahrzeugspezifische Kontextinformation, und eventuell eine benutzerspezifische Kontextinformation, verwendet werden, um die Spracheingabe 2 weiter zu interpretieren, ohne alle Schlüsselwörter B2, D3 zu benötigen.
Durch das hier beschriebene Spracherkennungssystem ist es somit möglich, eine schnelle Spracherkennung durchzuführen, da die Spracheingabe durch Verwendung von bereits wenigen Schlüsselwörtern in Kombination mit einer fahrzeugspezifischen Kontextinformation, und eventuell einer weiteren benutzerspezifischen Kontextinformation, interpretiert werden kann.
Bezugszeichenliste

1: Fahrzeug
2: Spracheingabe
4: Aktion
10: Spracherkennungssystem
12: Empfangseinheit
14: Bestimmungseinheit
16: Verarbeitungseinheit
A, B, C, D, E: Datensätze
M1, M2, M3: Mikrofone
W: Wake-Wort

Claims

Spracherkennungssystem (10) für ein Fahrzeug (1), wobei das Spracherkennungssystem (10) zumindest eine Empfangseinheit (12) zum Empfangen einer Spracheingabe (2) von einem Benutzer aufweist, dadurch gekennzeichnet, dass das Spracherkennungssystem (10) eine Bestimmungseinheit (14), die dazu ausgebildet ist, zumindest eine fahrzeugspezifische Kontextinformation zu bestimmen, und eine Verarbeitungseinheit (16) aufweist, die dazu ausgebildet ist, die Spracheingabe (2), die ein oder mehrere Schlüsselwörter aufweist, zumindest teilweise zu verarbeiten, wobei die Verarbeitungseinheit (16) des Weiteren dazu ausgebildet ist, basierend auf zumindest einem ersten der Schlüsselwörter und der fahrzeugspezifischen Kontextinformation die Spracheingabe (2) zu interpretieren und eine der Spracheingabe (2) entsprechende Aktion (4) auszuführen.
Spracherkennungssystem gemäß Anspruch 1, wobei die fahrzeugspezifische Kontextinformation ein Zustand des Fahrzeugs (1), eine Position des Fahrzeugs (1) und/oder eine Umgebungsbedingung des Fahrzeugs (1) ist.
Spracherkennungssystem gemäß einem der vorhergehenden Ansprüche, wobei die Bestimmungseinheit (14) dazu ausgebildet ist, des Weiteren eine benutzerspezifische Kontextinformation zu bestimmen und wobei die Verarbeitungseinheit (16) dazu ausgebildet ist, die Spracheingabe (2) des Weiteren unter Verwendung der benutzerspezifischen Kontextinformation zu interpretieren.
Spracherkennungssystem gemäß Anspruch 3, wobei die benutzerspezifische Kontextinformation eine Position des Benutzers, eine Benutzereigenschaft und/oder eine Benutzeridentifikation ist.
Spracherkennungssystem gemäß einem der vorhergehenden Ansprüche, wobei die Empfangseinheit (12) mehrere Mikrofone (M1, M2, M3) aufweist, die an verschiedenen Positionen des Fahrzeugs (1) angeordnet sind, wobei die Bestimmungseinheit (14) dazu ausgebildet ist, basierend auf einem Empfang der Mikrofone (M1, M2, M3) eine Position des Benutzers zu bestimmen.
Spracherkennungssystem gemäß einem der vorhergehenden Ansprüche, wobei die Bestimmungseinheit (14) dazu ausgebildet ist, basierend auf der Spracheingabe (2) den Benutzer zu identifizieren.
Spracherkennungssystem gemäß einem der vorhergehenden Ansprüche, wobei die Verarbeitungseinheit (16) dazu ausgebildet ist, einen Erkennungsgrad der Spracheingabe (2) nach Interpretation des ersten Schlüsselworts zu bestimmen, und wenn der Erkennungsgrad größer als ein vordefinierter Schwellwert ist, die der Spracheingabe (2) entsprechende Aktion (4) auszuführen.
Spracherkennungssystem gemäß Anspruch 7, wobei die Verarbeitungseinheit (16) dazu ausgebildet ist, wenn der Erkennungsgrad nach der Interpretation des ersten Schlüsselworts kleiner als der vordefinierte Schwellwert ist, ein zweites Schlüsselwort zu interpretieren und den Erkennungsgrad zu bestimmen.
Spracherkennungssystem gemäß Anspruch 8, wobei die Verarbeitungseinheit (16) dazu ausgebildet ist, so lange weitere Schlüsselwörter der Spracheingabe (2) zu interpretieren, bis der Erkennungsgrad größer als der vordefinierte Schwellwert ist, und/oder bis eine vorgegebene Zeitdauer überschritten ist.
Verfahren zum Erkennen einer Spracheingabe (2) für ein Fahrzeug (1), wobei das Verfahren das Empfangen einer Spracheingabe (2) von einem Benutzer aufweist, dadurch gekennzeichnet, dass das Verfahren des Weiteren aufweist: Bestimmen zumindest einer fahrzeugspezifischen Kontextinformation, zumindest teilweise Verarbeiten der Spracheingabe (2), die ein oder mehrere Schlüsselwörter aufweist, Interpretieren der Spracheingabe (2) basierend auf zumindest einem ersten der Schlüsselwörter und der fahrzeugspezifischen Kontextinformation und Ausführen einer der Spracheingabe (2) entsprechenden Aktion (4).