-
Die vorliegende Erfindung betrifft eine Sprachsteuerung an Bord eines Fahrzeugs. Insbesondere betrifft die Erfindung die Steuerung einer Funktion an Bord des Fahrzeugs in Abhängigkeit einer Spracheingabe.
-
Ein Fahrzeug ist dazu eingerichtet, eine Spracheingabe einer Person an Bord zu erfassen und eine der Spracheingabe zugeordnete Funktion zu steuern. Dazu kann das Fahrzeug über eines oder mehrere Mikrofone verfügen, um die sprachliche Äußerung der Person aufzuzeichnen. Durch die Spracherkennung kann die Person, insbesondere ein Fahrer, auch einen komplexen Befehl geben, ohne seine Hände von einem Lenkrad zu nehmen oder seinen Blick von einem Geschehen außerhalb des Fahrzeugs abzuwenden. So kann der Fahrer beispielsweise sprachlich einen gewünschten Zielpunkt in ein Navigationssystem eingeben und eine Routenführung zu dem Zielpunkt aktivieren.
-
Häufig befinden sich mehrere Personen an Bord des Fahrzeugs und eine Spracheingabe einer Person kann durch ein Geräusch oder eine sprachliche Äußerung einer anderen Person gestört werden. Die Bedienbarkeit der Fahrzeugfunktion kann dadurch gestört sein. Es wurde vorgeschlagen, mehrere Mikrofone an Bord des Fahrzeugs anzubringen, um verbessert Sprachsignale nur einer Person ausfiltern zu können. Eine Verarbeitung der durch die Mikrofone aufgezeichneten akustischen Signale hat sich jedoch als aufwendig erwiesen und in der Praxis kann eine Spracheingabe trotzdem gelegentlich nicht verstanden oder nicht der sprechenden Person zugeordnet werden.
-
Eine der vorliegenden Erfindung zugrunde liegende Aufgabe besteht in der Angabe einer verbesserten Technik zur Sprachsteuerung einer Funktion an Bord eines Fahrzeugs. Die Erfindung löst diese Aufgabe mittels der Gegenstände der unabhängigen Ansprüche. Unteransprüche geben bevorzugte Ausführungsformen wieder.
-
Nach einem ersten Aspekt der vorliegenden Erfindung umfasst ein Verfahren zum Erkennen einer gesprochenen Benutzereingabe an Bord eines Fahrzeugs Schritte des akustischen Erfassens einer Spracheingabe; des optischen Erfassens von Lippenbewegungen eines Benutzers an Bord des Fahrzeugs; und des Bestimmens eines der Benutzereingabe zugeordneten Benutzers auf der Basis einer Korrelation der Spracheingabe mit den Lippenbewegungen.
-
Erfindungsgemäß kann durch die Bestimmung der Korrelation verbessert nur eine sprachliche Äußerung eines einzigen Benutzers verarbeitet werden. Eine gleichzeitige Äußerung eines anderen Benutzers oder einer anderen Person an Bord des Fahrzeugs kann verbessert ignoriert werden. Eine Erkennungsrate von Spracheingaben an Bord des Fahrzeugs kann gesteigert sein. Außerdem kann eine Rate von Falscherkennungen gesenkt werden. Eine nicht beabsichtigte Funktion kann so verbessert nicht ausgelöst werden.
-
In einer bevorzugten Ausführungsform wird die Benutzereingabe auf der Basis der Spracheingabe und der Lippenbewegungen erkannt. Dabei können einzelne Laute, Silben oder Worte sowohl akustisch als auch optisch erkannt werden. Akustische Störungen können verbessert ausgefiltert werden. So kann auch ein längerer oder schwierig zu artikulierender Sprachbefehl verbessert erkannt werden.
-
In einer weiter bevorzugten Ausführungsform wird die Benutzereingabe nur von einem vorbestimmten Benutzer an Bord des Fahrzeugs erkannt. Dieser Benutzer kann insbesondere derjenige sein, dessen Lippenbewegungen optisch erfasst wurden. Wird eine Spracheingabe erkannt, ohne dass der Benutzer seine Lippen bewegt, so kann diese verworfen werden. Eine Erkennung oder Ausführung des Sprachbefehls können dann unterbleiben.
-
In einer weiteren Ausführungsform wird die Benutzereingabe nur von einem Benutzer an einer vorbestimmten Position des Fahrzeugs erkannt. Diese Position kann beispielsweise ein Fahrersitz des Fahrzeugs sein, sodass nur eine Spracheingabe eines Fahrers erkannt werden kann. Das Verfahren kann mehrfach bezüglich unterschiedlicher Benutzer bzw. unterschiedlicher Positionen an Bord des Fahrzeugs ausgeführt werden. So können akustische Äußerungen mehrerer Personen an Bord, die sich auch überlagern können, auf optischem Weg verbessert voneinander separiert werden. Beispielsweise kann eine Äußerung eines Kindes ausgefiltert und ein Sprachbefehl einer erwachsenen Person akzeptiert werden. Optional können mehrere Sprachbefehle erkannt werden, die von unterschiedlichen Benutzern an Bord des Fahrzeugs gleichzeitig gegeben werden.
-
In einer weiteren Ausführungsform kann die Benutzereingabe auf den Benutzer bezogen werden, dessen Lippenbewegungen erfasst und mit der Spracheingabe korreliert werden konnten. So kann eine benutzer- oder positionsspezifische Spracheingabe verbessert erkannt werden. Die Spracheingabe kann beispielsweise eine Richtungseingabe umfassen (z. B. ich, mein, hier, vorne, links, nach Hause etc.), wobei diese Angabe durch Bezug auf den Benutzer bzw. die von ihm eingenommen Position verbessert ausgewertet bzw. erkannt werden kann. Die Spracheingabe kann auch inhärent auf den Benutzer oder seine Position bezogen sein. Beispielsweise kann ein Benutzer eine elektrische Sitzverstellung aktivieren, ohne die Position seines Sitzes explizit anzugeben. Der Sitz kann vielmehr auf der Basis des Benutzers bestimmt werden, dessen Lippenbewegungen erfasst wurden. In entsprechender Weise kann beispielsweise ein Fenster oder eine Tür im Bereich des Benutzers geöffnet oder verschlossen, verriegelt oder entriegelt werden. Auch andere Funktionen, die sich auf eine Position oder Identität des Benutzers beziehen, können durch die beschriebene Korrelation verbessert gesteuert werden.
-
Es ist bevorzugt, dass die Benutzereingabe einen Sprachbefehl umfasst, wobei der Sprachbefehl ausgeführt werden kann. Insbesondere kann der Sprachbefehl die Steuerung einer Komponente oder eines Systems an Bord des Fahrzeugs betreffen. Bestimmte Funktionen können einem vorbestimmten Benutzer oder einem Benutzer auf einer vorbestimmten Position vorbehalten sein. So kann beispielsweise das Navigationssystem nur von Benutzern in der ersten Sitzreihe, die Klimaanlage hingegen von jeder Person an Bord des Fahrzeugs bedienbar sein. Andere Zuordnungen sind ebenfalls möglich.
-
In einer weiteren Ausführungsform kann ein Geräusch, das nicht zu Lippenbewegungen des bestimmen Benutzers korreliert, vor dem Erkennen der Spracheingabe ausgefiltert werden. So kann auf akustischer Ebene ein Laut, ein Geräusch oder eine Melodie ausgefiltert werden, die nicht zu Lippenbewegungen des bestimmten Benutzers korrelieren. In einer Ausführungsform kann eine Spracheingabe eines anderen Benutzers auf der Basis von dessen erkannten Lippenbewegungen bestimmt und ausgefiltert werden. Das Ausfiltern kann insbesondere auf Sprache bezogen sein, sodass eine Äußerung einer anderen Person an Bord des Fahrzeugs oder gesprochener Text aus einem Unterhaltungssystem verbessert unterdrückt werden können.
-
Nach einem weiteren Aspekt der vorliegenden Erfindung umfasst eine Steuervorrichtung für ein Fahrzeug ein Mikrofon zur akustischen Erfassung einer Spracheingabe; eine Kamera zur optischen Erfassung von Lippenbewegungen eines Benutzers an Bord des Fahrzeugs; und eine Verarbeitungseinrichtung, die dazu eingerichtet ist, einen der Benutzereingabe zugeordneten Benutzer auf der Basis einer Korrelation der Spracheingabe mit den Lippenbewegungen zu bestimmen.
-
Die Verarbeitungseinrichtung ist bevorzugt dazu eingerichtet, ein hierin beschriebenes Verfahren teilweise oder vollständig auszuführen. Die Verarbeitungseinrichtung kann einen programmierbaren Mikrocomputer oder Mikrocontroller umfassen und das Verfahren kann in Form eines Computerprogrammprodukts mit Programmcodemitteln vorliegen. Das Computerprogrammprodukt kann auf einem computerlesbaren Datenträger abgespeichert sein. Merkmale oder Vorteile des Verfahrens können auf die Vorrichtung übertragen werden oder umgekehrt.
-
Die Steuervorrichtung kann in einer ersten Variante dazu verwendet werden, eine Spracheingabe eines vorbestimmten Benutzers zu erkennen. In einer zweiten Variante kann die Steuervorrichtung dazu verwendet werden, unter mehreren Personen an Bord des Fahrzeugs einen Benutzer zu finden, dessen Spracheingabe erfasst wurde.
-
Die Steuervorrichtung umfasst bevorzugt ein künstliches neuronales Netzwerk (KNN), das dazu eingerichtet ist, den Sprachbefehl zu erkennen. Das KNN kann insbesondere durch die Verarbeitungseinrichtung gebildet sein. In einer bevorzugten Ausführungsform wird das KNN bezüglich erfolgreicher Erkennungen von Spracheingaben weiter trainiert, sodass seine Erkennungsrate oder Trennschärfe über die Zeit ansteigen kann.
-
Die Benutzereingabe kann einen Sprachbefehl umfassen, der sich auf eine Funktion des Fahrzeugs bezieht. Die Steuervorrichtung ist bevorzugt dazu eingerichtet, den Sprachbefehl am Fahrzeug auszuführen. Dazu kann eine akustische, optische oder haptische Rückmeldung zu einem erkannten Sprachbefehl erfolgen. Der Sprachbefehl kann sich auch auf eine Funktion eines Geräts beziehen, das nur lose mit dem Fahrzeug verbunden ist. In einer weiteren Ausführungsform kann sich der Sprachbefehl auf eine Funktion oder einen Dienst beziehen, der kommunikativ mit dem Fahrzeug verbunden ist und der sich an Bord des Fahrzeugs oder außerhalb befinden kann. So kann beispielsweise eine Bezahlung veranlasst oder ein mobiles Gerät einer Person an Bord mittels des Sprachbefehls gesteuert werden. Die Bezahlung kann beispielsweise die Benutzung einer mautpflichtigen Strecke oder die Freischaltung einer Funktion an Bord des Fahrzeugs betreffen.
-
Weiter bevorzugt umfasst die Steuervorrichtung eine drahtlose Schnittstelle zur Verbindung mit einem Mobilgerät an Bord des Fahrzeugs. Das Mobilgerät kann dabei das Mikrofon und/oder die Kamera umfassen. So kann ein Mobilgerät einfach und schnell mit dem Fahrzeug verbunden werden, um die beschriebene erfinderische Funktionalität bereitzustellen. Die Korrelation der Lippenbewegungen mit der Spracheingabe kann in unterschiedlichen Ausführungsformen mittels einer Verarbeitungseinrichtung des Mobilgeräts oder des Fahrzeugs bestimmt werden.
-
Nach wieder einem weiteren Aspekt der vorliegenden Erfindung umfasst ein Fahrzeug eine hierin beschriebene Steuervorrichtung.
-
Die Erfindung wird nun mit Bezug auf die beigefügten Zeichnungen genauer beschrieben, in denen:
- 1 ein System mit einer Steuervorrichtung an Bord eines Fahrzeugs; und
- 2 ein Ablaufdiagramm eines Verfahrens
illustriert.
-
1 zeigt ein System 100 mit einem Fahrzeug 105 mit einer Steuervorrichtung 110. Das Fahrzeug 105 umfasst bevorzugt ein Kraftfahrzeug, beispielsweise ein Kraftrad, einen Personenkraftwagen oder einen Lastkraftwagen.
-
An Bord des Fahrzeugs 105 befindet sich wenigstens eine Person 115, die insbesondere auf einem vorbestimmten Sitzplatz 120 sitzen kann. Gibt die Person 115 eine Spracheingabe aus, so kann sie als Benutzer gelten.
-
In der dargestellten Ausführungsform sind mehreren Personen 115 auf jeweils zugeordneten Sitzplätzen 120 dargestellt. Die Steuervorrichtung 110 umfasst ein Mikrofon 125 und eine Kamera 130, die mit einer Verarbeitungseinrichtung 135 verbunden sind. Es können auch mehrere Mikrofone 125 vorgesehen sein, die an unterschiedlichen Orten in einem Innenraum des Fahrzeugs 105 angebracht sein können. Die Kamera 130 kann eine Innenraumkamera umfassen. Die Kamera 130 ist dazu eingerichtet, eine Lippenbewegung einer Person 115 an Bord des Fahrzeugs 105 optisch zu erfassen. Dazu kann ein Erfassungsbereich der Kamera 130 entsprechend orientiert sein. Die Kamera 130 kann eine Stereokamera, eine Infrarotkamera oder eine TOF-Kamera oder eine Kombination aus diesen Einrichtungen umfassen. In einer weiteren Ausführungsform kann auch eine andere optische Abtasteinrichtung vorgesehen sein, beispielsweise ein LiDAR-Sensor. Es können mehrere Kameras 130 an unterschiedlichen Positionen im Innenraum des Fahrzeugs 105 vorgesehen sein. In einer Ausführungsform ist jedem Sitzplatz 120 eine Kamera 130 zugeordnet.
-
Die Verarbeitungseinrichtung 135 ist bevorzugt dazu eingerichtet, eine optisch mittels der Kamera 130 abgetastete Lippenbewegung einer Person 115 und eine akustisch mittels des Mikrofons 125 erfasste Spracheingabe des Benutzers 115 zu korrelieren. In einer Ausführungsform kann bestimmt werden, ob eine erfasste Spracheingabe durch eine vorbestimmte Person 115 getätigt wurde. In einer anderen Ausführungsform kann zu einer erfassten Spracheingabe bestimmt werden, welche Person 115 an Bord des Fahrzeugs 105 sie getätigt hat. In wieder einer weiteren Ausführungsform können unterschiedliche akustische Kanäle, Fragmente oder Bestandteile einer akustischen Abtastung auf der Basis erfasster Lippenbewegungen wenigstens einer Person 115 so gefiltert werden, dass eine verbesserte Korrelation zwischen dem gefilterten akustischen Signal und der erfassten Lippenbewegung bestimmt werden kann. Die Spracheingabe kann insbesondere einen Sprachbefehl umfassen. Die Verarbeitungseinrichtung 135 kann dazu eingerichtet sein, den Sprachbefehl entsprechend zu interpretieren und/oder auszuführen. Dazu kann die Verarbeitungseinrichtung 135 mit einer Schnittstelle 140 verbunden sein, die mit einer Komponente des Fahrzeugs 105 verbunden ist. Die Komponente kann auf diese Weise durch die Steuervorrichtung 110 gesteuert werden.
-
In einer weiteren Ausführungsform umfasst die Steuervorrichtung 110 eine Kommunikationseinrichtung 145 zur Kommunikation mit einem mobilen Gerät 150 an Bord des Fahrzeugs 105. Das mobile Gerät 150 kann beispielsweise ein Smartphone, einen Tabletcomputer oder einen Laptopcomputer umfassen. Das mobile Gerät 150 kann einer vorbestimmten Person 115 zugeordnet sein. Dabei umfasst das mobile Gerät 150 ein Mikrofon 125 und/oder eine Kamera 130 und kann für den beschriebenen Zweck verwendet werden, um eine akustische Aufnahme im Umfeld einer Person 115 und eine optische Aufnahme einer Person 115 bereitzustellen. Die beschriebene Korrelation kann dann mittels einer Verarbeitungseinrichtung des mobilen Geräts 150 oder der Verarbeitungseinrichtung 135 bestimmt werden.
-
2 zeigt ein Ablaufdiagramm eines Verfahren 200 zum Bestimmen einer Spracheingabe an Bord eines Fahrzeugs 105. In einem Schritt 205 kann das Mobilgerät 150 kommunikativ mit der Steuervorrichtung 110 verbunden werden. Dazu kann ein vorbestimmter Kommunikationsstandard zur insbesondere drahtlosen Verbindung verwendet werden, beispielsweise Bluetooth oder WiFi. Optional kann auch eine drahtgebundene Verbindung erstellt werden, beispielsweise mittels USB.
-
In einem Schritt 210 kann eine Spracheingabe akustisch erfasst werden. Die Spracheingabe stammt üblicherweise von einer Person 115 an Bord des Fahrzeugs 105, kann aber auch beispielsweise von einer Person außerhalb des Fahrzeugs 105 oder von einem Unterhaltungssystem herrühren. Die Spracheingabe kann akustischen Störungen unterworfen sein, beispielsweise Musik, einem Fahrgeräusch oder der Stimme einer weiteren Person 115 an Bord des Fahrzeugs 105.
-
In einem Schritt 215 kann eine Lippenbewegung einer Person 115 an Bord des Fahrzeugs 105 optisch erfasst werden. Optional können auch Lippenbewegungen mehrerer Personen 115 an Bord des Fahrzeugs 105 optisch erfasst werden.
-
In einem Schritt 220 kann eine Korrelation zwischen optisch erfassten Lippenbewegungen und einer akustisch erfassten Spracheingabe bestimmt werden. In einer Ausführungsform kann die Person 115, die die Spracheingabe getätigt hat, anhand einer hohen Korrelation bestimmt werden. Eine Person 115, deren Lippenbewegungen eine nur niedrige Korrelation mit der erfassten Spracheingabe hat, kann als Urheber der Spracheingabe ausgeschlossen werden. In einer weiteren Ausführungsform können Geräusche, Sprache oder Sprachfragmente aus dem akustischen Signal entfernt werden, die nicht zu einer erfassten Lippenbewegung einer Person 115 ausreichend gut korrelieren. Dazu kann bereits bekannt sein, welche Person 115 als Urheber der Spracheingabe gilt.
-
Die Spracheingabe kann einem Benutzer 115 oder einer Position, insbesondere einem Sitzplatz 120 zugeordnet werden, auf dem sich die Person 115 befindet. Eine Zuordnung zwischen einer Person 115 und einem Sitzplatz 120 kann einmalig bestimmt und während einer Fahrt mit dem Fahrzeug 105 beibehalten werden. In einer weiteren Ausführungsform kann anhand einer Historie von Zuordnungen zwischen einer Person 115 und einem Sitzplatz 120 über mehrere zurückliegende Fahrten eine übliche Zuordnung bestimmt werden.
-
Die Identifikation der Person 115, die Urheber der Spracheingabe ist, kann durch weitere Indizien gestützt sein. Diese Indizien können beispielsweise für eine Zuordnung zwischen einer Person 115 und einem Sitzplatz 120, eine Stimmlage, eine Gesichtserkennung mittels der Kamera 130, eine Zuordnung zwischen einer Person 115 und einem Mobilgerät 150, dessen Kamera 130 und/oder Mikrofon 125 zur visuellen bzw. akustischen Abtastung verwendet wird, oder Kommunikationsinformationen zwischen dem Mobilgerät 150 und der Steuervorrichtung 110 herangezogen werden.
-
Auf der Basis dieser Informationen kann in einem Schritt 225 eine Benutzereingabe erkannt werden. Wie durch unterbrochene Linien in 2 angedeutet ist, können erfasste Informationen auch anders miteinander verbunden werden. Beispielsweise kann eine sprechende Person 115 auch auf der Basis der in Schritt 210 erfassten Spracheingabe bestimmt werden. Stimmt diese Person 115 nicht mit derjenigen Person 115 überein, deren Lippenbewegungen erfasst wurden, so kann von einer niedrigen Korrelation ausgegangen werden.
-
In einer weiteren Ausführungsform kann eine Benutzereingabe auch unmittelbar auf der Basis der in Schritt 215 erfassten Lippenbewegung erkannt werden. Dabei kann eine an sich bekannte Technik des Lippenlesens verwendet werden. Das Ergebnis dieser Analyse kann mit erkannten akustischen Informationen verglichen werden. Auch hier kann eine Korrelation bestimmt werden. Ist diese nicht ausreichend hoch, so kann bestimmt werden, dass die Spracheingabe nicht von der Person 115 stammt, deren Lippenbewegungen erfasst wurden.
-
In einem Schritt 230 kann ein Sprachbefehl erkannt werden, der durch die Spracheingabe vorgegeben ist. Dazu kann die Spracheingabe der Person 115 zugeordnet werden, deren Lippenbewegungen eine ausreichend hohe Korrelation zur akustisch erfassten Spracheingabe aufweisen. Diese Information kann verwendet werden, um den Sprachbefehl inhaltlich zu interpretieren. Beispielsweise kann eine sprachliche Bezugnahme auf die sprechende Person 115 auf diese Weise aufgelöst werden. Ebenso kann eine Bezugnahme auf ein lokales Referenzsystem (vorne, links etc.) oder eine logische Implikation bezüglich einer Position oder eines Sitzplatzes 120 der Person 115 aufgelöst werden. Außerdem kann bestimmt werden, ob die Person 115 zur Ausführung des erkannten Sprachbefehls autorisiert ist. Beispielsweise kann die Steuerung einer Fahrzeugfunktion einer Person 115 vorbehalten sein, die das Fahrzeug 105 steuert, also ein Fahrer des Fahrzeugs 105 ist.
-
In einem Schritt 235 kann der erkannte Sprachbefehl bei ausreichender Autorisation ausgeführt werden. Dazu kann eine entsprechende Steuernachricht über die Schnittstelle 140 an eine Komponente des Fahrzeugs 105 übermittelt werden. Optional kann eine optische, akustische oder haptische Rückmeldung über die erkannte Benutzereingabe, den erkannten Sprachbefehl oder die ausgeführte Steuerung im Innenraum des Fahrzeugs 105, insbesondere an die bestimmte Person 115, ausgegeben werden.
-
Bezugszeichenliste
-
- 100
- System
- 105
- Fahrzeug
- 110
- Steuervorrichtung
- 115
- Person
- 120
- Sitzplatz
- 125
- Mikrofon
- 130
- Kamera
- 135
- Verarbeitungseinrichtung
- 140
- Schnittstelle
- 145
- Kommunikationseinrichtung
- 150
- mobiles Gerät
- 200
- Verfahren
- 205
- Mobilgerät verbinden
- 210
- Spracheingabe akustisch erfassen
- 215
- Lippenbewegung optisch erfassen
- 220
- Korrelation bestimmen
- 225
- Benutzereingabe erkennen
- 230
- Sprachbefehl erkennen
- 235
- Sprachbefehl ausführen