DE102018215293A1

DE102018215293A1 - Multimodale Kommunikation mit einem Fahrzeug

Info

Publication number: DE102018215293A1
Application number: DE102018215293.4A
Authority: DE
Inventors: Michael von der Beeck; Josef Schumann; Michael Stecher; Susanne Woitsch
Original assignee: Bayerische Motoren Werke AG
Current assignee: Bayerische Motoren Werke AG
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2020-03-12

Abstract

Zur Verbesserung der Interaktion zwischen Fahrzeug und Fahrzeugnutzer im Hinblick auf die Bereitstellung eines möglichst natürlichen Dialogs wird ein Verfahren zur multimodalen Kommunikation mit einem Fahrzeug vorgeschlagen, wobei eine Spracheingabefunktion des Fahrzeugs einen ersten Bereitschaftsmodus und einen zweiten Bereitschaftsmodus aufweist, mit den Schritten
- Erfassen (10) einer Nutzergeste,
- Wechseln (11) von dem ersten in den zweiten Bereitschaftsmodus im Ansprechen auf das Erfassen (10) der Nutzergeste,
- Erfassen (12, 22) einer Spracheingabe und
- Kombiniertes Verarbeiten (14) der Nutzergeste und der Spracheingabe.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur multimodalen Kommunikation mit einem Fahrzeug sowie ein multimodales Kommunikationssystem für ein Fahrzeug und ein Fahrzeug mit einem solchen multimodalen Kommunikationssystem.
Ein Fahrzeug im Sinne der Erfindung kann insbesondere ein Kraftfahrzeug und insbesondere ein Personenkraftwagen oder Lastkraftwagen sein. Die Erfindung ist jedoch auch bei anderen Land-, Wasser-, Schienen- und Luftfahrzeugen anwendbar.
Moderne Kraftfahrzeuge bieten eine Vielzahl unterschiedlicher und einander teilweise ergänzender Möglichkeiten, Funktionen des Fahrzeugs zu bedienen. Neben herkömmlichen Bedienelementen verfügen moderne Fahrzeuge häufig über eine Spracheingabe, die es einem Fahrzeugnutzer, insbesondere einem Fahrer des Fahrzeugs, ermöglicht, bestimmte Eingaben per Sprache zu tätigen. Beispielsweise können auf diese Weise Telefonanrufe getätigt, Navigationsziele eingestellt oder Radiosender ausgewählt werden.
In der Regel ist die Spracheingabe nicht dauerhaft aktiviert, sondern muss durch eine gesonderte Handlung eines Nutzers aktiviert werden. Hierzu kann beispielsweise ein Bedienelement (z.B. Druckknopf am Lenkrad, auch als „push-to-talk (PTT)“-Taste bezeichnet) vorgesehen sein, nach dessen Betätigung eine Spracheingabe erfolgen kann. Auf diese Weise wird verhindert, dass jedes im Fahrzeug gesprochene Wort als mögliche Spracheingabe gewertet wird.
Neben der Betätigung manueller Bedienelemente ist auch bekannt, die Spracheingabe durch vorbestimmte gesprochene Aktivierungsbefehle zu aktivieren. Hierzu werden die akustischen Äußerungen der Insassen fortlaufend erfasst und ausgewertet. Wird dabei ein Aktivierungsbefehl erkannt, so wird die Spracheingabe aktiviert. Beispielsweise lauten bei den von Smartphones bekannten Assistenzsystemen mit den Bezeichnungen Siri, Google Assistant und Cortana die jeweiligen Aktivierungsbefehle „Hey, Siri“, „Ok Google“ und „Hey, Cortana“.
Ferner ist eine Gestensteuerung bei Kraftfahrzeugen bekannt, bei der bestimmte Funktionen mittels bestimmter Handgesten bedient werden können. So bieten von der Anmelderin angebotene aktuelle Fahrzeugmodelle die Möglichkeit, eingehende Telefonanrufe anzunehmen oder abzulehnen, die Navigation fortzusetzen oder abzubrechen und Sprachaufnahmen aufzunehmen oder zu beenden. Durch Drehbewegungen mit dem Zeigefinger kann zudem die Lautstärke geregelt werden.
Die natürliche menschliche Interaktion ist multimodal, umfasst also eine Mehrzahl unterschiedlicher und einander möglicherweise ergänzender Kommunikationskanäle, darunter insbesondere Sprache, Gestik und Mimik. Zwar bieten moderne Kraftfahrzeuge, wie vorstehend dargestellt, mehrere natürliche Kommunikationskanäle zur Kommunikation mit dem Fahrzeug an, jedoch ist ein multimodaler Dialog nur in sehr eingeschränkter Form bekannt.
DE 10 2012 013 503 A1 beschreibt diesbezüglich ein Verfahren zum Betreiben eines Kraftwagens. Dabei ist eine kombinierte Gesten- und Sprachsteuerung vorgesehen. Der Fahrzeuginsasse kann beispielsweise auf Objekte wie Points of interest (POI), mit welchen er interagieren mochte, zeigen und im Wesentlichen gleichzeitig einen Sprachbefehl tätigen, aus welchem hervorgeht, in welcher Form er mit dem Objekt interagieren möchte.
DE 10 2016 221 564 A1 schlägt zur Verbesserung der Interaktion zwischen Fahrzeug und Fahrzeugnutzer im Hinblick auf die Bereitstellung eines möglichst natürlichen Dialogs vor, eine Gestenerkennung im Ansprechen auf die Erfassung einer Eingabe eines Fahrzeugnutzers zur Aktivierung eines Sprachdialogs zu aktivieren.
Es besteht ein Bedürfnis danach, die Interaktion zwischen Fahrzeug und Fahrzeugnutzer im Hinblick auf die Bereitstellung eines möglichst natürlichen Dialogs weiter zu verbessern.
Die Aufgabe wird gelöst bei den Gegenständen der unabhängigen Ansprüche. Vorteilhafte Weiterbildungen der Erfindung sind Gegenstände der abhängigen Ansprüche.
Ein erster Aspekt der Erfindung betrifft ein Verfahren zur multimodalen Kommunikation mit einem Fahrzeug, wobei eine Spracheingabefunktion des Fahrzeugs einen ersten Bereitschaftsmodus und einen zweiten Bereitschaftsmodus aufweist. Das Verfahren umfasst folgende Schritte:

- Erfassen einer Nutzergeste,
- Wechseln von dem ersten in den zweiten Bereitschaftsmodus im Ansprechen auf das Erfassen der Nutzergeste,
- Erfassen einer Spracheingabe und
- Kombiniertes Verarbeiten der Nutzergeste und der Spracheingabe.

Die Spracheingabefunktion steht in dem ersten Bereitschaftsmodus gar nicht oder nur eingeschränkt zur Verfügung. Der erste Bereitschaftsmodus ist also derjenige Betriebsmodus der Spracheingabefunktion, in dem nicht jegliche sprachliche Äußerung eines Nutzers als mögliche Spracheingabe interpretiert wird. Beispielsweise kann in dem ersten Bereitschaftsmodus die Spracheingabe komplett deaktiviert sein. Es kann jedoch auch vorgesehen sein, dass in dem ersten Bereitschaftsmodus die Spracheingabe nur teilweise deaktiviert ist. Die Spracheingabe reagiert dann insbesondere nur auf einen vorbestimmten Aktivierungsbefehl oder einen von mehreren vorbestimmten Aktivierungsbefehlen, nicht jedoch auf andere Spracheingaben. Der zweite Bereitschaftsmodus zeichnet sich dadurch aus, dass die Spracheingabe in einem größeren Funktionsumfang als im ersten Bereitschaftsmodus, insbesondere vollumfänglich, zur Verfügung steht.
Es kann auch vorgesehen sein, dass in dem ersten Bereitschaftsmodus zwar jegliche Spracheingabe erfasst und verarbeitet wird, die sich aus der Spracheingabe ergebende Reaktion des Fahrzeugs aber hinter derjenigen zurückbleibt oder sich von derjenigen unterscheidet, die die gleiche Spracheingabe im zweiten Bereitschaftsmodus auslöst. Dies wird im Hinblick auf eine bevorzugte Ausführungsform noch näher erläutert werden.
Erfindungsgemäß wird zunächst eine Nutzergeste erkannt; im Ansprechen auf das Erfassen der Nutzergeste erfolgt ein Wechsel von dem ersten in den zweiten Bereitschaftsmodus der Spracheingabefunktion.
Die Nutzergeste kann jede Art von Geste sein, die zur Kommunikation des Nutzers mit dem Fahrzeug geeignet ist. Insbesondere kann eine Nutzergeste

- eine Körperbewegung und/oder Körperhaltung und / oder
- eine Gesichtsmimik und / oder
- eine Augenbewegung und / oder Blickrichtung

Die Nutzergeste hat bevorzugt eine von der ausschließlichen Aktivierung der Spracheingabefunktion verschiedene oder darüber hinausgehende Bedeutung. Besonders bevorzugt ist die Nutzergeste keine dedizierte Geste zur Aktivierung der Spracheingabefunktion. Der Ausdruck „Aktivierung der Spracheingabefunktion“ bezieht sich in diesem Zusammenhang auf den Wechsel von dem ersten in den zweiten Bereitschaftsmodus. Mit anderen Worten ist besonders bevorzugt die Nutzergeste nicht eine solche Geste, deren inhaltliche Bedeutung derjenigen der im Stand der Technik bekannten PTT-Taste entspricht. Hingegen kann die Nutzergeste eine Geste sein, die eigenständig oder in Verbindung mit einer weiteren Äußerung des Nutzers, insbesondere einer Spracheingabe, eine zur Verarbeitung durch ein Kommunikationssystem eines Fahrzeugs geeignete Äußerung darstellt.
Die Erfindung sieht ferner das Erfassen einer Spracheingabe sowie das kombinierte Verarbeiten der Nutzergeste und der Spracheingabe vor.
Der Erfindung liegt die Beobachtung zugrunde, dass eine natürliche multimodale Äußerung in einer Verbindung aus Sprachäußerung und Geste bestehen kann. Es ist z.B. überaus natürlich, auf einen Gegenstand zu deuten und zu fragen: „Was ist das?“ Eine derartige multimodale Äußerung kann jedoch bei einem herkömmlichen Kommunikationssystem daran scheitern, dass die Spracheingabefunktion sich im ersten Betriebsmodus befindet, die Äußerung „Was ist das?“ also gar nicht erfasst oder verstanden wird. Erfindungsgemäß wird dieses Problem dadurch gelöst, dass eine erfasste Nutzergeste einen automatischen Wechsel von dem ersten in den zweiten Betriebsmodus auslöst, ohne dass also der Nutzer hierfür gesondert aktiv werden müsste (z.B. durch Betätigen der PTT-Taste).
Es sei ausdrücklich darauf hingewiesen, dass die zeitliche Reihenfolge der erfindungsgemäßen Verfahrensschritte nicht festgelegt sein soll. Lediglich das Erfassen der Nutzergeste und der anschließende Wechsel von dem ersten in den zweiten Bereitschaftsmodus haben zueinander eine nicht vertauschbare zeitliche Reihenfolge. Hingegen kann insbesondere das Erfassen der Spracheingabe vor, nach oder während der Nutzergeste erfolgen. Dies wird im Verlauf der nachfolgenden Beschreibung noch weiter verdeutlicht.
Eine erste vorteilhafte Ausgestaltung der Erfindung sieht vor, dass die Spracheingabe in dem ersten Bereitschaftsmodus erfolgt. Es ist dann also mit anderen Worten noch keine Nutzergeste erfasst worden, die einen Wechsel von dem ersten in den zweiten Bereitschaftsmodus ausgelöst hätte. In einem weiteren Schritt wird geprüft, ob ein kombiniertes Verarbeiten der erfassten Spracheingabe mit einer Nutzergeste möglich, insbesondere ratsam, insbesondere erforderlich ist. Ist dies der Fall, so wird eine Aufforderung zur Ausführung einer Nutzergeste ausgegeben. Wird dann eine Nutzergeste erfasst, so erfolgt der erfindungsgemäße Wechsel von dem ersten in den zweiten Bereitschaftsmodus und das kombiniertes Verarbeiten der Nutzergeste und der Spracheingabe. Damit der Nutzer die Spracheingabe nicht wiederholen muss, ist es besonders vorteilhaft, diese zur späteren (kombinierten) Verarbeitung zwischenzuspeichern.
Bei dieser Ausführungsform ist die Spracheingabefunktion in dem ersten Bereitschaftsmodus nicht völlig deaktiviert. Es ist sogar besonders vorteilhaft, wenn sie in dem Sinne vollständig aktiviert ist, dass alle Spracheingaben verarbeitet werden. Jedoch unterscheidet sich auch dann der erste Bereitschaftsmodus von dem zweiten Bereitschaftsmodus dadurch, dass dann, wenn ein kombiniertes Verarbeiten der erfassten Spracheingabe mit einer Nutzergeste möglich, insbesondere ratsam, insbesondere erforderlich ist, eine unmittelbare Verarbeitung der erfassten Spracheingabe nicht erfolgt; vielmehr erfolgt diese erst dann, wenn der (durch die Nutzergeste ausgelöste) Wechsel in den zweiten Betriebsmodus stattgefunden hat. Würde hingegen die gleiche Spracheingabe im zweiten Betriebsmodus erfasst, so würde sie unmittelbar verarbeitet, was dann, wenn ein kombiniertes Verarbeiten der erfassten Spracheingabe mit einer Nutzergeste erforderlich ist, mangels erfasster Nutzergeste nicht zum Erfolg führen würde.
Vorzugsweise umfasst die Nutzergeste eine Zeigegeste und / oder eine mimische Geste und / oder eine Blickgeste.
Eine Zeigegeste ist definiert als eine Geste, die zumindest eine Hauptzeigerichtung im Raum impliziert. Eine Zeigegeste kann bevorzugt mit einem Arm oder einer Hand und besonders bevorzugt mit einem im Wesentlichen gestreckten Finger ausgeführt werden. Eine Zeigegeste kann auch mit einem Gegenstand, wie beispielsweise einem Stift, ausgeführt werden. Ferner kann eine Zeigegeste mit einem zum Zeigen geeigneten technischen Hilfsmittel, insbesondere einem Laserpointer, durchgeführt werden. Eine Zeigegeste kann auf eines oder mehrere Objekte im Raum gerichtet sein und diese so definieren. Dabei kann jedoch ein Interpretationsbedarf verbleiben. Zeigt beispielsweise ein Nutzer mit dem Finger auf ein Objekt außerhalb des Fahrzeugs, so zeigt er in der Regel zugleich auch auf eine Fahrzeugscheibe (hinter der das Objekt zu sehen ist). Die gegebenenfalls nötige Interpretation der Zeigegeste kann mithilfe von an sich im Stand der Technik bekannten Mitteln erfolgen und ist nicht Gegenstand der vorliegend beschriebenen Erfindung.
Eine mimische Geste ist eine mithilfe der mimischen Muskulatur durchgeführte Äußerung. Mit anderen Worten ist eine mimische Geste eine sichtbare Bewegung der Gesichtsoberfläche, die als Äußerung verstanden werden kann. Eine mimische Geste kann insbesondere ein Stirnrunzeln, eine Bewegung der Augenbrauen, der Augenlider, der Nase und / oder der Lippen umfassen.
Eine Blickgeste ist eine mittels der Augen und / oder der Augenlider getätigte Äußerung des Nutzers. Eine Blickgeste kann eine durch die Blickrichtung der Augen festgelegte Blickrichtung sein. In diesem Fall kann die Blickgeste zugleich als Zeigegeste aufgefasst werden. Eine Blickgeste kann ein Zwinkern umfassen. In diesem Fall kann die Blickgeste zugleich als mimische Geste aufgefasst werden.
Zur Erkennung von Zeigegesten, mimischen Gesten und / oder Blickgesten sind insbesondere den Fahrer abbildende Fahrzeuginnenraumkameras geeignet. Zur Erkennung von Blickgesten können insbesondere Blickrichtungserkennungsvorrichtungen genutzt werden, die unter den englischen Fachbegriffen „eye tracker“ und „gaze tracker“ bekannt sind. Diese können fest im Fahrzeug angeordnete Innenraumkameras und / oder vom Nutzer getragene Brillen (sog. AR- oder VR-Brillen) umfassen.
Mit weiterem Vorteil wird bei dem Verfahren eine vorbekannte Nutzergeste erfasst. Mit anderen Worten wird also nicht jegliche Nutzergeste erfasst (und im Ansprechen darauf der Wechseln von dem ersten in den zweiten Bereitschaftsmodus durchgeführt), sondern nur solche Nutzergesten, die vorab festgelegt worden sind. Eine solche Festlegung kann unveränderlich oder anpassbar sein. Die Festlegung kann durch einen Hersteller des Fahrzeugs oder durch den Nutzer erfolgen. Der Umfang vorbekannter Gesten kann starr oder veränderlich sein. Es kann vorgesehen sein, dass die vorbekannten Gesten nutzerspezifisch abgespeichert werden. Dabei kann insbesondere vorgesehen sein, dass für unterschiedliche Nutzer unterschiedliche vorbekannte Gesten gespeichert werden. Es kann vorgesehen sein, dass ein erfindungsgemäßes Kommunikationssystem von einem Nutzer durchgeführte Nutzergesten erlernt. Dabei kann vorgesehen sein, dass der Nutzer dem System von ihm gewünschte Gesten beibringt. Es kann auch vorgesehen sein, dass der Nutzer ein Training des Systems durchführt, bei welchem er vom System gezeigte Gesten imitiert, sodass das System die nutzerspezifische Ausführung vorbekannter Gestenarten erlernen kann. In diesem Zusammenhang kann auch von einer Kalibrierung gesprochen werden.
Mit besonderem Vorteil wird jede vom Nutzer durchgeführte Geste daraufhin geprüft, ob sie vorbekannt ist. Trifft dies zu, so wird das Verfahren wie vorstehend beschrieben weiter ausgeführt. Anderenfalls wird das Verfahren besonders bevorzugt abgebrochen.
Diese Ausführungsform hat den Vorteil, dass Fehlerkennungen und ungewollte Aktivierungen vermieden werden können. Der Umfang der vorbekannten Nutzergesten kann in der Weise beschränkt werden, dass nur solche Gesten genutzt werden, die mit den zur Verfügung stehenden Hilfsmitteln erkannt werden können. Es kann darauf geachtet werden, dass alle vorbekannten Nutzergesten einen im mustererkennungstechnischen Sinn zueinander ausreichend großen Abstand aufweisen, also möglichst wenig miteinander verwechselbar sind. Es kann überdies darauf geachtet werden, dass alle vorbekannten Nutzergesten einen im mustererkennungstechnischen Sinn ausreichend großen Abstand zu in der natürlichen zwischenmenschlichen Kommunikation häufig genutzten Gesten haben. Mit anderen Worten können die vorbekannten Gesten so gewählt werden, dass sie sich möglichst stark von denjenigen Gesten unterscheiden, die ein Nutzer typischerweise zu anderen Zwecken als der Kommunikation mit dem Fahrzeug ausführt, insbesondere zur Kommunikation mit einem Beifahrer oder einem anderen Gesprächspartner. Ferner können solche Gesten ausgeschlossen werden, die erfahrungsgemäß nicht zur Kommunikation mit einem Fahrzeug genutzt werden (z.B. Kratzen im Gesicht oder am Kopf).
In weiterer vorteilhafter Ausgestaltung des erfindungsgemäßen Verfahrens wird die Spracheingabe zwischengespeichert, falls sich die Spracheingabefunktion während der Spracheingabe in dem ersten Bereitschaftsmodus befindet. Dies ist insbesondere dann vorteilhaft, wenn die Spracheingabe zeitlich vor der Nutzergeste - und damit auch vor dem Wechsel von dem ersten in den zweiten Bereitschaftsmodus - erfolgt. Denn zur erfindungsgemäßen kombinierten Verarbeitung der Nutzergeste und der Spracheingabe ist es nötig, dass sich die Spracheingabefunktion in dem zweiten Bereitschaftsmodus befindet. Indem die noch im ersten Bereitschaftsmodus erfasste Spracheingabe zwischengespeichert wird, kann sie zu dem (späteren) Zeitpunkt, zu dem erfindungsgemäß die kombinierte Verarbeitung stattfinden soll, aus dem Speicher abgerufen und verarbeitet werden. Sie muss so nicht etwa vom Nutzer wiederholt werden.
Dabei ist es besonders vorteilhaft, wenn die Spracheingabe für eine vorbestimmte erste Zeitdauer (T₁) zwischengespeichert wird. Auf diese Weise kann der zuvor beschriebene Vorteil erzielt werden, ohne dass hierfür unnötig viel Speicherplatz aufgewendet werden muss. Besonders bevorzugt ist daher die Verwendung eines Ringspeichers. Die erste Zeitdauer T₁ beträgt bevorzugt weniger als 10 Sekunden, besonders bevorzugt weniger als 5 Sekunden, besonders bevorzugt mehr als 1 Sekunde und weniger als 5 Sekunden.
In Kombination mit der durch die Merkmale des Anspruchs 2 gebildeten Ausführungsform ist es besonders bevorzugt, die Zeitdauer T₁ so zu wählen, dass sie mindestens der Zeitdauer entspricht, die sich für

- die Prüfung, ob ein kombiniertes Verarbeiten der erfassten Spracheingabe mit einer Nutzergeste möglich, insbesondere ratsam, insbesondere erforderlich ist, und
- die Ausgabe der Aufforderung zur Ausführung einer Nutzergeste und
- die Zeitdauer, die für die an die Aufforderung anschließende Wartezeit auf eine Nutzergeste vorgesehen ist

Mit Vorteil unterbleibt der Schritt des Verarbeitens der Nutzergeste und der Spracheingabe, falls der Betrag einer Zeitdauer zwischen einem Zeitpunkt der Nutzergeste und einem Zeitpunkt der Spracheingabe eine vorbestimme zweite Zeitdauer (T₂) überschreitet. Liegen also die Nutzergeste und die Spracheingabe zeitlich zu weit auseinander, so werden sie nicht kombiniert verarbeitet. Dabei kann es unerheblich sein, ob zuerst die Nutzergeste oder die Spracheingabe erfasst werden. Es kann alternativ aber auch vorgesehen werden, dass für die beiden möglichen Abfolgen (Nutzergeste gefolgt von Spracheingabe oder umgekehrt) unterschiedliche Werte T₂ vorbestimmt werden.
Die Zeitdauer zwischen einem Zeitpunkt der Nutzergeste und einem Zeitpunkt der Spracheingabe wird bevorzugt als diejenige Zeitdauer bestimmt, die zwischen dem Ende der jeweils ersten Eingabe und dem Beginn der jeweils zweiten Eingabe liegt. Beträgt beispielsweise T₂ = 5 s (Sekunden), so kann nach dem Ende der (beispielhaft zuerst, d.h. vor der Spracheingabe, getätigten) Nutzergeste eine Zeitdauer von 5 s abgewartet werden. Erfolgt innerhalb dieser Zeitdauer keine Spracheingabe, so wird das Verfahren abgebrochen. Alternativ kann die Zeitdauer zwischen einem Zeitpunkt der Nutzergeste und einem Zeitpunkt der Spracheingabe als diejenige Zeitdauer bestimmt werden, die zwischen dem Beginn der jeweils ersten Eingabe und dem Beginn der jeweils zweiten Eingabe liegt.
Dieser Ausgestaltung liegt die Erkenntnis zugrunde, dass Gesten, die nicht in einem engen zeitlichen Zusammenhang zueinander stehen, vom Nutzer vermutlich nicht in demselben inhaltlichen Zusammenhang getätigt worden sind, sodass eine kombinierte Verarbeitung nicht sinnvoll wäre und möglicherweise sogar zu Fehlinterpretationen führen könnte.
Die Zeitdauer T₂ beträgt bevorzugt weniger als 10 Sekunden, besonders bevorzugt weniger als 5 Sekunden, überaus bevorzugt weniger als 2 Sekunden. Besonders bevorzugt kann die vorbestimme zweite Zeitdauer (T₂) nutzerabhängig und insbesondere vom System anhand vergangener Beobachtungen des Nutzers erlernbar sein.
Falls der Betrag der Zeitdauer zwischen dem Zeitpunkt der Nutzergeste und dem Zeitpunkt der Spracheingabe die vorbestimme zweite Zeitdauer (T₂) überschreitet, so kann besonders bevorzugt das Verfahren abgebrochen werden.
Bei einer Kombination der beiden zuletzt beschriebenen Ausführungsformen ist es besonders vorteilhaft, wenn die erste Zeitdauer (T₁) gleich der zweiten Zeitdauer (T₂) ist. Es wird dann die Spracheingabe genau so lange gespeichert, wie sie noch mit einer nachfolgend getätigten Nutzergeste kombiniert verarbeitet werden würde; nicht aber länger.
In Kombination mit der durch die Merkmale des Anspruchs 2 gebildeten Ausführungsform ist es dann besonders bevorzugt, die Zeitdauer T₁ so zu wählen, dass sie mindestens der Zeitdauer entspricht, die sich für

- die Prüfung, ob ein kombiniertes Verarbeiten der erfassten Spracheingabe mit einer Nutzergeste möglich, insbesondere ratsam, insbesondere erforderlich ist, und
- die Ausgabe der Aufforderung zur Ausführung einer Nutzergeste und
- die Zeitdauer T₂

In weiterer Ausgestaltung umfasst das Verfahren einen Schritt des Wechselns von dem zweiten in den ersten Bereitschaftsmodus. Besonders bevorzugt kann das Verfahren auf diese Weise zum Abschluss gebracht werden. Der Wechsel zurück in den ersten Bereitschaftsmodus kann erfolgen, wenn die Spracheingabe und Nutzergeste erfolgreich verarbeitet worden sind. Der Wechsel zurück in den ersten Bereitschaftsmodus kann aber auch dann erfolgen, wenn die Spracheingabe und Nutzergeste nicht erfolgreich verarbeitet werden konnten. Der Wechsel zurück in den ersten Bereitschaftsmodus kann erfolgen, nachdem eine durch das kombinierte Verarbeite der Nutzergeste und der Spracheingabe ausgelöste Aktion beendet oder abgeschlossen ist. Eine solche Aktion kann einen mehrgliedrigen multimodalen Dialog umfassen, der möglicherweise zwischen Fahrzeug und Nutzer nötig oder hilfreich ist, um das Begehren des Nutzers zu verstehen, zu konkretisieren oder auf andere Weise besser zu erfassen. Ferner kann der Wechsel in den ersten Bereitschaftsmodus nach Ablauf einer dritten Zeitdauer T₃ nach Beendigung der Spracheingabe erfolgen. Besonders bevorzugt ist die dritte Zeitdauer T₃ gleich der zweiten Zeitdauer T₂ und außerordentlich bevorzugt zudem gleich der ersten Zeitdauer T₁. Ferner kann der Wechsel in den ersten Bereitschaftsmodus im Ansprechen auf das Erfassen einer weiteren Nutzereingabe erfolgen. Die weitere Nutzereingabe kann eine weitere Nutzergeste, eine weitere Spracheingabe und / oder eine Betätigung eines Bedienelements umfassen. Die weitere Nutzereingabe entspricht bevorzugt einer vorbestimmten Nutzereingabe zum Abbruch des Verfahrens. Beispielsweise kann vorgesehen sein, dass die Spracheingabefunktion des Fahrzeugs immer dann, wenn der Nutzer das Kommando „Abbrechen“ äußert, unverzüglich in den ersten Bereitschaftsmodus wechselt.
Die Erfindung wird auch gebildet durch ein multimodales Kommunikationssystem für ein Fahrzeug, welches zumindest ein Steuergerät zur Durchführung des vorstehend beschriebenen Verfahrens umfasst, sowie durch ein Fahrzeug mit einem solchen multimodalen Kommunikationssystem.
Weitere Ausführungsformen der Erfindung werden nachfolgend anhand einer beispielhaften Darstellung erläutert. Dabei zeigt die einzige Figur ein Ablaufdiagramm zweier Ausführungsformen des erfindungsgemäßen Verfahrens.
Es wird darauf hingewiesen, dass es sich bei der dargestellten Figur sowie der zugehörigen Beschreibung lediglich um Ausführungsbeispiele der Erfindung handelt. Insbesondere sind Darstellungen von Merkmalskombinationen in der Figur und / oder der Figurenbeschreibung nicht dahingehend auszulegen, dass die Erfindung zwingend die Verwirklichung aller genannten Merkmale erfordert. Andere Ausführungsformen der Erfindung können weniger, mehr und / oder andere Merkmale enthalten. Der Schutzbereich und die Offenbarung der Erfindung ergeben sich aus den beiliegenden Patentansprüchen und der vollständigen Beschreibung.
Es wird zunächst ein Ablauf des erfindungsgemäßen Verfahrens gemäß einer ersten Ausführungsform beschrieben, welcher in 1 durch durchgezogene Pfeile dargestellt ist. Zum Start des Verfahrens befindet sich die Spracheingabefunktion in dem ersten Bereitschaftsmodus. Nach dem Start des Verfahrens wird in Schritt 10 eine Nutzergeste erfasst. Beispielsweise zeigt der Nutzer mit dem Zeigefinger einer Hand auf ein außerhalb des Fahrzeugs befindliches Objekt. Im Ansprechen auf das Erfassen 10 der Nutzergeste wechselt die Spracheingabefunktion in Schritt 11 von dem ersten in den zweiten Bereitschaftsmodus, in welchem die Spracheingabefunktion unbeschränkt zur Verfügung steht. In Schritt 12 wird eine Spracheingabe des Nutzers erfasst; er fragt: „Was ist das?“
Es sei darauf hingewiesen, dass die vorstehend geschilderte und in 1 dargestellte Abfolge der genannten Schritte nicht zwingend ist. Vielmehr können insbesondere die Schritte 10 und 12 in jeglicher zeitlicher Reihenfolge und auch zeitlich überlappend durchgeführt werden. Es ist daher vorteilhaft, dass die in Schritt 12 erfasste Spracheingabe für eine vorbestimmte Zeitdauer T₁ in einem Ringspeicher gespeichert wird. Im vorliegenden Beispiel stellt der Nutzer seine Frage „Was ist das?“ im Wesentlichen gleichzeitig mit der Zeigegeste.
In Schritt 13 wird geprüft, ob die Zeitdauer zwischen einem Zeitpunkt der Nutzergeste und einem Zeitpunkt der Spracheingabe betragsmäßig eine vorbestimme zweite Zeitdauer T₂ überschreitet. Ist dies der Fall, liegen also Nutzergeste und Spracheingabe zu weit auseinander (nämlich länger als T₂), so kommt das Verfahren zum Ende.
Im vorliegenden Beispiel erfolgen Nutzergeste und Spracheingabe im Wesentlichen gleichzeitig, sodass das Verfahren mit Schritt 14 fortgesetzt wird. In diesem Schritt 14 werden Spracheingabe und Nutzergeste kombiniert verarbeitet. Im vorliegenden Beispiel wird durch ein an sich im Stand der Technik bekanntes Fahrerassistenzsystem das Objekt, auf welches der Nutzer gezeigt hat, identifiziert und dem Nutzer die dazu gestellte Frage („Was ist das?“) beantwortet. Rückfragen oder Nachfragen des Nutzers und / oder an den Nutzer können sich an Schritt 14 anschließen oder Bestandteil dieses Schritts 14 sein. Dies ist in 1 nicht dargestellt.
In Schritt 15 ist das kombinierte Verarbeiten 14 der Nutzergeste und der Spracheingabe beendet und die Spracheingabefunktion wechselt von dem zweiten in den ersten Bereitschaftsmodus. Dies kann beispielsweise ausgelöst sein durch

- das Beenden des vom Nutzer initiierten Dialogs, beispielsweise indem dem Nutzer seine Frage beantwortet wurde; hierzu kann beispielsweise eine Sprachausgabe („In diesem Gebäude befindet sich das Stadtmuseum“) sowie eine Einblendung zusätzlicher hilfreicher Informationen auf einem Fahrzeugdisplay, z.B. einem Head-up-Display, erfolgt sein;
- den Abbruch des Dialogs durch den Nutzer, beispielsweise indem er den Sprachbefehl „Abbrechen“ äußert oder die PTT-Taste betätigt.

Es wird nun ein Ablauf des erfindungsgemäßen Verfahrens gemäß einer zweiten Ausführungsform beschrieben, deren zusätzliche Verfahrensschritte in 1 durch gestrichelte Pfeile dargestellt sind. Zum Start des Verfahrens befindet sich die Spracheingabefunktion in einem ersten Bereitschaftsmodus. In Schritt 22 wird eine Spracheingabe erfasst. Wie bereits im ersten Beispiel fragt der Nutzer „Was ist das?“, tätigt aber dieses Mal keine Nutzergeste.
In diesem Ausführungsbeispiel ist der erste Bereitschaftsmodus derart konfiguriert, dass zwar jegliche Spracheingabe verarbeitet wird („Always-on“), aber auf von einer Verarbeitung im zweiten Bereitschaftsmodus abweichende Weise. Würde die genannte Frage im zweiten Bereitschaftsmodus erfasst, so würde sie für sich alleine verarbeitet werden und z.B. zu einer Rückfrage („Was meinen Sie?“) oder einer Fehlermeldung („Ich weiß nicht, was Sie meinen“) führen. Da sich das System aber erfindungsgemäß im ersten Bereitschaftsmodus befindet, wird das Verfahren mit Schritt 23 weitergeführt. In diesem Schritt 23 wird geprüft, ob ein kombiniertes Verarbeiten der erfassten Spracheingabe mit einer Nutzergeste möglich, insbesondere ratsam, insbesondere erforderlich ist. Dies trifft im vorliegenden Beispiel zu, denn die getätigte Spracheingabe bezieht sich typischerweise auf ein auf andere Weise (z.B. durch eine Nutzergeste) näher identifiziertes Objekt. Das Verarbeiten der erfassten Spracheingabe in Kombination mit einer Nutzergeste ist also möglich, ratsam und sogar erforderlich. Das Verfahren wird daher fortgesetzt. Käme die Prüfung in Schritt 23 zu dem Ergebnis, dass eine kombinierte Verarbeitung nicht möglich und / oder ratsam und / oder erforderlich ist, so würde das Verfahren abgebrochen.
Im folgenden Schritt 24 wird der Nutzer zur Ausführung einer Nutzergeste aufgefordert. Dies kann z.B. mittels einer Sprachausgabe („Zeigen Sie bitte, was Sie meinen“) oder einer Ausgabe einer entsprechenden Anweisung oder eines Symbols auf einem Display des Fahrzeugs erfolgen.
Das Verfahren wird nun so fortgesetzt, wie dies bereits mit Bezug zu der ersten beispielhaften Ausführungsform beschrieben wurde, beginnend mit Schritt 10. Führt der Nutzer (im Ansprechen auf die in Schritt 24 erfolgte Aufforderung) eine Nutzergeste durch, zeigt er also z.B. auf ein Objekt, so wird diese in Schritt 10 erfasst. Daraufhin wechselt in Schritt 11 die Spracheingabefunktion in den zweiten Betriebsmodus.
Die eingangs erfasst Spracheingabe wird währenddessen in einem Ringspeicher zwischengespeichert. Im nun folgenden Schritt 12 (Erfassen der Spracheingabe) kann diese aus dem Speicher ausgelesen werden. Der Nutzer muss also nicht etwa seine bereits getätigte Spracheingabe wiederholen. Vorzugsweise sollte das Verfahren aber dennoch darauf vorbereitet sein, dass der Nutzer auf die Aufforderung zur Ausführung einer Nutzergeste auch mit einer (erneuten) Spracheingabe reagiert; entweder könnte er seine erste Spracheingabe wiederholen oder aber variieren oder präzisieren („Das da“).
Ab Schritt 13 wird das Verfahren so fortgesetzt wie vorstehend mit Bezug zu der ersten beispielhaften Ausführungsform beschrieben. Es wird daher auf diese Beschreibung verwiesen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102012013503 A1 [0008]
DE 102016221564 A1 [0009]

Claims

Verfahren zur multimodalen Kommunikation mit einem Fahrzeug, wobei eine Spracheingabefunktion des Fahrzeugs einen ersten Bereitschaftsmodus und einen zweiten Bereitschaftsmodus aufweist, mit den Schritten - Erfassen (10) einer Nutzergeste, - Wechseln (11) von dem ersten in den zweiten Bereitschaftsmodus im Ansprechen auf das Erfassen (10) der Nutzergeste, - Erfassen (12, 22) einer Spracheingabe und - Kombiniertes Verarbeiten (14) der Nutzergeste und der Spracheingabe.
Verfahren nach Anspruch 1 mit den Schritten - Erfassen (22) einer Spracheingabe in dem ersten Bereitschaftsmodus, - Prüfen (23), ob ein kombiniertes Verarbeiten der erfassten Spracheingabe mit einer Nutzergeste möglich, insbesondere ratsam, insbesondere erforderlich ist, und in Abhängigkeit davon - Ausgeben (24) einer Aufforderung zur Ausführung einer Nutzergeste.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Nutzergeste eine Zeigegeste und / oder eine mimische Geste und / oder eine Blickgeste umfasst.
Verfahren nach einem der vorhergehenden Ansprüche mit dem Schritt - Erfassen (10) einer vorbekannten Nutzergeste.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Spracheingabe zwischengespeichert wird, falls sich die Spracheingabefunktion während der Spracheingabe in dem ersten Bereitschaftsmodus befindet.
Verfahren nach Anspruch 5, wobei die Spracheingabe für eine vorbestimmte erste Zeitdauer (T₁), insbesondere in einem Ringspeicher, zwischengespeichert wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt des Verarbeitens (14) der Nutzergeste und der Spracheingabe unterbleibt, falls (13) der Betrag einer Zeitdauer zwischen einem Zeitpunkt der Nutzergeste und einem Zeitpunkt der Spracheingabe eine vorbestimme zweite Zeitdauer (T₂) überschreitet.
Verfahren nach den Ansprüchen 6 und 7, wobei die erste Zeitdauer (T₁) gleich der zweiten Zeitdauer (T₂) ist.
Verfahren nach einem der vorhergehenden Ansprüche mit dem Schritt - Wechseln (15) von dem zweiten in den ersten Bereitschaftsmodus.
Multimodales Kommunikationssystem für ein Fahrzeug, umfassend zumindest ein Steuergerät zur Durchführung des Verfahrens nach einem der vorhergehenden Ansprüche.
Fahrzeug mit einem multimodalen Kommunikationssystem nach Anspruch 10.