DE102013016196B4

DE102013016196B4 - Motor vehicle operation using combined input modalities

Info

Publication number: DE102013016196B4
Application number: DE102013016196.7A
Authority: DE
Inventors: Stefan Mayer; Christine Ullmann; Paul Sprickmann Kerkerinck; Michael MISCHKE; Michael Wittkämper; Manuel Joachim; Marius Spika
Original assignee: Audi AG; Volkswagen AG
Current assignee: Audi AG; Volkswagen AG
Priority date: 2013-09-27
Filing date: 2013-09-27
Publication date: 2023-10-12
Anticipated expiration: 2033-09-28
Also published as: DE102013016196A1

Abstract

Kraftfahrzeug (10) mit einer ersten Bedienschnittstelle (38), durch welche eine Sprachbedienung zumindest eines Geräts (28) des Kraftfahrzeugs (10) bereitgestellt ist, und mit einer weiteren Bedienschnittstelle (44), durch welche eine auf zumindest einer von Sprache verschiedenen, anderen Eingabemodalität basierende Bedienung des zumindest einen Geräts (28) bereitgestellt ist, wobei die erste Bedienschnittstelle (38) dazu ausgelegt ist, in einer Spracheingabe (26) eines Benutzers (20) zumindest einen Referenzbegriff (52) zu erkennen, welcher auf zumindest ein Objekt (18) hinweist, das der Benutzer (20) mittels der zumindest einen anderen Eingabemodalität beschreibt, wobei eine Steuereinrichtung (54) dazu ausgelegt ist, in Abhängigkeit von dem zumindest einen erkannten Referenzbegriff (52) und in Abhängigkeit von einer über die weitere Bedienschnittstelle (38) empfangenen Benutzereingabe (56) das zumindest eine Objekt (18) zu ermitteln und in Abhängigkeit von der Spracheingabe (26) und dem zumindest einen ermittelten Objekt (18) zumindest einen Steuerbefehl zu erzeugen und den zumindest einen Steuerbefehl an das zumindest eine Gerät (28) auszusenden, dadurch gekennzeichnet, dass zumindest ein Umfeldsensor bereitgestellt ist, über welchen die Steuereinrichtung (54) jeweils zumindest einen Ist-Zustand des zumindest einen Objekts (18) zu ermitteln ausgelegt ist, wobei die Steuereinrichtung (54) zusätzlich dazu ausgelegt ist, bei Erkennen einer relativen Angabe in der Spracheingabe (26) in Abhängigkeit von dem Ist-Zustand und der relativen Angabe den Steuerbefehl zu erzeugen.Motor vehicle (10) with a first operating interface (38), through which voice control of at least one device (28) of the motor vehicle (10) is provided, and with a further operating interface (44), through which one on at least one other than voice Input modality-based operation of the at least one device (28) is provided, wherein the first operating interface (38) is designed to recognize at least one reference term (52) in a voice input (26) from a user (20), which refers to at least one object ( 18) indicates that the user (20) describes using the at least one other input modality, a control device (54) being designed to, depending on the at least one recognized reference term (52) and depending on one via the further operating interface (38 ) received user input (56) to determine the at least one object (18) and to generate at least one control command depending on the voice input (26) and the at least one determined object (18) and to send the at least one control command to the at least one device (28 ), characterized in that at least one environment sensor is provided, via which the control device (54) is designed to determine at least one actual state of the at least one object (18), wherein the control device (54) is additionally designed to Recognizing a relative information in the voice input (26) to generate the control command depending on the actual state and the relative information.

Description

Die Erfindung betrifft ein Kraftfahrzeug mit zwei Bedienschnittstellen zum Eingeben von Bedieneingaben. Die erste Bedienschnittstelle stellt hierbei eine Sprachbedienung für zumindest ein Gerät des Kraftfahrzeugs bereit. Die zweite Bedienschnittstelle stellt für das zumindest eine Gerät eine Bedienung bereit, die auf einer anderen Eingabemodalität als Sprache, also beispielsweise Gesten oder Tastatureingaben basiert.The invention relates to a motor vehicle with two operating interfaces for entering operating inputs. The first operating interface provides voice control for at least one device of the motor vehicle. The second operating interface provides an operation for the at least one device that is based on an input modality other than speech, for example gestures or keyboard input.

Aus der DE 10 2006 055 252 A1 ist hierzu eine Telekommunikationsanwendung bekannt, die eine multimodale Auswahl von Objekten ermöglicht. Hierbei ist es vorgesehen, die Navigation durch Menüs über die Bewegung eines Geräts im Raum und die Auswahl eines Menüpunktes durch mindestens ein Sprachkommando zu steuern. Entsprechend eines Auswahl-Klicks oder Auswahl-Tastendrucks kann mindestens eine sprachliche Äußerung in Kombination mit zumindest einer kurzen Bewegung genutzt werden. Als Steueranweisung, die über Sprache angegeben werden können, sind beispielsweise die Befehle „Halt“, „Stopp“ und „Aktivieren“ vorgesehen. Das Rollen durch Menüoptionen kann hierdurch angehalten werden und eine mit der Option verbundene Funktionalität durch einen gesprochenen Ausführungsbefehl aktiviert werden.From the DE 10 2006 055 252 A1 A telecommunications application is known for this purpose that enables a multimodal selection of objects. It is intended to control navigation through menus by moving a device in space and selecting a menu item using at least one voice command. According to a selection click or selection key press, at least one linguistic utterance can be used in combination with at least one short movement. For example, the commands “Stop”, “Stop” and “Activate” are provided as control instructions that can be specified via voice. Scrolling through menu options can be stopped and functionality associated with the option can be activated by a spoken execution command.

Aus der DE 10 2006 009 291 A1 ist eine Gestenerkennung als Bedienschnittstelle für ein Kraftfahrzeug bekannt. Hierbei kann durch ein spezifisches gesprochenes Wort zunächst eine zu bedienende Funktionskomponente festgelegt werden. Beispielsweise kann der Fahrer das Wort „Audio“ oder „Klima“ aussprechen. Danach werden von dem Fahrer ausgeführte Gesten als Steueranweisung für die ausgewählte Funktionskomponente interpretiert.From the DE 10 2006 009 291 A1 Gesture recognition is known as an operating interface for a motor vehicle. A functional component to be operated can first be specified using a specific spoken word. For example, the driver can say the word “audio” or “climate”. Gestures executed by the driver are then interpreted as control instructions for the selected functional component.

Die DE 10 2010 017 931 A1 beschreibt ein Informationssystem zur Bereitstellung von Informationen für einen Anwender in einem Fahrzeug. Das Informationssystem umfasst eine Gestenerfassung, wobei auf Basis einer Richtung einer Anwendergeste jeweilige Informationen abgerufen werden. Das Informationssystem kann durch einen Sprachbefehl bedient werden.The DE 10 2010 017 931 A1 describes an information system for providing information to a user in a vehicle. The information system includes gesture detection, wherein respective information is retrieved based on the direction of a user gesture. The information system can be operated using a voice command.

Die US 2002/0135618 A1 beschreibt, wie multi-modale Input-Daten in Programmierumgebungen eingesetzt werden können.The US 2002/0135618 A1 describes how multi-modal input data can be used in programming environments.

Die US 2011/0115702 A1 beschreibt, wie Sprache und Gestikulieren zur Computerprogrammierung eingesetzt werden können.The US 2011/0115702 A1 describes how language and gesturing can be used for computer programming.

Bei Bedienschnittstellen aus dem Stand der Technik ist stets eine scharfe Trennung vorgesehen, indem mit einer ersten Eingabemodalität, beispielsweise Gesten, ein erster Teil einer Bedieneingabe festgelegt wird und mit einer zweiten Eingabemodalität, beispielsweise Sprache, ein ergänzender Befehl, wie beispielsweise „Aktivieren“, gegeben wird.In operating interfaces from the prior art, a sharp separation is always provided in that a first part of an operating input is specified with a first input modality, for example gestures, and a supplementary command, such as "Activate", is given with a second input modality, for example speech becomes.

Dagegen ist im Stand der Technik nicht bekannt, dass der Benutzer frei wählen kann, mit welcher Eingabemodalität er einzelne Elemente eines Steuerbefehls eingibt.In contrast, it is not known in the prior art that the user can freely choose which input modality he uses to enter individual elements of a control command.

Der Erfindung liegt die Aufgabe zugrunde, in einem Kraftfahrzeug dem Benutzer die Wahlmöglichkeit zu geben, über welche Eingabemodalität er einzelne Elemente eines Steuerbefehls festlegen möchte.The invention is based on the object of giving the user in a motor vehicle the opportunity to choose which input modality he would like to use to specify individual elements of a control command.

Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Weiterbildungen der Erfindung ergeben sich durch die abhängigen Patentansprüche.The task is solved by the subject matter of the independent patent claims. Advantageous developments of the invention result from the dependent patent claims.

Die Erfindung geht von dem eingangs beschriebenen Kraftfahrzeug mit der ersten Bedienschnittstelle für die Sprachbedienung und der weiteren Bedienschnittstelle für die Bedienung durch zumindest eine andere Eingabemodalität, beispielsweise eine Gestenerkennung oder eine Tastatureingabe, aus. Erfindungsgemäß ist bei dem Kraftfahrzeug die erste Bedienschnittstelle (Sprachbedienung) dazu ausgelegt, in einer Spracheingabe eines Benutzers zumindest einen Referenzbegriff zu erkennen, welcher auf zumindest ein Objekt hinweist, dass der Benutzer mittels der zumindest einen anderen Eingabemodalität beschreibt. Beispielsweise kann der Benutzer also folgende Spracheingabe äußern: „Zeige die Uhrzeit dort an!“, um festzulegen, auf welchem Bildschirm eine digitale Uhr angezeigt wird. Der Referenzbegriff stellt insbesondere nur einen Teil der Spracheingabe dar, d.h. zusätzlich zu dem Referenzbegriff umfasst die Sprachäußerung oder Spracheingabe noch weitere Begriffe, die insbesondere zum selben Bedienfehl gehören wie der Referenzbegriff.The invention is based on the motor vehicle described above with the first operating interface for voice control and the further operating interface for operation by at least one other input modality, for example gesture recognition or keyboard input. According to the invention, the first operating interface (voice control) in the motor vehicle is designed to recognize at least one reference term in a user's voice input, which refers to at least one object that the user describes using the at least one other input modality. For example, the user can voice the following: “Show the time there!” to determine which screen a digital clock is displayed on. In particular, the reference term represents only a part of the voice input, i.e. in addition to the reference term, the voice utterance or voice input also includes other terms which, in particular, belong to the same operating error as the reference term.

Durch die erste Bedienschnittstelle wird der Bedienbefehl erkannt, dass die Uhrzeit angezeigt werden soll. In der Spracheingabe ist aber der Begriff „dort“ enthalten, welcher auf einen Ort hinweist, den der Benutzer nicht ausgesprochen hat. Dafür bildet der Begriff „dort“ einen Referenzbegriff, der darauf hinweist, dass der Benutzer offenbar mit einer anderen Eingabemodalität den Ort beschreibt.The first operating interface recognizes the operating command that the time should be displayed. However, the voice input contains the term “there”, which refers to a place that the user did not pronounce. The term “there” forms a reference term that indicates that the user is apparently describing the location using a different input modality.

Entsprechend ist bei der Erfindung eine Steuereinrichtung dazu ausgelegt, in Abhängigkeit von dem zumindest einen erkannten Referenzbegriff und in Abhängigkeit von einer über eine weitere Bedienschnittstelle empfangenen Benutzereingabe das zumindest eine Objekt zu ermitteln. In dem beschriebenen Beispiel kann also beispielsweise eine Gestenerkennung ermitteln, wohin der Benutzer gerade zeigt, nämlich z.B. auf einen bestimmten Bildschirm. In Abhängigkeit von der Spracheingabe und dem zumindest einen ermittelten Ort erzeugt dann die Steuereinrichtung zumindest einen Steuerbefehl und sendet den zumindest einen Steuerbefehl an das zumindest eine Gerät aus, welches über die beiden Bedienschnittstellen bedient wird. In dem Beispiel kann also etwa ein Infotainmentsystem durch den zumindest einen Steuerbefehl dazu veranlasst werden, die aktuelle Uhrzeit auf dem durch Zeigen bestimmten Bildschirm anzuzeigen.Accordingly, in the invention, a control device is designed to determine the at least one object depending on the at least one recognized reference term and depending on a user input received via a further operating interface. By For example, a gesture recognition system can determine where the user is currently pointing, namely, for example, to a specific screen. Depending on the voice input and the at least one determined location, the control device then generates at least one control command and sends the at least one control command to the at least one device, which is operated via the two operating interfaces. In the example, an infotainment system can be caused by the at least one control command to display the current time on the screen determined by pointing.

Die Erfindung sieht des Weiteren vor, dass bei dem erfindungsgemäßen Kraftfahrzeug zumindest ein Umfeldsensor bereitgestellt ist, über welchen die Steuereinrichtung jeweils zumindest einen Ist-Zustand des zumindest einen Objekts zu ermitteln ausgelegt ist. Ein solcher Umfeldsensor kann beispielsweise ein Temperatursensor sein, eine Kamera, ein Ultraschallsensor, ein Radarsensor. Der Benutzer kann dann beispielsweise die folgende Spracheingabe äußern: „Mach es hier ein bisschen wärmer!“. Diese Sprachangabe enthält zwei Referenzbegriffe, nämlich „hier“ und „wärmer“ der erste Referenzbegriff kann von der Steuereinrichtung als der Aufenthaltsort des Benutzers interpretiert werden, was beispielsweise ein bestimmter Sitz im Kraftfahrzeug sein kann, wenn es um eine zonenspezifische Klimatisierung geht. Der zweite Referenzbegriff „wärmer“ weist darauf hin, dass die aktuelle Temperatur vergrößert werden soll.The invention further provides that in the motor vehicle according to the invention at least one environment sensor is provided, via which the control device is designed to determine at least one actual state of the at least one object. Such an environmental sensor can be, for example, a temperature sensor, a camera, an ultrasonic sensor, a radar sensor. The user can then say, for example, the following voice input: “Make it a little warmer in here!”. This language information contains two reference terms, namely “here” and “warmer.” The first reference term can be interpreted by the control device as the location of the user, which can be, for example, a specific seat in the motor vehicle when it comes to zone-specific air conditioning. The second reference term “warmer” indicates that the current temperature should be increased.

Hierdurch ist es der Steuereinrichtung möglich, die aktuelle Temperatur zu erfassen und eine relative Änderung vorzunehmen, beispielsweise die Temperatur um 10% zu erhöhen. Hierzu ist die Steuereinrichtung dazu ausgelegt, bei Erkennen einer relativen Angabe in der Spracheingabe in Abhängigkeit von dem Ist-Zustand und der relativen Angabe den Steuerbefehl zu erzeugen. In dem Beispiel ist also für einen Ist-Zustand von „20°C-Raumtemperatur“ ein Steuerbefehl erzeugbar, der die Temperatur im Bereich des Sitzes des Benutzers auf beispielsweise 22°C erhöht. Ein anderes Beispiel ist die Sitzsteuerung „Stelle die Rückenlehne flacher ein!“This makes it possible for the control device to detect the current temperature and make a relative change, for example increasing the temperature by 10%. For this purpose, the control device is designed to generate the control command when a relative information is detected in the voice input depending on the actual state and the relative information. In the example, for an actual state of "20°C room temperature", a control command can be generated that increases the temperature in the area of the user's seat to, for example, 22°C. Another example is the seat control “Adjust the backrest flatter!”

Die Erfindung weist den Vorteil auf, dass nun verschiedene Eingabemodalitäten nicht sequentiell hintereinander abgearbeitet werden, also nicht eine Vorauswahl einer Kategorie mit Sprache erfolgen muss, um dann beispielsweise einen Menüeintrag mittels einer Zeigergeste auszuwählen. Stattdessen kann der Benutzer gezielt durch Verwenden von Referenzbegriffen die Spracheingabe mittels der anderen Eingabemodalität ergänzen.The invention has the advantage that different input modalities are not processed sequentially one after the other, i.e. a category does not have to be preselected using language in order to then select a menu entry using a pointer gesture, for example. Instead, the user can specifically supplement the voice input using the other input modality by using reference terms.

Bedienungsfehler werden vermieden, wenn als Referenzbegriffe typische, auch in der natürlichen Sprache verwendete Referenzbegriffe genutzt werden. Hierzu sieht eine Weiterbildung der Erfindung vor, dass die erste Bedienschnittstelle dazu ausgelegt ist, als den zumindest einen Referenzbegriff jeweils zumindest ein Adverb des Ortes (beispielsweise „hier“, „dort“) und/oder ein Demonstrativpronomen (z. B. „dies“, „jenes“) und/oder einen Komparativ (z. B. „das größere“, „das kleinere“) und/oder ein Superlativ (z. B. „den größten“, „den kleinsten“) zu erkennen. Eine beispielhafte Spracheingabe mit einem Superlativ kann z.B. lauten: „Nimm aus dieser Liste die obersten drei Lieder“, worin die beiden Referenzbegriffe „dieser“ und „die obersten drei“ erkannt werden können.Operating errors are avoided if typical reference terms that are also used in natural language are used as reference terms. For this purpose, a further development of the invention provides that the first operating interface is designed to use at least one adverb of the location (for example “here”, “there”) and/or a demonstrative pronoun (for example “this”) as the at least one reference term. , “those”) and/or a comparative (e.g. “the larger”, “the smaller”) and/or a superlative (e.g. “the largest”, “the smallest”). An example speech input with a superlative can be, for example: “Take the top three songs from this list,” in which the two reference terms “this” and “the top three” can be recognized.

Durch die Erfindung ist es problemlos möglich, Sprache mit einer Vielzahl unterschiedlicher Eingabemodalitäten zu kombinieren. Entsprechend weist bei dem erfindungsgemäßen Kraftfahrzeug die weitere Bedienschnittstelle zumindest eine der folgenden Einrichtungen auf: eine Gestenerkennung, eine Handschrifterkennung, ein Touchpad, einen Touchscreen, einen Dreh-Drück-Steller, eine Tastatur, eine Blickrichtungserkennung.The invention makes it possible to easily combine speech with a variety of different input modalities. Accordingly, in the motor vehicle according to the invention, the further operating interface has at least one of the following devices: a gesture recognition, a handwriting recognition, a touchpad, a touchscreen, a rotary-push control, a keyboard, a viewing direction recognition.

Eine weitere Ausführungsform sieht vor, dass die Steuereinrichtung durch den zumindest einen Steuerbefehl eine Routenplanung in einem Navigationsgerät steuert. Der Benutzer kann also beispielsweise zu einer digitalen Navigationskarte, die auf einem Bildschirm angezeigt wird, die Spracheingabe äußern: „Ich möchte dorthin fahren!“ Mit dem Referenzbegriff „dorthin“ kann der Benutzer wieder beispielsweise auf die aktuelle Stellung eines Mauszeigers verweisen, durch die dann das Navigationsziel festgelegt werden kann.A further embodiment provides that the control device controls route planning in a navigation device using the at least one control command. The user can, for example, voice input to a digital navigation map that is displayed on a screen: “I want to go there!” With the reference term “there”, the user can again, for example, refer to the current position of a mouse cursor, which then the navigation destination can be set.

Eine andere Weiterbildung sieht vor, eine Datenbankabfrage zum Ermitteln von Ortsbeschreibungen zu steuern. Der Benutzer kann dann beispielsweise aus einem Fahrzeugfenster auf ein Gebäude in der Fahrzeugumgebung zeigen und die Spracheingabe äußern: „Was sieht man hier?“ Der Referenzbegriff „hier“ verweist dann wieder auf die Zeigegeste des Benutzers. Hierdurch kann dann für die Datenbankabfrage der Ort festgelegt werden, zu welchem in der Datenbank eine Ortsbeschreibung gefunden werden soll.Another further development envisages controlling a database query to determine location descriptions. The user can then, for example, point from a vehicle window to a building in the vehicle's surroundings and voice the input: "What do you see here?" The reference term "here" then refers again to the user's pointing gesture. In this way, the location for which a location description should be found in the database can then be specified for the database query.

Eine andere Weiterbildung sieht vor, dass eine Beschreibung einer Fahrzeugfunktion in einer digitalen Bedienungsanleitung des Kraftfahrzeugs ermittelt wird. Der Benutzer kann also mit der Spracheingabe: „Was bedeutet das?“ festlegen, dass ein Warnsymbol, das gerade angezeigt wird und auf das der Benutzer zeigt, die entsprechenden Beschreibungstexte aus der digitalen Bedienungsanleitung ermittelt werden.Another development provides that a description of a vehicle function is determined in a digital operating manual of the motor vehicle. The user can therefore use the voice input: “What does that mean?” to determine that a warning symbol that is currently displayed and that the user points to is determined by the corresponding descriptive texts from the digital operating instructions.

Ein weiterer Vorteil ergibt sich, wenn das Kraftfahrzeug dazu ausgelegt ist, auf einer Anzeigeeinrichtung eine durch den zumindest einen Steuerbefehl ausgelöste Ausgabe des zumindest einen Geräts an einem Ort anzuzeigen, so dass sich aus der Sicht des Benutzers das zumindest eine Objekt, das er mittels des zumindest einen Referenzbegriffs referenziert hat, und diese Ausgabe gemeinsam in einem Blickfeld des Benutzers befinden. Bevorzugt liegen das Objekt und die Ausgabe von einem Auge des Benutzers aus gemessen innerhalb eines Raumwinkels von 45°, insbesondere 30°. Zeigt der Benutzer also beispielsweise auf ein Gebäude im Kraftfahrzeugvorfeld vor dem Kraftfahrzeug und fragt: „Was sehe ich hier?“, so kann ihm beispielsweise in einem Scheibenwurzeldisplay, welches sich quer im Fahrzeug an einer unteren Kante der Frontscheibe zumindest über die halbe Fahrzeugbreite hinweg erstrecken kann, direkt unterhalb des Gebäudes im Blickfeld des Benutzers die Antwort eingeblendet werden. Es kann beispielsweise auch ein Head-up-Display genutzt werden, um direkt neben dem Gebäude im Blickfeld des Benutzers die Informationen zu dem Gebäude einzublenden.A further advantage arises if the motor vehicle is designed to display on a display device an output of the at least one device triggered by the at least one control command at a location, so that from the user's perspective, the at least one object that he or she can use by means of the has referenced at least one reference term, and this output is together in the user's field of vision. Preferably, the object and the output lie within a solid angle of 45°, in particular 30°, measured from one eye of the user. For example, if the user points to a building in front of the vehicle and asks: “What do I see here?”, he can, for example, see a window root display that extends across the vehicle on a lower edge of the windshield at least over half the width of the vehicle The answer can be displayed directly below the building in the user's field of vision. For example, a head-up display can also be used to display information about the building directly next to the building in the user's field of vision.

Durch die Erfindung ist auch ein Verfahren bereitgestellt, welches durch die Schritte gekennzeichnet ist, die bereits im Zusammenhang mit dem erfindungsgemäßen Kraftfahrzeug beschrieben worden sind. Gemäß dem Verfahren wird also durch die erste Bedienschnittstelle in einer Spracheingabe eines Benutzers zumindest ein Referenzbegriff erkannt, welcher auf zumindest ein Objekt hinweist, das der Benutzer mittels der zumindest einen anderen Eingabemodalität beschreibt. Eine Steuereinrichtung ermittelt in Abhängigkeit von dem zumindest einen erkannten Referenzbegriff und in Abhängigkeit von einer über die zumindest eine weitere Bedienschnittelle empfangenen Benutzereingabe das zumindest eine Objekt. In Abhängigkeit von der Spracheingabe und dem zumindest einen ermittelten Objekt wird durch die Steuereingabe zumindest ein Steuerbefehl erzeugt und dieser an das zumindest eine Gerät ausgesendet. Zu der Erfindung gehören auch Weiterbildungen des erfindungsgemäßen Verfahrens, welche Merkmale aufweisen, die bereits im Zusammenhang mit den Weiterbildungen des erfindungsgemäßen Kraftfahrzeugs erläutert worden sind. Aus diesem Grund werden die entsprechenden Weiterbildungen des erfindungsgemäßen Verfahrens hier nicht noch einmal erläutert.The invention also provides a method which is characterized by the steps that have already been described in connection with the motor vehicle according to the invention. According to the method, at least one reference term is recognized by the first operating interface in a user's voice input, which refers to at least one object that the user describes using the at least one other input modality. A control device determines the at least one object depending on the at least one recognized reference term and depending on a user input received via the at least one further operating interface. Depending on the voice input and the at least one determined object, at least one control command is generated by the control input and sent to the at least one device. The invention also includes further developments of the method according to the invention, which have features that have already been explained in connection with the further developments of the motor vehicle according to the invention. For this reason, the corresponding developments of the method according to the invention will not be explained again here.

Im Folgenden ist anhand der Figuren ein Ausführungsbeispiel der Erfindung erläutert. Es zeigt:

1 eine schematische Darstellung einer Ausführungsform des erfindungsgemäßen Kraftfahrzeugs in einer Umgebung;
2 eine schematische Darstellung von zwei Kamerabildern, die von dem Kraftfahrzeug von 1 erzeugt worden sind; und
3 eine schematische Darstellung eines Fahrzeuginnenraums des Kraftfahrzeugs von 1.

An exemplary embodiment of the invention is explained below with reference to the figures. It shows:

1 a schematic representation of an embodiment of the motor vehicle according to the invention in an environment;
2 a schematic representation of two camera images taken from the motor vehicle 1 have been generated; and
3 a schematic representation of a vehicle interior of the motor vehicle 1 .

Bei dem im Folgenden erläuterten Ausführungsbeispiel handelt es sich um eine bevorzugte Ausführungsform der Erfindung. Bei dem Ausführungsbeispiel stellen aber die beschriebenen Komponenten der Ausführungsform jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden und damit auch einzeln oder in einer anderen als der gezeigten Kombination als Bestandteil der Erfindung anzusehen sind. Des Weiteren ist die beschriebene Ausführungsform auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.The exemplary embodiment explained below is a preferred embodiment of the invention. In the exemplary embodiment, however, the described components of the embodiment each represent individual features of the invention that can be viewed independently of one another, which also develop the invention independently of one another and are therefore also to be viewed as part of the invention individually or in a combination other than that shown. Furthermore, the described embodiment can also be supplemented by further features of the invention that have already been described.

In 1 ist in vogelperspektivischer Darstellung ein Kraftfahrzeug 10 gezeigt, das beispielsweise ein Kraftwagen, insbesondere einen Personenkraftwagen, sein kann. Das Kraftfahrzeug 10 fährt in dem gezeigten Beispiel beispielsweise auf ein Einkaufszentrum 12 zu. Von dem Einkaufszentrum 12 sind ein Parkhaus 14 und mehrere Einkaufsgebäude 16 dargestellt. Auf das Parkhaus 14 weisen mehrere Hinweisschilder 18. Ein Fahrer 20 (siehe 2) sieht in seinem Blickfeld 22 das Einkaufszentrum 12. Er möchte wissen, ob es dort auch ein Restaurant gibt.In 1 a motor vehicle 10 is shown in a bird's eye view, which can be, for example, a motor vehicle, in particular a passenger car. In the example shown, the motor vehicle 10 is driving towards a shopping center 12, for example. A parking garage 14 and several shopping buildings 16 are shown from the shopping center 12. Several signs 18 point to the parking garage 14. A driver 20 (see 2 ) sees the shopping center 12 in his field of vision 22. He wants to know whether there is a restaurant there.

Wie in 2 gezeigt, zeigt der Fahrer 20 mit einer Hand 24 beispielsweise auf die in seinem Blickfeld 22 liegenden Hinweisschilder 18. Er spricht oder äußert hierbei die Spracheingabe „Are there any good restaurants?“ (Gibt es dort gute Restaurants?).As in 2 shown, the driver 20 points with one hand 24, for example, at the information signs 18 lying in his field of vision 22. He speaks or expresses the voice input “Are there any good restaurants?”

In dem Kraftfahrzeug 10 ist es dem Fahrer 20 ermöglicht, dass er mit dem Zeigen der Hand 24 und der Spracheingabe 26 in Kombination beispielsweise eine Suche in einer Datenbank 28 steuern kann, in welcher beispielsweise auch Informationen betreffend mögliche Fahrziele gespeichert sein können.In the motor vehicle 10, the driver 20 is able to control, for example, a search in a database 28 by showing the hand 24 and the voice input 26 in combination, in which, for example, information regarding possible destinations can also be stored.

Anhand von 3 ist im Folgenden erläutert, wie in dem Kraftfahrzeug 10 dem Fahrer 20 das Steuern der Datenbankabfrage mittels der Kombination aus der Spracheingabe 26 und der Zeigegeste mit der Hand 24 ermöglicht ist. In 3 ist ein Kraftfahrzeuginnenraum 30 aus der Sicht des Fahrers 20 dargestellt. Gezeigt sind ein Lenkrad 32, die frontale Windschutzscheibe 34 und ein unterseitig der Windschutzscheibe 34 bereitgestelltes Scheibenwurzeldisplay 36.Based on 3 is explained below how in the motor vehicle 10 the driver 20 is able to control the database query using the combination of the voice input 26 and the pointing gesture with the hand 24. In 3 is a motor vehicle interior 30 from the perspective of the driver 20 shown. Shown are a steering wheel 32, the front windshield 34 and a disk root display 36 provided on the underside of the windshield 34.

Das Kraftfahrzeug 10 weist eine erste Bedienschnittstelle 38 auf, welche eine Mikrofonanordnung 40 aus wenigstens einem Mikrofon sowie eine Spracherkennungseinrichtung 42 aufweisen kann, die in aus dem Stand der Technik bekannter Weise ausgestaltet sein kann. Eine weitere Bedienschnittstelle 44 des Kraftfahrzeugs 10 kann beispielsweise einen optischen Sensor 46, wie beispielsweise eine Einzelbildkamera, eine Videokamera, eine Time-of-flight-Kamera und/oder eine Infrarotkamera, aufweisen. Der optische Sensor 46 erzeugt beispielsweise Videodaten V die beispielsweise von einer Gestenerkennungseinrichtung 48 empfangen werden können. Durch die Gestenerkennungseinrichtung 48 kann auf Grundlage der Videodaten V eine Gestenerkennung einer vom Fahrer 20 ausgeführt Geste durchgeführt werden. Ein Umgebungssensor 50, beispielsweise ebenfalls eine Kamera, kann mit seinem Erfassungsbereich in das Blickfeld 22 des Fahrers gerichtet sein und Umgebungsdaten U der Kraftfahrzeugumgebung erzeugen. In 2 ist veranschaulicht, was beispielsweise durch die Videodaten V und die Umfelddaten U abgebildet sein kann.The motor vehicle 10 has a first operating interface 38, which has a microphone Order 40 can have at least one microphone and a speech recognition device 42, which can be designed in a manner known from the prior art. A further operating interface 44 of the motor vehicle 10 can, for example, have an optical sensor 46, such as a single image camera, a video camera, a time-of-flight camera and/or an infrared camera. The optical sensor 46 generates, for example, video data V which can be received, for example, by a gesture recognition device 48. Gesture recognition of a gesture carried out by the driver 20 can be carried out by the gesture recognition device 48 based on the video data V. An environmental sensor 50, for example also a camera, can have its detection range directed into the driver's field of vision 22 and generate environmental data U of the motor vehicle surroundings. In 2 is illustrated, for example, by the video data V and the environment data U.

Die Spracherkennungseinrichtung 42 empfängt über die Mikrofoneinrichtung 40 die Spracheingabe 26. In der Spracheingabe 26 wird durch die Spracherkennungseinrichtung 42 erkannt, dass es einen Suchbefehl, hier „Restaurants“, und einen Referenzbegriff 52 gibt, der auf der Grundlage der Spracheingabe 26 allein nicht verstanden werden kann. Der Referenzbegriff „there“ (dort) weist auf ein Objekt hin, dass der Benutzer nicht in der Spracheingabe 26 selbst beschreibt, sondern mittels einer anderen Eingabemodalität, hier der Geste mit der Hand 24.The voice recognition device 42 receives the voice input 26 via the microphone device 40. In the voice input 26, the voice recognition device 42 recognizes that there is a search command, here “restaurants”, and a reference term 52, which cannot be understood on the basis of the voice input 26 alone can. The reference term “there” indicates an object that the user does not describe in the voice input 26 itself, but using another input modality, here the hand gesture 24.

Die Spracherkennungseinrichtung 42 überträgt die erkannte Spracheingabe 26 an eine Steuereinrichtung 54, welche aus der Spracheingabe 26 einen Steuerbefehl, beispielsweise einen Suchbefehl für die Datenbank 28, erzeugen kann. Die Steuereinrichtung 24 kann beispielsweise durch ein Programmmodul eines Steuergeräts oder einer zentralen Recheneinheit des Kraftfahrzeugs 10 bereitgestellt sein.The speech recognition device 42 transmits the recognized speech input 26 to a control device 54, which can generate a control command, for example a search command for the database 28, from the speech input 26. The control device 24 can be provided, for example, by a program module of a control device or a central processing unit of the motor vehicle 10.

Der in der Spracheingabe 26 enthaltene Referenzbegriff 52 muss zunächst inhaltlich übersetzt werden, das heißt in eine konkrete Objektangabe umgewandelt werden. Die Steuereinrichtung 24 empfängt von der Gestenerkennungseinrichtung 48 Koordinatendaten 56, die auf Grundlage der mit der Hand 24 vom Fahrer 20 ausgeführten Geste ermittelt worden sind.The reference term 52 contained in the voice input 26 must first be translated in terms of content, that is, converted into a concrete object information. The control device 24 receives coordinate data 56 from the gesture recognition device 48, which were determined based on the gesture carried out by the driver 20 with the hand 24.

Die Gestenerkennungseinrichtung 48 hat in den Videodaten V mittels einer Gestenerkennung erkannt, dass der Fahrer 20 die Hand 24 mit ausgestreckten Zeigefinger gerade nach vorne gehalten hat und hierdurch eine Zeigelinie 58 auf ein Objekt außerhalb des Kraftfahrzeugs 10 ausgerichtet hat. Die Gestenerkennung kann in an sich aus dem Stand der Technik bekannter Weise durchgeführt werden. Beispielsweise kann hierzu auf die Funktionsbibliothek „Kinect“ des Unternehmens Microsoft zurückgegriffen werden.The gesture recognition device 48 has recognized in the video data V by means of gesture recognition that the driver 20 has held the hand 24 straight forward with an extended index finger and has thereby aligned a pointing line 58 to an object outside the motor vehicle 10. Gesture recognition can be carried out in a manner known per se from the prior art. For example, Microsoft's “Kinect” function library can be used for this purpose.

Die Gestenerkennungseinrichtung 48 kann die Zeigelinie 58 extrapolieren und auf Grundlage der Umfelddaten U ermitteln, dass die Zeigelinie 58 beispielsweise die in den Umfelddaten U abgebildeten Hinweisschilder 18 schneidet. Für den Schnittbereich, also die in dem Beispiel in den Umfelddaten U abgebildeten Hinweisschilder 18, kann deren geometrische Position XYZ beispielsweise aus der Fahrzeugeigenposition und einer Abstandsmessung ermittelt werden. Die Position XYZ wird durch Koordinaten 56 von der Gestenerkennungseinrichtung 48 an die Steuereinrichtung 54 übertragen. Die Position XYZ steht in der Datenbank 28 für ein ganzes Areal, hier z.B. das ganze Einkaufszentrum 12.The gesture recognition device 48 can extrapolate the pointing line 58 and, based on the surroundings data U, determine that the pointing line 58, for example, intersects the information signs 18 depicted in the surroundings data U. For the cutting area, i.e. the information signs 18 shown in the surrounding data U in the example, their geometric position XYZ can be determined, for example, from the vehicle's own position and a distance measurement. The position XYZ is transmitted from the gesture recognition device 48 to the control device 54 by coordinates 56. The position XYZ stands in the database 28 for an entire area, here for example the entire shopping center 12.

Die Steuereinrichtung 54 kann nun allgemein erfindungsgemäß den Referenzbegriff 52 durch die über die anderen Eingabemodalität empfangene Benutzereingabe, hier also hier die Koordinaten 56, ersetzen und insgesamt einen Steuerbefehl mit folgenden Slots konstruieren: ein Bedienbefehl (hier Suchanfrage), ein Befehlsobjekt (hier der Ort XYZ) und Parameter für den Bedienbefehl (hier Restaurants). Konkret bedeutet dies hier, dass durch eine Suche für den Ort XYZ Informationen zu Restaurants ermittelt werden sollen. Zu dem Ort XYZ sind in der Datenbank 28 die Informationen zu dem Einkaufszentrum 12 gespeichert (sogenannter Point of Interest).According to the invention, the control device 54 can now generally replace the reference term 52 with the user input received via the other input modality, here the coordinates 56, and overall construct a control command with the following slots: an operating command (here search query), a command object (here the location XYZ ) and parameters for the operating command (here restaurants). Specifically, this means that a search for location XYZ should be used to find information about restaurants. The information about the shopping center 12 is stored in the database 28 for the location XYZ (so-called point of interest).

Die anschließend von der Datenbank 28 durch die Steuereinrichtung 24 empfangenen Informationen zu den Restaurants im Einkaufszentrum 12 können den Fahrer 20 beispielsweise in seinem Blickfeld 22 mittels des Scheibenwurzeldisplays 26 als Informationsfelder 60 angezeigt werden.The information about the restaurants in the shopping center 12 subsequently received from the database 28 by the control device 24 can be displayed to the driver 20 as information fields 60, for example in his field of vision 22 using the disk root display 26.

Ein zweiter möglicher Referenzbegriff 52' kann der Begriff „good“ (gut) durch die Spracherkennungseinrichtung 52 erkannt werden. Die Steuereinrichtung 54 kann dazu ausgelegt sein, in dem Begriff „gut“ eine Referenz auf ein Nutzerprofil des Fahrers 20 zu sehen und dort dessen Vorliebe in Bezug auf Restaurants zu ermitteln oder aber eine Referenz auf ein Ranking und in der Datenbank 28 auch eine Rangliste von Nutzerempfehlungen zu den in dem Einkaufszentrum 12 befindlichen Restaurants ermitteln.A second possible reference term 52 ', the term "good" can be recognized by the speech recognition device 52. The control device 54 can be designed to see in the term “good” a reference to a user profile of the driver 20 and to determine his preference there in relation to restaurants or a reference to a ranking and in the database 28 also a ranking of Determine user recommendations for the restaurants located in shopping center 12.

Es kann nun vorgesehen sein, dass der Fahrer 20 zu einem der Informationsfelder 60 die Spracheingabe „Welches Restaurant ist das?“ äußert und hierbei auf eines der Informationsfelder 60 zeigt. Der Referenzbegriff „das“ signalisiert der Steuereinrichtung 54 wieder, dass mittels einer Geste auf ein bestimmtes der Informationsfelder 60 vom Fahrer 20 gezeigt wird.It can now be provided that the driver 20 utters the voice input “Which restaurant is this?” to one of the information fields 60 and in this case to one of the information fields 60 shows. The reference term “that” again signals to the control device 54 that the driver 20 is pointing to a specific one of the information fields 60 by means of a gesture.

Genauso kann der Fahrer beispielsweise weitere Bedienfelder 62 auf dem Scheibenwurzeldisplay durch zeigen auswählen und hierzu die Spracheingabe äußern: „Aktiviere das“ oder „Welche Funktion hat dieses Bedienfeld?“.In the same way, the driver can, for example, select additional control panels 62 on the window root display by pointing and give the voice input: “Activate this” or “What function does this control panel have?”

Insgesamt ist durch die Kombination aus Sprache und einer weiteren Eingabemodalität, wie beispielsweise einer Geste, eine Kreuzmodalität oder Crossmodalität realisiert, indem Sprach- und Gestenbedienung verbunden werden durch Erfassen beider Eingaben also der Spracheingabe 26 und einer Bediengeste mit einer Hand 24, und in Abhängigkeit voneinander interpretiert werden. Der Benutzer kann somit durch einen Referenzbegriff in seiner Spracheingabe darauf hinweisen, dass die Spracheingabe durch Informationen aus der anderen Eingabemodalität zu ergänzen ist. Hierdurch ergibt sich in vorteilhafter Weise eine natürliche Kommunikation mit Sprache und beispielsweise Gestik. Neben der Gestik ist aber eine parallele Auswertung unterschiedlicher Interaktionsmodalitäten (Sprache, Anzeigen, Tasten/Dreh- Drück-Steller, Touchpad/Touchscreen, Gesten, Blicke) zueinander in Beziehung zu setzen, um die Bedeutung der Eingabemodalitäten zu erfassen und eine Ableitung einer einzeigen crossmodalen Äußerung und Handlungsaufforderung zu kombinieren.Overall, through the combination of speech and another input modality, such as a gesture, a cross-modality or cross-modality is realized by combining speech and gesture operation by detecting both inputs, i.e. the speech input 26 and an operating gesture with one hand 24, and depending on each other be interpreted. The user can therefore use a reference term in his voice input to indicate that the voice input needs to be supplemented with information from the other input modality. This advantageously results in natural communication using language and gestures, for example. In addition to gestures, a parallel evaluation of different interaction modalities (speech, displays, buttons/rotary/push controls, touchpad/touchscreen, gestures, looks) must be related to one another in order to understand the meaning of the input modalities and derive a single crossmodal one Combine utterance and call to action.

Insgesamt ist so durch die Erfindung im automotiven Kontext die Verbindung von Zeigen auf ein realweltliches Objekt, z. B. ein Gebäude, und das Auslösen einer Funktion per Sprache realisiert.Overall, the invention in the automotive context enables the connection between pointing to a real-world object, e.g. B. a building, and triggering a function via voice.

Claims

Motor vehicle (10) with a first operating interface (38), through which voice control of at least one device (28) of the motor vehicle (10) is provided, and with a further operating interface (44), through which one on at least one other than voice Input modality-based operation of the at least one device (28) is provided, wherein the first operating interface (38) is designed to recognize at least one reference term (52) in a voice input (26) from a user (20), which refers to at least one object ( 18) indicates that the user (20) describes using the at least one other input modality, a control device (54) being designed to, depending on the at least one recognized reference term (52) and depending on one via the further operating interface (38 ) received user input (56) to determine the at least one object (18) and to generate at least one control command depending on the voice input (26) and the at least one determined object (18) and to send the at least one control command to the at least one device (28 ), characterized in that at least one environment sensor is provided, via which the control device (54) is designed to determine at least one actual state of the at least one object (18), wherein the control device (54) is additionally designed to Recognizing a relative information in the voice input (26) to generate the control command depending on the actual state and the relative information.

Motor vehicle (10). Claim 1 , wherein the first operating interface (38) is designed to recognize at least one adverb of the location and/or a demonstrative pronoun (52) and/or a comparative and/or a superlative as the at least one reference term (52).

Motor vehicle (10) according to one of the preceding claims, wherein the further operating interface (44) comprises at least one of the following devices: a gesture recognition (48), a handwriting recognition, a touchpad, a touchscreen, a rotary-push control, a keyboard, a View direction detection.

Motor vehicle (10) according to one of the preceding claims, wherein the control device (54) is designed to use the at least one control command to control route planning in a navigation device and/or a database query for determining location descriptions (60) and/or a description of a To determine vehicle function in a digital operating manual of the motor vehicle (10).

Motor vehicle (10) according to one of the preceding claims, wherein the motor vehicle (10) is designed to display on a display device (36) an output (60) of the at least one device (28) in the motor vehicle (10) triggered by the at least one control command. arranged in one place in such a way that, from the perspective of the user (20), the at least one object (18) and the output (60) are located together in a field of vision (22) of the user (20).

Method for operating a motor vehicle (10), wherein voice control of at least one device (28) of the motor vehicle (10) is provided by a first operating interface (38) and a different input modality other than voice is provided by a further operating interface (44). based operation of the at least one device (28) is provided, wherein the first operating interface (38) is in a language given (26) by a user (20) recognizes at least one reference term (52), which refers to at least one object (18) that the user (20) describes using the at least one other input modality, and a control device (54) depending on the at least one recognized reference term (52) and depending on a user input (56) received via the at least one further operating interface (44), the at least one object (18) is determined and depending on the voice input (26) and the at least one determined object (18) generates at least one control command and sends the at least one control command to the at least one device (28), characterized in that at least one environment sensor is provided, via which the control device (54) each provides at least one actual state of the at least one object ( 18), the control device (54) additionally generating the control command when a relative information is detected in the voice input (26) depending on the actual state and the relative information.