DE102019210144A1

DE102019210144A1 - Combination of sensor systems in the vehicle to improve the recognition of user commands

Info

Publication number: DE102019210144A1
Application number: DE102019210144.5A
Authority: DE
Inventors: Johannes Habermehl; Jörg Angermayer
Original assignee: ZF Friedrichshafen AG
Current assignee: ZF Friedrichshafen AG
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2021-01-14

Abstract

Ein Verfahren zum Steuern eines Fahrzeugsystems (12) umfasst: Empfangen von Audiodaten (30) in einer Auswerteeinheit (18) des Fahrzeugs (10), die mit einem Audiosensor (14a, 14b) des Fahrzeugs (10) aufgenommen wurden; Empfangen von optischen und/oder räumlichen Daten (36, 38) in der Auswerteeinheit (18), die mit einem optischen und/oder räumlichen Sensor (16a, 16b, 16c) aufgenommen wurden, wobei die optischen und/oder räumlichen Daten (36, 38) ein Bild und/oder eine räumliche Lage wenigstens eines Nutzers (26a, 26b) in dem Fahrzeug (10) kodieren; Auswerten der Audiodaten (30) zusammen mit den optischen und/oder räumlichen Daten (36, 38) mit der Auswerteeinheit (18) und Erkennen eines Nutzerbefehls (44); und Steuern des Fahrzeugsystems (12) basierend auf dem Nutzerbefehl (44).A method for controlling a vehicle system (12) comprises: receiving audio data (30) in an evaluation unit (18) of the vehicle (10) which were recorded with an audio sensor (14a, 14b) of the vehicle (10); Receipt of optical and / or spatial data (36, 38) in the evaluation unit (18), which were recorded with an optical and / or spatial sensor (16a, 16b, 16c), the optical and / or spatial data (36, 38) encode an image and / or a spatial position of at least one user (26a, 26b) in the vehicle (10); Evaluation of the audio data (30) together with the optical and / or spatial data (36, 38) with the evaluation unit (18) and recognition of a user command (44); and controlling the vehicle system (12) based on the user command (44).

Description

Die Erfindung betrifft ein Verfahren, ein Computerprogramm und ein computerlesbares Medium zum Steuern eines Fahrzeugsystems. Weiter betrifft die Erfindung ein Fahrzeugsystem.The invention relates to a method, a computer program and a computer-readable medium for controlling a vehicle system. The invention also relates to a vehicle system.

Spracherkennungen, Lippenlesen per Kamerasystem sowie Gestensteuerung oder Erkennung von Körpersprache sind bekannte Technologien. In Fahrzeugen wurden bereits Gestensteuerungssysteme sowie Sprachsteuerungssysteme implementiert, um das Fahrzeug bzw. eins seiner Teilsysteme zu steuern. Ein Nachteil bei der Auswertung von Audiodaten oder Videodaten im Fahrzeug kann oft sein, dass die Systeme die Nutzerbefehle nicht eindeutig interpretieren bzw. missverstehen können. Dies kann unter anderem in Störgrößen wie Störgeräuschen, Dunkelheit/Umgebungslicht usw. begründet sein, die die Nutzerbefehle verfälschen und/oder verdecken können.Speech recognition, lip reading by camera system and gesture control or recognition of body language are known technologies. Gesture control systems and voice control systems have already been implemented in vehicles in order to control the vehicle or one of its subsystems. A disadvantage when evaluating audio or video data in the vehicle can often be that the systems cannot clearly interpret or misunderstand the user commands. This can be due, among other things, to disturbance variables such as noise, darkness / ambient light, etc., which can falsify and / or cover up the user commands.

Es ist Aufgabe der Erfindung, die Eingabe von Nutzerbefehlen in einem Fahrzeug sowie deren Auswertung zu verbessern.The object of the invention is to improve the input of user commands in a vehicle and their evaluation.

Diese Aufgabe wird durch den Gegenstand der unabhängigen Ansprüche gelöst. Weitere Ausführungsformen der Erfindung ergeben sich aus den abhängigen Ansprüchen und aus der folgenden Beschreibung.This object is achieved by the subject matter of the independent claims. Further embodiments of the invention emerge from the dependent claims and from the following description.

Ein Aspekt der Erfindung betrifft ein Verfahren zum Steuern eines Fahrzeugsystems. Das Verfahren kann automatisch von einer Komponente des Fahrzeugs, wie etwa einem Bordcomputer, einer Auswerteeinheit und/oder dem Fahrzeugsystem selbst, durchgeführt werden. Das Fahrzeugsystem kann beispielsweise ein Bordcomputer, Navigationssystem, ein Infotainmentsystem des Fahrzeugs sein. Es ist möglich, dass das Fahrzeugsystem dazu ausgeführt ist, das Fahrzeug zu steuern, wie etwa zu lenken, beschleunigen, bremsen, navigieren. Das Fahrzeugsystem kann einen Aktuator zum Steuern des Fahrzeugs umfassen.One aspect of the invention relates to a method for controlling a vehicle system. The method can be carried out automatically by a component of the vehicle, such as an on-board computer, an evaluation unit and / or the vehicle system itself. The vehicle system can be, for example, an on-board computer, navigation system, an infotainment system of the vehicle. It is possible for the vehicle system to be designed to control the vehicle, such as, for example, to steer, accelerate, brake, navigate. The vehicle system may include an actuator for controlling the vehicle.

Beispiele für mögliche Fahrzeugtypen, in denen das System implementiert sein kann, sind Pkws, Lkws, Busse, Motorräder etc.Examples of possible vehicle types in which the system can be implemented are cars, trucks, buses, motorcycles, etc.

Gemäß einer Ausführungsform der Erfindung umfasst das Verfahren: Empfangen von Audiodaten in einer Auswerteeinheit des Fahrzeugs, die mit einem Audiosensor des Fahrzeugs aufgenommen wurden; Empfangen von optischen und/oder räumlichen Daten in der Auswerteeinheit, die mit einem optischen und/oder räumlichen Sensor aufgenommen wurden, wobei die optischen und/oder räumlichen Daten ein Bild und/oder eine räumliche Lage wenigstens eines Nutzers in dem Fahrzeug kodieren; Auswerten der Audiodaten zusammen mit den optischen und/oder räumlichen Daten mit der Auswerteeinheit und Erkennen eines Nutzerbefehls; und Steuern des Fahrzeugsystems basierend auf dem Nutzerbefehl.According to one embodiment of the invention, the method comprises: receiving in an evaluation unit of the vehicle audio data that were recorded with an audio sensor of the vehicle; Receiving optical and / or spatial data in the evaluation unit, which were recorded with an optical and / or spatial sensor, the optical and / or spatial data encoding an image and / or a spatial position of at least one user in the vehicle; Evaluation of the audio data together with the optical and / or spatial data with the evaluation unit and recognition of a user command; and controlling the vehicle system based on the user command.

Zusammenfassend werden Audiodaten, beispielsweise von einem Innenraummikrophon, in Kombination mit beispielsweise Videodaten ausgewertet, um aus der Kombination der Daten einen möglichen Nutzerbefehl zu ermitteln. Durch die Kombination der Daten kann die Erkennungswahrscheinlichkeit des Nutzerbefehls erhöht werden. Die Kombination verschiedener Sensorsysteme kann dazu dienen, die Nutzereingabe eindeutiger zu interpretieren bzw. die wahrscheinlichste Interpretation zu wählen. Dabei können die Einflüsse von Störgrößen dadurch minimiert werden, dass sich unterschiedliche Sensortechnologien und ggf. Algorithmen ergänzen, die auf unterschiedliche Eingangsgrößen zurückgreifen, die Anhaltspunkte für die Eingabenbedeutung liefern.In summary, audio data, for example from an indoor microphone, are evaluated in combination with, for example, video data in order to determine a possible user command from the combination of the data. By combining the data, the probability of recognition of the user command can be increased. The combination of different sensor systems can serve to interpret the user input more clearly or to select the most likely interpretation. The influences of disturbance variables can be minimized by the fact that different sensor technologies and possibly algorithms that use different input variables that provide clues for the meaning of the inputs complement each other.

Audiodaten können digitale Daten sein, die von einem Mikrophon, wie etwa einem Innenraummikrophon, aufgenommen werden. Die Audiodaten können Sprache und/oder Geräusche kodieren.Audio data can be digital data picked up by a microphone such as an indoor microphone. The audio data can encode speech and / or sounds.

Optische und/oder räumliche Daten können Daten sein, die von einer Kamera, einem Radar, einem Lidar etc. aufgenommen wurden. Die optischen und/oder räumlichen Daten können ein Bild, ein Video eines Nutzers, wie etwa dem Fahrer, im Fahrzeug kodieren. Die optischen und/oder räumlichen Daten können auch eine Lage und/oder Positionen des Nutzers im Raum kodieren.Optical and / or spatial data can be data recorded by a camera, radar, lidar, etc. The optical and / or spatial data can encode an image or video of a user, such as the driver, in the vehicle. The optical and / or spatial data can also encode a location and / or positions of the user in space.

Die Auswerteeinheit kann ein Teil des Fahrzeugsystems sein bzw. kann dazu ausgeführt sein, das Fahrzeugsystem zu steuern. Die Auswerteeinheit kann ein Teil des Bordcomputers des Fahrzeugs sein.The evaluation unit can be part of the vehicle system or can be designed to control the vehicle system. The evaluation unit can be part of the vehicle's on-board computer.

Der (gewünschte) Nutzerbefehl kann von einer Nutzereingabe unterschieden werden. Die Nutzereingabe kann die direkte Nutzeraktion sein, wie etwa das Aussprechen eines Wortbefehls, eine Geste etc. Der Nutzerbefehl kann eine Zahl und/oder eine Wahrscheinlichkeit für eine bestimmte gewünschte Aktion des Fahrzeugsystems sein, d.h. die Aktion, die das Fahrzeugsystem durchführen soll. Ein Beispiel dafür kann sein, dass das Radio leiser werden soll bzw. dass das Fahrzeug bremsen soll.The (desired) user command can be distinguished from a user input. The user input can be the direct user action, such as the utterance of a word command, a gesture, etc. The user command can be a number and / or a probability for a specific desired action of the vehicle system, i.e. the action that the vehicle system is to perform. An example of this can be that the radio should be quieter or that the vehicle should brake.

Es kann sein, dass die optischen und/oder räumlichen Daten und die Audiodaten im gleichen Zeitabschnitt aufgenommen wurden. Gleichzeitig aufgenommene Zeitabschnitte der beiden Typen von Daten können von der Auswerteeinheit ausgewertet werden, um aus einer kombinierten Nutzereingabe und/oder die von unterschiedlichen Sensoren (d.h. den Audiosensor und den optischen und/oder räumlichen Sensor) aufgenommene Nutzereingabe einen Nutzerbefehl zu ermitteln. Dabei ist es möglich, dass beide Daten zunächst getrennt voneinander in mögliche Nutzerbefehle umgewandelt werden, die dann miteinander plausibilisiert werden. Es ist auch möglich, dass beide Daten zusammengefasst in einen Nutzerbefehl umgewandelt werden, beispielsweise als Eingaben in ein künstliches neuronales Netzwerk.It may be that the optical and / or spatial data and the audio data were recorded in the same time period. Simultaneously recorded time segments of the two types of data can be evaluated by the evaluation unit in order to determine from a combined user input and / or that of different sensors (ie the audio sensor and the optical and / or spatial sensor) recorded user input to determine a user command. It is possible that both data are first converted separately from one another into possible user commands, which are then checked for plausibility with one another. It is also possible that both data are combined and converted into a user command, for example as inputs into an artificial neural network.

Gemäß einer Ausführungsform der Erfindung umfasst das Verfahren weiter: Auswerten der Audiodaten und Erkennen wenigstens eines möglichen Sprachbefehls. Dazu kann ein Algorithmus zur Spracherkennung verwendet werden. Aus den Audiodaten kann ein Sprachbefehl bzw. die Wahrscheinlichkeit für mehre Sprachbefehle ermittelt werden.According to one embodiment of the invention, the method further comprises: evaluating the audio data and recognizing at least one possible voice command. A speech recognition algorithm can be used for this purpose. A voice command or the probability for several voice commands can be determined from the audio data.

Gemäß einer Ausführungsform der Erfindung umfasst das Verfahren weiter: Auswerten der optischen und/oder räumlichen Daten und Erkennen wenigstens eines möglichen Bewegungsbefehls. Ein Bewegungsbefehl kann beispielsweise auf einer Geste und/oder einer Bewegung des Nutzers basieren. Auch kann ein Bewegungsbefehl auf einer statischen Position und/oder einer statischen Lage des Nutzers (beispielsweise einer Pose) basieren. Aus den optischen und/oder räumlichen Daten kann ein Bewegungsbefehl bzw. die Wahrscheinlichkeit für mehrere Bewegungsbefehle ermittelt werden.According to one embodiment of the invention, the method further comprises: evaluating the optical and / or spatial data and recognizing at least one possible movement command. A movement command can for example be based on a gesture and / or a movement of the user. A movement command can also be based on a static position and / or a static posture of the user (for example a pose). A movement command or the probability for several movement commands can be determined from the optical and / or spatial data.

Gemäß einer Ausführungsform der Erfindung umfasst das Verfahren weiter: Erkennen des Nutzerbefehls durch Plausibilisieren des wenigstens einen möglichen Sprachbefehls und des wenigstens einen möglichen Bewegungsbefehls. Nach dem Auswerten der beiden Typen von Daten kann basierend auf den möglichen Sprachbefehlen und den möglichen Bewegungsbefehlen ein wahrscheinlichster Nutzerbefehl ermittelt werden.According to one embodiment of the invention, the method further comprises: Recognizing the user command by checking the plausibility of the at least one possible voice command and the at least one possible movement command. After evaluating the two types of data, a most likely user command can be determined based on the possible voice commands and the possible movement commands.

Dazu kann eine Tabelle von plausiblen Kombinationen von Sprachbefehlen und Bewegungsbefehlen hinterlegt sein. Die Tabelle kann Paare von plausiblen Sprachbefehlen und Bewegungsbefehlen enthalten (wie beispielsweise „Radio leiser“ und „Zeigen auf Radio“).A table of plausible combinations of voice commands and movement commands can be stored for this purpose. The table can contain pairs of plausible voice commands and movement commands (such as “radio down” and “pointing to radio”).

Weiter ist es auch möglich, dass die Sprachbefehle und die Bewegungsbefehle die gleichen Befehle kodieren, die mit den unterschiedlichen Datentypen ermittelt wurden. Beispielsweise können die Bewegungsbefehle durch Lippenlesen ermittelte Befehle umfassen. In diesem Fall kann das Plausibilisieren dadurch geschehen, dass ein Nutzerbefehl plausibel ist, der sowohl in den möglichen Sprachbefehlen und den möglichen Bewegungsbefehlen vorhanden ist.It is also possible for the voice commands and the movement commands to encode the same commands that were determined with the different data types. For example, the movement commands can include commands determined by lip reading. In this case, the plausibility check can take place in that a user command is plausible that is present in both the possible voice commands and the possible movement commands.

Gemäß einer Ausführungsform der Erfindung werden für den wenigstens einen möglichen Sprachbefehl und den wenigstens einen möglichen Bewegungsbefehl Wahrscheinlichkeiten ermittelt. Aus den Wahrscheinlichkeiten kann ein wahrscheinlichster Nutzerbefehl ermittelt werden. Beispielsweise können die möglichen Sprachbefehle und die möglichen Bewegungsbefehle eine Auswahl von möglichen Nutzerbefehlen sein, die mit Wahrscheinlichkeiten gewichtet wurden. In diesem Fall kann das Plausibilisieren dadurch geschehen, dass der Nutzerbefehl, der gemäß der kombinierten Wahrscheinlichkeiten aus den möglichen Sprachbefehlen und den möglichen Bewegungsbefehlen die höchste Wahrscheinlichkeit aufweist, als Nutzerbefehl ausgewählt wird.According to one embodiment of the invention, probabilities are determined for the at least one possible voice command and the at least one possible movement command. A most likely user command can be determined from the probabilities. For example, the possible voice commands and the possible movement commands can be a selection of possible user commands that have been weighted with probabilities. In this case, the plausibility check can take place in that the user command which, according to the combined probabilities of the possible voice commands and the possible movement commands, has the highest probability is selected as the user command.

Gemäß einer Ausführungsform der Erfindung werden die optischen und/oder räumlichen Daten in Bezug auf eine Lippenbewegung des Nutzers ausgewertet. In diesem Fall können auch die möglichen Bewegungsbefehle Sprachbefehle sein. Zum Auswerten von beispielsweise Bilddaten kann ein Algorithmus zum Lippenlesen von Sprache verwendet werden. Die lippengelesenen Worte können beispielsweise mit aus einer Spracherkennung stammenden Worten verglichen und/oder plausibilisiert werden.According to one embodiment of the invention, the optical and / or spatial data are evaluated in relation to a lip movement of the user. In this case, the possible movement commands can also be voice commands. An algorithm for lip reading speech can be used to evaluate image data, for example. The lip-read words can, for example, be compared and / or checked for plausibility with words originating from speech recognition.

Gemäß einer Ausführungsform der Erfindung werden die optischen und/oder räumlichen Daten in Bezug auf eine Geste des Nutzers ausgewertet. Dabei kann aus den optischen und/oder räumlichen Daten ein Gestenbefehl ermittelt werden. Ein Algorithmus zur Erkennung von Körpersprache wie etwa Mimik, Gestik und Körperhaltung kann beispielsweise aus Bilddaten ermitteln, mit welchem Fahrzeugsystem der Nutzer agieren will. Auch damit kann plausibilisiert werden, ob der Sprachbefehl zu dem Gestenbefehl passt.According to one embodiment of the invention, the optical and / or spatial data are evaluated in relation to a gesture by the user. A gesture command can be determined from the optical and / or spatial data. An algorithm for recognizing body language such as facial expressions, gestures and posture can, for example, use image data to determine which vehicle system the user wants to operate with. This can also be used to check whether the voice command matches the gesture command.

Gemäß einer Ausführungsform der Erfindung wird aus den Audiodaten ein Sprachbefehl ermittelt, wobei aus den optischen und/oder räumlichen Daten ermittelt wird, welcher Nutzer im Fahrzeug den Sprachbefehl erzeugt hat. Beispielsweise bei der Verwendung mehrerer Mikrofone können weitere Sensoren wie etwa Kamerasysteme auch dazu eingesetzt werden, anhand der Blick- und Sprachrichtung die den Mikrofonen zugeordneten Sprachbefehle zu gewichten bzw. auszuwählen und/oder Sprachbefehle einzelnen Nutzern zuzuordnen.According to one embodiment of the invention, a voice command is determined from the audio data, with the optical and / or spatial data being used to determine which user in the vehicle generated the voice command. For example, when using several microphones, additional sensors such as camera systems can also be used to weight or select the voice commands assigned to the microphones and / or to assign voice commands to individual users based on the direction of gaze and language.

Gemäß einer Ausführungsform der Erfindung umfasst der optische und/oder räumliche Sensor einen Videosensor. Die optischen und/oder räumlichen Daten können Bilddaten umfassen. Beispielsweise mit einem auf künstlicher Intelligenz beruhenden System können aus Bilddaten Lippenbewegungen und/oder Gesten des Nutzers abgleitet werden.According to one embodiment of the invention, the optical and / or spatial sensor comprises a video sensor. The optical and / or spatial data can include image data. For example, with a system based on artificial intelligence, lip movements and / or gestures of the user can be derived from image data.

Gemäß einer Ausführungsform der Erfindung ist der Videosensor dazu ausgeführt, Licht in einem nicht-visuellen Wellenlängenbereich zu erfassen, wobei der Videosensor eine aktive Lichtquelle zum Erzeugen einer Beleuchtung im nicht-visuellen Wellenlängenbereich umfasst. Bei der Verwendung von Kameras mit aktiver Beleuchtung in einem nicht-visuellen Wellenlängenbereich, wie beispielsweise Infrarot, kann die Beleuchtung für den Nutzer unsichtbar bleiben. Der Nutzer wird nicht gestört, das System kann aber gleichzeitig auch bei Dunkelheit funktionieren. Weiter können die Störquellen bei Licht in einem nicht-visuellen Wellenlängenbereich geringer sein. Es können auch Vorrichtungen zur Fremdlichtunterdrückung, wie etwa optische Filter, verwendet werden. Auch mit einer TOF (time of flight)-Kamera mit einem Photomischdetektor kann Umgebungslicht als Störgröße reduziert werden.According to one embodiment of the invention, the video sensor is designed to detect light in a non-visual wavelength range, the video sensor comprising an active light source for generating illumination in the non-visual wavelength range. When using cameras with active lighting in a non-visual wavelength range, such as infrared, the lighting can remain invisible to the user. The user is not disturbed, but the system can also work in the dark. Furthermore, the sources of interference can be smaller in the case of light in a non-visual wavelength range. Devices for suppressing extraneous light, such as optical filters, can also be used. Ambient light as a disturbance variable can also be reduced with a TOF (time of flight) camera with a photonic mixer.

Es ist auch möglich, dass die Audiodaten und die optischen und/oder räumlichen Daten zusammen ausgewertet werden, um einen Nutzerbefehl direkt zu erzeugen. Dies kann als Sensor-Fusion-Ansatz angesehen werden. Die Audiodaten und die optischen und/oder räumlichen Daten können beispielsweise gemeinsam von einem Machine-Learning-Algorithmus verarbeitet werden, der direkt einen Nutzerbefehl bzw. eine Wahrscheinlichkeit für einen Nutzerbefehl ausgibt. Es ist nicht notwendig, die von verschiedenen Sensoren stammenden Daten zunächst getrennt voneinander auszuwerten, um einen Sprachbefehl und einen Bewegungsbefehl zu ermitteln.It is also possible for the audio data and the optical and / or spatial data to be evaluated together in order to generate a user command directly. This can be seen as a sensor fusion approach. The audio data and the optical and / or spatial data can, for example, be processed jointly by a machine learning algorithm which directly outputs a user command or a probability for a user command. It is not necessary to first evaluate the data from different sensors separately from one another in order to determine a voice command and a movement command.

Gemäß einer Ausführungsform der Erfindung ist der optische und/oder räumliche Sensor dazu ausgeführt, Positions- und/oder Lagedaten zu erzeugen. Derartige Positions- und/oder Lagedaten können dreidimensionale Punkte enthalten. Mit den dreidimensionalen Punkten kann eine Lage und/oder Position des Nutzers, wie etwa seines Arms, seiner Lippen usw., kodiert werden. Die optischen und/oder räumlichen Daten können Positions- und/oder Lagedaten wie etwa dreidimensionale Punkte, enthalten. Beispielsweise kann der optische und/oder räumliche Sensor eine 3D-Kamera sein bzw. umfassen, wie etwa eine TOF (time of flight)-Kamera. 3D-Kameras können dazu geeignet sein, Körpersprache wie Gesten und/oder Körperhaltungen zu erkennen.According to one embodiment of the invention, the optical and / or spatial sensor is designed to generate position and / or location data. Such position and / or location data can contain three-dimensional points. A position and / or position of the user, such as his arm, his lips, etc., can be coded with the three-dimensional points. The optical and / or spatial data can contain position and / or location data such as three-dimensional points. For example, the optical and / or spatial sensor can be or comprise a 3D camera, such as a TOF (time of flight) camera. 3D cameras can be suitable for recognizing body language such as gestures and / or postures.

Gemäß einer Ausführungsform der Erfindung umfasst der optische und/oder räumliche Sensor einen (mit Strahlen) abtastenden Sensor. Der Sensor kann einen Ultraschallsensor, einen Lidarsensor und/oder einen Radarsensor umfassen. Mit Ultraschall, Laserstrahlen und/oder Radarstrahlen kann der Nutzer ohne Störungen durch andere Lichtquellen abgetastet werden und/oder räumliche Daten erzeugt werden, die mögliche Sprachbefehle plausibilisieren können.According to one embodiment of the invention, the optical and / or spatial sensor comprises a sensor that scans (with beams). The sensor can comprise an ultrasonic sensor, a lidar sensor and / or a radar sensor. With ultrasound, laser beams and / or radar beams, the user can be scanned without interference from other light sources and / or spatial data can be generated that can make possible voice commands plausible.

Weitere Aspekte der Erfindung betreffen ein Computerprogramm, das, wenn es auf einem Prozessor ausgeführt wird, das Verfahren, so wie hierin beschrieben, durchführt, sowie ein computerlesbares Medium, auf dem ein derartiges Computerprogramm gespeichert ist. Ein computerlesbares Medium kann dabei eine Harddisk, ein USB-Speichergerät, ein RAM, ein ROM, ein EPROM oder ein FLASH-Speicher sein. Ein computerlesbares Medium kann auch ein Datenkommunikationsnetzwerk, wie beispielsweise das Internet, das den Download eines Programmcodes ermöglicht, sein. Das computerlesbare Medium kann ein transitorisches oder nichttransitorisches Medium sein. Es ist zu verstehen, dass Merkmale des Verfahrens, so wie oben stehend und unten stehend beschrieben, auch Merkmale des Computerprogramms und/oder des computerlesbaren Mediums sein können.Further aspects of the invention relate to a computer program which, when it is executed on a processor, carries out the method as described herein, as well as a computer-readable medium on which such a computer program is stored. A computer-readable medium can be a hard disk, a USB storage device, a RAM, a ROM, an EPROM or a FLASH memory. A computer-readable medium can also be a data communication network, such as the Internet, for example, which enables program code to be downloaded. The computer readable medium can be transitory or non-transitory. It is to be understood that features of the method, as described above and below, can also be features of the computer program and / or the computer-readable medium.

Ein weiterer Aspekt der Erfindung betrifft ein Fahrzeugsystem. Das Fahrzeugsystem umfasst einen Audiosensor, einen optischen und/oder räumlichen Sensor und eine Auswerteeinheit, die dazu ausgeführt ist, das Verfahren, so wie oben stehend und unten stehend beschrieben, durchzuführen. Der räumliche Sensor kann auch einen Audiosensor umfassen. Weiter kann das Fahrzeugsystem einen Aktuator zum Steuern des Fahrzeugs umfassen. Das Fahrzeugsystem kann sich besonders zur HMI-Interaktion in Fahrzeugen eignen, da dort oft entsprechende Störgrößen (wie etwa Fahrgeräusche, Gespräche, wechselnde Lichtverhältnisse etc.) vorliegen und gleichzeitig eine unkomplizierte und präzise Kommunikation mit dem Fahrzeug wünschenswert ist, um z.B. den Fahrer nicht abzulenken. Es ist zu verstehen, dass Merkmale des Verfahrens, so wie oben stehend und unten stehend beschrieben, auch Merkmale des Fahrzeugsystems sein können und umgekehrt.Another aspect of the invention relates to a vehicle system. The vehicle system comprises an audio sensor, an optical and / or spatial sensor and an evaluation unit which is designed to carry out the method as described above and below. The spatial sensor can also include an audio sensor. The vehicle system can furthermore comprise an actuator for controlling the vehicle. The vehicle system can be particularly suitable for HMI interaction in vehicles, since there are often corresponding disturbance variables (such as driving noises, conversations, changing lighting conditions, etc.) and at the same time uncomplicated and precise communication with the vehicle is desirable in order not to distract the driver, for example . It is to be understood that features of the method, as described above and below, can also be features of the vehicle system and vice versa.

Im Folgenden werden Ausführungsbeispiele der Erfindung mit Bezug auf die beiliegenden Figuren detailliert beschrieben.

1 zeigt schematisch ein Fahrzeug mit einem Fahrzeugsystem gemäß einer Ausführungsform der Erfindung.
2 zeigt schematisch ein Blockdiagramm für ein Fahrzeugsystem gemäß einer Ausführungsform der Erfindung.
3 zeigt ein Flussdiagramm für ein Verfahren zum Steuern eines Fahrzeugsystems gemäß einer Ausführungsform der Erfindung.

In the following, exemplary embodiments of the invention are described in detail with reference to the accompanying figures.

1 shows schematically a vehicle with a vehicle system according to an embodiment of the invention.
2 schematically shows a block diagram for a vehicle system according to an embodiment of the invention.
3 FIG. 10 shows a flow diagram for a method for controlling a vehicle system according to an embodiment of the invention.

Die in den Figuren verwendeten Bezugszeichen und ihre Bedeutung sind in zusammenfassender Form in der Liste der Bezugszeichen aufgeführt. Grundsätzlich sind identische oder ähnliche Teile mit den gleichen Bezugszeichen versehen.The reference symbols used in the figures and their meaning are given in summarized form in the list of reference symbols. In principle, identical or similar parts are provided with the same reference symbols.

1 zeigt ein Fahrzeug 10 mit einem Fahrzeugsystem 12, das Audiosensoren 14a, 14b (wie etwa Mikrofone), Videosensoren 16a, 16b (wie etwa Kameras) und einen Ultraschallsensor 16c umfasst. Weiter ist eine Auswerteeinheit 18, beispielsweise der Bordcomputer des Fahrzeugs 10, das Antriebssystem 20 und ein Infotainmentsystem 22 dargestellt. Sowohl das Antriebssystem 20 als auch das Infotainmentsystem 22 können einen Aktuator 24a, 24b, wie etwa eine Bremse, einen Motor, eine Lautstärkeregelung usw., aufweisen, der durch die Auswerteeinheit 18 angesteuert werden kann. 1 shows a vehicle 10 with a vehicle system 12 who have favourited audio sensors 14a , 14b (such as microphones), video sensors 16a , 16b (such as cameras) and an ultrasonic sensor 16c includes. There is also an evaluation unit 18th , for example the vehicle's on-board computer 10 , the drive system 20th and an infotainment system 22nd shown. Both the drive system 20th as well as the infotainment system 22nd can use an actuator 24a , 24b , such as a brake, a motor, a volume control, etc., have, which by the evaluation unit 18th can be controlled.

Weiter zeigt 1 zwei Nutzer 26a, 26b in dem Fahrzeug 10, wie etwa einen Fahrer 26a und eine Person 26b auf der Rückbank. Von den Nutzern 26a, 26b bewirkte Nutzereingaben, wie etwa ausgesprochene Wörter, Gesten, Bewegungen etc., können von den Sensoren 14a, 14b, 16a, 16b, 16c erfasst und in entsprechende Daten umgewandelt werden. Die Auswerteeinheit 18 kann von den Sensoren 14a, 14b, 16a, 16b, 16c erzeugte Sensordaten empfangen und auswerten und daraus Nutzerbefehle ermitteln. Basierend auf diesen Nutzerbefehlen kann die Auswerteeinheit 18 Steuerbefehle für die Aktuatoren 24a, 24b erzeugen und diese damit steuern.Next shows 1 two users 26a , 26b in the vehicle 10 such as a driver 26a and a person 26b in the back seat. From the users 26a , 26b caused user inputs, such as pronounced words, gestures, movements, etc., can from the sensors 14a , 14b , 16a , 16b , 16c recorded and converted into corresponding data. The evaluation unit 18th can from the sensors 14a , 14b , 16a , 16b , 16c Receive and evaluate generated sensor data and determine user commands from it. Based on these user commands, the evaluation unit 18th Control commands for the actuators 24a , 24b generate and thus control them.

Einer oder beide der Videosensoren 16a, 16b können Licht in einem nicht-visuellen Wellenlängenbereich erfassen. Dazu kann einer oder beide der Videosensoren 16a, 16b eine aktive Lichtquelle 17 zum Erzeugen einer Beleuchtung im nicht-visuellen Wellenlängenbereich aufweisen.One or both of the video sensors 16a , 16b can detect light in a non-visual wavelength range. One or both of the video sensors can do this 16a , 16b an active light source 17th for generating lighting in the non-visual wavelength range.

Einer oder beide der Videosensoren 16a, 16b können auch TOF-Kameras sein, die neben Bilddaten auch Tiefeninformationen erzeugen können. Auch der Ultraschallsensor 16c, der ein abtastender Sensor sein kann, kann räumliche Daten erzeugen.One or both of the video sensors 16a , 16b can also be TOF cameras, which can generate depth information in addition to image data. Also the ultrasonic sensor 16c , which can be a scanning sensor, can generate spatial data.

2 zeigt ein Blockdiagramm des Fahrzeugsystems 12, bei dem die Auswerteeinheit 18 in mehrere Module 28, 34, 42, 46 unterteilt ist. Die Funktionsweise der einzelnen Blöcke bzw. Module wird weiter unten in Bezug auf die 3 genauer beschrieben. 2 Figure 3 shows a block diagram of the vehicle system 12 , in which the evaluation unit 18th in several modules 28 , 34 , 42 , 46 is divided. The functionality of the individual blocks or modules is described below with reference to the 3 described in more detail.

Ein Audiodatenauswertungsmodul 28 empfängt Audiodaten 30 von einem oder mehreren Audiosensoren 14a, 14b und ermittelt daraus mögliche Sprachbefehle 32. Die Audiodaten 30 können digitalisierte Daten von einem oder mehreren Mikrofonen 14a, 14b sein. Etwaige Spracheingaben der Nutzer 26a, 26b werden analysiert und in Sprachbefehle 32 umgewandelt. Ein Sprachbefehl 32 kann eine Zahl oder eine Zeichenfolge (beispielsweise korrespondierend zur gesprochenen Nutzereingabe) sein. Jeder der möglichen Sprachbefehle 32 kann eine Wahrscheinlichkeit darüber aufweisen, wie wahrscheinlich der Sprachbefehl mit der Nutzereingabe übereinstimmt.An audio data evaluation module 28 receives audio data 30th from one or more audio sensors 14a , 14b and uses this to determine possible voice commands 32 . The audio data 30th can digitize data from one or more microphones 14a , 14b be. Any voice input from the user 26a , 26b are analyzed and translated into voice commands 32 converted. A voice command 32 can be a number or a character string (for example corresponding to the spoken user input). Any of the possible voice commands 32 may have a probability of how likely the voice command matches the user input.

Weiter empfängt ein Bewegungsdatenauswertungsmodul 34 optische Daten 36 und/oder räumliche Daten 38 von einem oder mehreren Sensoren 14a, 14b, 14c, wie etwa eine oder mehrere Kameras, Ultraschallsensoren, Lidarsensoren etc. Die optischen Daten 36 können Bilddaten umfassen. Die räumlichen Daten können Positions und/oder Lagedaten, wie etwa dreidimensionale Punkte, enthalten. Es ist auch möglich, beispielsweise im Fall einer TOF-Kamera als Sensor, dass die optischen Daten 36 und/oder räumlichen Daten 38 gemischt sind und beispielsweise Bildpunkte mit Tiefeninformationen versehen sind.A movement data evaluation module also receives 34 optical data 36 and / or spatial data 38 from one or more sensors 14a , 14b , 14c, such as one or more cameras, ultrasonic sensors, lidar sensors, etc. The optical data 36 can include image data. The spatial data can contain position and / or location data such as three-dimensional points. It is also possible, for example in the case of a TOF camera as a sensor, that the optical data 36 and / or spatial data 38 are mixed and, for example, pixels are provided with depth information.

Das Bewegungsdatenauswertungsmodul 34 analysiert etwaige Bewegungseingaben der Nutzer 26a, 26b und wandelt diese in Bewegungsbefehle 40 um. Eine Bewegungseingabe kann eine Geste, ein Gesichtsausdruck, eine Körperhaltung, Kopfhaltung einer der Nutzer 26a, 26b sein. Es ist zu verstehen, dass auch aus einem einzigen Bild eine Bewegung abgeleitet werden kann. Ein Bewegungsbefehl 40 kann eine Zahl sein, die eine entsprechende Bewegung kodiert. Jeder der möglichen Bewegungsbefehle 40 kann eine Wahrscheinlichkeit darüber aufweisen, wie wahrscheinlich der Bewegungsbefehl mit der Nutzereingabe übereinstimmt.The movement data evaluation module 34 analyzes any movement input from the user 26a , 26b and converts these into movement commands 40 around. A movement input can be a gesture, a facial expression, a posture, or a head position of one of the users 26a , 26b be. It should be understood that a movement can also be derived from a single image. A movement command 40 can be a number that codes a corresponding movement. Any of the possible movement commands 40 may have a probability of how likely the movement command will match the user input.

Das Plausibilisierungsmodul 42 empfängt die möglichen Sprachbefehle 32 und die möglichen Bewegungsbefehle 40, plausibilisiert diese miteinander, beispielsweise über deren Wahrscheinlichkeiten, und erzeugt daraus einen Nutzerbefehl 44. Ein Nutzerbefehl kann eine Zahl sein, die die Nutzereingabe des Nutzers 26a, 26b kodiert.The plausibility check module 42 receives the possible voice commands 32 and the possible movement commands 40 , checks these with one another, for example using their probabilities, and uses them to generate a user command 44 . A user command can be a number that contains the user input of the user 26a , 26b coded.

Der Nutzerbefehl 44 wird von einem optional vorhandenen Steuermodul 46 in Steuerbefehle 48 umgewandelt und an den entsprechenden Aktuator 24a, 24b gesendet.The user command 44 is controlled by an optionally available control module 46 in control commands 48 converted and attached to the corresponding actuator 24a , 24b Posted.

Die 3 zeigt ein Verfahren zum Steuern des Fahrzeugsystems 12, das mit dem in der 2 gezeigten Auswertemodul 18 automatisch durchgeführt werden kann. Die Module 28, 34, 42, 46 aus der 2 können beispielsweise Software-Komponenten sein, die in einem Bordcomputer des Fahrzeugs 10 ausgeführt werden.The 3 Figure 11 shows a method for controlling the vehicle system 12 that with the one in the 2 evaluation module shown 18th can be performed automatically. The modules 28 , 34 , 42 , 46 from the 2 For example, software components can be installed in an on-board computer of the vehicle 10 are executed.

Im Schritt S10 werden die Audiodaten 30 sowie die optischen und/oder räumlichen Daten 36, 38 in der Auswerteeinheit 18 empfangen. Diese Daten 30, 36, 38 werden dann in den Schritten S12, S14, S16 ausgewertet und daraus ein Nutzerbefehl 44 erkannt.In step S10, the audio data 30th as well as the optical and / or spatial data 36 , 38 in the evaluation unit 18th receive. These dates 30th , 36 , 38 are then evaluated in steps S12, S14, S16 and a user command therefrom 44 recognized.

Im Schritt S12 wertet das Audiodatenauswertungsmodul 28 die Audiodaten 30 aus und erkennt mögliche Sprachbefehle 32. Beispielsweise kann das Audiodatenauswertungsmodul 28 einen Spracherkennungsalgorithmus ausführen, der die Audiodaten 30 in geschriebene Worte, d.h. Symbolketten aus Zeichen, überträgt. In den Worten können Wortbefehle bzw. Sprachbefehle erkannt werden. Weiter können basierend auf dem Spracherkennungsalgorithmus Wahrscheinlichkeiten ermittelt werden, wie wahrscheinlich ein Sprachbefehl von dem Nutzer 26a, 26b ausgesprochen wurde.In step S12, the audio data evaluation module evaluates 28 the audio data 30th and recognizes possible voice commands 32 . For example, the audio data evaluation module 28 execute a speech recognition algorithm that uses the audio data 30th into written words, ie symbol strings made up of characters. Word commands or voice commands can be recognized in the words. Furthermore, based on the speech recognition algorithm, probabilities can be determined as to how likely a speech command is from the user 26a , 26b was pronounced.

Im Schritt S14 wertet das Bewegungsdatenauswertungsmodul 34 die optischen Daten 36 und/oder die räumlichen Daten aus und erkennt wenigstens einen möglichen Bewegungsbefehl 40. Beispielsweise können die optischen Daten 36 und/oder die räumlichen Daten 38 mit einem Lippenlesealgorithmus in Bezug auf eine Lippenbewegung des Nutzers 26a, 26b ausgewertet werden. Dabei können die Audiodaten 30 in geschriebene Worte, d.h. Symbolketten aus Zeichen, übertragen werden, d.h., die möglichen Bewegungsbefehle 40 können Sprachbefehle sein.In step S14, the movement data evaluation module evaluates 34 the optical data 36 and / or the spatial data and recognizes at least one possible movement command 40 . For example, the optical data 36 and / or the spatial data 38 with a lip reading algorithm in relation to a lip movement of the user 26a , 26b be evaluated. The audio data 30th in written words, ie symbol strings made up of characters, ie the possible movement commands 40 can be voice commands.

Es ist aber auch möglich, dass die optischen Daten 36 und/oder die räumlichen Daten 38 in Bezug auf eine Geste des Nutzers 26a, 26b ausgewertet werden. Beispielsweise kann eine räumliche Lage eines Arms des oder der Nutzer 26a, 26b im Raum in Bezug auf das Fahrzeug 10 bzw. Komponenten davon ermittelt werden. Aus dieser Lage (in etwa einem Vektor) kann dann ein Bewegungsbefehl 42, wie etwa „Fahrer deutet mit 50% Wahrscheinlichkeit auf Radio“, bestimmt werden.But it is also possible that the optical data 36 and / or the spatial data 38 in relation to a gesture by the user 26a , 26b be evaluated. For example, a spatial position of an arm of the user or users 26a , 26b in space in relation to the vehicle 10 or components thereof are determined. A movement command can then be issued from this position (approximately a vector) 42 such as “the driver has a 50% probability of pointing to the radio”.

Im Schritt S16 erkennt das Plausibilisierungsmodul 42 dann einen Nutzerbefehl 44, indem es den wenigstens einen möglichen Sprachbefehl 32 und den wenigstens einen möglichen Bewegungsbefehl 40 plausibilisiert. Wie bereits weiter oben beschrieben, kann „plausibilisieren“ bedeuten, dass Sprachbefehle 32 und Bewegungsbefehle 40, die eine hohe Korrelation zu einem Nutzerbefehl 44 aufweisen, ausgewählt werden. Diese Korrelation kann über eine in dem Plausibilisierungsmodul 42 gespeicherte Tabelle erfolgen. Auch ist möglich, dass die Korrelation mit einem Machine-Learning-Algorithmus bestimmt wird.The plausibility check module detects in step S16 42 then a user command 44 by giving the at least one possible voice command 32 and the at least one possible movement command 40 plausibility checked. As already described above, "plausibility check" can mean that voice commands 32 and movement commands 40 that have a high correlation to a user command 44 have to be selected. This correlation can be found in the plausibility check module 42 stored table. It is also possible that the correlation is determined with a machine learning algorithm.

Die Tabelle kann zweidimensional oder mehrdimensional sein und in einer Dimension mögliche Sprachbefehle, wie etwa „Radio lauter“, „Radio leiser“, „Licht an“, „Licht aus“ usw., speichern. In der anderen, zweiten Dimension können mögliche Bewegungsbefehle, wie etwa „Deuten auf Radio“, „Deuten auf Beleuchtung“, usw., gespeichert sein. In der Tabelle können dann Korrelationen zwischen Einträgen aus beiden Dimensionen gespeichert sein, wie etwa 1 für „Radio leiser“ und „Deuten auf Radio“.The table can be two-dimensional or multi-dimensional and store possible voice commands, such as "radio louder", "radio quieter", "light on", "light off", etc., in one dimension. In the other, second dimension, possible movement commands, such as “pointing to radio”, “pointing to lighting”, etc., can be stored. Correlations between entries from both dimensions can then be stored in the table, such as 1 for "radio quieter" and "indicate radio".

Eine weitere Möglichkeit ist, dass für den wenigstens einen möglichen Sprachbefehl 32 und den wenigstens einen möglichen Bewegungsbefehl 40 Wahrscheinlichkeiten ermittelt werden und aus den Wahrscheinlichkeiten ein wahrscheinlichster Nutzerbefehl 44 ermittelt wird. Beispielsweise können auch die Bewegungsbefehle 40 Sprachbefehle sein, die durch Lippenlesen ermittelt worden sind. Dann können die Wahrscheinlichkeiten für die Sprachbefehle 32 und die Bewegungsbefehle 40 verglichen bzw. korreliert werden und daraus dann eine Wahrscheinlichkeit für einen möglichen Nutzerbefehl ermittelt werden. Der wahrscheinlichste Nutzerbefehl und/oder ein Nutzerbefehl mit einer Wahrscheinlichkeit größer als ein Schwellwert kann dann als Nutzerbefehl 44 gewählt werden.Another possibility is that for at least one possible voice command 32 and the at least one possible movement command 40 Probabilities are determined and a most likely user command from the probabilities 44 is determined. For example, the movement commands 40 Be voice commands that have been determined by lip reading. Then the probabilities for the voice commands 32 and the movement commands 40 are compared or correlated and a probability for a possible user command can then be determined therefrom. The most likely user command and / or a user command with a probability greater than a threshold value can then be used as a user command 44 to get voted.

Es ist zu verstehen, dass Wahrscheinlichkeiten zu den Sprachbefehlen 32 und den Bewegungsbefehlen 40 mit einer Korrelationstabelle kombiniert werden können.It is to be understood that probabilities related to voice commands 32 and the movement commands 40 can be combined with a correlation table.

Weiter ist möglich, dass aus den optischen Daten 36 und/oder den räumlichen Daten 38 ermittelt wird, welcher Nutzer 26a, 26b im Fahrzeug 10 den Sprachbefehl 32 erzeugt hat. Beispielsweise können Sprachbefehle 32 von Beifahrern 26b, die die Steuerung des Fahrzeugs 10 betreffen, aussortiert werden. Weiter können Sprachbefehle 32 eines Nutzers 26b auf der Rückbank so interpretiert werden, dass hinten befindliche Fahrzeugkomponenten, wie etwa Beleuchtung, hintere Lautsprecher, angesteuert werden sollen.It is also possible that from the optical data 36 and / or the spatial data 38 it is determined which user 26a , 26b in the vehicle 10 the voice command 32 generated. For example, voice commands 32 of passengers 26b who are controlling the vehicle 10 concern, be sorted out. Voice commands can also be used 32 of a user 26b on the back seat can be interpreted in such a way that vehicle components located at the rear, such as lighting and rear speakers, are to be controlled.

Im Schritt S18 wird der Nutzerbefehl 44 von dem Steuermodul 46 in Steuerbefehle 48 umgewandelt und an den entsprechenden Aktuator 24a, 24b gesendet.In step S18, the user command 44 from the control module 46 in control commands 48 converted and attached to the corresponding actuator 24a , 24b Posted.

Ergänzend ist darauf hinzuweisen, dass „umfassend“ keine anderen Elemente oder Schritte ausschließt und „eine“ oder „ein“ keine Vielzahl ausschließt. Ferner sei darauf hingewiesen, dass Merkmale oder Schritte, die mit Verweis auf eines der obigen Ausführungsbeispiele beschrieben worden sind, auch in Kombination mit anderen Merkmalen oder Schritten anderer oben beschriebener Ausführungsbeispiele verwendet werden können. Bezugszeichen in den Ansprüchen sind nicht als Einschränkung anzusehen.In addition, it should be noted that “comprehensive” does not exclude any other elements or steps and “one” or “one” does not exclude a large number. It should also be pointed out that features or steps that have been described with reference to one of the above exemplary embodiments can also be used in combination with other features or steps of other exemplary embodiments described above. Reference signs in the claims are not to be regarded as a restriction.

BezugszeichenlisteList of reference symbols

1010: Fahrzeugvehicle
1212: FahrzeugsystemVehicle system
14a14a: Audiosensor / MikrofonAudio sensor / microphone
14b14b: Audiosensor / MikrofonAudio sensor / microphone
16a16a: Videosensor / KameraVideo sensor / camera
16b16b: Videosensor / KameraVideo sensor / camera
16c16c: UltraschallsensorUltrasonic sensor
1717th: aktive Lichtquelleactive light source
1818th: AuswerteeinheitEvaluation unit
2020th: AntriebssystemDrive system
2222nd: InfotainmentsystemInfotainment system
24a24a: AktuatorActuator
24b24b: AktuatorActuator
26a26a: Nutzer / FahrerUser / driver
26b26b: Nutzer / BeifahrerUser / co-driver
2828: AudiodatenauswertungsmodulAudio data evaluation module
3030th: AudiodatenAudio data
3232: mögliche Sprachbefehlepossible voice commands
3434: BewegungsdatenauswertungsmodulMovement data evaluation module
3636: optische Datenoptical data
3838: räumliche Datenspatial data
4040: mögliche Bewegungsbefehlepossible movement commands
4242: PlausibilisierungsmodulPlausibility module
4444: NutzerbefehlUser command
4646: SteuermodulControl module
4848: SteuerbefehlControl command

Claims

A method of controlling a vehicle system (12), the method comprising: Receiving audio data (30) in an evaluation unit (18) of the vehicle (10), which were recorded with an audio sensor (14a, 14b) of the vehicle (10); Receipt of optical and / or spatial data (36, 38) in the evaluation unit (18), which were recorded with an optical and / or spatial sensor (16a, 16b, 16c), the optical and / or spatial data (36, 38) encode an image and / or a spatial position of at least one user (26a, 26b) in the vehicle (10); Evaluation of the audio data (30) together with the optical and / or spatial data (36, 38) with the evaluation unit (18) and recognition of a user command (44); Controlling the vehicle system (12) based on the user command (44).

Procedure according to Claim 1 , further comprising: evaluating the audio data (30) and recognizing at least one possible voice command (32); Evaluating the optical and / or spatial data (36, 38) and recognizing at least one possible movement command (40); Recognition of the user command (44) by checking the plausibility of the at least one possible voice command (32) and the at least one possible movement command (40).

Procedure according to Claim 2 , with probabilities being determined for the at least one possible voice command (32) and the at least one possible movement command (40) and a most likely user command (44) being determined from the probabilities.

Procedure according to Claim 2 or 3 , the optical and / or spatial data (36, 38) being evaluated in relation to a lip movement of the user (26a, 26b) and the possible movement commands (40) being voice commands.

Method according to one of the preceding claims, wherein the optical and / or spatial data (36, 38) are evaluated in relation to a gesture by the user (26a, 26b); wherein a gesture command is determined from the optical and / or spatial data (36, 38).

Method according to one of the preceding claims, wherein a voice command (32) is determined from the audio data (30); whereby from the optical and / or spatial data (36, 38) it is determined which user (26a, 26b) in the vehicle (10) generated the voice command (32).

Method according to one of the preceding claims, wherein the optical and / or spatial sensor comprises a video sensor (16a, 16b) and wherein the optical and / or spatial data comprise image data (36, 38).

Procedure according to Claim 7 wherein the video sensor (16a, 16b) is designed to detect light in a non-visual wavelength range; wherein the video sensor (16a, 16b) comprises an active light source (17) for generating an illumination in the non-visual wavelength range.

Method according to one of the preceding claims, wherein the optical and / or spatial sensor (16a, 16b, 16c) is designed to generate position and / or location data; and / or wherein the optical and / or spatial data (36, 38) contain position and / or location data.

Method according to one of the preceding claims, wherein the optical and / or spatial sensor comprises a scanning sensor (16c).

Computer program which, when executed on a processor, carries out the method according to one of the preceding claims.

Computer-readable medium on which a computer program is based Claim 11 is stored.

A vehicle system (12) comprising: an audio sensor (14a, 14b); an optical and / or spatial sensor (16a, 16b, 16c); an evaluation unit (18) which is designed to perform the method according to one of the Claims 1 to 10 perform.