DE102019210144A1 - Combination of sensor systems in the vehicle to improve the recognition of user commands - Google Patents
Combination of sensor systems in the vehicle to improve the recognition of user commands Download PDFInfo
- Publication number
- DE102019210144A1 DE102019210144A1 DE102019210144.5A DE102019210144A DE102019210144A1 DE 102019210144 A1 DE102019210144 A1 DE 102019210144A1 DE 102019210144 A DE102019210144 A DE 102019210144A DE 102019210144 A1 DE102019210144 A1 DE 102019210144A1
- Authority
- DE
- Germany
- Prior art keywords
- optical
- data
- spatial
- user
- command
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000003287 optical effect Effects 0.000 claims abstract description 53
- 238000011156 evaluation Methods 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 27
- 230000000007 visual effect Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005286 illumination Methods 0.000 claims description 2
- 230000001276 controlling effect Effects 0.000 description 8
- 238000011157 data evaluation Methods 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000036544 posture Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R16/00—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
- B60R16/02—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
- B60R16/037—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
- B60R16/0373—Voice control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60K—ARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
- B60K35/00—Arrangement of adaptations of instruments
-
- B60K35/10—
-
- B60K35/28—
-
- B60K35/29—
-
- B60K35/65—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- B60K2360/148—
-
- B60K2360/176—
-
- B60K2360/199—
-
- B60K2360/741—
Abstract
Ein Verfahren zum Steuern eines Fahrzeugsystems (12) umfasst: Empfangen von Audiodaten (30) in einer Auswerteeinheit (18) des Fahrzeugs (10), die mit einem Audiosensor (14a, 14b) des Fahrzeugs (10) aufgenommen wurden; Empfangen von optischen und/oder räumlichen Daten (36, 38) in der Auswerteeinheit (18), die mit einem optischen und/oder räumlichen Sensor (16a, 16b, 16c) aufgenommen wurden, wobei die optischen und/oder räumlichen Daten (36, 38) ein Bild und/oder eine räumliche Lage wenigstens eines Nutzers (26a, 26b) in dem Fahrzeug (10) kodieren; Auswerten der Audiodaten (30) zusammen mit den optischen und/oder räumlichen Daten (36, 38) mit der Auswerteeinheit (18) und Erkennen eines Nutzerbefehls (44); und Steuern des Fahrzeugsystems (12) basierend auf dem Nutzerbefehl (44).A method for controlling a vehicle system (12) comprises: receiving audio data (30) in an evaluation unit (18) of the vehicle (10) which were recorded with an audio sensor (14a, 14b) of the vehicle (10); Receipt of optical and / or spatial data (36, 38) in the evaluation unit (18), which were recorded with an optical and / or spatial sensor (16a, 16b, 16c), the optical and / or spatial data (36, 38) encode an image and / or a spatial position of at least one user (26a, 26b) in the vehicle (10); Evaluation of the audio data (30) together with the optical and / or spatial data (36, 38) with the evaluation unit (18) and recognition of a user command (44); and controlling the vehicle system (12) based on the user command (44).
Description
Die Erfindung betrifft ein Verfahren, ein Computerprogramm und ein computerlesbares Medium zum Steuern eines Fahrzeugsystems. Weiter betrifft die Erfindung ein Fahrzeugsystem.The invention relates to a method, a computer program and a computer-readable medium for controlling a vehicle system. The invention also relates to a vehicle system.
Spracherkennungen, Lippenlesen per Kamerasystem sowie Gestensteuerung oder Erkennung von Körpersprache sind bekannte Technologien. In Fahrzeugen wurden bereits Gestensteuerungssysteme sowie Sprachsteuerungssysteme implementiert, um das Fahrzeug bzw. eins seiner Teilsysteme zu steuern. Ein Nachteil bei der Auswertung von Audiodaten oder Videodaten im Fahrzeug kann oft sein, dass die Systeme die Nutzerbefehle nicht eindeutig interpretieren bzw. missverstehen können. Dies kann unter anderem in Störgrößen wie Störgeräuschen, Dunkelheit/Umgebungslicht usw. begründet sein, die die Nutzerbefehle verfälschen und/oder verdecken können.Speech recognition, lip reading by camera system and gesture control or recognition of body language are known technologies. Gesture control systems and voice control systems have already been implemented in vehicles in order to control the vehicle or one of its subsystems. A disadvantage when evaluating audio or video data in the vehicle can often be that the systems cannot clearly interpret or misunderstand the user commands. This can be due, among other things, to disturbance variables such as noise, darkness / ambient light, etc., which can falsify and / or cover up the user commands.
Es ist Aufgabe der Erfindung, die Eingabe von Nutzerbefehlen in einem Fahrzeug sowie deren Auswertung zu verbessern.The object of the invention is to improve the input of user commands in a vehicle and their evaluation.
Diese Aufgabe wird durch den Gegenstand der unabhängigen Ansprüche gelöst. Weitere Ausführungsformen der Erfindung ergeben sich aus den abhängigen Ansprüchen und aus der folgenden Beschreibung.This object is achieved by the subject matter of the independent claims. Further embodiments of the invention emerge from the dependent claims and from the following description.
Ein Aspekt der Erfindung betrifft ein Verfahren zum Steuern eines Fahrzeugsystems. Das Verfahren kann automatisch von einer Komponente des Fahrzeugs, wie etwa einem Bordcomputer, einer Auswerteeinheit und/oder dem Fahrzeugsystem selbst, durchgeführt werden. Das Fahrzeugsystem kann beispielsweise ein Bordcomputer, Navigationssystem, ein Infotainmentsystem des Fahrzeugs sein. Es ist möglich, dass das Fahrzeugsystem dazu ausgeführt ist, das Fahrzeug zu steuern, wie etwa zu lenken, beschleunigen, bremsen, navigieren. Das Fahrzeugsystem kann einen Aktuator zum Steuern des Fahrzeugs umfassen.One aspect of the invention relates to a method for controlling a vehicle system. The method can be carried out automatically by a component of the vehicle, such as an on-board computer, an evaluation unit and / or the vehicle system itself. The vehicle system can be, for example, an on-board computer, navigation system, an infotainment system of the vehicle. It is possible for the vehicle system to be designed to control the vehicle, such as, for example, to steer, accelerate, brake, navigate. The vehicle system may include an actuator for controlling the vehicle.
Beispiele für mögliche Fahrzeugtypen, in denen das System implementiert sein kann, sind Pkws, Lkws, Busse, Motorräder etc.Examples of possible vehicle types in which the system can be implemented are cars, trucks, buses, motorcycles, etc.
Gemäß einer Ausführungsform der Erfindung umfasst das Verfahren: Empfangen von Audiodaten in einer Auswerteeinheit des Fahrzeugs, die mit einem Audiosensor des Fahrzeugs aufgenommen wurden; Empfangen von optischen und/oder räumlichen Daten in der Auswerteeinheit, die mit einem optischen und/oder räumlichen Sensor aufgenommen wurden, wobei die optischen und/oder räumlichen Daten ein Bild und/oder eine räumliche Lage wenigstens eines Nutzers in dem Fahrzeug kodieren; Auswerten der Audiodaten zusammen mit den optischen und/oder räumlichen Daten mit der Auswerteeinheit und Erkennen eines Nutzerbefehls; und Steuern des Fahrzeugsystems basierend auf dem Nutzerbefehl.According to one embodiment of the invention, the method comprises: receiving in an evaluation unit of the vehicle audio data that were recorded with an audio sensor of the vehicle; Receiving optical and / or spatial data in the evaluation unit, which were recorded with an optical and / or spatial sensor, the optical and / or spatial data encoding an image and / or a spatial position of at least one user in the vehicle; Evaluation of the audio data together with the optical and / or spatial data with the evaluation unit and recognition of a user command; and controlling the vehicle system based on the user command.
Zusammenfassend werden Audiodaten, beispielsweise von einem Innenraummikrophon, in Kombination mit beispielsweise Videodaten ausgewertet, um aus der Kombination der Daten einen möglichen Nutzerbefehl zu ermitteln. Durch die Kombination der Daten kann die Erkennungswahrscheinlichkeit des Nutzerbefehls erhöht werden. Die Kombination verschiedener Sensorsysteme kann dazu dienen, die Nutzereingabe eindeutiger zu interpretieren bzw. die wahrscheinlichste Interpretation zu wählen. Dabei können die Einflüsse von Störgrößen dadurch minimiert werden, dass sich unterschiedliche Sensortechnologien und ggf. Algorithmen ergänzen, die auf unterschiedliche Eingangsgrößen zurückgreifen, die Anhaltspunkte für die Eingabenbedeutung liefern.In summary, audio data, for example from an indoor microphone, are evaluated in combination with, for example, video data in order to determine a possible user command from the combination of the data. By combining the data, the probability of recognition of the user command can be increased. The combination of different sensor systems can serve to interpret the user input more clearly or to select the most likely interpretation. The influences of disturbance variables can be minimized by the fact that different sensor technologies and possibly algorithms that use different input variables that provide clues for the meaning of the inputs complement each other.
Audiodaten können digitale Daten sein, die von einem Mikrophon, wie etwa einem Innenraummikrophon, aufgenommen werden. Die Audiodaten können Sprache und/oder Geräusche kodieren.Audio data can be digital data picked up by a microphone such as an indoor microphone. The audio data can encode speech and / or sounds.
Optische und/oder räumliche Daten können Daten sein, die von einer Kamera, einem Radar, einem Lidar etc. aufgenommen wurden. Die optischen und/oder räumlichen Daten können ein Bild, ein Video eines Nutzers, wie etwa dem Fahrer, im Fahrzeug kodieren. Die optischen und/oder räumlichen Daten können auch eine Lage und/oder Positionen des Nutzers im Raum kodieren.Optical and / or spatial data can be data recorded by a camera, radar, lidar, etc. The optical and / or spatial data can encode an image or video of a user, such as the driver, in the vehicle. The optical and / or spatial data can also encode a location and / or positions of the user in space.
Die Auswerteeinheit kann ein Teil des Fahrzeugsystems sein bzw. kann dazu ausgeführt sein, das Fahrzeugsystem zu steuern. Die Auswerteeinheit kann ein Teil des Bordcomputers des Fahrzeugs sein.The evaluation unit can be part of the vehicle system or can be designed to control the vehicle system. The evaluation unit can be part of the vehicle's on-board computer.
Der (gewünschte) Nutzerbefehl kann von einer Nutzereingabe unterschieden werden. Die Nutzereingabe kann die direkte Nutzeraktion sein, wie etwa das Aussprechen eines Wortbefehls, eine Geste etc. Der Nutzerbefehl kann eine Zahl und/oder eine Wahrscheinlichkeit für eine bestimmte gewünschte Aktion des Fahrzeugsystems sein, d.h. die Aktion, die das Fahrzeugsystem durchführen soll. Ein Beispiel dafür kann sein, dass das Radio leiser werden soll bzw. dass das Fahrzeug bremsen soll.The (desired) user command can be distinguished from a user input. The user input can be the direct user action, such as the utterance of a word command, a gesture, etc. The user command can be a number and / or a probability for a specific desired action of the vehicle system, i.e. the action that the vehicle system is to perform. An example of this can be that the radio should be quieter or that the vehicle should brake.
Es kann sein, dass die optischen und/oder räumlichen Daten und die Audiodaten im gleichen Zeitabschnitt aufgenommen wurden. Gleichzeitig aufgenommene Zeitabschnitte der beiden Typen von Daten können von der Auswerteeinheit ausgewertet werden, um aus einer kombinierten Nutzereingabe und/oder die von unterschiedlichen Sensoren (d.h. den Audiosensor und den optischen und/oder räumlichen Sensor) aufgenommene Nutzereingabe einen Nutzerbefehl zu ermitteln. Dabei ist es möglich, dass beide Daten zunächst getrennt voneinander in mögliche Nutzerbefehle umgewandelt werden, die dann miteinander plausibilisiert werden. Es ist auch möglich, dass beide Daten zusammengefasst in einen Nutzerbefehl umgewandelt werden, beispielsweise als Eingaben in ein künstliches neuronales Netzwerk.It may be that the optical and / or spatial data and the audio data were recorded in the same time period. Simultaneously recorded time segments of the two types of data can be evaluated by the evaluation unit in order to determine from a combined user input and / or that of different sensors (ie the audio sensor and the optical and / or spatial sensor) recorded user input to determine a user command. It is possible that both data are first converted separately from one another into possible user commands, which are then checked for plausibility with one another. It is also possible that both data are combined and converted into a user command, for example as inputs into an artificial neural network.
Gemäß einer Ausführungsform der Erfindung umfasst das Verfahren weiter: Auswerten der Audiodaten und Erkennen wenigstens eines möglichen Sprachbefehls. Dazu kann ein Algorithmus zur Spracherkennung verwendet werden. Aus den Audiodaten kann ein Sprachbefehl bzw. die Wahrscheinlichkeit für mehre Sprachbefehle ermittelt werden.According to one embodiment of the invention, the method further comprises: evaluating the audio data and recognizing at least one possible voice command. A speech recognition algorithm can be used for this purpose. A voice command or the probability for several voice commands can be determined from the audio data.
Gemäß einer Ausführungsform der Erfindung umfasst das Verfahren weiter: Auswerten der optischen und/oder räumlichen Daten und Erkennen wenigstens eines möglichen Bewegungsbefehls. Ein Bewegungsbefehl kann beispielsweise auf einer Geste und/oder einer Bewegung des Nutzers basieren. Auch kann ein Bewegungsbefehl auf einer statischen Position und/oder einer statischen Lage des Nutzers (beispielsweise einer Pose) basieren. Aus den optischen und/oder räumlichen Daten kann ein Bewegungsbefehl bzw. die Wahrscheinlichkeit für mehrere Bewegungsbefehle ermittelt werden.According to one embodiment of the invention, the method further comprises: evaluating the optical and / or spatial data and recognizing at least one possible movement command. A movement command can for example be based on a gesture and / or a movement of the user. A movement command can also be based on a static position and / or a static posture of the user (for example a pose). A movement command or the probability for several movement commands can be determined from the optical and / or spatial data.
Gemäß einer Ausführungsform der Erfindung umfasst das Verfahren weiter: Erkennen des Nutzerbefehls durch Plausibilisieren des wenigstens einen möglichen Sprachbefehls und des wenigstens einen möglichen Bewegungsbefehls. Nach dem Auswerten der beiden Typen von Daten kann basierend auf den möglichen Sprachbefehlen und den möglichen Bewegungsbefehlen ein wahrscheinlichster Nutzerbefehl ermittelt werden.According to one embodiment of the invention, the method further comprises: Recognizing the user command by checking the plausibility of the at least one possible voice command and the at least one possible movement command. After evaluating the two types of data, a most likely user command can be determined based on the possible voice commands and the possible movement commands.
Dazu kann eine Tabelle von plausiblen Kombinationen von Sprachbefehlen und Bewegungsbefehlen hinterlegt sein. Die Tabelle kann Paare von plausiblen Sprachbefehlen und Bewegungsbefehlen enthalten (wie beispielsweise „Radio leiser“ und „Zeigen auf Radio“).A table of plausible combinations of voice commands and movement commands can be stored for this purpose. The table can contain pairs of plausible voice commands and movement commands (such as “radio down” and “pointing to radio”).
Weiter ist es auch möglich, dass die Sprachbefehle und die Bewegungsbefehle die gleichen Befehle kodieren, die mit den unterschiedlichen Datentypen ermittelt wurden. Beispielsweise können die Bewegungsbefehle durch Lippenlesen ermittelte Befehle umfassen. In diesem Fall kann das Plausibilisieren dadurch geschehen, dass ein Nutzerbefehl plausibel ist, der sowohl in den möglichen Sprachbefehlen und den möglichen Bewegungsbefehlen vorhanden ist.It is also possible for the voice commands and the movement commands to encode the same commands that were determined with the different data types. For example, the movement commands can include commands determined by lip reading. In this case, the plausibility check can take place in that a user command is plausible that is present in both the possible voice commands and the possible movement commands.
Gemäß einer Ausführungsform der Erfindung werden für den wenigstens einen möglichen Sprachbefehl und den wenigstens einen möglichen Bewegungsbefehl Wahrscheinlichkeiten ermittelt. Aus den Wahrscheinlichkeiten kann ein wahrscheinlichster Nutzerbefehl ermittelt werden. Beispielsweise können die möglichen Sprachbefehle und die möglichen Bewegungsbefehle eine Auswahl von möglichen Nutzerbefehlen sein, die mit Wahrscheinlichkeiten gewichtet wurden. In diesem Fall kann das Plausibilisieren dadurch geschehen, dass der Nutzerbefehl, der gemäß der kombinierten Wahrscheinlichkeiten aus den möglichen Sprachbefehlen und den möglichen Bewegungsbefehlen die höchste Wahrscheinlichkeit aufweist, als Nutzerbefehl ausgewählt wird.According to one embodiment of the invention, probabilities are determined for the at least one possible voice command and the at least one possible movement command. A most likely user command can be determined from the probabilities. For example, the possible voice commands and the possible movement commands can be a selection of possible user commands that have been weighted with probabilities. In this case, the plausibility check can take place in that the user command which, according to the combined probabilities of the possible voice commands and the possible movement commands, has the highest probability is selected as the user command.
Gemäß einer Ausführungsform der Erfindung werden die optischen und/oder räumlichen Daten in Bezug auf eine Lippenbewegung des Nutzers ausgewertet. In diesem Fall können auch die möglichen Bewegungsbefehle Sprachbefehle sein. Zum Auswerten von beispielsweise Bilddaten kann ein Algorithmus zum Lippenlesen von Sprache verwendet werden. Die lippengelesenen Worte können beispielsweise mit aus einer Spracherkennung stammenden Worten verglichen und/oder plausibilisiert werden.According to one embodiment of the invention, the optical and / or spatial data are evaluated in relation to a lip movement of the user. In this case, the possible movement commands can also be voice commands. An algorithm for lip reading speech can be used to evaluate image data, for example. The lip-read words can, for example, be compared and / or checked for plausibility with words originating from speech recognition.
Gemäß einer Ausführungsform der Erfindung werden die optischen und/oder räumlichen Daten in Bezug auf eine Geste des Nutzers ausgewertet. Dabei kann aus den optischen und/oder räumlichen Daten ein Gestenbefehl ermittelt werden. Ein Algorithmus zur Erkennung von Körpersprache wie etwa Mimik, Gestik und Körperhaltung kann beispielsweise aus Bilddaten ermitteln, mit welchem Fahrzeugsystem der Nutzer agieren will. Auch damit kann plausibilisiert werden, ob der Sprachbefehl zu dem Gestenbefehl passt.According to one embodiment of the invention, the optical and / or spatial data are evaluated in relation to a gesture by the user. A gesture command can be determined from the optical and / or spatial data. An algorithm for recognizing body language such as facial expressions, gestures and posture can, for example, use image data to determine which vehicle system the user wants to operate with. This can also be used to check whether the voice command matches the gesture command.
Gemäß einer Ausführungsform der Erfindung wird aus den Audiodaten ein Sprachbefehl ermittelt, wobei aus den optischen und/oder räumlichen Daten ermittelt wird, welcher Nutzer im Fahrzeug den Sprachbefehl erzeugt hat. Beispielsweise bei der Verwendung mehrerer Mikrofone können weitere Sensoren wie etwa Kamerasysteme auch dazu eingesetzt werden, anhand der Blick- und Sprachrichtung die den Mikrofonen zugeordneten Sprachbefehle zu gewichten bzw. auszuwählen und/oder Sprachbefehle einzelnen Nutzern zuzuordnen.According to one embodiment of the invention, a voice command is determined from the audio data, with the optical and / or spatial data being used to determine which user in the vehicle generated the voice command. For example, when using several microphones, additional sensors such as camera systems can also be used to weight or select the voice commands assigned to the microphones and / or to assign voice commands to individual users based on the direction of gaze and language.
Gemäß einer Ausführungsform der Erfindung umfasst der optische und/oder räumliche Sensor einen Videosensor. Die optischen und/oder räumlichen Daten können Bilddaten umfassen. Beispielsweise mit einem auf künstlicher Intelligenz beruhenden System können aus Bilddaten Lippenbewegungen und/oder Gesten des Nutzers abgleitet werden.According to one embodiment of the invention, the optical and / or spatial sensor comprises a video sensor. The optical and / or spatial data can include image data. For example, with a system based on artificial intelligence, lip movements and / or gestures of the user can be derived from image data.
Gemäß einer Ausführungsform der Erfindung ist der Videosensor dazu ausgeführt, Licht in einem nicht-visuellen Wellenlängenbereich zu erfassen, wobei der Videosensor eine aktive Lichtquelle zum Erzeugen einer Beleuchtung im nicht-visuellen Wellenlängenbereich umfasst. Bei der Verwendung von Kameras mit aktiver Beleuchtung in einem nicht-visuellen Wellenlängenbereich, wie beispielsweise Infrarot, kann die Beleuchtung für den Nutzer unsichtbar bleiben. Der Nutzer wird nicht gestört, das System kann aber gleichzeitig auch bei Dunkelheit funktionieren. Weiter können die Störquellen bei Licht in einem nicht-visuellen Wellenlängenbereich geringer sein. Es können auch Vorrichtungen zur Fremdlichtunterdrückung, wie etwa optische Filter, verwendet werden. Auch mit einer TOF (time of flight)-Kamera mit einem Photomischdetektor kann Umgebungslicht als Störgröße reduziert werden.According to one embodiment of the invention, the video sensor is designed to detect light in a non-visual wavelength range, the video sensor comprising an active light source for generating illumination in the non-visual wavelength range. When using cameras with active lighting in a non-visual wavelength range, such as infrared, the lighting can remain invisible to the user. The user is not disturbed, but the system can also work in the dark. Furthermore, the sources of interference can be smaller in the case of light in a non-visual wavelength range. Devices for suppressing extraneous light, such as optical filters, can also be used. Ambient light as a disturbance variable can also be reduced with a TOF (time of flight) camera with a photonic mixer.
Es ist auch möglich, dass die Audiodaten und die optischen und/oder räumlichen Daten zusammen ausgewertet werden, um einen Nutzerbefehl direkt zu erzeugen. Dies kann als Sensor-Fusion-Ansatz angesehen werden. Die Audiodaten und die optischen und/oder räumlichen Daten können beispielsweise gemeinsam von einem Machine-Learning-Algorithmus verarbeitet werden, der direkt einen Nutzerbefehl bzw. eine Wahrscheinlichkeit für einen Nutzerbefehl ausgibt. Es ist nicht notwendig, die von verschiedenen Sensoren stammenden Daten zunächst getrennt voneinander auszuwerten, um einen Sprachbefehl und einen Bewegungsbefehl zu ermitteln.It is also possible for the audio data and the optical and / or spatial data to be evaluated together in order to generate a user command directly. This can be seen as a sensor fusion approach. The audio data and the optical and / or spatial data can, for example, be processed jointly by a machine learning algorithm which directly outputs a user command or a probability for a user command. It is not necessary to first evaluate the data from different sensors separately from one another in order to determine a voice command and a movement command.
Gemäß einer Ausführungsform der Erfindung ist der optische und/oder räumliche Sensor dazu ausgeführt, Positions- und/oder Lagedaten zu erzeugen. Derartige Positions- und/oder Lagedaten können dreidimensionale Punkte enthalten. Mit den dreidimensionalen Punkten kann eine Lage und/oder Position des Nutzers, wie etwa seines Arms, seiner Lippen usw., kodiert werden. Die optischen und/oder räumlichen Daten können Positions- und/oder Lagedaten wie etwa dreidimensionale Punkte, enthalten. Beispielsweise kann der optische und/oder räumliche Sensor eine 3D-Kamera sein bzw. umfassen, wie etwa eine TOF (time of flight)-Kamera. 3D-Kameras können dazu geeignet sein, Körpersprache wie Gesten und/oder Körperhaltungen zu erkennen.According to one embodiment of the invention, the optical and / or spatial sensor is designed to generate position and / or location data. Such position and / or location data can contain three-dimensional points. A position and / or position of the user, such as his arm, his lips, etc., can be coded with the three-dimensional points. The optical and / or spatial data can contain position and / or location data such as three-dimensional points. For example, the optical and / or spatial sensor can be or comprise a 3D camera, such as a TOF (time of flight) camera. 3D cameras can be suitable for recognizing body language such as gestures and / or postures.
Gemäß einer Ausführungsform der Erfindung umfasst der optische und/oder räumliche Sensor einen (mit Strahlen) abtastenden Sensor. Der Sensor kann einen Ultraschallsensor, einen Lidarsensor und/oder einen Radarsensor umfassen. Mit Ultraschall, Laserstrahlen und/oder Radarstrahlen kann der Nutzer ohne Störungen durch andere Lichtquellen abgetastet werden und/oder räumliche Daten erzeugt werden, die mögliche Sprachbefehle plausibilisieren können.According to one embodiment of the invention, the optical and / or spatial sensor comprises a sensor that scans (with beams). The sensor can comprise an ultrasonic sensor, a lidar sensor and / or a radar sensor. With ultrasound, laser beams and / or radar beams, the user can be scanned without interference from other light sources and / or spatial data can be generated that can make possible voice commands plausible.
Weitere Aspekte der Erfindung betreffen ein Computerprogramm, das, wenn es auf einem Prozessor ausgeführt wird, das Verfahren, so wie hierin beschrieben, durchführt, sowie ein computerlesbares Medium, auf dem ein derartiges Computerprogramm gespeichert ist. Ein computerlesbares Medium kann dabei eine Harddisk, ein USB-Speichergerät, ein RAM, ein ROM, ein EPROM oder ein FLASH-Speicher sein. Ein computerlesbares Medium kann auch ein Datenkommunikationsnetzwerk, wie beispielsweise das Internet, das den Download eines Programmcodes ermöglicht, sein. Das computerlesbare Medium kann ein transitorisches oder nichttransitorisches Medium sein. Es ist zu verstehen, dass Merkmale des Verfahrens, so wie oben stehend und unten stehend beschrieben, auch Merkmale des Computerprogramms und/oder des computerlesbaren Mediums sein können.Further aspects of the invention relate to a computer program which, when it is executed on a processor, carries out the method as described herein, as well as a computer-readable medium on which such a computer program is stored. A computer-readable medium can be a hard disk, a USB storage device, a RAM, a ROM, an EPROM or a FLASH memory. A computer-readable medium can also be a data communication network, such as the Internet, for example, which enables program code to be downloaded. The computer readable medium can be transitory or non-transitory. It is to be understood that features of the method, as described above and below, can also be features of the computer program and / or the computer-readable medium.
Ein weiterer Aspekt der Erfindung betrifft ein Fahrzeugsystem. Das Fahrzeugsystem umfasst einen Audiosensor, einen optischen und/oder räumlichen Sensor und eine Auswerteeinheit, die dazu ausgeführt ist, das Verfahren, so wie oben stehend und unten stehend beschrieben, durchzuführen. Der räumliche Sensor kann auch einen Audiosensor umfassen. Weiter kann das Fahrzeugsystem einen Aktuator zum Steuern des Fahrzeugs umfassen. Das Fahrzeugsystem kann sich besonders zur HMI-Interaktion in Fahrzeugen eignen, da dort oft entsprechende Störgrößen (wie etwa Fahrgeräusche, Gespräche, wechselnde Lichtverhältnisse etc.) vorliegen und gleichzeitig eine unkomplizierte und präzise Kommunikation mit dem Fahrzeug wünschenswert ist, um z.B. den Fahrer nicht abzulenken. Es ist zu verstehen, dass Merkmale des Verfahrens, so wie oben stehend und unten stehend beschrieben, auch Merkmale des Fahrzeugsystems sein können und umgekehrt.Another aspect of the invention relates to a vehicle system. The vehicle system comprises an audio sensor, an optical and / or spatial sensor and an evaluation unit which is designed to carry out the method as described above and below. The spatial sensor can also include an audio sensor. The vehicle system can furthermore comprise an actuator for controlling the vehicle. The vehicle system can be particularly suitable for HMI interaction in vehicles, since there are often corresponding disturbance variables (such as driving noises, conversations, changing lighting conditions, etc.) and at the same time uncomplicated and precise communication with the vehicle is desirable in order not to distract the driver, for example . It is to be understood that features of the method, as described above and below, can also be features of the vehicle system and vice versa.
Im Folgenden werden Ausführungsbeispiele der Erfindung mit Bezug auf die beiliegenden Figuren detailliert beschrieben.
-
1 zeigt schematisch ein Fahrzeug mit einem Fahrzeugsystem gemäß einer Ausführungsform der Erfindung. -
2 zeigt schematisch ein Blockdiagramm für ein Fahrzeugsystem gemäß einer Ausführungsform der Erfindung. -
3 zeigt ein Flussdiagramm für ein Verfahren zum Steuern eines Fahrzeugsystems gemäß einer Ausführungsform der Erfindung.
-
1 shows schematically a vehicle with a vehicle system according to an embodiment of the invention. -
2 schematically shows a block diagram for a vehicle system according to an embodiment of the invention. -
3 FIG. 10 shows a flow diagram for a method for controlling a vehicle system according to an embodiment of the invention.
Die in den Figuren verwendeten Bezugszeichen und ihre Bedeutung sind in zusammenfassender Form in der Liste der Bezugszeichen aufgeführt. Grundsätzlich sind identische oder ähnliche Teile mit den gleichen Bezugszeichen versehen.The reference symbols used in the figures and their meaning are given in summarized form in the list of reference symbols. In principle, identical or similar parts are provided with the same reference symbols.
Weiter zeigt
Einer oder beide der Videosensoren
Einer oder beide der Videosensoren
Ein Audiodatenauswertungsmodul
Weiter empfängt ein Bewegungsdatenauswertungsmodul
Das Bewegungsdatenauswertungsmodul
Das Plausibilisierungsmodul
Der Nutzerbefehl
Die
Im Schritt S10 werden die Audiodaten
Im Schritt S12 wertet das Audiodatenauswertungsmodul
Im Schritt S14 wertet das Bewegungsdatenauswertungsmodul
Es ist aber auch möglich, dass die optischen Daten
Im Schritt S16 erkennt das Plausibilisierungsmodul
Die Tabelle kann zweidimensional oder mehrdimensional sein und in einer Dimension mögliche Sprachbefehle, wie etwa „Radio lauter“, „Radio leiser“, „Licht an“, „Licht aus“ usw., speichern. In der anderen, zweiten Dimension können mögliche Bewegungsbefehle, wie etwa „Deuten auf Radio“, „Deuten auf Beleuchtung“, usw., gespeichert sein. In der Tabelle können dann Korrelationen zwischen Einträgen aus beiden Dimensionen gespeichert sein, wie etwa 1 für „Radio leiser“ und „Deuten auf Radio“.The table can be two-dimensional or multi-dimensional and store possible voice commands, such as "radio louder", "radio quieter", "light on", "light off", etc., in one dimension. In the other, second dimension, possible movement commands, such as “pointing to radio”, “pointing to lighting”, etc., can be stored. Correlations between entries from both dimensions can then be stored in the table, such as 1 for "radio quieter" and "indicate radio".
Eine weitere Möglichkeit ist, dass für den wenigstens einen möglichen Sprachbefehl
Es ist zu verstehen, dass Wahrscheinlichkeiten zu den Sprachbefehlen
Weiter ist möglich, dass aus den optischen Daten
Im Schritt S18 wird der Nutzerbefehl
Ergänzend ist darauf hinzuweisen, dass „umfassend“ keine anderen Elemente oder Schritte ausschließt und „eine“ oder „ein“ keine Vielzahl ausschließt. Ferner sei darauf hingewiesen, dass Merkmale oder Schritte, die mit Verweis auf eines der obigen Ausführungsbeispiele beschrieben worden sind, auch in Kombination mit anderen Merkmalen oder Schritten anderer oben beschriebener Ausführungsbeispiele verwendet werden können. Bezugszeichen in den Ansprüchen sind nicht als Einschränkung anzusehen.In addition, it should be noted that “comprehensive” does not exclude any other elements or steps and “one” or “one” does not exclude a large number. It should also be pointed out that features or steps that have been described with reference to one of the above exemplary embodiments can also be used in combination with other features or steps of other exemplary embodiments described above. Reference signs in the claims are not to be regarded as a restriction.
BezugszeichenlisteList of reference symbols
- 1010
- Fahrzeugvehicle
- 1212
- FahrzeugsystemVehicle system
- 14a14a
- Audiosensor / MikrofonAudio sensor / microphone
- 14b14b
- Audiosensor / MikrofonAudio sensor / microphone
- 16a16a
- Videosensor / KameraVideo sensor / camera
- 16b16b
- Videosensor / KameraVideo sensor / camera
- 16c16c
- UltraschallsensorUltrasonic sensor
- 1717th
- aktive Lichtquelleactive light source
- 1818th
- AuswerteeinheitEvaluation unit
- 2020th
- AntriebssystemDrive system
- 2222nd
- InfotainmentsystemInfotainment system
- 24a24a
- AktuatorActuator
- 24b24b
- AktuatorActuator
- 26a26a
- Nutzer / FahrerUser / driver
- 26b26b
- Nutzer / BeifahrerUser / co-driver
- 2828
- AudiodatenauswertungsmodulAudio data evaluation module
- 3030th
- AudiodatenAudio data
- 3232
- mögliche Sprachbefehlepossible voice commands
- 3434
- BewegungsdatenauswertungsmodulMovement data evaluation module
- 3636
- optische Datenoptical data
- 3838
- räumliche Datenspatial data
- 4040
- mögliche Bewegungsbefehlepossible movement commands
- 4242
- PlausibilisierungsmodulPlausibility module
- 4444
- NutzerbefehlUser command
- 4646
- SteuermodulControl module
- 4848
- SteuerbefehlControl command
Claims (13)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102019210144.5A DE102019210144A1 (en) | 2019-07-10 | 2019-07-10 | Combination of sensor systems in the vehicle to improve the recognition of user commands |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102019210144.5A DE102019210144A1 (en) | 2019-07-10 | 2019-07-10 | Combination of sensor systems in the vehicle to improve the recognition of user commands |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102019210144A1 true DE102019210144A1 (en) | 2021-01-14 |
Family
ID=74092224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102019210144.5A Withdrawn DE102019210144A1 (en) | 2019-07-10 | 2019-07-10 | Combination of sensor systems in the vehicle to improve the recognition of user commands |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102019210144A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102021127874A1 (en) | 2021-10-26 | 2023-04-27 | Behr-Hella Thermocontrol Gmbh | Device for receiving radiation from a detection area in the interior of a vehicle or in the area surrounding a vehicle |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000068910A1 (en) * | 1999-05-08 | 2000-11-16 | Robert Bosch Gmbh | Method and device for surveying the interior and the surrounding area of a vehicle |
DE102012013503A1 (en) * | 2012-07-06 | 2014-01-09 | Audi Ag | Method and control system for operating a motor vehicle |
DE102016001054A1 (en) * | 2016-01-30 | 2016-07-21 | Daimler Ag | Method for entering a command in a control unit of a vehicle |
DE102016011916A1 (en) * | 2016-10-05 | 2017-06-01 | Daimler Ag | Method for carrying out an automatic parking operation of a motor vehicle |
DE102016125280A1 (en) * | 2016-01-08 | 2017-07-13 | Ford Global Technologies, Llc | SYSTEM AND METHOD FOR FUNCTION ACTIVATION BY GESTURE DETECTION AND VOICE COMMAND |
DE102016221564A1 (en) * | 2016-10-13 | 2018-04-19 | Bayerische Motoren Werke Aktiengesellschaft | Multimodal dialogue in a motor vehicle |
DE102019003785A1 (en) * | 2019-05-29 | 2020-01-02 | Daimler Ag | Method for operating a vehicle |
-
2019
- 2019-07-10 DE DE102019210144.5A patent/DE102019210144A1/en not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000068910A1 (en) * | 1999-05-08 | 2000-11-16 | Robert Bosch Gmbh | Method and device for surveying the interior and the surrounding area of a vehicle |
DE102012013503A1 (en) * | 2012-07-06 | 2014-01-09 | Audi Ag | Method and control system for operating a motor vehicle |
DE102016125280A1 (en) * | 2016-01-08 | 2017-07-13 | Ford Global Technologies, Llc | SYSTEM AND METHOD FOR FUNCTION ACTIVATION BY GESTURE DETECTION AND VOICE COMMAND |
DE102016001054A1 (en) * | 2016-01-30 | 2016-07-21 | Daimler Ag | Method for entering a command in a control unit of a vehicle |
DE102016011916A1 (en) * | 2016-10-05 | 2017-06-01 | Daimler Ag | Method for carrying out an automatic parking operation of a motor vehicle |
DE102016221564A1 (en) * | 2016-10-13 | 2018-04-19 | Bayerische Motoren Werke Aktiengesellschaft | Multimodal dialogue in a motor vehicle |
DE102019003785A1 (en) * | 2019-05-29 | 2020-01-02 | Daimler Ag | Method for operating a vehicle |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102021127874A1 (en) | 2021-10-26 | 2023-04-27 | Behr-Hella Thermocontrol Gmbh | Device for receiving radiation from a detection area in the interior of a vehicle or in the area surrounding a vehicle |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2005048195A2 (en) | Method for the analysis of correspondences in image data sets | |
DE112019007762T5 (en) | Method for training a generative adversarial network, modified image generation module and system for detecting features in an image | |
WO2018202552A1 (en) | Method and device for classifying objects in the environment of a motor vehicle | |
DE102019210144A1 (en) | Combination of sensor systems in the vehicle to improve the recognition of user commands | |
DE102017124600A1 (en) | Semantic segmentation of an object in an image | |
WO2020126597A1 (en) | Method, computer program, machine-readable storage medium, and device for data prediction | |
DE102019218069A1 (en) | Device and method for recognizing and classifying an opponent in an accident | |
DE102021203021A1 (en) | SEMANTICALLY CONSISTENT EXTENDED TRAINING DATA FOR LIGHT DETECTION | |
DE112020003343T5 (en) | SYSTEM AND PROCESS USING A ROBUST DEEP GENERATIVE MODEL | |
DE102019220335A1 (en) | SEMANTIC SEGMENTATION USING DRIVER ATTENTION INFORMATION | |
EP3876157B1 (en) | Computer-implemented method and system for generating synthetic sensor data and training method | |
DE102019204187A1 (en) | Classification and temporal recognition of tactical driving maneuvers by road users | |
DE102018201909A1 (en) | Method and device for object recognition | |
DE102018010099B4 (en) | Avoid glaring people from a light source | |
WO2022023008A1 (en) | Computer-implemented method and computer program for machine-learning a robustness of an acoustic classifier, acoustic classification system for automatically operable driving systems, and automatically operable driving system | |
DE102020128952A1 (en) | Method and assistance device for two-stage image-based scene recognition and motor vehicle | |
DE102019208864A1 (en) | Detection system, working procedures and training procedures | |
DE102019201702A1 (en) | Modular inpainting process | |
DE102019209463A1 (en) | Method for determining the trust value of an object of a class | |
DE102022119301A1 (en) | METHOD FOR IMPROVING VIRTUAL INTERACTION BETWEEN MULTIPLE REAL PARTICIPANTS | |
DE102021214329A1 (en) | Method and device for determining coverage of a data set for a machine learning system with regard to trigger events | |
WO2021043509A1 (en) | Method for compressing a neural network | |
DE102019127306A1 (en) | System and method for detecting objects in a three-dimensional environment of a carrier vehicle | |
DE102021131930A1 (en) | Gesture recognition in traffic | |
DE102021131179A1 (en) | Shape prioritized image classification using deep convolution meshes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R016 | Response to examination communication | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |