DE102021128260A1 - Sprachsteuerung an Bord eines Fahrzeugs - Google Patents

Sprachsteuerung an Bord eines Fahrzeugs Download PDF

Info

Publication number
DE102021128260A1
DE102021128260A1 DE102021128260.8A DE102021128260A DE102021128260A1 DE 102021128260 A1 DE102021128260 A1 DE 102021128260A1 DE 102021128260 A DE102021128260 A DE 102021128260A DE 102021128260 A1 DE102021128260 A1 DE 102021128260A1
Authority
DE
Germany
Prior art keywords
vehicle
user
input
board
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021128260.8A
Other languages
English (en)
Inventor
Etienne Iliffe-Moon
Iris Koser
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bayerische Motoren Werke AG
Original Assignee
Bayerische Motoren Werke AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bayerische Motoren Werke AG filed Critical Bayerische Motoren Werke AG
Priority to DE102021128260.8A priority Critical patent/DE102021128260A1/de
Publication of DE102021128260A1 publication Critical patent/DE102021128260A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Mechanical Engineering (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Verfahren zum Erkennen einer gesprochenen Benutzereingabe an Bord eines Fahrzeugs, wobei das Verfahren folgende Schritte umfasst: akustisches Erfassen einer Spracheingabe; optisches Erfassen von Lippenbewegungen eines Benutzers an Bord des Fahrzeugs; und Bestimmen eines der Benutzereingabe zugeordneten Benutzers auf der Basis einer Korrelation der Spracheingabe mit den Lippenbewegungen.

Description

  • Die vorliegende Erfindung betrifft eine Sprachsteuerung an Bord eines Fahrzeugs. Insbesondere betrifft die Erfindung die Steuerung einer Funktion an Bord des Fahrzeugs in Abhängigkeit einer Spracheingabe.
  • Ein Fahrzeug ist dazu eingerichtet, eine Spracheingabe einer Person an Bord zu erfassen und eine der Spracheingabe zugeordnete Funktion zu steuern. Dazu kann das Fahrzeug über eines oder mehrere Mikrofone verfügen, um die sprachliche Äußerung der Person aufzuzeichnen. Durch die Spracherkennung kann die Person, insbesondere ein Fahrer, auch einen komplexen Befehl geben, ohne seine Hände von einem Lenkrad zu nehmen oder seinen Blick von einem Geschehen außerhalb des Fahrzeugs abzuwenden. So kann der Fahrer beispielsweise sprachlich einen gewünschten Zielpunkt in ein Navigationssystem eingeben und eine Routenführung zu dem Zielpunkt aktivieren.
  • Häufig befinden sich mehrere Personen an Bord des Fahrzeugs und eine Spracheingabe einer Person kann durch ein Geräusch oder eine sprachliche Äußerung einer anderen Person gestört werden. Die Bedienbarkeit der Fahrzeugfunktion kann dadurch gestört sein. Es wurde vorgeschlagen, mehrere Mikrofone an Bord des Fahrzeugs anzubringen, um verbessert Sprachsignale nur einer Person ausfiltern zu können. Eine Verarbeitung der durch die Mikrofone aufgezeichneten akustischen Signale hat sich jedoch als aufwendig erwiesen und in der Praxis kann eine Spracheingabe trotzdem gelegentlich nicht verstanden oder nicht der sprechenden Person zugeordnet werden.
  • Eine der vorliegenden Erfindung zugrunde liegende Aufgabe besteht in der Angabe einer verbesserten Technik zur Sprachsteuerung einer Funktion an Bord eines Fahrzeugs. Die Erfindung löst diese Aufgabe mittels der Gegenstände der unabhängigen Ansprüche. Unteransprüche geben bevorzugte Ausführungsformen wieder.
  • Nach einem ersten Aspekt der vorliegenden Erfindung umfasst ein Verfahren zum Erkennen einer gesprochenen Benutzereingabe an Bord eines Fahrzeugs Schritte des akustischen Erfassens einer Spracheingabe; des optischen Erfassens von Lippenbewegungen eines Benutzers an Bord des Fahrzeugs; und des Bestimmens eines der Benutzereingabe zugeordneten Benutzers auf der Basis einer Korrelation der Spracheingabe mit den Lippenbewegungen.
  • Erfindungsgemäß kann durch die Bestimmung der Korrelation verbessert nur eine sprachliche Äußerung eines einzigen Benutzers verarbeitet werden. Eine gleichzeitige Äußerung eines anderen Benutzers oder einer anderen Person an Bord des Fahrzeugs kann verbessert ignoriert werden. Eine Erkennungsrate von Spracheingaben an Bord des Fahrzeugs kann gesteigert sein. Außerdem kann eine Rate von Falscherkennungen gesenkt werden. Eine nicht beabsichtigte Funktion kann so verbessert nicht ausgelöst werden.
  • In einer bevorzugten Ausführungsform wird die Benutzereingabe auf der Basis der Spracheingabe und der Lippenbewegungen erkannt. Dabei können einzelne Laute, Silben oder Worte sowohl akustisch als auch optisch erkannt werden. Akustische Störungen können verbessert ausgefiltert werden. So kann auch ein längerer oder schwierig zu artikulierender Sprachbefehl verbessert erkannt werden.
  • In einer weiter bevorzugten Ausführungsform wird die Benutzereingabe nur von einem vorbestimmten Benutzer an Bord des Fahrzeugs erkannt. Dieser Benutzer kann insbesondere derjenige sein, dessen Lippenbewegungen optisch erfasst wurden. Wird eine Spracheingabe erkannt, ohne dass der Benutzer seine Lippen bewegt, so kann diese verworfen werden. Eine Erkennung oder Ausführung des Sprachbefehls können dann unterbleiben.
  • In einer weiteren Ausführungsform wird die Benutzereingabe nur von einem Benutzer an einer vorbestimmten Position des Fahrzeugs erkannt. Diese Position kann beispielsweise ein Fahrersitz des Fahrzeugs sein, sodass nur eine Spracheingabe eines Fahrers erkannt werden kann. Das Verfahren kann mehrfach bezüglich unterschiedlicher Benutzer bzw. unterschiedlicher Positionen an Bord des Fahrzeugs ausgeführt werden. So können akustische Äußerungen mehrerer Personen an Bord, die sich auch überlagern können, auf optischem Weg verbessert voneinander separiert werden. Beispielsweise kann eine Äußerung eines Kindes ausgefiltert und ein Sprachbefehl einer erwachsenen Person akzeptiert werden. Optional können mehrere Sprachbefehle erkannt werden, die von unterschiedlichen Benutzern an Bord des Fahrzeugs gleichzeitig gegeben werden.
  • In einer weiteren Ausführungsform kann die Benutzereingabe auf den Benutzer bezogen werden, dessen Lippenbewegungen erfasst und mit der Spracheingabe korreliert werden konnten. So kann eine benutzer- oder positionsspezifische Spracheingabe verbessert erkannt werden. Die Spracheingabe kann beispielsweise eine Richtungseingabe umfassen (z. B. ich, mein, hier, vorne, links, nach Hause etc.), wobei diese Angabe durch Bezug auf den Benutzer bzw. die von ihm eingenommen Position verbessert ausgewertet bzw. erkannt werden kann. Die Spracheingabe kann auch inhärent auf den Benutzer oder seine Position bezogen sein. Beispielsweise kann ein Benutzer eine elektrische Sitzverstellung aktivieren, ohne die Position seines Sitzes explizit anzugeben. Der Sitz kann vielmehr auf der Basis des Benutzers bestimmt werden, dessen Lippenbewegungen erfasst wurden. In entsprechender Weise kann beispielsweise ein Fenster oder eine Tür im Bereich des Benutzers geöffnet oder verschlossen, verriegelt oder entriegelt werden. Auch andere Funktionen, die sich auf eine Position oder Identität des Benutzers beziehen, können durch die beschriebene Korrelation verbessert gesteuert werden.
  • Es ist bevorzugt, dass die Benutzereingabe einen Sprachbefehl umfasst, wobei der Sprachbefehl ausgeführt werden kann. Insbesondere kann der Sprachbefehl die Steuerung einer Komponente oder eines Systems an Bord des Fahrzeugs betreffen. Bestimmte Funktionen können einem vorbestimmten Benutzer oder einem Benutzer auf einer vorbestimmten Position vorbehalten sein. So kann beispielsweise das Navigationssystem nur von Benutzern in der ersten Sitzreihe, die Klimaanlage hingegen von jeder Person an Bord des Fahrzeugs bedienbar sein. Andere Zuordnungen sind ebenfalls möglich.
  • In einer weiteren Ausführungsform kann ein Geräusch, das nicht zu Lippenbewegungen des bestimmen Benutzers korreliert, vor dem Erkennen der Spracheingabe ausgefiltert werden. So kann auf akustischer Ebene ein Laut, ein Geräusch oder eine Melodie ausgefiltert werden, die nicht zu Lippenbewegungen des bestimmten Benutzers korrelieren. In einer Ausführungsform kann eine Spracheingabe eines anderen Benutzers auf der Basis von dessen erkannten Lippenbewegungen bestimmt und ausgefiltert werden. Das Ausfiltern kann insbesondere auf Sprache bezogen sein, sodass eine Äußerung einer anderen Person an Bord des Fahrzeugs oder gesprochener Text aus einem Unterhaltungssystem verbessert unterdrückt werden können.
  • Nach einem weiteren Aspekt der vorliegenden Erfindung umfasst eine Steuervorrichtung für ein Fahrzeug ein Mikrofon zur akustischen Erfassung einer Spracheingabe; eine Kamera zur optischen Erfassung von Lippenbewegungen eines Benutzers an Bord des Fahrzeugs; und eine Verarbeitungseinrichtung, die dazu eingerichtet ist, einen der Benutzereingabe zugeordneten Benutzer auf der Basis einer Korrelation der Spracheingabe mit den Lippenbewegungen zu bestimmen.
  • Die Verarbeitungseinrichtung ist bevorzugt dazu eingerichtet, ein hierin beschriebenes Verfahren teilweise oder vollständig auszuführen. Die Verarbeitungseinrichtung kann einen programmierbaren Mikrocomputer oder Mikrocontroller umfassen und das Verfahren kann in Form eines Computerprogrammprodukts mit Programmcodemitteln vorliegen. Das Computerprogrammprodukt kann auf einem computerlesbaren Datenträger abgespeichert sein. Merkmale oder Vorteile des Verfahrens können auf die Vorrichtung übertragen werden oder umgekehrt.
  • Die Steuervorrichtung kann in einer ersten Variante dazu verwendet werden, eine Spracheingabe eines vorbestimmten Benutzers zu erkennen. In einer zweiten Variante kann die Steuervorrichtung dazu verwendet werden, unter mehreren Personen an Bord des Fahrzeugs einen Benutzer zu finden, dessen Spracheingabe erfasst wurde.
  • Die Steuervorrichtung umfasst bevorzugt ein künstliches neuronales Netzwerk (KNN), das dazu eingerichtet ist, den Sprachbefehl zu erkennen. Das KNN kann insbesondere durch die Verarbeitungseinrichtung gebildet sein. In einer bevorzugten Ausführungsform wird das KNN bezüglich erfolgreicher Erkennungen von Spracheingaben weiter trainiert, sodass seine Erkennungsrate oder Trennschärfe über die Zeit ansteigen kann.
  • Die Benutzereingabe kann einen Sprachbefehl umfassen, der sich auf eine Funktion des Fahrzeugs bezieht. Die Steuervorrichtung ist bevorzugt dazu eingerichtet, den Sprachbefehl am Fahrzeug auszuführen. Dazu kann eine akustische, optische oder haptische Rückmeldung zu einem erkannten Sprachbefehl erfolgen. Der Sprachbefehl kann sich auch auf eine Funktion eines Geräts beziehen, das nur lose mit dem Fahrzeug verbunden ist. In einer weiteren Ausführungsform kann sich der Sprachbefehl auf eine Funktion oder einen Dienst beziehen, der kommunikativ mit dem Fahrzeug verbunden ist und der sich an Bord des Fahrzeugs oder außerhalb befinden kann. So kann beispielsweise eine Bezahlung veranlasst oder ein mobiles Gerät einer Person an Bord mittels des Sprachbefehls gesteuert werden. Die Bezahlung kann beispielsweise die Benutzung einer mautpflichtigen Strecke oder die Freischaltung einer Funktion an Bord des Fahrzeugs betreffen.
  • Weiter bevorzugt umfasst die Steuervorrichtung eine drahtlose Schnittstelle zur Verbindung mit einem Mobilgerät an Bord des Fahrzeugs. Das Mobilgerät kann dabei das Mikrofon und/oder die Kamera umfassen. So kann ein Mobilgerät einfach und schnell mit dem Fahrzeug verbunden werden, um die beschriebene erfinderische Funktionalität bereitzustellen. Die Korrelation der Lippenbewegungen mit der Spracheingabe kann in unterschiedlichen Ausführungsformen mittels einer Verarbeitungseinrichtung des Mobilgeräts oder des Fahrzeugs bestimmt werden.
  • Nach wieder einem weiteren Aspekt der vorliegenden Erfindung umfasst ein Fahrzeug eine hierin beschriebene Steuervorrichtung.
  • Die Erfindung wird nun mit Bezug auf die beigefügten Zeichnungen genauer beschrieben, in denen:
    • 1 ein System mit einer Steuervorrichtung an Bord eines Fahrzeugs; und
    • 2 ein Ablaufdiagramm eines Verfahrens
    illustriert.
  • 1 zeigt ein System 100 mit einem Fahrzeug 105 mit einer Steuervorrichtung 110. Das Fahrzeug 105 umfasst bevorzugt ein Kraftfahrzeug, beispielsweise ein Kraftrad, einen Personenkraftwagen oder einen Lastkraftwagen.
  • An Bord des Fahrzeugs 105 befindet sich wenigstens eine Person 115, die insbesondere auf einem vorbestimmten Sitzplatz 120 sitzen kann. Gibt die Person 115 eine Spracheingabe aus, so kann sie als Benutzer gelten.
  • In der dargestellten Ausführungsform sind mehreren Personen 115 auf jeweils zugeordneten Sitzplätzen 120 dargestellt. Die Steuervorrichtung 110 umfasst ein Mikrofon 125 und eine Kamera 130, die mit einer Verarbeitungseinrichtung 135 verbunden sind. Es können auch mehrere Mikrofone 125 vorgesehen sein, die an unterschiedlichen Orten in einem Innenraum des Fahrzeugs 105 angebracht sein können. Die Kamera 130 kann eine Innenraumkamera umfassen. Die Kamera 130 ist dazu eingerichtet, eine Lippenbewegung einer Person 115 an Bord des Fahrzeugs 105 optisch zu erfassen. Dazu kann ein Erfassungsbereich der Kamera 130 entsprechend orientiert sein. Die Kamera 130 kann eine Stereokamera, eine Infrarotkamera oder eine TOF-Kamera oder eine Kombination aus diesen Einrichtungen umfassen. In einer weiteren Ausführungsform kann auch eine andere optische Abtasteinrichtung vorgesehen sein, beispielsweise ein LiDAR-Sensor. Es können mehrere Kameras 130 an unterschiedlichen Positionen im Innenraum des Fahrzeugs 105 vorgesehen sein. In einer Ausführungsform ist jedem Sitzplatz 120 eine Kamera 130 zugeordnet.
  • Die Verarbeitungseinrichtung 135 ist bevorzugt dazu eingerichtet, eine optisch mittels der Kamera 130 abgetastete Lippenbewegung einer Person 115 und eine akustisch mittels des Mikrofons 125 erfasste Spracheingabe des Benutzers 115 zu korrelieren. In einer Ausführungsform kann bestimmt werden, ob eine erfasste Spracheingabe durch eine vorbestimmte Person 115 getätigt wurde. In einer anderen Ausführungsform kann zu einer erfassten Spracheingabe bestimmt werden, welche Person 115 an Bord des Fahrzeugs 105 sie getätigt hat. In wieder einer weiteren Ausführungsform können unterschiedliche akustische Kanäle, Fragmente oder Bestandteile einer akustischen Abtastung auf der Basis erfasster Lippenbewegungen wenigstens einer Person 115 so gefiltert werden, dass eine verbesserte Korrelation zwischen dem gefilterten akustischen Signal und der erfassten Lippenbewegung bestimmt werden kann. Die Spracheingabe kann insbesondere einen Sprachbefehl umfassen. Die Verarbeitungseinrichtung 135 kann dazu eingerichtet sein, den Sprachbefehl entsprechend zu interpretieren und/oder auszuführen. Dazu kann die Verarbeitungseinrichtung 135 mit einer Schnittstelle 140 verbunden sein, die mit einer Komponente des Fahrzeugs 105 verbunden ist. Die Komponente kann auf diese Weise durch die Steuervorrichtung 110 gesteuert werden.
  • In einer weiteren Ausführungsform umfasst die Steuervorrichtung 110 eine Kommunikationseinrichtung 145 zur Kommunikation mit einem mobilen Gerät 150 an Bord des Fahrzeugs 105. Das mobile Gerät 150 kann beispielsweise ein Smartphone, einen Tabletcomputer oder einen Laptopcomputer umfassen. Das mobile Gerät 150 kann einer vorbestimmten Person 115 zugeordnet sein. Dabei umfasst das mobile Gerät 150 ein Mikrofon 125 und/oder eine Kamera 130 und kann für den beschriebenen Zweck verwendet werden, um eine akustische Aufnahme im Umfeld einer Person 115 und eine optische Aufnahme einer Person 115 bereitzustellen. Die beschriebene Korrelation kann dann mittels einer Verarbeitungseinrichtung des mobilen Geräts 150 oder der Verarbeitungseinrichtung 135 bestimmt werden.
  • 2 zeigt ein Ablaufdiagramm eines Verfahren 200 zum Bestimmen einer Spracheingabe an Bord eines Fahrzeugs 105. In einem Schritt 205 kann das Mobilgerät 150 kommunikativ mit der Steuervorrichtung 110 verbunden werden. Dazu kann ein vorbestimmter Kommunikationsstandard zur insbesondere drahtlosen Verbindung verwendet werden, beispielsweise Bluetooth oder WiFi. Optional kann auch eine drahtgebundene Verbindung erstellt werden, beispielsweise mittels USB.
  • In einem Schritt 210 kann eine Spracheingabe akustisch erfasst werden. Die Spracheingabe stammt üblicherweise von einer Person 115 an Bord des Fahrzeugs 105, kann aber auch beispielsweise von einer Person außerhalb des Fahrzeugs 105 oder von einem Unterhaltungssystem herrühren. Die Spracheingabe kann akustischen Störungen unterworfen sein, beispielsweise Musik, einem Fahrgeräusch oder der Stimme einer weiteren Person 115 an Bord des Fahrzeugs 105.
  • In einem Schritt 215 kann eine Lippenbewegung einer Person 115 an Bord des Fahrzeugs 105 optisch erfasst werden. Optional können auch Lippenbewegungen mehrerer Personen 115 an Bord des Fahrzeugs 105 optisch erfasst werden.
  • In einem Schritt 220 kann eine Korrelation zwischen optisch erfassten Lippenbewegungen und einer akustisch erfassten Spracheingabe bestimmt werden. In einer Ausführungsform kann die Person 115, die die Spracheingabe getätigt hat, anhand einer hohen Korrelation bestimmt werden. Eine Person 115, deren Lippenbewegungen eine nur niedrige Korrelation mit der erfassten Spracheingabe hat, kann als Urheber der Spracheingabe ausgeschlossen werden. In einer weiteren Ausführungsform können Geräusche, Sprache oder Sprachfragmente aus dem akustischen Signal entfernt werden, die nicht zu einer erfassten Lippenbewegung einer Person 115 ausreichend gut korrelieren. Dazu kann bereits bekannt sein, welche Person 115 als Urheber der Spracheingabe gilt.
  • Die Spracheingabe kann einem Benutzer 115 oder einer Position, insbesondere einem Sitzplatz 120 zugeordnet werden, auf dem sich die Person 115 befindet. Eine Zuordnung zwischen einer Person 115 und einem Sitzplatz 120 kann einmalig bestimmt und während einer Fahrt mit dem Fahrzeug 105 beibehalten werden. In einer weiteren Ausführungsform kann anhand einer Historie von Zuordnungen zwischen einer Person 115 und einem Sitzplatz 120 über mehrere zurückliegende Fahrten eine übliche Zuordnung bestimmt werden.
  • Die Identifikation der Person 115, die Urheber der Spracheingabe ist, kann durch weitere Indizien gestützt sein. Diese Indizien können beispielsweise für eine Zuordnung zwischen einer Person 115 und einem Sitzplatz 120, eine Stimmlage, eine Gesichtserkennung mittels der Kamera 130, eine Zuordnung zwischen einer Person 115 und einem Mobilgerät 150, dessen Kamera 130 und/oder Mikrofon 125 zur visuellen bzw. akustischen Abtastung verwendet wird, oder Kommunikationsinformationen zwischen dem Mobilgerät 150 und der Steuervorrichtung 110 herangezogen werden.
  • Auf der Basis dieser Informationen kann in einem Schritt 225 eine Benutzereingabe erkannt werden. Wie durch unterbrochene Linien in 2 angedeutet ist, können erfasste Informationen auch anders miteinander verbunden werden. Beispielsweise kann eine sprechende Person 115 auch auf der Basis der in Schritt 210 erfassten Spracheingabe bestimmt werden. Stimmt diese Person 115 nicht mit derjenigen Person 115 überein, deren Lippenbewegungen erfasst wurden, so kann von einer niedrigen Korrelation ausgegangen werden.
  • In einer weiteren Ausführungsform kann eine Benutzereingabe auch unmittelbar auf der Basis der in Schritt 215 erfassten Lippenbewegung erkannt werden. Dabei kann eine an sich bekannte Technik des Lippenlesens verwendet werden. Das Ergebnis dieser Analyse kann mit erkannten akustischen Informationen verglichen werden. Auch hier kann eine Korrelation bestimmt werden. Ist diese nicht ausreichend hoch, so kann bestimmt werden, dass die Spracheingabe nicht von der Person 115 stammt, deren Lippenbewegungen erfasst wurden.
  • In einem Schritt 230 kann ein Sprachbefehl erkannt werden, der durch die Spracheingabe vorgegeben ist. Dazu kann die Spracheingabe der Person 115 zugeordnet werden, deren Lippenbewegungen eine ausreichend hohe Korrelation zur akustisch erfassten Spracheingabe aufweisen. Diese Information kann verwendet werden, um den Sprachbefehl inhaltlich zu interpretieren. Beispielsweise kann eine sprachliche Bezugnahme auf die sprechende Person 115 auf diese Weise aufgelöst werden. Ebenso kann eine Bezugnahme auf ein lokales Referenzsystem (vorne, links etc.) oder eine logische Implikation bezüglich einer Position oder eines Sitzplatzes 120 der Person 115 aufgelöst werden. Außerdem kann bestimmt werden, ob die Person 115 zur Ausführung des erkannten Sprachbefehls autorisiert ist. Beispielsweise kann die Steuerung einer Fahrzeugfunktion einer Person 115 vorbehalten sein, die das Fahrzeug 105 steuert, also ein Fahrer des Fahrzeugs 105 ist.
  • In einem Schritt 235 kann der erkannte Sprachbefehl bei ausreichender Autorisation ausgeführt werden. Dazu kann eine entsprechende Steuernachricht über die Schnittstelle 140 an eine Komponente des Fahrzeugs 105 übermittelt werden. Optional kann eine optische, akustische oder haptische Rückmeldung über die erkannte Benutzereingabe, den erkannten Sprachbefehl oder die ausgeführte Steuerung im Innenraum des Fahrzeugs 105, insbesondere an die bestimmte Person 115, ausgegeben werden.
  • Bezugszeichenliste
  • 100
    System
    105
    Fahrzeug
    110
    Steuervorrichtung
    115
    Person
    120
    Sitzplatz
    125
    Mikrofon
    130
    Kamera
    135
    Verarbeitungseinrichtung
    140
    Schnittstelle
    145
    Kommunikationseinrichtung
    150
    mobiles Gerät
    200
    Verfahren
    205
    Mobilgerät verbinden
    210
    Spracheingabe akustisch erfassen
    215
    Lippenbewegung optisch erfassen
    220
    Korrelation bestimmen
    225
    Benutzereingabe erkennen
    230
    Sprachbefehl erkennen
    235
    Sprachbefehl ausführen

Claims (12)

  1. Verfahren (200) zum Erkennen einer gesprochenen Benutzereingabe (115) an Bord eines Fahrzeugs (105), wobei das Verfahren (200) folgende Schritte umfasst: - akustisches Erfassen (210) einer Spracheingabe; - optisches Erfassen (215) von Lippenbewegungen eines Benutzers (115) an Bord des Fahrzeugs (105); und - Bestimmen eines der Benutzereingabe (115) zugeordneten Benutzers (115) auf der Basis einer Korrelation der Spracheingabe mit den Lippenbewegungen.
  2. Verfahren (200) nach Anspruch 1, ferner umfassend ein Erkennen (225) der Benutzereingabe (115) auf der Basis der Spracheingabe und der Lippenbewegungen.
  3. Verfahren (200) nach Anspruch 1 oder 2, wobei die Benutzereingabe (115) nur von einem vorbestimmten Benutzer (115) an Bord des Fahrzeugs (105) erkannt wird.
  4. Verfahren (200) nach einem der vorangehenden Ansprüche, wobei die Benutzereingabe (115) nur von einem Benutzer (115) an einer vorbestimmten Position (120) des Fahrzeugs (105) erkannt wird.
  5. Verfahren (200) nach einem der vorangehenden Ansprüche, wobei die Benutzereingabe (115) auf den Benutzer (115) bezogen (230) wird.
  6. Verfahren (200) nach einem der vorangehenden Ansprüche, wobei die Benutzereingabe (115) einen Sprachbefehl umfasst, ferner umfassend ein Ausführen (235) des Sprachbefehls.
  7. Verfahren (200) nach einem der vorangehenden Ansprüche, wobei ein Geräusch, das nicht zu Lippenbewegungen des bestimmen Benutzers (115) korreliert, vor dem Erkennen der Spracheingabe ausgefiltert (225) wird.
  8. Steuervorrichtung (110) für ein Fahrzeug (105), wobei die Steuervorrichtung (110) folgendes umfasst: - ein Mikrofon (125) zur akustischen Erfassung einer Spracheingabe; - eine Kamera (130) zur optischen Erfassung von Lippenbewegungen eines Benutzers (115) an Bord des Fahrzeugs (105); und - eine Verarbeitungseinrichtung (135), die dazu eingerichtet ist, einen der Benutzereingabe (115) zugeordneten Benutzer (115) auf der Basis einer Korrelation der Spracheingabe mit den Lippenbewegungen zu bestimmen.
  9. Steuervorrichtung (110) nach Anspruch 8, ferner umfassend ein künstliches neuronales Netzwerk (135), das dazu eingerichtet ist, den Sprachbefehl zu erkennen.
  10. Steuervorrichtung (110) nach Anspruch 8 oder 9, wobei die Benutzereingabe (115) einen Sprachbefehl umfasst, der sich auf eine Funktion des Fahrzeugs (105) bezieht, und die Steuervorrichtung (110) dazu eingerichtet ist, den Sprachbefehl am Fahrzeug (105) auszuführen.
  11. Steuervorrichtung (110) nach einem der Ansprüche 8 bis 10, ferner umfassend eine drahtlose Schnittstelle (145) zur Verbindung mit einem Mobilgerät (150) an Bord des Fahrzeugs (105); wobei das Mobilgerät (150) das Mikrofon (125) und/oder die Kamera (130) umfasst.
  12. Fahrzeug (105), umfassend eine Steuervorrichtung (110) nach einem der Ansprüche 8 bis 11.
DE102021128260.8A 2021-10-29 2021-10-29 Sprachsteuerung an Bord eines Fahrzeugs Pending DE102021128260A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102021128260.8A DE102021128260A1 (de) 2021-10-29 2021-10-29 Sprachsteuerung an Bord eines Fahrzeugs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102021128260.8A DE102021128260A1 (de) 2021-10-29 2021-10-29 Sprachsteuerung an Bord eines Fahrzeugs

Publications (1)

Publication Number Publication Date
DE102021128260A1 true DE102021128260A1 (de) 2023-05-04

Family

ID=85983764

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021128260.8A Pending DE102021128260A1 (de) 2021-10-29 2021-10-29 Sprachsteuerung an Bord eines Fahrzeugs

Country Status (1)

Country Link
DE (1) DE102021128260A1 (de)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19962218A1 (de) 1999-12-22 2001-07-05 Siemens Ag Verfahren und System zum Autorisieren von Sprachbefehlen
US20210053516A1 (en) 2018-01-05 2021-02-25 Veoneer Us, Inc. Vehicle microphone activation and/or control systems
US20210312915A1 (en) 2020-04-06 2021-10-07 Hi Auto LTD. System and method for audio-visual multi-speaker speech separation with location-based selection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19962218A1 (de) 1999-12-22 2001-07-05 Siemens Ag Verfahren und System zum Autorisieren von Sprachbefehlen
US20210053516A1 (en) 2018-01-05 2021-02-25 Veoneer Us, Inc. Vehicle microphone activation and/or control systems
US20210312915A1 (en) 2020-04-06 2021-10-07 Hi Auto LTD. System and method for audio-visual multi-speaker speech separation with location-based selection

Similar Documents

Publication Publication Date Title
DE102017216837A1 (de) Gestik- und Mimiksteuerung für ein Fahrzeug
DE102012013503B4 (de) Verfahren und Steuerungssystem zum Betreiben eines Kraftwagens
DE102014204980B4 (de) Verfahren und Vorrichtung zur Einschränkung oder Zwangsaktivierung von Kraftfahrzeugfunktionen
DE102013222645A1 (de) Erkennungssystem in einem Fahrzeug zur Erfassung der Sprachaktivität eines Fahrzeuginsassen
DE102016212647A1 (de) Verfahren zum Betreiben eines Sprachsteuerungssystems in einem Innenraum und Sprachsteuerungssystem
EP3254172B1 (de) Bestimmung einer position eines fahrzeugfremden objekts in einem fahrzeug
WO2018172231A1 (de) Verfahren und vorrichtung zum unterhalten eines nutzers eines fahrzeugs
DE102020107775A1 (de) Erkennung und Interpretation akustischer Signale und Ereignisse im Fahrzeugaußen- und/oder Innenraum
EP3430615B1 (de) Fortbewegungsmittel, system und verfahren zur anpassung einer länge einer erlaubten sprechpause im rahmen einer spracheingabe
DE102017206876B4 (de) Verfahren zum Betreiben eines Sprachsteuerungssystems in einem Kraftfahrzeug undSprachsteuerungssystem
DE102016217026A1 (de) Sprachsteuerung eines Kraftfahrzeugs
DE102018007582A1 (de) Kraftfahrzeug und Verfahren zur Verarbeitung von Schalleinwirkung von außerhalb des Kraftfahrzeugs
DE102021004970A1 (de) Verfahren und Vorrichtung zur individuellen Erzeugung von Sound-Signaturen eines Fahrzeuges
DE102016212681A1 (de) Steuervorrichtung und Verfahren zum sprachbasierten Betreiben eines Kraftfahrzeugs
DE102016001054A1 (de) Verfahren zur Eingabe eines Befehls in ein Steuergerät eines Fahrzeuges
DE102021128260A1 (de) Sprachsteuerung an Bord eines Fahrzeugs
DE102016003401B4 (de) Erfassungsvorrichtung und Verfahren zum Erfassen einer Sprachäußerung einer sprechenden Person in einem Kraftfahrzeug
DE102019218058A1 (de) Vorrichtung und Verfahren zum Erkennen von Rückwärtsfahrmanövern
DE102019214713A1 (de) System zum automatisierten Betätigen einer Fahrzeugtür, Fahrzeug und Verfahren
DE102015013166A1 (de) Verfahren zum Betrieb eines Fahrzeuges
DE102020200273B4 (de) Verfahren zum Betreiben einer Fahrzeugkomponente eines zumindest teilweise autonom betriebenen Kraftfahrzeugs mittels eines Sprachbefehls, sowie Assistenzsystem
DE102019204849A1 (de) Erkennung eines durch Personen ausgehenden Gefahrenpotentials
DE102022001715A1 (de) Verfahren zur Ermittlung einer Anzahl von lnsassen in einem Fahrzeug
DE102019001008A1 (de) Vorrichtung zur kollaborativen Eingabe akustischer Sprachsignale
WO2024121047A1 (de) Verfahren zum betrieb eines systems mit einem autonom fahrenden fahrzeug

Legal Events

Date Code Title Description
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0017000000

Ipc: G10L0015250000

R163 Identified publications notified