DE102022112444A1 - Spracherkennungssystem - Google Patents

Spracherkennungssystem Download PDF

Info

Publication number
DE102022112444A1
DE102022112444A1 DE102022112444.4A DE102022112444A DE102022112444A1 DE 102022112444 A1 DE102022112444 A1 DE 102022112444A1 DE 102022112444 A DE102022112444 A DE 102022112444A DE 102022112444 A1 DE102022112444 A1 DE 102022112444A1
Authority
DE
Germany
Prior art keywords
user
trajectory
orientation
recognition system
voice input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022112444.4A
Other languages
English (en)
Inventor
Daniel Kuelzer
Victor Orlinskiy
Matthias Findeis
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bayerische Motoren Werke AG
Original Assignee
Bayerische Motoren Werke AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bayerische Motoren Werke AG filed Critical Bayerische Motoren Werke AG
Priority to DE102022112444.4A priority Critical patent/DE102022112444A1/de
Priority to PCT/EP2023/061543 priority patent/WO2023222373A1/de
Publication of DE102022112444A1 publication Critical patent/DE102022112444A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mechanical Engineering (AREA)
  • Navigation (AREA)

Abstract

Es wird ein Spracherkennungssystem für ein Fahrzeug vorgeschlagen, wobei das Spracherkennungssystem zumindest eine Empfangseinheit zum Empfangen einer Spracheingabe von einem Benutzer und zumindest eine Erfassungseinheit zum Erfassen einer Position und Orientierung des Benutzers und/oder einer Trajektorie des Benutzers aufweist, wobei das Spracherkennungssystem des Weiteren eine Verarbeitungseinheit aufweist, die dazu ausgebildet ist, die Spracheingabe, die ein oder mehrere Schlüsselwörter aufweist, zumindest teilweise zu verarbeiten, wobei die Verarbeitungseinheit des Weiteren dazu ausgebildet ist, basierend auf zumindest einem ersten der Schlüsselwörter und der erfassten Position und Orientierung und/oder der erfassten Trajektorie die Spracheingabe zu interpretieren und eine der Spracheingabe entsprechende Aktion auszuführen.

Description

  • Die vorliegende Erfindung betrifft ein Spracherkennungssystem für ein Fahrzeug gemäß dem Oberbegriff von Patentanspruch 1. Des Weiteren betrifft die vorliegende Erfindung ein Verfahren zum Erkennen einer Spracheingabe für ein Fahrzeug gemäß dem Oberbegriff von Patentanspruch 10.
  • Spracherkennungssysteme können für verschiedene Zwecke verwendet werden, in Fahrzeugen beispielsweise zur Steuerung verschiedener Funktionen sowohl innerhalb als auch außerhalb des Fahrzeugs. Hierfür wird ein Sprachbefehl eines Benutzers von dem Spracherkennungssystem empfangen, der mit einem sogenannten Wake-Wort eingeleitet wird. Ein solches Wake-Wort dient dazu, dem Spracherkennungssystem mitzuteilen, dass nun ein Befehl folgt. Nach der Erkennung des Wake-Worts wird für eine bestimmte Zeit die akustische Eingabe, d.h. der Sprachbefehl des Benutzers, aufgenommen.
  • Dieser Sprachbefehl wird durch ein Sprachmodell analysiert und am Ende wird aus dem Sprachbefehl eine Intention abgeleitet und eine entsprechende Aktion umgesetzt. Durch viele äußere Einflussfaktoren, insbesondere außerhalb eines Fahrzeugs, d.h. Straßengeräusche, andere Fahrzeuge, variable Sprecherposition etc., ist es eine Herausforderung, eine robuste Sprachsteuerung außerhalb eines Fahrzeugs umzusetzen.
  • Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, eine sowohl schnelle als auch robuste Spracherkennung für ein Fahrzeug zu ermöglichen.
  • Diese Aufgabe wird durch ein Spracherkennungssystem gemäß Patentanspruch 1 sowie ein Verfahren zum Erkennen einer Spracheingabe für ein Fahrzeug gemäß Patentanspruch 10 gelöst.
  • Das vorgeschlagene Spracherkennungssystem für ein Fahrzeug weist zumindest eine Empfangseinheit zum Empfangen einer Spracheingabe von einem Benutzer auf. Insbesondere ist die Empfangseinheit so ausgebildet, dass sie eine Spracheingabe von einem Benutzer im Außenraum des Fahrzeugs erfassen kann. Durch das Spracherkennungssystem können beliebige Befehle an das Fahrzeug gegeben werden, die sich beispielsweise auf Fahrzeugzugangsfunktionen beziehen können. Hierzu zählen unter anderem das Öffnen/Schließen einer Fahrzeugtür oder das Öffnen/Schließen des Kofferraums.
  • Die Spracheingabe kann optional mit einem Wake-Wort beginnen, um dem Spracherkennungssystem mitzuteilen, dass nun eine Spracheingabe erfolgt. Dies hat den Vorteil, dass beliebige Geräusche und Unterhaltungen um das Fahrzeug herum durch das Spracherkennungssystem nicht verarbeitet werden, sondern nur tatsächliche Spracheingaben.
  • Des Weiteren weist das Spracherkennungssystem zumindest eine Erfassungseinheit auf, die eine Trajektorie, d.h. einen Weg über die Zeit, des Benutzers erfasst. Alternativ oder zusätzlich erfasst die Erfassungseinheit eine Position und eine Orientierung des Benutzers. Durch die Erfassungseinheit kann also eine Bewegung des Benutzers in Bezug auf das Fahrzeug und/oder eine stationäre Position in Kombination mit der Orientierung des Benutzers in Bezug auf das Fahrzeug erfasst werden.
  • Das Spracherkennungssystem kann eine oder mehrere Erfassungseinheiten aufweisen oder die Erfassungseinheit kann mehrere Untereinheiten aufweisen. Insbesondere können diese mehreren Erfassungseinheiten oder mehrere Untereinheiten an verschiedenen Positionen in oder an dem Fahrzeug vorgesehen sein.
  • Unter einer Trajektorie wird in diesem Zusammenhang ein Bewegungspfad, der sich auch auf einen Bereich erstrecken kann, des Benutzers verstanden, der durch eine zeitliche Sequenz von Koordinaten dargestellt wird. Zur Erfassung einer solchen Trajektorie stehen verschiedene Möglichkeiten zu Verfügung, wie weiter unten noch näher erläutert wird. Insbesondere beinhaltet die Trajektorie einen bereits tatsächlich zurückgelegten Weg des Benutzers sowie eine Schätzung über einen zukünftigen Weg des Benutzers in Bezug auf das Fahrzeug. Zur Schätzung des zukünftigen Wegs kann die aktuell erfasste Trajektorie mit vordefinierten Trajektorien verglichen werden, die in einer Datenbank abgelegt sein können. Diejenige vordefinierte Trajektorie, die die höchste Übereinstimmung mit der aktuell erfassten Trajektorie hat, kann zur Schätzung des Wegs des Benutzers und damit zur Bestimmung des zukünftigen Verlaufs der aktuell erfassten Trajektorie herangezogen werden.
  • Um nun eine schnelle und gleichzeitig robuste Spracherkennung zu ermöglichen, weist das Spracherkennungssystem eine Verarbeitungseinheit auf, die dazu ausgebildet ist, die empfangene Spracheingabe zumindest teilweise zu verarbeiten. Die Spracheingabe kann insbesondere ein oder mehrere Schlüsselwörter aufweisen, die durch die Verarbeitungseinheit erkannt werden können. Unter Schlüsselwörtern werden in diesem Zusammenhang Worte verstanden, die einen Sinn enthalten und keine reinen Füllwörter darstellen. Beispielsweise bei dem Sprachbefehl „öffne den Kofferraum“ können die Worte „öffne“ und „Kofferraum“ als Schlüsselwörter angesehen werden. Zur Verarbeitung der Spracheingabe kann insbesondere ein Algorithmus zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) verwendet werden, beispielsweise unter Einsatz neuronaler Netze. Bei einem solchen Algorithmus wird ein Modell verwendet, das die Spracheingabe interpretiert und mögliche (erkannte) Befehle mit einer vom Modell berechneten Eintrittswahrscheinlichkeit ausgibt. Liegt die Eintrittswahrscheinlichkeit über einem vordefinierten Minimalschwellwert, wird der erkannte Befehl ausgeführt.
  • Um die Spracheingabe zuverlässig interpretieren zu können, und beispielsweise einen Befehl auch dann auszuführen, wenn die Eintrittswahrscheinlichkeit unter dem vordefinierten Minimalschwellwert liegt, kann die Verarbeitungseinheit daher zusätzlich zur Verarbeitung der Spracheingabe dazu ausgebildet sein, die Spracheingabe basierend auf zumindest einem ersten der Schlüsselwörter und basierend auf der erfassten Position und Orientierung des Benutzers und/oder der erfassten Trajektorie des Benutzers zu interpretieren und eine der Spracheingabe entsprechende Aktion auszuführen. Durch die Kombination aus Spracheingabe und Position und Orientierung und/oder Trajektorie des Benutzers ist es möglich, eine robustere Interpretation des reinen Sprachbefehls zu erreichen, da die Verarbeitungseinheit weitere Informationen durch die Bewegung, Position und Orientierung des Benutzers in Bezug auf das Fahrzeug verwendet. Eine ungenaue (z.B. nur „öffne“ statt „öffne den Kofferraum“) oder eine durch die Empfangseinheit nur schlecht oder teilweise empfangene Spracheingabe (z.B. aufgrund von Umgebungsgeräuschen) kann durch die zusätzliche Information interpretiert oder verfeinert werden. Auf diese Weise ist es möglich, einen Sprachbefehl, der eine Eintrittswahrscheinlichkeit unter der Minimaleintrittswahrscheinlichkeit hat, über die Zusatzinformation zu verifizieren.
  • Wenn die Verarbeitungseinheit beispielsweise nur einen Teil der Spracheingabe interpretiert oder nur einen Teil der Spracheingabe interpretieren kann (da nur teilweise empfangen oder zu viele Störgeräusche), kann dieser interpretierte Teil zwar nur als Sprachbefehl mit einer geringen Eintrittswahrscheinlichkeit, die unter der der Minimaleintrittswahrscheinlichkeit liegt, bestimmt werden. Über die zusätzliche Information aus Position und Orientierung und/oder Trajektorie des Benutzers in Bezug auf das Fahrzeug kann jedoch der Sprachbefehl verifiziert und damit die Eintrittswahrscheinlichkeit erhöht werden. Wird z.B. die Spracheingabe als „öffne“ interpretiert, kann sich dies auf den Kofferraum oder irgendeine Tür oder ein sonstiges Teil des Fahrzeugs beziehen, das sich öffnen lässt. Die Eintrittswahrscheinlichkeit für jedes Teil des Fahrzeugs ist damit zu gering, um eine entsprechende Aktion durchzuführen. Befindet sich jedoch der Benutzer auf einer Trajektorie, die zum Kofferraum führt, oder steht vor dem Kofferraum und ist diesem zugewandt (Position und Orientierung), kann dies als Zusatzinformation verwendet werden, um die Eintrittswahrscheinlichkeit für den Sprachbefehl „öffne den Kofferraum“ zu erhöhen und damit eine Aktion durchführen zu können.
  • Es ist somit nicht mehr erforderlich, dass der reine Sprachbefehl mit einer ausreichenden Wahrscheinlichkeit interpretiert werden kann, sondern der Bereich, in dem eine Interpretation möglich ist, wird durch die zusätzliche Information aus Position und Orientierung und/oder Trajektorie vergrößert. Somit kann ein Sprachbefehl eines Benutzers schnell und zuverlässig verarbeitet und die entsprechende Aktion durchgeführt werden. Im Vergleich zu existierenden Systemen, bei denen eine Interpretation ohne eine solche Zusatzinformationen durchgeführt wird, kann somit sehr genau eine Intention des Benutzers bereits zu Beginn der Spracheingabe bzw. basierend auf einem kleineren Teil der Spracheingabe und der Information aus Position und Orientierung und/oder Trajektorie erkannt werden.
  • Gemäß einer weiteren Ausführungsform ist die Erfassungseinheit dazu ausgebildet, die Position und Orientierung des Benutzers und/oder die Trajektorie des Benutzers durch Bestimmen einer Position und Orientierung und/oder einer Trajektorie eines mit dem Benutzer assoziierten Benutzerendgeräts zu bestimmen. Die Erfassungseinheit kann die Umgebung des Fahrzeugs scannen, z.B. via Bluetooth oder einer anderen Kommunikation eines Wireless Personal Area Networks (WPAN), um ein solches Benutzerendgerät zu erkennen. Das Benutzerendgerät kann im Allgemeinen ein Gerät sein, das in der Lage ist, drahtlos zu kommunizieren. Insbesondere kann das Benutzerendgerät ein mobiles Gerät sein, das geeignet ist, von dem Benutzer mitgeführt zu werden. Bei dem Benutzerendgerät kann es sich beispielsweise um ein Mobiltelefon, wie ein Smartphone, oder eine andere Art von mobilem Kommunikationsgerät, wie eine Smartwatch, einen Laptop, einen Tablet-Computer, etc., aber auch einen Fahrzeugschlüssel handeln. Insbesondere kann das Benutzerendgerät einen digitalen Schlüssel enthalten, der zur Kommunikation zwischen dem Benutzerendgerät und dem Fahrzeug verwendet werden kann. Durch einen solchen digitalen Schlüssel kann sichergestellt werden, dass eine Kommunikation zwischen Benutzerendgerät und Fahrzeug abgesichert ist.
  • Sobald die Erfassungseinheit das Benutzerendgerät erkannt hat, kann sie die Trajektorie und/oder Position und Orientierung des Benutzerendgeräts bestimmen. Hierzu können die Erfassungseinheit und das Benutzerendgerät in einer Ausführungsform beide eine Nahbereichskommunikationseinheit, insbesondere eine Ultrabreitband-Kommunikationseinheit (UWB) aufweisen. Wie bereits oben erläutert, kann das Spracherkennungssystem eine oder mehrere Erfassungseinheiten, d.h. in dieser Ausführungsform ein oder mehrere Nahbereichskommunikationseinheiten, aufweisen oder die Erfassungseinheit kann mehrere Kommunikationseinheiten enthalten. Über die Kommunikation zwischen der Erfassungseinheit und dem Benutzerendgerät ist es möglich, die Position des Benutzerendgeräts zu bestimmen und nachzuverfolgen, d.h. eine Trajektorie zu bestimmen. Hierbei kann das Benutzerendgerät entweder selbst seine Position bestimmen und der Erfassungseinheit mitteilen, oder die Erfassungseinheit kann basierend auf den empfangenen Kommunikationsdaten, z.B. mittels Triangulation, die Position des Benutzerendgeräts (über die Zeit) bestimmen.
  • Zusätzlich kann die Erfassungseinheit eine Kamera aufweisen, um die Orientierung des Benutzers zu bestimmen. Basierend auf der Ausrichtung des Benutzers in Bezug auf das Fahrzeug kann, zusätzlich zu einer Bewegung oder einer Position, erkannt werden, welchem Teil des Fahrzeugs der Benutzer zugewandt ist. Diese Information kann zusätzlich zu einer Trajektorie oder einer Position verwendet werden, um die Spracheingabe zu interpretieren. Alternativ kann die Erfassungseinheit dazu ausgebildet sein, auch die Position und/oder Trajektorie durch eine Kamera, ohne eine wie oben beschriebene Kommunikationseinheit, zu bestimmen. Wie bereits oben erläutert, kann das Spracherkennungssystem eine oder mehrere Erfassungseinheiten, d.h. in dieser Ausführungsform ein oder mehrere Kameras, aufweisen oder die Erfassungseinheiten kann mehrere Kameras enthalten.
  • Gemäß einer weiteren Ausführungsform weist die Empfangseinheit mehrere Mikrofone auf, die an verschiedenen Positionen des Fahrzeugs angeordnet sind. Durch die verschiedenen Mikrofonpositionen kann die Erfassungseinheit basierend auf einem Empfangen der Mikrofone eine Position des Benutzers bestimmen. Insbesondere können hierzu Mikrofon-Arrays verwendet werden, die aus einer Anordnung von zwei oder mehr Mikrofonen in einer bestimmten geometrischen Konfiguration bestehen. Je nachdem, welches der Mikrofone zuerst die Spracheingabe des Benutzers empfängt, kann basierend darauf eine Position des Benutzers bestimmt werden. Ebenfalls kann die Lautstärke, mit der eine Spracheingabe empfangen wird, zur Bestimmung der Position verwendet werden.
  • Gemäß einer weiteren Ausführungsform ist die Verarbeitungseinheit dazu ausgebildet, die Spracheingabe zu interpretieren und unter Verwendung der Position und Orientierung des Benutzers und/oder der Trajektorie des Benutzers zu verifizieren. Wie bereits oben erläutert, kann die Verarbeitungseinheit zunächst einen Sprachbefehl in der Spracheingabe erkennen und eine Eintrittswahrscheinlichkeit bestimmen. Liegt die Wahrscheinlichkeit unter einem vordefinierten Schwellwert, kann die Position und Orientierung des Benutzers und/oder die Trajektorie des Benutzers verwendet werden, um den erkannten Sprachbefehl zu verifizieren bzw. die Eintrittswahrscheinlichkeit zu erhöhen.
  • Gemäß einer weiteren Ausführungsform ist die Verarbeitungseinheit dazu ausgebildet, einen Erkennungsgrad, d.h. eine Eintrittswahrscheinlichkeit, der Spracheingabe nach Interpretation des ersten Schlüsselworts unter Verwendung der Position und Orientierung des Benutzers und/oder der Trajektorie des Benutzers zu bestimmen. Wenn der Erkennungsgrad kleiner als ein vordefinierter Schwellwert ist, d.h. kleiner als die Minimaleintrittswahrscheinlichkeit, ist die Verarbeitungseinheit dazu ausgebildet, ein zweites Schlüsselwort zu interpretieren und den Erkennungsgrad der Spracheingabe zu bestimmen.
  • Der Schwellwert kann beispielsweise 90 % oder höher sein. Wenn die Verarbeitungseinheit nach Interpretation des ersten Schlüsselworts in Kombination mit der Position und Orientierung des Benutzers und/oder der Trajektorie des Benutzers feststellt, dass es sich mit einer gewissen Wahrscheinlichkeit um einen bestimmten Befehl handelt, und diese Wahrscheinlichkeit beispielsweise größer als 90 % ist, kann die Spracheingabe entsprechend interpretiert und die korrespondierende Aktion ausgeführt werden.
  • Die Verarbeitung von weiteren Schlüsselwörtern kann so lange wiederholt werden, bis der Erkennungsgrad größer als der vordefinierte Schwellwert ist. Das bedeutet, dass die Verarbeitungseinheit so lange weitere Schlüsselwörter der Spracheingabe interpretiert, bis sie feststellt, das mit einer ausreichenden Wahrscheinlichkeit ein bestimmter Befehl erkannt wird. Sollten nicht genug Schlüsselwörter vorhanden sein, um die Spracheingabe interpretieren zu können, kann die Verarbeitungseinheit beispielsweise ein Signal an den Benutzer ausgegeben, damit dieser eine erneute Spracheingabe vornimmt oder die Spracheingabe weiter spezifiziert.
  • Alternativ kann die Verarbeitungseinheit die Interpretation der Schlüsselwörter nach einer vorgegebenen Zeitdauer abbrechen. Das bedeutet, dass die Verarbeitungseinheit (auch für den Fall, dass noch weitere Schlüsselwörter in der Spracheingabe enthalten sind) die Interpretation abbrechen kann, wenn die dafür benötigte Zeit eine vorgegebene Zeitdauer überschreitet. Auf diese Weise kann der Benutzer nach einer für ihn nachvollziehbaren Zeitspanne, die vorzugsweise immer gleich ist, davon ausgehen, dass der Sprachbefehl nicht interpretiert werden konnte.
  • Gemäß einer weiteren Ausführungsform kann die Verarbeitungseinheit dazu ausgebildet sein, basierend auf der erfassten Position und Orientierung und/oder der erfassten Trajektorie mögliche Bedienstellen des Fahrzeugs auszuwählen und insbesondere mögliche Bedienstellen dem Benutzer anzuzeigen. Zusätzlich zu einer Verbesserung der Verarbeitung der Spracheingabe kann in dieser Ausführungsform die Position und Orientierung des Benutzers und/oder die Trajektorie des Benutzers verwendet werden, um die Bedienung für den Benutzer zu vereinfachen. Die Verarbeitungseinheit kann die Position und Orientierung oder den Weg verwenden, um zu bestimmen, wo sich der Benutzer befindet und welche Bedienstellen in seiner Reichweite sind. Diese Bedienstellen können dann, beispielsweise durch visuelle oder auditive Signale, z.B. Fahrzeugleuchten oder Piktogramme auf dem Benutzerendgerät, kenntlich gemacht werden. Dies hat den Vorteil, dass die Spracheingabe auf diese Weise kürzer ausfallen kann, da sich die Spracheingabe nur auf die angezeigten Bedienstellen beziehen kann und weitere Informationen nicht erforderlich sind.
  • Gemäß einem weiteren Aspekt wird ein Verfahren zum Erkennen einer Spracheingabe für ein Fahrzeug vorgeschlagen. Das Verfahren weist die folgenden Schritte auf: Empfangen einer Spracheingabe von einem Benutzer, Erfassen einer Position und Orientierung des Benutzers und/oder einer Trajektorie des Benutzers, zumindest teilweises Verarbeiten der Spracheingabe, die ein oder mehrere Schlüsselwörter aufweist, Interpretieren der Spracheingabe basierend auf zumindest einem ersten der Schlüsselwörter und der erfassten Position und Orientierung und/oder der erfassten Trajektorie, und Ausführen einer der Spracheingabe entsprechenden Aktion.
  • Die für das vorgeschlagene Spracherkennungssystem beschriebenen Ausführungsformen und Merkmale gelten für das vorgeschlagene Verfahren entsprechend.
  • Weiterhin wird ein Computerprogrammprodukt vorgeschlagen, welches einen Programmcode aufweist, der dazu ausgebildet ist, auf einem Computer die Durchführung des wie oben erläuterten Verfahrens zu veranlassen.
  • Ein Computerprogrammprodukt, wie z.B. ein Computerprogramm-Mittel, kann beispielsweise als Speichermedium, wie z.B. Speicherkarte, USB-Stick, CD-ROM, DVD, oder auch in Form einer herunterladbaren Datei von einem Server in einem Netzwerk bereitgestellt oder geliefert werden. Dies kann z.B. in einem drahtlosen Kommunikationsnetzwerk durch die Übertragung einer entsprechenden Datei mit dem Computerprogrammprodukt oder dem Computerprogramm-Mittel erfolgen.
  • Weitere mögliche Implementierungen der Erfindung umfassen auch nicht explizit genannte Kombinationen von zuvor oder im Folgenden bezüglich der Ausführungsbeispiele beschriebenen Merkmale oder Ausführungsformen. Dabei wird der Fachmann auch Einzelaspekte als Verbesserungen oder Ergänzungen zu der jeweiligen Grundform der Erfindung hinzufügen.
  • Weitere Vorteile und vorteilhafte Ausführungsformen sind in der Beschreibung, den Zeichnungen und den Ansprüchen angegeben. Dabei sind insbesondere die in der Beschreibung und in den Zeichnungen angegebenen Kombinationen der Merkmale rein exemplarisch, so dass die Merkmale auch einzeln oder anders kombiniert vorliegen können.
  • Im Folgenden soll die Erfindung anhand von in den Zeichnungen dargestellten Ausführungsbeispielen näher beschrieben werden. Dabei sind die Ausführungsbeispiele und die in den Ausführungsbeispielen gezeigten Kombinationen rein exemplarisch und sollen nicht den Schutzbereich der Erfindung festlegen. Dieser wird allein durch die anhängigen Ansprüche definiert.
  • Es zeigen:
    • 1: eine schematische Ansicht eines Fahrzeugs mit einem Spracherkennungssystem;
    • 2: ein schematisches Blockdiagramm des Spracherkennungssystems von 1; und
    • 3: ein schematisches Ablaufdiagramm einer Spracherkennung, die durch das Spracherkennungssystem von 2 durchgeführt wird.
  • Im Folgenden werden gleiche oder funktionell gleichwirkende Elemente mit denselben Bezugszeichen gekennzeichnet.
  • 1 zeigt ein Fahrzeug 1, das ein Spracherkennungssystems 10 aufweist. Das Spracherkennungssystem 10 kann beispielsweise dazu verwendet werden, verschiedene Funktionen des Fahrzeugs 1 zu steuern. Um eine Spracheingabe eines Benutzers zu empfangen, weist das Spracherkennungssystem 10 eine Empfangseinheit auf, die verschiedene Mikrofone M1 bis M3 enthalten kann.
  • Die Mikrofone M1 bis M3 sind hier nur beispielhaft gezeigt. Sie können auch an anderen Positionen des Fahrzeugs 1 angeordnet sein und es können mehr oder weniger als drei Mikrofone M1 bis M3 sein.
  • Wie in 1 gezeigt ist, kann das Mikrofon M2 als Mikrofonarray mit zwei getrennten Mikrofonen ausgebildet sein. Die anderen Mikrofone M1, M3 können ebenfalls als Mikrofonarray ausgebildet sein. Die Mikrofone M1 bis M3 können ebenfalls in Kombination als Mikrofonarray realisiert werden. Ein solches Array kann zum einen aufgrund der spezifischen geometrischen Konfiguration zueinander eine genaue Bestimmung der Position eines Benutzers ermöglichen und kann zum anderen die Genauigkeit der Erfassung der Spracheingabe verbessern, da auch bei Abdeckung eines Mikrofons die anderen Mikrofone des Arrays die Spracheingabe noch erfassen können. Des Weiteren lassen sich durch ein solches Mikrofonarray Störgeräusche aus anderen Richtungen filtern. Das Mikrofonarray kann auf die über beispielsweise über UWB bestimmte Position des Nutzers zurückgreifen, und somit die Qualität der Spracherfassung erhöhen.
  • Das Spracherkennungssystem 10 weist eine Empfangseinheit 12 auf, wie in 2 gezeigt ist. Die Empfangseinheit 12 kann beispielsweise die Mikrofone M1 bis M3 aufweisen, um die Spracheingabe 2 zu empfangen. Die Empfangseinheit 12 kann weitere Mikrofone (nicht gezeigt) aufweisen oder kann in einem Benutzerendgerät, wie beispielsweise einem Mobiltelefon, implementiert sein, welches die Spracheingabe an das Fahrzeug 1 überträgt.
  • Das Spracherkennungssystem 10 weist des Weiteren eine Erfassungseinheit 14 auf, die eine Trajektorie T des Benutzers erfassen kann. Die Trajektorie stellt einen Weg über die Zeit des Benutzers dar. Insbesondere werden über die Erfassungseinheit 14 Time of Flight bzw. Abstandswerte berechnet, die zur Bestimmung der Trajektorie verwendet werden.
  • Alternativ oder zusätzlich erfasst die Erfassungseinheit 14 eine Position und eine Orientierung des Benutzers. Durch die Erfassungseinheit 14 wird also eine Bewegung des Benutzers in Bezug auf das Fahrzeug 1 und/oder eine stationäre Position in Kombination mit einer Orientierung des Benutzers in Bezug auf das Fahrzeug 1 erfasst. Die Erfassungseinheit 14 kann eine Kamera aufweisen und/oder kann die Trajektorie T, Position und/oder Orientierung des Benutzers durch Kommunikation mit einem Benutzerendgerät bestimmen.
  • Die Position des Benutzers kann auch unter Verwendung der Mikrofone M1 bis M3 bestimmt werden, indem die Empfangseinheit 12 in Zusammenwirkung mit der Erfassungseinheit 14 ermittelt, welches der Mikrofone M1 bis M3 die Spracheingabe 2 am lautesten und/oder am schnellsten empfängt.
  • Eine Verarbeitungseinheit 16 des Spracherkennungssystems 10 kann basierend auf der Position und Orientierung und/oder Trajektorie T des Benutzers sowie auf einem oder mehreren Schlüsselwörtern, die in der Spracheingabe enthalten sind, die Spracheingabe interpretieren und eine der Spracheingabe entsprechende Aktion 4 ausführen.
  • Eine Interpretation der Spracheingabe ist beispielhaft in 3 gezeigt.
  • In 3 besteht die Spracheingabe aus einem (optionalen) Wake-Wort W sowie einem ersten Schlüsselwort A2 und einem zweiten Schlüsselwort B3. Beispielsweise kann die Spracheingabe also lauten: „Hallo Auto, öffne den Kofferraum“. „Hallo Auto“ entspricht in diesem Fall dem Wake-Wort W, „öffne“ entspricht dem ersten Schlüsselwort A2 und „Kofferraum“ entspricht dem zweiten Schlüsselwort B3.
  • Die Verarbeitungseinheit 16 erfasst das Wake-Wort W und durchsucht anschließend einen ersten Datensatz A von Schlüsselwörtern A1, A2, A3, A4... nach dem ersten Schlüsselwort A2. Insbesondere kann die Verarbeitungseinheit 16 entscheiden, mit welcher Wahrscheinlichkeit das erste Schlüsselwort welchem der Schlüsselwörtern A1, A2, A3, A4... entspricht, und das Schlüsselwort mit der höchsten Wahrscheinlichkeit, in diesem Fall A2, als Treffer für das erste Schlüsselwort auswählen.
  • Wenn die Verarbeitungseinheit 16 das erste Schlüsselwort A2 identifiziert hat, verwendet die Verarbeitungseinheit 16 zusätzlich die erfasste Trajektorie T, um das erste Schlüsselwort zu verifizieren oder zu interpretieren. Nach dem ersten Schlüsselwort „öffne“ stellt die Verarbeitungseinheit 16 in diesem Fall fest, dass die Trajektorie einen Bewegungspfad des Benutzers zu dem Kofferraum hin angibt. Das Wort „öffne“ alleine stellt keine ausreichende Information bereit, um eine entsprechende Aktion 4 durchzuführen. In Kombination mit dem Weg zum Kofferraum hingegen, kann die Verarbeitungseinheit 16 bereits den Sprachbefehl „öffne den Kofferraum“ durchführen.
  • Wenn durch die Kombination aus dem ersten Schlüsselwort A2 und der Trajektorie T (oder alternativ der Position und Orientierung des Benutzers) kein ausreichender Erkennungsgrad der Spracheingabe 2 vorliegt bzw. der Erkennungsgrad unter einem vordefinierten Schwellwert liegt, kann die Verarbeitungseinheit 16 die Spracheingabe 2 weiter verarbeiten, indem das zweite Schlüsselwort B3 „Kofferraum“ interpretiert wird. Die verschiedenen Schlüsselwörter A1, A2, A3, A4... können in einem ersten Datensatz enthalten sein und können mit einem zweiten Datensatz B verknüpft sein. Beispielsweise können die Schlüsselwörter A1 (z.B. schließe) und A2 (z.B. öffne) mit dem zweiten Datensatz B verknüpft sein, der Teile des Fahrzeugs enthält, die geöffnet oder geschlossen werden können.
  • Bei Durchsuchen des Datensatzes B erkennt die Verarbeitungseinheit 16, dass es sich bei dem zweiten Schlüsselwort „Kofferraum“ um das Schlüsselwort B3 handelt. Die Kombination der Schlüsselwörter A2 und B3 (d.h. „öffne“ plus „Kofferraum“) kann die Verarbeitungseinheit 16 zunächst durch die erfasste Trajektorie T verifizieren und anschließend die entsprechende Aktion 4 durchführen, d.h. den Kofferraum öffnen.
  • Wie bereits erläutert, kann die Aktion 4 bereits nach der Interpretation des Schlüsselworts A2 durchgeführt werden, wenn die Verarbeitungseinheit 16 bereits nach der Interpretation des ersten Schlüsselworts A2 in Kombination mit der erfassten Trajektorie erkennt, dass es sich bei dem zu öffnenden Element nur um den Kofferraum handeln kann. Eine Interpretation weiterer Schlüsselwörter ist dann nicht erforderlich.
  • Durch das hier beschriebene Spracherkennungssystem ist es somit möglich, eine schnelle und robuste Spracherkennung durchzuführen, da die Spracheingabe durch Verwendung von bereits wenigen Schlüsselwörtern in Kombination mit einer Position und Orientierung des Benutzers und/oder einer Trajektorie des Benutzers interpretiert werden kann.
  • Bezugszeichen
  • 1
    Fahrzeug
    2
    Spracheingabe
    4
    Aktion
    10
    Spracherkennungssystem
    12
    Empfangseinheit
    14
    Erfassungseinheit
    16
    Verarbeitungseinheit
    A, B, C, D, E
    Datensätze
    M1, M2, M3
    Mikrofone
    T
    Trajektorie
    W
    Wake-Wort

Claims (10)

  1. Spracherkennungssystem (10) für ein Fahrzeug (1), wobei das Spracherkennungssystem (10) zumindest eine Empfangseinheit (12) zum Empfangen einer Spracheingabe (2) von einem Benutzer und zumindest eine Erfassungseinheit zum Erfassen einer Position und Orientierung des Benutzers und/oder einer Trajektorie des Benutzers aufweist, dadurch gekennzeichnet, dass das Spracherkennungssystem (10) eine Verarbeitungseinheit (16) aufweist, die dazu ausgebildet ist, die Spracheingabe (2), die ein oder mehrere Schlüsselwörter aufweist, zumindest teilweise zu verarbeiten, wobei die Verarbeitungseinheit (16) des Weiteren dazu ausgebildet ist, basierend auf zumindest einem ersten der Schlüsselwörter und der erfassten Position und Orientierung und/oder der erfassten Trajektorie die Spracheingabe (2) zu interpretieren und eine der Spracheingabe (2) entsprechende Aktion (4) auszuführen.
  2. Spracherkennungssystem gemäß Anspruch 1, wobei die Erfassungseinheit dazu ausgebildet ist, die Position und Orientierung des Benutzers und/oder die Trajektorie des Benutzers durch Bestimmen einer Position und Orientierung und/oder einer Trajektorie eines mit dem Benutzer assoziierten Benutzerendgeräts zu bestimmen.
  3. Spracherkennungssystem gemäß Anspruch 2, wobei das Benutzerendgerät und die Erfassungseinheit jeweils eine Nahbereichskommunikationseinheit, insbesondere eine Ultrabreitband-Kommunikationseinheit, aufweisen.
  4. Spracherkennungssystem gemäß einem der vorhergehenden Ansprüche, wobei die Erfassungseinheit zumindest eine Kamera aufweist und dazu ausgebildet ist, basierend auf einem erfassten Bild die Position und Orientierung des Benutzers und/oder die Trajektorie des Benutzers zu erfassen.
  5. Spracherkennungssystem gemäß einem der vorhergehenden Ansprüche, wobei die Empfangseinheit (12) mehrere Mikrofone (M1, M2, M3) aufweist, die an verschiedenen Positionen des Fahrzeugs (1) angeordnet sind, wobei die Erfassungseinheit (14) dazu ausgebildet ist, basierend auf einem Empfang der Mikrofone (M1, M2, M3) die Position des Benutzers und/oder die Trajektorie des Benutzers zu bestimmen.
  6. Spracherkennungssystem gemäß einem der vorhergehenden Ansprüche, wobei die Verarbeitungseinheit dazu ausgebildet ist, die Spracheingabe (2) zu interpretieren und unter Verwendung der Position und Orientierung des Benutzers und/oder der Trajektorie des Benutzers zu verifizieren.
  7. Spracherkennungssystem gemäß einem der vorhergehenden Ansprüche, wobei die Verarbeitungseinheit (16) dazu ausgebildet ist, einen Erkennungsgrad der Spracheingabe (2) nach Interpretation des ersten Schlüsselworts unter Verwendung der Position und Orientierung des Benutzers und/oder der Trajektorie des Benutzers zu bestimmen, und wenn der Erkennungsgrad kleiner als ein vordefinierter Schwellwert ist, ein zweites Schlüsselwort zu interpretieren und einen Erkennungsgrad der Spracheingabe zu bestimmen.
  8. Spracherkennungssystem gemäß Anspruch 7, wobei die Verarbeitungseinheit (16) dazu ausgebildet ist, so lange weitere Schlüsselwörter der Spracheingabe (2) unter Verwendung der Position und Orientierung des Benutzers und/oder der Trajektorie des Benutzers zu interpretieren, bis der Erkennungsgrad größer als der vordefinierte Schwellwert ist, und/oder bis eine vorgegebene Zeitdauer überschritten ist.
  9. Spracherkennungssystem gemäß einem der vorhergehenden Ansprüche, wobei die Verarbeitungseinheit dazu ausgebildet ist, basierend auf der erfassten Position und Orientierung des Benutzers und/oder der erfassten Trajektorie des Benutzers mögliche Bedienstellen des Fahrzeugs auszuwählen und insbesondere die möglichen Bedienstellen dem Benutzer anzuzeigen.
  10. Verfahren zum Erkennen einer Spracheingabe (2) für ein Fahrzeug (1), wobei das Verfahren ein Empfangen einer Spracheingabe (2) von einem Benutzer und ein Erfassen einer Position und Orientierung des Benutzers und/oder einer Trajektorie des Benutzers aufweist, dadurch gekennzeichnet, dass das Verfahren des Weiteren aufweist: zumindest teilweises Verarbeiten der Spracheingabe (2), die ein oder mehrere Schlüsselwörter aufweist, Interpretieren der Spracheingabe (2) basierend auf zumindest einem ersten der Schlüsselwörter und der erfassten Position und Orientierung und/oder der erfassten Trajektorie und Ausführen einer der Spracheingabe (2) entsprechenden Aktion (4).
DE102022112444.4A 2022-05-18 2022-05-18 Spracherkennungssystem Pending DE102022112444A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102022112444.4A DE102022112444A1 (de) 2022-05-18 2022-05-18 Spracherkennungssystem
PCT/EP2023/061543 WO2023222373A1 (de) 2022-05-18 2023-05-02 Spracherkennungssystem

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022112444.4A DE102022112444A1 (de) 2022-05-18 2022-05-18 Spracherkennungssystem

Publications (1)

Publication Number Publication Date
DE102022112444A1 true DE102022112444A1 (de) 2023-11-23

Family

ID=86382736

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022112444.4A Pending DE102022112444A1 (de) 2022-05-18 2022-05-18 Spracherkennungssystem

Country Status (2)

Country Link
DE (1) DE102022112444A1 (de)
WO (1) WO2023222373A1 (de)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012019178A1 (de) 2011-09-30 2013-04-04 Apple Inc. Verwendung von Kontextinformationen zum Erleichtern der Verarbeitung von Befehlen bei einem virtuellen Assistenten
US9020825B1 (en) 2012-09-25 2015-04-28 Rawles Llc Voice gestures
CN111511599A (zh) 2017-12-13 2020-08-07 戴姆勒股份公司 用于运行辅助系统的方法和汽车用辅助系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE410346T1 (de) * 2006-08-04 2008-10-15 Harman Becker Automotive Sys Methode und system zur verarbeitung von stimmkommandos in einer fahrzeugumgebung
DE102016209991A1 (de) * 2016-06-07 2017-12-07 Bayerische Motoren Werke Aktiengesellschaft Verfahren und System zum Nicht-Mechanischen Betätigen einer Fahrzeugtür sowie Fahrzeug
DE102017219234A1 (de) * 2017-10-26 2019-05-02 Audi Ag Verfahren zum Erfassen einer Spracheingabe eines Benutzers in einem Außenbereich eines Kraftfahrzeugs sowie Kraftfahrzeug
US20200047687A1 (en) * 2018-08-10 2020-02-13 SF Motors Inc. Exterior speech interface for vehicle
DE102018007582A1 (de) * 2018-09-25 2020-03-26 Daimler Ag Kraftfahrzeug und Verfahren zur Verarbeitung von Schalleinwirkung von außerhalb des Kraftfahrzeugs
KR20220024557A (ko) * 2019-10-15 2022-03-03 구글 엘엘씨 자동화된 어시스턴트에 의한 응답 액션을 트리거하기 위한 핫 명령의 검출 및/또는 등록

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012019178A1 (de) 2011-09-30 2013-04-04 Apple Inc. Verwendung von Kontextinformationen zum Erleichtern der Verarbeitung von Befehlen bei einem virtuellen Assistenten
US9020825B1 (en) 2012-09-25 2015-04-28 Rawles Llc Voice gestures
CN111511599A (zh) 2017-12-13 2020-08-07 戴姆勒股份公司 用于运行辅助系统的方法和汽车用辅助系统

Also Published As

Publication number Publication date
WO2023222373A1 (de) 2023-11-23

Similar Documents

Publication Publication Date Title
DE10132013B4 (de) Multimodale Biometrie
DE112010003914T5 (de) Verfahren und Vorrichtung zur Erkennung von Müdigkeit am Steuer sowie ein Fahrzeug
DE102015116832A1 (de) Adaptive Fahreridentifikationsverschmelzung
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE102019009242B3 (de) Sensor mit Ultraschallsignalkompression auf Basis eines Annäherungsverfahrens mittels Signalobjektklassen
DE102017218542A1 (de) Verfahren zur Sprachsteuerung von Fahrzeugfunktionen eines Kraftfahrzeugs von außerhalb des Kraftfahrzeugs, Dachantennenelement für ein Kraftfahrzeug sowie Kraftfahrzeug mit einem Dachantennenelement
EP0964390A2 (de) Vorrichtung zur Verifizierung von Signalen
DE102019200956A1 (de) Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen
DE102018107326A1 (de) Adaptives Insassengespräch-Frühwarnsystem
DE102017209262A1 (de) Verfahren und Vorrichtung zur automatischen Gestenerkennung
DE102022106036A1 (de) Kontextabhängige signalaufbereitung für den sprachassistenten im fahrzeug
DE102019108075A1 (de) Verfahren und Steuervorrichtung zum Betreiben eines Sensorsystems eines Geräts sowie Kraftfahrzeug
WO1993002448A1 (de) Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache
DE102022112444A1 (de) Spracherkennungssystem
EP3857822A1 (de) Verfahren und vorrichtung zum ermitteln eines ansteuersignals
WO2011113741A1 (de) Verfahren zum test von hörhilfegeräten
DE102019218058B4 (de) Vorrichtung und Verfahren zum Erkennen von Rückwärtsfahrmanövern
EP4026058A1 (de) Verfahren zum komprimieren eines neuronalen netzes
WO2023011769A1 (de) Spracherkennungssystem
DE102019213697A1 (de) Verfahren zum Erkennen einer Annäherung und/oder Entfernung eines Einsatzfahrzeugs relativ zu einem Fahrzeug
EP3701428A1 (de) Verfahren und vorrichtung zum verbessern der robustheit eines maschinellen lernsystems
DE102019009130A1 (de) Approximierendes Kompressionsverfahren für Ultraschallsensordaten
WO2019219247A1 (de) Vorrichtung, system und verfahren zur automatischen konfiguration eines fahrzeugs, sowie entsprechendes fahrzeug
DE102008040002A1 (de) Verfahren zur szenariounabhängigen Sprechererkennung
DE102018119897A1 (de) Verfahren zum Klassifizieren von Daten betreffend eine Parklücke für ein Kraftfahrzeug

Legal Events

Date Code Title Description
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015220000

Ipc: G10L0015240000

R163 Identified publications notified