DE102018200746A1 - Aktivierung eines Sprachdialogsystems in einem Kraftfahrzeug - Google Patents

Aktivierung eines Sprachdialogsystems in einem Kraftfahrzeug Download PDF

Info

Publication number
DE102018200746A1
DE102018200746A1 DE102018200746.2A DE102018200746A DE102018200746A1 DE 102018200746 A1 DE102018200746 A1 DE 102018200746A1 DE 102018200746 A DE102018200746 A DE 102018200746A DE 102018200746 A1 DE102018200746 A1 DE 102018200746A1
Authority
DE
Germany
Prior art keywords
speech
additional information
expressions
language
dialogue system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102018200746.2A
Other languages
English (en)
Other versions
DE102018200746B4 (de
Inventor
Spyros Kousidis
David Scheler
Mark Pleschka
Sebastian Varges
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen AG
Original Assignee
Volkswagen AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Volkswagen AG filed Critical Volkswagen AG
Priority to DE102018200746.2A priority Critical patent/DE102018200746B4/de
Publication of DE102018200746A1 publication Critical patent/DE102018200746A1/de
Application granted granted Critical
Publication of DE102018200746B4 publication Critical patent/DE102018200746B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Abstract

Die vorliegende Erfindung betrifft ein Verfahren zur Aktivierung eines Sprachdialogsystems (7) in einem Kraftfahrzeug, bei dem durch ein Mikrofon (1) Sprachausdrücke erfasst werden. Die erfassten Sprachausdrücke werden durch eine Steuervorrichtung (2) aufbereitet und in einem als Ringspeicher ausgeführten Speicher (3) abgelegt. Mit Hilfe weiterer Sensoren (5) werden Zusatzinformationen erfasst und der Steuervorrichtung (2) zur Verfügung gestellt. Unter dem Einsatz von in der Steuervorrichtung (2) hinterlegten Algorithmen wird anhand der Sprachinhalte und der Zusatzinformationen ein Wahrscheinlichkeitswert ermittelt, der den Adressaten des Sprachausdruckes beschreibt (Adressee Detection). Auf Basis des Ergebnisses ist ein Steuersignal erzeugbar, das zum Start des Sprachdialogsystems geeignet ist. Darüber hinaus betrifft die Erfindung eine Vorrichtung für ein Kraftfahrzeug, mit deren Hilfe ein solches Verfahren ausgeführt werden kann.

Description

  • Die Erfindung betrifft ein Verfahren zur Aktivierung eines Sprachdialogsystems in einem Kraftfahrzeug sowie eine Vorrichtung zur Ausführung des Verfahrens
  • Aufgrund der steigenden Funktionsvielfalt in modernen Kraftfahrzeugen gewinnen Sprachdialogsysteme zunehmend an Bedeutung. Dabei spielen neben Komfortaspekten insbesondere auch Sicherheitsaspekte eine wichtige Rolle.
  • Zur Nutzung müssen Sprachdialogsysteme im allgemeinen durch eine manuelle Handlung aktiviert werden. Dieses geschieht vielfach durch Betätigung einer Taste. Diese Form der Aktivierung stellt eine sichere, jedoch unkomfortable Lösung dar.
  • Komfortabler sind Lösungen, bei denen ein Wake-Up-Passwort von dem System erfasst und ausgewertet wird. Hierbei handelt es sich um ein fest definiertes Wort, das zu Beginn des Spracherfassungsdialogs gesprochen werden muss.
  • Eine Aktivierung mittels Wake-Up-Passwort hat sich außerhalb von Kraftfahrzeugen insbesondere bei Smartphones durchgesetzt. Bekannt ist hier das Sprachdialogsystem Siri der Firma Apple. Nachdem der Benutzer das Wort „Siri“ gesprochen hat, wird die Aufzeichnung der einzelnen Sprachausdrücke sowie die sich anschließende Auswertung gestartet.
  • Auch das System „Alexa“ der Firma Amazon nutzt diesen Aktivierungsmechanismus. Nach dem Empfangen des Wortes „Alexa“ startet das System und wertet die nachfolgend erfassten Sprachausdrücke aus.
  • Durch die Verwendung von Wake-Up-Passwörtern nähern sich Sprachdialogsysteme einer natürlich-sprachlichen Sprechweise an. Als weitere Ausbaustufe wäre jedoch eine Systemaktivierung ohne Wake-Up-Passwort unter Auswertung eines laufenden Dialoges wünschenswert.
  • Eine derartige Aktivierung setzt eine Interpretation sämtlicher Sprachausdrücke voraus, um ausführungsrelevante Ausdrücke zu erkennen. Aufgrund der großen Vielfalt menschlicher Sprache kommen die vorhandenen Computersysteme sowohl was die Speicherkapazität als auch die Verarbeitungsgeschwindigkeit angeht hierbei jedoch an ihre Grenzen.
  • Die Anforderungen an die Sprachdialogsysteme steigen deutlich, wenn sich mehrere Personen im Erfassungsbereich des Systems, zum Beispiel dem Innenraum eines Kraftfahrzeuges, befinden. Statt nur die Sprachausdrücke einer einzelnen Person auszuwerten, müssen mehrere, von verschiedenen Personen gesprochene Sprachausdrücke analysiert werden.
  • Die Aktivierung eines Sprachdialogsystems in einem Kraftfahrzeug sowie dessen Betrieb unter Verwendung natürlicher Sprache stellt somit eine offene Aufgabenstellung dar.
  • Verschiedene Schriften greifen diese Aufgabenstellung auf.
  • In Schrift DE 10 2011 112 887 A1 wird eine Lösung vorgeschlagen, bei der unabhängig von den bedienbaren Funktionen eine Datenbank in dem System zur Verfügung gestellt wird, in der Schlagwörter zusammen mit der Zuordnung des Schlagwortes zu der auszuführenden Funktion hinterlegt sind. Wird im Verlauf des Sprachdialogs eines dieser Schlagwörter erkannt, kann die damit verbundene Aktivität, z.B. die Ausgabe einer das Schlagwort betreffenden Information, ausgeführt werden.
  • Ein ähnlicher Vorschlag wird in der Schrift DE 199 33 323 A1 unterbreitet. Hier wird eine Erfassung von Sprachäußerungen und ein nachfolgender Vergleich mit hinterlegten Sprachmustern vorgeschlagen. Wird kein passendes Sprachmuster identifiziert, schlägt das System den automatischen Start einer Nachtrainingsroutine vor.
  • In der Schrift DE 10 2013 019 208 A1 wird ein Vorschlag für eine Sprachbedienungsvorrichtung in einem Kraftfahrzeug unterbreitet, die einen natürlich-sprachlichen Dialog ermöglicht. Erreicht werden soll dieses, indem eine Begriffsmenge zulässiger Dienstbegriffe zur Verfügung gestellt wird. Jeder Dienstbegriff ist mit einer Dienstanwendung eindeutig verbunden. Wird einer der Dienstbegriffe erkannt, kann die zugehörige Dienstanwendung ausgeführt werden.
  • In Schrift DE 10 2014 224 794 A1 wird eine Lösung offenbart, bei der eine kontextbezogene Auswertung eines Gespräches ermöglicht wird. Unter einem Kontext wird in diesem Zusammenhang eine beliebige Relation zwischen einem Ereignis, insbesondere eine Sprachäußerung, sowie einer hiermit verbundenen Aktion verstanden.
  • In Schrift DE 102016 003 903 A1 wird ein Verfahren vorgeschlagen, welches das Problem der Sprachvielfalt und die damit einhergehenden immer größeren Datenmengen aufgreift. Vorgeschlagen wird hier eine Lösung, bei der die eigentliche Spracherkennung nicht auf den im Fahrzeug befindlichen Vorrichtungen ausgeführt wird. Für den Fall, dass ein Sprachausdruck nicht erkannt wird, wird der Sprachausdruck über eine bidirektionale Datenverbindung an eine zentrale Auswerteeinheit übertragen. Dort kann auf Basis eines deutlich größeren Datenbestandes sowie leistungsfähigerer Auswertevorrichtungen ein erneuter Interpretationsversuch unternommen werden. Das Ergebnis der Auswertung wird an das Fahrzeug zurück übertragen und dient dort zur Auslösung der zugeordneten Funktion.
  • Trotz der bekannten Lösungsvorschläge besteht weiterhin die Aufgabe, ein leistungsfähiges Verfahren zur Aktivierung eines Sprachdialogsystems zu beschreiben, das ohne spezielle Wake-Up-Passwörter auskommt und im Verlauf eines natürlich-sprachlichen Dialogs den Systemstart ermöglicht.
  • Erfindungsgemäß wird diese Aufgabe durch ein Verfahren gemäß Anspruch 1 sowie eine Vorrichtung gemäß Anspruch 7 gelöst. Vorteilhafte Ausgestaltungen werden in den Unteransprüchen offenbart.
  • Der technische Effekt der vorliegenden Erfindung besteht darin, dass aus einer Vielzahl aufgenommener Sprachausdrücke mit hoher Wahrscheinlichkeit diejenigen Sprachausdrücke selektiert werden können, die sich an das Sprachdialogsystem richten und einen Funktionsbefehl enthalten. Diese Sprachausdrücke sind geeignet, das Sprachdialogsystem zu aktivieren. Gleichzeitig können die Sprachausdrücke, die nicht relevant für den Sprachdialog zwischen Fahrzeug und Fahrzeuginsassen sind, herausgefiltert werden.
  • Insgesamt wird damit durch die Erfindung ein sicherer Systemstart ohne Verwendung eines speziellen Wake-Up-Passwortes ermöglicht.
  • Als weiterer technischer Effekt wird erreicht, dass auch der eigentliche Betrieb des Sprachdialogsystems durch ein Herausfiltern von nicht relevanten Sprachausdrücken deutlich an Geschwindigkeit gewinnt und damit die Akzeptanz bei dem Bediener zunimmt.
  • Das erfindungsgemäße Verfahren sieht vor, das in einem ersten Schritt zunächst Sprachausdrücke mittels einer geeigneten Vorrichtung erfasst werden. Als Vorrichtung kommen insbesondere Mikrofone in Betracht.
  • Sprachausdrücke im Sinne der Erfindung sind alle Sprachinformationen, die in der relevanten Umgebung, insbesondere einem Fahrzeuginnenraum, vorhanden sind und von dem installierten Mikrofon oder den installierten Mikrofonen erfasst werden können.
  • Nach der Erfassung werden die Sprachausdrücke aufbereitet und gespeichert. Dieser Verfahrensschritt erfolgt mit Hilfe einer ersten Steuervorrichtung.
  • Die Speicherung der Sprachausdrücke erfolgt im Sinne der Erfindung in einem dynamischen Speicher, der in bevorzugter Ausführung als Ringspeicher ausgeführt ist. Mit einem solchen Speicher ist es möglich, längere Sprachausdrücke abzuspeichern und rückwirkend auszuwerten. Nach Erreichen der maximalen Speicherkapazität werden in einem Ringspeicher die jeweils ältesten Einträge gelöscht. Auf diese Art und Weise wird erreicht, dass ein in der Vergangenheit liegendes Zeitfenster zur Auswertung zur Verfügung steht. Die Größe des Ringspeichers sowie die Art der Aufbereitung der erfassten Sprachausdrücke legt dabei den Auswertezeitraum fest.
  • In einem weiteren Schritt des erfindungsgemäßen Verfahrens werden mit Hilfe von Sensoren Zusatzinformationen ermittelt. Unter einer Zusatzinformation wird jede Information verstanden, die über den Inhalt des eigentlichen Sprachausdrucks hinausgeht und zur Bewertung des Adressaten eines Sprachausdruckes geeignet ist. Beispiele für solche Zusatzinformationen sind:
    • - Informationen über die Sitzbelegung im Fahrzeuginnenraum, die von den Sitzbelegungssensoren zur Verfügung gestellt werden können.
    • - Informationen zu den Blickrichtungen der Fahrzeuginsassen, die mit Hilfe von Radarsensoren oder Kamerasystemen erfasst werden können.
  • Auch direkt aus den eigentlichen Sprachausdrücken abgeleitete Merkmale werden als Zusatzinformationen im Sinne der Erfindung verstanden. Solche Zusatzinformationen sind beispielsweise:
    • - Prosodische Merkmale. Hierunter sind Zusatzinformationen zu verstehen, die aus der Sprechweise, insbesondere der Betonung, abgeleitet werden können. Formuliert ein Fahrzeuginsasse eine Frage, so lässt sich dieses im allgemeinen aus der Betonung des Sprachausdruckes erkennen. Daraus wiederum lässt sich ein Hinweis auf den möglichen Adressaten ableiten.
    • - Semantische Merkmale: Hierunter sind Zusatzinformationen zu verstehen, die aus den Inhalten der Sprachausdrücke abgeleitet werden können. Tauchen in den Sprachausdrücken beispielsweise bestimmte Frageworte oder Bezeichnungen wie „Weg“ oder „Straße“ auf, so lässt dieses mit einer gewissen Wahrscheinlichkeit einen Rückschluss auf den Inhalt des Sprachausdrucks und damit auf dessen Adressaten zu.
    • - Merkmale die Sprachhistorie betreffend: Hierunter sind Zusatzinformationen zu verstehen, die sich aus dem bisherigen Dialog ergeben. Führt ein Fahrzeuginsasse A mit einem anderen Fahrzeuginsassen B einen Dialog, so ist beim Erkennen einer weiteres weiteren, vom A gesprochenen Sprachausdrucks eine gewisse Wahrscheinlichkeit vorhanden, dass es sich um eine Fortführung des Dialoges handelt.
  • Es versteht sich von selbst, dass damit streng genommen auch ein Wake-Up-Passwort ein semantisches Merkmal eines Sprachausdruckes darstellt. Im Sinne der offenbarten Erfindung soll die Auswertung der Sprachausdrücke jedoch nicht auf ein einzelnes Wake-Up-Wort beschränkt bleiben. Vielmehr stellt eine Lösung mit mehreren Schlüsselworten, die einzeln oder in Kombination in den auszuwertenden Sprachausdrücken enthalten sind, eine Lösung im Sinne der Erfindung dar. Das Vorhandensein dieser Schlüsselworte wird im Sinne der Erfindung als Zusatzinformation interpretiert, die für den Start des Sprachdialogsystems von Bedeutung sein kann. Das Vorhandensein eines Wake-Up-Wortes stellt im Sinne der Erfindung somit eine spezielle Zusatzinformation dar, die ebenfalls als semantisch bezeichnet wird.
  • Damit handelt es sich bei den in dem Sprachdialogsystem vorhandenen Mikrofonen, die zur Erfassung der Sprachausdrücke eingerichtet sind, ebenfalls um Sensoren im Sinne der Erfindung.
  • Die erhobenen Zusatzinformationen werden in einer Steuervorrichtung ausgewertet. Als Verfahren für diesen Auswertevorgang kommen im Sinne der Erfindung insbesondere das Verfahren des Maschinellen Lernens sowie die Anwendung heuristischer Regeln zur Anwendung.
  • Ziel der Auswertung der Zusatzinformationen ist die Ermittlung eines kennzeichnenden Merkmals, mit dessen Hilfe der wahrscheinliche Adressat eines Sprachausdruckes codiert wird (Adressee Detection). Abhängig von der Ausgestaltung dieses Auswerteschrittes sind unterschiedliche Ausprägungsformen des kennzeichnenden Merkmals im Sinne der Erfindung:
    1. 1. Eine einfache binäre Codierung (Single Binary). Mit ihr wird verschlüsselt, ob ein Sprachausdruck an das System gerichtet ist oder nicht. Dabei wird nicht unterschieden, von welchem Fahrzeuginsassen die Äußerung getätigt wurde. Alle Sprachausdrücke werden gesamtheitlich ausgewertet.
    2. 2. Eine mehrfache binäre Codierung (Multi Binary). Mit ihr kann für jeden einzelnen Sitzplatz festgestellt werden, ob der dort erfasste Sprachausdruck an das System gerichtet ist. Dieses Codierungsform kommt insbesondere dann zum Tragen, wenn über Sitzbelegungssensoren die Anzahl der Fahrzeuginsassen ermittelt worden ist.
    3. 3. Eine Mehr-Klassen Codierung (Multi class): Hier wird nicht nur ermittelt, ob sich ein Sprachausdruck an das Sprachdialogsystem richtet. Vielmehr werden auch die übrigen Fahrzeuginsassen (gesamtheitlich oder zu Gruppen zusammengefasst) als mögliche Adressaten zugelassen. Bei dieser Lösung werden demnach beispielsweise das System, jeder Fahrzeuginsasse einzeln und/oder Gruppen von Fahrzeuginsassen als Adressaten eines Sprachausdrucks identifiziert.
  • Das Ergebnis dieses Auswerteschrittes wird dem Sprachdialogsystem zur Verfügung gestellt. Es ist geeignet, die Aktivierung des Sprachdialogsystems auszulösen.
  • Mit der Aktivierung ist das erfindungsgemäße Verfahren abgeschlossen.
  • In einer bevorzugten Ausgestaltung des Verfahrens werden die Sprachausdrücke bezüglich ihrer semantischen Merkmale als Zusatzinformationen ausgewertet. Die Auswertung zielt dabei auf definierte Schlüsselworte ab, die in einem Speicher des Systems zu hinterlegen sind. Im Sinne der Erfindung sind insbesondere spezielle Schlüsselworte wie Personennamen, Ortsnamen, Straßennamen oder Funktionsbezeichnungen. Wie bereits dargelegt, stellt auch ein definiertes Wake-Up-Wort ein semantisches Merkmal dar, welches den Systemstart initiieren kann.
  • In einer bevorzugten Ausgestaltung des Verfahrens werden als Zusatzinformationen prosodische Merkmale ausgewertet. Hierbei handelt es sich insbesondere um Merkmale wie die Betonung einzelner Teile der Sprachausdrücke, die Sprachtempi sowie die Intonation der Ausdrücke. Diese Merkmale lassen sich über Mikrofone erfassen und mit Softwareapplikationen auswerten.
  • In einer weiteren Ausgestaltung des Verfahrens wird auf Merkmale zurückgegriffen, die die Historie des Sprachdialogs beschreiben. Wird ein Sprachdialog zwischen einer Person A und einer Person B erkannt, so kann eine Fortführung des Gesprächs durch Person A mit einem Wahrscheinlichkeitswert belegt werden, der einen Sprachbefehl an das Sprachdialogsystem ausschließt.
  • Gemäß einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens wird als Zusatzinformation auf die Richtung der Sprachausbreitung zurückgegriffen. Diese lässt sich aus der Orientierung des Fahrerkopfes bzw. der Köpfe der Fahrzeuginsassen ableiten. Geeignete Sensoren zur Erfassung sind hier insbesondere Kamerasysteme und Radarsensoren. Ist der Kopf des Fahrers bzw. eines der Insassen zu einem Mitfahrer gerichtet, so besteht eine gewisse Wahrscheinlichkeit, dass ein Dialog zwischen diesen beiden Fahrzeuginsassen stattfindet und kein auszuführender Sprachausdruck geäußert wird.
  • Gemäß einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens wird auf sitzplatzbezogene Merkmale als Zusatzinformationen zurückgegriffen. Hierbei handelt es sich insbesondere um Signale der Sitzbelegungssensoren. Zusammen mit weiteren Sensorinformationen lässt sich insbesondere bewerten, ob die Sprachausdrücke von einem Fahrzeuginsassen an einen anderen Fahrzeuginsassen gerichtet sind oder an das Sprachdialogsystem.
  • In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens werden als Zusatzinformationen die Blickrichtungen der Fahrzeuginsassen (Fahrer und/oder Mitfahrer) ausgewertet. Hierfür geeignete Sensoren sind ebenfalls Kamerasysteme und Radarsensoren. Auch hieraus lassen sich Rückschlüsse auf den oder die Adressaten des Sprachausdruckes bzw. der Sprachausdrücke ableiten.
  • Die erfindungsgemäße Vorrichtung ist dergestalt ausgebildet, dass sie zur Ausführung des zuvor beschriebenen Verfahrens geeignet ist.
  • Sie besitzt zunächst mindestens ein Mikrofon, mit dessen Hilfe die Sprachausdrücke im Fahrzeug erfasst werden.
  • Zur Auswertung der erfassten Sprachausdrücke ist eine Steuervorrichtung vorgesehen. In ihr sind insbesondere die notwendigen Programmschritte hinterlegt, um einerseits die Sprachausdrücke auszuwerten, welche durch Mikrofone erfasst werden, und andererseits die darüber hinaus gehenden Zusatzinformationen zu bewerten, welche durch zusätzliche Sensoren erhoben werden.
  • Um die rückwirkende, natürlich sprachliche Auswertung der Sprachausdrücke durchführen zu können, ist in der erfindungsgemäßen Vorrichtung ein Ringspeicher vorgesehen. Mit seiner Hilfe können die erfassten Sprachausdrücke gespeichert werden. Bei Erreichen der Kapazitätsgrenze werden die jeweils ältesten Sprachausdrücke gelöscht, wodurch rückwirkend immer ein definiertes Zeitfenster zur Auswertung zur Verfügung steht.
  • Des Weiteren umfasst die erfindungsgemäße Vorrichtung eine zweite Speichervorrichtung. Sie dient zur Speicherung definierter Worte, die als Zusatzinformationen zur Bewertung der Adressaten der Sprachausdrücke herangezogen werden können.
  • Als weiterer Baustein des Sprachdialogsystems sind erfindungsgemäß ein oder mehrere Sensoren zur Erhebung von Zusatzinformationen vorgesehen. Als Zusatzinformationen sind insbesondere folgende Merkmale geeignet:
    • - Semantische Merkmale
    • - Prosodische Merkmale (z.B. Betonung, Sprachtempo, Intonation)
    • - Merkmale, die die Sprachhistorie beschreiben
    • - Sitzplatzbezogene Merkmale (z.B. Sitzbelegung)
    • - Richtung der Sprachausbreitung
    • - Kopforientierung des Fahrers/der Fahrzeuginsassen
    • - Blickorientierung des Fahrers/der Fahrzeuginsassen.
  • Die Erfindung wird nun anhand eines konkreten Ausführungsbeispiels mit Bezug zu der 1 näher beschrieben.
  • In der Figur sind die Komponenten des erfindungsgemäßen Sprachdialogsystems dargestellt. Zur Erfassung der Sprachausdrücke ist zumindest ein Mikrofon 1 vorgesehen. Dieses Mikrofon 1 ist in dem Ausführungsbeispiel dergestalt ausgeführt, dass es die analogen Sprachsignale erfasst und in ein digitales, speicherbares Audioformat umwandelt.
  • Zur Speicherung und Auswertung der Sprachausdrücke sowie zur Auswertung der Zusatzinformationen ist eine Steuervorrichtung 2 vorgesehen.
  • Die Speicherung der einzelnen Sprachausdrücke erfolgt in einer ersten Speichervorrichtung 3, die als Ringspeicher ausgeführt ist. Dieser Ringspeicher 3 ermöglicht nach Erreichen der maximalen Speicherkapazität das Löschen des jeweils ältesten Datensatzes. Damit kann sichergestellt werden, dass die jeweils neuesten Sprachblöcke gespeichert werden und eine rückwirkende Auswertung der erfassten Sprachausdrücke möglich wird.
  • Die Auswertung der Sprachblöcke sowie der Zusatzinformationen erfolgt in der Steuervorrichtung 2. Sie liest zunächst die gespeicherten Sprachausdrücke aus dem Ringspeicher 3.
  • Darüber hinaus empfängt die Steuervorrichtung 2 Zusatzinformationen, die von weiteren Sensoren erfasst werden. In dem Ausführungsbeispiel ist als Sensor eine Kamera 5 vorgesehen. Sie ist insbesondere in der Lage, die Blickrichtung des Fahrzeugführers oder der weiteren Fahrzeuginsassen zu erfassen. Andere Sensoren können z.B. Radarsensoren sein, mit denen mit hoher Genauigkeit Bewegungen erfasst werden können.
  • Die von der Steuervorrichtung 2 empfangenen Zusatzsatzinformationen sowie die in dem Ringspeicher 3 gespeicherten Sprachausdrücke werden ausgewertet. Insbesondere folgende Merkmale werden dabei analysiert:
    • - Semantische Merkmale
    • - Prosodische Merkmale (z.B. Betonung, Sprachtempo, Intonation)
    • - Merkmale, die die Sprachhistorie beschreiben
    • - Sitzplatzbezogene Merkmale (z.B. Sitzbelegung)
    • - Richtung der Sprachausbreitung
    • - Kopforientierung des Fahrers/der Fahrzeuginsassen
    • - Blickorientierung des Fahrers/der Fahrzeuginsassen.
  • Um die Auswertung von semantischen Zusatzinformationen zu unterstützen, ist in dem Ausführungsbeispiel eine zweite Speichervorrichtung 4 enthalten. In ihr können Schlüsselworte hinterlegt werden, die im Verlauf der Auswertung der Sprachausdrücke mit den Inhalten der Ausdrücke vergleichen werden.
  • Als Ergebnis der Auswertung liegt ein Wahrscheinlichkeitswert vor, der den Adressaten eines Sprachausdruckes beschreibt. Handelt es sich bei dem Sprachausdruck um einen Ausdruck, der sich mit hoher Wahrscheinlichkeit an das Sprachdialogsystem 7 und nicht an einen der Mitfahrer richtet, wird ein geeignetes Signal zum Start des Sprachdialogsystems 7 generiert und an das System übertragen. Der Grenzwert, ab dem von einem an das Sprachdialogsystem gerichteten Sprachausdruck ausgegangen werden muss, stellt einen Parameter dar, der bei dem Aufbau des Sprachdialogsystems 7 festzulegen ist. Auch ein im Sinne einer Empfindlichkeit durch einen Bediener des Sprachdialogsystems 7 vorzugebender Grenzwert ist eine Lösung im Sinne der vorliegenden Erfindung.
  • In dem Ausführungsbeispiel wird das Signal zum Start des Sprachdialogsystems 7 an eine Zentraleinheit 6 ausgegeben. Bei ihr kann es sich insbesondere um ein zentrales Infotainmentsystem 7 handeln, das die zum Betreiben des Sprachsystems notwendigen Bausteine enthält.
  • Bezugszeichenliste
  • 1
    Mikrofon
    2
    Steuervorrichtung
    3
    Erste Speichervorrichtung (Ringspeicher)
    4
    Zweite Speichervorrichtung
    5
    Kamera
    6
    Infotainmentsystem
    7
    Sprachdialogsystem
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • DE 102011112887 A1 [0012]
    • DE 19933323 A1 [0013]
    • DE 102013019208 A1 [0014]
    • DE 102014224794 A1 [0015]
    • DE 102016003903 A1 [0016]

Claims (8)

  1. Verfahren zur Aktivierung eines Sprachdialogsystems (7) in einem Kraftfahrzeug, bei dem - mittels einer Vorrichtung (1) Sprachausdrücke erfasst werden, - mittels einer Steuervorrichtung (2) die erfassten Sprachausdrücke aufbereitet und in einem als Ringspeicher ausgeführten Speicher (3) abgelegt werden, - mit Hilfe von Sensoren (6) Zusatzinformationen zu den Sprachausdrücken erfasst werden, - mittels der Steuervorrichtung (2) die Inhalte der erfassten Sprachausdrücke sowie die erfassten Zusatzinformationen hinsichtlich des wahrscheinlichen Empfängers (Adressaten) des Sprachausdruckes ausgewertet werden, und - abhängig von den Ergebnissen der Auswertung ein Signal zum Start des Sprachdialogsystems (7) erzeugt wird.
  2. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass als Zusatzinformationen semantische Merkmale herangezogen werden.
  3. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass als Zusatzinformationen prosodische Merkmale herangezogen werden.
  4. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass die Sprachhistorie als Merkmal herangezogen wird.
  5. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass als Zusatzinformation die Richtung der Sprachausbreitung ausgewertet wird.
  6. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass als Zusatzinformation die Blickrichtung und/oder Kopforientierung einer Person ausgewertet wird.
  7. Vorrichtung zum Betreiben eines Sprachdialogsystems, umfassend - mindestens eine Einrichtung (1) zum Erfassen von Sprachausdrücken, - Sensoren (5), mit deren Hilfe Zusatzinformationen zu den Sprachausdrücken erhebbar sind, - mindestens eine Speichervorrichtung (3) zur Speicherung der erfassten Sprachausdrücke, - eine Steuervorrichtung (2), mit deren Hilfe die erfassten Sprachausdrücke sowie die von Sensoren (5) zur Verfügung gestellten Zusatzinformationen derart ausgewertet werden, dass ein Aktivierungssignal für ein Sprachdialogsystem ermittelbar wird.
  8. Vorrichtung nach Anspruch 6, dadurch gekennzeichnet, dass die Auslösung des Aktivierungssignals bei Überschreitung eines Grenzwertes erfolgt, wobei der Grenzwert eine Wahrscheinlichkeit repräsentiert.
DE102018200746.2A 2018-01-17 2018-01-17 Aktivierung eines Sprachdialogsystems in einem Kraftfahrzeug Active DE102018200746B4 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102018200746.2A DE102018200746B4 (de) 2018-01-17 2018-01-17 Aktivierung eines Sprachdialogsystems in einem Kraftfahrzeug

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102018200746.2A DE102018200746B4 (de) 2018-01-17 2018-01-17 Aktivierung eines Sprachdialogsystems in einem Kraftfahrzeug

Publications (2)

Publication Number Publication Date
DE102018200746A1 true DE102018200746A1 (de) 2019-07-18
DE102018200746B4 DE102018200746B4 (de) 2022-09-08

Family

ID=67068809

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102018200746.2A Active DE102018200746B4 (de) 2018-01-17 2018-01-17 Aktivierung eines Sprachdialogsystems in einem Kraftfahrzeug

Country Status (1)

Country Link
DE (1) DE102018200746B4 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022263179A1 (de) * 2021-06-15 2022-12-22 Mercedes-Benz Group AG Verfahren und vorrichtung zur erzeugung von sprachausgaben in einem fahrzeug

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19933323A1 (de) 1999-07-16 2001-05-31 Bayerische Motoren Werke Ag Spracherkennungssystem und Verfahren zur Spracherkennung vorgegebener Sprachmuster, insbesondere zur Sprachsteuerung von Kraftfahrzeugsystemen
DE102011112887A1 (de) 2011-09-08 2012-03-15 Daimler Ag Verfahren zur kontextbezogenen Informationsabfrage
DE102013019208A1 (de) 2013-11-15 2015-05-21 Audi Ag Kraftfahrzeug-Sprachbedienung
US20150179168A1 (en) * 2013-12-20 2015-06-25 Microsoft Corporation Multi-user, Multi-domain Dialog System
DE102014002543A1 (de) * 2014-02-22 2015-08-27 Audi Ag Verfahren zur Erfassung wenigstens zweier zu erfassender Informationen mit zu verknüpfendem Informationsgehalt durch eine Sprachdialogeinrichtung, Sprachdialogeinrichtung und Kraftfahrzeug
DE102014224794A1 (de) 2014-12-03 2016-06-09 Bayerische Motoren Werke Aktiengesellschaft Sprachassistenzverfahren für ein Kraftfahrzeug
DE102016003903A1 (de) 2016-03-30 2016-09-29 Daimler Ag Verfahren zur Spracherkennung in einem Kraftfahrzeug

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19933323A1 (de) 1999-07-16 2001-05-31 Bayerische Motoren Werke Ag Spracherkennungssystem und Verfahren zur Spracherkennung vorgegebener Sprachmuster, insbesondere zur Sprachsteuerung von Kraftfahrzeugsystemen
DE102011112887A1 (de) 2011-09-08 2012-03-15 Daimler Ag Verfahren zur kontextbezogenen Informationsabfrage
DE102013019208A1 (de) 2013-11-15 2015-05-21 Audi Ag Kraftfahrzeug-Sprachbedienung
US20150179168A1 (en) * 2013-12-20 2015-06-25 Microsoft Corporation Multi-user, Multi-domain Dialog System
DE102014002543A1 (de) * 2014-02-22 2015-08-27 Audi Ag Verfahren zur Erfassung wenigstens zweier zu erfassender Informationen mit zu verknüpfendem Informationsgehalt durch eine Sprachdialogeinrichtung, Sprachdialogeinrichtung und Kraftfahrzeug
DE102014224794A1 (de) 2014-12-03 2016-06-09 Bayerische Motoren Werke Aktiengesellschaft Sprachassistenzverfahren für ein Kraftfahrzeug
DE102016003903A1 (de) 2016-03-30 2016-09-29 Daimler Ag Verfahren zur Spracherkennung in einem Kraftfahrzeug

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022263179A1 (de) * 2021-06-15 2022-12-22 Mercedes-Benz Group AG Verfahren und vorrichtung zur erzeugung von sprachausgaben in einem fahrzeug

Also Published As

Publication number Publication date
DE102018200746B4 (de) 2022-09-08

Similar Documents

Publication Publication Date Title
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
DE60005326T2 (de) Erkennungseinheiten mit komplementären sprachmodellen
EP1927980A2 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
EP3430615B1 (de) Fortbewegungsmittel, system und verfahren zur anpassung einer länge einer erlaubten sprechpause im rahmen einer spracheingabe
WO2005111598A1 (de) Vorrichtung und verfahren zur beurteilung einer güteklasse eines zu prüfenden objekts
DE102014017384A1 (de) Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung
EP3152753B1 (de) Assistenzsystem, das mittels spracheingaben steuerbar ist, mit einer funktionseinrichtung und mehreren spracherkennungsmodulen
DE102018200746B4 (de) Aktivierung eines Sprachdialogsystems in einem Kraftfahrzeug
DE102018215293A1 (de) Multimodale Kommunikation mit einem Fahrzeug
DE102005030965B4 (de) Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments
EP3115886B1 (de) Verfahren zum betreiben eines sprachsteuerungssystems und sprachsteuerungssystem
EP0414238B1 (de) Sprachgesteuertes Archivsystem
DE102010026708A1 (de) Verfahren zum Betreiben eines Sprachdialogsystems und Sprachdialogsystem
DE10308611A1 (de) Ermittlung der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung
EP1179818B1 (de) Automatische Erkennung von Unternehmensnamen in sprachlichen Äusserungen
DE102008024257A1 (de) Verfahren zur Sprecheridentifikation bei einer Spracherkennung
EP4124211B1 (de) Verfahren und vorrichtung zur erzeugung von sprachausgaben in einem fahrzeug
EP0962914B1 (de) Verfahren und Vorrichtung zum Ermitteln eines Zuverlässigkeitsmasses für die Spracherkennung
DE102015213720B4 (de) Verfahren zum Erfassen einer Eingabe durch ein Spracherkennungssystem und Spracherkennungssystem
DE102020119980B3 (de) Sprachassistenzsystem, Verfahren und Computerprogramm zur sprachbasierten Unterstützung
DE102015011023B4 (de) Fahrzeug-Datenschreibervorrichtung, Fahrzeug und Verfahren zum Protokollieren eines Vorgangs in einem Fahrzeug
DE102017207038A1 (de) Spracheingabe bei einem Kraftfahrzeug
DE102021120246A1 (de) Spracherkennungssystem
DE102016002463A1 (de) Verfahren zum Betrieb einer Sprachsteuerung
DE102016005731B4 (de) Verfahren zum Betreiben mehrerer Spracherkenner

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final