DE102013011922A1

DE102013011922A1 - Verfahren und Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug

Info

Publication number: DE102013011922A1
Application number: DE201310011922
Authority: DE
Inventors: Klaus Bader; Ute Ehrlich
Original assignee: Daimler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2013-07-17
Filing date: 2013-07-17
Publication date: 2015-01-22

Abstract

Es wird ein Verfahren zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug offenbart, das ein Analysieren eines sich aus der Sprachäußerung ergebenden Sprachsignals und Erzeugen eines segmentierten Sprachsignals, ein Erkennen eines Sprachinhalts aus dem segmentierten Sprachsignal und Bilden eines Worthypothesengraphen aus dem erkannten Sprachinhalt, ein Bilden eines Worthypothesengrafen aus dem erkannten Sprachinhalt, ein Bestimmen eines Konfidenzmaßes des erkannten Sprachinhalts, falls bestimmte Stimm-Merkmale in dem segmentierten Sprachsignal beinhaltet sind und ein Energiegehalt des segmentierten Sprachsignals einen ersten vorbestimmten Wert erreicht oder überschritten ist, ein Bestimmen eines Gütemaßes anhand des Worthypothesengraphen, falls das Konfidenzmaß einen zweiten vorbestimmten Wert überschreitet, ein Bilden eines Syntaxbaums und Bestimmen eines Plausibilitätswerts, falls das Gütemaß einen dritten vorbestimmten Wert überschreitet, und ein Aktivieren des Systems und Ausführen einer der Sprachäußerung zugeordneten Funktion aufweist, falls der Plausibilitätswert einen vierten vorbestimmten Wert überschreitet. Ebenso wird eine Vorrichtung offenbart, die Einrichtungen aufweist, die geeignet sind, das Verfahren durchzuführen.

Description

Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug.
Aus der US 2013/0054235 A1 sind ein Verfahren und eine Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers bekannt. Ein Empfänger nimmt eine Sprachäußerung eines Benutzers auf, die Hintergrundsignale, vorzugsweise Ton- bzw. Rauschsignalen, beinhalten und filtert die in der Sprachäußerung vorhandenen Hintergrundsignale aus. Falls die derart erzielte Sprachäußerung gleich einer vorbestimmten Sprachäußerung ist, gibt der Empfänger ein entsprechendes Signal aus.
Eine Sprachsteuerung wird durch Erkennen aktiviert, dass die aufgenommene Sprachäußerung eine vorbestimmte Sprachäußerung ist. Nach dem Aktivieren wird zugelassen, dass der Benutzer einen Sprachbefehl eingibt, um eine bestimmte Funktion durch Sprachsteuerung auszuführen. Dies bedeutet dass das System erst aktiviert werden muss, was keine natürliche und komfortable Sprachsteuerung zulässt. Weiterhin ist eine Spracheingabe des Benutzers an eine Bedingung geknüpft sind, da die Spracheingabe ständig durch eine vorbestimmte Sprachäußerung aktiviert werden muss.
Es ist daher die Aufgabe der vorliegenden Erfindung, ein Verfahren und eine Vorrichtung zu schaffen, die eine natürliche, ablenkungsfreie und komfortable Sprachbedienung von Funktionen in einem Fahrzeug zulässt.
Diese Aufgabe wir mit den in den unabhängigen Ansprüchen angegebenen Maßnahmen gelöst.
Weitere vorteilhafte Ausgestaltungen sind Gegenstand der abhängigen Ansprüche.
Gemäß einem ersten Aspekt weist ein Verfahren zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug ein Analysieren eines sich aus der Sprachäußerung ergebenden Sprachsignals und Erzeugen eines segmentierten Sprachsignals, ein Erkennen eines Sprachinhalts aus dem segmentierten Sprachsignal und Bilden eines Worthypothesengraphen aus dem erkannten Sprachinhalt, ein Bilden eines Worthypothesengrafen aus dem erkannten Sprachinhalt, ein Bestimmen eines Konfidenzmaßes des erkannten Sprachinhalts, falls bestimmte Stimm-Merkmale in dem segmentierten Sprachsignal beinhaltet sind und ein Energiegehalt des segmentierten Sprachsignals einen ersten vorbestimmten Wert erreicht oder überschritten ist, ein Bestimmen eines Gütemaßes anhand des Worthypothesengraphen, falls das Konfidenzmaß einen zweiten vorbestimmten Wert überschreitet, ein Bilden eines Syntaxbaums und Bestimmen eines Plausibilitätswerts, falls das Gütemaß einen dritten vorbestimmten Wert überschreitet, und ein Aktivieren des Systems und Ausführen einer der Sprachäußerung zugeordneten Funktion auf, falls der Plausibilitätswert einen vierten vorbestimmten Wert überschreitet.
Gemäß einer Ausgestaltung ist das Sprachsignal ein optimiertes Sprachsignal, das durch Unterziehen des Sprachsignals mindestens eines eines Beamformings, einer Echokompensation, einer Geräuschschätzung und einer Geräuschreduktion erzielt wird.
Gemäß einer weiteren Ausgestaltung ist der Energiegehalt des segmentierten Sprachsignals ein Energiegehalt, der über eine vorbestimmte Zeitdauer bestimmt wird.
Gemäß einer weiteren Ausgestaltung ist der Syntaxbaum ein semantisch annotierter Syntaxbaum.
Gemäß einem zweiten Aspekt weist Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug eine erste Einrichtung zum Analysieren eines sich aus der Sprachäußerung ergebenden Sprachsignals und Erzeugen eines segmentierten Sprachsignals, eine zweite Einrichtung zum Erkennen eines Sprachinhalts aus dem segmentierten Sprachsignal und Bilden eines Worthypothesengraphen aus dem erkannten Sprachinhalt, eine dritte Einrichtung zum Bilden eines Worthypothesengrafen aus dem erkannten Sprachinhalt, eine vierte Einrichtung zum Bestimmen eines Konfidenzmaßes des erkannten Sprachinhalts, falls bestimmte Stimm-Merkmale in dem segmentierten Sprachsignal beinhaltet sind und ein Energiegehalt des segmentierten Sprachsignals einen ersten vorbestimmten Wert erreicht oder überschritten ist, eine fünfte Einrichtung zum Bestimmen eines Gütemaßes anhand des Worthypothesengraphen, falls das Konfidenzmaß einen zweiten vorbestimmten Wert überschreitet, eine sechste Einrichtung zum Bilden eines Syntaxbaums und Bestimmen eines Plausibilitätswerts, falls das Gütemaß einen dritten vorbestimmten Wert überschreitet, und eine siebte Einrichtung zum Aktivieren des Systems und Ausführen einer der Sprachäußerung zugeordneten Funktion auf, falls der Plausibilitätswert einen vierten vorbestimmten Wert überschreitet.
Gemäß einer Ausgestaltung ist das Sprachsignal ein optimiertes Sprachsignal, das durch Unterziehen des Sprachsignals mindestens eines eines Beamformings, einer Echokompensation, einer Geräuschschätzung und einer Geräuschreduktion erzielt wird.
Gemäß einer weiteren Ausgestaltung ist der Energiegehalt des segmentierten Sprachsignals ein Energiegehalt, der über eine vorbestimmte Zeitdauer bestimmt wird.
Gemäß einer weiteren Ausgestaltung ist der Syntaxbaum ein semantisch annotierter Syntaxbaum.
Gemäß dem ersten oder zweiten Aspekt und deren Ausgestaltungen werden Fehlererkennungen durch zu frühes Sprechen oder durch zu spätes Drücken einer Aktivierungstaste vermieden, da kein haptisches Aktivieren erforderlich ist. Vielmehr werden Sprachäußerungen des Benutzers ständig aufgenommen und wird jedes gesprochene Wort des Benutzers auf hinsichtlich eines Durchführens einer Funktion gültige Sprachäußerungen geprüft.
Die vorliegende Erfindung wird nachstehend anhand eines Ausführungsbeispiels unter Bezugnahme auf die beiliegende Zeichnung näher erläutert.
In der Zeichnung zeigt:
1 zeigt eine schematische Darstellung einer Vorrichtung zur Spracheingabe eines Benutzers in einem Fahrzeug gemäß dem Ausführungsbeispiels der vorliegenden Erfindung; und
2 ein Flussdiagramm einer Vorrichtung zur Spracheingabe des Benutzers in dem Fahrzeug gemäß dem Ausführungsbeispiel der vorliegenden Erfindung.
Nachstehend erfolgt die Beschreibung eines Ausführungsbeispiels der vorliegenden Erfindung.
1 zeigt eine schematische Darstellung einer Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug gemäß einem Ausführungsbeispiel der vorliegenden Erfindung; und
2 zeigt ein Flussdiagramm eines Verfahrensablaufs in der Vorrichtung zum Verarbeiten der Sprachäußerung des Benutzers in dem Fahrzeug gemäß dem Ausführungsbeispiel der vorliegenden Erfindung.
Nachstehend erfolgt die Beschreibung eines Aufbaus der Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug gemäß einem Ausführungsbeispiel der vorliegenden Erfindung.
In 1 bezeichnet das Bezugszeichen 1 eine Akustikeinrichtung, bezeichnet das Bezugszeichen 2 eine Erkennungseinrichtung, bezeichnet das Bezugszeichen 3 eine Konfidenzeinrichtung, bezeichnet das Bezugszeichen 4 eine Linguistikeinrichtung und bezeichnet das Bezugszeichen 5 eine Interpretationseinrichtung.
Ein Sprachsignal das sich aus einer von einem Benutzer gemachten Sprachäußerung ergibt, wird in die Akustikeinrichtung 1 eingegeben. Ein von der Akustikeinrichtung 1 ausgegebenes segmentiertes Sprachsignal wird in die Erkennungseinrichtung 2 eingegeben. Ein aus der Erkennungseinrichtung 2 ausgegebener erkannter Sprachinhalt wird in die Konfidenzeinrichtung 3 eingegeben und ein aus der Erkennungseinrichtung 2 ausgegebener Worthypothesengraf wird in die Linguistikeinrichtung 4 eingegeben. Ein aus der Linguistikeinrichtung 4 ausgegebener Syntaxbaum wird in die Interpretationseinrichtung 5 eingegeben. Schließlich wird ein aus der Interpretationseinrichtung 5 ausgegebenes Ausführungssignal zum Ausführen einer vorbestimmten Funktion zu einer dieser auszuführenden Funktion zugeordneten Komponente in dem Fahrzeug ausgegeben.
Nachstehend erfolgt die Beschreibung einer Funktionsweise der Vorrichtung zum Verarbeiten der Sprachäußerung des Benutzers in dem Fahrzeug gemäß dem Ausführungsbeispiel der vorliegenden Erfindung.
In 2 wird in Schritt S100 in der Akustikeinrichtung 1 ein sich aus einer Sprachäußerung eines Benutzers ergebendes Sprachsignal analysiert. Genauer gesagt wird in der Akustikeinrichtung 1 ein Optimieren des Sprachsignals durch Beamforming, Echokompensation, Geräuschschätzung oder Geräuschreduktion oder eine beliebige Kombination der zuvor genannten Verarbeitungen durchgeführt. Das derart optimierte Sprachsignal wird von der Akustikeinrichtung 1 segmentiert und das segmentierte Sprachsignal wird zu der Erkennungseinrichtung 2 ausgegeben. In der Erkennungseinrichtung 2 werden Stimm-Merkmale und ein Energiegehalt des segmentierten Sprachsignals ermittelt. Der Energiegehalt kann zum Beispiel ein über eine vorbestimmte Zeitdauer ermittelter Energiegehalt sein. Weiterhin wird aus dem segmentierten Sprachsignal ein zugehöriger Worthypothesengraf gebildet.
Nach Schritt S100 schreitet der Verarbeitungsablauf zu Schritt S110 fort.
In Schritt S110 wird in der Erkennungseinrichtung 2 bestimmt, ob der bestimmte Energiegehalt des segmentierten Sprachsignals einen ersten vorbestimmten Wert erreicht oder überschreitet und ob in den ermittelten Stimm-Merkmalen ein oder mehrere bestimmte Stimm-Merkmale (Formanten) beinhaltet sind.
Falls die Antwort in Schritt S110 in beiden Fällen „JA” ist, schreitet der Verarbeitungsablauf zu Schritt S120 fort. Ansonsten kehrt der Verarbeitungsablauf zu Schritt S100 zurück.
In Schritt S120 wird in der Konfidenzeinrichtung 3 für den bestimmten Sprachinhalt in Konfidenzmaß bestimmt.
Nach Schritt S120 schreitet der Verarbeitungsablauf zu Schritt S130 fort.
In Schritt S130 wird in der Konfidenzeinrichtung 3 bestimmt, ob das bestimmte Konfidenzmaß einen zweiten vorbestimmten Wert überschreitet.
Falls die Antwort in Schritt S130 „JA” ist, schreitet der Verarbeitungsablauf zu Schritt S140 fort. Ansonsten kehrt der Verarbeitungsablauf zu Schritt S100 zurück.
Genauer gesagt wird, wenn der zweite vorbestimmte Wert überschritten wird, in der Konfidenzeinrichtung 3 ein dieses anzeigendes Triggersignal erzeugt und dieses zu der Lingusitikeinrichtung 4 ausgegeben.
In Schritt S140 wird in der Linguistikeinrichtung 4, wenn das Triggersignal empfangen wird, anhand des von der Erkennungseinrichtung 3 in die Linguistikeinrichtung 4 eingegebenen Worthypothesegrafen ein Gütemaß bestimmt.
Nach Schritt S140 schreitet der Verarbeitungsablauf zu Schritt S150 fort.
In Schritt S150 wird bestimmt, ob das Gütemaß einen dritten vorbestimmten Wert überschreitet.
Falls die Antwort in Schritt S150 „JA” ist, schreitet der Verarbeitungsablauf zu Schritt S160 fort. Ansonsten kehrt der Verarbeitungsablauf zu Schritt S100 zurück.
In Schritt S160 wird in der Interpretationseinrichtung anhand eines Syntaxbaums, vorzugsweise eines semantisch annotierten Syntaxbaums, der von der Linguistikeinrichtung 4 in die Interpretationseinrichtung 5 eingegeben wird, ein Plausibilitätswert bestimmt.
Nach Schritt S160 schreitet der Verarbeitungsablauf zu Schritt S170 fort.
In Schritt S170 wird in der Interpretationseinrichtung 5 bestimmt, ob der Plausibilitätswert einen vierten vorbestimmten Wert überschreitet.
Falls die Antwort in Schritt S170 „JA” ist, schreitet der Verarbeitungsablauf zu Schritt S180 fort. Ansonsten kehrt der Verarbeitungsablauf zu Schritt S100 zurück.
In Schritt S180 wird eine Funktion in dem Fahrzeug durchgeführt, die der Sprachäußerung zugeordnet ist, die alle der vorhergehenden Verarbeitungsschritt durchlaufen hat und somit als gültige Sprachäußerung festgelegt worden ist.
Nach Schritt S180 kehrt der Verarbeitungsablauf zu Schritt S100 zurück und die vorhergehende Verarbeitung beginnt erneut von vorne.
Es besteht die Möglichkeit, dass einige der vorhergehenden Schritte außerhalb des Fahrzeugs ermittelt werden, wie zum Beispiel online auf einem externen Server. Ein Signal könnte an den externen Server übertragen werden. Der Server gibt ein Ergebnis aus, welches zum Ausführen einer der Sprachäußerung zugeordneten Funktion dient.
Das zuvor beschriebene System hört ständig auf Spracheingaben des Benutzers und filtert diese nach gültigen Sprachäußerungen, wodurch kein explizites Aktivieren des Systems durch ein Bedienelement oder ähnliches erforderlich ist. Durch die rein sprachliche und permanent mögliche Eingabe von Sprachäußerungen ist eine natürliche, ablenkungsfreie und komfortable Bedienung möglich. Durch das Ermitteln verschiedener Qualitätsmaße werden akustische Signale, wie zum Beispiel Audiosignale durch Gesang oder Nachrichten im Radio, sowie Äußerungen eines Navigationssystems als nicht relevante bzw. ungültige Spracheingaben erkannt.
Obgleich die vorliegende Erfindung vorhergehend anhand eines Ausführungsbeispiels beschrieben worden ist, versteht es sich, dass verschiedene Ausgestaltungen und Änderungen durchgeführt werden können, ohne den Umfang der vorliegenden Erfindung zu verlassen, wie er in den beiliegenden Ansprüchen definiert ist.
Bezüglich weiterer Merkmale und Vorteile der vorliegenden Erfindung wird ausdrücklich auf die Offenbarung der Zeichnung verweisen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 2013/0054235 A1 [0002]

Claims

Verfahren zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug, das aufweist: Analysieren eines sich aus der Sprachäußerung ergebenden Sprachsignals und Erzeugen eines segmentierten Sprachsignals; Erkennen eines Sprachinhalts aus dem segmentierten Sprachsignal und Bilden eines Worthypothesengraphen aus dem erkannten Sprachinhalt; Bilden eines Worthypothesengrafen aus dem erkannten Sprachinhalt; Bestimmen eines Konfidenzmaßes des erkannten Sprachinhalts, falls bestimmte Stimm-Merkmale in dem segmentierten Sprachsignal beinhaltet sind und ein Energiegehalt des segmentierten Sprachsignals einen ersten vorbestimmten Wert erreicht oder überschritten ist; Bestimmen eines Gütemaßes anhand des Worthypothesengraphen, falls das Konfidenzmaß einen zweiten vorbestimmten Wert überschreitet; Bilden eines Syntaxbaums und Bestimmen eines Plausibilitätswerts, falls das Gütemaß einen dritten vorbestimmten Wert überschreitet; und Aktivieren des Systems und Ausführen einer der Sprachäußerung zugeordneten Funktion, falls der Plausibilitätswert einen vierten vorbestimmten Wert überschreitet.
Verfahren nach Anspruch 1, wobei das Sprachsignal ein optimiertes Sprachsignal ist, das durch Unterziehen des Sprachsignals mindestens eines eines Beamformings, einer Echokompensation, einer Geräuschschätzung und einer Geräuschreduktion erzielt wird.
Verfahren nach Anspruch 1 oder 2, wobei der Energiegehalt des segmentierten Sprachsignals ein Energiegehalt ist, der über eine vorbestimmte Zeitdauer bestimmt wird.
Verfahren nach einem der Ansprüche 1 bis 3, wobei der Syntaxbaum ein semantisch annotierter Syntaxbaum ist.
Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug, die aufweist: eine erste Einrichtung zum Analysieren eines sich aus der Sprachäußerung ergebenden Sprachsignals und Erzeugen eines segmentierten Sprachsignals; eine zweite Einrichtung zum Erkennen eines Sprachinhalts aus dem segmentierten Sprachsignal und Bilden eines Worthypothesengraphen aus dem erkannten Sprachinhalt; eine dritte Einrichtung zum Bilden eines Worthypothesengrafen aus dem erkannten Sprachinhalt; eine vierte Einrichtung zum Bestimmen eines Konfidenzmaßes des erkannten Sprachinhalts, falls bestimmte Stimm-Merkmale in dem segmentierten Sprachsignal beinhaltet sind und ein Energiegehalt des segmentierten Sprachsignals einen ersten vorbestimmten Wert erreicht oder überschritten ist; eine fünfte Einrichtung zum Bestimmen eines Gütemaßes anhand des Worthypothesengraphen, falls das Konfidenzmaß einen zweiten vorbestimmten Wert überschreitet; eine sechste Einrichtung zum Bilden eines Syntaxbaums und Bestimmen eines Plausibilitätswerts, falls das Gütemaß einen dritten vorbestimmten Wert überschreitet; und eine siebte Einrichtung zum Aktivieren des Systems und Ausführen einer der Sprachäußerung zugeordneten Funktion, falls der Plausibilitätswert einen vierten vorbestimmten Wert überschreitet.
Verfahren nach Anspruch 5, wobei das Sprachsignal ein optimiertes Sprachsignal ist, das durch Unterziehen des Sprachsignals mindestens eines eines Beamformings, einer Echokompensation, einer Geräuschschätzung und einer Geräuschreduktion erzielt wird.
Verfahren nach Anspruch 5 oder 6, wobei der Energiegehalt des segmentierten Sprachsignals ein Energiegehalt ist, der über eine vorbestimmte Zeitdauer bestimmt wird.
Verfahren nach einem der Ansprüche 5 bis 7, wobei der Syntaxbaum ein semantisch annotierter Syntaxbaum ist.