DE102013011922A1 - Verfahren und Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug - Google Patents

Verfahren und Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug Download PDF

Info

Publication number
DE102013011922A1
DE102013011922A1 DE201310011922 DE102013011922A DE102013011922A1 DE 102013011922 A1 DE102013011922 A1 DE 102013011922A1 DE 201310011922 DE201310011922 DE 201310011922 DE 102013011922 A DE102013011922 A DE 102013011922A DE 102013011922 A1 DE102013011922 A1 DE 102013011922A1
Authority
DE
Germany
Prior art keywords
speech signal
segmented
content
predetermined value
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE201310011922
Other languages
English (en)
Inventor
Klaus Bader
Ute Ehrlich
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mercedes Benz Group AG
Original Assignee
Daimler AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daimler AG filed Critical Daimler AG
Priority to DE201310011922 priority Critical patent/DE102013011922A1/de
Publication of DE102013011922A1 publication Critical patent/DE102013011922A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Es wird ein Verfahren zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug offenbart, das ein Analysieren eines sich aus der Sprachäußerung ergebenden Sprachsignals und Erzeugen eines segmentierten Sprachsignals, ein Erkennen eines Sprachinhalts aus dem segmentierten Sprachsignal und Bilden eines Worthypothesengraphen aus dem erkannten Sprachinhalt, ein Bilden eines Worthypothesengrafen aus dem erkannten Sprachinhalt, ein Bestimmen eines Konfidenzmaßes des erkannten Sprachinhalts, falls bestimmte Stimm-Merkmale in dem segmentierten Sprachsignal beinhaltet sind und ein Energiegehalt des segmentierten Sprachsignals einen ersten vorbestimmten Wert erreicht oder überschritten ist, ein Bestimmen eines Gütemaßes anhand des Worthypothesengraphen, falls das Konfidenzmaß einen zweiten vorbestimmten Wert überschreitet, ein Bilden eines Syntaxbaums und Bestimmen eines Plausibilitätswerts, falls das Gütemaß einen dritten vorbestimmten Wert überschreitet, und ein Aktivieren des Systems und Ausführen einer der Sprachäußerung zugeordneten Funktion aufweist, falls der Plausibilitätswert einen vierten vorbestimmten Wert überschreitet. Ebenso wird eine Vorrichtung offenbart, die Einrichtungen aufweist, die geeignet sind, das Verfahren durchzuführen.

Description

  • Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug.
  • Aus der US 2013/0054235 A1 sind ein Verfahren und eine Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers bekannt. Ein Empfänger nimmt eine Sprachäußerung eines Benutzers auf, die Hintergrundsignale, vorzugsweise Ton- bzw. Rauschsignalen, beinhalten und filtert die in der Sprachäußerung vorhandenen Hintergrundsignale aus. Falls die derart erzielte Sprachäußerung gleich einer vorbestimmten Sprachäußerung ist, gibt der Empfänger ein entsprechendes Signal aus.
  • Eine Sprachsteuerung wird durch Erkennen aktiviert, dass die aufgenommene Sprachäußerung eine vorbestimmte Sprachäußerung ist. Nach dem Aktivieren wird zugelassen, dass der Benutzer einen Sprachbefehl eingibt, um eine bestimmte Funktion durch Sprachsteuerung auszuführen. Dies bedeutet dass das System erst aktiviert werden muss, was keine natürliche und komfortable Sprachsteuerung zulässt. Weiterhin ist eine Spracheingabe des Benutzers an eine Bedingung geknüpft sind, da die Spracheingabe ständig durch eine vorbestimmte Sprachäußerung aktiviert werden muss.
  • Es ist daher die Aufgabe der vorliegenden Erfindung, ein Verfahren und eine Vorrichtung zu schaffen, die eine natürliche, ablenkungsfreie und komfortable Sprachbedienung von Funktionen in einem Fahrzeug zulässt.
  • Diese Aufgabe wir mit den in den unabhängigen Ansprüchen angegebenen Maßnahmen gelöst.
  • Weitere vorteilhafte Ausgestaltungen sind Gegenstand der abhängigen Ansprüche.
  • Gemäß einem ersten Aspekt weist ein Verfahren zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug ein Analysieren eines sich aus der Sprachäußerung ergebenden Sprachsignals und Erzeugen eines segmentierten Sprachsignals, ein Erkennen eines Sprachinhalts aus dem segmentierten Sprachsignal und Bilden eines Worthypothesengraphen aus dem erkannten Sprachinhalt, ein Bilden eines Worthypothesengrafen aus dem erkannten Sprachinhalt, ein Bestimmen eines Konfidenzmaßes des erkannten Sprachinhalts, falls bestimmte Stimm-Merkmale in dem segmentierten Sprachsignal beinhaltet sind und ein Energiegehalt des segmentierten Sprachsignals einen ersten vorbestimmten Wert erreicht oder überschritten ist, ein Bestimmen eines Gütemaßes anhand des Worthypothesengraphen, falls das Konfidenzmaß einen zweiten vorbestimmten Wert überschreitet, ein Bilden eines Syntaxbaums und Bestimmen eines Plausibilitätswerts, falls das Gütemaß einen dritten vorbestimmten Wert überschreitet, und ein Aktivieren des Systems und Ausführen einer der Sprachäußerung zugeordneten Funktion auf, falls der Plausibilitätswert einen vierten vorbestimmten Wert überschreitet.
  • Gemäß einer Ausgestaltung ist das Sprachsignal ein optimiertes Sprachsignal, das durch Unterziehen des Sprachsignals mindestens eines eines Beamformings, einer Echokompensation, einer Geräuschschätzung und einer Geräuschreduktion erzielt wird.
  • Gemäß einer weiteren Ausgestaltung ist der Energiegehalt des segmentierten Sprachsignals ein Energiegehalt, der über eine vorbestimmte Zeitdauer bestimmt wird.
  • Gemäß einer weiteren Ausgestaltung ist der Syntaxbaum ein semantisch annotierter Syntaxbaum.
  • Gemäß einem zweiten Aspekt weist Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug eine erste Einrichtung zum Analysieren eines sich aus der Sprachäußerung ergebenden Sprachsignals und Erzeugen eines segmentierten Sprachsignals, eine zweite Einrichtung zum Erkennen eines Sprachinhalts aus dem segmentierten Sprachsignal und Bilden eines Worthypothesengraphen aus dem erkannten Sprachinhalt, eine dritte Einrichtung zum Bilden eines Worthypothesengrafen aus dem erkannten Sprachinhalt, eine vierte Einrichtung zum Bestimmen eines Konfidenzmaßes des erkannten Sprachinhalts, falls bestimmte Stimm-Merkmale in dem segmentierten Sprachsignal beinhaltet sind und ein Energiegehalt des segmentierten Sprachsignals einen ersten vorbestimmten Wert erreicht oder überschritten ist, eine fünfte Einrichtung zum Bestimmen eines Gütemaßes anhand des Worthypothesengraphen, falls das Konfidenzmaß einen zweiten vorbestimmten Wert überschreitet, eine sechste Einrichtung zum Bilden eines Syntaxbaums und Bestimmen eines Plausibilitätswerts, falls das Gütemaß einen dritten vorbestimmten Wert überschreitet, und eine siebte Einrichtung zum Aktivieren des Systems und Ausführen einer der Sprachäußerung zugeordneten Funktion auf, falls der Plausibilitätswert einen vierten vorbestimmten Wert überschreitet.
  • Gemäß einer Ausgestaltung ist das Sprachsignal ein optimiertes Sprachsignal, das durch Unterziehen des Sprachsignals mindestens eines eines Beamformings, einer Echokompensation, einer Geräuschschätzung und einer Geräuschreduktion erzielt wird.
  • Gemäß einer weiteren Ausgestaltung ist der Energiegehalt des segmentierten Sprachsignals ein Energiegehalt, der über eine vorbestimmte Zeitdauer bestimmt wird.
  • Gemäß einer weiteren Ausgestaltung ist der Syntaxbaum ein semantisch annotierter Syntaxbaum.
  • Gemäß dem ersten oder zweiten Aspekt und deren Ausgestaltungen werden Fehlererkennungen durch zu frühes Sprechen oder durch zu spätes Drücken einer Aktivierungstaste vermieden, da kein haptisches Aktivieren erforderlich ist. Vielmehr werden Sprachäußerungen des Benutzers ständig aufgenommen und wird jedes gesprochene Wort des Benutzers auf hinsichtlich eines Durchführens einer Funktion gültige Sprachäußerungen geprüft.
  • Die vorliegende Erfindung wird nachstehend anhand eines Ausführungsbeispiels unter Bezugnahme auf die beiliegende Zeichnung näher erläutert.
  • In der Zeichnung zeigt:
  • 1 zeigt eine schematische Darstellung einer Vorrichtung zur Spracheingabe eines Benutzers in einem Fahrzeug gemäß dem Ausführungsbeispiels der vorliegenden Erfindung; und
  • 2 ein Flussdiagramm einer Vorrichtung zur Spracheingabe des Benutzers in dem Fahrzeug gemäß dem Ausführungsbeispiel der vorliegenden Erfindung.
  • Nachstehend erfolgt die Beschreibung eines Ausführungsbeispiels der vorliegenden Erfindung.
  • 1 zeigt eine schematische Darstellung einer Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug gemäß einem Ausführungsbeispiel der vorliegenden Erfindung; und
  • 2 zeigt ein Flussdiagramm eines Verfahrensablaufs in der Vorrichtung zum Verarbeiten der Sprachäußerung des Benutzers in dem Fahrzeug gemäß dem Ausführungsbeispiel der vorliegenden Erfindung.
  • Nachstehend erfolgt die Beschreibung eines Aufbaus der Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug gemäß einem Ausführungsbeispiel der vorliegenden Erfindung.
  • In 1 bezeichnet das Bezugszeichen 1 eine Akustikeinrichtung, bezeichnet das Bezugszeichen 2 eine Erkennungseinrichtung, bezeichnet das Bezugszeichen 3 eine Konfidenzeinrichtung, bezeichnet das Bezugszeichen 4 eine Linguistikeinrichtung und bezeichnet das Bezugszeichen 5 eine Interpretationseinrichtung.
  • Ein Sprachsignal das sich aus einer von einem Benutzer gemachten Sprachäußerung ergibt, wird in die Akustikeinrichtung 1 eingegeben. Ein von der Akustikeinrichtung 1 ausgegebenes segmentiertes Sprachsignal wird in die Erkennungseinrichtung 2 eingegeben. Ein aus der Erkennungseinrichtung 2 ausgegebener erkannter Sprachinhalt wird in die Konfidenzeinrichtung 3 eingegeben und ein aus der Erkennungseinrichtung 2 ausgegebener Worthypothesengraf wird in die Linguistikeinrichtung 4 eingegeben. Ein aus der Linguistikeinrichtung 4 ausgegebener Syntaxbaum wird in die Interpretationseinrichtung 5 eingegeben. Schließlich wird ein aus der Interpretationseinrichtung 5 ausgegebenes Ausführungssignal zum Ausführen einer vorbestimmten Funktion zu einer dieser auszuführenden Funktion zugeordneten Komponente in dem Fahrzeug ausgegeben.
  • Nachstehend erfolgt die Beschreibung einer Funktionsweise der Vorrichtung zum Verarbeiten der Sprachäußerung des Benutzers in dem Fahrzeug gemäß dem Ausführungsbeispiel der vorliegenden Erfindung.
  • In 2 wird in Schritt S100 in der Akustikeinrichtung 1 ein sich aus einer Sprachäußerung eines Benutzers ergebendes Sprachsignal analysiert. Genauer gesagt wird in der Akustikeinrichtung 1 ein Optimieren des Sprachsignals durch Beamforming, Echokompensation, Geräuschschätzung oder Geräuschreduktion oder eine beliebige Kombination der zuvor genannten Verarbeitungen durchgeführt. Das derart optimierte Sprachsignal wird von der Akustikeinrichtung 1 segmentiert und das segmentierte Sprachsignal wird zu der Erkennungseinrichtung 2 ausgegeben. In der Erkennungseinrichtung 2 werden Stimm-Merkmale und ein Energiegehalt des segmentierten Sprachsignals ermittelt. Der Energiegehalt kann zum Beispiel ein über eine vorbestimmte Zeitdauer ermittelter Energiegehalt sein. Weiterhin wird aus dem segmentierten Sprachsignal ein zugehöriger Worthypothesengraf gebildet.
  • Nach Schritt S100 schreitet der Verarbeitungsablauf zu Schritt S110 fort.
  • In Schritt S110 wird in der Erkennungseinrichtung 2 bestimmt, ob der bestimmte Energiegehalt des segmentierten Sprachsignals einen ersten vorbestimmten Wert erreicht oder überschreitet und ob in den ermittelten Stimm-Merkmalen ein oder mehrere bestimmte Stimm-Merkmale (Formanten) beinhaltet sind.
  • Falls die Antwort in Schritt S110 in beiden Fällen „JA” ist, schreitet der Verarbeitungsablauf zu Schritt S120 fort. Ansonsten kehrt der Verarbeitungsablauf zu Schritt S100 zurück.
  • In Schritt S120 wird in der Konfidenzeinrichtung 3 für den bestimmten Sprachinhalt in Konfidenzmaß bestimmt.
  • Nach Schritt S120 schreitet der Verarbeitungsablauf zu Schritt S130 fort.
  • In Schritt S130 wird in der Konfidenzeinrichtung 3 bestimmt, ob das bestimmte Konfidenzmaß einen zweiten vorbestimmten Wert überschreitet.
  • Falls die Antwort in Schritt S130 „JA” ist, schreitet der Verarbeitungsablauf zu Schritt S140 fort. Ansonsten kehrt der Verarbeitungsablauf zu Schritt S100 zurück.
  • Genauer gesagt wird, wenn der zweite vorbestimmte Wert überschritten wird, in der Konfidenzeinrichtung 3 ein dieses anzeigendes Triggersignal erzeugt und dieses zu der Lingusitikeinrichtung 4 ausgegeben.
  • In Schritt S140 wird in der Linguistikeinrichtung 4, wenn das Triggersignal empfangen wird, anhand des von der Erkennungseinrichtung 3 in die Linguistikeinrichtung 4 eingegebenen Worthypothesegrafen ein Gütemaß bestimmt.
  • Nach Schritt S140 schreitet der Verarbeitungsablauf zu Schritt S150 fort.
  • In Schritt S150 wird bestimmt, ob das Gütemaß einen dritten vorbestimmten Wert überschreitet.
  • Falls die Antwort in Schritt S150 „JA” ist, schreitet der Verarbeitungsablauf zu Schritt S160 fort. Ansonsten kehrt der Verarbeitungsablauf zu Schritt S100 zurück.
  • In Schritt S160 wird in der Interpretationseinrichtung anhand eines Syntaxbaums, vorzugsweise eines semantisch annotierten Syntaxbaums, der von der Linguistikeinrichtung 4 in die Interpretationseinrichtung 5 eingegeben wird, ein Plausibilitätswert bestimmt.
  • Nach Schritt S160 schreitet der Verarbeitungsablauf zu Schritt S170 fort.
  • In Schritt S170 wird in der Interpretationseinrichtung 5 bestimmt, ob der Plausibilitätswert einen vierten vorbestimmten Wert überschreitet.
  • Falls die Antwort in Schritt S170 „JA” ist, schreitet der Verarbeitungsablauf zu Schritt S180 fort. Ansonsten kehrt der Verarbeitungsablauf zu Schritt S100 zurück.
  • In Schritt S180 wird eine Funktion in dem Fahrzeug durchgeführt, die der Sprachäußerung zugeordnet ist, die alle der vorhergehenden Verarbeitungsschritt durchlaufen hat und somit als gültige Sprachäußerung festgelegt worden ist.
  • Nach Schritt S180 kehrt der Verarbeitungsablauf zu Schritt S100 zurück und die vorhergehende Verarbeitung beginnt erneut von vorne.
  • Es besteht die Möglichkeit, dass einige der vorhergehenden Schritte außerhalb des Fahrzeugs ermittelt werden, wie zum Beispiel online auf einem externen Server. Ein Signal könnte an den externen Server übertragen werden. Der Server gibt ein Ergebnis aus, welches zum Ausführen einer der Sprachäußerung zugeordneten Funktion dient.
  • Das zuvor beschriebene System hört ständig auf Spracheingaben des Benutzers und filtert diese nach gültigen Sprachäußerungen, wodurch kein explizites Aktivieren des Systems durch ein Bedienelement oder ähnliches erforderlich ist. Durch die rein sprachliche und permanent mögliche Eingabe von Sprachäußerungen ist eine natürliche, ablenkungsfreie und komfortable Bedienung möglich. Durch das Ermitteln verschiedener Qualitätsmaße werden akustische Signale, wie zum Beispiel Audiosignale durch Gesang oder Nachrichten im Radio, sowie Äußerungen eines Navigationssystems als nicht relevante bzw. ungültige Spracheingaben erkannt.
  • Obgleich die vorliegende Erfindung vorhergehend anhand eines Ausführungsbeispiels beschrieben worden ist, versteht es sich, dass verschiedene Ausgestaltungen und Änderungen durchgeführt werden können, ohne den Umfang der vorliegenden Erfindung zu verlassen, wie er in den beiliegenden Ansprüchen definiert ist.
  • Bezüglich weiterer Merkmale und Vorteile der vorliegenden Erfindung wird ausdrücklich auf die Offenbarung der Zeichnung verweisen.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 2013/0054235 A1 [0002]

Claims (8)

  1. Verfahren zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug, das aufweist: Analysieren eines sich aus der Sprachäußerung ergebenden Sprachsignals und Erzeugen eines segmentierten Sprachsignals; Erkennen eines Sprachinhalts aus dem segmentierten Sprachsignal und Bilden eines Worthypothesengraphen aus dem erkannten Sprachinhalt; Bilden eines Worthypothesengrafen aus dem erkannten Sprachinhalt; Bestimmen eines Konfidenzmaßes des erkannten Sprachinhalts, falls bestimmte Stimm-Merkmale in dem segmentierten Sprachsignal beinhaltet sind und ein Energiegehalt des segmentierten Sprachsignals einen ersten vorbestimmten Wert erreicht oder überschritten ist; Bestimmen eines Gütemaßes anhand des Worthypothesengraphen, falls das Konfidenzmaß einen zweiten vorbestimmten Wert überschreitet; Bilden eines Syntaxbaums und Bestimmen eines Plausibilitätswerts, falls das Gütemaß einen dritten vorbestimmten Wert überschreitet; und Aktivieren des Systems und Ausführen einer der Sprachäußerung zugeordneten Funktion, falls der Plausibilitätswert einen vierten vorbestimmten Wert überschreitet.
  2. Verfahren nach Anspruch 1, wobei das Sprachsignal ein optimiertes Sprachsignal ist, das durch Unterziehen des Sprachsignals mindestens eines eines Beamformings, einer Echokompensation, einer Geräuschschätzung und einer Geräuschreduktion erzielt wird.
  3. Verfahren nach Anspruch 1 oder 2, wobei der Energiegehalt des segmentierten Sprachsignals ein Energiegehalt ist, der über eine vorbestimmte Zeitdauer bestimmt wird.
  4. Verfahren nach einem der Ansprüche 1 bis 3, wobei der Syntaxbaum ein semantisch annotierter Syntaxbaum ist.
  5. Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug, die aufweist: eine erste Einrichtung zum Analysieren eines sich aus der Sprachäußerung ergebenden Sprachsignals und Erzeugen eines segmentierten Sprachsignals; eine zweite Einrichtung zum Erkennen eines Sprachinhalts aus dem segmentierten Sprachsignal und Bilden eines Worthypothesengraphen aus dem erkannten Sprachinhalt; eine dritte Einrichtung zum Bilden eines Worthypothesengrafen aus dem erkannten Sprachinhalt; eine vierte Einrichtung zum Bestimmen eines Konfidenzmaßes des erkannten Sprachinhalts, falls bestimmte Stimm-Merkmale in dem segmentierten Sprachsignal beinhaltet sind und ein Energiegehalt des segmentierten Sprachsignals einen ersten vorbestimmten Wert erreicht oder überschritten ist; eine fünfte Einrichtung zum Bestimmen eines Gütemaßes anhand des Worthypothesengraphen, falls das Konfidenzmaß einen zweiten vorbestimmten Wert überschreitet; eine sechste Einrichtung zum Bilden eines Syntaxbaums und Bestimmen eines Plausibilitätswerts, falls das Gütemaß einen dritten vorbestimmten Wert überschreitet; und eine siebte Einrichtung zum Aktivieren des Systems und Ausführen einer der Sprachäußerung zugeordneten Funktion, falls der Plausibilitätswert einen vierten vorbestimmten Wert überschreitet.
  6. Verfahren nach Anspruch 5, wobei das Sprachsignal ein optimiertes Sprachsignal ist, das durch Unterziehen des Sprachsignals mindestens eines eines Beamformings, einer Echokompensation, einer Geräuschschätzung und einer Geräuschreduktion erzielt wird.
  7. Verfahren nach Anspruch 5 oder 6, wobei der Energiegehalt des segmentierten Sprachsignals ein Energiegehalt ist, der über eine vorbestimmte Zeitdauer bestimmt wird.
  8. Verfahren nach einem der Ansprüche 5 bis 7, wobei der Syntaxbaum ein semantisch annotierter Syntaxbaum ist.
DE201310011922 2013-07-17 2013-07-17 Verfahren und Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug Withdrawn DE102013011922A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE201310011922 DE102013011922A1 (de) 2013-07-17 2013-07-17 Verfahren und Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE201310011922 DE102013011922A1 (de) 2013-07-17 2013-07-17 Verfahren und Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug

Publications (1)

Publication Number Publication Date
DE102013011922A1 true DE102013011922A1 (de) 2015-01-22

Family

ID=52131112

Family Applications (1)

Application Number Title Priority Date Filing Date
DE201310011922 Withdrawn DE102013011922A1 (de) 2013-07-17 2013-07-17 Verfahren und Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug

Country Status (1)

Country Link
DE (1) DE102013011922A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016005629A1 (de) 2016-05-06 2017-11-09 Audi Ag Kraftfahrzeug-Bedienvorrichtung und Verfahren zum Ermitteln zumindest eines Erkennungsergebnisses zu einem Sprachsignal
DE102016009196A1 (de) 2016-07-27 2018-02-01 Audi Ag Verfahren zum Betreiben mehrerer Spracherkenner und Spracherkennungsvorrichtung

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130054235A1 (en) 2011-08-24 2013-02-28 Sensory, Incorporated Truly handsfree speech recognition in high noise environments

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130054235A1 (en) 2011-08-24 2013-02-28 Sensory, Incorporated Truly handsfree speech recognition in high noise environments

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016005629A1 (de) 2016-05-06 2017-11-09 Audi Ag Kraftfahrzeug-Bedienvorrichtung und Verfahren zum Ermitteln zumindest eines Erkennungsergebnisses zu einem Sprachsignal
DE102016005629B4 (de) 2016-05-06 2020-06-25 Audi Ag Kraftfahrzeug-Bedienvorrichtung und Verfahren zum Ermitteln zumindest eines Erkennungsergebnisses zu einem Sprachsignal
DE102016009196A1 (de) 2016-07-27 2018-02-01 Audi Ag Verfahren zum Betreiben mehrerer Spracherkenner und Spracherkennungsvorrichtung

Similar Documents

Publication Publication Date Title
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE69829235T2 (de) Registrierung für die Spracherkennung
DE112014006542B4 (de) Einrichtung und Verfahren zum Verständnis von einer Benutzerintention
DE112017007005B4 (de) Akustiksignal-verarbeitungsvorrichtung, akustiksignalverarbeitungsverfahren und freisprech-kommunikationsvorrichtung
EP1927980A2 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
DE102008024258A1 (de) Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung
DE102009051508A1 (de) Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und/oder -führung
EP1256936A2 (de) Verfahren zum Training oder zur Adaption eines Spracherkenners
DE112015003382T5 (de) Spracherkennungseinrichtung und Spracherkennungsverfahren
DE102017220266B3 (de) Verfahren zum Überprüfen eines Onboard-Spracherkenners eines Kraftfahrzeugs sowie Steuervorrichtung und Kraftfahrzeug
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
DE102016125104A1 (de) Dynamisches umschalten von akustischen modellen zur verbesserung der erkennung verrauschter sprachsignale
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE102015106280B4 (de) Systeme und Verfahren zum Kompensieren von Sprachartefakten in Spracherkennungssystemen
DE102015109758A1 (de) Verfahren und Systeme zum Anpassen von Sprachsystemen
DE102006036338A1 (de) Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem
EP1134726A1 (de) Verfahren zur Erkennung von Sprachäusserungen nicht-muttersprachlicher Sprecher in einem Sprachverarbeitungssystem
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
WO2017157684A1 (de) Fortbewegungsmittel, system und verfahren zur anpassung einer länge einer erlaubten sprechpause im rahmen einer spracheingabe
DE60124192T2 (de) HMM-basierte Erkennung von verrauschter Sprache
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE102018200088B3 (de) Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zum Verarbeiten einer Spracheingabe, Kraftfahrzeug und Nutzerendgerät mit einer Sprachverarbeitung
DE102018132160A1 (de) System und verfahren zum verstehen von standardsprache und dialekten
DE102013011922A1 (de) Verfahren und Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug

Legal Events

Date Code Title Description
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee