DE102013011922A1 - Verfahren und Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug - Google Patents
Verfahren und Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug Download PDFInfo
- Publication number
- DE102013011922A1 DE102013011922A1 DE201310011922 DE102013011922A DE102013011922A1 DE 102013011922 A1 DE102013011922 A1 DE 102013011922A1 DE 201310011922 DE201310011922 DE 201310011922 DE 102013011922 A DE102013011922 A DE 102013011922A DE 102013011922 A1 DE102013011922 A1 DE 102013011922A1
- Authority
- DE
- Germany
- Prior art keywords
- speech signal
- segmented
- content
- predetermined value
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012545 processing Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 15
- 230000001755 vocal effect Effects 0.000 claims abstract description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 9
- 230000004913 activation Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 2
- BUHVIAUBTBOHAG-FOYDDCNASA-N (2r,3r,4s,5r)-2-[6-[[2-(3,5-dimethoxyphenyl)-2-(2-methylphenyl)ethyl]amino]purin-9-yl]-5-(hydroxymethyl)oxolane-3,4-diol Chemical compound COC1=CC(OC)=CC(C(CNC=2C=3N=CN(C=3N=CN=2)[C@H]2[C@@H]([C@H](O)[C@@H](CO)O2)O)C=2C(=CC=CC=2)C)=C1 BUHVIAUBTBOHAG-FOYDDCNASA-N 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Es wird ein Verfahren zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug offenbart, das ein Analysieren eines sich aus der Sprachäußerung ergebenden Sprachsignals und Erzeugen eines segmentierten Sprachsignals, ein Erkennen eines Sprachinhalts aus dem segmentierten Sprachsignal und Bilden eines Worthypothesengraphen aus dem erkannten Sprachinhalt, ein Bilden eines Worthypothesengrafen aus dem erkannten Sprachinhalt, ein Bestimmen eines Konfidenzmaßes des erkannten Sprachinhalts, falls bestimmte Stimm-Merkmale in dem segmentierten Sprachsignal beinhaltet sind und ein Energiegehalt des segmentierten Sprachsignals einen ersten vorbestimmten Wert erreicht oder überschritten ist, ein Bestimmen eines Gütemaßes anhand des Worthypothesengraphen, falls das Konfidenzmaß einen zweiten vorbestimmten Wert überschreitet, ein Bilden eines Syntaxbaums und Bestimmen eines Plausibilitätswerts, falls das Gütemaß einen dritten vorbestimmten Wert überschreitet, und ein Aktivieren des Systems und Ausführen einer der Sprachäußerung zugeordneten Funktion aufweist, falls der Plausibilitätswert einen vierten vorbestimmten Wert überschreitet. Ebenso wird eine Vorrichtung offenbart, die Einrichtungen aufweist, die geeignet sind, das Verfahren durchzuführen.
Description
- Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug.
- Aus der
US 2013/0054235 A1 - Eine Sprachsteuerung wird durch Erkennen aktiviert, dass die aufgenommene Sprachäußerung eine vorbestimmte Sprachäußerung ist. Nach dem Aktivieren wird zugelassen, dass der Benutzer einen Sprachbefehl eingibt, um eine bestimmte Funktion durch Sprachsteuerung auszuführen. Dies bedeutet dass das System erst aktiviert werden muss, was keine natürliche und komfortable Sprachsteuerung zulässt. Weiterhin ist eine Spracheingabe des Benutzers an eine Bedingung geknüpft sind, da die Spracheingabe ständig durch eine vorbestimmte Sprachäußerung aktiviert werden muss.
- Es ist daher die Aufgabe der vorliegenden Erfindung, ein Verfahren und eine Vorrichtung zu schaffen, die eine natürliche, ablenkungsfreie und komfortable Sprachbedienung von Funktionen in einem Fahrzeug zulässt.
- Diese Aufgabe wir mit den in den unabhängigen Ansprüchen angegebenen Maßnahmen gelöst.
- Weitere vorteilhafte Ausgestaltungen sind Gegenstand der abhängigen Ansprüche.
- Gemäß einem ersten Aspekt weist ein Verfahren zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug ein Analysieren eines sich aus der Sprachäußerung ergebenden Sprachsignals und Erzeugen eines segmentierten Sprachsignals, ein Erkennen eines Sprachinhalts aus dem segmentierten Sprachsignal und Bilden eines Worthypothesengraphen aus dem erkannten Sprachinhalt, ein Bilden eines Worthypothesengrafen aus dem erkannten Sprachinhalt, ein Bestimmen eines Konfidenzmaßes des erkannten Sprachinhalts, falls bestimmte Stimm-Merkmale in dem segmentierten Sprachsignal beinhaltet sind und ein Energiegehalt des segmentierten Sprachsignals einen ersten vorbestimmten Wert erreicht oder überschritten ist, ein Bestimmen eines Gütemaßes anhand des Worthypothesengraphen, falls das Konfidenzmaß einen zweiten vorbestimmten Wert überschreitet, ein Bilden eines Syntaxbaums und Bestimmen eines Plausibilitätswerts, falls das Gütemaß einen dritten vorbestimmten Wert überschreitet, und ein Aktivieren des Systems und Ausführen einer der Sprachäußerung zugeordneten Funktion auf, falls der Plausibilitätswert einen vierten vorbestimmten Wert überschreitet.
- Gemäß einer Ausgestaltung ist das Sprachsignal ein optimiertes Sprachsignal, das durch Unterziehen des Sprachsignals mindestens eines eines Beamformings, einer Echokompensation, einer Geräuschschätzung und einer Geräuschreduktion erzielt wird.
- Gemäß einer weiteren Ausgestaltung ist der Energiegehalt des segmentierten Sprachsignals ein Energiegehalt, der über eine vorbestimmte Zeitdauer bestimmt wird.
- Gemäß einer weiteren Ausgestaltung ist der Syntaxbaum ein semantisch annotierter Syntaxbaum.
- Gemäß einem zweiten Aspekt weist Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug eine erste Einrichtung zum Analysieren eines sich aus der Sprachäußerung ergebenden Sprachsignals und Erzeugen eines segmentierten Sprachsignals, eine zweite Einrichtung zum Erkennen eines Sprachinhalts aus dem segmentierten Sprachsignal und Bilden eines Worthypothesengraphen aus dem erkannten Sprachinhalt, eine dritte Einrichtung zum Bilden eines Worthypothesengrafen aus dem erkannten Sprachinhalt, eine vierte Einrichtung zum Bestimmen eines Konfidenzmaßes des erkannten Sprachinhalts, falls bestimmte Stimm-Merkmale in dem segmentierten Sprachsignal beinhaltet sind und ein Energiegehalt des segmentierten Sprachsignals einen ersten vorbestimmten Wert erreicht oder überschritten ist, eine fünfte Einrichtung zum Bestimmen eines Gütemaßes anhand des Worthypothesengraphen, falls das Konfidenzmaß einen zweiten vorbestimmten Wert überschreitet, eine sechste Einrichtung zum Bilden eines Syntaxbaums und Bestimmen eines Plausibilitätswerts, falls das Gütemaß einen dritten vorbestimmten Wert überschreitet, und eine siebte Einrichtung zum Aktivieren des Systems und Ausführen einer der Sprachäußerung zugeordneten Funktion auf, falls der Plausibilitätswert einen vierten vorbestimmten Wert überschreitet.
- Gemäß einer Ausgestaltung ist das Sprachsignal ein optimiertes Sprachsignal, das durch Unterziehen des Sprachsignals mindestens eines eines Beamformings, einer Echokompensation, einer Geräuschschätzung und einer Geräuschreduktion erzielt wird.
- Gemäß einer weiteren Ausgestaltung ist der Energiegehalt des segmentierten Sprachsignals ein Energiegehalt, der über eine vorbestimmte Zeitdauer bestimmt wird.
- Gemäß einer weiteren Ausgestaltung ist der Syntaxbaum ein semantisch annotierter Syntaxbaum.
- Gemäß dem ersten oder zweiten Aspekt und deren Ausgestaltungen werden Fehlererkennungen durch zu frühes Sprechen oder durch zu spätes Drücken einer Aktivierungstaste vermieden, da kein haptisches Aktivieren erforderlich ist. Vielmehr werden Sprachäußerungen des Benutzers ständig aufgenommen und wird jedes gesprochene Wort des Benutzers auf hinsichtlich eines Durchführens einer Funktion gültige Sprachäußerungen geprüft.
- Die vorliegende Erfindung wird nachstehend anhand eines Ausführungsbeispiels unter Bezugnahme auf die beiliegende Zeichnung näher erläutert.
- In der Zeichnung zeigt:
-
1 zeigt eine schematische Darstellung einer Vorrichtung zur Spracheingabe eines Benutzers in einem Fahrzeug gemäß dem Ausführungsbeispiels der vorliegenden Erfindung; und -
2 ein Flussdiagramm einer Vorrichtung zur Spracheingabe des Benutzers in dem Fahrzeug gemäß dem Ausführungsbeispiel der vorliegenden Erfindung. - Nachstehend erfolgt die Beschreibung eines Ausführungsbeispiels der vorliegenden Erfindung.
-
1 zeigt eine schematische Darstellung einer Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug gemäß einem Ausführungsbeispiel der vorliegenden Erfindung; und -
2 zeigt ein Flussdiagramm eines Verfahrensablaufs in der Vorrichtung zum Verarbeiten der Sprachäußerung des Benutzers in dem Fahrzeug gemäß dem Ausführungsbeispiel der vorliegenden Erfindung. - Nachstehend erfolgt die Beschreibung eines Aufbaus der Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug gemäß einem Ausführungsbeispiel der vorliegenden Erfindung.
- In
1 bezeichnet das Bezugszeichen1 eine Akustikeinrichtung, bezeichnet das Bezugszeichen2 eine Erkennungseinrichtung, bezeichnet das Bezugszeichen3 eine Konfidenzeinrichtung, bezeichnet das Bezugszeichen4 eine Linguistikeinrichtung und bezeichnet das Bezugszeichen5 eine Interpretationseinrichtung. - Ein Sprachsignal das sich aus einer von einem Benutzer gemachten Sprachäußerung ergibt, wird in die Akustikeinrichtung
1 eingegeben. Ein von der Akustikeinrichtung1 ausgegebenes segmentiertes Sprachsignal wird in die Erkennungseinrichtung2 eingegeben. Ein aus der Erkennungseinrichtung2 ausgegebener erkannter Sprachinhalt wird in die Konfidenzeinrichtung3 eingegeben und ein aus der Erkennungseinrichtung2 ausgegebener Worthypothesengraf wird in die Linguistikeinrichtung4 eingegeben. Ein aus der Linguistikeinrichtung4 ausgegebener Syntaxbaum wird in die Interpretationseinrichtung5 eingegeben. Schließlich wird ein aus der Interpretationseinrichtung5 ausgegebenes Ausführungssignal zum Ausführen einer vorbestimmten Funktion zu einer dieser auszuführenden Funktion zugeordneten Komponente in dem Fahrzeug ausgegeben. - Nachstehend erfolgt die Beschreibung einer Funktionsweise der Vorrichtung zum Verarbeiten der Sprachäußerung des Benutzers in dem Fahrzeug gemäß dem Ausführungsbeispiel der vorliegenden Erfindung.
- In
2 wird in Schritt S100 in der Akustikeinrichtung1 ein sich aus einer Sprachäußerung eines Benutzers ergebendes Sprachsignal analysiert. Genauer gesagt wird in der Akustikeinrichtung1 ein Optimieren des Sprachsignals durch Beamforming, Echokompensation, Geräuschschätzung oder Geräuschreduktion oder eine beliebige Kombination der zuvor genannten Verarbeitungen durchgeführt. Das derart optimierte Sprachsignal wird von der Akustikeinrichtung1 segmentiert und das segmentierte Sprachsignal wird zu der Erkennungseinrichtung2 ausgegeben. In der Erkennungseinrichtung2 werden Stimm-Merkmale und ein Energiegehalt des segmentierten Sprachsignals ermittelt. Der Energiegehalt kann zum Beispiel ein über eine vorbestimmte Zeitdauer ermittelter Energiegehalt sein. Weiterhin wird aus dem segmentierten Sprachsignal ein zugehöriger Worthypothesengraf gebildet. - Nach Schritt S100 schreitet der Verarbeitungsablauf zu Schritt S110 fort.
- In Schritt S110 wird in der Erkennungseinrichtung
2 bestimmt, ob der bestimmte Energiegehalt des segmentierten Sprachsignals einen ersten vorbestimmten Wert erreicht oder überschreitet und ob in den ermittelten Stimm-Merkmalen ein oder mehrere bestimmte Stimm-Merkmale (Formanten) beinhaltet sind. - Falls die Antwort in Schritt S110 in beiden Fällen „JA” ist, schreitet der Verarbeitungsablauf zu Schritt S120 fort. Ansonsten kehrt der Verarbeitungsablauf zu Schritt S100 zurück.
- In Schritt S120 wird in der Konfidenzeinrichtung
3 für den bestimmten Sprachinhalt in Konfidenzmaß bestimmt. - Nach Schritt S120 schreitet der Verarbeitungsablauf zu Schritt S130 fort.
- In Schritt S130 wird in der Konfidenzeinrichtung
3 bestimmt, ob das bestimmte Konfidenzmaß einen zweiten vorbestimmten Wert überschreitet. - Falls die Antwort in Schritt S130 „JA” ist, schreitet der Verarbeitungsablauf zu Schritt S140 fort. Ansonsten kehrt der Verarbeitungsablauf zu Schritt S100 zurück.
- Genauer gesagt wird, wenn der zweite vorbestimmte Wert überschritten wird, in der Konfidenzeinrichtung
3 ein dieses anzeigendes Triggersignal erzeugt und dieses zu der Lingusitikeinrichtung4 ausgegeben. - In Schritt S140 wird in der Linguistikeinrichtung
4 , wenn das Triggersignal empfangen wird, anhand des von der Erkennungseinrichtung3 in die Linguistikeinrichtung4 eingegebenen Worthypothesegrafen ein Gütemaß bestimmt. - Nach Schritt S140 schreitet der Verarbeitungsablauf zu Schritt S150 fort.
- In Schritt S150 wird bestimmt, ob das Gütemaß einen dritten vorbestimmten Wert überschreitet.
- Falls die Antwort in Schritt S150 „JA” ist, schreitet der Verarbeitungsablauf zu Schritt S160 fort. Ansonsten kehrt der Verarbeitungsablauf zu Schritt S100 zurück.
- In Schritt S160 wird in der Interpretationseinrichtung anhand eines Syntaxbaums, vorzugsweise eines semantisch annotierten Syntaxbaums, der von der Linguistikeinrichtung
4 in die Interpretationseinrichtung5 eingegeben wird, ein Plausibilitätswert bestimmt. - Nach Schritt S160 schreitet der Verarbeitungsablauf zu Schritt S170 fort.
- In Schritt S170 wird in der Interpretationseinrichtung
5 bestimmt, ob der Plausibilitätswert einen vierten vorbestimmten Wert überschreitet. - Falls die Antwort in Schritt S170 „JA” ist, schreitet der Verarbeitungsablauf zu Schritt S180 fort. Ansonsten kehrt der Verarbeitungsablauf zu Schritt S100 zurück.
- In Schritt S180 wird eine Funktion in dem Fahrzeug durchgeführt, die der Sprachäußerung zugeordnet ist, die alle der vorhergehenden Verarbeitungsschritt durchlaufen hat und somit als gültige Sprachäußerung festgelegt worden ist.
- Nach Schritt S180 kehrt der Verarbeitungsablauf zu Schritt S100 zurück und die vorhergehende Verarbeitung beginnt erneut von vorne.
- Es besteht die Möglichkeit, dass einige der vorhergehenden Schritte außerhalb des Fahrzeugs ermittelt werden, wie zum Beispiel online auf einem externen Server. Ein Signal könnte an den externen Server übertragen werden. Der Server gibt ein Ergebnis aus, welches zum Ausführen einer der Sprachäußerung zugeordneten Funktion dient.
- Das zuvor beschriebene System hört ständig auf Spracheingaben des Benutzers und filtert diese nach gültigen Sprachäußerungen, wodurch kein explizites Aktivieren des Systems durch ein Bedienelement oder ähnliches erforderlich ist. Durch die rein sprachliche und permanent mögliche Eingabe von Sprachäußerungen ist eine natürliche, ablenkungsfreie und komfortable Bedienung möglich. Durch das Ermitteln verschiedener Qualitätsmaße werden akustische Signale, wie zum Beispiel Audiosignale durch Gesang oder Nachrichten im Radio, sowie Äußerungen eines Navigationssystems als nicht relevante bzw. ungültige Spracheingaben erkannt.
- Obgleich die vorliegende Erfindung vorhergehend anhand eines Ausführungsbeispiels beschrieben worden ist, versteht es sich, dass verschiedene Ausgestaltungen und Änderungen durchgeführt werden können, ohne den Umfang der vorliegenden Erfindung zu verlassen, wie er in den beiliegenden Ansprüchen definiert ist.
- Bezüglich weiterer Merkmale und Vorteile der vorliegenden Erfindung wird ausdrücklich auf die Offenbarung der Zeichnung verweisen.
- ZITATE ENTHALTEN IN DER BESCHREIBUNG
- Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
- Zitierte Patentliteratur
-
- US 2013/0054235 A1 [0002]
Claims (8)
- Verfahren zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug, das aufweist: Analysieren eines sich aus der Sprachäußerung ergebenden Sprachsignals und Erzeugen eines segmentierten Sprachsignals; Erkennen eines Sprachinhalts aus dem segmentierten Sprachsignal und Bilden eines Worthypothesengraphen aus dem erkannten Sprachinhalt; Bilden eines Worthypothesengrafen aus dem erkannten Sprachinhalt; Bestimmen eines Konfidenzmaßes des erkannten Sprachinhalts, falls bestimmte Stimm-Merkmale in dem segmentierten Sprachsignal beinhaltet sind und ein Energiegehalt des segmentierten Sprachsignals einen ersten vorbestimmten Wert erreicht oder überschritten ist; Bestimmen eines Gütemaßes anhand des Worthypothesengraphen, falls das Konfidenzmaß einen zweiten vorbestimmten Wert überschreitet; Bilden eines Syntaxbaums und Bestimmen eines Plausibilitätswerts, falls das Gütemaß einen dritten vorbestimmten Wert überschreitet; und Aktivieren des Systems und Ausführen einer der Sprachäußerung zugeordneten Funktion, falls der Plausibilitätswert einen vierten vorbestimmten Wert überschreitet.
- Verfahren nach Anspruch 1, wobei das Sprachsignal ein optimiertes Sprachsignal ist, das durch Unterziehen des Sprachsignals mindestens eines eines Beamformings, einer Echokompensation, einer Geräuschschätzung und einer Geräuschreduktion erzielt wird.
- Verfahren nach Anspruch 1 oder 2, wobei der Energiegehalt des segmentierten Sprachsignals ein Energiegehalt ist, der über eine vorbestimmte Zeitdauer bestimmt wird.
- Verfahren nach einem der Ansprüche 1 bis 3, wobei der Syntaxbaum ein semantisch annotierter Syntaxbaum ist.
- Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug, die aufweist: eine erste Einrichtung zum Analysieren eines sich aus der Sprachäußerung ergebenden Sprachsignals und Erzeugen eines segmentierten Sprachsignals; eine zweite Einrichtung zum Erkennen eines Sprachinhalts aus dem segmentierten Sprachsignal und Bilden eines Worthypothesengraphen aus dem erkannten Sprachinhalt; eine dritte Einrichtung zum Bilden eines Worthypothesengrafen aus dem erkannten Sprachinhalt; eine vierte Einrichtung zum Bestimmen eines Konfidenzmaßes des erkannten Sprachinhalts, falls bestimmte Stimm-Merkmale in dem segmentierten Sprachsignal beinhaltet sind und ein Energiegehalt des segmentierten Sprachsignals einen ersten vorbestimmten Wert erreicht oder überschritten ist; eine fünfte Einrichtung zum Bestimmen eines Gütemaßes anhand des Worthypothesengraphen, falls das Konfidenzmaß einen zweiten vorbestimmten Wert überschreitet; eine sechste Einrichtung zum Bilden eines Syntaxbaums und Bestimmen eines Plausibilitätswerts, falls das Gütemaß einen dritten vorbestimmten Wert überschreitet; und eine siebte Einrichtung zum Aktivieren des Systems und Ausführen einer der Sprachäußerung zugeordneten Funktion, falls der Plausibilitätswert einen vierten vorbestimmten Wert überschreitet.
- Verfahren nach Anspruch 5, wobei das Sprachsignal ein optimiertes Sprachsignal ist, das durch Unterziehen des Sprachsignals mindestens eines eines Beamformings, einer Echokompensation, einer Geräuschschätzung und einer Geräuschreduktion erzielt wird.
- Verfahren nach Anspruch 5 oder 6, wobei der Energiegehalt des segmentierten Sprachsignals ein Energiegehalt ist, der über eine vorbestimmte Zeitdauer bestimmt wird.
- Verfahren nach einem der Ansprüche 5 bis 7, wobei der Syntaxbaum ein semantisch annotierter Syntaxbaum ist.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE201310011922 DE102013011922A1 (de) | 2013-07-17 | 2013-07-17 | Verfahren und Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE201310011922 DE102013011922A1 (de) | 2013-07-17 | 2013-07-17 | Verfahren und Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102013011922A1 true DE102013011922A1 (de) | 2015-01-22 |
Family
ID=52131112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE201310011922 Withdrawn DE102013011922A1 (de) | 2013-07-17 | 2013-07-17 | Verfahren und Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102013011922A1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102016005629A1 (de) | 2016-05-06 | 2017-11-09 | Audi Ag | Kraftfahrzeug-Bedienvorrichtung und Verfahren zum Ermitteln zumindest eines Erkennungsergebnisses zu einem Sprachsignal |
DE102016009196A1 (de) | 2016-07-27 | 2018-02-01 | Audi Ag | Verfahren zum Betreiben mehrerer Spracherkenner und Spracherkennungsvorrichtung |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130054235A1 (en) | 2011-08-24 | 2013-02-28 | Sensory, Incorporated | Truly handsfree speech recognition in high noise environments |
-
2013
- 2013-07-17 DE DE201310011922 patent/DE102013011922A1/de not_active Withdrawn
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130054235A1 (en) | 2011-08-24 | 2013-02-28 | Sensory, Incorporated | Truly handsfree speech recognition in high noise environments |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102016005629A1 (de) | 2016-05-06 | 2017-11-09 | Audi Ag | Kraftfahrzeug-Bedienvorrichtung und Verfahren zum Ermitteln zumindest eines Erkennungsergebnisses zu einem Sprachsignal |
DE102016005629B4 (de) | 2016-05-06 | 2020-06-25 | Audi Ag | Kraftfahrzeug-Bedienvorrichtung und Verfahren zum Ermitteln zumindest eines Erkennungsergebnisses zu einem Sprachsignal |
DE102016009196A1 (de) | 2016-07-27 | 2018-02-01 | Audi Ag | Verfahren zum Betreiben mehrerer Spracherkenner und Spracherkennungsvorrichtung |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69725802T2 (de) | Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung | |
DE69938374T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle | |
DE69829235T2 (de) | Registrierung für die Spracherkennung | |
DE112014006542B4 (de) | Einrichtung und Verfahren zum Verständnis von einer Benutzerintention | |
DE112017007005B4 (de) | Akustiksignal-verarbeitungsvorrichtung, akustiksignalverarbeitungsverfahren und freisprech-kommunikationsvorrichtung | |
EP1927980A2 (de) | Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen | |
DE102008024258A1 (de) | Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung | |
DE102009051508A1 (de) | Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und/oder -führung | |
EP1256936A2 (de) | Verfahren zum Training oder zur Adaption eines Spracherkenners | |
DE112015003382T5 (de) | Spracherkennungseinrichtung und Spracherkennungsverfahren | |
DE102017220266B3 (de) | Verfahren zum Überprüfen eines Onboard-Spracherkenners eines Kraftfahrzeugs sowie Steuervorrichtung und Kraftfahrzeug | |
DE112006000322T5 (de) | Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten | |
DE102016125104A1 (de) | Dynamisches umschalten von akustischen modellen zur verbesserung der erkennung verrauschter sprachsignale | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE102015106280B4 (de) | Systeme und Verfahren zum Kompensieren von Sprachartefakten in Spracherkennungssystemen | |
DE102015109758A1 (de) | Verfahren und Systeme zum Anpassen von Sprachsystemen | |
DE102006036338A1 (de) | Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem | |
EP1134726A1 (de) | Verfahren zur Erkennung von Sprachäusserungen nicht-muttersprachlicher Sprecher in einem Sprachverarbeitungssystem | |
EP0987682B1 (de) | Verfahren zur Adaption von linguistischen Sprachmodellen | |
WO2017157684A1 (de) | Fortbewegungsmittel, system und verfahren zur anpassung einer länge einer erlaubten sprechpause im rahmen einer spracheingabe | |
DE60124192T2 (de) | HMM-basierte Erkennung von verrauschter Sprache | |
DE69922769T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung | |
DE102018200088B3 (de) | Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zum Verarbeiten einer Spracheingabe, Kraftfahrzeug und Nutzerendgerät mit einer Sprachverarbeitung | |
DE102018132160A1 (de) | System und verfahren zum verstehen von standardsprache und dialekten | |
DE102013011922A1 (de) | Verfahren und Vorrichtung zum Verarbeiten einer Sprachäußerung eines Benutzers in einem Fahrzeug |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |