DE102006029755A1 - Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung - Google Patents
Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung Download PDFInfo
- Publication number
- DE102006029755A1 DE102006029755A1 DE102006029755A DE102006029755A DE102006029755A1 DE 102006029755 A1 DE102006029755 A1 DE 102006029755A1 DE 102006029755 A DE102006029755 A DE 102006029755A DE 102006029755 A DE102006029755 A DE 102006029755A DE 102006029755 A1 DE102006029755 A1 DE 102006029755A1
- Authority
- DE
- Germany
- Prior art keywords
- recognition
- speech
- grammar
- utterance
- speech signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000001514 detection method Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims 2
- 238000011156 evaluation Methods 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung. Es wird eine Sprachäußerung einer Person erfasst und in ein für eine Spracherkennungseinrichtung zu verarbeitendes Sprachsignal umgewandelt. Danach erfolgt eine Analyse des Sprachsignals parallel oder sequentiell in mehreren Spracherkennungszweigen der Spracherkennungseinrichtung unter Verwendung von mehreren Grammatiken, wobei der Erkennungsprozess erfolgreich beendet wird, falls die Analyse des Sprachsignals in mindestens einem Spracherkennungszweig ein positives Erkennungsergebnis liefert.
Description
- Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung, insbesondere auf Basis eines Spracherkennungssystems, das beispielsweise auf einem elektronischen Datenverarbeitungssystem ausführbar ist.
- Spracherkennungssysteme sind für den Einsatz in unterschiedlichen Anwendungsgebieten vorgesehen. Beispielsweise werden Spracherkennungssysteme in Verbindung mit Büroapplikationen zur Erfassung von Texten oder in Verbindung mit technischen Einrichtungen zu deren Steuerung und Befehlseingabe eingesetzt. Spracherkennungssysteme werden auch zur Steuerung von Informations- und Kommunikationsgeräten wie z.B. Radio, Mobiltelefon und Navigationssystemen eingesetzt. Firmen setzen außerdem Sprachdialogsysteme zur Kundenberatung und -information ein, die ebenfalls auf Spracherkennungssystemen basieren. Auf diese letzteren ist die Patentanmeldung bezogen.
- Dabei werden bei der automatischen Spracherkennung zur Bewertung von Wortfolgen so genannte Sprachmodelle eingesetzt, die auf einem grammatischen Regelwerk, auch bezeichnet als Grammatik oder Grammar, basieren. Die Grammatiken definieren eindeutige Satzregeln. Auf Grammatiken basierende Spracherkennungssysteme weisen eine hohe Erkennungssicherheit auf.
- Insbesondere bei der Kundenberatung im technischen Bereich, beispielsweise in Verbindung mit Mobiltelefonen und Tarifen, werden immer leistungsfähigere Spracherkennungssysteme gefordert. Um die zahlreichen Kundenäußerungen zu verstehen, bedarf es sehr großer Grammatiken, deren Umfang zu Lasten der Erkennungssicherheit geht.
- Jeder automatisierte Spracherkennungsprozess basiert auf dem Abgleich einer konkreten Anruferäußerung mit hinterlegten Wörtern oder Aussagen. Nur im Fall einer Übereinstimmung gilt eine Äußerung als erkannt und kann eine festgelegte Aktion auslösen. Hieraus ergibt sich jedoch ein „Grammar Dilemma": Kleine Grammatiken haben einen geringen Erkennungsumfang, dafür jedoch eine bessere Erkennungssicherheit. Große Grammatiken decken umgekehrt ein großes Aussagenspektrum ab, während die Erkennungssicherheit sinkt.
- Die Aufgabe der Erfindung liegt deshalb darin, ein Spracherkennungsverfahren und -system mit einem großen Erkennungsumfang bei geringem Umfang der Grammatik zu realisieren. Gesucht ist mithin ein Grammatikmodell, das die positiven Aspekte von großen und kleinen Grammatiken nutzt, ohne deren negativen Aspekte zu implizieren.
- Diese Aufgabe wird erfindungsgemäß durch eine Verfahren und eine Vorrichtung mit den Merkmalen der unabhängigen Patentansprüche gelöst.
- Bevorzugte Ausgestaltungen und weitere vorteilhafte Merkmale der Erfindung ergeben sich aus den Unteransprüchen.
- Das erfindungsgemäße Verfahren beruht auf der Erfassung einer Sprachäußerung einer Person und Umwandlung in ein für eine Spracherkennungseinrichtung zu verarbeitendes Sprachsignal, der Analyse des Sprachsignals parallel oder sequentiell in mehreren Spracherkennungszweigen der Spracherkennungseinrichtung unter Verwendung von mehreren Grammatiken, und dem erfolgreichen Beenden des Erkennungsprozesses, falls die Analyse des Sprachsignals in mindestens einem Spracherkennungszweig ein positives Erkennungsergebnis liefert.
- In einer ersten Ausgestaltung der Erfindung erfolgt eine simultane Analyse der Sprachäußerung durch zwei oder mehrere unabhängige Grammatiken. In diesem Fall werden durch die Sprachäußerung einer Person zwei oder mehrere gleichzeitige Erkennungsprozesse angestoßen, welche die Sprachäußerung unabhängig voneinander analysieren und bewerten. Beispielsweise wird hier einer vergleichsweise kleinen Hauptgrammatik mit einem geringen Erkennungsumfang, eine umfassendere Nebengrammatik mit einem erweiterten Erkennungsumfang an die Seite gestellt. Beide Grammatiken sind ohne gemeinsame Schnittmenge.
- Eine zweite Ausgestaltung der Erfindung betrifft eine Grammatikkaskade. Bei diesem Modell kommen unterschiedliche Grammatiken nacheinander, also sequentiell, zum Einsatz. In dem Moment, in dem eine Grammatik ein Erkennungsergebnis liefert, wird die Kaskade verlassen und der Erkennungsprozess beendet. Bei diesem Verfahren werden 100% aller zu erkennenden Äußerungen mit der ersten Grammatik verglichen. Je nach Leistungsfähigkeit und Gestaltung dieser Grammatik wird ein Anteil von beispielsweise 20% von nicht erkannten Äußerungen an eine zweite Erkennungsstufe weiter gereicht. Für den Fall dass eine dritte Erkennungsstufe eingebaut wird, kann davon ausgegangen werden, dass ein Anteil von beispielsweise 5% aller eingehenden Äußerungen diese dritte Erkennungsstufe erreicht.
- Mit beiden Erkennungsverfahren soll ein umfangreiches Aussagenspektrum mit mehreren „kleineren" Grammatiken abgedeckt werden, die in Kombination dennoch eine große Erkennungssicherheit garantieren. Dieses kann wie oben beschrieben in Form eines simultanen oder eines sukzessiven Erkennungsverfahrens geschehen.
- Die beiden bevorzugten Ausführungsbeispiele der Erfindung werden nachfolgend anhand der Zeichnungen beschrieben.
-
1 zeigt schematisch eine erste Ausgestaltung des Spracherkennungssystems mit parallel arbeitenden Spracherkennungszweigen. -
2 zeigt schematisch eine zweite Ausgestaltung des Spracherkennungssystems mit sequentiell arbeitenden, kaskadierten Spracherkennungszweigen. - Gemäß
1 wird ein Sprachäußerung einer Person, die als Sprachsignal10 vorliegt, gleichzeitig zwei Spracherkennungszweigen zugeführt und durch zwei Grammatiken12 und14 (Grammatik A und Grammatik B) analysiert. Die beiden Grammatiken12 ,14 haben keine gemeinsame Schnittmenge, das heißt, sie basieren auf unterschiedlichen Regelwerken. Durch die parallele Verarbeitung des Sprachsignals erhöhen sich der Analyseaufwand und damit die notwendige Rechnerlast bei Anwendung des Verfahrens auf einem Computer. Dieser Umstand wird aber durch die schnellere Erkennung und wesentlich verbesserte Erkennungssicherheit aufgewogen. - Ein Vergleich
16 des Sprachsignals mit der Grammatik (A)12 führt entweder zu einem positiven Erkennungsergebnis (Ja) oder einem negativen Erkennungsergebnis (Nein). Ebenso führt ein Vergleich18 des Sprachsignals mit der Grammatik (B)14 entweder zu einem positiven Erkennungsergebnis (Ja) oder einem negativen Erkennungsergebnis (Nein). - Im Rahmen des Erkennungsprozesses mit den simultan arbeitenden Grammatiken
12 ,14 ergeben sich vier mögliche Erkennungsfälle, die mit unterschiedlichen Verfahren durch eine Logik20 ausgewertet werden können. -
Erkennungsfall Grammatik 1 (Hauptgrammatik) Grammatik 2 (Nebengrammatik) Gesamtergebnis 1 Kein Ergebnis (Nein) Kein Ergebnis (Nein) Nicht erkannt 2 Ergebnis (Ja) Kein Ergebnis (Nein) Erkannt 3 Kein Ergebnis (Nein) Ergebnis (Ja) Erkannt 4 Ergebnis (Ja) Ergebnis (Ja) Erkannt - Die Erkennungsfälle 1 bis 3 sind insofern unproblematisch, als sie eindeutige Ergebnisse liefern: Fall 1 erzwingt ein Nicht-Erkennen des Sprachsignals und damit eine Zurückweisung, Position
24 . Die Fälle 2 und 3 liefern nur jeweils ein positives Ergebnis und zeigen damit eindeutig ein Erkennen des Sprachsignals an, Position22 . - Für den Fall 4, bei dem beide Grammatiken
12 ,14 das Sprachsignal10 erkannt haben, muss demgegenüber eine spezielle Verfahrenslogik implementiert werden, da das Ergebnis nicht eindeutig ist. Diese kann starr zugunsten von Grammatik12 entscheiden, an der Erkennungssicherheit (Confidence Level) orientiert sein oder eine Mischform aus beiden bilden (z.B.: Ergebnis aus Grammatik14 wird nur verwendet, wenn Erkennungssicherheit um einen vorgegebenen Wert höher ist als bei Grammatik12 ). - Anstelle von zwei parallelen Spracherkennungszweigen können erfindungsgemäß auch drei oder mehr parallel arbeitende Spracherkennungszweige vorgesehen sein.
-
2 zeigt eine andere bevorzugte Ausgestaltung der Erfindung. Hier sind mehrere Grammatiken12 ,14 und26 (Grammatiken A, B und C) sequentiell in Form einer Kaskade miteinander verbunden. Das heißt, bei der Grammatikkaskade werden die verschiedenen Grammatiken12 ,14 und26 nicht simultan, sondern sukzessiv angesprochen. Schematisch lässt sich der Erkennungsvorgang wie folgt darstellen: In dem Moment, in dem eine Grammatik ein positives Erkennungsergebnis liefert, wird die Kaskade verlassen und der Erkennungsprozess beendet, Position22 . - Das Sprachsignal
10 wird zunächst einer ersten Grammatik (A)12 zugeführt und dort analysiert. Ein Vergleich16 des Sprachsignals mit der Grammatik (A)12 führt entweder zu einem positiven Erkennungsergebnis (Ja), bei dem der Erkennungsprozess erfolgreich beendet wird, oder einem negativen Erkennungsergebnis (Nein), bei dem das Sprachsignal zur weiteren Analyse einer zweiten Grammatik (B)14 zugeführt wird. Ein Vergleich18 des Sprachsignals10 mit der zweiten Grammatik (B)14 führt entweder zu einem positiven Erkennungsergebnis (Ja), bei dem der Erkennungsprozess erfolgreich beendet wird, oder einem negativen Erkennungsergebnis (Nein), bei dem das Sprachsignal zur weiteren Analyse einer dritten Grammatik (C)26 zugeführt wird. Ein Vergleich28 des Sprachsignals mit der dritten Grammatik (C)26 führt entweder zu einem positiven Erkennungsergebnis (Ja), bei dem der Erkennungsprozess erfolgreich beendet wird, oder einem negativen Erkennungsergebnis (Nein), bei dem das Sprachsignal als nicht erkannt zurückgewiesen wird, Position24 . - Bei diesen Verfahren werden zunächst 100% aller eingehenden Sprachsignale
10 mit der ersten Grammatik12 verglichen. Je nach Leistungsfähigkeit und Gestaltung dieser Grammatik, wird ein Teil der Sprachäußerungen nicht erkannt. Diese nicht erkannten Sprachsignale werden daraufhin an die zweite Erkennungsstufe weiter gereicht. Je nach Leistungsfähigkeit und Gestaltung der zweiten Erkennungsstufe, wird wiederum ein Teil der Sprachäußerungen nicht erkannt. Diese nicht erkannten Sprachsignale werden daraufhin an die dritte Erkennungsstufe weiter gereicht. - Der Vorzug der Grammatikkaskade gegenüber dem Verfahren der simultanen Erkennung durch mehrere Grammatiken liegt darin, dass es keine zusätzliche Rechnerlast gibt, da das Sprachsignal
10 zu jedem Zeitpunkt nur mit einer Grammatik abgeglichen wird. Durch die sukzessive Erkennung wird es jedoch notwendigerweise zu einer Steigerung der Latenzzeiten im System kommen. - Anstelle von drei kaskadierten Spracherkennungszweigen können erfindungsgemäß auch vier oder mehr sequentiell arbeitende Spracherkennungszweige vorgesehen sein.
-
- 10
- Sprachsignal
- 12
- Grammatik A
- 14
- Grammatik B
- 18
- Verzweigung A
- 20
- Verzeigung B
- 22
- Erkennung erfolgreiche
- 24
- Erkennung nicht erfolgreich
- 26
- Grammatik C
- 28
- Verzweigung C
Claims (11)
- Verfahren zur natürlichsprachlichen Erkennung einer Sprachäußerung, mit den Schritten: – Erfassen der Sprachäußerung und Umwandeln in ein für eine Spracherkennungseinrichtung zu verarbeitendes Sprachsignal (
10 ), – Analysieren des Sprachsignals (10 ) parallel oder sequentiell in mehreren Spracherkennungszweigen der Spracherkennungseinrichtung unter Verwendung von mehreren Grammatiken (12 ,14 ,26 ), und – erfolgreiches Beenden des Erkennungsprozesses der Sprachäußerung, falls die Analyse des Sprachsignals in mindestens einem Spracherkennungszweig ein positives Erkennungsergebnis liefert. - Verfahren nach Anspruch 1, gekennzeichnet durch die Schritte: a) Zuführen des Sprachsignals (
10 ) zu mindestens einem ersten Spracherkennungszweig umfassend eine erste Grammatik (12 ) zur Analyse des Sprachsignals, und gleichzeitig zu einem zweiten Spracherkennungszweig umfassend eine zweite Grammatik (14 ) zur Analyse des Sprachsignals, b) Analyse des Sprachsignals durch die erste Grammatik (12 ), wobei im Fall einer Erkennung der Sprachäußerung ein positives erstes Erkennungsergebnis und im Fall einer Nicht-Erkennung der Sprachäußerung ein negatives erstes Erkennungsergebnis erzeugt wird, (c) Analyse des Sprachsignals durch die zweite Grammatik (14 ), wobei im Fall einer Erkennung der Sprachäußerung ein positives zweites Erkennungsergebnis und im Fall einer Nicht-Erkennung der Sprachäußerung ein negatives zweites Erkennungsergebnis erzeugt wird, (d) Treffen einer Entscheidung über die erfolgreiche Erkennung der Sprachäußerung anhand einer Auswertung des ersten und des zweiten Erkennungsergebnisses. - Verfahren nach Anspruch 1, gekennzeichnet durch die Schritte: (a) Zuführen des Sprachsignals (
10 ) zu einem ersten Spracherkennungszweig umfassend eine erste Grammatik (12 ) zur Analyse des Sprachsignals, (b) Analyse des Sprachsignals (10 ) durch die erste Grammatik (12 ), wobei im Fall einer Erkennung der Sprachäußerung ein positives erstes Erkennungsergebnis erzeugt wird und der Erkennungsprozess beendet wird, und im Fall einer Nicht-Erkennung der Sprachäußerung ein negatives erstes Erkennungsergebnis erzeugt wird, (c) wobei im Fall eines negativen Erkennungsergebnisses, das Sprachsignals einem weiteren Spracherkennungszweig umfassend eine weitere Grammatik (14 ) zugeführt wird, (d) Analyse des Sprachsignals (10 ) durch die weitere Grammatik (14 ), wobei im Fall einer Erkennung der Sprachäußerung ein positives Erkennungsergebnis erzeugt wird und der Erkennungsprozess beendet wird, und im Fall einer Nicht-Erkennung der Sprachäußerung ein negatives Erkennungsergebnis erzeugt wird, (e) wobei im Fall eines negativen Erkennungsergebnisses, mit Schritt (c) fortgefahren wird, solange bis die Grammatiken (26 ) aller vorhandenen Spracherkennungszweige durchlaufen wurden. - Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die Regelwerke der Grammatiken (
12 ,14 ,26 ) keine gemeinsame Schnittmenge aufweisen. - Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die Regelwerke der Grammatiken (
12 ,14 ,26 ) keine gemeinsame Schnittmenge aufweisen. - Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass eine erste Grammatik (
12 ) häufig vorkommende Sprachäußerungen, eine zweite Grammatik (14 ) weniger häufig vorkommende Sprachäußerungen, und jede weitere Grammatik (26 ) noch weniger häufig vorkommende Sprachäußerungen analysiert. - Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass wenn sowohl das erste als auch das zweite Erkennungsergebnis positiv ist, das von der ersten Grammatik (
12 ) gelieferte Erkennungsergebnis verwendet wird. - Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass wenn sowohl das erste als auch das zweite Erkennungsergebnis positiv ist, dasjenige Erkennungsergebnis verwendet wird, dessen Erkennungssicherheit am größten ist.
- Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung, welche umfasst: Mittel (
10 ) zur Erfassung der Sprachäußerung und zum Umwandeln in ein für eine Spracherkennungseinrichtung zu verarbeitendes Sprachsignal, eine Spracherkennungseinrichtung mit mehreren Spracherkennungszweigen, wobei jeder Spracherkennungszweig eine Grammatik (12 ;14 ;26 ) zur Analyse des Sprachsignals (10 ) aufweist, wobei das Sprachsignal den Spracherkennungszweigen parallel oder sequentiell zugeführt wird, und Mittel (20 ;22 ,24 ) zur Steuerung und Auswertung des Erkennungsprozesses, in Abhängigkeit des Erkennungsergebnisses von mindestens einem Spracherkennungszweig. - Computerprogramm mit einem Programmcode, der auf einem Computer ausgeführt ein Verfahren nach einem der Ansprüche 1 bis 8 durchführt.
- Computerprogrammprodukt, das einen auf einem Computer ausführbaren Programmcode zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 8 umfasst.
Priority Applications (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102006029755A DE102006029755A1 (de) | 2006-06-27 | 2006-06-27 | Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung |
CA2656114A CA2656114C (en) | 2006-06-27 | 2007-06-14 | Method and device for the natural language recognition of a vocal expression |
US12/306,350 US9208787B2 (en) | 2006-06-27 | 2007-06-14 | Method and device for the natural-language recognition of a vocal expression |
CN2007800246599A CN101484934B (zh) | 2006-06-27 | 2007-06-14 | 语言表达的自然语言识别方法和装置 |
RU2009102507/09A RU2432623C2 (ru) | 2006-06-27 | 2007-06-14 | Способ и устройство для естественно-речевого распознавания речевого высказывания |
BRPI0713987-0A BRPI0713987A2 (pt) | 2006-06-27 | 2007-06-14 | processo e dispositivo para o reconhecimento da voz natural em uma manifestaÇço de voz |
KR1020097001732A KR20090033459A (ko) | 2006-06-27 | 2007-06-14 | 음성 표현의 자연어 인지 방법 및 장치 |
PCT/EP2007/005224 WO2008000353A1 (de) | 2006-06-27 | 2007-06-14 | Verfahren und vorrichtung zur natürlichsprachlichen erkennung einer sprachäusserung |
EP07764643A EP2036078A1 (de) | 2006-06-27 | 2007-06-14 | Verfahren und vorrichtung zur natürlichsprachlichen erkennung einer sprachäusserung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102006029755A DE102006029755A1 (de) | 2006-06-27 | 2006-06-27 | Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102006029755A1 true DE102006029755A1 (de) | 2008-01-03 |
Family
ID=38543007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102006029755A Ceased DE102006029755A1 (de) | 2006-06-27 | 2006-06-27 | Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung |
Country Status (9)
Country | Link |
---|---|
US (1) | US9208787B2 (de) |
EP (1) | EP2036078A1 (de) |
KR (1) | KR20090033459A (de) |
CN (1) | CN101484934B (de) |
BR (1) | BRPI0713987A2 (de) |
CA (1) | CA2656114C (de) |
DE (1) | DE102006029755A1 (de) |
RU (1) | RU2432623C2 (de) |
WO (1) | WO2008000353A1 (de) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102008025532A1 (de) * | 2008-05-28 | 2009-12-10 | Audi Ag | Kommunikationssystem und Verfahren zum Durchführen einer Kommunikation zwischen einem Nutzer und einer Kommunikationseinrichtung |
DE102010040553A1 (de) * | 2010-09-10 | 2012-03-15 | Siemens Aktiengesellschaft | Spracherkennungsverfahren |
DE102010049869A1 (de) * | 2010-10-28 | 2012-05-03 | Volkswagen Ag | Verfahren zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug und Vorrichtung dazu |
US8195461B2 (en) | 2006-12-15 | 2012-06-05 | Mitsubishi Electric Corporation | Voice recognition system |
WO2015142769A1 (en) * | 2014-03-19 | 2015-09-24 | Microsoft Technology Licensing, Llc | Incremental utterance decoder combination for efficient and accurate decoding |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9093076B2 (en) | 2012-04-30 | 2015-07-28 | 2236008 Ontario Inc. | Multipass ASR controlling multiple applications |
US9431012B2 (en) | 2012-04-30 | 2016-08-30 | 2236008 Ontario Inc. | Post processing of natural language automatic speech recognition |
US9601111B2 (en) * | 2012-11-13 | 2017-03-21 | GM Global Technology Operations LLC | Methods and systems for adapting speech systems |
EP2733697A1 (de) * | 2012-11-16 | 2014-05-21 | QNX Software Systems Limited | Anwendungsdienst-Schnittstelle zu ASR |
US9135916B2 (en) * | 2013-02-26 | 2015-09-15 | Honeywell International Inc. | System and method for correcting accent induced speech transmission problems |
KR101370539B1 (ko) * | 2013-03-15 | 2014-03-06 | 포항공과대학교 산학협력단 | 지시 표현 처리에 기반한 대화 처리 방법 및 장치 |
US10186262B2 (en) * | 2013-07-31 | 2019-01-22 | Microsoft Technology Licensing, Llc | System with multiple simultaneous speech recognizers |
EP2851896A1 (de) | 2013-09-19 | 2015-03-25 | Maluuba Inc. | Spracherkennung unter Verwendung von Phonemanpassung |
US9698999B2 (en) * | 2013-12-02 | 2017-07-04 | Amazon Technologies, Inc. | Natural language control of secondary device |
US9601108B2 (en) | 2014-01-17 | 2017-03-21 | Microsoft Technology Licensing, Llc | Incorporating an exogenous large-vocabulary model into rule-based speech recognition |
US10749989B2 (en) | 2014-04-01 | 2020-08-18 | Microsoft Technology Licensing Llc | Hybrid client/server architecture for parallel processing |
CN113259736B (zh) * | 2021-05-08 | 2022-08-09 | 深圳市康意数码科技有限公司 | 一种语音控制电视机的方法及电视机 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000014728A1 (en) * | 1998-09-09 | 2000-03-16 | One Voice Technologies, Inc. | Network interactive user interface using speech recognition and natural language processing |
WO2001078065A1 (en) * | 2000-04-06 | 2001-10-18 | One Voice Technologies, Inc. | Natural language and dialogue generation processing |
DE102005030967A1 (de) * | 2005-06-30 | 2007-01-04 | Daimlerchrysler Ag | Verfahren und Vorrichtung zur Interaktion mit einem Spracherkennungssystem zur Auswahl von Elementen aus Listen |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6249761B1 (en) * | 1997-09-30 | 2001-06-19 | At&T Corp. | Assigning and processing states and arcs of a speech recognition model in parallel processors |
DE19910234A1 (de) * | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren mit mehreren Spracherkennern |
US6526380B1 (en) * | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
US7058573B1 (en) * | 1999-04-20 | 2006-06-06 | Nuance Communications Inc. | Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes |
JP4465564B2 (ja) * | 2000-02-28 | 2010-05-19 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
AU2001259446A1 (en) * | 2000-05-02 | 2001-11-12 | Dragon Systems, Inc. | Error correction in speech recognition |
US7464033B2 (en) * | 2000-07-31 | 2008-12-09 | Texas Instruments Incorporated | Decoding multiple HMM sets using a single sentence grammar |
JP2002116796A (ja) * | 2000-10-11 | 2002-04-19 | Canon Inc | 音声処理装置、音声処理方法及び記憶媒体 |
WO2005122401A2 (en) * | 2004-06-04 | 2005-12-22 | Keyless Systems Ltd | Systems to enhance data entry in mobile and fixed environment |
US20020107695A1 (en) * | 2001-02-08 | 2002-08-08 | Roth Daniel L. | Feedback for unrecognized speech |
US6964020B1 (en) * | 2001-02-22 | 2005-11-08 | Sprint Communications Company L.P. | Method and system for facilitating construction of a canned message in a microbrowser environment |
US7072837B2 (en) * | 2001-03-16 | 2006-07-04 | International Business Machines Corporation | Method for processing initially recognized speech in a speech recognition session |
FR2832524A1 (fr) * | 2001-11-22 | 2003-05-23 | Cegetel Groupe | Procede de gestion d'un document principal |
US6898567B2 (en) * | 2001-12-29 | 2005-05-24 | Motorola, Inc. | Method and apparatus for multi-level distributed speech recognition |
US7177814B2 (en) * | 2002-02-07 | 2007-02-13 | Sap Aktiengesellschaft | Dynamic grammar for voice-enabled applications |
US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
US7184957B2 (en) * | 2002-09-25 | 2007-02-27 | Toyota Infotechnology Center Co., Ltd. | Multiple pass speech recognition method and system |
US20040158468A1 (en) * | 2003-02-12 | 2004-08-12 | Aurilab, Llc | Speech recognition with soft pruning |
EP1599867B1 (de) * | 2003-03-01 | 2008-02-13 | Robert E. Coifman | Verbesserung der transkriptionsgenauigkeit von spracherkennungssoftware |
US7603267B2 (en) * | 2003-05-01 | 2009-10-13 | Microsoft Corporation | Rules-based grammar for slots and statistical model for preterminals in natural language understanding system |
US7647645B2 (en) * | 2003-07-23 | 2010-01-12 | Omon Ayodele Edeki | System and method for securing computer system against unauthorized access |
JP4574390B2 (ja) * | 2005-02-22 | 2010-11-04 | キヤノン株式会社 | 音声認識方法 |
JP2007057844A (ja) * | 2005-08-24 | 2007-03-08 | Fujitsu Ltd | 音声認識システムおよび音声処理システム |
US8688451B2 (en) * | 2006-05-11 | 2014-04-01 | General Motors Llc | Distinguishing out-of-vocabulary speech from in-vocabulary speech |
-
2006
- 2006-06-27 DE DE102006029755A patent/DE102006029755A1/de not_active Ceased
-
2007
- 2007-06-14 CA CA2656114A patent/CA2656114C/en not_active Expired - Fee Related
- 2007-06-14 RU RU2009102507/09A patent/RU2432623C2/ru active
- 2007-06-14 US US12/306,350 patent/US9208787B2/en not_active Expired - Fee Related
- 2007-06-14 CN CN2007800246599A patent/CN101484934B/zh not_active Expired - Fee Related
- 2007-06-14 BR BRPI0713987-0A patent/BRPI0713987A2/pt not_active Application Discontinuation
- 2007-06-14 KR KR1020097001732A patent/KR20090033459A/ko not_active Application Discontinuation
- 2007-06-14 EP EP07764643A patent/EP2036078A1/de not_active Withdrawn
- 2007-06-14 WO PCT/EP2007/005224 patent/WO2008000353A1/de active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000014728A1 (en) * | 1998-09-09 | 2000-03-16 | One Voice Technologies, Inc. | Network interactive user interface using speech recognition and natural language processing |
DE69923191T2 (de) * | 1998-09-09 | 2006-01-05 | One Voice Technologies Inc., San Diego | Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem |
WO2001078065A1 (en) * | 2000-04-06 | 2001-10-18 | One Voice Technologies, Inc. | Natural language and dialogue generation processing |
DE102005030967A1 (de) * | 2005-06-30 | 2007-01-04 | Daimlerchrysler Ag | Verfahren und Vorrichtung zur Interaktion mit einem Spracherkennungssystem zur Auswahl von Elementen aus Listen |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8195461B2 (en) | 2006-12-15 | 2012-06-05 | Mitsubishi Electric Corporation | Voice recognition system |
DE112007002665B4 (de) * | 2006-12-15 | 2017-12-28 | Mitsubishi Electric Corp. | Spracherkennungssystem |
DE102008025532A1 (de) * | 2008-05-28 | 2009-12-10 | Audi Ag | Kommunikationssystem und Verfahren zum Durchführen einer Kommunikation zwischen einem Nutzer und einer Kommunikationseinrichtung |
DE102008025532B4 (de) * | 2008-05-28 | 2014-01-09 | Audi Ag | Kommunikationssystem und Verfahren zum Durchführen einer Kommunikation zwischen einem Nutzer und einer Kommunikationseinrichtung |
DE102010040553A1 (de) * | 2010-09-10 | 2012-03-15 | Siemens Aktiengesellschaft | Spracherkennungsverfahren |
DE102010049869A1 (de) * | 2010-10-28 | 2012-05-03 | Volkswagen Ag | Verfahren zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug und Vorrichtung dazu |
DE102010049869B4 (de) | 2010-10-28 | 2023-03-16 | Volkswagen Ag | Verfahren zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug und Vorrichtung dazu |
WO2015142769A1 (en) * | 2014-03-19 | 2015-09-24 | Microsoft Technology Licensing, Llc | Incremental utterance decoder combination for efficient and accurate decoding |
US9552817B2 (en) | 2014-03-19 | 2017-01-24 | Microsoft Technology Licensing, Llc | Incremental utterance decoder combination for efficient and accurate decoding |
US9922654B2 (en) | 2014-03-19 | 2018-03-20 | Microsoft Technology Licensing, Llc | Incremental utterance decoder combination for efficient and accurate decoding |
CN111785263A (zh) * | 2014-03-19 | 2020-10-16 | 微软技术许可有限责任公司 | 用于高效且精确译码的增量言语译码器组合 |
Also Published As
Publication number | Publication date |
---|---|
BRPI0713987A2 (pt) | 2012-11-20 |
EP2036078A1 (de) | 2009-03-18 |
US9208787B2 (en) | 2015-12-08 |
CN101484934B (zh) | 2013-01-02 |
CN101484934A (zh) | 2009-07-15 |
RU2009102507A (ru) | 2010-08-10 |
KR20090033459A (ko) | 2009-04-03 |
WO2008000353A1 (de) | 2008-01-03 |
US20100114577A1 (en) | 2010-05-06 |
CA2656114C (en) | 2016-02-09 |
CA2656114A1 (en) | 2008-01-03 |
RU2432623C2 (ru) | 2011-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102006029755A1 (de) | Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung | |
DE69831991T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
DE3236832C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE3236834C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE2536640C3 (de) | Anordnung zur Erkennung von Geräuschen | |
DE60111329T2 (de) | Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung | |
DE2953262C2 (de) | ||
EP0987683B1 (de) | Spracherkennungsverfahren mit Konfidenzmassbewertung | |
EP1927980A2 (de) | Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen | |
DE60310687T2 (de) | Verfahren zur beschleunigung der durchführung von spracherkennung mit neuralen netzwerken, sowie entsprechende vorrichtung | |
EP1214703B1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
DE2659083A1 (de) | Verfahren und vorrichtung zur sprechererkennung | |
EP0836175A2 (de) | Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal | |
DE69033051T2 (de) | Grammatische Kontrollsummezwänge für eine Spracherkennungsschaltung mit hoher Leistungsfähigkeit | |
DE3711342A1 (de) | Verfahren zum erkennen zusammenhaengend gesprochener woerter | |
EP2034472B1 (de) | Spracherkennungsverfahren und Spracherkennungsvorrichtung | |
EP1231596A9 (de) | Trainingsmethode von den freien Parameten eines Maximum-Entropie-Sprachmodells | |
DE102013224382A1 (de) | Beschleunigte Objekterkennung in einem Bild | |
DE69331035T2 (de) | Zeichenerkennungssystem | |
DE69621674T2 (de) | Trainingssystem für Referenzmuster und dieses Trainingssystem benutzendes Spracherkennungssystem | |
DE2456210C2 (de) | Verfahren und Einrichtungen zur Erkennung von Mustern | |
DE10308611A1 (de) | Ermittlung der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung | |
EP1406244B1 (de) | Voice Activity Detection auf Basis von unüberwacht trainierten Clusterverfahren |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8131 | Rejection |