AT414283B - Verfahren zur optimierung von spracherkennungsprozessen - Google Patents
Verfahren zur optimierung von spracherkennungsprozessen Download PDFInfo
- Publication number
- AT414283B AT414283B AT20252003A AT20252003A AT414283B AT 414283 B AT414283 B AT 414283B AT 20252003 A AT20252003 A AT 20252003A AT 20252003 A AT20252003 A AT 20252003A AT 414283 B AT414283 B AT 414283B
- Authority
- AT
- Austria
- Prior art keywords
- subset
- words
- determined
- recognition process
- hypotheses
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 40
- 238000005457 optimization Methods 0.000 claims description 5
- 238000010438 heat treatment Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
- G10L2015/0636—Threshold criteria for the updating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Description
2
AT 414 283 B
Technisches Gebiet
Die Erfindung betrifft ein Verfahren zur Optimierung von Spracherkennungsprozessen, bei dem bei jedem Erkennungsvorgang zu jedem Wort der Gesamtmenge der von dem Spracherken-5 nungsprozess erfassten Wörter eine Trefferwahrscheinlichkeits - Hypothese ermittelt wird und bei dem aus der Gesamtmenge eine erste Teilmenge ausgewählt wird, welche einen in der augenblicklichen Situation für diesen Erkennungsvorgang zulässigen Wortschatz umfasst.
Stand der Technik 10
Beim Einsatz automatischer Spracherkennungssysteme, beispielsweise zur Umwandlung gesprochener Kommandos in elektrische Steuerungsbefehle, wird der Anwender mit dem Problem konfrontiert, dass der Erkennungsvorgang mit einer bestimmten Wahrscheinlichkeit fehlerhafte Ergebnisse liefern wird. Zu diesen fehlerhaften Ergebnissen gehören: das Verwechseln von 15 Befehlen, das fälschliche Rückweisen von Befehlen und das fälschliche Akzeptieren von Störsignalen als Befehle.
Die jeweiligen Wahrscheinlichkeiten für ein Auftreten eines der genannten Fehler hängen voneinander ab, eine geringe Falschrückweisungsrate bedingt meist eine hohe Falschakzeptanzra-20 te und oft auch eine höhere Verwechslungsrate, umgekehrt führt die Forderung nach einer geringen Falschakzeptanzrate auch zu einer höheren Falschrückweisungsrate.
Je nach Anwendungsfall soll nun das Verhältnis der genannten Fehlerarten zueinander optimiert werden. So besteht insbesondere bei Steuerungsaufgaben in lauter Umgebung die Forde-25 rung, dass lediglich Kommandos des Benutzers zu einem Steuerungsbefehl führen und die Umgebungsgeräusche mit hoher Zuverlässigkeit zurückgewiesen werden. Hier wird im Interesse einer geringen Falschakzeptanzwahrscheinlichkeit auch eine höhere Falschrückweisungsrate akzeptiert während bei anderen Anwendungen, bei denen der Komfort des Benutzers im Vordergrund steht, die Falschrückweisungsrate niedrig sein soll und dafür eine höhere Falsch-30 akzeptanzrate in Kauf genommen wird.
Derartige Spracherkennungssysteme sind beispielsweise aus der DE 100 10 232 A1 bekannt. Diese Schrift beschreibt ein Spracherkennungsverfahren, bei dem ein gesprochener Satz mit vorbestimmten Sätzen eines besonderen Vokabulars verglichen wird, um den Satz dieses 35 Vokabulars zu ermitteln, der phonetisch dem zu erkennenden Satz am ähnlichsten ist. Damit ist dieses Verfahren besonders auf die Bedürfnisse beim automatisierten Lehren einer Fremdsprache abgestimmt.
Aus der US 2002/0087307 A1 ist weiterhin ein Spracherkennungsverfahren bekannt, bei dem 40 der Spracherkennungsvorgang zweifach durchgeführt wird, wobei verschiedene Umgebungsgeräuschmodelle angewendet werden. Die beiden Ergebnisse werden dann miteinander verglichen und die übereinstimmenden Treffer weiterverarbeitet.
Darstellung der Erfindung 45
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben, mit dem die Eigenschaften eines Spracherkennungsverfahrens hinsichtlich seiner Fehlerarten anwendungsbezogen optimiert werden können. so Erfindungsgemäß wird diese Aufgabe gelöst mit einem Verfahren der eingangs genannten Art, bei dem eine zweite Teilmenge von Wörtern ausgewählt wird, welche den Wortschatz der ersten Teilmenge und zusätzliche zufällig ausgewählte Wörter der Gesamtmenge umfasst und bei dem die zu den Wörtern der zweiten Teilmenge gebildeten Hypothesen nach der ermittelten Trefferwahrscheinlichkeit gereiht werden und aus einer vorbestimmten Anzahl der erstgereihten 55 Hypothesen der wahrscheinlichste Treifer ermittelt wird. 3
AT 414 283 B
Die Erfindung ermöglicht den optimierten Einsatz eines Spracherkennungssystems mit einer konstanten Erkennungsrate. Durch die geeignete Wahl der zweiten Teilmenge und der Anzahl der erstgereihten Hypothesen kann das Verhältnis der oben genannten Fehlerarten jeder Situation angepasst werden. 5
Vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Unteransprüchen. Günstig ist es dabei insbesondere, wenn die Größe der zweiten Teilmenge und die Anzahl der erstgereihten Hypothesen, aus denen der wahrscheinlichste Treffer ermittelt wird, mittels Opti-io mierungsverfahren für jeden Erkennungsvorgang festgelegt wird.
Vorteilhaft ist es weiterhin, wenn für jeden Erkennungsvorgang ein eigenes Optimierungskriterium gewählt wird. 15 Günstig ist es auch, wenn eines der Wörter jeder Menge nicht einem Befehl, sondern der Gesamtheit der möglichen Störsignale entspricht.
Kurzbeschreibung der Zeichnung 20 Die Erfindung wird anhand einer Figur näher erläutert, welche die wesentlichen Formeln der mathematischen Grundlagen des erfindungsgemäßen Verfahrens darstellt.
Ausführung der Erfindung 25 Nach dem Stand der Technik wird bei einem Verfahren zur Optimierung von Spracherkennungsprozessen bei jedem Erkennungsvorgang zu jedem Wort der Gesamtmenge V der von dem Spracherkennungsprozess erfassten Wörter, deren Anzahl gleich V sei und die durch ein Umgebungsgeräusch-Muster zu einer Menge V0 ergänzt wird, eine Trefferwahrscheinlichkeits -Hypothese ermittelt. Das wahrscheinlichste Ergebnis, der Treifer, wird nun entweder aus der 30 Gesamtzahl der Hypothesen oder aus einer ersten Teilmenge S0 dieser Hypothesen, die S Wörter und ein Umgebungsgeräusch-Muster enthält, ermittelt, wie beispielsweise auch in dem in W. Tschirk, „Neural Net Speech Recognizers. Voice Remote Control Devices for Disabled People,“ e&i Artificial Intelligence 7/8/2001, pp. 367-370, 2001, beschriebenen System. 35 Zum Beispiel werden bei einem Spracherkennungssystem, welches zur Steuerung der Beleuchtung, der Heizung und des Telephonapparates in einer Wohnung herangezogen wird, nachdem mit einem ersten Kommando die Auswahl der „HEIZUNG“ erfolgt ist, beim nächsten Schritt nur mehr die Wörter „WÄRMER“ oder „KÄLTER“ akzeptiert, nicht aber beispielsweise die Wörter „HELLER“ oder „DUNKLER“ welche in dieser Situation keinen sinnvollen Steuerbefehl ergeben. 40
Die Wörter „WÄRMER“ und „KÄLTER“ bilden daher in dieser Situation mit dem Muster „Umgebungsgeräusch“ die erste Teilmenge S0 der Wahrscheinlichkeits-Hypothesen.
Erfindungsgemäß wird nun eine zweite Teilmenge E von E Wörtern ausgewählt, welche den 45 Wortschatz der ersten Teilmenge und zusätzliche zufällig ausgewählte Wörter der Gesamtmenge V0 umfasst und mit dem Muster eines „Umgebungsgeräusch“ ergänzt zu E0.
Die bei einem Erkennungsvorgang zu den Wörtern der zweiten Teilmenge E0 gebildeten Hypothesen werden nach der ermittelten Trefferwahrscheinlichkeit gereiht und aus einer vorbestimm-50 ten Anzahl H der erstgereihten Hypothesen wird der wahrscheinlichste Treffer ermittelt.
Durch geeignete Wahl der Anzahl E der Wörter von zweiter Teilmenge E bzw. ergänzter zweiter Teilmenge E0 und der vorbestimmten Anzahl H der erstgereihten Hypothesen kann nun die Eigenschaft des Spracherkennungsverfahrens hinsichtlich des Verhältnisses von Falschrück-55 weisungsrate R, Falschakzeptanzrate A und Verwechslungsrate C an die jeweilige Situation 4
AT 414 283 B angepasst werden.
So kann beispielsweise in erfahrungsgemäß lauten Situationen die Falschakzeptanzrate besonders niedrig gewählt werden. Die mathematischen Grenzen für die Wahl der zweiten Teil-5 menge E0 und deren Größe E sowie der vorbestimmten Anzahl H der erstgereihten Hypothesen sind in den Formeln 0, 1 und 2 der Figur definiert.
Im folgenden wird nun ein vorteilhaftes Optimierungsverfahren näher erläutert. Dazu werden die zu optimierenden Werte für die Größe E der zweiten Teilmenge E0 und die vorbestimmte An-io zahl H der erstgereihten Hypothesen als Funktionen von Falschrückweisungsrate R, Falschakzeptanzrate A und Verwechslungsrate C dargestellt.
Dazu werden die Eigenschaften des Spracherkennungsverfahrens im engeren Sinn zu einem Testvokabular mit einer bestimmten Anzahl T von Wörtern ermittelt. Als Ergebnis werden Test-15 werte Ct, rT und aT zu Falschrückweisungsrate, Falschakzeptanzrate und Verwechslungsrate erhalten.
Daraus lässt sich für den Spracherkennungsprozess ein charakteristisches Konstantentriple U = (ui, u2, u3) ableiten, welches den Spracherkennungsprozess unabhängig von der Größe 20 des zu erkennenden Vokabulars beschreibt.
Die Beziehungen zwischen Konstantentriple U = (u1t u2, u3) und den Testwerten cT, rT und ay zu Falschrückweisungsrate, Falschakzeptanzrate und Verwechslungsrate sind in den Gleichungen 3, 4 und 5 dargestellt. 25
Damit lassen sich für eine bestimmte Hypothese zu einem analysierten Merkmalsmuster, d.h. Wort oder Umgebungsgeräusch die in den Gleichungen 6 bis 10 dargestellten Aussagen treffen: 30 Wenn das analysierte Merkmalsmuster ein Wort darstellt, ist die Wahrscheinlichkeit, dass das Spracherkennungssystem dazu eine falsche in der Reihung der Hypothesen an i-ter Stelle aufscheinende Hypothese liefert (d.h. es als anderes Wort oder Umgebungsgeräusch falsch klassifiziert), welche - ein Wort ergibt, das der ersten Teilmenge S angehört: p® (Glg.6) 35 - ein Wort ergibt, das der zweiten Teilmenge E, aber nicht der ersten Teilmenge S angehört p^ (Glg.7) - kein Wort sondern ein Umgebungsgeräusch ergibt pi (Glg.8)
Wenn das analysierte Merkmalsmuster ein Umgebungsgeräusch darstellt, ist die Wahrschein-40 lichkeit, dass das Spracherkennungssystem dazu als Hypothese an der i-ten Stelle der Reihung fälschlich ein Wort angibt, gleich - q® (Gig. 9) als der Wahrscheinlichkeit, dass ein Wort aus der ersten Teilmenge S fälschlich angegeben wird und - qi (Gig. 10) als der Wahrscheinlichkeit, dass ein Wort fälschlich angegeben wird, welches 45 der zweiten Teilmenge E, aber nicht der ersten Teilmenge S angehört.
Aus diesen Wahrscheinlichkeiten können nun gemäß den Gleichungen 11, 12, und 13 die Werte für Falschrückweisungsrate R, Falschakzeptanzrate A und Verwechslungsrate C ermittelt werden und für alle zulässigen Kombinationen von zweiter Teilmengengröße E und vorgegebe-50 ner Anzahl von Hypothesen H gemäß den Gleichungen 1 und 2 Optimalwerte gemäß Gleichung 14. 55
Claims (4)
- 5 AT 414 283 B Patentansprüche: 1. Verfahren zur Optimierung von Spracherkennungsprozessen, wobei bei jedem Erkennungsvorgang zu jedem Wort der Gesamtmenge (V) der von dem Spracherkennungspro-5 zess erfassten Wörter eine Trefferwahrscheinlichkeits - Hypothese ermittelt wird und wobei aus der Gesamtmenge eine erste Teilmenge (S) ausgewählt wird, welche einen in der augenblicklichen Situation für diesen Erkennungsvorgang zulässigen Wortschatz umfasst, dadurch gekennzeichnet, dass eine zweite Teilmenge (E) von Wörtern ausgewählt wird, welche den Wortschatz der ersten Teilmenge und zusätzliche zufällig ausgewählte Wörter io der Gesamtmenge umfasst und dass die zu den Wörtern der zweiten Teilmenge gebildeten Hypothesen nach der ermittelten Trefferwahrscheinlichkeit gereiht werden und aus einer vorbestimmten Anzahl (H) der erstgereihten Hypothesen der wahrscheinlichste Treffer ermittelt wird.
- 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Größe der zweiten Teil menge (E) und die Anzahl der erstgereihten Hypothesen (H), aus denen der wahrscheinlichste Treffer ermittelt wird, mittels Optimierungsverfahren (14) für jeden Erkennungsvorgang festgelegt wird.
- 3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass für jeden Erkennungsvorgang ein eigenes Optimierungskriterium gewählt wird.
- 4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass eines der Wörter jeder Menge nicht einem Befehl, sondern der Gesamtheit der möglichen Störsigna-25 le entspricht. Hiezu 1 Blatt Zeichnungen 30 35 40 45 50 55
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
AT20252003A AT414283B (de) | 2003-12-16 | 2003-12-16 | Verfahren zur optimierung von spracherkennungsprozessen |
PCT/EP2004/013910 WO2005059896A1 (de) | 2003-12-16 | 2004-12-07 | Verfahren zur optimierung von spracherkennungsprozessen |
EP04803592A EP1695336A1 (de) | 2003-12-16 | 2004-12-07 | Verfahren zur optimierung von spracherkennungsprozessen |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
AT20252003A AT414283B (de) | 2003-12-16 | 2003-12-16 | Verfahren zur optimierung von spracherkennungsprozessen |
Publications (2)
Publication Number | Publication Date |
---|---|
ATA20252003A ATA20252003A (de) | 2006-01-15 |
AT414283B true AT414283B (de) | 2006-11-15 |
Family
ID=34682566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
AT20252003A AT414283B (de) | 2003-12-16 | 2003-12-16 | Verfahren zur optimierung von spracherkennungsprozessen |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP1695336A1 (de) |
AT (1) | AT414283B (de) |
WO (1) | WO2005059896A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150194151A1 (en) * | 2014-01-03 | 2015-07-09 | Gracenote, Inc. | Modification of electronic system operation based on acoustic ambience classification |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2040249A1 (de) * | 2007-09-20 | 2009-03-25 | Siemens Aktiengesellschaft Österreich | Selbstoptimierendes Verfahren zur Spracherkennung |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10010232A1 (de) * | 1999-03-05 | 2000-10-26 | Auralog Montigny Le Bretonneux | Verfahren und Vorrichtung zur Spracherkennung |
US20020087307A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented progressive noise scanning method and system |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2180392C (en) * | 1995-07-31 | 2001-02-13 | Paul Wesley Cohrs | User selectable multiple threshold criteria for voice recognition |
US6023676A (en) * | 1996-12-12 | 2000-02-08 | Dspc Israel, Ltd. | Keyword recognition system and method |
-
2003
- 2003-12-16 AT AT20252003A patent/AT414283B/de not_active IP Right Cessation
-
2004
- 2004-12-07 WO PCT/EP2004/013910 patent/WO2005059896A1/de not_active Application Discontinuation
- 2004-12-07 EP EP04803592A patent/EP1695336A1/de not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10010232A1 (de) * | 1999-03-05 | 2000-10-26 | Auralog Montigny Le Bretonneux | Verfahren und Vorrichtung zur Spracherkennung |
US20020087307A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented progressive noise scanning method and system |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150194151A1 (en) * | 2014-01-03 | 2015-07-09 | Gracenote, Inc. | Modification of electronic system operation based on acoustic ambience classification |
US10373611B2 (en) * | 2014-01-03 | 2019-08-06 | Gracenote, Inc. | Modification of electronic system operation based on acoustic ambience classification |
US11024301B2 (en) | 2014-01-03 | 2021-06-01 | Gracenote, Inc. | Modification of electronic system operation based on acoustic ambience classification |
US11842730B2 (en) | 2014-01-03 | 2023-12-12 | Gracenote, Inc. | Modification of electronic system operation based on acoustic ambience classification |
Also Published As
Publication number | Publication date |
---|---|
WO2005059896A1 (de) | 2005-06-30 |
ATA20252003A (de) | 2006-01-15 |
EP1695336A1 (de) | 2006-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0994461A2 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung | |
DE3876207T2 (de) | Spracherkennungssystem unter verwendung von markov-modellen. | |
DE69229816T2 (de) | Einrichtung und Verfahren für Sprachmusteridentifizierung | |
DE69030561T2 (de) | Spracherkennungseinrichtung | |
DE69819438T2 (de) | Verfahren zur Spracherkennung | |
EP2036078A1 (de) | Verfahren und vorrichtung zur natürlichsprachlichen erkennung einer sprachäusserung | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
WO2003017252A1 (de) | Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge | |
DE19842405A1 (de) | Spracherkennungsverfahren mit Konfidenzmaßbewertung | |
EP1214703A1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
EP1097447A1 (de) | Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache | |
DE4010028C2 (de) | Spracherkennungsverfahren | |
EP1231596B1 (de) | Trainingsmethode von den freien Parameten eines Maximum-Entropie-Sprachmodells | |
WO1993002448A1 (de) | Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache | |
AT414283B (de) | Verfahren zur optimierung von spracherkennungsprozessen | |
EP2034472A1 (de) | Spracherkennungsverfahren und Spracherkennungsvorrichtung | |
EP1224661B1 (de) | Verfahren und anordnung zur verifikation eines sprechers anhand eines rechners | |
EP0813734A1 (de) | Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird | |
EP1214704B1 (de) | Verfahren zum erfassen und auswerten von ein wort darstellenden wortsprachsignalen eines benutzers eines spracherkennungssystems | |
DE10308611A1 (de) | Ermittlung der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung | |
EP0817167A2 (de) | Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens | |
DE10010232B4 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
EP0965088A1 (de) | Sichere identifikation mit vorauswahl und rückweisungsklasse | |
DE19824450C2 (de) | Verfahren und Vorrichtung zur Verarbeitung von Sprachsignalen | |
DE102017213946A1 (de) | Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät sowie Vermittlungsvorrichtung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ELJ | Ceased due to non-payment of the annual fee |