AT414283B - Verfahren zur optimierung von spracherkennungsprozessen - Google Patents

Verfahren zur optimierung von spracherkennungsprozessen Download PDF

Info

Publication number
AT414283B
AT414283B AT20252003A AT20252003A AT414283B AT 414283 B AT414283 B AT 414283B AT 20252003 A AT20252003 A AT 20252003A AT 20252003 A AT20252003 A AT 20252003A AT 414283 B AT414283 B AT 414283B
Authority
AT
Austria
Prior art keywords
subset
words
determined
recognition process
hypotheses
Prior art date
Application number
AT20252003A
Other languages
English (en)
Other versions
ATA20252003A (de
Inventor
Wolfgang Tschirk
Original Assignee
Siemens Ag Oesterreich
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Ag Oesterreich filed Critical Siemens Ag Oesterreich
Priority to AT20252003A priority Critical patent/AT414283B/de
Priority to PCT/EP2004/013910 priority patent/WO2005059896A1/de
Priority to EP04803592A priority patent/EP1695336A1/de
Publication of ATA20252003A publication Critical patent/ATA20252003A/de
Application granted granted Critical
Publication of AT414283B publication Critical patent/AT414283B/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Description

2
AT 414 283 B
Technisches Gebiet
Die Erfindung betrifft ein Verfahren zur Optimierung von Spracherkennungsprozessen, bei dem bei jedem Erkennungsvorgang zu jedem Wort der Gesamtmenge der von dem Spracherken-5 nungsprozess erfassten Wörter eine Trefferwahrscheinlichkeits - Hypothese ermittelt wird und bei dem aus der Gesamtmenge eine erste Teilmenge ausgewählt wird, welche einen in der augenblicklichen Situation für diesen Erkennungsvorgang zulässigen Wortschatz umfasst.
Stand der Technik 10
Beim Einsatz automatischer Spracherkennungssysteme, beispielsweise zur Umwandlung gesprochener Kommandos in elektrische Steuerungsbefehle, wird der Anwender mit dem Problem konfrontiert, dass der Erkennungsvorgang mit einer bestimmten Wahrscheinlichkeit fehlerhafte Ergebnisse liefern wird. Zu diesen fehlerhaften Ergebnissen gehören: das Verwechseln von 15 Befehlen, das fälschliche Rückweisen von Befehlen und das fälschliche Akzeptieren von Störsignalen als Befehle.
Die jeweiligen Wahrscheinlichkeiten für ein Auftreten eines der genannten Fehler hängen voneinander ab, eine geringe Falschrückweisungsrate bedingt meist eine hohe Falschakzeptanzra-20 te und oft auch eine höhere Verwechslungsrate, umgekehrt führt die Forderung nach einer geringen Falschakzeptanzrate auch zu einer höheren Falschrückweisungsrate.
Je nach Anwendungsfall soll nun das Verhältnis der genannten Fehlerarten zueinander optimiert werden. So besteht insbesondere bei Steuerungsaufgaben in lauter Umgebung die Forde-25 rung, dass lediglich Kommandos des Benutzers zu einem Steuerungsbefehl führen und die Umgebungsgeräusche mit hoher Zuverlässigkeit zurückgewiesen werden. Hier wird im Interesse einer geringen Falschakzeptanzwahrscheinlichkeit auch eine höhere Falschrückweisungsrate akzeptiert während bei anderen Anwendungen, bei denen der Komfort des Benutzers im Vordergrund steht, die Falschrückweisungsrate niedrig sein soll und dafür eine höhere Falsch-30 akzeptanzrate in Kauf genommen wird.
Derartige Spracherkennungssysteme sind beispielsweise aus der DE 100 10 232 A1 bekannt. Diese Schrift beschreibt ein Spracherkennungsverfahren, bei dem ein gesprochener Satz mit vorbestimmten Sätzen eines besonderen Vokabulars verglichen wird, um den Satz dieses 35 Vokabulars zu ermitteln, der phonetisch dem zu erkennenden Satz am ähnlichsten ist. Damit ist dieses Verfahren besonders auf die Bedürfnisse beim automatisierten Lehren einer Fremdsprache abgestimmt.
Aus der US 2002/0087307 A1 ist weiterhin ein Spracherkennungsverfahren bekannt, bei dem 40 der Spracherkennungsvorgang zweifach durchgeführt wird, wobei verschiedene Umgebungsgeräuschmodelle angewendet werden. Die beiden Ergebnisse werden dann miteinander verglichen und die übereinstimmenden Treffer weiterverarbeitet.
Darstellung der Erfindung 45
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben, mit dem die Eigenschaften eines Spracherkennungsverfahrens hinsichtlich seiner Fehlerarten anwendungsbezogen optimiert werden können. so Erfindungsgemäß wird diese Aufgabe gelöst mit einem Verfahren der eingangs genannten Art, bei dem eine zweite Teilmenge von Wörtern ausgewählt wird, welche den Wortschatz der ersten Teilmenge und zusätzliche zufällig ausgewählte Wörter der Gesamtmenge umfasst und bei dem die zu den Wörtern der zweiten Teilmenge gebildeten Hypothesen nach der ermittelten Trefferwahrscheinlichkeit gereiht werden und aus einer vorbestimmten Anzahl der erstgereihten 55 Hypothesen der wahrscheinlichste Treifer ermittelt wird. 3
AT 414 283 B
Die Erfindung ermöglicht den optimierten Einsatz eines Spracherkennungssystems mit einer konstanten Erkennungsrate. Durch die geeignete Wahl der zweiten Teilmenge und der Anzahl der erstgereihten Hypothesen kann das Verhältnis der oben genannten Fehlerarten jeder Situation angepasst werden. 5
Vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Unteransprüchen. Günstig ist es dabei insbesondere, wenn die Größe der zweiten Teilmenge und die Anzahl der erstgereihten Hypothesen, aus denen der wahrscheinlichste Treffer ermittelt wird, mittels Opti-io mierungsverfahren für jeden Erkennungsvorgang festgelegt wird.
Vorteilhaft ist es weiterhin, wenn für jeden Erkennungsvorgang ein eigenes Optimierungskriterium gewählt wird. 15 Günstig ist es auch, wenn eines der Wörter jeder Menge nicht einem Befehl, sondern der Gesamtheit der möglichen Störsignale entspricht.
Kurzbeschreibung der Zeichnung 20 Die Erfindung wird anhand einer Figur näher erläutert, welche die wesentlichen Formeln der mathematischen Grundlagen des erfindungsgemäßen Verfahrens darstellt.
Ausführung der Erfindung 25 Nach dem Stand der Technik wird bei einem Verfahren zur Optimierung von Spracherkennungsprozessen bei jedem Erkennungsvorgang zu jedem Wort der Gesamtmenge V der von dem Spracherkennungsprozess erfassten Wörter, deren Anzahl gleich V sei und die durch ein Umgebungsgeräusch-Muster zu einer Menge V0 ergänzt wird, eine Trefferwahrscheinlichkeits -Hypothese ermittelt. Das wahrscheinlichste Ergebnis, der Treifer, wird nun entweder aus der 30 Gesamtzahl der Hypothesen oder aus einer ersten Teilmenge S0 dieser Hypothesen, die S Wörter und ein Umgebungsgeräusch-Muster enthält, ermittelt, wie beispielsweise auch in dem in W. Tschirk, „Neural Net Speech Recognizers. Voice Remote Control Devices for Disabled People,“ e&i Artificial Intelligence 7/8/2001, pp. 367-370, 2001, beschriebenen System. 35 Zum Beispiel werden bei einem Spracherkennungssystem, welches zur Steuerung der Beleuchtung, der Heizung und des Telephonapparates in einer Wohnung herangezogen wird, nachdem mit einem ersten Kommando die Auswahl der „HEIZUNG“ erfolgt ist, beim nächsten Schritt nur mehr die Wörter „WÄRMER“ oder „KÄLTER“ akzeptiert, nicht aber beispielsweise die Wörter „HELLER“ oder „DUNKLER“ welche in dieser Situation keinen sinnvollen Steuerbefehl ergeben. 40
Die Wörter „WÄRMER“ und „KÄLTER“ bilden daher in dieser Situation mit dem Muster „Umgebungsgeräusch“ die erste Teilmenge S0 der Wahrscheinlichkeits-Hypothesen.
Erfindungsgemäß wird nun eine zweite Teilmenge E von E Wörtern ausgewählt, welche den 45 Wortschatz der ersten Teilmenge und zusätzliche zufällig ausgewählte Wörter der Gesamtmenge V0 umfasst und mit dem Muster eines „Umgebungsgeräusch“ ergänzt zu E0.
Die bei einem Erkennungsvorgang zu den Wörtern der zweiten Teilmenge E0 gebildeten Hypothesen werden nach der ermittelten Trefferwahrscheinlichkeit gereiht und aus einer vorbestimm-50 ten Anzahl H der erstgereihten Hypothesen wird der wahrscheinlichste Treffer ermittelt.
Durch geeignete Wahl der Anzahl E der Wörter von zweiter Teilmenge E bzw. ergänzter zweiter Teilmenge E0 und der vorbestimmten Anzahl H der erstgereihten Hypothesen kann nun die Eigenschaft des Spracherkennungsverfahrens hinsichtlich des Verhältnisses von Falschrück-55 weisungsrate R, Falschakzeptanzrate A und Verwechslungsrate C an die jeweilige Situation 4
AT 414 283 B angepasst werden.
So kann beispielsweise in erfahrungsgemäß lauten Situationen die Falschakzeptanzrate besonders niedrig gewählt werden. Die mathematischen Grenzen für die Wahl der zweiten Teil-5 menge E0 und deren Größe E sowie der vorbestimmten Anzahl H der erstgereihten Hypothesen sind in den Formeln 0, 1 und 2 der Figur definiert.
Im folgenden wird nun ein vorteilhaftes Optimierungsverfahren näher erläutert. Dazu werden die zu optimierenden Werte für die Größe E der zweiten Teilmenge E0 und die vorbestimmte An-io zahl H der erstgereihten Hypothesen als Funktionen von Falschrückweisungsrate R, Falschakzeptanzrate A und Verwechslungsrate C dargestellt.
Dazu werden die Eigenschaften des Spracherkennungsverfahrens im engeren Sinn zu einem Testvokabular mit einer bestimmten Anzahl T von Wörtern ermittelt. Als Ergebnis werden Test-15 werte Ct, rT und aT zu Falschrückweisungsrate, Falschakzeptanzrate und Verwechslungsrate erhalten.
Daraus lässt sich für den Spracherkennungsprozess ein charakteristisches Konstantentriple U = (ui, u2, u3) ableiten, welches den Spracherkennungsprozess unabhängig von der Größe 20 des zu erkennenden Vokabulars beschreibt.
Die Beziehungen zwischen Konstantentriple U = (u1t u2, u3) und den Testwerten cT, rT und ay zu Falschrückweisungsrate, Falschakzeptanzrate und Verwechslungsrate sind in den Gleichungen 3, 4 und 5 dargestellt. 25
Damit lassen sich für eine bestimmte Hypothese zu einem analysierten Merkmalsmuster, d.h. Wort oder Umgebungsgeräusch die in den Gleichungen 6 bis 10 dargestellten Aussagen treffen: 30 Wenn das analysierte Merkmalsmuster ein Wort darstellt, ist die Wahrscheinlichkeit, dass das Spracherkennungssystem dazu eine falsche in der Reihung der Hypothesen an i-ter Stelle aufscheinende Hypothese liefert (d.h. es als anderes Wort oder Umgebungsgeräusch falsch klassifiziert), welche - ein Wort ergibt, das der ersten Teilmenge S angehört: p® (Glg.6) 35 - ein Wort ergibt, das der zweiten Teilmenge E, aber nicht der ersten Teilmenge S angehört p^ (Glg.7) - kein Wort sondern ein Umgebungsgeräusch ergibt pi (Glg.8)
Wenn das analysierte Merkmalsmuster ein Umgebungsgeräusch darstellt, ist die Wahrschein-40 lichkeit, dass das Spracherkennungssystem dazu als Hypothese an der i-ten Stelle der Reihung fälschlich ein Wort angibt, gleich - q® (Gig. 9) als der Wahrscheinlichkeit, dass ein Wort aus der ersten Teilmenge S fälschlich angegeben wird und - qi (Gig. 10) als der Wahrscheinlichkeit, dass ein Wort fälschlich angegeben wird, welches 45 der zweiten Teilmenge E, aber nicht der ersten Teilmenge S angehört.
Aus diesen Wahrscheinlichkeiten können nun gemäß den Gleichungen 11, 12, und 13 die Werte für Falschrückweisungsrate R, Falschakzeptanzrate A und Verwechslungsrate C ermittelt werden und für alle zulässigen Kombinationen von zweiter Teilmengengröße E und vorgegebe-50 ner Anzahl von Hypothesen H gemäß den Gleichungen 1 und 2 Optimalwerte gemäß Gleichung 14. 55

Claims (4)

  1. 5 AT 414 283 B Patentansprüche: 1. Verfahren zur Optimierung von Spracherkennungsprozessen, wobei bei jedem Erkennungsvorgang zu jedem Wort der Gesamtmenge (V) der von dem Spracherkennungspro-5 zess erfassten Wörter eine Trefferwahrscheinlichkeits - Hypothese ermittelt wird und wobei aus der Gesamtmenge eine erste Teilmenge (S) ausgewählt wird, welche einen in der augenblicklichen Situation für diesen Erkennungsvorgang zulässigen Wortschatz umfasst, dadurch gekennzeichnet, dass eine zweite Teilmenge (E) von Wörtern ausgewählt wird, welche den Wortschatz der ersten Teilmenge und zusätzliche zufällig ausgewählte Wörter io der Gesamtmenge umfasst und dass die zu den Wörtern der zweiten Teilmenge gebildeten Hypothesen nach der ermittelten Trefferwahrscheinlichkeit gereiht werden und aus einer vorbestimmten Anzahl (H) der erstgereihten Hypothesen der wahrscheinlichste Treffer ermittelt wird.
  2. 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Größe der zweiten Teil menge (E) und die Anzahl der erstgereihten Hypothesen (H), aus denen der wahrscheinlichste Treffer ermittelt wird, mittels Optimierungsverfahren (14) für jeden Erkennungsvorgang festgelegt wird.
  3. 3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass für jeden Erkennungsvorgang ein eigenes Optimierungskriterium gewählt wird.
  4. 4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass eines der Wörter jeder Menge nicht einem Befehl, sondern der Gesamtheit der möglichen Störsigna-25 le entspricht. Hiezu 1 Blatt Zeichnungen 30 35 40 45 50 55
AT20252003A 2003-12-16 2003-12-16 Verfahren zur optimierung von spracherkennungsprozessen AT414283B (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
AT20252003A AT414283B (de) 2003-12-16 2003-12-16 Verfahren zur optimierung von spracherkennungsprozessen
PCT/EP2004/013910 WO2005059896A1 (de) 2003-12-16 2004-12-07 Verfahren zur optimierung von spracherkennungsprozessen
EP04803592A EP1695336A1 (de) 2003-12-16 2004-12-07 Verfahren zur optimierung von spracherkennungsprozessen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
AT20252003A AT414283B (de) 2003-12-16 2003-12-16 Verfahren zur optimierung von spracherkennungsprozessen

Publications (2)

Publication Number Publication Date
ATA20252003A ATA20252003A (de) 2006-01-15
AT414283B true AT414283B (de) 2006-11-15

Family

ID=34682566

Family Applications (1)

Application Number Title Priority Date Filing Date
AT20252003A AT414283B (de) 2003-12-16 2003-12-16 Verfahren zur optimierung von spracherkennungsprozessen

Country Status (3)

Country Link
EP (1) EP1695336A1 (de)
AT (1) AT414283B (de)
WO (1) WO2005059896A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150194151A1 (en) * 2014-01-03 2015-07-09 Gracenote, Inc. Modification of electronic system operation based on acoustic ambience classification

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2040249A1 (de) * 2007-09-20 2009-03-25 Siemens Aktiengesellschaft Österreich Selbstoptimierendes Verfahren zur Spracherkennung

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10010232A1 (de) * 1999-03-05 2000-10-26 Auralog Montigny Le Bretonneux Verfahren und Vorrichtung zur Spracherkennung
US20020087307A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented progressive noise scanning method and system

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2180392C (en) * 1995-07-31 2001-02-13 Paul Wesley Cohrs User selectable multiple threshold criteria for voice recognition
US6023676A (en) * 1996-12-12 2000-02-08 Dspc Israel, Ltd. Keyword recognition system and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10010232A1 (de) * 1999-03-05 2000-10-26 Auralog Montigny Le Bretonneux Verfahren und Vorrichtung zur Spracherkennung
US20020087307A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented progressive noise scanning method and system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150194151A1 (en) * 2014-01-03 2015-07-09 Gracenote, Inc. Modification of electronic system operation based on acoustic ambience classification
US10373611B2 (en) * 2014-01-03 2019-08-06 Gracenote, Inc. Modification of electronic system operation based on acoustic ambience classification
US11024301B2 (en) 2014-01-03 2021-06-01 Gracenote, Inc. Modification of electronic system operation based on acoustic ambience classification
US11842730B2 (en) 2014-01-03 2023-12-12 Gracenote, Inc. Modification of electronic system operation based on acoustic ambience classification

Also Published As

Publication number Publication date
WO2005059896A1 (de) 2005-06-30
ATA20252003A (de) 2006-01-15
EP1695336A1 (de) 2006-08-30

Similar Documents

Publication Publication Date Title
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE69229816T2 (de) Einrichtung und Verfahren für Sprachmusteridentifizierung
DE69030561T2 (de) Spracherkennungseinrichtung
DE69819438T2 (de) Verfahren zur Spracherkennung
EP2036078A1 (de) Verfahren und vorrichtung zur natürlichsprachlichen erkennung einer sprachäusserung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
WO2003017252A1 (de) Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge
DE19842405A1 (de) Spracherkennungsverfahren mit Konfidenzmaßbewertung
EP1214703A1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
EP1097447A1 (de) Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache
DE4010028C2 (de) Spracherkennungsverfahren
EP1231596B1 (de) Trainingsmethode von den freien Parameten eines Maximum-Entropie-Sprachmodells
WO1993002448A1 (de) Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache
AT414283B (de) Verfahren zur optimierung von spracherkennungsprozessen
EP2034472A1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung
EP1224661B1 (de) Verfahren und anordnung zur verifikation eines sprechers anhand eines rechners
EP0813734A1 (de) Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird
EP1214704B1 (de) Verfahren zum erfassen und auswerten von ein wort darstellenden wortsprachsignalen eines benutzers eines spracherkennungssystems
DE10308611A1 (de) Ermittlung der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung
EP0817167A2 (de) Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens
DE10010232B4 (de) Verfahren und Vorrichtung zur Spracherkennung
EP0965088A1 (de) Sichere identifikation mit vorauswahl und rückweisungsklasse
DE19824450C2 (de) Verfahren und Vorrichtung zur Verarbeitung von Sprachsignalen
DE102017213946A1 (de) Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät sowie Vermittlungsvorrichtung

Legal Events

Date Code Title Description
ELJ Ceased due to non-payment of the annual fee