WO2005059896A1 - Method for optimizing speech recognition processes - Google Patents

Method for optimizing speech recognition processes Download PDF

Info

Publication number
WO2005059896A1
WO2005059896A1 PCT/EP2004/013910 EP2004013910W WO2005059896A1 WO 2005059896 A1 WO2005059896 A1 WO 2005059896A1 EP 2004013910 W EP2004013910 W EP 2004013910W WO 2005059896 A1 WO2005059896 A1 WO 2005059896A1
Authority
WO
WIPO (PCT)
Prior art keywords
subset
words
determined
recognition process
speech recognition
Prior art date
Application number
PCT/EP2004/013910
Other languages
German (de)
French (fr)
Inventor
Wolfgang Tschirk
Original Assignee
Siemens Ag Österreich
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Ag Österreich filed Critical Siemens Ag Österreich
Priority to EP04803592A priority Critical patent/EP1695336A1/en
Publication of WO2005059896A1 publication Critical patent/WO2005059896A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating

Definitions

  • the invention relates to a method for optimizing speech recognition processes in which ga at each Erkennungsvor- 'ng to each word of the overall quantity of the speech recognition process recognized words, a hit probability - hypothesis is determined, and wherein a first subset is selected from the total amount, which includes a vocabulary permissible for this recognition process in the current situation.
  • the invention is based on the object of specifying a method with which the properties of a speech recognition method with regard to its types of errors can be optimized in relation to the application.
  • this object is achieved with a method of the type mentioned in the introduction, in which a second subset of words is selected which contain the vocabulary of the first
  • Subset and additional randomly selected words of the total amount and in which the hypotheses formed for the words of the second subset are ranked according to the determined probability of hits and the most likely hit is determined from a pre-determined number of first-ranked hypotheses.
  • the invention enables the optimized use of a speech recognition system with a constant recognition rate.
  • the ratio of the above-mentioned types of errors can "be adapted to any situation.
  • a second subset E of E words is now selected, which comprises the vocabulary of the first subset and additional randomly selected words of the total set V 0 and is supplemented with E 0 using the pattern of an “ambient noise”.
  • Subset E 0 hypotheses formed are ranked according to the hit probability determined and the most likely hit is determined from a predetermined number H of the first ranked hypotheses.
  • the false acceptance rate can be chosen to be particularly low.
  • the values to be optimized for the size E of the second subset E 0 and the predetermined number H of the first-ranked hypotheses are represented as functions of the false rejection rate R, the false acceptance rate A and the mix-up rate C.
  • the properties of the speech recognition method are determined in the narrower sense of a test vocabulary with a specific number T of words.
  • test values c ⁇ , r ⁇ and a ⁇ for false rejection rate, false acceptance rate and mix-up rate are obtained.
  • a c-characteristic constant triple U (ui, u 2 , u 3 ) can be derived for the speech recognition process, which describes the speech recognition process independently of the size of the vocabulary to be recognized.
  • the likelihood that the speech recognition system will supply a wrong hypothesis appearing in the order of the hypotheses in the first position is what
  • the probability that the speech recognition system incorrectly states a word as a hypothesis at the lth position in the sequence is the same

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

The invention relates to a method for optimizing speech recognition processes, wherein in every recognition process a probability of hit hypothesis is determined for every word of the universal set (V) of words detected by the speech recognition process. A first subset (S) comprising a vocabulary permissible in the present situation for the recognition process is selected from the universal set. A second subset (E) of words is selected which comprises the vocabulary of the first subset and additional randomly chosen words of the universal set. The hypotheses put forward with respect to the words of the second subset are ranked in terms of the determined probability of hit and the most probable hit is determined on the basis of a predetermined number (H) of first-ranked hypotheses.

Description

Beschreibung description
Verfahren zur Optimierung von Spracherkennungsprozessen Technisches GebietProcess for optimizing speech recognition processes Technical field
Die Erfindung betrifft ein Verfahren zur Optimierung von Spracherkennungsprozessen, bei dem bei jedem Erkennungsvor- ga'ng zu jedem Wort der Gesamtmenge der von dem Spracherken- nungsprozess erfassten Wörter eine Trefferwahrscheinlichkeits - Hypothese ermittelt wird und bei dem aus der Gesamtmenge eine erste Teilmenge ausgewählt wird, welche einen in der augenblicklichen Situation für diesen Erkennungsvorgang zulässigen Wortschatz umfasst.The invention relates to a method for optimizing speech recognition processes in which ga at each Erkennungsvor- 'ng to each word of the overall quantity of the speech recognition process recognized words, a hit probability - hypothesis is determined, and wherein a first subset is selected from the total amount, which includes a vocabulary permissible for this recognition process in the current situation.
Stand der TechnikState of the art
Beim Einsatz automatischer Spracherkennungssysteme, bei- spielsweise zur Umwandlung gesprochener Kommandos in elektrische Steuerungsbefehle, wird der Anwender mit dem Problem konfrontiert, dass der Erkennungsvorgang mit einer bestimmten Wahrscheinlichkeit fehlerhafte Ergebnisse liefern wird. Zu diesen fehlerhaften Ergebnissen gehören: das Verwechseln von Befehlen, das fälschliche Rückweisen von Befehlen und das fälschliche Akzeptieren von Störsignaien als Befehle.When using automatic speech recognition systems, for example to convert spoken commands into electrical control commands, the user is faced with the problem that the recognition process will deliver incorrect results with a certain probability. These erroneous results include: confusing commands, incorrectly rejecting commands, and incorrectly accepting spurious signals as commands.
Die jeweiligen Wahrscheinlichkeiten für ein Auftreten eines der genannten Fehler hängen voneinander ab, eine geringe Falschrückweisungsrate bedingt meist eine hohe Falschakzeptanzrate und oft auch eine höhere Verwechslungsrate, umgekehrt führt die Forderung nach einer geringen Falschakzeptanzrate auch zu einer höheren Falschrückweisungsrate.The respective probabilities for the occurrence of one of the errors mentioned depend on one another, a low false rejection rate usually means a high false acceptance rate and often also a higher confusion rate, conversely, the requirement for a low false acceptance rate also leads to a higher false rejection rate.
Je nach Anwendungsfall soll nun das Verhältnis der genannten Fehlerarten zueinander optimiert werden. So besteht insbesondere bei Steuerungsaufgaben in lauter Umgebung die Forderung, dass lediglich Kommandos des Benutzers zu einem Steuerungsbe¬ fehl fuhren und die Umgebungsgerausche mit hoher Zuverlässig¬ keit zurückgewiesen werden. Hier wird im Interesse einer ge¬ ringen Falschakzeptanzwahrschemlichkeit auch eine höhere Falschrückweisungsrate akzeptiert, wahrend bei anderen Anwen¬ dungen, bei denen der Komfort des Benutzers im Vordergrund steht, die Falschrückweisungsrate niedrig sein soll und dafür eine höhere Falschakzeptanzrate m Kauf genommen wird.Depending on the application, the relationship between the types of errors mentioned should now be optimized. For example, there is a requirement for control tasks in a noisy environment that that only commands of the user to a Steuerungsbe ¬ lack lead and rejected the high Umgebungsgerausche Reliable ¬ ness. Here wrestle Falschakzeptanzwahrschemlichkeit is in the interest of ge ¬ will also accept a higher false rejection rate, while applications for other appli ¬ in which the comfort of the user is in the foreground, the false rejection rate should be low and a higher false acceptance rate for m purchase is taken.
Darstellung der ErfindungPresentation of the invention
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben, mit dem die Eigenschaften eines Spracherkennungsver- fahrens hinsichtlich seiner Fehlerarten anwendungsbezogen optimiert werden können.The invention is based on the object of specifying a method with which the properties of a speech recognition method with regard to its types of errors can be optimized in relation to the application.
Erfmdungsgemaß wird diese Aufgabe gelost mit einem Verfahren der eingangs genannten Art, bei dem eine zweite Teilmenge von Wortern ausgewählt wird, welche den Wortschatz der erstenAccording to the invention, this object is achieved with a method of the type mentioned in the introduction, in which a second subset of words is selected which contain the vocabulary of the first
Teilmenge und zusätzliche zufällig ausgewählte Worter der Gesamtmenge umfasst und bei dem die zu den Wortern der zweiten Teilmenge gebildeten Hypothesen nach der ermittelten Treffer- wahrschemlichkeit gereiht werden und aus einer vorbestammten Anzahl der erstgereihten Hypothesen der wahrscheinlichste Treffer ermittelt wird.Subset and additional randomly selected words of the total amount and in which the hypotheses formed for the words of the second subset are ranked according to the determined probability of hits and the most likely hit is determined from a pre-determined number of first-ranked hypotheses.
Die Erfindung ermöglicht den optimierten Einsatz eines Spracherkennungssystems mit einer konstanten Erkennungsrate. Durch die geeignete Wahl der zweiten Teilmenge und der Anzahl der erstgereihten Hypothesen kann das Verhältnis der oben genannten Fehlerarten "jeder Situation angepasst werden.The invention enables the optimized use of a speech recognition system with a constant recognition rate. By appropriately selecting the second subset and the number of first-ranked hypotheses, the ratio of the above-mentioned types of errors can "be adapted to any situation.
Vorteilhafte Ausgestaltungen der Erfindung ergeben s ch aus den Unteranspruchen . Gunstig ist es dabei insbesondere, wenn die Große der zweiten Teilmenge und die Anzahl der erstgereihten Hypothesen, aus denen der wahrscheinlichste Treffer ermittelt wird, mittels Optimierungsverfahren für "jeden Erkennungsvorgang festgelegt wird.Advantageous embodiments of the invention result from the subclaims. It is particularly advantageous if the size of the second subset and the number of first-ranked hypotheses from which the most likely hit is determined are determined for each recognition process by means of optimization methods.
Vorteilhaft ist es weiterhin, wenn f r "jeden Erkennungsvor¬ gang ein eigenes Optimierungskriterium gewählt wird.It is also advantageous if for "any Erkennungsvor ¬ transitional own optimization criterion is chosen.
Gunstig ist es auch, wenn eines der Worter "jeder Menge nicht einem Befehl, sondern der Gesamtheit der möglichen Storsigna- le entspricht.It is also beneficial if one of the words "for each set does not correspond to a command, but rather to the entirety of the possible fault signals.
Kurzbeschreibung der ZeichnungBrief description of the drawing
Die Erfindung wird anhand einer Figur naher erläutert, welche die wesentlichen Formeln der mathematischen Grundlagen des erflndungsgemaßen Verfahrens darstellt. Ausfuhrung der ErfindungThe invention is explained in more detail with reference to a figure which represents the essential formulas of the mathematical foundations of the method according to the invention. Implementation of the invention
Nach dem Stand der Technik wird bei einem Verfahren zur Optimierung von Spracherkennungsprozessen bei jedem Erkennungsvorgang zu "jedem Wort der Gesamtmenge V der von dem Sprach- erkennungsprozess erfassten Worter, deren Anzahl gleich V sei und die durch ein Umgebungsgerausch-Muster zu einer Menge V0 ergänzt wird, eine Trefferwahrscheinlichkeits - Hypothese ermittelt. Das wahrscheinlichste Ergebnis, der Treffer, wird nun entweder aus der Gesamtzahl der Hypothesen oder aus einer ersten Teilmenge S0 dieser Hypothesen, die S Worter und ein Umgebungsgerausch-Muster enthalt, ermittelt, wie beispielsweise auch in dem in W. Tschirk, „Neural Net Speech Recogni- zers . Voice Remote Control Devices for Disabled People," e&i Artificial Intelligence 7/8/2001, pp .367-370, 2001, beschrie- benen System. Zum Beispiel werden bei einem Spracherkennungssystem, welches zur Steuerung der Beleuchtung, der Heizung und des Telephon¬ apparates in einer Wohnung herangezogen wird, nachdem mit ei¬ nem ersten Kommando die Auswahl der „HEIZUNG" erfolgt ist, beim nächsten Schritt nur mehr die Wörter „WÄRMER" oder „KÄLTER" akzeptiert, nicht aber beispielsweise die Wörter „HELLER" oder „DUNKLER" welche in dieser Situation keinen sinnvollen Steuerbefehl ergeben.According to the prior art, in a method for optimizing speech recognition processes for each recognition process for "every word of the total set V, the number of words detected by the speech recognition process, the number of which is equal to V, and which is supplemented by a surrounding noise pattern to form a set V 0 The most likely result, the hit, is now determined either from the total number of hypotheses or from a first subset S 0 of these hypotheses, which contain S words and an ambient noise pattern, as for example in the in W. Tschirk, "Neural Net Speech Recognizers. Voice Remote Control Devices for Disabled People," e & i Artificial Intelligence 7/8/2001, pp. 367-370, 2001. For example, be in a speech recognition system, which is used for control of lighting, heating and the telephone ¬ apparatus in a flat after having ei ¬ nem first command selecting the "heating" is carried out, the next step only the words " WÄRMER "or" KÄLTER "accepted, but not, for example, the words" HELLER "or" DUNKLER "which do not result in a sensible control command in this situation.
Die Wörter „WÄRMER" und „KÄLTER" bilden daher in dieser Situ¬ ation mit dem Muster „Umgebungsgeräusch" die erste Teilmenge SQ der Wahrscheinlichkeits-Hypothesen.Therefore, the words "WARMER" and "Colder" form in this situ ¬ ation with the pattern "ambient noise" the first subset of SQ probability hypotheses.
Erfindungsgemäß wird nun eine zweite Teilmenge E von E Wör- tern ausgewählt, welche den Wortschatz der ersten Teilmenge und zusätzliche zufällig ausgewählte Wörter der Gesamtmenge V0 umfasst und mit dem Muster eines „Umgebungsgeräusch" ergänzt zu E0.According to the invention, a second subset E of E words is now selected, which comprises the vocabulary of the first subset and additional randomly selected words of the total set V 0 and is supplemented with E 0 using the pattern of an “ambient noise”.
Die bei einem Erkennungsvorgang zu den Wörtern der zweitenThe one in the recognition process to the words of the second
Teilmenge E0 gebildeten Hypothesen werden nach der ermittelten Trefferwahrscheinlichkeit gereiht und aus einer vorbestimmten Anzahl H der erstgereihten Hypothesen wird der wahrscheinlichste Treffer ermittelt.Subset E 0 hypotheses formed are ranked according to the hit probability determined and the most likely hit is determined from a predetermined number H of the first ranked hypotheses.
Durch geeignete Wahl der Anzahl E der Wörter von zweiter Teilmenge E bzw. ergänzter zweiter Teilmenge E0 und der vorbestimmten Anzahl H der erstgereihten Hypothesen kann nun die Eigenschaft des Spracherkennungsverfahrens hinsichtlich des Verhältnisses von Falschrückweisungsrate R, Falschakzeptanzrate A und Verwechslungsrate C an die jeweilige Situation angepasst werden.By a suitable choice of the number E of words from the second subset E or the supplemented second subset E 0 and the predetermined number H of the first-ranked hypotheses, the property of the speech recognition method with regard to the ratio of false rejection rate R, false acceptance rate A and mix-up rate C can now be adapted to the respective situation become.
So kann beispielsweise in erfahrungsgemäß lauten Situationen die Falschakzeptanzrate besonders niedrig gewählt werden.For example, in situations which are known to be noisy, the false acceptance rate can be chosen to be particularly low.
Die mathematischen Grenzen für die Wahl der zweiten Teilmenge E0 und deren Größe E sowie der vorbestimmten Anzahl H der erstgereihten Hypothesen sind m den Formeln 0, 1 und 2 der Figur definiert.The mathematical limits for the choice of the second subset E 0 and its size E and the predetermined number H of first-ranked hypotheses are defined in formulas 0, 1 and 2 of the figure.
Im folgenden wird nun ein vorteilhaftes Optimierungsver fahren naher erläutert. Dazu werden die zu optimierenden Werte für die Große E der zweiten Teilmenge E0und die vorbestimmte Anzahl H der erstgereihten Hypothesen als Funktionen von Falschrückweisungsrate R, Falschakzeptanzrate A und Verwechslungsrate C dargestellt.An advantageous optimization process is now explained in more detail below. For this purpose, the values to be optimized for the size E of the second subset E 0 and the predetermined number H of the first-ranked hypotheses are represented as functions of the false rejection rate R, the false acceptance rate A and the mix-up rate C.
Dazu werden die Eigenschaften des Spracherkennungsverfahrens im engeren Sinn zu einem Testvokabular mit einer bestirr-rαfen Anzahl T von Wortern ermittelt. Als Ergebnis werden Testwerte cτ, rτ und aτ zu Falschrückweisungsrate, Falschakzeptanz rate und Verwechslungsrate erhalten.For this purpose, the properties of the speech recognition method are determined in the narrower sense of a test vocabulary with a specific number T of words. As a result, test values c τ , r τ and a τ for false rejection rate, false acceptance rate and mix-up rate are obtained.
Daraus lasst sich für den Spracherkennungsprozess ein c-harak- teristisches Konstantentriple U = (ui, u2, u3) ableiten, welches den Spracherkennungsprozess unabhängig von der Große des zu erkennenden Vokabulars beschreibt.From this, a c-characteristic constant triple U = (ui, u 2 , u 3 ) can be derived for the speech recognition process, which describes the speech recognition process independently of the size of the vocabulary to be recognized.
Die Beziehungen zwischen Konstantentriple U = (ui, u2, u3) und den Testwerten cτ, rτ und aτ zu Falschrückweisungsrate, Falschakzeptanzrate und Verwechslungsrate sind m den Glei- chungen 3,4 und 5 dargestellt.The relationships between constant triples U = (ui, u 2 , u 3 ) and the test values c τ , r τ and a τ regarding the false rejection rate, false acceptance rate and mix-up rate are shown in equations 3, 4 and 5.
Damit lassen sich für eine bestimmte Hypothese zu einem analysierten Merkmalsmuster, d.h. Wort oder Umgebungsgerausch die in den Gleichungen 6 bis 10 dargestellten Aussagen tref- fen:This means that for a certain hypothesis about an analyzed feature pattern, i.e. Word or ambient noise make the statements shown in equations 6 to 10:
Wenn das analysierte Merkmalsmuster ein Wort darstellt, ist die Wahrscheinlichkeit, dass das Spracherkennungssystem dazu eine falsche m der Reihung der Hypothesen an l-ter Stelle aufscheinende Hypothese liefert (d.h. es als anderes Worrt o- der Umgebungsgerausch falsch klassifiziert) , welcheIf the analyzed feature pattern represents a word, the likelihood that the speech recognition system will supply a wrong hypothesis appearing in the order of the hypotheses in the first position (i.e. misclassified it as another word or the ambient noise) is what
- ein Wort ergibt, das der ersten Teilmenge S angehört: p± s (Gig.6) - ein Wort ergibt, das der zweiten Teilmenge E, aber nicht der ersten Teilmenge S angehört p1 VS (Gig.7)- results in a word belonging to the first subset S: p ± s (Gig.6) - results in a word belonging to the second subset E but not the first subset S p 1 VS (Gig.7)
- kein Wort sondern ein Umgebungsgerausch ergibt p G (Gig.8)- not a word but an ambient noise results in p G (Gig.8)
Wenn das analysierte Merkmalsmuster ein Umgebungsgerausch darstellt, ist die Wahrscheinlichkeit, dass das Spracherkennungssystem dazu als Hypothese an der l-ten Stelle der Reihung fälschlich ein Wort angibt, gleichIf the analyzed feature pattern represents an ambient noise, the probability that the speech recognition system incorrectly states a word as a hypothesis at the lth position in the sequence is the same
- q_s (Gig. 9) als der Wahrscheinlichkeit, dass ein Wort aus der ersten Teilmenge S fälschlich angegeben wird undq_ s (Gig. 9) as the probability that a word from the first subset S is incorrectly specified and
- qX s (Gig. 10) als der Wahrscheinlichkeit, dass ein Wort fälschlich angegeben wird, welches der zweiten Teilmenge E, aber nicht der ersten Teilmenge S angehört.qX s (Gig. 10) as the probability that a word is incorrectly specified which belongs to the second subset E but not to the first subset S.
Aus diesen Wahrscheinlichkeiten können nun gemäß den Gleichungen 11, 12, und 13 die Werte für Falschrückweisungsrate R, Falschakzeptanzrate A und Verwechslungsrate C ermittelt werden und für alle zulassigen Kombinationen von zweiter Teilmengengroße E und vorgegebener Anzahl von Hypothesen H gemäß den Gleichungen 1 und 2 Optimalwerte gemäß Gleichung 14. From these probabilities, the values for false rejection rate R, false acceptance rate A and mistake rate C can now be determined in accordance with equations 11, 12 and 13 and for all permissible combinations of second subset size E and predetermined number of hypotheses H in accordance with equations 1 and 2 optimal values in accordance with Equation 14.

Claims

Patentansprüche claims
1. Verfahren zur Optimierung von Spracherkennungsprozes¬ sen, wobei bei jedem Erkennungsvorgang zu jedem Wort '5 der Gesamtmenge (V) der von dem Spracherkennungsprozess erfassten Wörter eine Trefferwahrscheinlichkeits - Hypothese ermittelt wird und wobei aus der Gesamtmenge eine erste Teilmenge (S) ausgewählt wird, welche einen in der augenblicklichen Situation für diesen Erken-0 nungsvorgang zulässigen Wortschatz umfasst, dadurch gekennzeichnet, dass eine zweite Teilmenge (E) von Wörtern ausgewählt wird, welche den Wortschatz der ersten Teilmenge und zusätzliche zufällig ausgewählte Wörter der Gesamtmenge umfasst und dass die zu den Wörtern der5 zweiten Teilmenge gebildeten Hypothesen nach der ermittelten Trefferwahrscheinlichkeit gereiht werden und aus einer vorbestimmten Anzahl (H) der erstgereihten Hypothesen der wahrscheinlichste Treffer ermittelt wird. 01. A method for optimization of Spracherkennungsprozes ¬ sen, wherein 5 of the total amount (V) detected by the speech recognition process words, a hit probability at each recognition operation for each word '- is determined hypothesis and wherein a first subset (S) is selected from the total amount, which comprises a vocabulary permissible in the current situation for this recognition process, characterized in that a second subset (E) of words is selected which comprises the vocabulary of the first subset and additional randomly selected words of the total set and that those relating to the Words of the 5 second subset of hypotheses formed are ranked according to the hit probability determined and the most likely hit is determined from a predetermined number (H) of the first ranked hypotheses. 0
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Größe der zweiten Teilmenge (E) und die Anzahl der erstgereihten Hypothesen (H) , aus denen der wahrscheinlichste Treffer ermittelt wird, mittels Optimierungsverfahren (14) für jeden Erkennungsvorgang festgelegt5 wird.2. The method according to claim 1, characterized in that the size of the second subset (E) and the number of first-ranked hypotheses (H), from which the most likely hit is determined, is determined5 for each recognition process by means of optimization methods (14).
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass für jeden Erkennungsvorgang ein eigenes Optimieruncfs- kriterium gewählt wird.0 Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass eines der Wörter jeder Menge nicht einem Befehl, sondern der Gesamtheit der möglichen Störsignale entspricht.5 3. The method according to claim 2, characterized in that a separate optimization criterion is selected for each recognition process. 0 Method according to one of claims 1 to 3, characterized in that one of the words of each set is not a command but the entirety of the possible ones Interference signals corresponds. 5
PCT/EP2004/013910 2003-12-16 2004-12-07 Method for optimizing speech recognition processes WO2005059896A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP04803592A EP1695336A1 (en) 2003-12-16 2004-12-07 Method for optimizing speech recognition processes

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
AT20252003A AT414283B (en) 2003-12-16 2003-12-16 METHOD FOR OPTIMIZING LANGUAGE RECOGNITION PROCESSES
ATA2025/2003 2003-12-16

Publications (1)

Publication Number Publication Date
WO2005059896A1 true WO2005059896A1 (en) 2005-06-30

Family

ID=34682566

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2004/013910 WO2005059896A1 (en) 2003-12-16 2004-12-07 Method for optimizing speech recognition processes

Country Status (3)

Country Link
EP (1) EP1695336A1 (en)
AT (1) AT414283B (en)
WO (1) WO2005059896A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2040249A1 (en) * 2007-09-20 2009-03-25 Siemens Aktiengesellschaft Österreich Self-optimizing method for speech recognition

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10373611B2 (en) * 2014-01-03 2019-08-06 Gracenote, Inc. Modification of electronic system operation based on acoustic ambience classification

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0757342A2 (en) * 1995-07-31 1997-02-05 AT&T Corp. User selectable multiple threshold criteria for voice recognition
US20010012997A1 (en) * 1996-12-12 2001-08-09 Adoram Erell Keyword recognition system and method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2790586B1 (en) * 1999-03-05 2001-05-18 Auralog VOICE RECOGNITION METHOD AND DEVICE
US20020087307A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented progressive noise scanning method and system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0757342A2 (en) * 1995-07-31 1997-02-05 AT&T Corp. User selectable multiple threshold criteria for voice recognition
US20010012997A1 (en) * 1996-12-12 2001-08-09 Adoram Erell Keyword recognition system and method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TSCHIRK W: "Neural net speech recognizers-voice remote control devices for disabled people", ELEKTROTECHNIK UND INFORMATIONSTECHNIK SPRINGER-VERLAG AUSTRIA, vol. 118, no. 7-8, 2001, pages 367 - 370, XP008045769, ISSN: 0932-383X *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2040249A1 (en) * 2007-09-20 2009-03-25 Siemens Aktiengesellschaft Österreich Self-optimizing method for speech recognition

Also Published As

Publication number Publication date
AT414283B (en) 2006-11-15
EP1695336A1 (en) 2006-08-30
ATA20252003A (en) 2006-01-15

Similar Documents

Publication Publication Date Title
EP0862160B1 (en) Speech recognition method with model adaptation
DE69629873T2 (en) Method and device for controlling a telephone using voice commands
DE19847419A1 (en) Procedure for the automatic recognition of a spoken utterance
DE19963683A1 (en) Architecture for decoding linear block error correction codes with soft decision
DE3216800A1 (en) ARRANGEMENT FOR ENTERING COMMAND WORDS BY LANGUAGE
DE2524804A1 (en) METHOD AND DEVICE FOR AUTOMATIC SPEECH RECOGNITION
WO2005059896A1 (en) Method for optimizing speech recognition processes
WO1993002448A1 (en) Method and device for recognizing individual words of spoken speech
DE102016105747A1 (en) Concept for detecting a decoupling of a first connector part of an electrical connector from a second connector part of the electrical connector
EP0048865B1 (en) Method of recognizing digital data when using a digital data transmission, particularly a data transmission in mobile radio communication systems
WO2000028527A1 (en) Data processing system or communications terminal with a device for recognising speech and method for recognising certain acoustic objects
WO1998021711A1 (en) Method for entering vocal orders
EP1224661B1 (en) Method and arrangement for verifying a speaker with a computer
WO2021213567A1 (en) Computer-implemented method for generating a digital structural plan of an electric switch assembly in a partly automated manner
DE10010232B4 (en) Method and device for speech recognition
DE2936301A1 (en) METHOD AND REALIZER FOR ANALOG / DIGITAL IMPLEMENTATION
DE102017213946B4 (en) Method for processing a recognition result of an automatic online speech recognizer for a mobile terminal
WO2001018793A1 (en) Method and device for detecting and evaluating vocal signals representing a word emitted by a user of a voice-recognition system
EP2040249A1 (en) Self-optimizing method for speech recognition
WO1999040570A1 (en) Method and device for enhancing recognition probability in voice recognition systems
DE102019208945A1 (en) Method and apparatus for comparing a first data point with a second data point
DE10310302A1 (en) Data bus arrangement, in particular a brake system of a vehicle and initialization method for the data bus arrangement
EP1845680B1 (en) Method and device for transmitting combinations of instructions using coded FSK
DE102021131742A1 (en) Computer-implemented method for calibrating a vehicle electric powertrain
DE102020105221A1 (en) Method for addressing at least one bus participant and bus participant as well as system and vehicle with it

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2004803592

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

WWP Wipo information: published in national office

Ref document number: 2004803592

Country of ref document: EP