Beschreibung description
Verfahren zur Optimierung von Spracherkennungsprozessen Technisches GebietProcess for optimizing speech recognition processes Technical field
Die Erfindung betrifft ein Verfahren zur Optimierung von Spracherkennungsprozessen, bei dem bei jedem Erkennungsvor- ga'ng zu jedem Wort der Gesamtmenge der von dem Spracherken- nungsprozess erfassten Wörter eine Trefferwahrscheinlichkeits - Hypothese ermittelt wird und bei dem aus der Gesamtmenge eine erste Teilmenge ausgewählt wird, welche einen in der augenblicklichen Situation für diesen Erkennungsvorgang zulässigen Wortschatz umfasst.The invention relates to a method for optimizing speech recognition processes in which ga at each Erkennungsvor- 'ng to each word of the overall quantity of the speech recognition process recognized words, a hit probability - hypothesis is determined, and wherein a first subset is selected from the total amount, which includes a vocabulary permissible for this recognition process in the current situation.
Stand der TechnikState of the art
Beim Einsatz automatischer Spracherkennungssysteme, bei- spielsweise zur Umwandlung gesprochener Kommandos in elektrische Steuerungsbefehle, wird der Anwender mit dem Problem konfrontiert, dass der Erkennungsvorgang mit einer bestimmten Wahrscheinlichkeit fehlerhafte Ergebnisse liefern wird. Zu diesen fehlerhaften Ergebnissen gehören: das Verwechseln von Befehlen, das fälschliche Rückweisen von Befehlen und das fälschliche Akzeptieren von Störsignaien als Befehle.When using automatic speech recognition systems, for example to convert spoken commands into electrical control commands, the user is faced with the problem that the recognition process will deliver incorrect results with a certain probability. These erroneous results include: confusing commands, incorrectly rejecting commands, and incorrectly accepting spurious signals as commands.
Die jeweiligen Wahrscheinlichkeiten für ein Auftreten eines der genannten Fehler hängen voneinander ab, eine geringe Falschrückweisungsrate bedingt meist eine hohe Falschakzeptanzrate und oft auch eine höhere Verwechslungsrate, umgekehrt führt die Forderung nach einer geringen Falschakzeptanzrate auch zu einer höheren Falschrückweisungsrate.The respective probabilities for the occurrence of one of the errors mentioned depend on one another, a low false rejection rate usually means a high false acceptance rate and often also a higher confusion rate, conversely, the requirement for a low false acceptance rate also leads to a higher false rejection rate.
Je nach Anwendungsfall soll nun das Verhältnis der genannten Fehlerarten zueinander optimiert werden. So besteht insbesondere bei Steuerungsaufgaben in lauter Umgebung die Forderung,
dass lediglich Kommandos des Benutzers zu einem Steuerungsbe¬ fehl fuhren und die Umgebungsgerausche mit hoher Zuverlässig¬ keit zurückgewiesen werden. Hier wird im Interesse einer ge¬ ringen Falschakzeptanzwahrschemlichkeit auch eine höhere Falschrückweisungsrate akzeptiert, wahrend bei anderen Anwen¬ dungen, bei denen der Komfort des Benutzers im Vordergrund steht, die Falschrückweisungsrate niedrig sein soll und dafür eine höhere Falschakzeptanzrate m Kauf genommen wird.Depending on the application, the relationship between the types of errors mentioned should now be optimized. For example, there is a requirement for control tasks in a noisy environment that that only commands of the user to a Steuerungsbe ¬ lack lead and rejected the high Umgebungsgerausche Reliable ¬ ness. Here wrestle Falschakzeptanzwahrschemlichkeit is in the interest of ge ¬ will also accept a higher false rejection rate, while applications for other appli ¬ in which the comfort of the user is in the foreground, the false rejection rate should be low and a higher false acceptance rate for m purchase is taken.
Darstellung der ErfindungPresentation of the invention
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben, mit dem die Eigenschaften eines Spracherkennungsver- fahrens hinsichtlich seiner Fehlerarten anwendungsbezogen optimiert werden können.The invention is based on the object of specifying a method with which the properties of a speech recognition method with regard to its types of errors can be optimized in relation to the application.
Erfmdungsgemaß wird diese Aufgabe gelost mit einem Verfahren der eingangs genannten Art, bei dem eine zweite Teilmenge von Wortern ausgewählt wird, welche den Wortschatz der erstenAccording to the invention, this object is achieved with a method of the type mentioned in the introduction, in which a second subset of words is selected which contain the vocabulary of the first
Teilmenge und zusätzliche zufällig ausgewählte Worter der Gesamtmenge umfasst und bei dem die zu den Wortern der zweiten Teilmenge gebildeten Hypothesen nach der ermittelten Treffer- wahrschemlichkeit gereiht werden und aus einer vorbestammten Anzahl der erstgereihten Hypothesen der wahrscheinlichste Treffer ermittelt wird.Subset and additional randomly selected words of the total amount and in which the hypotheses formed for the words of the second subset are ranked according to the determined probability of hits and the most likely hit is determined from a pre-determined number of first-ranked hypotheses.
Die Erfindung ermöglicht den optimierten Einsatz eines Spracherkennungssystems mit einer konstanten Erkennungsrate. Durch die geeignete Wahl der zweiten Teilmenge und der Anzahl der erstgereihten Hypothesen kann das Verhältnis der oben genannten Fehlerarten "jeder Situation angepasst werden.The invention enables the optimized use of a speech recognition system with a constant recognition rate. By appropriately selecting the second subset and the number of first-ranked hypotheses, the ratio of the above-mentioned types of errors can "be adapted to any situation.
Vorteilhafte Ausgestaltungen der Erfindung ergeben s ch aus den Unteranspruchen .
Gunstig ist es dabei insbesondere, wenn die Große der zweiten Teilmenge und die Anzahl der erstgereihten Hypothesen, aus denen der wahrscheinlichste Treffer ermittelt wird, mittels Optimierungsverfahren für "jeden Erkennungsvorgang festgelegt wird.Advantageous embodiments of the invention result from the subclaims. It is particularly advantageous if the size of the second subset and the number of first-ranked hypotheses from which the most likely hit is determined are determined for each recognition process by means of optimization methods.
Vorteilhaft ist es weiterhin, wenn f r "jeden Erkennungsvor¬ gang ein eigenes Optimierungskriterium gewählt wird.It is also advantageous if for "any Erkennungsvor ¬ transitional own optimization criterion is chosen.
Gunstig ist es auch, wenn eines der Worter "jeder Menge nicht einem Befehl, sondern der Gesamtheit der möglichen Storsigna- le entspricht.It is also beneficial if one of the words "for each set does not correspond to a command, but rather to the entirety of the possible fault signals.
Kurzbeschreibung der ZeichnungBrief description of the drawing
Die Erfindung wird anhand einer Figur naher erläutert, welche die wesentlichen Formeln der mathematischen Grundlagen des erflndungsgemaßen Verfahrens darstellt. Ausfuhrung der ErfindungThe invention is explained in more detail with reference to a figure which represents the essential formulas of the mathematical foundations of the method according to the invention. Implementation of the invention
Nach dem Stand der Technik wird bei einem Verfahren zur Optimierung von Spracherkennungsprozessen bei jedem Erkennungsvorgang zu "jedem Wort der Gesamtmenge V der von dem Sprach- erkennungsprozess erfassten Worter, deren Anzahl gleich V sei und die durch ein Umgebungsgerausch-Muster zu einer Menge V0 ergänzt wird, eine Trefferwahrscheinlichkeits - Hypothese ermittelt. Das wahrscheinlichste Ergebnis, der Treffer, wird nun entweder aus der Gesamtzahl der Hypothesen oder aus einer ersten Teilmenge S0 dieser Hypothesen, die S Worter und ein Umgebungsgerausch-Muster enthalt, ermittelt, wie beispielsweise auch in dem in W. Tschirk, „Neural Net Speech Recogni- zers . Voice Remote Control Devices for Disabled People," e&i Artificial Intelligence 7/8/2001, pp .367-370, 2001, beschrie- benen System.
Zum Beispiel werden bei einem Spracherkennungssystem, welches zur Steuerung der Beleuchtung, der Heizung und des Telephon¬ apparates in einer Wohnung herangezogen wird, nachdem mit ei¬ nem ersten Kommando die Auswahl der „HEIZUNG" erfolgt ist, beim nächsten Schritt nur mehr die Wörter „WÄRMER" oder „KÄLTER" akzeptiert, nicht aber beispielsweise die Wörter „HELLER" oder „DUNKLER" welche in dieser Situation keinen sinnvollen Steuerbefehl ergeben.According to the prior art, in a method for optimizing speech recognition processes for each recognition process for "every word of the total set V, the number of words detected by the speech recognition process, the number of which is equal to V, and which is supplemented by a surrounding noise pattern to form a set V 0 The most likely result, the hit, is now determined either from the total number of hypotheses or from a first subset S 0 of these hypotheses, which contain S words and an ambient noise pattern, as for example in the in W. Tschirk, "Neural Net Speech Recognizers. Voice Remote Control Devices for Disabled People," e & i Artificial Intelligence 7/8/2001, pp. 367-370, 2001. For example, be in a speech recognition system, which is used for control of lighting, heating and the telephone ¬ apparatus in a flat after having ei ¬ nem first command selecting the "heating" is carried out, the next step only the words " WÄRMER "or" KÄLTER "accepted, but not, for example, the words" HELLER "or" DUNKLER "which do not result in a sensible control command in this situation.
Die Wörter „WÄRMER" und „KÄLTER" bilden daher in dieser Situ¬ ation mit dem Muster „Umgebungsgeräusch" die erste Teilmenge SQ der Wahrscheinlichkeits-Hypothesen.Therefore, the words "WARMER" and "Colder" form in this situ ¬ ation with the pattern "ambient noise" the first subset of SQ probability hypotheses.
Erfindungsgemäß wird nun eine zweite Teilmenge E von E Wör- tern ausgewählt, welche den Wortschatz der ersten Teilmenge und zusätzliche zufällig ausgewählte Wörter der Gesamtmenge V0 umfasst und mit dem Muster eines „Umgebungsgeräusch" ergänzt zu E0.According to the invention, a second subset E of E words is now selected, which comprises the vocabulary of the first subset and additional randomly selected words of the total set V 0 and is supplemented with E 0 using the pattern of an “ambient noise”.
Die bei einem Erkennungsvorgang zu den Wörtern der zweitenThe one in the recognition process to the words of the second
Teilmenge E0 gebildeten Hypothesen werden nach der ermittelten Trefferwahrscheinlichkeit gereiht und aus einer vorbestimmten Anzahl H der erstgereihten Hypothesen wird der wahrscheinlichste Treffer ermittelt.Subset E 0 hypotheses formed are ranked according to the hit probability determined and the most likely hit is determined from a predetermined number H of the first ranked hypotheses.
Durch geeignete Wahl der Anzahl E der Wörter von zweiter Teilmenge E bzw. ergänzter zweiter Teilmenge E0 und der vorbestimmten Anzahl H der erstgereihten Hypothesen kann nun die Eigenschaft des Spracherkennungsverfahrens hinsichtlich des Verhältnisses von Falschrückweisungsrate R, Falschakzeptanzrate A und Verwechslungsrate C an die jeweilige Situation angepasst werden.By a suitable choice of the number E of words from the second subset E or the supplemented second subset E 0 and the predetermined number H of the first-ranked hypotheses, the property of the speech recognition method with regard to the ratio of false rejection rate R, false acceptance rate A and mix-up rate C can now be adapted to the respective situation become.
So kann beispielsweise in erfahrungsgemäß lauten Situationen die Falschakzeptanzrate besonders niedrig gewählt werden.For example, in situations which are known to be noisy, the false acceptance rate can be chosen to be particularly low.
Die mathematischen Grenzen für die Wahl der zweiten Teilmenge E0 und deren Größe E sowie der vorbestimmten Anzahl H der
erstgereihten Hypothesen sind m den Formeln 0, 1 und 2 der Figur definiert.The mathematical limits for the choice of the second subset E 0 and its size E and the predetermined number H of first-ranked hypotheses are defined in formulas 0, 1 and 2 of the figure.
Im folgenden wird nun ein vorteilhaftes Optimierungsver fahren naher erläutert. Dazu werden die zu optimierenden Werte für die Große E der zweiten Teilmenge E0und die vorbestimmte Anzahl H der erstgereihten Hypothesen als Funktionen von Falschrückweisungsrate R, Falschakzeptanzrate A und Verwechslungsrate C dargestellt.An advantageous optimization process is now explained in more detail below. For this purpose, the values to be optimized for the size E of the second subset E 0 and the predetermined number H of the first-ranked hypotheses are represented as functions of the false rejection rate R, the false acceptance rate A and the mix-up rate C.
Dazu werden die Eigenschaften des Spracherkennungsverfahrens im engeren Sinn zu einem Testvokabular mit einer bestirr-rαfen Anzahl T von Wortern ermittelt. Als Ergebnis werden Testwerte cτ, rτ und aτ zu Falschrückweisungsrate, Falschakzeptanz rate und Verwechslungsrate erhalten.For this purpose, the properties of the speech recognition method are determined in the narrower sense of a test vocabulary with a specific number T of words. As a result, test values c τ , r τ and a τ for false rejection rate, false acceptance rate and mix-up rate are obtained.
Daraus lasst sich für den Spracherkennungsprozess ein c-harak- teristisches Konstantentriple U = (ui, u2, u3) ableiten, welches den Spracherkennungsprozess unabhängig von der Große des zu erkennenden Vokabulars beschreibt.From this, a c-characteristic constant triple U = (ui, u 2 , u 3 ) can be derived for the speech recognition process, which describes the speech recognition process independently of the size of the vocabulary to be recognized.
Die Beziehungen zwischen Konstantentriple U = (ui, u2, u3) und den Testwerten cτ, rτ und aτ zu Falschrückweisungsrate, Falschakzeptanzrate und Verwechslungsrate sind m den Glei- chungen 3,4 und 5 dargestellt.The relationships between constant triples U = (ui, u 2 , u 3 ) and the test values c τ , r τ and a τ regarding the false rejection rate, false acceptance rate and mix-up rate are shown in equations 3, 4 and 5.
Damit lassen sich für eine bestimmte Hypothese zu einem analysierten Merkmalsmuster, d.h. Wort oder Umgebungsgerausch die in den Gleichungen 6 bis 10 dargestellten Aussagen tref- fen:This means that for a certain hypothesis about an analyzed feature pattern, i.e. Word or ambient noise make the statements shown in equations 6 to 10:
Wenn das analysierte Merkmalsmuster ein Wort darstellt, ist die Wahrscheinlichkeit, dass das Spracherkennungssystem dazu eine falsche m der Reihung der Hypothesen an l-ter Stelle aufscheinende Hypothese liefert (d.h. es als anderes Worrt o- der Umgebungsgerausch falsch klassifiziert) , welcheIf the analyzed feature pattern represents a word, the likelihood that the speech recognition system will supply a wrong hypothesis appearing in the order of the hypotheses in the first position (i.e. misclassified it as another word or the ambient noise) is what
- ein Wort ergibt, das der ersten Teilmenge S angehört: p± s (Gig.6)
- ein Wort ergibt, das der zweiten Teilmenge E, aber nicht der ersten Teilmenge S angehört p1 VS (Gig.7)- results in a word belonging to the first subset S: p ± s (Gig.6) - results in a word belonging to the second subset E but not the first subset S p 1 VS (Gig.7)
- kein Wort sondern ein Umgebungsgerausch ergibt p G (Gig.8)- not a word but an ambient noise results in p G (Gig.8)
Wenn das analysierte Merkmalsmuster ein Umgebungsgerausch darstellt, ist die Wahrscheinlichkeit, dass das Spracherkennungssystem dazu als Hypothese an der l-ten Stelle der Reihung fälschlich ein Wort angibt, gleichIf the analyzed feature pattern represents an ambient noise, the probability that the speech recognition system incorrectly states a word as a hypothesis at the lth position in the sequence is the same
- q_s (Gig. 9) als der Wahrscheinlichkeit, dass ein Wort aus der ersten Teilmenge S fälschlich angegeben wird undq_ s (Gig. 9) as the probability that a word from the first subset S is incorrectly specified and
- qX s (Gig. 10) als der Wahrscheinlichkeit, dass ein Wort fälschlich angegeben wird, welches der zweiten Teilmenge E, aber nicht der ersten Teilmenge S angehört.qX s (Gig. 10) as the probability that a word is incorrectly specified which belongs to the second subset E but not to the first subset S.
Aus diesen Wahrscheinlichkeiten können nun gemäß den Gleichungen 11, 12, und 13 die Werte für Falschrückweisungsrate R, Falschakzeptanzrate A und Verwechslungsrate C ermittelt werden und für alle zulassigen Kombinationen von zweiter Teilmengengroße E und vorgegebener Anzahl von Hypothesen H gemäß den Gleichungen 1 und 2 Optimalwerte gemäß Gleichung 14.
From these probabilities, the values for false rejection rate R, false acceptance rate A and mistake rate C can now be determined in accordance with equations 11, 12 and 13 and for all permissible combinations of second subset size E and predetermined number of hypotheses H in accordance with equations 1 and 2 optimal values in accordance with Equation 14.