DE60007637T2 - Avoidance of online speaker overfitting in speech recognition - Google Patents

Avoidance of online speaker overfitting in speech recognition Download PDF

Info

Publication number
DE60007637T2
DE60007637T2 DE2000607637 DE60007637T DE60007637T2 DE 60007637 T2 DE60007637 T2 DE 60007637T2 DE 2000607637 DE2000607637 DE 2000607637 DE 60007637 T DE60007637 T DE 60007637T DE 60007637 T2 DE60007637 T2 DE 60007637T2
Authority
DE
Germany
Prior art keywords
speech
adaptation
recognition
cam
current acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE2000607637
Other languages
German (de)
Other versions
DE60007637D1 (en
Inventor
Silke Hedelfinger Strasse 61 Goronzy
Ralf Hedelfinger Strasse 61 Kompe
Krzysztof Hedelfinger Strasse 61 Marasek
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony International Europe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony International Europe GmbH filed Critical Sony International Europe GmbH
Publication of DE60007637D1 publication Critical patent/DE60007637D1/en
Application granted granted Critical
Publication of DE60007637T2 publication Critical patent/DE60007637T2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Erkennung von Sprache gemäß dem Oberbegriff des Anspruchs 1 und insbesondere ein Verfahren zur Erkennung von Sprache, bei dem eine Überanpassung an bestimmte Worte während einer Online-Sprecheranpassung vermieden wird.The The present invention relates to a method for recognizing speech according to the generic term of claim 1 and in particular a method for the detection of Language in which an overfitting to certain words during an online speaker adjustment is avoided.

In heutigen Verfahren und Geräten bzw. Vorrichtungen zur automatischen Spracherkennung sind so genannte Online-Sprecheranpassungsprozesse implementiert, um die Verfahren und Geräte hinsichtlich großer Veränderungen von möglichen Sprecherverhalten der Sprecher flexibel zu machen.In today's procedures and equipment or devices for automatic speech recognition are so-called Online speaker adaptation processes implemented, about the procedures and equipment regarding large changes of possible To make speaker behavior flexible.

Bei herkömmlichen Verfahren zur Spracherkennung wird ein aktuelles akustisches Modell beim Erkennungsprozess verwendet, insbesondere für eine Menge von gegebenen Sprachphrasen, die innerhalb eines ankommenden Sprachflusses erkannt werden sollen. Das implementierte aktuelle akustische Modell enthält Informationen, die für den Erkennungsprozess als solchen relevant sind, insbesondere für alle potentiellen, d. h. möglichen Sprecher (sprecherunabhängige Erkennung). Um die Erkennungsrate zu erhöhen, werden die akustischen Modelle zur Spracherkennung während des Erkennungsprozesses angepasst (adaptiert) in Abhängigkeit von wenigstens einem bereits erhaltenen Erkennungsergebnis. Anpassung bedeutet, bestimmte Informationen zu extrahieren, die nötig sind zur Fokussierung auf bestimmte Sprachcharakteristiken des aktuellen Sprechers. Der Prozess, das aktuelle akustische Modell anzupassen, hängt daher von der Auswertung bzw. Evaluierung von Sprachphrasenuntereinheiten ab, die in einer Sprachphrase enthalten sind, die gerade verarbeitet wird und/oder kürzlich erkannt wurde. Es können nicht nur beobachtete bzw, aufgetretene Einheiten angepasst werden, sondern auch unbeobachtete Einheiten bzw. nicht aufgetretene Einheiten. Das heißt, die Sprachphraseuntereinheit wird ausgewertet mit Bezug zur akustischen Nachbarschaft, die in der ausgewerteten Äußerung auftritt.at usual The speech recognition process becomes a current acoustic model used in the recognition process, especially for a lot of given Speech phrases that are recognized within an incoming speech flow should. The implemented current acoustic model contains information the for the recognition process as such is relevant, especially for all potential d. H. potential Speaker (speaker independent Recognition). To increase the detection rate, the acoustic Speech recognition models during of the recognition process adapted (adapted) depending on of at least one recognition result already received. Adaptation means extracting certain information that is necessary to focus on certain language characteristics of the current Speaker. The process of adapting the current acoustic model depends therefore from the evaluation or evaluation of speech phrase subunits that are contained in a language phrase that is currently being processed will and / or recently was recognized. It can not only the observed or occurring units are adjusted, but also unobserved units or non-occurred units. This means, the speech phrase subunit is evaluated with reference to the acoustic neighborhood, that occurs in the evaluated utterance.

Bei Anwendungen gewöhnlicher Verfahren und Vorrichtungen zur Spracherkennung enthält die Spracheingabe bestimmte Sprachphrasen, Wörter oder Geräusche in einem bestimmten Kontext sehr viel häufiger als die meisten anderen Wörter, wobei dies vom bestimmten Kontext bzw. der Umgebung in der die angewandten Verfahren und Vorrichtungen arbeiten müssen, abhängt. Beispielsweise kommen bei der Anwendung eines Verfahrens zur Spracherkennung für ein Verkehrsinformationssystem Phrasen und Wörter, die spezifisch für bestimmte Orte sind, Reiserouten, Verkehrsmittel, bestimmte Kommandos oder ähnliches, sehr viel häufiger vor als andere Orte im Vokabular.at Applications more common Speech input contains methods and devices for speech recognition certain speech phrases, words or Sounds in a given context, much more often than most others words, this depends on the specific context or the environment in which the applied Procedures and devices must work depends. For example, come with the application of a method for speech recognition for a traffic information system Phrases and words, the specific for are certain places, itineraries, means of transport, certain commands or similar, much more often ahead than other places in the vocabulary.

Herkömmliche Verfahren und Vorrichtungen zur Spracherkennung haben den großen Nachteil, dass sie sich während des Anpassungsprozesses des aktuellen akustischen Modells auf jede empfangene Sprachphrase oder Wort gleichermaßen fokussieren. Somit beeinflussen empfangene Sprachphrasen oder Wörter, die häufig auftreten, die Modifikation und Anpassung des aktuellen akustischen Modells sehr viel mehr als Wörter oder Phrasen, die nicht häufig auftreten.conventional Methods and devices for speech recognition have the major disadvantage that them while the process of adapting the current acoustic model to each focus received speech phrase or word equally. So influence received speech phrases or words, the often occur, the modification and adaptation of the current acoustic Model much more than words or phrases that are not common occur.

Das Ergebnis nach der Anwendung von konventionellen Verfahren zur Anpassung ist, dass häufig auftretende Sprachphrasen oder Wörter mit einer sehr kleinen Fehlerrate erkannt werden, die Erkennungsrate für andere Vokabeln jedoch schlechter ist.The Result after using conventional adjustment methods is that often occurring speech phrases or words can be detected with a very small error rate, the detection rate for others Vocabulary however is worse.

Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Spracherkennung bereitzustellen, bei dem der Einfluss von häufig auftretenden Sprachphrasen oder Wörtern innerhalb des empfangenen Sprachflusses auf den Anpassungsprozess bezogen auf das aktuelle akustische Modell ausgewogen ist.The The present invention has for its object a method to provide for speech recognition, in which the influence of frequently occurring Speech phrases or words within the received language flow on the adaptation process is balanced based on the current acoustic model.

Die Aufgabe wird bei einem Verfahren zur Spracherkennung gemäß dem Oberbegriff des Anspruchs 1 mit den Merkmalen von Anspruch 1 gelöst. Bevorzugte und vorteilhafte Ausführungsformen des erfindungsgemäßen Verfahrens zur Spracherkennung sind in den abhängigen Ansprüchen enthalten.The The task is in a method for speech recognition according to the preamble of claim 1 with the features of claim 1 solved. preferred and advantageous embodiments of the method according to the invention for speech recognition are contained in the dependent claims.

Das erfindungsgemäße Verfahren zur Spracherkennung ist dadurch gekennzeichnet, dass Anpassungszahlen und/oder Auftrittszahlen bzw. Häufigkeitszahlen für jede der Sprachphrasen, Wörter, Untereinheiten oder ähnliches gezählt werden, als Anzahl, dass eine bestimmte Sprachphrase als Basis zur Anpassung des aktuellen akustischen Modells verwendet wird bzw. als Anzahl von erkannten Auftritten bzw. Vorkommnissen der bestimmten Sprachphrase in dem empfangenen Sprachfluss, und dass beim Prozess der Anpassung des aktuellen akustischen Modells das Maß der Anpassung basierend auf einer bestimmten Sprachphrase von wenigstens seiner bestimmten Anpassungszahl und/oder Auftrittszahl abhängig gemacht wird, insbesondere so, dass der Einfluss von häufigen Sprachphrasen im empfangenen Sprachfluss auf den Anpassungsprozess abgeschwächt wird.The inventive method for speech recognition is characterized in that adaptation numbers and / or occurrence numbers or frequency numbers for every of speech phrases, words, subunits or similar counted be, as a number, that a certain language phrase as a basis for Adaptation of the current acoustic model is used or as the number of recognized appearances or occurrences of the certain Speech phrase in the received flow of speech, and that in the process the degree of adaptation of the adaptation of the current acoustic model based on a particular language phrase from at least his certain adaptation number and / or number of performances made dependent will, especially so that the influence of frequent speech phrases in the received Language flow on the adaptation process is weakened.

Die Idee der vorliegenden Erfindung ist also, die auftretenden Sprachphrasen innerhalb des ankommenden Sprachflusses durch ihre Auftrittshäufigkeiten und/oder durch ihre Häufigkeit, mit der sie als Basis zur Anpassung des aktu ellen akustischen Modells verwendet werden, zu unterscheiden. Erfindungsgemäß werden deshalb Auftrittszahlen und/oder Anpassungszahlen für jede der möglichen zu erkennenden Sprachphrasen gezählt.The The idea of the present invention is therefore the speech phrases that occur within the incoming speech flow by their frequency of occurrence and / or by their frequency, with which they serve as the basis for adapting the current acoustic model used to differentiate. According to the invention therefore performance figures and / or adaptation figures for each of the possible to recognizing speech phrases counted.

Eine weitere Idee der vorliegenden Erfindung ist, in jedem Anpassungsschritt oder -prozess des aktuellen akustischen Modells, das in jedem Fall von einem bereits erhaltenen Erkennungsergebnis abhängt, d. h. von einer auf getretenen und erkannten Sprachphrase oder ähnlichem, bestimmte Anpassungszahlen und/oder Auftrittszahlen der bestimmten gerade behandelten Sprachphrase für den Anpassungsprozess oder Prozess, der durchgeführt werden soll, zu zählen. Das Anpassungsmaß hinsichtlich einer bestimmten Sprachphrase erfolgt in Abhängigkeit von wenigstens einer bestimmten Anpassungszahl und/oder Auftrittszahl der bestimmten Sprachphrase. Die Stärke der Anpassung bzw. das Anpassungsmaß können als Gewicht oder Wichtungsfaktor verstanden werden, die den Einfluss der analysierten Sprachphrasenuntereinheit und der bestimmten Sprachphrase auf die aktuelle Parameterschätzung für den Anpassungsprozess des aktuellen akustischen Modells steuern bzw, regeln.A Another idea of the present invention is in every adjustment step or process of the current acoustic model, which in any case of depends on a recognition result already received, d. H. from one to stepped on and recognized speech phrase or the like, certain adaptation numbers and / or performance figures of the certain language phrase just discussed for the adjustment process or Process that will be carried out is supposed to count. The measure of adaptation in terms of a certain language phrase is dependent on at least one certain adaptation number and / or number of appearances of the certain language phrase. The strenght The adjustment or the adjustment measure can be used as a weight or weighting factor understood the influence of the analyzed speech phrase subunit and the specific language phrase to the current parameter estimate for the adaptation process control or regulate the current acoustic model.

Das Anpassungsmaß und ihre Abhängigkeit von den Anpassungszahlen und/oder Auftrittszahlen werden so gewählt, dass der Einfluss von häufig auftretenden Sprachphrasen im empfangenen Sprachfluss auf den Anpassungsprozess bzw. Adaptionsprozess hinsichtlich des aktuellen akustischen Modells verringert wird.The Adaptation measure and their dependence on the adaptation numbers and / or performance numbers are chosen so that the influence of often occurring speech phrases in the received speech flow on the adaptation process or adaptation process with regard to the current acoustic model is reduced.

Im Gegensatz zu bekannten Verfahren und Vorrichtungen zur Spracherkennung, wird beim erfindungsgemäßen Verfahren zur Spracherkennung nicht jeder Auftritt bzw. jedes Vorkommnis einer bestimmten Sprachphrase im ankommenden Sprachfluss in äquivalenter Art und Weise ausgewertet, was mehr oder weniger zu einer Proportionalität führt zwischen der Häu figkeit aufgetretener Sprachphrasen und dem Einfluss auf den Anpassungsprozess, sondern es wird die Stärke der Anpassung für eine bestimmte Sprachphrase häufigkeitsabhängig gemacht.in the Contrary to known methods and devices for speech recognition, is in the inventive method not every appearance or every occurrence of a speech recognition specific language phrase in the incoming language flow in equivalent Way evaluated, which more or less leads to a proportionality between the frequency occurring speech phrases and the influence on the adaptation process, but it becomes the strength the adjustment for a certain language phrase made frequency dependent.

Bevorzugt basiert das aktuelle akustische Modell auf einer Menge von Modellfunktions-Mixtures. Der Anpassungsprozess wird dann durchgeführt, indem die Funktionen, Modellfunktions-Mixtures und/oder die Modellfunktions-Mixturekomponenten selbst transformiert werden und/oder durch zumindest teilweises Verändern von Beiträgen der Modellfunktions-Mixturekomponenten der Modellfunktions-Mixtures. Die Anpassung des aktuellen akustischen Modells kann daher einfach durchgeführt werden durch Dämpfung und/oder Erhöhung des Einflusses der bestimmten Modellfunktions-Mixturekomponenten – d. h. deren Amplituden oder Beiträge – auf den gesamten Modellcharakter der jeweiligen Modellfunktions-Mixtures in dem aktuellen akustischen Modell.Prefers the current acoustic model is based on a set of model function mixes. The adaptation process is then carried out by the functions, Model function mixes and / or the model function mixture components be transformed yourself and / or by at least partially Change of contributions the model function mixture components of the model function mixtures. The adaptation of the current acoustic model can therefore be carried out easily by damping and / or increase the influence of certain model function mixture components - d. H. their amplitudes or contributions - to the entire model character of the respective model function mixtures in the current acoustic model.

Der ankommende Sprachfluss kann als eine Konkatenation, Aneinanderreihung, Verkettung oder Kombination von vorbestimmten und klar definierten akustischen Einheiten klassifiziert werden. Diese können beispielsweise Sprachphrasen oder Sprachphrasenuntereinheiten genannt werden. Gemäß einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung werden als Sprachphrasen und/oder als Sprachphrasenuntereinheiten des aktuellen akustischen Modells Wörter, Wortuntereinheiten, Phone, Phoneme, Silben, Buchstaben und/oder dergleichen und/oder Kombinationen oder Konkatenationen dieser verwendet. Die Wahl einer Zustandsverfeinerung des ankommenden Sprachflusses ist eine Frage der Bequemlichkeit und Praktizierbarkeit. Im Allgemeinen kann der ankommende Sprachfluss als eine Konkatenation von Wörtern oder Wortuntereinheiten klassifiziert werden, wohingegen die Sprachphrasenunter einheiten auf einer feineren Struktur basieren, z. B. auf der Basis von Phonemen, Silben oder dergleichen. In jedem Fall sind die Sprachphrasen Kombinationen und/oder Konkatenationen der Sprachphrasenuntereinheiten.The incoming flow of speech can be seen as a concatenation, stringing together, Concatenation or combination of predetermined and clearly defined acoustic Units are classified. For example, these can be speech phrases or speech phrase subunits. According to one preferred embodiment of the method according to the invention for speech recognition are used as speech phrases and / or as speech phrase subunits of the current acoustic model words, word subunits, phone, Phonemes, syllables, letters and / or the like and / or combinations or concatenations of these are used. Choosing a state refinement the incoming flow of speech is a matter of convenience and practicability. In general, the incoming flow of speech as a concatenation of words or word subunits are classified, whereas the speech phrase subunits based on a finer structure, e.g. B. on the basis of phonemes, Syllables or the like. In any case, the speech phrases are combinations and / or concatenations of the speech phrase subunits.

Gemäß einer weiteren vorteilhaften Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung wird eine Anpassung des aktuellen akustischen Modells wiederholt durchgeführt, jeweils nach einer gegebenen Anzahl von durchgeführten Erkennungsschritten und/oder erhaltenen Erkennungsergebnissen. Weiterhin kann eine Anpassung des aktuellen akustischen Modells wiederholt durchgeführt werden, jeweils nach einer gegebenen Anzahl von erhaltenen und/oder erkannten Sprachphrasen. Diese Unterscheidung beschreibt Fälle, in denen die Anzahlen der Erkennungsschritte und der Erkennungsergebnisse nicht übereinstimmen und/oder Fälle, in denen nicht alle erhaltenen Sprachphrasen erkannt werden.According to one another advantageous embodiment of the method according to the invention an adaptation of the current acoustic is used for speech recognition Of the model repeatedly, in each case after a given number of recognition steps carried out and / or recognition results obtained. Furthermore, an adjustment of the current acoustic model are carried out repeatedly, after a given number of received and / or recognized Speech phrases. This distinction describes cases where the numbers the detection steps and the detection results do not match and / or cases, in which not all received speech phrases are recognized.

In einer weiteren bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung wird eine Anpassung des aktuellen akustischen Modells wiederholt durchgeführt nach jeder festgelegten und/oder vorgegebenen Anzahl von durchgeführten Erkennungsschritten, erhaltenen Erkennungsergebnissen und/oder empfangenen erkannten Sprachphrasen, insbesondere nach jedem Erkennungsschritt/-ergebnis und/oder empfangenen/erkannten Sprachphrase.In a further preferred embodiment of the method according to the invention an adaptation of the current acoustic is used for speech recognition Model performed repeatedly after each defined and / or specified number of recognition steps carried out, obtained recognition results and / or received recognition Speech phrases, especially after each recognition step / result and / or received / recognized speech phrase.

Weiterhin können die Anzahlen der durchgeführten Erkennungsschritte, der erhaltenen Erkennungsergebnisse und/oder der empfangenen oder erkannten Sprachphrasen, nach denen eine Anpassung des aktuellen akustischen Modells durchgeführt wird, während des Prozesses der Erkennung oder Anpassung bestimmt werden.Farther can the number of performed Recognition steps, the recognition results obtained and / or of the received or recognized speech phrases, after which an adjustment of the current acoustic model is performed during the recognition process or adjustment can be determined.

Gemäß den oben beschriebenen Maßnahmen ist es nicht notwendig, dass eine Anpassung des aktuellen akustischen Modells nach jedem Erkennungsschritt durchgeführt wird, sondern eine Anpassung kann nach einer vorgegebenen Anzahl von Erkennungsschritten oder erhaltenen Erkennungsergebnissen stattfinden. Die bestimmenden Anzahlen können in einem Onlineprozess während der Erkennung oder Anpassung bestimmt werden. Sie können aber auch als vorbestimmte Werte vor einer Erkennungssitzung festgelegt werden und können in Abhängigkeit der bestimmten Spracherkennungssitzung (Spracherkennungssession) verändert werden.According to the measures described above, it is not necessary that the current acoustic model is carried out after each recognition step, but an adaptation can take place after a predetermined number of recognition steps or recognition results obtained. The determining numbers can be determined in an online process during recognition or adaptation. However, they can also be defined as predetermined values before a recognition session and can be changed depending on the particular speech recognition session (speech recognition session).

Ein besonderer Punkt ist die Bestimmung der Anpassungszahlen und/oder der Auftrittszahlen der bestimmten Sprachphrasen, die im ankommenden Sprachfluss enthalten sein können. Die einfachste Form des erfindungsgemäßen Verfahrens wird erreicht, indem eine feste Grenzwertzahl bestimmt wird, mit der jeder Auftritt und/oder jede Verwendung der Sprachphrase in einem Anpassungsprozess verglichen werden, und dann davon abgesehen wird, eine gegebene Sprachphrase für einen anderen Anpassungsprozess zu verwenden, und zwar bei einer bestimmten Anpassungszahl und/oder Auftrittszahl, die erreicht wird und/oder die gegebene und feste Grenzwertzahl überschreitet.On special point is the determination of the adaptation numbers and / or the number of occurrences of the specific speech phrases in the incoming speech flow can be included. The simplest form of the method according to the invention is achieved by determining a fixed limit number with which each occurrence and / or any use of the language phrase in an adaptation process be compared, and then apart from a given one Language phrase for to use a different adaptation process, for a specific one Adaptation number and / or number of performances that is achieved and / or exceeds the given and fixed limit number.

Die Grenzwertzahl kann für jede der Sprachphrasen oder für deren Klassen unabhängig festgesetzt werden. Die Grenzwertzahlen können als feste und/oder vorbestimmte Werte festgelegt werden, oder sie können auch während des Prozesses verändert und berechnet werden.The Limit number can for each of the speech phrases or for whose classes are independent be fixed. The limit values can be fixed and / or predetermined Values can be set or they can also be changed and modified during the process be calculated.

Gemäß einer weiteren bevorzugten Ausführungsform des Verfahrens zur Spracherkennung werden die gezählten Anpassungszahlen und/oder Auftrittszahlen nicht nur vom Anfang der Erkennungssitzung an gezählt, sondern es wird zugelassen, diese während dem Fortschreiten der aktuellen Erken nungssitzung zu verringern und/oder zu reduzieren. Insbesondere können jede bestimmte Anpassungszahl und/oder Auftrittszahl einer gegebenen Sprachphrase reduziert, verringert, vermindert und/oder auf Null zurückgesetzt werden, und zwar nach vorgegebenen abgelaufenen Zeitabschnitten einer vorgegebenen Gesamtanzahl von Erkennungsergebnissen oder -schritten, einer vorgegebenen Gesamtanzahl von Anpassungsschritten und/oder einer vorgegebenen Gesamtanzahl von empfangenen und/oder erkannten Sprachphrasen oder Äußerungen, insbesondere seit der letzten Inkrementierung der eindeutigen Anpassungszahl und/oder Auftrittszahl.According to one another preferred embodiment of the method of speech recognition are the counted adaptation numbers and / or performance numbers not just from the start of the recognition session counted on but it is allowed to do this as the progression of the reduce and / or reduce the current detection session. In particular can any particular number of adjustments and / or number of appearances given Speech phrase reduced, decreased, decreased and / or to zero reset are, namely after predetermined elapsed periods a predetermined total number of recognition results or steps, a predetermined total number of adjustment steps and / or a predetermined total number of received and / or recognized Speech phrases or utterances, especially since the last increment of the unique adjustment number and / or number of performances.

Gemäß den oben beschriebenen Maßnahmen ist es möglich, das Anpassungsmaß zu verändern, d. h. den Einfluss einer gegebenen Sprachphrase auf den Anpassungsprozess, sowohl in abschwächender als auch in verstärkender Art und Weise in Abhängigkeit der Häufigkeit ihres Auftritts. Wenn eine gegebene Sprachphrase beispielsweise in einem ersten Erkennungsabschnitt (einem ersten Erkennungszeitabschnitt) sehr häufig auftritt, wird ihr Anpassungsmaß erfindungsgemäß verringert, so dass eine Überanpassung hinsichtlich dieser bestimmten Sprachphrase vermieden wird. Anschließend kann ein zweiter Erkennungsabschnitt auftreten, indem diese bestimmte Sprachphrase nicht enthalten ist und nicht empfangen wird. Falls dann in einem dritten Erkennungsabschnitt die genannte bestimmte Sprachphrase wieder auftritt, wird der Einfluss auf den Anpassungsprozess in Übereinstimmung mit einer solchen Sprachphrase auf einer höheren Ebene ausgewertet im Vergleich zum ersten Abschnitt der Auftrittshäufigkeit der in Frage stehenden Sprachphrase. Gemäß der oben beschriebenen Ausführungsform können das Anpassungsmaß und damit der Einfluss einer Sprachphrase auf den Anpassungsprozess wieder aufgenommen werden in Zeitabschnitten des Anpassungsprozesses mit niedrigen Häufigkeiten oder keinen Auftritten der zu behandelnden Sprachphrase.According to the above measures described Is it possible, the measure of adjustment too change, d. H. the influence of a given language phrase on the adaptation process, both in weakening as well in reinforcing Way depending the frequency of their appearance. For example, if a given language phrase is in a first recognition period (a first recognition period) very often occurs, their degree of adaptation is reduced according to the invention, so an overfitting is avoided with respect to this particular language phrase. Then you can a second detection section occur by determining this Voice phrase is not included and is not received. If then in a third recognition section the specified one Language phrase reappears, will affect the adjustment process in accordance evaluated with such a language phrase at a higher level Comparison to the first section of the frequency of occurrence of the one in question Spoken phrase. According to the above described embodiment can the measure of adaptation and thus the influence of a language phrase on the adaptation process again are included in periods of the adjustment process with low frequencies or no appearances of the language phrase to be treated.

Gemäß einer weiteren bevorzugten Ausführungsform wird das Anpassungsmaß in Bezug zu jeder Sprachphrase und/oder jeder Sprachphraseuntereinheit während des Anpassungsprozesses des aktuellen akustischen Modells herabgesetzt – insbesondere streng – monoton mit der Erhöhung der Anpassungszahlen und/oder der Auftrittszahlen bei jedem Fall, insbesondere umgekehrt proportional. Mit dem erfindungsgemäßen Verfahren wird so erreicht, dass häufig auftretende Sprachphrasen eine geringere Anpassungsstärke erhalten und somit einen geringeren Einfluss auf den Anpassungsprozess des aktuellen akustischen Modells haben.According to one another preferred embodiment is the measure of adaptation in Relation to each language phrase and / or each language phrase subunit while the adaptation process of the current acoustic model is reduced - in particular strict - monotonous with the increase the number of adjustments and / or the number of appearances in each case, especially inversely proportional. With the method according to the invention is achieved that often occurring speech phrases get less adaptability and thus less influence on the adaptation process of the current one acoustic model.

Zusätzlich zu der Abhängigkeit von bestimmten Auftritten und Einbeziehung in den Anpassungsprozess kann das Anpassungsmaß festgesetzt werden in Abhängigkeit einer abgelaufenen Zeitspanne, einer Gesamtanzahl von empfangenen und/oder erkannten Sprachphrasen, einer Gesamtanzahl von Anpassungen, die am aktuellen akustischen Modell und/oder dergleichen durchgeführt wurden.In addition to dependency of certain appearances and inclusion in the adjustment process can set the measure of adjustment become dependent an expired period of time, a total number of received and / or recognized speech phrases, a total number of adjustments, that were carried out on the current acoustic model and / or the like.

In einer besonders geeigneten Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung werden Modellfunktions-Mixtures für das aktuelle akustische Modell verwendet, welche zumindest Verteilungsfunktionen oder dergleichen enthalten, und insbesondere Funktionen vom gaußschen Typ oder dergleichen.In a particularly suitable embodiment of the method according to the invention model function mixes for the current acoustic model that uses at least distribution functions or the like, and in particular functions of the Gaussian type or similar.

Die grundlegenden Aspekte der vorliegenden Erfindung können auch wie folgt zusammengefasst werden:The basic aspects of the present invention can also can be summarized as follows:

Sprecheranpassungsverfahren für Spracherkennungssysteme und -verfahren transformieren ein akustisches Modell, um besser zu akustischen Eigenschaften und zum Sprachverhal ten eines gegebenen und bestimmten Sprechers zu passen. Während eines Onlineadaptionsprozesses wird keine Aufzeichnungsphase vor der Anwendung des Systems und des Verfahrens benötigt. Eine Anpassung des aktuellen akustischen Modells kann beispielsweise nach dem Erhalt und/oder der Erkennung jeder einzelnen Sprachphrase und/oder Äußerung oder nach einer gegebenen Anzahl davon stattfinden, insbesondere während das System und das Verfahren online und in Gebrauch sind.Speaker adaptation procedures for speech recognition systems and procedures are transforming acoustic model to better match acoustic characteristics and speech behavior of a given and specific speaker. During an online adaptation process, no recording phase is required before the system and the method are used. The current acoustic model can be adapted, for example, after the receipt and / or recognition of each individual speech phrase and / or utterance or after a given number thereof, in particular while the system and the method are online and in use.

Bei der Anwendung eines solchen Systems oder Verfahrens kann es passieren, dass ein bestimmter Anwender – insbesondere zu Beginn einer Erkennungssitzung (recognizing session) – eine bestimmte Sprachphrase, Wort, Äußerung oder einige wenige davon, verglichen mit anderen, sehr häufig verwendet. In einem solchen Fall würden bekannte Anpassungsverfahren die betroffenen bestimmten akustischen Modelle oder Phonemmodelle nicht nur an den Sprecher anpassen, sondern auch an die bestimmten akustischen Eigenschaften in dem Kontext der häufig auftretenden Wörter, Phrasen oder Äußerungen. Das Ergebnis ist, dass nur diese wenigen Wörter, Phrasen oder Äußerungen gut erkannt werden, andere Wörter, Phrasen oder Äußerungen jedoch schlechter erkannt werden als die häufig auftretenden Wörter, Phrasen oder Äußerungen, weil ihnen bei bekannten Anpassungsprozessen ein höherer Einfluss zukommt. Bekannte Anpassungsverfahren und konventionelle Spracherkennungsverfahren leiden also unter dem Problem einer Überanpassung durch häufig auftretende Wörter.at the application of such a system or process it can happen that a particular user - in particular at the beginning of a recognizing session - a specific one Language phrase, word, utterance or a few of them, used very often compared to others. In such a case known adaptation methods the affected certain acoustic Models or phoneme models not only adapt to the speaker, but also also to the specific acoustic properties in the context of the frequently occurring words, Phrases or utterances. The result is that only those few words, phrases or utterances be well recognized, other words, Phrases or utterances however, are recognized less well than the frequently occurring words, phrases or statements, because they have a greater influence on known adaptation processes due. Known adaptation methods and conventional speech recognition methods therefore suffer from the problem of overfitting due to frequent occurrences Words.

In einem Extremfall, bei welchem beispielsweise die verwendeten Modelle saubere bzw. reine Modelle sind und das System in einer geräuschbelasteten Umgebung (noisy environment) verwendet wird, würden die vorkommenden akustischen Modelle nicht nur an den Sprecher angepasst werden, sondern auch an die Umgebung bzw. die Umgebungsgeräusche.In an extreme case in which, for example, the models used are clean or pure models and the system in a noisy environment Environment (noisy environment) would be used, the occurring acoustic Models can not only be adapted to the speaker, but also to the environment or the ambient noise.

Im Ergebnis wären diese Modelle in den meisten Fällen geeignet (match), da sie besser zu den Umgebungsbedingungen, d. h. zur Geräuschumgebung passen. Somit würden immer diese Wörter erkannt werden, egal was gesagt wurde.in the Result would be these models in most cases suitable (match), since they better match the environmental conditions, i.e. H. to the noise environment fit. So would always these words be recognized no matter what was said.

Spracherkenner beinhalten in den akustischen Modellen statistische Modelle, insbesondere zur Beschreibung von akustischen Eigenschaften der ankommenden Sprache. Wortmodelle sind eine Konkatenation der entsprechenden verfeinerten Modelle, beispielsweise von entsprechenden Phonemmodellen. Die rahmenweise (frame-wise) akustischen Eigenschaften werden innerhalb des aktuellen akustischen Modells durch die Auswertung der Modellfunktions-Mixtures modelliert, insbesondere durch ein Mixture von gaußschen Verteilungsfunktionen, die beispielsweise an Phonemmodelle angefügt werden, die Merkmalsvektoren (feature vectors) entsprechen, die aus dem ankommenden Sprachsignal extrahiert werden. Gewöhnlich werden für jedes Phonem unterschiedliche Modelle verwendet, die vom linken und rechten phonemischen oder akustischen Kontext abhängen. Demgemäß existieren mehrere Tausend oder Zehntausende von Modellen. Um die Rechenlast zu reduzieren, werden ähnliche Verteilungsfunktionen oder Gaußfunktionen (Gaussians) von unterschiedlichen Phonmodellen zusammengefasst (merged) und die sich ergebenden gaußschen Funktionen oder Verteilungsfunktionen werden über gemeinsame Modelle hinweg gemeinsam verwendet. Bei der Onlineanpassung können die veränderten akustischen Modelle und insbesondere deren Parameter gewichtete Summen der alten Parameter und der Schätzung der aktuellen Parameter oder der aktuellen wenigen Äußerungen oder Sprachphrasen sein. Falls ein Anwender eine bestimmte Phrase oder ein bestimmtes Wort wiederholt spricht, transformiert die Sprecheranpassung die bestimmte Verteilung oder Modellfunktions-Mixture, insbesondere vom gaußschen Typ so, dass diese optimal zu der bestimmten Phrase, Äußerung oder zum Wort passt. Somit werden andere Wörter, die nicht häufig auftreten, nach dieser bestimmten Anpassung des aktuellen akustischen Modells unter Umständen schlecht erkannt, da die Gaußfunktionen (Gaussians) aufgrund ähnlicher akustischer Eigenschaften des Grundsystems bzw. Baselinesystems gemeinsam verwendet wurden.speech include statistical models in the acoustic models, especially for Description of acoustic properties of the incoming speech. Word models are a concatenation of the corresponding refined ones Models, for example of corresponding phoneme models. The frame by frame (frame-wise) acoustic properties are within the current acoustic model by evaluating the model function mixtures modeled, especially by a mixture of Gaussian distribution functions, which are added to phoneme models, for example, the feature vectors (feature vectors) correspond to that from the incoming speech signal be extracted. Usually be for each phoneme uses different models from the left and depend on the right phonemic or acoustic context. Accordingly exist several thousand or tens of thousands of models. To the computing load to reduce, will be similar Distribution functions or Gaussian functions (Gaussians) summarized from different phonemodels (merged) and the resulting Gaussian Functions or distribution functions are shared across models shared. With the online adjustment, the changed weighted acoustic models and in particular their parameters Sum of the old parameters and the estimate of the current parameters or the current few statements or be speech phrases. If a user has a specific phrase or speaks a certain word repeatedly, transforms speaker adaptation the particular distribution or model function mixture, in particular from the Gaussian Type so that it optimally matches the particular phrase, utterance or fits the word. So other words that don't appear often after this particular adaptation of the current acoustic model in certain circumstances poorly recognized because of the Gaussian functions (Gaussians) due to similar acoustic Properties of the basic system or baseline system used together were.

In einem ersten Beispiel einer Anpassung basierend auf Maximum-Likelihood-Linear-Regression (MLLR) werden eine oder einige wenige Transformationsmatrizen auf Basis der Sprache eines einzelnen Benutzers geschätzt, um eine große Menge von Gaußfunktionen zu transformieren. Diese Prozedur wird jeweils für einige wenige Äußerungen durchgeführt. Falls die Matrizen nur mittels Äußerungen des gleichen Worts geschätzt werden, so ist die Transformation nicht repräsentativ für alle Gaußfunktionen (Gaussians), und die meisten von ihnen werden falsch transformiert.In a first example of an adjustment based on maximum likelihood linear regression (MLLR) are based on one or a few transformation matrices Based on the language of an individual user estimated to a big Set of Gaussian functions to transform. This procedure is used for a few utterances carried out. If the matrices only by means of utterances of the same word the transformation is not representative of all Gaussian functions (Gaussians), and most of them are wrongly transformed.

Gemäß einem anderen Beispiel, bei dem die Anpassung auf einer Maximum-a-posteriori-Schätzung (MAP) basiert, wird jede Gaußfunktion, die im Sprachsignal einer Äußerung beobachtet wird, individuell transformiert. Da Gaußfunktionen (Gaussians) über Phonemmodelle hinweg gemeinsam verwendet werden, würde eine Anpassung an nur das gleiche Wort eine Anpassung der Gaußfunktionen an einen bestimmten Kontext bedeuten. Die anderen Kontexte würden nicht mehr berücksichtigt bzw. repräsentiert.According to one another example where the fit is based on a maximum a posteriori (MAP) estimate based, every Gaussian function, who observed in the voice signal of an utterance is transformed individually. Since Gaussian functions (Gaussians) about phoneme models shared across, would be an adjustment to just that same word an adaptation of the Gaussian functions to a certain one Context. The other contexts would no longer be taken into account or represents.

Gemäß der Erfindung und dem vorgeschlagenen Verfahren wird aufgezeichnet, in welchem Kontext ein Modellfunktions-Mixture und deren Komponenten, insbesondere eine Verteilungsfunktion oder eine Gaußfunktion, angepasst wurden. Mehrere explizite Lösungen können vorgeschlagen werden.According to the invention and the proposed method, it is recorded in which Context of a model function mixture and its components, in particular a distribution function or a Gaussian function. Several explicit solutions can be suggested.

Bei einer besonders einfachen Lösung wird aufgezeichnet bzw. überwacht, bei welchen Wörtern oder Sprachphrasen oder dergleichen eine Anpassung durchgeführt wird bzw. auftritt. Falls das gleiche Wort, die gleiche Sprachphrase oder Äußerung innerhalb der letzten m Äußerungen, Sprachphrasen, Wörter oder dergleichen im ankommenden Sprachfluss n mal auftreten, werden diese Äußerung, Sprachphrase oder dieses Wort nicht mehr zur Anpassung des aktuellen akustischen Modells verwendet.at a particularly simple solution is recorded or monitored, at which words or Speech phrases or the like an adaptation is carried out or occurs. If the same word, the same language phrase or utterance within the last m statements, Speech phrases, words or the like occur n times in the incoming speech flow this utterance, language phrase or this word no longer to adjust the current acoustic Model used.

Bei einer zweiten Lösung ist die Stärke der Anpassung, d. h. das Gewicht, das den Einfluss der Anpassung auf die aktuelle Parameterschätzung kontrolliert, beispielsweise umgekehrt proportional oder dergleichen zu der Auftrittshäufigkeit der bestimmten Äußerung, Sprachphrase oder des Wortes innerhalb des ankommenden Sprachflusses.at a second solution is the strength the adjustment, d. H. the weight that the influence of adjustment checked for the current parameter estimate, for example inversely proportional or the like to the frequency of occurrence the particular utterance, Speech phrase or word within the incoming speech flow.

Falls während der vergangenen wenigen Äußerungen, Sprachphrasen oder Wörter vom gleichen, insbesondere kontextabhängigen Phonmodell eine bestimmte Modellfunktions-Mixturekomponente, insbesondere vom gaußschen Typ angepasst werden soll und die Statistik für die Anpassung dieses gaußschen Typs (Gaussian) wiederholt berechnet wurde, werden die oben beschriebenen ersten oder zweiten Lösungen verwendet.If while the past few statements, Speech phrases or words a certain one of the same, in particular context-dependent phonemodel Model function Mixturekomponente, especially from the Gaussian Type to be adjusted and the statistics for the adjustment of this Gaussian type (Gaussian) has been calculated repeatedly, the ones described above first or second solutions used.

Angenommen, der Sprecher äußert beispielsweise hintereinander "Goethestraße", "Stettener Straße", "Hauptstraße", so würde in der letzten Äußerung die Modellfunktions-Mixturekomponente, d. h. die entsprechende Gaußfunktion, die mit dem Phonmodell von /a/ zusammenhängt, nicht mehr angepasst werden, da diese immer im gleichen Kontext "Straße" aufgetreten ist. Dagegen könnte das Phonmodell für "t" noch angepasst werden, da es in unterschiedlichen akustischen Kontexten "Goethe", "Stettener" und "Haupt" aufgetreten ist.Accepted, for example, the speaker uttered "Goethestraße", "Stettener Straße", "Hauptstraße" one after the other, so in the last statement the Model function mixture component, d. H. the corresponding Gaussian function, that are related to the phon model of / a / are no longer adapted, since this always occurred in the same context "street". Against that could Phone model for "t" can still be customized as it comes in different acoustic contexts "Goethe", "Stettener" and "Haupt" occurred.

Im Folgenden wird das Verfahren zur Spracherkennung gemäß der Erfindung detaillierter mit Bezug zu einer schemati schen Darstellung auf Basis einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung erläutert.in the The following is the method for speech recognition according to the invention in more detail with reference to a schematic representation based on a preferred embodiment of the method according to the invention explained for speech recognition.

1 ist ein schematisches Blockdiagramm, das die elementaren Schritte einer Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung zeigt. 1 is a schematic block diagram showing the elementary steps of an embodiment of the method for speech recognition according to the invention.

2 ist ein schematisches Blockdiagramm, das die Ausführungsform von 1 detaillierter zeigt. 2 FIG. 10 is a schematic block diagram illustrating the embodiment of FIG 1 shows in more detail.

1 zeigt durch ein schematisches Blockdiagramm elementare oder grundlegende Schritte einer Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung. 1 shows through a schematic block diagram elementary or basic steps of an embodiment of the method for speech recognition.

Im ersten Schritt 11 des Erkennungs- und Anpassungsprozesses 10 von 1 wird der ankommende Sprachfluss, der aus einer Konkatenation von möglichen Sprachphrasen ..., SPj, ... aufgebaut ist, empfangen und vorverarbeitet bzw. umgewandelt in eine Sequenz von entsprechenden Signalen ..., RSj, .... Dann wird im Schritt 12 die Erkennung durchgeführt, bei der ein aktuelles akustisches Modell CAM verwendet wird, das akustische Eigenschaften auf Basis von Phonemmodellen, HMM-Modellen oder dergleichen beschreibt, die in den Erkennungsprozess des Schritts 12 durch den Schritt 16 eingefügt werden und zum Erkennungsergebnis vom Schritt 13 führen.In the first step 11 the recognition and adaptation process 10 of 1 the incoming speech flow, which is made up of a concatenation of possible speech phrases ..., SPj, ..., is received and preprocessed or converted into a sequence of corresponding signals ..., RSj, .... Then in step 12 the recognition is carried out using a current acoustic model CAM, which describes acoustic properties based on phoneme models, HMM models or the like, which are used in the recognition process of the step 12 through the step 16 be inserted and the recognition result of the step 13 to lead.

Im folgenden Schritt 14 werden die eintreffende Sprache vom Schritt 11, das Erkennungsergebnis vom Schritt 13 und weitere Informationen des Erkennungsprozesses vom Schritt 12 ausgewertet, um Alignmentinformation, Abgleich- oder Anordnungsinformation zu erhalten hinsichtlich des Alignments, des Abgleichs oder der Anordnung von empfangenen und/oder erkannten Sprachphrasen ..., SPj, ..., Sprachphrasenuntereinheiten ..., SPSjk, ..., Phonemen oder dergleichen. Auf Basis dieser bestimmten Alignmentinformation wird im Schritt 15 adaptionsstatistische Information in Bezug zu der Anpassung und/oder Auftrittszahlen aj, oj extrahiert und anschließend in den Schritten 15a und 16a in eine Modifikation des aktuellen akustischen Modells CAM eingefügt, falls die Grenzwerte tj und uj für aj bzw. oj nicht überschritten werden, d. h., die Information wird nur für eine begrenzte Anzahl von Anpassungen verwendet.In the next step 14 become the incoming language from step 11 , the recognition result from the step 13 and more information from the step recognition process 12 evaluated in order to obtain alignment information, alignment or arrangement information with regard to the alignment, the alignment or the arrangement of received and / or recognized speech phrases ..., SPj, ..., speech phrase subunits ..., SPSjk, ..., phonemes or like. Based on this specific alignment information, the step 15 Adaptation-statistical information relating to the adaptation and / or occurrence numbers a j , o j extracted and then in the steps 15a and 16a inserted in a modification of the current acoustic model CAM if the limit values t j and u j for a j and o j are not exceeded, ie the information is used only for a limited number of adaptations.

2 zeigt die Verarbeitung innerhalb der Ausführungsform von 1 detaillierter, ebenfalls durch ein schematisches Blockdiagramm. 2 shows the processing within the embodiment of FIG 1 in more detail, also through a schematic block diagram.

In der Anfangs- oder Startphase der Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung wird das Verfahren 20 initialisiert, indem im Schritt 21 der Verarbeitung 20 in 2 alle Anpassungszahlen für alle Sprecher und für alle Sprachphrasen oder Wörter auf Null zurückgesetzt werden.The method is used in the initial or starting phase of the embodiment of the method for speech recognition according to the invention 20 initialized by in step 21 processing 20 in 2 all adjustment numbers for all speakers and for all speech phrases or words are reset to zero.

Im Schritt 22 von 2 wird der ankommende Sprachfluss empfangen und vorverarbeitet. Dann wird im Schritt 23 der Erkennungsprozess durchgeführt, was im Schritt 24 zu dem Erkennungsergebnis in Form einer erkannten Sprachphrase, eines Wortes oder dergleichen führt.In step 22 of 2 the incoming speech flow is received and pre-processed. Then in the crotch 23 the recognition process performed what in step 24 leads to the recognition result in the form of a recognized speech phrase, a word or the like.

Anhand der im Schritt 15 in 1 gewonnenen Adaptionsstatistiken wird bestimmt, ob das bestimmte aufgetretene Wort und/oder erkannte Sprachphrase SPj, Wort oder dergleichen zur Anpassung des aktuellen akustischen Modells CAM mehr als eine gegebene Anzahl tj, uj mal verwendet wurde (Schritt 25). Falls die Anzahl von Verwendungen bzw. Anwendungen kleiner als ein fester Grenzwert tj, uj ist, werden die bestimmte Sprachphrase SPj, Wort oder derglei chen zur Anpassung des aktuellen akustischen Modells CAM verwendet, insbesondere auf der Basis von Phonemmodellen um das HMM-Modell im Schritt 26 zu modifizieren.Using the step 15 in 1 The adaptation statistics obtained determine whether the particular word that has occurred and / or recognized speech phrase SPj, word or the like has been used more than a given number t j , u j times to adapt the current acoustic model CAM (step 25 ). If the number of uses is less than a fixed limit t j , u j , the specific speech phrase SPj, word or the like is used to adapt the current acoustic model CAM, in particular on the basis of phoneme models around the HMM model in step 26 to modify.

Schließlich wird gemäß der Einbeziehung der Sprachphrase SPj oder des in Frage stehenden Wortes die bestimmte Anpassungszahl aj im Schritt 27 um Eins erhöht (inkrementiert), und anschließend wird die Verarbeitung zum Schritt 22 zurückgeführt, um weiteren Sprachfluss zu empfangen.Finally, according to the inclusion of the speech phrase SPj or the word in question, the determined adaptation number a j in the step 27 incremented by one, and then processing becomes step 22 returned to receive further speech flow.

Für den Fall, dass die bestimmte Sprachphrase SPj, das Wort oder die Äußerung in Frage mehr als tj, uj mal in den Anpassungsprozess für das aktuelle akustische Modell CAM einbezogen wurden, geht die Verarbeitung im Schritt 25 zum Schritt 28 über, bei dem die Verarbeitung von einer Anpassung an die bestimmte aufgetretene und/oder erkannte Sprachphrase, das Wort oder die Äußerung oder dergleichen absieht. Das heißt, die Verarbeitung geht in diesem Fall vom Schritt S25 zum Schritt S28 über und es findet keine Anpassung statt. Vom Schritt 28 geht die Verarbeitung zum Schritt 32 zurück, wiederum um einen weiteren ankommenden Sprachfluss zu empfangen.In the event that the specific language phrase SPj, the word or the expression in question has been included more than t j , u j times in the adaptation process for the current acoustic model CAM, the processing proceeds in step 25 to step 28 above, in which the processing refrains from an adaptation to the specific language phrase, word or utterance or the like that has occurred and / or been recognized. That is, the processing goes from step S25 to step S28 in this case and no adjustment takes place. From the step 28 processing goes to step 32 back, again to receive another incoming voice flow.

Gemäß einer weiteren Ausführungsform ist es vorteilhaft, die Grenzwerte tj oder uj (in 1, 2) von der gesamten oder globalen Anzahl x von Anpassungsschritten in einer Erkennungssitzung abhängig zu machen. Zusätzlich oder alternativ können aj, oj auf Null zurückgesetzt werden, falls die Gesamtanpassungszahl x sehr groß ist, z. B. größer als ein gegebener Grenzwert Y, wie in Schritt 29 gezeigt wird. Dieses Maß berücksichtigt die Tatsache, dass nach einer großen Zahl x von Anpassungsschritten der Beitrag eines bestimmten Worts oder Phonems im Verhältnis zu einem Fall mit einer niedrigen Zahl x nicht wichtig ist.According to a further embodiment, it is advantageous to limit values t j or u j (in 1 . 2 ) depending on the total or global number x of adaptation steps in a recognition session. Additionally or alternatively, a j , o j can be reset to zero if the total adaptation number x is very large, e.g. B. greater than a given limit Y, as in step 29 will be shown. This measure takes into account the fact that after a large number x of adjustment steps, the contribution of a particular word or phoneme is not important in relation to a case with a low number x.

In jedem Fall muss x initialisiert und inkrementiert werden, wie dies in den Schritten 21 bzw. 27 gezeigt wird.In any case, x must be initialized and incremented, as in the steps 21 respectively. 27 will be shown.

Claims (13)

Verfahren zur Erkennung von Sprache, – wobei für den Prozess der Erkennung einer Menge von Sprachphrasen (SP1, ..., SPN) ein aktuelles akustisches Modell (CAM) verwendet wird, – wobei das aktuelle akustische Modell (CAM) während des Erkennungsprozesses in Abhängigkeit von wenigstens einem bereits erhaltenen Erkennungsergebnis angepasst wird, und – wobei der Prozess der Anpassung des aktuellen akustischen Modells (CAM) auf einer Auswertung von Sprachphraseuntereinheiten (SPSjk) basiert, die in einer unter Bearbeitung stehenden und/oder kürzlich erkannten Sprachphrase (SPj) enthalten sind, dadurch gekennzeichnet, dass – Anpassungszahlen (aj) und/oder Auftrittszahlen (oj) für jede der Sprachphrasen (SP1, ..., SPN) gezählt werden, als Anzahl, dass eine bestimmte Sprachphrase (SPj) als Basis zur Anpassung des aktuellen akustischen Modells (CAM) verwendet wird, beziehungsweise als Anzahl von erkannten Auftritten der bestimmten Sprachphrase (SPj) in dem empfangenen Sprachfluss und – dass beim Prozess der Anpassung des aktuellen akustischen Modells (CAM) das Maß der Anpassung basierend auf einer bestimmten Sprachphrase (SPj) von wenigstens seiner bestimmten Anpassungszahl (aj) und/oder Auftrittszahl (oj) abhängig gemacht wird, insbesondere so, dass der Einfluss von häufigen Sprachphrasen (SPj) im empfangenen Sprachfluss auf den Anpassungsprozess abgeschwächt wird.Method for recognizing speech, - a current acoustic model (CAM) being used for the process of recognizing a set of speech phrases (SP1, ..., SPN), - the current acoustic model (CAM) depending on the recognition process is adapted by at least one recognition result that has already been obtained, and the process of adapting the current acoustic model (CAM) is based on an evaluation of speech phrase subunits (SPS jk ) which are in a speech phrase (SP j ) that is being processed and / or recently recognized. are included, characterized in that - adaptation numbers (a j ) and / or performance numbers (o j ) are counted for each of the speech phrases (SP1, ..., SPN), as a number that a specific speech phrase (SP j ) as a basis is used to adapt the current acoustic model (CAM), or as the number of recognized occurrences of the specific speech phrase (SP j ) in the received one Language flow and - that in the process of adapting the current acoustic model (CAM), the degree of adaptation based on a specific speech phrase (SP j ) is made dependent on at least its specific adaptation number (a j ) and / or number of appearances (o j ), in particular in such a way that the influence of frequent speech phrases (SP j ) in the received speech flow on the adaptation process is weakened. Verfahren nach Anspruch 1, – wobei das aktuelle akustische Modell (CAM) auf einer Menge von Modellfunktions-Mixtures (MFM1, ..., MFMn) basiert, und – wobei der Anpassungsprozess wenigstens teilweise durch Transformieren der Modellfunktions-Mixtures (MFMj) und/oder der Modellfunktions-Mixture-Komponenten (MFMjk) und/oder durch zumindest teilweises Verändern von Beiträgen der Modellfunktions-Mixture-Komponenten (MFMjk; mixture weigts) der Modellfunktions-Mixtures (MFMj) durchgeführt wird.The method of claim 1, - wherein the current acoustic model (CAM) is based on a set of model function mixtures (MFM1, ..., MFMn), and - wherein the adaptation process is at least partially transformed by transforming the model function mixtures (MFM j ) and / or the model function mixture components (MFM jk ) and / or by at least partially changing the contributions of the model function mixture components (MFM jk ; mixture weight) of the model function mixtures (MFM j ). Verfahren nach einem der vorangehenden Ansprüche, – wobei Wörter, Teilworteinheiten, Phone, Phoneme, Silben, Buchstaben und/oder Ähnliches und/oder deren Kombinationen als Sprachphrase (SPj) und/oder als Sprachphraseuntereinheiten (SPSjk) der aktuellen akustischen Modelle (CAM) verwendet werden, und – wobei die Sprachphrasen (SPj) in jedem Fall Kombinationen oder Aneinanderreihungen der Sprachphraseuntereinheiten (SPSjk) sind.Method according to one of the preceding claims, wherein words, partial word units, phones, phonemes, syllables, letters and / or the like and / or combinations thereof as speech phrase (SP j ) and / or as speech phrase subunits (SPS jk ) of the current acoustic models (CAM ) are used, and - whereby the speech phrases (SP j ) are in any case combinations or series of the speech phrase subunits (SPS jk ). Verfahren nach einem der vorangehenden Ansprüche, wobei eine Anpassung des aktuellen akustischen Modells (CAM) wiederholt durchgeführt wird nach einer vorgegebenen Anzahl von durchgeführten Erkennungsschritten, erhaltenen Erkennungsergebnissen und/oder empfangenen oder erkannten Sprachphrasen (SPj).Method according to one of the preceding claims, wherein an adaptation of the current acoustic model (CAM) is carried out repeatedly after a predetermined number of recognition steps carried out, recognition results obtained and / or received or recognized speech phrases (SP j ). Verfahren nach einem der vorangehenden Ansprüche, wobei eine Anpassung des aktuellen akustischen Modells (CAM) wiederholt durchgeführt wird nach jeder festgelegten und/oder vorgegebenen Anzahl von durchgeführten Erkennungsschritten, erhaltenen Ergebnissen und/oder empfangenen oder erkannten Sprachphrasen (SPj), insbesondere nach jedem Erkennungsschritt/-ergebnis und/oder empfangenen/erkannten Sprachphrase (SPj).Method according to one of the preceding an sayings, wherein an adaptation of the current acoustic model (CAM) is carried out repeatedly after each defined and / or predetermined number of recognition steps carried out, results obtained and / or received or recognized speech phrases (SP j ), in particular after each recognition step / result and / or received / recognized speech phrase (SP j ). Verfahren nach einem der vorangehenden Ansprüche, wobei die Anzahl der durchgeführten Erkennungsschritte, erhaltenen Erkennungsergebnisse und/oder empfangenen oder erkannten Sprachphrasen (SPj), nach denen eine Anpassung des aktuellen akustischen Modells (CAM) durchgeführt wird, während des Prozesses der Erkennung oder Anpassung bestimmt werden.Method according to one of the preceding claims, wherein the number of recognition steps carried out, recognition results obtained and / or received or recognized speech phrases (SP j ) according to which an adaptation of the current acoustic model (CAM) is carried out during the process of recognition or adaptation become. Verfahren nach einem der vorangehenden Ansprüche, wobei jede Anpassungszahl (aj) und/oder Auftrittszahl (oj) einer gegebenen Sprachphrase (SPj) reduziert, verringert, vermindert und/oder auf Null zurückgesetzt wird, nach vorgegebenen abgelaufenen Zeitabschnitten, einer vorgegebenen Gesamtanzahl von Erkennungsschritten, einer vorgegebenen Gesamtanzahl von Anpassungsschritten und/oder einer vorgegebenen Gesamtanzahl von empfangenen/erkannten Sprachphra sen oder Äußerungen, insbesondere in Bezug zur letzten Inkrementierung der eindeutigen Anpassungszahl (aj) und/oder Auftrittszahl (oj).Method according to one of the preceding claims, wherein each adaptation number (a j ) and / or number of appearances (o j ) of a given speech phrase (SP j ) is reduced, decreased, decreased and / or reset to zero, after predetermined elapsed time periods, a predetermined total number of recognition steps, a predetermined total number of adjustment steps and / or a predetermined total number of received / recognized speech phrases or utterances, in particular in relation to the last increment of the unique adjustment number (a j ) and / or number of appearances (o j ). Verfahren nach einem der vorangehenden Ansprüche, wobei das Anpassungsmaß in Bezug zu jeder Sprachphrase (SPj) und/oder jeder Sprachphraseuntereinheit (SPSjk) während des Anpassungsprozesses des aktuellen akustischen Modells (CAM) herabgesetzt wird – insbesondere streng – monoton mit der Erhöhung der Anpassungszahlen (aj) und/oder der Auftrittszahlen (oj) bei jedem Fall, insbesondere umgekehrt proportional.Method according to one of the preceding claims, wherein the adaptation measure in relation to each speech phrase (SP j ) and / or each speech phrase subunit (SPS jk ) is reduced during the adaptation process of the current acoustic model (CAM) - in particular strictly - monotonously with the increase in the adaptation numbers (a j ) and / or the number of appearances (o j ) in each case, especially inversely proportional. Verfahren gemäß einem der vorangehenden Ansprüche, wobei das Anpassungsmaß festgesetzt wird in Abhängigkeit einer abgelaufenen Zeitspanne, einer Gesamtanzahl von empfangenen und/oder erkannten Sprachphrasen (SPj), einer Gesamtanzahl von Anpassungen, die am aktuellen akustischen Modell (CAM) und/oder dergleichen durchgeführt wurden.Method according to one of the preceding claims, wherein the adaptation measure is determined as a function of an elapsed time period, a total number of received and / or recognized speech phrases (SP j ), a total number of adaptations which are carried out on the current acoustic model (CAM) and / or the like were. Verfahren gemäß einem der vorangehenden Ansprüche, wobei das Anpassungsmaß für eine bestimmte Sprachphrase (SPj) herabgesetzt und/oder auf Null gesetzt wird, falls die zugewiesene Anpassungszahl (aj) und/oder Auftrittszahl (oj) eine vorgegebene Schwellwertanzahl (tj) überschreitet.Method according to one of the preceding claims, wherein the adaptation measure for a specific speech phrase (SP j ) is reduced and / or set to zero if the assigned adaptation number (a j ) and / or number of appearances (o j ) exceeds a predetermined threshold number (tj) , Verfahren gemäß Anspruch 10, wobei die Schwellwertanzahl (tj) für jede der Sprachphrasen (SPj) unabhängig festgelegt wird.The method of claim 10, wherein the threshold number (t j ) is set independently for each of the speech phrases (SP j ). Verfahren gemäß Anspruch 10 oder 11, wobei die Schwellwertanzahlen (tj) vorbestimmt sind, festgelegt sind und/oder während des Prozesses der Erkennung und/oder der Anpassung verändert und variiert werden.A method according to claim 10 or 11, wherein the threshold numbers (t j ) are predetermined, fixed and / or changed and varied during the process of recognition and / or adaptation. Verfahren gemäß einem der vorangehenden Ansprüche, wobei Modellfunktions-Mixtures (MFMj) für das aktuelle akustische Modell (CAM) verwendet werden, welche auf Verteilungsfunktionen oder dergleichen basieren, insbesondere auf Funktionen vom Gauss'schen Typ oder dergleichen.Method according to one of the preceding claims, wherein model function mixtures (MFM j ) for the current acoustic model (CAM) are used, which are based on distribution functions or the like, in particular on functions of the Gaussian type or the like.
DE2000607637 2000-10-10 2000-10-10 Avoidance of online speaker overfitting in speech recognition Expired - Lifetime DE60007637T2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP00122025A EP1197949B1 (en) 2000-10-10 2000-10-10 Avoiding online speaker over-adaptation in speech recognition

Publications (2)

Publication Number Publication Date
DE60007637D1 DE60007637D1 (en) 2004-02-12
DE60007637T2 true DE60007637T2 (en) 2004-11-18

Family

ID=8170051

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2000607637 Expired - Lifetime DE60007637T2 (en) 2000-10-10 2000-10-10 Avoidance of online speaker overfitting in speech recognition

Country Status (4)

Country Link
US (1) US6882972B2 (en)
EP (1) EP1197949B1 (en)
JP (1) JP3990136B2 (en)
DE (1) DE60007637T2 (en)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1187096A1 (en) * 2000-09-06 2002-03-13 Sony International (Europe) GmbH Speaker adaptation with speech model pruning
US7447633B2 (en) * 2004-11-22 2008-11-04 International Business Machines Corporation Method and apparatus for training a text independent speaker recognition system using speech data with text labels
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7949533B2 (en) 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
CN101390156B (en) * 2006-02-27 2011-12-07 日本电气株式会社 Reference pattern adapter, and reference pattern adapting method
US20080004876A1 (en) * 2006-06-30 2008-01-03 Chuang He Non-enrolled continuous dictation
WO2008137616A1 (en) 2007-05-04 2008-11-13 Nuance Communications, Inc. Multi-class constrained maximum likelihood linear regression
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US20140100847A1 (en) * 2011-07-05 2014-04-10 Mitsubishi Electric Corporation Voice recognition device and navigation device
DK2713367T3 (en) * 2012-09-28 2017-02-20 Agnitio S L Speech Recognition
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US9507852B2 (en) * 2013-12-10 2016-11-29 Google Inc. Techniques for discriminative dependency parsing
GB2546981B (en) * 2016-02-02 2019-06-19 Toshiba Res Europe Limited Noise compensation in speaker-adaptive systems
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
US10553218B2 (en) * 2016-09-19 2020-02-04 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
CA3179080A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
WO2018053537A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Improvements of speaker recognition in the call center
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
CN109754784B (en) * 2017-11-02 2021-01-29 华为技术有限公司 Method for training filtering model and method for speech recognition
JP6903613B2 (en) * 2018-09-10 2021-07-14 株式会社東芝 Speech recognition device, speech recognition method and program
US11355103B2 (en) 2019-01-28 2022-06-07 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
WO2020163624A1 (en) 2019-02-06 2020-08-13 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020198354A1 (en) 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU7802194A (en) * 1993-09-30 1995-04-18 Apple Computer, Inc. Continuous reference adaptation in a pattern recognition system
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US5737487A (en) * 1996-02-13 1998-04-07 Apple Computer, Inc. Speaker adaptation based on lateral tying for large-vocabulary continuous speech recognition
US6389393B1 (en) * 1998-04-28 2002-05-14 Texas Instruments Incorporated Method of adapting speech recognition models for speaker, microphone, and noisy environment
DE69826292T2 (en) * 1998-12-01 2005-11-17 Sony International (Europe) Gmbh Speaker adaptation after the linear regressive maximum likelihood procedure

Also Published As

Publication number Publication date
DE60007637D1 (en) 2004-02-12
JP2002156994A (en) 2002-05-31
US20020072894A1 (en) 2002-06-13
EP1197949A4 (en) 2001-03-06
US6882972B2 (en) 2005-04-19
JP3990136B2 (en) 2007-10-10
EP1197949A1 (en) 2002-04-17
EP1197949B1 (en) 2004-01-07

Similar Documents

Publication Publication Date Title
DE60007637T2 (en) Avoidance of online speaker overfitting in speech recognition
DE60020660T2 (en) Context-dependent acoustic models for voice recognition with voice-matching
DE69726526T2 (en) Scheme and model adaptation for pattern recognition based on Taylor expansion
DE69938374T2 (en) Method and apparatus for speech recognition using both a neural network and hidden Markov models
DE69816177T2 (en) Speech / pause differentiation using unguided adaptation of hidden Markov models
DE69725802T2 (en) Pre-filtering using lexical trees for speech recognition
DE60100637T2 (en) Method for noise adaptation using transformed matrices in automatic speech recognition
DE60305568T2 (en) Keyword recognition in a voice signal
DE10030105A1 (en) Speech recognition device
WO1999059135A2 (en) Arrangement and method for computer recognition of a predefined vocabulary in spoken language
WO2004072954A1 (en) Three-stage word recognition
DE4031638C2 (en)
DE69918635T2 (en) Apparatus and method for speech processing
DE60108104T2 (en) Method for speaker identification
DE10119284A1 (en) Method and system for training parameters of a pattern recognition system assigned to exactly one implementation variant of an inventory pattern
DE60018696T2 (en) ROBUST LANGUAGE PROCESSING OF CHARACTERED LANGUAGE MODELS
EP1193689A2 (en) Method for the computation of an eigenspace for the representation of a plurality of training speakers
DE4010028C2 (en) Speech recognition method
DE69922769T2 (en) Apparatus and method for speech processing
WO2001086634A1 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
EP1640969B1 (en) Procedure of speaker adaptation for Hidden-Markov-Model based speech recognition system
EP1435087B1 (en) Method for producing reference segments describing voice modules and method for modelling voice units of a spoken test model
WO1993002448A1 (en) Method and device for recognizing individual words of spoken speech
DE102004017486A1 (en) Method for noise reduction in a voice input signal
WO1996027871A1 (en) Method of recognising at least one defined pattern modelled using hidden markov models in a time-variable test signal on which at least one interference signal is superimposed

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: SONY DEUTSCHLAND GMBH, 50829 KOELN, DE