DE60007637T2 - Avoidance of online speaker overfitting in speech recognition - Google Patents
Avoidance of online speaker overfitting in speech recognition Download PDFInfo
- Publication number
- DE60007637T2 DE60007637T2 DE2000607637 DE60007637T DE60007637T2 DE 60007637 T2 DE60007637 T2 DE 60007637T2 DE 2000607637 DE2000607637 DE 2000607637 DE 60007637 T DE60007637 T DE 60007637T DE 60007637 T2 DE60007637 T2 DE 60007637T2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- adaptation
- recognition
- cam
- current acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims description 95
- 230000006978 adaptation Effects 0.000 claims description 74
- 230000008569 process Effects 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 33
- 239000000203 mixture Substances 0.000 claims description 17
- 230000001419 dependent effect Effects 0.000 claims description 7
- 230000002829 reductive effect Effects 0.000 claims description 7
- 238000005315 distribution function Methods 0.000 claims description 6
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 101150082661 MFM1 gene Proteins 0.000 claims 1
- 238000001514 detection method Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Description
Die vorliegende Erfindung betrifft ein Verfahren zur Erkennung von Sprache gemäß dem Oberbegriff des Anspruchs 1 und insbesondere ein Verfahren zur Erkennung von Sprache, bei dem eine Überanpassung an bestimmte Worte während einer Online-Sprecheranpassung vermieden wird.The The present invention relates to a method for recognizing speech according to the generic term of claim 1 and in particular a method for the detection of Language in which an overfitting to certain words during an online speaker adjustment is avoided.
In heutigen Verfahren und Geräten bzw. Vorrichtungen zur automatischen Spracherkennung sind so genannte Online-Sprecheranpassungsprozesse implementiert, um die Verfahren und Geräte hinsichtlich großer Veränderungen von möglichen Sprecherverhalten der Sprecher flexibel zu machen.In today's procedures and equipment or devices for automatic speech recognition are so-called Online speaker adaptation processes implemented, about the procedures and equipment regarding large changes of possible To make speaker behavior flexible.
Bei herkömmlichen Verfahren zur Spracherkennung wird ein aktuelles akustisches Modell beim Erkennungsprozess verwendet, insbesondere für eine Menge von gegebenen Sprachphrasen, die innerhalb eines ankommenden Sprachflusses erkannt werden sollen. Das implementierte aktuelle akustische Modell enthält Informationen, die für den Erkennungsprozess als solchen relevant sind, insbesondere für alle potentiellen, d. h. möglichen Sprecher (sprecherunabhängige Erkennung). Um die Erkennungsrate zu erhöhen, werden die akustischen Modelle zur Spracherkennung während des Erkennungsprozesses angepasst (adaptiert) in Abhängigkeit von wenigstens einem bereits erhaltenen Erkennungsergebnis. Anpassung bedeutet, bestimmte Informationen zu extrahieren, die nötig sind zur Fokussierung auf bestimmte Sprachcharakteristiken des aktuellen Sprechers. Der Prozess, das aktuelle akustische Modell anzupassen, hängt daher von der Auswertung bzw. Evaluierung von Sprachphrasenuntereinheiten ab, die in einer Sprachphrase enthalten sind, die gerade verarbeitet wird und/oder kürzlich erkannt wurde. Es können nicht nur beobachtete bzw, aufgetretene Einheiten angepasst werden, sondern auch unbeobachtete Einheiten bzw. nicht aufgetretene Einheiten. Das heißt, die Sprachphraseuntereinheit wird ausgewertet mit Bezug zur akustischen Nachbarschaft, die in der ausgewerteten Äußerung auftritt.at usual The speech recognition process becomes a current acoustic model used in the recognition process, especially for a lot of given Speech phrases that are recognized within an incoming speech flow should. The implemented current acoustic model contains information the for the recognition process as such is relevant, especially for all potential d. H. potential Speaker (speaker independent Recognition). To increase the detection rate, the acoustic Speech recognition models during of the recognition process adapted (adapted) depending on of at least one recognition result already received. Adaptation means extracting certain information that is necessary to focus on certain language characteristics of the current Speaker. The process of adapting the current acoustic model depends therefore from the evaluation or evaluation of speech phrase subunits that are contained in a language phrase that is currently being processed will and / or recently was recognized. It can not only the observed or occurring units are adjusted, but also unobserved units or non-occurred units. This means, the speech phrase subunit is evaluated with reference to the acoustic neighborhood, that occurs in the evaluated utterance.
Bei Anwendungen gewöhnlicher Verfahren und Vorrichtungen zur Spracherkennung enthält die Spracheingabe bestimmte Sprachphrasen, Wörter oder Geräusche in einem bestimmten Kontext sehr viel häufiger als die meisten anderen Wörter, wobei dies vom bestimmten Kontext bzw. der Umgebung in der die angewandten Verfahren und Vorrichtungen arbeiten müssen, abhängt. Beispielsweise kommen bei der Anwendung eines Verfahrens zur Spracherkennung für ein Verkehrsinformationssystem Phrasen und Wörter, die spezifisch für bestimmte Orte sind, Reiserouten, Verkehrsmittel, bestimmte Kommandos oder ähnliches, sehr viel häufiger vor als andere Orte im Vokabular.at Applications more common Speech input contains methods and devices for speech recognition certain speech phrases, words or Sounds in a given context, much more often than most others words, this depends on the specific context or the environment in which the applied Procedures and devices must work depends. For example, come with the application of a method for speech recognition for a traffic information system Phrases and words, the specific for are certain places, itineraries, means of transport, certain commands or similar, much more often ahead than other places in the vocabulary.
Herkömmliche Verfahren und Vorrichtungen zur Spracherkennung haben den großen Nachteil, dass sie sich während des Anpassungsprozesses des aktuellen akustischen Modells auf jede empfangene Sprachphrase oder Wort gleichermaßen fokussieren. Somit beeinflussen empfangene Sprachphrasen oder Wörter, die häufig auftreten, die Modifikation und Anpassung des aktuellen akustischen Modells sehr viel mehr als Wörter oder Phrasen, die nicht häufig auftreten.conventional Methods and devices for speech recognition have the major disadvantage that them while the process of adapting the current acoustic model to each focus received speech phrase or word equally. So influence received speech phrases or words, the often occur, the modification and adaptation of the current acoustic Model much more than words or phrases that are not common occur.
Das Ergebnis nach der Anwendung von konventionellen Verfahren zur Anpassung ist, dass häufig auftretende Sprachphrasen oder Wörter mit einer sehr kleinen Fehlerrate erkannt werden, die Erkennungsrate für andere Vokabeln jedoch schlechter ist.The Result after using conventional adjustment methods is that often occurring speech phrases or words can be detected with a very small error rate, the detection rate for others Vocabulary however is worse.
Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Spracherkennung bereitzustellen, bei dem der Einfluss von häufig auftretenden Sprachphrasen oder Wörtern innerhalb des empfangenen Sprachflusses auf den Anpassungsprozess bezogen auf das aktuelle akustische Modell ausgewogen ist.The The present invention has for its object a method to provide for speech recognition, in which the influence of frequently occurring Speech phrases or words within the received language flow on the adaptation process is balanced based on the current acoustic model.
Die Aufgabe wird bei einem Verfahren zur Spracherkennung gemäß dem Oberbegriff des Anspruchs 1 mit den Merkmalen von Anspruch 1 gelöst. Bevorzugte und vorteilhafte Ausführungsformen des erfindungsgemäßen Verfahrens zur Spracherkennung sind in den abhängigen Ansprüchen enthalten.The The task is in a method for speech recognition according to the preamble of claim 1 with the features of claim 1 solved. preferred and advantageous embodiments of the method according to the invention for speech recognition are contained in the dependent claims.
Das erfindungsgemäße Verfahren zur Spracherkennung ist dadurch gekennzeichnet, dass Anpassungszahlen und/oder Auftrittszahlen bzw. Häufigkeitszahlen für jede der Sprachphrasen, Wörter, Untereinheiten oder ähnliches gezählt werden, als Anzahl, dass eine bestimmte Sprachphrase als Basis zur Anpassung des aktuellen akustischen Modells verwendet wird bzw. als Anzahl von erkannten Auftritten bzw. Vorkommnissen der bestimmten Sprachphrase in dem empfangenen Sprachfluss, und dass beim Prozess der Anpassung des aktuellen akustischen Modells das Maß der Anpassung basierend auf einer bestimmten Sprachphrase von wenigstens seiner bestimmten Anpassungszahl und/oder Auftrittszahl abhängig gemacht wird, insbesondere so, dass der Einfluss von häufigen Sprachphrasen im empfangenen Sprachfluss auf den Anpassungsprozess abgeschwächt wird.The inventive method for speech recognition is characterized in that adaptation numbers and / or occurrence numbers or frequency numbers for every of speech phrases, words, subunits or similar counted be, as a number, that a certain language phrase as a basis for Adaptation of the current acoustic model is used or as the number of recognized appearances or occurrences of the certain Speech phrase in the received flow of speech, and that in the process the degree of adaptation of the adaptation of the current acoustic model based on a particular language phrase from at least his certain adaptation number and / or number of performances made dependent will, especially so that the influence of frequent speech phrases in the received Language flow on the adaptation process is weakened.
Die Idee der vorliegenden Erfindung ist also, die auftretenden Sprachphrasen innerhalb des ankommenden Sprachflusses durch ihre Auftrittshäufigkeiten und/oder durch ihre Häufigkeit, mit der sie als Basis zur Anpassung des aktu ellen akustischen Modells verwendet werden, zu unterscheiden. Erfindungsgemäß werden deshalb Auftrittszahlen und/oder Anpassungszahlen für jede der möglichen zu erkennenden Sprachphrasen gezählt.The The idea of the present invention is therefore the speech phrases that occur within the incoming speech flow by their frequency of occurrence and / or by their frequency, with which they serve as the basis for adapting the current acoustic model used to differentiate. According to the invention therefore performance figures and / or adaptation figures for each of the possible to recognizing speech phrases counted.
Eine weitere Idee der vorliegenden Erfindung ist, in jedem Anpassungsschritt oder -prozess des aktuellen akustischen Modells, das in jedem Fall von einem bereits erhaltenen Erkennungsergebnis abhängt, d. h. von einer auf getretenen und erkannten Sprachphrase oder ähnlichem, bestimmte Anpassungszahlen und/oder Auftrittszahlen der bestimmten gerade behandelten Sprachphrase für den Anpassungsprozess oder Prozess, der durchgeführt werden soll, zu zählen. Das Anpassungsmaß hinsichtlich einer bestimmten Sprachphrase erfolgt in Abhängigkeit von wenigstens einer bestimmten Anpassungszahl und/oder Auftrittszahl der bestimmten Sprachphrase. Die Stärke der Anpassung bzw. das Anpassungsmaß können als Gewicht oder Wichtungsfaktor verstanden werden, die den Einfluss der analysierten Sprachphrasenuntereinheit und der bestimmten Sprachphrase auf die aktuelle Parameterschätzung für den Anpassungsprozess des aktuellen akustischen Modells steuern bzw, regeln.A Another idea of the present invention is in every adjustment step or process of the current acoustic model, which in any case of depends on a recognition result already received, d. H. from one to stepped on and recognized speech phrase or the like, certain adaptation numbers and / or performance figures of the certain language phrase just discussed for the adjustment process or Process that will be carried out is supposed to count. The measure of adaptation in terms of a certain language phrase is dependent on at least one certain adaptation number and / or number of appearances of the certain language phrase. The strenght The adjustment or the adjustment measure can be used as a weight or weighting factor understood the influence of the analyzed speech phrase subunit and the specific language phrase to the current parameter estimate for the adaptation process control or regulate the current acoustic model.
Das Anpassungsmaß und ihre Abhängigkeit von den Anpassungszahlen und/oder Auftrittszahlen werden so gewählt, dass der Einfluss von häufig auftretenden Sprachphrasen im empfangenen Sprachfluss auf den Anpassungsprozess bzw. Adaptionsprozess hinsichtlich des aktuellen akustischen Modells verringert wird.The Adaptation measure and their dependence on the adaptation numbers and / or performance numbers are chosen so that the influence of often occurring speech phrases in the received speech flow on the adaptation process or adaptation process with regard to the current acoustic model is reduced.
Im Gegensatz zu bekannten Verfahren und Vorrichtungen zur Spracherkennung, wird beim erfindungsgemäßen Verfahren zur Spracherkennung nicht jeder Auftritt bzw. jedes Vorkommnis einer bestimmten Sprachphrase im ankommenden Sprachfluss in äquivalenter Art und Weise ausgewertet, was mehr oder weniger zu einer Proportionalität führt zwischen der Häu figkeit aufgetretener Sprachphrasen und dem Einfluss auf den Anpassungsprozess, sondern es wird die Stärke der Anpassung für eine bestimmte Sprachphrase häufigkeitsabhängig gemacht.in the Contrary to known methods and devices for speech recognition, is in the inventive method not every appearance or every occurrence of a speech recognition specific language phrase in the incoming language flow in equivalent Way evaluated, which more or less leads to a proportionality between the frequency occurring speech phrases and the influence on the adaptation process, but it becomes the strength the adjustment for a certain language phrase made frequency dependent.
Bevorzugt basiert das aktuelle akustische Modell auf einer Menge von Modellfunktions-Mixtures. Der Anpassungsprozess wird dann durchgeführt, indem die Funktionen, Modellfunktions-Mixtures und/oder die Modellfunktions-Mixturekomponenten selbst transformiert werden und/oder durch zumindest teilweises Verändern von Beiträgen der Modellfunktions-Mixturekomponenten der Modellfunktions-Mixtures. Die Anpassung des aktuellen akustischen Modells kann daher einfach durchgeführt werden durch Dämpfung und/oder Erhöhung des Einflusses der bestimmten Modellfunktions-Mixturekomponenten – d. h. deren Amplituden oder Beiträge – auf den gesamten Modellcharakter der jeweiligen Modellfunktions-Mixtures in dem aktuellen akustischen Modell.Prefers the current acoustic model is based on a set of model function mixes. The adaptation process is then carried out by the functions, Model function mixes and / or the model function mixture components be transformed yourself and / or by at least partially Change of contributions the model function mixture components of the model function mixtures. The adaptation of the current acoustic model can therefore be carried out easily by damping and / or increase the influence of certain model function mixture components - d. H. their amplitudes or contributions - to the entire model character of the respective model function mixtures in the current acoustic model.
Der ankommende Sprachfluss kann als eine Konkatenation, Aneinanderreihung, Verkettung oder Kombination von vorbestimmten und klar definierten akustischen Einheiten klassifiziert werden. Diese können beispielsweise Sprachphrasen oder Sprachphrasenuntereinheiten genannt werden. Gemäß einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung werden als Sprachphrasen und/oder als Sprachphrasenuntereinheiten des aktuellen akustischen Modells Wörter, Wortuntereinheiten, Phone, Phoneme, Silben, Buchstaben und/oder dergleichen und/oder Kombinationen oder Konkatenationen dieser verwendet. Die Wahl einer Zustandsverfeinerung des ankommenden Sprachflusses ist eine Frage der Bequemlichkeit und Praktizierbarkeit. Im Allgemeinen kann der ankommende Sprachfluss als eine Konkatenation von Wörtern oder Wortuntereinheiten klassifiziert werden, wohingegen die Sprachphrasenunter einheiten auf einer feineren Struktur basieren, z. B. auf der Basis von Phonemen, Silben oder dergleichen. In jedem Fall sind die Sprachphrasen Kombinationen und/oder Konkatenationen der Sprachphrasenuntereinheiten.The incoming flow of speech can be seen as a concatenation, stringing together, Concatenation or combination of predetermined and clearly defined acoustic Units are classified. For example, these can be speech phrases or speech phrase subunits. According to one preferred embodiment of the method according to the invention for speech recognition are used as speech phrases and / or as speech phrase subunits of the current acoustic model words, word subunits, phone, Phonemes, syllables, letters and / or the like and / or combinations or concatenations of these are used. Choosing a state refinement the incoming flow of speech is a matter of convenience and practicability. In general, the incoming flow of speech as a concatenation of words or word subunits are classified, whereas the speech phrase subunits based on a finer structure, e.g. B. on the basis of phonemes, Syllables or the like. In any case, the speech phrases are combinations and / or concatenations of the speech phrase subunits.
Gemäß einer weiteren vorteilhaften Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung wird eine Anpassung des aktuellen akustischen Modells wiederholt durchgeführt, jeweils nach einer gegebenen Anzahl von durchgeführten Erkennungsschritten und/oder erhaltenen Erkennungsergebnissen. Weiterhin kann eine Anpassung des aktuellen akustischen Modells wiederholt durchgeführt werden, jeweils nach einer gegebenen Anzahl von erhaltenen und/oder erkannten Sprachphrasen. Diese Unterscheidung beschreibt Fälle, in denen die Anzahlen der Erkennungsschritte und der Erkennungsergebnisse nicht übereinstimmen und/oder Fälle, in denen nicht alle erhaltenen Sprachphrasen erkannt werden.According to one another advantageous embodiment of the method according to the invention an adaptation of the current acoustic is used for speech recognition Of the model repeatedly, in each case after a given number of recognition steps carried out and / or recognition results obtained. Furthermore, an adjustment of the current acoustic model are carried out repeatedly, after a given number of received and / or recognized Speech phrases. This distinction describes cases where the numbers the detection steps and the detection results do not match and / or cases, in which not all received speech phrases are recognized.
In einer weiteren bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung wird eine Anpassung des aktuellen akustischen Modells wiederholt durchgeführt nach jeder festgelegten und/oder vorgegebenen Anzahl von durchgeführten Erkennungsschritten, erhaltenen Erkennungsergebnissen und/oder empfangenen erkannten Sprachphrasen, insbesondere nach jedem Erkennungsschritt/-ergebnis und/oder empfangenen/erkannten Sprachphrase.In a further preferred embodiment of the method according to the invention an adaptation of the current acoustic is used for speech recognition Model performed repeatedly after each defined and / or specified number of recognition steps carried out, obtained recognition results and / or received recognition Speech phrases, especially after each recognition step / result and / or received / recognized speech phrase.
Weiterhin können die Anzahlen der durchgeführten Erkennungsschritte, der erhaltenen Erkennungsergebnisse und/oder der empfangenen oder erkannten Sprachphrasen, nach denen eine Anpassung des aktuellen akustischen Modells durchgeführt wird, während des Prozesses der Erkennung oder Anpassung bestimmt werden.Farther can the number of performed Recognition steps, the recognition results obtained and / or of the received or recognized speech phrases, after which an adjustment of the current acoustic model is performed during the recognition process or adjustment can be determined.
Gemäß den oben beschriebenen Maßnahmen ist es nicht notwendig, dass eine Anpassung des aktuellen akustischen Modells nach jedem Erkennungsschritt durchgeführt wird, sondern eine Anpassung kann nach einer vorgegebenen Anzahl von Erkennungsschritten oder erhaltenen Erkennungsergebnissen stattfinden. Die bestimmenden Anzahlen können in einem Onlineprozess während der Erkennung oder Anpassung bestimmt werden. Sie können aber auch als vorbestimmte Werte vor einer Erkennungssitzung festgelegt werden und können in Abhängigkeit der bestimmten Spracherkennungssitzung (Spracherkennungssession) verändert werden.According to the measures described above, it is not necessary that the current acoustic model is carried out after each recognition step, but an adaptation can take place after a predetermined number of recognition steps or recognition results obtained. The determining numbers can be determined in an online process during recognition or adaptation. However, they can also be defined as predetermined values before a recognition session and can be changed depending on the particular speech recognition session (speech recognition session).
Ein besonderer Punkt ist die Bestimmung der Anpassungszahlen und/oder der Auftrittszahlen der bestimmten Sprachphrasen, die im ankommenden Sprachfluss enthalten sein können. Die einfachste Form des erfindungsgemäßen Verfahrens wird erreicht, indem eine feste Grenzwertzahl bestimmt wird, mit der jeder Auftritt und/oder jede Verwendung der Sprachphrase in einem Anpassungsprozess verglichen werden, und dann davon abgesehen wird, eine gegebene Sprachphrase für einen anderen Anpassungsprozess zu verwenden, und zwar bei einer bestimmten Anpassungszahl und/oder Auftrittszahl, die erreicht wird und/oder die gegebene und feste Grenzwertzahl überschreitet.On special point is the determination of the adaptation numbers and / or the number of occurrences of the specific speech phrases in the incoming speech flow can be included. The simplest form of the method according to the invention is achieved by determining a fixed limit number with which each occurrence and / or any use of the language phrase in an adaptation process be compared, and then apart from a given one Language phrase for to use a different adaptation process, for a specific one Adaptation number and / or number of performances that is achieved and / or exceeds the given and fixed limit number.
Die Grenzwertzahl kann für jede der Sprachphrasen oder für deren Klassen unabhängig festgesetzt werden. Die Grenzwertzahlen können als feste und/oder vorbestimmte Werte festgelegt werden, oder sie können auch während des Prozesses verändert und berechnet werden.The Limit number can for each of the speech phrases or for whose classes are independent be fixed. The limit values can be fixed and / or predetermined Values can be set or they can also be changed and modified during the process be calculated.
Gemäß einer weiteren bevorzugten Ausführungsform des Verfahrens zur Spracherkennung werden die gezählten Anpassungszahlen und/oder Auftrittszahlen nicht nur vom Anfang der Erkennungssitzung an gezählt, sondern es wird zugelassen, diese während dem Fortschreiten der aktuellen Erken nungssitzung zu verringern und/oder zu reduzieren. Insbesondere können jede bestimmte Anpassungszahl und/oder Auftrittszahl einer gegebenen Sprachphrase reduziert, verringert, vermindert und/oder auf Null zurückgesetzt werden, und zwar nach vorgegebenen abgelaufenen Zeitabschnitten einer vorgegebenen Gesamtanzahl von Erkennungsergebnissen oder -schritten, einer vorgegebenen Gesamtanzahl von Anpassungsschritten und/oder einer vorgegebenen Gesamtanzahl von empfangenen und/oder erkannten Sprachphrasen oder Äußerungen, insbesondere seit der letzten Inkrementierung der eindeutigen Anpassungszahl und/oder Auftrittszahl.According to one another preferred embodiment of the method of speech recognition are the counted adaptation numbers and / or performance numbers not just from the start of the recognition session counted on but it is allowed to do this as the progression of the reduce and / or reduce the current detection session. In particular can any particular number of adjustments and / or number of appearances given Speech phrase reduced, decreased, decreased and / or to zero reset are, namely after predetermined elapsed periods a predetermined total number of recognition results or steps, a predetermined total number of adjustment steps and / or a predetermined total number of received and / or recognized Speech phrases or utterances, especially since the last increment of the unique adjustment number and / or number of performances.
Gemäß den oben beschriebenen Maßnahmen ist es möglich, das Anpassungsmaß zu verändern, d. h. den Einfluss einer gegebenen Sprachphrase auf den Anpassungsprozess, sowohl in abschwächender als auch in verstärkender Art und Weise in Abhängigkeit der Häufigkeit ihres Auftritts. Wenn eine gegebene Sprachphrase beispielsweise in einem ersten Erkennungsabschnitt (einem ersten Erkennungszeitabschnitt) sehr häufig auftritt, wird ihr Anpassungsmaß erfindungsgemäß verringert, so dass eine Überanpassung hinsichtlich dieser bestimmten Sprachphrase vermieden wird. Anschließend kann ein zweiter Erkennungsabschnitt auftreten, indem diese bestimmte Sprachphrase nicht enthalten ist und nicht empfangen wird. Falls dann in einem dritten Erkennungsabschnitt die genannte bestimmte Sprachphrase wieder auftritt, wird der Einfluss auf den Anpassungsprozess in Übereinstimmung mit einer solchen Sprachphrase auf einer höheren Ebene ausgewertet im Vergleich zum ersten Abschnitt der Auftrittshäufigkeit der in Frage stehenden Sprachphrase. Gemäß der oben beschriebenen Ausführungsform können das Anpassungsmaß und damit der Einfluss einer Sprachphrase auf den Anpassungsprozess wieder aufgenommen werden in Zeitabschnitten des Anpassungsprozesses mit niedrigen Häufigkeiten oder keinen Auftritten der zu behandelnden Sprachphrase.According to the above measures described Is it possible, the measure of adjustment too change, d. H. the influence of a given language phrase on the adaptation process, both in weakening as well in reinforcing Way depending the frequency of their appearance. For example, if a given language phrase is in a first recognition period (a first recognition period) very often occurs, their degree of adaptation is reduced according to the invention, so an overfitting is avoided with respect to this particular language phrase. Then you can a second detection section occur by determining this Voice phrase is not included and is not received. If then in a third recognition section the specified one Language phrase reappears, will affect the adjustment process in accordance evaluated with such a language phrase at a higher level Comparison to the first section of the frequency of occurrence of the one in question Spoken phrase. According to the above described embodiment can the measure of adaptation and thus the influence of a language phrase on the adaptation process again are included in periods of the adjustment process with low frequencies or no appearances of the language phrase to be treated.
Gemäß einer weiteren bevorzugten Ausführungsform wird das Anpassungsmaß in Bezug zu jeder Sprachphrase und/oder jeder Sprachphraseuntereinheit während des Anpassungsprozesses des aktuellen akustischen Modells herabgesetzt – insbesondere streng – monoton mit der Erhöhung der Anpassungszahlen und/oder der Auftrittszahlen bei jedem Fall, insbesondere umgekehrt proportional. Mit dem erfindungsgemäßen Verfahren wird so erreicht, dass häufig auftretende Sprachphrasen eine geringere Anpassungsstärke erhalten und somit einen geringeren Einfluss auf den Anpassungsprozess des aktuellen akustischen Modells haben.According to one another preferred embodiment is the measure of adaptation in Relation to each language phrase and / or each language phrase subunit while the adaptation process of the current acoustic model is reduced - in particular strict - monotonous with the increase the number of adjustments and / or the number of appearances in each case, especially inversely proportional. With the method according to the invention is achieved that often occurring speech phrases get less adaptability and thus less influence on the adaptation process of the current one acoustic model.
Zusätzlich zu der Abhängigkeit von bestimmten Auftritten und Einbeziehung in den Anpassungsprozess kann das Anpassungsmaß festgesetzt werden in Abhängigkeit einer abgelaufenen Zeitspanne, einer Gesamtanzahl von empfangenen und/oder erkannten Sprachphrasen, einer Gesamtanzahl von Anpassungen, die am aktuellen akustischen Modell und/oder dergleichen durchgeführt wurden.In addition to dependency of certain appearances and inclusion in the adjustment process can set the measure of adjustment become dependent an expired period of time, a total number of received and / or recognized speech phrases, a total number of adjustments, that were carried out on the current acoustic model and / or the like.
In einer besonders geeigneten Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung werden Modellfunktions-Mixtures für das aktuelle akustische Modell verwendet, welche zumindest Verteilungsfunktionen oder dergleichen enthalten, und insbesondere Funktionen vom gaußschen Typ oder dergleichen.In a particularly suitable embodiment of the method according to the invention model function mixes for the current acoustic model that uses at least distribution functions or the like, and in particular functions of the Gaussian type or similar.
Die grundlegenden Aspekte der vorliegenden Erfindung können auch wie folgt zusammengefasst werden:The basic aspects of the present invention can also can be summarized as follows:
Sprecheranpassungsverfahren für Spracherkennungssysteme und -verfahren transformieren ein akustisches Modell, um besser zu akustischen Eigenschaften und zum Sprachverhal ten eines gegebenen und bestimmten Sprechers zu passen. Während eines Onlineadaptionsprozesses wird keine Aufzeichnungsphase vor der Anwendung des Systems und des Verfahrens benötigt. Eine Anpassung des aktuellen akustischen Modells kann beispielsweise nach dem Erhalt und/oder der Erkennung jeder einzelnen Sprachphrase und/oder Äußerung oder nach einer gegebenen Anzahl davon stattfinden, insbesondere während das System und das Verfahren online und in Gebrauch sind.Speaker adaptation procedures for speech recognition systems and procedures are transforming acoustic model to better match acoustic characteristics and speech behavior of a given and specific speaker. During an online adaptation process, no recording phase is required before the system and the method are used. The current acoustic model can be adapted, for example, after the receipt and / or recognition of each individual speech phrase and / or utterance or after a given number thereof, in particular while the system and the method are online and in use.
Bei der Anwendung eines solchen Systems oder Verfahrens kann es passieren, dass ein bestimmter Anwender – insbesondere zu Beginn einer Erkennungssitzung (recognizing session) – eine bestimmte Sprachphrase, Wort, Äußerung oder einige wenige davon, verglichen mit anderen, sehr häufig verwendet. In einem solchen Fall würden bekannte Anpassungsverfahren die betroffenen bestimmten akustischen Modelle oder Phonemmodelle nicht nur an den Sprecher anpassen, sondern auch an die bestimmten akustischen Eigenschaften in dem Kontext der häufig auftretenden Wörter, Phrasen oder Äußerungen. Das Ergebnis ist, dass nur diese wenigen Wörter, Phrasen oder Äußerungen gut erkannt werden, andere Wörter, Phrasen oder Äußerungen jedoch schlechter erkannt werden als die häufig auftretenden Wörter, Phrasen oder Äußerungen, weil ihnen bei bekannten Anpassungsprozessen ein höherer Einfluss zukommt. Bekannte Anpassungsverfahren und konventionelle Spracherkennungsverfahren leiden also unter dem Problem einer Überanpassung durch häufig auftretende Wörter.at the application of such a system or process it can happen that a particular user - in particular at the beginning of a recognizing session - a specific one Language phrase, word, utterance or a few of them, used very often compared to others. In such a case known adaptation methods the affected certain acoustic Models or phoneme models not only adapt to the speaker, but also also to the specific acoustic properties in the context of the frequently occurring words, Phrases or utterances. The result is that only those few words, phrases or utterances be well recognized, other words, Phrases or utterances however, are recognized less well than the frequently occurring words, phrases or statements, because they have a greater influence on known adaptation processes due. Known adaptation methods and conventional speech recognition methods therefore suffer from the problem of overfitting due to frequent occurrences Words.
In einem Extremfall, bei welchem beispielsweise die verwendeten Modelle saubere bzw. reine Modelle sind und das System in einer geräuschbelasteten Umgebung (noisy environment) verwendet wird, würden die vorkommenden akustischen Modelle nicht nur an den Sprecher angepasst werden, sondern auch an die Umgebung bzw. die Umgebungsgeräusche.In an extreme case in which, for example, the models used are clean or pure models and the system in a noisy environment Environment (noisy environment) would be used, the occurring acoustic Models can not only be adapted to the speaker, but also to the environment or the ambient noise.
Im Ergebnis wären diese Modelle in den meisten Fällen geeignet (match), da sie besser zu den Umgebungsbedingungen, d. h. zur Geräuschumgebung passen. Somit würden immer diese Wörter erkannt werden, egal was gesagt wurde.in the Result would be these models in most cases suitable (match), since they better match the environmental conditions, i.e. H. to the noise environment fit. So would always these words be recognized no matter what was said.
Spracherkenner beinhalten in den akustischen Modellen statistische Modelle, insbesondere zur Beschreibung von akustischen Eigenschaften der ankommenden Sprache. Wortmodelle sind eine Konkatenation der entsprechenden verfeinerten Modelle, beispielsweise von entsprechenden Phonemmodellen. Die rahmenweise (frame-wise) akustischen Eigenschaften werden innerhalb des aktuellen akustischen Modells durch die Auswertung der Modellfunktions-Mixtures modelliert, insbesondere durch ein Mixture von gaußschen Verteilungsfunktionen, die beispielsweise an Phonemmodelle angefügt werden, die Merkmalsvektoren (feature vectors) entsprechen, die aus dem ankommenden Sprachsignal extrahiert werden. Gewöhnlich werden für jedes Phonem unterschiedliche Modelle verwendet, die vom linken und rechten phonemischen oder akustischen Kontext abhängen. Demgemäß existieren mehrere Tausend oder Zehntausende von Modellen. Um die Rechenlast zu reduzieren, werden ähnliche Verteilungsfunktionen oder Gaußfunktionen (Gaussians) von unterschiedlichen Phonmodellen zusammengefasst (merged) und die sich ergebenden gaußschen Funktionen oder Verteilungsfunktionen werden über gemeinsame Modelle hinweg gemeinsam verwendet. Bei der Onlineanpassung können die veränderten akustischen Modelle und insbesondere deren Parameter gewichtete Summen der alten Parameter und der Schätzung der aktuellen Parameter oder der aktuellen wenigen Äußerungen oder Sprachphrasen sein. Falls ein Anwender eine bestimmte Phrase oder ein bestimmtes Wort wiederholt spricht, transformiert die Sprecheranpassung die bestimmte Verteilung oder Modellfunktions-Mixture, insbesondere vom gaußschen Typ so, dass diese optimal zu der bestimmten Phrase, Äußerung oder zum Wort passt. Somit werden andere Wörter, die nicht häufig auftreten, nach dieser bestimmten Anpassung des aktuellen akustischen Modells unter Umständen schlecht erkannt, da die Gaußfunktionen (Gaussians) aufgrund ähnlicher akustischer Eigenschaften des Grundsystems bzw. Baselinesystems gemeinsam verwendet wurden.speech include statistical models in the acoustic models, especially for Description of acoustic properties of the incoming speech. Word models are a concatenation of the corresponding refined ones Models, for example of corresponding phoneme models. The frame by frame (frame-wise) acoustic properties are within the current acoustic model by evaluating the model function mixtures modeled, especially by a mixture of Gaussian distribution functions, which are added to phoneme models, for example, the feature vectors (feature vectors) correspond to that from the incoming speech signal be extracted. Usually be for each phoneme uses different models from the left and depend on the right phonemic or acoustic context. Accordingly exist several thousand or tens of thousands of models. To the computing load to reduce, will be similar Distribution functions or Gaussian functions (Gaussians) summarized from different phonemodels (merged) and the resulting Gaussian Functions or distribution functions are shared across models shared. With the online adjustment, the changed weighted acoustic models and in particular their parameters Sum of the old parameters and the estimate of the current parameters or the current few statements or be speech phrases. If a user has a specific phrase or speaks a certain word repeatedly, transforms speaker adaptation the particular distribution or model function mixture, in particular from the Gaussian Type so that it optimally matches the particular phrase, utterance or fits the word. So other words that don't appear often after this particular adaptation of the current acoustic model in certain circumstances poorly recognized because of the Gaussian functions (Gaussians) due to similar acoustic Properties of the basic system or baseline system used together were.
In einem ersten Beispiel einer Anpassung basierend auf Maximum-Likelihood-Linear-Regression (MLLR) werden eine oder einige wenige Transformationsmatrizen auf Basis der Sprache eines einzelnen Benutzers geschätzt, um eine große Menge von Gaußfunktionen zu transformieren. Diese Prozedur wird jeweils für einige wenige Äußerungen durchgeführt. Falls die Matrizen nur mittels Äußerungen des gleichen Worts geschätzt werden, so ist die Transformation nicht repräsentativ für alle Gaußfunktionen (Gaussians), und die meisten von ihnen werden falsch transformiert.In a first example of an adjustment based on maximum likelihood linear regression (MLLR) are based on one or a few transformation matrices Based on the language of an individual user estimated to a big Set of Gaussian functions to transform. This procedure is used for a few utterances carried out. If the matrices only by means of utterances of the same word the transformation is not representative of all Gaussian functions (Gaussians), and most of them are wrongly transformed.
Gemäß einem anderen Beispiel, bei dem die Anpassung auf einer Maximum-a-posteriori-Schätzung (MAP) basiert, wird jede Gaußfunktion, die im Sprachsignal einer Äußerung beobachtet wird, individuell transformiert. Da Gaußfunktionen (Gaussians) über Phonemmodelle hinweg gemeinsam verwendet werden, würde eine Anpassung an nur das gleiche Wort eine Anpassung der Gaußfunktionen an einen bestimmten Kontext bedeuten. Die anderen Kontexte würden nicht mehr berücksichtigt bzw. repräsentiert.According to one another example where the fit is based on a maximum a posteriori (MAP) estimate based, every Gaussian function, who observed in the voice signal of an utterance is transformed individually. Since Gaussian functions (Gaussians) about phoneme models shared across, would be an adjustment to just that same word an adaptation of the Gaussian functions to a certain one Context. The other contexts would no longer be taken into account or represents.
Gemäß der Erfindung und dem vorgeschlagenen Verfahren wird aufgezeichnet, in welchem Kontext ein Modellfunktions-Mixture und deren Komponenten, insbesondere eine Verteilungsfunktion oder eine Gaußfunktion, angepasst wurden. Mehrere explizite Lösungen können vorgeschlagen werden.According to the invention and the proposed method, it is recorded in which Context of a model function mixture and its components, in particular a distribution function or a Gaussian function. Several explicit solutions can be suggested.
Bei einer besonders einfachen Lösung wird aufgezeichnet bzw. überwacht, bei welchen Wörtern oder Sprachphrasen oder dergleichen eine Anpassung durchgeführt wird bzw. auftritt. Falls das gleiche Wort, die gleiche Sprachphrase oder Äußerung innerhalb der letzten m Äußerungen, Sprachphrasen, Wörter oder dergleichen im ankommenden Sprachfluss n mal auftreten, werden diese Äußerung, Sprachphrase oder dieses Wort nicht mehr zur Anpassung des aktuellen akustischen Modells verwendet.at a particularly simple solution is recorded or monitored, at which words or Speech phrases or the like an adaptation is carried out or occurs. If the same word, the same language phrase or utterance within the last m statements, Speech phrases, words or the like occur n times in the incoming speech flow this utterance, language phrase or this word no longer to adjust the current acoustic Model used.
Bei einer zweiten Lösung ist die Stärke der Anpassung, d. h. das Gewicht, das den Einfluss der Anpassung auf die aktuelle Parameterschätzung kontrolliert, beispielsweise umgekehrt proportional oder dergleichen zu der Auftrittshäufigkeit der bestimmten Äußerung, Sprachphrase oder des Wortes innerhalb des ankommenden Sprachflusses.at a second solution is the strength the adjustment, d. H. the weight that the influence of adjustment checked for the current parameter estimate, for example inversely proportional or the like to the frequency of occurrence the particular utterance, Speech phrase or word within the incoming speech flow.
Falls während der vergangenen wenigen Äußerungen, Sprachphrasen oder Wörter vom gleichen, insbesondere kontextabhängigen Phonmodell eine bestimmte Modellfunktions-Mixturekomponente, insbesondere vom gaußschen Typ angepasst werden soll und die Statistik für die Anpassung dieses gaußschen Typs (Gaussian) wiederholt berechnet wurde, werden die oben beschriebenen ersten oder zweiten Lösungen verwendet.If while the past few statements, Speech phrases or words a certain one of the same, in particular context-dependent phonemodel Model function Mixturekomponente, especially from the Gaussian Type to be adjusted and the statistics for the adjustment of this Gaussian type (Gaussian) has been calculated repeatedly, the ones described above first or second solutions used.
Angenommen, der Sprecher äußert beispielsweise hintereinander "Goethestraße", "Stettener Straße", "Hauptstraße", so würde in der letzten Äußerung die Modellfunktions-Mixturekomponente, d. h. die entsprechende Gaußfunktion, die mit dem Phonmodell von /a/ zusammenhängt, nicht mehr angepasst werden, da diese immer im gleichen Kontext "Straße" aufgetreten ist. Dagegen könnte das Phonmodell für "t" noch angepasst werden, da es in unterschiedlichen akustischen Kontexten "Goethe", "Stettener" und "Haupt" aufgetreten ist.Accepted, for example, the speaker uttered "Goethestraße", "Stettener Straße", "Hauptstraße" one after the other, so in the last statement the Model function mixture component, d. H. the corresponding Gaussian function, that are related to the phon model of / a / are no longer adapted, since this always occurred in the same context "street". Against that could Phone model for "t" can still be customized as it comes in different acoustic contexts "Goethe", "Stettener" and "Haupt" occurred.
Im Folgenden wird das Verfahren zur Spracherkennung gemäß der Erfindung detaillierter mit Bezug zu einer schemati schen Darstellung auf Basis einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung erläutert.in the The following is the method for speech recognition according to the invention in more detail with reference to a schematic representation based on a preferred embodiment of the method according to the invention explained for speech recognition.
Im
ersten Schritt
Im
folgenden Schritt
In
der Anfangs- oder Startphase der Ausführungsform des erfindungsgemäßen Verfahrens
zur Spracherkennung wird das Verfahren
Im
Schritt
Anhand
der im Schritt
Schließlich wird
gemäß der Einbeziehung der
Sprachphrase SPj oder des in Frage stehenden Wortes die bestimmte
Anpassungszahl aj im Schritt
Für den Fall,
dass die bestimmte Sprachphrase SPj, das Wort oder die Äußerung in
Frage mehr als tj, uj mal
in den Anpassungsprozess für
das aktuelle akustische Modell CAM einbezogen wurden, geht die Verarbeitung
im Schritt
Gemäß einer
weiteren Ausführungsform
ist es vorteilhaft, die Grenzwerte tj oder
uj (in
In
jedem Fall muss x initialisiert und inkrementiert werden, wie dies
in den Schritten
Claims (13)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP00122025A EP1197949B1 (en) | 2000-10-10 | 2000-10-10 | Avoiding online speaker over-adaptation in speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
DE60007637D1 DE60007637D1 (en) | 2004-02-12 |
DE60007637T2 true DE60007637T2 (en) | 2004-11-18 |
Family
ID=8170051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2000607637 Expired - Lifetime DE60007637T2 (en) | 2000-10-10 | 2000-10-10 | Avoidance of online speaker overfitting in speech recognition |
Country Status (4)
Country | Link |
---|---|
US (1) | US6882972B2 (en) |
EP (1) | EP1197949B1 (en) |
JP (1) | JP3990136B2 (en) |
DE (1) | DE60007637T2 (en) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1187096A1 (en) * | 2000-09-06 | 2002-03-13 | Sony International (Europe) GmbH | Speaker adaptation with speech model pruning |
US7447633B2 (en) * | 2004-11-22 | 2008-11-04 | International Business Machines Corporation | Method and apparatus for training a text independent speaker recognition system using speech data with text labels |
US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7949533B2 (en) | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US7865362B2 (en) | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US7895039B2 (en) * | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US7827032B2 (en) | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
CN101390156B (en) * | 2006-02-27 | 2011-12-07 | 日本电气株式会社 | Reference pattern adapter, and reference pattern adapting method |
US20080004876A1 (en) * | 2006-06-30 | 2008-01-03 | Chuang He | Non-enrolled continuous dictation |
WO2008137616A1 (en) | 2007-05-04 | 2008-11-13 | Nuance Communications, Inc. | Multi-class constrained maximum likelihood linear regression |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US20140100847A1 (en) * | 2011-07-05 | 2014-04-10 | Mitsubishi Electric Corporation | Voice recognition device and navigation device |
DK2713367T3 (en) * | 2012-09-28 | 2017-02-20 | Agnitio S L | Speech Recognition |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
US9507852B2 (en) * | 2013-12-10 | 2016-11-29 | Google Inc. | Techniques for discriminative dependency parsing |
GB2546981B (en) * | 2016-02-02 | 2019-06-19 | Toshiba Res Europe Limited | Noise compensation in speaker-adaptive systems |
US10141009B2 (en) | 2016-06-28 | 2018-11-27 | Pindrop Security, Inc. | System and method for cluster-based audio event detection |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
US9824692B1 (en) | 2016-09-12 | 2017-11-21 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
US10553218B2 (en) * | 2016-09-19 | 2020-02-04 | Pindrop Security, Inc. | Dimensionality reduction of baum-welch statistics for speaker recognition |
CA3179080A1 (en) | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
WO2018053537A1 (en) | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Improvements of speaker recognition in the call center |
US10397398B2 (en) | 2017-01-17 | 2019-08-27 | Pindrop Security, Inc. | Authentication using DTMF tones |
CN109754784B (en) * | 2017-11-02 | 2021-01-29 | 华为技术有限公司 | Method for training filtering model and method for speech recognition |
JP6903613B2 (en) * | 2018-09-10 | 2021-07-14 | 株式会社東芝 | Speech recognition device, speech recognition method and program |
US11355103B2 (en) | 2019-01-28 | 2022-06-07 | Pindrop Security, Inc. | Unsupervised keyword spotting and word discovery for fraud analytics |
WO2020163624A1 (en) | 2019-02-06 | 2020-08-13 | Pindrop Security, Inc. | Systems and methods of gateway detection in a telephone network |
WO2020198354A1 (en) | 2019-03-25 | 2020-10-01 | Pindrop Security, Inc. | Detection of calls from voice assistants |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU7802194A (en) * | 1993-09-30 | 1995-04-18 | Apple Computer, Inc. | Continuous reference adaptation in a pattern recognition system |
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
US5737487A (en) * | 1996-02-13 | 1998-04-07 | Apple Computer, Inc. | Speaker adaptation based on lateral tying for large-vocabulary continuous speech recognition |
US6389393B1 (en) * | 1998-04-28 | 2002-05-14 | Texas Instruments Incorporated | Method of adapting speech recognition models for speaker, microphone, and noisy environment |
DE69826292T2 (en) * | 1998-12-01 | 2005-11-17 | Sony International (Europe) Gmbh | Speaker adaptation after the linear regressive maximum likelihood procedure |
-
2000
- 2000-10-10 EP EP00122025A patent/EP1197949B1/en not_active Expired - Lifetime
- 2000-10-10 DE DE2000607637 patent/DE60007637T2/en not_active Expired - Lifetime
-
2001
- 2001-10-05 US US09/972,174 patent/US6882972B2/en not_active Expired - Fee Related
- 2001-10-10 JP JP2001313196A patent/JP3990136B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
DE60007637D1 (en) | 2004-02-12 |
JP2002156994A (en) | 2002-05-31 |
US20020072894A1 (en) | 2002-06-13 |
EP1197949A4 (en) | 2001-03-06 |
US6882972B2 (en) | 2005-04-19 |
JP3990136B2 (en) | 2007-10-10 |
EP1197949A1 (en) | 2002-04-17 |
EP1197949B1 (en) | 2004-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60007637T2 (en) | Avoidance of online speaker overfitting in speech recognition | |
DE60020660T2 (en) | Context-dependent acoustic models for voice recognition with voice-matching | |
DE69726526T2 (en) | Scheme and model adaptation for pattern recognition based on Taylor expansion | |
DE69938374T2 (en) | Method and apparatus for speech recognition using both a neural network and hidden Markov models | |
DE69816177T2 (en) | Speech / pause differentiation using unguided adaptation of hidden Markov models | |
DE69725802T2 (en) | Pre-filtering using lexical trees for speech recognition | |
DE60100637T2 (en) | Method for noise adaptation using transformed matrices in automatic speech recognition | |
DE60305568T2 (en) | Keyword recognition in a voice signal | |
DE10030105A1 (en) | Speech recognition device | |
WO1999059135A2 (en) | Arrangement and method for computer recognition of a predefined vocabulary in spoken language | |
WO2004072954A1 (en) | Three-stage word recognition | |
DE4031638C2 (en) | ||
DE69918635T2 (en) | Apparatus and method for speech processing | |
DE60108104T2 (en) | Method for speaker identification | |
DE10119284A1 (en) | Method and system for training parameters of a pattern recognition system assigned to exactly one implementation variant of an inventory pattern | |
DE60018696T2 (en) | ROBUST LANGUAGE PROCESSING OF CHARACTERED LANGUAGE MODELS | |
EP1193689A2 (en) | Method for the computation of an eigenspace for the representation of a plurality of training speakers | |
DE4010028C2 (en) | Speech recognition method | |
DE69922769T2 (en) | Apparatus and method for speech processing | |
WO2001086634A1 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
EP1640969B1 (en) | Procedure of speaker adaptation for Hidden-Markov-Model based speech recognition system | |
EP1435087B1 (en) | Method for producing reference segments describing voice modules and method for modelling voice units of a spoken test model | |
WO1993002448A1 (en) | Method and device for recognizing individual words of spoken speech | |
DE102004017486A1 (en) | Method for noise reduction in a voice input signal | |
WO1996027871A1 (en) | Method of recognising at least one defined pattern modelled using hidden markov models in a time-variable test signal on which at least one interference signal is superimposed |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: SONY DEUTSCHLAND GMBH, 50829 KOELN, DE |