DE69226796T2 - Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung - Google Patents
Zeitliche Dekorrelationsverfahren zur störsicheren SprechererkennungInfo
- Publication number
- DE69226796T2 DE69226796T2 DE69226796T DE69226796T DE69226796T2 DE 69226796 T2 DE69226796 T2 DE 69226796T2 DE 69226796 T DE69226796 T DE 69226796T DE 69226796 T DE69226796 T DE 69226796T DE 69226796 T2 DE69226796 T2 DE 69226796T2
- Authority
- DE
- Germany
- Prior art keywords
- word
- vectors
- speech
- speaker
- oriented
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 32
- 230000002123 temporal effect Effects 0.000 title claims description 17
- 239000013598 vector Substances 0.000 claims description 206
- 238000012795 verification Methods 0.000 claims description 54
- 230000009466 transformation Effects 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000012935 Averaging Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
- Diese Erfindung bezieht sich allgemein auf Sprachverarbeitung und insbesondere auf ein System und ein Verfahren zur zuverlässigen Sprecherverifizierung unter Verwendung einer zeitlichen Dekorrelation.
- Gegenwärtige Systeme und Verfahren der Sprecherstimmenverifizierung erfordern eine Sprecherregistrierung vor dem tatsächlichen Verifizierungseinsatz. Während einer solchen Registrierung wird ein Modell der jeden zu verifizierenden Sprecher bestimmenden Sprache erzeugt. Dies erfolgt normalerweise dadurch, daß Sprachdaten mehrerer Äußerungen, von denen man weiß, daß sie von einem bestimmten Sprecher stammen, gesammelt und dann verarbeitet werden, um Modelle zu bilden, die den Sprecher eindeutig definieren. Die eindeutigen Modelle werden zusammen mit Informationen gespeichert, die den Sprecher der Modelle identifizieren.
- Während des tatsächlichen Verifizierungseinsatzes beanspruchen die Sprecher zunächst ihre Identität. Das System fordert den Sprecher auf, eine Äußerung zu machen, die dann mit den gespeicherten Sprachmodellen für den Sprecher mit der beanspruchten Identität verglichen wird. Wenn die gesprochene Äußerung und die Sprachmodelle gut übereinstimmen, wird bestätigt, daß der Sprecher derjenige mit der beanspruchten Identität ist. Gegenwärtige Verfahren der Sprachverarbeitung messen Vektoren aus Sprachparametern von einer Äußerung über kleine Zeitperioden, die Rahmen genannt werden, wobei man annimmt, daß sich das akustische Signal während deren Dauer nicht merklich ändert. Oft werden diese Parametervektoren einer orthogonali sierenden linearen Transformation oder einigen anderen Transformationen unterzogen, um statistisch unkorrelierte Sprachparametervektoren zu erzeugen, die auch als Sprachmerkmalsvektoren bekannt sind. Die sich ergebenden Parameter- oder Merkmalsvektoren können verwendet werden, um die Sprache einer einzelnen Person zu modellieren.
- Gegenwärtig fassen einige Sprecherverifizierungssysteme die Sprachvektoren von allen Rahmen der Sprache einer bestimmten Person in Gruppen zusammen und verwenden diese, um statistische Durchschnittseigenschaften der Sprachvektoren über Gesamtäußerungen zu bestimmen. Manchmal schätzen diese Systeme durchschnittliche statistische Eigenschaften der Verzerrungen der Sprachvektoren aufgrund von verschiedenen Telefongeräten und Kanälen ab. Die durchschnittlichen statistischen Eigenschaften werden später dazu verwendet, den Sprecher zu verifizieren.
- Andere Sprecherverifizierungssysteme gruppieren die Sprachvektoren, die zu den gleichen Sprachklängen gehören in einem Verfahren, das Ausrichtung genannt wird. Dynamische Zeitverzerrung (DTW) oder Hidden-Markov-Modellierung (HMM) gehören zu den bekannteren Verfahren zur Ausrichtung (Englisch: alignment). Das System schätzt die statistischen Eigenschaften der Sprachvektoren, die zu jeder Gruppe gehören, getrennt ab. Die sich ergebende Sammlung aus statistischen Eigenschaften der Gruppen von Sprachvektoren bilden das Referenzmodell für den zu verifizierenden Sprecher. Die Verifizierungssysteme trennen oft die Sammlung statistischer Eigenschaften in mehrere Modelle auf, die einzelne Wörter, Silben oder Laute darstellen.
- Es ist wichtig zu erkennen, daß alle diese zum Stand der Technik gehörenden Systeme statistische Eigenschaften der Sprecherdaten auf der Ebene der Sprachvektoren verwenden. Daher wird bei den Systemen implizit die Unabhängigkeit der statistischen Eigenschaften angenommen, die jeder Gruppe von Sprachvektoren zugeordnet sind.
- Eines der Probleme, dem viele Sprecherverifizierungsanwendungen gegenüberstehen, ist die unvermeidbare Verzerrung oder Veränderung des Sprachsignals. Ein verzerrtes Sprachsignal führt zu verzerrten Sprachvektoren. Wenn die Vektoren einzeln betrachtet werden, wie es bei gegenwärtigen Verifizierungssystemen der Fall ist, ist es wegen der Verzerrung der Sprachvektoren schwierig, zu entscheiden, ob die Sprache von einem angenommenen wahren Sprecher oder einem Betrüger kam. Dies vermindert die Fähigkeit zur Sprecherverifizierung.
- Z. B. stört bei Telekommunikationsanwendungen, bei denen man den Zugang zu Resourcen über Stimmenidentifikation über das Telefon steuern möchte, die Verwendung verschiedener Telefongeräte und -kanäle häufig und verändert die Sprache einer Person. Bei anderen Anwendungen, z. B. Geldautomaten für das Bankwesen, verursacht die Verwendung verschiedener Mikrophone eine Veränderung des Sprachsignals. Es ist auch wichtig zu erkennen, daß bei gegenwärtigen Sprecherverifizierungssystemen, da gleichzeitig nur ein Telefongerät oder Mikrophon verwendet wird, die Veränderung des Sprachsignals so lange gleichmäßig erfolgt, wie dieses spezielle Telefongerät oder Mikrophon verwendet wird.
- Folglich sind Verbesserungen, die einige oder sämtliche dieser Probleme überwinden, wünschenswert.
- EP-A 0 397 399 beschreibt ein System zur Sprecherstimmenverifizierung, bei dem Sprachmerkmalsvektoren berechnet werden, eine lineare Transformation durchgeführt wird, die die am wenigsten wichtigen Merkmale verwirft, Referenz- und eingegebene Äußerungen zueinander ausgerichtet werden und der euklidische Abstand zwischen den Referenz- und Eingabemerkmalsparametern über die Zeit integriert wird.
- WO-A 91/18386, die nach dem Prioritätsdatum der vorliegenden Anmeldung eingereicht und veröffentlicht worden ist, beschreibt ein Verfahren zur Sprecherstimmenverifizierung, bei dem ein wortorientierter tertiärer Vektor mit einer Transformationsmatrix multipliziert wird, um einen Parameterdatenvektor zu erzeugen, wobei jede Komponente des Vektors mit der entsprechenden Komponente eines Referenzvektors verglichen wird, wobei eine gewichtete Summe der Differenzen als Maß der Ähnlichkeit zwischen den Referenz- und eingegebenen Äußerungen eines Worts verwendet wird.
- Es ist eine Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren zur zuverlässigen Sprecherverifizierung zu schaffen, das Verzerrungen oder Veränderungen des Sprachsignals aufgrund der Verwendung verschiedener Telefongeräte, Telefonkanäle oder Mikrophone kompensiert.
- Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein System und Verfahren zur Verbesserung der Leistungsfähigkeit der Sprecherverifizierung zu schaffen.
- Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren zu schaffen, die die Menge an Speicher vermindern, der für sprecherspezifische Sprachinformationen erforderlich ist.
- Die Erfindung schafft ein automatisches System zur zeitlichen Dekorrelation für die Sprecherstimmenverifizierung mit: einem Kollektor zum Empfangen von Sprache von einem unbekannten Sprecher, der eine bestimmte Identität beansprucht, und zum Erzeugen mehrerer Eingabevektoren für jedes gesprochene Wort; einem Element zum Berechnen wortorientierter Sprachmerkmale, das so betrieben werden kann, daß es eine zeitliche Dekorrelationstransformation zum Erzeugen von Vektoren wortorientierter Sprachmerkmale aus den von dem Kollektor empfangenen Spracheingaben verwendet, wodurch Ganzwortvektoren gebildet werden, die über ganze Wörter zu den Spracheingaben statistisch unkorreliert sind; einem Speicher wortorientierter Sprachmerkmale zum Speichern von Vektoren wortorientierter Sprachmerkmale, von denen bekannt ist, daß sie zu dem Sprecher mit der bestimmten Identität gehören; einem Element zum Bewerten wortorientierter Vektoren, um eine Bewertung der Ähnlichkeit zu berechnen, die zwischen den von dem Element zum Berechnen wortorientierter Sprachmerkmale empfangenen Vektoren wortorientierter Sprachmerkmale und den von dem Speicher wortorientierter Sprachmerkmale empfangenen Vektoren besteht; und einer Sprecherverifizierungsentscheidungsschaltungsanordnung, die auf der Grundlage der von dem Element zum Bewerten wortorientierter Vektoren empfangenen Ähnlichkeitsbewertung entscheidet, ob der unbekannte Sprecher der Sprecher ist, der die bestimmte Identität aufweist.
- Die Erfindung schafft darüber hinaus ein zeitliches Dekorrelationsverfahren zur Sprecherstimmenverifizierung, bei dem Spracheingaben von einem unbekannten Sprecher gesammelt werden, der eine bestimmte Identität beansprucht, und mehrere Eingabevektoren für jedes gesprochene Wort erzeugt werden; die mehreren Eingabevektoren unter Verwendung einer zeitlichen Dekorrelationstransformation transformiert werden, um Vektoren wortorientierter Sprachmerkmale zu erzeugen, wodurch Ganzwortvektoren gebildet werden, die über ganze Wörter zu den Spracheingaben statistisch unkorreliert sind; vorher gespeicherte Vektoren wortorientierter Sprachmerkmale wiederausgelesen werden, von denen bekannt ist, daß sie zu dem Sprecher mit der bestimmten Identität gehören; eine Bewertung der Ähnlichkeit berechnet wird, die zwischen den bei dem Erzeugungsschritt gebildeten Vektoren wortorientierter Sprachmerkmale und wiederausgelesenen vorher gespeicherten Vektoren besteht; und auf der Grundlage der Ähnlichkeitsbewertung entschieden wird, ob der unbekannte Sprecher der Sprecher ist, der die bestimmte Identität aufweist.
- Bevorzugte Ausführungsformen der vorliegenden Erfindung schaffen ein System und Verfahren zur zeitlichen Dekorrelation für die Sprecherstimmenverifizierung, die die statistisch optimale Korrelation zwischen den gemessenen Merkmalen der Sprache über ganze Wörter verwenden, um die Identität des Sprechers zu verifizieren. Die vorliegende Erfindung wertet Korrelationen zwischen Gruppen aus Sprachvektoren aus, die Klänge einzelner Wörter in einer Äußerung repräsentieren. Da diese Korrelationen ganze Wörter überspannen, ist es möglich, statistische Merkmale herauszufinden, die ganze Wörter überspannen, die von Verzerrungen relativ unberührt bleiben, die während einer gesamten Äußerung konstant bleiben. Die erfindungsgemäße Dekorrelationsverarbeitung, die diese statistischen Merkmale verwendet, schafft ein Verifizierungssystem, das gegenüber Verzerrungen und Veränderungen, die während einer Äußerung gleichmäßig bleiben, weniger empfindlich ist, was zu einer verbesserten Leistungsfähigkeit der Sprecherverifizierung führt.
- Das System und Verfahren der vorliegenden Erfindung zur zeitlichen Dekorrelation vermindert darüber hinaus die Anzahl an Parametern, die gespeichert werden müssen, um die Stimme eines bestimmten Sprechers zu repräsentieren, wodurch das Ausmaß an Speicher vermindert wird, der für sprecherspezifische Sprachinformationen erforderlich ist.
- Ein System und Verfahren gemäß der vorliegenden Erfindung wird nun als ein Beispiel mit Bezug auf die beigefügten Zeichnungen beschrieben.
- Fig. 1 ist ein Blockdiagramm eines Beispiels eines allgemeinen Sprecherverifizierungssystems;
- Fig. 2 ist ein Blockdiagramm, das den Ausrichtungsprozeß ohne die vorliegende Erfindung darstellt;
- Fig. 3 ist ein Blockdiagramm, das die Äußerungsbewertung ohne die vorliegende Erfindung darstellt;
- Fig. 4a-b sind Blockdiagramme von Schritten, die bei einem Registrierungsprozessor gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung durchgeführt werden;
- Fig. 5 ist ein Blockdiagramm eines Sprecherverifizierungsprozessors gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung;
- Fig. 6 ist ein Blockdiagramm eines Ausrichtungsprozesses gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung;
- Fig. 7 ist ein Blockdiagramm, das die Ganzworttransformation gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung darstellt; und
- Fig. 8 ist ein Blockdiagramm, das die Äußerungsbewertung gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung darstellt.
- Wenn es nicht anders angezeigt ist, so beziehen sich gleiche Bezugszeichen und Symbole in den verschiedenen Figuren auf sich entsprechende Teile.
- Eine bevorzugte Ausführungsform der vorliegenden Erfindung läßt sich unter Betrachtung der Fig. 1 verstehen, die ein allgemeines Sprecherverifizierungssystem darstellt. Wie oben erläutert, erfordert die Sprecherstimmenverifizierung vor dem tatsächlichen Verifizierungseinsatz die Stimmenregistrierung. Um einen bekannten Sprecher zu registrieren, ermöglicht das Registrierungssystem 5 einem bekannten Sprecher, Äußerungen zu einem Sprachkollektor 10 über ein Mikrophon, ein Telefongerät, einen Kanal oder dergleichen zu machen. Der Sprachkollektor 10 sammelt Sprachparametervektoren aus solchen Äußerungen und liefert sie zur Modellierungseinheit 15. Die Modellierungseinheit 15 bildet für die bekannten Sprecher eindeutige Modelle, die auf diesen Sprachparametervektoren basieren. Diese für den Sprecher eindeutigen Modelle werden zusammen mit Informationen, die den Sprecher der Modelle identifizieren, im Speicher 20 gespeichert.
- In einigen Fällen werden mehrere Wiederholungen des gleichen Worts oder der gleichen Phrase gesammelt und Parametervektoren, die zu den gleichen Sprachteilen gehören, werden einer Ausrichtung (Englisch: alignment) unterzogen (Zusammenfassung von Vektoren in Gruppen). Die sich ergebenden Gruppen von Vektoren werden dann einem Durchschnittsbildungsprozeß mittels der Modellierungseinheit 15 unterzogen, um eine gute Schätzung oder ein gutes Modell der für den Sprecher spezifischen Referenzsprachparametervektoren zu liefern. Der sich ergebende Satz an Parametervektoren bildet das Referenzmodell für den zu verifizierenden Sprecher. Häufig werden die Parametervektoren aufgeteilt, so daß sie mehrere getrennte Modelle bilden, die Sprachteile wie einzelne Wörter, Silben oder Laute repräsentieren.
- Während der tatsächlichen Sprecherverifizierung gibt ein Sprecher zunächst seine beanspruchte Identität in den Eingangsabschnitt 30 des Verifizierungssystems 25 ein. Dies kann durch verschiedene Mittel, z. B. Eingeben einer Kennziffer (Zifferneingabe) über eine Telefontastatur, Verwendung einer Kreditkarte mit darauf aufgezeichneten Informationen, Spracherkennung einer Kennphrase oder einem beliebigen anderen geeigne ten Mittel durchgeführt werden. Das Verifizierungssystem 25 verwendet diese beanspruchte Identität, um die entsprechenden Sprachmodelle aus dem Speicher 20 wieder auszulesen. Hat das Verifizierungssystem 25 die Sprachmodelle für die beanspruchte Identität wiederaufgefunden, so kann das Verifizierungssystem 25 den Sprecher auffordern, eine Äußerung zu machen, oder es kann die gelieferte Äußerung verwenden, um eine Identität zu beanspruchen.
- Bei mit festgelegtem Text arbeitenden Verifizierungssystemen kennt das Verifizierungssystem 25 den Text der Verifizierungsäußerung jedes Sprechers. Nachdem die Äußerung von dem Sprecher gesammelt wurde, wird sie in eine Sequenz aus Eingabesprachvektoren in einer ähnlichen Weise wie bei der Registrierung umgewandelt. Unter Verwendung von DTW, HMM oder anderen Algorithmen werden diese Eingabesprachvektoren dann in Ausrichtung zu den Referenzmodellvektoren gebracht, die dem Sprecher mit der beanspruchten Identität entsprechen, was zu einer Korrespondenz zwischen jedem Eingabesprachvektor und einem Referenzmodell-(Parameter-)Vektor führt. Ein Beispiel für diese Art von Ausrichtung ist in der Fig. 2 dargestellt, in der die Eingabesprachvektoren v1-v8 in Ausrichtung zu den Referenzmodell-(Parameter-)Vektoren r1-r4 gebracht werden. Die Referenzparametervektoren r1 und r2 entsprechen einem ersten Wort, während r3 und r4 einem zweiten Wort entsprechen.
- Nach der Ausrichtung vergleicht das Verifizierungssystem 25 das Eingabesprachsignal der gesprochenen Äußerung mit den wiederausgelesenen Sprachmodellen im Sprachmodellkomparator 35. Der Vergleich wird zwischen jedem der Eingabesprachvektoren und seinem abgebildeten Referenzvektor durchgeführt, um den Grad der Ähnlichkeit zwischen den Vektoren zu bestimmen. Der Komparator 35 erzeugt eine Ähnlichkeitsbewertung 310, dargestellt in der Fig. 3, die basierend auf der Nähe des eingegebenen Sprachsignals zu den aus dem Speicher 20 wiederausgelesenen Modellen für die gesamte Verifizierungsäußerung berechnet wird. Diese Nähe ist die Summe der Ähnlichkeitsmessungen 320 zwischen den Eingabesprachvektoren und den abgebildeten Referenzvektoren. Die Ähnlichkeit der Vektoren kann durch mehrere Verfahren bestimmt werden, zu denen statistische Berechnungen maximaler Wahrscheinlichkeit oder Vektorquantisierung gehören. Wenn die Äußerungsbewertung anzeigt, daß die Referenz- und Eingabevektoren über die gesamte Äußerung ähnlich genug sind, um die Kriterien für den Erfolg zu erfüllen (d. h., daß die gesprochene Äußerung gut mit den Sprachmodellen übereinstimmt), dann entscheidet das Verifizierungssystem 25, daß der Sprecher tatsächlich dem der beanspruchten Identität entspricht. Bei einigen Systemen werden dann, wenn die beanspruchte Identität verifiziert worden ist, die Eingabesprachvektoren zusammen mit den abgebildeten Referenzvektoren einem Durchschnittsbildungsprozeß unterzogen, um einen aktualisierten Satz an Sprachreferenzmodellen zu erzeugen, der die im Speicher 20 gehaltenen Modelle ersetzt:
- Bei einer bevorzugten Ausführungsform der vorliegenden Erfindung umfassen die Registrierung und die Verifizierung beide eine HMM-Ausrichtung der Eingabesprachparametervektoren zu den Referenzmodellparametervektoren. Jedoch werden die jedes Wort ausmachenden Vektoren danach verkettet, um einzelne Vektoren zu bilden, die ganze Wörter in der Äußerung darstellen. Die Ganzwortvektoren werden wortspezifischen orthogonalisierenden linearen Transformationen unterzogen, um Ganzwortvektoren zu erzeugen, die statistisch über ganze Wörter unkorreliert sind. Die sich ergebenden Ganzwortvektoren werden verwendet, um den Grad an Ähnlichkeit zwischen den eingegebenen Sprachäußerungen und den gespeicherten Sprachparametern zu bestimmen.
- Zur genaueren Erläuterung zeigt Fig. 4a ein Blockdiagramm einer bevorzugten Ausführungsform, die die Sprachmerkmalsvektoren des bekannten Sprechers aus der eingegebenen Sprache des Sprechers während der Registrierung bestimmt. Zu Beginn am Block 100 spricht der zu registrierende Sprecher eine bekannte Verifizierungsäußerung. Für dieses Sprachsignal werden die Koeffizienten einer linearen prädikativen Codierung (LPC) berechnet, um Vektoren aus LPC-Koeffizienten zu berechnen. Bei der bevorzugten Ausführungsform bestehen diese Vektoren aus zehn Koeffizienten und zusätzlich zwei Elementen, um die Energie und die Tonhöhe zu definieren. Rahmenparametervektorberechnungselement 110 verwendet die LPC-Vektoren in einem nichtlinearen Prozeß, um Energie-, Spektrale, Differenzenergie- und Differenzspektrumssprachparameter zu bestimmen. Diese globalen Sprachparameter werden durch den Vektorumformer 120 für globale Merkmale in Sprachmerkmalsvektoren für den bekannten Sprecher umgeformt. Die Umwandlung der Vektoren globaler Merkmale ist eine vorherbestimmte lineare Transformation, die vor der Registrierung berechnet wird. Sie gestaltet sich durch Bestimmung einer Vektorstatistik aus einer Datenbank, die eine große Anzahl an Sprechern repräsentiert. Die Vektorstatistik wird in einer Eigenvektoranalyse verwendet, um die lineare Transformation zu entwickeln, die die unkorrelierten Merkmale bestimmt, die in optimaler Weise zwischen den Sprechern unterscheiden.
- Die oben beschriebene Sprachmerkmalsvektorbildung ist lediglich ein Weg, um Sprachmerkmale zu erzeugen. Es gibt andere Verfahren zur Berechnung der Merkmale, wie z. B. die Berechnung von Cepstralkoeffizienten oder die Verwendung von Merkmalsvektoren, die direkt aus den LPC-Koeffizienten abgeleitet wurden, wie z. B. die Parcorkoeffizienten oder die Log.-Area-Ratio- Koeffizienten. Die vorliegende Erfindung ist keineswegs auf ein bestimmtes Verfahren zur Berechnung der Sprachvektoren beschränkt.
- Die Fig. 4b zeigt ein Blockdiagramm der bevorzugten Ausführungsform der Registrierung des bekannten Sprechers durch Erzeugen von für den Sprecher spezifischen wortorientierten Sprachmodellen aus den Sprachmerkmalsvektoren. Der Merkmalsvektorausrichtungsprozessor 140 empfängt die Sprachmerkmalsvektoren von dem Umformer 120 für Vektoren globaler Merkmale und richtet diese Merkmale zu den vorher bestimmten sprecherunabhängigen Referenzwortmodellmerkmalsvektoren 130 aus, die akustische Beobachtungen für jedes Wort der Verifizierungsäußerung darstellen. Die Referenzwortmodellmerkmalsvektoren 130 sind statistische Darstellungen jedes Worts der Registrierungseingabesprache eines bekannten Sprechers und sie werden unter Verwendung einer großen Anzahl von Sprechern aus einer Datenbank vorher gesammelter Sprache erzeugt. Gemäß einer bevorzugten Ausführungsform verwendet der Ausrichtungsprozessor 140 einen Viterbi-Such-HMN-Algorithmus, um die Sprach- und Referenzmodelle auszurichten, wodurch eine Abbildung zwischen Eingabesprachmerkmalsvektoren und Referenzsprachmerkmalsvektoren 130 erzeugt wird. Wie oben erwähnt, können auch andere bekannte Algorithmen, z. B. dynamische Zeitverzerrung (DTW), verwendet werden, um diese Ausrichtung durchzuführen. Bei der bevorzugten Ausführungsform ist die Abbildung so, daß es wenigstens eine Eingabesprachmerkmalvektorabbildung auf jeden Referenzvektor 130 gibt und daß jeder Eingabesprachvektor auf nur einen Referenzvektor 130 abgebildet wird.
- Bei der bevorzugten Ausführungsform bildet die Merkmalsdurchschnittsbildungsschaltungsanordnung 150 einen Durchschnitt über die Eingabesprachmerkmalsvektoren, die auf den gleichen Referenzvektor 130 abgebildet werden, um durchschnittliche Referenzmodellvektoren zu erzeugen, die die Sprache des registrierten Sprechers für jedes Wort charakterisieren. So wird ein Satz aus Vektoren von dem bekannten Sprecher erzeugt, die den sprecherunabhängigen Referenzwortmodellvektoren entsprechen. Es ist zu erkennen, daß dies zu einer Anzahl an durchschnittlichen Eingabesprachvektoren führt, die derjenigen der Referenzvektoren entspricht. Es können auch andere Mittel zum Kombinieren der Eingabesprachmerkmalsvektoren anstelle der Durchschnittsbildung verwendet werden, so die Auswahl jedes einzelnen Eingabevektors, der die beste Anpassung an jeden Referenzvektor liefert.
- Dieser Durchschnittsbildungsprozeß kann unter Verwendung mehrerer Registrierungsäußerungen wiederholt werden, so daß die Durchschnittsreferenzmodellvektoren für jedes Wort die Sprache des registrierten Sprechers besser charakterisieren. Die Durchschnittsreferenzmodellvektoren, die jedem Wort entsprechen, werden normalerweise in dem System für die nachfolgende Verifizierungsverarbeitung gespeichert. Falls eine weitere Verminderung bezüglich des Speicherplatzes erwünscht ist, so ist die Speicherung der Durchschnittsreferenzmodellvektoren nicht erforderlich.
- Der Umformer 160 wortorientierter Vektoren verkettet zunächst sämtliche Durchschnittseingabesprachvektoren, die von der Merkmalsdurchschnittsbildungsschaltungsanordnung 150 empfangen wurden und jedem Wort entsprechen, um für jedes Wort einen auf einem einzelnen Wort basierenden Durchschnittseingabesprachvektor zu erzeugen. Der Umformer 160 wortorientierter Vektoren formt die wortorientierten Vektoren unter Verwendung einer wortorientierten linearen Transformation um. Die wortorientierte lineare Transformation wird vor einer Registrierung berechnet, wobei wortorientierte Vektorstatistiken aus einer Datenbank verwendet werden, die eine große Anzahl an Sprechern repräsentiert, und sie ist so entworfen, daß sie unkorrelierte wortorientierte Sprachmerkmale erzeugt, die in optimaler Weise zwischen Sprechern unterscheiden. Im letzten Schritt während der Registrierung speichert der Speicher 170 wortorientierter Sprachmerkmale von dem Umformer 160 wortorientierter Vektoren empfangene Daten, die den bekannten Sprecher identifizieren, und sämtliche wortorientierten Sprachmerkmalsvektoren für den bekannten Sprecher.
- Die Fig. 5 ist ein Blockdiagramm der bevorzugten Ausführungsform eines Sprecherverifizierungsprozessors gemäß der vorliegenden Erfindung. Während der Verifizierungsverarbeitung beansprucht ein unbekannter Sprecher, daß seine Identität die eines Sprechers ist, der bereits von dem System registriert worden ist. Die Aufgabe des Verifizierungssystems besteht darin, festzustellen, ob das wahr ist. Um dieses durchzuführen, fordert das Verifizierungssystem den Sprecher auf, seine Verifizierungsäußerung zu machen. Die Verifizierungsäußerung wird gesammelt und der Verifizierungsprozessor berechnet Sprachmerkmalsvektoren im Sprachmerkmalsvektorberechnungselement 210. Solche Berechnungen umfassen die gleichen Verarbeitungsschritte, wie sie in Verbindung mit der Fig. 4a besprochen wurden. Das wortorientierte Sprachmerkmalsberechnungselement 220 verwendet die Sprachmerkmalsausgaben von dem Sprachmerkmalsvektorberechnungselement 210 zusammen mit der Wortliste des beanspruchten Sprechers, um wortorientierte Sprachmerkmalsvektoren für den unbekannten Sprecher zu bilden.
- Abgesehen davon, daß die wortorientierten Sprachmerkmalsvektoren nicht direkt in einem wortorientierten Sprachmerkmalsspeicher gespeichert werden, entspricht die durch das wortorientierte Sprachmerkmalsberechnungselement 220 durchgeführte Verarbeitung derjenigen, die in Verbindung mit der Fig. 4b beschrieben wurde. Hier werden die wortorientierten Sprachmerkmalsvektoren von dem unbekannten Sprecher in das wortorien tierte Vektorbewertungselement 230 eingegeben. So verwendet das wortorientierte Sprachmerkmalsberechnungselement 220 eine HMM- Ausrichtung, um die Eingabesprachvektoren auf die sprecherspezifischen Referenzmodellvektoren abzubilden, die jedem Wort für den Sprecher mit der beanspruchten Identität entsprechen. Ein Beispiel ist in der Fig. 6 gezeigt, bei dem Eingabesprachvektoren v1 bis v8 beim Schritt 350 auf Referenzvektoren r1 und r2 für Wort 1 und Referenzvektoren r3 und r4 für Wort 2 abgebildet werden.
- Das Element 230 zum Bewerten wortorientierter Vektoren berechnet eine Bewertung der Ähnlichkeit zwischen den von dem Element 220 zum Berechnen wortorientierter Sprachmerkmalsvektoren kommenden wortorientierten Sprachmerkmalsvektoren des unbekannten Sprechers und denjenigen, die vorher in dem wortorientierten Sprachmerkmalsspeicher 170 gespeichert wurden. Bei der bevorzugten Ausführungsform besteht die Ähnlichkeitsbewertung aus einer Summe über alle Wörter der euklidischen Abstände zwischen den wortorientierten Sprachmerkmalsvektoren des unbekannten Sprechers und denjenigen, die für die beanspruchte Identität gespeichert wurden. Es gibt viele andere Ähnlichkeitsbewertungsmessungen, die verwendet werden können, z. B. der Mahalanobis-Abstand.
- Die Ähnlichkeitsmessung der vorliegenden Erfindung unterscheidet sich deutlich vom Stand der Technik. Anstelle der Durchführung eines Ähnlichkeitsvergleichs zwischen jedem Eingabesprachvektor und dem abgebildeten Referenzmodellvektor werden die auf jeden Referenzmodellvektor abgebildeten Eingabesprachvektoren einer Durchschnittsbildung unterzogen (Fig. 6, Schritt 360), um einen Durchschnittseingabesprachvektor zu erzeugen, der jedem Referenzmodellvektor (a1-a4) entspricht. Die Durchschnittseingabesprachvektoren, die jedes Wort ausmachen, werden verkettet, um einen einzigen Ganzworteingabesprachvektor für jedes Wort zu bilden. Bei dem Beispiel der Fig. 6 werden a1 und a2 verkettet, um den Ganzwortvektor für das Wort 1 zu bilden, und a3 und a4 werden verkettet, um den Ganzwortvektor für das Wort 2 zu bilden.
- Der Prozeß der Bildung von Ganzworteingabesprachvektoren 390, 395 und Ganzwortreferenzmerkmalsvektoren 410, 415 ist in der Fig. 7 dargestellt. Jeder Ganzworteingabesprachvektor 370, 375 wird durch eine vorherbestimmte lineare Transformation, die als zeitliche Dekorrelationstransformation (TDT) 380 bezeichnet wird, transformiert, wobei diese Dekorrelationstransformation speziell für jedes Wort bestimmt wird, um einen dekorrelierten Ganzworteingabesprachmerkmalsvektor 390 bzw. 395 zu erzeugen. In ähnlicher Weise werden Ganzwortreferenzsprachvektoren 400, 405 für jedes Wort (r1-r4 in der Fig. 6) verkettet, um einen einzigen Ganzwortreferenzvektor für jedes Wort zu erzeugen. Die Ganzwortreferenzsprachvektoren 400, 405 werden durch die gleichen TDTs 380 transformiert, um Ganzwortreferenzmerkmalsvektoren 410 bzw. 415 zu bilden.
- Wie in der Fig. 8 dargestellt, werden die Ganzworteingabesprachmerkmalsvektoren 390, 395 und die Ganzwortreferenzmerkmalsvektoren 410, 415 dann verglichen (Schritt 420), um einzelne Ganzwortmerkmalsvektorähnlichkeitsbewertungen 420 zu bestimmen. Eine Äußerungsbewertung ist die Summe aus den Ähnlichkeitsbewertungen 420. Die Verwendung der statistischen Berechnung größter Wahrscheinlichkeit zum Anzeigen einer Ähnlichkeit wird bevorzugt, obwohl andere bekannte Verfahren wie die Vektorquantisierung verwendet werden können. Wegen der durch die TDTs 380 gelieferten Dekorrelation können viele der Merkmale der Ganzwortmerkmalsvektoren 410, 415 verworfen werden. Bei der bevorzugten Ausführungsform der vorliegenden Erfindung wurden nur 20% der Ganzwortmerkmale pro Vektor verwendet.
- Unter Rückbezug auf die Fig. 5 ist zu erkennen, daß die sich ergebende Ähnlichkeitsbewertung von dem Element 230 zur Bewertung wortorientierter Vektoren als Eingabe zur Sprecherverifizierungsentscheidungsschaltungsanordnung 240 geliefert wird, die die Bewertung mit einer vorherbestimmten Schwelle vergleicht. Wenn die Bewertung unterhalb der Schwelle liegt, dann entscheidet das System, daß der unbekannte Sprecher dem von ihm beanspruchten entspricht. Wenn aber andererseits die Bewertung über der Schwelle liegt, gibt das System dem unbekannten Sprecher noch maximal zwei weitere Versuche, bevor es entscheidet, daß die Identität des unbekannten Sprechers nicht der beanspruchten Identität entspricht.
- Wenn die Sprecherverifizierungsentscheidungsschaltungsanordnung 240 bei der bevorzugten Ausführungsform entscheidet, daß die Identität des unbekannten Sprechers der beanspruchten Identität entspricht, dann bildet die Merkmalsaktualisierungsdurchschnittsbildungsschaltungsanordnung 250 einen gewichteten Durchschnitt der wortorientierten Sprachmerkmale der eingegebenen Sprache von dem wortorientierten Sprachmerkmalsberechnungselement 230 zusammen mit denjenigen aus dem Speicher 170 wortorientierter Sprachmerkmale. Die sich ergebenden wortorientierten Durchschnittssprachmerkmale ersetzen diejenigen, die im Speicher 170 wortorientierter Sprachmerkmale für die Identität des beanspruchten Sprechers gehalten werden. Dies liefert ein verbessertes Modell wortorientierter Sprachmerkmale für den beanspruchten Sprecher.
- Die bevorzugte Ausführungsform der vorliegenden Erfindung erzeugt eine wortspezifische lineare zeitliche Dekorrelationstransformation (TDT) für jedes Wort des Vokabulars, das der Sprecher sagen wird. Da es eine große Anzahl an Parametern gibt, die für jede TDT bestimmt werden müssen, ist es nützlich, eine Sprachdatenbank zu verwenden, die aus Äußerungen von vielen verschiedenen Sprechern besteht und bei der sich das Vokabular der Wörter mehrere Male bei jedem Sprecher wiederholt.
- Um eine TDT zu erzeugen, werden Kovarianzmatrizen von Ganzwortvektoren für jedes Wort des Vokabulars für jeden Sprecher in der Datenbank berechnet. Diese Ganzwortvektoren werden durch einen Prozeß gebildet, der dem für die Verifizierung, gezeigt in der Fig. 2, ähnlich ist. Unter Verwendung einer HMM- Ausrichtung werden Äußerungsparametervektoren von jedem Sprecher mit vorherbestimmten Referenzmodellvektoren ausgerichtet, die jedes Wort des Vokabulars repräsentieren. Nach der Ausrichtung werden die auf jeden Referenzvektor abgebildeten Äußerungsvektoren einer Durchschnittsbildung unterzogen, um Durchschnittsäußerungsvektoren zu bilden, wobei einer für jeden Referenzvektor gebildet wird. Die Durchschnittsäußerungsvektoren für jedes Wort werden verkettet, um Ganzwortvektoren zu bilden. Die Ganzwortvektoren, die jedem Wort des Vokabulars entsprechen, werden verwendet, um Kovarianzmatrizen für jeden Sprecher und jedes Wort zu berechnen. Die Kovarianzmatrizen, die dem gleichen Wort für alle Sprecher entsprechen, werden dann zusammengetan. So ergibt sich eine Kovarianzmatrix für jedes Wort des Vokabulars. Jede der Kovarianzmatrizen wird in einer Eigenvektororthogonalisierungsberechnung verwendet, um für jedes Wort Eigenvektormatrizen zu erzeugen. Außerdem werden sämtliche Ganzwortvektoren für jedes Wort (unabhängig vom Sprecher) verwendet, um eine Kovarianzmatrix für jedes Wort zu bestimmen, die globale wortorientierte Vektorkovarianzen repräsentiert. Die zwei so gebildeten Kovarianzmatrizen für jedes Wort des Vokabulars werden in einer Eigenvektor-Diskriminanten-Berechnung verwendet, um die lineare Transformation zu bestimmen, die unkorrelierte wortorientierte Merkmale definiert, die in optimaler Weise zwischen den Sprechern unterscheiden. Die Eigenvektormatrizen, die die dekorrelierten wortorientierten Transformationen darstellen, sind als TDTs bekannt.
- Wie oben erwähnt, wird der Bedarf an Speicher für die sprecherspezifischen Daten durch die Verwendung der vorliegenden Erfindung vermindert. Dies ergibt sich, weil lediglich die Ganzwortreferenzmerkmale gespeichert werden, die zur Durchführung der Ähnlichkeitsberechnungen erforderlich sind. Da lediglich ungefähr 20% der Merkmale für die Ähnlichkeitsberechnung verwendet werden, kann der Speicherplatz im Vergleich zum Fall der Speicherung sämtlicher Referenzvektoren um ungefähr 80% vermindert werden.
- Die vorliegende Erfindung verwendet eine zeitliche Dekorrelation, die die Bewertung wortorientierter Vektoren umfaßt, um die Ähnlichkeit mit gespeicherten sprecherabhängigen Referenzmodellen zu bestimmen. Eine einfache Ausdehnung des Konzepts auf die Sprachverarbeitungstechnologie kann durch Durchführen einer oben beschriebenen Ausrichtung und anschließenden Bestimmung einer wortorientierten Bewertung, basierend auf der Ähnlichkeit mit sprecherunabhängigen Modellen, erreicht werden. Diese Bewertung kann verwendet werden, um die Erkennung auf Wortebene zu leiten.
- Obwohl eine spezielle Ausführungsform der Erfindung gezeigt und beschrieben wurde, werden verschiedene Modifikationen und andere Ausführungsformen für Fachleute auf diesem Gebiet offenbar werden. Demgemäß ist es beabsichtigt, daß die Erfin dung in ihrem Schutzumfang lediglich durch die beigefügten Ansprüche begrenzt wird.
Claims (10)
1. Automatisches System zur zeitlichen Dekorrelation für die
Sprecherstimmenverifizierung mit
einem Kollektor (210) zum Empfangen von Sprache von einem
unbekannten Sprecher, der eine bestimmte Identität beansprucht,
und zum Erzeugen mehrerer Eingabevektoren (v1-v5, v6-v8) für
jedes gesprochene Wort;
einem Element (220) zum Berechnen wortorientierter
Sprachmerkmale, das so betrieben werden kann, daß es eine
zeitliche Dekorrelationstransformation zum Erzeugen von Vektoren
wortorientierter Sprachmerkmale aus den von dem Kollektor (210)
empfangenen Spracheingaben verwendet, wodurch Ganzwortvektoren
(390, 395) gebildet werden, die über ganze Wörter zu den
Spracheingaben statistisch unkorreliert sind;
einem Speicher (20) wortorientierter Sprachmerkmale zum
Speichern von Vektoren (410, 415) wortorientierter
Sprachmerkmale, von denen bekannt ist, daß sie zu dem Sprecher mit der
bestimmten Identität gehören;
einem Element (230) zum Bewerten wortorientierter Vektoren,
um eine Bewertung der Ähnlichkeit zu berechnen, die zwischen
den von dem Element zum Berechnen wortorientierter
Sprachmerkmale empfangenen Vektoren (I1, I2) wortorientierter
Sprachmerkmale und den von dem Speicher wortorientierter Sprachmerkmale
empfangenen Vektoren (R1, R2) besteht; und
einer
Sprecherverifizierungsentscheidungsschaltungsanordnung (240), die auf der Grundlage der von dem Element zum
Bewerten wortorientierter Vektoren empfangenen
Ähnlichkeitsbewertung entscheidet, ob der unbekannte Sprecher der Sprecher
ist, der die bestimmte Identität aufweist.
2. System nach Anspruch 1, bei dem das Element (220) zum
Berechnen wortorientierter Sprachmerkmale eine HMM-Ausrichtung
verwendet, um die Vektoren eingegebener Sprache auf
sprecherunabhängige Referenzmodellvektoren abzubilden, die jedem zu
dem Sprecher mit der bestimmten Identität gehörenden Wort
entsprechen.
3. System nach Anspruch 1 oder Anspruch 2, bei dem das Element
zum Bewerten wortorientierter Vektoren eine
Verkettungsschaltungsanordnung zum Verketten mehrerer Eingabevektoren
umfaßt, die ein einzelnes Wort bilden, um einzelne Vektoren zu
bilden, die ganze Wörter der Spracheingaben repräsentieren.
4. System nach einem der Ansprüche 1 bis 3, bei dem die
Ähnlichkeitsbewertung eine über alle Wörter gebildete Summe der
euklidischen Abstände zwischen den Vektoren wortorientierter
Sprachmerkmale von dem Element zum Berechnen wortorientierter
Sprachmerkmale und den in dem Speicher wortorientierter
Sprachmerkmale gespeicherten Vektoren ist.
5. Zeitliches Dekorrelationsverfahren zur
Sprecherstimmenverifizierung, bei dem
Spracheingaben von einem unbekannten Sprecher gesammelt
werden (210), der eine bestimmte Identität beansprucht, und
mehrere Eingabevektoren (v1-v5, v6-v8) für jedes gesprochene
Wort erzeugt werden;
die mehreren Eingabevektoren (v1-v5, v6-v8) unter
Verwendung einer zeitlichen Dekorrelationstransformation
transformiert werden (220), um Vektoren wortorientierter
Sprachmerkmale zu erzeugen, wodurch Ganzwortvektoren (390, 395) gebildet
werden, die über ganze Wörter zu den Spracheingaben statistisch
unkorreliert sind;
vorher gespeicherte (20) Vektoren (410, 415)
wortorientierter Sprachmerkmale wiederausgelesen werden, von denen
bekannt ist, daß sie zu dem Sprecher mit der bestimmten
Identität gehören;
eine Bewertung der Ähnlichkeit berechnet wird, die zwischen
den bei dem Erzeugungsschritt gebildeten Vektoren (I1, I2)
wortorientierter Sprachmerkmale und wiederausgelesenen vorher
gespeicherten Vektoren (R1, R2) besteht; und
auf der Grundlage der Ähnlichkeitsbewertung entschieden
wird, ob der unbekannte Sprecher der Sprecher ist, der die
bestimmte Identität aufweist.
6. Verfahren nach Anspruch 5, bei dem beim Erzeugen (220) der
Vektoren wortorientierter Sprachmerkmale eine HMM-Ausrichtung
verwendet wird, um die Vektoren eingegebener Sprache auf
sprecherunabhängige Referenzmodellvektoren abzubilden, die jedem zu
dem Sprecher mit der bestimmten Identität gehörenden Wort
entsprechen.
7. Verfahren ach Anspruch 5 oder Anspruch 6, bei dem beim
Bewerten mehrere Eingabevektoren, die ein einzelnes Wort bilden,
verkettet werden, so daß einzelne Vektoren gebildet werden, die
ganze Wörter der Spracheingaben repräsentieren.
8. Verfahren nach einem der Ansprüche 5 bis 7, bei dem die
Ähnlichkeitsbewertung eine über alle Wörter gebildete Summe der
euklidischen Abstände zwischen den während des
Erzeugungsschritts gebildeten Vektoren (I1, I2) wortorientierter
Sprachmerkmale und den wiederausgelesenen vorher gespeicherten
Vektoren (R1, R2) ist.
9. Zeitliches Dekorrelationsverfahren zur Reduzierung des für
sprecherspezifische Sprachinformation notwendigen
Speicherbedarfs, bei dem:
Vektoren wortorientierter Sprachmerkmale, die eine
Dimension aufweisen, aus einer gesprochenen Äußerung erzeugt
werden;
die Dimension der Vektoren wortorientierter Sprachmerkmale
durch Anwendung einer linearen zeitlichen
Dekorrelationstransformation auf die Vektoren wortorientierter Sprachmerkmale
reduziert wird; und
die Vektoren wortorientierter Sprachmerkmale gespeichert
werden.
10. Verfahren nach einem der Ansprüche 5 bis 8, bei dem der für
die Vektoren wortorientierter Sprachmerkmale notwendige
Speicherbedarf durch ein Verfahren nach Anspruch 9 vermindert
wurde.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/662,086 US5167004A (en) | 1991-02-28 | 1991-02-28 | Temporal decorrelation method for robust speaker verification |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69226796D1 DE69226796D1 (de) | 1998-10-08 |
DE69226796T2 true DE69226796T2 (de) | 1999-04-15 |
Family
ID=24656333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69226796T Expired - Fee Related DE69226796T2 (de) | 1991-02-28 | 1992-02-12 | Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung |
Country Status (4)
Country | Link |
---|---|
US (1) | US5167004A (de) |
EP (1) | EP0501631B1 (de) |
JP (1) | JP3664739B2 (de) |
DE (1) | DE69226796T2 (de) |
Families Citing this family (139)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5339385A (en) * | 1992-07-22 | 1994-08-16 | Itt Corporation | Speaker verifier using nearest-neighbor distance measure |
US5677989A (en) * | 1993-04-30 | 1997-10-14 | Lucent Technologies Inc. | Speaker verification system and process |
US5522012A (en) * | 1994-02-28 | 1996-05-28 | Rutgers University | Speaker identification and verification system |
US5774858A (en) * | 1995-10-23 | 1998-06-30 | Taubkin; Vladimir L. | Speech analysis method of protecting a vehicle from unauthorized accessing and controlling |
US6076054A (en) * | 1996-02-29 | 2000-06-13 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition |
US5842165A (en) * | 1996-02-29 | 1998-11-24 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes |
US5895448A (en) * | 1996-02-29 | 1999-04-20 | Nynex Science And Technology, Inc. | Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose |
US5937381A (en) * | 1996-04-10 | 1999-08-10 | Itt Defense, Inc. | System for voice verification of telephone transactions |
US5995927A (en) * | 1997-03-14 | 1999-11-30 | Lucent Technologies Inc. | Method for performing stochastic matching for use in speaker verification |
US6182037B1 (en) | 1997-05-06 | 2001-01-30 | International Business Machines Corporation | Speaker recognition over large population with fast and detailed matches |
US5924070A (en) * | 1997-06-06 | 1999-07-13 | International Business Machines Corporation | Corporate voice dialing with shared directories |
CA2304747C (en) * | 1997-10-15 | 2007-08-14 | British Telecommunications Public Limited Company | Pattern recognition using multiple reference models |
JP3507686B2 (ja) * | 1998-01-16 | 2004-03-15 | 日本電気株式会社 | 音声認識機能を有する通信装置及び通信方法 |
EP1159737B9 (de) * | 1999-03-11 | 2004-11-03 | BRITISH TELECOMMUNICATIONS public limited company | Sprecher-erkennung |
KR20010054622A (ko) * | 1999-12-07 | 2001-07-02 | 서평원 | 음성 인식 시스템의 음성 인식률 향상 방법 |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6671669B1 (en) * | 2000-07-18 | 2003-12-30 | Qualcomm Incorporated | combined engine system and method for voice recognition |
US6697779B1 (en) * | 2000-09-29 | 2004-02-24 | Apple Computer, Inc. | Combined dual spectral and temporal alignment method for user authentication by voice |
ATE335195T1 (de) * | 2001-05-10 | 2006-08-15 | Koninkl Philips Electronics Nv | Hintergrundlernen von sprecherstimmen |
US6778957B2 (en) * | 2001-08-21 | 2004-08-17 | International Business Machines Corporation | Method and apparatus for handset detection |
US6999928B2 (en) * | 2001-08-21 | 2006-02-14 | International Business Machines Corporation | Method and apparatus for speaker identification using cepstral covariance matrices and distance metrics |
US9355651B2 (en) | 2004-09-16 | 2016-05-31 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US10223934B2 (en) | 2004-09-16 | 2019-03-05 | Lena Foundation | Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback |
US8938390B2 (en) * | 2007-01-23 | 2015-01-20 | Lena Foundation | System and method for expressive language and developmental disorder assessment |
US9240188B2 (en) | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US7729909B2 (en) * | 2005-03-04 | 2010-06-01 | Panasonic Corporation | Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition |
JP4714523B2 (ja) * | 2005-07-27 | 2011-06-29 | 富士通東芝モバイルコミュニケーションズ株式会社 | 話者照合装置 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
CN101051463B (zh) * | 2006-04-06 | 2012-07-11 | 株式会社东芝 | 说话人认证的验证方法及装置 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
CA2676380C (en) | 2007-01-23 | 2015-11-24 | Infoture, Inc. | System and method for detection and analysis of speech |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (de) | 2013-06-09 | 2022-01-12 | Apple Inc. | Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitalen assistenten |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US9978374B2 (en) * | 2015-09-04 | 2018-05-22 | Google Llc | Neural networks for speaker verification |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
WO2019113477A1 (en) | 2017-12-07 | 2019-06-13 | Lena Foundation | Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness |
CN111242146B (zh) * | 2018-11-09 | 2023-08-25 | 蔚来(安徽)控股有限公司 | 基于卷积神经网络的poi信息分类 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3700815A (en) * | 1971-04-20 | 1972-10-24 | Bell Telephone Labor Inc | Automatic speaker verification by non-linear time alignment of acoustic parameters |
JPS5944639B2 (ja) * | 1975-12-02 | 1984-10-31 | フジゼロツクス カブシキガイシヤ | 音声による異同認識方式における標準パタ−ン更新方法 |
US4032711A (en) * | 1975-12-31 | 1977-06-28 | Bell Telephone Laboratories, Incorporated | Speaker recognition arrangement |
US4363102A (en) * | 1981-03-27 | 1982-12-07 | Bell Telephone Laboratories, Incorporated | Speaker identification system using word recognition templates |
JPS6057475A (ja) * | 1983-09-07 | 1985-04-03 | Toshiba Corp | パタ−ン認識方式 |
US4827518A (en) * | 1987-08-06 | 1989-05-02 | Bell Communications Research, Inc. | Speaker verification system using integrated circuit cards |
US4949379A (en) * | 1989-05-05 | 1990-08-14 | Steve Cordell | Process for encrypted information transmission |
US5054083A (en) * | 1989-05-09 | 1991-10-01 | Texas Instruments Incorporated | Voice verification circuit for validating the identity of an unknown person |
US5125022A (en) * | 1990-05-15 | 1992-06-23 | Vcs Industries, Inc. | Method for recognizing alphanumeric strings spoken over a telephone network |
-
1991
- 1991-02-28 US US07/662,086 patent/US5167004A/en not_active Expired - Lifetime
-
1992
- 1992-02-12 DE DE69226796T patent/DE69226796T2/de not_active Expired - Fee Related
- 1992-02-12 EP EP92301156A patent/EP0501631B1/de not_active Expired - Lifetime
- 1992-02-28 JP JP04361392A patent/JP3664739B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP0501631A2 (de) | 1992-09-02 |
JP3664739B2 (ja) | 2005-06-29 |
EP0501631B1 (de) | 1998-09-02 |
JPH06175683A (ja) | 1994-06-24 |
US5167004A (en) | 1992-11-24 |
EP0501631A3 (en) | 1993-05-26 |
DE69226796D1 (de) | 1998-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69226796T2 (de) | Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung | |
DE69705830T2 (de) | Sprachverarbeitung | |
DE69514382T2 (de) | Spracherkennung | |
DE69800006T2 (de) | Verfahren zur Durchführung stochastischer Mustervergleiche für die Sprecherverifizierung | |
DE69807765T2 (de) | Kombination von Frequenzverzerrung und spektraler Formung in einem HMM - basierten Spracherkenner | |
DE69814195T2 (de) | Vorrichtung zur Sprechererkennung | |
DE69914839T2 (de) | Sprecherverifikation und -erkennung mittels Eigenstimmen | |
DE60004331T2 (de) | Sprecher-erkennung | |
DE60302407T2 (de) | Umgebungs- und sprecheradaptierte Spracherkennung | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE69420400T2 (de) | Verfahren und gerät zur sprechererkennung | |
DE69323841T2 (de) | Klassifikation bei Spracherkennung von isolierten Wörtern in Schlüsselwörter und Nicht-Schlüsselwörter | |
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
DE60213595T2 (de) | Hintergrundlernen von sprecherstimmen | |
DE69329855T2 (de) | Methode zur erkennung alphanumerischer zeichenketten, die über ein telefonnetz gesprochen werden | |
DE69031189T2 (de) | Sprachverifizierungseinrichtung zur Prüfung der Identität des Benutzers einer Telefonkreditkarte | |
DE69635655T2 (de) | Sprecherangepasste Spracherkennung | |
EP0821346B1 (de) | Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals | |
DE69615667T2 (de) | Spracherkennung | |
DE69032777T2 (de) | Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-Modellierung | |
DE69829187T2 (de) | Halbüberwachte Sprecheradaptation | |
DE69831114T2 (de) | Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen | |
DE69707876T2 (de) | Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE69800320T2 (de) | Verfahren und Vorrichtung zur Sprechererkennung durch Prüfung von mündlicher Information mittels Zwangsdekodierung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |