DE69226796T2 - Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung - Google Patents

Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung

Info

Publication number
DE69226796T2
DE69226796T2 DE69226796T DE69226796T DE69226796T2 DE 69226796 T2 DE69226796 T2 DE 69226796T2 DE 69226796 T DE69226796 T DE 69226796T DE 69226796 T DE69226796 T DE 69226796T DE 69226796 T2 DE69226796 T2 DE 69226796T2
Authority
DE
Germany
Prior art keywords
word
vectors
speech
speaker
oriented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69226796T
Other languages
English (en)
Other versions
DE69226796D1 (de
Inventor
George R. Richardson Tx Doddington
Lorin P. Allen Tx 75002 Netsch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Application granted granted Critical
Publication of DE69226796D1 publication Critical patent/DE69226796D1/de
Publication of DE69226796T2 publication Critical patent/DE69226796T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

    HINTERGRUND DER ERFINDUNG Gebiet der Erfindung
  • Diese Erfindung bezieht sich allgemein auf Sprachverarbeitung und insbesondere auf ein System und ein Verfahren zur zuverlässigen Sprecherverifizierung unter Verwendung einer zeitlichen Dekorrelation.
  • Beschreibung des verwandten Standes der Technik
  • Gegenwärtige Systeme und Verfahren der Sprecherstimmenverifizierung erfordern eine Sprecherregistrierung vor dem tatsächlichen Verifizierungseinsatz. Während einer solchen Registrierung wird ein Modell der jeden zu verifizierenden Sprecher bestimmenden Sprache erzeugt. Dies erfolgt normalerweise dadurch, daß Sprachdaten mehrerer Äußerungen, von denen man weiß, daß sie von einem bestimmten Sprecher stammen, gesammelt und dann verarbeitet werden, um Modelle zu bilden, die den Sprecher eindeutig definieren. Die eindeutigen Modelle werden zusammen mit Informationen gespeichert, die den Sprecher der Modelle identifizieren.
  • Während des tatsächlichen Verifizierungseinsatzes beanspruchen die Sprecher zunächst ihre Identität. Das System fordert den Sprecher auf, eine Äußerung zu machen, die dann mit den gespeicherten Sprachmodellen für den Sprecher mit der beanspruchten Identität verglichen wird. Wenn die gesprochene Äußerung und die Sprachmodelle gut übereinstimmen, wird bestätigt, daß der Sprecher derjenige mit der beanspruchten Identität ist. Gegenwärtige Verfahren der Sprachverarbeitung messen Vektoren aus Sprachparametern von einer Äußerung über kleine Zeitperioden, die Rahmen genannt werden, wobei man annimmt, daß sich das akustische Signal während deren Dauer nicht merklich ändert. Oft werden diese Parametervektoren einer orthogonali sierenden linearen Transformation oder einigen anderen Transformationen unterzogen, um statistisch unkorrelierte Sprachparametervektoren zu erzeugen, die auch als Sprachmerkmalsvektoren bekannt sind. Die sich ergebenden Parameter- oder Merkmalsvektoren können verwendet werden, um die Sprache einer einzelnen Person zu modellieren.
  • Gegenwärtig fassen einige Sprecherverifizierungssysteme die Sprachvektoren von allen Rahmen der Sprache einer bestimmten Person in Gruppen zusammen und verwenden diese, um statistische Durchschnittseigenschaften der Sprachvektoren über Gesamtäußerungen zu bestimmen. Manchmal schätzen diese Systeme durchschnittliche statistische Eigenschaften der Verzerrungen der Sprachvektoren aufgrund von verschiedenen Telefongeräten und Kanälen ab. Die durchschnittlichen statistischen Eigenschaften werden später dazu verwendet, den Sprecher zu verifizieren.
  • Andere Sprecherverifizierungssysteme gruppieren die Sprachvektoren, die zu den gleichen Sprachklängen gehören in einem Verfahren, das Ausrichtung genannt wird. Dynamische Zeitverzerrung (DTW) oder Hidden-Markov-Modellierung (HMM) gehören zu den bekannteren Verfahren zur Ausrichtung (Englisch: alignment). Das System schätzt die statistischen Eigenschaften der Sprachvektoren, die zu jeder Gruppe gehören, getrennt ab. Die sich ergebende Sammlung aus statistischen Eigenschaften der Gruppen von Sprachvektoren bilden das Referenzmodell für den zu verifizierenden Sprecher. Die Verifizierungssysteme trennen oft die Sammlung statistischer Eigenschaften in mehrere Modelle auf, die einzelne Wörter, Silben oder Laute darstellen.
  • Es ist wichtig zu erkennen, daß alle diese zum Stand der Technik gehörenden Systeme statistische Eigenschaften der Sprecherdaten auf der Ebene der Sprachvektoren verwenden. Daher wird bei den Systemen implizit die Unabhängigkeit der statistischen Eigenschaften angenommen, die jeder Gruppe von Sprachvektoren zugeordnet sind.
  • Eines der Probleme, dem viele Sprecherverifizierungsanwendungen gegenüberstehen, ist die unvermeidbare Verzerrung oder Veränderung des Sprachsignals. Ein verzerrtes Sprachsignal führt zu verzerrten Sprachvektoren. Wenn die Vektoren einzeln betrachtet werden, wie es bei gegenwärtigen Verifizierungssystemen der Fall ist, ist es wegen der Verzerrung der Sprachvektoren schwierig, zu entscheiden, ob die Sprache von einem angenommenen wahren Sprecher oder einem Betrüger kam. Dies vermindert die Fähigkeit zur Sprecherverifizierung.
  • Z. B. stört bei Telekommunikationsanwendungen, bei denen man den Zugang zu Resourcen über Stimmenidentifikation über das Telefon steuern möchte, die Verwendung verschiedener Telefongeräte und -kanäle häufig und verändert die Sprache einer Person. Bei anderen Anwendungen, z. B. Geldautomaten für das Bankwesen, verursacht die Verwendung verschiedener Mikrophone eine Veränderung des Sprachsignals. Es ist auch wichtig zu erkennen, daß bei gegenwärtigen Sprecherverifizierungssystemen, da gleichzeitig nur ein Telefongerät oder Mikrophon verwendet wird, die Veränderung des Sprachsignals so lange gleichmäßig erfolgt, wie dieses spezielle Telefongerät oder Mikrophon verwendet wird.
  • Folglich sind Verbesserungen, die einige oder sämtliche dieser Probleme überwinden, wünschenswert.
  • EP-A 0 397 399 beschreibt ein System zur Sprecherstimmenverifizierung, bei dem Sprachmerkmalsvektoren berechnet werden, eine lineare Transformation durchgeführt wird, die die am wenigsten wichtigen Merkmale verwirft, Referenz- und eingegebene Äußerungen zueinander ausgerichtet werden und der euklidische Abstand zwischen den Referenz- und Eingabemerkmalsparametern über die Zeit integriert wird.
  • WO-A 91/18386, die nach dem Prioritätsdatum der vorliegenden Anmeldung eingereicht und veröffentlicht worden ist, beschreibt ein Verfahren zur Sprecherstimmenverifizierung, bei dem ein wortorientierter tertiärer Vektor mit einer Transformationsmatrix multipliziert wird, um einen Parameterdatenvektor zu erzeugen, wobei jede Komponente des Vektors mit der entsprechenden Komponente eines Referenzvektors verglichen wird, wobei eine gewichtete Summe der Differenzen als Maß der Ähnlichkeit zwischen den Referenz- und eingegebenen Äußerungen eines Worts verwendet wird.
  • Es ist eine Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren zur zuverlässigen Sprecherverifizierung zu schaffen, das Verzerrungen oder Veränderungen des Sprachsignals aufgrund der Verwendung verschiedener Telefongeräte, Telefonkanäle oder Mikrophone kompensiert.
  • Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein System und Verfahren zur Verbesserung der Leistungsfähigkeit der Sprecherverifizierung zu schaffen.
  • Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren zu schaffen, die die Menge an Speicher vermindern, der für sprecherspezifische Sprachinformationen erforderlich ist.
  • Die Erfindung schafft ein automatisches System zur zeitlichen Dekorrelation für die Sprecherstimmenverifizierung mit: einem Kollektor zum Empfangen von Sprache von einem unbekannten Sprecher, der eine bestimmte Identität beansprucht, und zum Erzeugen mehrerer Eingabevektoren für jedes gesprochene Wort; einem Element zum Berechnen wortorientierter Sprachmerkmale, das so betrieben werden kann, daß es eine zeitliche Dekorrelationstransformation zum Erzeugen von Vektoren wortorientierter Sprachmerkmale aus den von dem Kollektor empfangenen Spracheingaben verwendet, wodurch Ganzwortvektoren gebildet werden, die über ganze Wörter zu den Spracheingaben statistisch unkorreliert sind; einem Speicher wortorientierter Sprachmerkmale zum Speichern von Vektoren wortorientierter Sprachmerkmale, von denen bekannt ist, daß sie zu dem Sprecher mit der bestimmten Identität gehören; einem Element zum Bewerten wortorientierter Vektoren, um eine Bewertung der Ähnlichkeit zu berechnen, die zwischen den von dem Element zum Berechnen wortorientierter Sprachmerkmale empfangenen Vektoren wortorientierter Sprachmerkmale und den von dem Speicher wortorientierter Sprachmerkmale empfangenen Vektoren besteht; und einer Sprecherverifizierungsentscheidungsschaltungsanordnung, die auf der Grundlage der von dem Element zum Bewerten wortorientierter Vektoren empfangenen Ähnlichkeitsbewertung entscheidet, ob der unbekannte Sprecher der Sprecher ist, der die bestimmte Identität aufweist.
  • Die Erfindung schafft darüber hinaus ein zeitliches Dekorrelationsverfahren zur Sprecherstimmenverifizierung, bei dem Spracheingaben von einem unbekannten Sprecher gesammelt werden, der eine bestimmte Identität beansprucht, und mehrere Eingabevektoren für jedes gesprochene Wort erzeugt werden; die mehreren Eingabevektoren unter Verwendung einer zeitlichen Dekorrelationstransformation transformiert werden, um Vektoren wortorientierter Sprachmerkmale zu erzeugen, wodurch Ganzwortvektoren gebildet werden, die über ganze Wörter zu den Spracheingaben statistisch unkorreliert sind; vorher gespeicherte Vektoren wortorientierter Sprachmerkmale wiederausgelesen werden, von denen bekannt ist, daß sie zu dem Sprecher mit der bestimmten Identität gehören; eine Bewertung der Ähnlichkeit berechnet wird, die zwischen den bei dem Erzeugungsschritt gebildeten Vektoren wortorientierter Sprachmerkmale und wiederausgelesenen vorher gespeicherten Vektoren besteht; und auf der Grundlage der Ähnlichkeitsbewertung entschieden wird, ob der unbekannte Sprecher der Sprecher ist, der die bestimmte Identität aufweist.
  • Bevorzugte Ausführungsformen der vorliegenden Erfindung schaffen ein System und Verfahren zur zeitlichen Dekorrelation für die Sprecherstimmenverifizierung, die die statistisch optimale Korrelation zwischen den gemessenen Merkmalen der Sprache über ganze Wörter verwenden, um die Identität des Sprechers zu verifizieren. Die vorliegende Erfindung wertet Korrelationen zwischen Gruppen aus Sprachvektoren aus, die Klänge einzelner Wörter in einer Äußerung repräsentieren. Da diese Korrelationen ganze Wörter überspannen, ist es möglich, statistische Merkmale herauszufinden, die ganze Wörter überspannen, die von Verzerrungen relativ unberührt bleiben, die während einer gesamten Äußerung konstant bleiben. Die erfindungsgemäße Dekorrelationsverarbeitung, die diese statistischen Merkmale verwendet, schafft ein Verifizierungssystem, das gegenüber Verzerrungen und Veränderungen, die während einer Äußerung gleichmäßig bleiben, weniger empfindlich ist, was zu einer verbesserten Leistungsfähigkeit der Sprecherverifizierung führt.
  • Das System und Verfahren der vorliegenden Erfindung zur zeitlichen Dekorrelation vermindert darüber hinaus die Anzahl an Parametern, die gespeichert werden müssen, um die Stimme eines bestimmten Sprechers zu repräsentieren, wodurch das Ausmaß an Speicher vermindert wird, der für sprecherspezifische Sprachinformationen erforderlich ist.
  • Ein System und Verfahren gemäß der vorliegenden Erfindung wird nun als ein Beispiel mit Bezug auf die beigefügten Zeichnungen beschrieben.
  • BESCHREIBUNG DER ZEICHNUNGEN
  • Fig. 1 ist ein Blockdiagramm eines Beispiels eines allgemeinen Sprecherverifizierungssystems;
  • Fig. 2 ist ein Blockdiagramm, das den Ausrichtungsprozeß ohne die vorliegende Erfindung darstellt;
  • Fig. 3 ist ein Blockdiagramm, das die Äußerungsbewertung ohne die vorliegende Erfindung darstellt;
  • Fig. 4a-b sind Blockdiagramme von Schritten, die bei einem Registrierungsprozessor gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung durchgeführt werden;
  • Fig. 5 ist ein Blockdiagramm eines Sprecherverifizierungsprozessors gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung;
  • Fig. 6 ist ein Blockdiagramm eines Ausrichtungsprozesses gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung;
  • Fig. 7 ist ein Blockdiagramm, das die Ganzworttransformation gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung darstellt; und
  • Fig. 8 ist ein Blockdiagramm, das die Äußerungsbewertung gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung darstellt.
  • Wenn es nicht anders angezeigt ist, so beziehen sich gleiche Bezugszeichen und Symbole in den verschiedenen Figuren auf sich entsprechende Teile.
  • GENAUE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Eine bevorzugte Ausführungsform der vorliegenden Erfindung läßt sich unter Betrachtung der Fig. 1 verstehen, die ein allgemeines Sprecherverifizierungssystem darstellt. Wie oben erläutert, erfordert die Sprecherstimmenverifizierung vor dem tatsächlichen Verifizierungseinsatz die Stimmenregistrierung. Um einen bekannten Sprecher zu registrieren, ermöglicht das Registrierungssystem 5 einem bekannten Sprecher, Äußerungen zu einem Sprachkollektor 10 über ein Mikrophon, ein Telefongerät, einen Kanal oder dergleichen zu machen. Der Sprachkollektor 10 sammelt Sprachparametervektoren aus solchen Äußerungen und liefert sie zur Modellierungseinheit 15. Die Modellierungseinheit 15 bildet für die bekannten Sprecher eindeutige Modelle, die auf diesen Sprachparametervektoren basieren. Diese für den Sprecher eindeutigen Modelle werden zusammen mit Informationen, die den Sprecher der Modelle identifizieren, im Speicher 20 gespeichert.
  • In einigen Fällen werden mehrere Wiederholungen des gleichen Worts oder der gleichen Phrase gesammelt und Parametervektoren, die zu den gleichen Sprachteilen gehören, werden einer Ausrichtung (Englisch: alignment) unterzogen (Zusammenfassung von Vektoren in Gruppen). Die sich ergebenden Gruppen von Vektoren werden dann einem Durchschnittsbildungsprozeß mittels der Modellierungseinheit 15 unterzogen, um eine gute Schätzung oder ein gutes Modell der für den Sprecher spezifischen Referenzsprachparametervektoren zu liefern. Der sich ergebende Satz an Parametervektoren bildet das Referenzmodell für den zu verifizierenden Sprecher. Häufig werden die Parametervektoren aufgeteilt, so daß sie mehrere getrennte Modelle bilden, die Sprachteile wie einzelne Wörter, Silben oder Laute repräsentieren.
  • Während der tatsächlichen Sprecherverifizierung gibt ein Sprecher zunächst seine beanspruchte Identität in den Eingangsabschnitt 30 des Verifizierungssystems 25 ein. Dies kann durch verschiedene Mittel, z. B. Eingeben einer Kennziffer (Zifferneingabe) über eine Telefontastatur, Verwendung einer Kreditkarte mit darauf aufgezeichneten Informationen, Spracherkennung einer Kennphrase oder einem beliebigen anderen geeigne ten Mittel durchgeführt werden. Das Verifizierungssystem 25 verwendet diese beanspruchte Identität, um die entsprechenden Sprachmodelle aus dem Speicher 20 wieder auszulesen. Hat das Verifizierungssystem 25 die Sprachmodelle für die beanspruchte Identität wiederaufgefunden, so kann das Verifizierungssystem 25 den Sprecher auffordern, eine Äußerung zu machen, oder es kann die gelieferte Äußerung verwenden, um eine Identität zu beanspruchen.
  • Bei mit festgelegtem Text arbeitenden Verifizierungssystemen kennt das Verifizierungssystem 25 den Text der Verifizierungsäußerung jedes Sprechers. Nachdem die Äußerung von dem Sprecher gesammelt wurde, wird sie in eine Sequenz aus Eingabesprachvektoren in einer ähnlichen Weise wie bei der Registrierung umgewandelt. Unter Verwendung von DTW, HMM oder anderen Algorithmen werden diese Eingabesprachvektoren dann in Ausrichtung zu den Referenzmodellvektoren gebracht, die dem Sprecher mit der beanspruchten Identität entsprechen, was zu einer Korrespondenz zwischen jedem Eingabesprachvektor und einem Referenzmodell-(Parameter-)Vektor führt. Ein Beispiel für diese Art von Ausrichtung ist in der Fig. 2 dargestellt, in der die Eingabesprachvektoren v1-v8 in Ausrichtung zu den Referenzmodell-(Parameter-)Vektoren r1-r4 gebracht werden. Die Referenzparametervektoren r1 und r2 entsprechen einem ersten Wort, während r3 und r4 einem zweiten Wort entsprechen.
  • Nach der Ausrichtung vergleicht das Verifizierungssystem 25 das Eingabesprachsignal der gesprochenen Äußerung mit den wiederausgelesenen Sprachmodellen im Sprachmodellkomparator 35. Der Vergleich wird zwischen jedem der Eingabesprachvektoren und seinem abgebildeten Referenzvektor durchgeführt, um den Grad der Ähnlichkeit zwischen den Vektoren zu bestimmen. Der Komparator 35 erzeugt eine Ähnlichkeitsbewertung 310, dargestellt in der Fig. 3, die basierend auf der Nähe des eingegebenen Sprachsignals zu den aus dem Speicher 20 wiederausgelesenen Modellen für die gesamte Verifizierungsäußerung berechnet wird. Diese Nähe ist die Summe der Ähnlichkeitsmessungen 320 zwischen den Eingabesprachvektoren und den abgebildeten Referenzvektoren. Die Ähnlichkeit der Vektoren kann durch mehrere Verfahren bestimmt werden, zu denen statistische Berechnungen maximaler Wahrscheinlichkeit oder Vektorquantisierung gehören. Wenn die Äußerungsbewertung anzeigt, daß die Referenz- und Eingabevektoren über die gesamte Äußerung ähnlich genug sind, um die Kriterien für den Erfolg zu erfüllen (d. h., daß die gesprochene Äußerung gut mit den Sprachmodellen übereinstimmt), dann entscheidet das Verifizierungssystem 25, daß der Sprecher tatsächlich dem der beanspruchten Identität entspricht. Bei einigen Systemen werden dann, wenn die beanspruchte Identität verifiziert worden ist, die Eingabesprachvektoren zusammen mit den abgebildeten Referenzvektoren einem Durchschnittsbildungsprozeß unterzogen, um einen aktualisierten Satz an Sprachreferenzmodellen zu erzeugen, der die im Speicher 20 gehaltenen Modelle ersetzt:
  • Bei einer bevorzugten Ausführungsform der vorliegenden Erfindung umfassen die Registrierung und die Verifizierung beide eine HMM-Ausrichtung der Eingabesprachparametervektoren zu den Referenzmodellparametervektoren. Jedoch werden die jedes Wort ausmachenden Vektoren danach verkettet, um einzelne Vektoren zu bilden, die ganze Wörter in der Äußerung darstellen. Die Ganzwortvektoren werden wortspezifischen orthogonalisierenden linearen Transformationen unterzogen, um Ganzwortvektoren zu erzeugen, die statistisch über ganze Wörter unkorreliert sind. Die sich ergebenden Ganzwortvektoren werden verwendet, um den Grad an Ähnlichkeit zwischen den eingegebenen Sprachäußerungen und den gespeicherten Sprachparametern zu bestimmen.
  • Zur genaueren Erläuterung zeigt Fig. 4a ein Blockdiagramm einer bevorzugten Ausführungsform, die die Sprachmerkmalsvektoren des bekannten Sprechers aus der eingegebenen Sprache des Sprechers während der Registrierung bestimmt. Zu Beginn am Block 100 spricht der zu registrierende Sprecher eine bekannte Verifizierungsäußerung. Für dieses Sprachsignal werden die Koeffizienten einer linearen prädikativen Codierung (LPC) berechnet, um Vektoren aus LPC-Koeffizienten zu berechnen. Bei der bevorzugten Ausführungsform bestehen diese Vektoren aus zehn Koeffizienten und zusätzlich zwei Elementen, um die Energie und die Tonhöhe zu definieren. Rahmenparametervektorberechnungselement 110 verwendet die LPC-Vektoren in einem nichtlinearen Prozeß, um Energie-, Spektrale, Differenzenergie- und Differenzspektrumssprachparameter zu bestimmen. Diese globalen Sprachparameter werden durch den Vektorumformer 120 für globale Merkmale in Sprachmerkmalsvektoren für den bekannten Sprecher umgeformt. Die Umwandlung der Vektoren globaler Merkmale ist eine vorherbestimmte lineare Transformation, die vor der Registrierung berechnet wird. Sie gestaltet sich durch Bestimmung einer Vektorstatistik aus einer Datenbank, die eine große Anzahl an Sprechern repräsentiert. Die Vektorstatistik wird in einer Eigenvektoranalyse verwendet, um die lineare Transformation zu entwickeln, die die unkorrelierten Merkmale bestimmt, die in optimaler Weise zwischen den Sprechern unterscheiden.
  • Die oben beschriebene Sprachmerkmalsvektorbildung ist lediglich ein Weg, um Sprachmerkmale zu erzeugen. Es gibt andere Verfahren zur Berechnung der Merkmale, wie z. B. die Berechnung von Cepstralkoeffizienten oder die Verwendung von Merkmalsvektoren, die direkt aus den LPC-Koeffizienten abgeleitet wurden, wie z. B. die Parcorkoeffizienten oder die Log.-Area-Ratio- Koeffizienten. Die vorliegende Erfindung ist keineswegs auf ein bestimmtes Verfahren zur Berechnung der Sprachvektoren beschränkt.
  • Die Fig. 4b zeigt ein Blockdiagramm der bevorzugten Ausführungsform der Registrierung des bekannten Sprechers durch Erzeugen von für den Sprecher spezifischen wortorientierten Sprachmodellen aus den Sprachmerkmalsvektoren. Der Merkmalsvektorausrichtungsprozessor 140 empfängt die Sprachmerkmalsvektoren von dem Umformer 120 für Vektoren globaler Merkmale und richtet diese Merkmale zu den vorher bestimmten sprecherunabhängigen Referenzwortmodellmerkmalsvektoren 130 aus, die akustische Beobachtungen für jedes Wort der Verifizierungsäußerung darstellen. Die Referenzwortmodellmerkmalsvektoren 130 sind statistische Darstellungen jedes Worts der Registrierungseingabesprache eines bekannten Sprechers und sie werden unter Verwendung einer großen Anzahl von Sprechern aus einer Datenbank vorher gesammelter Sprache erzeugt. Gemäß einer bevorzugten Ausführungsform verwendet der Ausrichtungsprozessor 140 einen Viterbi-Such-HMN-Algorithmus, um die Sprach- und Referenzmodelle auszurichten, wodurch eine Abbildung zwischen Eingabesprachmerkmalsvektoren und Referenzsprachmerkmalsvektoren 130 erzeugt wird. Wie oben erwähnt, können auch andere bekannte Algorithmen, z. B. dynamische Zeitverzerrung (DTW), verwendet werden, um diese Ausrichtung durchzuführen. Bei der bevorzugten Ausführungsform ist die Abbildung so, daß es wenigstens eine Eingabesprachmerkmalvektorabbildung auf jeden Referenzvektor 130 gibt und daß jeder Eingabesprachvektor auf nur einen Referenzvektor 130 abgebildet wird.
  • Bei der bevorzugten Ausführungsform bildet die Merkmalsdurchschnittsbildungsschaltungsanordnung 150 einen Durchschnitt über die Eingabesprachmerkmalsvektoren, die auf den gleichen Referenzvektor 130 abgebildet werden, um durchschnittliche Referenzmodellvektoren zu erzeugen, die die Sprache des registrierten Sprechers für jedes Wort charakterisieren. So wird ein Satz aus Vektoren von dem bekannten Sprecher erzeugt, die den sprecherunabhängigen Referenzwortmodellvektoren entsprechen. Es ist zu erkennen, daß dies zu einer Anzahl an durchschnittlichen Eingabesprachvektoren führt, die derjenigen der Referenzvektoren entspricht. Es können auch andere Mittel zum Kombinieren der Eingabesprachmerkmalsvektoren anstelle der Durchschnittsbildung verwendet werden, so die Auswahl jedes einzelnen Eingabevektors, der die beste Anpassung an jeden Referenzvektor liefert.
  • Dieser Durchschnittsbildungsprozeß kann unter Verwendung mehrerer Registrierungsäußerungen wiederholt werden, so daß die Durchschnittsreferenzmodellvektoren für jedes Wort die Sprache des registrierten Sprechers besser charakterisieren. Die Durchschnittsreferenzmodellvektoren, die jedem Wort entsprechen, werden normalerweise in dem System für die nachfolgende Verifizierungsverarbeitung gespeichert. Falls eine weitere Verminderung bezüglich des Speicherplatzes erwünscht ist, so ist die Speicherung der Durchschnittsreferenzmodellvektoren nicht erforderlich.
  • Der Umformer 160 wortorientierter Vektoren verkettet zunächst sämtliche Durchschnittseingabesprachvektoren, die von der Merkmalsdurchschnittsbildungsschaltungsanordnung 150 empfangen wurden und jedem Wort entsprechen, um für jedes Wort einen auf einem einzelnen Wort basierenden Durchschnittseingabesprachvektor zu erzeugen. Der Umformer 160 wortorientierter Vektoren formt die wortorientierten Vektoren unter Verwendung einer wortorientierten linearen Transformation um. Die wortorientierte lineare Transformation wird vor einer Registrierung berechnet, wobei wortorientierte Vektorstatistiken aus einer Datenbank verwendet werden, die eine große Anzahl an Sprechern repräsentiert, und sie ist so entworfen, daß sie unkorrelierte wortorientierte Sprachmerkmale erzeugt, die in optimaler Weise zwischen Sprechern unterscheiden. Im letzten Schritt während der Registrierung speichert der Speicher 170 wortorientierter Sprachmerkmale von dem Umformer 160 wortorientierter Vektoren empfangene Daten, die den bekannten Sprecher identifizieren, und sämtliche wortorientierten Sprachmerkmalsvektoren für den bekannten Sprecher.
  • Die Fig. 5 ist ein Blockdiagramm der bevorzugten Ausführungsform eines Sprecherverifizierungsprozessors gemäß der vorliegenden Erfindung. Während der Verifizierungsverarbeitung beansprucht ein unbekannter Sprecher, daß seine Identität die eines Sprechers ist, der bereits von dem System registriert worden ist. Die Aufgabe des Verifizierungssystems besteht darin, festzustellen, ob das wahr ist. Um dieses durchzuführen, fordert das Verifizierungssystem den Sprecher auf, seine Verifizierungsäußerung zu machen. Die Verifizierungsäußerung wird gesammelt und der Verifizierungsprozessor berechnet Sprachmerkmalsvektoren im Sprachmerkmalsvektorberechnungselement 210. Solche Berechnungen umfassen die gleichen Verarbeitungsschritte, wie sie in Verbindung mit der Fig. 4a besprochen wurden. Das wortorientierte Sprachmerkmalsberechnungselement 220 verwendet die Sprachmerkmalsausgaben von dem Sprachmerkmalsvektorberechnungselement 210 zusammen mit der Wortliste des beanspruchten Sprechers, um wortorientierte Sprachmerkmalsvektoren für den unbekannten Sprecher zu bilden.
  • Abgesehen davon, daß die wortorientierten Sprachmerkmalsvektoren nicht direkt in einem wortorientierten Sprachmerkmalsspeicher gespeichert werden, entspricht die durch das wortorientierte Sprachmerkmalsberechnungselement 220 durchgeführte Verarbeitung derjenigen, die in Verbindung mit der Fig. 4b beschrieben wurde. Hier werden die wortorientierten Sprachmerkmalsvektoren von dem unbekannten Sprecher in das wortorien tierte Vektorbewertungselement 230 eingegeben. So verwendet das wortorientierte Sprachmerkmalsberechnungselement 220 eine HMM- Ausrichtung, um die Eingabesprachvektoren auf die sprecherspezifischen Referenzmodellvektoren abzubilden, die jedem Wort für den Sprecher mit der beanspruchten Identität entsprechen. Ein Beispiel ist in der Fig. 6 gezeigt, bei dem Eingabesprachvektoren v1 bis v8 beim Schritt 350 auf Referenzvektoren r1 und r2 für Wort 1 und Referenzvektoren r3 und r4 für Wort 2 abgebildet werden.
  • Das Element 230 zum Bewerten wortorientierter Vektoren berechnet eine Bewertung der Ähnlichkeit zwischen den von dem Element 220 zum Berechnen wortorientierter Sprachmerkmalsvektoren kommenden wortorientierten Sprachmerkmalsvektoren des unbekannten Sprechers und denjenigen, die vorher in dem wortorientierten Sprachmerkmalsspeicher 170 gespeichert wurden. Bei der bevorzugten Ausführungsform besteht die Ähnlichkeitsbewertung aus einer Summe über alle Wörter der euklidischen Abstände zwischen den wortorientierten Sprachmerkmalsvektoren des unbekannten Sprechers und denjenigen, die für die beanspruchte Identität gespeichert wurden. Es gibt viele andere Ähnlichkeitsbewertungsmessungen, die verwendet werden können, z. B. der Mahalanobis-Abstand.
  • Die Ähnlichkeitsmessung der vorliegenden Erfindung unterscheidet sich deutlich vom Stand der Technik. Anstelle der Durchführung eines Ähnlichkeitsvergleichs zwischen jedem Eingabesprachvektor und dem abgebildeten Referenzmodellvektor werden die auf jeden Referenzmodellvektor abgebildeten Eingabesprachvektoren einer Durchschnittsbildung unterzogen (Fig. 6, Schritt 360), um einen Durchschnittseingabesprachvektor zu erzeugen, der jedem Referenzmodellvektor (a1-a4) entspricht. Die Durchschnittseingabesprachvektoren, die jedes Wort ausmachen, werden verkettet, um einen einzigen Ganzworteingabesprachvektor für jedes Wort zu bilden. Bei dem Beispiel der Fig. 6 werden a1 und a2 verkettet, um den Ganzwortvektor für das Wort 1 zu bilden, und a3 und a4 werden verkettet, um den Ganzwortvektor für das Wort 2 zu bilden.
  • Der Prozeß der Bildung von Ganzworteingabesprachvektoren 390, 395 und Ganzwortreferenzmerkmalsvektoren 410, 415 ist in der Fig. 7 dargestellt. Jeder Ganzworteingabesprachvektor 370, 375 wird durch eine vorherbestimmte lineare Transformation, die als zeitliche Dekorrelationstransformation (TDT) 380 bezeichnet wird, transformiert, wobei diese Dekorrelationstransformation speziell für jedes Wort bestimmt wird, um einen dekorrelierten Ganzworteingabesprachmerkmalsvektor 390 bzw. 395 zu erzeugen. In ähnlicher Weise werden Ganzwortreferenzsprachvektoren 400, 405 für jedes Wort (r1-r4 in der Fig. 6) verkettet, um einen einzigen Ganzwortreferenzvektor für jedes Wort zu erzeugen. Die Ganzwortreferenzsprachvektoren 400, 405 werden durch die gleichen TDTs 380 transformiert, um Ganzwortreferenzmerkmalsvektoren 410 bzw. 415 zu bilden.
  • Wie in der Fig. 8 dargestellt, werden die Ganzworteingabesprachmerkmalsvektoren 390, 395 und die Ganzwortreferenzmerkmalsvektoren 410, 415 dann verglichen (Schritt 420), um einzelne Ganzwortmerkmalsvektorähnlichkeitsbewertungen 420 zu bestimmen. Eine Äußerungsbewertung ist die Summe aus den Ähnlichkeitsbewertungen 420. Die Verwendung der statistischen Berechnung größter Wahrscheinlichkeit zum Anzeigen einer Ähnlichkeit wird bevorzugt, obwohl andere bekannte Verfahren wie die Vektorquantisierung verwendet werden können. Wegen der durch die TDTs 380 gelieferten Dekorrelation können viele der Merkmale der Ganzwortmerkmalsvektoren 410, 415 verworfen werden. Bei der bevorzugten Ausführungsform der vorliegenden Erfindung wurden nur 20% der Ganzwortmerkmale pro Vektor verwendet.
  • Unter Rückbezug auf die Fig. 5 ist zu erkennen, daß die sich ergebende Ähnlichkeitsbewertung von dem Element 230 zur Bewertung wortorientierter Vektoren als Eingabe zur Sprecherverifizierungsentscheidungsschaltungsanordnung 240 geliefert wird, die die Bewertung mit einer vorherbestimmten Schwelle vergleicht. Wenn die Bewertung unterhalb der Schwelle liegt, dann entscheidet das System, daß der unbekannte Sprecher dem von ihm beanspruchten entspricht. Wenn aber andererseits die Bewertung über der Schwelle liegt, gibt das System dem unbekannten Sprecher noch maximal zwei weitere Versuche, bevor es entscheidet, daß die Identität des unbekannten Sprechers nicht der beanspruchten Identität entspricht.
  • Wenn die Sprecherverifizierungsentscheidungsschaltungsanordnung 240 bei der bevorzugten Ausführungsform entscheidet, daß die Identität des unbekannten Sprechers der beanspruchten Identität entspricht, dann bildet die Merkmalsaktualisierungsdurchschnittsbildungsschaltungsanordnung 250 einen gewichteten Durchschnitt der wortorientierten Sprachmerkmale der eingegebenen Sprache von dem wortorientierten Sprachmerkmalsberechnungselement 230 zusammen mit denjenigen aus dem Speicher 170 wortorientierter Sprachmerkmale. Die sich ergebenden wortorientierten Durchschnittssprachmerkmale ersetzen diejenigen, die im Speicher 170 wortorientierter Sprachmerkmale für die Identität des beanspruchten Sprechers gehalten werden. Dies liefert ein verbessertes Modell wortorientierter Sprachmerkmale für den beanspruchten Sprecher.
  • Die bevorzugte Ausführungsform der vorliegenden Erfindung erzeugt eine wortspezifische lineare zeitliche Dekorrelationstransformation (TDT) für jedes Wort des Vokabulars, das der Sprecher sagen wird. Da es eine große Anzahl an Parametern gibt, die für jede TDT bestimmt werden müssen, ist es nützlich, eine Sprachdatenbank zu verwenden, die aus Äußerungen von vielen verschiedenen Sprechern besteht und bei der sich das Vokabular der Wörter mehrere Male bei jedem Sprecher wiederholt.
  • Um eine TDT zu erzeugen, werden Kovarianzmatrizen von Ganzwortvektoren für jedes Wort des Vokabulars für jeden Sprecher in der Datenbank berechnet. Diese Ganzwortvektoren werden durch einen Prozeß gebildet, der dem für die Verifizierung, gezeigt in der Fig. 2, ähnlich ist. Unter Verwendung einer HMM- Ausrichtung werden Äußerungsparametervektoren von jedem Sprecher mit vorherbestimmten Referenzmodellvektoren ausgerichtet, die jedes Wort des Vokabulars repräsentieren. Nach der Ausrichtung werden die auf jeden Referenzvektor abgebildeten Äußerungsvektoren einer Durchschnittsbildung unterzogen, um Durchschnittsäußerungsvektoren zu bilden, wobei einer für jeden Referenzvektor gebildet wird. Die Durchschnittsäußerungsvektoren für jedes Wort werden verkettet, um Ganzwortvektoren zu bilden. Die Ganzwortvektoren, die jedem Wort des Vokabulars entsprechen, werden verwendet, um Kovarianzmatrizen für jeden Sprecher und jedes Wort zu berechnen. Die Kovarianzmatrizen, die dem gleichen Wort für alle Sprecher entsprechen, werden dann zusammengetan. So ergibt sich eine Kovarianzmatrix für jedes Wort des Vokabulars. Jede der Kovarianzmatrizen wird in einer Eigenvektororthogonalisierungsberechnung verwendet, um für jedes Wort Eigenvektormatrizen zu erzeugen. Außerdem werden sämtliche Ganzwortvektoren für jedes Wort (unabhängig vom Sprecher) verwendet, um eine Kovarianzmatrix für jedes Wort zu bestimmen, die globale wortorientierte Vektorkovarianzen repräsentiert. Die zwei so gebildeten Kovarianzmatrizen für jedes Wort des Vokabulars werden in einer Eigenvektor-Diskriminanten-Berechnung verwendet, um die lineare Transformation zu bestimmen, die unkorrelierte wortorientierte Merkmale definiert, die in optimaler Weise zwischen den Sprechern unterscheiden. Die Eigenvektormatrizen, die die dekorrelierten wortorientierten Transformationen darstellen, sind als TDTs bekannt.
  • Wie oben erwähnt, wird der Bedarf an Speicher für die sprecherspezifischen Daten durch die Verwendung der vorliegenden Erfindung vermindert. Dies ergibt sich, weil lediglich die Ganzwortreferenzmerkmale gespeichert werden, die zur Durchführung der Ähnlichkeitsberechnungen erforderlich sind. Da lediglich ungefähr 20% der Merkmale für die Ähnlichkeitsberechnung verwendet werden, kann der Speicherplatz im Vergleich zum Fall der Speicherung sämtlicher Referenzvektoren um ungefähr 80% vermindert werden.
  • Die vorliegende Erfindung verwendet eine zeitliche Dekorrelation, die die Bewertung wortorientierter Vektoren umfaßt, um die Ähnlichkeit mit gespeicherten sprecherabhängigen Referenzmodellen zu bestimmen. Eine einfache Ausdehnung des Konzepts auf die Sprachverarbeitungstechnologie kann durch Durchführen einer oben beschriebenen Ausrichtung und anschließenden Bestimmung einer wortorientierten Bewertung, basierend auf der Ähnlichkeit mit sprecherunabhängigen Modellen, erreicht werden. Diese Bewertung kann verwendet werden, um die Erkennung auf Wortebene zu leiten.
  • Obwohl eine spezielle Ausführungsform der Erfindung gezeigt und beschrieben wurde, werden verschiedene Modifikationen und andere Ausführungsformen für Fachleute auf diesem Gebiet offenbar werden. Demgemäß ist es beabsichtigt, daß die Erfin dung in ihrem Schutzumfang lediglich durch die beigefügten Ansprüche begrenzt wird.

Claims (10)

1. Automatisches System zur zeitlichen Dekorrelation für die Sprecherstimmenverifizierung mit
einem Kollektor (210) zum Empfangen von Sprache von einem unbekannten Sprecher, der eine bestimmte Identität beansprucht, und zum Erzeugen mehrerer Eingabevektoren (v1-v5, v6-v8) für jedes gesprochene Wort;
einem Element (220) zum Berechnen wortorientierter Sprachmerkmale, das so betrieben werden kann, daß es eine zeitliche Dekorrelationstransformation zum Erzeugen von Vektoren wortorientierter Sprachmerkmale aus den von dem Kollektor (210) empfangenen Spracheingaben verwendet, wodurch Ganzwortvektoren (390, 395) gebildet werden, die über ganze Wörter zu den Spracheingaben statistisch unkorreliert sind;
einem Speicher (20) wortorientierter Sprachmerkmale zum Speichern von Vektoren (410, 415) wortorientierter Sprachmerkmale, von denen bekannt ist, daß sie zu dem Sprecher mit der bestimmten Identität gehören;
einem Element (230) zum Bewerten wortorientierter Vektoren, um eine Bewertung der Ähnlichkeit zu berechnen, die zwischen den von dem Element zum Berechnen wortorientierter Sprachmerkmale empfangenen Vektoren (I1, I2) wortorientierter Sprachmerkmale und den von dem Speicher wortorientierter Sprachmerkmale empfangenen Vektoren (R1, R2) besteht; und
einer Sprecherverifizierungsentscheidungsschaltungsanordnung (240), die auf der Grundlage der von dem Element zum Bewerten wortorientierter Vektoren empfangenen Ähnlichkeitsbewertung entscheidet, ob der unbekannte Sprecher der Sprecher ist, der die bestimmte Identität aufweist.
2. System nach Anspruch 1, bei dem das Element (220) zum Berechnen wortorientierter Sprachmerkmale eine HMM-Ausrichtung verwendet, um die Vektoren eingegebener Sprache auf sprecherunabhängige Referenzmodellvektoren abzubilden, die jedem zu dem Sprecher mit der bestimmten Identität gehörenden Wort entsprechen.
3. System nach Anspruch 1 oder Anspruch 2, bei dem das Element zum Bewerten wortorientierter Vektoren eine Verkettungsschaltungsanordnung zum Verketten mehrerer Eingabevektoren umfaßt, die ein einzelnes Wort bilden, um einzelne Vektoren zu bilden, die ganze Wörter der Spracheingaben repräsentieren.
4. System nach einem der Ansprüche 1 bis 3, bei dem die Ähnlichkeitsbewertung eine über alle Wörter gebildete Summe der euklidischen Abstände zwischen den Vektoren wortorientierter Sprachmerkmale von dem Element zum Berechnen wortorientierter Sprachmerkmale und den in dem Speicher wortorientierter Sprachmerkmale gespeicherten Vektoren ist.
5. Zeitliches Dekorrelationsverfahren zur Sprecherstimmenverifizierung, bei dem
Spracheingaben von einem unbekannten Sprecher gesammelt werden (210), der eine bestimmte Identität beansprucht, und mehrere Eingabevektoren (v1-v5, v6-v8) für jedes gesprochene Wort erzeugt werden;
die mehreren Eingabevektoren (v1-v5, v6-v8) unter Verwendung einer zeitlichen Dekorrelationstransformation transformiert werden (220), um Vektoren wortorientierter Sprachmerkmale zu erzeugen, wodurch Ganzwortvektoren (390, 395) gebildet werden, die über ganze Wörter zu den Spracheingaben statistisch unkorreliert sind;
vorher gespeicherte (20) Vektoren (410, 415) wortorientierter Sprachmerkmale wiederausgelesen werden, von denen bekannt ist, daß sie zu dem Sprecher mit der bestimmten Identität gehören;
eine Bewertung der Ähnlichkeit berechnet wird, die zwischen den bei dem Erzeugungsschritt gebildeten Vektoren (I1, I2) wortorientierter Sprachmerkmale und wiederausgelesenen vorher gespeicherten Vektoren (R1, R2) besteht; und
auf der Grundlage der Ähnlichkeitsbewertung entschieden wird, ob der unbekannte Sprecher der Sprecher ist, der die bestimmte Identität aufweist.
6. Verfahren nach Anspruch 5, bei dem beim Erzeugen (220) der Vektoren wortorientierter Sprachmerkmale eine HMM-Ausrichtung verwendet wird, um die Vektoren eingegebener Sprache auf sprecherunabhängige Referenzmodellvektoren abzubilden, die jedem zu dem Sprecher mit der bestimmten Identität gehörenden Wort entsprechen.
7. Verfahren ach Anspruch 5 oder Anspruch 6, bei dem beim Bewerten mehrere Eingabevektoren, die ein einzelnes Wort bilden, verkettet werden, so daß einzelne Vektoren gebildet werden, die ganze Wörter der Spracheingaben repräsentieren.
8. Verfahren nach einem der Ansprüche 5 bis 7, bei dem die Ähnlichkeitsbewertung eine über alle Wörter gebildete Summe der euklidischen Abstände zwischen den während des Erzeugungsschritts gebildeten Vektoren (I1, I2) wortorientierter Sprachmerkmale und den wiederausgelesenen vorher gespeicherten Vektoren (R1, R2) ist.
9. Zeitliches Dekorrelationsverfahren zur Reduzierung des für sprecherspezifische Sprachinformation notwendigen Speicherbedarfs, bei dem:
Vektoren wortorientierter Sprachmerkmale, die eine Dimension aufweisen, aus einer gesprochenen Äußerung erzeugt werden;
die Dimension der Vektoren wortorientierter Sprachmerkmale durch Anwendung einer linearen zeitlichen Dekorrelationstransformation auf die Vektoren wortorientierter Sprachmerkmale reduziert wird; und
die Vektoren wortorientierter Sprachmerkmale gespeichert werden.
10. Verfahren nach einem der Ansprüche 5 bis 8, bei dem der für die Vektoren wortorientierter Sprachmerkmale notwendige Speicherbedarf durch ein Verfahren nach Anspruch 9 vermindert wurde.
DE69226796T 1991-02-28 1992-02-12 Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung Expired - Fee Related DE69226796T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US07/662,086 US5167004A (en) 1991-02-28 1991-02-28 Temporal decorrelation method for robust speaker verification

Publications (2)

Publication Number Publication Date
DE69226796D1 DE69226796D1 (de) 1998-10-08
DE69226796T2 true DE69226796T2 (de) 1999-04-15

Family

ID=24656333

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69226796T Expired - Fee Related DE69226796T2 (de) 1991-02-28 1992-02-12 Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung

Country Status (4)

Country Link
US (1) US5167004A (de)
EP (1) EP0501631B1 (de)
JP (1) JP3664739B2 (de)
DE (1) DE69226796T2 (de)

Families Citing this family (139)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5339385A (en) * 1992-07-22 1994-08-16 Itt Corporation Speaker verifier using nearest-neighbor distance measure
US5677989A (en) * 1993-04-30 1997-10-14 Lucent Technologies Inc. Speaker verification system and process
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system
US5774858A (en) * 1995-10-23 1998-06-30 Taubkin; Vladimir L. Speech analysis method of protecting a vehicle from unauthorized accessing and controlling
US6076054A (en) * 1996-02-29 2000-06-13 Nynex Science & Technology, Inc. Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition
US5842165A (en) * 1996-02-29 1998-11-24 Nynex Science & Technology, Inc. Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes
US5895448A (en) * 1996-02-29 1999-04-20 Nynex Science And Technology, Inc. Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose
US5937381A (en) * 1996-04-10 1999-08-10 Itt Defense, Inc. System for voice verification of telephone transactions
US5995927A (en) * 1997-03-14 1999-11-30 Lucent Technologies Inc. Method for performing stochastic matching for use in speaker verification
US6182037B1 (en) 1997-05-06 2001-01-30 International Business Machines Corporation Speaker recognition over large population with fast and detailed matches
US5924070A (en) * 1997-06-06 1999-07-13 International Business Machines Corporation Corporate voice dialing with shared directories
CA2304747C (en) * 1997-10-15 2007-08-14 British Telecommunications Public Limited Company Pattern recognition using multiple reference models
JP3507686B2 (ja) * 1998-01-16 2004-03-15 日本電気株式会社 音声認識機能を有する通信装置及び通信方法
EP1159737B9 (de) * 1999-03-11 2004-11-03 BRITISH TELECOMMUNICATIONS public limited company Sprecher-erkennung
KR20010054622A (ko) * 1999-12-07 2001-07-02 서평원 음성 인식 시스템의 음성 인식률 향상 방법
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US6697779B1 (en) * 2000-09-29 2004-02-24 Apple Computer, Inc. Combined dual spectral and temporal alignment method for user authentication by voice
ATE335195T1 (de) * 2001-05-10 2006-08-15 Koninkl Philips Electronics Nv Hintergrundlernen von sprecherstimmen
US6778957B2 (en) * 2001-08-21 2004-08-17 International Business Machines Corporation Method and apparatus for handset detection
US6999928B2 (en) * 2001-08-21 2006-02-14 International Business Machines Corporation Method and apparatus for speaker identification using cepstral covariance matrices and distance metrics
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US7729909B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition
JP4714523B2 (ja) * 2005-07-27 2011-06-29 富士通東芝モバイルコミュニケーションズ株式会社 話者照合装置
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
CN101051463B (zh) * 2006-04-06 2012-07-11 株式会社东芝 说话人认证的验证方法及装置
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
CA2676380C (en) 2007-01-23 2015-11-24 Infoture, Inc. System and method for detection and analysis of speech
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (de) 2013-06-09 2022-01-12 Apple Inc. Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitalen assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US9978374B2 (en) * 2015-09-04 2018-05-22 Google Llc Neural networks for speaker verification
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
WO2019113477A1 (en) 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
CN111242146B (zh) * 2018-11-09 2023-08-25 蔚来(安徽)控股有限公司 基于卷积神经网络的poi信息分类

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3700815A (en) * 1971-04-20 1972-10-24 Bell Telephone Labor Inc Automatic speaker verification by non-linear time alignment of acoustic parameters
JPS5944639B2 (ja) * 1975-12-02 1984-10-31 フジゼロツクス カブシキガイシヤ 音声による異同認識方式における標準パタ−ン更新方法
US4032711A (en) * 1975-12-31 1977-06-28 Bell Telephone Laboratories, Incorporated Speaker recognition arrangement
US4363102A (en) * 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
JPS6057475A (ja) * 1983-09-07 1985-04-03 Toshiba Corp パタ−ン認識方式
US4827518A (en) * 1987-08-06 1989-05-02 Bell Communications Research, Inc. Speaker verification system using integrated circuit cards
US4949379A (en) * 1989-05-05 1990-08-14 Steve Cordell Process for encrypted information transmission
US5054083A (en) * 1989-05-09 1991-10-01 Texas Instruments Incorporated Voice verification circuit for validating the identity of an unknown person
US5125022A (en) * 1990-05-15 1992-06-23 Vcs Industries, Inc. Method for recognizing alphanumeric strings spoken over a telephone network

Also Published As

Publication number Publication date
EP0501631A2 (de) 1992-09-02
JP3664739B2 (ja) 2005-06-29
EP0501631B1 (de) 1998-09-02
JPH06175683A (ja) 1994-06-24
US5167004A (en) 1992-11-24
EP0501631A3 (en) 1993-05-26
DE69226796D1 (de) 1998-10-08

Similar Documents

Publication Publication Date Title
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE69705830T2 (de) Sprachverarbeitung
DE69514382T2 (de) Spracherkennung
DE69800006T2 (de) Verfahren zur Durchführung stochastischer Mustervergleiche für die Sprecherverifizierung
DE69807765T2 (de) Kombination von Frequenzverzerrung und spektraler Formung in einem HMM - basierten Spracherkenner
DE69814195T2 (de) Vorrichtung zur Sprechererkennung
DE69914839T2 (de) Sprecherverifikation und -erkennung mittels Eigenstimmen
DE60004331T2 (de) Sprecher-erkennung
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
DE69323841T2 (de) Klassifikation bei Spracherkennung von isolierten Wörtern in Schlüsselwörter und Nicht-Schlüsselwörter
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE60213595T2 (de) Hintergrundlernen von sprecherstimmen
DE69329855T2 (de) Methode zur erkennung alphanumerischer zeichenketten, die über ein telefonnetz gesprochen werden
DE69031189T2 (de) Sprachverifizierungseinrichtung zur Prüfung der Identität des Benutzers einer Telefonkreditkarte
DE69635655T2 (de) Sprecherangepasste Spracherkennung
EP0821346B1 (de) Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals
DE69615667T2 (de) Spracherkennung
DE69032777T2 (de) Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-Modellierung
DE69829187T2 (de) Halbüberwachte Sprecheradaptation
DE69831114T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69800320T2 (de) Verfahren und Vorrichtung zur Sprechererkennung durch Prüfung von mündlicher Information mittels Zwangsdekodierung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee