DE69226796T2

DE69226796T2 - Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung

Info

Publication number: DE69226796T2
Application number: DE69226796T
Authority: DE
Inventors: George R. Richardson Tx Doddington; Lorin P. Allen Tx 75002 Netsch
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1991-02-28
Filing date: 1992-02-12
Publication date: 1999-04-15
Anticipated expiration: 2012-02-13
Also published as: EP0501631B1; JP3664739B2; DE69226796D1; US5167004A; EP0501631A3; JPH06175683A; EP0501631A2

Description

HINTERGRUND DER ERFINDUNG

Gebiet der Erfindung

Diese Erfindung bezieht sich allgemein auf Sprachverarbeitung und insbesondere auf ein System und ein Verfahren zur zuverlässigen Sprecherverifizierung unter Verwendung einer zeitlichen Dekorrelation.

Beschreibung des verwandten Standes der Technik

Gegenwärtige Systeme und Verfahren der Sprecherstimmenverifizierung erfordern eine Sprecherregistrierung vor dem tatsächlichen Verifizierungseinsatz. Während einer solchen Registrierung wird ein Modell der jeden zu verifizierenden Sprecher bestimmenden Sprache erzeugt. Dies erfolgt normalerweise dadurch, daß Sprachdaten mehrerer Äußerungen, von denen man weiß, daß sie von einem bestimmten Sprecher stammen, gesammelt und dann verarbeitet werden, um Modelle zu bilden, die den Sprecher eindeutig definieren. Die eindeutigen Modelle werden zusammen mit Informationen gespeichert, die den Sprecher der Modelle identifizieren.
Während des tatsächlichen Verifizierungseinsatzes beanspruchen die Sprecher zunächst ihre Identität. Das System fordert den Sprecher auf, eine Äußerung zu machen, die dann mit den gespeicherten Sprachmodellen für den Sprecher mit der beanspruchten Identität verglichen wird. Wenn die gesprochene Äußerung und die Sprachmodelle gut übereinstimmen, wird bestätigt, daß der Sprecher derjenige mit der beanspruchten Identität ist. Gegenwärtige Verfahren der Sprachverarbeitung messen Vektoren aus Sprachparametern von einer Äußerung über kleine Zeitperioden, die Rahmen genannt werden, wobei man annimmt, daß sich das akustische Signal während deren Dauer nicht merklich ändert. Oft werden diese Parametervektoren einer orthogonali sierenden linearen Transformation oder einigen anderen Transformationen unterzogen, um statistisch unkorrelierte Sprachparametervektoren zu erzeugen, die auch als Sprachmerkmalsvektoren bekannt sind. Die sich ergebenden Parameter- oder Merkmalsvektoren können verwendet werden, um die Sprache einer einzelnen Person zu modellieren.
Gegenwärtig fassen einige Sprecherverifizierungssysteme die Sprachvektoren von allen Rahmen der Sprache einer bestimmten Person in Gruppen zusammen und verwenden diese, um statistische Durchschnittseigenschaften der Sprachvektoren über Gesamtäußerungen zu bestimmen. Manchmal schätzen diese Systeme durchschnittliche statistische Eigenschaften der Verzerrungen der Sprachvektoren aufgrund von verschiedenen Telefongeräten und Kanälen ab. Die durchschnittlichen statistischen Eigenschaften werden später dazu verwendet, den Sprecher zu verifizieren.
Andere Sprecherverifizierungssysteme gruppieren die Sprachvektoren, die zu den gleichen Sprachklängen gehören in einem Verfahren, das Ausrichtung genannt wird. Dynamische Zeitverzerrung (DTW) oder Hidden-Markov-Modellierung (HMM) gehören zu den bekannteren Verfahren zur Ausrichtung (Englisch: alignment). Das System schätzt die statistischen Eigenschaften der Sprachvektoren, die zu jeder Gruppe gehören, getrennt ab. Die sich ergebende Sammlung aus statistischen Eigenschaften der Gruppen von Sprachvektoren bilden das Referenzmodell für den zu verifizierenden Sprecher. Die Verifizierungssysteme trennen oft die Sammlung statistischer Eigenschaften in mehrere Modelle auf, die einzelne Wörter, Silben oder Laute darstellen.
Es ist wichtig zu erkennen, daß alle diese zum Stand der Technik gehörenden Systeme statistische Eigenschaften der Sprecherdaten auf der Ebene der Sprachvektoren verwenden. Daher wird bei den Systemen implizit die Unabhängigkeit der statistischen Eigenschaften angenommen, die jeder Gruppe von Sprachvektoren zugeordnet sind.
Eines der Probleme, dem viele Sprecherverifizierungsanwendungen gegenüberstehen, ist die unvermeidbare Verzerrung oder Veränderung des Sprachsignals. Ein verzerrtes Sprachsignal führt zu verzerrten Sprachvektoren. Wenn die Vektoren einzeln betrachtet werden, wie es bei gegenwärtigen Verifizierungssystemen der Fall ist, ist es wegen der Verzerrung der Sprachvektoren schwierig, zu entscheiden, ob die Sprache von einem angenommenen wahren Sprecher oder einem Betrüger kam. Dies vermindert die Fähigkeit zur Sprecherverifizierung.
Z. B. stört bei Telekommunikationsanwendungen, bei denen man den Zugang zu Resourcen über Stimmenidentifikation über das Telefon steuern möchte, die Verwendung verschiedener Telefongeräte und -kanäle häufig und verändert die Sprache einer Person. Bei anderen Anwendungen, z. B. Geldautomaten für das Bankwesen, verursacht die Verwendung verschiedener Mikrophone eine Veränderung des Sprachsignals. Es ist auch wichtig zu erkennen, daß bei gegenwärtigen Sprecherverifizierungssystemen, da gleichzeitig nur ein Telefongerät oder Mikrophon verwendet wird, die Veränderung des Sprachsignals so lange gleichmäßig erfolgt, wie dieses spezielle Telefongerät oder Mikrophon verwendet wird.
Folglich sind Verbesserungen, die einige oder sämtliche dieser Probleme überwinden, wünschenswert.
EP-A 0 397 399 beschreibt ein System zur Sprecherstimmenverifizierung, bei dem Sprachmerkmalsvektoren berechnet werden, eine lineare Transformation durchgeführt wird, die die am wenigsten wichtigen Merkmale verwirft, Referenz- und eingegebene Äußerungen zueinander ausgerichtet werden und der euklidische Abstand zwischen den Referenz- und Eingabemerkmalsparametern über die Zeit integriert wird.
WO-A 91/18386, die nach dem Prioritätsdatum der vorliegenden Anmeldung eingereicht und veröffentlicht worden ist, beschreibt ein Verfahren zur Sprecherstimmenverifizierung, bei dem ein wortorientierter tertiärer Vektor mit einer Transformationsmatrix multipliziert wird, um einen Parameterdatenvektor zu erzeugen, wobei jede Komponente des Vektors mit der entsprechenden Komponente eines Referenzvektors verglichen wird, wobei eine gewichtete Summe der Differenzen als Maß der Ähnlichkeit zwischen den Referenz- und eingegebenen Äußerungen eines Worts verwendet wird.
Es ist eine Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren zur zuverlässigen Sprecherverifizierung zu schaffen, das Verzerrungen oder Veränderungen des Sprachsignals aufgrund der Verwendung verschiedener Telefongeräte, Telefonkanäle oder Mikrophone kompensiert.
Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein System und Verfahren zur Verbesserung der Leistungsfähigkeit der Sprecherverifizierung zu schaffen.
Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren zu schaffen, die die Menge an Speicher vermindern, der für sprecherspezifische Sprachinformationen erforderlich ist.
Die Erfindung schafft ein automatisches System zur zeitlichen Dekorrelation für die Sprecherstimmenverifizierung mit: einem Kollektor zum Empfangen von Sprache von einem unbekannten Sprecher, der eine bestimmte Identität beansprucht, und zum Erzeugen mehrerer Eingabevektoren für jedes gesprochene Wort; einem Element zum Berechnen wortorientierter Sprachmerkmale, das so betrieben werden kann, daß es eine zeitliche Dekorrelationstransformation zum Erzeugen von Vektoren wortorientierter Sprachmerkmale aus den von dem Kollektor empfangenen Spracheingaben verwendet, wodurch Ganzwortvektoren gebildet werden, die über ganze Wörter zu den Spracheingaben statistisch unkorreliert sind; einem Speicher wortorientierter Sprachmerkmale zum Speichern von Vektoren wortorientierter Sprachmerkmale, von denen bekannt ist, daß sie zu dem Sprecher mit der bestimmten Identität gehören; einem Element zum Bewerten wortorientierter Vektoren, um eine Bewertung der Ähnlichkeit zu berechnen, die zwischen den von dem Element zum Berechnen wortorientierter Sprachmerkmale empfangenen Vektoren wortorientierter Sprachmerkmale und den von dem Speicher wortorientierter Sprachmerkmale empfangenen Vektoren besteht; und einer Sprecherverifizierungsentscheidungsschaltungsanordnung, die auf der Grundlage der von dem Element zum Bewerten wortorientierter Vektoren empfangenen Ähnlichkeitsbewertung entscheidet, ob der unbekannte Sprecher der Sprecher ist, der die bestimmte Identität aufweist.
Die Erfindung schafft darüber hinaus ein zeitliches Dekorrelationsverfahren zur Sprecherstimmenverifizierung, bei dem Spracheingaben von einem unbekannten Sprecher gesammelt werden, der eine bestimmte Identität beansprucht, und mehrere Eingabevektoren für jedes gesprochene Wort erzeugt werden; die mehreren Eingabevektoren unter Verwendung einer zeitlichen Dekorrelationstransformation transformiert werden, um Vektoren wortorientierter Sprachmerkmale zu erzeugen, wodurch Ganzwortvektoren gebildet werden, die über ganze Wörter zu den Spracheingaben statistisch unkorreliert sind; vorher gespeicherte Vektoren wortorientierter Sprachmerkmale wiederausgelesen werden, von denen bekannt ist, daß sie zu dem Sprecher mit der bestimmten Identität gehören; eine Bewertung der Ähnlichkeit berechnet wird, die zwischen den bei dem Erzeugungsschritt gebildeten Vektoren wortorientierter Sprachmerkmale und wiederausgelesenen vorher gespeicherten Vektoren besteht; und auf der Grundlage der Ähnlichkeitsbewertung entschieden wird, ob der unbekannte Sprecher der Sprecher ist, der die bestimmte Identität aufweist.
Bevorzugte Ausführungsformen der vorliegenden Erfindung schaffen ein System und Verfahren zur zeitlichen Dekorrelation für die Sprecherstimmenverifizierung, die die statistisch optimale Korrelation zwischen den gemessenen Merkmalen der Sprache über ganze Wörter verwenden, um die Identität des Sprechers zu verifizieren. Die vorliegende Erfindung wertet Korrelationen zwischen Gruppen aus Sprachvektoren aus, die Klänge einzelner Wörter in einer Äußerung repräsentieren. Da diese Korrelationen ganze Wörter überspannen, ist es möglich, statistische Merkmale herauszufinden, die ganze Wörter überspannen, die von Verzerrungen relativ unberührt bleiben, die während einer gesamten Äußerung konstant bleiben. Die erfindungsgemäße Dekorrelationsverarbeitung, die diese statistischen Merkmale verwendet, schafft ein Verifizierungssystem, das gegenüber Verzerrungen und Veränderungen, die während einer Äußerung gleichmäßig bleiben, weniger empfindlich ist, was zu einer verbesserten Leistungsfähigkeit der Sprecherverifizierung führt.
Das System und Verfahren der vorliegenden Erfindung zur zeitlichen Dekorrelation vermindert darüber hinaus die Anzahl an Parametern, die gespeichert werden müssen, um die Stimme eines bestimmten Sprechers zu repräsentieren, wodurch das Ausmaß an Speicher vermindert wird, der für sprecherspezifische Sprachinformationen erforderlich ist.
Ein System und Verfahren gemäß der vorliegenden Erfindung wird nun als ein Beispiel mit Bezug auf die beigefügten Zeichnungen beschrieben.

BESCHREIBUNG DER ZEICHNUNGEN

Fig. 1 ist ein Blockdiagramm eines Beispiels eines allgemeinen Sprecherverifizierungssystems;
Fig. 2 ist ein Blockdiagramm, das den Ausrichtungsprozeß ohne die vorliegende Erfindung darstellt;
Fig. 3 ist ein Blockdiagramm, das die Äußerungsbewertung ohne die vorliegende Erfindung darstellt;
Fig. 4a-b sind Blockdiagramme von Schritten, die bei einem Registrierungsprozessor gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung durchgeführt werden;
Fig. 5 ist ein Blockdiagramm eines Sprecherverifizierungsprozessors gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung;
Fig. 6 ist ein Blockdiagramm eines Ausrichtungsprozesses gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung;
Fig. 7 ist ein Blockdiagramm, das die Ganzworttransformation gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung darstellt; und
Fig. 8 ist ein Blockdiagramm, das die Äußerungsbewertung gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung darstellt.
Wenn es nicht anders angezeigt ist, so beziehen sich gleiche Bezugszeichen und Symbole in den verschiedenen Figuren auf sich entsprechende Teile.

GENAUE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN

Eine bevorzugte Ausführungsform der vorliegenden Erfindung läßt sich unter Betrachtung der Fig. 1 verstehen, die ein allgemeines Sprecherverifizierungssystem darstellt. Wie oben erläutert, erfordert die Sprecherstimmenverifizierung vor dem tatsächlichen Verifizierungseinsatz die Stimmenregistrierung. Um einen bekannten Sprecher zu registrieren, ermöglicht das Registrierungssystem 5 einem bekannten Sprecher, Äußerungen zu einem Sprachkollektor 10 über ein Mikrophon, ein Telefongerät, einen Kanal oder dergleichen zu machen. Der Sprachkollektor 10 sammelt Sprachparametervektoren aus solchen Äußerungen und liefert sie zur Modellierungseinheit 15. Die Modellierungseinheit 15 bildet für die bekannten Sprecher eindeutige Modelle, die auf diesen Sprachparametervektoren basieren. Diese für den Sprecher eindeutigen Modelle werden zusammen mit Informationen, die den Sprecher der Modelle identifizieren, im Speicher 20 gespeichert.
In einigen Fällen werden mehrere Wiederholungen des gleichen Worts oder der gleichen Phrase gesammelt und Parametervektoren, die zu den gleichen Sprachteilen gehören, werden einer Ausrichtung (Englisch: alignment) unterzogen (Zusammenfassung von Vektoren in Gruppen). Die sich ergebenden Gruppen von Vektoren werden dann einem Durchschnittsbildungsprozeß mittels der Modellierungseinheit 15 unterzogen, um eine gute Schätzung oder ein gutes Modell der für den Sprecher spezifischen Referenzsprachparametervektoren zu liefern. Der sich ergebende Satz an Parametervektoren bildet das Referenzmodell für den zu verifizierenden Sprecher. Häufig werden die Parametervektoren aufgeteilt, so daß sie mehrere getrennte Modelle bilden, die Sprachteile wie einzelne Wörter, Silben oder Laute repräsentieren.
Während der tatsächlichen Sprecherverifizierung gibt ein Sprecher zunächst seine beanspruchte Identität in den Eingangsabschnitt 30 des Verifizierungssystems 25 ein. Dies kann durch verschiedene Mittel, z. B. Eingeben einer Kennziffer (Zifferneingabe) über eine Telefontastatur, Verwendung einer Kreditkarte mit darauf aufgezeichneten Informationen, Spracherkennung einer Kennphrase oder einem beliebigen anderen geeigne ten Mittel durchgeführt werden. Das Verifizierungssystem 25 verwendet diese beanspruchte Identität, um die entsprechenden Sprachmodelle aus dem Speicher 20 wieder auszulesen. Hat das Verifizierungssystem 25 die Sprachmodelle für die beanspruchte Identität wiederaufgefunden, so kann das Verifizierungssystem 25 den Sprecher auffordern, eine Äußerung zu machen, oder es kann die gelieferte Äußerung verwenden, um eine Identität zu beanspruchen.
Bei mit festgelegtem Text arbeitenden Verifizierungssystemen kennt das Verifizierungssystem 25 den Text der Verifizierungsäußerung jedes Sprechers. Nachdem die Äußerung von dem Sprecher gesammelt wurde, wird sie in eine Sequenz aus Eingabesprachvektoren in einer ähnlichen Weise wie bei der Registrierung umgewandelt. Unter Verwendung von DTW, HMM oder anderen Algorithmen werden diese Eingabesprachvektoren dann in Ausrichtung zu den Referenzmodellvektoren gebracht, die dem Sprecher mit der beanspruchten Identität entsprechen, was zu einer Korrespondenz zwischen jedem Eingabesprachvektor und einem Referenzmodell-(Parameter-)Vektor führt. Ein Beispiel für diese Art von Ausrichtung ist in der Fig. 2 dargestellt, in der die Eingabesprachvektoren v1-v8 in Ausrichtung zu den Referenzmodell-(Parameter-)Vektoren r1-r4 gebracht werden. Die Referenzparametervektoren r1 und r2 entsprechen einem ersten Wort, während r3 und r4 einem zweiten Wort entsprechen.
Nach der Ausrichtung vergleicht das Verifizierungssystem 25 das Eingabesprachsignal der gesprochenen Äußerung mit den wiederausgelesenen Sprachmodellen im Sprachmodellkomparator 35. Der Vergleich wird zwischen jedem der Eingabesprachvektoren und seinem abgebildeten Referenzvektor durchgeführt, um den Grad der Ähnlichkeit zwischen den Vektoren zu bestimmen. Der Komparator 35 erzeugt eine Ähnlichkeitsbewertung 310, dargestellt in der Fig. 3, die basierend auf der Nähe des eingegebenen Sprachsignals zu den aus dem Speicher 20 wiederausgelesenen Modellen für die gesamte Verifizierungsäußerung berechnet wird. Diese Nähe ist die Summe der Ähnlichkeitsmessungen 320 zwischen den Eingabesprachvektoren und den abgebildeten Referenzvektoren. Die Ähnlichkeit der Vektoren kann durch mehrere Verfahren bestimmt werden, zu denen statistische Berechnungen maximaler Wahrscheinlichkeit oder Vektorquantisierung gehören. Wenn die Äußerungsbewertung anzeigt, daß die Referenz- und Eingabevektoren über die gesamte Äußerung ähnlich genug sind, um die Kriterien für den Erfolg zu erfüllen (d. h., daß die gesprochene Äußerung gut mit den Sprachmodellen übereinstimmt), dann entscheidet das Verifizierungssystem 25, daß der Sprecher tatsächlich dem der beanspruchten Identität entspricht. Bei einigen Systemen werden dann, wenn die beanspruchte Identität verifiziert worden ist, die Eingabesprachvektoren zusammen mit den abgebildeten Referenzvektoren einem Durchschnittsbildungsprozeß unterzogen, um einen aktualisierten Satz an Sprachreferenzmodellen zu erzeugen, der die im Speicher 20 gehaltenen Modelle ersetzt:
Bei einer bevorzugten Ausführungsform der vorliegenden Erfindung umfassen die Registrierung und die Verifizierung beide eine HMM-Ausrichtung der Eingabesprachparametervektoren zu den Referenzmodellparametervektoren. Jedoch werden die jedes Wort ausmachenden Vektoren danach verkettet, um einzelne Vektoren zu bilden, die ganze Wörter in der Äußerung darstellen. Die Ganzwortvektoren werden wortspezifischen orthogonalisierenden linearen Transformationen unterzogen, um Ganzwortvektoren zu erzeugen, die statistisch über ganze Wörter unkorreliert sind. Die sich ergebenden Ganzwortvektoren werden verwendet, um den Grad an Ähnlichkeit zwischen den eingegebenen Sprachäußerungen und den gespeicherten Sprachparametern zu bestimmen.
Zur genaueren Erläuterung zeigt Fig. 4a ein Blockdiagramm einer bevorzugten Ausführungsform, die die Sprachmerkmalsvektoren des bekannten Sprechers aus der eingegebenen Sprache des Sprechers während der Registrierung bestimmt. Zu Beginn am Block 100 spricht der zu registrierende Sprecher eine bekannte Verifizierungsäußerung. Für dieses Sprachsignal werden die Koeffizienten einer linearen prädikativen Codierung (LPC) berechnet, um Vektoren aus LPC-Koeffizienten zu berechnen. Bei der bevorzugten Ausführungsform bestehen diese Vektoren aus zehn Koeffizienten und zusätzlich zwei Elementen, um die Energie und die Tonhöhe zu definieren. Rahmenparametervektorberechnungselement 110 verwendet die LPC-Vektoren in einem nichtlinearen Prozeß, um Energie-, Spektrale, Differenzenergie- und Differenzspektrumssprachparameter zu bestimmen. Diese globalen Sprachparameter werden durch den Vektorumformer 120 für globale Merkmale in Sprachmerkmalsvektoren für den bekannten Sprecher umgeformt. Die Umwandlung der Vektoren globaler Merkmale ist eine vorherbestimmte lineare Transformation, die vor der Registrierung berechnet wird. Sie gestaltet sich durch Bestimmung einer Vektorstatistik aus einer Datenbank, die eine große Anzahl an Sprechern repräsentiert. Die Vektorstatistik wird in einer Eigenvektoranalyse verwendet, um die lineare Transformation zu entwickeln, die die unkorrelierten Merkmale bestimmt, die in optimaler Weise zwischen den Sprechern unterscheiden.
Die oben beschriebene Sprachmerkmalsvektorbildung ist lediglich ein Weg, um Sprachmerkmale zu erzeugen. Es gibt andere Verfahren zur Berechnung der Merkmale, wie z. B. die Berechnung von Cepstralkoeffizienten oder die Verwendung von Merkmalsvektoren, die direkt aus den LPC-Koeffizienten abgeleitet wurden, wie z. B. die Parcorkoeffizienten oder die Log.-Area-Ratio- Koeffizienten. Die vorliegende Erfindung ist keineswegs auf ein bestimmtes Verfahren zur Berechnung der Sprachvektoren beschränkt.
Die Fig. 4b zeigt ein Blockdiagramm der bevorzugten Ausführungsform der Registrierung des bekannten Sprechers durch Erzeugen von für den Sprecher spezifischen wortorientierten Sprachmodellen aus den Sprachmerkmalsvektoren. Der Merkmalsvektorausrichtungsprozessor 140 empfängt die Sprachmerkmalsvektoren von dem Umformer 120 für Vektoren globaler Merkmale und richtet diese Merkmale zu den vorher bestimmten sprecherunabhängigen Referenzwortmodellmerkmalsvektoren 130 aus, die akustische Beobachtungen für jedes Wort der Verifizierungsäußerung darstellen. Die Referenzwortmodellmerkmalsvektoren 130 sind statistische Darstellungen jedes Worts der Registrierungseingabesprache eines bekannten Sprechers und sie werden unter Verwendung einer großen Anzahl von Sprechern aus einer Datenbank vorher gesammelter Sprache erzeugt. Gemäß einer bevorzugten Ausführungsform verwendet der Ausrichtungsprozessor 140 einen Viterbi-Such-HMN-Algorithmus, um die Sprach- und Referenzmodelle auszurichten, wodurch eine Abbildung zwischen Eingabesprachmerkmalsvektoren und Referenzsprachmerkmalsvektoren 130 erzeugt wird. Wie oben erwähnt, können auch andere bekannte Algorithmen, z. B. dynamische Zeitverzerrung (DTW), verwendet werden, um diese Ausrichtung durchzuführen. Bei der bevorzugten Ausführungsform ist die Abbildung so, daß es wenigstens eine Eingabesprachmerkmalvektorabbildung auf jeden Referenzvektor 130 gibt und daß jeder Eingabesprachvektor auf nur einen Referenzvektor 130 abgebildet wird.
Bei der bevorzugten Ausführungsform bildet die Merkmalsdurchschnittsbildungsschaltungsanordnung 150 einen Durchschnitt über die Eingabesprachmerkmalsvektoren, die auf den gleichen Referenzvektor 130 abgebildet werden, um durchschnittliche Referenzmodellvektoren zu erzeugen, die die Sprache des registrierten Sprechers für jedes Wort charakterisieren. So wird ein Satz aus Vektoren von dem bekannten Sprecher erzeugt, die den sprecherunabhängigen Referenzwortmodellvektoren entsprechen. Es ist zu erkennen, daß dies zu einer Anzahl an durchschnittlichen Eingabesprachvektoren führt, die derjenigen der Referenzvektoren entspricht. Es können auch andere Mittel zum Kombinieren der Eingabesprachmerkmalsvektoren anstelle der Durchschnittsbildung verwendet werden, so die Auswahl jedes einzelnen Eingabevektors, der die beste Anpassung an jeden Referenzvektor liefert.
Dieser Durchschnittsbildungsprozeß kann unter Verwendung mehrerer Registrierungsäußerungen wiederholt werden, so daß die Durchschnittsreferenzmodellvektoren für jedes Wort die Sprache des registrierten Sprechers besser charakterisieren. Die Durchschnittsreferenzmodellvektoren, die jedem Wort entsprechen, werden normalerweise in dem System für die nachfolgende Verifizierungsverarbeitung gespeichert. Falls eine weitere Verminderung bezüglich des Speicherplatzes erwünscht ist, so ist die Speicherung der Durchschnittsreferenzmodellvektoren nicht erforderlich.
Der Umformer 160 wortorientierter Vektoren verkettet zunächst sämtliche Durchschnittseingabesprachvektoren, die von der Merkmalsdurchschnittsbildungsschaltungsanordnung 150 empfangen wurden und jedem Wort entsprechen, um für jedes Wort einen auf einem einzelnen Wort basierenden Durchschnittseingabesprachvektor zu erzeugen. Der Umformer 160 wortorientierter Vektoren formt die wortorientierten Vektoren unter Verwendung einer wortorientierten linearen Transformation um. Die wortorientierte lineare Transformation wird vor einer Registrierung berechnet, wobei wortorientierte Vektorstatistiken aus einer Datenbank verwendet werden, die eine große Anzahl an Sprechern repräsentiert, und sie ist so entworfen, daß sie unkorrelierte wortorientierte Sprachmerkmale erzeugt, die in optimaler Weise zwischen Sprechern unterscheiden. Im letzten Schritt während der Registrierung speichert der Speicher 170 wortorientierter Sprachmerkmale von dem Umformer 160 wortorientierter Vektoren empfangene Daten, die den bekannten Sprecher identifizieren, und sämtliche wortorientierten Sprachmerkmalsvektoren für den bekannten Sprecher.
Die Fig. 5 ist ein Blockdiagramm der bevorzugten Ausführungsform eines Sprecherverifizierungsprozessors gemäß der vorliegenden Erfindung. Während der Verifizierungsverarbeitung beansprucht ein unbekannter Sprecher, daß seine Identität die eines Sprechers ist, der bereits von dem System registriert worden ist. Die Aufgabe des Verifizierungssystems besteht darin, festzustellen, ob das wahr ist. Um dieses durchzuführen, fordert das Verifizierungssystem den Sprecher auf, seine Verifizierungsäußerung zu machen. Die Verifizierungsäußerung wird gesammelt und der Verifizierungsprozessor berechnet Sprachmerkmalsvektoren im Sprachmerkmalsvektorberechnungselement 210. Solche Berechnungen umfassen die gleichen Verarbeitungsschritte, wie sie in Verbindung mit der Fig. 4a besprochen wurden. Das wortorientierte Sprachmerkmalsberechnungselement 220 verwendet die Sprachmerkmalsausgaben von dem Sprachmerkmalsvektorberechnungselement 210 zusammen mit der Wortliste des beanspruchten Sprechers, um wortorientierte Sprachmerkmalsvektoren für den unbekannten Sprecher zu bilden.
Abgesehen davon, daß die wortorientierten Sprachmerkmalsvektoren nicht direkt in einem wortorientierten Sprachmerkmalsspeicher gespeichert werden, entspricht die durch das wortorientierte Sprachmerkmalsberechnungselement 220 durchgeführte Verarbeitung derjenigen, die in Verbindung mit der Fig. 4b beschrieben wurde. Hier werden die wortorientierten Sprachmerkmalsvektoren von dem unbekannten Sprecher in das wortorien tierte Vektorbewertungselement 230 eingegeben. So verwendet das wortorientierte Sprachmerkmalsberechnungselement 220 eine HMM- Ausrichtung, um die Eingabesprachvektoren auf die sprecherspezifischen Referenzmodellvektoren abzubilden, die jedem Wort für den Sprecher mit der beanspruchten Identität entsprechen. Ein Beispiel ist in der Fig. 6 gezeigt, bei dem Eingabesprachvektoren v1 bis v8 beim Schritt 350 auf Referenzvektoren r1 und r2 für Wort 1 und Referenzvektoren r3 und r4 für Wort 2 abgebildet werden.
Das Element 230 zum Bewerten wortorientierter Vektoren berechnet eine Bewertung der Ähnlichkeit zwischen den von dem Element 220 zum Berechnen wortorientierter Sprachmerkmalsvektoren kommenden wortorientierten Sprachmerkmalsvektoren des unbekannten Sprechers und denjenigen, die vorher in dem wortorientierten Sprachmerkmalsspeicher 170 gespeichert wurden. Bei der bevorzugten Ausführungsform besteht die Ähnlichkeitsbewertung aus einer Summe über alle Wörter der euklidischen Abstände zwischen den wortorientierten Sprachmerkmalsvektoren des unbekannten Sprechers und denjenigen, die für die beanspruchte Identität gespeichert wurden. Es gibt viele andere Ähnlichkeitsbewertungsmessungen, die verwendet werden können, z. B. der Mahalanobis-Abstand.
Die Ähnlichkeitsmessung der vorliegenden Erfindung unterscheidet sich deutlich vom Stand der Technik. Anstelle der Durchführung eines Ähnlichkeitsvergleichs zwischen jedem Eingabesprachvektor und dem abgebildeten Referenzmodellvektor werden die auf jeden Referenzmodellvektor abgebildeten Eingabesprachvektoren einer Durchschnittsbildung unterzogen (Fig. 6, Schritt 360), um einen Durchschnittseingabesprachvektor zu erzeugen, der jedem Referenzmodellvektor (a1-a4) entspricht. Die Durchschnittseingabesprachvektoren, die jedes Wort ausmachen, werden verkettet, um einen einzigen Ganzworteingabesprachvektor für jedes Wort zu bilden. Bei dem Beispiel der Fig. 6 werden a1 und a2 verkettet, um den Ganzwortvektor für das Wort 1 zu bilden, und a3 und a4 werden verkettet, um den Ganzwortvektor für das Wort 2 zu bilden.
Der Prozeß der Bildung von Ganzworteingabesprachvektoren 390, 395 und Ganzwortreferenzmerkmalsvektoren 410, 415 ist in der Fig. 7 dargestellt. Jeder Ganzworteingabesprachvektor 370, 375 wird durch eine vorherbestimmte lineare Transformation, die als zeitliche Dekorrelationstransformation (TDT) 380 bezeichnet wird, transformiert, wobei diese Dekorrelationstransformation speziell für jedes Wort bestimmt wird, um einen dekorrelierten Ganzworteingabesprachmerkmalsvektor 390 bzw. 395 zu erzeugen. In ähnlicher Weise werden Ganzwortreferenzsprachvektoren 400, 405 für jedes Wort (r1-r4 in der Fig. 6) verkettet, um einen einzigen Ganzwortreferenzvektor für jedes Wort zu erzeugen. Die Ganzwortreferenzsprachvektoren 400, 405 werden durch die gleichen TDTs 380 transformiert, um Ganzwortreferenzmerkmalsvektoren 410 bzw. 415 zu bilden.
Wie in der Fig. 8 dargestellt, werden die Ganzworteingabesprachmerkmalsvektoren 390, 395 und die Ganzwortreferenzmerkmalsvektoren 410, 415 dann verglichen (Schritt 420), um einzelne Ganzwortmerkmalsvektorähnlichkeitsbewertungen 420 zu bestimmen. Eine Äußerungsbewertung ist die Summe aus den Ähnlichkeitsbewertungen 420. Die Verwendung der statistischen Berechnung größter Wahrscheinlichkeit zum Anzeigen einer Ähnlichkeit wird bevorzugt, obwohl andere bekannte Verfahren wie die Vektorquantisierung verwendet werden können. Wegen der durch die TDTs 380 gelieferten Dekorrelation können viele der Merkmale der Ganzwortmerkmalsvektoren 410, 415 verworfen werden. Bei der bevorzugten Ausführungsform der vorliegenden Erfindung wurden nur 20% der Ganzwortmerkmale pro Vektor verwendet.
Unter Rückbezug auf die Fig. 5 ist zu erkennen, daß die sich ergebende Ähnlichkeitsbewertung von dem Element 230 zur Bewertung wortorientierter Vektoren als Eingabe zur Sprecherverifizierungsentscheidungsschaltungsanordnung 240 geliefert wird, die die Bewertung mit einer vorherbestimmten Schwelle vergleicht. Wenn die Bewertung unterhalb der Schwelle liegt, dann entscheidet das System, daß der unbekannte Sprecher dem von ihm beanspruchten entspricht. Wenn aber andererseits die Bewertung über der Schwelle liegt, gibt das System dem unbekannten Sprecher noch maximal zwei weitere Versuche, bevor es entscheidet, daß die Identität des unbekannten Sprechers nicht der beanspruchten Identität entspricht.
Wenn die Sprecherverifizierungsentscheidungsschaltungsanordnung 240 bei der bevorzugten Ausführungsform entscheidet, daß die Identität des unbekannten Sprechers der beanspruchten Identität entspricht, dann bildet die Merkmalsaktualisierungsdurchschnittsbildungsschaltungsanordnung 250 einen gewichteten Durchschnitt der wortorientierten Sprachmerkmale der eingegebenen Sprache von dem wortorientierten Sprachmerkmalsberechnungselement 230 zusammen mit denjenigen aus dem Speicher 170 wortorientierter Sprachmerkmale. Die sich ergebenden wortorientierten Durchschnittssprachmerkmale ersetzen diejenigen, die im Speicher 170 wortorientierter Sprachmerkmale für die Identität des beanspruchten Sprechers gehalten werden. Dies liefert ein verbessertes Modell wortorientierter Sprachmerkmale für den beanspruchten Sprecher.
Die bevorzugte Ausführungsform der vorliegenden Erfindung erzeugt eine wortspezifische lineare zeitliche Dekorrelationstransformation (TDT) für jedes Wort des Vokabulars, das der Sprecher sagen wird. Da es eine große Anzahl an Parametern gibt, die für jede TDT bestimmt werden müssen, ist es nützlich, eine Sprachdatenbank zu verwenden, die aus Äußerungen von vielen verschiedenen Sprechern besteht und bei der sich das Vokabular der Wörter mehrere Male bei jedem Sprecher wiederholt.
Um eine TDT zu erzeugen, werden Kovarianzmatrizen von Ganzwortvektoren für jedes Wort des Vokabulars für jeden Sprecher in der Datenbank berechnet. Diese Ganzwortvektoren werden durch einen Prozeß gebildet, der dem für die Verifizierung, gezeigt in der Fig. 2, ähnlich ist. Unter Verwendung einer HMM- Ausrichtung werden Äußerungsparametervektoren von jedem Sprecher mit vorherbestimmten Referenzmodellvektoren ausgerichtet, die jedes Wort des Vokabulars repräsentieren. Nach der Ausrichtung werden die auf jeden Referenzvektor abgebildeten Äußerungsvektoren einer Durchschnittsbildung unterzogen, um Durchschnittsäußerungsvektoren zu bilden, wobei einer für jeden Referenzvektor gebildet wird. Die Durchschnittsäußerungsvektoren für jedes Wort werden verkettet, um Ganzwortvektoren zu bilden. Die Ganzwortvektoren, die jedem Wort des Vokabulars entsprechen, werden verwendet, um Kovarianzmatrizen für jeden Sprecher und jedes Wort zu berechnen. Die Kovarianzmatrizen, die dem gleichen Wort für alle Sprecher entsprechen, werden dann zusammengetan. So ergibt sich eine Kovarianzmatrix für jedes Wort des Vokabulars. Jede der Kovarianzmatrizen wird in einer Eigenvektororthogonalisierungsberechnung verwendet, um für jedes Wort Eigenvektormatrizen zu erzeugen. Außerdem werden sämtliche Ganzwortvektoren für jedes Wort (unabhängig vom Sprecher) verwendet, um eine Kovarianzmatrix für jedes Wort zu bestimmen, die globale wortorientierte Vektorkovarianzen repräsentiert. Die zwei so gebildeten Kovarianzmatrizen für jedes Wort des Vokabulars werden in einer Eigenvektor-Diskriminanten-Berechnung verwendet, um die lineare Transformation zu bestimmen, die unkorrelierte wortorientierte Merkmale definiert, die in optimaler Weise zwischen den Sprechern unterscheiden. Die Eigenvektormatrizen, die die dekorrelierten wortorientierten Transformationen darstellen, sind als TDTs bekannt.
Wie oben erwähnt, wird der Bedarf an Speicher für die sprecherspezifischen Daten durch die Verwendung der vorliegenden Erfindung vermindert. Dies ergibt sich, weil lediglich die Ganzwortreferenzmerkmale gespeichert werden, die zur Durchführung der Ähnlichkeitsberechnungen erforderlich sind. Da lediglich ungefähr 20% der Merkmale für die Ähnlichkeitsberechnung verwendet werden, kann der Speicherplatz im Vergleich zum Fall der Speicherung sämtlicher Referenzvektoren um ungefähr 80% vermindert werden.
Die vorliegende Erfindung verwendet eine zeitliche Dekorrelation, die die Bewertung wortorientierter Vektoren umfaßt, um die Ähnlichkeit mit gespeicherten sprecherabhängigen Referenzmodellen zu bestimmen. Eine einfache Ausdehnung des Konzepts auf die Sprachverarbeitungstechnologie kann durch Durchführen einer oben beschriebenen Ausrichtung und anschließenden Bestimmung einer wortorientierten Bewertung, basierend auf der Ähnlichkeit mit sprecherunabhängigen Modellen, erreicht werden. Diese Bewertung kann verwendet werden, um die Erkennung auf Wortebene zu leiten.
Obwohl eine spezielle Ausführungsform der Erfindung gezeigt und beschrieben wurde, werden verschiedene Modifikationen und andere Ausführungsformen für Fachleute auf diesem Gebiet offenbar werden. Demgemäß ist es beabsichtigt, daß die Erfin dung in ihrem Schutzumfang lediglich durch die beigefügten Ansprüche begrenzt wird.

Claims

1. Automatisches System zur zeitlichen Dekorrelation für die Sprecherstimmenverifizierung mit

einem Kollektor (210) zum Empfangen von Sprache von einem unbekannten Sprecher, der eine bestimmte Identität beansprucht, und zum Erzeugen mehrerer Eingabevektoren (v1-v5, v6-v8) für jedes gesprochene Wort;

einem Element (220) zum Berechnen wortorientierter Sprachmerkmale, das so betrieben werden kann, daß es eine zeitliche Dekorrelationstransformation zum Erzeugen von Vektoren wortorientierter Sprachmerkmale aus den von dem Kollektor (210) empfangenen Spracheingaben verwendet, wodurch Ganzwortvektoren (390, 395) gebildet werden, die über ganze Wörter zu den Spracheingaben statistisch unkorreliert sind;

einem Speicher (20) wortorientierter Sprachmerkmale zum Speichern von Vektoren (410, 415) wortorientierter Sprachmerkmale, von denen bekannt ist, daß sie zu dem Sprecher mit der bestimmten Identität gehören;

einem Element (230) zum Bewerten wortorientierter Vektoren, um eine Bewertung der Ähnlichkeit zu berechnen, die zwischen den von dem Element zum Berechnen wortorientierter Sprachmerkmale empfangenen Vektoren (I1, I2) wortorientierter Sprachmerkmale und den von dem Speicher wortorientierter Sprachmerkmale empfangenen Vektoren (R1, R2) besteht; und

einer Sprecherverifizierungsentscheidungsschaltungsanordnung (240), die auf der Grundlage der von dem Element zum Bewerten wortorientierter Vektoren empfangenen Ähnlichkeitsbewertung entscheidet, ob der unbekannte Sprecher der Sprecher ist, der die bestimmte Identität aufweist.

2. System nach Anspruch 1, bei dem das Element (220) zum Berechnen wortorientierter Sprachmerkmale eine HMM-Ausrichtung verwendet, um die Vektoren eingegebener Sprache auf sprecherunabhängige Referenzmodellvektoren abzubilden, die jedem zu dem Sprecher mit der bestimmten Identität gehörenden Wort entsprechen.

3. System nach Anspruch 1 oder Anspruch 2, bei dem das Element zum Bewerten wortorientierter Vektoren eine Verkettungsschaltungsanordnung zum Verketten mehrerer Eingabevektoren umfaßt, die ein einzelnes Wort bilden, um einzelne Vektoren zu bilden, die ganze Wörter der Spracheingaben repräsentieren.

4. System nach einem der Ansprüche 1 bis 3, bei dem die Ähnlichkeitsbewertung eine über alle Wörter gebildete Summe der euklidischen Abstände zwischen den Vektoren wortorientierter Sprachmerkmale von dem Element zum Berechnen wortorientierter Sprachmerkmale und den in dem Speicher wortorientierter Sprachmerkmale gespeicherten Vektoren ist.

5. Zeitliches Dekorrelationsverfahren zur Sprecherstimmenverifizierung, bei dem

Spracheingaben von einem unbekannten Sprecher gesammelt werden (210), der eine bestimmte Identität beansprucht, und mehrere Eingabevektoren (v1-v5, v6-v8) für jedes gesprochene Wort erzeugt werden;

die mehreren Eingabevektoren (v1-v5, v6-v8) unter Verwendung einer zeitlichen Dekorrelationstransformation transformiert werden (220), um Vektoren wortorientierter Sprachmerkmale zu erzeugen, wodurch Ganzwortvektoren (390, 395) gebildet werden, die über ganze Wörter zu den Spracheingaben statistisch unkorreliert sind;

vorher gespeicherte (20) Vektoren (410, 415) wortorientierter Sprachmerkmale wiederausgelesen werden, von denen bekannt ist, daß sie zu dem Sprecher mit der bestimmten Identität gehören;

eine Bewertung der Ähnlichkeit berechnet wird, die zwischen den bei dem Erzeugungsschritt gebildeten Vektoren (I1, I2) wortorientierter Sprachmerkmale und wiederausgelesenen vorher gespeicherten Vektoren (R1, R2) besteht; und

auf der Grundlage der Ähnlichkeitsbewertung entschieden wird, ob der unbekannte Sprecher der Sprecher ist, der die bestimmte Identität aufweist.

6. Verfahren nach Anspruch 5, bei dem beim Erzeugen (220) der Vektoren wortorientierter Sprachmerkmale eine HMM-Ausrichtung verwendet wird, um die Vektoren eingegebener Sprache auf sprecherunabhängige Referenzmodellvektoren abzubilden, die jedem zu dem Sprecher mit der bestimmten Identität gehörenden Wort entsprechen.

7. Verfahren ach Anspruch 5 oder Anspruch 6, bei dem beim Bewerten mehrere Eingabevektoren, die ein einzelnes Wort bilden, verkettet werden, so daß einzelne Vektoren gebildet werden, die ganze Wörter der Spracheingaben repräsentieren.

8. Verfahren nach einem der Ansprüche 5 bis 7, bei dem die Ähnlichkeitsbewertung eine über alle Wörter gebildete Summe der euklidischen Abstände zwischen den während des Erzeugungsschritts gebildeten Vektoren (I1, I2) wortorientierter Sprachmerkmale und den wiederausgelesenen vorher gespeicherten Vektoren (R1, R2) ist.

9. Zeitliches Dekorrelationsverfahren zur Reduzierung des für sprecherspezifische Sprachinformation notwendigen Speicherbedarfs, bei dem:

Vektoren wortorientierter Sprachmerkmale, die eine Dimension aufweisen, aus einer gesprochenen Äußerung erzeugt werden;

die Dimension der Vektoren wortorientierter Sprachmerkmale durch Anwendung einer linearen zeitlichen Dekorrelationstransformation auf die Vektoren wortorientierter Sprachmerkmale reduziert wird; und

die Vektoren wortorientierter Sprachmerkmale gespeichert werden.

10. Verfahren nach einem der Ansprüche 5 bis 8, bei dem der für die Vektoren wortorientierter Sprachmerkmale notwendige Speicherbedarf durch ein Verfahren nach Anspruch 9 vermindert wurde.