DE60109240T2

DE60109240T2 - Sprecherverifikation und -erkennung

Info

Publication number: DE60109240T2
Application number: DE2001609240
Authority: DE
Inventors: Roland Santa Barbara Kuhn; Oliver Thyes; Patrick Santa Barbara Nguyen; Jean-Claude Santa Barbara Junqua; Robert Thousand Oaks Boman
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp
Priority date: 2000-07-05
Filing date: 2001-07-02
Publication date: 2006-02-16
Anticipated expiration: 2021-07-03
Also published as: JP2002082694A; EP1178467A1; DE60109240D1; CN1366295A; CN1253851C; EP1178467B1; ES2239650T3

Description

Hintergrund und Zusammenfassung der Erfindung
Die vorliegende Erfindung betrifft allgemein Sprachtechnologie und genauer ein Verfahren zum Durchführen einer Sprecherverifikation oder einer Sprecheridentifikation.
Das Problem der Authentifizierung liegt bei nahezu jeder Transaktion im Mittelpunkt. Millionen von Menschen führen vertrauliche Transaktionen über das Telefon durch, wie beispielsweise ein Zugreifen auf ihre Bankkonten unter Verwendung ihrer Kreditkarten. Authentifizierung mit der herkömmlichen Praxis ist weit davon entfernt, idiotensicher zu sein. Die Parteien tauschen eine Form von vermutlich geheimen Informationen aus, wie beispielsweise die Sozialversicherungsnummer, den Geburtsnamen der Mutter oder Ähnliches. Natürlich können solche Informationen gestohlen werden, resultierend in einer falschen Authentifizierung.
Ein Aspekt der vorliegenden Erfindung widmet sich dem obigen Problem durch Bereitstellen eines Verfahrens zum Ausführen einer Sprecherverifikation. Die Sprecherverifikation umfasst ein Bestimmen, ob eine gegebene Stimme zu einem bestimmten Sprecher (der hierin als „Client" bezeichnet wird) oder zu einem Betrüger (irgend jemand anderes als der Client) gehört.
In gewisser Weise ist mit dem Problem der Sprecherverifikation das Problem der Sprecheridentifikation verknüpft. Die Sprecheridentifikation umfasst ein Zuordnen einer gegebenen Stimme zu einer eines Satzes von bekannten Stimmen. Wie die Sprecherverifikation weist die Sprecheridentifikation eine Anzahl von attraktiven Anwendungen auf. Beispielsweise kann ein Sprecheridentifikationssystem verwendet werden, um Sprachnachrichten für einen Satz von Sprechern, für welche Stimmproben zur Verfügung stehen, nach dem Sprecher einzuordnen. Eine solche Fähigkeit würde es einem Computerimplementierten Telefonsystem erlauben, auf einem Computerbildschirm die Identität von Anrufern anzuzeigen, welche Nachrichten auf dem Sprachnachrichtensystem hinterlassen haben.
Während die Anwendungen für eine Sprecherverifikation und eine Sprecheridentifikation virtuell endlos sind, hat sich die bisherige Lösung, diese beiden Vorgänge auszuführen, als unzuverlässig herausgestellt. Das Erkennen menschlicher Sprache und besonderes das Unterscheiden eines Sprechers von anderen Sprechern ist ein komplexes Problem. Selten spricht eine Person sogar ein einzelnes Wort in der gleichen Weise zwei Mal aus aufgrund der Weise, wie menschliche Sprache erzeugt wird.
Menschliche Sprache ist das Produkt von Luft unter Druck aus den Lungen, wobei die Luft durch die Stimmbänder gezwungen wird und durch die Stimmritze moduliert wird, um Schallwellen zu erzeugen, die dann in den oralen und nasalen Hohlräumen schwingen, bevor sie durch die Zunge, die Mundhöhle, die Zähne und die Lippen artikuliert werden. Viele Faktoren beeinflussen die Weise, wie diese schallerzeugenden Mechanismen zusammenarbeiten. Die gewöhnliche Erkältung verändert beispielsweise stark die Resonanz des nasalen Hohlraums wie auch die Tonqualität der Stimmbänder.
Unter Berücksichtigung der Komplexität und Variabilität, mit welcher der Mensch Sprache erzeugt, wird eine Sprecherverifikation und eine Sprecheridentifikation nicht einfach durch Vergleichen neuer Sprache mit einer zuvor aufgenommenen Sprachprobe ausgeführt. Eine Verwendung eines hohen Ähnlichkeitsschwellenwertes, um Betrüger auszuschließen, kann den echten Sprecher ausschließen, wenn er oder sie eine Erkältung im Kopf hat. Andererseits kann eine Verwendung eines niedrigen Ähnlichkeitsschwellenwertes das System anfällig machen für eine falsche Verifizierung.
Die EP-A-0 984 431 offenbart eine Sprechererkennung basierend auf Eigenstimmen. Nguyen, P. et al., „Eigenvoices: A compact representation of speakers in model space", Annales of Telecommunications, Presses Polytechniques et Universitaires Romandes, Lausanne, CH, Vol. 55, Nr. 3/4, März 2000 offenbart eine Sprechererkennung unter Verwendung von Divergenz als Ähnlichkeitsmessung.
Erfindungsgemäß wird ein Verfahren nach Anspruch 1 bereitgestellt.
Für ein vollständigeres Verstehen der Erfindung, ihrer Gegenstände und Vorteile wird auf die folgende Beschreibung und auf die begleitenden Zeichnungen verwiesen.
Kurze Beschreibung der Zeichnungen
1 zeigt schematisch ein beispielhaftes Hidden-Markov-Modell (HMM), das beim Verstehen der Erfindung hilfreich ist;
2 ist ein Flussdiagramm, das schematisch zeigt, wie der Eigenraum konstruiert werden kann, um ein Sprecheridentifikationssystem zu implementieren, bei dem bekannte Client-Sprecher als Punkte in dem Eigenraum dargestellt werden;
3 ist ein Flussdiagramm, das schematisch zeigt, wie der Eigenraum konstruiert werden kann, um ein Sprecherverifizierungssystem zu implementieren, bei dem der Client-Sprecher und potenzielle Betrüger als Verteilungen in dem Eigenraum dargestellt werden;
4 ist ein Flussdiagramm, das schematisch den Prozess zeigt, durch welchen entweder eine Sprecheridentifizierung oder eine Sprecherverifikation unter Verwendung des während eines Trainings entwickelten Eigenraums durchgeführt werden kann;
5 ist eine schematische Darstellung der Weise, wie die maximale Wahrscheinlichkeitstechnik ausgeführt wird;
6 ist ein Datenstrukturdiagramm, das schematisch zeigt, wie die Beobachtungsdaten von einem Sprecher in einem Eigenraum angeordnet werden können, basierend auf der maximalen Wahrscheinlichkeitsoperation;
7 zeigt schematisch ein beispielhaftes Gauss-Misch-Modell (Gaussian Mixture Model, GMM), das hilfreich ist beim Verstehen der Erfindung;
8 ist ein Flussdiagramm, das schematisch zeigt, wie Punkte aus dem Eigenraum verwendet werden können, um probalistische Sprachmodelle zu erzeugen;
9 ist ein Flussdiagramm, das schematisch den Prozess zeigt, durch welchen entweder eine Sprecheridentifizierung oder eine Sprecherverifikation unter Ver wendung von Sprachmodellen ausgeführt werden kann, die von dem Sprecherraum erzeugt wurden;
10 ist ein Flussdiagramm, das schematisch einen Ansatz zeigt, um von Sprechern, die registriert werden, zusätzliche Sprache anzufordern, basierend auf einer durchschnittlichen Distanz zwischen gesprochenen Worten;
11 ist ein Flussdiagramm, das einen anderen Ansatz schematisch zeigt, um von Sprechern, die registriert werden, zusätzliche Sprache anzufordern, basierend auf einer Bestandsdichte innerhalb des Sprecherraumes.
Beschreibung der bevorzugten Ausführungsformen
Die von der vorliegenden Erfindung angewendeten Eigenstimmen-Techniken werden mit vielen verschiedenen Sprachmodellen arbeiten. Wir beschreiben die bevorzugte Ausführungsform in Verbindung mit einem Hidden-Markov-Modell-Erkenner aufgrund seiner heutigen Popularität in der Spracherkennungstechnologie. Es sollte jedoch klar sein, dass die Erfindung unter Verwendung von anderen Typen von modellbasierten Erkennern ausgeführt werden kann, wie beispielsweise Phonem-Ähnlichkeits-Erkennern.
Um die Sprecheridentifikations- und Sprecherverifikations-Techniken der Erfindung besser zu verstehen, wird ein grundlegendes Verständnis von Spracherkennungssystemen hilfreich sein. Da die meisten der heutzutage gebräuchlichen Spracherkenner Hidden-Markov-Modelle (HMMs) verwenden, um Sprache darzustellen, wird die HMM-Technologie hier erklärt werden, um den Leser damit vertraut zu machen.
Das Hidden-Markov-Modell ist ein Modellierungsansatz, der Zustandsdiagramme verwendet. Jede beliebige Spracheinheit (wie beispielsweise eine Phrase, ein Wort, ein Wortteil, ein Phonem oder Ähnliches) kann mit allen Wissensquellen modelliert werden, die in dem Modell enthalten sind. Das HMM stellt einen unbekannten Prozess dar, der eine Sequenz von sichtbaren Ausgaben in diskreten Intervallen erzeugt, wobei die Ausgaben Mitglieder eines finiten Alphabets (entsprechend dem vorbestimmten Satz von Sprecheinheiten) sind. Diese Modelle werden als „versteckt" („hidden") bezeichnet, da die Zustandssequenz, welche die sichtbare Ausgabe produziert, unbekannt ist.
Wie in 1 gezeigt, wird ein HMM 10 durch einen Satz von Zuständen (S1, S2, ..., S5), Vektoren, die Übergänge zwischen bestimmten Paaren von Zuständen definieren und die in 1 als Pfeile dargestellt sind, und eine Sammlung von Wahrscheinlichkeitsdaten dargestellt. Genauer enthält das Hidden-Markov-Modell einen Satz von Übergangswahrscheinlichkeiten 12, die mit den Übergangsvektoren verknüpft sind, und einen Satz von Ausgabewahrscheinlichkeiten 14, die mit der beobachteten Ausgabe bei jedem Zustand verknüpft sind. Das Modell wird von einem Zustand zu einem anderen in regulär beabstandeten, diskreten Intervallen geschaltet. Zum Schaltzeitpunkt kann das Modell sich von seinem momentanen Zustand zu irgendeinem anderen Zustand ändern, für den ein Übergangsvektor existiert. Wie gezeigt, kann der Übergang von einem Zustand auf sich selbst zurückführen.
Die Übergangswahrscheinlichkeiten stellen die Wahrscheinlichkeiten dar, dass ein Übergang von einem Zustand zu einem anderen auftritt, wenn das Modell geschaltet wird. Daher ist, wie in 1 gezeigt, jeder Übergang mit einem Wahrschein lichkeitswert (zwischen 0 und 1) verknüpft. Die Summe aller Wahrscheinlichkeiten, einen beliebigen Zustand zu verlassen, ist gleich 1. Zu Illustrationszwecken wird ein Satz von beispielhaften Übergangswahrscheinlichkeitswerten in einer Übergangswahrscheinlichkeitstabelle 12 angegeben. Es wird klar sein, dass in einer betriebenen Ausführungsform diese Werte durch die Trainingsdaten erzeugt würden, mit der Randbedingung, dass die Summe aller Wahrscheinlichkeiten, die einen beliebigen Zustand verlassen, gleich 1 ist.
Jedes Mal, wenn ein Übergang vorgenommen wird, kann das Modell angewiesen sein, ein Mitglied seines Alphabets auszusenden oder auszugeben. In der in 1 dargestellten Ausführungsform wurde eine Phonem-basierte Spracheinheit angenommen. Daher entsprechen die in der Ausgabewahrscheinlichkeits-Tabelle 14 dargestellten Symbole einiger der Phoneme, die im Standardenglisch zu finden sind. Welches Mitglied des Alphabets bei welchem Übergang ausgesendet wird, hängt von dem Ausgabewahrscheinlichkeits-Wert oder -Funktion ab, die während des Trainings gelernt wurden. Die ausgesendeten Ausgaben stellen daher eine Abfolge von Beobachtungen dar (basierend auf den Trainingsdaten) und jedes Mitglied des Alphabets weist eine Wahrscheinlichkeit dafür auf, dass es ausgesendet wird.
Beim Modellieren von Sprache ist es übliche Praxis, die Ausgabe als eine Sequenz von fortlaufenden Vektoren zu behandeln im Gegensatz zu einer Sequenz von diskreten Alphabetsymbolen. Dies erfordert, dass die Ausgabewahrscheinlichkeiten als kontinuierliche Wahrscheinlichkeitsfunktionen ausgedrückt werden und nicht als einzelne numerische Werte. Daher basieren HMMs oft auf Wahrscheinlichkeitsfunktionen, die eine oder mehrere Gauss-Verteilungen umfassen. Wenn eine Mehrzahl von Gauss-Funktionen verwendet wird, werden sie typischerweise additiv zusammengemischt, um eine komplexe Wahrscheinlichkeitsverteilung zu definieren, wie bei 16 gezeigt.
Die Wahrscheinlichkeitsverteilungen können durch eine Mehrzahl von Parametern beschrieben werden, falls sie als eine einzelne Gauss-Funktion oder eine Mischung von Gauss-Funktionen dargestellt werden. Wie die Übergangswahrscheinlichkeitswerte (Tabelle 12) können diese Ausgabewahrscheinlichkeits-Parameter Fließkommazahlen umfassen. Die Parametertabelle 18 zeigt die Parameter, welche üblicherweise verwendet werden, um Wahrscheinlichkeitsdichte-Funktionen (probability density functions, pdf) darzustellen, basierend auf beobachteten Daten von den Trainingssprechern. Wie durch die Gleichung in 1 bei der Gauss-Funktion 16 dargestellt, ist die Wahrscheinlichkeitsdichte-Funktion für einen Beobachtungsvektor O, dass er modelliert wird, die iterative Summe der gemischten Koeffizienten für jede Mischungskomponente multipliziert mit der Gauss-Dichte n, wobei die Gauss-Dichte einen Mittenvektor u_j und eine Kovarianzmatrix U_j umfasst, die aus den Cepstral- oder Filterbank-Koeffizienz-Sprachparametern berechnet wurden.
Die Implementierungsdetails eines Hidden-Markov-Modell-Erkenners können stark von einer Anwendung zu einer anderen variieren. Das in der 1 gezeigte HMM-Beispiel ist lediglich dazu vorgesehen, zu illustrieren, wie Hidden-Markov-Modelle konstruiert sind und ist nicht als eine Begrenzung des Umfangs der vorliegenden Erfindung vorgesehen. In dieser Hinsicht können viele Variationen an dem Hidden-Markov-Modellierungskonzept vorhanden sein. Wie aus der unten stehenden Beschreibung klarer hervorgehen wird, kann die Eigenstimmen-Adaptionstechnik der Erfindung leicht angepasst werden, um mit jedem der verschiedenen Hidden-Markov-Modell- Varianten zu arbeiten, wie auch mit anderen Parameter-basierten Sprachmodelliersystemen.
Die 2 und 3 zeigen jeweils schematisch, wie Sprecheridentifikation und Sprecherverifikation unter Verwendung der Techniken der Erfindung ausgeführt werden können. Als ein erster Schritt beim Ausführen entweder einer Sprecheridentifikation oder einer Sprecherverifikation wird ein Eigenraum konstruiert. Der spezifische Eigenraum hängt von der Anwendung ab. Im Fall der Sprecheridentifikation, die in der 2 dargestellt ist, wird ein Satz von bekannten Client-Sprechern 20 verwendet, um Trainingsdaten 22 bereitzustellen, auf denen der Eigenraum erzeugt wird. Alternativ werden für die in 3 gezeigte Sprecherverifikation die Trainingsdaten 22 von dem Client-Sprecher oder -Sprechern 21a bereitgestellt, für welche eine Verifikation gewünscht sein wird, und auch von einem oder mehreren potenziellen Betrügern 21b. Neben diesem Unterschied beim Trainieren einer Datenquelle ist die Prozedur zum Erzeugen des Eigenraums im Wesentlichen die gleiche für die Sprecheridentifikations- und Sprecherverifikations-Anwendungen. Dementsprechend wurden gleiche Bezugszeichen in den 2 und 3 verwendet.
Unter Bezugnahme auf die 2 und 3 wird der Eigenraum durch Entwickeln und Trainieren von Sprechermodellen für jeden der in den Trainingsdaten 22 wiedergegebenen Sprechern konstruiert. Dieser Schritt ist bei 24 gezeigt und erzeugt einen Satz von Modellen 26 für jeden Sprecher. Obwohl Hidden-Markov-Modelle hier gezeigt wurden, ist die Erfindung nicht auf Hidden-Markov-Modelle beschränkt. Vielmehr kann jedes beliebige Sprachmodell, das zur Konkatenation geeignet ist, verwendet werden. Vorzugsweise werden die Modelle 26 mit ausreichend Trainingsdaten trainiert, so dass alle durch das Modell definierten Klangeinheiten durch zumindest ein Beispiel aktueller Sprache für jeden Sprecher trainiert werden. Obwohl nicht in den 2 und 3 explizit gezeigt, kann der Modell-Trainingsschritt 24 eine geeignete Hilfssprecher-Adaptions-Verarbeitung einschließen, um die Modelle zu verfeinern. Beispiele einer solchen Hilfsverarbeitung schließen eine Maximum-A-Posteriori-Abschätzung (MAP) oder andere Transformations-basierte Ansätze, wie beispielsweise eine lineare Regression maximaler Wahrscheinlichkeit (Maximum Likelihood Linear Regression, MLLR) ein. Das Ziel beim Erzeugen der Sprechermodelle 26 ist, den Trainingsdatenkorpus akkurat abzubilden, da dieser Korpus verwendet wird, um die Inhalte und Grenzen des Eigenraums zu definieren, in dem jeder Trainingssprecher angeordnet wird, wobei in Bezug auf diesen Eigenraum jeder neue Sprachausdruck getestet wird.
Nach dem Konstruieren der Modelle 26 werden die Modelle für jeden Sprecher verwendet, um einen Supervektor in einem Schritt 28 zu konstruieren. Der bei 30 gezeigte Supervektor kann durch Konkatenierung der Parameter des Modells für jeden Sprecher gebildet werden. Dort, wo Hidden-Markov-Modelle verwendet werden, kann der Supervektor für jeden Sprecher eine geordnete Liste von Parametern (üblicherweise Fließkommazahlen) umfassen, die zumindest einem Teil der Parameter der Hidden-Markov-Modelle für diesen Sprecher entsprechen. Jeder Klangeinheit entsprechende Parameter sind in dem Supervektor für einen gegebenen Sprecher enthalten. Die Parameter können in jeder beliebigen herkömmlichen Weise organisiert sein. Die Ordnung ist nicht kritisch; eine Ordnung, die einmal angewendet wurde, muss jedoch für alle Trainingssprecher verwendet werden.
Die Wahl der beim Konstruieren des Supervektors zu verwendenden Modellparameter wird abhängen von der verfügbaren Verarbeitungsleistung des Computersystems. Wenn Hidden-Markov- Modell-Parameter verwendet werden, haben wir gute Resultate durch Konstruieren der Supervektoren aus den Gaussschen Mitteln erhalten. Falls eine größere Verarbeitungsleistung verfügbar ist, können die Supervektoren auch andere Parameter enthalten, wie beispielsweise die Übergangswahrscheinlichkeit (Tabelle 12, 1) oder die Kovarianzmatrix-Parameter (Parameter 18, 1). Falls die Hidden-Markov-Modelle diskrete Ausgaben erzeugen (im Gegensatz zu Wahrscheinlichkeitsdichten), dann können diese Ausgabewerte verwendet werden, um den Supervektor zu umfassen.
Nach Konstruieren des Supervektors wird in einem Schritt 32 eine Dimensionalitätsreduktions-Operation durchgeführt. Die Dimensionalitätsreduktion kann durch jede beliebige lineare Transformation ausgeführt werden, welche die originalen hochdimensionalen Supervektoren zu Basisvektoren reduziert. Eine nicht erschöpfende Liste von Beispielen enthält:
Hauptkomponentenanalyse (Principal Component Analysis, PCA), Unabhängigkeitsanalyse (Independent Component Analysis, ICA), Lineare Diskriminanzanalyse (Linear Discriminant Analysis, LDA), Faktorenanalyse (FA) und Singulärwertzerlegung (Singular Value Decomposition, SVD).
Spezieller ist die beim Implementieren der Erfindung nützliche Klasse von Dimensionalitätsreduktions-Techniken definiert wie folgt. Es wird ein Satz von T Trainingssupervektoren aus den Sprecher-abhängigen Modellen für eine Spracherkennung erhalten. Jeder dieser Supervektoren weist eine Dimension V auf; daher können wir jeden Supervektor anschreiben als X = [x1, x2, ... xV]^T (ein V·1 Vektor). Eine lineare Transformation M kann auf den Supervektor angewendet werden (d.h. auf jeden beliebigen Vektor der Dimension V), um einen neuen Vektor der Dimension E (E ist kleiner oder gleich T, der Anzahl der Trainingssupervektoren); jeder transformierte Vektor kann angeschrieben werden als W = [w1, w2, ... wE]^T. Die Werte der Parameter von M werden auf die gleiche Weise aus dem Satz von T Trainingssupervektoren errechnet.
Demzufolge liegt eine lineare Transformation W = M·X vor. M weist die Dimension E·V auf und W weist die Dimension E·1 auf, wobei E <= T; für einen bestimmten Satz von T Trainingssupervektoren wird M konstant sein. Verschiedene Dimensionalitätsreduktionstechniken können verwendet werden, um eine lineare Transformation M aus einem Satz von T Trainingssupervektoren zu errechnen, so dass W die Dimension E <= T aufweist.
Beispiele umfassen eine Hauptkomponentenanalyse, eine Unabhängigkeitsanalyse, eine lineare Diskriminantenanalyse, eine Faktorenzerlegung und eine Singulärwertzerlegung. Die Erfindung kann mit einer beliebigen dieser Methoden (nicht nur die aufgeführten) implementiert werden zum Auffinden einer solchen konstanten linearen Transformation M in dem speziellen Fall, bei dem die Eingabevektoren Trainingsvektoren sind, die von einer Sprecher-abhängigen Modellierung abgeleitet sind, und wobei M verwendet wird, um die zuvor genannte Technik auszuführen.
Die in dem Schritt 32 erzeugten Basisvektoren definieren einen durch die Eigenvektoren aufgespannten Eigenraum. Die Dimensionalitätsreduktion liefert einen Eigenvektor für jeden einzelnen der Trainingssprecher. Demzufolge, falls T Trainingssprecher vorhanden sind, produziert der Dimensionalitätsreduktionsschritt 32 T Eigenvektoren. Diese Eigenvektoren definieren, was wir Eigenstimmenraum oder Eigenraum nennen.
Die den Eigenstimmenraum ausmachenden Eigenvektoren sind bei 34 gezeigt, wobei jeder eine unterschiedliche Dimension rep räsentiert, über welche verschiedene Sprecher auseinandergehalten werden können. Jeder Supervektor in dem originalen Trainingssatz kann als eine lineare Kombination dieser Eigenvektoren dargestellt werden. Die Eigenvektoren sind nach ihrer Wichtigkeit beim Modellieren der Daten sortiert. Der erste Eigenvektor ist wichtiger als der zweite, welcher wichtiger ist als der dritte, usw. Unsere Experimente mit dieser Technik zeigen bisher, dass der erste Eigenvektor anscheinend einer Männlich-Weiblich-Dimension entspricht.
Obwohl im Schritt 32 ein Maximum von T Eigenvektoren erzeugt wird, ist es in der Praxis möglich, einige dieser Eigenvektoren zu verwerfen und lediglich die ersten N Eigenvektoren zu behalten. Daher werden im Schritt 36 optional N der T Eigenvektoren extrahiert, damit sie einen reduzierten Parametereigenraum bei 38 umfassen. Die Eigenvektoren mit einer höheren Wichtigkeitsordnungszahl können verworfen werden, da sie üblicherweise weniger wichtige Informationen enthalten, mit denen zwischen Sprechern unterschieden wird. Die Reduzierung des Eigenstimmenraums zu weniger als der absoluten Anzahl von Trainingssprechern bietet eine inhärente Datenkompression, die hilfreich sein kann, wenn Praxissysteme mit limitierten Speicher- und Prozessorressourcen konstruiert werden.
Nach dem Erzeugen der Eigenvektoren aus den Trainingsdaten wird jeder Sprecher durch die Trainingsdaten in dem Eigenraum repräsentiert. In dem Fall der Sprecheridentifikation wird jeder bekannte Client-Sprecher im Eigenraum repräsentiert, wie beim Schritt 40a dargestellt und in Form eines Diagramms bei 42a gezeigt. In dem Fall der Sprecherverifikation sind der Client-Sprecher und potenzielle Betrüger-Sprecher im Eigenraum repräsentiert, wie im Schritt 40b gezeigt und bei 42b dargestellt. Die Sprecher können im Eigenraum entweder als Punkte im Eigenraum repräsentiert sein (wie in Form eines Diagramms in 2 bei 42a gezeigt) oder als Wahrscheinlichkeitsverteilungen im Eigenraum (wie in Form eines Diagramms in 3 bei 42b gezeigt).
Verwendung des Sprecheridentifikations- oder Sprecherverifikations-Systems
Der Benutzer, welcher eine Sprecheridentifikation oder -verifikation wünscht, speist neue Sprachdaten bei 44 ein und diese Daten werden verwendet, um ein sprecherabhängiges Modell zu trainieren, wie im Schritt 46 gezeigt. Das Modell 48 wird dann beim Schritt 50 verwendet, um einen Supervektor 52 zu erzeugen. Zu Bemerken ist, dass neue Sprachdaten nicht unbedingt ein Beispiel von jeder Klangeinheit enthalten müssen. Beispielsweise kann die neue Sprachprobe zu kurz sein, um Beispiele von allen Klangeinheiten zu umfassen. Das System wird damit umgehen, wie weiter unten vollständiger erklärt wird.
Die Dimensionalitätsreduktion wird im Schritt 54 bezüglich des Supervektors 52 ausgeführt, resultierend in einem neuen Datenpunkt, der im Eigenraum dargestellt werden kann, wie im Schritt 56 angedeutet und bei 58 gezeigt. In der Illustration bei 58 sind die zuvor erhaltenen Punkte im Eigenraum (basierend auf Trainingssprechern) als Punkte dargestellt, wohingegen der neue Sprachdatenpunkt durch einen Stern repräsentiert wird.
Nachdem der neue Datenpunkt im Eigenraum angeordnet wurde, kann er nun in Bezug auf seine Nähe zu anderen älteren Datenpunkten oder Datenverteilungen entsprechend den Trainingssprechern beurteilt werden. Die 4 zeigt ein Beispiel sowohl einer Sprecheridentifikation als auch einer Sprecherverifikation.
Zur Sprecheridentifikation werden die neuen Sprachdaten dem nächstgelegenen Trainingssprecher im Eigenraum zugewiesen, siehe Schritt 62 und in Form eines Diagramms in 64 dargestellt. Das System wird demzufolge den neuen Sprecher als den älteren Trainingssprecher identifizieren, dessen Datenpunkt oder Datenverteilung der neuen Sprache im Eigenraum am nächsten liegt.
Zur Sprecherverifikation testet das System den neuen Datenpunkt in einem Schritt 66, um zu bestimmen, ob der innerhalb eines vorbestimmten Schwellenwertes nahe dem Client-Sprecher im Eigenraum ist. Als Sicherheitseinrichtung kann das System im Schritt 68 die neuen Sprecherdaten zurückweisen, falls sie im Eigenraum näher an einem Betrüger als an dem Client-Sprecher liegen. Dies ist in Form eines Diagramms bei 69 dargestellt, wo die Nähe zu dem Client-Sprecher und die Nähe zu dem nächsten Betrüger eingetragen wurden.
Die maximale Wahrscheinlichkeits-Eigenraum-Dekompositions-Technik (Maximum Likelihood Eigenspace Decomposition (MLED) Technique)
Eine einfache Technik zum Anordnen des neuen Sprechers innerhalb des Eigenraums ist es, eine einfache Projektionsoperation zu verwenden. Eine Projektionsoperation findet den Punkt innerhalb des Eigenraums, der so nah wie möglich an dem Punkt außerhalb des Eigenraums ist, welcher der Eingabesprache des neuen Sprechers entspricht. Es sollte bemerkt werden, dass diese Punkte tatsächlich Supervektoren sind, aus denen ein Satz von HMMs rekonstruiert werden kann.
Die Projektionsoperation ist eine vergleichsweise grobe Technik, die nicht garantiert, dass der Punkt innerhalb des Ei genraums für den neuen Sprecher optimal ist. Weiterhin setzt die Projektionsoperation voraus, dass der Supervektor für den neuen Sprecher einen kompletten Satz von Daten enthält, um den kompletten Satz von HMMs für diesen Sprecher darzustellen. Diese Voraussetzung führt zu einer signifikanten praktischen Einschränkung. Beim Verwenden der Projektion, um einen neuen Sprecher in dem Eigenraum einzuordnen, muss der Sprecher genug Eingabesprache eingeben, so dass alle Spracheinheiten in den Daten repräsentiert sind. Beispielsweise, falls die Hidden-Markov-Modelle konstruiert werden, um alle Phoneme in der englischen Sprache darzustellen, dann muss der Trainingssprecher Beispiele von allen Phonemen eingeben, bevor die einfache Projektionstechnik angewendet werden kann. Bei vielen Anwendungen ist diese Randbedingung einfach nicht praktisch.
Die maximale Wahrscheinlichkeitstechnik der Erfindung betrifft beide der zuvor erwähnten Nachteile der einfachen Projektion. Die maximale Wahrscheinlichkeitstechnik der Erfindung findet einen Punkt innerhalb des Eigenraums, der den Supervektor darstellt, entsprechend einem Satz von Hidden-Markov-Modellen, die eine maximale Wahrscheinlichkeit aufweisen, Sprache zu erzeugen, welche von dem neuen Sprecher eingegeben wurde.
Dort, wo die einfache Projektionsoperation alle Elemente des Supervektors behandelt, als ob sie die gleiche Wichtigkeit aufweisen, ist die maximale Wahrscheinlichkeitstechnik auf Wahrscheinlichkeiten basiert, welche von dem aktuellen Adaptionsdaten herrühren, und daher tendiert sie dazu, die wahrscheinlicheren Daten stärker zu gewichten. Im Gegensatz zur einfachen Projektionstechnik wird die maximale Wahrscheinlichkeitstechnik funktionieren, sogar falls der neue Sprecher nicht einen kompletten Satz von Trainingsdaten eingegeben hat (d.h. Daten für einige der Klangeinheiten fehlen). Tatsächlich berücksichtigt die maximale Wahrscheinlichkeitstechnik den Kontext, in dem die Supervektoren konstruiert werden, nämlich aus Hidden-Markov-Modellen, welche Wahrscheinlichkeiten dafür verwenden, dass bestimmte Modelle eine höhere Wahrscheinlichkeit aufweisen als andere, die durch den neuen Sprecher eingegebene Eingabesprache zu erzeugen.
In der Praxis wird die maximale Wahrscheinlichkeitstechnik den Supervektor innerhalb des Eigenraums auswählen, der die größte Übereinstimmung mit der Eingabesprache des neuen Sprechers aufweist, unabhängig davon, wie viel Eingabesprache aktuell verfügbar ist. Exemplarisch wird angenommen, dass der neue Sprecher eine junge weibliche Einwohnerin aus Alabama ist. Beim Empfang einiger ausgesprochener Silben dieser Sprecherin wird die maximale Wahrscheinlichkeitstechnik einen Punkt innerhalb des Eigenraums auswählen, der alle Phoneme repräsentiert (sogar die, welche noch nicht in der Eingabesprache repräsentiert sind), die in Übereinstimmung mit diesem Alabama-Akzent eines weiblichen Einwohners der Sprecherin sind.
5 zeigt, wie die maximale Wahrscheinlichkeitstechnik arbeitet. Die Eingabesprache von dem neuen Sprecher wird verwendet, um einen Supervektor 70 zu konstruieren. Wie oben beschrieben, umfasst der Supervektor eine konkatinierte Liste von Sprachparametern, die cepstralen Koeffizienten oder Ähnlichem entsprechen. In der gezeigten Ausführungsform sind diese Parameter Fließkommazahlen, welche die aus dem Satz von Hidden-Markov-Modellen extrahierte Gauss-Mittelwerte entsprechend dem neuen Sprecher repräsentieren. Andere HMM-Parameter können auch verwendet werden. In der Illustration sind diese HMM-Mittelwerte als Punkte gezeigt, siehe 72. Wenn der Supervektor komplett mit Daten angefüllt ist, würde er Fließkomma zahlen für jeden der HMM-Mittelwerte entsprechend zu jeder der durch die HMM-Modelle repräsentierten Klangeinheiten enthalten. Für Illustrationszwecke wird hier angenommen, dass die Parameter für Phoneme „ah" vorhanden sind, jedoch Parameter für Phoneme „iy" fehlen.
Der Eigenraum 38 wird durch einen Satz von Eigenvektoren 74, 76 und 78 repräsentiert. Der den Beobachtungsdaten von dem neuen Sprecher entsprechende Supervektor 70 kann im Eigenraum repräsentiert werden durch Multiplizieren jeder der Eigenvektoren mit einem entsprechenden Eigenwert, die als W₁, W₂ ... W_n bezeichnet werden. Diese Eigenwerte sind zu Beginn unbekannt. Die maximale Wahrscheinlichkeitstechnik findet Werte für diese unbekannten Eigenwerte. Wie vollständiger erklärt werden wird, werden diese Werte durch Suchen der optimalen Lösung ausgewählt, welche den neuen Sprecher innerhalb des Eigenraums am besten abbildet.
Nach Multiplizieren der Eigenwerte mit den entsprechenden Eigenvektoren des Eigenraums 38 und Aufsummieren der resultierenden Produkte wird ein adaptiertes Modell 80 erzeugt. Während der Supervektor der Eingabesprache (Supervektor 70) einige fehlende Parameterwerte umfasst haben könnte (beispielsweise die „iy"-Werte), ist der das adaptierte Modell abbildende Supervektor 80 komplett mit Werten besetzt. Dies ist einer der Vorteile der Erfindung. Weiterhin stellen die Werte im Supervektor 80 die optimale Lösung dar, nämlich die, welche die maximale Wahrscheinlichkeit dafür aufweist, den neuen Sprecher im Eigenraum abzubilden.
Die individuellen Eigenwerte W₁, W₂ ... W_n können als einen maximalen Wahrscheinlichkeitsvektor umfassend betrachtet werden, der hierin als maximaler Wahrscheinlichkeitsvektor bezeichnet wird. Die 5 zeigt den Vektor in Form eines Diagramms bei 82. Wie die Abbildung zeigt, umfasst der maximale Wahrscheinlichkeitsvektor 82 den Satz von Eigenwerten W₁, W₂ ... W_n.
Das Verfahren zum Ausführen der Adaption unter Verwendung der maximalen Wahrscheinlichkeitstechnik ist in 6 gezeigt. Eine die Observationsdaten umfassende Sprache von einem neuen Sprecher wird verwendet, um einen Satz von HMMs zu erzeugen, wie bei 100 gezeigt. Der Satz von HMMs 102 wird darauffolgend beim Konstruieren eines Supervektors verwendet, wie bei 104 gezeigt. Wie gezeigt, umfasst der Supervektor 106 eine konkatinierte Liste von HMM-Parametern, welche von den HMM-Modellen 102 extrahiert sind.
Unter Verwendung des Supervektors 106 wird bei 108 eine Wahrscheinlichkeitsfunktion Q konstruiert. Die momentan bevorzugte Ausführungsform verwendet eine Wahrscheinlichkeitsfunktion, welche die Wahrscheinlichkeit des Erzeugens der beobachteten Daten für den zuvor definierten Satz von HMM-Modellen 102 repräsentiert. Eine nachfolgende Manipulation der Wahrscheinlichkeitsfunktion Q wird vereinfacht, falls die Funktion nicht nur einen Wahrscheinlichkeitsterm P enthält, sondern auch den Logarithmus dieses Terms log P.
Die Wahrscheinlichkeitsfunktion wird dann im Schritt 110 maximiert durch Verwenden der Ableitungen der Wahrscheinlichkeitsfunktion jeweils nach jedem der Eigenwerte W₁, W₂ ... W_n. Falls beispielsweise der Eigenraum die Dimension 100 aufweist, berechnet dieses System 100 Ableitungen der Wahrscheinlichkeitsfunktion Q, welche jeweils zu Null gesetzt werden und für das jeweilige W gelöst werden. Während dies wie eine große Rechnung aussieht, stellt es einen weit geringeren Berechnungsaufwand dar, als das Ausführen von Tausenden von Berechnungen, welche üblicherweise bei herkömmlichen MAP- oder MLLR-Techniken benötigt werden.
Der resultierende Satz von Ws, welche so erhalten werden, stellt die Eigenwerte dar, welche benötigt werden, um den Punkt im Eigenraum entsprechend dem Punkt der maximalen Wahrscheinlichkeit zu identifizieren. Daher umfasst der Satz von Ws einen maximalen Wahrscheinlichkeitsvektor im Eigenraum. In dieser Hinsicht definiert jeder der Eigenvektoren (Eigenvektoren 74, 76 und 78 in 5) einen Satz von orthogonalen Vektoren oder Koordinaten, mit denen die Eigenwerte multipliziert werden, um einen Punkt zu definieren, welcher innerhalb des Eigenraums liegt. Dieser maximale Wahrscheinlichkeitsvektor, welcher bei 112 gezeigt ist, wird verwendet, um einen dem optimalen Punkt im Eigenraum entsprechenden Supervektor 114 zu konstruieren (Punkt 66 in 4). Der Supervektor 114 kann dann im Schritt 116 verwendet werden, um das adaptierte Modell 118 für den neuen Sprecher zu konstruieren.
In dem Kontext des maximalen Wahrscheinlichkeitsrahmens der Erfindung wünschen wir, die Wahrscheinlichkeit einer Beobachtung O = o₁ ..o_T in Bezug auf das Modell λ zu maximieren. Dies kann durch iteratives Maximieren der Hilfsfunktion Q (siehe unten) ausgeführt werden, wobei λ das betrachtete Modell bei der Iteration und λ ^ das geschätzte Modell ist. Wir haben:
Als eine vorläufige Näherung könnten wir eine Maximierung lediglich in Bezug auf die Mittelwerte ausführen wollen. In dem Kontext, bei dem die Wahrscheinlichkeit P durch einen Satz von HMMs gegeben ist, erhalten wir die folgende Formel:
wobei: h(ot, m, s) = (ot – μ ^m (s))TCm (s)–1(ot – μ ^m (s))und wobei:

o_t: ist der Merkmalsvektor zur Zeit t
C_m ^(s)–1: ist die inverse Kovarianz für eine gemischte Gauss-Funktion m beim Zustand s
μ ^_m ^(s): ist der genäherte adaptierte Mittelwert für den Zustand s und die Mischkomponente m
γ_m ^(s)(t): ist P (unter Verwendung der gemischten Gaussfunktion m |γ, o_t)

Es wird angenommen, dass die Gausschen Mittelwerte für die HMMs des neuen Sprechers im Eigenraum angeordnet sind. Dieser Raum wird aufgespannt durch die Mittelwertesupervektoren μ _j mit j = 1 ... E,
wobei μ _m ^(x)(j) den Mittelwertevektor für die Misch-Gauss-Funktion m im Zustand s des Eigenvektors (Eigenmodells) j darstellt.
Dann benötigen wir:
Die μ _j sind orthogonal und die w_j sind die Eigenwerte unseres Sprechermodells. Wir nehmen hier an, dass jeder beliebige neue Sprecher als eine lineare Kombination aus unserer Datenbasis von beobachtenden Sprechern modelliert werden kann. Dann ist
wobei s Zustände von λ sind und m Misch-Gauss-Funktionen von M.
Da wir Q maximieren müssen, müssen wir lediglich anschreiben
(wobei anzumerken ist, dass aufgrund der Orthogonalität der Eigenvektoren gilt:
Dabei erhalten wir
(„states in λ" = Zustände in λ; „mixt. gauss in S" = Misch-Gauss-Funktionen in s)
Beim Berechnen der obigen Ableitung erhalten wir:
woraus wir den folgenden Satz von linearen Gleichungen erhalten:
Ermitteln der Nähe im Eigenraum
Wenn Sprecher als Punkte im Eigenraum dargestellt werden, kann eine einfache geometrische Abstandsberechnung verwendet werden, um herauszufinden, welcher Trainingsdatensprecher dem neuen Sprecher am nächsten liegt. Wenn Sprecher als Verteilungen im Eigenraum abgebildet werden, wird die Nähe durch Behandeln der neuen Sprecherdaten als eine Beobachtung O und durch nachfolgendes Testen jedes Verteilungskandidaten (welcher die Trainingssprecher darstellt) ermittelt, um zu bestimmen, wie groß die Wahrscheinlichkeit ist, dass der Kandidat die Beobachtungsdaten erzeugt hat. Der Kandidat mit der größten Wahrscheinlichkeit wird als die größte Nähe aufwei send festgesetzt. In einigen Hochsicherheitsanwendungen kann es wünschenswert sein, eine Verifikation zu versagen, falls der Kandidat mit der größten Wahrscheinlichkeit eine Wahrscheinlichkeitspunktzahl unter einem zuvor festgelegten Schwellenwert aufweist. Eine Kostenfunktion kann verwendet werden, um so Kandidaten auszusortieren, welche nicht einen hohen Grad an Bestimmtheit aufweisen.
Das Feststellen der Nähe des neuen Sprechers zu den Trainingssprechern kann wie oben beschrieben vollständig innerhalb des Eigenraums ausgeführt werden. Alternativ kann eine Bayesian-Näherungstechnik für eine noch größere Genauigkeit verwendet werden.
Um die Nähefeststellung unter Verwendung der Bayesian-Näherung zu verbessern, werden die Gauss-Dichten der Trainingssprecher innerhalb des Eigenraums mit den abgeschätzten marginalen Dichten in dem orthogonal vervollständigten Raum multipliziert, welcher die Sprecherdaten abbildet, die durch eine Dimensionalitätsreduktion verworfen wurden. In dieser Hinsicht sollte angemerkt werden, dass das Ausführen der Dimensionalitätsreduktion bei den Sprechermodell-Supervektoren zu einer signifikanten Datenkompression von einem hochdimensionalen Raum zu einem niederdimensionalen Raum führt. Obwohl die Dimensionalitätsreduktion die wichtigsten Basisvektoren enthält, werden einige Informationen höherer Ordnung verworfen. Die Bayesian-Abschätzungstechnik schätzt eine marginale Gauss-Dichte ab, welche dieser verworfenen Information entspricht.
Zu Illustrationszwecken wird angenommen, dass der originale Eigenraum durch eine lineare Transformation der Supervektoren durch einen Dimensionalitätsreduktionsprozess konstruiert wird, wobei M Komponenten aus der größeren Anzahl N aller Komponenten extrahiert werden. Die kleineren extrahierten M Komponenten stellen einen Unterraum niederer Dimensionalität der Transformationsbasis dar, welche den maximalen Eigenwerten entsprechen. Daher wird der Eigenraum durch die Komponenten i = 1 ... M definiert, während die verworfenen unbedeutenderen Komponenten i = M + 1 ... N entsprechen. Diese zwei Sätze von Komponenten definieren gegenseitig ausschließende und ergänzende Unterräume, wobei der Hauptunterraum den interessierenden Eigenraum darstellt und wobei seine orthogonalen Komponenten die Daten darstellen, welche durch die Dimensionalitätsreduktion verworfen wurden.
Wir können die Wahrscheinlichkeit als das Produkt der Gaussschen Dichten in diesen zwei jeweilig orthogonalen Räumen durch die folgende Gleichung abschätzen: P ^(x|Ω) = PE(x|Ω)·PE(x|Ω)
In der obigen Gleichung stellt der erste Term die einfache Gausssche Dichte im Eigenraum E dar, wobei der zweite Term die einfache Gausssche Verteilung in dem Raum ist, welcher orthogonal zu dem Eigenraum ist. Es stellt sich heraus, dass beide Terme vollständig aus dem Satz von Trainingsdatenvektoren abgeschätzt werden können, wobei lediglich die Projektionen in den Eigenraum und die Residuen verwendet werden.
Weitere Beispiele
In den obigen Beispielen wurde Sprache mit Hidden-Markov-Modellen (HMMs) abgebildet. Hidden-Markov-Modelle sind heutzutage in beliebter Verwendung bei vielen Spracherkennern und sie können daher zu Sprecherverifikations- und Sprecheridentifikations-Zwecken ebenfalls verwendet werden. Die Techniken der vorliegenden Erfindung sind jedoch nicht auf die Verwen dung von Hidden-Markov-Modellen beschränkt. Beispielsweise kann ein nützliches und effektives System zur Sprecherverifikation und/oder Sprecheridentifikation unter Verwendung von Gauss-Misch-Modellen (Gaussian Mixture Modells, GMMs) implementiert werden. Gauss-Misch-Modelle sind Modelle mit einem einzelnen Zustand, welche mit Text-unabhängigen oder Text-abhängigen Trainingsdaten trainiert werden können. Im Vergleich umfassen typische Hidden-Markov-Modelle mehrere Zustände und werden mit Sprachdaten trainiert, welche entsprechend dem für die Trainingsdaten verwendeten Text gekennzeichnet wurden. Die Gauss-Misch-Modelle können daher als ein spezieller Fall von Hidden-Markov-Modellen angesehen werden, bei welchen nur ein einzelner Zustand verwendet wird und bei denen die Trainingsdaten nicht gekennzeichnet sein müssen.
Das Gauss-Misch-Modell (GMM) kann zu Sprecheridentifikations- und Sprecherverifikations-Zwecken verwendet werden durch Festlegen einzelner Gauss-Komponenten, so dass sie breite akustische Klassen darstellen. Diese Klassen können allgemeine Sprecher-abhängige Vokaltraktkonfigurationen darstellen, die beim Modellieren der Sprecheridentität hilfreich sind. Die Gauss-Misch-Dichten bieten eine elegante Näherung für die zugrundeliegenden langfristigen Beispielverteilungen der Beobachtungen, welche von Äußerungen eines gegebenen Sprechers erhalten wurden. Siehe auch Reynolds, D. A., „Speaker Identification and Verification Using Gaussian Mixture Speaker Models", Speech Communication, Vol. 17, Seiten 91–108, 1995.
Eine Gauss-Misch-Dichte ist eine gewichtete Summe von M Komponentendichten und wird durch die folgende Gleichung ausgedrückt
wobei x ein D-dimensionaler Vektor ist,
i = 1, ..., M die Komponentendichten sind und
p_i, i = 1, ..., M die Misch-Gewichte sind.
Jede Komponentendichte ist eine D-variierte Gauss-Funktion der Form
mit dem Mittelvektor μ_i, und der Kovarianz-Matrix Σ_i. Die Misch-Gewichte erfüllen weiterhin die Randbedingung:
Die komplette GM-Dichte wird durch den Mittelwertvektor, die Kovarianz-Matrizen und die Misch-Gewichte aus allen Komponentendichten parametrisiert. λ = {pi, ui, Σi}, i = 1, ..., M
Weiterhin wird klar sein, dass, während HMMs und GMMs hier dargestellt wurden, andere Typen von Sprachmodellen ebenso verwendet werden können. Die besten Modelle für diesen Zweck sind solche, die numerisch ausgedrückt werden, beispielsweise als Fließkommazahlen, so dass ein Sprecherraum mathematisch definiert werden kann. Zu Illustrationszwecken wurde ein GMM-Modell 120 in 7 dargestellt.
In den zuvor dargestellten Beispielen wurde der Sprecherraum als eine lineare Kombination von Eigenstimmen dargestellt. Die Techniken der vorliegenden Erfindung sind jedoch nicht auf einen Sprecherraum dieses Typs begrenzt. Allgemein ist der Sprecherraum ein Satz von mathematischen Randbedingungen, welcher aus einem Satz von Trainingssprechern abgeleitet wird und welcher eine A-Priori-Wissensbasis darstellt, die durch neue Sprecher erfüllt werden muss. Neben dem Eigenstimmen-basierten Sprecherraum umfassen andere Ansätze (sind jedoch nicht darauf begrenzt) „Referenzsprechergewichtung („Reference Speakter Weighting", siehe Hazen, T. J. un Glass, J. R., „A Comparison of Novel Techniques for Instanteneous Speaker Adaption", Eurospeech Proceedings, S. 2047–50, 1997) und Sprecher-Clusterbildung (siehe Kosaka, T. und Sagayama, S., „Tree-Structrued Speaker Clustering for Fast Speaker Adaption", ICASSP S. I-245 bis I-248, 1994).
Die 8 zeigt, dass auch Alternativen existieren zum Konstruieren des Sprecherraums, welcher die Registriersprache in dem Sprecherraum darstellt, und Feststellen, ob der Testsprecher einer der Client-Sprecher ist. Zu Beginn betrifft eine wichtige Überlegung beim Konstruieren des Sprecherraums die Auswahl der Trainingssprecher 122. Während Client-Sprecher 124 verwendet werden können, um die Trainingsdaten 22 zu sammeln, können bestimmte Vorteile damit verbunden sein, eine zweite Gruppe von Personen als Trainingssprecher 122 zu verwenden. Beispielsweise erlaubt dieser Ansatz den Trainingssprechern 122 beliebig groß zu sein und wird üblicherweise diversifizierte Trainingsdaten ermöglichen. Beispielsweise können bezahlte Personen zuvor aus einer sehr viel größeren Population ausgewählt werden als der Client-Sprecher- Population. Die ausgewählte Population von Trainingssprechern kann einen bestimmten Bezug zu der durch die Client-Sprecher 124 definierten Population aufweisen (eine andere als ihre Fähigkeit, zu sprechen). Diese Trainingssprecher würden jeweils ein vergleichsweise großes Beispiel von Trainingssprache bereitstellen. Dies würde die Konstruktion eines sehr viel stärker diversifizierten Sprecherraumes basierend auf vergleichsweise gut trainierten Sprachmodellen ermöglichen und würde eine signifikante Reduktion der von den Client-Sprechern 124 benötigten Datenmenge ermöglichen. Daher würde für den Client-Registrierschritt lediglich wenige Sekunden von Sprache von jedem Client benötigt werden, im Gegensatz zu einigen Minuten von Sprache. Dies ist ein Schlüsselvorteil des Sprecherraumansatzes.
Ein Schritt 132 zeigt den Prozess des Trainierens des Sprecherraums. Wie oben diskutiert, kann das Ergebnis ein Satz von entweder (vorzugsweise Text-unabhängigen) GMM-Sprachmodellen, wie bei 126 gezeigt, oder Text-abhängigen Sprachmodellen, wie oben beschrieben, sein. Obwohl Gauss-Misch-Modelle hier dargestellt wurden, ist die Erfindung nicht auf Gauss-Misch-Modelle (oder Hidden-Markov-Modelle in diesem Fall) beschränkt. Vielmehr kann jedes beliebige Sprachmodell verwendet werden, welches für Konkatenation geeignete Parameter aufweist.
Die Sprachmodelle können optional fein abgestimmt oder angepasst sein, um Unterschiede zwischen der Umgebung, welche während dem Training verwendet wurde, und der Umgebung, welche während einer nachfolgenden Verwendung zur Sprecherverifikation und/oder Sprecheridentifikation verwendet werden wird, zu berücksichtigen. Üblicherweise werden die Trainingsdaten unter kontrollierten Bedingungen (bekannte Hintergrundgeräusch-Qualitäten, standardisierte Mikrofone und standardi sierte Signalverarbeitungsausrüstung, kontrollierte Mikrofonanordnung, etc.) gesammelt werden. Bei der Verwendung kann das System beispielsweise in einer Büroumgebung verwendet werden, wo die Umgebungsbedingungen ziemlich unterschiedlich sind gegenüber denen der Trainingsumgebung. Um eine solche Veränderung zu berücksichtigen, kann ein Umgebungsadaptionsprozess verwendet werden, um die Trainingssprechermodelle für ihre spezifische Verwendung in einer gegebenen Umgebung zu verbessern. Eine MLLR-Adaption kann für diesen Zweck verwendet werden. Andere bekannte Adaptionstechniken können ebenso verwendet werden.
In der momentan bevorzugten Ausführungsform werden Modelle für jeden Sprecher verwendet, um einen Supervektor zu erzeugen. Der Supervektor kann durch Konkatenieren der Parameter des Modells für jeden Sprecher gebildet werden. Dort, wo Gauss-Misch-Modelle verwendet werden, können die Fließkommazahlen, welche verwendet werden, um die Gaussschen Mischwerte darzustellen, für jeden Sprecher konkateniert werden.
Nach Konstruieren der Supervektoren wird eine Technik angewendet, welche die Anzahl der Freiheitsgrade in einem Sprachmodell für einen bestimmten Sprecher reduziert. Solche Techniken arbeiten mit Trainingssprecherdaten, um einen Sprecherraum mit reduzierter Dimensionalität zu erzeugen. Während jede beliebige solcher Techniken verwendet werden kann, wird hier die lineare Diskriminantenanalyse (LDA) gezeigt und momentan bevorzugt. Daher verwendet der Schritt 132 zusätzlich zu den Supervektoren global innerhalb des Sprechers liegende Streumatrixdaten 130. Dies ist bemerkenswert, da dieser Typ von Daten allgemein nicht Teil eines Sprecher-abhängigen Modells eines Sprechers ist.
Nachdem eine Technik, wie beispielsweise PCA oder LDA, einen anfänglichen Satz von Basisvektoren 134 erzeugt hat, kann ein optionaler Schritt 136 zum Wiederbestimmen des Sprecherraums ausgeführt werden. Hier kann eine Technik, wie beispielsweise MLES, die Basisvektoren 134 im Raum drehen, so dass die Wahrscheinlichkeit der Trainingsdaten entsprechend den Trainingssprechermodellen in dem Raum maximiert wird. Das Ergebnis würde ein verbesserter Satz von Basisvektoren 138 sein. Einzelheiten der MLES-Technik sind unten angegeben.
Nachdem der Sprecherraum erzeugt wurde, kann das System verwendet werden, um einen oder mehrere Client-Sprecher zu registrieren, so dass eine Sprecheridentifikation und/oder eine Sprecherverifikation in Bezug auf diese Client-Sprecher ausgeführt werden kann. Die Registrierung wird im Schritt 140 durchgeführt, bei dem jeder Client-Sprecher im Sprecherraum basierend auf einer kurzen Äußerung von Registriersprache repräsentiert wird. Dies wird ausgeführt durch Trainieren eines Registriersprachmodells auf die Registriersprache von dem Client-Sprecher (möglichst nur wenige Worte) und anschließendes Anordnen des Client-Sprechers in dem Sprecherraum durch MLED oder. eine Projektion, wie oben beschrieben. Falls gewünscht, können Sprecher- oder Umgebungs-Adaptionstechniken, wie beispielsweise MLLR, verwendet werden, um die Sprachmodelle eines oder mehrerer Client-Sprecher zu verbessern, oder um den Sprecherraum wieder abzuschätzen, so dass er die neue Umgebung besser modelliert (d.h. die Umgebung in welcher der Client-Sprecher aufgenommen wurde).
An dieser Stelle kann die Leistungsfähigkeit des Sprecherraums besser verstanden werden. Wenn der Client-Sprecher ein sehr kurzes Sprachbeispiel bereitstellt, kann es sein, dass nicht genug Daten vorhanden sind, um ein vollständiges Sprechermodell für diesen Sprecher zu konstruieren. Dennoch wird durch das Anordnen des partiellen Modells in dem Sprecherraum an seiner geeigneten Stelle, wie durch die MLED-Prozedur (oder durch eine Projektion) vorgegeben, der Sprecherraum die Details auffüllen, wobei ermöglicht wird, dass ein komplettes Sprachmodell für diesen Sprecher später erzeugt werden kann.
Nachdem der Sprecherraum erzeugt wurde und alle Client-Sprecher registriert wurden, ist das System bereit zur Verwendung. Um eine Sprecherverifikation oder Sprecheridentifikation an einem Testsprecher auszuführen, wird ein Sprachbeispiel unter Verwendung des Client-besetzten Sprecherraums von dem Sprecher aufgenommen und eingeordnet. In den vorstehenden Beispielen wurden die Sprecherverifikation und Sprecheridentifikation durch Anordnen der Sprache des Testsprechers in dem Sprecherraum durchgeführt, um durch eine geeignete Abstandsmessung zu bestimmen, welcher Client-Sprecher dem Testsprecher am nächsten ist. Im Folgenden wird eine alternative Technik beschrieben.
Anstelle des Anordnens des Testsprechers in dem Sprecherraum expandiert die alternative Technik die Client-Sprecher-Vektorpunkte innerhalb des Sprecherraums zurück zu kompletten Sprachmodellen. Nochmals anzumerken ist, dass, sogar obwohl die anfängliche Client-Registriersprache sehr kurz war (was sehr leicht zu nichtkompletten Sprachmodellen führen kann), die Punkte in dem Sprecherraum komplette Sprachmodelle erzeugen werden. Dies ist so, da der originale Sprecherraum eine große Menge von A-Priori-Wissen über die Merkmale von menschlicher Sprache enthält. Mit anderen Worten, nur ein paar gesprochene Worte von einem Client-Sprecher sind ausreichend, um den Client-Sprecher in dem Sprecherraum anzuordnen, wo ein vollständiges und komplettes Sprachmodell abgeleitet werden kann.
Bei der alternativen Technik wird jeder Client-Sprecher-Punkt innerhalb des Sprecherraums verwendet, um sein entsprechendes komplettes Sprachmodell zu erzeugen. Dann wird jedem der Client-Sprecher-Modelle Sprache von dem Testsprecher gegenübergestellt. Das Client-Modell mit der größten Wahrscheinlichkeit zum Erzeugen der Testsprache wird dann zu Sprecheridentifikations- und/oder Sprecherverifikations-Zwecken verwendet.
Die Expansion der Position des Client-Sprechers in Sprecherraumvektoren zurück zu Sprachmodellen ist in einem Schritt 144 in 8 gezeigt. Im Einzelnen werden die entsprechenden kompletten Sprachmodelle 146 aus ihren Positionen in dem Sprecherraum 142 erzeugt. Diese Modelle werden dann zur nachfolgenden Sprecherverifikation und/oder Sprecheridentifikation verwendet. Jedes der Modelle wird gegenüber den durch einen Testsprecher (Benutzer des Systems) bereitgestellten Testsprachdaten getestet. Das Modell mit der größten Wahrscheinlichkeit zum Erzeugen der Testsprache wird für nachfolgende Sprecherverifikations- und Sprecheridentifikations-Zwecke verwendet. Die 9 zeigt in Form eines Diagramms den Prozess, bei dem Sprechermodelle 146 verwendet werden, um Testsprache zu bestimmen. Beim Schritt 148 werden durch (einen) Testsprecher 150 bereitgestellte Sprachdaten an die statistischen Client-Sprecher-Modelle 146 als Teil einer Wahrscheinlichkeitsanalyse weitergegeben. Jeder Testsprecher wird dem Client zugeordnet, der die größte Wahrscheinlichkeit dafür liefert, dass er die Sprache von ihm oder ihr erzeugt; alternativ kann der Testsprecher als ein Betrüger klassifiziert werden. Daher tritt die endgültige Festlegung nicht im Sprecherraum, sondern im Modellraum auf.
Es ist auch wichtig zu bemerken, dass der Sprecherraum angepasst werden kann, wenn neue Sprache während einer Client- Registrierung erhalten wird. In dem Fall, bei dem die Client-Umgebung von der Original-Trainingsumgebung unterschiedlich sein wird (wie es oft der Fall sein wird), kann eine Umgebungsadaption ausgeführt werden. Beispielsweise, da die trainingsabgeleiteten Sprecherräume Modelle erzeugen, welche einer Inter-Sprecher-Variabilität repräsentieren oder ausdrücken, können diese Modelle verwendet werden, um eine Umgebungsabweichungsfunktion abzuschätzen, und um diese Funktion auf den Sprecherraum anzuwenden (d.h. als eine lineare Transformation). Dies würde verhindern, dass unwichtige Merkmale der Testumgebung die Sprecherverifikation und Sprecheridentifikation stören.
Registrierung von schwierigen Client-Sprechern
Obwohl die vorliegende Erfindung allgemein sehr wenig Registriersprache benötigt, kann es vorteilhaft für die Gesamtleistung sein, eine Minderheit von problembehafteten (d.h. variablen) Clients nach mehr Registrierdaten zu fragen. Dies wird getan, da es in der Praxis üblicherweise einen kleinen Satz von bestimmten Client-Sprechern gibt, der die meisten der Fehlidentifikationen auslöst. In dem vorliegenden Ansatz werden diese Clients identifiziert, während sie sich registrieren und mehr Sprache wird von diesen Clients benötigt. Mit anderen Worten kann das Registriersprachmodell leicht mit zusätzlicher Sprache von dem Client-Sprecher trainiert werden, wenn die Registriersprache zuvor festgelegte Bedingungen erfüllt. Beispielsweise zeigt die 10, dass die zuvor festgelegten Bedingungen festgelegt sein können, so dass sie einschließen, dass der Ort einer ersten Äußerung in dem Sprecherraum in einem zuvor festgelegten Abstand von dem Ort einer zweiten Äußerung in dem Sprecherraum entfernt ist. Falls der Durchschnitt des Sprecherabstandes größer ist als der Durchschnitt der zwei Orte, wird der in Frage kommende Client daher um mehr Registrierdaten gefragt. Wie in 11 gezeigt, können die zuvor festgelegten Bedingungen auch definiert sein, so dass sie einschließen, dass der erste Ort in einem Bereich des Sprecherraums angeordnet ist, der eine zuvor festgelegte Dichte aufweist (d.h. einem „starkbevölkerten" Bereich). In diesem Fall erlaubt ein Ansatz, wie beispielsweise MLED, eine Vorinformation über die Verteilung von Sprechern in dem Sprecherraum, die zu berücksichtigen ist. Diese Verteilung kann aus den Trainingsdaten oder aus den Registrierdaten abgeschätzt werden.
MLES-Sprecherraum-Wiederabschätzung
Wie zuvor gezeigt, begrenzt die Sprecherraumtechnik die Sprechermodelle auf einen sehr niedrig dimensionalen linearen Vektorraum, welcher der Sprecherraum genannt wird. Dieser Sprecherraum fasst ein A-Priori-Wissen über die während des anfänglichen Systemtrainings erhaltenen Sprechermodelle zusammen. Während der Sprecherraum in seiner anfänglich erzeugten Form als ein leistungsfähiges Werkzeug zur Sprecheridentifikation und Sprecherverifikation dienen wird, wie oben beschrieben, sind zusätzliche Verbesserungen an dem Sprecherraum durch eine Technik möglich, die Maximal-Wahrscheinlichkeits-Eigenraum (Maximum-Likelihood Eigenspace, MLES) genannt wird. Das MLES-Verfahren führt eine Wiederabschätzung an den Trainingsdaten aus. Es führt dazu, dass die Vektoren innerhalb des Sprecherraumes gedreht werden, so dass die Wahrscheinlichkeit der Trainingsdaten entsprechend den Trainingssprechermodellen in dem Raum maximiert wird. Die MLES-Technik startet durch Integrieren von Werten als versteckte Daten in dem Abschätzungsproblem; dies ergibt:
wobei P_o(w, q) Anfangsinformationen über einen Sprecher q enthält (beispielsweise die Wahrscheinlichkeit, dass eine Person eines bestimmten Dialekts oder Geschlechts auftritt). Sie wird umfassend verwendet für nichtausbalancierte Sätze von Sprechern. Beispielsweise können wir für ein gegebenes k schreiben
Keimsprecherstimmen können durch PCA, lineare Diskriminanten-Analyse (LDA) oder Cluster-Bildung von Sprechern erhalten werden oder können als ein Satz von Sprecher-abhägigen Modellen vorgegeben sein. Wenn kein bestimmtes Wissen über w_k bekannt ist, benutzen wir MLED, um den Integrationsoperator durch einen Maximumoperator zu ersetzen.
Die Wiederabschätzungsformel ist relativ leicht abzuleiten
wobei q, m, e einen Sprecher, eine Verteilung und einen Sprecherraumbasisvektor repräsentieren. L_Q ist die spätere Wahrscheinlichkeit der Äußerungen O^(q) des Sprechers, L_Q, γ_m(t) ist die beobachtete spätere Wahrscheinlichkeit. w_q ^(e) ist die momentane Abschätzung der e-ten Koordinate des Sprechers q. Schließlich ist μ_q ^–(m) das Komplement des abgeschätzten Mittelwerts, d.h.
Aus dem vorstehenden wird klar sein, dass die Erfindung leistungsfähige Techniken zum Durchführen einer Sprecherverifikation und/oder Sprecheridentifikation bereitstellt. Während verschiedene Beispiele hier dargestellt wurden, wird der betreffende Fachmann verstehen, dass zahlreiche Variationen innerhalb des Umfangs der beiliegenden Ansprüche möglich sind.

Claims

Verfahren zum Beurteilen von Sprache hinsichtlich eines vorbestimmten Client-Sprechers (124), wobei das Verfahren die Schritte umfasst: Trainieren einer Menge von Sprachmodellen (126) an der Sprache (22) von einer Mehrzahl an Trainingssprechern (122), wobei die Mehrzahl von Trainingssprechern den Client-Sprecher nicht umfasst; Generieren von Basisvektoren (134), die einen Sprecherraum (142) aus der Menge von Sprachmodellen (126) definieren, um die Mehrzahl an Trainingssprechern darzustellen (122); Darstellen einer Registriersprache des Client-Sprechers (124) als einen ersten Ort im Sprecherraum (142); gekennzeichnet durch Generieren eines probabilistischen Sprachmodells (146) von dem ersten Ort; Bestimmen im Modellraum, ob ein neuer Sprecher (150) der Client-Sprecher (124) ist, durch Beurteilen einer Wahrscheinlichkeit, dass Sprachdaten des neuen Sprechers durch das probabilistische Sprachmodell (164) generiert sind und Verwenden der Beurteilung als ein Hinweis darauf, ob der neue Sprecher (150) der Client-Sprecher (124) ist.
Verfahren des Anspruchs 1, das außerdem die Schritte umfasst: Trainieren eines Registriersprache-Modells an der Registriersprache von dem Client-Sprecher; und Generieren einer Darstellung des Client-Sprechers als den ersten Ort in dem Sprecherraum.
Verfahren des Anspruchs 2, das außerdem den Schritt umfasst: Trainieren des Registriersprache-Modells an zusätzlicher Sprache von dem Client-Sprecher, wenn die Registriersprache vorbestimmte Bedingungen erfüllt.
Verfahren des Anspruchs 3, wobei die Registriersprache eine erste Äußerung und eine zweite Äußerung umfasst und das Verfahren außerdem den Schritt umfasst: Definieren vorbestimmter Bedingungen, so dass sie einschließen, dass der Ort der ersten Äußerung in dem Sprecherraum einen vorbestimmten Abstand zu dem Ort der zweiten Äußerung in dem Sprecherraum aufweist.
Verfahren des Anspruchs 3, das außerdem den Schritt umfasst: Definieren der vorbestimmten Bedingungen, so dass sie einschließen, dass der erste Ort in einer Fläche des Sprecherraums positioniert ist, die eine vorbestimmte Dichte aufweist.
Verfahren des Anspruchs 1, das außerdem den Schritt umfasst: Trainieren einer Menge von textunabhängigen Sprachmodellen.
Verfahren des Anspruchs 1, das außerdem den Schritt umfasst: Trainieren einer Menge von textabhängigen Sprachmodellen.
Verfahren des Anspruchs 1, das außerdem die Schritte umfasst: Erhalten eines sprecherabhängigen Supervektors für jeden Trainingssprecher; und Generieren eines Sprecherraumes, der eine niedrigere Dimensionalität aufweist als die auf den sprecherabhängigen Supervektoren basierenden Sprachmodelle.
Verfahren des Anspruchs 8, das außerdem die Schritte umfasst: Erhalten globaler Sprecher-immanenter Streuungs-Matrixdaten; und Ausführen einer Dimensionalitätsreduktion basierend auf den Matrixdaten.
Verfahren des Anspruchs 1, das außerdem den Schritt umfasst: Wiederabschätzen des Sprecherraumes.
Verfahren des Anspruchs 1, das außerdem den Schritt umfasst: Anpassen des Sprecherraumes basierend auf Informationen, die eine Client-Registrier-Umgebung berücksichtigen.
Verfahren des Anspruchs 1, das außerdem den Schritt umfasst: Konstruieren des Sprecherraumes durch Reduzieren der Anzahl von Freiheitsgraden für jedes Trainingssprecher-Sprachmodell.
Verfahren des Anspruchs 1, das außerdem den Schritt umfasst: Ausführen einer Sprecheridentifikation.
Verfahren des Anspruchs 1, das außerdem den Schritt umfasst: Ausführen einer Sprecherverifikation durch Entscheiden, ob der neue Sprecher der Clientsprecher oder ein Betrüger ist.