DE69914839T2

DE69914839T2 - Sprecherverifikation und -erkennung mittels Eigenstimmen

Info

Publication number: DE69914839T2
Application number: DE69914839T
Authority: DE
Inventors: Roland Santa Barbara Kuhn; Robert Thousand Oaks Bowman; Patrick CH-1027 Nguyen; Jean-Claude Santa Barbara Junqua
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1998-09-04
Filing date: 1999-08-23
Publication date: 2005-01-05
Anticipated expiration: 2019-08-24
Also published as: EP0984431B1; CN1188828C; EP0984431A3; EP0984431A2; CN1247363A; US6697778B1; US6141644A; DE69914839D1; JP2000081894A; ES2214815T3; TW448416B

Description

Hintergrund und Zusammenfassung der Erfindung
Die vorliegende Erfindung bezieht sich allgemein auf Sprachtechnologie und, insbesondere, auf ein System und Verfahren zur Durchführung von Sprecherverifikation oder -erkennung.
Das Problem der Authentifizierung ist der wahre Kern fast jeder Transaktion. Millionen Leute führen vertrauliche finanzielle Transaktionen über das Telefon, wie beispielsweise Zugriff auf ihre Bankkonten oder Verwenden ihrer Kreditkarten, durch. Authentifizierung unter momentaner Praxis ist alles andere als narrensicher. Die Parteien tauschen eine Form von wahrscheinlich geheimer Information, wie beispielsweise die Sozialversicherungsnummer, den Mädchennamen der Mutter oder dergleichen aus. Klar, solche Information kann geraubt werden, was zu falscher Authentifizierung führt.
Ein Gesichtspunkt der vorliegenden Erfindung geht das vorgenannte Problem durch Bereitstellen eines Systems und Verfahrens zur Durchführung von Sprecherverifikation an. Sprecherverifikation involviert Bestimmen, ob eine Stimme einem gewissen Sprecher (hierin der "Kunde" genannt) oder einem Impostor (jemand anderer als der Kunde) gehört.
Irgendwie ist das Problem der Sprecherverifikation mit dem Problem der Sprechererkennung verbunden. Sprechererkennung involviert die Abgleichung einer gegebenen Stimme mit einer Gruppe bekannter Stimmen. Wie die Sprecherverifikation, hat Sprechererkennung eine Reihe attraktiver Anwendungen. Beispielsweise, kann ein Sprechererkennungssystem vielleicht dazu benutzt werden, Voice Mail bzw. Sprachpost nach Sprecher für eine Gruppe von Sprechern zu klassifizieren, für die Stimmproben vorliegen. Solch ein Vermögen würde einem computer-implementierten Fernsprechsystem gestatten die Identität von Anrufern, die eine Mitteilung auf dem "Voice Mail" bzw. Sprachpostsystem hinterlassen haben, auf einem Computerbildschirm anzuzeigen.
Obwohl die Anwendungen für Sprecherverifikation und Sprechererkennung praktisch unendlich sind, hat sich die Lösung der Durchführung dieser zwei Aufgaben bisher schwer erreichbar erwiesen. Das Erkennen menschlicher Sprache und insbesondere das Unterscheiden des Sprechers von anderen Sprechem ist ein kompliziertes Problem. Selten spricht eine Person, auf Grund dessen wie menschliche Sprache produziert wird, selbst ein einziges Wort zweimal auf dieselbe Weise aus.
Menschliche Sprache ist das Produkt unter Druck stehender Luft aus den Lungen, die durch den Stimmbänder gedrückt und durch die Glottis moduliert wird, um Schallwellen zu produzieren, die dann in den Mund- und Nasenhöhlen mitschwingen, bevor sie durch die Zunge, den Kiefer, die Zähne und Lippen artikuliert werden. Viele Faktoren beeinflussen wie diese Schall produzierenden Mechanismen zusammenwirken. Der Schnupfen verändert, beispielsweise, in starkem Maß die Resonanz der Nasenhöhle sowie die Klangqualität der Stimmbänder.
Unter Voraussetzung der Komplexität und Variabilität mit denen der Mensch Sprache produziert, lassen sich Sprecherverifikation und Sprechererkennung nicht ohne weiteres durch Vergleichen neuer Sprache mit einer vorher aufgenommenen Sprachprobe durchführen. Anwenden einer hohen Ähnlichkeitsschwelle, um Impostors auszuschließen, kann den authentischen Sprecher ausschließen, wenn er oder sie erkältet ist. Andererseits kann Anwenden einer niedrigen Ähnlichkeitsschwelle das System zu falscher Verifikation neigen lassen.
Die vorliegende Erfindung benutzt, Anspruch 1 gemäß, eine analytische Vorgehensweise auf Modellbasis hinsichtlich Sprecherverifikation und Sprechererkennung. Modelle werden nach der Sprache bekannter Kundensprecher konstruiert und trainiert (und im Falle der Sprechererkennung ebenso nach der Sprache von einem oder mehreren Impostors. Diese Sprechermodelle verwenden typisch eine Vielzahl von Parametern (wie beispielsweise "Hidden-Markov-Modell"-Parameter). Besser als diese Parameter direkt zu verwenden, werden sie verkettet, um Supervektoren zu bilden. Diese Supervektoren, ein Supervektor pro Sprecher, repräsentieren den ganzen Trainingsdaten-Sprecherbestand.
Es wird eine linear Transformation an den Supervektoren durchgeführt, die einen Raum ergibt, den wir Eigenraum nennen. Die Basisvektoren dieses Eigenraums nennen wir "Eigenstimmen"-Vektoren oder "Eigenvektoren". Der Eigenraum lässt sich, durch Verwerfen einiger der Eigenvektortermen, dimensional reduzieren.
Als nächstes wird jeder der, die Trainingsdaten umfassenden, Sprecher im Eigenraum, entweder als ein Punkt im Eigenraum oder als eine Wahrscheinlichkeitsverteilung, repräsentiert. Das Erstere ist etwas weniger präzise, indem es die Sprache seitens jedes Sprechers als relativ unveränderlich behandelt. Das Letztere spiegelt wider, dass die Sprache jedes Sprechers von Äußerung zu Äußerung variieren wird.
Nach Repräsentieren der Trainingsdaten für jeden Sprecher im Eigenraum, kann das System dann zur Durchführung von Sprecherverifikation oder Sprechererkennung verwendet werden.
Neue Sprachdaten werden beschafft und verwendet, um einen Supervektor zu konstruieren, der dann dimensional reduziert und im Eigenraum repräsentiert wird. Durch Beurteilen der Nähe der neuen Sprachdaten zu vorherigen Daten im Eigenraum wird Sprecherverifikation oder Sprechererkennung durchgeführt. Die neue Spracheingabe des Sprechers wird verifiziert, wenn ihr entsprechender Punkt oder ihre entsprechende Verteilung im Eigenraum innerhalb einer Schwellwertnähe zu den Trainingsdaten für jenen Kundensprecher liegt. Das System könnte die neue Spracheingabe als authentisch zurückweisen, falls diese – bei Platzierung in den Eigenraum – der Spracheingabe eines Impostors näher kommt.
Sprechererkennung wird auf ähnliche Weise durchgeführt. Die neuen Sprachdaten werden in den Eigenraum platziert und mit jenem Trainingssprecher identifiziert, dessen Eigenvektorpunkt oder Verteilung nächstliegend ist.
Beurteilen der Nähe zwischen den neuen Sprachdaten und den Trainingsdaten im Eigenraum hat eine Reihe von Vorteilen. Erstens repräsentiert der Eigenraum in einer exakten, niedrigdimensionalen, Weise jeden ganzen Sprecher, nicht bloß einige selektierte Merkmale jedes Sprechers. Im Eigenraum durchgeführte Näheberechnungen können ziemlich schnell vorgenommen werden, da es im Eigenraum typisch erheblich weniger Dimensionen gibt, mit denen fertig zu werden ist, als im ursprünglichen Sprechermodellraum oder Merkmalvektorraum vorhanden sind. Außerdem erfordert das System nicht, dass die neuen Sprachdaten jedes einzelne Beispiel oder jede einzelne Äußerung einschließen, die dazu verwendet wurde die ursprünglichen Trainingsdaten zu konstruieren. Durch hierin beschriebene Methoden ist es möglich Dimensionalitätsreduzierung an einem Supervektor durchzuführen, dem einige seiner Komponenten fehlen. Der Ergebnispunkt oder die Verteilung im Eigenraum wird den Sprecher nichtsdestoweniger bemerkenswert gut repräsentieren.
Um die Erfindung, ihre Ziele und Vorteile vollkommener zu verstehen, beziehen Sie sich bitte auf die folgende Spezifikation und die zugehörigen Zeichnungen.
Kurzbeschreibung der Zeichnungen
1 illustriert ein beispielhaftes, zum Verständnis der Erfindung nützliches, Hidden-Markov-Modell (HMM);
Die 2 ist ein Flussdiagram, das zeigt wie der Eigenraum vielleicht konstruiert ist, um ein Sprechererkennungssystem zu implementieren, wo bekannte Kundensprecher als Punkte im Eigenraum repräsentiert sind;
Die 3 ist ein Flussdiagram, das zeigt wie der Eigenraum vielleicht konstruiert ist, um ein Sprecherverifikationssystem zu implementieren, wo der Kundensprecher und mögliche Impostors als Verteilungen im Eigenraum repräsentiert sind;
Die 4 ist ein Flussdiagramm, das den Prozess illustriert, durch den entweder Sprechererkennung oder Sprecherverifikation unter Verwendung von Eigenraum durchgeführt werden kann, der während Training entwickelt wurde;
Die 5 ist eine Illustration davon wie die Maximum-Likelihood-Methode durchgeführt wird;
Die 6 ist ein Datenstrukturdiagramm, das illustriert wie die Beobachtungsdaten von einem Sprecher, auf der Basis des maximalen Likelihood-Vorgangs, im Eigenraum platziert werden können.
Beschreibung der bevorzugten Ausführungsbeispiele
Die von der vorliegenden Erfindung verwendeten Eigenstimmenmethoden werden mit vielen verschiedenen Sprachmodellen funktionieren. Wir illustrieren das bevorzugte Ausführungsbeispiel in Verbindung mit einem „Hidden-Markov-Modell" Erkenner, wegen seiner Beliebtheit in heutiger Spracherkennungstechnologie. Es sollte jedoch klargestellt werden, dass sich die Erfindung unter Einsatz anderer Erkennertypen auf Modellbasis, wie beispielsweise Phonemähnlichkeitserkennem, praktizieren lässt.
Zum besseren Verständnis der Sprechererkennungs- und -verifikationsmethoden der Erfindung wird ein grundlegendes Verständnis von Spracherkennungssystemen hilfreich sein. Insofern als die meisten heutigen Spracherkenner Hidden-Markov-Modelle (HMMs) verwenden, um Sprache zu repräsentieren, wird die HMM-Technologie hier beschrieben, um den Leser damit vertraut zu machen.
Das Hidden-Markov-Modell ist eine Modelliervorgehensweise, die Zustandstabellen involviert. Jede Spracheinheit (wie beispielsweise eine Phrase, ein Wort, Teilwort, Phonem oder dergleichen) lässt sich, mit allen in jenem Modell einbegriffenen Wissensquellen, modellieren. Das HMM repräsentiert einen unbekannten Prozess, der eine Sequenz beobachtbarer Outputs in diskreten Intervallen produziert, wobei die Outputs Elemente eines endlichen Alphabets (das einem festgelegten Satz von Spracheinheiten entspricht) sind. Diese Modelle werden "hidden" (versteckt) genannt, weil die, den beobachtbaren Output produzierende, Zustandssequenz nicht bekannt ist.
Wie in der 1 dargestellt, ist ein HMM 10 durch einen Satz von Zuständen (S1, S2 ... S5), Vektoren, die Übergänge zwischen gewissen Zustandspaaren, als Pfeile in der 1 dargestellt, definieren, und einer Sammlung von Wahrscheinlichkeitsdaten illustriert. Insbesondre schließt das Hidden-Markov-Modell einen Satz Übergangswahrscheinlichkeiten 12, der mit den Übergangsvektoren verbunden ist, und einen Satz Output-Wahrscheinlichkeiten 14, der mit dem erkennbaren Output bei jedem Zustand verbunden ist, ein. Das Modell wird von einem Zustand auf einen anderen in regelmäßigen, diskreten Intervallen getaktet. Bei Taktzeit, kann sich das Modell von seinem gegenwärtigen Zustand auf irgendeinen Zustand ändern, für den ein Übergangsvektor existiert. Wie illustriert, kann ein Übergang einer von einem gegebenen Zustand zurück auf sich selbst sein.
Die Übergangswahrscheinlichkeiten repräsentieren die Likelihood, dass ein Übergang von einem Zustand auf einen anderen auftritt, wenn das Modell getaktet wird. Daher gehört, wie in der 1 dargestellt, zu jedem Übergang ein Wahrscheinlichkeitswert (zwischen 0 und 1). Die Summe aller irgendeinen Zustand verlassenden Wahrscheinlichkeiten ist gleich 1. Zur Illustration, wurde ein Satz beispielhafter Übergangswahrscheinlichkeitswerte in der Übergangswahrscheinlichkeitstabelle 12 angegeben. Es wird vorausgesetzt, dass diese Werte in einer Arbeitsausführung von den Trainingsdaten mit der Einschränkung generiert werden würden, dass die Summe aller Wahrscheinlichkeiten, die irgendeinen Zustand verlassen, gleich 1 ist.
Jedes Mal, wenn ein Übergang genommen wird, ist es denkbar, dass das Modell ein Element seines Alphabets emittiert oder ausgibt. Im, in der 1 illustrierten, Ausführungsbeispiel wurde eine Spracheinheit auf Phonembasis angenommen. Daher entsprechen die, in der Output-Wahrscheinlichkeitstabelle 14 identifizierten, Symbole einigen der in korrektem Englisch vorzufindenden Phoneme. Welches Element des Alphabets bei jedem Übergang emittiert wird, hängt vom Output-Wahrscheinlichkeitswert oder der beim Training gelernten Funktion ab. Die emittierten Outputs repräsentieren daher eine Beobachtungssequenz (auf den Trainingsdaten beruhend) und jedes Element des Alphabets hat eine Wahrscheinlichkeit emittiert zu werden.
In Modelliersprache ist es allgemeine Praxis den Output als eine Sequenz kontinuierlicher Vektors im Gegensatz zu einer Sequenz von diskreten Alphabetsymbolen zu behandeln. Dies erfordert, dass die Output-Wahrscheinlichkeiten als kontinuierliche Wahrscheinlichkeitsfunktionen, im Gegensatz zu einzelnen numerischen Werten, ausgedrückt werden. Daher basieren HMMs häufig auf Wahrscheinlichkeitsfunktionen, die eine oder mehrere Gaußverteilungen umfassen. Wenn eine Vielheit von Gaußfunktionen verwendet wird, werden sie typisch additiv vermischt, um eine komplexe Wahrscheinlichkeitsverteilung, wie bei 16 illustriert, zu definieren.
Ob als eine einzelne Gaußfunktion oder eine Mischung von Gaußfunktionen repräsentiert, lassen sich die Wahrscheinlichkeitsverteilungen durch eine Vielheit von Parametern beschreiben. Ähnlich wie die Übergangswahrscheinlichkeitswerte (Table 12) können diese Output-Wahrscheinlichkeitsparameter Fließpunktzahlen bzw. Fließkommazahlen umfassen. Die Parametertabelle 18 identifiziert die Parameter, die typisch zur Repräsentation von Wahrscheinlichkeitsdichtefunktionen (pdf) verwendet werden, die auf beobachteten Daten von den Trainingssprechern beruhen. Wie durch die Gleichung in der 1 bei der Gaußfunktion 16 illustriert, ist die Wahrscheinlichkeitsdichtefunktion für einen zu modellierenden Beobachtungsvektor O die iterative Summe des Mischungskoeffizienten für jede Mischkomponente multipliziert mit der Gaußdichte n, wobei die Gaußdichte einen Mittelvektor u_j und eine Kovarianzmatrix U_j aufweist, die ab den cepstralen oder Filterbankkoeffizienten-Sprachparametern berechnet wurden.
Die Implementierungsdetails eines Hidden-Markov-Modell-Erkenners können von einer Anwendung zur anderen stark variieren. Das in der 1 gezeigte HMM-Beispiel soll nur illustrieren wie Hidden-Markov-Modelle konstruiert sind, und ist nicht als eine Einschränkung auf den Umfang der vorliegenden Erfindung gedacht. In dieser Hinsicht gibt es viele Variationen des Hidden-Markov-Modellierkonzepts. Wie anhand der nachstehenden Beschreibung ausführlicher verstanden werden wird, lässt sich die Eigenstimmen-Adaptationsmethode der Erfindung leicht adaptieren, um mit jeder der verschiedenen Hidden-Markov-Modellvariationen, sowie mit anderen Sprachmodelliersystem auf Parameterbasis zu arbeiten.
Die 2 und 3 illustrieren, jeweils, wie Sprechererkennung und Sprecherverifikation vielleicht unter Einsatz der erfindungsgemäßen Methoden durchgeführt werden können. Als ein erster Schritt bei der Durchführung von entweder Sprechererkennung oder -verifikation wird ein Eigenraum konstruiert. Der konstruierte spezifische Eigenraum hängt von der Anwendung ab. Bei der, in der 2 illustrierten, Sprechererkennung wird ein Satz bekannter Kundensprecher 20 dafür verwendet, Trainingsdaten 22 bereitzustellen, nach denen der Eigenraum geschaffen wird. Als andere Möglichkeit werden, für die in der 3 gezeigte Sprechererkennung, die Trainingsdaten 22 vom Kundensprecher oder Sprechern 21a, für die Verifikation gewünscht werden wird und ebenso von einem oder mehreren möglichen Impostors 21b geliefert. Außer diesem Unterschied hinsichtlich der Trainingsdatenquelle, ist die Prozedur zum Generieren des Eigenraums im Wesentlichen für sowohl Sprechererkennungs- als auch Sprecherverifikationsanwendungen dieselbe. Folglich wurden für die 2 und 3 ähnliche Zahlen angewandt.
Bezugnehmend auf die 2 und 3, wird der Eigenraum durch Entwickeln und Trainieren von Sprechermodellen für jeden der in den Trainingsdaten 22 repräsentierten Sprecher konstruiert. Dieser Schritt ist bei 24 illustriert und generiert einen Satz von Modellen 26 für jeden Sprecher. Obwohl hier Hidden-Markov-Modelle illustriert worden sind, ist die Erfindung nicht auf Hidden-Markov-Modelle beschränkt. Vielmehr kann jedes Modell, das für Verkettung geeignete Parameter aufweist, verwendet werden. Vorzugsweise sind die Modelle 26 mit ausreichenden Trainingsdaten trainiert, so dass alle durch das Modell definierten Klangeinheiten durch wenigstens ein Beispiel tatsächlicher Sprache für jeden Sprecher trainiert sind. Obwohl in den 2 und 3 nicht ausdrücklich illustriert, kann der Modelltrainingsschritt 24 geeignete zusätzliche Sprecheradaptationsverarbeitung einschließen, um die Modelle zu verbessern. Beispiele solcher zusätzlichen Verarbeitung schließen „Maximum A Posteriori Estimation (MAP)" oder andere auf Transformation beruhende Ansätze wie beispielsweise Maximum Likelihood Linear Regression (MLLR) ein. Die Zielsetzung beim Erstellen von Sprechermodellen 26 ist, den Trainingsdatenbestand genau zu repräsentieren, da dieser Bestand dazu benutzt wird die Maße und Grenzen des Eigenraums zu definieren, in den jeder Trainingssprecher platziert wird und in Bezug auf den jede neue sprachliche Äußerung geprüft wird.
Nach dem Konstruieren der Modelle 26, werden die Modelle für jeden Sprecher dazu verwendet bei Schritt 28 einen Supervektor zu konstruieren. Der bei 30 illustrierte Supervektor kann durch Verketten der Parameter des Modells für jeden Sprecher gebildet werden. Wo Hidden-Markov-Modelle verwendet werden, kann der Supervektor für jeden Sprecher eine geordnete Liste von Parametem (typische Gleitpunktzahlen) umfassen, die wenigstens einem Teil der Parameter der Hidden-Markov-Modelle für jenen Sprecher entsprechen. Jeder Klangeinheit entsprechende Parameter sind für einen gegebenen Sprecher im Supervektor inbegriffen. Die Parameter lassen sich in jeder praktischen Reihenfolge organisieren. Die Reihenfolge ist nicht kritisch; jedoch muss, sobald eine Reihenfolge adoptiert ist, diese für alle Trainingssprecher befolgt werden.
Die Wahl der, beim Konstruieren des Supervektors zu verwendenden, Modellparameter wird von der verfügbaren Verarbeitungsleistung des Computersystems abhängen. Bei Verwendung von Hidden-Markov-Modell Parametem haben wir gute Ergebnisse durch Konstruieren von Supervektoren aus den Gaußschen Mittelwerten erzielt. Wenn größere Verarbeitungsleistung zur Verfügung steht, können die Supervektoren außerdem andere Parameter, wie beispielsweise die Übergangswahrscheinlichkeiten (Tabelle 12, 1) oder die Kovarianz-Matrixparameter (Parameter 18, 1) einschließen. Wenn die Hidden-Markov-Modelle diskrete Outputs (im Gegensatz zu Wahrscheinlichkeitsdichten) generieren, dann können diese Outputwerte dazu verwendet werden den Supervektor zu konstruieren.
Nach dem Konstruieren der Supervektoren wird eine Dimensionalitätsreduktionsoperation bei Schritt 32 durchgeführt. Dimensionalitätsreduktion lässt sich durch jede lineare Transformation bewirken, welche die originalen hochdimensionalen Supervektoren zu Basisvektoren reduziert. Eine nicht vollständige Liste von Beispielen schließt ein:
Hauptkomponentenanalyse bzw. Principal Component Analysis (PCA), Independent Component Analysis (ICA), Linear Discriminant Analysis (LDA), Factor Analysis (FA), und Singular Value Decomposition (SVD).
Spezifischer wird die Klasse der Dimensionalitätsreduktionsmethoden, die bei der Implementierung der Erfindung nützlich sind, wie folgt definiert. Betrachten Sie einen Satz „T" Trainingssupervektoren, die ab sprecherabhängigen Modellen für Spracherkennung erhalten wurden. Lassen Sie jedem dieser Supervektoren die Dimension V haben; somit können wir jeden Supervektor als X = [x1, x2, ..., xV]^T (a V*1 Vektor) bezeichnen. Betrachten Sie eine lineare Transformation M, die auf einen Supervektor (d. h. auf irgendeinen Vektor der Dimension V) anwendbar ist, um einen neuen Vektor der Dimension E zu ergeben (E ist weniger als oder gleich T, der Zahl von Trainingssupervektoren); jeder transformierte Vektor kann als W = [w1, w2, ..., wE]^T bezeichnet werden. Die Werte der Parameter von M werden in gewissem Sinne ab dem Satz "T" Trainingsvektoren berechnet.
Somit haben wir die lineare Transformation W = M*X. M hat die Dimension E*V, und W hat die Dimension E*1, wo E <= T; für einen speziellen Satz von „T" Trainingssupervektoren, wird M konstant sein. Es können mehrere Dimensionalitätsreduktionsmethoden zum Berechnen einer linearen Transformation M ab einem Satz von „T" Trainingssupervektoren dermaßen verwendet werden, dass W die Dimension E <= T hat.
Beispiele schließen Principal Component Analysis, Independent Component Analysis, Linear Discriminant Analysis, Factor Analysis, und Singular Value Decomposition ein. Die Erfindung kann mit jedem derartigen Verfahren (nicht nur jenen, die aufgelistet sind) implementiert werden, um so eine konstante lineare Transformation M in dem speziellen Fall zu finden, wo die Eingabevektoren Trainingsvektoren sind, die von sprecherabhängiger Modellierung abgeleitet wurden, und wo M dazu verwendet wird die vorgenannte Methode auszuführen.
Die bei Schritt 32 generierten Basisvektoren definieren einen Eigenraum, der von den Eigenvektoren überspannt wird. Dimensionalitäts reduktion ergibt einen Eigenvektor für jeden der Trainingssprecher. Folglich, wenn es "T" Trainingssprecher gibt dann produziert der Dimensionalitätsreduktionsschritt 32 "T" Eigenvektoren. Diese Eigenvektoren definieren was wir Eigenstimmenraum bzw. Eigenraum nennen.
Die, bei 34 illustrierten, den Eigenstimmenraum ausmachenden, Eigenvektoren repräsentieren jeweils eine verschiedene Dimension über die verschiedene Sprecher differenziert werden können. Jeder Supervektor im originalen Trainingssatz kann als eine lineare Kombination dieser Eigenvektoren repräsentiert werden. Die Eigenvektoren sind nach ihrer Wichtigkeit beim Modellieren der Daten geordnet: der erste Eigenvektor ist wichtiger als der Zweite, der wichtiger ist als der Dritte, und so weiter. Unsere bisherigen Experimente mit dieser Methode zeigen, dass der erste Eigenvektor einer männlich-weiblichen Dimension zu entsprechen scheint.
Obwohl ein Maximum von „T" Eigenvektoren bei Schritt 32 produziert wird, ist es, in der Praxis, möglich mehrere dieser Eigenvektoren zu verwerfen und nur die ersten „N" Eigenvektoren zu behalten. Folglich entnehmen wir bei Schritt 36 optional „N" der „T" Eigenvektoren, um bei 38 einen reduzierten Parametereigenraum zu umfassen. Die Eigenvektoren höherer Ordnung können verworfen werden, weil sie typisch weniger wichtige Information enthalten, mit der unter Sprechern zu diskriminieren ist. Reduzieren des Eigenstimmenraums auf weniger als die Gesamtzahl von Trainingssprechern stellt eine innewohnende Datenkomprimierung bereit, die beim Konstruieren praktischer Systeme mit begrenzten Speicher- und Prozessorressourcen hilfreich sein kann.
Nach dem Generieren der Eigenvektoren ab den Trainingsdaten wird jeder Sprecher in den Trainingsdaten im Eigenraum repräsentiert. Im Falle der Sprechererkennung wird jeder bekannte Kundensprecher, wie bei Schritt 40a dargestellt und bei 42a diagrammatisch illustriert, im Eigenraum repräsentiert. Im Falle der Sprecherverifikation werden der Kundensprecher und mögliche Impostorsprecher, wie bei Schritt 40b angezeigt und wie bei 42b illustriert, im Eigenraum repräsentiert. Die Sprecher können im Eigenraum entweder als Punkte im Eigenraum (wie in der 2 bei 42a diagrammatisch illustriert) oder als Wahrscheinlichkeitsverteilungen im Eigenraum (wie in 3 bei 42b diagrammatisch) repräsentiert werden.
Verwenden des Sprechererkennungs- oder Sprecherverifikationssystems
Der Sprechererkennung oder -verifikation suchende Benutzer liefert bei 44 neue Sprachdaten und diese Daten werden dazu verwendet ein sprecherabhängiges Modell, wie bei Schritt 46 angezeigt, zu trainieren. Das Modell 48 wird dann bei Schritt 50 dazu verwendet einen Supervektor 52 zu konstruieren. Beachten Sie, dass die neuen Sprachdaten vielleicht nicht notwendigerweise ein Beispiel jeder Klangeinheit einschließen. Zum Beispiel könnte die neue sprachliche Äußerung zu kurz sein, um Beispiele aller Klangeinheiten zu enthalten. Das System wird dies, wie nachstehend eingehender erläutert werden wird, handhaben.
Dimensionalitätsreduktion wird bei Schritt 54 am Supervektor 52 durchgeführt, und resultiert in einem neuen Datenpunkt, der wie bei Schritt 56 angezeigt und bei 58 illustriert im Eigenraum repräsentiert werden kann. In der Illustration bei 58 werden die bisher im Eigenraum erfassten (auf Trainingssprechern beruhenden) Punkte als Punkte repräsentiert, wogegen der neue Sprachdatenpunkt durch einen Stern repräsentiert wird.
Nach Platzieren des neuen Datenpunkts im Eigenraum, kann er jetzt hinsichtlich seiner Nähe zu den anderen vorherigen Datenpunkten oder Datenverteilungen beurteilt werden, die den Trainingssprechem entsprechen. Die 4 illustriert ein beispielhaftes Ausführungsbeispiel von sowohl Sprechererkennung als auch Sprecherverifikation.
Für Sprechererkennung werden die neuen Sprachdaten dem nächsten Trainingssprecher im Eigenraum, Schritt 62 zugeordnet, was bei 64 diagrammatisch illustriert ist. Das System wird somit die neue Sprache als jene des vorherigen Trainingssprechers erkennen, dessen Datenpunkt oder Datenverteilung der neuen Sprache im Eigenraum am nächsten liegt.
Für Sprechererkennung, prüft das System den neuen Datenpunkt bei Schritt 66, um zu bestimmen ob er sich innerhalb einer vorbestimmten Schwellwertnähe zum Kundensprecher im Eigenraum befindet. Als eine Schutzmaßnahme kann das System, bei Schritt 68, die neuen Sprecherdaten zurückweisen, wenn sie im Eigenraum näher zu einem Impostor als zum Kundensprecher liegen. Dies ist bei 69 diagrammatisch illustriert, wo die Nähe zum Kundensprecher und die Nähe zum nächsten Impostor dargestellt worden sind.
Die Maximum-Likelihood-Eigenraumzerlegungsmethode (MLED)
Eine einfache Methode den neuen Sprecher im Eigenraum zu platzieren ist, eine einfache Projektionsoperation zu verwenden. Eine Projektionsoperation findet den Punkt im Eigenraum, der dem Punkt außerhalb des Eigenraums, welcher der Eingabesprache des neuen Sprechers entspricht, so nahe wie möglich ist. Man sollte beachten, dass diese Punkte eigentlich Supervektoren sind, aus denen ein Satz HMMs rekonstituiert werden kann.
Die Projektionsoperation ist eine vergleichsweise primitive Methode, die nicht garantiert, dass der Punkt im Eigenraum für den neuen Sprecher optimal ist. Überdies, erfordert die Projektionsoperation, dass der Supervektor für den neuen Sprecher einen kompletten Satz Daten enthält, um den ganzen Satz von HMMs für jenen Sprecher zu repräsentieren. Diese Anforderung verursacht eine signifikante praktische Einschränkung. Wenn Projektion dazu verwendet wird einen neuen Sprecher auf den Eigenraum einzuengen, muss jener Sprecher genügend Eingabesprache liefern, damit alle Spracheinheiten in den Daten repräsentiert sind. Wenn die Hidden-Markov-Modelle, beispielsweise, konzipiert sind alle Phoneme in der englischen Sprache zu repräsentieren, dann müsste der Trainingssprecher Beispiele aller Phoneme liefern, bevor die einfache Projektionsmethode benutzt werden kann. In viele Anwendungen ist diese Beschränkung einfach nicht praktisch.
Die Maximum-Likelihood-Methode der Erfindung geht beide der oben erwähnten Nachteile einfacher Projektion an. Die Maximum-Likelihood-Methode der Erfindung findet einen Punkt im Eigenraum, der den Supervektor repräsentiert, der einem Satz Hidden-Markov-Modellen entspricht, die die Maximumwahrscheinlichkeit haben die vom neuen Sprecher gelieferte Sprache zu generieren.
Während die einfache Projektionsoperation alle Elemente des Supervektors als gleiche Wichtigkeit besitzend behandelt, beruht die Maximum-Likelihood-Methode auf Wahrscheinlichkeiten, die sich aus den tatsächlichen Adaptationsdaten ergeben und neigt somit dazu den wahrscheinlicheren Daten mehr Gewicht zu verleihen. Im Gegensatz zur einfachen Projektionsmethode, wird die Maximum-Likelihood-Methode funktionieren, selbst wenn der neue Sprecher keinen vollen Satz Trainingsdaten geliefert hat (d. h., es fehlen Daten für einige der Klangeinheiten). In Wirklichkeit, berücksichtigt die Maximum-Likelihood-Methode den Kontext, unter dem die Supervektoren konstruiert sind, nämlich aus Hidden-Markov-Modellen, die Wahrscheinlichkeiten involvieren, dass gewisse Modelle wahrscheinlicher als andere die vom neuen Sprecher gelieferte Eingabesprache generieren.
In der praktischen Auswirkung, wird die Maximum-Likelihood-Methode den Supervektor im Eigenraum selektieren, der der Eingabesprache des neuen Sprechers, ungeachtet wie viel Eingabesprache tatsächlich verfügbar ist, am besten entspricht. Nehmen Sie zur Illustration an, dass der neue Sprecher eine junge, weibliche Einheimische aus Alabama ist. Nach Empfang einiger der von dieser Sprecherin geäußerten Silben, wird die Maximum-Likelihood-Methode einen Punkt im Eigenraum selektieren, der alle Phoneme repräsentiert (selbst jene, die in der Eingabesprache nicht repräsentiert sind), die diesem weiblichen Akzent der in Alabama gebürtigen Sprecherin entsprechen.
Die 5 zeigt wie die Maximum-Likelihood-Methode funktioniert. Die Eingabesprache vom neuen Sprecher wird dazu verwendet den Supervektor 70 zu konstruieren. Wie oben erläutert, umfasst der Supervektor eine verkettete Liste von Sprachparametern, die cepstralen Koeffizienten oder dergleichen entsprechen. Im illustrierten Ausführungsbeispiel sind diese Parameter Fließpunktzahlen bzw. Fließkommazahlen, die Gaußsche Mittelwerte repräsentieren, die dem Satz von Hidden-Markov-Modellen entnommen wurden, die dem neuen Sprecher entsprechen. Andere HMM-Parameter können ebenfalls verwendet werden. In der Illustration sind diese HMM-Mittelwerte, wie bei 72, als Punkte gezeigt. Bei voller Bestückung mit Daten, würde der Supervektor 70 Fließpunktzahlen bzw. Fließkommazahlen für jeden der HMM-Mittelwerte enthalten, die jeder der durch die HMM-Modelle repräsentierten Klangeinheiten entsprechen. Zur Illustration wird hier angenommen, dass die Parameter für Phonem "ah" zugegen sind, aber Parameter für Phonem "iy" fehlen.
Der Eigenraum 38 wird durch einen Satz von Eigenvektoren 74, 76 und 78 repräsentiert. Der Supervektor 70, der den Beobachtungsdaten vom neuen Sprecher entspricht, könnte im Eigenraum durch Multiplizieren jedes der Eigenvektoren mit einem entsprechenden Eigenwert repräsentiert werden, der mit W₁, W₂ ... W_n bezeichnet ist. Diese Eigenwerte sind anfänglich unbekannt. Die Maximum-Likelihood-Methode findet Werte für diese unbekannten Eigenwerte. Wie ausführlicher erläutert werden wird, werden diese Werte durch Suchen der optimalen Lösung selektiert, die den neuen Sprecher am besten im Eigenraum repräsentieren wird.
Nach dem Multiplizieren der Eigenwerte mit den entsprechenden Eigenvektoren des Eigenraums 38 und Summieren der resultierenden Produkte, wird ein adaptiertes Modell 80 produziert. Während der Supervektor der Eingabesprache (Supervektor 70) vielleicht einige fehlende Parameterwerte hatte (den "iy" Parameter, beispielsweise), ist der Supervektor 80, der das adaptierte Modell repräsentiert, voll mit Werten bestückt. Das ist ein Vorteil der Erfindung. Überdies repräsentieren die Werte im Supervektor 80 die optimale Lösung, nämlich jene, die die Maximum-Likelihood hat den neuen Sprecher im Eigenraum zu repräsentieren.
Die individuellen Eigenwerte W₁, W₂ ... W_n können vielleicht als einen Maximum-Likelihood-Vektor umfassend, hierin als Maximum-Likelihood-Vektor bezeichnet, angesehen werden. Die 5 illustriert den Vektor diagrammatisch bei 82. Wie die Illustration zeigt, umfasst der Maximum-Likelihood-Vektor 82 den Satz Eigenwerte W₁, W₂ ... W_n.
Die Prozedur für die Durchführung von Adaptation unter Einsatz der Maximum-Likelihood-Methode ist in der 6 gezeigt. Sprache eines neuen Sprechers, die die Beobachtungsdaten umfasst, wird dazu verwendet einen Satz von HMMs, wie bei 100 dargestellt, zu konstruieren. Der Satz von HMMs 102 wird dann dazu verwendet einen Supervektor, wie bei 104 dargestellt, zu konstruieren. Wie illustriert, umfasst der Supervektor 106 eine verkettete Liste von NMM-Parametern, die den HMM-Modellen 102 entnommen wurden.
Unter Verwendung des Supervektors 106, wird eine Wahrscheinlichkeitsfunktion Q bei 108 konstruiert. Das gegenwärtig bevorzugte Ausführungsbeispiel benutzt eine Wahrscheinlichkeitsfunktion, die die Wahrscheinlichkeit der Generierung der beobachteten Daten für den festgelegten Satz von HMM-Modellen 102 repräsentiert.
Nachfolgende Manipulation der Wahrscheinlichkeitsfunktion Q wird erleichtert, wenn die Funktion nicht nur einen Wahrscheinlichkeitsterm P sonder außerdem den Logarithmus von jenem Term, log P, einschließt.
Die Wahrscheinlichkeitsfunktion wird dann bei Schritt 110 maximiert, indem die Ableitung der Wahrscheinlichkeitsfunktion individuell hinsichtlich jedem der Eigenwerte W₁, W₂ ... W_n genommen wird. Wenn der Eigenraum, beispielsweise, der Dimension 100 ist, berechnet dieses System 100 Ableitungen der Wahrscheinlichkeitsfunktion Q und stellt jede auf Null und auf Lösen für den jeweiligen W-Wert. Obwohl dies als eine große Berechnung erscheinen mag, ist sie rechenbetont viel billiger als das Durchführen tausender Berechnungen, die typisch für konventionelle MAP- oder MLLR-Methoden erforderlich sind.
Der resultierende Satz, so erhaltener, Ws repräsentiert die Eigenwerte, die benötigt werden, um den Punkt im Eigenraum zu identifizieren, der dem Punkt der Maximum-Likelihood entspricht. Somit umfasst der Satz von Ws einen Maximum-Likelihood-Vektor im Eigenraum. In dieser Hinsicht definiert jeder der Eigenvektoren (Eigenvektoren 74, 76 und 78 in 5) einen Satz orthogonaler Vektoren oder Koordinaten gegen die die Eigenwerte multipliziert werden, um einen Punkt zu definieren, der im Eigenraum begrenzt ist. Dieser, bei 112 dargestellte, Maximum-Likelihood-Vektor, wird verwendet den Supervektor 114 zu konstruieren, der dem optimalen Punkt im Eigenraum (Punkt 66 in 4) entspricht. Der Supervektor 114 kann danach bei Schritt 116 dazu verwendet werden das adaptierte Modell 118 für den neuen Sprecher zu konstruieren.
Im Kontext des Maximum-Likelihood-Rahmens der Erfindung, möchten wir die Likelihood einer Beobachtung O = o₁ ... o_T hinsichtlich des Modells λ maximieren. Dies kann durch iteratives Maximieren der Zusatzfunktion Q (unten) geschehen, wo λ das gegenwärtige Modell bei der Iteration ist und λ ^ das geschätzte Modell ist. Wir haben:
Als eine vorläufige Approximierung, möchten wir vielleicht eine Maximierung nur in Bezug auf die Mittelwerte durchführen. Im Kontext wo die Wahrscheinlichkeit P durch einen Satz HMMs gegeben ist, erhalten wir folgendes:
wo: h(ot, m, s) = (o1 – μ ^m (s))TCm (s)–1(ot – μ ^m (s))und lassen:
o_t den Merkmalvektor bei Zeit t sein
C_m ^(s)–1 die inverse Kovarianz für die Mischung von Gaußschen m des Zustands s sein
μ ^_m ^(s) den approximierten adaptierten Mittelwert für Zustand s, Mischungskomponente sein
m
das P (bei Verwenden von Gaußschem Mix m|λ, o_t) sein
γ_m ^(s)(t)
Setzen wir voraus, dass sich die Gaußschen Mittelwerte für die HMMs des neuen Sprechers im Eigenraum befinden. Lassen wir diesen Raum von den mittleren Supervektoren mit j = 1 ... E überspannt sein,
wo μ _m ^(s)(j) den mittleren Vektor für die Mischung von Gaußschem m im Zustand s des Eigenvektors (Eigenmodells) j repräsentiert.
Dann brauchen wir:
Die μ _j sind orthogonal und die w_j sind die Eigenwerte unseres Sprechermodells. Wir nehmen hier an, dass jeder neue Sprecher als eine lineare Kombination unserer Datenbank beobachteter Sprecher modelliert werden kann. Dann
mit s in Zuständen von λ, m in Gaußschen Mischungen von M.
Da wir Q maximieren müssen, brauchen wir nur einstellen
(Beachten Sie, weil die Eigenvektoren orthogonal
) sind,
Daher haben wir
Bei Berechnen der obigen Ableitung haben wir:
woraus wir den Satz linearer Gleichungen finden
Beurteilen der Nähe im Eigenraum
Bei Repräsentieren von Sprechem als Punkte im Eigenraum, lässt sich eine einfache geometrische Abstandsberechung verwenden, um zu identifizieren, welcher Trainingsdatensprecher dem neuen Sprecher am nächsten ist. Bei Repräsentieren von Sprechem als Verteilungen im Eigenraum, wird Nähe beurteilt, indem die neuen Sprecherdaten als eine Beobachtung O behandelt werden und indem dann jeder Verteilungskandidat (der die Trainingssprecher repräsentiert) geprüft wird, um zu bestimmen was die Wahrscheinlichkeit ist, dass der Kandidat die Beobachtungsdaten generiert hat. Der Kandidat mit der höchsten Wahrscheinlichkeit wird als die nächste Nähe aufweisend beurteilt. In einigen Anwendungen hoher Sicherheit kann es wünschenswert sein Verifikation zurückzuweisen, wenn der wahrscheinlichste Kandidat eine Wahrscheinlichkeitspunktzahl unter einem vorbestimmten Schwellwert hat. Eine Kostenfunktion kann vielleicht verwendet werde, um so Kandidaten auszuschließen, denen ein hoher Sicherheitsgrad fehlt.
Beurteilen der Nähe des neuen Sprechers zu den Trainingssprechern kann, wie oben beschrieben, gänzlich im Eigenraum ausgeführt werden. Als andere Möglichkeit kann für noch größere Genauigkeit eine Bayessche Schätzung verwendet werden.
Um die Beurteilung der Nähe mit Hilfe der Bayesschen Schätzung zu verbessern, werden die Gaußschen Dichten der Trainingssprecher im Eigenraum mit der geschätzten marginalen Dichte im orthogonalen Komplementraum multipliziert, der die Sprecherdaten repräsentiert, die durch Dimensionalitätsreduktion verworfen wurden. In dieser Hinsicht gilt es zu erkennen, dass die Durchführung von Dimensionalitätsreduktion an den Sprechermodellsupervektoren zu einer signifikanten Datenkomprimierung von Hochdimensionalitätsraum auf Niedrigdimensionalitätsraum führt. Obwohl Dimensionalitätsreduktion die meisten wichtigen Basisvektoren erhält, wird einige Information höherer Ordnung verworfen. Die Bayessche Schätzungsmethode schätzt eine marginale Gaußsche Dichte, die dieser verworfenen Information entspricht.
Nehmen Sie zur Illustration an, dass der originale Eigenraum durch lineare Transformation des Supervektors durch einen Dimensionalitätsreduktionsprozess konstruiert ist, wonach M Komponenten der größeren Zahl N aller Komponenten entnommen werden. Die kleineren M Komponenten repräsentieren einen niedrigdimensionalen Subraum der Transformationsbasis, der den maximalen Eigenwerten entspricht. Somit wird der Eigenraum durch Komponenten i = 1 ... M definiert, wogegen die verworfenen unwichtigeren Komponenten i = M + 1 ... N entsprechen. Diese zwei Sätze von Komponenten definieren zwei sich gegenseitig ausschließende und komplementäre Subräume, wobei der hauptsächliche Subraum den Eigenraum von Interesse und seine orthogonale Komponente die Daten repräsentiert, die durch Dimensionalitätsreduktion verworfen wurden.
Wir können die Likelihood-Schätzung als das Produkt der Gaußschen Dichten in diesen zwei jeweiligen orthogonalen Räumen mit der folgenden Gleichung berechnen:
In der obigen Gleichung ist der erste Term die einfache Gaußsche Dichte im Eigenraum E und der zweite Term die einfache Gaußsche Verteilung im Raum der zum Eigenraum orthogonal ist. Es stellt sich heraus, dass beide Termen gänzlich ab dem Satz Trainingsdatenvektoren geschätzt werden können, indem man nur die Projektionen in den Eigenraum und die Restwerte verwendet.

Claims

Ein Verfahren zum Verifizieren oder Erkennen eines Sprechers in Bezug auf einen vorbestimmten Kundensprecher, wobei besagtes Verfahren umfasst: Trainieren eines Satzes von Sprachmodellen auf die Sprache seitens einer Vielheit von Trainingssprechern, wobei die Vielheit von Trainingssprechern wenigstens einen Kundensprecher einschließt; Konstruieren eines Eigenraums, der besagte Vielheit von Trainingssprechern repräsentieren soll, durch Durchführen von Dimensionalitätsreduktion an besagen Sätzen von Modellen, um einen Satz Basisvektoren zu generieren, die besagten Eigenraum definieren; Repräsentieren des besagten Kundensprechers als eine erste Position in besagtem Eigenraum; Verarbeiten neuer Sprechereingabedaten durch Trainieren eines neuen Sprachmodells auf der Basis besagter Eingabedaten und durch Durchführung von Dimensionalitätsreduktion an besagtem neuen Sprachmodell, um einen Repräsentation des besagten neuen Sprechers als eine zweite Position im Eigenraum zu generieren; Beurteilen der Nähe zwischen besagten ersten und zweiten Positionen und Verwenden besagter Beurteilung als eine Andeutung ob der neue Sprecher der Kundensprecher ist.
Ein Sprechererkennungsverfahren nach Anspruch 1, worin besagte Vielheit von Trainingssprechern eine Vielheit verschiedener Kundensprecher einschließt und worin besagtes Verfahren weiter umfasst: Repräsentieren jedes der besagten Vielheit von Kundensprechern als Trainingssprecherpositionen in besagtem Eigenraum, und Beurteilen der Nähe zwischen besagter zweiten Position und besagten Trainingssprecherpositionen und Erkennen des besagten neuen Sprechers als einen selektierten Sprecher aus besagter Vielheit von Kundensprechern, wenigstens teilweise unter Zugrundelegung besagter Nähebeurteilung.
Ein Sprecherverifikationsverfahren nach Anspruch 1, worin besagte Vielheit von Trainingssprechern wenigstens einen Impostorsprecher einschließt, der als eine dritte Position im Eigenraum repräsentiert ist.
Ein Sprecherverifikationsverfahren nach Anspruch 3, die weiter zusätzliche Beurteilung der Nähe zwischen besagten zweiten und dritten Positionen beurteilt und Verwenden besagter zusätzlichen Beurteilung als einen weitere Andeutung ob der neue Sprecher der Kundensprecher ist.
Das Verfahren des Anspruchs 1, worin besagter Schritt der Beurteilung von Nähe durch Bestimmen des Abstands zwischen besagten ersten und zweiten Positionen durchgeführt wird.
Das Verfahren des Anspruchs 1, worin besagte Trainingssprecher als Positionen in besagtem Eigenraum repräsentiert sind.
Das Verfahren des Anspruchs 1, worin besagte Trainingssprecher als Punkte in besagtem Eigenraum repräsentiert sind.
Das Verfahren des Anspruchs 1, worin besagte Trainingssprecher als Verteilungen in besagtem Eigenraum repräsentiert sind.
Das Verfahren des Anspruchs 1, worin besagter Schritt der Verarbeitung neuer Sprechereingabedaten die Verwendung besagter Eingabedaten zum Generieren einer Wahrscheinlichkeitsfunktion und dann Maximierung besagter Wahrscheinlichkeitsfunktion einschließt, um einen Maximum-Likelihood-Vektor zu bestimmen, der im besagten Eigenraum liegt.
Das Verfahren des Anspruchs 1, worin besagte Vielheit von Trainingssprechern eine Vielheit von Kundensprechem und wenigstens einen Impostorsprecher einschließt.
Das Verfahren nach Anspruch 1, das weiter periodische Beurteilung der Nähe zwischen besagten ersten und zweiten Positionen und Verwenden besagter Beurteilung als eine Andeutung umfasst, ob der neue Sprecher der Kundensprecher ist, um zu bestimmen ob sich die Identität des besagten neuen Sprechers ändert.