DE69914839T2 - Sprecherverifikation und -erkennung mittels Eigenstimmen - Google Patents

Sprecherverifikation und -erkennung mittels Eigenstimmen Download PDF

Info

Publication number
DE69914839T2
DE69914839T2 DE69914839T DE69914839T DE69914839T2 DE 69914839 T2 DE69914839 T2 DE 69914839T2 DE 69914839 T DE69914839 T DE 69914839T DE 69914839 T DE69914839 T DE 69914839T DE 69914839 T2 DE69914839 T2 DE 69914839T2
Authority
DE
Germany
Prior art keywords
speaker
eigenspace
training
new
customer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69914839T
Other languages
English (en)
Other versions
DE69914839D1 (de
Inventor
Roland Santa Barbara Kuhn
Robert Thousand Oaks Bowman
Patrick CH-1027 Nguyen
Jean-Claude Santa Barbara Junqua
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE69914839D1 publication Critical patent/DE69914839D1/de
Application granted granted Critical
Publication of DE69914839T2 publication Critical patent/DE69914839T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Description

  • Hintergrund und Zusammenfassung der Erfindung
  • Die vorliegende Erfindung bezieht sich allgemein auf Sprachtechnologie und, insbesondere, auf ein System und Verfahren zur Durchführung von Sprecherverifikation oder -erkennung.
  • Das Problem der Authentifizierung ist der wahre Kern fast jeder Transaktion. Millionen Leute führen vertrauliche finanzielle Transaktionen über das Telefon, wie beispielsweise Zugriff auf ihre Bankkonten oder Verwenden ihrer Kreditkarten, durch. Authentifizierung unter momentaner Praxis ist alles andere als narrensicher. Die Parteien tauschen eine Form von wahrscheinlich geheimer Information, wie beispielsweise die Sozialversicherungsnummer, den Mädchennamen der Mutter oder dergleichen aus. Klar, solche Information kann geraubt werden, was zu falscher Authentifizierung führt.
  • Ein Gesichtspunkt der vorliegenden Erfindung geht das vorgenannte Problem durch Bereitstellen eines Systems und Verfahrens zur Durchführung von Sprecherverifikation an. Sprecherverifikation involviert Bestimmen, ob eine Stimme einem gewissen Sprecher (hierin der "Kunde" genannt) oder einem Impostor (jemand anderer als der Kunde) gehört.
  • Irgendwie ist das Problem der Sprecherverifikation mit dem Problem der Sprechererkennung verbunden. Sprechererkennung involviert die Abgleichung einer gegebenen Stimme mit einer Gruppe bekannter Stimmen. Wie die Sprecherverifikation, hat Sprechererkennung eine Reihe attraktiver Anwendungen. Beispielsweise, kann ein Sprechererkennungssystem vielleicht dazu benutzt werden, Voice Mail bzw. Sprachpost nach Sprecher für eine Gruppe von Sprechern zu klassifizieren, für die Stimmproben vorliegen. Solch ein Vermögen würde einem computer-implementierten Fernsprechsystem gestatten die Identität von Anrufern, die eine Mitteilung auf dem "Voice Mail" bzw. Sprachpostsystem hinterlassen haben, auf einem Computerbildschirm anzuzeigen.
  • Obwohl die Anwendungen für Sprecherverifikation und Sprechererkennung praktisch unendlich sind, hat sich die Lösung der Durchführung dieser zwei Aufgaben bisher schwer erreichbar erwiesen. Das Erkennen menschlicher Sprache und insbesondere das Unterscheiden des Sprechers von anderen Sprechem ist ein kompliziertes Problem. Selten spricht eine Person, auf Grund dessen wie menschliche Sprache produziert wird, selbst ein einziges Wort zweimal auf dieselbe Weise aus.
  • Menschliche Sprache ist das Produkt unter Druck stehender Luft aus den Lungen, die durch den Stimmbänder gedrückt und durch die Glottis moduliert wird, um Schallwellen zu produzieren, die dann in den Mund- und Nasenhöhlen mitschwingen, bevor sie durch die Zunge, den Kiefer, die Zähne und Lippen artikuliert werden. Viele Faktoren beeinflussen wie diese Schall produzierenden Mechanismen zusammenwirken. Der Schnupfen verändert, beispielsweise, in starkem Maß die Resonanz der Nasenhöhle sowie die Klangqualität der Stimmbänder.
  • Unter Voraussetzung der Komplexität und Variabilität mit denen der Mensch Sprache produziert, lassen sich Sprecherverifikation und Sprechererkennung nicht ohne weiteres durch Vergleichen neuer Sprache mit einer vorher aufgenommenen Sprachprobe durchführen. Anwenden einer hohen Ähnlichkeitsschwelle, um Impostors auszuschließen, kann den authentischen Sprecher ausschließen, wenn er oder sie erkältet ist. Andererseits kann Anwenden einer niedrigen Ähnlichkeitsschwelle das System zu falscher Verifikation neigen lassen.
  • Die vorliegende Erfindung benutzt, Anspruch 1 gemäß, eine analytische Vorgehensweise auf Modellbasis hinsichtlich Sprecherverifikation und Sprechererkennung. Modelle werden nach der Sprache bekannter Kundensprecher konstruiert und trainiert (und im Falle der Sprechererkennung ebenso nach der Sprache von einem oder mehreren Impostors. Diese Sprechermodelle verwenden typisch eine Vielzahl von Parametern (wie beispielsweise "Hidden-Markov-Modell"-Parameter). Besser als diese Parameter direkt zu verwenden, werden sie verkettet, um Supervektoren zu bilden. Diese Supervektoren, ein Supervektor pro Sprecher, repräsentieren den ganzen Trainingsdaten-Sprecherbestand.
  • Es wird eine linear Transformation an den Supervektoren durchgeführt, die einen Raum ergibt, den wir Eigenraum nennen. Die Basisvektoren dieses Eigenraums nennen wir "Eigenstimmen"-Vektoren oder "Eigenvektoren". Der Eigenraum lässt sich, durch Verwerfen einiger der Eigenvektortermen, dimensional reduzieren.
  • Als nächstes wird jeder der, die Trainingsdaten umfassenden, Sprecher im Eigenraum, entweder als ein Punkt im Eigenraum oder als eine Wahrscheinlichkeitsverteilung, repräsentiert. Das Erstere ist etwas weniger präzise, indem es die Sprache seitens jedes Sprechers als relativ unveränderlich behandelt. Das Letztere spiegelt wider, dass die Sprache jedes Sprechers von Äußerung zu Äußerung variieren wird.
  • Nach Repräsentieren der Trainingsdaten für jeden Sprecher im Eigenraum, kann das System dann zur Durchführung von Sprecherverifikation oder Sprechererkennung verwendet werden.
  • Neue Sprachdaten werden beschafft und verwendet, um einen Supervektor zu konstruieren, der dann dimensional reduziert und im Eigenraum repräsentiert wird. Durch Beurteilen der Nähe der neuen Sprachdaten zu vorherigen Daten im Eigenraum wird Sprecherverifikation oder Sprechererkennung durchgeführt. Die neue Spracheingabe des Sprechers wird verifiziert, wenn ihr entsprechender Punkt oder ihre entsprechende Verteilung im Eigenraum innerhalb einer Schwellwertnähe zu den Trainingsdaten für jenen Kundensprecher liegt. Das System könnte die neue Spracheingabe als authentisch zurückweisen, falls diese – bei Platzierung in den Eigenraum – der Spracheingabe eines Impostors näher kommt.
  • Sprechererkennung wird auf ähnliche Weise durchgeführt. Die neuen Sprachdaten werden in den Eigenraum platziert und mit jenem Trainingssprecher identifiziert, dessen Eigenvektorpunkt oder Verteilung nächstliegend ist.
  • Beurteilen der Nähe zwischen den neuen Sprachdaten und den Trainingsdaten im Eigenraum hat eine Reihe von Vorteilen. Erstens repräsentiert der Eigenraum in einer exakten, niedrigdimensionalen, Weise jeden ganzen Sprecher, nicht bloß einige selektierte Merkmale jedes Sprechers. Im Eigenraum durchgeführte Näheberechnungen können ziemlich schnell vorgenommen werden, da es im Eigenraum typisch erheblich weniger Dimensionen gibt, mit denen fertig zu werden ist, als im ursprünglichen Sprechermodellraum oder Merkmalvektorraum vorhanden sind. Außerdem erfordert das System nicht, dass die neuen Sprachdaten jedes einzelne Beispiel oder jede einzelne Äußerung einschließen, die dazu verwendet wurde die ursprünglichen Trainingsdaten zu konstruieren. Durch hierin beschriebene Methoden ist es möglich Dimensionalitätsreduzierung an einem Supervektor durchzuführen, dem einige seiner Komponenten fehlen. Der Ergebnispunkt oder die Verteilung im Eigenraum wird den Sprecher nichtsdestoweniger bemerkenswert gut repräsentieren.
  • Um die Erfindung, ihre Ziele und Vorteile vollkommener zu verstehen, beziehen Sie sich bitte auf die folgende Spezifikation und die zugehörigen Zeichnungen.
  • Kurzbeschreibung der Zeichnungen
  • 1 illustriert ein beispielhaftes, zum Verständnis der Erfindung nützliches, Hidden-Markov-Modell (HMM);
  • Die 2 ist ein Flussdiagram, das zeigt wie der Eigenraum vielleicht konstruiert ist, um ein Sprechererkennungssystem zu implementieren, wo bekannte Kundensprecher als Punkte im Eigenraum repräsentiert sind;
  • Die 3 ist ein Flussdiagram, das zeigt wie der Eigenraum vielleicht konstruiert ist, um ein Sprecherverifikationssystem zu implementieren, wo der Kundensprecher und mögliche Impostors als Verteilungen im Eigenraum repräsentiert sind;
  • Die 4 ist ein Flussdiagramm, das den Prozess illustriert, durch den entweder Sprechererkennung oder Sprecherverifikation unter Verwendung von Eigenraum durchgeführt werden kann, der während Training entwickelt wurde;
  • Die 5 ist eine Illustration davon wie die Maximum-Likelihood-Methode durchgeführt wird;
  • Die 6 ist ein Datenstrukturdiagramm, das illustriert wie die Beobachtungsdaten von einem Sprecher, auf der Basis des maximalen Likelihood-Vorgangs, im Eigenraum platziert werden können.
  • Beschreibung der bevorzugten Ausführungsbeispiele
  • Die von der vorliegenden Erfindung verwendeten Eigenstimmenmethoden werden mit vielen verschiedenen Sprachmodellen funktionieren. Wir illustrieren das bevorzugte Ausführungsbeispiel in Verbindung mit einem „Hidden-Markov-Modell" Erkenner, wegen seiner Beliebtheit in heutiger Spracherkennungstechnologie. Es sollte jedoch klargestellt werden, dass sich die Erfindung unter Einsatz anderer Erkennertypen auf Modellbasis, wie beispielsweise Phonemähnlichkeitserkennem, praktizieren lässt.
  • Zum besseren Verständnis der Sprechererkennungs- und -verifikationsmethoden der Erfindung wird ein grundlegendes Verständnis von Spracherkennungssystemen hilfreich sein. Insofern als die meisten heutigen Spracherkenner Hidden-Markov-Modelle (HMMs) verwenden, um Sprache zu repräsentieren, wird die HMM-Technologie hier beschrieben, um den Leser damit vertraut zu machen.
  • Das Hidden-Markov-Modell ist eine Modelliervorgehensweise, die Zustandstabellen involviert. Jede Spracheinheit (wie beispielsweise eine Phrase, ein Wort, Teilwort, Phonem oder dergleichen) lässt sich, mit allen in jenem Modell einbegriffenen Wissensquellen, modellieren. Das HMM repräsentiert einen unbekannten Prozess, der eine Sequenz beobachtbarer Outputs in diskreten Intervallen produziert, wobei die Outputs Elemente eines endlichen Alphabets (das einem festgelegten Satz von Spracheinheiten entspricht) sind. Diese Modelle werden "hidden" (versteckt) genannt, weil die, den beobachtbaren Output produzierende, Zustandssequenz nicht bekannt ist.
  • Wie in der 1 dargestellt, ist ein HMM 10 durch einen Satz von Zuständen (S1, S2 ... S5), Vektoren, die Übergänge zwischen gewissen Zustandspaaren, als Pfeile in der 1 dargestellt, definieren, und einer Sammlung von Wahrscheinlichkeitsdaten illustriert. Insbesondre schließt das Hidden-Markov-Modell einen Satz Übergangswahrscheinlichkeiten 12, der mit den Übergangsvektoren verbunden ist, und einen Satz Output-Wahrscheinlichkeiten 14, der mit dem erkennbaren Output bei jedem Zustand verbunden ist, ein. Das Modell wird von einem Zustand auf einen anderen in regelmäßigen, diskreten Intervallen getaktet. Bei Taktzeit, kann sich das Modell von seinem gegenwärtigen Zustand auf irgendeinen Zustand ändern, für den ein Übergangsvektor existiert. Wie illustriert, kann ein Übergang einer von einem gegebenen Zustand zurück auf sich selbst sein.
  • Die Übergangswahrscheinlichkeiten repräsentieren die Likelihood, dass ein Übergang von einem Zustand auf einen anderen auftritt, wenn das Modell getaktet wird. Daher gehört, wie in der 1 dargestellt, zu jedem Übergang ein Wahrscheinlichkeitswert (zwischen 0 und 1). Die Summe aller irgendeinen Zustand verlassenden Wahrscheinlichkeiten ist gleich 1. Zur Illustration, wurde ein Satz beispielhafter Übergangswahrscheinlichkeitswerte in der Übergangswahrscheinlichkeitstabelle 12 angegeben. Es wird vorausgesetzt, dass diese Werte in einer Arbeitsausführung von den Trainingsdaten mit der Einschränkung generiert werden würden, dass die Summe aller Wahrscheinlichkeiten, die irgendeinen Zustand verlassen, gleich 1 ist.
  • Jedes Mal, wenn ein Übergang genommen wird, ist es denkbar, dass das Modell ein Element seines Alphabets emittiert oder ausgibt. Im, in der 1 illustrierten, Ausführungsbeispiel wurde eine Spracheinheit auf Phonembasis angenommen. Daher entsprechen die, in der Output-Wahrscheinlichkeitstabelle 14 identifizierten, Symbole einigen der in korrektem Englisch vorzufindenden Phoneme. Welches Element des Alphabets bei jedem Übergang emittiert wird, hängt vom Output-Wahrscheinlichkeitswert oder der beim Training gelernten Funktion ab. Die emittierten Outputs repräsentieren daher eine Beobachtungssequenz (auf den Trainingsdaten beruhend) und jedes Element des Alphabets hat eine Wahrscheinlichkeit emittiert zu werden.
  • In Modelliersprache ist es allgemeine Praxis den Output als eine Sequenz kontinuierlicher Vektors im Gegensatz zu einer Sequenz von diskreten Alphabetsymbolen zu behandeln. Dies erfordert, dass die Output-Wahrscheinlichkeiten als kontinuierliche Wahrscheinlichkeitsfunktionen, im Gegensatz zu einzelnen numerischen Werten, ausgedrückt werden. Daher basieren HMMs häufig auf Wahrscheinlichkeitsfunktionen, die eine oder mehrere Gaußverteilungen umfassen. Wenn eine Vielheit von Gaußfunktionen verwendet wird, werden sie typisch additiv vermischt, um eine komplexe Wahrscheinlichkeitsverteilung, wie bei 16 illustriert, zu definieren.
  • Ob als eine einzelne Gaußfunktion oder eine Mischung von Gaußfunktionen repräsentiert, lassen sich die Wahrscheinlichkeitsverteilungen durch eine Vielheit von Parametern beschreiben. Ähnlich wie die Übergangswahrscheinlichkeitswerte (Table 12) können diese Output-Wahrscheinlichkeitsparameter Fließpunktzahlen bzw. Fließkommazahlen umfassen. Die Parametertabelle 18 identifiziert die Parameter, die typisch zur Repräsentation von Wahrscheinlichkeitsdichtefunktionen (pdf) verwendet werden, die auf beobachteten Daten von den Trainingssprechern beruhen. Wie durch die Gleichung in der 1 bei der Gaußfunktion 16 illustriert, ist die Wahrscheinlichkeitsdichtefunktion für einen zu modellierenden Beobachtungsvektor O die iterative Summe des Mischungskoeffizienten für jede Mischkomponente multipliziert mit der Gaußdichte n, wobei die Gaußdichte einen Mittelvektor uj und eine Kovarianzmatrix Uj aufweist, die ab den cepstralen oder Filterbankkoeffizienten-Sprachparametern berechnet wurden.
  • Die Implementierungsdetails eines Hidden-Markov-Modell-Erkenners können von einer Anwendung zur anderen stark variieren. Das in der 1 gezeigte HMM-Beispiel soll nur illustrieren wie Hidden-Markov-Modelle konstruiert sind, und ist nicht als eine Einschränkung auf den Umfang der vorliegenden Erfindung gedacht. In dieser Hinsicht gibt es viele Variationen des Hidden-Markov-Modellierkonzepts. Wie anhand der nachstehenden Beschreibung ausführlicher verstanden werden wird, lässt sich die Eigenstimmen-Adaptationsmethode der Erfindung leicht adaptieren, um mit jeder der verschiedenen Hidden-Markov-Modellvariationen, sowie mit anderen Sprachmodelliersystem auf Parameterbasis zu arbeiten.
  • Die 2 und 3 illustrieren, jeweils, wie Sprechererkennung und Sprecherverifikation vielleicht unter Einsatz der erfindungsgemäßen Methoden durchgeführt werden können. Als ein erster Schritt bei der Durchführung von entweder Sprechererkennung oder -verifikation wird ein Eigenraum konstruiert. Der konstruierte spezifische Eigenraum hängt von der Anwendung ab. Bei der, in der 2 illustrierten, Sprechererkennung wird ein Satz bekannter Kundensprecher 20 dafür verwendet, Trainingsdaten 22 bereitzustellen, nach denen der Eigenraum geschaffen wird. Als andere Möglichkeit werden, für die in der 3 gezeigte Sprechererkennung, die Trainingsdaten 22 vom Kundensprecher oder Sprechern 21a, für die Verifikation gewünscht werden wird und ebenso von einem oder mehreren möglichen Impostors 21b geliefert. Außer diesem Unterschied hinsichtlich der Trainingsdatenquelle, ist die Prozedur zum Generieren des Eigenraums im Wesentlichen für sowohl Sprechererkennungs- als auch Sprecherverifikationsanwendungen dieselbe. Folglich wurden für die 2 und 3 ähnliche Zahlen angewandt.
  • Bezugnehmend auf die 2 und 3, wird der Eigenraum durch Entwickeln und Trainieren von Sprechermodellen für jeden der in den Trainingsdaten 22 repräsentierten Sprecher konstruiert. Dieser Schritt ist bei 24 illustriert und generiert einen Satz von Modellen 26 für jeden Sprecher. Obwohl hier Hidden-Markov-Modelle illustriert worden sind, ist die Erfindung nicht auf Hidden-Markov-Modelle beschränkt. Vielmehr kann jedes Modell, das für Verkettung geeignete Parameter aufweist, verwendet werden. Vorzugsweise sind die Modelle 26 mit ausreichenden Trainingsdaten trainiert, so dass alle durch das Modell definierten Klangeinheiten durch wenigstens ein Beispiel tatsächlicher Sprache für jeden Sprecher trainiert sind. Obwohl in den 2 und 3 nicht ausdrücklich illustriert, kann der Modelltrainingsschritt 24 geeignete zusätzliche Sprecheradaptationsverarbeitung einschließen, um die Modelle zu verbessern. Beispiele solcher zusätzlichen Verarbeitung schließen „Maximum A Posteriori Estimation (MAP)" oder andere auf Transformation beruhende Ansätze wie beispielsweise Maximum Likelihood Linear Regression (MLLR) ein. Die Zielsetzung beim Erstellen von Sprechermodellen 26 ist, den Trainingsdatenbestand genau zu repräsentieren, da dieser Bestand dazu benutzt wird die Maße und Grenzen des Eigenraums zu definieren, in den jeder Trainingssprecher platziert wird und in Bezug auf den jede neue sprachliche Äußerung geprüft wird.
  • Nach dem Konstruieren der Modelle 26, werden die Modelle für jeden Sprecher dazu verwendet bei Schritt 28 einen Supervektor zu konstruieren. Der bei 30 illustrierte Supervektor kann durch Verketten der Parameter des Modells für jeden Sprecher gebildet werden. Wo Hidden-Markov-Modelle verwendet werden, kann der Supervektor für jeden Sprecher eine geordnete Liste von Parametem (typische Gleitpunktzahlen) umfassen, die wenigstens einem Teil der Parameter der Hidden-Markov-Modelle für jenen Sprecher entsprechen. Jeder Klangeinheit entsprechende Parameter sind für einen gegebenen Sprecher im Supervektor inbegriffen. Die Parameter lassen sich in jeder praktischen Reihenfolge organisieren. Die Reihenfolge ist nicht kritisch; jedoch muss, sobald eine Reihenfolge adoptiert ist, diese für alle Trainingssprecher befolgt werden.
  • Die Wahl der, beim Konstruieren des Supervektors zu verwendenden, Modellparameter wird von der verfügbaren Verarbeitungsleistung des Computersystems abhängen. Bei Verwendung von Hidden-Markov-Modell Parametem haben wir gute Ergebnisse durch Konstruieren von Supervektoren aus den Gaußschen Mittelwerten erzielt. Wenn größere Verarbeitungsleistung zur Verfügung steht, können die Supervektoren außerdem andere Parameter, wie beispielsweise die Übergangswahrscheinlichkeiten (Tabelle 12, 1) oder die Kovarianz-Matrixparameter (Parameter 18, 1) einschließen. Wenn die Hidden-Markov-Modelle diskrete Outputs (im Gegensatz zu Wahrscheinlichkeitsdichten) generieren, dann können diese Outputwerte dazu verwendet werden den Supervektor zu konstruieren.
  • Nach dem Konstruieren der Supervektoren wird eine Dimensionalitätsreduktionsoperation bei Schritt 32 durchgeführt. Dimensionalitätsreduktion lässt sich durch jede lineare Transformation bewirken, welche die originalen hochdimensionalen Supervektoren zu Basisvektoren reduziert. Eine nicht vollständige Liste von Beispielen schließt ein:
    Hauptkomponentenanalyse bzw. Principal Component Analysis (PCA), Independent Component Analysis (ICA), Linear Discriminant Analysis (LDA), Factor Analysis (FA), und Singular Value Decomposition (SVD).
  • Spezifischer wird die Klasse der Dimensionalitätsreduktionsmethoden, die bei der Implementierung der Erfindung nützlich sind, wie folgt definiert. Betrachten Sie einen Satz „T" Trainingssupervektoren, die ab sprecherabhängigen Modellen für Spracherkennung erhalten wurden. Lassen Sie jedem dieser Supervektoren die Dimension V haben; somit können wir jeden Supervektor als X = [x1, x2, ..., xV]^T (a V*1 Vektor) bezeichnen. Betrachten Sie eine lineare Transformation M, die auf einen Supervektor (d. h. auf irgendeinen Vektor der Dimension V) anwendbar ist, um einen neuen Vektor der Dimension E zu ergeben (E ist weniger als oder gleich T, der Zahl von Trainingssupervektoren); jeder transformierte Vektor kann als W = [w1, w2, ..., wE]^T bezeichnet werden. Die Werte der Parameter von M werden in gewissem Sinne ab dem Satz "T" Trainingsvektoren berechnet.
  • Somit haben wir die lineare Transformation W = M*X. M hat die Dimension E*V, und W hat die Dimension E*1, wo E <= T; für einen speziellen Satz von „T" Trainingssupervektoren, wird M konstant sein. Es können mehrere Dimensionalitätsreduktionsmethoden zum Berechnen einer linearen Transformation M ab einem Satz von „T" Trainingssupervektoren dermaßen verwendet werden, dass W die Dimension E <= T hat.
  • Beispiele schließen Principal Component Analysis, Independent Component Analysis, Linear Discriminant Analysis, Factor Analysis, und Singular Value Decomposition ein. Die Erfindung kann mit jedem derartigen Verfahren (nicht nur jenen, die aufgelistet sind) implementiert werden, um so eine konstante lineare Transformation M in dem speziellen Fall zu finden, wo die Eingabevektoren Trainingsvektoren sind, die von sprecherabhängiger Modellierung abgeleitet wurden, und wo M dazu verwendet wird die vorgenannte Methode auszuführen.
  • Die bei Schritt 32 generierten Basisvektoren definieren einen Eigenraum, der von den Eigenvektoren überspannt wird. Dimensionalitäts reduktion ergibt einen Eigenvektor für jeden der Trainingssprecher. Folglich, wenn es "T" Trainingssprecher gibt dann produziert der Dimensionalitätsreduktionsschritt 32 "T" Eigenvektoren. Diese Eigenvektoren definieren was wir Eigenstimmenraum bzw. Eigenraum nennen.
  • Die, bei 34 illustrierten, den Eigenstimmenraum ausmachenden, Eigenvektoren repräsentieren jeweils eine verschiedene Dimension über die verschiedene Sprecher differenziert werden können. Jeder Supervektor im originalen Trainingssatz kann als eine lineare Kombination dieser Eigenvektoren repräsentiert werden. Die Eigenvektoren sind nach ihrer Wichtigkeit beim Modellieren der Daten geordnet: der erste Eigenvektor ist wichtiger als der Zweite, der wichtiger ist als der Dritte, und so weiter. Unsere bisherigen Experimente mit dieser Methode zeigen, dass der erste Eigenvektor einer männlich-weiblichen Dimension zu entsprechen scheint.
  • Obwohl ein Maximum von „T" Eigenvektoren bei Schritt 32 produziert wird, ist es, in der Praxis, möglich mehrere dieser Eigenvektoren zu verwerfen und nur die ersten „N" Eigenvektoren zu behalten. Folglich entnehmen wir bei Schritt 36 optional „N" der „T" Eigenvektoren, um bei 38 einen reduzierten Parametereigenraum zu umfassen. Die Eigenvektoren höherer Ordnung können verworfen werden, weil sie typisch weniger wichtige Information enthalten, mit der unter Sprechern zu diskriminieren ist. Reduzieren des Eigenstimmenraums auf weniger als die Gesamtzahl von Trainingssprechern stellt eine innewohnende Datenkomprimierung bereit, die beim Konstruieren praktischer Systeme mit begrenzten Speicher- und Prozessorressourcen hilfreich sein kann.
  • Nach dem Generieren der Eigenvektoren ab den Trainingsdaten wird jeder Sprecher in den Trainingsdaten im Eigenraum repräsentiert. Im Falle der Sprechererkennung wird jeder bekannte Kundensprecher, wie bei Schritt 40a dargestellt und bei 42a diagrammatisch illustriert, im Eigenraum repräsentiert. Im Falle der Sprecherverifikation werden der Kundensprecher und mögliche Impostorsprecher, wie bei Schritt 40b angezeigt und wie bei 42b illustriert, im Eigenraum repräsentiert. Die Sprecher können im Eigenraum entweder als Punkte im Eigenraum (wie in der 2 bei 42a diagrammatisch illustriert) oder als Wahrscheinlichkeitsverteilungen im Eigenraum (wie in 3 bei 42b diagrammatisch) repräsentiert werden.
  • Verwenden des Sprechererkennungs- oder Sprecherverifikationssystems
  • Der Sprechererkennung oder -verifikation suchende Benutzer liefert bei 44 neue Sprachdaten und diese Daten werden dazu verwendet ein sprecherabhängiges Modell, wie bei Schritt 46 angezeigt, zu trainieren. Das Modell 48 wird dann bei Schritt 50 dazu verwendet einen Supervektor 52 zu konstruieren. Beachten Sie, dass die neuen Sprachdaten vielleicht nicht notwendigerweise ein Beispiel jeder Klangeinheit einschließen. Zum Beispiel könnte die neue sprachliche Äußerung zu kurz sein, um Beispiele aller Klangeinheiten zu enthalten. Das System wird dies, wie nachstehend eingehender erläutert werden wird, handhaben.
  • Dimensionalitätsreduktion wird bei Schritt 54 am Supervektor 52 durchgeführt, und resultiert in einem neuen Datenpunkt, der wie bei Schritt 56 angezeigt und bei 58 illustriert im Eigenraum repräsentiert werden kann. In der Illustration bei 58 werden die bisher im Eigenraum erfassten (auf Trainingssprechern beruhenden) Punkte als Punkte repräsentiert, wogegen der neue Sprachdatenpunkt durch einen Stern repräsentiert wird.
  • Nach Platzieren des neuen Datenpunkts im Eigenraum, kann er jetzt hinsichtlich seiner Nähe zu den anderen vorherigen Datenpunkten oder Datenverteilungen beurteilt werden, die den Trainingssprechem entsprechen. Die 4 illustriert ein beispielhaftes Ausführungsbeispiel von sowohl Sprechererkennung als auch Sprecherverifikation.
  • Für Sprechererkennung werden die neuen Sprachdaten dem nächsten Trainingssprecher im Eigenraum, Schritt 62 zugeordnet, was bei 64 diagrammatisch illustriert ist. Das System wird somit die neue Sprache als jene des vorherigen Trainingssprechers erkennen, dessen Datenpunkt oder Datenverteilung der neuen Sprache im Eigenraum am nächsten liegt.
  • Für Sprechererkennung, prüft das System den neuen Datenpunkt bei Schritt 66, um zu bestimmen ob er sich innerhalb einer vorbestimmten Schwellwertnähe zum Kundensprecher im Eigenraum befindet. Als eine Schutzmaßnahme kann das System, bei Schritt 68, die neuen Sprecherdaten zurückweisen, wenn sie im Eigenraum näher zu einem Impostor als zum Kundensprecher liegen. Dies ist bei 69 diagrammatisch illustriert, wo die Nähe zum Kundensprecher und die Nähe zum nächsten Impostor dargestellt worden sind.
  • Die Maximum-Likelihood-Eigenraumzerlegungsmethode (MLED)
  • Eine einfache Methode den neuen Sprecher im Eigenraum zu platzieren ist, eine einfache Projektionsoperation zu verwenden. Eine Projektionsoperation findet den Punkt im Eigenraum, der dem Punkt außerhalb des Eigenraums, welcher der Eingabesprache des neuen Sprechers entspricht, so nahe wie möglich ist. Man sollte beachten, dass diese Punkte eigentlich Supervektoren sind, aus denen ein Satz HMMs rekonstituiert werden kann.
  • Die Projektionsoperation ist eine vergleichsweise primitive Methode, die nicht garantiert, dass der Punkt im Eigenraum für den neuen Sprecher optimal ist. Überdies, erfordert die Projektionsoperation, dass der Supervektor für den neuen Sprecher einen kompletten Satz Daten enthält, um den ganzen Satz von HMMs für jenen Sprecher zu repräsentieren. Diese Anforderung verursacht eine signifikante praktische Einschränkung. Wenn Projektion dazu verwendet wird einen neuen Sprecher auf den Eigenraum einzuengen, muss jener Sprecher genügend Eingabesprache liefern, damit alle Spracheinheiten in den Daten repräsentiert sind. Wenn die Hidden-Markov-Modelle, beispielsweise, konzipiert sind alle Phoneme in der englischen Sprache zu repräsentieren, dann müsste der Trainingssprecher Beispiele aller Phoneme liefern, bevor die einfache Projektionsmethode benutzt werden kann. In viele Anwendungen ist diese Beschränkung einfach nicht praktisch.
  • Die Maximum-Likelihood-Methode der Erfindung geht beide der oben erwähnten Nachteile einfacher Projektion an. Die Maximum-Likelihood-Methode der Erfindung findet einen Punkt im Eigenraum, der den Supervektor repräsentiert, der einem Satz Hidden-Markov-Modellen entspricht, die die Maximumwahrscheinlichkeit haben die vom neuen Sprecher gelieferte Sprache zu generieren.
  • Während die einfache Projektionsoperation alle Elemente des Supervektors als gleiche Wichtigkeit besitzend behandelt, beruht die Maximum-Likelihood-Methode auf Wahrscheinlichkeiten, die sich aus den tatsächlichen Adaptationsdaten ergeben und neigt somit dazu den wahrscheinlicheren Daten mehr Gewicht zu verleihen. Im Gegensatz zur einfachen Projektionsmethode, wird die Maximum-Likelihood-Methode funktionieren, selbst wenn der neue Sprecher keinen vollen Satz Trainingsdaten geliefert hat (d. h., es fehlen Daten für einige der Klangeinheiten). In Wirklichkeit, berücksichtigt die Maximum-Likelihood-Methode den Kontext, unter dem die Supervektoren konstruiert sind, nämlich aus Hidden-Markov-Modellen, die Wahrscheinlichkeiten involvieren, dass gewisse Modelle wahrscheinlicher als andere die vom neuen Sprecher gelieferte Eingabesprache generieren.
  • In der praktischen Auswirkung, wird die Maximum-Likelihood-Methode den Supervektor im Eigenraum selektieren, der der Eingabesprache des neuen Sprechers, ungeachtet wie viel Eingabesprache tatsächlich verfügbar ist, am besten entspricht. Nehmen Sie zur Illustration an, dass der neue Sprecher eine junge, weibliche Einheimische aus Alabama ist. Nach Empfang einiger der von dieser Sprecherin geäußerten Silben, wird die Maximum-Likelihood-Methode einen Punkt im Eigenraum selektieren, der alle Phoneme repräsentiert (selbst jene, die in der Eingabesprache nicht repräsentiert sind), die diesem weiblichen Akzent der in Alabama gebürtigen Sprecherin entsprechen.
  • Die 5 zeigt wie die Maximum-Likelihood-Methode funktioniert. Die Eingabesprache vom neuen Sprecher wird dazu verwendet den Supervektor 70 zu konstruieren. Wie oben erläutert, umfasst der Supervektor eine verkettete Liste von Sprachparametern, die cepstralen Koeffizienten oder dergleichen entsprechen. Im illustrierten Ausführungsbeispiel sind diese Parameter Fließpunktzahlen bzw. Fließkommazahlen, die Gaußsche Mittelwerte repräsentieren, die dem Satz von Hidden-Markov-Modellen entnommen wurden, die dem neuen Sprecher entsprechen. Andere HMM-Parameter können ebenfalls verwendet werden. In der Illustration sind diese HMM-Mittelwerte, wie bei 72, als Punkte gezeigt. Bei voller Bestückung mit Daten, würde der Supervektor 70 Fließpunktzahlen bzw. Fließkommazahlen für jeden der HMM-Mittelwerte enthalten, die jeder der durch die HMM-Modelle repräsentierten Klangeinheiten entsprechen. Zur Illustration wird hier angenommen, dass die Parameter für Phonem "ah" zugegen sind, aber Parameter für Phonem "iy" fehlen.
  • Der Eigenraum 38 wird durch einen Satz von Eigenvektoren 74, 76 und 78 repräsentiert. Der Supervektor 70, der den Beobachtungsdaten vom neuen Sprecher entspricht, könnte im Eigenraum durch Multiplizieren jedes der Eigenvektoren mit einem entsprechenden Eigenwert repräsentiert werden, der mit W1, W2 ... Wn bezeichnet ist. Diese Eigenwerte sind anfänglich unbekannt. Die Maximum-Likelihood-Methode findet Werte für diese unbekannten Eigenwerte. Wie ausführlicher erläutert werden wird, werden diese Werte durch Suchen der optimalen Lösung selektiert, die den neuen Sprecher am besten im Eigenraum repräsentieren wird.
  • Nach dem Multiplizieren der Eigenwerte mit den entsprechenden Eigenvektoren des Eigenraums 38 und Summieren der resultierenden Produkte, wird ein adaptiertes Modell 80 produziert. Während der Supervektor der Eingabesprache (Supervektor 70) vielleicht einige fehlende Parameterwerte hatte (den "iy" Parameter, beispielsweise), ist der Supervektor 80, der das adaptierte Modell repräsentiert, voll mit Werten bestückt. Das ist ein Vorteil der Erfindung. Überdies repräsentieren die Werte im Supervektor 80 die optimale Lösung, nämlich jene, die die Maximum-Likelihood hat den neuen Sprecher im Eigenraum zu repräsentieren.
  • Die individuellen Eigenwerte W1, W2 ... Wn können vielleicht als einen Maximum-Likelihood-Vektor umfassend, hierin als Maximum-Likelihood-Vektor bezeichnet, angesehen werden. Die 5 illustriert den Vektor diagrammatisch bei 82. Wie die Illustration zeigt, umfasst der Maximum-Likelihood-Vektor 82 den Satz Eigenwerte W1, W2 ... Wn.
  • Die Prozedur für die Durchführung von Adaptation unter Einsatz der Maximum-Likelihood-Methode ist in der 6 gezeigt. Sprache eines neuen Sprechers, die die Beobachtungsdaten umfasst, wird dazu verwendet einen Satz von HMMs, wie bei 100 dargestellt, zu konstruieren. Der Satz von HMMs 102 wird dann dazu verwendet einen Supervektor, wie bei 104 dargestellt, zu konstruieren. Wie illustriert, umfasst der Supervektor 106 eine verkettete Liste von NMM-Parametern, die den HMM-Modellen 102 entnommen wurden.
  • Unter Verwendung des Supervektors 106, wird eine Wahrscheinlichkeitsfunktion Q bei 108 konstruiert. Das gegenwärtig bevorzugte Ausführungsbeispiel benutzt eine Wahrscheinlichkeitsfunktion, die die Wahrscheinlichkeit der Generierung der beobachteten Daten für den festgelegten Satz von HMM-Modellen 102 repräsentiert.
  • Nachfolgende Manipulation der Wahrscheinlichkeitsfunktion Q wird erleichtert, wenn die Funktion nicht nur einen Wahrscheinlichkeitsterm P sonder außerdem den Logarithmus von jenem Term, log P, einschließt.
  • Die Wahrscheinlichkeitsfunktion wird dann bei Schritt 110 maximiert, indem die Ableitung der Wahrscheinlichkeitsfunktion individuell hinsichtlich jedem der Eigenwerte W1, W2 ... Wn genommen wird. Wenn der Eigenraum, beispielsweise, der Dimension 100 ist, berechnet dieses System 100 Ableitungen der Wahrscheinlichkeitsfunktion Q und stellt jede auf Null und auf Lösen für den jeweiligen W-Wert. Obwohl dies als eine große Berechnung erscheinen mag, ist sie rechenbetont viel billiger als das Durchführen tausender Berechnungen, die typisch für konventionelle MAP- oder MLLR-Methoden erforderlich sind.
  • Der resultierende Satz, so erhaltener, Ws repräsentiert die Eigenwerte, die benötigt werden, um den Punkt im Eigenraum zu identifizieren, der dem Punkt der Maximum-Likelihood entspricht. Somit umfasst der Satz von Ws einen Maximum-Likelihood-Vektor im Eigenraum. In dieser Hinsicht definiert jeder der Eigenvektoren (Eigenvektoren 74, 76 und 78 in 5) einen Satz orthogonaler Vektoren oder Koordinaten gegen die die Eigenwerte multipliziert werden, um einen Punkt zu definieren, der im Eigenraum begrenzt ist. Dieser, bei 112 dargestellte, Maximum-Likelihood-Vektor, wird verwendet den Supervektor 114 zu konstruieren, der dem optimalen Punkt im Eigenraum (Punkt 66 in 4) entspricht. Der Supervektor 114 kann danach bei Schritt 116 dazu verwendet werden das adaptierte Modell 118 für den neuen Sprecher zu konstruieren.
  • Im Kontext des Maximum-Likelihood-Rahmens der Erfindung, möchten wir die Likelihood einer Beobachtung O = o1 ... oT hinsichtlich des Modells λ maximieren. Dies kann durch iteratives Maximieren der Zusatzfunktion Q (unten) geschehen, wo λ das gegenwärtige Modell bei der Iteration ist und λ ^ das geschätzte Modell ist. Wir haben:
  • Figure 00180001
  • Als eine vorläufige Approximierung, möchten wir vielleicht eine Maximierung nur in Bezug auf die Mittelwerte durchführen. Im Kontext wo die Wahrscheinlichkeit P durch einen Satz HMMs gegeben ist, erhalten wir folgendes:
    Figure 00180002
    wo: h(ot, m, s) = (o1 – μ ^m (s))TCm (s)–1(ot – μ ^m (s))und lassen:
    ot den Merkmalvektor bei Zeit t sein
    Cm (s)–1 die inverse Kovarianz für die Mischung von Gaußschen m des Zustands s sein
    μ ^m (s) den approximierten adaptierten Mittelwert für Zustand s, Mischungskomponente sein
    m
    das P (bei Verwenden von Gaußschem Mix m|λ, ot) sein
    γm (s)(t)
  • Setzen wir voraus, dass sich die Gaußschen Mittelwerte für die HMMs des neuen Sprechers im Eigenraum befinden. Lassen wir diesen Raum von den mittleren Supervektoren mit j = 1 ... E überspannt sein,
    Figure 00180003
    wo μ m (s)(j) den mittleren Vektor für die Mischung von Gaußschem m im Zustand s des Eigenvektors (Eigenmodells) j repräsentiert.
  • Dann brauchen wir:
    Figure 00190001
  • Die μ j sind orthogonal und die wj sind die Eigenwerte unseres Sprechermodells. Wir nehmen hier an, dass jeder neue Sprecher als eine lineare Kombination unserer Datenbank beobachteter Sprecher modelliert werden kann. Dann
    Figure 00190002
    mit s in Zuständen von λ, m in Gaußschen Mischungen von M.
  • Da wir Q maximieren müssen, brauchen wir nur einstellen
    Figure 00190003
    (Beachten Sie, weil die Eigenvektoren orthogonal
    Figure 00190004
    ) sind,
  • Daher haben wir
  • Figure 00190005
  • Bei Berechnen der obigen Ableitung haben wir:
    Figure 00190006
    woraus wir den Satz linearer Gleichungen finden
    Figure 00190007
  • Beurteilen der Nähe im Eigenraum
  • Bei Repräsentieren von Sprechem als Punkte im Eigenraum, lässt sich eine einfache geometrische Abstandsberechung verwenden, um zu identifizieren, welcher Trainingsdatensprecher dem neuen Sprecher am nächsten ist. Bei Repräsentieren von Sprechem als Verteilungen im Eigenraum, wird Nähe beurteilt, indem die neuen Sprecherdaten als eine Beobachtung O behandelt werden und indem dann jeder Verteilungskandidat (der die Trainingssprecher repräsentiert) geprüft wird, um zu bestimmen was die Wahrscheinlichkeit ist, dass der Kandidat die Beobachtungsdaten generiert hat. Der Kandidat mit der höchsten Wahrscheinlichkeit wird als die nächste Nähe aufweisend beurteilt. In einigen Anwendungen hoher Sicherheit kann es wünschenswert sein Verifikation zurückzuweisen, wenn der wahrscheinlichste Kandidat eine Wahrscheinlichkeitspunktzahl unter einem vorbestimmten Schwellwert hat. Eine Kostenfunktion kann vielleicht verwendet werde, um so Kandidaten auszuschließen, denen ein hoher Sicherheitsgrad fehlt.
  • Beurteilen der Nähe des neuen Sprechers zu den Trainingssprechern kann, wie oben beschrieben, gänzlich im Eigenraum ausgeführt werden. Als andere Möglichkeit kann für noch größere Genauigkeit eine Bayessche Schätzung verwendet werden.
  • Um die Beurteilung der Nähe mit Hilfe der Bayesschen Schätzung zu verbessern, werden die Gaußschen Dichten der Trainingssprecher im Eigenraum mit der geschätzten marginalen Dichte im orthogonalen Komplementraum multipliziert, der die Sprecherdaten repräsentiert, die durch Dimensionalitätsreduktion verworfen wurden. In dieser Hinsicht gilt es zu erkennen, dass die Durchführung von Dimensionalitätsreduktion an den Sprechermodellsupervektoren zu einer signifikanten Datenkomprimierung von Hochdimensionalitätsraum auf Niedrigdimensionalitätsraum führt. Obwohl Dimensionalitätsreduktion die meisten wichtigen Basisvektoren erhält, wird einige Information höherer Ordnung verworfen. Die Bayessche Schätzungsmethode schätzt eine marginale Gaußsche Dichte, die dieser verworfenen Information entspricht.
  • Nehmen Sie zur Illustration an, dass der originale Eigenraum durch lineare Transformation des Supervektors durch einen Dimensionalitätsreduktionsprozess konstruiert ist, wonach M Komponenten der größeren Zahl N aller Komponenten entnommen werden. Die kleineren M Komponenten repräsentieren einen niedrigdimensionalen Subraum der Transformationsbasis, der den maximalen Eigenwerten entspricht. Somit wird der Eigenraum durch Komponenten i = 1 ... M definiert, wogegen die verworfenen unwichtigeren Komponenten i = M + 1 ... N entsprechen. Diese zwei Sätze von Komponenten definieren zwei sich gegenseitig ausschließende und komplementäre Subräume, wobei der hauptsächliche Subraum den Eigenraum von Interesse und seine orthogonale Komponente die Daten repräsentiert, die durch Dimensionalitätsreduktion verworfen wurden.
  • Wir können die Likelihood-Schätzung als das Produkt der Gaußschen Dichten in diesen zwei jeweiligen orthogonalen Räumen mit der folgenden Gleichung berechnen:
  • Figure 00210001
  • In der obigen Gleichung ist der erste Term die einfache Gaußsche Dichte im Eigenraum E und der zweite Term die einfache Gaußsche Verteilung im Raum der zum Eigenraum orthogonal ist. Es stellt sich heraus, dass beide Termen gänzlich ab dem Satz Trainingsdatenvektoren geschätzt werden können, indem man nur die Projektionen in den Eigenraum und die Restwerte verwendet.

Claims (11)

  1. Ein Verfahren zum Verifizieren oder Erkennen eines Sprechers in Bezug auf einen vorbestimmten Kundensprecher, wobei besagtes Verfahren umfasst: Trainieren eines Satzes von Sprachmodellen auf die Sprache seitens einer Vielheit von Trainingssprechern, wobei die Vielheit von Trainingssprechern wenigstens einen Kundensprecher einschließt; Konstruieren eines Eigenraums, der besagte Vielheit von Trainingssprechern repräsentieren soll, durch Durchführen von Dimensionalitätsreduktion an besagen Sätzen von Modellen, um einen Satz Basisvektoren zu generieren, die besagten Eigenraum definieren; Repräsentieren des besagten Kundensprechers als eine erste Position in besagtem Eigenraum; Verarbeiten neuer Sprechereingabedaten durch Trainieren eines neuen Sprachmodells auf der Basis besagter Eingabedaten und durch Durchführung von Dimensionalitätsreduktion an besagtem neuen Sprachmodell, um einen Repräsentation des besagten neuen Sprechers als eine zweite Position im Eigenraum zu generieren; Beurteilen der Nähe zwischen besagten ersten und zweiten Positionen und Verwenden besagter Beurteilung als eine Andeutung ob der neue Sprecher der Kundensprecher ist.
  2. Ein Sprechererkennungsverfahren nach Anspruch 1, worin besagte Vielheit von Trainingssprechern eine Vielheit verschiedener Kundensprecher einschließt und worin besagtes Verfahren weiter umfasst: Repräsentieren jedes der besagten Vielheit von Kundensprechern als Trainingssprecherpositionen in besagtem Eigenraum, und Beurteilen der Nähe zwischen besagter zweiten Position und besagten Trainingssprecherpositionen und Erkennen des besagten neuen Sprechers als einen selektierten Sprecher aus besagter Vielheit von Kundensprechern, wenigstens teilweise unter Zugrundelegung besagter Nähebeurteilung.
  3. Ein Sprecherverifikationsverfahren nach Anspruch 1, worin besagte Vielheit von Trainingssprechern wenigstens einen Impostorsprecher einschließt, der als eine dritte Position im Eigenraum repräsentiert ist.
  4. Ein Sprecherverifikationsverfahren nach Anspruch 3, die weiter zusätzliche Beurteilung der Nähe zwischen besagten zweiten und dritten Positionen beurteilt und Verwenden besagter zusätzlichen Beurteilung als einen weitere Andeutung ob der neue Sprecher der Kundensprecher ist.
  5. Das Verfahren des Anspruchs 1, worin besagter Schritt der Beurteilung von Nähe durch Bestimmen des Abstands zwischen besagten ersten und zweiten Positionen durchgeführt wird.
  6. Das Verfahren des Anspruchs 1, worin besagte Trainingssprecher als Positionen in besagtem Eigenraum repräsentiert sind.
  7. Das Verfahren des Anspruchs 1, worin besagte Trainingssprecher als Punkte in besagtem Eigenraum repräsentiert sind.
  8. Das Verfahren des Anspruchs 1, worin besagte Trainingssprecher als Verteilungen in besagtem Eigenraum repräsentiert sind.
  9. Das Verfahren des Anspruchs 1, worin besagter Schritt der Verarbeitung neuer Sprechereingabedaten die Verwendung besagter Eingabedaten zum Generieren einer Wahrscheinlichkeitsfunktion und dann Maximierung besagter Wahrscheinlichkeitsfunktion einschließt, um einen Maximum-Likelihood-Vektor zu bestimmen, der im besagten Eigenraum liegt.
  10. Das Verfahren des Anspruchs 1, worin besagte Vielheit von Trainingssprechern eine Vielheit von Kundensprechem und wenigstens einen Impostorsprecher einschließt.
  11. Das Verfahren nach Anspruch 1, das weiter periodische Beurteilung der Nähe zwischen besagten ersten und zweiten Positionen und Verwenden besagter Beurteilung als eine Andeutung umfasst, ob der neue Sprecher der Kundensprecher ist, um zu bestimmen ob sich die Identität des besagten neuen Sprechers ändert.
DE69914839T 1998-09-04 1999-08-23 Sprecherverifikation und -erkennung mittels Eigenstimmen Expired - Fee Related DE69914839T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US148911 1998-09-04
US09/148,911 US6141644A (en) 1998-09-04 1998-09-04 Speaker verification and speaker identification based on eigenvoices

Publications (2)

Publication Number Publication Date
DE69914839D1 DE69914839D1 (de) 2004-03-25
DE69914839T2 true DE69914839T2 (de) 2005-01-05

Family

ID=22527990

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69914839T Expired - Fee Related DE69914839T2 (de) 1998-09-04 1999-08-23 Sprecherverifikation und -erkennung mittels Eigenstimmen

Country Status (7)

Country Link
US (2) US6141644A (de)
EP (1) EP0984431B1 (de)
JP (1) JP2000081894A (de)
CN (1) CN1188828C (de)
DE (1) DE69914839T2 (de)
ES (1) ES2214815T3 (de)
TW (1) TW448416B (de)

Families Citing this family (235)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US8095581B2 (en) * 1999-02-05 2012-01-10 Gregory A Stobbs Computer-implemented patent portfolio analysis method and apparatus
US20010044719A1 (en) * 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
US6556969B1 (en) * 1999-09-30 2003-04-29 Conexant Systems, Inc. Low complexity speaker verification using simplified hidden markov models with universal cohort models and automatic score thresholding
US8645137B2 (en) * 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
WO2001073756A1 (en) * 2000-03-31 2001-10-04 Centre For Signal Processing Of The Nanyang Technological University School Of Electrical & Electronic Engineering Speaker verification from a projection matrix
US6609094B1 (en) * 2000-05-22 2003-08-19 International Business Machines Corporation Maximum entropy and maximum likelihood criteria for feature selection from multivariate data
EP1178467B1 (de) * 2000-07-05 2005-03-09 Matsushita Electric Industrial Co., Ltd. Sprecherverifikation und -erkennung
US7216077B1 (en) * 2000-09-26 2007-05-08 International Business Machines Corporation Lattice-based unsupervised maximum likelihood linear regression for speaker adaptation
DE10047723A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
US7496510B2 (en) * 2000-11-30 2009-02-24 International Business Machines Corporation Method and apparatus for the automatic separating and indexing of multi-speaker conversations
US6895376B2 (en) * 2001-05-04 2005-05-17 Matsushita Electric Industrial Co., Ltd. Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification
US7437289B2 (en) * 2001-08-16 2008-10-14 International Business Machines Corporation Methods and apparatus for the systematic adaptation of classification systems from sparse adaptation data
US20030113002A1 (en) * 2001-12-18 2003-06-19 Koninklijke Philips Electronics N.V. Identification of people using video and audio eigen features
US6952674B2 (en) * 2002-01-07 2005-10-04 Intel Corporation Selecting an acoustic model in a speech recognition system
US7620547B2 (en) * 2002-07-25 2009-11-17 Sony Deutschland Gmbh Spoken man-machine interface with speaker identification
US7181393B2 (en) * 2002-11-29 2007-02-20 Microsoft Corporation Method of real-time speaker change point detection, speaker tracking and speaker model construction
US7272565B2 (en) * 2002-12-17 2007-09-18 Technology Patents Llc. System and method for monitoring individuals
US7634063B2 (en) * 2003-01-02 2009-12-15 Technology Patents, Llc System and method for monitoring individuals
WO2004064040A1 (en) * 2003-01-15 2004-07-29 Siemens Corporate Research Inc. A method for processing speech
US7299177B2 (en) 2003-05-30 2007-11-20 American Express Travel Related Services Company, Inc. Speaker recognition in a multi-speaker environment and comparison of several voice prints to many
JP4652232B2 (ja) * 2003-07-01 2011-03-16 フランス・テレコム 話者の圧縮表現用の音声信号の分析のための方法およびシステム
SG140445A1 (en) * 2003-07-28 2008-03-28 Sony Corp Method and apparatus for automatically recognizing audio data
US7328154B2 (en) * 2003-08-13 2008-02-05 Matsushita Electrical Industrial Co., Ltd. Bubble splitting for compact acoustic modeling
US7643989B2 (en) * 2003-08-29 2010-01-05 Microsoft Corporation Method and apparatus for vocal tract resonance tracking using nonlinear predictor and target-guided temporal restraint
US7224786B2 (en) * 2003-09-11 2007-05-29 Capital One Financial Corporation System and method for detecting unauthorized access using a voice signature
US7212613B2 (en) * 2003-09-18 2007-05-01 International Business Machines Corporation System and method for telephonic voice authentication
US20080208581A1 (en) * 2003-12-05 2008-08-28 Queensland University Of Technology Model Adaptation System and Method for Speaker Recognition
KR20050063986A (ko) * 2003-12-23 2005-06-29 한국전자통신연구원 고유음성 계수를 이용한 화자종속 음성인식 시스템 및 방법
US7636855B2 (en) * 2004-01-30 2009-12-22 Panasonic Corporation Multiple choice challenge-response user authorization system and method
US20050192973A1 (en) * 2004-02-12 2005-09-01 Smith Micro Software, Inc. Visual database management system and method
US20070033041A1 (en) * 2004-07-12 2007-02-08 Norton Jeffrey W Method of identifying a person based upon voice analysis
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US8078465B2 (en) * 2007-01-23 2011-12-13 Lena Foundation System and method for detection and analysis of speech
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US7565292B2 (en) * 2004-09-17 2009-07-21 Micriosoft Corporation Quantitative model for formant dynamics and contextually assimilated reduction in fluent speech
US20080208578A1 (en) * 2004-09-23 2008-08-28 Koninklijke Philips Electronics, N.V. Robust Speaker-Dependent Speech Recognition System
US7574359B2 (en) * 2004-10-01 2009-08-11 Microsoft Corporation Speaker selection training via a-posteriori Gaussian mixture model analysis, transformation, and combination of hidden Markov models
US7565284B2 (en) * 2004-11-05 2009-07-21 Microsoft Corporation Acoustic models with structured hidden dynamics with integration over many possible hidden trajectories
US7447633B2 (en) * 2004-11-22 2008-11-04 International Business Machines Corporation Method and apparatus for training a text independent speaker recognition system using speech data with text labels
US7519531B2 (en) * 2005-03-30 2009-04-14 Microsoft Corporation Speaker adaptive learning of resonance targets in a hidden trajectory model of speech coarticulation
US20060229879A1 (en) * 2005-04-06 2006-10-12 Top Digital Co., Ltd. Voiceprint identification system for e-commerce
US20060287863A1 (en) * 2005-06-16 2006-12-21 International Business Machines Corporation Speaker identification and voice verification for voice applications
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8825482B2 (en) * 2005-09-15 2014-09-02 Sony Computer Entertainment Inc. Audio, video, simulation, and user interface paradigms
US7788101B2 (en) * 2005-10-31 2010-08-31 Hitachi, Ltd. Adaptation method for inter-person biometrics variability
JP4556028B2 (ja) * 2005-11-04 2010-10-06 株式会社国際電気通信基礎技術研究所 発話主体同定装置及びコンピュータプログラム
US20070201443A1 (en) * 2006-02-09 2007-08-30 Debanjan Saha VoIP caller authentication by voice signature continuity
US7539616B2 (en) * 2006-02-20 2009-05-26 Microsoft Corporation Speaker authentication using adapted background models
WO2007111169A1 (ja) * 2006-03-24 2007-10-04 Pioneer Corporation 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
ATE449404T1 (de) * 2006-04-03 2009-12-15 Voice Trust Ag Sprecherauthentifizierung in digitalen kommunikationsnetzen
US7769583B2 (en) * 2006-05-13 2010-08-03 International Business Machines Corporation Quantizing feature vectors in decision-making applications
WO2007131530A1 (en) * 2006-05-16 2007-11-22 Loquendo S.P.A. Intersession variability compensation for automatic extraction of information from voice
EP1860647B1 (de) * 2006-05-24 2009-12-23 Voice.Trust Ag Robuste Sprechererkennung
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
CN101154380B (zh) * 2006-09-29 2011-01-26 株式会社东芝 说话人认证的注册及验证的方法和装置
US8024193B2 (en) * 2006-10-10 2011-09-20 Apple Inc. Methods and apparatus related to pruning for concatenative text-to-speech synthesis
CA2676380C (en) * 2007-01-23 2015-11-24 Infoture, Inc. System and method for detection and analysis of speech
US20080195395A1 (en) * 2007-02-08 2008-08-14 Jonghae Kim System and method for telephonic voice and speech authentication
US8099288B2 (en) * 2007-02-12 2012-01-17 Microsoft Corp. Text-dependent speaker verification
KR20080090034A (ko) * 2007-04-03 2008-10-08 삼성전자주식회사 음성 화자 인식 방법 및 시스템
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20090006085A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Automated call classification and prioritization
US20090018826A1 (en) * 2007-07-13 2009-01-15 Berlin Andrew A Methods, Systems and Devices for Speech Transduction
US20090030676A1 (en) * 2007-07-26 2009-01-29 Creative Technology Ltd Method of deriving a compressed acoustic model for speech recognition
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8817964B2 (en) * 2008-02-11 2014-08-26 International Business Machines Corporation Telephonic voice authentication and display
WO2009110613A1 (ja) * 2008-03-07 2009-09-11 日本電気株式会社 個人照合装置及び話者登録装置と方法並びにプログラム
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8504365B2 (en) * 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
JP5326892B2 (ja) * 2008-12-26 2013-10-30 富士通株式会社 情報処理装置、プログラム、および音響モデルを生成する方法
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9685159B2 (en) * 2009-11-12 2017-06-20 Agnitio Sl Speaker recognition from telephone calls
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8719191B2 (en) * 2010-03-01 2014-05-06 International Business Machines Corporation Training and verification using a correlated boosted entity model
CN102194455A (zh) * 2010-03-17 2011-09-21 博石金(北京)信息技术有限公司 一种与说话内容无关的声纹鉴别认证方法
US8442823B2 (en) * 2010-10-19 2013-05-14 Motorola Solutions, Inc. Methods for creating and searching a database of speakers
US9318114B2 (en) * 2010-11-24 2016-04-19 At&T Intellectual Property I, L.P. System and method for generating challenge utterances for speaker verification
CN103493126B (zh) * 2010-11-25 2015-09-09 爱立信(中国)通信有限公司 音频数据分析系统和方法
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
CN103186527B (zh) * 2011-12-27 2017-04-26 北京百度网讯科技有限公司 建立音乐分类模型的系统、推荐音乐的系统及相应方法
JP6031761B2 (ja) * 2011-12-28 2016-11-24 富士ゼロックス株式会社 音声解析装置および音声解析システム
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9390445B2 (en) 2012-03-05 2016-07-12 Visa International Service Association Authentication using biometric technology through a consumer device
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
ES2605779T3 (es) * 2012-09-28 2017-03-16 Agnitio S.L. Reconocimiento de orador
US20140136204A1 (en) * 2012-11-13 2014-05-15 GM Global Technology Operations LLC Methods and systems for speech systems
US8694315B1 (en) * 2013-02-05 2014-04-08 Visa International Service Association System and method for authentication using speaker verification techniques and fraud model
US20140222423A1 (en) * 2013-02-07 2014-08-07 Nuance Communications, Inc. Method and Apparatus for Efficient I-Vector Extraction
KR102118209B1 (ko) 2013-02-07 2020-06-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9406298B2 (en) * 2013-02-07 2016-08-02 Nuance Communications, Inc. Method and apparatus for efficient i-vector extraction
US9865266B2 (en) * 2013-02-25 2018-01-09 Nuance Communications, Inc. Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system
US9336775B2 (en) 2013-03-05 2016-05-10 Microsoft Technology Licensing, Llc Posterior-based feature with partial distance elimination for speech recognition
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9258425B2 (en) 2013-05-22 2016-02-09 Nuance Communications, Inc. Method and system for speaker verification
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US8812320B1 (en) 2014-04-01 2014-08-19 Google Inc. Segment-based speaker verification using dynamically generated phrases
US9542948B2 (en) 2014-04-09 2017-01-10 Google Inc. Text-dependent speaker identification
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
BR102014023647B1 (pt) * 2014-09-24 2022-12-06 Fundacao Cpqd - Centro De Pesquisa E Desenvolvimento Em Telecomunicacoes Método e sistema para detecção de fraudes em aplicações baseadas em processamento de voz
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9424841B2 (en) 2014-10-09 2016-08-23 Google Inc. Hotword detection on multiple devices
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10709388B2 (en) 2015-05-08 2020-07-14 Staton Techiya, Llc Biometric, physiological or environmental monitoring using a closed chamber
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10056076B2 (en) * 2015-09-06 2018-08-21 International Business Machines Corporation Covariance matrix estimation with structural-based priors for speech processing
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US20170092278A1 (en) * 2015-09-30 2017-03-30 Apple Inc. Speaker recognition
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9779735B2 (en) 2016-02-24 2017-10-03 Google Inc. Methods and systems for detecting and processing speech signals
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN105845141A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 基于信道鲁棒的说话人确认模型及说话人确认方法和装置
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
US10553218B2 (en) * 2016-09-19 2020-02-04 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
WO2018053537A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Improvements of speaker recognition in the call center
AU2017327003B2 (en) 2016-09-19 2019-05-23 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
EP4328905A3 (de) 2016-11-07 2024-04-24 Google Llc Unterdrückung eines hotword-auslösers bei aufgezeichneten medien
US10559309B2 (en) 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
US10720165B2 (en) * 2017-01-23 2020-07-21 Qualcomm Incorporated Keyword voice authentication
KR102321396B1 (ko) 2017-04-20 2021-11-03 구글 엘엘씨 장치에 대한 다중 사용자 인증
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10395650B2 (en) 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
KR102364853B1 (ko) 2017-07-18 2022-02-18 삼성전자주식회사 음향 센싱 소자의 신호 처리 방법과 음향 센싱 시스템
US10529357B2 (en) 2017-12-07 2020-01-07 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
EP3786945B1 (de) 2018-04-12 2023-07-19 Spotify AB Sprachbasierte authentifizierung
EP3553773B1 (de) 2018-04-12 2020-06-03 Spotify AB Training und prüfung von äusserungsbasierten rahmen
US10692496B2 (en) 2018-05-22 2020-06-23 Google Llc Hotword suppression
WO2020159917A1 (en) 2019-01-28 2020-08-06 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
WO2020163624A1 (en) 2019-02-06 2020-08-13 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020198354A1 (en) 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants
US10841424B1 (en) 2020-05-14 2020-11-17 Bank Of America Corporation Call monitoring and feedback reporting using machine learning

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4032711A (en) * 1975-12-31 1977-06-28 Bell Telephone Laboratories, Incorporated Speaker recognition arrangement
US5548647A (en) * 1987-04-03 1996-08-20 Texas Instruments Incorporated Fixed text speaker verification method and apparatus
US5054083A (en) * 1989-05-09 1991-10-01 Texas Instruments Incorporated Voice verification circuit for validating the identity of an unknown person
US5345535A (en) * 1990-04-04 1994-09-06 Doddington George R Speech analysis method and apparatus
US5339385A (en) * 1992-07-22 1994-08-16 Itt Corporation Speaker verifier using nearest-neighbor distance measure
FR2696036B1 (fr) * 1992-09-24 1994-10-14 France Telecom Procédé de mesure de ressemblance entre échantillons sonores et dispositif de mise en Óoeuvre de ce procédé.
DE69326431T2 (de) * 1992-12-28 2000-02-03 Toshiba Kawasaki Kk Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist
AUPM983094A0 (en) * 1994-12-02 1995-01-05 Australian National University, The Method for forming a cohort for use in identification of an individual
US5687287A (en) * 1995-05-22 1997-11-11 Lucent Technologies Inc. Speaker verification method and apparatus using mixture decomposition discrimination
US5895447A (en) * 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
US6205424B1 (en) * 1996-07-31 2001-03-20 Compaq Computer Corporation Two-staged cohort selection for speaker verification system
US6088669A (en) * 1997-01-28 2000-07-11 International Business Machines, Corporation Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling
US6182037B1 (en) * 1997-05-06 2001-01-30 International Business Machines Corporation Speaker recognition over large population with fast and detailed matches
US5953700A (en) * 1997-06-11 1999-09-14 International Business Machines Corporation Portable acoustic interface for remote access to automatic speech/speaker recognition server
US6233555B1 (en) * 1997-11-25 2001-05-15 At&T Corporation Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models
AU2850399A (en) * 1998-03-03 1999-09-20 Lernout & Hauspie Speech Products N.V. Multi-resolution system and method for speaker verification
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices

Also Published As

Publication number Publication date
EP0984431B1 (de) 2004-02-18
CN1188828C (zh) 2005-02-09
EP0984431A3 (de) 2000-11-29
EP0984431A2 (de) 2000-03-08
CN1247363A (zh) 2000-03-15
US6697778B1 (en) 2004-02-24
US6141644A (en) 2000-10-31
DE69914839D1 (de) 2004-03-25
JP2000081894A (ja) 2000-03-21
ES2214815T3 (es) 2004-09-16
TW448416B (en) 2001-08-01

Similar Documents

Publication Publication Date Title
DE69914839T2 (de) Sprecherverifikation und -erkennung mittels Eigenstimmen
DE112017003563B4 (de) Verfahren und system einer automatischen spracherkennung unter verwendung von a-posteriori-vertrauenspunktzahlen
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE602006000090T2 (de) Konfidenzmaß für ein Sprachdialogsystem
DE60009583T2 (de) Sprecheradaptation auf der Basis von Stimm-Eigenvektoren
DE69916951T2 (de) Dimensionsreduktion für die Sprechernormalisierung und Sprecher- und Umgebungsadaptation mittels Eigenstimm-Techniken
DE60309142T2 (de) System zur Schätzung von Parametern eines Gauß`schen Mixturmodells (GMM) oder eines GMM-basierten Hidden-Markov-Modells
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE60020660T2 (de) Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE69815067T2 (de) Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69725106T2 (de) Verfahren und Vorrichtung zur Spracherkennung mit Rauschadaptierung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE60004331T2 (de) Sprecher-erkennung
DE4310190A1 (de) Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn
EP0821346A2 (de) Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE102014107028B4 (de) Verbesserte biometrische Passwortsicherheit
EP0964390A2 (de) Vorrichtung zur Verifizierung von Signalen
DE69813597T2 (de) Mustererkennung, die mehrere referenzmodelle verwendet
EP1251489A2 (de) Training von Parametern eines Spracherkennungssystems zur Erkennung von Aussprachevarianten
DE69923026T2 (de) Sprecher- und Umgebungsadaptation auf der Basis von Stimm-Eigenvektoren sowie der Maximalwahrscheinlichkeitsmethode
EP1193689A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE60109240T2 (de) Sprecherverifikation und -erkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee