DE69815067T2 - Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster - Google Patents

Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster Download PDF

Info

Publication number
DE69815067T2
DE69815067T2 DE69815067T DE69815067T DE69815067T2 DE 69815067 T2 DE69815067 T2 DE 69815067T2 DE 69815067 T DE69815067 T DE 69815067T DE 69815067 T DE69815067 T DE 69815067T DE 69815067 T2 DE69815067 T2 DE 69815067T2
Authority
DE
Germany
Prior art keywords
models
association
distribution
error rate
composite
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69815067T
Other languages
English (en)
Other versions
DE69815067D1 (de
Inventor
Peter Beyerlein
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Koninklijke Philips NV
Original Assignee
Philips Intellectual Property and Standards GmbH
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE1997155191 external-priority patent/DE19755191A1/de
Application filed by Philips Intellectual Property and Standards GmbH, Koninklijke Philips Electronics NV filed Critical Philips Intellectual Property and Standards GmbH
Priority to DE69815067T priority Critical patent/DE69815067T2/de
Publication of DE69815067D1 publication Critical patent/DE69815067D1/de
Application granted granted Critical
Publication of DE69815067T2 publication Critical patent/DE69815067T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Character Discrimination (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • Die Erfindung betrifft ein Verfahren zum Erkennen eines Musters, das eine Menge physikalischer Stimuli umfasst, wobei das Verfahren die folgenden Schritte umfasst:
    • – Verschaffen einer Menge an Trainingsbeobachtungen und, durch Anwenden einer Vielzahl von Assoziationsmodellen, Ermitteln verschiedener Messwerte pj(k ∣⁣ x), j = 1...M, die je das Zuweisen einer speziellen Trainingsbeobachtung zu einer oder mehr zugehörigen Musterklassen betreffen;
    • – Aufstellen einer logarithmisch/linearen Assoziationsverteilung durch Kombinieren aller Assoziationsmodelle der Vielzahl gemäß jeweiligen Wichtungsfaktoren und Hinzufügen einer Normalisierungsgröße, um eine zusammengesetzte Assoziationsverteilung zu erzeugen.
  • Die Erfindung ist für die Spracherkennung gedacht, aber sie ist gleichermaßen auf andere Erkennungsprozesse anwendbar, wie z. B. für Sprachverstehen, Sprachübersetzung, sowie zum Erkennen. von Handschriften, Gesichtern, Erkennung von Szenen und anderen Umgebungen. Die Assoziationsmodelle können Wahrscheinlichkeitsmodelle sein, die Wahrscheinlichkeitsverteilungen zum Zuweisen von Mustern an Klassen angeben. Andere Modelle können auf unscharfer Logik beruhen, oder Ähnlichkeitsmaßen, wie z. B. zwischen Ziel und Klasse gemessenen Abständen. Die bekannte Technologie hat unterschiedliche derartige Modelle in einem kombinierten Erkennungsangriff verwendet, aber die auf die verschiedenen zusammenarbeitenden Modelle ausgeübten Einflüsse wurden in wahlloser Weise bestimmt. Dies bedeutete, dass nur wenige und/oder nur elementare Modelle möglich waren.
  • Der vorliegende Erfinder hat erkannt, dass die Vereinheitlichung der Prinzipien der "maximalen Entropie" und des "diskriminativen Trainings" im Fall einer Kombination von mehr als einem Modell im Prinzip imstande wäre, im Vergleich zu früheren heu ristischen Verfahren bessere Ergebnisse zu liefern. Auch sollte eine unkomplizierte Daten verarbeitungsprozedur einen preiswerten und schnellen Weg zu derartigen Ergebnissen verschaffen.
  • Der Erfindung liegt daher unter anderem als Aufgabe zugrunde, eine logarithmisch-lineare Kombination verschiedener "Teil"modelle pj(k ∣⁣ X) zu berechnen, während Parameterberechnung durch diskriminatives Training ausgeführt wird. Gemäß einem ihrer Aspekte löst die Erfindung die Aufgabe, indem ein Muster erkannt wird, das eine Menge physikalischer Stimuli umfasst, wobei das genannte Verfahren die folgenden Schritte umfasst:
    – Verschaffen einer Menge an Trainingsbeobachtungen und, durch Anwenden einer Vielzahl von Assoziationsmodellen, Ermitteln verschiedener Messwerte pj(k ∣⁣ x), j = 1...M, die je das Zuweisen einer speziellen Trainingsbeobachtung zu einer oder mehr zugehörigen Musterklassen betreffen;
    – Aufstellen einer logarithmisch/linearen Assoziationsverteilung durch Kombinieren aller Assoziationsmodelle der Vielzahl von Assoziationsmodellen gemäß jeweiligen Wichtungsfaktoren und Hinzufügen einer Normalisierungsgröße, um eine zusammengesetzte Assoziationsverteilung zu erzeugen;
    – Optimieren der genannten Wichtungsfaktoren, um dadurch eine detektierte Fehlerrate des tatsächlichen Zuweisens zu der genannten zusammengesetzten Verteilung zu minimieren;
    – Erkennen von Zielbeobachtungen, die ein Zielmuster repräsentieren, mit Hilfe der genannten zusammengesetzten Verteilung. Unter anderem ermöglicht eine solche Prozedur, eine beliebige Anzahl Modelle zu einer einzigen Verteilung mit maximaler Entropie zu kombinieren. Weiterhin ermöglicht sie eine optimierte Wechselwirkung von Modellen, die sich in Charakter und Repräsentation stark unterscheiden können.
  • Die Erfindung betrifft auch ein Verfahren zum Modellieren einer Assoziationsverteilung gemäß der Erfindung. Dies liefert ein hervorragendes Werkzeug für nachfolgende Benutzer der zusammengesetzten Verteilung zum Erkennen geeigneter Muster.
  • Die Erfindung betrifft auch ein Verfahren zum Erkennen von Mustern unter Verwendung einer von der Erfindung erzeugten zusammengesetzten Verteilung. Dieses Verfahren hat Benutzer, die stark von der Anwendung des von der Erfindung realisierten Werkzeugs profitieren.
  • Die Erfindung betrifft ein System, das zur praktischen Anwendunng eines erfindungsgemäßen Verfahrens ausgebildet ist. Weitere Aspekte sind in abhängigen Ansprüchen genannt.
  • KURZE BESCHREIBUNG DER ZEICHNUNG
  • Diese und andere Aspekte und Vorteile der Erfindung werden im Folgenden anhand der ausführlichen Beschreibung bevorzugter Ausführungsbeispiele und insbesondere anhand der Zeichnung näher beschrieben. Es zeigen:
  • 1 einen Gesamtablaufplan des Verfahrens;
  • 2 ein umfassendes System zur praktischen Anwendung der Erfindung; 3-21 verschiedene Gleichungen B1–B20, die mit dem automatischen erfindungsgemäßen Verfahren verwendet werden.
  • AUSFÜHRLICHE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
  • Da die Erfindung auf einer ausgewogenen Anwendung der Mathematik auf die Behandlung und das Einsetzen physikalischer Größen beruht, die sehr unterschiedlichen Charakter haben können, ist ein großer Teil der Beschreibung auf moderner Mathematik basiert. Jedoch haben sowohl der Ausgangspunkt als auch das mögliche Ergebnis stets physikalische Aspekte und Bedeutung. Die Spracherkennung kann zur Steuerung verschiedener Arien von Maschinen verwendet werden. Szenenanalyse kann unbemannte Fahrzeuge leiten. Bilderkennung kann zur Torsteuerung verwendet werden. Verschiedene andere Anwendungen sind an sich offensichtlich. Die folgenden Ausdrücke sind in ihrer Reihenfolge nummeriert und sollen im Text mit diesen Nummern bezeichnet werden.
  • Die Erfindung bestimmt modellspezifische Faktoren, um mehrere verschiedene Modelle zu einem einzigen Mustererkennungsprozess zu kombinieren und zu optimieren, insbesondere für die Spracherkennung.
  • Das statistische Spracherkennungsverfahren nutzt die Entscheidungstheorie von Bayes, um einen Identifikationsmechanismus mit minimaler Fehlerrate zu bilden. Entsprechend dieser Theorie ist die Entscheidungsregel so, dass eine Beobachtung x der Klasse k (kurz x ϵ k) zugewiesen werden muss, wenn für eine gegebene A-posteriori- oder "echte" Wahrscheinlichkeitsverteilung π(k ∣⁣ x) gilt, dass:
  • Figure 00030001
  • In der Literatur wird der Term log(π(k' ∣⁣ x)/π(k' ∣⁣ x)) Diskriminantenfunktion genannt. Im Weiteren soll dieser Term der Kürze halber als g(x,k,k') bezeichnet werden. Wenn die Entscheidungsregel (1) zum Erkennen vollständiger Sätze verwendet wird, werden beobachtete Ausdrücke x T / 1 = (x1,...,xT), die eine temporale Länge T haben, als gesprochene Wortsequenzen w S / 1 = (w1,...,wS) der Länge S klassifiziert werden. Die a-posteriori-Verteilung π(w S / 1 ∣⁣ x T / 1 ) ist jedoch unbekannt, da sie den komplizierten natürlichen Sprachkommunikationsprozess von Menschen beschreibt. Dasher muss sie durch eine Verteilung p(w S / 1 ∣⁣ x T / 1 ) angenähert werden. Bisher haben die akustisch-phonetische und grammatische Modellierung von Sprache in Form parametrischer Wahrscheinlichkeitsverteilungen die besten Ergebnisse erzielt. Die Form der Verteilung p(w S / 1 ∣⁣ x T / 1 ) ist dann vorherbestimmt; die unbekannten Parameter der Verteilung werden auf Basis von Trainingsdaten geschätzt. Die so erhaltene Verteilung p(w S / 1 ∣⁣ x T / 1 ) wird anschließend in die Bayessche Entscheidungsregel eingesetzt. Der Ausdruck x T / 1 wird dann der Wortsequenz w S / 1 zugewiesen, für die gilt:
    Figure 00040001
    Konversion der Diskriminantenfunktion
    Figure 00040002
    erlaubt, das grammatische Modell p(w S / 1) vom akustisch-phonetischen Modell p(x T / 1 ∣⁣ w S / 1) in natürlicher Weise zu trennen. Das grammatische Modell p(w S / 1) beschreibt dann die Wahrscheinlichkeit des Auftretens der Wortsequenz w S / 1 an sich, und das akustisch-phonetische Modell p(x T / 1 ∣⁣ w S / 1) berechnet die Wahrscheinlichkeit des Auftretens des akustischen Signals x T / 1 während des Äußerns der Wortsequenz w S / 1 Beide Modelle können dann gesondert geschätzt werden, sodass die relativ begrenzte Menge an Trainingsdaten optimal genutzt werden kann. Die Entscheidungsregel (3) könnte wegen einer Abweichung der Verteilung p von der unbekannten Verteilung n weniger als optimal sein, selbst wenn die Schätzung der Verteilung p optimal war. Diese Tatsache begründet die Verwendung so genannter diskriminativer Verfahren. Diskriminative Verfahren optimieren die Verteilung p direkt hinsichtlich der Fehlerrate der Entscheidungsregel, wie sie empirisch an Trainingsdaten gemessen wird. Das einfachste Beispiel solcher diskriminativer Optimierung ist die Verwendung des so genannten Sprachmodellfaktors λ Die Gleichung (3) wird dann folgendermaßen abgewandelt:
  • Figure 00050001
  • Experimente zeigen, dass die durch die Entscheidungsregel (4) erhaltene Fehlerrate abnimmt, wenn λ > 1 gewählt wird. Der Grund für diese Abweichung von der Theorie, wobei λ = 1, liegt in der unvollständigen oder unrichtigen Modellierung der Wahrscheinlichkeit des zusammengesetzten Ereignisses (w S / 1,x T / 1 ) . Letzteres ist unvermeidlich, da die Kenntnis des Prozesses, der das Ereignis (w1,x T / 1 ) erzeugt, unvollständig ist.
  • Bisher sind viele akustisch-phonetische und grammatische Sprachmodelle analysiert worden. Das Ziel dieser Analysen war, das "beste" Modell für die betreffende Erkennungsaufgabe aus der Menge bekannter oder gegebener Modelle herauszufinden. Alle auf diese Weise bestimmten Modelle sind jedoch unvollkommene Repräsentationen der echten Wahrscheinlichkeitsverteilung, sodass, falls diese Modelle für Mustererkennung, wie z. B. Spracherkennung, verwendet werden, unrichtige Erkennungen als unrichtige Zuweisungen zu Klassen auftreten. Als Beispiel offenbart das Dokument US-A-5680481 ein bekanntes Konzept für die Modellierung eines Spracherkennungsprozesses.
  • Der Erfindung liegt als Aufgabe zugrunde, eine Modellierung zu verschaffen, insbesondere für Sprache, die enger an die echte Wahrscheinlichkeitsverteilung angenähert ist und dennoch mit geringem Verarbeitungsaufwand ausgeführt werden kann, und insbesondere, einfache Integration einer höheren Anzahl bekannter oder gegebener Modelle zu einem einzigen Klassifiziermechanismus zu ermöglichen.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Der Neuheitsaspekt des Ansatzes ist, dass er nicht versucht, bekannte Spracheigenschaften in ein einziges akustisch-phonetisches Verteilungsmodell und in ein einziges grammatisches Verteilungsmodell zu integrieren, was ein komplexes und schwie riges Training beinhalten würde. Die verschiedenen akustisch-phonetischen und grammatischen Eigenschaften werden jetzt gesondert modelliert und in Form verschiedener Verteilungen pj(w S / 1 ∣⁣ x T / 1) , j = 1...M trainiert, worauf eine Integration zu einer zusammengesetzten Verteilung
  • Figure 00060001
  • Die Auswirkung des Modells pj auf die Verteilung p / {} wird durch den zugehörigen Koeffizienten λj bestimmt.
  • Der Faktor C(∧) sorgt dafür, dass die Normalisierungsbedingung für Wahrscheinlichkeiten erfüllt ist. Die freien Koeffizienten ∧ = (λ1,...,λM)tr werden so eingestellt, dass die Fehlerrate der resultierenden Diskriminantenfunktion
    Figure 00060002
    möglichst klein ist. Es gibt verschiedene Möglichkeiten, diesen Grundgedanken zu implementieren, einige davon sollen im Weiteren detailliert beschrieben werden.
  • Zunächst sollen verschiedene darin verwendete Terme definiert werden. Jede Wortsequenz w S / 1 bildet eine Klasse k; die Sequenzlänge S kann sich von einer Klasse zur anderen ändern. Eine Sprachäußerung x T / 1 wird als Beobachtung x betrachtet; ihre Länge T kann sich dann von einer Beobachtung zur anderen unterscheiden.
  • Trainingsdaten werden mit den Bezugszeichen (xn,k) bezeichnet, wobei n = 1,...,N; k = 0,...,K. Hierin ist N die Anzahl akustischer Trainingsbeobachtungen xn, und kn is die richtige Klasse, die zu der Beobachtung xn gehört. Weiterhin sind k ≠ kn die verschiedenen unrichtigen rivalisierenden Klassen, die hinsichtlich kn konkurrieren.
  • Es soll die Klassifizierung der Beobachtung x in die Klasse k entsprechend der Bayesschen Entscheidungsregel (1) betrachtet werden. Die Beobachtung x ist eine aku stische Realisierung der Klasse k. Im Fall von Spracherkennung symbolisiert jede Klasse k eine Sequenz von Wörtern. Das Verfahren kann jedoch allgemeiner angewendet werden.
  • Weil die durch die Trainingsbeobachtung xn erzeugte Klasse kn bekannt ist, kann eine ideale empirische Verteilung π(k ∣⁣ x) auf Basis der Trainingsdaten (xn,k); n = 1... N; k = 0...K konstruiert werden. Diese Verteilung sollte derart sein, dass die daraus abgeleitete Entscheidungsregel bei Anwendung auf die Trainingsdaten eine minimale Fehlerrate aufweist. Im Fall einer Klassifikation vollständiger Wortsequenzen k kann ein Klassifikationsfehler durch Selektion einer falschen Wortsequenz k ≠ kn zu mehreren Wortfehlern führen. Die Anzahl Wortfehler zwischen der unrichtigen Klasse k und der richtigen Klasse kn wird Levenshtein-Abstand E(k,kn) genannt. Die aus E(k,kn) gebildete Entscheidungsregel weist eine minimale Wortfehlerrate auf, wenn eine Monotonieeigenschaft erfüllt ist.
  • Die ideale empirische Verteilung π ist eine Funktion des empirischen Fehlerwertes E(k,kn), der nur für die Trainingsdaten gegeben ist, aber sie ist nicht in Bezug auf unbekannte Testdaten definiert, weil in diesem Fall die richtige Klassenzuweisung nicht gegeben ist. Daher wird auf Basis dieser Verteilung eine Verteilung
    Figure 00070001
    gesucht, die über willlkürliche, unabhängige Testdaten definiert ist und eine möglichst kleine empirische Fehlerrate für die Trainingsdaten aufweist. Wenn die M zuvor bestimmten Verteilungsmodelle p1(k ∣⁣ x),...,pM(k ∣⁣ x) für willkürliche Testdaten definiert sind, gilt das Vorstehende auch für die Verteilung p / {}(k ∣⁣ x) . Wenn die frei wählbaren Koeffizienten ∧ = (λ1,..., λM)tr so bestimmt werden, dass p / {}(k ∣⁣ x) für die Trainingsdaten eine minimale Fehlerrate aufweist, und wenn die Trainingsdaten repräsentativ sind, sollte p / {} (k ∣⁣ x) auch für unabhängige Testdaten eine optimale Entscheidungsregel ergeben.
  • Sowohl das GPD-Verfahren als auch das Verfahren kleinster Quadrate optimieren ein Kriterium, das die mittlere Fehlerrate des Klassifizierers annähert. Im Vergleich zu dem GPD-Verfahren bietet das Verfahren kleinster Quadrate den Vorteil, dass es eine geschlossene Lösung für den optimalen Koeffizienten ∧ ergibt.
  • Das Verfahren kleinster Quadrate soll zuerst betrachtet werden. Weil die Diskriminantenfunktion (1) die Qualität des Klassifizierers bestimmt, sollten die Koeffizi enten ∧ die mittlere quadratische Abweichung B14 der Diskriminantenfunktionen der Verteilungen p / {}(k ∣⁣ x) von der empirischen Fehlerrate E(k,kn) minimieren. Das Summieren über r enthält dann alle rivalisierenden Klassen in dem Kriterium. Minimieren von D (n) führt zu einer geschlossenen Lösung für den optimalen Koeffizientvektor A = Q–1 P (9), weitere Einzelheiten geben B 15 und B 16.
  • Hierin ist Q die Autokorrelationsmatrix der Diskriminantenfunktionen der zuvor bestimmten Verteilungsmodelle. Der Vektor P drückt die Beziehung zwischen den Diskriminantenfunktionen der zuvor bestimmten Modelle und der Diskriminantenfunktion der Verteilung n aus.
  • Die Wortfehlerrate E(k, kn) der Hypothesen k ist somit linear in den Koeffizienten λ1,...,λM aufgenommen. Umgekehrt ist die Diskriminierungskapazität des Verteilungsmodells pj linear in den Koeffizienten λ1,...,λM enthalten, um die Koeffizienten direkt mittels der Diskriminantenfunktion
    Figure 00080001
    zu bestimmen.
  • Diese Koeffizienten können auch unter Verwendung des GPD-Verfahrens bestimmt werden. Mit diesem Verfahren ist die geglättete empirische Fehlerrate E(∧):
    Figure 00080002
    kann für die Trainingsdaten direkt minimiert werden. Der linke Ausdruck ist dann ein geglättetes Maß für das Fehlerklassifikationsrisiko der Beobachtung xn. Die Werte A > 0, B > 0, η > 0 bestimmen die Art der Glättung des Fehlerklassifikationsrisikos und sollten zuvor geeignet bestimmt werden. Wenn E(λ) hinsichtlich des Koeffizienten λ der logarithmisch linearen Kombination minimiert wird, wird die folgende Iterationsgleichung mit der Schrittweite M für den Koeffizienten λj erhalten, mit j = 1,...,M.
  • λ (0) / j =1 (11), und weiterhin gemäß B 13 und B 14 und ∧(I) = (λ (I) / 1,...,λ (I) / M)tr; j =1,...,M .
  • Es sei bemerkt, dass der Koeffizientenvektor ∧ in dem Kriterium E(∧) mittels der Diskriminantenfunktion
    Figure 00090001
    enthalten ist. Wenn E(∧) abnimmt, sollte die Diskriminantenfunktion (12) im Mittel zunehmen, wegen (9) und (10). Dies führt zu einer weiter verbesserten Entscheidungsregel, siehe (1).
  • In Obigem war das Ziel, alle verfügbaren Wissensquellen zu einem einzigen Mustererkennungssystem zu integrieren. Zwei Prinzipien werden vereinigt. Das erste ist das Prinzip der maximalen Entropie. Dieses arbeitet mit einem Einführen von so wenig Annahmen wie möglich, sodass die Unsicherheit maximal wird. Daher müssen Exponentialverteilungen verwendet werden. Auf diese Weise wird die Struktur der Quellenkombination definiert. Das zweite Prinzip ist diskriminatives Training, um die den verschiedenen Wissenquellen zugewiesenen Wichtungsfaktoren und die zugehörigen Modelle zu ermitteln. Durch Optimieren der Parameter werden die Fehler minimiert. Für Sprache können Modelle semantisch, syntaktisch, akustisch und anderes sein.
  • Der Ansatz ist das logarithmisch-lineare Kombinieren verschiedener Teilmodelle und das Schätzen von Parametern dutrch diskriminatives Training. Auf diese Weise kann das Hinzufügen eines Teilmodells das Erkennungsresultat verbessern. Falls nicht, kann das betreffende Modell verworfen werden. Ein Teilmodell kann jedoch niemals Erkennungsgenauigkeit vermindern. Auf diese Weise können alle verfügbaren Teilmodelle kombiniert werden, um optimale Ergebnisse zu erhalten. Eine andere Anwendung der Er findung ist, eine vorhandene Modelllcombination an eine neue Erkennungsumgebung anzupassen.
  • Der theoretische Ansatz der Prozedur enthält verschiedene Aspekte:
    • – parabolisches Glätten der empirischen Fehlerrate
    • – Vereinfachen der Theorie des "Trainings bei minimaler Fehlerrate "
    • – Verschaffen einer Lösung in geschlossener Form, die keine Iterationssequenz benötigt.
  • Die Erfindung verschafft weiterhin zusätzliche Möglichkeiten:
    • – Schätzen eines optimalen Sprachmodellfaktors
    • – Anwenden eines logarithmisch-linearen Hidden-Markov-Modells
    • – Gleichungen in geschlossener Form für optimale Modellkombination
    • – Gleichungen in geschlossener Form für diskriminatives Training von klassenspezifischen Wahrscheinlichkeitsverteilungen.
  • Für die in (1) aufgeführte Klassifikationsaufgabe ist jetzt die wahre oder Posterior-Verteilung π(k ∣⁣ x) unbekannt, aber sie wird durch eine Modellverteilung (p(k ∣⁣ x) angenähert. Die beiden Verteilungen unterscheiden sich wegen unrichtiger Modellierungsannahmen und wegen ungenügender Daten. Ein Beispiel ist der in Gleichung B 1 verwendete Sprachmodellfaktorλ .
  • Die formale Definition kombiniert verschiedene Teilmodelle pj(k ∣⁣ x), j = 1...M zu einer logarithmisch-linearen Posterior-Verteilung p{∧}(k ∣⁣ x) = exp {..}, wie in (5) angegeben. Neben der logarithmisch-linearen Kombination der verschiedene Teilmodelle erlaubt der Term log C(∧) Normalisierung, um eine formale Wahrscheinlichkeitsverteilung zu erhalten. Die resultierende Diskriminantenfunktion ist
    Figure 00100001
    Die Fehlerrate ist minimiert und n ist optimiert. Optimieren auf Satzebene verläuft folgendermaßen:
  • – Klasse k: Wortsequenz
  • – Beobachtung x: gesprochene Äußerung (z. B. Satz)
  • – N Trainingstichproben xn, die den richtigen Satz ergeben
  • – Für jede Stichprobe xn
  • – kn: richtige Klasse, wie gesprochen
  • – k ≠ kn: rivalisierende Klassen, die alle möglichen Sätze sein können oder beispielsweise eine sinnvolle Teilmenge davon.
  • i Ähnlichkeit von Klassen: E(kn,k)
  • – E: geeignete Funktion des Levenshtein-Abstandes, oder ein gleichermaßen geeignetes Maß, das monoton ist.
  • – Anzahl Wörter in der Wortsequenz kn: Ln.
  • Gleichung B3 gibt jetzt eine objektive Funktion an, die empirische Fehlerrate. Hierbei führt die linke Seite der Gleichung die wahrscheinlichste Klasse ein, die auf der Anzahl falscher Abweichungen zwischen Klassen k und kn beruht.
  • Die Parameter n können geschätzt werden durch:
  • – ein Training bei minimaler Fehlerrate durch "Generalized Probabilistic Descent", was eine iterative Lösung ergibt.
  • – eine Abwandlung hiervon, mit parabolischer Glättung kombiniert, was eine Lösung als geschlossene Form ergibt.
  • – ein drittes Verfahren, basiert auf kleinsten Quadraten, was wiederum eine Lösung als geschlossene Form ergibt.
  • Für das GPD-Verfahren beruht das Minimieren der geglätteten empirischen Fehlerrate auf dem Ausdruck B4. Das geglättete Fehlklassifikationsrisiko wird durch Gleichung B5 gegeben und die Bemittelte Rivalität durch Gleichung B6.
  • Die geglättete empirische Fehlerrate wird mittels B7 minimiert. Hierbei ist 1 eine Verlust-Funktion, die für unkomplizierte Berechnungen differenzierbar sein muss. Die Rivalität wird durch Gleichung B8 gegeben, wobei E die Fehlerzahl angibt. Die mittlere Rivalität wird durch Summieren in Gleichung B9 gegeben. Ein geglättetes Fehlklassifikationsrisiko wird durch Gleichung B10 ausgedrückt, die sich wie eine Siginoidfunktion verhält. Für Rn= –∞wird 1 gleich null, für Rn= +∞ist der Grenzwert 1 = 1. Hierbei sind A, B Skaliezungskonstanten, die größer sind als null. Differenzieren nach n ergibt Ausdruck B11, in dem der Vektor ∧(I) durch den Ausdruck B12 und das letztliche Ergebnis durch Ausdruck B13 gegeben werden.
  • Die Erfindung verschafft auch eine Lösung als geschlossene Form für das Finden der diskriminativen Modellkombination DMC. Die Lösung ist, den Abstand zwischen einerseits der Diskriminantenfunktion und andererseits der idealen Diskriminantenfunktion E(kn,k) in einem Verfahren kleinster Quadrate zu minimieren. Der Basisausdruck wird durch Gleichung B14 gegeben. Hierin ist ∧ = Q–1P , wobei Q eine Matrix mit Elementen Qij ist, die durch Gleichung B15 gegeben werden. Weiterhin ist P ein Vektor mit Elementen Pi die durch Gleichung B 16 gegeben werden. Die empirische Fehlerrate ist jetzt bereits in Gleichung B3 gegeben worden. Aus rechnerischen Gründen wird diese durch eine geglättete empirische Fehlerrate angenähert; wie durch Gleichung B 17 ausgedrückt. Hierin wird eine Angabe zur Fehlerzahl zwischen k und kn gemacht, indem eine Sigmoidfunktion S oder eine gleichermaßen brauchbare Funktion verwendet wird. Eine brauchbare Form ist S(x)={(x + B)/(A + B)}2, wobei –B < × < A und –B < 0 < A. Für höhere Werte von x ist S = 1 und für niedrigere Werte S = 0. Diese Parabel hat sich als brauchbar erwiesen. Verschiedene andere Kurven zweiten Grades haben sich als brauchbar erwiesen. Die betreffenden Rivalen müssen jetzt in dem mittleren und parabolisch gekrümmten Intervall von S liegen. Schließlich wird jetzt eine Normalisierungsrandbedingung für n gemäß dem Ausdruck B18 hinzugefügt.
  • Das zweite Kriterium wird gemäß einer Matrixgleichung (α, λtr)tr = Q'–1P' gelöst, wobei die Matrix Q' aus Normalisierungsgründen um eine zusätzliche Zeile und Spalte ergänzt worden ist, gemäß Q'0,0 = 0; Q'0,j = 1, Q'i,0 = 1/2(A + B)2. Das allgemeine Element der Korrelationsmatrix Q' ist in Gleichung B19 angegeben worden. Es sei bemerkt, dass die geschlossene Lösung durch die geglättete Schrittfunktion s möglich gemacht worden ist. Weiterhin erhält der Vektor P' gleichermaßen ein Normalisierungselement p0 = 1, während sein allgemeines Element durch den Ausdruck B20 angegeben wird.
  • Experimente sind mit verschiedenen M-gramm-Sprachmodellen ausgeführt worden, wie z. B. Bigramm-, Trigramm-, Viergramm- oder Tetragramm-Modelle, und verschiedenen akustischen Modellen, wie z. B. wortinterne Triphon-, Cross-Word-Trigrammund Pentaphon-Modelle. Im Allgemeinen ist das Ergebnis der automatischen DMC-Prozedur genauso gut wie die mit nichtautomatischer Feinabstimmung bei Verwendung der gleichen Menge aus Teilmodellen erhaltenen Ergebnisse. Das Hinzufügen zusätzlicher Teilmodelle entsprechend der automatischen Prozedur der Erfindung ermöglichte jedoch eine Abnahme der Fehlerzahl um etwa 8%. Dies wird bei der ausgeklügelten Technik der Spracherkennung als bedeutsamer Schritt vorwärts betrachtet. Erwartet wird, dass die Erfindung ähnlich gute Ergebnisse für das Erkennen anderer Typen von Mustern, wie z. B. Unterschriften, Handschriftanalyse und Ähnliches liefert, angesichts der Verfügbarkeit geeigneter Teilmodelle. Andere, für die breiteste Erkennung verwendete Teilmodelle enthielten mllr-Anpassung, Unigramm, Abstand-1-Bigramm, wobei ein Zwischenelement als "don't care" betrachtet wird, Pentaphone und wsj-Modelle. In dieser Umgebung verringerte das
  • Erhöhen der Anzahl Teilmodelle in der automatischen Prozedur der Erfindung die Fehlerzahl ebenfalls um eine signifikante Menge von 8–13%.
  • 1 zeigt einen Gesamtablaufplan eines erfindungsgemäßen Verfahrens. In Block 20 wird das Training mit einer Menge Trainingsdaten oder Mustern gestartet, die in Block 22 verschafft wird. Soweit notwendig, beansprucht der Start benötigte Softwareund Hardwareeinrichtungen; insbesondere werden auch die verschiedenen Teilmodelle und die Identität der verschiedenen Muster verschafft. Der Einfachheit halber ist die Anzahl Teilmodelle auf 2 begrenzt worden, aber die Anzahl kann höher sein. In parallelen Blöcken 24 und 26 werden die Resultate für die einzelnen Teilmodelle ermittelt. In Block 28 wird die logarithmisch-lineare Kombination der verschiedenen Teilmodelle ausgeführt und normalisiert. In Block 30 wird das Maschinenoptimieren von Vektor n angesichts der niedrigsten erreichbaren Fehlerrate ausgeführt. Es sei bemerkt, dass Vektor n eine oder mehr nullwertige Komponenten haben kann, um zu signalisieren, dass das zugehörige Teilmodell oder die zugehörigen Teilmodelle keinerlei Verbesserung mit sich bringen würden.
  • Als Nächstes werden der Vektor n und die verschiedenen anwendbaren Teilmodelle zum Erkennen von Zieldaten verwendet, wie in der rechten Hälfte der Figur gezeigt. Das Training links und der Gebrauch rechts können sowohl zeitlich als auch räumlich voneinander entfernt ausgeführt werden, beispielsweise könnte eine Person eine Maschine beim Lieferanten auf die Stimme dieser Person trainieren lassen. Dies könnte zusätzliche Datenverarbeitungseinrichtungen erforden. Später kann die so trainierte Maschi ne im Haushalt oder im Auto oder anders verwendet werden. Somit haben die Blöcke 40–46 entsprechende Blöcke auf der linken Seite.
  • In Block 48 werden die Bewertungen aus den verschiedenen Teilmodellen logarithmisch-linear kombiniert, wobei die verschiedenen Komponenten von Vektor n verwendet werden, die im Training gefunden worden sind. Schließlich werden in Block 50 die Zieldaten unter Verwendung der Ergebnisse aus Block 50 klassifiziert. In Block 52 wird die Prozedur gestoppt, wenn sie fertig ist.
  • 2 zeigt ein umfassendes System zur praktischen Anwendung der Erfindung. Die notwendigen Einrichtungen können auf Standardhardware abgebildet werden oder auf eine zweckgebundene Maschine. Item 60 ist eine geeignete Aufnahmeeinrichtung, wie z. B. ein Sprachrecorder, ein zweidimensionaler optischer Scanner, zusammen mit A/D-Einrichtungen und qualitätsverbessernder Vorverarbeitung, falls notwendig. Block 64 repräsentiert die Verarbeitung, die Programme aus dem Programmspeicher 66 auf Daten an wendet, die von der Aufnahmeeinrichtung 60 kommen können oder aus dem Datenspeicher 62, wo sie ständig oder vorübergehend gespeichert sein können, nachdem sie von der Aufnahmeeinrichtung 60 weitergeleitet worden sind. Die Leitung 70 kann Benutzersteuersignale empfangen, wie z. B. Start/Stopp, und eventuell trainingsunterstützende Signale, wie z. B. zum definitiven Deaktivieren eines keine Rolle spielenden Teilmodells.
  • Block 68 macht das Erkennungsergebnis brauchbar, wie z. B. durch Tabellieren, Ausdrucken, Adressieren einer Dialogstruktur zum Rückgewinnen einer geeigneten Sprachantwort oder Selektieren eines geeigneten Ausgangssteuersignals. Block 72 symbolisiert die Verwendung der erkannten Sprache, wie z. B. Ausgeben einer Sprachreplik, Öffnen eines Tors für eine erkannte Person, Selektieren eines Pfades in einer Sortiermaschine und Ähnliches.
  • INSCHRIFT DER ZEICHNUNG
  • Figur 1
  • 20 Start Training
    22 Trainingsdaten
    24, 44 Resultatmodell 1
    26, 46 Resultatmodell 2
    28 zwei Modelle logarithmisch/linear kombinieren und normalisieren
    30 maschinenoptimieren des Vektors ∧ für die beste Fehlerrate
    40 Start Betrieb
    42 Zieldaten
    48 zwei Modelle logarithmisch/linear kombinieren, unter Verwendung von A aus dem Training
    50 Zieldaten klassifizieren
    52 Stopp
  • Figur 2
  • 62 Daten
    60 Aufnahmeeinrichtung
    64 Verarbeitung
    68 Ergebnis
    72 Verwendung
    66 Programm

Claims (10)

  1. Verfahren zum Erkennen eines Musters, das eine Menge physikalischer Stimuli umfasst, wobei das Verfahren die folgenden Schritte umfasst: – Verschaffen einer Menge an Trainingsbeobachtungen und, durch Anwenden einer Vielzahl von Assoziationsmodellen, Ermitteln verschiedener Messwerte pj(k ∣⁣ x), j = 1...M, die je das Zuweisen einer speziellen Trainingsbeobachtung zu einer oder mehr zugehörigen Musterklassen betreffen; – Aufstellen einer logarithmisch/linearen Assoziationsverteilung durch Kombinieren aller Assoziationsmodelle der Vielzahl von Assoziationsmodellen gemäß jeweiligen Wichtungsfaktoren und Hinzufügen einer Normalisierungsgröße, um eine zusammengesetzte Assoziationsverteilung zu erzeugen; – Optimieren der genannten Wichtungsfaktoren, um dadurch eine detektierte Fehlerrate des tatsächlichen Zuweisens zu der genannten zusammengesetzten Verteilung zu minimieren; – Erkennen von Zielbeobachtungen, die ein Zielmuster repräsentieren, mit Hilfe der genannten zusammengesetzten Verteilung.
  2. Verfahren zum Modellieren einer Assoziationsverteilung für Muster, die eine Vielzahl physikalischer Stimuli umfassen; wobei das Verfahren die folgenden Schritte umfasst: – Verschaffen einer Menge an Trainingsbeobachtungen und, durch Anwenden einer Vielzahl von Assoziationsmodellen, Ermitteln verschiedener Messwerte pj(k ∣⁣ x), j = 1...M, die je das Zuweisen einer spezielle Trainingsbeobachtung zu einer oder mehr zugehörigen Musterklassen betreffen; – Aufstellen einer logarithmisch/linearen Assoziationsverteilung durch Kombinieren aller Assoziationsmodelle der Vielzahl von Assoziationsmodellen gemäß jeweiligen Wichtungsfaktoren und Hinzufügen einer Normalisierungsgröße, um eine zusammengesetzte Assoziationsverteilung zu erzeugen; – Optimieren der genannten Wichtungsfaktoren, um dadurch eine detektierte Fehlerrate des tatsächlichen Zuweisens zu der genannten zusammengesetzten Verteilung zu minimieren.
  3. Verfahren zum Erkennen eines Musters, das eine Menge physikalischer Stimuli umfasst, wobei das Verfahren die folgenden Schritte umfasst: – Empfangen einer Vielzahl von Assoziationsmodellen, die verschiedene Messwerte pj(k ∣⁣ x); j = 1...M angeben, die je das Zuweisen einer Beobachtung zu einer oder mehr zugehörigen Musterklassen betreffen, wobei die Assoziationsmodelle zu einer logarithmisch/ linearen Assoziationsverteilung gemäß jeweiligen Wichtungsfaktoren kombiniert sind, der eine Normalisierungsgröße hinzugefügt ist, um eine zusammengesetzte Assoziationsverteilung zu erzeugen; – Optimieren der genannten Wichtungsfaktoren, um dadurch eine detektierte Fehlerrate des tatsächlichen Zuweisens zu der genannten zusammengesetzten Verteilung zu minimieren; – Erkennen von Zielbeobachtungen, die ein Zielmuster repräsentieren, mit Hilfe der ge nannten zusammengesetzten Verteilung.
  4. Verfahren nach Anspruch 1, in dem das genannte Assoziationsmodell ein Wahrscheinlichkeitsmodell ist, und die genannte Assoziationsverteilung ein Wahrscheinlichkeitsmodell zum Assozieren ist.
  5. Verfahren nach Anspruch 1, in dem das genannte Optimieren durch Minimieren einer Trainingsfehlerrate in iterativer Weise erreicht wird, wobei die genannte Fehlerrate in stetiger und differenzierbarer Weise als Funktion von Rivalitätswerten nichtopti malen Zuweisens ausgedrückt wird.
  6. Verfahren nach Anspruch 1, indem das genannte Optimieren in einem Verfahren kleinster Quadrate zwischen einer tatsächliche Diskriminantenfunktion, wie sie sich aus der genannten zusammengesetzten Verteilung ergibt, und einer idealen Diskriminantenfunktion, wie auf Basis einer Fehlerrate ausgedrückt, erreicht wird, wobei der Wichtungsvektor A in einem geschlossenen Ausdruck als ∧ = Q–1P ausgedrückt wird, mit: Q: Autokorrelationsmatrix der Diskriminantenfunktionen der verschiedenen Modelle p: Korrelationsvektor zwischen der Fehlerrate und den Diskriminantenfunktionen.
  7. Verfahren nach Anspruch 6, in dem die empirische Fehlerrate geglättet wird, indem sie als Kurve zweiten Grades in einem Intervall (–B,A) dargestellt wird, während ∧ mittels eines Einschränkens von ∑λj =1 normalisiert wird, während weiterhin der Wich tungsvektor ∧ in einem geschlossenen Ausdruck gemäß ∧ = Q'–1P' ausgedrückt wird, wobei Q' durch ein addiertes Normalisierungselement eine erweiterte Autokorrelationsmatrix ist und P durch. ein weiteres addiertes Normalisierungelement ein erweiterter Korrelationsvektor.
  8. Verfahren nach Anspruch 4 und auf Spracherkennung angewendet, in dem die genannten Wahrscheinlichkeitsmodelle eines oder mehrere aus der folgenden Menge umfassen:
  9. als Sprachmodelle: Bigramm, Trigramm, Viergramm, als akustische Modelle: wortinterne Triphone, Cross-Word-Triphone, Maximum-Likelihood-Anpassungsmodelle mit linearer Regression; als zusätzliche Modelle: Unigramm, Abstand-1-Bigramm (wobei das mittlere Element als "don't care" angenommen wird), Pentaphone.
  10. System, das zum Ausführen eines Verfahrens nach Anspruch 1 angepasst ist, zum Erkennen eines Musters, das eine Menge physikalischer Stimuli umfasst, wobei das genannte System Folgendes umfasst: – Aufnahmemittel zum Empfangen eines Körpers aus Trainingsbeobachtungen und mit ersten Verarbeitungsmitteln verbunden, um durch eine Vielzahl gespeicherter Assoziationsmodelle verschiedene Messwerte j(k ∣⁣ x), j = 1...M zu ermitteln, die je das Zuweisen einer speziellen Beobachtung zu einer oder mehr Klassen von Mustern betreffen; – zweite Verarbeitungsmittel, die von den genannten ersten Verarbeitungsmitteln gespeist werden und die ausgebildet sind zum Aufstellen einer logarithmisch/linearen Assoziationsverteilung durch Kombinieren aller Assoziationsmodelle der Vielzahl von Assoziationsmodellen gemäß jeweiligen Wichtungsfaktoren und Hinzufügen einer Normalisierungsgröße, um eine zusammengesetzte Assoziationsverteilung zu erzeugen; – dritte Verarbeitungsmittel, die von den genannten zweiten Verarbeitungsmitteln gespeist werden, zum Optimieren der genannten Wichtungsfaktoren, um dadurch eine detektierte Fehlerrate des tatsächlichen Zuweisens zu der genannten zusammengesetzten Verteilung zu minimieren; – Erkennungsmittel, die von den genannten dritten Verarbeitungsmittel gespeist werden, zum Erkennen von Zielbeobachtungen, die ein Zielmuster mit Hilfe der genannten zusammengesetzten Verteilung repräsentieren.
DE69815067T 1997-12-12 1998-12-11 Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster Expired - Lifetime DE69815067T2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE69815067T DE69815067T2 (de) 1997-12-12 1998-12-11 Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
DE19755191 1997-12-12
DE1997155191 DE19755191A1 (de) 1997-12-12 1997-12-12 Verfahren zum Bestimmen modellspezifischer Faktoren für die Mustererkennung
EP98203725 1998-11-06
EP98203725 1998-11-06
DE69815067T DE69815067T2 (de) 1997-12-12 1998-12-11 Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster
PCT/IB1998/001990 WO1999031654A2 (en) 1997-12-12 1998-12-11 Method of determining model-specific factors for pattern recognition, in particular for speech patterns

Publications (2)

Publication Number Publication Date
DE69815067D1 DE69815067D1 (de) 2003-07-03
DE69815067T2 true DE69815067T2 (de) 2004-02-26

Family

ID=26042396

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69815067T Expired - Lifetime DE69815067T2 (de) 1997-12-12 1998-12-11 Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster

Country Status (5)

Country Link
US (2) US6456969B1 (de)
EP (1) EP0960417B1 (de)
JP (1) JP2001511267A (de)
DE (1) DE69815067T2 (de)
WO (1) WO1999031654A2 (de)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69815067T2 (de) * 1997-12-12 2004-02-26 Philips Intellectual Property & Standards Gmbh Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster
US6519562B1 (en) * 1999-02-25 2003-02-11 Speechworks International, Inc. Dynamic semantic control of a speech recognition system
US6687689B1 (en) 2000-06-16 2004-02-03 Nusuara Technologies Sdn. Bhd. System and methods for document retrieval using natural language-based queries
US7343311B2 (en) * 2002-03-01 2008-03-11 I2 Technologies Us, Inc. Generating an optimized supplier allocation plan
US7117153B2 (en) * 2003-02-13 2006-10-03 Microsoft Corporation Method and apparatus for predicting word error rates from text
US20040186714A1 (en) * 2003-03-18 2004-09-23 Aurilab, Llc Speech recognition improvement through post-processsing
JP2004317845A (ja) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法
US7318022B2 (en) * 2003-06-12 2008-01-08 Microsoft Corporation Method and apparatus for training a translation disambiguation classifier
JP4516527B2 (ja) * 2003-11-12 2010-08-04 本田技研工業株式会社 音声認識装置
US7464031B2 (en) * 2003-11-28 2008-12-09 International Business Machines Corporation Speech recognition utilizing multitude of speech features
US20060235698A1 (en) * 2005-04-13 2006-10-19 Cane David A Apparatus for controlling a home theater system by speech commands
US7680659B2 (en) * 2005-06-01 2010-03-16 Microsoft Corporation Discriminative training for language modeling
US7693713B2 (en) * 2005-06-17 2010-04-06 Microsoft Corporation Speech models generated using competitive training, asymmetric training, and data boosting
US8924212B1 (en) 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
WO2007142102A1 (ja) * 2006-05-31 2007-12-13 Nec Corporation 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
US20080059522A1 (en) * 2006-08-29 2008-03-06 International Business Machines Corporation System and method for automatically creating personal profiles for video characters
US20080147579A1 (en) * 2006-12-14 2008-06-19 Microsoft Corporation Discriminative training using boosted lasso
US7925505B2 (en) * 2007-04-10 2011-04-12 Microsoft Corporation Adaptation of language models and context free grammar in speech recognition
US20080275743A1 (en) * 2007-05-03 2008-11-06 Kadambe Shubha L Systems and methods for planning
US8275615B2 (en) * 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
US8843370B2 (en) * 2007-11-26 2014-09-23 Nuance Communications, Inc. Joint discriminative training of multiple speech recognizers
US9659559B2 (en) * 2009-06-25 2017-05-23 Adacel Systems, Inc. Phonetic distance measurement system and related methods
US9240184B1 (en) * 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
US9449610B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Speech probability presence modifier improving log-MMSE based noise suppression performance
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
KR102601848B1 (ko) * 2015-11-25 2023-11-13 삼성전자주식회사 데이터 인식 모델 구축 장치 및 방법과 데이터 인식 장치
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US11270686B2 (en) * 2017-03-28 2022-03-08 International Business Machines Corporation Deep language and acoustic modeling convergence and cross training

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680481A (en) * 1992-05-26 1997-10-21 Ricoh Corporation Facial feature extraction method and apparatus for a neural network acoustic and visual speech recognition system
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
IT1257073B (it) * 1992-08-11 1996-01-05 Ist Trentino Di Cultura Sistema di riconoscimento, particolarmente per il riconoscimento di persone.
US5721808A (en) * 1995-03-06 1998-02-24 Nippon Telegraph And Telephone Corporation Method for the composition of noise-resistant hidden markov models for speech recognition and speech recognizer using the same
US5675706A (en) * 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
JP3810469B2 (ja) * 1996-03-06 2006-08-16 ヒューレット・パッカード・カンパニー パターン認識方法
DE69815067T2 (de) * 1997-12-12 2004-02-26 Philips Intellectual Property & Standards Gmbh Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster

Also Published As

Publication number Publication date
WO1999031654A2 (en) 1999-06-24
US20020165714A1 (en) 2002-11-07
US6456969B1 (en) 2002-09-24
WO1999031654A3 (en) 1999-08-26
US8112274B2 (en) 2012-02-07
DE69815067D1 (de) 2003-07-03
JP2001511267A (ja) 2001-08-07
EP0960417B1 (de) 2003-05-28
EP0960417A2 (de) 1999-12-01

Similar Documents

Publication Publication Date Title
DE69815067T2 (de) Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
EP0604476B1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69615748T2 (de) Verfahren und Gerät zur Sprecherprüfung mittels Unterscheidung der Prototypen-Zusammenstellung
DE69914839T2 (de) Sprecherverifikation und -erkennung mittels Eigenstimmen
DE69829187T2 (de) Halbüberwachte Sprecheradaptation
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE69226804T2 (de) Spracherkennung durch ein zum Bezugmusterlernen angepasstes neuronales Netzwerk
DE69323841T2 (de) Klassifikation bei Spracherkennung von isolierten Wörtern in Schlüsselwörter und Nicht-Schlüsselwörter
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE69620324T2 (de) Unterscheidende Verifizierung von Äusserungen für die Erkennung zusammenhängender Ziffern
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE69331254T2 (de) Erkennungssystem zum Erkennen von Personen
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE69229124T2 (de) Mehrteiliger expertsystem
DE68924134T2 (de) Spracherkennungssystem.
EP0987683B1 (de) Spracherkennungsverfahren mit Konfidenzmassbewertung
DE602005000603T2 (de) Verfahren zur Bestimmung von Wahrscheinlichkeitsparametern für ein veränderliches Zustandsraummodell
DE69819438T2 (de) Verfahren zur Spracherkennung
DE69517571T2 (de) Verfahren zur Erkennung von Mustern
EP1251489A2 (de) Training von Parametern eines Spracherkennungssystems zur Erkennung von Aussprachevarianten
EP0964390A2 (de) Vorrichtung zur Verifizierung von Signalen
EP1199704A2 (de) Auswahl der alternativen Wortfolgen für diskriminative Anpassung
EP0285222A2 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter

Legal Events

Date Code Title Description
8364 No opposition during term of opposition