DE60204374T2 - Spracherkennungsvorrichtung - Google Patents

Spracherkennungsvorrichtung Download PDF

Info

Publication number
DE60204374T2
DE60204374T2 DE60204374T DE60204374T DE60204374T2 DE 60204374 T2 DE60204374 T2 DE 60204374T2 DE 60204374 T DE60204374 T DE 60204374T DE 60204374 T DE60204374 T DE 60204374T DE 60204374 T2 DE60204374 T2 DE 60204374T2
Authority
DE
Germany
Prior art keywords
standard pattern
distribution
distributions
speech
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60204374T
Other languages
English (en)
Other versions
DE60204374D1 (de
Inventor
Koichi Minato-ku Shinoda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Application granted granted Critical
Publication of DE60204374D1 publication Critical patent/DE60204374D1/de
Publication of DE60204374T2 publication Critical patent/DE60204374T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Complex Calculations (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zum Erzeugen von Standardmustern für die Mustererkennung unter Verwendung eines Mischungsmodells und insbesondere eine Spracherkennungsvorrichtung, bei der ein Hidden-Markov-Modell (HMM) unter Verwendung einer Gaußmischung (oder einer gemischten Gaußverteilung) als eine Ausgangswahrscheinlichkeitsverteilung verwendet wird.
  • In den letzten Jahren wurden Forschungen in bezug auf die maschinelle Erkennung von Sprachmustern ausgeführt und verschiedene Verfahren vorgeschlagen. Bei einem typischen dieser Verfahren wird ein Hidden-Markov-Modell (HMM) verwendet. Sprecherunabhängige Spracherkennungssysteme, bei denen die Sprache irgendeines Sprechers unter Verwendung eines Hidden-Markov-Modells erkannt wird, waren der Gegenstand aktiver Forschung und Entwicklung.
  • Ein Spracherkennungssystem wird unter Verwendung des Beispiels eines Hidden-Markov-Modells anhand 2 unten beschrieben. Die in eine Spracherkennungsvorrichtung eingegebene Sprache eines Sprechers wird in eine Eingangsmuster-Erzeugungseinrichtung 101 eingegeben und Verarbeitungen, wie einer A/D-Wandlung und einer Sprachanalyse, unterzogen. Anschließend wird die verarbeitete Sprache in eine Zeitreihe von Merkmalsvektoren auf der Grundlage einer als Rahmen bezeichneten Einheit mit einer vorgegebenen Zeitlänge umgewandelt.
  • Die Zeitreihe der Merkmalsvektoren wird hier als ein Eingangsmuster bezeichnet. Die Rahmenlänge liegt normalerweise in etwa im Bereich von 10 ms bis 100 ms.
  • Merkmalsvektoren werden aus der Menge der Merkmale von Sprachspektren gewonnen, die gewöhnlich 10 bis 100 Dimensionen aufweisen.
  • Das HMM wird in einer Standardmuster-Speichereinrichtung 103 gespeichert. Das HMM ist eines der Modelle von Sprachinformationsquellen, und seine Parameter können unter Verwendung der Sprache eines Sprechers gelernt werden. Das Erkennungsverfahren in bezug auf das HMM wird hier detailliert beschrieben, und das HMM wird im allgemeinen für jede Erkennungseinheit eingerichtet.
  • Hier wird ein Phonem als ein Beispiel einer Erkennungseinheit angenommen. Bei einem sprecherunabhängigen Spracherkennungssystem wird beispielsweise ein durch Lernen der Stimmen einer großen Anzahl von Sprechern erzeugtes sprecherunabhängiges HMM als das HMM in einer Standardmuster-Speichereinrichtung 103 verwendet.
  • Ein Wort-HMM wird in einer Erkennungseinrichtung 104 verwendet, um die Erkennung der Eingangsmuster vorzunehmen.
  • Das HMM ist ein Modell von Sprachinformationsquellen, bei dem Statistik zur Beschreibung von Standardmustern verwendet wird, um Variationen von Sprachmustern Rechnung zu tragen.
  • Eine detaillierte Beschreibung des HMMs ist in "Fundamentals of Speech Recognition", Rabiner und Juang, 1993, Prentice Hall (nachstehend als Dokument 1 bezeichnet) angegeben.
  • Das HMM jedes Phonems wird aus 1 bis 10 Zuständen und Zustandsübergängen dazwischen gebildet. Im allgemeinen sind ein Anfangszustand und ein Endzustand definiert. Zu jeder Zeiteinheit werden an jedem Zustand Symbole ausgegeben, um einen Zustandsübergang zu bewirken.
  • Die Sprache jedes Phonems wird als eine Zeitreihe vom HMM während der Zustandsübergänge vom Anfangszustand in den Endzustand ausgegebener Symbole dargestellt.
  • Die Auftrittswahrscheinlichkeit eines Symbols in jedem Zustand und die Übergangswahrscheinlichkeit zwischen den jeweiligen Zuständen sind festgelegt.
  • Übergangswahrscheinlichkeitsparameter stellen zeitliche Variationen von Sprachmustern dar.
  • Ausgangswahrscheinlichkeitsparameter stellen Variationen von Sprachmustern in Sprachtönen dar.
  • Wenn die Wahrscheinlichkeit eines Anfangszustands fest auf einen bestimmten Wert gelegt ist, kann durch Multiplizieren der Auftrittswahrscheinlichkeit und der Übergangswahrscheinlichkeit an jedem Zustandsübergang eine Wahrscheinlichkeit für das Auftreten eines von dem Modell erzeugten Sprachsignals erhalten werden.
  • Wenn umgekehrt ein Sprachsignal beobachtet wird, kann seine Auftrittswahrscheinlichkeit unter der Annahme berechnet werden, daß das Sprachsignal von einem bestimmten HMM erzeugt wird. Bei der Spracherkennung durch HMMs wird das HMM für jedes Erkennungskandidatenziel eingerichtet, und wenn ein Sprachsignal eingegeben wird, wird die Auftrittswahrscheinlichkeit bei jedem HMM erhalten, und es wird ein HMM, bei dem die Wahrscheinlichkeit am größten ist, als eine Erzeugungsquelle festgelegt und ein Erkennungskandidatenziel, das dem HMM entspricht, als ein Erkennungsergebnis angenommen.
  • Als Ausgangswahrscheinlichkeitsparameter sind der diskrete Wahrscheinlichkeitsverteilungsausdruck und der kontinuierliche Wahrscheinlichkeitsverteilungsausdruck gegeben, wobei der kontinuierliche Wahrscheinlichkeitsverteilungsausdruck in diesem Beispiel verwendet wird.
  • Beim kontinuierlichen Wahrscheinlichkeitsverteilungsausdruck wird häufig eine gemischte kontinuierliche Verteilung, d.h. eine Verteilung, die durch Addieren mehrerer Gaußverteilungen mit Gewichten erhalten wird, verwendet.
  • Im folgenden Beispiel wird die Ausgangswahrscheinlichkeit durch eine gemischte kontinuierliche Wahrscheinlichkeitsverteilung ausgedrückt.
  • Parameter, wie ein Ausgangswahrscheinlichkeitsparameter, ein Übergangswahrscheinlichkeitsparameter und Gewichte mehrerer Gaußverteilungen, werden vorab durch den sogenannten Baum-Welch-Algorithmus gelernt, der eine einem Modell entsprechende Lernstimme bereitstellt.
  • Es sei beispielsweise der Fall betrachtet, in dem die Erkennung von 1000 Wörtern ausgeführt wird, wobei dies der Fall ist, in dem ein einziges richtiges Wort aus 1000 Worterkennungskandidaten zu bestimmen ist.
  • Zuerst werden im Fall einer Worterkennung die HMMs für jedes Phonem verknüpft, um die HMMs für die Erkennungskandidatenwörter zu erzeugen.
  • Im Fall einer 1000-Wörter-Erkennung werden die Wort-HMMs für 1000 Wörter erzeugt. Ein als Zeitreihe von Merkmalsvektoren ausgedrücktes Eingangsmuster O wird als die nachstehende Gleichung (1) dargestellt: O = o1, o2, o3, ..., ot, ..., oT (1)
  • Vorstehend stellt T die Gesamtzahl der Rahmen eines Eingangsmusters dar.
  • Erkennungskandidaten-Zielwörter werden als W1, W2, ..., WN bezeichnet, wobei N die Anzahl der Erkennungskandidaten-Zielwörter darstellt.
  • Ein Vergleich bzw. Abgleich zwischen einem Wort-HMM für jedes Wort Wn und einem Eingangsmuster 0 wird unter Verwendung der folgenden Prozedur ausgeführt. Nachstehend wird der Suffix N fortgelassen, es sei denn, daß er erforderlich ist.
  • Zuerst wird in Bezug auf ein Wort-HMM die Übergangswahrscheinlichkeit von einem Zustand j in einen Zustand i als aji dargestellt, wird das gemischte Gewicht einer Ausgangswahrscheinlichkeitsverteilung als cim dargestellt, wird ein mittlerer Vektor jeder Element-Gaußverteilung als μim dargestellt und wird die Kovarianzmatrix als Σim dargestellt. Hierbei stellt t eine Eingabezeit dar, stellen i und j einen HMM-Zustand dar und stellt m eine Anzahl gemischter Elemente dar.
  • Anschließend werden die folgenden Rekursionsformeln in bezug auf die Vorwärtswahrscheinlichkeit αt(i) angewendet.
  • Diese Vorwärtswahrscheinlichkeit αt(i) ist die Wahrscheinlichkeit, daß der Zustand i zur Zeit t auftritt, wenn die beobachtete Teil-Zeitreihe o1, o2, ..., ot ausgegeben wird. αt(i) = πi (i = 1, 2, ..., I) (2) αt+1(i) = Σ jαt(j)ajibt(Ot+1) (i = 1, 2, ..., I; t = 1, ..., T) (3)
  • Vorstehend stellt n die Wahrscheinlichkeit dar, daß der Anfangszustand i ist.
  • In Gleichung (3) ist bi(Ot+1) durch die folgenden Gleichungen (4) und (5) definiert. bi(Ot) = Σ mcimN(Ot; μim, Σim) (4) N(Ot; μim, Σim) = (2π)–K/ 2im|–1/2exp(–(μim – Ot–1m – Ot)/2) (5)
  • In Gleichung (5) ist K die Dimension des eingegebenen Rahmens und des mittleren Vektors.
  • Die Wahrscheinlichkeit eines Eingangsmusters für das Wort Wn wird durch die folgende Gleichung (6) erhalten. Pn(X) = αT(I) (6)
  • In Gleichung (6) ist I der Endzustand.
  • Diese Verarbeitung wird für jedes Wortmodell ausgeführt, und ein Erkennungsergebniswort Wn für das Eingangsmuster X wird anhand der folgenden Gleichung (7) bestimmt (wobei ein Dach über n angeordnet ist): n ^ = argmaxnPn(X) (7)
  • Das Erkennungsergebniswort Wn wird zum Erkennungsergebnis-Ausgabeabschnitt gesendet. Der Erkennungsergebnis-Ausgabeabschnitt gibt das Erkennungsergebnis an einen Bildschirm aus oder gibt einen Steuerbefehl ansprechend auf das Erkennungsergebnis an andere Einheiten aus.
  • Die Standardmuster-Erzeugungseinrichtung 102 wird nachstehend beschrieben. Im Fall einer sprecherunabhängigen Erkennung sammelt die Standardmuster-Erzeugungseinrichtung 102 vorab die Sprache einer großen Anzahl von Sprechern und führt unter Verwendung dieser Sprachproben eine Parametervorhersage aus.
  • Zuerst wird anhand Gleichung (8) und Gleichung (9) eine Rückwärtswahrscheinlichkeit abgeleitet: βT(i) = 1 (i = 1, ..., N) (8)
  • Figure 00060001
  • In Gleichung (9) ist βt(i) bei gegebener Zeit t und gegebenem Zustand i die Wahrscheinlichkeit einer teilweise beobachteten Zeitsequenz von der Zeit t + 1 bis zum Endzustand.
  • Unter Verwendung der Vorwärtswahrscheinlichkeit und der Rückwärtswahrscheinlichkeit ist die Wahrscheinlichkeit bei einer gegebenen beobachteten Sequenz O, daß der Zustand i zur Zeit t existiert, durch die folgende Gleichung (10) gegeben:
  • Figure 00060002
  • Die Wahrscheinlichkeit, daß der Zustand i zur Zeit t existiert und daß der Zustand j zur Zeit t + 1 existiert, ist durch Gleichung (11) gegeben:
  • Figure 00070001
  • Im Fall einer gemischten Gaußverteilung ist die Wahrscheinlichkeit, daß ein k-ter Zustand i in den gemischten Elementen zur Zeit t existiert (die Belegungsfrequenz) durch die folgende Gleichung (12) gegeben:
  • Figure 00070002
  • Auf der Grundlage der vorstehenden Gleichungen sind die Vorhersagewerte π, α, μ, Σ und c durch die Gleichungen (13) bis (17) gegeben: π = γ1(j) (13)
  • Figure 00070003
  • Beim Baum-Welch-Algorithmus werden Parameter anhand dieser Vorhersagewerte aktualisiert, und die aktualisierten Parameter werden zum weiteren und wiederholten Vorhersagen der Vorhersagewerte verwendet.
  • Es hat sich herausgestellt, daß die Wahrscheinlichkeit des Erreichens einer Erkennung der beobachteten Sequenz bei jeder Iteration zunimmt.
  • Vorstehend wurde ein Beispiel der Verwendung des HMMs angegeben, das in der Vergangenheit verwendet wird.
  • Wie vorstehend beschrieben wurde, sind der diskrete Verteilungsausdruck und der kontinuierliche Verteilungsausdruck Darstellungen der Ausgangswahrscheinlichkeit.
  • Von den beiden Verteilungsausdrücken werden der kontinuierliche Verteilungsausdruck und der gemischte Gaußverteilungsausdruck besonders häufig verwendet.
  • Der Grund für die Verwendung der gemischten Gaußverteilung besteht darin, daß dadurch eine überlegene Leistungsfähigkeit beim Ausdrücken der Ausgangswahrscheinlichkeitsverteilung erzielt wird.
  • In dem Fall, in dem die gemischte Gaußverteilung (nachstehend einfach als gemischte Verteilung bezeichnet) verwendet wird, gibt es keine klare Anweisung dafür, wie viele Elementverteilungen gebildet werden sollten.
  • Beim HMM mit einer gemischten Verteilung ist es üblich, die Anzahl der Elementverteilungen als für jeden Zustand für alle Zustände konstant anzunehmen und mit verschiedenen Anzahlen von Elementverteilungen zu testen, wobei daraus die Anzahl der Elementverteilungen ausgewählt wird, bei der sich die beste Leistungsfähigkeit ergibt.
  • Es kann jedoch erwartet werden, daß die erforderliche Anzahl von Elementverteilungen, abhängig vom Zustand, abweicht.
  • Falls beispielsweise eine unnötig große Anzahl von Elementverteilungen gebildet wird, führt dies zu einer Erhöhung des Rechenaufwands, der zum Berechnen der Wahrscheinlichkeit der Elementverteilung erforderlich ist.
  • Für einen Zustand mit einer geringen Auftrittswahrscheinlichkeit besteht beim Prozeß der Parametervorhersage eine Möglichkeit einer Verschlechterung der Funktionsweise bei unbekannten Daten, für die ein übermäßiges Lernen ausgeführt wird.
  • Daher ist es erwünscht, daß die Anzahl der Elementverteilungen für jeden Zustand von HMMs einer gemischten Verteilung für jeden Zustand optimiert wird.
  • Das einfachste Verfahren zum Optimieren der Anzahl der Elementverteilungen für jeden Zustand besteht darin, ein Erkennungsexperiment auszuführen, wenn die Anzahl der Elementverteilungen für jeden Zustand geändert wird, und die Anzahl der Elementverteilungen mit der höchsten Erkennungsleistung für jeden Zustand auszuwählen.
  • Weil die Gesamtzahl der HMM-Zustände sehr groß ist und gewöhnlich von 1000 bis 10000 reicht, ist das Optimieren der Anzahl der Elementverteilungen für jeden Zustand in Hinblick auf den erforderlichen Rechenaufwand praktisch unmöglich.
  • Eine Aufgabe der vorliegenden Erfindung besteht demgemäß angesichts des vorstehend beschriebenen Hintergrunds darin, eine Spracherkennungsvorrichtung bereitzustellen, welche die Anpassung der Anzahl der Elementverteilungen wirksam und schnell in einem Wahrscheinlichkeitsmodell, bei dem eine gemischte Verteilung verwendet wird, vornimmt.
  • In EP-A-0 802 523 ist ein Standardmuster-Erzeugungssystem zur Mustererkennung offenbart, wobei ein Informationskriterium zum Auswählen von einem von mehreren Standardmustern verwendet wird.
  • Zum Lösen der vorstehend erwähnten Aufgaben verwendet die vorliegende Erfindung den folgenden grundlegenden technischen Aufbau.
  • Der erste Aspekt der vorliegenden Erfindung ist eine Spracherkennungsvorrichtung unter Verwendung eines Wahrscheinlichkeitsmodells, bei dem eine gemischte Verteilung verwendet wird, wobei die Vorrichtung aufweist: eine Standardmuster-Speichereinrichtung zum Speichern eines Standardmusters, eine Erkennungseinrichtung zum Ausgeben von Erkennungsergebnissen entsprechend eingegebener Sprache unter Verwendung des Standardmusters, eine Standardmuster-Erzeugungseinrichtung zum Eingeben von Lernsprache und zum Erzeugen des Standardmusters und eine Standardmuster-Anpassungseinrichtung, die zwischen der Standardmuster-Erzeugungseinrichtung und der Standardmuster-Speichereinrichtung bereitgestellt ist, zum Optimieren der Anzahl der Elementverteilungen der gemischten Verteilungen für jeden einzelnen Zustand des Standardmusters.
  • Der zweite Aspekt der vorliegenden Erfindung ist eine Spracherkennungsvorrichtung unter Verwendung eines Wahrscheinlichkeitsmodells, bei dem eine gemischte Verteilung verwendet wird, wobei die Vorrichtung aufweist: eine Standardmuster-Speichereinrichtung zum Speichern eines Standardmusters, eine Erkennungseinrichtung zum Ausgeben von Erkennungsergebnissen entsprechend eingegebener Sprache unter Verwendung des Standardmusters, eine Standardmuster-Modifikationseinrichtung zum Eingeben von Sprache, um das Standardmuster anzupassen und zu modifizieren, und eine Standardmuster-Anpassungseinrichtung zum Optimieren der Anzahl der Elementverteilungen der gemischten Verteilung für jeden einzelnen Zustand des Standardmusters.
  • Gemäß dem dritten Aspekt der vorliegenden Erfindung weist die Standardmuster-Anpassungseinrichtung auf: eine Baumstruktur-Erzeugungseinrichtung zum Erzeugen einer Baumstruktur der Elementverteilung und eine Elementverteilungs-Auswahleinrichtung zum Auswählen von Verteilungen ansprechend auf in die Standardmuster-Erzeugungseinrichtung eingegebene Lerndaten.
  • Gemäß dem vierten Aspekt der vorliegenden Erfindung weist die Standardmuster-Anpassungseinrichtung eine Minimax-Verteilungsauswahleinrichtung zum Auswählen einer Elementverteilung unter Verwendung eines Minimax-Verfahrens auf.
  • Gemäß dem fünften Aspekt der vorliegenden Erfindung verwendet die Elementverteilungs-Auswahleinrichtung den Umfang der jeder Elementverteilung entsprechenden Lerndaten als ein Kriterium bei der Auswahl von Elementverteilungen.
  • Gemäß dem sechsten Aspekt der vorliegenden Erfindung verwendet die Elementverteilungs-Auswahleinrichtung eine minimale Beschreibungslänge als ein Kriterium bei der Auswahl von Elementverteilungen.
  • Gemäß dem siebten Aspekt der vorliegenden Erfindung verwendet die Elementverteilungs-Auswahleinrichtung ein Akaike-Informationskriterium als ein Kriterium bei der Auswahl von Elementverteilungen.
  • Gemäß dem achten Aspekt der vorliegenden Erfindung verwendet die Baumstruktur-Erzeugungseinrichtung eine Divergenz als einen Zwischenverteilungsabstand bei der Auswahl von Elementverteilungen.
  • Gemäß dem neunten Aspekt der vorliegenden Erfindung verwendet die Baumstruktur-Erzeugungseinrichtung eine Wahrscheinlichkeit in bezug auf Lerndaten als einen Zwischenverteilungsabstand.
  • Gemäß dem zehnten Aspekt der vorliegenden Erfindung wird ein Hidden-Markov-Modell als das Wahrscheinlichkeitsmodell verwendet.
  • Ausführungsformen der vorliegenden Erfindung werden nachstehend detailliert mit Bezug auf die anliegende Zeichnung beschrieben. Es zeigen:
  • 1 ein Blockdiagramm, in dem die Konfiguration einer Spracherkennungsvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung dargestellt ist, und
  • 2 ein Blockdiagramm, in dem die Konfiguration einer herkömmlichen Spracherkennungsvorrichtung dargestellt ist.
  • 1 ist ein Blockdiagramm, in dem die Konfiguration einer Spracherkennungsvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung dargestellt ist, welche sich von der in 2 dargestellten herkömmlichen Konfiguration dadurch unterscheidet, daß zwischen der Standardmuster-Erzeugungseinrichtung 102 und der Standardmuster-Speichereinrichtung 103 eine Standardmuster-Anpassungseinrichtung 203 bereitgestellt ist. In den Blöcken der in 1 dargestellten Spracherkennungsvorrichtung wurden Elemente, die in 2 dargestellten Blöcken gleichen (die Eingangsmuster-Erzeugungseinrichtung 101, die Standardmuster-Erzeugungseinrichtung 102, die Standardmuster-Speichereinrichtung 103 und die Erkennungseinrichtung 104), mit den gleichen Bezugszahlen bezeichnet und werden nicht detailliert beschrieben.
  • In diesen Zeichnungen erzeugt die Eingangsmustererzeugungseinrichtung 101 ein Eingangsmuster anhand eingegebener Sprache (ein von einem Sprecher erzeugtes Tonsignal). Die Standardmuster-Erzeugungseinrichtung 102 erzeugt Standardmuster, wie für den Fall des Stands der Technik beschrieben wurde.
  • Die Standardmuster-Anpassungseinrichtung 203 ändert die Anzahl der Elementverteilungen eines erzeugten Standardmusters.
  • Die Standardmuster-Speichereinrichtung 103 speichert erzeugte Standardmuster, und die Erkennungseinrichtung 104 führt die Erkennung eingegebener Sprache unter Verwendung von Standardmustern aus und gibt ein Erkennungsergebnis aus.
  • Eine Ausführungsform der vorliegenden Erfindung wird nachstehend detailliert mit Bezug auf die Arbeitsweise der Standardmuster-Anpassungseinrichtung 203 beschrieben, welche ein über die herkömmliche Technik hinausgehendes Merkmal darstellt.
  • Das Problem des Optimierens der Anzahl der Elementverteilungen für Zustände des Hidden-Markov-Modells (HMM) kann als das Problem des Auswählens eines Wahrscheinlichkeitsmodells, das in bezug auf die gegebenen Daten optimiert ist, behandelt werden.
  • Bei dieser Auswahl eines Wahrscheinlichkeitsmodells wurde in der Vergangenheit eine Vielzahl von Informationskriterien vorgeschlagen.
  • Gemäß dieser Ausführungsform wird die minimale Beschreibungslänge, die ein solches Kriterium darstellt, zum Optimieren der Verteilungsanzahl verwendet.
  • Zunächst sei bemerkt, daß sich anhand der neueren Informationstheorie und der Forschung an einer Theorie des computergestützten Lernens das Kriterium der minimalen Beschreibungslänge (MDL-Kriterium) für das Problem des Auswählens eines optimalen Wahrscheinlichkeitsmodells in bezug auf Daten als wirksam erwiesen hat.
  • Das Kriterium der minimalen Beschreibungslänge ist in "Mathematical Principle of Information and Coding" (T. S. Han und Kingo Kobayashi, Iwanami Shoten, Publishers (1994) (nachstehend als Dokument 2 bezeichnet)) auf den Seiten 249 bis 275 beschrieben. Ähnlich dem AIC (Informationskriterium von Akaike) handelt es sich hierbei um ein Kriterium, das eine Implementation des Konzepts ist, daß ein gutes Modell möglichst einfach ist, während es die gegebenen Daten getreu ausdrückt.
  • Das MDL-Kriterium nimmt als das optimale der Wahrscheinlichkeitsmodelle i = 1, ..., I ein Modell an, das in bezug auf Daten s = s1, ..., sN die minimale Beschreibungslänge ergibt. In diesem Fall ist die minimale Beschreibungslänge I MDL (i) in bezug auf ein Wahrscheinlichkeitsmodell durch Gleichung (18) gegeben:
  • Figure 00130001
  • Vorstehend ist αi die Dimension des Modells i (die Anzahl der freien Parameter) und θ(i) der Wahrscheinlichkeitsvorhersagewert des freien Parameters θ(i) = (θ1 (i), ..., θα1 (i)) eines unter Verwendung von Daten XN vorhergesagten Modells i.
  • In der vorstehenden Gleichung (18) ist der erste Term ein Betrag, der durch Anwenden eines negativen Vorzeichens auf die logarithmische Wahrscheinlichkeit in bezug auf Daten (nachstehend als Wahrscheinlichkeit bezeichnet) erhalten wird, der zweite Term ein Betrag, der die Komplexität des Modells ausdrückt, und der dritte Term die Beschreibungslänge, die zum Auswählen des Modells i erforderlich ist.
  • Auf diese Weise wird, weil die Wahrscheinlichkeit in bezug auf Daten umso größer wird, je komplexer das Modell wird, dabei der erste Term verkleinert.
  • Wenn das Modell komplex wird, nimmt die Anzahl der freien Parameter zu, so daß der Wert des zweiten Terms größer wird.
  • Auf diese Weise gibt es eine Ausgleichsbeziehung zwischen dem ersten und dem zweiten Term, und es wird erwartet, daß die Beschreibungslänge I MDL (i) für ein Modell mit der geeigneten Komplexität einen Minimalwert annimmt.
  • Ein Algorithmus zum Optimieren der Anzahl der Elementverteilungen für jeden Zustand unter Verwendung dieses MDL-Kriteriums ist der nachstehend beschriebene.
  • Zuerst wird die gewöhnliche Prozedur zum Ausführen eines HMM-Lernens einer gemischten Gaußverteilung unter Verwendung von Lerndaten verwendet.
  • Hierbei wird die Anzahl der Elementverteilungen für alle Zustände konstant gehalten, und ein HMM wird durch Vergrößern der Anzahl der Elementverteilungen bis zu einer Anzahl, die als eine Obergrenze angesehen wird, gelernt.
  • Die Belegungsfrequenz γ't(i, k) wird während des Lernprozesses für jede Elementverteilung gespeichert. In diesem Ausdruck ist i der Zustandsindex und k der Index der Elementverteilung in diesem Zustand.
  • Als nächstes führt die Standardmuster-Anpassungseinrichtung 203 eine Optimierung der Anzahl der Elementverteilungen für jeden einzelnen Zustand aus. Danach wird nur ein bestimmter Zustand i beschrieben, wodurch der Index i fortgelassen werden kann. Die Standardmuster-Anpassungs einrichtung 203 führt die gleiche Verarbeitung auch für die anderen Zustände aus.
  • Zuerst erzeugt die Standardmuster-Anpassungseinrichtung 203 durch ihre Baumstruktur-Erzeugungseinrichtung eine Baumstruktur der Elementverteilungen für jeden einzelnen Zustand. Die Wurzel davon ist eine einzige Verteilung, und die Zweige davon sind die jeweiligen Elementverteilungen.
  • Wenn dies ausgeführt wird, wird in diesem Fall ein verzweigter Baum unter Verwendung eines k-Mittelungsalgorithmus erzeugt, wenngleich verschiedene Verfahren zum Erzeugen der Baumstruktur der Elementverteilungen vorgesehen werden können.
  • Die Kullback-Divergenz wird für den Abstand zwischen Elementverteilungen (Zwischenverteilungsabstand) verwendet. Diese Kullback-Divergenz kann leicht anhand des Mittelwerts und der Kovarianz der Gaußverteilung berechnet werden.
  • Das Verfahren zur Erzeugung einer Baumstruktur von Elementverteilungen wurde in JP-B-002531073 und in dem vorstehend erwähnten Dokument 2 detailliert beschrieben.
  • Als nächstes bestimmt die Standardmuster-Anpassungseinrichtung 203 die Varianz der Verteilungen an jedem Knoten der Baumstruktur (Knotenverteilungen).
  • Die Varianz der Knotenverteilungen wird anhand der Belegungsfrequenz und der Gaußverteilungsparameter der Verteilungen aller Zweige, welche diese Varianz festlegen, bestimmt.
  • Ein Satz von Knotenverteilungen, welche die Baumstruktur zwischen dem oberen und dem unteren Teil unterteilen, wird als ein Schnitt bezeichnet. Wenngleich es eine große Anzahl von Schnitten gibt, stellt jeder Schnitt ein Wahrscheinlichkeitsmodell für seinen Zustand dar. In diesem Fall sei die Bestimmung des optimalen Schnitts unter Verwendung des MDL-Kriteriums betrachtet.
  • Beispielsweise wird die minimale Beschreibungslänge für einen gegebenen Schnitt U wie nachstehend dargestellt berechnet. In diesem Fall werden die Knotenverteilungen, welche den Schnitt bilden, als S1, ..., SM angenommen, wobei M die Anzahl der den Schnitt bildenden Knotenverteilungen ist.
  • Hierdurch wird die Wahrscheinlichkeit L (Sm) in bezug auf die Datenverteilung Sm durch die Gleichungen (19) und (20) genähert.
  • Figure 00160001
  • In Gleichung (19) gilt:
    Figure 00160002
    wobei S die Zweigverteilung aller Zweige unterhalb der Verteilung Sm ist und K die Dimension des mittleren Vektors und der Kovarianzmatrix ist, die als das gemeinsame Standardmuster verwendet wird.
  • In Gleichung (19) sind μSm und ΣSm der mittlere Vektor bzw. die Kovarianzmatrix der Verteilung Sm.
  • Es ist unter Verwendung der vorstehend beschriebenen Ergebnisse möglich, die Beschreibungslänge I(U) des Schnitts U auszudrücken, wie in Gleichung (21) dargestellt ist.
  • Figure 00160003
  • In Gleichung (21) gilt:
    Figure 00160004
    wobei V eine Größe ist, die der Gesamtzahl der U entsprechenden Datenrahmen entspricht, wobei diese konstant ist und nicht von der Unterteilung abhängt.
  • Die Standardmuster-Anpassungseinrichtung 203 berechnet die Beschreibungslänge I(U) für alle möglichen Schnitte und wählt einen Schnitt mit dem minimalen I(U)-Wert aus.
  • Hierbei ist die Anzahl der Typen möglicher Teilungen, also die Anzahl der Schnitte U, gewöhnlich sehr groß. Angesichts dessen ist es unter Verwendung eines Algorithmus, wie nachstehend angegeben wird, möglich, Rechenzeit zu sparen, wenn die Berechnung zum Auswählen eines Schnitts U ausgeführt wird. Das Verfahren zum Optimieren der Anzahl der Elementverteilungen für jeden Zustand p ist das folgende.
  • Zuerst wird ein Knoten in bezug auf einen Zustand p erzeugt, wobei dieser Knoten als der Wurzelknoten bezeichnet wird. Die Verteilungsparameter des Wurzelknotens werden für alle Datenproben entsprechend allen Verteilungen für diesen Zustand vorhergesagt.
  • Beispielsweise ist für eine verzweigte Baumstruktur, eine Wurzelknotenverteilung von S0, wobei die beiden abhängigen Verteilungen davon S1 und S2 sind, der Änderungsbetrag in der Beschreibungslänge während der Erweiterung vom Wurzelknoten zu den abhängigen Knoten durch Gleichung (23) gegeben.
  • Figure 00170001
  • Beispielsweise führt die Standardmuster-Anpassungseinrichtung 203 im Fall Δ < 0 eine Erweiterung der Stammknoten aus, und sie führt im Fall Δ > 0 keine Erweiterung aus.
  • Wenn die Erweiterung ausgeführt wird, werden für die weiteren Knoten S1 und S2 eine Wiederholung der Berechnung des Änderungsbetrags der Beschreibungslänge, wenn eine Er weiterung ausgeführt wird, und eine Beurteilung, ob eine Erweiterung auszuführen ist, vorgenommen.
  • Nach Abschluß der Erweiterung für alle Knoten wird der Knotensatz am äußersten Ende zum Schnitt, und seine Knotenverteilung wird als die Elementverteilung ausgewählt.
  • Dann wird ein gemischtes Gaußverteilungs-HMM, das nur die neu ausgewählte Verteilung als eine Elementverteilung aufweist, erzeugt, und diese Elementverteilung wird während des Lernens anhand Daten gelernt.
  • Vorstehend wurde eine in 1 dargestellte Ausführungsform der vorliegenden Erfindung beschrieben.
  • Wenngleich sich die vorstehende Beschreibung auf das Beispiel der Verwendung eines Hidden-Markov-Modells (HMM) bezieht, welches der vorliegenden Erfindung gemäß Anspruch 10 der anliegenden Ansprüche entspricht, ist zu verstehen, daß die Anwendung auch in dem Fall einfach ist, in dem das Modell eine gemischte Gaußverteilung ist.
  • Wenngleich in der vorstehenden Beschreibung einer Ausführungsform der vorliegenden Erfindung das Beispiel des Lernens eines akustischen Modells angegeben wurde, ist es selbst im Fall der Sprecheranpassung, wobei ein kleiner Sprachumfang von einem Sprecher verwendet wird, um die Standardmuster zu korrigieren, möglich, Sprecheranpassungsdaten zu verwenden, um die Anzahl der Elementverteilungen anzupassen.
  • Im vorstehend erwähnten Fall wird an Stelle der Verwendung einer Standardmuster-Erzeugungseinrichtung in der Spracherkennungsvorrichtung eine Standardmuster-Korrektureinrichtung verwendet, wobei die in die Standardmuster-Korrektureinrichtung eingegebene Sprache Sprache vom selben Sprecher ist, die für die Eingangsmuster-Erzeugungseinrichtung für die Erkennung verwendet wird.
  • Wenngleich sich die vorstehende Beschreibung einer Spracherkennungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung auf eine Anpassungseinrichtung für die Anzahl der Elementverteilungen unter Verwendung einer Baum struktur bezieht, ist es auch möglich, eine Anpassung unter Verwendung einer Minimax-Verteilungsauswahleinrichtung vorzunehmen, bei der das Minimax-Verfahren verwendet wird, wobei diese Bedingung nachstehend beschrieben wird.
  • Zuerst wird ein Satz von Verteilungen, die oberhalb einer vorgeschriebenen Anzahl von Malen (X Mal) in den Lerndaten auftreten, als der Satz A angenommen, wobei andere Verteilungen der Satz B sind.
  • Alle Abstände zwischen Verteilungen, die zu A gehören, und Verteilungen, die zu B gehören, werden berechnet, und es wird aus den B-Verteilungen der Abstand von der Verteilung in A beseitigt, der der größte zu der nächsten Verteilung in A ist.
  • Von den übrigen Verteilungen in B wird die Verteilung beseitigt, die den größten Abstand von der Verteilung hat, die die nächste in A ist.
  • Die Prozedur wird wiederholt, bis eine vorgegebene Minimalzahl von Verteilungen erreicht wurde.
  • Wenn die Anzahl der Verteilungen nicht unterhalb der Minimalzahl der Verteilungen liegt (d.h. wenn die Anzahl der B-Verteilungen kleiner ist), wird die vorstehend erwähnte Verarbeitung an diesem Punkt unterbrochen, wobei dies der vorliegenden Erfindung gemäß Anspruch 4 der anliegenden Ansprüche entspricht.
  • Wenngleich gemäß der vorstehend erwähnten Ausführungsform ein MDL-Kriterium für die Knotenauswahl verwendet wird, ist es auch möglich, einen Datenvolumen-Schwellenwert zu verwenden. Das heißt, daß der Verteilungssatz, der einem Zweig von Verteilungen mit einem Datenumfang am nächsten liegt, der größer ist als ein Schwellenwert, als der Schnitt angenommen wird, wobei dies der vorliegenden Erfindung gemäß Anspruch 5 der anliegenden Ansprüche entspricht.
  • Wenngleich die vorstehend erwähnte Ausführungsform ein MDL-Kriterium als das Datenumfangskriterium verwendet, läßt sich zusätzlich die Anwendung auch leicht in dem Fall verwirklichen, in dem das Akaike-Informationskriterium oder ein anderes ähnliches Informationsumfangskriterium verwendet wird, wobei dies der vorliegenden Erfindung gemäß Anspruch 7 der anliegenden Ansprüche entspricht.
  • Wenngleich die Ausführungsform der vorliegenden Erfindung für den Fall beschrieben wurde, in dem die Divergenz als der Zwischenverteilungsabstand verwendet wird, ist es alternativ auch möglich, das Maß der Erhöhung der Wahrscheinlichkeit mit geteilten Verteilungen als Abstandswert zu verwenden, wobei dies der vorliegenden Erfindung gemäß Anspruch 9 der anliegenden Ansprüche entspricht.
  • Wenngleich die Erfindung in bezug auf eine als Beispiel dienende Ausführungsform erläutert und beschrieben wurde, werden Fachleute verstehen, daß die vorstehenden und verschiedene andere Änderungen, Fortlassungen und Hinzufügungen daran vorgenommen werden können, ohne vom Schutzumfang der vorliegenden Erfindung abzuweichen. Daher sollte die vorliegende Erfindung nicht als auf die vorstehend dargelegte spezifische Ausführungsform beschränkt verstanden werden, sondern alle möglichen Ausführungsformen einschließen, die innerhalb des Schutzumfangs der anliegenden Ansprüche verwirklicht werden können.
  • Bei einer Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung wird die Anzahl der Elementverteilungen von Standard-Sprachmustern bei der Mustererkennung unter Verwendung einer gemischten Gaußverteilung durch die Verwendung einer neu hinzugefügten Parameteranpassungseinrichtung für jeden Zustand des HMMs optimiert. Das heißt, daß durch Anpassen der Anzahl der Elementverteilungen, so daß die Erkennungsleistung für jeden Zustand des HMMs groß gemacht wird, eine Beeinträchtigung in bezug auf unbekannte Daten, die durch ein übermäßiges Lernen hervorgerufen wird, verhindert wird, wodurch eine Spracherkennung mit hoher Leistungsfähigkeit ermöglicht wird.

Claims (10)

  1. Spracherkennungsvorrichtung unter Verwendung eines Wahrscheinlichkeitsmodells, bei dem eine gemischte Verteilung verwendet wird, wobei die Vorrichtung aufweist: eine Standardmuster-Speichereinrichtung (103) zum Speichern eines Standardmusters, eine Erkennungseinrichtung (104) zum Ausgeben von Erkennungsergebnissen entsprechend eingegebener Sprache unter Verwendung des Standardmusters, eine Standardmuster-Erzeugungseinrichtung (102) zum Eingeben von Lernsprache und zum Erzeugen des Standardmusters und eine Standardmuster-Anpassungseinrichtung (203), die zwischen der Standardmuster-Erzeugungseinrichtung (102) und der Standardmuster-Speichereinrichtung (103) bereitgestellt ist, zum Optimieren der Anzahl der Elementverteilungen der gemischten Verteilung für jeden einzelnen Zustand des Standardmusters.
  2. Spracherkennungsvorrichtung unter Verwendung eines Wahrscheinlichkeitsmodells, bei dem eine gemischte Verteilung verwendet wird, wobei die Vorrichtung aufweist: eine Standardmuster-Speichereinrichtung (103) zum Speichern eines Standardmusters, eine Erkennungseinrichtung (104) zum Ausgeben von Erkennungsergebnissen entsprechend eingegebener Sprache unter Verwendung des Standardmusters, eine Standardmuster-Modifikationseinrichtung zum Eingeben von Sprache, um das Standardmuster anzupassen und zu modifizieren, und eine Standardmuster-Anpassungseinrichtung (203) zum Optimieren der Anzahl der Elementverteilungen der gemischten Verteilung für jeden einzelnen Zustand des Standardmusters.
  3. Vorrichtung nach Anspruch 1 oder 2, wobei die Standardmuster-Anpassungseinrichtung (203) aufweist: eine Baumstruktur-Erzeugungseinrichtung zum Erzeugen einer Baumstruktur der Elementverteilung und eine Elementverteilungs-Auswahleinrichtung zum Auswählen von Verteilungen ansprechend auf in die Standardmuster-Erzeugungseinrichtung eingegebene Lerndaten.
  4. Vorrichtung nach Anspruch 1, 2 oder 3, wobei die Standardmuster-Anpassungseinrichtung (203) eine Minimax-Verteilungsauswahleinrichtung zum Auswählen einer Elementverteilung unter Verwendung eines Minimax-Verfahrens aufweist.
  5. Vorrichtung nach Anspruch 3 oder 4, wobei die Elementverteilungs-Auswahleinrichtung den Umfang der jeder Elementverteilung entsprechenden Lerndaten als ein Kriterium bei der Auswahl von Elementverteilungen verwendet.
  6. Vorrichtung nach Anspruch 3 oder 4, wobei die Elementverteilungs-Auswahleinrichtung eine minimale Beschreibungslänge als ein Kriterium bei der Auswahl von Elementverteilungen verwendet.
  7. Vorrichtung nach Anspruch 3 oder 4, wobei die Elementverteilungs-Auswahleinrichtung ein Akaike-Informationskriterium als ein Kriterium bei der Auswahl von Elementverteilungen verwendet.
  8. Vorrichtung nach einem der Ansprüche 3 bis 7, wobei die Baumstruktur-Erzeugungseinrichtung eine Divergenz als einen Zwischenverteilungsabstand bei der Auswahl von Elementverteilungen verwendet.
  9. Vorrichtung nach einem der Ansprüche 3 bis 8, wobei die Baumstruktur-Erzeugungseinrichtung eine Wahrscheinlichkeit in bezug auf Lerndaten als einen Zwischenverteilungsabstand verwendet.
  10. Vorrichtung nach einem der Ansprüche 1 bis 9, wobei ein Hidden-Markov-Modell als das Wahrscheinlichkeitsmodell verwendet wird.
DE60204374T 2001-03-13 2002-03-11 Spracherkennungsvorrichtung Expired - Lifetime DE60204374T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001070108A JP4336865B2 (ja) 2001-03-13 2001-03-13 音声認識装置
JP2001070108 2001-03-13

Publications (2)

Publication Number Publication Date
DE60204374D1 DE60204374D1 (de) 2005-07-07
DE60204374T2 true DE60204374T2 (de) 2006-03-16

Family

ID=18928034

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60204374T Expired - Lifetime DE60204374T2 (de) 2001-03-13 2002-03-11 Spracherkennungsvorrichtung

Country Status (4)

Country Link
US (1) US7437288B2 (de)
EP (1) EP1241661B1 (de)
JP (1) JP4336865B2 (de)
DE (1) DE60204374T2 (de)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7966187B1 (en) 2001-02-15 2011-06-21 West Corporation Script compliance and quality assurance using speech recognition
JP4069715B2 (ja) * 2002-09-19 2008-04-02 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置
JP4194433B2 (ja) * 2003-07-07 2008-12-10 キヤノン株式会社 尤度算出装置および方法
JP2005156593A (ja) * 2003-11-20 2005-06-16 Seiko Epson Corp 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置
JP4442211B2 (ja) * 2003-12-12 2010-03-31 セイコーエプソン株式会社 音響モデル作成方法
JP4510517B2 (ja) * 2004-05-26 2010-07-28 日本電信電話株式会社 音響モデル雑音適応化方法およびこの方法を実施する装置
US20060058999A1 (en) * 2004-09-10 2006-03-16 Simon Barker Voice model adaptation
KR100664960B1 (ko) 2005-10-06 2007-01-04 삼성전자주식회사 음성 인식 장치 및 방법
US20070088552A1 (en) * 2005-10-17 2007-04-19 Nokia Corporation Method and a device for speech recognition
CN100502463C (zh) * 2005-12-14 2009-06-17 浙江工业大学 一种交通流信息视频检测中的特征采集方法
JP2007233308A (ja) * 2006-03-03 2007-09-13 Mitsubishi Electric Corp 音声認識装置
US7680664B2 (en) * 2006-08-16 2010-03-16 Microsoft Corporation Parsimonious modeling by non-uniform kernel allocation
US9141860B2 (en) 2008-11-17 2015-09-22 Liveclips Llc Method and system for segmenting and transmitting on-demand live-action video in real-time
US8725510B2 (en) * 2009-07-09 2014-05-13 Sony Corporation HMM learning device and method, program, and recording medium
US9367745B2 (en) 2012-04-24 2016-06-14 Liveclips Llc System for annotating media content for automatic content understanding
US20130283143A1 (en) * 2012-04-24 2013-10-24 Eric David Petajan System for Annotating Media Content for Automatic Content Understanding
JP5997114B2 (ja) * 2013-08-14 2016-09-28 日本電信電話株式会社 雑音抑圧装置、雑音抑圧方法、およびプログラム
US10110486B1 (en) 2014-10-30 2018-10-23 Pearson Education, Inc. Automatic determination of initial content difficulty
US10218630B2 (en) 2014-10-30 2019-02-26 Pearson Education, Inc. System and method for increasing data transmission rates through a content distribution network
US10318499B2 (en) 2014-10-30 2019-06-11 Pearson Education, Inc. Content database generation
WO2016070124A1 (en) 2014-10-30 2016-05-06 Pearson Education, Inc. Content database generation
US10116563B1 (en) 2014-10-30 2018-10-30 Pearson Education, Inc. System and method for automatically updating data packet metadata
US9667321B2 (en) 2014-10-31 2017-05-30 Pearson Education, Inc. Predictive recommendation engine
US10735402B1 (en) 2014-10-30 2020-08-04 Pearson Education, Inc. Systems and method for automated data packet selection and delivery
US10333857B1 (en) 2014-10-30 2019-06-25 Pearson Education, Inc. Systems and methods for data packet metadata stabilization
US10614368B2 (en) 2015-08-28 2020-04-07 Pearson Education, Inc. System and method for content provisioning with dual recommendation engines
US11188841B2 (en) 2016-04-08 2021-11-30 Pearson Education, Inc. Personalized content distribution
US10789316B2 (en) 2016-04-08 2020-09-29 Pearson Education, Inc. Personalized automatic content aggregation generation
US10043133B2 (en) 2016-04-08 2018-08-07 Pearson Education, Inc. Systems and methods of event-based content provisioning
US10642848B2 (en) 2016-04-08 2020-05-05 Pearson Education, Inc. Personalized automatic content aggregation generation

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4903305A (en) * 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
US5243686A (en) * 1988-12-09 1993-09-07 Oki Electric Industry Co., Ltd. Multi-stage linear predictive analysis method for feature extraction from acoustic signals
US5263120A (en) * 1991-04-29 1993-11-16 Bickel Michael A Adaptive fast fuzzy clustering system
US5325445A (en) * 1992-05-29 1994-06-28 Eastman Kodak Company Feature classification using supervised statistical pattern recognition
JP2531073B2 (ja) 1993-01-14 1996-09-04 日本電気株式会社 音声認識システム
JP2751856B2 (ja) 1995-02-03 1998-05-18 日本電気株式会社 木構造を用いたパターン適応化方式
JP3092491B2 (ja) * 1995-08-30 2000-09-25 日本電気株式会社 記述長最小基準を用いたパターン適応化方式
JP2852210B2 (ja) 1995-09-19 1999-01-27 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者モデル作成装置及び音声認識装置
US5787394A (en) * 1995-12-13 1998-07-28 International Business Machines Corporation State-dependent speaker clustering for speaker adaptation
JP2982689B2 (ja) 1996-04-19 1999-11-29 日本電気株式会社 情報量基準を用いた標準パターン作成方式
US5806030A (en) * 1996-05-06 1998-09-08 Matsushita Electric Ind Co Ltd Low complexity, high accuracy clustering method for speech recognizer
JPH10149192A (ja) 1996-09-20 1998-06-02 Nippon Telegr & Teleph Corp <Ntt> パターン認識方法、装置およびその記憶媒体
US6064958A (en) * 1996-09-20 2000-05-16 Nippon Telegraph And Telephone Corporation Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution
US5708759A (en) * 1996-11-19 1998-01-13 Kemeny; Emanuel S. Speech recognition using phoneme waveform parameters
JP3088357B2 (ja) 1997-09-08 2000-09-18 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者音響モデル生成装置及び音声認識装置
JP3009640B2 (ja) 1997-09-10 2000-02-14 株式会社エイ・ティ・アール音声翻訳通信研究所 音響モデル生成装置及び音声認識装置
US5937385A (en) * 1997-10-20 1999-08-10 International Business Machines Corporation Method and apparatus for creating speech recognition grammars constrained by counter examples
JPH11143486A (ja) 1997-11-10 1999-05-28 Fuji Xerox Co Ltd 話者適応装置および方法
US6141641A (en) * 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system
US6246982B1 (en) * 1999-01-26 2001-06-12 International Business Machines Corporation Method for measuring distance between collections of distributions

Also Published As

Publication number Publication date
EP1241661A1 (de) 2002-09-18
US20020184020A1 (en) 2002-12-05
JP2002268675A (ja) 2002-09-20
US7437288B2 (en) 2008-10-14
EP1241661B1 (de) 2005-06-01
DE60204374D1 (de) 2005-07-07
JP4336865B2 (ja) 2009-09-30

Similar Documents

Publication Publication Date Title
DE60204374T2 (de) Spracherkennungsvorrichtung
DE69726235T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE112014002819B4 (de) System und Verfahren zur Erkennung von Sprache
DE69705830T2 (de) Sprachverarbeitung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69725106T2 (de) Verfahren und Vorrichtung zur Spracherkennung mit Rauschadaptierung
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE3852608T2 (de) Design und Konstruktion eines binären Entscheidungsbaumsystems zur Sprachmodellierung.
DE3878071T2 (de) Sprachnormierung durch adaptive klassifizierung.
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE69615667T2 (de) Spracherkennung
DE69523219T2 (de) Anpassungsfähiges Lernverfahren zur Mustererkennung
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69229124T2 (de) Mehrteiliger expertsystem
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE102008017993B4 (de) Sprachsuchvorrichtung
DE69626344T2 (de) Ein hierarchisch strukturiertes Wörterbuch verwendender Spracherkenner
DE112018007846B4 (de) Gesprochene-sprache-separationseinrichtung, gesprochene-sprache-separationsverfahren, gesprochene-sprache separationsprogramm und gesprochene-sprache-separationssystem
DE69613293T2 (de) Vorrichtung zur Musteranpassung für Sprach- oder Mustererkennung
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE69715071T2 (de) Verfahren und Vorrichtung zur Sprachverarbeitung
DE69517571T2 (de) Verfahren zur Erkennung von Mustern
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
DE69628603T2 (de) System zur Musteranpassung mittels einer Baumstruktur

Legal Events

Date Code Title Description
8364 No opposition during term of opposition