DE69628603T2 - System zur Musteranpassung mittels einer Baumstruktur - Google Patents

System zur Musteranpassung mittels einer Baumstruktur Download PDF

Info

Publication number
DE69628603T2
DE69628603T2 DE69628603T DE69628603T DE69628603T2 DE 69628603 T2 DE69628603 T2 DE 69628603T2 DE 69628603 T DE69628603 T DE 69628603T DE 69628603 T DE69628603 T DE 69628603T DE 69628603 T2 DE69628603 T2 DE 69628603T2
Authority
DE
Germany
Prior art keywords
pattern
input
tree
reference pattern
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69628603T
Other languages
English (en)
Other versions
DE69628603D1 (de
Inventor
Koichi Shinoda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Application granted granted Critical
Publication of DE69628603D1 publication Critical patent/DE69628603D1/de
Publication of DE69628603T2 publication Critical patent/DE69628603T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich auf ein Mustererkennungssystem und insbesondere auf ein Musteranpassungssystem zum Anpassen "eines Referenzmusters", das von mehreren verschiedenen Kategorien gebildet wird, unter Verwendung eines "Eingangsmusters" als eines Aggregats von Eingangsabtastwerten. Das beste Anwendungsgebiet der vorliegenden Erfindung ist das Sprecheranpassungssystem in einem Spracherkennungssystem, das auf einem HMM (Hidden-Markov-Modell) vom Typ eines gemischten kontinuierlichen Verteilungsmodells oder dergleichen basiert, in dem die Referenzmuster-Ausgangswahrscheinlichkeitsverteilung eine gemischte Gauß-Verteilung ist.
  • In letzter Zeit werden Forschungen und Untersuchungen durchgeführt, die die mechanische Erkennung von Sprachmustern betreffen, wobei verschiedene Verfahren (Spracherkennungsverfahren) vorgeschlagen worden sind. Ein typisches dieser Verfahren, das umfassend angewendet wird, basiert auf einem Verfahren, das DP-Angleichung (Angleichung durch dynamische Programmierung) oder HMM genannt wird.
  • Insbesondere werden auf dem Gebiet des Spracherkennungssystem unter Verwendung des HMM in letzter Zeit umfassend sprecherunabhängige Spracherkennungssysteme untersucht und entwickelt, die zur Erkennung der Sprache irgendeiner Person fähig sind.
  • Das sprecherunabhängige Erkennungssystem besitzt gegenüber dem sprecherabhängigen Erkennungssystem, das von einem bestimmten Anwender verwendet wird, einen Vorteil dadurch, daß der Anwender keine Sprache im voraus zu registrieren braucht. Allerdings wird auf die vorliegenden Probleme in dem sprecherunabhängigen Erkennungssystem hingewiesen. Ein erstes Problem besteht darin, daß das System für fast alle Sprecher dem sprecherabhängigen Erkennungssystem unterlegen ist. Ein zweites Problem besteht darin, daß die Erkennungsleistung für besondere Sprecher (einzigartige Sprecher) stark verschlechtert ist.
  • Um diese Probleme zu lösen, wurden kürzlich Forschungen und Untersuchungen begonnen, die die Anwendung der Sprecheranpassungstechniken, die hauptsächlich in sprecherabhängigen Erkennungssystemen verwendet werden, auch auf sprecherunabhängige Erkennungssysteme betreffen. Die Sprecheranpassungstechniken besitzen ein Konzept, ein Spracherkennungssystem an neue Anwender (d. h. unbekannte Sprecher) dadurch anzupassen, daß sie kleinere Mengen an Anpassungsdaten verwenden, als für das Training verwendet werden. Die Sprecheranpassungstechniken sind ausführlich geschildert in Sadaoki Furui, "Speaker Adaptation Techniques in Speech Recognition", Television Study Association, Bd. 43, Nr. 9, 1989, S. 929–934.
  • Die Sprecheranpassung kann in zwei Verfahren klassifiziert werden. Eines ist die "beaufsichtigte Sprecheranpassung", während das andere die "unbeaufsichtigte Sprecheranpassung" ist. Das beaufsichtigte Signal bedeutet eine Sprachklang-Ausdrucksreihe, die Sprachinhalte einer Eingangssprache darstellt. Somit bezieht sich die "beaufsichtigte Sprecheranpassung" auf ein Anpassungsverfahren in einem Fall, in dem die Sprachklang-Ausdrucksreihe für die Eingangssprache unbekannt ist und für die Anpassung die vorherige Anweisung von Sprachvokabularen für den unbekannten Sprecher erfordert. Andererseits ist die "unbeaufsichtigte Anpassung" ein Anpassungsverfahren, welches verwendet wird, wenn die Sprachklang-Ausdrucksreihe für die Eingangssprache bekannt ist, wobei sie keine Grenze an die Sprachinhalte der Eingangssprache für den unbekannten Sprecher erfordert; für den unbekannten Sprecher kein Sprachvokabular angewiesen zu werden braucht. Tatsächlich ist die Anpassung unter Verwendung der Eingangssprache als der Gegenstand der Spracherkennung zulässig, ohne daß der unbekannte Sprecher wahrnimmt, daß die Anpassung erfolgt. Allgemein ist die Erkennungsrate, die auf der "unbeaufsichtigten Anpassung" basiert, nach der Anpassung niedrig im Vergleich zu der, die auf der "beaufsichtigten Anpassung" basiert. Aus diesem Grund wird derzeit häufig die "beaufsichtigte Anpassung" verwendet.
  • Das Dokument Kosaka u. a., "Tree structured speaker clustering for speakerindepedent continuous speech recognition", Proceedings of International Conference on Spoken Language Processing (ICLSP '94), Bd. 3, 18–22, September 1994, Yokohama, JP, S. 1375–1378, XP002049795, offenbart ein unbeaufsichtigtes Sprecheranpassungsverfahren für die sprecherunabhängige Spracherkennung, das auf der baumstrukturierten Sprechergruppierung basiert.
  • Unter dem obigen Gesichtspunkt steigt in dem Spracherkennungssystem der Bedarf an dem Sprecheranpassungssystem. Die wie beschriebenen "Anpassungs"-Techniken sind nicht nur in Spracherkennungssystemen, sondern auch in Mustererkennungssystemen, deren Konzept das Spracherkennungssystem umfaßt, wichtig. Das "Sprecheranpassungssystem" in dem Spracherkennungssystem kann als das "Musteranpassungssystem" in dem Mustererkennungssystem verallgemeinert werden.
  • In den Musteranpassungssystemen des Standes der Technik vom beschriebenen Typ wird die Anpassung unabhängig davon, ob die Eingangsabtastwert-Anzahl für die Anpassung groß oder klein ist, in der gleichen Betriebsart ausgeführt. Somit kann die ungenügende Datenmenge die Genauigkeit der Parameterschätzung für die Mustererkennung verschlechtern, wenn die Eingangsabtastwert-Anzahl kleiner ist.
  • Es wird nun das Verfahren des Spracherkennungssystems, welches die umfangsreichsten Anwendungen der vorliegenden Erfindung sind, beschrieben, indem ein Spracherkennungssystem unter Verwendung des HMM als Beispiel gewählt wird, wobei die Sprecheranpassungstechniken in einem solchen Spracherkennungssystem ebenfalls anhand von 4 erwähnt werden.
  • Die Sprache des Sprechers (d. h. die Eingangssprache) wird einer Eingangsmuster-Erzeugungseinrichtung 42 zugeführt, um sie über solche Verfahren wie die Analog-Digital-Umsetzung und die Sprachanalyse für jede Rahmen genannte Einheit mit einer bestimmten Zeitlänge in eine Merkmalsvektor-Zeitreihe umzusetzen. Die "Merkmalsvektor-Zeitreihe" wird als Eingangsmuster bezeichnet. Die Zeitlänge des Rahmens beträgt üblicherweise 10 bis 100 ms. Die Merkmalsvektoren werden dadurch erhalten, daß die Merkmalsquantität des Sprachspektrums zu entsprechenden Zeitpunkten, üblicherweise 10- bis 100-dimensional, entnommen wird.
  • Das HMM wird als Referenzmuster in einer Referenzmuster-Speichereinrichtung 41 gespeichert. Das HMM ist eines der Sprachinformations-Quellmodelle (Klanginformations-Quellmodelle), wobei seine Parameter unter Verwendung von Eingangssprache trainiert werden können. Das HMM wird in der im folgenden gegebenen Beschreibung einer Erkennungseinrichtung 43 erwähnt. Üblicherweise wird das HMM für jede Erkennungseinheit vorbereitet. Als ein Beispiel wird hier ein Fall verwendet, in dem die Erkennungseinheit ein Klangelement ist. In dem sprecherunabhängigen Erkennungssystem wird das durch das Training der Sprachen vieler Sprecher zuvor für unbekannte Sprecher erhaltene HMM in der Erkennungsmuster-Speichereinheit 41 gespeichert.
  • Es wird nun ein Fall angenommen, in dem 1.000 Wörter der Erkennung unterliegen, d. h. ein Fall, in dem eine richtige Antwort eines Wortes unter den Erkennungskandidaten von 1.000 Wörtern erhalten wird. Für die Worterkennung werden die HMMs einzelner Klangelemente miteinander gekoppelt, um ein HMM eines Erkennungskandidatenworts (Wort-HMM) zu erzeugen. Wenn 1.000 Wörter erkannt werden, werden die Wort-HMMs für 1.000 Wörter erzeugt.
  • Die Erkennungseinrichtung 43 erkennt unter Verwendung der Wort-HMMs das Eingangsmuster. Es wird nun die "Musterkennung" beschrieben. Um die verschiedenen Schwankungen des Sprachmusters zu bewältigen, wird in dem HMM ein statistisches Konzept in die Beschreibung des Referenzmusters eingeführt. Das HMM ist ausführlich geschildert in Seiichi Nakagawa, "Speech Recognition with Probability Models", the Electronic Information Communication Engineer's Association, 1987 (im folgenden als Literatur 1 bezeichnet), S. 40–44, 55–60 und 69–74.
  • Das HMM jedes Klangelements umfaßt üblicherweise 1 bis 10 Zustände und Zustandübergänge. Üblicherweise werden der Start- und der letzte Zustand definiert, wobei für Zustandsübergänge für jede Zeiteinheit aus jedem Zustand ein Zeichen entnommen wird. Die Sprache jedes Klangelements wird als Zeitreihe von Zeichen ausgedrückt, die während des Zustandsübergangsintervalls von dem Startzustand zu dem letzten Zustand aus den einzelnen Zuständen erzeugt werden. Für jeden Zustand wird die Zeichenerscheinungswahrscheinlichkeit (Ausgangswahrscheinlichkeit) definiert, während für jeden Zustandsübergang die Übergangswahrscheinlichkeit definiert wird. Somit besitzt das HMM einen Ausgangswahrscheinlichkeitsparameter und einen Übergangswahrscheinlichkeitsparameter. Der Ausgangswahrscheinlichkeitsparameter stellt eine Klangfarbenschwankung des Sprachmusters dar. Der Übergangswahrscheinlichkeitsparameter stellt eine Zeitschwankung des Sprachmusters dar. Die Erzeugungswahrscheinlichkeit von Sprache aus ihrem (d. h. aus dem HMM-)Modell kann dadurch erhalten werden, daß die Startzustandswahrscheinlichkeit auf einen bestimmten Wert eingestellt wird und der Wert für jeden Zustandsübergang mit der Ausgangswahrscheinlichkeit und außerdem mit der Übergangswahrscheinlichkeit multipliziert wird.
  • Umgekehrt kann, wenn eine Sprache beobachtet wird, ihre Erzeugungswahrscheinlichkeit dadurch berechnet werden, daß angenommen wird, daß sie aus einem bestimmten HMM erzeugt wird.
  • In der HMM-Spracherkennung wird ein HMM für jeden Erkennungskandidaten vorbereitet und bei der Eingabe der Sprache dessen Erzeugungswahrscheinlichkeit in jedem HMM erhalten. Es wird bestimmt, daß das HMM mit der maximalen Erzeugungswahrscheinlichkeit eine Quelle der Erzeugung ist, wobei der Erkennungskandidat, der diesem HMM entspricht, zum Ergebnis der Erkennung gemacht wird.
  • Der Ausgangswahrscheinlichkeitsparameter wird durch einen diskreten Wahrscheinlichkeitsverteilungsausdruck und durch einen kontinuierlichen Wahrscheinlichkeitsverteilungsausdruck ausgedrückt. Als Beispiel wird hier ein Fall gewählt, in dem der kontinuierliche Wahrscheinlichkeitsverteilungsausdruck angewendet wird. Der kontinuierliche Wahrscheinlichkeitsverteilungsausdruck verwendet eine gemischte kontinuierliche Wahrscheinlichkeit, d. h. eine Wahrscheinlichkeit, die dadurch erhalten wird, daß mehrere Gauß-Verteilungen mit einer Wichtung miteinander addiert werden.
  • Der Ausgangswahrscheinlichkeitsparameter, der Übergangswahrscheinlichkeitsparameter und solche Parameter wie die Wichtung mehrerer Gauß-Verteilungen sind ausgehend von einer Trainingssprache in bezug auf das Modell, die mit einem Baum-Welch-Algorithmus genannten Algorithmus trainiert worden ist, vorläufig. Der Baum-Welch-Algorithmus ist ausführlich in der Literatur 1 geschildert.
  • Das Verfahren der Worterkennung des Eingangsmusters wird nun mathematisch beschrieben. Das Eingangsmuster X, das als Zeitreihe aus Merkmalsvektoren ausgedrückt wird, ist gegeben als X = x1, x2, ..., xt, ..., xT, (1)wobei T eine Gesamtzahl von Eingangsmustern x darstellt.
  • Die Erkennungskandidatenwörter werden durch W1, W2, ..., WN bezeichnet. Die Erkennungskandidatenwörter-Anzahl wird durch N bezeichnet. Die Angleichung zwischen dem Wort-HMM jedes Wortes Wn und dem Eingangsmuster X erfolgt wie folgt. Indizes werden weggelassen, wenn sie nicht benötigt werden. In dem Wort-HMM werden die Übergangswahrscheinlichkeit aus dem Zustand j in den Zustand i durch αji, das gemischte Gewicht der Ausgangswahrscheinlichkeitsverteilung mit λim, der Gauß-Verteilungs-Mittelwertvektor jedes Elements in der Ausgangswahrscheinlichkeitsverteilung mit μim und die Kovarianzmatrix der Ausgangswahrscheinlichkeitsverteilung mit Σim bezeichnet. t bezeichnet den Zeitpunkt der Eingabe, i und j bezeichnen die Zustände des HMM und m bezeichnet die laufende Nummer des gemischten Elements.
  • Es wird die folgende Rekursionsformelberechnung, die die Vorwärtswahrscheinlichkeit α(i, t) betrifft, ausgedrückt. α(i, 0) = πi (2)i = 1, ..., I α(i, t) = Σα(j, t – 1)αjibi(xt) (3)i = 1, ..., I; t = 1, ..., T,
    wobei πi eine Wahrscheinlichkeit mit dem Anfangszustand i darstellt und bi(xt) und N(xt; μim, Σim) durch die folgenden Formeln dargestellt sind. bi(xt) = ΣmλimN(xt; μim, Σim) (4) N(xt; μim, Σim) = (2π)–n/xim|–1/2 exp(–(μim – xtim –1im – xt)/2) (5)
  • Die Wahrscheinlichkeit Pn(X) für das Eingangsmuster Wn kann erhalten werden als: Pn(X) = α(I, T), (6)wobei I einen Endzustand darstellt. Durch die Ausführung dieser Verarbeitung für das Wort-HMM jedes Wortes ist das erkannte Wort Wn gegeben als: n ^ = argmaxn Pn(X). (7)
  • Diese Erkennungsergebniswörter werden von der Erkennungseinrichtung 43 der Erkennungsergebnis-Ausgabeeinrichtung 44 zugeführt.
  • Eine Erkennungsergebnis-Ausgabeeinrichtung 44 führt diese Verfahren in der Weise aus, daß sie Erkennungsergebniswörter an eine Ausgabe ausgibt und Steuerwörter, die den Erkennungsergebniswörtern entsprechen, an entsprechende Systeme oder Vorrichtungen sendet.
  • In der Sprecheranpassung durch eine Sprecheranpassungseinrichtung 45 (siehe den Strichlinienpfeil in 4) wird das Referenzmuster in der Referenzmuster-Speichereinrichtung 41 korrigiert, um eine Verbesserung der Leistung in bezug auf unbekannte Sprecher zu schaffen. Genauer ist für die Anpassung des Referenzmusters an den Sprecher das Training unter Verwendung der Sprache des Sprechers zulässig, wenn das Spracherkennungssystem verwendet wird, was somit eine hohe Erkennungsrate schafft. In diesem Fall wird das Anpassungsverfahren nicht je nachdem geändert, ob die Datenmenge der Eingangssprache (d. h. die Eingangsabtastwert-Anzahl) groß oder klein ist, wobei für eine angemessene Sprecheranpassung eine bestimmte Anzahl von Eingangsabtastwerten erforderlich ist.
  • In dem obenbeschriebenen Musteranpassungssystem des Standes der Technik verschlechtert sich die Genauigkeit der Parameterschätzung für die Musteranpassung bei weniger Eingangsabtastwerten wegen der ungenügenden Datenmenge, was zu unzureichender Wirkung der Referenzmusteranpassung führt.
  • Beispielsweise wird in dem Sprecheranpassungssystem in dem Spracherkennungssystem im Fall einer sehr kleinen Eingangssprach-Datenmenge die Genauigkeit der Parameterschätzung wegen der unzureichenden Datenmenge verschlechtert, so daß keine angemessene Wirkung der Sprecheranpassung des Referenzmusters erhalten werden kann, d. h., die Erkennungsleistung nicht verbessert wird.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Im Licht der obigen Umstände besteht eine Aufgabe der vorliegenden Erfindung in der Schaffung eines Musteranpassungssystems mit einem Baumschema, in dem das Konzept des Referenzmuster-Baumschemas eingeführt wird, um eine Baumschema-Hierarchieschicht als das Objekt der Anpassung in Übereinstimmung mit der Datenmenge (d. h. der Eingangsabtastwert-Anzahl) zu bestimmen und somit die Verschlechterung der Genauigkeit der Parameterschätzung im Fall einer unzureichenden Datenmenge zu verhindern und eine feine Referenzmusteraktualisierung (Erzeugung eines angepaßten Referenzmusters) in Übereinstimmung mit der Datenmenge zu ermöglichen.
  • In dem Musteranpassungssystem mit einem Baumschema gemäß der vorliegenden Erfindung erzeugt die Eingangsmuster-Erzeugungseinrichtung das Eingangsmuster, um ein Referenzmuster, das von mehreren verschiedenen Kategorien gebildet wird, anhand eines Eingangsmusters, das ein Aggregat von Eingangsabtastwerten ist, anzupassen. Die Referenzmuster-Speichereinrichtung speichert das Referenzmuster. Die Musterangleichungseinrichtung gleicht die Kategorien des Referenzmusters, das in der Referenzmuster-Speichereinrichtung gespeichert ist, und der Eingangsabtastwerte des Eingangsmusters, das durch die Eingangsmuster-Erzeugungseinrichtung erzeugt wird, an. Die Baumschemareferenzmuster-Speichereinrichtung speichert vorher das Baumschemareferenzmuster als ein durch ein Baumschema gegebenes Referenzmuster. Die Datenmengen-Schätzeinrichtung berechnet die Anzahl von Eingangsabtastwerten in jedem Knoten des Baumschemareferenzmusters in der Baumschemareferenzmuster-Speichereinrichtung. Die Knotenauswahleinrichtung wählt den Knoten aus, der für die Anpassung in Übereinstimmung mit der durch die Datenmengen-Schätzeinrichtung berechneten Anzahl von Eingangsabtastwerten verwendet wird. Die Anpassungsparameter-Erzeugungseinrichtung berechnet (d. h. erzeugt) einen Anpassungsparameter in dem durch die Knotenauswahleinrichtung ausgewählten Knoten. Die Referenzmustererzeugungseinrichtung erzeugt unter Verwendung des durch die Anpassungsparameter-Erzeugungseinrichtung erzeugten Anpassungsparameters ein angepaßtes Referenzmuster und aktualisiert das Referenzmuster.
  • Ferner schafft die Erfindung ein Musteranpassungsverfahren gemäß Anspruch 10.
  • Weitere Aufgaben und Merkmale werden aus der folgenden Beschreibung mit Bezug auf die beigefügte Zeichnung näher erläutert.
  • KURZBESCHREIBUNG DER ZEICHNUNG
  • 1 ist ein Blockschaltplan, der eine Ausführungsform der vorliegenden Erfindung zeigt, die auf ein Musteranpassungssystem, das das Baumschema verwendet, angewendet wird;
  • 2 ist ein Ablaufplan, der das Verfahren der Ausführungsform des Musteranpassungssystems, das das Baumschema verwendet, zeigt;
  • 3 ist eine Ansicht, die ein Beispiel eines Baumschemareferenzmusters zeigt, das in der Ausführungsform des Musteranpassungssystems, das das Baumschema verwendet, verwendet wird; und
  • 4 ist ein Blockschaltplan eines Musteranpassungssystems, das ein Baumschema verwendet.
  • AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Die vorliegende Erfindung wird nun in Verbindung mit einer Ausführungsform davon mit Bezug auf die Zeichnung ausführlich beschrieben.
  • 1 ist ein Blockschaltplan, der eine Ausführungsform der vorliegenden Erfindung zeigt, die auf ein Musteranpassungssystem, das ein Baumschema verwendet, angewendet wird. Diese Ausführungsform des Musteranpassungssystems, das ein Baumschema verwendet, entspricht dem "Sprecheranpassungssystem" in dem Spracherkennungssystem.
  • Das Sprecheranpassungssystem, das das Baumschema verwendet, das die vorliegende Erfindung verkörpert, umfaßt eine Eingangsmuster-Erzeugungseinrichtung 1, eine Referenzmuster-Speichereinrichtung 2, eine Musterangleichungseinrichtung 3, eine Baumschemareferenzmuster-Speichereinrichtung 4, eine Datenmengen-Schätzeinrichtung 5, eine Knotenauswahleinrichtung 6, eine Anpassungsparameter-Erzeugungseinrichtung und eine Referenzmustererzeugungseinrichtung 8.
  • 2 ist ein Ablaufplan, der das Verfahren der Ausführungsform des Musteranpassungssystems, das das Baumschema verwendet (d. h. das Verfahren bei der Anpassung), zeigt. Das Verfahren umfaßt einen Eingangsmuster-Erzeugungsschritt 201, einen Musterangleichungsschritt 202, einen Pufferwert-Akkumulationsschritt 203, einen Differenzvektor-Berechnungsschritt 204, einen Knotenauswahlschritt 205, einen Anpassungsvektor-Berechnungsschritt 206 und einen Re ferenzmuster-Aktualisierungsschritt 207.
  • 3 ist eine Ansicht, die ein Beispiel eines Baumschemareferenzmusters (d. h. ein Referenzmuster, das in der Baumschemareferenzmuster-Speichereinrichtung 4 als ein Baumschema ausgedrückt ist) zeigt, das in der Ausführungsform des Musteranpassungssystems, das das Baumschema verwendet, verwendet wird.
  • Es wird nun der Betrieb des Musteranpassungssystems, das das Baumschema verwendet, beschrieben.
  • In dieser Ausführungsform und allgemein gemäß der vorliegenden Erfindung werden die für die Sprecheranpassung zu sprechenden Wörter oder Sätze vorher für den Anwender angewiesen, wobei die HMM-Parameter unter Verwendung des Wortausdrucks und der Eingangssprache aktualisiert (angepaßt) werden. Diese Anpassung gehört in dem Sinn, daß die richtigen Wörter der Sprache zuvor bekannt sind, zu der obenerwähnten Kategorie der "beaufsichtigten" Anpassung).
  • Um die Belastung des Sprechers zu mildern, sollte die Datenmenge (d. h. die Eingangsabtastwert-Anzahl) so klein wie möglich gemacht werden. Allerdings ist die HMM-Parameter-Anzahl allgemein groß, wobei die Datenmenge unzureichend sein kann, was die Genauigkeit der Parameterschätzung und die Erkennungsleistung verschlechtert, wenn alle Parameter mit einer kleinen Menge der Eingangssprache zur Anpassung angepaßt werden sollen. In dieser Ausführungsform werden unter den HMM-Parametern die Ausgangswahrscheinlichkeitsverteilungs-Mittelwertvektoren als anzupassende Parameter ausgewählt Die Mittelwertvektoren werden als die Anpassungsobjektparameter ausgewählt, da angenommen wird, daß sie unter den HMM-Parametern den größten Einfluß auf die Erkennungsleistung haben.
  • Es wird nun der Betrieb der Ausführungsform des Musteranpassungssystems, das das Baumschema verwendet, beschrieben. Der Betrieb wird aufeinanderfolgend als (1) Einleitungsoperation zur Anpassung und (2) Anpassungsoperation beschrieben.
  • (1) Einleitungsoperation zur Anpassung:
  • Es wird zunächst ein Referenzmuster beschrieben, das in der Referenzmuster- Speichereinrichtung 2 gespeichert wird. Als das Referenzmuster wird ein Anfangs-HMM vorbereitet. Das Anfangs-HMM kann beispielsweise ein Sprachelement-HMM eines unbestimmten Sprechers sein, das aus den Sprachen vieler Sprecher vorher vorbereitet worden ist. Dieses Anfangs-HMM wird in der Referenzmuster-Speichereinrichtung 2 gespeichert.
  • Zweitens wird ein Baumschemareferenzmuster beschrieben, das in der Baumschemamuster-Speichereinrichtung 4 gespeichert wird. Aus dem Referenzmuster, das in der Referenzmuster-Speichereinrichtung 2 gespeichert ist, wird im voraus ein Baumschema des Referenzmusters (Baumschemareferenzmusters) erzeugt. Es werden hier die Aggregate aller Zustände der Mittelwertvektoren in dem Anfangs-HMM betrachtet, wobei ein N-Schicht-Baumschema der Mittelwertvektorgruppe erzeugt wird. Genauer wird der Abstand zwischen den Mittelwertvektoren definiert, wobei die Mittelwertvektoren, die den Einzelzuständen entsprechen, in Übereinstimmung mit der Definition gruppiert werden. In dieser Operation werden Knoten, die die Mittelwertvektoren darstellen, die den einzelnen Zuständen entsprechen (die den Astknoten entsprechen), und Knoten der oberen Schicht, die auf der Gruppierung basieren, erzeugt. Somit wird ein Baumschema mit diesen Knoten erzeugt (siehe 3).
  • Ein Verfahren zum Erzeugen eines Baumschemas, das die Gauß-Verteilung betrifft, ist ausführlich geschildert in der oftengelegten japanischen Patentveröffentlichung Nr. Heisei 6-348292 mit dem Titel "Speech Recognition System" (im folgenden als Literatur 2 bezeichnet).
  • 3 zeigt ein Beispiel eines solchem Baumschemareferenzmusters. In diesem Baumschemareferenzmuster beträgt die Gesamtzahl der verteilten Objekte 1.500, wobei N gleich 5 ist. Die durch die Knoten (Astknoten) in der untersten Schicht (d. h. in der N-ten, hier in der 5-ten Schicht) gezeigten Mittelwertvektoren entsprechen den jeweiligen Zuständen des HMM, wobei auf sie als Astknotenvektoren Bezug genommen wird. Die durch die Knoten in den dazwischenliegenden Baumschemaschichten (d. h. in der 1-ten bis (N – 1)-ten, hier 1-ten bis 4-ten, Baumschemaschicht) gezeigten Vektoren werden als Knotenvektoren bezeichnet. Dieses Baumschemareferenzmuster wird in der Baumschemareferenzmuster-Speichereinrichtung 4 gespeichert.
  • Drittens werden Puffer, die für das Verfahren in der Datenstatistik-Schätzeinrich tung 4 vorbereitet werden, (d. h. Puffer, die zum Schätzen der Datenmenge der Eingangsabtastwert-Anzahl verwendet werden) beschrieben.
  • Es werden ein Puffer A(n, m) mit den Dimensionen der Merkmalsvektoren und ein eindimensionaler Puffer B(n, m) zum Addieren der Merkmalsvektoren vorbereitet. n stellt hier die Hierarchieschicht-Ordnungszahl (d. h. die n-te Ordnung) in dem Baumschema dar, während m die Ordnungszahl des Knotens in der n-ten Schicht darstellt. Die Puffer A und B akkumulieren Daten, die für jeden Eingangsklang (d. h. für jeden Eingangsklang der Eingangssprache) für den Aktualisierensmittelwertvektor erforderlich sind. Diese Puffer A und B werden durch die Datenmengen-Schätzeinrichtung 5 gesteuert.
  • Wie später beschrieben wird, werden die Inhalte in den Puffern A und B für jede Eingangssprache aktualisiert. Wenn eine Reihe von Eingangssprachen (d. h. Eingangsabtastwerten) für die Anpassung eingegeben worden sind, wird das in der Referenzmuster-Speichereinrichtung 2 gespeicherte Referenzmuster unter Verwendung der Inhalte in den Puffern A und B aktualisiert (d. h. angepaßt).
  • (2) Anpassungsoperation:
  • Bei der Anpassung des Referenzmusterparameters (d. h. in dieser Ausführungsform der HMM-Zustandsmittelwertvektoren) wird für jeden Eingangsklang das folgende Verfahren ausgeführt (siehe 2).
  • Wie beim Erkennungsverfahren, für das auf eine Beschreibung in Verbindung mit 4 Bezug genommen wird, erzeugt zunächst die Eingangsmuster-Erzeugungseinrichtung 1 aus den Eingangssprachen jeder Eingangssprache ein Eingangsmuster (Schritt 201).
  • Zweitens führt die Musterangleichungseinrichtung 3 über die folgenden Verfahren (1) bis (3) die Musterangleichung (d. h. die Ableitung der Korrespondenzbeziehung zwischen den Kategorien des Referenzmusters und den Eingangsabtastwerten des Eingangsmusters) aus und erhält somit in jedem Zeitpunkt die Astknotenvektoren, die den Merkmalsvektoren entsprechen (Schritt 202).
    • (1) Unter Verwendung der richtigen Wortausdrücke werden dadurch, daß die Anfangs-HMMs der einzelnen Klangelemente miteinander gekoppelt werden, Wort-HMMs erzeugt, die dem Eingangsmuster entsprechen. Daraufhin wird eine Musteranpassung zwischen dem Eingangsmuster und den Wort-HMMs ausgeführt. In dieser Operation werden die Astknotenvektoren in dem Baumschemareferenzmuster als die einzelnen Zustandsmittelwertvektoren verwendet.
  • In dieser Musterangleichung werden in den zuvor erwähnten Rekursionsformeln der Gleichungen 2 bis 7 anstelle der Gleichungen 2, 3 und 6 Rekursionsformeln verwendet, die auf den folgenden Gleichungen 8 bis 11 beruhen. Φ(i, 0) = πi i = 1, ..., I (8) Φ(i, t) = maxjΦ(j, t – 1)ajibi(xt) (9)i = 1, ..., I; t = 1, ..., T bi(xt) = maxmλimbim(xt) (10)i = 1, ..., I; t = 1, ..., T; m = 1, ..., M Pn(X) = Φ(I, T) (11)
  • Das Verfahren unter Verwendung dieser Formeln wird Vitarbi-Algorithmus genannt. Hierbei ist M die Anzahl der verteilten Objekte in jedem Zustand und bim(xt) die Erscheinungswahrscheinlichkeit N(xt; μim, Σim) der Verteilung, die dem m-ten Astknotenvektor im Zustand i entspricht. Die Verteilungsordnungszahlen sind so beschaffen, daß sie sich in allen Zuständen nicht überschneiden.
    • (2) Gleichzeitig mit der obenerwähnten Berechnung in Gleichung 9 zur Ableitung von Φ(i, t) wird die Berechnung an Ψ1(i, t) = argmaxjΦ(j, t – 1)ajibi(xt) (12)i = 1, ..., I; t = 1, ..., T Ψ2(i, t) = argmaxmλimbim(xt) (13)i = 1, ..., I; t = 1, ..., Tausgeführt, wobei die Zustände in dem Zeitpunkt, die jedem Zeitpunkt vorausgehen, in einem Feld Ψ1 gespeichert werden, während die Verteilungsordnungzahlen, die die maximalen Erscheinungswahrscheinlichkeiten ergeben, in einem Feld Ψ2 gespeichert werden.
    • (3) Nach Abschluß der obenerwähnten Berechnung an Gleichung 11 für den letzten Rahmen T werden unter Verwendung der Felder Ψ1 und Ψ2 aufeinanderfolgend vom letzten bis zum ersten Rahmen die den einzelnen Rahmen entsprechenden Mittelwertvektoren erhalten. Genauer werden die Zustandsnummer S(t), die dem Rahmen t entspricht, und die Astknotenvektornummer R(t) aus den folgenden Gleichungen erhalten. S(T) = I (14) S(t) = Ψ1(S(t + 1), t + 1) (15)t = 1, ..., T – 1 R(t) = Ψ2(R(t), t) (16)t = 1, ..., T – 1.
  • Auf dieses Verfahren wird als Rückvertolgung Bezug genommen. Über dieses Verfahren werden die Astknotenvektoren, die den Merkmalsvektoren zu einzelnen Zeitpunkten entsprechen, erhalten.
  • Drittens schätzt (d. h. berechnet) die Datenmengen-Schätzeinrichtung 5 durch Akkumulieren der Inhalte in den Puffern A und B, die den einzelnen Knoten entsprechen, die Eingangsabtastwert-Anzahl (d. h. die Datenmenge der Eingangssprache) ab (Schritt 204).
  • Genauer führt die Einrichtung 5 ein Verfahren aus, in dem für jeden Merkmalsvektor xt zu jedem Zeitpunkt A(N, R(t)) = A(N, R(t)) + (xt – μm N) (17) B(N, R(t)) = B(N, R(t)) + 1 (18)erhalten wird, wobei sie die Inhalte in den Puffern A und B, die den Astknoten entsprechen, miteinander addiert. In Gleichung 17 stellt μm n den Mittelwertvektor des m-ten Knotens in der n-ten Schicht dar. Ähnlich werden für die Knoten, die die Astknotenvektoren R(t) als Unterknoten haben, die Inhalte in den Puffern A und B als A(n, m) = A(n, m) + δ(m, jn(R(t))(Xt – μm n) n = 1, ..., N – 1 (19) B(n, m) = B(n, m) + δ(m, jn(R(t)) 1 n = 1, ..., N – 1 (20)miteinander addiert, wobei jn(m) die laufenden Nummern der Knoten der n-ten Schicht, die den Astknoten m (d. h. den m-ten Astknoten) als Unterknoten haben, darstellen und δ(i, j) als δ(i, j) = 1 für i = j (21) = 0 für i ≠ j (22)gegeben ist.
  • Dieses Verfahren wird entsprechend der Anzahl der Sprachwörter, die anzupassen sind, mehrmals wiederholt ausgeführt. Auf diese Weise wird die Eingangsabtastwert-Anzahl (d. h. die Datenmenge der Eingangssprache) berechnet.
  • In einem vierten Verfahren nach dem Verfahren an den anzupassenden Eingangssprachen erhält die Anpassungsparameter-Erzeugungseinrichtung 7 für alle Baumschemareferenzmuster-Knoten die Differenzvektoren D als (Schritt 204) D(n, m) = A(n, m)/B(n, m). (23)
  • Wenn die Datenmenge der Eingangssprache (d. h. die Eingangsabtastwert-Anzahl) klein ist, ist die Anzahl der Eingangsrahmen, die den einzelnen Astknoten entsprechen, sehr klein. In diesem Fall kann die Parameterschätzung mit einer kleinen Anzahl von Eingangsabtastwerten die Erkennungsleistung eher verschlechtern. Dementsprechend kann geeignet ein Schwellenwert T für den Inhalt in dem Puffer B, der die Eingangsabtastwert-Anzahl darstellt, vorgesehen werden, wobei anstelle der Anpassungsvektoren Δ(m) der Astknotenvektoren in den Astknoten m die Anpassungsvektoren Δ(m) angewendet werden können, die dem durch die folgende Gleichung entsprechenden n'-ten Knoten entsprechen. Mit anderen Worten, als Anpassungsvektor Δ(m) wird der Differenzvektor in dem n'-ten Knoten verwendet, in dem wie während der Operation, die für die nachfolgenden Knoten ausgeführt wird, eine Beziehung B(n', m) > TBvon den unteren zu den oberen Schichten erstmals erfüllt ist. n' = argmaxnB(n,(jn(m))(B(n,(j(m) < TB)n = 1, ..., N (24) Δ(m) = D(n', jn'(m)). (25)
  • In einem fünften Verfahren berechnet die Knotenauswahleinrichtung 6 n' in Gleichung 24 und wählt den anzupassenden (d. h. für die Anpassung zu verwendenden) Knoten (Knoten der n'-ten Schicht) aus.
  • In einem sechsten Verfahren erhält die Anpassungsparameter-Erzeugungseinrichtung 7 unter Verwendung von Gleichung 25 in Übereinstimmung mit der Knotenauswahl durch die Knotenauswahleinrichtung 6 die Anpassungsvektoren Δ(m) (Schritt 206).
  • Über das obige fünfte und sechste Verfahren ist es möglich, die Anpassungsvektoren in einer Situation mit einer Verteilung von weniger Daten aus einer bestimmten Datenmenge abzuschätzen. Der Differenzvektor der Knoten der oberen Schicht wird durch Mitteln der Differenzvektoren der Knoten der unteren Schicht erhalten, wobei daran gedacht wird, daß er breitere Ansichtsänderungen in dem Vektorraum darstellt. Somit werden zur angemessenen Anpassung in einer Situation mit weniger Daten oder in einer Verteilungssituation ohne entsprechende Daten Differenzvektoren verwendet, die breitere Ansichtsänderungen darstellen.
  • Die Datenmengenerhöhung der Eingangssprache erhöht die Datenmenge in jedem Knoten. In diesem Fall werden die Differenzvektoren der Knoten der unteren Schicht verwendet, um eine breitere Ansicht sowie eine feinere Anpassung in dem Vektorraum zu erhalten.
  • Als das Verfahren zur Anpassungsvektorerzeugung sind außer dem obigen Verfahren des "Auswählens eines Knotens und Bildens des Differenzvektors dieses Knotens zu einem Anpassungsvektor" die folgenden Verfahren (1) und (2) vorstellbar.
    • (1) Verfahren, in dem die Anpassungsvektoren mehrerer Knoten der oberen und der unteren Schicht zur Verwendung gewichtet werden.
  • In diesem Verfahren ist der Anpassungsvektor Δ(m) wie folgt gegeben. Δ(m) = Σn=1 Nw(n)D(n, jn(n)), (26)wobei W(n) ein angemessenes Gewicht für die Knoten der n-ten Schicht ist. Es ist möglich, daß die Informationen der Datenstatistik der einzelnen Schichten an den Anpassungsvektoren wie folgt sind.
  • Figure 00170001
    • (2) Verfahren, in dem die Hierarchieschicht mit den zu verwendenden Anpassungsvektoren für alle Mittelwertvektoren in Übereinstimmung mit der Eingangsdatenmenge ausgewählt wird.
  • In diesem Verfahren wird der Anpassungsvektor Δ(m) wie folgt erhalten. n' = argmaxnΣiB(n, j)(ΣB(n, j) > TB') (28)n = 1, ..., N Δ(m) = D(n',jn·(m)) (29)wobei TB einen Schwellenwert der Datenmenge für alle Knoten in der gleichen Schicht darstellt.
  • In einem siebenten Verfahren berechnet die Referenzmustererzeugungseinrichtung 8 die Astknoten-Mittelwertvektoren (Astknotenvektoren) unter Verwendung der auf die obige Weise erzeugten Anpassungsvektoren wie folgt, wobei sie das in der Referenzmuster-Speichereinrichtung 2 gespeicherte Referenzmuster unter Verwendung der auf diese Weise erhaltenen Astknotenvektoren aktualisiert (d. h. ein angepaßtes Referenzmuster erzeugt, das in der Referenzmuster-Speichereinrichtung 2 gespeichert wird) (Schritt 207). ^mm + Δ(m) (30)
  • Schließlich werden Abwandlungen der Ausführungsform des Musteranpassungs systems, das das Baumschema verwendet, beschrieben. Die vorliegende Erfindung kann dadurch realisiert werden, daß die Konstruktion und der Betrieb der Ausführungsform wie unten gezeigt abgewandelt werden.
  • Die Musteranpassungseinrichtung 3 verwendet in der Ausführungsform einen Vitarbi-Algorithmus als Verfahren der Musteranpassung. Statt dessen kann ein Verfahren verwendet werden, das ein Vorwärts-Rückwärts-Algorithmus genannt wird. In diesem Fall sind die Anzahlen der Datenstücke wahrscheinlichkeitsbasierte Werte, wobei in dem Puffer B reelle Zahlen gespeichert werden. In diesem Fall ist wieder die Anpassung durch ein Verfahren wie das obenbeschriebene möglich.
  • Die Musteranpassungseinrichtung 3 führt in diesem Fall wieder die wahrscheinlichkeitsbasierte Anpassung aus, während die Datenmengen-Schätzeinrichtung 5 eine erwartete Eingangsabtastwert-Anzahl berechnet, die statt des Eingangsabtastwerts verwendet werden.
  • In einer weiteren Abwandlung werden als der Anpassungsparameter Gauß-Verteilungs-Mittelwertvektor-Differenzvektoren (d. h. angepaßte Vektoren, die auf den Differenzvektoren basieren) verwendet. Ferner ist die Anpassung in einem System wie dem obenbeschriebenen unter Verwendung anderer Anpassungsparameter wie etwa von Gauß-Verteilungs-Mittelwertvektoren, Koeffizienten der Wichtung in dem verteilten Zustand, Differenzen dieser Parameter usw. möglich. Nochmals weiter ist es möglich, die Anpassung der obigen Parameter gleichzeitig gemeinsam zu erhalten.
  • In einer weiteren Abwandlung wird das in der Literatur 2 beschriebene Verfahren verwendet, um das Baumschema zu organisieren, welches das Baumschemareferenzmuster betrifft. Dieses Baumschema-Organisationsverfahren ist aber keineswegs begrenzend. Beispielsweise ist es möglich, Sprachklangähnlichkeiten in der Sprachklangtheorie zu verwenden. Außerdem ist es möglich, ein wahrscheinlichkeitsbasiertes Baumschema zu verwenden, in dem die Grade, in denen Unterknoten zu Hauptknoten gehören, durch reelle Zahlen von 0 bis 1 gezeigt sind, und die Summe der Grade, in denen ein Unterknoten zu mehreren Hauptknoten gehört, 1 ist.
  • Die Literatur 2 beschreibt die Erkennung unter Verwendung des Baumschemas.
  • Bei Verwendung des in der Literatur 2 beschriebenen Verfahrens als Erkennungsmittel kann eine Verbesserung der Erkennungsleistung unter Verwendung des Baumschemas erhalten werden, indem das Baumschema, das verwendet wird, zu dem gleichen Baumschema gemacht wird, das für die Anpassung verwendet wird.
  • Eine nochmals weitere Abwandlung verwendet ein Verfahren, in dem die Referenzmusteraktualisierung vorgenommen wird, nachdem die Operation, die die gesamte eingegeben Sprache betrifft (d. h. die Eingabe der Eingangssprache), abgeschlossen ist. Allerdings ist es leicht möglich, das Referenzmuster dadurch zu aktualisieren, daß das obenbeschriebene Verfahren für jeden Klang, d. h. für jede Eingabe der Eingangssprache, ausgeführt wird (fortlaufende Anpassung).
  • Wie im Vorstehenden beschrieben worden ist, wird die Hierarchieschicht in dem Referenzmuster-Baumschema für den Anpassungsparameter (wie etwa für die Anpassungsvektoren) gemäß der vorliegenden Erfindung in Übereinstimmung mit der Datenmenge ((d. h. der Eingangsabtastwertzahl) bestimmt, womit die Verschlechterung der Genauigkeit der Parameterschätzung im Fall einer kleineren Datenmenge verhindert wird und außerdem eine feine Referenzmusteraktualisierung (angepaßte Referenzmustererzeugung) in Übereinstimmung mit der Datenmenge ermöglicht wird. Wenn die vorliegende Erfindung beispielsweise auf ein Sprecheranpassungssystem in einem Spracherkennungssystem angewendet wird, wird die Genauigkeit der Parameterschätzung im HMM oder dergleichen im Fall einer kleineren Sprachmenge des Sprechers (Eingangssprachdatenstatistik) nicht verschlechtert, wobei angemessene Sprecheranpassungswirkungen erhalten werden können.
  • Dem Fachmann auf dem Gebiet fallen konstruktive Änderungen ein, wobei verschiedene offensichtlich unterschiedliche Abwandlungen und Ausführungsformen hergestellt werden können, ohne von dem wie durch die beigefügten Ansprüche definierten Umfang der Erfindung abzuweichen. Der in der vorstehenden Beschreibung und in der beigefügten Zeichnung dargestellte Gegenstand soll lediglich zur Erläuterung dienen. Somit soll die vorstehende Beschreibung nicht als beschränkend, sondern als erläuternd betrachtet werden.

Claims (10)

  1. Musteranpassungssystem, das ein Baumschema verwendet, um ein Referenzmuster, das durch mehrere verschiedene Kategorien gebildet ist, anhand eines Eingangsmusters, das ein Aggregat von Eingangsabtastwerten ist, anzupassen, umfassend: eine Eingangsmuster-Erzeugungseinrichtung (1) zum Erzeugen des Eingangsmusters; eine Referenzmuster-Speichereinrichtung (2) zum Speichern des Referenzmusters; eine Musterangleichungseinrichtung (3) zum Angleichen der Kategorien des Referenzmusters, das in der Referenzmuster-Speichereinrichtung gespeichert ist, und der Eingangsabtastwerte des Eingangsmusters, das durch die Eingangsmuster-Erzeugungseinrichtung erzeugt wird; eine Baumschemareferenzmuster-Speichereinrichtung (4) zum vorherigen Speichern eines Baumschemareferenzmusters als ein durch ein Baumschema gegebenes Referenzmuster; eine Datenmengen-Schätzeinrichtung (5) zum Berechnen der Anzahl von Eingangsabtastwerten in jedem Knoten des in der Baumschemareferenzmuster-Speichereinrichtung gespeicherten Baumschemareferenzmusters unter Verwendung der Entsprechung, die durch die Musterangleichung mittels der Musterangleichungseinrichtung erhalten wird; eine Knotenauswahleinrichtung (6) zum Auswählen eines Knotens für die Anpassung in Übereinstimmung mit der durch die Datenmengen-Schätzeinrichtung berechneten Anzahl von Eingangsabtastwerten; eine Anpassungsparameter-Erzeugungseinrichtung (7) zum Berechnen eines Anpassungsparameters in einem durch die Knotenauswahleinrichtung ausgewählten Knoten; und eine Referenzmustererzeugungseinrichtung (8) zum Erzeugen eines angepaßten Referenzmusters unter Verwendung des durch die Anpassungsparameter-Erzeugungseinrichtung erzeugten Anpassungsparameters und durch Aktualisieren des Referenzmusters.
  2. Musteranpassungssystem, das ein Baumschema verwendet, nach Anspruch 1, bei dem die Musterangleichungseinrichtung eine wahrscheinlichkeitsbasierte Angleichung ausführt und die Datenstatistik-Schätzeinrichtung eine erwartete Eingangsabtastwert-Anzahl berechnet, wobei statt der Eingangsabtastwert-Anzahl die erwartete Eingangsabtastwert-Anzahl verwendet wird.
  3. Musteranpassungssystem, das ein Baumschema verwendet, nach einem der Ansprüche 1 oder 2, bei der als das verwendete Eingangsmuster eine Zeitreihe aus Merkmalsvektoren verwendet wird, die durch Analyse der Eingangssprache erhalten werden.
  4. Musteranpassungssystem, das ein Baumschema verwendet, nach Anspruch 3, bei dem ein Hidden-Markow-Modell, in dem die Ausgangswahrscheinlichkeitsverteilung eine gemischte Gauß-Verteilung ist, als das Referenzmuster verwendet wird.
  5. Musteranpassungssystem mit einem Baumschema nach Anspruch 4, bei dem das Baumschemareferenzmuster ein Baumschemareferenzmuster ist, das durch Berücksichtigung von Ausgangswahrscheinlichkeitsverteilungs-Mittelwertvektoren in einzelnen Stufen des Hidden-Marckow-Modells erzeugt wird.
  6. Musteranpassungssystem mit einem Baumschema nach Anspruch 1, bei dem das Baumschema auf Sprachklangähnlichkeiten in der Sprachklangtheorie basiert.
  7. Musteranpassungssystem mit einem Baumschema nach Anspruch 1, bei dem das Baumschema auf einem wahrscheinlichkeitsbasierten Baumschema basiert, indem die Grade, in denen Unterknoten zu Elternknoten gehören, durch reelle Zahlen von 0 bis 1 dargestellt sind, und die Summe der Grade, in denen ein Unterknoten zu mehreren Hauptknoten gehört, gleich 1 ist.
  8. Musteranpassungssystem mit einem Baumschema nach Anspruch 1, bei dem das Referenzmuster aktualisiert wird, nachdem eine die gesamte eingegebene Sprache betreffende Operation beendet worden ist.
  9. Musteranpassungssystem mit einem Baumschema nach Anspruch 1, bei dem das Referenzmuster bei jeder Eingabe von Eingangssprache aktualisiert wird.
  10. Musteranpassungsverfahren, das ein Baumschema verwendet, um ein Referenzmuster, das durch mehrere verschiedene Kategorien gebildet ist, auf der Grundlage eines Eingangsmusters, das ein Aggregat aus Eingangsabtastwerten ist, anzupassen, wobei das Verfahren die folgenden Schritte umfaßt: Angleichen der Kategorien eines gespeicherten Referenzmusters und eines Eingangsmusters, Berechnen der Anzahl von Eingangsabtastwerten in jedem Knoten eines Baumschemareferenzmusters, das im voraus als ein Referenzmuster gespeichert worden ist, das in einem Baumschema unter Verwendung der durch den Anpassungsschritt erhaltenen Entsprechung gegeben ist, Auswählen eines Knotens, der für die Anpassung verwendet wird, in Übereinstimmung mit der berechneten Anzahl von Eingangsabtastwerten, Berechnen eines Anpassungsparameters in dem ausgewählten Knoten und Erzeugen eines angepaßten Referenzmusters unter Verwendung des berechneten Anpassungsparameters.
DE69628603T 1995-02-03 1996-02-02 System zur Musteranpassung mittels einer Baumstruktur Expired - Lifetime DE69628603T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP3907395 1995-02-03
JP7039073A JP2751856B2 (ja) 1995-02-03 1995-02-03 木構造を用いたパターン適応化方式

Publications (2)

Publication Number Publication Date
DE69628603D1 DE69628603D1 (de) 2003-07-17
DE69628603T2 true DE69628603T2 (de) 2004-05-19

Family

ID=12542954

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69628603T Expired - Lifetime DE69628603T2 (de) 1995-02-03 1996-02-02 System zur Musteranpassung mittels einer Baumstruktur

Country Status (4)

Country Link
US (1) US6173076B1 (de)
EP (1) EP0725383B1 (de)
JP (1) JP2751856B2 (de)
DE (1) DE69628603T2 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2888781B2 (ja) 1995-09-19 1999-05-10 株式会社エイ・ティ・アール音声翻訳通信研究所 話者適応化装置及び音声認識装置
DE69914368T2 (de) * 1998-11-25 2005-03-10 Microsoft Corp., Redmond Netzwerk- und sprachmodelle zur verwendung in einem spracherkennungssystem
US6684186B2 (en) * 1999-01-26 2004-01-27 International Business Machines Corporation Speaker recognition using a hierarchical speaker model tree
ATE297588T1 (de) * 2000-11-14 2005-06-15 Ibm Anpassung des phonetischen kontextes zur verbesserung der spracherkennung
JP4336865B2 (ja) 2001-03-13 2009-09-30 日本電気株式会社 音声認識装置
CN101390156B (zh) * 2006-02-27 2011-12-07 日本电气株式会社 标准模式适应装置、标准模式适应方法
US7840407B2 (en) 2006-10-13 2010-11-23 Google Inc. Business listing search
US7890326B2 (en) * 2006-10-13 2011-02-15 Google Inc. Business listing search
US8041568B2 (en) * 2006-10-13 2011-10-18 Google Inc. Business listing search
CA2665990A1 (en) * 2006-10-13 2008-04-17 Google Inc. Business listing search
TWI497449B (zh) * 2012-12-26 2015-08-21 Ind Tech Res Inst 非監督式調適方法與應用其之影像自動分類方法
US9201900B2 (en) * 2013-08-29 2015-12-01 Htc Corporation Related image searching method and user interface controlling method
US20200151576A1 (en) * 2018-11-08 2020-05-14 Uber Technologies, Inc. Training adaptable neural networks based on evolvability search

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
US4852173A (en) * 1987-10-29 1989-07-25 International Business Machines Corporation Design and construction of a binary-tree system for language modelling
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech
DE69322894T2 (de) * 1992-03-02 1999-07-29 At & T Corp., New York, N.Y. Lernverfahren und Gerät zur Spracherkennung
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
US5392363A (en) * 1992-11-13 1995-02-21 International Business Machines Corporation On-line connected handwritten word recognition by a probabilistic method
US5633948A (en) * 1992-11-30 1997-05-27 Kegelmeyer, Jr.; W. Philip Method and apparatus for detecting a desired behavior in digital image data
JP2522154B2 (ja) 1993-06-03 1996-08-07 日本電気株式会社 音声認識システム
DE69425412T2 (de) * 1993-11-23 2001-03-08 International Business Machines Corp., Armonk Anlage und Verfahren zur automatischen Handschrifterkennung mittels eines benutzerunabhängigen chirographischen Labelalphabets
US5625748A (en) * 1994-04-18 1997-04-29 Bbn Corporation Topic discriminator using posterior probability or confidence scores
US5649023A (en) * 1994-05-24 1997-07-15 Panasonic Technologies, Inc. Method and apparatus for indexing a plurality of handwritten objects
US5625749A (en) * 1994-08-22 1997-04-29 Massachusetts Institute Of Technology Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition

Also Published As

Publication number Publication date
JP2751856B2 (ja) 1998-05-18
JPH08211889A (ja) 1996-08-20
EP0725383A3 (de) 1998-02-25
EP0725383A2 (de) 1996-08-07
US6173076B1 (en) 2001-01-09
DE69628603D1 (de) 2003-07-17
EP0725383B1 (de) 2003-06-11

Similar Documents

Publication Publication Date Title
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE69420842T2 (de) Spracherkennung unter anwendung einer zweidurchgängigen suchmethode
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE60204374T2 (de) Spracherkennungsvorrichtung
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE69323841T2 (de) Klassifikation bei Spracherkennung von isolierten Wörtern in Schlüsselwörter und Nicht-Schlüsselwörter
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
EP0987683B1 (de) Spracherkennungsverfahren mit Konfidenzmassbewertung
DE69523219T2 (de) Anpassungsfähiges Lernverfahren zur Mustererkennung
DE69226804T2 (de) Spracherkennung durch ein zum Bezugmusterlernen angepasstes neuronales Netzwerk
DE69628603T2 (de) System zur Musteranpassung mittels einer Baumstruktur
DE69613293T2 (de) Vorrichtung zur Musteranpassung für Sprach- oder Mustererkennung
DE10047723A1 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE69609531T2 (de) Sprachanpassungsgerät
DE10119284A1 (de) Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems
DE19842151A1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition