DE60020660T2

DE60020660T2 - Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung

Info

Publication number: DE60020660T2
Application number: DE60020660T
Authority: DE
Inventors: Roland Santa Barbara Kuhn; Matteo Santa Barbara Contolini; Jean Claude Santa Barbara Junqua
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-11-29
Filing date: 2000-11-27
Publication date: 2005-10-06
Anticipated expiration: 2020-11-28
Also published as: ES2243210T3; EP1103952A3; US6571208B1; DE60020660D1; JP3683177B2; JP2001195084A; CN1298172A; EP1103952A2; TW493160B; EP1103952B1

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Entwicklung kontextabhängiger Modelle zur automatischen Spracherkennung.
Spracherkennungssysteme mit kleinem Vokabular haben als ihre Basiseinheiten die Wörter des kleinen zu erkennenden Vokabulars. So hat z. B. ein System zur Erkennung des englischen Alphabets typischerweise 26 Modelle, also ein Modell pro Buchstabe des Alphabets. Dieser Ansatz ist für Spracherkennungssysteme mit mittelgroßem oder großem Vokabular nicht praktikabel. Diese größeren Systeme haben typischerweise aus Basiseinheiten die Phoneme und Silben einer Sprache. Wenn ein System ein Modell (z. B. ein Hidden Markov-Modell) pro Phonem einer Sprache enthält, wird es als System mit "kontextunabhängigen" akustischen Modellen bezeichnet.
Wenn ein System verschiedene Modelle für ein gegebenes Phonem verwendet, die von der Identität der umgebenden Phoneme abhängen, wird von einem System gesprochen, das "kontextabhängige" akustische Modelle verwendet. Ein Allophon ist eine spezialisierte Version eines durch seinen Kontext definierten Phonems. So definieren beispielsweise alle Fälle eines "ae", das vor "t" ausgesprochen wird, wie in "bat", "fat" usw. ein Allophon von "ae".
Bei den meisten Sprachen hängt die akustische Erkennung eines Phonems sehr stark von den vorangehenden und den nachfolgenden Phonemen ab. So ist z. B. ein "eh", dem ein "y" vorangeht (wie in "yes") deutlich verschieden von dem "eh", dem ein "s" vorangeht (wie in "set"). Deshalb ist bei einem System mit mittelgroßem oder großem Vokabular die Leistung kontextabhängiger akustischer Modelle viel besser als die kontextunabhängiger Modelle. Derzeit verwenden die meisten praktischen Anwendungen von Spracherkennungssystemen mit mittelgroßem oder großem Vokabular kontextabhängige akustische Modelle.
Zahlreiche der heutigen Spracherkennungssysteme verwenden die Entscheidungsbaum-Clusterbildung, um die kontextabhängigen sprecherunabhängigen akustischen Modelle zu definieren. Ein baumzüchtender Algorithmus sucht Fragen zu den Phonemen, die das interessierende Phonem umgeben und trennt akustisch unähnliche Beispiele der interessierenden Phoneme ab. Das Ergebnis ist ein Entscheidungsbau aus Yes-No (Ja-Nein)-Fragen zur Wahl des akustischen Modells, das ein gegebenes Allophon am besten erkennt. Typischerweise beziehen sich die Yes-No-Fragen darauf, wie das Allophon im Kontext erscheint (d. h. welches seine benachbarten Phoneme sind).
Ein herkömmlicher Entscheidungsbaum definiert für jedes Phonem einen binären Baum mit Ja-Nein-Fragen im Root Node (Wurzelknoten) und in jedem Zwischenknoten (Kinder, Enkel usw. des Root Node). Die Endknoten oder Blattknoten enthalten die für die bestimmten Allophone des Phonems konzipierten akustischen Modelle. Im Betrieb traversiert also das Erkennungssystem den Baum, wobei es bei "yes" oder "no" auf Basis des jeweiligen Kontexts des Phonems verzweigt, bis der des Anwendungsmodell enthaltende Blattknoten identifiziert ist. Danach wird das identifizierte Modell zur Erkennung verwendet.
Leider können herkömmliche Allophonmodellierungen fehlerhaft sein. Die Anmelder sind der Auffassung, dass der Grund darin liegt, dass aktuelle Modelle die besonderen Idiosynkrasien jedes Schulungssprechers nicht berücksichtigen. Bei aktuellen Verfahren wird angenommen, dass die Idiosynkrasien der individuellen Sprecher ausgeglichen werden, wenn eine große Anzahl Schulungssprecher eingesetzt wird. In der Praxis hat sich jedoch gezeigt, dass dies nicht immer zutrifft. Herkömmliche Allophonmodelle auf Entscheidungsbaumbasis funktionieren ziemlich gut, wenn die Sprache eines neuen Sprechers zufällig der Sprache der Schulungssprecherpopulation ähnelt. Allerdings versagen herkömmliche Techniken, wenn die Sprache des neuen Sprechers außerhalb der Domäne der Schulungssprecherpopulation liegt.
Die Dissertation von Robert Westwood mit dem Titel "Speaker Adaptation using Eigenvoices" vom 31. August 1999 zusammen mit Studien, die am Wolfson College, Department of Engineering, Cambridge University, Cambridge, Vereinigtes Königreich XP002176018, ausgeführt wurden, beschreibt eine Technik zur Anpassung von Sprechermodellen. Es werden Beispiele gezeigt und eine Schlussfolgerung dahingehend gezogen, dass es für die offenbarte Zerlegungstechnik der Eigenvoice wichtig ist, die Veränderlichkeit zwischen Sprechern gut zu modellieren, wenn diese wirksam sein soll.
Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren des oben genannten Typs bereitgestellt, dass das Erzeugen eines Eigenraums, um eine Schulungssprecherpopulation zu repräsentieren; das Bereitstellen einer Menge akustischer Daten für mindestens einen Schulungssprecher und das Darstellen der akustischen Daten im Eigenraum, um mindestens einen Allophon-Schwerpunkt für den Schulungssprecher zu bestimmen; das Subtrahieren des Schwerpunkts von den akustischen Daten, um sprecherangepasste akustische Daten für den Schulungssprecher zu erzeugen; und das Verwenden der sprecherangepassten akustischen Daten, um mindestens einen Entscheidungsbaum mit Blattknoten zu züchten, die kontextabhängige Modelle für verschiedene Allophone haben, aufweist.
Die Erfindung wird nunmehr unter Bezugnahme auf die beiliegenden Zeichnungen nur beispielhaft beschrieben; es zeigen:
1 eine schematische Darstellung des Sprecherraums zur Erläuterung, wie der Schwerpunkt einer Schulungssprecherpopulation und die zugehörigen Allophonvektoren von Sprecher zu Sprecher verschieden sind;
2 ein Blockdiagramm einer derzeit bevorzugten ersten Ausführungsform, die als Eigenschwerpunkt plus Delta-Baumausführungsform bezeichnet wird;
3 eine Ausführungsform eines Spracherkenners, die den aus der in 2 dargestellten Ausführungsform entwickelten Delta-Entscheidungsbaum verwendet;
4 eine andere Ausführungsform eines Spracherkenners, die ebenfalls den durch die in 2 dargestellte Ausführungsform erzeugten Delta-Entscheidungsbaum verwendet;
5 wie ein Delta-Baum unter Verwendung der durch die in 2 dargestellte Ausführungsform erzeugten sprecherangepassten Daten aufgebaut werden könnte;
6 die Gruppierung von sprecherangepassten Daten im akustischen Raum entsprechend dem Delta-Baum von 5;
7 einen beispielhaften Delta-Entscheidungsbaum, der Fragen zu den Eigenraumdimensionen enthält; und
8 eine zweite Ausführungsform der Erfindung, die bei Anwendungen mit einer vollständigeren Datenmenge pro Sprecher nützlich ist.
Die Techniken der Erfindung können bei vielfältigen verschiedenen Spracherkennungsproblemen angewendet werden. Die Techniken sind wahrscheinlich am nützlichsten bei Anwendungen mit mittelgroßem und großem Vokabular, wo es unmöglich ist, jedes volle Wort durch sein eigenes Modell zu repräsentieren. Hier werden zwei Ausführungsformen der Erfindung beschrieben. Es versteht sind, dass die Grundlagen der Erfindung auch auf andere Ausführungsformen übertragen werden können.
Die erste Ausführungsform ist für Anwendungen optimiert, in denen jeder Schulungssprecher eine mäßige Menge Schulungsdaten geliefert hat: z. B. in der Größenordnung von 20 bis 30 Minuten Schulungsdaten pro Sprecher. Bei dieser Menge Schulungsdaten ist zu erwarten, dass es genug Sprachbeispiele gibt, um einigermaßen gute kontextunabhängige sprecherabhängige Modelle für jeden Sprecher zu konstruieren. Falls gewünscht können Sprecheranpassungstechniken angewendet werden, um ausreichende Daten zur Schulung der kontextunabhängigen Modelle zu erzeugen. Obwohl es nicht erforderlich ist, einen vollen Satz Beispiele aller Allophone für jeden Sprecher zur Verfügung zu haben, sollten die Daten die wichtigsten Allophone für jedes Phonem an beliebiger Stelle der Daten wiedergeben (d. h. die Allophone sind einige Male von zumindest einer kleinen Anzahl Sprecher ausgesprochen worden).
Das Erkennungssystem dieser Ausführungsform verwendet Entscheidungsbäume zum Identifizieren des zutreffenden Modells für jedes Allophon auf Basis des Kontexts dieses Allophons (beispielsweise auf Basis seiner benachbarten Phoneme). Anders als herkömmliche Modellierungssysteme auf Basis von Entscheidungsbäumen verwendet diese Ausführungsform jedoch sprecherangepasste Schulungsdaten beim Aufbau der Entscheidungsbäume. Der Prozess der Sprecheranpassung entfernt in der Tat die besonderen Idiosynkrasien der Sprache jedes Schulungssprechers, so dass bessere Allophonmo delle erzeugt werden können. Wenn dann das Erkennungssystem verwendet wird, erfolgt eine ähnliche Anpassung der Sprache jeden neuen Sprechers, wodurch auf die sprecherangepassten Allophonmodelle zugegriffen werden kann, um eine qualitativ hochwertige kontextabhängige Erkennung auszuführen.
Eine wichtige Komponente des Erkennungssystems dieser Ausführungsform ist die Eigenvoice-Technik, durch die die Sprache des Schulungssprechers und die Sprache des neuen Sprechers rasch analysiert werden können, um Idiosynkrasien des individuellen Sprechers zu extrahieren. Die Eigenvoice-Technik, die nachstehend ausführlicher erörtert wird, definiert einen Eigenraum verringerter Dimensionalität, der die Schulungssprecherpopulation kollektiv repräsentiert. Wenn der/die neue Sprecherin) während der Erkennung spricht, wird seine/ihre Sprache rasch in den Eigenraum platziert oder projiziert, um sehr schnell zu bestimmen, wie der "Schwerpunkt" der Sprache dieses Sprechers im Sprecherraum relativ zu den Schulungssprechern fällt.
Wie ausführlich erläutert werden wird, wird der Schwerpunkt des neuen Sprechers (und auch der Schwerpunkt jedes Schulungssprechers) dadurch definiert, wie jeder Sprecher die Phoneme des Systems äußert. Der Einfachheit halber kann der Mittelpunktvektor als verkettete Gauß'sche mittlere Vektoren für jeden Zustand jedes Phonem-HMM in einem kontextunabhängigen Modell für einen gegeben Sprecher angenommen werden. Das "Mittelpunkt"-Konzept ist jedoch skalierbar und hängt davon ab, wie viele Daten pro Schulungssprecher zur Verfügung stehen. Wenn beispielsweise genug Schulungsdaten zur Schulung eines etwas gehaltvolleren sprecherabhängigen Modells für jeden Sprecher vorhanden sind (wie ein Diphonmodell), dann könnte der Mittelpunkt für jeden Schulungssprecher die verketteten Gauß'schen Mittel aus diesem sprecherabhängigen Diphonmodell sein. Natürlich können auch andere Modelle wie Triphonmodelle und dgl. implementiert werden.
1 stellt das Konzept der Schwerpunkte dar, indem schematisch veranschaulicht wird, wie sechs verschiedene Schulungssprecher A bis F das Phonem 'ae' in verschiedenen Kontexten aussprechen können. 1 zeigt einen Sprecherraum, der schematisch der Einfachheit halber als zweidimensionaler Raum dargestellt ist, in dem der Schwerpunkt jedes Sprechers im zweidimensionalen Raum im Mittelpunkt der für diesen Sprecher erfassten Allophonvektoren liegt. In 1 liegt also der Schwerpunkt von Sprecher A im Ursprung der entsprechenden Allophonvektoren, die hergeleitet wurden, als der Sprecher A die folgenden Wörter äußerte: "mass", "lack" und "had". Der Mittelpunkt für Sprecher A enthält somit Informationen, die ungefähr das "mittlere" Phonem 'ae' für diesen Sprecher repräsentieren.
Im Vergleich dazu liegt der Schwerpunkt von Sprecher B rechts von Sprecher A im Sprecherraum. Der Schwerpunkt das Sprechers B wurde durch folgende Lautäußerungen erzeugt: "laugh", "rap" und "bag". Wie dargestellt liegen die anderen Sprecher C bis F in anderen Zonen des Sprecherraums. Es ist zu beachten, dass jeder Sprecher eine Menge Allophone hat, die durch vom Schwerpunkt ausgehenden Vektoren repräsentiert werden (in 1 sind drei Allophonvektoren dargestellt). Wie dargestellt definieren diese Vektoren Winkelbeziehungen, die häufig grob vergleichbar zwischen verschiedenen Sprechern sind. Siehe z. B. Winkel 10 von Sprecher A im Vergleich zu Winkel 12 von Sprecher B. Da jedoch die Schwerpunkte der jeweiligen Sprecher nicht zusammenfallen, sind die resultierenden Allophone der Sprecher A und B nicht identisch. Das Konzept der vorliegenden Erfindung geht dieses Problem an, indem die sprecherabhängigen Idiosynkrasien beseitigt werden, die durch die unterschiedliche Lage der Schwerpunkte charakteristisiert sind.
Obwohl die Winkelbeziehungen zwischen Allophonvektoren im Allgemeinen unter den Sprechern vergleichbar sind, bedeutet dies nicht, dass die Vektoren identisch sind. Tatsächlich können die Vektorlängen von einem Sprecher zum anderen variieren. Männliche und weibliche Sprecher haben wahrscheinlich Allophonvektorlängen, die voneinander verschieden sind. Außerdem können verschiedene Winkelbeziehungen auf verschiedene Dialekte der Sprecher zurückzuführen sein. Diesbezüglich sei Winkel 14 von Sprecher E mit Winkel 10 von Sprecher A verglichen. Diese Winkeldifferenz würde beispielsweise dafür stehen, dass Sprecher A einen Dialekt der nördlichen Vereinigten Staaten spricht, während Sprecher E einen Dialekt der südlichen Vereinigten Staaten spricht.
Abgesehen von diesen Differenzen der Vektorlängen und der Winkel stellt die Ungleichheit der Schwerpunktlagen ein wesentliches sprecherabhängiges Artefakt dar, das herkömmliche kontextabhängige Erkenner nicht bearbeiten können. Wie nachstehend ausführlicher erläutert werden wird, stellt die vorliegende Erfindung einen Mechanismus bereit, um die Ungleichheit der Schwerpunktlagen sowie anderer Vektorlängen und Winkeldifferenzen auf einfache Weise auszugleichen.
2 zeigt eine derzeit bevorzugte erste Ausführungsform, die als Eigenschwerpunkt plus Delta-Baumausführungsform bezeichnet wird. Insbesondere zeigt 2 die bevorzugten Schritte zur Schulung der Deltabäume, die dann vom Erkenner verwendet werden:
3 und 4 zeigen alternative Ausführungsformen zur Verwendung dieses Erkenners mit von einem neuen Sprecher gelieferter Sprache.
Wie aus 2 ersichtlich ist, können die bei dieser Ausführungsform verwendeten Delta-Entscheidungsbäume durch Bereitstellen akustischer Daten von einer Mehrzahl Schulungssprecher gezüchtet werden, wie bei 16 dargestellt. Die akustischen Daten von jedem Schulungssprecher werden in einen Eigenraum 18 platziert oder projiziert. Bei der derzeit bevorzugten Ausführungsform kann der Eigenraum abgeschnitten werden, um seine Größe und die Komplexität der Berechnung zu verringern. Der Eigenraum mit verringerter Größe wird hier als K-Raum bezeichnet.
Eine Prozedur zum Erzeugen des Eigenraums 18 ist mit den Schritten 20 bis 26 dargestellt. Die Prozedur verwendet die akustischen Daten 16 des Schulungssprechers, um sprecherabhängige (SD – speaker dependent) Modelle für jeden Schulungssprecher zu erzeugen, wie in Schritt 20 dargestellt. Diese Modelle werden dann in Schritt 22 vektorisiert. Bei der derzeit bevorzugten Ausführungsform werden die sprecherabhängigen Modelle vektorisiert, indem die Parameter der Sprachmodelle jedes Sprechers verkettet werden. Typischerweise werden Hidden Markov-Modelle verwendet, die in einem Supervektor für jeden Sprecher resultieren, der eine geordnete Parameterliste aufweisen kann (typischerweise Gleitkommazahlen), die zumindest einem Teil der Parameter des Hidden Markov-Modells für diesen Sprecher entsprechen. Die Parameter können in jeder beliebigen Reihenfolge organisiert weiden. Die Reihenfolge ist nicht kritisch; wenn eine Reihenfolge jedoch einmal festlegt ist, muss sie für alle Schulungssprecher eingehalten werden.
Als Nächstes wird in Schritt 24 ein Dimensionalitätsreduktionsschritt mit den Supervektoren ausgeführt, um den Eigenraum zu definieren. Die Dimensionalitätsreduktion kann durch jede lineare Transformation erfolgen, die die ursprünglich hochdimensionalen Supervektoren zu Basisvektoren reduziert. Eine nicht vollständige Liste von Dimensionalitätsreduktionstechniken enthält: prinzipielle Komponentenanalyse (PCA – Principal Component Analysis), unabhängige Komponentenanalyse (ICA – Independent Component Analysis), lineare diskriminierende Analyse (LDA – Linear Discriminate Analysis), Factor Analyse (FA) und Singularwertzerlegung (SVD – Singular Value Decomposition).
Die in Schritt 24 erzeugten Basisvektoren definieren einen Eigenraum, der von den Eigenvektoren überspannt wird. Die Dimensionalitätsreduktion erbringt einen Eigenvektor für jeden der Schulungssprecher. Wenn es also n Schulungssprecher gibt, erzeugt Schritt 24 der Dimensionalitätsreduktion n Eigenvektoren. Diese Eigenvektoren definieren den so genannten Eigenvoice-Raum oder Eigenraum.
Die den Eigenraum bildenden Eigenvektoren repräsentieren jeweils eine andere Dimension, über die verschiedene Sprecher unterschieden werden können. Jeder Supervektor der ursprünglichen Schulungsmenge kann als lineare Kombination dieser Eigenvektoren repräsentiert werden. Die Eigenvektoren werden nach ihrer Bedeutung bei der Modellierung der Daten geordnet: der erste Eigenvektor ist wichtiger als der zweite, der wiederum wichtiger als der dritte ist usw.
Obwohl in Schritt 24 ein Maximum von n Eigenvektoren erzeugt wird, ist es in der Praxis möglich, mehrere dieser Eigenvektoren zu verwerfen und nur die ersten K Eigenvektoren beizubehalten. In Schritt 26 werden also wahlweise K der n Eigenvektoren extrahiert, um einen reduzierten Parameter-Eigenraum oder K-Raum zu erhalten. Die Eigenvektoren höherer Ordnung können verworfen werden, da sie typischerweise weniger wichtige Informationen enthalten, nach denen zwischen den Sprechern unterschieden wird. Die Reduzierung des Eigenvoice-Raums auf weniger als die Gesamtzahl der Schulungssprecher trägt dazu bei, Störungen in den ursprünglichen Schulungsdaten zu beseitigen und stellt außerdem eine inhärente Datenkomprimierung bereit, die bei Aufbau von Systemen in der Praxis mit begrenzten Speicher- und Prozessorressourcen nützlich sein kann.
Nach dem Aufbau des Eigenraums 18 werden die akustischen Daten jedes einzelnen Schulungssprechers wie bei 28 in den Eigenraum projiziert oder platziert. Die Lage der Daten jedes Sprechers im Eigenraum (K-Raum) repräsentiert den Schwerpunkt oder die mittlere Phonemaussprache jedes Sprechers. Wie in 1 dargestellt ist damit zu rechnen, dass diese Scherpunkte von Sprecher zu Sprecher differieren. Bei der Bestimmung der Sprecherphonemschwerpunkte ist Geschwindigkeit ein bedeutender Vorteil der Eigenraumtechnik.
Die derzeit bevorzugte Technik zur Platzierung der Daten jedes Sprechers im Eigenraum beinhaltet eine Technik, die als Maximum Likelihood Estimation Technique (MLED – etwa: Technik der maximalen Wahrscheinlichkeit) bezeichnet wird. In der Praxis wird die Maximum Likelihood Estimation Technique den Supervektor im Eigenraum wählen, der der Eingabesprache des Sprechers am nächsten kommt, ungeachtet wie viel Sprache tatsächlich verfügbar ist.
Zur Verdeutlichung sei angenommen, dass es sich bei dem Sprecher um eine junge aus Alabama gebürtige Frau handelt. Nach Erhalt einiger von dieser Sprecherin geäußerten Silben wählt die Maximum Likelihood Estimation Technique einen Punkt im Eigenraum, der alle Phoneme (selbst die, die noch nicht in der Eingabesprache repräsentiert sind), die dem Akzent dieser aus Alabama gebürtigen Sprecherin entsprechen.
Die Maximum Likelihood Estimation Technique verwendet eine Wahrscheinlichkeitsfunktion Q, die die Wahrscheinlichkeit der Erzeugung der beobachteten Daten für eine vordefinierte Menge von Hidden Markov-Modellen repräsentiert. Die Manipulation dieser Funktion Q wird vereinfacht, wenn die Funktion nicht nur den Wahrscheinlichkeitsterm P, sondern auch den Logarithmus dieses Terms, log P, enthält. Die Wahrscheinlichkeitsfunktion wird dann maximiert, indem die Ableitung der Wahrscheinlichkeitsfunktion individuell nach jedem der Eigenwerte erfolgt. Wenn der Eigenraum z. B. die Dimension 100 hat, berechnet dieses System 100 Ableitungen der Wahrscheinlichkeitsfunktion Q, wobei jede auf null gesetzt und nach dem entsprechenden Eigenwert W gelöst wird.
Die so erhaltene resultierende Menge von W's repräsentiert die Eigenwerte, die zur Identifizierung des Punktes im Eigenraum erforderlich sind, der dem Punkt mit 'maximum likelihood' entspricht. Die Menge der W's weist also einen maximum Likelihood-Vektor im Eigenraum auf. Dieser maximum Likelihood-Vektor kann dann zur Konstruktion eines Supervektors verwendet werden, der dem optimalen Punkt im Eigenraum entspricht.
Im Kontext des maximalen Wahrscheinlichkeitsrahmens der Erfindung soll die Wahrscheinlichkeit einer Beobachtung O bezüglich eines gegebenen Modells maximiert werden. Dies kann iterativ erfolgen, indem die nachstehende Hilfsfunktion Q maximiert wird.
dabei ist λ das Modell und λ ist das geschätzte Modell.

Als vorläufige Annäherung könnte ein Maximierung hinsichtlich nur der Mittelwerte wünschenswert sein. In dem Kontext, in dem die Wahrscheinlichkeit P durch eine Menge HMM's gegeben ist, wird Folgendes erhalten:

Dabei h(ot, m, s) = (ot – μ ^m (s))TCm (s)–1 (ot–μ ^m (s))und es sei:

o_t	der Merkmalsvektor im Zeitpunkt t
C_m ^(s)–1	die inverse Kovarianz für die Gauß'sche Mischung m des Zustands s
μ ^_m ^(s)	das angenäherte angepasste Mittel für Zustand s, Mischungskomponente m
γ_μ ^(s)(t)	P (unter Verwendung der Gauß'schen Mischung m\|λ₁o_t)

Es sei angenommen, dass die Gauß'schen Mittel für die HMM's des neuen Sprechers im Eigenraum liegen. Dieser Eigenraum durch die mittleren Supervektoren μ_j überspannt, wobei j = 1, ..., E
dabei repräsentiert μ^–(s)(j) den mittleren Vektor für die Gauß'sche Mischung m im Zustand des Eigenvektors (Eigenmodell) j.
Dann wird gebraucht:
Die μ_j sind orthogonal und die w_j sind Eigenwerte des Sprechermodells. Es sei hier angenommen, dass jeder neue Sprecher als lineare Kombination der Datenbasis der beobachteten Sprecher modelliert werden kann. Dann
mit s in den Zuständen von λ m in der Gauß'schen Mischung M.
Da Q maximiert werden muss, braucht nur
gesetzt zu werden.
(Es ist zu beachten, dass
i≠j.. , weil die Eigenvektoren orthogonal sind).
Somit ergibt sich
Durch Berechnung der obigen Ableitung ergibt sich:
woraus die Menge der linearen Gleichungen
erhalten wird.
Sobald die Schwerpunkte jedes Sprechers bestimmt worden sind, werden sie in Schritt 30 subtrahiert, um sprecherangepasste akustische Daten zu ergeben. Anhand von 1 zeigt sich, dass dieser Schwerpunktsubtraktionsprozess alle Sprecher im Sprecherraum verschiebt, so dass ihre Schwerpunkt zusammenfallen. Dies beseitigt tatsächlich die Idiosynkrasien der Sprecher, so dass nur die allophonrelevanten Daten verbleiben.
Nachdem alle Schulungssprecher auf diese Weise verarbeitet worden sind, werden die resultierenden sprecherangepassten Schulungsdaten in Schritt 32 zum Züchten von Delta-Entscheidungsbäumen verwendet, wie schematisch bei 34 dargestellt ist. Für jedes Phonem wird ein Entscheidungsbaum auf diese Weise gezüchtet. Das Phonem 'ae' ist bei 34 dargestellt. Jeder Entscheidungsbaum enthält einen Root Node 36, der ein Frage zum Kontext des Phonems enthält (d. h. eine Frage zu den Nachbarn des Phonems oder anderen kontextrelevanten Informationen). Die Frage im Root Node kann entweder mit "yes" (Ja) oder "no" (Nein) beantwortet werden, wodurch eine Verzweigung nach links oder recht zu einem Paar Kind-Knoten erfolgt. Die Kind-Knoten können weitere Frage enthalten, wie bei 38 dargestellt ist, oder ein Sprachmodell wie bei 40. Es ist zu beachten, dass alle Blattknoten (Knoten 40, 42 und 44) Sprachmodelle enthalten. Diese Modelle werden als die Modelle, die zur Erkennung eines bestimmten Allophons am besten geeignet sind, gewählt. Die Sprachmodelle der Blattknoten sind also kontextabhängig.
Nachdem die Delta-Entscheidungsbäume entwickelt worden sind wie in 1 dargestellt, kann das System zum Erkennen der Sprache eines neuen Sprechers verwendet werden. Unter Bezugnahme auf die 3 und 4 werden nunmehr zwei Ausführungsformen von Erkennern beschrieben. Die Erkenner-Ausführungsformen unterscheiden sich im Wesentlichen darin, ob der neue Sprecherschwerpunkt vor der kontextabhängigen Erkennung von den akustischen Daten subtrahiert wird (3), oder ob die Schwerpunktinformation vor der kontextabhängigen Erkennung zu den kontextabhängigen Modellen addiert wird.
Wie aus 3 zu ersehen ist, liefert der neue Sprecher 50 eine Lautäußerung, die zu mehreren Verarbeitungsblöcken geleitet wird, wie dargestellt. Die Lautäußerung wird an einen sprecherunabhängigen Erkenner 52 geliefert, der einfach dazu dient, den MLED-Prozess anzustoßen.
Bevor die Lautäußerung des neuen Sprechers an den kontextabhängigen Erkenner 60 geliefert wird, wird die Information über den Sprecherschwerpunkt von den akustischen Daten des Sprechers subtrahiert. Dies erfolgt durch Berechnen der Position des neuen Sprechers im Eigenraum (K-Raum) wie bei 62, um so den Schwerpunkt des neuen Sprechers zu bestimmen wie bei 64. Vorzugsweise wird die zuvor beschriebene MLED-Technik angewendet, um die Position des neuen Sprechers im K-Raum zu berechnen.
Nachdem der Schwerpunkt des neuen Sprechers bestimmt worden ist, werden die Schwerpunktdaten von den akustischen Daten des neuen Sprechers subtrahiert wie bei 66. Dies ergibt sprecherangepasste akustische Daten 68, die dann an den kontextabhängigen Erkenner 60 geliefert werden.
Die in 4 dargestellte alternative Ausführungsform funktioniert auf etwa die gleiche Weise. Die Lautäußerung des neuen Sprechers wird wie zuvor an den sprecherunabhängi gen Erkenner 52 geliefert, um den MLED-Prozess anzustoßen. Wenn der MLED-Prozess in einer bestimmten Ausführungsform nicht angewendet wird, ist der sprecherunabhängige Erkenner natürlich nicht erforderlich.
Die Lautäußerung des neuen Sprechers wird nun wie in Schritt 62 im Eigenraum platziert, um den Schwerpunkt des neuen Sprechers zu bestimmen wie bei 64. Die Schwerpunktinformation wird dann zu den kontextabhängigen Modellen addiert wie bei 72, um eine Menge sprecherangepasster kontextabhängigen Modelle 74 zu erhalten. Diese sprecherangepassten Modelle werden dann vom kontextabhängigen Erkenner 60 zur Erzeugung des Erkennerausgangs 70 verwendet. Die nachstehende Tabelle I zeigt, wie beispielhafte Datenelemente für drei Sprecher durch Subtrahieren des Schwerpunkts sprecherangepasst werden können. Alle Datenelemente in der Tabelle sind Aussprachen des Phonems 'ae' (in verschiedenen Kontexten). 5 zeigt wie ein Delta-Baum unter Verwendung dieser sprecherangepassten Daten aufgebaut werden könnte. 6 zeigt die Gruppierung der sprecherangepassten Daten im akustischen Raum. In 6 bedeutet +1 das nächste Phonem; die Reibelaute sind die Menge der Phoneme {f, h, s, th, ...}; stimmhafte Konsonanten sind {b, d, g, ...}.
TABELLE I
Falls gewünscht können Standardabweichungen sowie Mittelwerte im Sprecheranpassungsprozess verwendet werden. Dies würde z. B. durch die Anwendung einer Unit Variance-Bedingung (wie bei der cepstralen Normalisierung) geschehen. Nach der Schulung der sprecherabhängigen Schwerpunkte würden die zur MLED übertragenen Supervektoren Standardabweichungen sowie Mittelwerte enthalten. Nach der Subtraktion des Phonem-Zustandschwerpunkts von jedem Datenelement würde für jedes Schulungsdatenelement das Element weiter angepasst werden, indem es durch die Schwerpunkt-Standardabweichungen dividiert wird. Dies würde in einer sogar noch genaueren Konzentration der Allophondaten durch die Bäume resultieren. Hinsichtlich der Laufzeit gäbe es einen gewissen höheren Rechenaufwand bei Anwendung dieser Technik, da die Sprecheranpassung der eingehenden Rahmen etwas komplexer wäre.
Wie zuvor erwähnt kann die Koartikulation durch den Sprechertyp auf eine solche Weise beeinflusst werden, die bewirkt, dass die Richtung der Allophonvektoren verschieden ist. Dies ist in 1 dargestellt, wo die Winkelbeziehungen der versetzten Vektoren verschieden sind, je nachdem, ob der Sprecher aus dem Norden oder aus dem Süden kommt. Dieses Phänomen kann berücksichtigt werden, indem der Entscheidungsbaum Fragen zu den Eigendimensionen enthält. 7 zeigt einen beispielhaften Delta-Entscheidungsbaum, der Fragen zu den Eigendimensionen bei der Bestimmung, welches Modell für ein bestimmtes Allophon anzuwenden ist, enthält. In 7 sind die Fragen 80 und 82 Fragen zur Eigendimension. Die Frage lautet, ob eine bestimmte Eigendimension (in diesem Fall die Dimension 3) größer ist als null. Natürlich können auch anderen Fragen bezüglich der Eigendimension gestellt werden.
Eine andere Ausführungsform der Erfindung wird nunmehr in Zusammenhang mit 8 beschrieben. Diese Ausführungsform eignet sich für Anwendungen, bei denen eine ausreichende Datenmenge pro Sprecher vorhanden ist, um hinreichend genaue sprecherabhängige Modelle zu schulen. Bei dieser Ausführungsform müssen die Schwerpunkte jedes Sprechers nicht ermittelt werden.
Um die Eigenvoice-Technik anzuwenden, ist jedoch eine Menge von Supervektoren (einer für jedes Schulungssprechermodell) erforderlich. Diese Supervektoren müssen die gleiche Dimension haben und im gleichen Sinn so ausgerichtet sein, dass der Index i den gleichen Parameter über alle sprecherabhängigen Modelle repräsentieren muss.
Um deshalb einen guten kontextabhängigen Allophonbaum für ein gegebenes Phonem züchten zu können, der über die Sprecher gemeinsam genutzt werden kann, konzentriert diese Ausführungsform die Daten über die Sprecher, wobei aber verfolgt wird, welches Datenelement von welchem Sprecher kam. Das maximum Likelihood Estimation (MLE)-Kriterium zur Wahl einer Frage wird somit auf eine Akkumulierung einer Gesamtbewer tung für jede Testfrage ausgeweitet, während die Bewertungen für die einzelnen Sprecher getrennt bewertet und gesichert werden. 8 stellt die Technik dar.
Wie aus 8 ersichtlich ist, wird die Struktur des Entscheidungsbaums gezüchtet, indem ein Pool aus Fragen 100 bereitgestellt wird. Diese Fragen werden einzeln durch den den Baum züchtenden Algorithmus getestet, um zu bestimmen, welche Fragen die Struktur der Allophonbäume am besten definieren.
Die Fragen des Fragen-Pools werden nacheinander durch eine iterative Technik untersucht. Das System von 8 enthält also einen Iterator 102 zur Auswahl einer Frage aus dem Pool 100, damit diese getestet werden kann. Die aktuell getestete Frage ist bei 104 dargestellt.
Es sei daran erinnert, dass jede Testfrage auf irgendeine Weise den Kontext betrifft, in dem ein bestimmtes Phonem auftritt. Die Testfrage könnte also beispielsweise lauten, ob vor einem gegebenen Phonem ein Reibelaut steht. Der den Baum züchtende Algorithmus züchtet einzelne Bäume für jedes Phonem, wobei mit einer Root Node-Frage begonnen und zu weiteren Fragen wie erforderlich weitergegangen wird, bis die Allophone dieses Phonems durch die Baumstruktur gut repräsentiert werden. Die Wahl der Root Node-Frage und eventueller Fragen der Zwischenknoten erfolgt wie in 8 dargestellt.
Die Prozedur zur Wahl der Testfragen erfolgt, indem angenommen wird, dass die aktuell bewertete Frage (Frage 104) für diesen Knoten des Baums gewählt worden ist. Sprecherdaten von den Schulungssprechern 106 werden von der Testfrage 104 bewertet, um dadurch die Sprachdaten in zwei Teile zu teilen: einen Teil, der die Testfrage mit "yes" (Ja) und einen Teil, der die Testfrage mit "no" (Nein) beantwortete. Dann weiden Sprachmodelle unter Verwendung der Testdaten das Sprechers aufgebaut. Im Einzelnen wird ein "yes"-Modell 106 und ein "no"-Modell 108 für jeden Sprecher aufgebaut. Dies unterscheidet sich von der herkömmlichen Prozedur, bei der alle Daten für alle Sprecher konzentriert und für eine gegebene Frage ein "yes"- und ein "no"-Modell aus den konzentrierten Daten geschult werden. Die Modelle werden geschult, indem akustische Merkmale aller Sprachdatenbeispiele, die die Testfrage mit "yes" beantworten, und in ähnlicher Weise eine andere Menge von akustischen Merkmalen der Daten, die mit "no" auf die Testfrage antworten, geschult werden.
Nachdem ein "yes"-Modell 106 und ein "no"-Modell 108 für jeden Sprecher aufgebaut worden ist, berechnet das System die Wahrscheinlichkeitsbewertung aller "yes"-Daten des "yes"-Modells 106 und berechnet auch die Wahrscheinlichkeitsbewertung aller "no"-Daten des "no"-Modells 108. Eine hohe Wahrscheinlichkeitsbewertung bedeutet, dass das aufgebaute Modell bei der Erkennung seines Anteils der Schulungsdaten gut arbeitet. Eine niedrige Wahrscheinlichkeitsbewertung bedeutet, dass das Modell, das möglicherweise das beste Modell ist, das aus den Schulungsdaten aufgebaut werden kann, bei der Erkennung des fraglichen Phonems nicht gut arbeitet.
Die Wahrscheinlichkeitsbewertungen werden zur Berechnung der Gesamtbewertung der Testfrage 104 herangezogen. Die Berechnung geschieht wie in 8 dargestellt wie folgt. Zunächst werden die jeweiligen Wahrscheinlichkeitsbewertungen für das "yes"-Modell und das "no"-Modell für einen ersten Schulungssprecher (Sprecher A) berechnet. Diese Bewertungen werden miteinander multipliziert, um eine kumulative Produktbewertung zu erhalten, die angibt, wie gut das Modell für den Sprecher A funktionierte. Dies ist bei 112 dargestellt. Die gleiche Prozedur wird dann nacheinander für die restlichen Sprecher ausgeführt wie bei 114 und 116 dargestellt. Wenn schließlich alle Schulungssprecher berücksichtigt worden sind, wird eine Gesamtbewertung berechnet, indem die resultierenden Produkte von den einzelnen Sprechern multipliziert werden. Die bei 112, 114 und 116 erhaltenen Produkte werden also miteinander multipliziert, um bei 118 eine Gesamtbewertung für die Testfrage zu erhalten.
Nach der Erzeugung einer Gesamtbewertung für die erste Testfrage speichert der Iterator 102 die Ergebnisse der Gesamtbewertung und entnimmt dann dem Pool der Fragen 100 eine zweite Frage, die auf die gleiche Weise getestet wird. Wenn alle Fragen im Pool getestet worden sind, wird die Frage, die die beste Gesamtbewertung erbrachte, für diesen Knoten des Entscheidungsbaums gewählt.
Nachdem der Root Node des Entscheidungsbaums wie oben beschrieben bestimmt worden ist, kann der Iterator 102 prüfen, ob weitere Zwischenknoten ausreichende Verbesserungen ergeben, um das Hinzufügen zusätzlicher Knoten zum Baum zu rechtfertigen. Wenn schließlich der Baum auf diese Weise gezüchtet worden ist, enthalten die Blattknoten die Modelle, die die Allophone eines bestimmten Phonems am besten "erkennen".
Nachdem die Strukturen des Entscheidungsbaums durch die obigen Prozeduren identifiziert worden sind, kann nunmehr die Eigenvoice-Technik angewendet werden. Wenn ein einziges Gauß'sches Modell pro Blattknoten zur Darstellung des Allophons ausreicht, werden die allophonen sprecherabhängigen Modelle unter Verwendung der gemeinsamen Baumstruktur geschult, um die Menge der Supervektoren zu erhalten, die dann für den Aufbau des Eigenraums durch Dimensionalitätsreduktion verwendet werden. Bei nunmehr abgeschlossener Schulung ist der nächste Schritt eine einfache MLED-Schätzung der Eigenvoice-Koeffizienten. Mehrere Gauß'sche Modelle sind etwas komplizierter, das sich das Problem der Ausrichtung stellt. Das bedeutet, dass dann, wenn bekannt ist, dass der Blattknoten N des sprecherabhängigen Modells 1 und der Blattknoten N des sprecherabhängigen Modells 2 zwar dasselbe Allophon repräsentieren, es nicht sicher ist, dass das Gauß'sche Modell i des Blattknotens N im sprecherabhängigen Modell 1 dasselbe Phänomen wie das Gauß'sche Modell i im sprecherabhängigen Modell 2 repräsentiert. Eine Möglichkeit, dieses Problem anzugehen, ist die Bestimmung eines Schwerpunkts für jedes Blatt und dann eine Sprecheranpassung aller Daten vorzunehmen, wobei alle Blätter erreicht werden. Die Daten für ein gegebenes Blatt würden dann über die sprecherabhängigen Modelle konzentriert und gemeinsame Gauß'sche Modelle berechnet werden. Während der Laufzeit erbringt MLED Schätzungen aller Blatt-Schwerpunkte, die dann von den Daten des neuen Sprechers subtrahiert werden könnten, bevor sie gegenüber den Delta-Gauß-Funktionen geprüft werden.

Claims

Verfahren zur Entwicklung kontextabhängiger Modelle zur automatischen Spracherkennung, aufweisend: Erzeugen eines Eigenraums (18), um eine Schulungssprecherpopulation zu repräsentieren; Bereitstellen einer Menge akustischer Daten (16) für mindestens einen Schulungssprecher und Darstellen der akustischen Daten im Eigenraum (28), um mindestens einen Allophon-Schwerpunkt für den Schulungssprecher zu bestimmen; und Subtrahieren des Schwerpunkts von den akustischen Daten (30), um sprecherangepasste akustische Daten für den Schulungssprecher zu erzeugen; Verwenden der sprecherangepassten akustischen Daten, um mindestens einen Entscheidungsbaum (32) mit Blattknoten zu züchten, die kontextabhängige Modelle für verschiedene Allophone haben.
Verfahren nach Anspruch 1, ferner die Verwendung einer Menge akustischer Daten für eine Mehrzahl Schulungssprecher aufweisend, um sprecherangepasste akustische Daten für jeden Sprecher der Mehrzahl Schulungssprecher zu erzeugen.
Verfahren nach Anspruch 1, bei dem der Eigenraum durch die Konstruktion von Supervektoren (22) auf Basis von Sprache der Schulungssprecherpopulation erzeugt und eine Dimensionalitätsverringerung (24) dieser Supervektoren ausgeführt wird, um einen verringerten Dimensionalitätsraum zu definieren, der die Schulungssprecherpopulation abdeckt.
Verfahren zur Ausführung von Spracherkennung unter Verwendung der kontextabhängigen Modelle, die gemäß Anspruch 1 entwickelt worden sind, aufweisend: Bereitstellen von Sprachdaten von einem neuen Sprecher (50); Verwenden des Eigenraums (62) zur Bestimmung mindestens eines neuen Sprecher-Schwerpunkts (64) und Subtrahieren des neuen Sprecher-Schwerpunkts von den Sprachdaten (66) des neuen Sprechers, um sprecherangepasste Daten (68) zu erzeugen; und Liefern der sprecherangepassten Daten an einen Spracherkenner (60), in dem die kontextabhängigen Modelle (58) verwendet werden.
Verfahren zur Ausführung von Spracherkennung unter Verwendung der kontextabhängigen Modelle, die gemäß Anspruch 1 entwickelt worden sind, aufweisend: Bereitstellen von Sprachdaten von einem neuen Sprecher (50); Verwenden des Eigenraums (62) zur Bestimmung mindestens eines neuen Sprecher-Schwerpunkts (64) eines neuen Sprecher und Addieren des neuen Sprecher-Schwerpunkts zu den kontextabhängigen Modellen (72), um neue sprecherangepasste kontextabhängige Modelle (74) zu erzeugen; und Liefern der Sprachdaten an einen Spracherkenner (60), in dem die neuen sprecherangepassten kontextabhängigen Modelle (74) verwendet werden.