DE60020660T2 - Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung - Google Patents

Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung Download PDF

Info

Publication number
DE60020660T2
DE60020660T2 DE60020660T DE60020660T DE60020660T2 DE 60020660 T2 DE60020660 T2 DE 60020660T2 DE 60020660 T DE60020660 T DE 60020660T DE 60020660 T DE60020660 T DE 60020660T DE 60020660 T2 DE60020660 T2 DE 60020660T2
Authority
DE
Germany
Prior art keywords
speaker
data
training
models
eigenspace
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60020660T
Other languages
English (en)
Other versions
DE60020660D1 (de
Inventor
Roland Santa Barbara Kuhn
Matteo Santa Barbara Contolini
Jean Claude Santa Barbara Junqua
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Application granted granted Critical
Publication of DE60020660D1 publication Critical patent/DE60020660D1/de
Publication of DE60020660T2 publication Critical patent/DE60020660T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zur Entwicklung kontextabhängiger Modelle zur automatischen Spracherkennung.
  • Spracherkennungssysteme mit kleinem Vokabular haben als ihre Basiseinheiten die Wörter des kleinen zu erkennenden Vokabulars. So hat z. B. ein System zur Erkennung des englischen Alphabets typischerweise 26 Modelle, also ein Modell pro Buchstabe des Alphabets. Dieser Ansatz ist für Spracherkennungssysteme mit mittelgroßem oder großem Vokabular nicht praktikabel. Diese größeren Systeme haben typischerweise aus Basiseinheiten die Phoneme und Silben einer Sprache. Wenn ein System ein Modell (z. B. ein Hidden Markov-Modell) pro Phonem einer Sprache enthält, wird es als System mit "kontextunabhängigen" akustischen Modellen bezeichnet.
  • Wenn ein System verschiedene Modelle für ein gegebenes Phonem verwendet, die von der Identität der umgebenden Phoneme abhängen, wird von einem System gesprochen, das "kontextabhängige" akustische Modelle verwendet. Ein Allophon ist eine spezialisierte Version eines durch seinen Kontext definierten Phonems. So definieren beispielsweise alle Fälle eines "ae", das vor "t" ausgesprochen wird, wie in "bat", "fat" usw. ein Allophon von "ae".
  • Bei den meisten Sprachen hängt die akustische Erkennung eines Phonems sehr stark von den vorangehenden und den nachfolgenden Phonemen ab. So ist z. B. ein "eh", dem ein "y" vorangeht (wie in "yes") deutlich verschieden von dem "eh", dem ein "s" vorangeht (wie in "set"). Deshalb ist bei einem System mit mittelgroßem oder großem Vokabular die Leistung kontextabhängiger akustischer Modelle viel besser als die kontextunabhängiger Modelle. Derzeit verwenden die meisten praktischen Anwendungen von Spracherkennungssystemen mit mittelgroßem oder großem Vokabular kontextabhängige akustische Modelle.
  • Zahlreiche der heutigen Spracherkennungssysteme verwenden die Entscheidungsbaum-Clusterbildung, um die kontextabhängigen sprecherunabhängigen akustischen Modelle zu definieren. Ein baumzüchtender Algorithmus sucht Fragen zu den Phonemen, die das interessierende Phonem umgeben und trennt akustisch unähnliche Beispiele der interessierenden Phoneme ab. Das Ergebnis ist ein Entscheidungsbau aus Yes-No (Ja-Nein)-Fragen zur Wahl des akustischen Modells, das ein gegebenes Allophon am besten erkennt. Typischerweise beziehen sich die Yes-No-Fragen darauf, wie das Allophon im Kontext erscheint (d. h. welches seine benachbarten Phoneme sind).
  • Ein herkömmlicher Entscheidungsbaum definiert für jedes Phonem einen binären Baum mit Ja-Nein-Fragen im Root Node (Wurzelknoten) und in jedem Zwischenknoten (Kinder, Enkel usw. des Root Node). Die Endknoten oder Blattknoten enthalten die für die bestimmten Allophone des Phonems konzipierten akustischen Modelle. Im Betrieb traversiert also das Erkennungssystem den Baum, wobei es bei "yes" oder "no" auf Basis des jeweiligen Kontexts des Phonems verzweigt, bis der des Anwendungsmodell enthaltende Blattknoten identifiziert ist. Danach wird das identifizierte Modell zur Erkennung verwendet.
  • Leider können herkömmliche Allophonmodellierungen fehlerhaft sein. Die Anmelder sind der Auffassung, dass der Grund darin liegt, dass aktuelle Modelle die besonderen Idiosynkrasien jedes Schulungssprechers nicht berücksichtigen. Bei aktuellen Verfahren wird angenommen, dass die Idiosynkrasien der individuellen Sprecher ausgeglichen werden, wenn eine große Anzahl Schulungssprecher eingesetzt wird. In der Praxis hat sich jedoch gezeigt, dass dies nicht immer zutrifft. Herkömmliche Allophonmodelle auf Entscheidungsbaumbasis funktionieren ziemlich gut, wenn die Sprache eines neuen Sprechers zufällig der Sprache der Schulungssprecherpopulation ähnelt. Allerdings versagen herkömmliche Techniken, wenn die Sprache des neuen Sprechers außerhalb der Domäne der Schulungssprecherpopulation liegt.
  • Die Dissertation von Robert Westwood mit dem Titel "Speaker Adaptation using Eigenvoices" vom 31. August 1999 zusammen mit Studien, die am Wolfson College, Department of Engineering, Cambridge University, Cambridge, Vereinigtes Königreich XP002176018, ausgeführt wurden, beschreibt eine Technik zur Anpassung von Sprechermodellen. Es werden Beispiele gezeigt und eine Schlussfolgerung dahingehend gezogen, dass es für die offenbarte Zerlegungstechnik der Eigenvoice wichtig ist, die Veränderlichkeit zwischen Sprechern gut zu modellieren, wenn diese wirksam sein soll.
  • Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren des oben genannten Typs bereitgestellt, dass das Erzeugen eines Eigenraums, um eine Schulungssprecherpopulation zu repräsentieren; das Bereitstellen einer Menge akustischer Daten für mindestens einen Schulungssprecher und das Darstellen der akustischen Daten im Eigenraum, um mindestens einen Allophon-Schwerpunkt für den Schulungssprecher zu bestimmen; das Subtrahieren des Schwerpunkts von den akustischen Daten, um sprecherangepasste akustische Daten für den Schulungssprecher zu erzeugen; und das Verwenden der sprecherangepassten akustischen Daten, um mindestens einen Entscheidungsbaum mit Blattknoten zu züchten, die kontextabhängige Modelle für verschiedene Allophone haben, aufweist.
  • Die Erfindung wird nunmehr unter Bezugnahme auf die beiliegenden Zeichnungen nur beispielhaft beschrieben; es zeigen:
  • 1 eine schematische Darstellung des Sprecherraums zur Erläuterung, wie der Schwerpunkt einer Schulungssprecherpopulation und die zugehörigen Allophonvektoren von Sprecher zu Sprecher verschieden sind;
  • 2 ein Blockdiagramm einer derzeit bevorzugten ersten Ausführungsform, die als Eigenschwerpunkt plus Delta-Baumausführungsform bezeichnet wird;
  • 3 eine Ausführungsform eines Spracherkenners, die den aus der in 2 dargestellten Ausführungsform entwickelten Delta-Entscheidungsbaum verwendet;
  • 4 eine andere Ausführungsform eines Spracherkenners, die ebenfalls den durch die in 2 dargestellte Ausführungsform erzeugten Delta-Entscheidungsbaum verwendet;
  • 5 wie ein Delta-Baum unter Verwendung der durch die in 2 dargestellte Ausführungsform erzeugten sprecherangepassten Daten aufgebaut werden könnte;
  • 6 die Gruppierung von sprecherangepassten Daten im akustischen Raum entsprechend dem Delta-Baum von 5;
  • 7 einen beispielhaften Delta-Entscheidungsbaum, der Fragen zu den Eigenraumdimensionen enthält; und
  • 8 eine zweite Ausführungsform der Erfindung, die bei Anwendungen mit einer vollständigeren Datenmenge pro Sprecher nützlich ist.
  • Die Techniken der Erfindung können bei vielfältigen verschiedenen Spracherkennungsproblemen angewendet werden. Die Techniken sind wahrscheinlich am nützlichsten bei Anwendungen mit mittelgroßem und großem Vokabular, wo es unmöglich ist, jedes volle Wort durch sein eigenes Modell zu repräsentieren. Hier werden zwei Ausführungsformen der Erfindung beschrieben. Es versteht sind, dass die Grundlagen der Erfindung auch auf andere Ausführungsformen übertragen werden können.
  • Die erste Ausführungsform ist für Anwendungen optimiert, in denen jeder Schulungssprecher eine mäßige Menge Schulungsdaten geliefert hat: z. B. in der Größenordnung von 20 bis 30 Minuten Schulungsdaten pro Sprecher. Bei dieser Menge Schulungsdaten ist zu erwarten, dass es genug Sprachbeispiele gibt, um einigermaßen gute kontextunabhängige sprecherabhängige Modelle für jeden Sprecher zu konstruieren. Falls gewünscht können Sprecheranpassungstechniken angewendet werden, um ausreichende Daten zur Schulung der kontextunabhängigen Modelle zu erzeugen. Obwohl es nicht erforderlich ist, einen vollen Satz Beispiele aller Allophone für jeden Sprecher zur Verfügung zu haben, sollten die Daten die wichtigsten Allophone für jedes Phonem an beliebiger Stelle der Daten wiedergeben (d. h. die Allophone sind einige Male von zumindest einer kleinen Anzahl Sprecher ausgesprochen worden).
  • Das Erkennungssystem dieser Ausführungsform verwendet Entscheidungsbäume zum Identifizieren des zutreffenden Modells für jedes Allophon auf Basis des Kontexts dieses Allophons (beispielsweise auf Basis seiner benachbarten Phoneme). Anders als herkömmliche Modellierungssysteme auf Basis von Entscheidungsbäumen verwendet diese Ausführungsform jedoch sprecherangepasste Schulungsdaten beim Aufbau der Entscheidungsbäume. Der Prozess der Sprecheranpassung entfernt in der Tat die besonderen Idiosynkrasien der Sprache jedes Schulungssprechers, so dass bessere Allophonmo delle erzeugt werden können. Wenn dann das Erkennungssystem verwendet wird, erfolgt eine ähnliche Anpassung der Sprache jeden neuen Sprechers, wodurch auf die sprecherangepassten Allophonmodelle zugegriffen werden kann, um eine qualitativ hochwertige kontextabhängige Erkennung auszuführen.
  • Eine wichtige Komponente des Erkennungssystems dieser Ausführungsform ist die Eigenvoice-Technik, durch die die Sprache des Schulungssprechers und die Sprache des neuen Sprechers rasch analysiert werden können, um Idiosynkrasien des individuellen Sprechers zu extrahieren. Die Eigenvoice-Technik, die nachstehend ausführlicher erörtert wird, definiert einen Eigenraum verringerter Dimensionalität, der die Schulungssprecherpopulation kollektiv repräsentiert. Wenn der/die neue Sprecherin) während der Erkennung spricht, wird seine/ihre Sprache rasch in den Eigenraum platziert oder projiziert, um sehr schnell zu bestimmen, wie der "Schwerpunkt" der Sprache dieses Sprechers im Sprecherraum relativ zu den Schulungssprechern fällt.
  • Wie ausführlich erläutert werden wird, wird der Schwerpunkt des neuen Sprechers (und auch der Schwerpunkt jedes Schulungssprechers) dadurch definiert, wie jeder Sprecher die Phoneme des Systems äußert. Der Einfachheit halber kann der Mittelpunktvektor als verkettete Gauß'sche mittlere Vektoren für jeden Zustand jedes Phonem-HMM in einem kontextunabhängigen Modell für einen gegeben Sprecher angenommen werden. Das "Mittelpunkt"-Konzept ist jedoch skalierbar und hängt davon ab, wie viele Daten pro Schulungssprecher zur Verfügung stehen. Wenn beispielsweise genug Schulungsdaten zur Schulung eines etwas gehaltvolleren sprecherabhängigen Modells für jeden Sprecher vorhanden sind (wie ein Diphonmodell), dann könnte der Mittelpunkt für jeden Schulungssprecher die verketteten Gauß'schen Mittel aus diesem sprecherabhängigen Diphonmodell sein. Natürlich können auch andere Modelle wie Triphonmodelle und dgl. implementiert werden.
  • 1 stellt das Konzept der Schwerpunkte dar, indem schematisch veranschaulicht wird, wie sechs verschiedene Schulungssprecher A bis F das Phonem 'ae' in verschiedenen Kontexten aussprechen können. 1 zeigt einen Sprecherraum, der schematisch der Einfachheit halber als zweidimensionaler Raum dargestellt ist, in dem der Schwerpunkt jedes Sprechers im zweidimensionalen Raum im Mittelpunkt der für diesen Sprecher erfassten Allophonvektoren liegt. In 1 liegt also der Schwerpunkt von Sprecher A im Ursprung der entsprechenden Allophonvektoren, die hergeleitet wurden, als der Sprecher A die folgenden Wörter äußerte: "mass", "lack" und "had". Der Mittelpunkt für Sprecher A enthält somit Informationen, die ungefähr das "mittlere" Phonem 'ae' für diesen Sprecher repräsentieren.
  • Im Vergleich dazu liegt der Schwerpunkt von Sprecher B rechts von Sprecher A im Sprecherraum. Der Schwerpunkt das Sprechers B wurde durch folgende Lautäußerungen erzeugt: "laugh", "rap" und "bag". Wie dargestellt liegen die anderen Sprecher C bis F in anderen Zonen des Sprecherraums. Es ist zu beachten, dass jeder Sprecher eine Menge Allophone hat, die durch vom Schwerpunkt ausgehenden Vektoren repräsentiert werden (in 1 sind drei Allophonvektoren dargestellt). Wie dargestellt definieren diese Vektoren Winkelbeziehungen, die häufig grob vergleichbar zwischen verschiedenen Sprechern sind. Siehe z. B. Winkel 10 von Sprecher A im Vergleich zu Winkel 12 von Sprecher B. Da jedoch die Schwerpunkte der jeweiligen Sprecher nicht zusammenfallen, sind die resultierenden Allophone der Sprecher A und B nicht identisch. Das Konzept der vorliegenden Erfindung geht dieses Problem an, indem die sprecherabhängigen Idiosynkrasien beseitigt werden, die durch die unterschiedliche Lage der Schwerpunkte charakteristisiert sind.
  • Obwohl die Winkelbeziehungen zwischen Allophonvektoren im Allgemeinen unter den Sprechern vergleichbar sind, bedeutet dies nicht, dass die Vektoren identisch sind. Tatsächlich können die Vektorlängen von einem Sprecher zum anderen variieren. Männliche und weibliche Sprecher haben wahrscheinlich Allophonvektorlängen, die voneinander verschieden sind. Außerdem können verschiedene Winkelbeziehungen auf verschiedene Dialekte der Sprecher zurückzuführen sein. Diesbezüglich sei Winkel 14 von Sprecher E mit Winkel 10 von Sprecher A verglichen. Diese Winkeldifferenz würde beispielsweise dafür stehen, dass Sprecher A einen Dialekt der nördlichen Vereinigten Staaten spricht, während Sprecher E einen Dialekt der südlichen Vereinigten Staaten spricht.
  • Abgesehen von diesen Differenzen der Vektorlängen und der Winkel stellt die Ungleichheit der Schwerpunktlagen ein wesentliches sprecherabhängiges Artefakt dar, das herkömmliche kontextabhängige Erkenner nicht bearbeiten können. Wie nachstehend ausführlicher erläutert werden wird, stellt die vorliegende Erfindung einen Mechanismus bereit, um die Ungleichheit der Schwerpunktlagen sowie anderer Vektorlängen und Winkeldifferenzen auf einfache Weise auszugleichen.
  • 2 zeigt eine derzeit bevorzugte erste Ausführungsform, die als Eigenschwerpunkt plus Delta-Baumausführungsform bezeichnet wird. Insbesondere zeigt 2 die bevorzugten Schritte zur Schulung der Deltabäume, die dann vom Erkenner verwendet werden:
  • 3 und 4 zeigen alternative Ausführungsformen zur Verwendung dieses Erkenners mit von einem neuen Sprecher gelieferter Sprache.
  • Wie aus 2 ersichtlich ist, können die bei dieser Ausführungsform verwendeten Delta-Entscheidungsbäume durch Bereitstellen akustischer Daten von einer Mehrzahl Schulungssprecher gezüchtet werden, wie bei 16 dargestellt. Die akustischen Daten von jedem Schulungssprecher werden in einen Eigenraum 18 platziert oder projiziert. Bei der derzeit bevorzugten Ausführungsform kann der Eigenraum abgeschnitten werden, um seine Größe und die Komplexität der Berechnung zu verringern. Der Eigenraum mit verringerter Größe wird hier als K-Raum bezeichnet.
  • Eine Prozedur zum Erzeugen des Eigenraums 18 ist mit den Schritten 20 bis 26 dargestellt. Die Prozedur verwendet die akustischen Daten 16 des Schulungssprechers, um sprecherabhängige (SD – speaker dependent) Modelle für jeden Schulungssprecher zu erzeugen, wie in Schritt 20 dargestellt. Diese Modelle werden dann in Schritt 22 vektorisiert. Bei der derzeit bevorzugten Ausführungsform werden die sprecherabhängigen Modelle vektorisiert, indem die Parameter der Sprachmodelle jedes Sprechers verkettet werden. Typischerweise werden Hidden Markov-Modelle verwendet, die in einem Supervektor für jeden Sprecher resultieren, der eine geordnete Parameterliste aufweisen kann (typischerweise Gleitkommazahlen), die zumindest einem Teil der Parameter des Hidden Markov-Modells für diesen Sprecher entsprechen. Die Parameter können in jeder beliebigen Reihenfolge organisiert weiden. Die Reihenfolge ist nicht kritisch; wenn eine Reihenfolge jedoch einmal festlegt ist, muss sie für alle Schulungssprecher eingehalten werden.
  • Als Nächstes wird in Schritt 24 ein Dimensionalitätsreduktionsschritt mit den Supervektoren ausgeführt, um den Eigenraum zu definieren. Die Dimensionalitätsreduktion kann durch jede lineare Transformation erfolgen, die die ursprünglich hochdimensionalen Supervektoren zu Basisvektoren reduziert. Eine nicht vollständige Liste von Dimensionalitätsreduktionstechniken enthält: prinzipielle Komponentenanalyse (PCA – Principal Component Analysis), unabhängige Komponentenanalyse (ICA – Independent Component Analysis), lineare diskriminierende Analyse (LDA – Linear Discriminate Analysis), Factor Analyse (FA) und Singularwertzerlegung (SVD – Singular Value Decomposition).
  • Die in Schritt 24 erzeugten Basisvektoren definieren einen Eigenraum, der von den Eigenvektoren überspannt wird. Die Dimensionalitätsreduktion erbringt einen Eigenvektor für jeden der Schulungssprecher. Wenn es also n Schulungssprecher gibt, erzeugt Schritt 24 der Dimensionalitätsreduktion n Eigenvektoren. Diese Eigenvektoren definieren den so genannten Eigenvoice-Raum oder Eigenraum.
  • Die den Eigenraum bildenden Eigenvektoren repräsentieren jeweils eine andere Dimension, über die verschiedene Sprecher unterschieden werden können. Jeder Supervektor der ursprünglichen Schulungsmenge kann als lineare Kombination dieser Eigenvektoren repräsentiert werden. Die Eigenvektoren werden nach ihrer Bedeutung bei der Modellierung der Daten geordnet: der erste Eigenvektor ist wichtiger als der zweite, der wiederum wichtiger als der dritte ist usw.
  • Obwohl in Schritt 24 ein Maximum von n Eigenvektoren erzeugt wird, ist es in der Praxis möglich, mehrere dieser Eigenvektoren zu verwerfen und nur die ersten K Eigenvektoren beizubehalten. In Schritt 26 werden also wahlweise K der n Eigenvektoren extrahiert, um einen reduzierten Parameter-Eigenraum oder K-Raum zu erhalten. Die Eigenvektoren höherer Ordnung können verworfen werden, da sie typischerweise weniger wichtige Informationen enthalten, nach denen zwischen den Sprechern unterschieden wird. Die Reduzierung des Eigenvoice-Raums auf weniger als die Gesamtzahl der Schulungssprecher trägt dazu bei, Störungen in den ursprünglichen Schulungsdaten zu beseitigen und stellt außerdem eine inhärente Datenkomprimierung bereit, die bei Aufbau von Systemen in der Praxis mit begrenzten Speicher- und Prozessorressourcen nützlich sein kann.
  • Nach dem Aufbau des Eigenraums 18 werden die akustischen Daten jedes einzelnen Schulungssprechers wie bei 28 in den Eigenraum projiziert oder platziert. Die Lage der Daten jedes Sprechers im Eigenraum (K-Raum) repräsentiert den Schwerpunkt oder die mittlere Phonemaussprache jedes Sprechers. Wie in 1 dargestellt ist damit zu rechnen, dass diese Scherpunkte von Sprecher zu Sprecher differieren. Bei der Bestimmung der Sprecherphonemschwerpunkte ist Geschwindigkeit ein bedeutender Vorteil der Eigenraumtechnik.
  • Die derzeit bevorzugte Technik zur Platzierung der Daten jedes Sprechers im Eigenraum beinhaltet eine Technik, die als Maximum Likelihood Estimation Technique (MLED – etwa: Technik der maximalen Wahrscheinlichkeit) bezeichnet wird. In der Praxis wird die Maximum Likelihood Estimation Technique den Supervektor im Eigenraum wählen, der der Eingabesprache des Sprechers am nächsten kommt, ungeachtet wie viel Sprache tatsächlich verfügbar ist.
  • Zur Verdeutlichung sei angenommen, dass es sich bei dem Sprecher um eine junge aus Alabama gebürtige Frau handelt. Nach Erhalt einiger von dieser Sprecherin geäußerten Silben wählt die Maximum Likelihood Estimation Technique einen Punkt im Eigenraum, der alle Phoneme (selbst die, die noch nicht in der Eingabesprache repräsentiert sind), die dem Akzent dieser aus Alabama gebürtigen Sprecherin entsprechen.
  • Die Maximum Likelihood Estimation Technique verwendet eine Wahrscheinlichkeitsfunktion Q, die die Wahrscheinlichkeit der Erzeugung der beobachteten Daten für eine vordefinierte Menge von Hidden Markov-Modellen repräsentiert. Die Manipulation dieser Funktion Q wird vereinfacht, wenn die Funktion nicht nur den Wahrscheinlichkeitsterm P, sondern auch den Logarithmus dieses Terms, log P, enthält. Die Wahrscheinlichkeitsfunktion wird dann maximiert, indem die Ableitung der Wahrscheinlichkeitsfunktion individuell nach jedem der Eigenwerte erfolgt. Wenn der Eigenraum z. B. die Dimension 100 hat, berechnet dieses System 100 Ableitungen der Wahrscheinlichkeitsfunktion Q, wobei jede auf null gesetzt und nach dem entsprechenden Eigenwert W gelöst wird.
  • Die so erhaltene resultierende Menge von W's repräsentiert die Eigenwerte, die zur Identifizierung des Punktes im Eigenraum erforderlich sind, der dem Punkt mit 'maximum likelihood' entspricht. Die Menge der W's weist also einen maximum Likelihood-Vektor im Eigenraum auf. Dieser maximum Likelihood-Vektor kann dann zur Konstruktion eines Supervektors verwendet werden, der dem optimalen Punkt im Eigenraum entspricht.
  • Im Kontext des maximalen Wahrscheinlichkeitsrahmens der Erfindung soll die Wahrscheinlichkeit einer Beobachtung O bezüglich eines gegebenen Modells maximiert werden. Dies kann iterativ erfolgen, indem die nachstehende Hilfsfunktion Q maximiert wird.
    Figure 00090001
    dabei ist λ das Modell und λ ist das geschätzte Modell.
  • Als vorläufige Annäherung könnte ein Maximierung hinsichtlich nur der Mittelwerte wünschenswert sein. In dem Kontext, in dem die Wahrscheinlichkeit P durch eine Menge HMM's gegeben ist, wird Folgendes erhalten:
    Figure 00100001
    Dabei h(ot, m, s) = (ot – μ ^m (s))TCm (s)–1 (ot–μ ^m (s))und es sei:
    ot der Merkmalsvektor im Zeitpunkt t
    Cm (s)–1 die inverse Kovarianz für die Gauß'sche Mischung m des Zustands s
    μ ^m (s) das angenäherte angepasste Mittel für Zustand s, Mischungskomponente m
    γμ (s)(t) P (unter Verwendung der Gauß'schen Mischung m|λ1ot)
  • Es sei angenommen, dass die Gauß'schen Mittel für die HMM's des neuen Sprechers im Eigenraum liegen. Dieser Eigenraum durch die mittleren Supervektoren μj überspannt, wobei j = 1, ..., E
    Figure 00100002
    dabei repräsentiert μ–(s)(j) den mittleren Vektor für die Gauß'sche Mischung m im Zustand des Eigenvektors (Eigenmodell) j.
  • Dann wird gebraucht:
  • Figure 00100003
  • Die μj sind orthogonal und die wj sind Eigenwerte des Sprechermodells. Es sei hier angenommen, dass jeder neue Sprecher als lineare Kombination der Datenbasis der beobachteten Sprecher modelliert werden kann. Dann
    Figure 00100004
    mit s in den Zuständen von λ m in der Gauß'schen Mischung M.
  • Da Q maximiert werden muss, braucht nur
    Figure 00110001
    gesetzt zu werden.
  • (Es ist zu beachten, dass
    Figure 00110002
    i≠j.. , weil die Eigenvektoren orthogonal sind).
  • Somit ergibt sich
  • Figure 00110003
  • Durch Berechnung der obigen Ableitung ergibt sich:
    Figure 00110004
    woraus die Menge der linearen Gleichungen
    Figure 00110005
    erhalten wird.
  • Sobald die Schwerpunkte jedes Sprechers bestimmt worden sind, werden sie in Schritt 30 subtrahiert, um sprecherangepasste akustische Daten zu ergeben. Anhand von 1 zeigt sich, dass dieser Schwerpunktsubtraktionsprozess alle Sprecher im Sprecherraum verschiebt, so dass ihre Schwerpunkt zusammenfallen. Dies beseitigt tatsächlich die Idiosynkrasien der Sprecher, so dass nur die allophonrelevanten Daten verbleiben.
  • Nachdem alle Schulungssprecher auf diese Weise verarbeitet worden sind, werden die resultierenden sprecherangepassten Schulungsdaten in Schritt 32 zum Züchten von Delta-Entscheidungsbäumen verwendet, wie schematisch bei 34 dargestellt ist. Für jedes Phonem wird ein Entscheidungsbaum auf diese Weise gezüchtet. Das Phonem 'ae' ist bei 34 dargestellt. Jeder Entscheidungsbaum enthält einen Root Node 36, der ein Frage zum Kontext des Phonems enthält (d. h. eine Frage zu den Nachbarn des Phonems oder anderen kontextrelevanten Informationen). Die Frage im Root Node kann entweder mit "yes" (Ja) oder "no" (Nein) beantwortet werden, wodurch eine Verzweigung nach links oder recht zu einem Paar Kind-Knoten erfolgt. Die Kind-Knoten können weitere Frage enthalten, wie bei 38 dargestellt ist, oder ein Sprachmodell wie bei 40. Es ist zu beachten, dass alle Blattknoten (Knoten 40, 42 und 44) Sprachmodelle enthalten. Diese Modelle werden als die Modelle, die zur Erkennung eines bestimmten Allophons am besten geeignet sind, gewählt. Die Sprachmodelle der Blattknoten sind also kontextabhängig.
  • Nachdem die Delta-Entscheidungsbäume entwickelt worden sind wie in 1 dargestellt, kann das System zum Erkennen der Sprache eines neuen Sprechers verwendet werden. Unter Bezugnahme auf die 3 und 4 werden nunmehr zwei Ausführungsformen von Erkennern beschrieben. Die Erkenner-Ausführungsformen unterscheiden sich im Wesentlichen darin, ob der neue Sprecherschwerpunkt vor der kontextabhängigen Erkennung von den akustischen Daten subtrahiert wird (3), oder ob die Schwerpunktinformation vor der kontextabhängigen Erkennung zu den kontextabhängigen Modellen addiert wird.
  • Wie aus 3 zu ersehen ist, liefert der neue Sprecher 50 eine Lautäußerung, die zu mehreren Verarbeitungsblöcken geleitet wird, wie dargestellt. Die Lautäußerung wird an einen sprecherunabhängigen Erkenner 52 geliefert, der einfach dazu dient, den MLED-Prozess anzustoßen.
  • Bevor die Lautäußerung des neuen Sprechers an den kontextabhängigen Erkenner 60 geliefert wird, wird die Information über den Sprecherschwerpunkt von den akustischen Daten des Sprechers subtrahiert. Dies erfolgt durch Berechnen der Position des neuen Sprechers im Eigenraum (K-Raum) wie bei 62, um so den Schwerpunkt des neuen Sprechers zu bestimmen wie bei 64. Vorzugsweise wird die zuvor beschriebene MLED-Technik angewendet, um die Position des neuen Sprechers im K-Raum zu berechnen.
  • Nachdem der Schwerpunkt des neuen Sprechers bestimmt worden ist, werden die Schwerpunktdaten von den akustischen Daten des neuen Sprechers subtrahiert wie bei 66. Dies ergibt sprecherangepasste akustische Daten 68, die dann an den kontextabhängigen Erkenner 60 geliefert werden.
  • Die in 4 dargestellte alternative Ausführungsform funktioniert auf etwa die gleiche Weise. Die Lautäußerung des neuen Sprechers wird wie zuvor an den sprecherunabhängi gen Erkenner 52 geliefert, um den MLED-Prozess anzustoßen. Wenn der MLED-Prozess in einer bestimmten Ausführungsform nicht angewendet wird, ist der sprecherunabhängige Erkenner natürlich nicht erforderlich.
  • Die Lautäußerung des neuen Sprechers wird nun wie in Schritt 62 im Eigenraum platziert, um den Schwerpunkt des neuen Sprechers zu bestimmen wie bei 64. Die Schwerpunktinformation wird dann zu den kontextabhängigen Modellen addiert wie bei 72, um eine Menge sprecherangepasster kontextabhängigen Modelle 74 zu erhalten. Diese sprecherangepassten Modelle werden dann vom kontextabhängigen Erkenner 60 zur Erzeugung des Erkennerausgangs 70 verwendet. Die nachstehende Tabelle I zeigt, wie beispielhafte Datenelemente für drei Sprecher durch Subtrahieren des Schwerpunkts sprecherangepasst werden können. Alle Datenelemente in der Tabelle sind Aussprachen des Phonems 'ae' (in verschiedenen Kontexten). 5 zeigt wie ein Delta-Baum unter Verwendung dieser sprecherangepassten Daten aufgebaut werden könnte. 6 zeigt die Gruppierung der sprecherangepassten Daten im akustischen Raum. In 6 bedeutet +1 das nächste Phonem; die Reibelaute sind die Menge der Phoneme {f, h, s, th, ...}; stimmhafte Konsonanten sind {b, d, g, ...}.
  • TABELLE I
    Figure 00130001
  • Falls gewünscht können Standardabweichungen sowie Mittelwerte im Sprecheranpassungsprozess verwendet werden. Dies würde z. B. durch die Anwendung einer Unit Variance-Bedingung (wie bei der cepstralen Normalisierung) geschehen. Nach der Schulung der sprecherabhängigen Schwerpunkte würden die zur MLED übertragenen Supervektoren Standardabweichungen sowie Mittelwerte enthalten. Nach der Subtraktion des Phonem-Zustandschwerpunkts von jedem Datenelement würde für jedes Schulungsdatenelement das Element weiter angepasst werden, indem es durch die Schwerpunkt-Standardabweichungen dividiert wird. Dies würde in einer sogar noch genaueren Konzentration der Allophondaten durch die Bäume resultieren. Hinsichtlich der Laufzeit gäbe es einen gewissen höheren Rechenaufwand bei Anwendung dieser Technik, da die Sprecheranpassung der eingehenden Rahmen etwas komplexer wäre.
  • Wie zuvor erwähnt kann die Koartikulation durch den Sprechertyp auf eine solche Weise beeinflusst werden, die bewirkt, dass die Richtung der Allophonvektoren verschieden ist. Dies ist in 1 dargestellt, wo die Winkelbeziehungen der versetzten Vektoren verschieden sind, je nachdem, ob der Sprecher aus dem Norden oder aus dem Süden kommt. Dieses Phänomen kann berücksichtigt werden, indem der Entscheidungsbaum Fragen zu den Eigendimensionen enthält. 7 zeigt einen beispielhaften Delta-Entscheidungsbaum, der Fragen zu den Eigendimensionen bei der Bestimmung, welches Modell für ein bestimmtes Allophon anzuwenden ist, enthält. In 7 sind die Fragen 80 und 82 Fragen zur Eigendimension. Die Frage lautet, ob eine bestimmte Eigendimension (in diesem Fall die Dimension 3) größer ist als null. Natürlich können auch anderen Fragen bezüglich der Eigendimension gestellt werden.
  • Eine andere Ausführungsform der Erfindung wird nunmehr in Zusammenhang mit 8 beschrieben. Diese Ausführungsform eignet sich für Anwendungen, bei denen eine ausreichende Datenmenge pro Sprecher vorhanden ist, um hinreichend genaue sprecherabhängige Modelle zu schulen. Bei dieser Ausführungsform müssen die Schwerpunkte jedes Sprechers nicht ermittelt werden.
  • Um die Eigenvoice-Technik anzuwenden, ist jedoch eine Menge von Supervektoren (einer für jedes Schulungssprechermodell) erforderlich. Diese Supervektoren müssen die gleiche Dimension haben und im gleichen Sinn so ausgerichtet sein, dass der Index i den gleichen Parameter über alle sprecherabhängigen Modelle repräsentieren muss.
  • Um deshalb einen guten kontextabhängigen Allophonbaum für ein gegebenes Phonem züchten zu können, der über die Sprecher gemeinsam genutzt werden kann, konzentriert diese Ausführungsform die Daten über die Sprecher, wobei aber verfolgt wird, welches Datenelement von welchem Sprecher kam. Das maximum Likelihood Estimation (MLE)-Kriterium zur Wahl einer Frage wird somit auf eine Akkumulierung einer Gesamtbewer tung für jede Testfrage ausgeweitet, während die Bewertungen für die einzelnen Sprecher getrennt bewertet und gesichert werden. 8 stellt die Technik dar.
  • Wie aus 8 ersichtlich ist, wird die Struktur des Entscheidungsbaums gezüchtet, indem ein Pool aus Fragen 100 bereitgestellt wird. Diese Fragen werden einzeln durch den den Baum züchtenden Algorithmus getestet, um zu bestimmen, welche Fragen die Struktur der Allophonbäume am besten definieren.
  • Die Fragen des Fragen-Pools werden nacheinander durch eine iterative Technik untersucht. Das System von 8 enthält also einen Iterator 102 zur Auswahl einer Frage aus dem Pool 100, damit diese getestet werden kann. Die aktuell getestete Frage ist bei 104 dargestellt.
  • Es sei daran erinnert, dass jede Testfrage auf irgendeine Weise den Kontext betrifft, in dem ein bestimmtes Phonem auftritt. Die Testfrage könnte also beispielsweise lauten, ob vor einem gegebenen Phonem ein Reibelaut steht. Der den Baum züchtende Algorithmus züchtet einzelne Bäume für jedes Phonem, wobei mit einer Root Node-Frage begonnen und zu weiteren Fragen wie erforderlich weitergegangen wird, bis die Allophone dieses Phonems durch die Baumstruktur gut repräsentiert werden. Die Wahl der Root Node-Frage und eventueller Fragen der Zwischenknoten erfolgt wie in 8 dargestellt.
  • Die Prozedur zur Wahl der Testfragen erfolgt, indem angenommen wird, dass die aktuell bewertete Frage (Frage 104) für diesen Knoten des Baums gewählt worden ist. Sprecherdaten von den Schulungssprechern 106 werden von der Testfrage 104 bewertet, um dadurch die Sprachdaten in zwei Teile zu teilen: einen Teil, der die Testfrage mit "yes" (Ja) und einen Teil, der die Testfrage mit "no" (Nein) beantwortete. Dann weiden Sprachmodelle unter Verwendung der Testdaten das Sprechers aufgebaut. Im Einzelnen wird ein "yes"-Modell 106 und ein "no"-Modell 108 für jeden Sprecher aufgebaut. Dies unterscheidet sich von der herkömmlichen Prozedur, bei der alle Daten für alle Sprecher konzentriert und für eine gegebene Frage ein "yes"- und ein "no"-Modell aus den konzentrierten Daten geschult werden. Die Modelle werden geschult, indem akustische Merkmale aller Sprachdatenbeispiele, die die Testfrage mit "yes" beantworten, und in ähnlicher Weise eine andere Menge von akustischen Merkmalen der Daten, die mit "no" auf die Testfrage antworten, geschult werden.
  • Nachdem ein "yes"-Modell 106 und ein "no"-Modell 108 für jeden Sprecher aufgebaut worden ist, berechnet das System die Wahrscheinlichkeitsbewertung aller "yes"-Daten des "yes"-Modells 106 und berechnet auch die Wahrscheinlichkeitsbewertung aller "no"-Daten des "no"-Modells 108. Eine hohe Wahrscheinlichkeitsbewertung bedeutet, dass das aufgebaute Modell bei der Erkennung seines Anteils der Schulungsdaten gut arbeitet. Eine niedrige Wahrscheinlichkeitsbewertung bedeutet, dass das Modell, das möglicherweise das beste Modell ist, das aus den Schulungsdaten aufgebaut werden kann, bei der Erkennung des fraglichen Phonems nicht gut arbeitet.
  • Die Wahrscheinlichkeitsbewertungen werden zur Berechnung der Gesamtbewertung der Testfrage 104 herangezogen. Die Berechnung geschieht wie in 8 dargestellt wie folgt. Zunächst werden die jeweiligen Wahrscheinlichkeitsbewertungen für das "yes"-Modell und das "no"-Modell für einen ersten Schulungssprecher (Sprecher A) berechnet. Diese Bewertungen werden miteinander multipliziert, um eine kumulative Produktbewertung zu erhalten, die angibt, wie gut das Modell für den Sprecher A funktionierte. Dies ist bei 112 dargestellt. Die gleiche Prozedur wird dann nacheinander für die restlichen Sprecher ausgeführt wie bei 114 und 116 dargestellt. Wenn schließlich alle Schulungssprecher berücksichtigt worden sind, wird eine Gesamtbewertung berechnet, indem die resultierenden Produkte von den einzelnen Sprechern multipliziert werden. Die bei 112, 114 und 116 erhaltenen Produkte werden also miteinander multipliziert, um bei 118 eine Gesamtbewertung für die Testfrage zu erhalten.
  • Nach der Erzeugung einer Gesamtbewertung für die erste Testfrage speichert der Iterator 102 die Ergebnisse der Gesamtbewertung und entnimmt dann dem Pool der Fragen 100 eine zweite Frage, die auf die gleiche Weise getestet wird. Wenn alle Fragen im Pool getestet worden sind, wird die Frage, die die beste Gesamtbewertung erbrachte, für diesen Knoten des Entscheidungsbaums gewählt.
  • Nachdem der Root Node des Entscheidungsbaums wie oben beschrieben bestimmt worden ist, kann der Iterator 102 prüfen, ob weitere Zwischenknoten ausreichende Verbesserungen ergeben, um das Hinzufügen zusätzlicher Knoten zum Baum zu rechtfertigen. Wenn schließlich der Baum auf diese Weise gezüchtet worden ist, enthalten die Blattknoten die Modelle, die die Allophone eines bestimmten Phonems am besten "erkennen".
  • Nachdem die Strukturen des Entscheidungsbaums durch die obigen Prozeduren identifiziert worden sind, kann nunmehr die Eigenvoice-Technik angewendet werden. Wenn ein einziges Gauß'sches Modell pro Blattknoten zur Darstellung des Allophons ausreicht, werden die allophonen sprecherabhängigen Modelle unter Verwendung der gemeinsamen Baumstruktur geschult, um die Menge der Supervektoren zu erhalten, die dann für den Aufbau des Eigenraums durch Dimensionalitätsreduktion verwendet werden. Bei nunmehr abgeschlossener Schulung ist der nächste Schritt eine einfache MLED-Schätzung der Eigenvoice-Koeffizienten. Mehrere Gauß'sche Modelle sind etwas komplizierter, das sich das Problem der Ausrichtung stellt. Das bedeutet, dass dann, wenn bekannt ist, dass der Blattknoten N des sprecherabhängigen Modells 1 und der Blattknoten N des sprecherabhängigen Modells 2 zwar dasselbe Allophon repräsentieren, es nicht sicher ist, dass das Gauß'sche Modell i des Blattknotens N im sprecherabhängigen Modell 1 dasselbe Phänomen wie das Gauß'sche Modell i im sprecherabhängigen Modell 2 repräsentiert. Eine Möglichkeit, dieses Problem anzugehen, ist die Bestimmung eines Schwerpunkts für jedes Blatt und dann eine Sprecheranpassung aller Daten vorzunehmen, wobei alle Blätter erreicht werden. Die Daten für ein gegebenes Blatt würden dann über die sprecherabhängigen Modelle konzentriert und gemeinsame Gauß'sche Modelle berechnet werden. Während der Laufzeit erbringt MLED Schätzungen aller Blatt-Schwerpunkte, die dann von den Daten des neuen Sprechers subtrahiert werden könnten, bevor sie gegenüber den Delta-Gauß-Funktionen geprüft werden.

Claims (5)

  1. Verfahren zur Entwicklung kontextabhängiger Modelle zur automatischen Spracherkennung, aufweisend: Erzeugen eines Eigenraums (18), um eine Schulungssprecherpopulation zu repräsentieren; Bereitstellen einer Menge akustischer Daten (16) für mindestens einen Schulungssprecher und Darstellen der akustischen Daten im Eigenraum (28), um mindestens einen Allophon-Schwerpunkt für den Schulungssprecher zu bestimmen; und Subtrahieren des Schwerpunkts von den akustischen Daten (30), um sprecherangepasste akustische Daten für den Schulungssprecher zu erzeugen; Verwenden der sprecherangepassten akustischen Daten, um mindestens einen Entscheidungsbaum (32) mit Blattknoten zu züchten, die kontextabhängige Modelle für verschiedene Allophone haben.
  2. Verfahren nach Anspruch 1, ferner die Verwendung einer Menge akustischer Daten für eine Mehrzahl Schulungssprecher aufweisend, um sprecherangepasste akustische Daten für jeden Sprecher der Mehrzahl Schulungssprecher zu erzeugen.
  3. Verfahren nach Anspruch 1, bei dem der Eigenraum durch die Konstruktion von Supervektoren (22) auf Basis von Sprache der Schulungssprecherpopulation erzeugt und eine Dimensionalitätsverringerung (24) dieser Supervektoren ausgeführt wird, um einen verringerten Dimensionalitätsraum zu definieren, der die Schulungssprecherpopulation abdeckt.
  4. Verfahren zur Ausführung von Spracherkennung unter Verwendung der kontextabhängigen Modelle, die gemäß Anspruch 1 entwickelt worden sind, aufweisend: Bereitstellen von Sprachdaten von einem neuen Sprecher (50); Verwenden des Eigenraums (62) zur Bestimmung mindestens eines neuen Sprecher-Schwerpunkts (64) und Subtrahieren des neuen Sprecher-Schwerpunkts von den Sprachdaten (66) des neuen Sprechers, um sprecherangepasste Daten (68) zu erzeugen; und Liefern der sprecherangepassten Daten an einen Spracherkenner (60), in dem die kontextabhängigen Modelle (58) verwendet werden.
  5. Verfahren zur Ausführung von Spracherkennung unter Verwendung der kontextabhängigen Modelle, die gemäß Anspruch 1 entwickelt worden sind, aufweisend: Bereitstellen von Sprachdaten von einem neuen Sprecher (50); Verwenden des Eigenraums (62) zur Bestimmung mindestens eines neuen Sprecher-Schwerpunkts (64) eines neuen Sprecher und Addieren des neuen Sprecher-Schwerpunkts zu den kontextabhängigen Modellen (72), um neue sprecherangepasste kontextabhängige Modelle (74) zu erzeugen; und Liefern der Sprachdaten an einen Spracherkenner (60), in dem die neuen sprecherangepassten kontextabhängigen Modelle (74) verwendet werden.
DE60020660T 1999-11-29 2000-11-27 Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung Expired - Fee Related DE60020660T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US450392 1999-11-29
US09/450,392 US6571208B1 (en) 1999-11-29 1999-11-29 Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training

Publications (2)

Publication Number Publication Date
DE60020660D1 DE60020660D1 (de) 2005-07-14
DE60020660T2 true DE60020660T2 (de) 2005-10-06

Family

ID=23787898

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60020660T Expired - Fee Related DE60020660T2 (de) 1999-11-29 2000-11-27 Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung

Country Status (7)

Country Link
US (1) US6571208B1 (de)
EP (1) EP1103952B1 (de)
JP (1) JP3683177B2 (de)
CN (1) CN1298172A (de)
DE (1) DE60020660T2 (de)
ES (1) ES2243210T3 (de)
TW (1) TW493160B (de)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10047724A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraumes zur Darstellung einer Mehrzahl von Trainingssprechern
DE10047723A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
JP2002150614A (ja) * 2000-11-10 2002-05-24 Pioneer Electronic Corp 光ディスク
ATE297588T1 (de) * 2000-11-14 2005-06-15 Ibm Anpassung des phonetischen kontextes zur verbesserung der spracherkennung
US6970820B2 (en) * 2001-02-26 2005-11-29 Matsushita Electric Industrial Co., Ltd. Voice personalization of speech synthesizer
US6895376B2 (en) * 2001-05-04 2005-05-17 Matsushita Electric Industrial Co., Ltd. Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification
US7085722B2 (en) * 2001-05-14 2006-08-01 Sony Computer Entertainment America Inc. System and method for menu-driven voice control of characters in a game environment
US20040006628A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for providing real-time alerting
US20040199495A1 (en) 2002-07-03 2004-10-07 Sean Colbath Name browsing systems and methods
US7788096B2 (en) 2002-09-03 2010-08-31 Microsoft Corporation Method and apparatus for generating decision tree questions for speech processing
US7752045B2 (en) * 2002-10-07 2010-07-06 Carnegie Mellon University Systems and methods for comparing speech elements
US20040138894A1 (en) * 2002-10-17 2004-07-15 Daniel Kiecza Speech transcription tool for efficient speech transcription
US7165026B2 (en) * 2003-03-31 2007-01-16 Microsoft Corporation Method of noise estimation using incremental bayes learning
US7499857B2 (en) * 2003-05-15 2009-03-03 Microsoft Corporation Adaptation of compressed acoustic models
US8133115B2 (en) 2003-10-22 2012-03-13 Sony Computer Entertainment America Llc System and method for recording and displaying a graphical path in a video game
KR20050063986A (ko) * 2003-12-23 2005-06-29 한국전자통신연구원 고유음성 계수를 이용한 화자종속 음성인식 시스템 및 방법
TWI264702B (en) * 2004-05-03 2006-10-21 Acer Inc Method for constructing acoustic model
US20060071933A1 (en) 2004-10-06 2006-04-06 Sony Computer Entertainment Inc. Application binary interface for multi-pass shaders
US7636126B2 (en) 2005-06-22 2009-12-22 Sony Computer Entertainment Inc. Delay matching in audio/video systems
US7965859B2 (en) 2006-05-04 2011-06-21 Sony Computer Entertainment Inc. Lighting control of a user environment via a display device
US7880746B2 (en) 2006-05-04 2011-02-01 Sony Computer Entertainment Inc. Bandwidth management through lighting control of a user environment via a display device
ATE491202T1 (de) * 2006-05-16 2010-12-15 Loquendo Spa Kompensation der variabilität zwischen sitzungen zur automatischen extraktion von informationen aus sprache
US20090030676A1 (en) * 2007-07-26 2009-01-29 Creative Technology Ltd Method of deriving a compressed acoustic model for speech recognition
US9126116B2 (en) 2007-09-05 2015-09-08 Sony Computer Entertainment America Llc Ranking of user-generated game play advice
US9108108B2 (en) 2007-09-05 2015-08-18 Sony Computer Entertainment America Llc Real-time, contextual display of ranked, user-generated game play advice
JP2010152081A (ja) * 2008-12-25 2010-07-08 Toshiba Corp 話者適応装置及びそのプログラム
GB2478314B (en) 2010-03-02 2012-09-12 Toshiba Res Europ Ltd A speech processor, a speech processing method and a method of training a speech processor
US10786736B2 (en) 2010-05-11 2020-09-29 Sony Interactive Entertainment LLC Placement of user information in a game space
US20120109649A1 (en) * 2010-11-01 2012-05-03 General Motors Llc Speech dialect classification for automatic speech recognition
US9342817B2 (en) 2011-07-07 2016-05-17 Sony Interactive Entertainment LLC Auto-creating groups for sharing photos
US9833707B2 (en) 2012-10-29 2017-12-05 Sony Interactive Entertainment Inc. Ambient light control and calibration via a console
CN104572631B (zh) * 2014-12-03 2018-04-13 北京捷通华声语音技术有限公司 一种语言模型的训练方法及系统
US10360357B2 (en) 2017-01-10 2019-07-23 International Business Machines Corporation Personal identification using action sequences detected by sensors
US10561942B2 (en) 2017-05-15 2020-02-18 Sony Interactive Entertainment America Llc Metronome for competitive gaming headset
US10128914B1 (en) 2017-09-06 2018-11-13 Sony Interactive Entertainment LLC Smart tags with multiple interactions
US11698927B2 (en) 2018-05-16 2023-07-11 Sony Interactive Entertainment LLC Contextual digital media processing systems and methods
US11410642B2 (en) * 2019-08-16 2022-08-09 Soundhound, Inc. Method and system using phoneme embedding

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4903035A (en) 1983-12-20 1990-02-20 Bsh Electronics, Ltd. Electrical signal separating device having isolating and matching circuitry
US4718088A (en) 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
JPS62231993A (ja) 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
US4817156A (en) 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
JPH01102599A (ja) 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
JP2733955B2 (ja) 1988-05-18 1998-03-30 日本電気株式会社 適応型音声認識装置
US5127055A (en) 1988-12-30 1992-06-30 Kurzweil Applied Intelligence, Inc. Speech recognition apparatus & method having dynamic reference pattern adaptation
JPH0636156B2 (ja) 1989-03-13 1994-05-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置
DE3931638A1 (de) 1989-09-22 1991-04-04 Standard Elektrik Lorenz Ag Verfahren zur sprecheradaptiven erkennung von sprache
JP3014177B2 (ja) 1991-08-08 2000-02-28 富士通株式会社 話者適応音声認識装置
US5280562A (en) 1991-10-03 1994-01-18 International Business Machines Corporation Speech coding apparatus with single-dimension acoustic prototypes for a speech recognizer
DE69322894T2 (de) 1992-03-02 1999-07-29 At & T Corp., New York, N.Y. Lernverfahren und Gerät zur Spracherkennung
US5233681A (en) 1992-04-24 1993-08-03 International Business Machines Corporation Context-dependent speech recognizer using estimated next word context
US5293584A (en) 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
US5473728A (en) 1993-02-24 1995-12-05 The United States Of America As Represented By The Secretary Of The Navy Training of homoscedastic hidden Markov models for automatic speech recognition
US5664059A (en) 1993-04-29 1997-09-02 Panasonic Technologies, Inc. Self-learning speaker adaptation based on spectral variation source decomposition
JPH075892A (ja) 1993-04-29 1995-01-10 Matsushita Electric Ind Co Ltd 音声認識方法
US5522011A (en) 1993-09-27 1996-05-28 International Business Machines Corporation Speech coding apparatus and method using classification rules
WO1995009416A1 (en) 1993-09-30 1995-04-06 Apple Computer, Inc. Continuous reference adaptation in a pattern recognition system
JP2692581B2 (ja) 1994-06-07 1997-12-17 日本電気株式会社 音響カテゴリ平均値計算装置及び適応化装置
US5793891A (en) 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
US5825978A (en) 1994-07-18 1998-10-20 Sri International Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions
US5737723A (en) 1994-08-29 1998-04-07 Lucent Technologies Inc. Confusable word detection in speech recognition
US5715468A (en) * 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
US5864810A (en) 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
JP3453456B2 (ja) 1995-06-19 2003-10-06 キヤノン株式会社 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
US5842163A (en) 1995-06-21 1998-11-24 Sri International Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech
US5806029A (en) 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
JP2871561B2 (ja) 1995-11-30 1999-03-17 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者モデル生成装置及び音声認識装置
US5787394A (en) 1995-12-13 1998-07-28 International Business Machines Corporation State-dependent speaker clustering for speaker adaptation
US5778342A (en) 1996-02-01 1998-07-07 Dspc Israel Ltd. Pattern recognition system and method
US5895447A (en) 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
JP3302266B2 (ja) 1996-07-23 2002-07-15 沖電気工業株式会社 ヒドン・マルコフ・モデルの学習方法
US6163769A (en) * 1997-10-02 2000-12-19 Microsoft Corporation Text-to-speech using clustered context-dependent phoneme-based units
US6016471A (en) * 1998-04-29 2000-01-18 Matsushita Electric Industrial Co., Ltd. Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word
US6029132A (en) * 1998-04-30 2000-02-22 Matsushita Electric Industrial Co. Method for letter-to-sound in text-to-speech synthesis
US6230131B1 (en) * 1998-04-29 2001-05-08 Matsushita Electric Industrial Co., Ltd. Method for generating spelling-to-pronunciation decision tree
US6263309B1 (en) * 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
TW436758B (en) * 1998-04-30 2001-05-28 Matsushita Electric Ind Co Ltd Speaker and environment adaptation based on eigenvoices including maximum likelihood method
US6343267B1 (en) * 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6233553B1 (en) * 1998-09-04 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method and system for automatically determining phonetic transcriptions associated with spelled words
US6324512B1 (en) * 1999-08-26 2001-11-27 Matsushita Electric Industrial Co., Ltd. System and method for allowing family members to access TV contents and program media recorder over telephone or internet

Also Published As

Publication number Publication date
ES2243210T3 (es) 2005-12-01
EP1103952A3 (de) 2002-04-03
US6571208B1 (en) 2003-05-27
DE60020660D1 (de) 2005-07-14
JP3683177B2 (ja) 2005-08-17
JP2001195084A (ja) 2001-07-19
CN1298172A (zh) 2001-06-06
EP1103952A2 (de) 2001-05-30
TW493160B (en) 2002-07-01
EP1103952B1 (de) 2005-06-08

Similar Documents

Publication Publication Date Title
DE60020660T2 (de) Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung
DE69220825T2 (de) Verfahren und System zur Spracherkennung
DE112017001830B4 (de) Sprachverbesserung und audioereignisdetektion für eine umgebung mit nichtstationären geräuschen
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE60009583T2 (de) Sprecheradaptation auf der Basis von Stimm-Eigenvektoren
DE69916951T2 (de) Dimensionsreduktion für die Sprechernormalisierung und Sprecher- und Umgebungsadaptation mittels Eigenstimm-Techniken
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
EP0925579B1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE69914839T2 (de) Sprecherverifikation und -erkennung mittels Eigenstimmen
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
EP0925461B1 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
DE69514382T2 (de) Spracherkennung
DE69816177T2 (de) Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE60007637T2 (de) Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE69609531T2 (de) Sprachanpassungsgerät
DE69512961T2 (de) Spracherkennung auf Grundlage von &#34;HMMs&#34;
DE102014107028A1 (de) Verbesserte biometrische Passwortsicherheit
EP0633559B1 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1193689A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee