DE60111329T2 - Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung - Google Patents

Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung Download PDF

Info

Publication number
DE60111329T2
DE60111329T2 DE60111329T DE60111329T DE60111329T2 DE 60111329 T2 DE60111329 T2 DE 60111329T2 DE 60111329 T DE60111329 T DE 60111329T DE 60111329 T DE60111329 T DE 60111329T DE 60111329 T2 DE60111329 T2 DE 60111329T2
Authority
DE
Germany
Prior art keywords
speech recognizer
domain
training data
speech
decision network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60111329T
Other languages
English (en)
Other versions
DE60111329D1 (de
Inventor
Dr. Volker Fischer
Dr. Eric-W Winchester Janke
Dr. Siegfried Kunzmann
Jon Tyrrell
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=8170366&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE60111329(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE60111329D1 publication Critical patent/DE60111329D1/de
Application granted granted Critical
Publication of DE60111329T2 publication Critical patent/DE60111329T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

  • 1. HINTERGRUND DER ERFINDUNG
  • 1.1 Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft Spracherkennungssysteme. Insbesondere betrifft die Erfindung ein computergestütztes Verfahren und entsprechende Mittel sowie ein Computerprogrammprodukt zur automatischen Erzeugung eines zweiten Spracherkenners aus einem ersten Spracherkenner, wobei der zweite Spracherkenner an eine bestimmte Domäne angepasst ist.
  • 1.2 Beschreibung und Nachteile des Stands der Technik
  • Heutige Universal-Spracherkenner zur kontinuierlichen Spracherkennung mit großem Wortschatz müssen bei verschiedenen Sprechern, Domänen oder anderen Einsatzbedingungen an die jeweilige Situation angepasst werden, um in diesen unterschiedlichen Fällen eine gute akustische Auflösung zu liefern. Das erfordert die Bestimmung einer sehr großen Anzahl von verschiedenen Parametern, die das Verhalten der Spracherkenner steuern. Beispielsweise nutzen Spracherkenner, die auf dem Hidden-Markov-Modell (HMM) beruhen, zur Erfassung der vielen Varianten der natürlich gesprochenen menschlichen Sprache üblicherweise mehrere Tausend HMM-Zustände und mehrere Zehntausend mehrdimensionaler elementarer Wahrscheinlichkeitsdichte-Funktionen (probability density functions, PDFs). Daher erfordert das Training eines mit hoher Genauigkeit arbeitenden Spracherkenners die zuverlässige Bewertung von mehreren Millionen von Parametern, was nicht nur zeitraubend ist, sondern auch eine beträchtliche Menge an Trainingsdaten voraussetzt.
  • Es ist allgemein bekannt, dass die Erkennungsgenauigkeit eines Spracherkenners erheblich abnimmt, wenn die phonetischen Kontexte und – als Folge davon – die in den Trainingsdaten gefundenen Ausspracheformen nicht genau denen der vorgesehenen Anwendung entsprechen. Das gilt besonders für Dialekte oder Nicht-Muttersprachler, kann jedoch auch beim Wechsel in andere Domänen zum Beispiel innerhalb derselben Sprache oder beim Wechsel auf andere Dialekte beobachtet werden. Handelsübliche Produkte zur Spracherkennung versuchen dieses Problem zu lösen, indem sie jeden einzelnen Endanwender dazu veranlassen, sich im System anzumelden und eine sprecherabhängige Neuberechnung der Parameter des akustischen Modells vorzunehmen.
  • Universal-Spracherkenner zur kontinuierlichen Spracherkennung mit großem Wortschatz erfassen die vielen Varianten von Sprachlauten durch Modellieren kontextabhängiger Wortteil-Einheiten, wie z. B. Phone oder Triphone, als elementare Hidden-Markov-Modelle. Statistische Parameter derartiger Modelle werden gewöhnlich aus markierten Trainingsdaten mit einem Umfang von mehreren hundert Stunden berechnet. Obwohl dies eine hohe Erkennungsgenauigkeit ermöglicht, sofern die Trainingsdaten die vorgesehene Domäne in ausreichender Weise repräsentieren, ist eine deutliche Abnahme der Erkennungsgenauigkeit zu beobachten, wenn phonetische Kontexte oder Parameter des akustischen Modells aufgrund einiger Nichtübereinstimmungen zwischen den Trainingsdaten und der vorgesehenen Anwendung nicht ausreichend genau berechnet sind.
  • Da die Erfassung einer großen Menge von Trainingsdaten und das anschließende Training eines Spracherkenners kostenintensiv und zeitaufwendig sind, bildet die Anpassung eines (Universal-)Spracherkenners an eine bestimmte Domäne ein vielversprechendes Verfahren zur Reduzierung der Entwicklungskosten und der Zeit bis zur Markteinführung. Gegenwärtig jedoch stellen die Anpassungsverfahren entweder einfach eine Modifizierung der Parameter des akustischen Modells zur Verfügung oder, seltener, sie wählen aus dem Bestand phonetischer Kontexte des Universal-Spracherkenners eine für die Domäne spezifische Teilmenge aus.
  • In "EFFECTIVE STRUCTURAL ADAPTION OF LVCSR SYSTEMS TO UNSEEN DOMAINS USING HIERARCHICAL CONNECTIONIST ACOUSTIC MODES", ICSLP '98, Oktober 1998, Seite 754–757, SYDNEY (AUSTRALIEN) wird von Fritsch, J. et al. ein Lösungsansatz für die effiziente und effektive Verkleinerung und Anpassung der Struktur von Spracherkennungssystemen mit großem Wortschatz für natürliche Sprache (large vocabulary conversational speech recognition systems, LVCSR) an Domänen vorgestellt, die dem System nicht bekannt sind. Diese Verkleinerung und Anpassung der Struktur von LVCSR-Systemen geschieht auf der Basis neuronaler Netzwerke und erfordert nur geringe Mengen transkribierter Anpassungsdaten. Dieser Lösungsansatz gestattet die dynamische Anpassung einer auf einer Baumstruktur beruhenden Modellierungshierarchie an die unterschiedlichen Eigenheiten des phonetischen Kontexts in neuen Domänen.
  • Angesichts des zunehmenden Interesses der Industrie an Spracherkennern für spezifische Domänen wie Spezialanwendungen, Dialekte oder Telefondienste und dergleichen sowie der bedeutenden Rolle der Sprache als Eingabemedium für die immer stärker verbreiteten Computer existiert ein deutlicher Bedarf an verbesserten Anpassungstechnologien zur Schaffung neuer Spracherkenner. Die Industrie ist auf der Suche nach Technologien, welche die schnelle Entwicklung neuer Datendateien für sprecher(un-)abhängige spezialisierte Spracherkenner mit verbesserter Anfangs-Erkennungsgenauigkeit unterstützen sowie die Reduzierung des zur kundenspezifischen Anpassung an einzelne Endanwender oder Lieferanten industrieller Software erforderlichen Aufwands.
  • 1.2 Ziele der Erfindung
  • Die Erfindung beruht auf dem Ziel, eine Technologie für die schnelle und einfache kundenspezifische Anpassung von Spracherkennern an eine gegebene Domäne zur Verfügung zu stellen.
  • Ein weiteres Ziel besteht darin, eine Technologie zur Schaffung von spezialisierten Spracherkennern mit geringerem Ressourcenbedarf, zum Beispiel hinsichtlich Rechenzeit und Speicherbedarf, bereitzustellen.
  • 2. Überblick über die Erfindung und ihre Vorteile
  • Die Aufgaben der Erfindung werden durch die einzelnen Ansprüche gelöst. Weitere vorteilhafte Anordnungen und Ausführungsarten der Erfindung werden in den jeweiligen Unteransprüchen dargestellt.
  • Die vorliegende Erfindung betrifft ein computergestütztes Verfahren und entsprechende Mittel sowie ein Computerprogrammprodukt zur automatischen Erzeugung eines zweiten Spracherkenners aus einem ersten Spracherkenner, wobei der zweite Spracherkenner an eine bestimmte Domäne angepasst ist. Der erste Spracherkenner umfasst ein erstes akustisches Modell mit einem ersten Entscheidungsnetzwerk und dessen entsprechenden ersten phonetischen Kontexten. In der vorliegenden Erfindung wird vorgeschlagen, dieses erste akustische Modell als Ausgangspunkt für den Anpassungsprozess zu verwenden.
  • Durch Neubewertung des ersten Entscheidungsnetzwerkes und der entsprechenden ersten phonetischen Kontexte auf der Grundlage von domänenspezifischen Trainingsdaten wird für den zweiten Spracherkenner ein zweites akustisches Modell mit einem zweiten Entscheidungsnetzwerk und dessen entsprechenden zweiten phonetischen Kontexten erzeugt.
  • Der wichtigste Vorteil des vorgeschlagenen Lösungsansatzes besteht darin, dass die Erzeugungsprozedur für das Entscheidungsnetzwerk die phonetischen Kontextinformationen des als Ausgangspunkt verwendeten ersten Spracherkenners beibehält. Im Gegensatz zu Lösungsansätzen nach dem Stand der Technik gestattet die vorliegende Erfindung gleichzeitig die Schaffung neuer phonetischer Kontexte, die im ursprünglichen Trainingsmaterial nicht vorhanden zu sein brauchen. Somit ist es möglich, den Datenbestand eines Universal-Spracherkenners auf der Grundlage einer kleinen Menge von Anpassungsdaten an eine neue Domäne anzupassen, anstatt gemäß dem Stand der Technik einen von Grund auf neuen domänenspezifischen Datenbestand zu erzeugen, was die Erfassung einer immens großen Menge domänenspezifischer Trainingsdaten erfordern würde.
  • 3. Kurzbeschreibung der Zeichnungen
  • 1 ist ein Diagramm, das die Gesamtstruktur der vorgeschlagenen Methode zur Erzeugung eines auf eine bestimmte Domäne zugeschnittenen Spracherkenners wiedergibt, der darüber hinaus möglicherweise auch weniger Ressourcen benötigt.
  • 4. Beschreibung der bevorzugten Ausführungsart
  • In den Zeichnungen und der Spezifikation ist eine bevorzugte Ausführungsart der Erfindung dargestellt, wobei in der damit gegebenen Beschreibung, obwohl bestimmte Begriffe verwendet werden, die Terminologie lediglich in einem allgemeinen und beschreibenden Sinn und nicht in einschränkender Weise genutzt wird.
  • Die vorliegende Erfindung kann in Hardware, Software oder in einer Kombination aus Hardware und Software realisiert werden. Jede Art von Computersystem – oder jede auf die Umsetzung der im Patent beschriebenen Verfahren ausgerichtete andere Vorrichtung – ist geeignet. Eine typische Kombination aus Hardware und Software könnte aus einem Universal-Computersystem mit einem Computerprogramm bestehen, das beim Laden und bei der Ausführung das Computersystem so steuert, dass es die im Patent beschriebenen Verfahren durchführt. Die vorliegende Erfindung kann auch in ein Computerprogrammprodukt eingebettet werden, das alle Merkmale zur Implementierung der im vorliegenden Patent beschriebenen Verfahren umfasst, und das, wenn es in ein Computersystem geladen wird, in der Lage ist, diese Verfahren durchzuführen.
  • Mit dem Begriff Computerprogrammmittel oder Computerprogramm ist im vorliegenden Zusammenhang jeder beliebige Ausdruck in jeder beliebigen Sprache, jedem Code oder jeder Notation eines Befehlssatzes gemeint, der dazu dient, ein System, das die Fähigkeit zur Informationsverarbeitung besitzt, entweder direkt oder nach einem oder beiden der folgenden Schritte eine bestimmte Funktion ausführen zu lassen:
    • a) Konvertierung in eine andere Sprache, Notation oder einen anderen Code;
    • b) Reproduktion in einer anderen materiellen Form.
  • Die vorliegende Erfindung wird im Zusammenhang mit dem Spracherkennungssystem „ViaVoice" von IBM erläutert.
  • Selbstverständlich könnte stattdessen jeder andere Typ eines Spracherkennungssystems verwendet werden.
  • Wenn darüber hinaus die vorliegende Spezifikation die Erfindung für Spracherkenner beschreibt, welche die Technologie der Hidden-Markov-Modelle (HMM) nutzen, bedeutet das nicht, dass die vorliegende Erfindung nicht auf andere Lösungsansätze für Spracherkenner angewendet werden kann.
  • 4.1 Einführung
  • Heutige Spracherkenner zur kontinuierlichen Spracherkennung mit großem Wortschatz nutzen Hidden-Markov-Modelle, um aus einem Sprachsignal f eine Wortfolge w mit einer maximalen a-posteriori-Wahrscheinlichkeit zu berechnen.
  • Ein Hidden-Markov-Modell (HMM) ist ein stochastischer Automat A = (π, A, B), der auf eine endliche Gruppe von Zuständen S = {s1, ..., sN} wirkt und die Beobachtung eines Ausgangssignals gestattet, zu jedem Zeitpunkt t, t = 1, 2, ..., T, an dem ein Zustand belegt ist. Der anfängliche Zustandsvektor π = [πi] = (P(s(1) = si], 1 ≤ i ≤ N (Gl. 1)gibt die Wahrscheinlichkeiten an, mit denen das HMM sich zum Zeitpunkt t = 1 im Zustand si befindet, und die Übergangsmatrix A = [ai,j] = [P(s(t + 1) = sj|s(t) = si], 1 ≤ i,j ≤ N (Gl. 2)enthält die Wahrscheinlichkeiten eines zeitinvarianten Prozesses erster Ordnung, der die Übergänge vom Zustand si in den Zustand sj beschreibt. Es sind kontinuierliche wertbehaftete Merkmalvektoren x ∊ R zu beobachten, die aus dem ankommenden Sprachsignal f abgeleitet sind, und die Ausgabewahrscheinlichkeiten sind durch eine Gruppe von Wahrscheinlichkeitsdichte-Funktionen (PDFS) B = [bi] = [p(x|s(t)) = si], 1 ≤ i ≤ N (Gl. 3)definiert. Für jeden gegebenen HMM-Zustand si wird die unbekannte Verteilung p(x|si) der Merkmalvektoren näherungsweise durch eine Mischung von – normalerweise Gaußschen – elementaren Wahrscheinlichkeitsdichte-Funktionen (PDFs)
    Figure 00080001
    bestimmt, wobei Mi die Gruppe der dem Zustand si zugeordneten Gaußschen Funktionen ist. Des Weiteren bezeichnet x den beobachteten Merkmalvektor, ωji ist die j-te Komponentengewichtung in der Mischung für die i-te Ausgabeverteilung und μji und Γji sind die mittlere und die Kovarianzmatrix der j-ten Gaußschen Funktion im Zustand si.
  • Spracherkenner zur kontinuierlichen Spracherkennung mit großem Wortschatz nutzen akustische Wortteil-Einheiten wie z. B. Phone und Triphone, um die zuverlässige Bewertung einer großen Anzahl von Parametern zu gewährleisten, und gestatten durch die Verkettung der Wortteil-Modelle die dynamische Aufnahme neuer Wörter in den Wortschatz des Spracherkenners. Weil allgemein bekannt ist, dass die akustischen Kontexte von Sprachlauten sehr unterschiedlich sein können, repräsentieren HMMs (oder HMM-Zustände) gewöhnlich kontextabhängige akustische Wortteil-Einheiten. Da der Trainingswortschatz (und somit die Anzahl und Häufigkeit phonetischer Kontexte) und die akustische Umgebung (z. B. Hintergrundgeräuschpegel, Eigenschaften des Übertragungskanals, Sprecherpopulation) bei jeder Zielanwendung stark voneinander abweichen, besteht die Aufgabe des weiteren Trainingsablaufes in der datengesteuerten Identifizierung relevanter Kontexte in den markierten Trainingsdaten.
  • Bei einer Bootstrap-Prozedur für das Training eines dem Stand der Technik entsprechenden Spracherkenners wird zur Berechnung eines ersten Abgleichs zwischen gesprochenen Wörtern und dem Sprachsignal ein sprecherunabhängiger Universal-Spracherkenner verwendet. Bei diesem Prozess wird der Merkmalvektor eines jeden Rahmens phonetisch gekennzeichnet und zusammen mit seinem phonetischen Kontext, der durch eine feste, aber beliebige Anzahl von linken und/oder rechten Nachbarlauten definiert ist, gespeichert. Zum Beispiel führt die Berücksichtigung des linken und rechten Nachbarn eines Lautes(Phons) P0 zu dem weit verbreiteten (wortübergreifenden) Triphon-Kontext (P–1, P0, P+1).
  • Anschließend erzielt man die Identifizierung relevanter akustischer Kontexte (d. h. phonetischer Kontexte, die deutlich unterschiedliche akustische Merkmalvektoren erzeugen) durch den Aufbau eines binären Entscheidungsnetzwerks mit Hilfe einer iterativen Prozedur des Aufspaltens und Zusammenfügens (split and merge). Das Ergebnis dieser Bootstrap-Prozedur ist ein von der Domäne unabhängiger Universal-Spracherkenner. Zu diesem Zweck werden über die Laute an den Positionen K–m, ..., K–1, K+1, K+m in der Zeichenfolge des phonetischen Kontexts einige Gruppen Qi = {P1, ..., Pj} von sprach- und/oder domänenspezifischen Lautabfragen durchgeführt. Diese Abfragen haben die Form „Ist der Laut an der Position Kj in der Gruppe Qi enthalten?" und spalten einen Knoten n des Entscheidungsnetzwerkes in zwei Folgeknoten auf: in einen Knoten nL (wobei L für die linke Seite steht), der alle Merkmalvektoren enthält, die eine positive Antwort auf eine Abfrage hervorrufen, und in einen weiteren Knoten nR (wobei R für die rechte Seite steht), der die Gruppe der Merkmalvektoren enthält, die eine negative Antwort bewirken. An jedem Knoten des Netzwerks wird die beste Abfrage ermittelt durch die Auswertung einer Wahrscheinlichkeitsfunktion, welche die Wahrscheinlichkeit P(nL) und P(nR) der Gruppen von Merkmalvektoren misst, die als Ergebnis einer versuchsweise durchgeführten Aufspaltung entstehen.
  • Um eine Anzahl von Endknoten (oder Blattknoten) zu erhalten, die eine verlässliche Bewertung der Parameter gestatten, wird die Prozedur des Aufspaltens und Zusammenfügens durch einen problemspezifischen Schwellenwert θp gesteuert, d. h. ein Knoten n wird nur dann in zwei Folgeknoten nL und nR aufgespaltet, wenn die aus dieser Aufspaltung resultierende Zunahme der Wahrscheinlichkeit größer ist als θp: P(n) < P(nL) + P(nR) – θp (Gl. 5)
  • Beim Zusammenfügen von Knoten, die nur eine kleine Anzahl von Merkmalvektoren repräsentieren, wird ein ähnliches Kriterium angelegt, und zur Steuerung der Netzwerkgröße werden andere problemspezifische Schwellenwerte verwendet, wie z. B. die minimale Anzahl von Merkmalvektoren, die zu einem Knoten gehören.
  • Der Prozess stoppt, wenn eine vordefinierte Anzahl von Blattknoten erzeugt wurde. Alle einem Blattknoten zugeordneten phonetischen Kontexte können durch die während des Netzwerkaufbaus ausgeführte Folge von Lautabfragen nicht voneinander unterschieden werden und gehören daher zur selben Äquivalenzklasse. Deswegen werden die entsprechenden Merkmalvektoren als homogen betrachtet und einem kontextabhängigen Einzelzustands-HMM mit kontinuierlicher Dichte zugeordnet, dessen Ausgabewahrscheinlichkeit durch das Gaußsche Mischungsmodell (Gl. 4) beschrieben wird. Anfangsbewertungen für die Komponenten der Mischung erhält man durch Clustern der Merkmalvektoren an jedem Endknoten, und abschließend wird der nach dem Stand der Technik bekannte Vorwärts-Rückwärts-Algorithmus zur Verfeinerung der Parameter der Mischungskomponenten verwendet. Es ist dabei wichtig, dass bei dieser Prozedur gemäß dem Stand der Technik das Entscheidungsnetzwerk zu Beginn lediglich aus einem einzigen Knoten und einer einzigen Äquivalenzklasse besteht (siehe eine gemäß dem vorliegenden Patent in Bezug auf dieses Merkmal wichtige Abweichung, die weiter unten diskutiert wird), das dann iterativ bis zu seiner endgültigen Form verfeinert wird (oder mit anderen Worten, der Bootstrap-Prozess beginnt effektiv „ohne" ein bereits existierendes Entscheidungsnetzwerk).
  • In der Literatur wird die kundenspezifische Anpassung eines Universal-Spracherkenners an eine bestimmte Domäne als „cross domain modeling" (domänenübergreifende Modellierung) bezeichnet. Der Stand der Technik auf diesem Gebiet wird zum Beispiel von R. Singh, B. Raj und R. M. Stern in „Domain adduced state tying for cross-domain acoustic modelling", 1999, Budapest, Proc. of the 6th Europ. Conf. on Speech Communication and Technology, beschrieben und kann grob in zwei verschiedene Kategorien eingeteilt werden:
    Externe Modellierung: In diesem Fall wird ein Spracherkenner unter Einbeziehung zusätzlicher Daten aus einer (dritten) Domäne mit phonetischen Kontexten trainiert, die den Kontexten der speziell betrachteten Domäne sehr ähnlich sind.
    Interne Modellierung: Dieser Lösungsansatz erfordert einen Universal-Spracherkenner mit einem umfangreichen Bestand an kontextabhängigen Wortteil-Modellen. Die Anpassungsdaten werden zur Identifizierung jener Modelle verwendet, die für eine spezielle Domäne relevant sind, was gewöhnlich durch die Anwendung eines Kriteriums maximaler Wahrscheinlichkeit erreicht wird.
  • Obwohl man bei der externen Modellierung damit rechnen kann, dass eine bessere Abdeckung (Coverage) der Anwendungsdomäne zu einer verbesserten Erkennungsgenauigkeit führt, ist dieser Lösungsansatz immer noch zeitraubend und kostenintensiv, weil er nach wie vor die Erfassung einer erheblichen Menge von Trainingsdaten (aus einer dritten Domäne) erfordert. Andererseits nutzt die interne Modellierung die Tatsache aus, dass zur Verifizierung der Wichtigkeit eines bestimmten phonetischen Kontexts nur eine kleine Menge von Anpassungsdaten notwendig ist. Im Gegensatz zur vorliegenden Erfindung gestattet die interne domänenübergreifende Modellierung jedoch nur das Zurückgehen auf gröbere phonetische Kontexte (da dieser Lösungsansatz nur aus einer Auswahl einer Untermenge des Entscheidungsnetzwerkes und dessen phonetischem Kontext besteht) und ist nicht in der Lage, neuen phonetischen Kontext zu erkennen, der für die neue Domäne relevant, aber nicht im Wortschatz des Universal-Spracherkenners vorhanden ist. Darüber hinaus ist dieser Lösungsansatz nur erfolgreich, wenn die bestimmte, von der internen Modellierung zu behandelnde Domäne bereits (zumindest bis zu einem gewissen Umfang) im akustischen Modell des Universal-Spracherkenners berücksichtigt ist; oder mit anderen Worten, bei der betreffenden neuen Domäne muss es sich um einen Extrakt (eine Teilmenge) der Domäne handeln, an die der Universal-Spracherkenner bereits angepasst ist.
  • 4.2 Lösung
  • Wenn sich die Spezifikation im Folgenden auf einen Spracherkenner bezieht, der an eine bestimmte Domäne angepasst ist, so ist der Begriff „Domäne", sofern nicht anders angegeben, als Oberbegriff zu verstehen. Eine Domäne kann sich auf eine bestimmte Sprache beziehen, eine Vielzahl von Sprachen, einen Dialekt oder eine Gruppe von Dialekten, einen bestimmten Aufgabenbereich oder eine Gruppe von Aufgabenbereichen, in denen ein Spracherkenner eingesetzt werden kann (wie zum Beispiel in bestimmten Bereichen der medizinischen Wissenschaft, nur für die spezielle Aufgabe der Erkennung von Zahlen, ...) und dergleichen.
  • Die erfinderische Idee der im vorliegenden Patent vorgeschlagenen Erfindung besteht darin, den bereits vorhandenen Bestand an phonetischen Kontexten eines (Universal-)Spracherkenners und eine kleine Menge domänenspezifischer Anpassungsdaten zur Hervorhebung dominanter Kontexte und zur Schaffung neuer phonetischer Kontexte zu verwenden, die für eine gegebene Domäne relevant sind. Dies wird erreicht, indem das Entscheidungsnetzwerk des Spracherkenners mit den entsprechenden phonetischen Kontexten als Ausgangspunkt verwendet wird und das Entscheidungsnetzwerk und die phonetischen Kontexte auf der Grundlage der domänenspezifischer Trainingsdaten neu bewertet werden.
  • Da das umfangreiche Entscheidungsnetzwerk und der reichhaltige Bestand an akustischen Kontexten des existierenden Spracherkenners als Ausgangspunkt dienen, wird durch die Architektur der vorgeschlagenen Erfindung eine Minimierung der zum Training eines Spracherkenners für eine spezielle Domäne benötigten Sprachdatenmenge und des notwendigen Aufwands zur Anpassung an den einzelnen Endanwender erreicht. Durch die im Voraus stattfindende Erzeugung und Anpassung phonetischer Kontexte an eine bestimmte Domäne gewährleistet die Erfindung den schnellen Aufbau von Datendateien für Spracherkenner mit verbesserter Erkennungsgenauigkeit für spezielle Anwendungen.
  • Der vorgeschlagene Ansatz beruht auf einer Interpretation der Trainingsprozedur eines Spracherkenners als einen zweistufigen Prozess, der Folgendes umfasst: 1.) die Bestimmung von relevanten akustischen Kontexten und 2.) die Bewertung von Parametern des akustischen Modells. Die nach dem Stand der Technik bekannten Anpassungsverfahren wie z. B. die Maximum-a-posteriori-Methode (MAP) oder die Maximum-Likelihood-Linear-Regression-Methode (MLLR) zielen lediglich auf eine sprecherabhängige Neubewertung der Parameter (ωji, μji, Γji), um eine verbesserte Erkennungsgenauigkei t zu erreichen; das heißt, diese Lösungsansätze haben ausschließlich die auf den Trainingsdaten beruhende Anpassung der HMM-Parameter zum Ziel. Von größter Bedeutung ist dabei, dass diese Lösungsansätze die phonetischen Kontexte unverändert lassen; das heißt, das Entscheidungsnetzwerk und die entsprechenden phonetischen Kontexte werden durch diese Technologien nicht verändert. Bei handelsüblichen Spracherkennern werden diese Verfahren gewöhnlich eingesetzt, nachdem bei einem einzelnen Endanwender einige Trainingsdaten erfasst wurden.
  • In einem früheren Ansatz von V. Fischer, Y. Gao, S. Kunzmann, M. A. Picheny, „Speech Recognizer for Specific Domains or Dialects", PCT-Patentanmeldung EP 99/02673, wurde gezeigt, dass die Voraus-Anpassung eines auf einer Universalbasis beruhenden akustischen Modells mit Hilfe einer begrenzten Menge von domänen- oder dialektabhängigen Trainingsdaten für eine breite Palette von Endanwendern zu einer besseren anfänglichen Erkennungsgenauigkeit führt. Darüber hinaus wurde durch V. Fischer, S. Kunzmann und C. Waast-Ricard in „Method and System for Generating Squeezed Acoustic Models for Specialized Speech Recognizer", europäische Patentanmeldung EP 99116684.4 , dargelegt, dass die Größe des akustischen Modells deutlich reduziert werden kann, ohne dabei die auf einer kleinen Menge von domänenspezifischen Anpassungsdaten beruhende Erkennungsgenauigkeit wesentlich zu verschlechtern, indem man eine Teilmenge der für diese Domäne charakteristischen Wahrscheinlichkeitsdichte-Funktionen (PDFs) wählt.
  • Im Gegensatz zu den vorangegangenen Lösungsansätzen konzentriert sich die vorliegende Erfindung auf die Neubewertung phonetischer Kontexte oder – mit anderen Worten – auf die Anpassung des Wortteil-Bestands des Spracherkenners an eine bestimmte Domäne. Während in jedem Sprecher-Anpassungsalgorithmus wie auch in den oben erwähnten Dokumenten von V. Fischer et al. die phonetischen Kontexte fixiert sind, sobald sie durch die Trainingsprozedur bewertet wurden, besteht die erfinderische Idee des vorliegenden Vorschlages darin, eine kleine Menge von im Voraus erzeugten Trainingsdaten für die domänenspezifische Einfügung, Löschung oder Anpassung von Lauten in ihrem jeweiligen Kontext zu verwenden. Daher bezieht sich die Neubewertung der phonetischen Kontexte auf eine (vollständige) Neuberechnung des Entscheidungsnetzwerkes und seiner entsprechenden phonetischen Kontexte auf der Grundlage des Entscheidungsnetzwerkes des Universal-Spracherkenners. Dies bedeutet einen erheblichen Unterschied zum bloßen „Auswählen" einer Teilmenge aus dem Entscheidungsnetzwerk und den phonetischen Kontexten des Universal-Spracherkenners oder zum einfachen „Erweitern" des Entscheidungsnetzwerkes durch Umwandlung eines Blattknotens in einen Innenknoten, indem man einen neuen untergeordneten Baum mit neuen Blattknoten und weiteren phonetischen Kontexten anfügt.
  • Die folgende Spezifikation bezieht sich auf 1. In dem Diagramm in 1 wird die Gesamtstruktur der vorgeschlagenen Methode der Erzeugung eines auf eine bestimmte Domäne zugeschnittenen Spracherkenners dargestellt und ein Überblick über das Grundprinzip der vorliegenden Erfindung gegeben; die Beschreibung im restlichen Teil dieses Abschnitts betrifft die Anwendung eines Entscheidungsnetzwerkes auf die Erkennung und Darstellung phonetischer Kontexte und sollte als Erläuterung einer bestimmten Implementierung der Grundideen verstanden werden. In der Erfindung wird vorgeschlagen, ausgehend von einem ersten Spracherkenner (1) (in den meisten Fällen ein sprecherunabhängiger Universal-Spracherkenner) und einer kleinen, d. h. begrenzten, Menge von Anpassungs- (Trainings-)Daten (2), einen zweiten Spracherkenner (6) zu erzeugen (dessen Anpassung auf der Grundlage der Trainingsdaten (2) stattfindet). Die Trainingsdaten (zur Ausnutzung der betreffenden Domäne nicht erforderlich) können mit oder ohne Überwachung durch einen beliebigen Spracherkenner erfasst werden, der nicht notwendigerweise derselbe wie in (1) ist. Nach der Extraktion der Merkmale werden die Daten mit der Transkription abgeglichen, um für jeden Rahmen eine phonetische Kennzeichnung zu erhalten. Während eine oben beschriebene Standard-Trainingsprozedur nach dem Stand der Technik die Berechnung signifikanter phonetischer Kontexte auf der Grundlage einer einzigen Äquivalenzklasse beginnt, die alle Daten enthält (ein Entscheidungsnetzwerk mit nur einem Knoten), ist von besonderer Bedeutung, dass beim vorliegenden Ansatz ein im voraus auszuführender Schritt vorgeschlagen wird, bei dem die zusätzlichen Daten abgetrennt und auf die Äquivalenzklassen des sprecherunabhängigen Universal-Spracherkenners aufgeteilt werden. Das heißt, das Entscheidungsnetzwerk und seine entsprechenden phonetischen Kontexte des ersten Spracherkenners werden als Ausgangspunkt zur Erzeugung eines zweiten Entscheidungsnetzwerks mit seinen entsprechenden zweiten phonetischen Kontexten für einen zweiten Spracherkenner verwendet, indem auf der Grundlage domänenspezifischer Trainingsdaten das erste Entscheidungsnetzwerk und die entsprechenden ersten phonetischen Kontexte neu bewertet werden.
  • Zu diesem Zweck werden daher die phonetischen Kontexte des vorhandenen Entscheidungsnetzwerks, wie in Schritt (31) dargestellt, zuerst extrahiert. Um die phonetischen Kontexte der Trainingsdaten zu extrahieren und zu klassifizieren (32), führt man dann die Merkmalvektoren und ihren zugehörigen phonetischen Kontext durch das Original-Entscheidungsnetzwerk (3), indem die in den Knoten des Netzwerkes gespeicherten Lautabfragen ausgeführt werden. Als Ergebnis erhält man eine Aufteilung der Anpassungsdaten, die bereits die phonetische Kontextinformation des viel größeren und viel allgemeineren Trainingsdatenstamms des Basissystems nutzen.
  • Danach wird der Aufspalt- und Zusammenfüg-Algorithmus zur Erkennung der relevanten neuen domänenspezifischen phonetischen Kontexte (4) eingesetzt, wodurch ein neues und neu bewertetes (domänenspezifisches) Entscheidungsnetzwerk mit entsprechenden phonetischen Kontexten entsteht. Die Lautabfragen und Aufspaltschwellenwerte (siehe zum Beispiel Gl. 5) können von der Domäne und/oder der Menge der Anpassungsdaten abhängen und somit von den beim Training des Basis-Spracherkenners verwendeten Schwellenwerten abweichen. Ähnlich wie das im einführenden Abschnitt 4.1 beschriebene Verfahren nutzt die Prozedur zur Bestimmung aller möglichen Aufspaltungen eines Knotens ein Kriterium der maximalen Wahrscheinlichkeit und stoppt, wenn die Schwellenwerte keine weitere Erzeugung von domänenabhängigen Knoten gestatten. Auf diese Weise ist man in der Lage, eine neue und neu berechnete Gruppe von Äquivalenzklassen abzuleiten, die anhand ihres Aufbaus als domänen- oder dialektabhängige Verfeinerung der originalen phonetischen Kontexte betrachtet werden kann, welche bei HMMs, die den Blattknoten des neu bewerteten Entscheidungsnetzwerks zugeordnet sind, außerdem eine Neueinstellung der HMM-Parameter (5) umfassen kann.
  • Ein wichtiger Vorteil dieses Lösungsansatzes liegt in der Tatsache, dass – im Gegensatz zur Verwendung der domänenspezifischen Anpassungsdaten bei der ursprünglichen Aufbauprozedur für das Entscheidungsnetzwerk nach dem Stand der Technik (siehe zum Beispiel Abschnitt 4.1 oben) – der vorliegende Ansatz die als Ausgangspunkt verwendeten phonetischen Kontextinformationen des (Universal-)Spracherkenners beibehält. Besonders wichtig ist, dass das Verfahren im Gegensatz zu den von R. Singh et al. beschriebenen Cross-Domain-Modeling-Verfahren (siehe obige Beschreibung) gleichzeitig die Erzeugung neuer phonetischer Kontexte gestattet, die im Original-Trainingsmaterial nicht vorhanden zu sein brauchen. Das vorliegende Verfahren ermöglicht es daher, den HMM-Bestand eines Universal-Spracherkenners auf der Grundlage einer kleinen Menge von Anpassungsdaten an eine neue Domäne anzupassen, statt gemäß dem Stand der Technik einen von Grund auf neuen domänenspezifischen HMM-Bestand zu erzeugen, wofür die Erfassung einer immens großen Menge domänenspezifischer Trainingsdaten erforderlich wäre.
  • Weil das ausgefeilte Entscheidungsnetzwerk des Universal-Spracherkenners mit seinen reichhaltigen und gut ausbalancierten Äquivalenzklassen sowie den Kontextinformationen als Ausgangspunkt genutzt wird, genügt die begrenzte, d. h. kleine Menge von Anpassungs-(Trainings-)Daten zur Erzeugung des angepassten Spracherkenners. Dies führt zu beträchtlichen Einsparungen an Aufwand für die Erfassung domänenspezifischer Trainingsdaten. Darüber hinaus erreicht man eine erhebliche Beschleunigung beim Anpassungsprozess und eine bedeutende Verbesserung der Erkennungsgenauigkeit des erzeugten Spracherkenners.
  • Wie auch bei dem Basis-Spracherkenner definiert jeder Endknoten des angepassten (d. h. erzeugten) Entscheidungsnetzwerkes für den spezialisierten Spracherkenner ein kontextabhängiges Einzelzustands-Hidden-Markov-Modell. Die Berechnung einer anfänglichen Bewertung für die Ausgabewahrscheinlichkeiten der Zustände (siehe Gl. 4) muss sowohl den Verlauf des Kontext-Anpassungsprozesses als auch die akustischen Merkmalvektoren berücksichtigen, die jedem Endknoten des angepassten Netzwerkes zugeordnet sind:
    • A. Phonetische Kontexte, die durch den Anpassungsprozess nicht verändert wurden, werden durch die jeweiligen Gaußschen Mischungskomponenten des Basis-Spracherkenners modelliert.
    • B. Ausgabewahrscheinlichkeiten für neu erzeugte kontextabhängige HMMs können entweder durch Anwendung der oben erwähnten Anpassungsverfahren auf die Gaußschen Funktionen des Ursprungs-Spracherkenners modelliert werden oder – wenn eine ausreichende Anzahl von Merkmalvektoren auf den neuen Endknoten übertragen wurde – durch Clustern der Anpassungsdaten.
  • Gemäß dem oben erwähnten Ansatz von V. Fischer et al. in „Method and System for Generating Squeezed Acoustic Models for Specialized Speech Recognizer", europäische Patentanmeldung EP 99116684.4 , können die Anpassungsdaten auch zum Beschneiden der Gaußschen Funktionen verwendet werden, um den Speicherbedarf und die CPU-Zeit zu reduzieren. Der in dieser Referenz enthaltene Ansatz hinsichtlich der Auswahl einer Teilmenge von HMM-Zuständen des Universal-Spracherkenners, welche als Ausgangspunkt verwendet werden („Squeezing", d. h. Komprimierung), und der Ansatz hinsichtlich der Auswahl einer Teilmenge von Wahrscheinlichkeitsdichte-Funktionen (PDFs) des Universal-Spracherkenners, welche als Ausgangspunkt verwendet werden („Pruning", d. h. Beschneidung), die beide für die spezielle Domäne charakteristisch sind, bilden durch Bezugnahme Bestandteile dieses Patents.
  • Es gibt drei weitere wichtige Aspekte des vorgeschlagenen Verfahrens
    • 1. Die Anwendung des vorgeschlagenen Verfahrens ist nicht auf die Voraus-Anpassung domänenspezifischer oder dialektspezifischer Spracherkenner beschränkt. Das Verfahren ist auch ohne jegliche Änderung in einem Szenario der Sprecheradaption einsetzbar, in welchem es zur sprecherabhängigen Neubewertung der Modellparameter beitragen kann. Die unüberwachte Sprecheradaption, die in jedem Fall eine erhebliche Menge an sprecherabhängigen Daten benötigt, ist ein besonders vielversprechendes Anwendungsszenario.
    • 2. Das Verfahren ist auch nicht beschränkt auf die (einmal erfolgende) Anpassung phonetischer Kontexte an eine bestimmte Domäne, sondern kann auf der Grundlage weiterer Trainingsdaten iterativ zur inkrementellen Erweiterung der phonetischen Kontexte des Universal-Spracherkenners verwendet werden.
    • 3. Wenn mehrere Sprachen sich ein gemeinsames phonetisches Alphabet teilen, kann das Verfahren auch zur inkrementellen und datengesteuerten Einbeziehung einer neuen Sprache in einen echten mehrsprachigen Spracherkenner verwendet werden, in dem sich die Sprachen die HMMs teilen.
  • 4.3 Anwendungsbeispiele der vorliegenden Erfindung
  • Angesichts des wachsenden Marktes für sprachfähige Geräte, die nur eine begrenzte (Anwendungs-)Aufgabe erfüllen müssen, bietet die hier vorgeschlagene Erfindung eine verbesserte Erkennungsgenauigkeit für eine breite Palette von Anwendungen. Ein erstes Experiment konzentrierte sich auf die Anpassung eines ziemlich universell einsetzbaren Spracherkenners an die Aufgabe einer Ziffernwahl, die einen wichtigen Anwendungsfall im stark expandierenden Mobiltelefonmarkt darstellt.
  • Die folgende Tabelle gibt die relativen Wortfehlerraten für das Basissystem (links), für den auf die Ziffern-Domäne angepassten Spracherkenner (Mitte) sowie für den auf die Domäne eines allgemeinen Diktats und einer Ziffernerkennungsaufgabe angepassten Spracherkenner (rechts) wieder:
  • Figure 00210001
  • Das Basissystem (Basis, siehe Tabelle oben) wurde mit 20.000 Sätzen aus verschiedenen deutschen Zeitungen und Geschäftsbriefen trainiert, die von ca. 200 Deutschen gesprochen wurden. Auf diese Weise nutzt der Spracherkenner phonetische Kontexte aus einer Mischung verschiedener Domänen. Dies ist das übliche Verfahren zur Erzielung einer angemessenen phonetischen Abdeckung beim Training von Universal-Spracherkennern zur kontinuierlichen Spracherkennung mit großem Wortschatz wie z. B. des Systems ViaVoice von IBM. Die Zifferndaten umfassen ca. 10.000 Trainings-Sprechweisen, welche aus bis zu 12 domänenspezifischen Ziffern bestehen, und werden gemäß dem Ansatz der vorliegenden Erfindung sowohl zur Anpassung des Universal-Spracherkenners (Angepasst, siehe Tabelle oben) als auch zum Training eines ziffernspezifischen Spracherkenners (Ziffern, siehe Tabelle oben) verwendet.
  • Die obige Tabelle gibt die (relativen) Wortfehlerraten (normalisiert auf das Basissystem) für das Basissystem, den Spracherkenner mit dem angepassten Lautkontext und das ziffernspezifische System wieder. Obwohl das Basissystem bei einem allgemeinen Diktat mit einem großen Wortschatz die beste Leistung zeigt, liefert es bei der Ziffernerkennungsaufgabe die schlechtesten Ergebnisse. Im Gegensatz dazu zeigt der ziffernspezifische Spracherkenner bei der Ziffernerkennungsaufgabe die besten Leistungen, jedoch inakzeptable Fehlerraten beim allgemeinen Diktat. Die Spalte ganz rechts demonstriert die Vorteile der Kontextanpassung: Während die Fehlerrate bei der Ziffernerkennungsaufgabe um mehr als fünfzig Prozent abnimmt, zeigt der angepasste Spracherkenner beim allgemeinen Diktat eine noch recht gute Leistung.
  • 4.4 Weitere Vorteile der vorliegenden Erfindung
  • Die im vorigen Abschnitt dargelegten Ergebnisse zeigen, dass die hier beschriebene Erfindung zusätzlich zu den in der obigen Beschreibung erwähnten Vorteilen weitere bedeutende Vorteile bietet.
  • Anhand der Erörterung des oben dargelegten Beispiels eines an die spezielle Domäne der Ziffernerkennung angepassten Universal-Spracherkenners wurde gezeigt, dass der vorliegende Ansatz die Erkennungsrate innerhalb einer gegebenen Ziel-Domäne wesentlich verbessern kann.
  • Es muss darauf hingewiesen werden, dass (wie auch am oben aufgeführten Beispiel verdeutlicht wurde) die vorliegende Erfindung gleichzeitig eine inakzeptable Abnahme der Erkennungsgenauigkeit in der ursprünglichen Domäne des Spracherkenners verhindert.
  • Weil die vorliegende Erfindung das vorhandene Entscheidungsnetzwerk und die existierenden akustischen Kontexte eines ersten Spracherkenners als Ausgangspunkt nutzt, genügt zur Erzeugung eines zweiten Spracherkenners bereits eine sehr kleine Menge zusätzlicher domänen- oder dialektspezifischer Daten, die kostengünstig und leicht zu erfassen ist.
  • Auch lässt sich durch die vorgeschlagenen Anpassungsverfahren aufgrund dieses gewählten Ausgangspunktes die für das Training des Spracherkenners erforderliche Zeit wesentlich reduzieren.
  • Schließlich gestattet die bereitgestellte Technologie die Erzeugung spezialisierter Spracherkenner, die weniger Ressourcen für die Berechnung erfordern, zum Beispiel in Bezug auf die Berechnungszeit und den Speicherbedarf.
  • Alles in allem ist die vorgeschlagene Technologie somit geeignet zur inkrementellen und kostengünstigen Integration neuer Anwendungsdomänen in eine beliebige Spracherkennungsanwendung. Sie kann sowohl auf sprecherunabhängige Universal-Spracherkenner als auch auf die weitere Anpassung von sprecherabhängigen Spracherkennern angewendet werden.

Claims (13)

  1. Computergestütztes Verfahren zum automatischen Erzeugen eines zweiten Spracherkenners aus einem ersten Spracherkenner, wobei der zweite Spracherkenner an eine bestimmte Domäne angepasst ist und der erste Spracherkenner ein erstes akustisches Modell mit einem ersten Entscheidungsnetzwerk und dessen entsprechenden ersten phonetischen Kontexten umfasst, und wobei das Verfahren die folgenden Schritte umfasst: – Verwenden des ersten akustischen Modells als Ausgangspunkt und – Erzeugen eines zweiten akustischen Modells mit einem zweiten Entscheidungsnetzwerk und dessen entsprechenden zweiten phonetischen Kontexten des zweiten Spracherkenners durch Neubewerten (3, 4) des ersten Entscheidungsnetzwerks und der entsprechenden ersten phonetischen Kontexte auf der Grundlage domänenspezifischer Trainingsdaten, wobei das verfahren dadurch gekennzeichnet ist, dass der Schritt des Neubewertens einen Teilschritt des Aufteilens (3) der Trainingsdaten mit Hilfe des ersten Entscheidungsnetzwerkes des ersten Spracherkenners umfasst.
  2. Computergestütztes Verfahren nach Anspruch 1, bei dem die domänenspezifischen Trainingsdaten nur einen beschränkten Umfang haben.
  3. Computergestütztes Verfahren nach Anspruch 1, bei dem der Teilschritt des Aufteilens das Hindurchleiten der Merkmalvektoren der Trainingsdaten durch das erste Entscheidungsnetzwerk sowie das Extrahieren und Klassifizieren (32) der phonetischen Kontexte der Trainingsdaten umfasst.
  4. Computergestütztes Verfahren nach Anspruch 1, bei dem der Schritt des Neubewertens einen Teilschritt des Erkennens (4) domänenspezifischer phonetischer Kontexte durch Ausführen einer Aufspalt- und Zusammenfüg-Methode auf der Grundlage der aufgeteilten Trainingsdaten zur Neubewertung des ersten Entscheidungsnetzwerkes und der ersten phonetischen Kontexte umfasst.
  5. Computergestütztes Verfahren nach Anspruch 4, bei dem die Steuerparameter dieser Aufspalt- und Zusammenfüg-Methode gemäß dieser Domäne ausgewählt werden.
  6. Computergestütztes Verfahren nach Anspruch 4, bei dem für Hidden-Markov-Modelle (HMM), die den Blattknoten des zweiten Entscheidungsnetzwerks zugeordnet sind, der Schritt des Neubewertens einen Teilschritt des Neueinstellens (5) von HMM-Parametern entsprechend diesem HMM umfasst.
  7. Computergestütztes Verfahren nach Anspruch 6, bei dem die HMMs eine Gruppe von Zuständen si und eine Gruppe von Wahrscheinlichkeitsdichte-Funktionen (PDFs) umfassen, welche Ausgabewahrscheinlichkeiten für eine Beobachtung eines Sprachrahmens in den Zuständen si bilden, und bei welchem dem Teilschritt des Neueinstellens die folgenden Teilschritte vorangehen: – als ein erster Teilschritt das Auswählen einer Teilmenge von Zuständen, die für diese Domäne charakteristisch sind, aus den Zuständen si, – als ein zweiter Teilschritt das Auswählen einer Teilmenge von PDFs, die für diese Domäne charakteristisch sind, aus der Gruppe der PDFs.
  8. Computergestütztes Verfahren nach einem der Ansprüche 6 oder 7, wobei das Verfahren mit weiteren Trainingsdaten iterativ durchgeführt wird.
  9. Computergestütztes Verfahren nach einem der Ansprüche 6 bis 8, bei welchem der erste und zweite Spracherkenner ein Universal-Spracherkenner ist, oder bei welchem der erste und zweite Spracherkenner ein sprecherabhängiger Spracherkenner ist und die Trainingsdaten zusätzliche sprecherabhängige Trainingsdaten sind, oder bei welchem der erste Spracherkenner ein erster Spracherkenner für mindestens eine erste Sprache ist, die domänenspezifischen Trainingsdaten eine zweite Sprache betreffen und es sich bei dem zweiten Spracherkenner um einen mehrsprachigen Spracherkenner für die zweite Sprache sowie die mindestens eine erste Sprache handelt.
  10. Computergestütztes Verfahren nach einem der vorangegangenen Ansprüche, bei welchem die Domäne eine Sprache, eine Gruppe von Sprachen oder ein Dialekt dieser Sprachen ist, oder bei welchem die Domäne einen Aufgabenbereich oder eine Gruppe von Aufgabenbereichen darstellt.
  11. Computersystem mit einem Speicher zum Speichern eines ersten Spracherkenners, wobei das Computersystem Mittel umfasst, die zur Ausführung aller Schritte des Verfahrens nach einem der vorangegangenen Ansprüche 1 bis 10 angepasst sind.
  12. Datenverarbeitungsprogramm zur Ausführung in einem Datenverarbeitungssystem, wobei das Datenverarbeitungsprogramm Softwarecode-Teile für die Durchführung eines Verfahrens nach einem der vorangegangenen Ansprüche 1 bis 10 umfasst, wenn das Programm auf dem Computer läuft.
  13. Computerprogrammprodukt, das auf einem vom Computer verwendbaren Medium gespeichert ist und computerlesbare Programmmittel umfasst, welche die Durchführung eines Verfahrens nach einem der vorangegangenen Ansprüche 1 bis 10 auf einem Computer bewirken, wenn das Programm auf dem Computer läuft.
DE60111329T 2000-11-14 2001-10-11 Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung Expired - Lifetime DE60111329T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00124795 2000-11-14
EP00124795 2000-11-14

Publications (2)

Publication Number Publication Date
DE60111329D1 DE60111329D1 (de) 2005-07-14
DE60111329T2 true DE60111329T2 (de) 2006-03-16

Family

ID=8170366

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60111329T Expired - Lifetime DE60111329T2 (de) 2000-11-14 2001-10-11 Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung

Country Status (3)

Country Link
US (1) US6999925B2 (de)
AT (1) ATE297588T1 (de)
DE (1) DE60111329T2 (de)

Families Citing this family (225)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8214196B2 (en) 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
JP3908965B2 (ja) * 2002-02-28 2007-04-25 株式会社エヌ・ティ・ティ・ドコモ 音声認識装置及び音声認識方法
US7031918B2 (en) * 2002-03-20 2006-04-18 Microsoft Corporation Generating a task-adapted acoustic model from one or more supervised and/or unsupervised corpora
US7006972B2 (en) * 2002-03-20 2006-02-28 Microsoft Corporation Generating a task-adapted acoustic model from one or more different corpora
AU2003269808A1 (en) * 2002-03-26 2004-01-06 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US7603276B2 (en) * 2002-11-21 2009-10-13 Panasonic Corporation Standard-model generation for speech recognition using a reference model
US20040102973A1 (en) * 2002-11-21 2004-05-27 Lott Christopher B. Process, apparatus, and system for phonetic dictation and instruction
US20040107097A1 (en) * 2002-12-02 2004-06-03 General Motors Corporation Method and system for voice recognition through dialect identification
TWI245259B (en) * 2002-12-20 2005-12-11 Ibm Sensor based speech recognizer selection, adaptation and combination
US8285537B2 (en) * 2003-01-31 2012-10-09 Comverse, Inc. Recognition of proper nouns using native-language pronunciation
US7296010B2 (en) * 2003-03-04 2007-11-13 International Business Machines Corporation Methods, systems and program products for classifying and storing a data handling method and for associating a data handling method with a data item
TWI224771B (en) * 2003-04-10 2004-12-01 Delta Electronics Inc Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme
US20050010413A1 (en) * 2003-05-23 2005-01-13 Norsworthy Jon Byron Voice emulation and synthesis process
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
EP1524650A1 (de) * 2003-10-06 2005-04-20 Sony International (Europe) GmbH Zuverlässigkeitsmass in einem Spracherkennungssystem
KR100612839B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
WO2006021623A1 (fr) * 2004-07-22 2006-03-02 France Telecom Procede et systeme de reconnaissance vocale adaptes aux caracteristiques de locuteurs non-natifs
US7640159B2 (en) * 2004-07-22 2009-12-29 Nuance Communications, Inc. System and method of speech recognition for non-native speakers of a language
JP5452868B2 (ja) * 2004-10-12 2014-03-26 ユニヴァーシティー オブ サザン カリフォルニア トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング
ATE385024T1 (de) * 2005-02-21 2008-02-15 Harman Becker Automotive Sys Multilinguale spracherkennung
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8412528B2 (en) * 2005-06-21 2013-04-02 Nuance Communications, Inc. Back-end database reorganization for application-specific concatenative text-to-speech systems
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7624020B2 (en) * 2005-09-09 2009-11-24 Language Weaver, Inc. Adapter for allowing both online and offline training of a text to text system
KR100755677B1 (ko) * 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US10319252B2 (en) * 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US7480641B2 (en) * 2006-04-07 2009-01-20 Nokia Corporation Method, apparatus, mobile terminal and computer program product for providing efficient evaluation of feature transformation
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US8019593B2 (en) * 2006-06-30 2011-09-13 Robert Bosch Corporation Method and apparatus for generating features through logical and functional operations
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP4427530B2 (ja) * 2006-09-21 2010-03-10 株式会社東芝 音声認識装置、プログラムおよび音声認識方法
US20080077407A1 (en) * 2006-09-26 2008-03-27 At&T Corp. Phonetically enriched labeling in unit selection speech synthesis
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
GB0623932D0 (en) * 2006-11-29 2007-01-10 Ibm Data modelling of class independent recognition models
US20080133245A1 (en) * 2006-12-04 2008-06-05 Sehda, Inc. Methods for speech-to-speech translation
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
JP4322934B2 (ja) * 2007-03-28 2009-09-02 株式会社東芝 音声認識装置、方法およびプログラム
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8831928B2 (en) * 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8010341B2 (en) * 2007-09-13 2011-08-30 Microsoft Corporation Adding prototype information into probabilistic models
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) * 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
WO2009078256A1 (ja) * 2007-12-18 2009-06-25 Nec Corporation 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8798994B2 (en) * 2008-02-06 2014-08-05 International Business Machines Corporation Resource conservative transformation based unsupervised speaker adaptation
US8725492B2 (en) * 2008-03-05 2014-05-13 Microsoft Corporation Recognizing multiple semantic items from single utterance
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
EP2161718B1 (de) * 2008-09-03 2011-08-31 Harman Becker Automotive Systems GmbH Spracherkennung
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20100198577A1 (en) * 2009-02-03 2010-08-05 Microsoft Corporation State mapping for cross-language speaker adaptation
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US8386251B2 (en) * 2009-06-08 2013-02-26 Microsoft Corporation Progressive application of knowledge sources in multistage speech recognition
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US9646079B2 (en) 2012-05-04 2017-05-09 Pearl.com LLC Method and apparatus for identifiying similar questions in a consultation system
US9904436B2 (en) 2009-08-11 2018-02-27 Pearl.com LLC Method and apparatus for creating a personalized question feed platform
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
EP3091535B1 (de) 2009-12-23 2023-10-11 Google LLC Multimodale eingabe in eine elektronische vorrichtung
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
GB2478314B (en) * 2010-03-02 2012-09-12 Toshiba Res Europ Ltd A speech processor, a speech processing method and a method of training a speech processor
US10417646B2 (en) * 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US9009040B2 (en) * 2010-05-05 2015-04-14 Cisco Technology, Inc. Training a transcription system
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US9262941B2 (en) * 2010-07-14 2016-02-16 Educational Testing Services Systems and methods for assessment of non-native speech using vowel space characteristics
WO2012030838A1 (en) * 2010-08-30 2012-03-08 Honda Motor Co., Ltd. Belief tracking and action selection in spoken dialog systems
WO2012064765A1 (en) * 2010-11-08 2012-05-18 Google Inc. Generating acoustic models
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8352245B1 (en) * 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US9558738B2 (en) * 2011-03-08 2017-01-31 At&T Intellectual Property I, L.P. System and method for speech recognition modeling for mobile voice search
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9679561B2 (en) 2011-03-28 2017-06-13 Nuance Communications, Inc. System and method for rapid customization of speech recognition models
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
CN103650033B (zh) * 2011-06-30 2016-10-26 谷歌公司 使用可变长度语境的语音识别
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8738376B1 (en) * 2011-10-28 2014-05-27 Nuance Communications, Inc. Sparse maximum a posteriori (MAP) adaptation
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US10019991B2 (en) * 2012-05-02 2018-07-10 Electronics And Telecommunications Research Institute Apparatus and method for speech recognition
US9127950B2 (en) 2012-05-03 2015-09-08 Honda Motor Co., Ltd. Landmark-based location belief tracking for voice-controlled navigation system
US9501580B2 (en) 2012-05-04 2016-11-22 Pearl.com LLC Method and apparatus for automated selection of interesting content for presentation to first time visitors of a website
US9275038B2 (en) * 2012-05-04 2016-03-01 Pearl.com LLC Method and apparatus for identifying customer service and duplicate questions in an online consultation system
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9502029B1 (en) * 2012-06-25 2016-11-22 Amazon Technologies, Inc. Context-aware speech processing
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) * 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9336771B2 (en) * 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
EP3809407A1 (de) 2013-02-07 2021-04-21 Apple Inc. Sprachauslöser für digitalen assistent
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US8959020B1 (en) * 2013-03-29 2015-02-17 Google Inc. Discovery of problematic pronunciations for automatic speech recognition systems
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US9589564B2 (en) * 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10140981B1 (en) * 2014-06-10 2018-11-27 Amazon Technologies, Inc. Dynamic arc weights in speech recognition models
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
CN105989849B (zh) * 2015-06-03 2019-12-03 乐融致新电子科技(天津)有限公司 一种语音增强方法、语音识别方法、聚类方法及装置
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11062228B2 (en) 2015-07-06 2021-07-13 Microsoft Technoiogy Licensing, LLC Transfer learning techniques for disparate label sets
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9972313B2 (en) 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
CN107632987B (zh) * 2016-07-19 2018-12-07 腾讯科技(深圳)有限公司 一种对话生成方法及装置
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
KR101943520B1 (ko) * 2017-06-16 2019-01-29 한국외국어대학교 연구산학협력단 비원어민의 영어 말하기 발음의 자동평가 시스템 및 이를 이용한 평가방법
US10885900B2 (en) 2017-08-11 2021-01-05 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning
US11776530B2 (en) * 2017-11-15 2023-10-03 Intel Corporation Speech model personalization via ambient context harvesting
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
US11127394B2 (en) 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
CN112133290A (zh) * 2019-06-25 2020-12-25 南京航空航天大学 一种针对民航陆空通话领域的基于迁移学习的语音识别方法
US11361749B2 (en) * 2020-03-11 2022-06-14 Nuance Communications, Inc. Ambient cooperative intelligence system and method

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH075892A (ja) * 1993-04-29 1995-01-10 Matsushita Electric Ind Co Ltd 音声認識方法
JP2980228B2 (ja) * 1994-10-25 1999-11-22 日本ビクター株式会社 音声認識用音響モデル生成方法
JP2751856B2 (ja) * 1995-02-03 1998-05-18 日本電気株式会社 木構造を用いたパターン適応化方式
US6014624A (en) * 1997-04-18 2000-01-11 Nynex Science And Technology, Inc. Method and apparatus for transitioning from one voice recognition system to another
TW477964B (en) 1998-04-22 2002-03-01 Ibm Speech recognizer for specific domains or dialects
US6324510B1 (en) * 1998-11-06 2001-11-27 Lernout & Hauspie Speech Products N.V. Method and apparatus of hierarchically organizing an acoustic model for speech recognition and adaptation of the model to unseen domains
DE19912405A1 (de) * 1999-03-19 2000-09-21 Philips Corp Intellectual Pty Bestimmung einer Regressionsklassen-Baumstruktur für Spracherkenner
US6711541B1 (en) * 1999-09-07 2004-03-23 Matsushita Electric Industrial Co., Ltd. Technique for developing discriminative sound units for speech recognition and allophone modeling
US6334102B1 (en) * 1999-09-13 2001-12-25 International Business Machines Corp. Method of adding vocabulary to a speech recognition system
US6571208B1 (en) * 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training

Also Published As

Publication number Publication date
US6999925B2 (en) 2006-02-14
US20020087314A1 (en) 2002-07-04
DE60111329D1 (de) 2005-07-14
ATE297588T1 (de) 2005-06-15

Similar Documents

Publication Publication Date Title
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE60020660T2 (de) Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE60213595T2 (de) Hintergrundlernen von sprecherstimmen
DE69833987T2 (de) Halbüberwachte Sprecheradaptation
DE69829235T2 (de) Registrierung für die Spracherkennung
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE69823954T2 (de) Quellen-normalisierendes Training zur Sprachmodellierung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE69924596T2 (de) Auswahl akustischer Modelle mittels Sprecherverifizierung
EP1417678A1 (de) Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
DE112020005337T5 (de) Steuerbare, natürliche paralinguistik für text-zu-sprache-synthese
EP1199704A2 (de) Auswahl der alternativen Wortfolgen für diskriminative Anpassung
WO2001086634A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8327 Change in the person/name/address of the patent owner

Owner name: NUANCE COMMUNICATIONS,INC., BURLINGTON, MASS., US

8328 Change in the person/name/address of the agent

Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN