DE60007637T2 - Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung - Google Patents

Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung Download PDF

Info

Publication number
DE60007637T2
DE60007637T2 DE2000607637 DE60007637T DE60007637T2 DE 60007637 T2 DE60007637 T2 DE 60007637T2 DE 2000607637 DE2000607637 DE 2000607637 DE 60007637 T DE60007637 T DE 60007637T DE 60007637 T2 DE60007637 T2 DE 60007637T2
Authority
DE
Germany
Prior art keywords
speech
adaptation
recognition
cam
current acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE2000607637
Other languages
English (en)
Other versions
DE60007637D1 (de
Inventor
Silke Hedelfinger Strasse 61 Goronzy
Ralf Hedelfinger Strasse 61 Kompe
Krzysztof Hedelfinger Strasse 61 Marasek
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony International Europe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony International Europe GmbH filed Critical Sony International Europe GmbH
Publication of DE60007637D1 publication Critical patent/DE60007637D1/de
Application granted granted Critical
Publication of DE60007637T2 publication Critical patent/DE60007637T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zur Erkennung von Sprache gemäß dem Oberbegriff des Anspruchs 1 und insbesondere ein Verfahren zur Erkennung von Sprache, bei dem eine Überanpassung an bestimmte Worte während einer Online-Sprecheranpassung vermieden wird.
  • In heutigen Verfahren und Geräten bzw. Vorrichtungen zur automatischen Spracherkennung sind so genannte Online-Sprecheranpassungsprozesse implementiert, um die Verfahren und Geräte hinsichtlich großer Veränderungen von möglichen Sprecherverhalten der Sprecher flexibel zu machen.
  • Bei herkömmlichen Verfahren zur Spracherkennung wird ein aktuelles akustisches Modell beim Erkennungsprozess verwendet, insbesondere für eine Menge von gegebenen Sprachphrasen, die innerhalb eines ankommenden Sprachflusses erkannt werden sollen. Das implementierte aktuelle akustische Modell enthält Informationen, die für den Erkennungsprozess als solchen relevant sind, insbesondere für alle potentiellen, d. h. möglichen Sprecher (sprecherunabhängige Erkennung). Um die Erkennungsrate zu erhöhen, werden die akustischen Modelle zur Spracherkennung während des Erkennungsprozesses angepasst (adaptiert) in Abhängigkeit von wenigstens einem bereits erhaltenen Erkennungsergebnis. Anpassung bedeutet, bestimmte Informationen zu extrahieren, die nötig sind zur Fokussierung auf bestimmte Sprachcharakteristiken des aktuellen Sprechers. Der Prozess, das aktuelle akustische Modell anzupassen, hängt daher von der Auswertung bzw. Evaluierung von Sprachphrasenuntereinheiten ab, die in einer Sprachphrase enthalten sind, die gerade verarbeitet wird und/oder kürzlich erkannt wurde. Es können nicht nur beobachtete bzw, aufgetretene Einheiten angepasst werden, sondern auch unbeobachtete Einheiten bzw. nicht aufgetretene Einheiten. Das heißt, die Sprachphraseuntereinheit wird ausgewertet mit Bezug zur akustischen Nachbarschaft, die in der ausgewerteten Äußerung auftritt.
  • Bei Anwendungen gewöhnlicher Verfahren und Vorrichtungen zur Spracherkennung enthält die Spracheingabe bestimmte Sprachphrasen, Wörter oder Geräusche in einem bestimmten Kontext sehr viel häufiger als die meisten anderen Wörter, wobei dies vom bestimmten Kontext bzw. der Umgebung in der die angewandten Verfahren und Vorrichtungen arbeiten müssen, abhängt. Beispielsweise kommen bei der Anwendung eines Verfahrens zur Spracherkennung für ein Verkehrsinformationssystem Phrasen und Wörter, die spezifisch für bestimmte Orte sind, Reiserouten, Verkehrsmittel, bestimmte Kommandos oder ähnliches, sehr viel häufiger vor als andere Orte im Vokabular.
  • Herkömmliche Verfahren und Vorrichtungen zur Spracherkennung haben den großen Nachteil, dass sie sich während des Anpassungsprozesses des aktuellen akustischen Modells auf jede empfangene Sprachphrase oder Wort gleichermaßen fokussieren. Somit beeinflussen empfangene Sprachphrasen oder Wörter, die häufig auftreten, die Modifikation und Anpassung des aktuellen akustischen Modells sehr viel mehr als Wörter oder Phrasen, die nicht häufig auftreten.
  • Das Ergebnis nach der Anwendung von konventionellen Verfahren zur Anpassung ist, dass häufig auftretende Sprachphrasen oder Wörter mit einer sehr kleinen Fehlerrate erkannt werden, die Erkennungsrate für andere Vokabeln jedoch schlechter ist.
  • Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Spracherkennung bereitzustellen, bei dem der Einfluss von häufig auftretenden Sprachphrasen oder Wörtern innerhalb des empfangenen Sprachflusses auf den Anpassungsprozess bezogen auf das aktuelle akustische Modell ausgewogen ist.
  • Die Aufgabe wird bei einem Verfahren zur Spracherkennung gemäß dem Oberbegriff des Anspruchs 1 mit den Merkmalen von Anspruch 1 gelöst. Bevorzugte und vorteilhafte Ausführungsformen des erfindungsgemäßen Verfahrens zur Spracherkennung sind in den abhängigen Ansprüchen enthalten.
  • Das erfindungsgemäße Verfahren zur Spracherkennung ist dadurch gekennzeichnet, dass Anpassungszahlen und/oder Auftrittszahlen bzw. Häufigkeitszahlen für jede der Sprachphrasen, Wörter, Untereinheiten oder ähnliches gezählt werden, als Anzahl, dass eine bestimmte Sprachphrase als Basis zur Anpassung des aktuellen akustischen Modells verwendet wird bzw. als Anzahl von erkannten Auftritten bzw. Vorkommnissen der bestimmten Sprachphrase in dem empfangenen Sprachfluss, und dass beim Prozess der Anpassung des aktuellen akustischen Modells das Maß der Anpassung basierend auf einer bestimmten Sprachphrase von wenigstens seiner bestimmten Anpassungszahl und/oder Auftrittszahl abhängig gemacht wird, insbesondere so, dass der Einfluss von häufigen Sprachphrasen im empfangenen Sprachfluss auf den Anpassungsprozess abgeschwächt wird.
  • Die Idee der vorliegenden Erfindung ist also, die auftretenden Sprachphrasen innerhalb des ankommenden Sprachflusses durch ihre Auftrittshäufigkeiten und/oder durch ihre Häufigkeit, mit der sie als Basis zur Anpassung des aktu ellen akustischen Modells verwendet werden, zu unterscheiden. Erfindungsgemäß werden deshalb Auftrittszahlen und/oder Anpassungszahlen für jede der möglichen zu erkennenden Sprachphrasen gezählt.
  • Eine weitere Idee der vorliegenden Erfindung ist, in jedem Anpassungsschritt oder -prozess des aktuellen akustischen Modells, das in jedem Fall von einem bereits erhaltenen Erkennungsergebnis abhängt, d. h. von einer auf getretenen und erkannten Sprachphrase oder ähnlichem, bestimmte Anpassungszahlen und/oder Auftrittszahlen der bestimmten gerade behandelten Sprachphrase für den Anpassungsprozess oder Prozess, der durchgeführt werden soll, zu zählen. Das Anpassungsmaß hinsichtlich einer bestimmten Sprachphrase erfolgt in Abhängigkeit von wenigstens einer bestimmten Anpassungszahl und/oder Auftrittszahl der bestimmten Sprachphrase. Die Stärke der Anpassung bzw. das Anpassungsmaß können als Gewicht oder Wichtungsfaktor verstanden werden, die den Einfluss der analysierten Sprachphrasenuntereinheit und der bestimmten Sprachphrase auf die aktuelle Parameterschätzung für den Anpassungsprozess des aktuellen akustischen Modells steuern bzw, regeln.
  • Das Anpassungsmaß und ihre Abhängigkeit von den Anpassungszahlen und/oder Auftrittszahlen werden so gewählt, dass der Einfluss von häufig auftretenden Sprachphrasen im empfangenen Sprachfluss auf den Anpassungsprozess bzw. Adaptionsprozess hinsichtlich des aktuellen akustischen Modells verringert wird.
  • Im Gegensatz zu bekannten Verfahren und Vorrichtungen zur Spracherkennung, wird beim erfindungsgemäßen Verfahren zur Spracherkennung nicht jeder Auftritt bzw. jedes Vorkommnis einer bestimmten Sprachphrase im ankommenden Sprachfluss in äquivalenter Art und Weise ausgewertet, was mehr oder weniger zu einer Proportionalität führt zwischen der Häu figkeit aufgetretener Sprachphrasen und dem Einfluss auf den Anpassungsprozess, sondern es wird die Stärke der Anpassung für eine bestimmte Sprachphrase häufigkeitsabhängig gemacht.
  • Bevorzugt basiert das aktuelle akustische Modell auf einer Menge von Modellfunktions-Mixtures. Der Anpassungsprozess wird dann durchgeführt, indem die Funktionen, Modellfunktions-Mixtures und/oder die Modellfunktions-Mixturekomponenten selbst transformiert werden und/oder durch zumindest teilweises Verändern von Beiträgen der Modellfunktions-Mixturekomponenten der Modellfunktions-Mixtures. Die Anpassung des aktuellen akustischen Modells kann daher einfach durchgeführt werden durch Dämpfung und/oder Erhöhung des Einflusses der bestimmten Modellfunktions-Mixturekomponenten – d. h. deren Amplituden oder Beiträge – auf den gesamten Modellcharakter der jeweiligen Modellfunktions-Mixtures in dem aktuellen akustischen Modell.
  • Der ankommende Sprachfluss kann als eine Konkatenation, Aneinanderreihung, Verkettung oder Kombination von vorbestimmten und klar definierten akustischen Einheiten klassifiziert werden. Diese können beispielsweise Sprachphrasen oder Sprachphrasenuntereinheiten genannt werden. Gemäß einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung werden als Sprachphrasen und/oder als Sprachphrasenuntereinheiten des aktuellen akustischen Modells Wörter, Wortuntereinheiten, Phone, Phoneme, Silben, Buchstaben und/oder dergleichen und/oder Kombinationen oder Konkatenationen dieser verwendet. Die Wahl einer Zustandsverfeinerung des ankommenden Sprachflusses ist eine Frage der Bequemlichkeit und Praktizierbarkeit. Im Allgemeinen kann der ankommende Sprachfluss als eine Konkatenation von Wörtern oder Wortuntereinheiten klassifiziert werden, wohingegen die Sprachphrasenunter einheiten auf einer feineren Struktur basieren, z. B. auf der Basis von Phonemen, Silben oder dergleichen. In jedem Fall sind die Sprachphrasen Kombinationen und/oder Konkatenationen der Sprachphrasenuntereinheiten.
  • Gemäß einer weiteren vorteilhaften Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung wird eine Anpassung des aktuellen akustischen Modells wiederholt durchgeführt, jeweils nach einer gegebenen Anzahl von durchgeführten Erkennungsschritten und/oder erhaltenen Erkennungsergebnissen. Weiterhin kann eine Anpassung des aktuellen akustischen Modells wiederholt durchgeführt werden, jeweils nach einer gegebenen Anzahl von erhaltenen und/oder erkannten Sprachphrasen. Diese Unterscheidung beschreibt Fälle, in denen die Anzahlen der Erkennungsschritte und der Erkennungsergebnisse nicht übereinstimmen und/oder Fälle, in denen nicht alle erhaltenen Sprachphrasen erkannt werden.
  • In einer weiteren bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung wird eine Anpassung des aktuellen akustischen Modells wiederholt durchgeführt nach jeder festgelegten und/oder vorgegebenen Anzahl von durchgeführten Erkennungsschritten, erhaltenen Erkennungsergebnissen und/oder empfangenen erkannten Sprachphrasen, insbesondere nach jedem Erkennungsschritt/-ergebnis und/oder empfangenen/erkannten Sprachphrase.
  • Weiterhin können die Anzahlen der durchgeführten Erkennungsschritte, der erhaltenen Erkennungsergebnisse und/oder der empfangenen oder erkannten Sprachphrasen, nach denen eine Anpassung des aktuellen akustischen Modells durchgeführt wird, während des Prozesses der Erkennung oder Anpassung bestimmt werden.
  • Gemäß den oben beschriebenen Maßnahmen ist es nicht notwendig, dass eine Anpassung des aktuellen akustischen Modells nach jedem Erkennungsschritt durchgeführt wird, sondern eine Anpassung kann nach einer vorgegebenen Anzahl von Erkennungsschritten oder erhaltenen Erkennungsergebnissen stattfinden. Die bestimmenden Anzahlen können in einem Onlineprozess während der Erkennung oder Anpassung bestimmt werden. Sie können aber auch als vorbestimmte Werte vor einer Erkennungssitzung festgelegt werden und können in Abhängigkeit der bestimmten Spracherkennungssitzung (Spracherkennungssession) verändert werden.
  • Ein besonderer Punkt ist die Bestimmung der Anpassungszahlen und/oder der Auftrittszahlen der bestimmten Sprachphrasen, die im ankommenden Sprachfluss enthalten sein können. Die einfachste Form des erfindungsgemäßen Verfahrens wird erreicht, indem eine feste Grenzwertzahl bestimmt wird, mit der jeder Auftritt und/oder jede Verwendung der Sprachphrase in einem Anpassungsprozess verglichen werden, und dann davon abgesehen wird, eine gegebene Sprachphrase für einen anderen Anpassungsprozess zu verwenden, und zwar bei einer bestimmten Anpassungszahl und/oder Auftrittszahl, die erreicht wird und/oder die gegebene und feste Grenzwertzahl überschreitet.
  • Die Grenzwertzahl kann für jede der Sprachphrasen oder für deren Klassen unabhängig festgesetzt werden. Die Grenzwertzahlen können als feste und/oder vorbestimmte Werte festgelegt werden, oder sie können auch während des Prozesses verändert und berechnet werden.
  • Gemäß einer weiteren bevorzugten Ausführungsform des Verfahrens zur Spracherkennung werden die gezählten Anpassungszahlen und/oder Auftrittszahlen nicht nur vom Anfang der Erkennungssitzung an gezählt, sondern es wird zugelassen, diese während dem Fortschreiten der aktuellen Erken nungssitzung zu verringern und/oder zu reduzieren. Insbesondere können jede bestimmte Anpassungszahl und/oder Auftrittszahl einer gegebenen Sprachphrase reduziert, verringert, vermindert und/oder auf Null zurückgesetzt werden, und zwar nach vorgegebenen abgelaufenen Zeitabschnitten einer vorgegebenen Gesamtanzahl von Erkennungsergebnissen oder -schritten, einer vorgegebenen Gesamtanzahl von Anpassungsschritten und/oder einer vorgegebenen Gesamtanzahl von empfangenen und/oder erkannten Sprachphrasen oder Äußerungen, insbesondere seit der letzten Inkrementierung der eindeutigen Anpassungszahl und/oder Auftrittszahl.
  • Gemäß den oben beschriebenen Maßnahmen ist es möglich, das Anpassungsmaß zu verändern, d. h. den Einfluss einer gegebenen Sprachphrase auf den Anpassungsprozess, sowohl in abschwächender als auch in verstärkender Art und Weise in Abhängigkeit der Häufigkeit ihres Auftritts. Wenn eine gegebene Sprachphrase beispielsweise in einem ersten Erkennungsabschnitt (einem ersten Erkennungszeitabschnitt) sehr häufig auftritt, wird ihr Anpassungsmaß erfindungsgemäß verringert, so dass eine Überanpassung hinsichtlich dieser bestimmten Sprachphrase vermieden wird. Anschließend kann ein zweiter Erkennungsabschnitt auftreten, indem diese bestimmte Sprachphrase nicht enthalten ist und nicht empfangen wird. Falls dann in einem dritten Erkennungsabschnitt die genannte bestimmte Sprachphrase wieder auftritt, wird der Einfluss auf den Anpassungsprozess in Übereinstimmung mit einer solchen Sprachphrase auf einer höheren Ebene ausgewertet im Vergleich zum ersten Abschnitt der Auftrittshäufigkeit der in Frage stehenden Sprachphrase. Gemäß der oben beschriebenen Ausführungsform können das Anpassungsmaß und damit der Einfluss einer Sprachphrase auf den Anpassungsprozess wieder aufgenommen werden in Zeitabschnitten des Anpassungsprozesses mit niedrigen Häufigkeiten oder keinen Auftritten der zu behandelnden Sprachphrase.
  • Gemäß einer weiteren bevorzugten Ausführungsform wird das Anpassungsmaß in Bezug zu jeder Sprachphrase und/oder jeder Sprachphraseuntereinheit während des Anpassungsprozesses des aktuellen akustischen Modells herabgesetzt – insbesondere streng – monoton mit der Erhöhung der Anpassungszahlen und/oder der Auftrittszahlen bei jedem Fall, insbesondere umgekehrt proportional. Mit dem erfindungsgemäßen Verfahren wird so erreicht, dass häufig auftretende Sprachphrasen eine geringere Anpassungsstärke erhalten und somit einen geringeren Einfluss auf den Anpassungsprozess des aktuellen akustischen Modells haben.
  • Zusätzlich zu der Abhängigkeit von bestimmten Auftritten und Einbeziehung in den Anpassungsprozess kann das Anpassungsmaß festgesetzt werden in Abhängigkeit einer abgelaufenen Zeitspanne, einer Gesamtanzahl von empfangenen und/oder erkannten Sprachphrasen, einer Gesamtanzahl von Anpassungen, die am aktuellen akustischen Modell und/oder dergleichen durchgeführt wurden.
  • In einer besonders geeigneten Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung werden Modellfunktions-Mixtures für das aktuelle akustische Modell verwendet, welche zumindest Verteilungsfunktionen oder dergleichen enthalten, und insbesondere Funktionen vom gaußschen Typ oder dergleichen.
  • Die grundlegenden Aspekte der vorliegenden Erfindung können auch wie folgt zusammengefasst werden:
  • Sprecheranpassungsverfahren für Spracherkennungssysteme und -verfahren transformieren ein akustisches Modell, um besser zu akustischen Eigenschaften und zum Sprachverhal ten eines gegebenen und bestimmten Sprechers zu passen. Während eines Onlineadaptionsprozesses wird keine Aufzeichnungsphase vor der Anwendung des Systems und des Verfahrens benötigt. Eine Anpassung des aktuellen akustischen Modells kann beispielsweise nach dem Erhalt und/oder der Erkennung jeder einzelnen Sprachphrase und/oder Äußerung oder nach einer gegebenen Anzahl davon stattfinden, insbesondere während das System und das Verfahren online und in Gebrauch sind.
  • Bei der Anwendung eines solchen Systems oder Verfahrens kann es passieren, dass ein bestimmter Anwender – insbesondere zu Beginn einer Erkennungssitzung (recognizing session) – eine bestimmte Sprachphrase, Wort, Äußerung oder einige wenige davon, verglichen mit anderen, sehr häufig verwendet. In einem solchen Fall würden bekannte Anpassungsverfahren die betroffenen bestimmten akustischen Modelle oder Phonemmodelle nicht nur an den Sprecher anpassen, sondern auch an die bestimmten akustischen Eigenschaften in dem Kontext der häufig auftretenden Wörter, Phrasen oder Äußerungen. Das Ergebnis ist, dass nur diese wenigen Wörter, Phrasen oder Äußerungen gut erkannt werden, andere Wörter, Phrasen oder Äußerungen jedoch schlechter erkannt werden als die häufig auftretenden Wörter, Phrasen oder Äußerungen, weil ihnen bei bekannten Anpassungsprozessen ein höherer Einfluss zukommt. Bekannte Anpassungsverfahren und konventionelle Spracherkennungsverfahren leiden also unter dem Problem einer Überanpassung durch häufig auftretende Wörter.
  • In einem Extremfall, bei welchem beispielsweise die verwendeten Modelle saubere bzw. reine Modelle sind und das System in einer geräuschbelasteten Umgebung (noisy environment) verwendet wird, würden die vorkommenden akustischen Modelle nicht nur an den Sprecher angepasst werden, sondern auch an die Umgebung bzw. die Umgebungsgeräusche.
  • Im Ergebnis wären diese Modelle in den meisten Fällen geeignet (match), da sie besser zu den Umgebungsbedingungen, d. h. zur Geräuschumgebung passen. Somit würden immer diese Wörter erkannt werden, egal was gesagt wurde.
  • Spracherkenner beinhalten in den akustischen Modellen statistische Modelle, insbesondere zur Beschreibung von akustischen Eigenschaften der ankommenden Sprache. Wortmodelle sind eine Konkatenation der entsprechenden verfeinerten Modelle, beispielsweise von entsprechenden Phonemmodellen. Die rahmenweise (frame-wise) akustischen Eigenschaften werden innerhalb des aktuellen akustischen Modells durch die Auswertung der Modellfunktions-Mixtures modelliert, insbesondere durch ein Mixture von gaußschen Verteilungsfunktionen, die beispielsweise an Phonemmodelle angefügt werden, die Merkmalsvektoren (feature vectors) entsprechen, die aus dem ankommenden Sprachsignal extrahiert werden. Gewöhnlich werden für jedes Phonem unterschiedliche Modelle verwendet, die vom linken und rechten phonemischen oder akustischen Kontext abhängen. Demgemäß existieren mehrere Tausend oder Zehntausende von Modellen. Um die Rechenlast zu reduzieren, werden ähnliche Verteilungsfunktionen oder Gaußfunktionen (Gaussians) von unterschiedlichen Phonmodellen zusammengefasst (merged) und die sich ergebenden gaußschen Funktionen oder Verteilungsfunktionen werden über gemeinsame Modelle hinweg gemeinsam verwendet. Bei der Onlineanpassung können die veränderten akustischen Modelle und insbesondere deren Parameter gewichtete Summen der alten Parameter und der Schätzung der aktuellen Parameter oder der aktuellen wenigen Äußerungen oder Sprachphrasen sein. Falls ein Anwender eine bestimmte Phrase oder ein bestimmtes Wort wiederholt spricht, transformiert die Sprecheranpassung die bestimmte Verteilung oder Modellfunktions-Mixture, insbesondere vom gaußschen Typ so, dass diese optimal zu der bestimmten Phrase, Äußerung oder zum Wort passt. Somit werden andere Wörter, die nicht häufig auftreten, nach dieser bestimmten Anpassung des aktuellen akustischen Modells unter Umständen schlecht erkannt, da die Gaußfunktionen (Gaussians) aufgrund ähnlicher akustischer Eigenschaften des Grundsystems bzw. Baselinesystems gemeinsam verwendet wurden.
  • In einem ersten Beispiel einer Anpassung basierend auf Maximum-Likelihood-Linear-Regression (MLLR) werden eine oder einige wenige Transformationsmatrizen auf Basis der Sprache eines einzelnen Benutzers geschätzt, um eine große Menge von Gaußfunktionen zu transformieren. Diese Prozedur wird jeweils für einige wenige Äußerungen durchgeführt. Falls die Matrizen nur mittels Äußerungen des gleichen Worts geschätzt werden, so ist die Transformation nicht repräsentativ für alle Gaußfunktionen (Gaussians), und die meisten von ihnen werden falsch transformiert.
  • Gemäß einem anderen Beispiel, bei dem die Anpassung auf einer Maximum-a-posteriori-Schätzung (MAP) basiert, wird jede Gaußfunktion, die im Sprachsignal einer Äußerung beobachtet wird, individuell transformiert. Da Gaußfunktionen (Gaussians) über Phonemmodelle hinweg gemeinsam verwendet werden, würde eine Anpassung an nur das gleiche Wort eine Anpassung der Gaußfunktionen an einen bestimmten Kontext bedeuten. Die anderen Kontexte würden nicht mehr berücksichtigt bzw. repräsentiert.
  • Gemäß der Erfindung und dem vorgeschlagenen Verfahren wird aufgezeichnet, in welchem Kontext ein Modellfunktions-Mixture und deren Komponenten, insbesondere eine Verteilungsfunktion oder eine Gaußfunktion, angepasst wurden. Mehrere explizite Lösungen können vorgeschlagen werden.
  • Bei einer besonders einfachen Lösung wird aufgezeichnet bzw. überwacht, bei welchen Wörtern oder Sprachphrasen oder dergleichen eine Anpassung durchgeführt wird bzw. auftritt. Falls das gleiche Wort, die gleiche Sprachphrase oder Äußerung innerhalb der letzten m Äußerungen, Sprachphrasen, Wörter oder dergleichen im ankommenden Sprachfluss n mal auftreten, werden diese Äußerung, Sprachphrase oder dieses Wort nicht mehr zur Anpassung des aktuellen akustischen Modells verwendet.
  • Bei einer zweiten Lösung ist die Stärke der Anpassung, d. h. das Gewicht, das den Einfluss der Anpassung auf die aktuelle Parameterschätzung kontrolliert, beispielsweise umgekehrt proportional oder dergleichen zu der Auftrittshäufigkeit der bestimmten Äußerung, Sprachphrase oder des Wortes innerhalb des ankommenden Sprachflusses.
  • Falls während der vergangenen wenigen Äußerungen, Sprachphrasen oder Wörter vom gleichen, insbesondere kontextabhängigen Phonmodell eine bestimmte Modellfunktions-Mixturekomponente, insbesondere vom gaußschen Typ angepasst werden soll und die Statistik für die Anpassung dieses gaußschen Typs (Gaussian) wiederholt berechnet wurde, werden die oben beschriebenen ersten oder zweiten Lösungen verwendet.
  • Angenommen, der Sprecher äußert beispielsweise hintereinander "Goethestraße", "Stettener Straße", "Hauptstraße", so würde in der letzten Äußerung die Modellfunktions-Mixturekomponente, d. h. die entsprechende Gaußfunktion, die mit dem Phonmodell von /a/ zusammenhängt, nicht mehr angepasst werden, da diese immer im gleichen Kontext "Straße" aufgetreten ist. Dagegen könnte das Phonmodell für "t" noch angepasst werden, da es in unterschiedlichen akustischen Kontexten "Goethe", "Stettener" und "Haupt" aufgetreten ist.
  • Im Folgenden wird das Verfahren zur Spracherkennung gemäß der Erfindung detaillierter mit Bezug zu einer schemati schen Darstellung auf Basis einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung erläutert.
  • 1 ist ein schematisches Blockdiagramm, das die elementaren Schritte einer Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung zeigt.
  • 2 ist ein schematisches Blockdiagramm, das die Ausführungsform von 1 detaillierter zeigt.
  • 1 zeigt durch ein schematisches Blockdiagramm elementare oder grundlegende Schritte einer Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung.
  • Im ersten Schritt 11 des Erkennungs- und Anpassungsprozesses 10 von 1 wird der ankommende Sprachfluss, der aus einer Konkatenation von möglichen Sprachphrasen ..., SPj, ... aufgebaut ist, empfangen und vorverarbeitet bzw. umgewandelt in eine Sequenz von entsprechenden Signalen ..., RSj, .... Dann wird im Schritt 12 die Erkennung durchgeführt, bei der ein aktuelles akustisches Modell CAM verwendet wird, das akustische Eigenschaften auf Basis von Phonemmodellen, HMM-Modellen oder dergleichen beschreibt, die in den Erkennungsprozess des Schritts 12 durch den Schritt 16 eingefügt werden und zum Erkennungsergebnis vom Schritt 13 führen.
  • Im folgenden Schritt 14 werden die eintreffende Sprache vom Schritt 11, das Erkennungsergebnis vom Schritt 13 und weitere Informationen des Erkennungsprozesses vom Schritt 12 ausgewertet, um Alignmentinformation, Abgleich- oder Anordnungsinformation zu erhalten hinsichtlich des Alignments, des Abgleichs oder der Anordnung von empfangenen und/oder erkannten Sprachphrasen ..., SPj, ..., Sprachphrasenuntereinheiten ..., SPSjk, ..., Phonemen oder dergleichen. Auf Basis dieser bestimmten Alignmentinformation wird im Schritt 15 adaptionsstatistische Information in Bezug zu der Anpassung und/oder Auftrittszahlen aj, oj extrahiert und anschließend in den Schritten 15a und 16a in eine Modifikation des aktuellen akustischen Modells CAM eingefügt, falls die Grenzwerte tj und uj für aj bzw. oj nicht überschritten werden, d. h., die Information wird nur für eine begrenzte Anzahl von Anpassungen verwendet.
  • 2 zeigt die Verarbeitung innerhalb der Ausführungsform von 1 detaillierter, ebenfalls durch ein schematisches Blockdiagramm.
  • In der Anfangs- oder Startphase der Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung wird das Verfahren 20 initialisiert, indem im Schritt 21 der Verarbeitung 20 in 2 alle Anpassungszahlen für alle Sprecher und für alle Sprachphrasen oder Wörter auf Null zurückgesetzt werden.
  • Im Schritt 22 von 2 wird der ankommende Sprachfluss empfangen und vorverarbeitet. Dann wird im Schritt 23 der Erkennungsprozess durchgeführt, was im Schritt 24 zu dem Erkennungsergebnis in Form einer erkannten Sprachphrase, eines Wortes oder dergleichen führt.
  • Anhand der im Schritt 15 in 1 gewonnenen Adaptionsstatistiken wird bestimmt, ob das bestimmte aufgetretene Wort und/oder erkannte Sprachphrase SPj, Wort oder dergleichen zur Anpassung des aktuellen akustischen Modells CAM mehr als eine gegebene Anzahl tj, uj mal verwendet wurde (Schritt 25). Falls die Anzahl von Verwendungen bzw. Anwendungen kleiner als ein fester Grenzwert tj, uj ist, werden die bestimmte Sprachphrase SPj, Wort oder derglei chen zur Anpassung des aktuellen akustischen Modells CAM verwendet, insbesondere auf der Basis von Phonemmodellen um das HMM-Modell im Schritt 26 zu modifizieren.
  • Schließlich wird gemäß der Einbeziehung der Sprachphrase SPj oder des in Frage stehenden Wortes die bestimmte Anpassungszahl aj im Schritt 27 um Eins erhöht (inkrementiert), und anschließend wird die Verarbeitung zum Schritt 22 zurückgeführt, um weiteren Sprachfluss zu empfangen.
  • Für den Fall, dass die bestimmte Sprachphrase SPj, das Wort oder die Äußerung in Frage mehr als tj, uj mal in den Anpassungsprozess für das aktuelle akustische Modell CAM einbezogen wurden, geht die Verarbeitung im Schritt 25 zum Schritt 28 über, bei dem die Verarbeitung von einer Anpassung an die bestimmte aufgetretene und/oder erkannte Sprachphrase, das Wort oder die Äußerung oder dergleichen absieht. Das heißt, die Verarbeitung geht in diesem Fall vom Schritt S25 zum Schritt S28 über und es findet keine Anpassung statt. Vom Schritt 28 geht die Verarbeitung zum Schritt 32 zurück, wiederum um einen weiteren ankommenden Sprachfluss zu empfangen.
  • Gemäß einer weiteren Ausführungsform ist es vorteilhaft, die Grenzwerte tj oder uj (in 1, 2) von der gesamten oder globalen Anzahl x von Anpassungsschritten in einer Erkennungssitzung abhängig zu machen. Zusätzlich oder alternativ können aj, oj auf Null zurückgesetzt werden, falls die Gesamtanpassungszahl x sehr groß ist, z. B. größer als ein gegebener Grenzwert Y, wie in Schritt 29 gezeigt wird. Dieses Maß berücksichtigt die Tatsache, dass nach einer großen Zahl x von Anpassungsschritten der Beitrag eines bestimmten Worts oder Phonems im Verhältnis zu einem Fall mit einer niedrigen Zahl x nicht wichtig ist.
  • In jedem Fall muss x initialisiert und inkrementiert werden, wie dies in den Schritten 21 bzw. 27 gezeigt wird.

Claims (13)

  1. Verfahren zur Erkennung von Sprache, – wobei für den Prozess der Erkennung einer Menge von Sprachphrasen (SP1, ..., SPN) ein aktuelles akustisches Modell (CAM) verwendet wird, – wobei das aktuelle akustische Modell (CAM) während des Erkennungsprozesses in Abhängigkeit von wenigstens einem bereits erhaltenen Erkennungsergebnis angepasst wird, und – wobei der Prozess der Anpassung des aktuellen akustischen Modells (CAM) auf einer Auswertung von Sprachphraseuntereinheiten (SPSjk) basiert, die in einer unter Bearbeitung stehenden und/oder kürzlich erkannten Sprachphrase (SPj) enthalten sind, dadurch gekennzeichnet, dass – Anpassungszahlen (aj) und/oder Auftrittszahlen (oj) für jede der Sprachphrasen (SP1, ..., SPN) gezählt werden, als Anzahl, dass eine bestimmte Sprachphrase (SPj) als Basis zur Anpassung des aktuellen akustischen Modells (CAM) verwendet wird, beziehungsweise als Anzahl von erkannten Auftritten der bestimmten Sprachphrase (SPj) in dem empfangenen Sprachfluss und – dass beim Prozess der Anpassung des aktuellen akustischen Modells (CAM) das Maß der Anpassung basierend auf einer bestimmten Sprachphrase (SPj) von wenigstens seiner bestimmten Anpassungszahl (aj) und/oder Auftrittszahl (oj) abhängig gemacht wird, insbesondere so, dass der Einfluss von häufigen Sprachphrasen (SPj) im empfangenen Sprachfluss auf den Anpassungsprozess abgeschwächt wird.
  2. Verfahren nach Anspruch 1, – wobei das aktuelle akustische Modell (CAM) auf einer Menge von Modellfunktions-Mixtures (MFM1, ..., MFMn) basiert, und – wobei der Anpassungsprozess wenigstens teilweise durch Transformieren der Modellfunktions-Mixtures (MFMj) und/oder der Modellfunktions-Mixture-Komponenten (MFMjk) und/oder durch zumindest teilweises Verändern von Beiträgen der Modellfunktions-Mixture-Komponenten (MFMjk; mixture weigts) der Modellfunktions-Mixtures (MFMj) durchgeführt wird.
  3. Verfahren nach einem der vorangehenden Ansprüche, – wobei Wörter, Teilworteinheiten, Phone, Phoneme, Silben, Buchstaben und/oder Ähnliches und/oder deren Kombinationen als Sprachphrase (SPj) und/oder als Sprachphraseuntereinheiten (SPSjk) der aktuellen akustischen Modelle (CAM) verwendet werden, und – wobei die Sprachphrasen (SPj) in jedem Fall Kombinationen oder Aneinanderreihungen der Sprachphraseuntereinheiten (SPSjk) sind.
  4. Verfahren nach einem der vorangehenden Ansprüche, wobei eine Anpassung des aktuellen akustischen Modells (CAM) wiederholt durchgeführt wird nach einer vorgegebenen Anzahl von durchgeführten Erkennungsschritten, erhaltenen Erkennungsergebnissen und/oder empfangenen oder erkannten Sprachphrasen (SPj).
  5. Verfahren nach einem der vorangehenden Ansprüche, wobei eine Anpassung des aktuellen akustischen Modells (CAM) wiederholt durchgeführt wird nach jeder festgelegten und/oder vorgegebenen Anzahl von durchgeführten Erkennungsschritten, erhaltenen Ergebnissen und/oder empfangenen oder erkannten Sprachphrasen (SPj), insbesondere nach jedem Erkennungsschritt/-ergebnis und/oder empfangenen/erkannten Sprachphrase (SPj).
  6. Verfahren nach einem der vorangehenden Ansprüche, wobei die Anzahl der durchgeführten Erkennungsschritte, erhaltenen Erkennungsergebnisse und/oder empfangenen oder erkannten Sprachphrasen (SPj), nach denen eine Anpassung des aktuellen akustischen Modells (CAM) durchgeführt wird, während des Prozesses der Erkennung oder Anpassung bestimmt werden.
  7. Verfahren nach einem der vorangehenden Ansprüche, wobei jede Anpassungszahl (aj) und/oder Auftrittszahl (oj) einer gegebenen Sprachphrase (SPj) reduziert, verringert, vermindert und/oder auf Null zurückgesetzt wird, nach vorgegebenen abgelaufenen Zeitabschnitten, einer vorgegebenen Gesamtanzahl von Erkennungsschritten, einer vorgegebenen Gesamtanzahl von Anpassungsschritten und/oder einer vorgegebenen Gesamtanzahl von empfangenen/erkannten Sprachphra sen oder Äußerungen, insbesondere in Bezug zur letzten Inkrementierung der eindeutigen Anpassungszahl (aj) und/oder Auftrittszahl (oj).
  8. Verfahren nach einem der vorangehenden Ansprüche, wobei das Anpassungsmaß in Bezug zu jeder Sprachphrase (SPj) und/oder jeder Sprachphraseuntereinheit (SPSjk) während des Anpassungsprozesses des aktuellen akustischen Modells (CAM) herabgesetzt wird – insbesondere streng – monoton mit der Erhöhung der Anpassungszahlen (aj) und/oder der Auftrittszahlen (oj) bei jedem Fall, insbesondere umgekehrt proportional.
  9. Verfahren gemäß einem der vorangehenden Ansprüche, wobei das Anpassungsmaß festgesetzt wird in Abhängigkeit einer abgelaufenen Zeitspanne, einer Gesamtanzahl von empfangenen und/oder erkannten Sprachphrasen (SPj), einer Gesamtanzahl von Anpassungen, die am aktuellen akustischen Modell (CAM) und/oder dergleichen durchgeführt wurden.
  10. Verfahren gemäß einem der vorangehenden Ansprüche, wobei das Anpassungsmaß für eine bestimmte Sprachphrase (SPj) herabgesetzt und/oder auf Null gesetzt wird, falls die zugewiesene Anpassungszahl (aj) und/oder Auftrittszahl (oj) eine vorgegebene Schwellwertanzahl (tj) überschreitet.
  11. Verfahren gemäß Anspruch 10, wobei die Schwellwertanzahl (tj) für jede der Sprachphrasen (SPj) unabhängig festgelegt wird.
  12. Verfahren gemäß Anspruch 10 oder 11, wobei die Schwellwertanzahlen (tj) vorbestimmt sind, festgelegt sind und/oder während des Prozesses der Erkennung und/oder der Anpassung verändert und variiert werden.
  13. Verfahren gemäß einem der vorangehenden Ansprüche, wobei Modellfunktions-Mixtures (MFMj) für das aktuelle akustische Modell (CAM) verwendet werden, welche auf Verteilungsfunktionen oder dergleichen basieren, insbesondere auf Funktionen vom Gauss'schen Typ oder dergleichen.
DE2000607637 2000-10-10 2000-10-10 Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung Expired - Lifetime DE60007637T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP00122025A EP1197949B1 (de) 2000-10-10 2000-10-10 Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung

Publications (2)

Publication Number Publication Date
DE60007637D1 DE60007637D1 (de) 2004-02-12
DE60007637T2 true DE60007637T2 (de) 2004-11-18

Family

ID=8170051

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2000607637 Expired - Lifetime DE60007637T2 (de) 2000-10-10 2000-10-10 Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung

Country Status (4)

Country Link
US (1) US6882972B2 (de)
EP (1) EP1197949B1 (de)
JP (1) JP3990136B2 (de)
DE (1) DE60007637T2 (de)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1187096A1 (de) * 2000-09-06 2002-03-13 Sony International (Europe) GmbH Anwendung an einen Sprecher mittels Beschneidung des Sprachmodells
US7447633B2 (en) * 2004-11-22 2008-11-04 International Business Machines Corporation Method and apparatus for training a text independent speaker recognition system using speech data with text labels
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7949533B2 (en) 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
WO2007105409A1 (ja) * 2006-02-27 2007-09-20 Nec Corporation 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
US20080004876A1 (en) * 2006-06-30 2008-01-03 Chuang He Non-enrolled continuous dictation
US8386254B2 (en) 2007-05-04 2013-02-26 Nuance Communications, Inc. Multi-class constrained maximum likelihood linear regression
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
CN103650034A (zh) * 2011-07-05 2014-03-19 三菱电机株式会社 语音识别装置及导航装置
DK2713367T3 (en) * 2012-09-28 2017-02-20 Agnitio S L Speech Recognition
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US9507852B2 (en) * 2013-12-10 2016-11-29 Google Inc. Techniques for discriminative dependency parsing
GB2546981B (en) * 2016-02-02 2019-06-19 Toshiba Res Europe Limited Noise compensation in speaker-adaptive systems
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
US10553218B2 (en) * 2016-09-19 2020-02-04 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
CA3179080A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
WO2018053537A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Improvements of speaker recognition in the call center
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
CN109754784B (zh) * 2017-11-02 2021-01-29 华为技术有限公司 训练滤波模型的方法和语音识别的方法
JP6903613B2 (ja) * 2018-09-10 2021-07-14 株式会社東芝 音声認識装置、音声認識方法及びプログラム
US11355103B2 (en) 2019-01-28 2022-06-07 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
US11019201B2 (en) 2019-02-06 2021-05-25 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020198354A1 (en) 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995009416A1 (en) * 1993-09-30 1995-04-06 Apple Computer, Inc. Continuous reference adaptation in a pattern recognition system
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US5737487A (en) * 1996-02-13 1998-04-07 Apple Computer, Inc. Speaker adaptation based on lateral tying for large-vocabulary continuous speech recognition
US6389393B1 (en) * 1998-04-28 2002-05-14 Texas Instruments Incorporated Method of adapting speech recognition models for speaker, microphone, and noisy environment
EP1008983B1 (de) * 1998-12-01 2004-09-15 Sony International (Europe) GmbH Sprecheradaptation nach dem linear-regressiven Maximum-Likelihood Vefahren

Also Published As

Publication number Publication date
US20020072894A1 (en) 2002-06-13
DE60007637D1 (de) 2004-02-12
EP1197949B1 (de) 2004-01-07
EP1197949A1 (de) 2002-04-17
EP1197949A4 (de) 2001-03-06
JP2002156994A (ja) 2002-05-31
JP3990136B2 (ja) 2007-10-10
US6882972B2 (en) 2005-04-19

Similar Documents

Publication Publication Date Title
DE60007637T2 (de) Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung
DE60020660T2 (de) Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69806557T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE69816177T2 (de) Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE69318447T2 (de) Erkennungssystem
DE69127961T2 (de) Verfahren zur Spracherkennung
DE68912397T2 (de) Spracherkennung mit Sprecheranpassung durch Lernprozess.
DE60100637T2 (de) Verfahren zur Rauschadaptierung mittels transformierter Matrizen in der automatischen Spracherkennung
DE10030105A1 (de) Spracherkennungseinrichtung
DE20004416U1 (de) Spracherkennungsvorrichtung unter Verwendung mehrerer Merkmalsströme
WO1999059135A2 (de) Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE60108104T2 (de) Verfahren zur Sprecheridentifikation
DE69512961T2 (de) Spracherkennung auf Grundlage von "HMMs"
EP1193689A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
DE4010028C2 (de) Spracherkennungsverfahren
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
WO2001086634A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: SONY DEUTSCHLAND GMBH, 50829 KOELN, DE