DE19842151A1 - Verfahren zur Adaption von linguistischen Sprachmodellen - Google Patents

Verfahren zur Adaption von linguistischen Sprachmodellen

Info

Publication number
DE19842151A1
DE19842151A1 DE19842151A DE19842151A DE19842151A1 DE 19842151 A1 DE19842151 A1 DE 19842151A1 DE 19842151 A DE19842151 A DE 19842151A DE 19842151 A DE19842151 A DE 19842151A DE 19842151 A1 DE19842151 A1 DE 19842151A1
Authority
DE
Germany
Prior art keywords
adaptation
list
recognition result
alternatives
linguistic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19842151A
Other languages
English (en)
Inventor
Bernd Souvignier
Andreas Kellner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Corporate Intellectual Property GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Corporate Intellectual Property GmbH filed Critical Philips Corporate Intellectual Property GmbH
Priority to DE19842151A priority Critical patent/DE19842151A1/de
Priority to DE59913508T priority patent/DE59913508D1/de
Priority to EP99202896A priority patent/EP0987682B1/de
Priority to US09/395,014 priority patent/US6499011B1/en
Priority to JP11259223A priority patent/JP2000099087A/ja
Publication of DE19842151A1 publication Critical patent/DE19842151A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur Adaption von linguistischen Sprachmodellen (6) in Systemen mit automatischer Spracherkennung mittels während des Betriebs der Systeme erhaltener Spracherkennungsergebnisse, wobei während der Adaption eine Auswertung einer Liste N bester Erkennungsergebnisalternativen mit N > 1 für eine zu erkennende sprachliche Äußerung vorgesehen ist. DOLLAR A Um eine solche Online-Adaption der linguistischen Sprachmodelle zu verbessern wird vorgeschlagen, daß in die Adaption eine Kombination mehrerer Erkennungsergebnisalternativen der Liste eingeht.

Description

Die Erfindung betrifft ein Verfahren zur Adaption von linguistischen Sprachmodellen in Systemen mit automatischer Spracherkennung mittels während des Betriebs der Systeme erhaltener Spracherkennungsergebnisse, wobei während der Adaption eine Auswertung einer Liste N bester Erkennungsergebnisalternativen mit N < 1 für eine zu erkennende sprachliche Äußerung vorgesehen ist.
Eine entsprechende Online-Adaption von Sprachmodellen ist insbesondere in Dialog­ systemen mit automatischer Spracherkennung erforderlich. Solche Dialogsysteme ermöglichen beispielsweise eine sprachgesteuerte Datenbankabfrage. Als Beispiele sollen hier Bahnfahrplanauskunftssysteme, Fernsprechauskunftssysteme, Flughafenauskunfts­ systeme und Auskunftssysteme für den Kundenverkehr von Banken genannt werden.
Die Spracherkennung wird mittels stochastister Modelle durchgeführt. Es werden sowohl akustische Modelle, die auf sogenannten HMM-Modellen ("Hidden Markov Model") fußen, als auch linguistische Sprachmodelle, die Auftrittswahrscheinlichkeiten von Sprachelementen semantischer und syntaktischer Natur repräsentieren, eingesetzt. Häufig besteht gerade bei Dialogsystemen das Problem, daß für das vor der Inbetriebnahme durchgeführte Training der für die Spracherkennung verwendeten linguistischen Sprach­ modelle nicht genügend Trainingsmaterial zur Verfügung steht. Aus diesem Grunde ist es bei Dialogsystemen wünschenswert, eine Online-Adaption vorzusehen, bei der die während des Betriebs erhaltenen Spracherkennungsergebnisse zur weiteren Verbesserung des verwendeten linguistischen Sprachmodells bzw. zur Adaption auf die jeweiligen Anwendungsfälle verwendet werden. Eine solche Adaption wird als unüberwacht bezeichnet, da dem Spracherkenner nur das ermittelte Spracherkennungsergebnis, nicht aber eine gesicherte Information über die tatsächlich abgegebene sprachliche Äußerung zur Verfügung steht.
Aus S. Homma et. al., "Improved Estimation of Supervision in Unsupervised Speaker Adaption", ICASSP 1997, Seiten 1023-1026, ist es bekannt, bei einer derartigen unüberwachten Online-Adaption von linguistischen Sprachmodellen aus einer Liste N bester Erkennungsergebnisalternativen, die für eine sprachliche Äußerung ermittelt wurden, die beste Erkennungsergebnisalternative, d. h. diejenige mit der größten Wahr­ scheinlichkeit nur dann für die Online-Adaption zu verwenden, wenn die Differenz zwischen dieser Wahrscheinlichkeit und der Wahrscheinlichkeit der zweitbesten Erkennungsergebnisalternative einen bestimmten vorgebbaren Schwellwert überschreitet.
Der Erfindung liegt nun die Aufgabe zugrunde, die Online-Adaption der linguistischen Sprachmodelle zu verbessern.
Die Aufgabe wird dadurch gelöst, daß in die Adaption eine Kombination mehrerer Erkennungsergebnisalternativen der Liste eingeht.
Dies hat den Vorteil, daß ein Ausgleich für die Fälle geschaffen wird, in denen das als beste Erkennungsergebnisalternative bewertete Element der Liste N bester Erkennungsergebnis­ alternativen nicht der tatsächlich abgegebenen sprachlichen Äußerung entspricht. Diese wird allerdings regelmäßig durch mindestens eine andere Erkennungsergebnisalternative der Liste repräsentiert sein. Durch die erfindungsgemäße Kombination mehrerer Erkennungsergebnisalternativen der Liste wird für derartige Fälle ein fehlerreduzierender Ausgleich erzielt, was letztlich zu einer verbesserten Online-Adaption bezüglich der linguistischen Sprachmodellierung führt.
Insbesondere bei der Erkennung von Folgen einzelner Sprachelemente, die zu einer sprachlichen Äußerung zusammengefaßt werden, nutzt die Erfindung den Umstand aus, daß einzelne Sprachelemente der tatsächlich abgegebenen sprachlichen Äußerung, wenn auch nicht in der besten Erkennungsalternative, so doch mit hoher Wahrscheinlichkeit in mindestens einer der anderen Listenelemente der Liste N bester Erkennungsergebnis­ alternativen repräsentiert sind. Bei der Online-Adaption werden in derartigen Fällen solche Teile von Erkennungsergebnisalternativen nicht übergangen, sondern mit einem bestimmten Gewicht berücksichtigt. Weiterhin ist in Fällen, bei denen in der besten Erkennungsergebnisalternative der Liste N bester Erkennungsergebnisalternativen Sprachelemente repräsentiert sind, die nicht Teil der tatsächlich abgegebenen sprachlichen Äußerung waren, es sehr wahrscheinlich, daß solche Sprachelemente in den übrigen Listenelementen nicht repräsentiert sind. Auch hier schafft eine Berücksichtigung weiterer Listenelemente einen Ausgleich für einen Fehler, der aufträte, wenn nur das beste Listen­ element berücksichtigt würde.
Bei der Umsetzung des Erfindungsgedankens ist insbesondere vorgesehen, daß bei der Kombination von Erkennungsergebnisalternativen der Liste diesen Alternativen zu­ geordnete Wahrscheinlichkeitswerte mit einem bestimmten Zahlenwert gewichtet werden und daß ein Adaptionsgewicht für eine für die Adaption verwendete Erkennungsergebnis­ alternative dadurch gebildet wird, daß der dieser Erkennungsergebnisalternative zuge­ ordnete gewichtete Wahrscheinlichkeitswert in Bezug gesetzt wird zur Summe der den übrigen Erkennungsergebnisalternativen der Liste zugeordneten gewichteten Wahr­ scheinlichkeitswerten. Diese einfach zu realisierende und zu guten Adaptionsergebnissen führende Ausgestaltung wird dadurch konkretisiert, daß die Adaptionsgewichte nach der Formel
mit
ωi als Adaptionsgewicht bezüglich des i-ten Elements der Liste N bester Erkennungsergebnisalternativen und
li als Wahrscheinlichkeitswert des i-ten Elements der Liste N bester Erkennungsergebnisalternativen
gebildet werden. Das Gewicht λ ist für jeden Anwendungsfall neu heuristisch zu ermitteln. Wenn die Wahrscheinlichkeitswerte li in logarithmierter Form vorliegen, hat dieser Ansatz den Vorteil, daß die Potenzierung mit dem Gewicht λ in eine Multiplikation mit diesem Gewicht übergeht.
Die Erfindung bezieht sich auch auf ein Spracherkennungssystem, bei dem eine Adaption eines für die Spracherkennung verwendeten linguistischen Sprachmodells gemäß einem der oben beschriebenen Verfahren durchgeführt wird.
Ausführungsbeispiele der Erfindung werden im folgenden anhand der Zeichnungen näher erläutert. Es zeigen:
Fig. 1 die Grundstruktur eines erfindungsgemäßen Spracherkennungssystems,
Fig. 2 ein Dialogsystem mit einer erfindungsgemäßen automatischen Spracherkennung,
Fig. 3 ein Beispiel für einen Wortgraphen.
Das in Fig. 1 gezeigte Spracherkennungssystem 1 weist einen Funktionsblock 2 auf, der Module des Spracherkennungssystems 1 zusammenfaßt, denen eingangsseitig (Bezugs­ zeichen 3) Sprachsignale repräsentierende Merkmalsvektoren zugeführt werden. Diese werden dadurch erzeugt, daß in elektrischer Form vorliegende Sprachsignale abgetastet und quantisiert werden und anschließend in aufeinanderfolgende sich teilweise überlappende Rahmen eingeteilt werden, für die jeweils eine Cepstral-Analyse durchgeführt wird, die schließlich die Komponenten der dem Funktionsblock 2 zugeführten Merkmalsvektoren liefert. Der Funktionsblock 2 repräsentiert eine Wahrscheinlichkeitsmaximierung nach der bekannten Bayes-Regel, und liefert ausgangsseitig (Bezugszeichen 4) N-beste Erkennungs­ ergebnisalternativen mit N < 1, für die die größten Wahrscheinlichkeitswerte bestimmt wurden. In die Verarbeitung gemäß Funktionsblock 2 gehen üblicherweise stochastische Sprachmodelle ein, die vor der Inbetriebnahme des Spracherkennungssystems 1 trainiert wurden. Einerseits sind dies akustische Modelle (Funktionsblock 5) und andererseits auch linguistische Sprachmodelle (Funktionsblock 6). Zur akustischen Modellierung werden sogenannte HMM-Modelle verwendet. Bei der linguistischen Sprachmodellierung werden einzelnen oder auch Kombinationen von Elementen eines Sprachvokabulars Auftritts­ wahrscheinlichkeiten zugeordnet.
Ein Funktionsblock 7 beschreibt die Generierung eines Erkennungsergebnisses an seinem Ausgang 8, das dem Element der Liste N bester Erkennungsergebnisalternativen entspricht, dem die höchste Wahrscheinlichkeit zugeordnet wurde.
Die jeweilige am Ausgang 4 vorliegende Liste N-bester Erkennungsergebnisalternativen wird außerdem zur Online-Adaption des linguistischen Sprachmodells 6 verwendet.
Hierzu werden Adaptionsgewichte ωi nach der Formel
mit
ωi als Adaptionsgewicht bezüglich des i-ten Elements der Liste N bester Erkennungsergebnisalternativen und
li als Wahrscheinlichkeitswert des i-ten Elements der Liste N bester Erkennungsergebnisalternativen
bestimmt (Funktionsblock 9). Das Gewicht λ ist ein heuristisch ermittelter Zahlenwert, der für jede Anwendung neu zu bestimmen ist. Um die so bestimmten Adaptionsgewichte ωi werden die zugehörigen Auftrittshäufigkeiten erhöht, aus denen sich die Auftritts­ wahrscheinlichkeiten des linguistischen Sprachmodells (Funktionsblock 6) berechnen, so daß die Auftrittswahrscheinlichkeiten mit einem entsprechenden bestimmten Zahlenwert gewichtet werden.
Fig. 2 zeigt ein erfindungsgemäßes Dialogsystem 20, das beispielsweise für Zwecke der Bahnfahrplanauskunft, der Fernsprechauskunft, der Flughafenauskunft, oder auch für Auskunftsysteme für den Kundenverkehr von Banken verwendet werden kann. Über eine Benutzerschnittstelle 21 werden dem System auszuwertende sprachliche Äußerungen (Bezugszeichen 22) zugeführt. Über die Benutzerschnittstelle 21 können als Antwort des Systems 20 auf eine empfangene sprachliche Äußerung mittels einer Dialogsteuerung 23 generierter Sprachsignale am Ausgang 23 an einen Benutzer als Antwort auf eine Sprach­ eingabe ausgegeben werden.
Die Benutzerschnittstelle 21 liefert in elektrischer Form vorliegende Sprachsignale an ein Spracherkennungsmodul 24, in das akustische Modelle 25 und linguistische Modelle 26 integriert sind. Bezüglich der Wirkungsweise der akustischen Modelle 25 wird auf die Ausführungen zu Fig. 1 verwiesen. Im Unterschied zu Fig. 1 liefert das Spracherken­ nungsmodul 24 allerdings nicht eine Liste N bester Erkennungsergebnisalternativen, sondern einen Wortgraph, dessen Knoten Zeitpunkten und dessen Kanten einzelnen Wörtern einer sprachlichen Äußerung entsprechen. Den einzelnen Kanten sind Auftritts­ wahrscheinlichkeiten für das jeweilige Wort zugeordnet. Die durch den Funktionsblock 26 repräsentierten linguistischen Sprachmodelle dienen zur Fokussierung des jeweiligen vom Funktionsblock 24 gelieferten Wortgraphen, d. h. gegenüber einem allein aufgrund der verwendeten akustischen Modelle 25 erzeugten Wortgraphen enthält hier ein vom Funktionsblock 24 ausgegebener Wortgraph solche Erkennungsalternativen nicht, die aufgrund der zugehörigen Auftrittswahrscheinlichkeiten gemäß dem linguistischen Modell 26 nur mit geringer Wahrscheinlichkeit als Erkennungsergebnis in Frage kommen. Ein Beispiel für einen Wortgraphen zeigt Fig. 3. Dieser Wortgraph hat acht Knoten. Die den einzelnen Kanten zugeordneten Wahrscheinlichkeitswerte liegen als negativer natürlicher Logorithmus der jeweiligen Auftrittswahrscheinlichkeit vor.
Die vom Spracherkennungsmodul 24 generierten Wortgraphen werden von einem Sprachverstehen-Modul 25 auf ihren Sinngehalt hin analysiert. Auch hier findet ein mit dem Bezugszeichen 27 bezeichnetes linguistisches Sprachmodell Eingang. Dieses umfaßt im vorliegenden Fall eine Grammatik-Sprachmodellierung, eine Füllwort-Sprach­ modellierung und eine Konzept-Sprachmodellierung. Füller werden verwendet, um die Teile des Wortgraphen zu modellieren, die nicht durch Konzepte erfaßt werden. Als Konzepte werden sinntragende Kategorien von Teilen von Sprachäußerungen bezeichnet. Ihr konkretisierter Inhalt sind die sogenannten Attribute. Nähere Informationen zur Struktur des Sprachverstehen-Moduls 25 bzw. zur linguistischen Sprachmodellierung gemäß Funktionsblock 27 lassen sich dem Aufsatz von Harald Aust et. al., "A Spoken Language Inquiry System for Automatic Train Timetable Information", Philips J. R 49, 1995, Seiten 399-418, entnehmen.
Die durch die Funktionsblöcke 26 und 27 repräsentierten linguistischen Sprachmodelle enthalten Auftrittswahrscheinlichkeiten linguistischer Sprachelemente, die entsprechend dem schon in Fig. 1 erläuterten Ansatz einer Online-Adaption unterzogen werden. Auch hier werden aus einer Liste N bester Erkennungsergebnisalternativen Adaptionsgewichte ωi entsprechend der schon oben angeführten Formel bestimmt. Die Liste N bester Erken­ nungsergebnisalternativen wird beim Dialogsystem 20 vom Sprachverstehen-Modul 25 geliefert. Die Adaption der durch die linguistischen Sprachmodelle 26 und 27 zusammengefaßten Auftrittswahrscheinlichkeiten durch die Adaptionsgewichte ωi erfolgt wie schon oben beschrieben.
Das Sprachverstehen-Modul 25 liefert im Betrieb des Dialogsystems 20 die jeweils beste Erkennungsergebnisalternative an die Dialogsteuerung, die daraufhin über die Benutzer­ schnittstelle 21 eine gemäß der jeweiligen Anwendung als Reaktion auf ein solches Erken­ nungsergebnis vorgesehene Sprachausgabe an den Benutzer bewirkt.

Claims (4)

1. Verfahren zur Adaption von linguistischen Sprachmodellen (6, 26, 27) in Systemen mit automatischer Spracherkennung mittels während des Betriebs der Systeme erhaltener Spracherkennungsergebnisse, wobei während der Adaption eine Auswertung einer Liste N bester Erkennungsergebnisalternativen mit N < 1 für eine zu erkennende sprachliche Äußerung vorgesehen ist, dadurch gekennzeichnet, daß in die Adaption eine Kombination mehrerer Erkennungsergebnisalternativen der Liste eingeht.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
daß bei der Kombination von Erkennungsergebnisalternativen der Liste diesen Alternativen zugeordnete Wahrscheinlichkeitswerte mit einem bestimmten Zahlenwert gewichtet werden und
daß ein Adaptionsgewicht für eine für die Adaption verwendete Erkennungsergebnis­ alternative dadurch gebildet wird, daß der dieser Erkennungsergebnisalternative zuge­ ordnete gewichtete Wahrscheinlichkeitswert in Bezug gesetzt wird zur Summe der den übrigen Erkennungsergebnisalternativen der Liste zugeordneten gewichteten Wahr­ scheinlichkeitswerten.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Adaptionsgewichte nach der Formel
mit
ωi als Adaptionsgewicht bezüglich des i-ten Elements der Liste N bester Erkennungsergebnisalternativen und
li als Wahrscheinlichkeitswert des i-ten Elements der Liste N bester Erkennungsergebnisalternativen.
4. Spracherkennungssystem, bei dem eine Adaption eines für die Spracherkennung verwendeten linguistischen Sprachmodells gemäß einem Verfahren nach einem der Ansprüche 1 bis 3 vorgesehen ist.
DE19842151A 1998-09-15 1998-09-15 Verfahren zur Adaption von linguistischen Sprachmodellen Withdrawn DE19842151A1 (de)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE19842151A DE19842151A1 (de) 1998-09-15 1998-09-15 Verfahren zur Adaption von linguistischen Sprachmodellen
DE59913508T DE59913508D1 (de) 1998-09-15 1999-09-08 Verfahren zur Adaption von linguistischen Sprachmodellen
EP99202896A EP0987682B1 (de) 1998-09-15 1999-09-08 Verfahren zur Adaption von linguistischen Sprachmodellen
US09/395,014 US6499011B1 (en) 1998-09-15 1999-09-13 Method of adapting linguistic speech models
JP11259223A JP2000099087A (ja) 1998-09-15 1999-09-13 言語音声モデルを適応させる方法及び音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19842151A DE19842151A1 (de) 1998-09-15 1998-09-15 Verfahren zur Adaption von linguistischen Sprachmodellen

Publications (1)

Publication Number Publication Date
DE19842151A1 true DE19842151A1 (de) 2000-03-23

Family

ID=7880993

Family Applications (2)

Application Number Title Priority Date Filing Date
DE19842151A Withdrawn DE19842151A1 (de) 1998-09-15 1998-09-15 Verfahren zur Adaption von linguistischen Sprachmodellen
DE59913508T Expired - Lifetime DE59913508D1 (de) 1998-09-15 1999-09-08 Verfahren zur Adaption von linguistischen Sprachmodellen

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE59913508T Expired - Lifetime DE59913508D1 (de) 1998-09-15 1999-09-08 Verfahren zur Adaption von linguistischen Sprachmodellen

Country Status (4)

Country Link
US (1) US6499011B1 (de)
EP (1) EP0987682B1 (de)
JP (1) JP2000099087A (de)
DE (2) DE19842151A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10100725C1 (de) * 2001-01-10 2002-01-24 Philips Corp Intellectual Pty Automatisches Dialogsystem mit Datenbanksprachmodell
DE102004048348A1 (de) * 2004-10-01 2006-04-13 Daimlerchrysler Ag Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6775651B1 (en) * 2000-05-26 2004-08-10 International Business Machines Corporation Method of transcribing text from computer voice mail
EP1199704A3 (de) * 2000-10-17 2003-10-15 Philips Intellectual Property & Standards GmbH Auswahl der alternativen Wortfolgen für diskriminative Anpassung
EP1213706B1 (de) * 2000-12-11 2006-07-19 Sony Deutschland GmbH Verfahren zur Online-Anpassung von Aussprachewörterbüchern
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
US8412521B2 (en) 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US8335688B2 (en) 2004-08-20 2012-12-18 Multimodal Technologies, Llc Document transcription system training
ES2309728T3 (es) * 2005-02-17 2008-12-16 Loquendo S.P.A. Metodo y sistema automatico para proporcionar formulaciones linguisticos que estan fuera de un dominio de reconocimiento de un sistema de reconocimiento vocal automatico.
US8131548B2 (en) * 2006-03-06 2012-03-06 Nuance Communications, Inc. Dynamically adjusting speech grammar weights based on usage
US7716049B2 (en) * 2006-06-30 2010-05-11 Nokia Corporation Method, apparatus and computer program product for providing adaptive language model scaling
US10366686B2 (en) * 2017-09-26 2019-07-30 GM Global Technology Operations LLC Text-to-speech pre-processing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3819178C2 (de) * 1987-06-04 1991-06-20 Ricoh Co., Ltd., Tokio/Tokyo, Jp
DE4240978A1 (de) * 1992-12-05 1994-06-09 Telefonbau & Normalzeit Gmbh Verfahren zur Verbesserung der Erkennungsqualität bei sprecherabhängiger Spracherkennung, insbesondere Sprecherverifikation
US5787230A (en) * 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04291399A (ja) * 1991-03-20 1992-10-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
US5850627A (en) * 1992-11-13 1998-12-15 Dragon Systems, Inc. Apparatuses and methods for training and operating speech recognition systems
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models
US5677990A (en) * 1995-05-05 1997-10-14 Panasonic Technologies, Inc. System and method using N-best strategy for real time recognition of continuously spelled names
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US5737489A (en) * 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
JP3216565B2 (ja) * 1996-08-02 2001-10-09 日本電信電話株式会社 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
JP3027544B2 (ja) * 1997-01-10 2000-04-04 株式会社エイ・ティ・アール音声翻訳通信研究所 統計的言語モデル生成装置及び音声認識装置
US6076057A (en) * 1997-05-21 2000-06-13 At&T Corp Unsupervised HMM adaptation based on speech-silence discrimination
ITTO980383A1 (it) * 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3819178C2 (de) * 1987-06-04 1991-06-20 Ricoh Co., Ltd., Tokio/Tokyo, Jp
DE4240978A1 (de) * 1992-12-05 1994-06-09 Telefonbau & Normalzeit Gmbh Verfahren zur Verbesserung der Erkennungsqualität bei sprecherabhängiger Spracherkennung, insbesondere Sprecherverifikation
US5787230A (en) * 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HOMMA, S. et al, "Improved Estimation of Supervision in Unsupervised Speaker Adaption", In: ICASSP 1997, S. 1023-1026 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10100725C1 (de) * 2001-01-10 2002-01-24 Philips Corp Intellectual Pty Automatisches Dialogsystem mit Datenbanksprachmodell
DE102004048348A1 (de) * 2004-10-01 2006-04-13 Daimlerchrysler Ag Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle
DE102004048348B4 (de) * 2004-10-01 2006-07-13 Daimlerchrysler Ag Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle

Also Published As

Publication number Publication date
EP0987682A3 (de) 2004-01-02
DE59913508D1 (de) 2006-07-20
EP0987682A2 (de) 2000-03-22
JP2000099087A (ja) 2000-04-07
US6499011B1 (en) 2002-12-24
EP0987682B1 (de) 2006-06-07

Similar Documents

Publication Publication Date Title
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE69625950T2 (de) Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem
DE69427083T2 (de) Spracherkennungssystem für mehrere sprachen
DE69315374T2 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
EP0925579B1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE60313706T2 (de) Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
DE3878071T2 (de) Sprachnormierung durch adaptive klassifizierung.
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
EP1084490B1 (de) Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
EP1649450A1 (de) Verfahren zur spracherkennung und kommunikationsger t
DE10030105A1 (de) Spracherkennungseinrichtung
EP0747880A2 (de) Spracherkennungssystem
EP1182646A2 (de) Verfahren zur Zuordnung von Phonemen
EP0633559A2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69326900T2 (de) Spracherkennungssystem
DE69628603T2 (de) System zur Musteranpassung mittels einer Baumstruktur
EP1282897A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
EP1136982A2 (de) Erzeugung eines Sprachmodells und eines akustischen Modells für ein Spracherkennungssystem
EP0813734A1 (de) Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird
EP2034472B1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung
EP1016077A1 (de) Verfahren zur bestimmung einer wahrscheinlichkeit für das auftreten einer folge von mindestens zwei wörtern bei einer spracherkennung
EP0902420B1 (de) Verfahren zum Ermitteln eines Zuverlässigkeitsmasses für die Spracherkennung
EP1179818B1 (de) Automatische Erkennung von Unternehmensnamen in sprachlichen Äusserungen

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8139 Disposal/non-payment of the annual fee