DE19516099A1 - Verfahren zum Bestimmen von Sprachmodellwerten - Google Patents

Verfahren zum Bestimmen von Sprachmodellwerten

Info

Publication number
DE19516099A1
DE19516099A1 DE19516099A DE19516099A DE19516099A1 DE 19516099 A1 DE19516099 A1 DE 19516099A1 DE 19516099 A DE19516099 A DE 19516099A DE 19516099 A DE19516099 A DE 19516099A DE 19516099 A1 DE19516099 A1 DE 19516099A1
Authority
DE
Germany
Prior art keywords
word
sequences
word sequences
test
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19516099A
Other languages
English (en)
Other versions
DE19516099C2 (de
Inventor
Reinhard Kneser
Hermann Prof Dr Ney
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Patentverwaltung GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Patentverwaltung GmbH filed Critical Philips Patentverwaltung GmbH
Priority to DE19516099A priority Critical patent/DE19516099C2/de
Priority to US08/642,012 priority patent/US5745876A/en
Publication of DE19516099A1 publication Critical patent/DE19516099A1/de
Application granted granted Critical
Publication of DE19516099C2 publication Critical patent/DE19516099C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

Die Erfindung betrifft ein Verfahren zum Bestimmen von Sprachmodellwerten, die bei der Ermittlung von Wortfolgen aus einem Sprachsignal verwendet werden. Dabei werden aus dem Sprachsignal Testsignale abgeleitet, die mit Folgen von Referenzsignalen entsprechend Wörtern eines vorgegebenen Vokabulars verglichen werden. Aus dem Vergleich werden Bewertungswerte abgeleitet, die an Wort­ übergängen um einen Sprachmodellwert erhöht werden. Die um die Sprachmodell­ werte erhöhten Bewertungswerte werden aufsummiert, und spätestens am Ende des Sprachsignals werden auf der Basis der günstigsten Bewertungswerte ermittelte Wortfolgen ausgegeben.
Die Sprachmodellwerte sollen die Wahrscheinlichkeit berücksichtigen, mit der Wortfolgen einer vorgegebenen Anzahl bestimmter aufeinanderfolgender Wörter normalerweise auftreten. Bei einer Anzahl von M aufeinanderfolgenden Wörtern wird die Menge der Sprachmodellwerte als M-Gramm-Modell bezeichnet. Häufig werden die Bigramm- oder Trigramm-Modelle mit M =2 bzw. M =3 verwendet, jedoch sind auch Modelle M < 3 möglich, erfordern jedoch bei der Anwendung einen höheren Aufwand. Die Zuverlässigkeit bei der Ermittlung von Wortfolgen, d. h. daß die ermittelte Wortfolge der tatsächlich gesprochenen Wortfolge im Sprachsignal entspricht, wird durch die Verwendung von Sprachmodellen verbessert, wobei üblicherweise mit einem Trigramm-Modell bereits gute Ergebnisse erzielt werden.
Die Sprachmodellwerte werden vor der Ermittlung von Wortfolgen aus einem unbekannten Sprachsignal in einer Testphase aus einem vorgegebenen Test- Sprachsignal ermittelt. Dafür wird die Häufigkeit gezählt, mit der die einzelnen Wortfolgen auftreten, woraus ein Wahrscheinlichkeitswert für solche Wortfolgen bestimmt wird, der im wesentlichen den Sprachmodellwert angibt. Da ein Test- Sprachsignal aus praktischen Gründen nicht allzu lang sein kann, tritt insbesondere bei einem größeren Vokabular der Fall auf, daß einige Wortfolgen in dem Test- Sprachsignal nicht vorhanden sind. Damit solche Wortfolgen jedoch nicht die Wahrscheinlichkeit Null erhalten und somit von der Erkennung ausgeschlossen werden, müssen auch solchen Wortfolgen endliche Sprachmodellwerte zugeordnet werden. Dafür werden sogenannte Rückfallstrategien verwendet, die aus den tatsächlich aufgetretenen Wortfolgen auf die Wahrscheinlichkeit der nicht aufge­ tretenen Wortfolgen schließen. Für solche Rückfallstrategien sind verschiedene Interpolationsmethoden bekannt.
Üblicherweise werden die Wahrscheinlichkeitswerte einzelner Wortfolgen derart gewählt, daß die Summe der Wahrscheinlichkeitswerte aller möglichen Wortfolgen den Wert 1 ergibt. Für tatsächlich aufgetretene vollständige Wortfolgen wird ein Schätzwert angenommen, der kleiner ist als die relative Häufigkeit, nämlich die Anzahl Male, daß eine bestimmte vollständige Wortfolge aufgetreten ist, zu der Anzahl Male, daß die um das letzte Wort verkürzte Wortfolge aufgetreten ist. Es wird somit also etwas von der Anzahl N abgezogen, was mit Discounting bezeichnet werden kann. Die so gewonnene Wahrscheinlichkeitsmenge wird dann gemaß einer gröberen Verteilung, nämlich einer um das erste Wort verkürzten Wortfolge, auf die nicht aufgetretenen Wortfolgen verteilt. Die jeweilige Interpolationsmethode legt hierbei die Art des Discounting fest.
Allgemein können die Interpolationsmethoden in folgendem Schema dargestellt werden:
Darin bedeuten h eine Wortfolge von Wörtern, w₁ . . . wM-1 und eine um das erste Wort verkürzte Wortfolge von Wörtern w₂ . . . wM-1, ferner ist p(wM | h) die bedingte Wahrscheinlichkeit, daß der Wortfolge h das Wort wM folgt, α(wM | h) die durch das Discounting entsprechend der verwendeten Interpolationsmethode bestimmte Schätzwert für die aufgetretene Wortfolge, β(wM | ) die gröbere Verteilung für die um das erste Wort verkürzte Wortfolge und γ(h) eine Funktion aus der Forderung, daß alle Schätzwerte p in der Summe den Wert 1 ergeben. Ferner ist N(h,wM) die Anzahl Male, daß in dem Test-Sprachsignal die Wortfolge mit den Wörtern w₁ . . . wM aufgetreten ist.
Normalerweise wird β(wM | ) = p(wM | ) angenommen, d. h. also aus der Zählung der um das erste Wort verkürzten Wortfolge abgeleitet. Dies kann jedoch zumindest in einigen Fällen zu einem Sprachmodellwert für die vollständige Wortfolge, die im Test-Sprachsignal nicht aufgetreten ist, führen, die von der tatsächlichen Wahr­ scheinlichkeit in der natürlichen Sprache erheblich abweichen kann.
Aufgabe der Erfindung ist es, ein Verfahren zum Bestimmen von Sprachmodell­ werten unter Verwendung von Interpolationsmethoden anzugeben, bei dem die Sprachmodellwerte für in der Testphase nicht aufgetretene Wortfolgen besser an ihre tatsächliche Wahrscheinlichkeit des Auftretens in natürlicher Sprache angepaßt werden.
Zur Lösung dieser Aufgabe wird bei Interpolationsmethoden, bei denen die Sprachmodellwerte für nicht aufgetretene Wortfolgen aus der Häufigkeit verkürzter aufgetretener Wortfolgen bestimmt wird, für die Ermittlung der Häufigkeit einer bestimmten um das erste Wort verkürzten Wortfolge jede unterschiedliche voll­ ständige Wortfolge, in der diese verkürzte Wortfolge enthalten ist und die wenigstens einmal im Test-Sprachsignal aufgetreten ist, unabhängig von der tatsächlich aufgetretenen Häufigkeit nur höchstens einmal berücksichtigt.
Dadurch wird vermieden, daß eine vollständige im Test-Sprachsignal nicht aufgetretene Wortfolge, in der zufällig besonders häufig aufgetretene verkürzte Wortfolgen enthalten sind, einer hohen Wahrscheinlichkeit zugeordnet wird und einen entsprechenden Sprachmodellwert erhält.
Eine einfache Art, vollständige Wortfolgen nur einmal zu berücksichtigen, besteht darin, daß verkürzte Wortfolgen nur aus solchen vollständigen Wortfolgen, die genau einmal im Test-Sprachsignal aufgetreten sind, für die Sprachmodellwerte für nicht aufgetretene Wortfolgen berücksichtigt werden. Dadurch wird automatisch vermieden, daß einzelne häufig aufgetretene verkürzte Wortfolgen zur Annahme einer hohen Wahrscheinlichkeit auch der zugehörigen vollständigen Wortfolgen führen.
Eine andere Ausführung des erfindungsgemäßen Verfahrens besteht darin, daß die verkürzten Wortfolgen aus jeder unterschiedlichen im Test-Sprachsignal aufge­ tretenen vollständigen Wortfolgen genau einmal berücksichtigt werden. Auch dabei wird vermieden, daß häufige verkürzte Wortfolgen zu einer nicht zutreffenden Wahrscheinlichkeit für vollständige Wortfolgen führen.
Das erstgenannte Verfahren kann wie folgt ausgedrückt werden:
Darin bedeuten h′ um die ersten beiden Wörter und das letzte Wort verkürzte Wortfolgen w₃ . . . wM-1, d bezeichnet den Discounting-Wert und N₁(x,,wM) ist die Anzahl der verschiedenen vollständigen Wortfolgen mit M Worten, die genau einmal vorkommen und außer im ersten Wort mit der Wortfolge, für die die Wahrschein­ lichkeit bzw. der Sprachmodellwert bestimmt werden soll, übereinstimmen. Für den Fall, daß keine solche Wortfolge in dem Test-Sprachsignal aufgetreten ist, wird β(wM | ) aus um ein weiteres Wort verkürzten Wortfolgen nach dem gleichen Schema ermittelt. Der Discounting-Wert d kann ein konstanter Wert sein oder auch von der betreffenden Wortfolge abhängen.
Im anderen Falle sieht das Schema nahezu gleich aus, lediglich im Zähler werden nicht die nur einmal aufgetretenen verkürzten Wortfolgen gezählt, sondern alle entsprechenden Wortfolgen, die überhaupt aufgetreten sind, jedoch wird für jede aufgetretene Wortfolge nur ein Wert 1 aufakkumuliert, unabhängig davon, wie oft die betreffende Wortfolge tatsächlich aufgetreten ist.
Auf diese Weise wird ein Sprachmodell, d. h. die Sprachmodellwerte für die einzelnen Wortfolgen gebildet, bei dem die Sprachmodellwerte den tatsächlichen Wahrscheinlichkeiten der Wortfolgen in der natürlichen Sprache zumindest nahekommen.

Claims (3)

1. Verfahren zum Bestimmen der Sprachmodellwerte für die Ermittlung von Wortfolgen aus einem Sprachsignal, aus dem Testsignale abgeleitet werden, die mit Folgen von Referenzsignalen entsprechend jeweils einem Wort eines vorgegebenen Vokabulars verglichen werden, um Bewertungswerte abzuleiten, die für jeden Übergang von einem Wort zu einem anderen Wort um einen Sprachmodellwert erhöht werden, der die relative Wahrscheinlichkeit von Wortfolgen einer vor­ gegebenen Anzahl definierter aufeinanderfolgender Wörter angibt, wobei die Sprachmodellwerte wenigstens eines Teils aller möglichen Wortfolgen in einer Testphase aus einem vorgegebenen Test-Sprachsignal aus der Zählung der Häufigkeit des Auftretens der einzelnen Wortfolgen ermittelt wird und die Sprachmodellwerte für solche vollständigen Wortfolgen, die in dem Test-Sprach­ signal nicht enthalten sind, aus den Häufigkeiten von um das erste Wort verkürzten Wortfolgen, die in solchen vollständigen Wortfolgen enthalten sind, die wenigstens einmal im Test-Sprachsignal aufgetreten sind, derart abgeleitet sind, daß jede unterschiedliche vollständige Wortfolge unabhängig von deren tatsächlich aufgetrete­ nen Häufigkeit nur höchstens einmal für die Ermittlung der Häufigkeit der darin enthaltenen verkürzten Wortfolgen berücksichtigt wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß verkürzte Wortfolgen nur aus solchen vollständigen Wortfolgen, die genau einmal im Test-Sprachsignal aufgetreten sind, für die Sprachmodellwerte für nicht aufgetretene Wortfolgen berücksichtigt werden.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die verkürzten Wortfolgen aus jeder unterschiedlichen im Test-Sprachsignal aufgetretenen vollständigen Wortfolge genau einmal berücksichtigt werden.
DE19516099A 1995-05-05 1995-05-05 Verfahren zum Bestimmen von Sprachmodellwerten Expired - Fee Related DE19516099C2 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE19516099A DE19516099C2 (de) 1995-05-05 1995-05-05 Verfahren zum Bestimmen von Sprachmodellwerten
US08/642,012 US5745876A (en) 1995-05-05 1996-05-02 Single-count backing-off method of determining N-gram language model values

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19516099A DE19516099C2 (de) 1995-05-05 1995-05-05 Verfahren zum Bestimmen von Sprachmodellwerten

Publications (2)

Publication Number Publication Date
DE19516099A1 true DE19516099A1 (de) 1996-11-07
DE19516099C2 DE19516099C2 (de) 2003-07-03

Family

ID=7760893

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19516099A Expired - Fee Related DE19516099C2 (de) 1995-05-05 1995-05-05 Verfahren zum Bestimmen von Sprachmodellwerten

Country Status (2)

Country Link
US (1) US5745876A (de)
DE (1) DE19516099C2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19842404A1 (de) * 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5952942A (en) * 1996-11-21 1999-09-14 Motorola, Inc. Method and device for input of text messages from a keypad
JP2002528752A (ja) * 1998-10-21 2002-09-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 統計的言語モデルのパラメータの決定方法
US7143035B2 (en) * 2002-03-27 2006-11-28 International Business Machines Corporation Methods and apparatus for generating dialog state conditioned language models
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
US8108205B2 (en) * 2006-12-01 2012-01-31 Microsoft Corporation Leveraging back-off grammars for authoring context-free grammars

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4831550A (en) * 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
DE4130632A1 (de) * 1991-09-14 1993-03-18 Philips Patentverwaltung Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
JPH0772840B2 (ja) * 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
EP0602296A1 (de) * 1992-12-17 1994-06-22 International Business Machines Corporation Adaptives Verfahren zur Erzeugung gebietsabhängiger Modelle für intelligente Systeme
US5467425A (en) * 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19842404A1 (de) * 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente

Also Published As

Publication number Publication date
US5745876A (en) 1998-04-28
DE19516099C2 (de) 2003-07-03

Similar Documents

Publication Publication Date Title
EP0862160B1 (de) Verfahren zur Spracherkennung mit Sprachmodellanpassung
EP0604476B1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE68924134T2 (de) Spracherkennungssystem.
DE69321656T2 (de) Verfahren zur Spracherkennung
DE19708183A1 (de) Verfahren zur Spracherkennung mit Sprachmodellanpassung
EP0690436A2 (de) Start-/Endpunkt-Detektion zur Worterkennung
EP0836175B1 (de) Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
DE4130631A1 (de) Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal
DE60200632T2 (de) Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens
DE19516099C2 (de) Verfahren zum Bestimmen von Sprachmodellwerten
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
EP0533259A2 (de) Verfahren und Anordnung zum Erkennen einer Folge von Wörtern
EP0813734B1 (de) Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird
EP1107228A9 (de) Verfahren zur Erzeugung eines Maximum-Entropie-Sprachmodells
DE4208727A1 (de) Lernverfahren eines neuralen netzwerkes
DE69901324T2 (de) Vorrichtung, Verfahren und Speichermedium zur Sprechererkennung
EP0677835B1 (de) Verfahren zum Ermitteln einer Folge von Wörtern
EP0834859B1 (de) Verfahren zum Bestimmen eines akustischen Modells für ein Wort
EP0902420B1 (de) Verfahren zum Ermitteln eines Zuverlässigkeitsmasses für die Spracherkennung
EP0902417B1 (de) Verfahren und Einrichtung zur Spracherkennung von verwirrenden Wörtern
DE19639843A1 (de) Verfahren zum Durchführen von Datenbankanfragen
EP1391877B1 (de) Spracherkennungsverfahren
DE3686651T2 (de) Verfahren zum akustischen vergleichen in einem spracherkennungssystem.
EP0834860B1 (de) Verfahren zur Spracherkennung mit kontexabhängig modellierten Hidden Markov Modellen

Legal Events

Date Code Title Description
8127 New person/name/address of the applicant

Owner name: PHILIPS CORPORATE INTELLECTUAL PROPERTY GMBH, 2233

8110 Request for examination paragraph 44
8127 New person/name/address of the applicant

Owner name: PHILIPS INTELLECTUAL PROPERTY & STANDARDS GMBH, 20

8304 Grant after examination procedure
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee