DE19516099C2 - Verfahren zum Bestimmen von Sprachmodellwerten - Google Patents

Verfahren zum Bestimmen von Sprachmodellwerten

Info

Publication number
DE19516099C2
DE19516099C2 DE19516099A DE19516099A DE19516099C2 DE 19516099 C2 DE19516099 C2 DE 19516099C2 DE 19516099 A DE19516099 A DE 19516099A DE 19516099 A DE19516099 A DE 19516099A DE 19516099 C2 DE19516099 C2 DE 19516099C2
Authority
DE
Germany
Prior art keywords
word
sequences
word sequences
language model
speech signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE19516099A
Other languages
English (en)
Other versions
DE19516099A1 (de
Inventor
Reinhard Kneser
Hermann Ney
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Intellectual Property and Standards GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Intellectual Property and Standards GmbH filed Critical Philips Intellectual Property and Standards GmbH
Priority to DE19516099A priority Critical patent/DE19516099C2/de
Priority to US08/642,012 priority patent/US5745876A/en
Publication of DE19516099A1 publication Critical patent/DE19516099A1/de
Application granted granted Critical
Publication of DE19516099C2 publication Critical patent/DE19516099C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

Die Erfindung betrifft ein Verfahren zum Bestimmen von Sprachmodellwerten, die bei der Ermittlung von Wortfolgen aus einem Sprachsignal verwendet werden. Dabei werden aus dem Sprachsignal Testsignale abgeleitet, die mit Folgen von Referenzsigna­ len entsprechend Wörtern eines vorgegebenen Vokabulars verglichen werden. Aus dem Vergleich werden Bewertungswerte abgeleitet, die an Wortübergängen um einen Sprachmodellwert erhöht werden. Die um die Sprachmodellwerte erhöhten Bewertungs­ werte werden aufsummiert, und spätestens am Ende des Sprachsignals werden auf der Basis der günstigsten Bewertungswerte ermittelte Wortfolgen ausgegeben. Ein Verfah­ ren zur Anwendung von Sprachmodellwerten ist beispielsweise in der DE 41 30 632 A1 offenbart.
Die Sprachmodellwerte sollen die Wahrscheinlichkeit berücksichtigen, mit der Wort­ folgen einer vorgegebenen Anzahl bestimmter aufeinanderfolgender Wörter normaler­ weise auftreten. Bei einer Anzahl von M aufeinanderfolgenden Wörtern wird die Menge der Sprachmodellwerte als M-Gramm-Modell bezeichnet. Häufig werden die Bigramm- oder Trigramm-Modelle mit M = 2 bzw. M = 3 verwendet, jedoch sind auch Modelle M < 3 möglich, erfordern jedoch bei der Anwendung einen höheren Aufwand. Die Zuverläs­ sigkeit bei der Ermittlung von Wortfolgen, d. h. daß die ermittelte Wortfolge der tatsäch­ lich gesprochenen Wortfolge im Sprachsignal entspricht, wird durch die Verwendung von Sprachmodellen verbessert, wobei üblicherweise mit einem Trigramm-Modell bereits gute Ergebnisse erzielt werden.
Die Sprachmodellwerte werden vor der Ermittlung von Wortfolgen aus einem unbe­ kannten Sprachsignal in einer Testphase aus einem vorgegebenen Test-Sprachsignal ermittelt. Dafür wird die Häufigkeit gezählt, mit der die einzelnen Wortfolgen auftreten, woraus ein Wahrscheinlichkeitswert für solche Wortfolgen bestimmt wird, der im wesentlichen den Sprachmodellwert angibt. Da ein Test- Sprachsignal aus praktischen Gründen nicht allzu lang sein kann, tritt insbesondere bei einem größeren Vokabular der Fall auf, daß einige Wortfolgen in dem Test- Sprachsignal nicht vorhanden sind. Damit solche Wortfolgen jedoch nicht die Wahrscheinlichkeit Null erhalten und somit von der Erkennung ausgeschlossen werden, müssen auch solchen Wortfolgen endliche Sprachmodellwerte zugeordnet werden. Dafür werden sogenannte Rückfallstrategien verwendet, die aus den tatsächlich aufgetretenen Wortfolgen auf die Wahrscheinlichkeit der nicht aufge­ tretenen Wortfolgen schließen. Für solche Rückfallstrategien sind verschiedene Interpolationsmethoden bekannt.
Üblicherweise werden die Wahrscheinlichkeitswerte einzelner Wortfolgen derart gewählt, daß die Summe der Wahrscheinlichkeitswerte aller möglichen Wortfolgen den Wert 1 ergibt. Für tatsächlich aufgetretene vollständige Wortfolgen wird ein Schätzwert angenommen, der kleiner ist als die relative Häufigkeit, nämlich die Anzahl Male, daß eine bestimmte vollständige Wortfolge aufgetreten ist, zu der Anzahl Male, daß die um das letzte Wort verkürzte Wortfolge aufgetreten ist. Es wird somit also etwas von der Anzahl N abgezogen, was mit Discounting bezeichnet werden kann. Die so gewonnene Wahrscheinlichkeitsmenge wird dann gemäß einer gröberen Verteilung, nämlich einer um das erste Wort verkürzten Wortfolge, auf die nicht aufgetretenen Wortfolgen verteilt. Die jeweilige Interpolationsmethode legt hierbei die Art des Discounting fest.
Allgemein können die Interpolationsmethoden in folgendem Schema dargestellt werden:
Darin bedeuten h eine Wortfolge von Wörtern, w1 . . . wM-1 und b eine um das erste Wort verkürzte Wortfolge von Wörtern w2 . . . wM-1, ferner ist p(wM|h) die bedingte Wahr­ scheinlichkeit, daß der Wortfolge h das Wort wM folgt, α(wM|h) die durch das Discounting entsprechend der verwendeten Interpolationsmethode bestimmte Schätz­ wert für die aufgetretene Wortfolge, β(wM|b) die gröbere Verteilung für die um das erste Wort verkürzte Wortfolge und γ(h) eine Funktion aus der Forderung, daß alle Schätzwerte p in der Summe den Wert 1 ergeben. Ferner ist N(h, wM) die Anzahl Male, daß in dem Test-Sprachsignal die Wortfolge mit den Wörtern w1 . . . wM aufgetreten ist.
Normalerweise wird β(wM|b) = p(wM|b) angenommen, d. h. also aus der Zählung der um das erste Wort verkürzten Wortfolge abgeleitet. Dies kann jedoch zumindest in einigen Fällen zu einem Sprachmodellwert für die vollständige Wortfolge, die im Test- Sprachsignal nicht aufgetreten ist, führen, die von der tatsächlichen Wahrscheinlichkeit in der natürlichen Sprache erheblich abweichen kann. Ein auf einer Rückfallstrategie beruhendes Verfahren zur Bestimmung von Sprachmodellwerten ist beispielsweise auch in der US 4 831 550 offenbart.
Aufgabe der Erfindung ist es, ein Verfahren zum Bestimmen von Sprachmodellwerten unter Verwendung von Interpolationsmethoden anzugeben, bei dem die Sprachmodellwerte für in der Testphase nicht aufgetretene Wortfolgen besser an ihre tatsächliche Wahrscheinlichkeit des Auftretens in natürlicher Sprache angepaßt werden.
Zur Lösung dieser Aufgabe wird bei Interpolationsmethoden, bei denen die Sprachmodellwerte für nicht aufgetretene Wortfolgen aus der Häufigkeit verkürzter aufgetretener Wortfolgen bestimmt wird, für die Ermittlung der Häufigkeit einer bestimmten um das erste Wort verkürzten Wortfolge jede unterschiedliche vollständige Wortfolge, in der diese verkürzte Wortfolge enthalten ist und die wenigstens einmal im Test-Sprachsignal aufgetreten ist, unabhängig von der tatsächlich aufgetretenen Häufigkeit nur höchstens einmal berücksichtigt.
Dadurch wird vermieden, daß eine vollständige im Test-Sprachsignal nicht aufgetretene Wortfolge, in der zufällig besonders häufig aufgetretene verkürzte Wortfolgen enthalten sind, einer hohen Wahrscheinlichkeit zugeordnet wird und einen entsprechenden Sprachmodellwert erhält.
Eine einfache Art, vollständige Wortfolgen nur einmal zu berücksichtigen, besteht darin, daß verkürzte Wortfolgen nur aus solchen vollständigen Wortfolgen, die genau einmal im Test-Sprachsignal aufgetreten sind, für die Sprachmodellwerte für nicht aufgetretene Wortfolgen berücksichtigt werden. Dadurch wird automatisch vermieden, daß einzelne häufig aufgetretene verkürzte Wortfolgen zur Annahme einer hohen Wahrscheinlichkeit auch der zugehörigen vollständigen Wortfolgen führen.
Eine andere Ausführung des erfindungsgemäßen Verfahrens besteht darin, daß die verkürzten Wortfolgen aus jeder unterschiedlichen im Test-Sprachsignal aufge­ tretenen vollständigen Wortfolgen genau einmal berücksichtigt werden. Auch dabei wird vermieden, daß häufige verkürzte Wortfolgen zu einer nicht zutreffenden Wahrscheinlichkeit für vollständige Wortfolgen führen.
Das erstgenannte Verfahren kann wie folgt ausgedrückt werden:
Darin bedeuten h' um die ersten beiden Wörter und das letzte Wort verkürzte Wortfolgen w3 . . . wM-1, d bezeichnet die Discounting-Wert und
ist die Anzahl der verschiedenen vollständigen Wortfolgen mit M Worten, die genau einmal vorkommen und außer im ersten Wort mit der Wortfolge, für die die Wahrscheinlichkeit bzw. der Sprachmodellwert bestimmt werden soll, übereinstimmen. Für den Fall, daß keine solche Wortfolge in dem Test-Sprachsignal aufgetreten ist, wird
aus um ein weiteres Wort verkürzten Wortfolgen nach dem gleichen Schema ermittelt. Der Discounting-Wert d kann ein konstanter Wert sein oder auch von der betreffenden Wortfolge abhängen.
Im anderen Falle sieht das Schema nahezu gleich aus, lediglich im Zähler werden nicht die nur einmal aufgetretenen verkürzten Wortfolgen gezählt, sondern alle entsprechenden Wortfolgen, die überhaupt aufgetreten sind, jedoch wird für jede aufgetretene Wortfolge nur ein Wert 1 aufakkumuliert, unabhängig davon, wie oft die betreffende Wortfolge tatsächlich aufgetreten ist.
Auf diese Weise wird ein Sprachmodell, d. h. die Sprachmodellwerte für die einzelnen Wortfolgen gebildet, bei dem die Sprachmodellwerte den tatsächlichen Wahrscheinlichkeiten der Wortfolgen in der natürlichen Sprache zumindest nahekommen.

Claims (3)

1. Verfahren zum Bestimmen der Sprachmodellwerte für die Ermittlung von Wortfolgen aus einem Sprachsignal, aus dem Testsignale abgeleitet werden, die mit Folgen von Referenzsignalen entsprechend jeweils einem Wort eines vorgegebenen Vokabulars verglichen werden, um Bewertungswerte abzuleiten, die für jeden Übergang von einem Wort zu einem anderen Wort um einen Sprachmodellwert erhöht werden, der die relative Wahrscheinlichkeit von Wortfolgen einer vor­ gegebenen Anzahl definierter aufeinanderfolgender Wörter angibt, wobei die Sprachmodellwerte wenigstens eines Teils aller möglichen Wortfolgen in einer Testphase aus einem vorgegebenen Test-Sprachsignal aus der Zählung der Häufigkeit des Auftretens der einzelnen Wortfolgen ermittelt wird und die Sprachmodellwerte für solche vollständigen Wortfolgen, die in dem Test-Sprach­ signal nicht enthalten sind, aus den Häufigkeiten von um das erste Wort verkürzten Wortfolgen, die in solchen vollständigen Wortfolgen enthalten sind, die wenigstens einmal im Test-Sprachsignal aufgetreten sind, derart abgeleitet sind, daß jede unterschiedliche vollständige Wortfolge unabhängig von deren tatsächlich aufgetrete­ nen Häufigkeit nur höchstens einmal für die Ermittlung der Häufigkeit der darin enthaltenen verkürzten Wortfolgen berücksichtigt wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß verkürzte Wortfolgen nur aus solchen vollständigen Wortfolgen, die genau einmal im Test-Sprachsignal aufgetreten sind, für die Sprachmodellwerte für nicht aufgetretene Wortfolgen berücksichtigt werden.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die verkürzten Wortfolgen aus jeder unterschiedlichen im Test-Sprachsignal aufgetretenen vollständigen Wortfolge genau einmal berücksichtigt werden.
DE19516099A 1995-05-05 1995-05-05 Verfahren zum Bestimmen von Sprachmodellwerten Expired - Fee Related DE19516099C2 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE19516099A DE19516099C2 (de) 1995-05-05 1995-05-05 Verfahren zum Bestimmen von Sprachmodellwerten
US08/642,012 US5745876A (en) 1995-05-05 1996-05-02 Single-count backing-off method of determining N-gram language model values

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19516099A DE19516099C2 (de) 1995-05-05 1995-05-05 Verfahren zum Bestimmen von Sprachmodellwerten

Publications (2)

Publication Number Publication Date
DE19516099A1 DE19516099A1 (de) 1996-11-07
DE19516099C2 true DE19516099C2 (de) 2003-07-03

Family

ID=7760893

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19516099A Expired - Fee Related DE19516099C2 (de) 1995-05-05 1995-05-05 Verfahren zum Bestimmen von Sprachmodellwerten

Country Status (2)

Country Link
US (1) US5745876A (de)
DE (1) DE19516099C2 (de)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5952942A (en) * 1996-11-21 1999-09-14 Motorola, Inc. Method and device for input of text messages from a keypad
DE19842404A1 (de) * 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente
JP2002528752A (ja) * 1998-10-21 2002-09-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 統計的言語モデルのパラメータの決定方法
US7143035B2 (en) * 2002-03-27 2006-11-28 International Business Machines Corporation Methods and apparatus for generating dialog state conditioned language models
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
US8108205B2 (en) 2006-12-01 2012-01-31 Microsoft Corporation Leveraging back-off grammars for authoring context-free grammars

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4831550A (en) * 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
DE4130632A1 (de) * 1991-09-14 1993-03-18 Philips Patentverwaltung Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal
EP0590925A1 (de) * 1992-09-29 1994-04-06 International Business Machines Corporation Verfahren zur Sprachformung und Gerät zur Spracherkennung
EP0602296A1 (de) * 1992-12-17 1994-06-22 International Business Machines Corporation Adaptives Verfahren zur Erzeugung gebietsabhängiger Modelle für intelligente Systeme

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
US5467425A (en) * 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4831550A (en) * 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
DE4130632A1 (de) * 1991-09-14 1993-03-18 Philips Patentverwaltung Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal
EP0590925A1 (de) * 1992-09-29 1994-04-06 International Business Machines Corporation Verfahren zur Sprachformung und Gerät zur Spracherkennung
EP0602296A1 (de) * 1992-12-17 1994-06-22 International Business Machines Corporation Adaptives Verfahren zur Erzeugung gebietsabhängiger Modelle für intelligente Systeme

Also Published As

Publication number Publication date
DE19516099A1 (de) 1996-11-07
US5745876A (en) 1998-04-28

Similar Documents

Publication Publication Date Title
EP0862160B1 (de) Verfahren zur Spracherkennung mit Sprachmodellanpassung
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE69127961T2 (de) Verfahren zur Spracherkennung
EP0862161B1 (de) Verfahren zur Spracherkennung mit Sprachmodellanpassung
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE68924134T2 (de) Spracherkennungssystem.
DE19516099C2 (de) Verfahren zum Bestimmen von Sprachmodellwerten
EP0299572A2 (de) Verfahren zur Erkennung von zusammenhängend gesprochenen Wörtern
DE60200632T2 (de) Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens
DE4130631A1 (de) Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal
EP0836175B1 (de) Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
DE3422877C2 (de)
DE60034429T2 (de) Verfahren und vorrichtung zur bestimmung von sprachkodierparametern
EP1077448B1 (de) Spracherkennung unter Berücksichtigung der Lautstärkeschwankungen
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
DE4130633A1 (de) Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal
EP0813734B1 (de) Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird
EP1107228A9 (de) Verfahren zur Erzeugung eines Maximum-Entropie-Sprachmodells
EP0677835B1 (de) Verfahren zum Ermitteln einer Folge von Wörtern
EP0834859B1 (de) Verfahren zum Bestimmen eines akustischen Modells für ein Wort
EP1402423A2 (de) Verfahren zur bestimmung des kritischen pfades einer integrierten schaltung
DE19738846C1 (de) Verfahren und Anordnung zur Berechnung von Abständen in hochdimensionalen Vektorräumen
DE19740147A1 (de) Verfahren zum Ermitteln eines Zuverlässigkeitsmaßes
EP1391877B1 (de) Spracherkennungsverfahren

Legal Events

Date Code Title Description
8127 New person/name/address of the applicant

Owner name: PHILIPS CORPORATE INTELLECTUAL PROPERTY GMBH, 2233

8110 Request for examination paragraph 44
8127 New person/name/address of the applicant

Owner name: PHILIPS INTELLECTUAL PROPERTY & STANDARDS GMBH, 20

8304 Grant after examination procedure
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee