DE19516099C2 - Verfahren zum Bestimmen von Sprachmodellwerten - Google Patents
Verfahren zum Bestimmen von SprachmodellwertenInfo
- Publication number
- DE19516099C2 DE19516099C2 DE19516099A DE19516099A DE19516099C2 DE 19516099 C2 DE19516099 C2 DE 19516099C2 DE 19516099 A DE19516099 A DE 19516099A DE 19516099 A DE19516099 A DE 19516099A DE 19516099 C2 DE19516099 C2 DE 19516099C2
- Authority
- DE
- Germany
- Prior art keywords
- word
- sequences
- word sequences
- language model
- speech signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 16
- 230000007704 transition Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
Die Erfindung betrifft ein Verfahren zum Bestimmen von Sprachmodellwerten, die bei
der Ermittlung von Wortfolgen aus einem Sprachsignal verwendet werden. Dabei
werden aus dem Sprachsignal Testsignale abgeleitet, die mit Folgen von Referenzsigna
len entsprechend Wörtern eines vorgegebenen Vokabulars verglichen werden. Aus dem
Vergleich werden Bewertungswerte abgeleitet, die an Wortübergängen um einen
Sprachmodellwert erhöht werden. Die um die Sprachmodellwerte erhöhten Bewertungs
werte werden aufsummiert, und spätestens am Ende des Sprachsignals werden auf der
Basis der günstigsten Bewertungswerte ermittelte Wortfolgen ausgegeben. Ein Verfah
ren zur Anwendung von Sprachmodellwerten ist beispielsweise in der DE 41 30 632 A1
offenbart.
Die Sprachmodellwerte sollen die Wahrscheinlichkeit berücksichtigen, mit der Wort
folgen einer vorgegebenen Anzahl bestimmter aufeinanderfolgender Wörter normaler
weise auftreten. Bei einer Anzahl von M aufeinanderfolgenden Wörtern wird die Menge
der Sprachmodellwerte als M-Gramm-Modell bezeichnet. Häufig werden die Bigramm-
oder Trigramm-Modelle mit M = 2 bzw. M = 3 verwendet, jedoch sind auch Modelle M < 3
möglich, erfordern jedoch bei der Anwendung einen höheren Aufwand. Die Zuverläs
sigkeit bei der Ermittlung von Wortfolgen, d. h. daß die ermittelte Wortfolge der tatsäch
lich gesprochenen Wortfolge im Sprachsignal entspricht, wird durch die Verwendung
von Sprachmodellen verbessert, wobei üblicherweise mit einem Trigramm-Modell
bereits gute Ergebnisse erzielt werden.
Die Sprachmodellwerte werden vor der Ermittlung von Wortfolgen aus einem unbe
kannten Sprachsignal in einer Testphase aus einem vorgegebenen Test-Sprachsignal
ermittelt. Dafür wird die Häufigkeit gezählt, mit der die einzelnen Wortfolgen auftreten,
woraus ein Wahrscheinlichkeitswert für solche Wortfolgen
bestimmt wird, der im wesentlichen den Sprachmodellwert angibt. Da ein Test-
Sprachsignal aus praktischen Gründen nicht allzu lang sein kann, tritt insbesondere
bei einem größeren Vokabular der Fall auf, daß einige Wortfolgen in dem Test-
Sprachsignal nicht vorhanden sind. Damit solche Wortfolgen jedoch nicht die
Wahrscheinlichkeit Null erhalten und somit von der Erkennung ausgeschlossen
werden, müssen auch solchen Wortfolgen endliche Sprachmodellwerte zugeordnet
werden. Dafür werden sogenannte Rückfallstrategien verwendet, die aus den
tatsächlich aufgetretenen Wortfolgen auf die Wahrscheinlichkeit der nicht aufge
tretenen Wortfolgen schließen. Für solche Rückfallstrategien sind verschiedene
Interpolationsmethoden bekannt.
Üblicherweise werden die Wahrscheinlichkeitswerte einzelner Wortfolgen derart
gewählt, daß die Summe der Wahrscheinlichkeitswerte aller möglichen Wortfolgen
den Wert 1 ergibt. Für tatsächlich aufgetretene vollständige Wortfolgen wird ein
Schätzwert angenommen, der kleiner ist als die relative Häufigkeit, nämlich die
Anzahl Male, daß eine bestimmte vollständige Wortfolge aufgetreten ist, zu der
Anzahl Male, daß die um das letzte Wort verkürzte Wortfolge aufgetreten ist. Es
wird somit also etwas von der Anzahl N abgezogen, was mit Discounting bezeichnet
werden kann. Die so gewonnene Wahrscheinlichkeitsmenge wird dann gemäß einer
gröberen Verteilung, nämlich einer um das erste Wort verkürzten Wortfolge, auf die
nicht aufgetretenen Wortfolgen verteilt. Die jeweilige Interpolationsmethode legt
hierbei die Art des Discounting fest.
Allgemein können die Interpolationsmethoden in folgendem Schema dargestellt
werden:
Darin bedeuten h eine Wortfolge von Wörtern, w1 . . . wM-1 und b eine um das erste Wort
verkürzte Wortfolge von Wörtern w2 . . . wM-1, ferner ist p(wM|h) die bedingte Wahr
scheinlichkeit, daß der Wortfolge h das Wort wM folgt, α(wM|h) die durch das
Discounting entsprechend der verwendeten Interpolationsmethode bestimmte Schätz
wert für die aufgetretene Wortfolge, β(wM|b) die gröbere Verteilung für die um das
erste Wort verkürzte Wortfolge und γ(h) eine Funktion aus der Forderung, daß alle
Schätzwerte p in der Summe den Wert 1 ergeben. Ferner ist N(h, wM) die Anzahl Male,
daß in dem Test-Sprachsignal die Wortfolge mit den Wörtern w1 . . . wM aufgetreten ist.
Normalerweise wird β(wM|b) = p(wM|b) angenommen, d. h. also aus der Zählung der
um das erste Wort verkürzten Wortfolge abgeleitet. Dies kann jedoch zumindest in
einigen Fällen zu einem Sprachmodellwert für die vollständige Wortfolge, die im Test-
Sprachsignal nicht aufgetreten ist, führen, die von der tatsächlichen Wahrscheinlichkeit
in der natürlichen Sprache erheblich abweichen kann. Ein auf einer Rückfallstrategie
beruhendes Verfahren zur Bestimmung von Sprachmodellwerten ist beispielsweise auch
in der US 4 831 550 offenbart.
Aufgabe der Erfindung ist es, ein Verfahren zum Bestimmen von Sprachmodellwerten
unter Verwendung von Interpolationsmethoden anzugeben, bei dem die
Sprachmodellwerte für in der Testphase nicht aufgetretene Wortfolgen besser an ihre
tatsächliche Wahrscheinlichkeit des Auftretens in natürlicher Sprache angepaßt werden.
Zur Lösung dieser Aufgabe wird bei Interpolationsmethoden, bei denen die
Sprachmodellwerte für nicht aufgetretene Wortfolgen aus der Häufigkeit verkürzter
aufgetretener Wortfolgen bestimmt wird, für die Ermittlung der Häufigkeit einer
bestimmten um das erste Wort verkürzten Wortfolge jede unterschiedliche vollständige
Wortfolge, in der diese verkürzte Wortfolge enthalten ist und die wenigstens einmal im
Test-Sprachsignal aufgetreten ist, unabhängig von der tatsächlich aufgetretenen
Häufigkeit nur höchstens einmal berücksichtigt.
Dadurch wird vermieden, daß eine vollständige im Test-Sprachsignal nicht
aufgetretene Wortfolge, in der zufällig besonders häufig aufgetretene verkürzte
Wortfolgen enthalten sind, einer hohen Wahrscheinlichkeit zugeordnet wird und
einen entsprechenden Sprachmodellwert erhält.
Eine einfache Art, vollständige Wortfolgen nur einmal zu berücksichtigen, besteht
darin, daß verkürzte Wortfolgen nur aus solchen vollständigen Wortfolgen, die
genau einmal im Test-Sprachsignal aufgetreten sind, für die Sprachmodellwerte für
nicht aufgetretene Wortfolgen berücksichtigt werden. Dadurch wird automatisch
vermieden, daß einzelne häufig aufgetretene verkürzte Wortfolgen zur Annahme
einer hohen Wahrscheinlichkeit auch der zugehörigen vollständigen Wortfolgen
führen.
Eine andere Ausführung des erfindungsgemäßen Verfahrens besteht darin, daß die
verkürzten Wortfolgen aus jeder unterschiedlichen im Test-Sprachsignal aufge
tretenen vollständigen Wortfolgen genau einmal berücksichtigt werden. Auch dabei
wird vermieden, daß häufige verkürzte Wortfolgen zu einer nicht zutreffenden
Wahrscheinlichkeit für vollständige Wortfolgen führen.
Das erstgenannte Verfahren kann wie folgt ausgedrückt werden:
Darin bedeuten h' um die ersten beiden Wörter und das letzte Wort verkürzte
Wortfolgen w3 . . . wM-1, d bezeichnet die Discounting-Wert und
ist die
Anzahl der verschiedenen vollständigen Wortfolgen mit M Worten, die genau einmal
vorkommen und außer im ersten Wort mit der Wortfolge, für die die Wahrscheinlichkeit
bzw. der Sprachmodellwert bestimmt werden soll, übereinstimmen. Für den
Fall, daß keine solche Wortfolge in dem Test-Sprachsignal aufgetreten ist, wird
aus um ein weiteres Wort verkürzten Wortfolgen nach dem gleichen
Schema ermittelt. Der Discounting-Wert d kann ein konstanter Wert sein oder auch
von der betreffenden Wortfolge abhängen.
Im anderen Falle sieht das Schema nahezu gleich aus, lediglich im Zähler werden
nicht die nur einmal aufgetretenen verkürzten Wortfolgen gezählt, sondern alle
entsprechenden Wortfolgen, die überhaupt aufgetreten sind, jedoch wird für jede
aufgetretene Wortfolge nur ein Wert 1 aufakkumuliert, unabhängig davon, wie oft
die betreffende Wortfolge tatsächlich aufgetreten ist.
Auf diese Weise wird ein Sprachmodell, d. h. die Sprachmodellwerte für die
einzelnen Wortfolgen gebildet, bei dem die Sprachmodellwerte den tatsächlichen
Wahrscheinlichkeiten der Wortfolgen in der natürlichen Sprache zumindest
nahekommen.
Claims (3)
1. Verfahren zum Bestimmen der Sprachmodellwerte für die Ermittlung von
Wortfolgen aus einem Sprachsignal, aus dem Testsignale abgeleitet werden, die mit
Folgen von Referenzsignalen entsprechend jeweils einem Wort eines vorgegebenen
Vokabulars verglichen werden, um Bewertungswerte abzuleiten, die für jeden
Übergang von einem Wort zu einem anderen Wort um einen Sprachmodellwert
erhöht werden, der die relative Wahrscheinlichkeit von Wortfolgen einer vor
gegebenen Anzahl definierter aufeinanderfolgender Wörter angibt, wobei die
Sprachmodellwerte wenigstens eines Teils aller möglichen Wortfolgen in einer
Testphase aus einem vorgegebenen Test-Sprachsignal aus der Zählung der
Häufigkeit des Auftretens der einzelnen Wortfolgen ermittelt wird und die
Sprachmodellwerte für solche vollständigen Wortfolgen, die in dem Test-Sprach
signal nicht enthalten sind, aus den Häufigkeiten von um das erste Wort verkürzten
Wortfolgen, die in solchen vollständigen Wortfolgen enthalten sind, die wenigstens
einmal im Test-Sprachsignal aufgetreten sind, derart abgeleitet sind, daß jede
unterschiedliche vollständige Wortfolge unabhängig von deren tatsächlich aufgetrete
nen Häufigkeit nur höchstens einmal für die Ermittlung der Häufigkeit der darin
enthaltenen verkürzten Wortfolgen berücksichtigt wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
daß verkürzte Wortfolgen nur aus solchen vollständigen Wortfolgen, die genau
einmal im Test-Sprachsignal aufgetreten sind, für die Sprachmodellwerte für nicht
aufgetretene Wortfolgen berücksichtigt werden.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
daß die verkürzten Wortfolgen aus jeder unterschiedlichen im Test-Sprachsignal
aufgetretenen vollständigen Wortfolge genau einmal berücksichtigt werden.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19516099A DE19516099C2 (de) | 1995-05-05 | 1995-05-05 | Verfahren zum Bestimmen von Sprachmodellwerten |
US08/642,012 US5745876A (en) | 1995-05-05 | 1996-05-02 | Single-count backing-off method of determining N-gram language model values |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19516099A DE19516099C2 (de) | 1995-05-05 | 1995-05-05 | Verfahren zum Bestimmen von Sprachmodellwerten |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19516099A1 DE19516099A1 (de) | 1996-11-07 |
DE19516099C2 true DE19516099C2 (de) | 2003-07-03 |
Family
ID=7760893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19516099A Expired - Fee Related DE19516099C2 (de) | 1995-05-05 | 1995-05-05 | Verfahren zum Bestimmen von Sprachmodellwerten |
Country Status (2)
Country | Link |
---|---|
US (1) | US5745876A (de) |
DE (1) | DE19516099C2 (de) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5952942A (en) * | 1996-11-21 | 1999-09-14 | Motorola, Inc. | Method and device for input of text messages from a keypad |
DE19842404A1 (de) * | 1998-09-16 | 2000-03-23 | Philips Corp Intellectual Pty | Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente |
JP2002528752A (ja) * | 1998-10-21 | 2002-09-03 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 統計的言語モデルのパラメータの決定方法 |
US7143035B2 (en) * | 2002-03-27 | 2006-11-28 | International Business Machines Corporation | Methods and apparatus for generating dialog state conditioned language models |
DE10220521B4 (de) * | 2002-05-08 | 2005-11-24 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen |
DE10220524B4 (de) * | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
DE10220522B4 (de) * | 2002-05-08 | 2005-11-17 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse |
EP1361740A1 (de) * | 2002-05-08 | 2003-11-12 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs |
EP1363271A1 (de) * | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
US8108205B2 (en) | 2006-12-01 | 2012-01-31 | Microsoft Corporation | Leveraging back-off grammars for authoring context-free grammars |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4831550A (en) * | 1986-03-27 | 1989-05-16 | International Business Machines Corporation | Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events |
DE4130632A1 (de) * | 1991-09-14 | 1993-03-18 | Philips Patentverwaltung | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal |
EP0590925A1 (de) * | 1992-09-29 | 1994-04-06 | International Business Machines Corporation | Verfahren zur Sprachformung und Gerät zur Spracherkennung |
EP0602296A1 (de) * | 1992-12-17 | 1994-06-22 | International Business Machines Corporation | Adaptives Verfahren zur Erzeugung gebietsabhängiger Modelle für intelligente Systeme |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5293584A (en) * | 1992-05-21 | 1994-03-08 | International Business Machines Corporation | Speech recognition system for natural language translation |
US5467425A (en) * | 1993-02-26 | 1995-11-14 | International Business Machines Corporation | Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models |
-
1995
- 1995-05-05 DE DE19516099A patent/DE19516099C2/de not_active Expired - Fee Related
-
1996
- 1996-05-02 US US08/642,012 patent/US5745876A/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4831550A (en) * | 1986-03-27 | 1989-05-16 | International Business Machines Corporation | Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events |
DE4130632A1 (de) * | 1991-09-14 | 1993-03-18 | Philips Patentverwaltung | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal |
EP0590925A1 (de) * | 1992-09-29 | 1994-04-06 | International Business Machines Corporation | Verfahren zur Sprachformung und Gerät zur Spracherkennung |
EP0602296A1 (de) * | 1992-12-17 | 1994-06-22 | International Business Machines Corporation | Adaptives Verfahren zur Erzeugung gebietsabhängiger Modelle für intelligente Systeme |
Also Published As
Publication number | Publication date |
---|---|
DE19516099A1 (de) | 1996-11-07 |
US5745876A (en) | 1998-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0862160B1 (de) | Verfahren zur Spracherkennung mit Sprachmodellanpassung | |
DE69725802T2 (de) | Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung | |
DE69127961T2 (de) | Verfahren zur Spracherkennung | |
EP0862161B1 (de) | Verfahren zur Spracherkennung mit Sprachmodellanpassung | |
DE69938374T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle | |
DE68924134T2 (de) | Spracherkennungssystem. | |
DE19516099C2 (de) | Verfahren zum Bestimmen von Sprachmodellwerten | |
EP0299572A2 (de) | Verfahren zur Erkennung von zusammenhängend gesprochenen Wörtern | |
DE60200632T2 (de) | Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens | |
DE4130631A1 (de) | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal | |
EP0836175B1 (de) | Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal | |
DE3422877C2 (de) | ||
DE60034429T2 (de) | Verfahren und vorrichtung zur bestimmung von sprachkodierparametern | |
EP1077448B1 (de) | Spracherkennung unter Berücksichtigung der Lautstärkeschwankungen | |
EP0285222B1 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
EP0987682B1 (de) | Verfahren zur Adaption von linguistischen Sprachmodellen | |
DE4130633A1 (de) | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal | |
EP0813734B1 (de) | Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird | |
EP1107228A9 (de) | Verfahren zur Erzeugung eines Maximum-Entropie-Sprachmodells | |
EP0677835B1 (de) | Verfahren zum Ermitteln einer Folge von Wörtern | |
EP0834859B1 (de) | Verfahren zum Bestimmen eines akustischen Modells für ein Wort | |
EP1402423A2 (de) | Verfahren zur bestimmung des kritischen pfades einer integrierten schaltung | |
DE19738846C1 (de) | Verfahren und Anordnung zur Berechnung von Abständen in hochdimensionalen Vektorräumen | |
DE19740147A1 (de) | Verfahren zum Ermitteln eines Zuverlässigkeitsmaßes | |
EP1391877B1 (de) | Spracherkennungsverfahren |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8127 | New person/name/address of the applicant |
Owner name: PHILIPS CORPORATE INTELLECTUAL PROPERTY GMBH, 2233 |
|
8110 | Request for examination paragraph 44 | ||
8127 | New person/name/address of the applicant |
Owner name: PHILIPS INTELLECTUAL PROPERTY & STANDARDS GMBH, 20 |
|
8304 | Grant after examination procedure | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |