AT414060B - Klangfolgen-erkenner - Google Patents
Klangfolgen-erkenner Download PDFInfo
- Publication number
- AT414060B AT414060B AT2602004A AT2602004A AT414060B AT 414060 B AT414060 B AT 414060B AT 2602004 A AT2602004 A AT 2602004A AT 2602004 A AT2602004 A AT 2602004A AT 414060 B AT414060 B AT 414060B
- Authority
- AT
- Austria
- Prior art keywords
- time
- sound
- class
- sounds
- duration
- Prior art date
Links
- 239000013598 vector Substances 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000002730 additional effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
Description
2
AT 414 060 B 1. Technisches Gebiet
Pattern Recognition. Automatic Speech Recognition. Es handelt sich um ein Verfahren zur robusten Klassifikation von Schallschwingungen. Das erfindungsgemäße Verfahren eignet sich 5 zur Anwendung für Sprachsteuerungen für Mensch-Maschine-Schnittstellen sowie zur Klassifikation von nichtsprachlichen Schallschwingungen (beispielsweise Fahrzeuggeräusche in der Militärtechnik). 2. Nächstliegender Stand der Technik: 10
Hidden Markoff Model Speech Recognizer [Rabiner1989], Predictive Neural Network Speech Recognizer [Iso1990], Hidden Control Neural Network Speech Recognizer [Levin1993]. Diese üblichen Verfahren repräsentieren - wie auch das erfindungsgemäße - Schallschwingungsklassen mittels Zustandsfolgen, wobei jedem Zustand ein Subword-Unit-Modell zugeordnet wird. 15 Die Subword-Unit-Modelle sind verschieden und im allgemeinen relativ kompliziert aufgebaut (Gaussian Mixtures [Rabiner1989], Predictive Neural Networks [Iso1990], Hidden Control Neural Network [Levin 1993]). Das erfindungsgemäße Verfahren verwendet hingegen sehr einfache Subword-Unit-Modelle, wobei nur ein einziger Merkmalsvektor samt plausiblem Zeitdauerintervall pro Subword-Unit-Modell gespeichert wird. 20
Die Zeitentzerrung beim Mustervergleich wird bei den üblichen Verfahren mittels des relativ einfachen „Dynamic-Programming-Zeitentzerrers“ [Levin1993] beziehungsweise des „Viterbi-Zeitentzerrers“ [Forney1973] bewerkstelligt. Das erfindungsgemäße Verfahren verwendet hingegen Zeitentzerrer, die zusätzliche Eigenschaften aufweisen müssen, nämlich daß sie die 25 plausiblen Zeitdauerintervalle berücksichtigen können. Vorzugsweise wird der sogenannte „Run-Length-Limited-Dynamic-Programming-Zeitentzerrer“ verwendet.
[Levin1993] Levin, E.: Hidden control neural architecture modeling of nonlinear time varying Systems and its applications. Transactions on Neural Networks vol.4 (1993), p.109 -116. 30 [Iso1990] Iso, K.; Watanabe, T.: Speaker-independent word recognition using a neural predic-tion model. Proceedings of the ICASSP (1990), p.441 - 444.
[Rabiner1989] Rabiner, L. R.: A Tutorial on hidden markov models and selected applications in 35 speech recognition. IEEE Proceedings vol.77, no.2 (1989), p.257 - 286.
[Forney1973] Forney, G. D.: The viterbi algorithm. Proceedings of the IEEE vol. 61 (1973), p.268 - 278. 40 [L1] Jyh-Ming Kuo; Principe, J.C.: Speech Classification using a modified focused gamma net- work. Neural Networks, 1996. IEEE International Conference on, Volume: 4, 3-6 June 1996, Seiten: p 1877 -1882 vol. 4.
[L2] Su-Lin Wu; Kingsbury, E.D.; Morgan, N.; Greenberg, S.: Incorporating Information from 45 syllable-length time scales into automatic speech recognition. Acoustics, Speech, and Signal Processing, 1998. ICASSP '98. Proceedings of the 1998 IEEE International Conference on, Volume: 2, 12-15 May 1998, Seiten:721 - 724 vol. 2.
[L3] Yfantis, E.A.; Lazarakis, T.; Angelopoulos, A.; Elison, J.D.; Zhang, Y.: On time alignment so and metric algorithms for speech recognition. Information Intelligence and Systems, 1999. Proceedings. 1999 International Conference on, 31 October - 3 November 1999, Seiten: 423 - 428.
[L4] Komori, T.; Katagiri, S.: Application of a generalized probablistic descent method to dy-55 namic time warping-based speech recognition. Acoustics, Speech, and Signal Processing, 3
AT 414 060 B 1992. ICASSP-92., 1992 IEEE International Conference on, Volume: 1, 23-26 March 1992, Seiten: 497 - 500 vol. 1.
[L5] Katagiri, S.; Lee, C.-H.; Juang, B.-H.: New discriminative training algorithms based on the 5 generalized probablistic descent method. Neural Networks for Signal Processing [1991]., Pro-ceedings of the 1991 IEEE Workshop, 30 September -1 October 1991, Seiten: 299 - 308. 3. Kurzbeschreibung io §1: Es handelt sich um ein Verfahren zur automatischen Klassifikation von Schallschwingungen, insbesondere von Geräuschen und gesprochenen Worten. Eine zu klassifizierende Schallschwingung wird zunächst mittels einer Mikrophoneinrichtung in eine elektrische Größe und mittels einer üblichen Vorverarbeitungseinrichtung zu einem zeitlich-diskreten vektorwertigen Signal, der so genannten Merkmalsvektorfolge verarbeitet. Diese wird vorzugsweise in der 15 Klassifikationseinrichtung abgespeichert und wird mit mehreren Klassenrepräsentanten verglichen, wobei zeitentzerrende Vergleichseinrichtungen verwendet werden. Jede Vergleichseinrichtung liefert eine skalare Größe als Vergleichsergebnis. Die Vergleichsergebnisse werden mittels einer Entscheidungseinheit zu einem Klassifikationsergebnis verarbeitet, das heißt, das die Entscheidungseinheit jene Klasse angibt, die das beste Vergleichsergebnis aufzuweisen 20 hat. Das Klassifikationsergebnis dient zur Steuerung eines technischen Gerätes vorzugsweise im Rahmen einer Mensch-Maschine-Schnittsteile. §2: Jeder Klassenrepräsentant ist in einem zugehörigen Klassenrepräsentant-Speicher, vorzugsweise datenkomprimiert abgespeichert. Folgende Information wird gespeichert: Die Anzahl 25 der Klänge, vorzugsweise 3-15, die einzelnen Klänge in richtiger Reihenfolge repräsentiert durch je einen einzigen Merkmalsvektor und für jeden Klang die jeweils zulässige Minimalzeitdauer und die jeweils zulässige Maximalzeitdauer. §3: Die zeitentzerrenden Vergleichseinrichtungen werden als „Run-Length-Limited-Dynamic-30 Programming-Zeitentzerrer“ realisiert. Dieser Zeitentzerrer wählt beim Vergleich der Merkmalsvektorfolge mit einem Klassenrepräsentanten die Zeitdauern der „Klänge“ des Klassenrepräsentanten so, dass sich ein Vergleichsergebnis ergibt, das so gut wie möglich ist. Das Vergleichsergebnis ergibt sich als Summe der Abstandsmaße - vorzugsweise der quadrierten euklidischen Distanz - jedes Merkmalsvektors der zu klassifizierenden Merkmalsvektorfolge 35 zum zugehörigen Klang des Klassenrepräsentanten. §4: Das Deltamerkmal zum üblichen Dynamic-Programming-Zeitentzerrer mit Left-to-Right-Zustandsmodell besteht darin, dass der „Run-Length-Limited-Dynamic-Programming-Zeitentzerrer“ die Zeitdauern der „Klänge" zum Zwecke des Vergleichs so anpasst, dass sie die 40 Bedingungen erfüllen, innerhalb der ihnen jeweils zugeordnet abgespeicherten Intervalle aus Minimalzeitdauer und Maximalzeitdauer zu liegen, Es gelten weiters folgende Randbedingungen: Der erste Merkmalsvektor gehört zum ersten Klang; der letzte Merkmalsvektor gehört zum letzten Klang; die Klänge folgen aufeinander; kein Klang darf ausgelassen werden; die Dauern der Klänge müssen innerhalb der plausiblen Zeitdauerintervalle liegen. Unter diesen Randbe-45 dingungen passt der „Run-Length-Limited-Dynamic-Programming-Zeitentzerref die Zeitdauern der „Klänge“ für ein optimales Vergleichsergebnis an.
Vorteile des erfindungsgemäßen Verfahrens: Geringer Speicherbedarf der Klassenrepräsentanten sowie der skalierbare, modulare Aufbau: Bei Erhöhung der Schallschwingungsklassenan-50 zahl, können neue Klassenrepräsentant-Speicher samt Vergleichseinrichtungen, ohne Modifikation der bereits gespeicherten Klassenrepräsentanten hinzugefügt werden. Die Klassifikatio-nonszeit bleibt dabei nahezu gleich. 4. Auflistung der Figuren 55 4
AT 414 060 B
Figur 1 zeigt eine Übersicht über den Klassifikationsvorgang: Die Aufnahme der Schallschwingung (A) mittels der Mikrophoneinrichtung (1); die Vorverarbeitung der elektrischen Größe (B) mittels einer Vorverarbeitungseinrichtung (2); die Klassifikation der Merkmalsvektorfolge (C) mittels der Klassifikationseinrichtung (3); das Klassifikationsergebnis (F). 5
Figur 2 zeigt beispielsweise die Zuordnung der Klänge (Z1 )-(Z5) eines Klassenrepräsentanten (E.n) zu den Vektoren (M1)-(M14) der zu klassifizierenden Merkmalsvektorfolge (C). Die Zuordnung wird von der zeitentzerrenden Vergleichseinrichtung (4.n) getroffen. Im dargestellten Beispiel handelt es sich um einen Klassenrepräsentanten mit 5 Klängen, der mit einer zu klassi-io fizierenden Merkmalsvektorfolge von 14 Merkmalsvektoren verglichen wird.
Figur 3 zeigt das sogenannte Left-to-Right-Zustandsmodell, dessen Zustandsfolge (Klangfolge) folgende Bedingungen erfüllt: Der erste Klang ist dem ersten Merkmalsvektor zugeordnet: der letzte Klang ist dem letzten Merkmalsvektor zugeordnet; kein Klang darf ausgelassen werden; 15 die Reihenfolge der Klänge darf nicht vertauscht werden. Zusätzlich sind beispielhafte Lauflängenbedingungen für die einzelnen Zustände (Klänge) notiert.
Figur 4 zeigt das transformierte Zustandsdiagramm, welches der „Run-Length-Limited-Dynamic-Programming-Zeitentzerrer aus den abgespeicherten, zulässigen Zeitdauerintervallen der 20 Klänge berechnet und zur Zeitanpassung verwendet. In der Figur ist ein Zustandsdiagramm für folgende Lauflängenbedingungen dargestellt: Für den Klang Z1 gilt 1 bis unendlich. Für den Klang Z2 gilt 1 bis 2. Für den Klang Z3 gilt 2 bis 3. Für den Klang Z4 gilt 2 bis 4. Für den Klang Z5 gilt 1 bis unendlich. Einen der möglichen Pfade zeigt Figur 2. 25 5. Detailbeschreibung
Der Erkennungsvorgang im Überblick
Siehe Kurzbeschreibung §1. Siehe Figur 1 samt Beschreibung. Mittels einer üblichen Vorverar-30 beitungseinrichtung (2), beispielsweise einer Filterbank, wird die elektrische Größe (B) der zu klassifizierenden Schallschwingung (A) in eine Folge von Merkmalsvektoren (C) verarbeitet, die den zeitlichen Verlauf üblicher Signaleigenschaften angibt. Der Vorrat an Klassen wird durch mehrere Klassenrepräsentant-Speicher (5.1)-(5.n) zusammen mit den zugehörigen zeitentzerrenden Vergleichseinrichtungen (4.1)-(4.n) gebildet, welche voneinander vollständig unabhän-35 gig arbeiten. Der Vorrat an Klassen ist daher modular erweiterbar. Die Vergleichsergebnisse (D.1)-(D./i) repräsentieren Maße für die Übereinstimmung der Klassenrepräsentanten mit der beobachteten Merkmalsvektorfolge (C). In der Entscheidungseinrichtung (6) wird die Klasse mit dem besten Vergleichsergebnis als Klassifikationsergebnis (F) gewählt. Jede Klasse wird vorzugsweise durch genau einen Klassenrepräsentanten repräsentiert. 40
Der Klassenrepräsentant-Speicher
Siehe Kurzbeschreibung §2. Je nach Implementierung kann der zur Speicherung des Klassenrepräsentanten notwendige Speicherplatz bemerkenswert niedrig sein. 45
Die zeitentzerrenden Vergleichseinrichtungen
Siehe Kurzbeschreibung §3. Siehe Figur 2 samt Beschreibung. Jedes Quadrat in Figur 2 bedeutet die Berechnung eines Abstandsmaßes, vorzugsweise der quadrierten euklidischen so Distanz, je eines Klanges und eines Merkmalvektors. Die schwarz gefärbten Quadrate repräsentieren die beispielhafte optimale Zuordnung unter dem Kriterium, dass die Gesamtsumme der Abstandsmaße minimal ist.
Siehe Figur 3 samt Beschreibung. Das übliche Left-to-Right-Zustandsmodell nach Figur 3 ohne 55 Lauflängenbedingungen kann jedoch auch Zustandsfolgen produzieren, die nach dem erfin- 5
AT 414 060 B dungsgemäßen Verfahren nicht zulässig sind. Zulässig sind beim erfindungsgemäßen Verfahren nur Zustandsfolgen, welche die in Figur 3 unterhalb der Zustände beispielsweise notierten Lauflängenbedingungen erfüllen. Diese zusätzlichen Bedingungen können aber mit dem üblichen Dynamic-Programming-Zeitentzerrer nicht ohne weiteres berücksichtigt werden. Daher ist 5 der „Run-Length-Limited-Dynamic-Programming-Zeitentzerrer" notwendig.
Realisierung des Run-Length-Limited-Dynamic-Programming-Zeitentzerrers
Siehe Kurzbeschreibung §4. Siehe Figur 4 samt Beschreibung. Der „Run-Length-Limited-io Dynamic-Programming-Zeitentzerrer" berücksichtigt die Randbedingungen für die Lauflängen der Zustände, in dem das Zustandsdiagramm nach einem im Folgenden beschriebenen Verfahren in eines ohne Lauflängenbedingungen transformiert wird. Sodann wird der übliche Dynamic-Programming-Zeitentzerrer angewendet und das Resultat auf das ursprüngliche Zustandsdiagramm zurück übertragen. Das Verfahren zur Transformation des Zustandsdiagramms ist wie 15 folgt festgelegt:
Die Zustände des transformierten Zustandsmodells werden im Folgenden als Sub-Zustände bezeichnet. Jedem Subzustand ist eindeutig aber im Allgemeinen nicht umkehrbar ein Zustand zugeordnet, wie Figur 4 zeigt. 20
Jeder Zustand, für den nicht beliebig lange Lauflängen zugelassen sind, im Beispiel (Z2)-(Z4), wird in genau so viele aufeinander folgende Subzustände aufgeteilt, wie seiner Maximallauflänge entspricht. Die Minimallauflängenbedingung wird dadurch berücksichtigt, dass ab der Minimallauflänge Zustandsübergänge zum ersten Subzustand des nächsten Zustandes möglich 25 sind. Zunächst erfolgt also eine bestimmte Anzahl von Subzuständen, welche nacheinander durchlaufen werden müssen, ohne dass Sprünge auf einen anderen Hauptzustand möglich sind. Diese Anzahl ist gleich der minimalen Lauflänge minus Eins. Darauf folgt eine bestimmte Anzahl von Subzuständen, von welchen aus jeweils Sprünge auf den ersten Subzustand des folgenden Zustands möglich sind. Diese Anzahl ist gleich der maximalen Lauflänge minus der 30 minimalen Lauflänge plus Eins. Daher ergibt sich insgesamt als Anzahl der Subzustände die maximale Lauflänge. Für den ersten und letzten Zustand werden vorzugsweise beliebig lange Lauflängen zugelassen, da diese beiden Zustände hauptsächlich die Nebengeräusche vor und nach dem interes-35 sierenden Schallereignis repräsentieren. In diesem Fall wird zur Realisierung der Maximallauflängenbedingung ein einziger Subzustand verwendet, von dem aus Sprünge auf sich selbst möglich sind (Siehe Beispiel Figur 4, Zustände Z1 und Z5). In diesem Fall ist die Anzahl der Subzustände für den Zustand gleich der minimalen Lauflänge. Vorzugsweise werden weiters Minimallauflängen größer Null gefordert, so dass kein Zustand ausgelassen werden kann. 40
Der optimale Weg durch das transformierte Zustandsdiagramm wird mittels des üblichen Dy-namic-Programming-Zeitentzerrers bestimmt, wobei die Subzustände das berechnete Abstandsmaß des Zustandes, dem sie zugeordnet sind übernehmen. Die Lösung wird schließlich wieder auf das ursprüngliche, einfache Left-to-Right-Zustandsdiagramm zurückübertragen. 45
Der Vorteil der Verwendung des „Run-Length-Limited-Dynamic-Programming-Zeitentzerrers“ gegenüber der üblichen „Dynamic-Programming-Zeitentzerrers“ [Levin1993] besteht darin, dass den Vergleichseinrichtungen bestimmte Flexibilität bei der Zeitentzerrung genommen wird, die sie zur Repräsentation der ihnen zugehörigen Schallschwingungsklasse nicht benötigen. Da-50 durch liefern sie bei Schallschwingungen, welche nicht zu ihrer Schallschwingungsklasse gehören schlechtere Vergleichsergebnisse, was die Chance erhöht, dass die richtige Vergleichseinrichtung das beste Vergleichsergebnis liefert. 55
Claims (1)
- 6 AT 414 060 B Patentanspruch: Verfahren zur automatischen Klassifikation von Schallschwingungen, insbesondere Geräuschen und gesprochenen Worten, bei dem eine zu klassifizierende Schallschwingung (A) zu-5 nächst mittels einer Mikrophoneinrichtung (1) in eine elektrische Größe (B) und mittels einer Vorverarbeitungseinrichtung (2) zu einer zeitlich-diskreten Merkmalsvektorfolge (C) verarbeitet wird, die anschließend in einer Klassifikationseinrichtung (3) mit den Klassenrepräsentanten (E.1)-(E.n) mittels zeitentzerrender Vergleichseinrichtungen (4.1)-(4.n) verglichen wird, und die skalaren Vergleichsergebnisse (D.1)-(D.n) mittels einer Entscheidungseinrichtung (6) zu einem io Klassifikationsergebnis (F) verarbeitet wird, welches zur Steuerung eines technischen Gerätes dient, dadurch gekennzeichnet, dass jeder Klassenrepräsentant (E.1)-(E.n) in genau einem zugehörigen Klassenrepräsentant-Speicher (5.1)-(5.n), vorzugsweise datenkomprimiert abgespeichert ist und zwar als endliche Folge von Merkmalsvektoren, vorzugsweise 3-15, welche im folgenden „Klänge“ genannt wer-15 den, sowie für jeden „Klang“ die jeweils zulässige Minimalzeitdauer und die jeweils zulässige Maximalzeitdauer, und jede zeitentzerrende Vergleichseinrichtung (4.1 )-(4./7) durch einen so genannten „Run-Length-Limited-Dynamic-Programming-Zeitentzerrer“ realisiert wird, der beim Vergleich der Merkmalsvektorfolge (C) mit einem der Klassenrepräsentanten (E.1 )-(E.n) die Zeitdauern der 20 „Klänge“ des jeweiligen Klassenrepräsentanten derart anpasst, dass das jeweilige Vergleichsergebnis der (D.1)-(D.n) so gut wie möglich ist, wobei das Deltamerkmal zum üblichen Dyna-mic-Programming-Zeitentzerrer darin besteht, dass die Zeitdauern der „Klänge“ die Bedingungen erfüllen müssen, innerhalb der ihnen jeweils zugeordnet abgespeicherten Intervalle aus Minimalzeitdauer und Maximalzeitdauerzu liegen. 25 Hiezu 1 Biatt Zeichnungen 30 35 40 45 50 55
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| AT2602004A AT414060B (de) | 2004-02-19 | 2004-02-19 | Klangfolgen-erkenner |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| AT2602004A AT414060B (de) | 2004-02-19 | 2004-02-19 | Klangfolgen-erkenner |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| ATA2602004A ATA2602004A (de) | 2005-11-15 |
| AT414060B true AT414060B (de) | 2006-08-15 |
Family
ID=35405969
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| AT2602004A AT414060B (de) | 2004-02-19 | 2004-02-19 | Klangfolgen-erkenner |
Country Status (1)
| Country | Link |
|---|---|
| AT (1) | AT414060B (de) |
-
2004
- 2004-02-19 AT AT2602004A patent/AT414060B/de not_active IP Right Cessation
Non-Patent Citations (2)
| Title |
|---|
| (L1) JYH-MING KUO; PRINCIPE, J.C.: SPEECH CLASSIFICATION USING A MODIFIED FOCUSED GAMMA NETWORK. NEURAL NETWORKS, 1996. IEEE INTERNATIONAL CONFERENCE ON, VOLUME: 4, 3-6 JUNE 1996, P.: P 1877-1882 VOL. 4. * |
| (L2) SU-LIN WU; KINGSBURY, E.D.; MORGAN, N.; GREENBERG, S.: INCORPORATING INFORMATION FROM SYLLABLE-LENGTH TIME SCALES INTO AUTOMATIC SPEECH RECOGNITION. * |
Also Published As
| Publication number | Publication date |
|---|---|
| ATA2602004A (de) | 2005-11-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
| DE69127961T2 (de) | Verfahren zur Spracherkennung | |
| DE69519297T2 (de) | Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen | |
| DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
| DE69707876T2 (de) | Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung | |
| DE60020660T2 (de) | Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung | |
| DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
| DE4397106B4 (de) | Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung | |
| DE60111329T2 (de) | Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung | |
| DE69220825T2 (de) | Verfahren und System zur Spracherkennung | |
| DE69607913T2 (de) | Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle | |
| DE602004003512T2 (de) | Kompression gausscher Modelle | |
| EP1649450A1 (de) | Verfahren zur spracherkennung und kommunikationsger t | |
| DE69613293T2 (de) | Vorrichtung zur Musteranpassung für Sprach- oder Mustererkennung | |
| EP1193688A2 (de) | Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern | |
| DE60034772T2 (de) | Zurückweisungsverfahren in der spracherkennung | |
| WO1999059135A2 (de) | Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner | |
| DE69512961T2 (de) | Spracherkennung auf Grundlage von "HMMs" | |
| DE69609531T2 (de) | Sprachanpassungsgerät | |
| EP1199704A2 (de) | Auswahl der alternativen Wortfolgen für diskriminative Anpassung | |
| DE10047724A1 (de) | Verfahren zur Ermittlung eines Eigenraumes zur Darstellung einer Mehrzahl von Trainingssprechern | |
| EP1187098B1 (de) | Komprimieren von HMM-Prototypen | |
| EP2431969B1 (de) | Spracherkennung mit kleinem Rechenaufwand und reduziertem Quantisierungsfehler | |
| DE10047718A1 (de) | Verfahren zur Spracherkennung | |
| DE102004017486A1 (de) | Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| MM01 | Lapse because of not paying annual fees |
Effective date: 20111115 |