DE19915711A1 - ASD-Klassifikator - Google Patents
ASD-KlassifikatorInfo
- Publication number
- DE19915711A1 DE19915711A1 DE1999115711 DE19915711A DE19915711A1 DE 19915711 A1 DE19915711 A1 DE 19915711A1 DE 1999115711 DE1999115711 DE 1999115711 DE 19915711 A DE19915711 A DE 19915711A DE 19915711 A1 DE19915711 A1 DE 19915711A1
- Authority
- DE
- Germany
- Prior art keywords
- network
- dynamic
- vectors
- feature
- associative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 6
- 239000013598 vector Substances 0.000 claims abstract description 45
- 230000005484 gravity Effects 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 abstract 1
- 238000001514 detection method Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Description
Die Erfindung betrifft eine Anordnung zur robusten Folgenklassifikation mit geringem Auf
wand, die insbesondere für die schnelle und zuverlässige Erkennung akustischer Wortrealisie
rungen geeignet ist.
Die Entwicklung marktreifer Produkte auf dem Gebiet der automatischen Erkennung
fließender Sprache hat in den letzten Jahren deutliche Fortschritte gemacht. Diktiersysteme
sind als eine Art akustische Schreibmaschine für wenige hundert Mark zu haben und
Auskünfte zum Fahrplan können über Telefon im Dialog mit der Maschine eingeholt werden.
Dagegen läßt sich feststellen, daß bis heute kaum Produkte bekannt sind, in denen eine
einfache Spracherkennung zur Steuerung z. B. elektronischer Geräte verwendet wird, obwohl
gerade in diesem Bereich eine Fülle von Anwendungen denkbar ist. Sinnvolle Anwendung sind
beispielsweise der akustische Lichtschalter oder die akustische Fernbedienung für TV- oder
Video-Geräte. In beiden Fällen ließe sich eine Sprachsteuerung mit Einzelworterkennern
realisieren, die nur einen sehr begrenzten Wortschatz verstehen müssen.
Um den Einsatz der Spracherkennung in diesem Bereich unter ökonomischen Gesichtspunkten
interessant zu machen, darf der Erkenner gemessen am Preis des gesamten Gerätes nur sehr
wenig kosten. Geringe Kosten werden verursacht, wenn der Erkenner nur wenige der
vorhandenen Geräteressourcen verbraucht. Er muß daher mit besonders effizienten
Erkennungsalgorithmen arbeiten und darf nur wenig Datenspeicher verbrauchen. Der
Erkennungsaufwand muß also gering sein, d. h. der Erkenner muß möglichst schnell und klein
sein.
Sehr einfache und zeiteffizient arbeitende Erkennungsalgorithmen sind allgemein wenig
leistungsfähig bezüglich der Sicherheit der Erkennung. Die zu erkennenden Wörter werden
häufig mit anderen Wörtern des Erkennervokabulars verwechselt. Trotz der durch geringen
Speicher- und Rechenzeitbedarf gegebenen prinzipiellen Realisierbarkeit des Erkenners bietet
sich dann ein Einsatz nicht an, weil die Akzeptanz bei potentiellen Anwendern durch eine
mangelnde Erkennungssicherheit deutlich herabgesetzt wird. Die Benutzung immer wieder
falsch erkennender Systeme kann sogar eine erhebliche Frustration beim Umgang mit dem
Gerät auslösen und zu der Meinung führen, daß die Spracherkennung eigentlich überflüssig ist.
Neben einer aufwandsparenden und kostengünstigen Realisierbarkeit steht also auch für den
kleinen Erkenner zur Gerätesteuerung die Forderung, daß er zuverlässig erkennen muß.
Für die Worterkennung z. B. lassen sich beim derzeitigen Entwicklungsstand zwei Leistungs
klassen von Erkennern feststellen. Ein Erkenner umfaßt im Sinne der Objekterkennung die
zwei wesentlichen Bausteine Analysator und Klassifikator. Aspekte der Analyse von Objekten
bleiben in den folgenden Ausführungen unberücksichtigt. Die Begriffe Klassifikator und
Erkenner werden daher synonym verwendet. Die erste Klasse umfaßt einfache Erkenner, die
mit statischem Mustervergleich oder mit einer dynamischen Klassifikation auf der Basis sehr
einfacher statistischer Modelle arbeiten (DTW-Erkenner - Dynamic Time Warping) [SaC. 78]
[Hol. 91]. Diese Erkenner sind in der Regel sehr schnell und der Modellierungsaufwand ist
gering. Ihre Erkennungsrate liegt aber deutlich unterhalb der möglichen Grenzerkennungsrate.
Die zweite Klasse umfaßt Erkenner mit sehr leistungsfähigen statistischen Klassifikatoren
(HMM-Erkenner - Hidden Markov Model) [RaJ. 93] [Skt. 95]. Mit Erkennern dieser Kategorie
kann die Grenzerkennungsrate zwar annähernd erreicht werden, der Erkennungsaufwand ist
jedoch erheblich höher.
Für die Realisierung von autonomen Erkennerbausteinen in Systemen mit geringen Ressourcen
kommen daher nur die Erkenner der ersten Leistungsklasse in Frage. Bisher muß bei diesen
einfach strukturierten Erkennern allerdings mit einer indiskutablen Erkennungssicherheit
gerechnet werden. Die zu hohe Fehlerrate aufwandsarmer Systeme ist der Hauptgrund dafür,
daß ein Einsatz der Worterkennung in vielen potentiellen Kleinanwendungen bisher nicht
realisiert wurde.
Die Aufgabe der Erfindung besteht darin, eine Anordnung anzugeben, mit der der eingangs
skizzierten Antagonismus von Erkennungsaufwand und Erkennungssicherheit überwunden
bzw. zumindest gemildert werden. Erfindungsgemäß wird diese Aufgabe durch eine
Anordnung mit den Merkmalen des Patentanspruchs 1 gelöst.
Es wird eine als Assoziativ-Dynamischer Erkenner (ASD) bezeichnete Erkenner- bzw.
Klassifikatorstruktur beschrieben, die sich in der Realisierung durch einen geringen Speicher-
und Verarbeitungsaufwand auszeichnet und prinzipiell derart diskriminativ trainiert werden
kann, daß auch bei phonetisch problematischen Wortschätzen annähernd die theoretische
Grenzerkennungsrate erreicht wird.
Damit ist es grundsätzlich möglich, Erkenner zu realisieren, die auch auf einer einfachen
Hardware als Echtzeiterkenner implementiert werden können, ohne daß Kompromisse
bezüglich der Erkennungsrate eingegangen werden müssen.
Die Anordnung dient allgemein zur schnellen und robusten Klassifikation unbekannter Objekte
- z. B. akustischer Wortrealisierungen - die durch eine Folge zeitlich veränderlicher Merkmals
vektoren repräsentiert sind.
Ziel der Anordnung ist es, ein durch die Folge von Vektoren beschriebenes Objektmuster einer
definierten Klasse aus dem Klasseninventar des Erkenners zuzuordnen.
Die Anordnung besitzt die in Abb. 1 angegebene Struktur. In zeitlicher Abfolge werden an den
Eingang der Schaltung die Merkmalsvektoren des zu klassifizierenden Objekts gegeben. Der
Klassifikator berechnet dabei in jedem Zeitschritt für jede Klasse eine Bewertung dafür, wie
ähnlich die bis dahin gesehenen Folge von Eingabevektoren zu den Klassenmodellen ist. Diese
Bewertung kann in jedem Zeitschritt am Ausgang entnommen werden. Nach Eintreffen des
letzten, das Objekt beschreibenden Merkmalsvektors kann als Klassifikationsergebnis die
Klasse ausgegeben werden, für die die Bewertung am Ausgang der Schaltung am besten ist.
Alle Klassenmodelle werden als Zustandsmodelle verstanden. Entsprechend der Zielsetzung,
den Klassifikationsaufwand gegenüber bekannten Anordnungen zur Folgenklassifikation
drastisch zu senken, wird - im Gegensatz zum Dynamic Time Warping (DTW) - die Modell
struktur des Klassifikators reduziert, indem die Zustandsanzahl der Klassenmodelle deutlich
geringer gewählt wird, als die Anzahl der die Realisierungen einer Klasse im Mittel
beschreibenden Merkmalsvektorenfolgen. Im Gegensatz zu HMM-Erkennern (Hidden Markov
Model), die ebenfalls mit verkürzten Zustandsmodellen arbeiten, wird jeder Modellzustand
durch nur einen einzigen Referenz- bzw. Schwerpunktvektor repräsentiert. Es handelt sich
dann um nicht varianzbehaftete, normalisierte Referenzmodelle.
Ein Vergleich von Vektoren kann damit sehr zeiteffizient durch einfache Abstandsberechnung
mit wenigen Prototypen sehr Zeit- und speicherplatzsparend erfolgen.
Die notwendige Normalisierung der statistischen Variabilität einzelner Klassenrealisierungen
wird in der im Eingangsteil der Anordnung befindlichen diskriminativen Merkmalsextraktions
stufe vorgenommen.
Den Eingangsteil der Schaltung bildet eine diskriminative Merkmalstransformation. Die
Merkmalstransformation arbeitet als assoziatives neuronales Netz. Die Transformation des
primären Merkmalsvektors x in den sekundären Merkmalsvektor y wird dabei so ausgeführt,
daß neben einer Merkmalsreduktion - im Gegensatz zu bekannten Anordnungen zur Folgen
klassifikation - vor allem eine Anpassung der statistischen Parameter des Merkmalssatzes auf
die Eigenschaften der reduzierten Modellbeschreibung erfolgt. Dadurch ist eine Vereinfachung
des Mustervergleichs möglich, ohne daß diskriminative, für die Klassenunterscheidung
relevante Information verloren geht.
Jede der in Abb. 1 gezeigten Knoten-Transferfunktionen kann dabei allgemein eine lineare oder
nichtlineare Funktion der Merkmalswerte in x sein.
Im mittleren Teil der Schaltung werden die am Ausgang des Assoziativen Netzes liegenden
und in ihrer Dimensionalität reduzierten sekundären Merkmalsvektoren durch ein
Distanznetzwerk auf die als Modellzustände fungierenden Referenz- bzw.
Schwerpunktvektoren abgebildet. Die einzelnen Gewichte wjk entsprechen darin genau den
Komponentenspezifischen Werten der Schwerpunktvektoren mjk.
Wird durch das Distanznetzwerk der quadratische Euklidische Abstand zwischen einem
Vektor y(t) und den Referenzvektoren berechnet, so können die Elemente dk(t) des
Distanzvektors d(t) am Ausgang des Distanznetzwerks einen groben Schätzwert dafür liefern,
mit welcher Wahrscheinlichkeit der Merkmalsvektor y(t) durch jeden der Zustände zk
repräsentiert wird. Allgemein stehen kleinere Werte von dk(t) für eine höhere Ähnlichkeit
zwischen y(t) und einem Zustand zk.
Die Vektoren wk können als Zeilenvektoren zu einer die Abstandberechnung charakterisieren
den Schwerpunktmatrix W zusammengefaßt werden.
Die Aggregation der vektorbezogenen Modellbewertungen zu den für die Klassifikationsent
scheidung relevanten Klassenbewertung wird in einer den Ausgangsteil der Schaltung
bildenden und mit Dynamischer Programmierung (DP) arbeitenden Verarbeitungsstufe
vorgenommen. Im Gegensatz zu den in konventionellen HMM- und DTW-Erkennern üblichen
DP-Stufen kann hier durch Wahl der in Abb. 1 gezeigten Transferfunktion nochmals eine
Abstimmung der Parameter der DP auf die Eigenschaften der vereinfachten
Klassifikatormodelle erfolgen.
Wird die Größe Nm der Modelle λm deutlich kleiner gewählt als die minimal zu erwartende
Länge T der zu klassifizierenden unbekannten Testmuster x, so kann für den dynamischen
Mustervergleich ein reduzierter DP-Algorithmus zur Anwendung kommen. Ausgehend vom
Startzeitpunkt t = 1 wird dabei für jeden Zeitpunkt t der Globalbewertungsvektor
g(t) = (gl, . . ., gk)T durch die DP-Rekursionsgleichung
berechnet.
Im rechten Teil von Abb. 1 ist die DP-Rekursion des ASD-Erkenners als Netzwerkstruktur
dargestellt.
Für die Realisierung der reduzierten DP-Variante wird neben den bereits im assoziativen und
im Distanznetzwerk verwendeten Operatoren für Transferfunktion und Distanzberechnung nur
ein zusätzliches Verzögerungselement als Knotenoperator benötigt, falls als allgemeiner
Distanzoperator die Minkowski-Distanz verwendet wird. Die Minimum-Operation in der
Rekursionsgleichung kann dann durch den gleichen Distanzoperator dargestellt werden, da die
Minkowski-Distanz für den Exponenten r = 0 genau in einen Minimumoperator übergeht,
während sie z. B. für r = 1 den Cityblock-Abstand berechnet.
Die Addition in der Rekursion wird wieder durch den allgemeinen Transfer-Operator realisiert,
der hier im Standardfall als gewichtete Summe berechnet wird. Es werden dann alle Gewichte
für die im DP-Graphen vorhandenen Übergänge zu eins gesetzt, während alle anderen
Gewichte mit null belegt werden.
Die beste Performance der Schaltung wird durch eine am minimalen Klassifikationsfehler
orientierten optimalen Ausrichtung der Transferfunktionen, sowie der Wichtungsfaktoren und
Schwerpunktvektoren erreicht.
Als Beispiel für die Anwendung der vorgestellten Anordnung soll ihr Einsatz zur schnellen
Erkennung von Einzelwörtern beschrieben werden.
Angenommen wird, daß die Sprachanalyse im Abstand von 10 ms κ-dimensionale Merkmals
vektoren x liefert, die an den Eingang des ASD-Klassifikators gegeben werden. Für eine
Bark-Filter-Analyse ist κ typischerweise 16 . . . 20.
Sollen die Ziffern, sowie zusätzlich die Wörter ja und nein erkannt werden ist die Anzahl der
Objekt- bzw. Wortklassen des Erkenners W = 12.
Zur Konstruktion eines einfachen ASD-Wortklassifikators wird die Merkmalsextraktion durch
Verknüpfung der Selektionsstufe mit einer linearen Transformation realisiert, und durch die
Beziehung
beschrieben. Diese Operation kann durch ein lineares assoziatives Netzwerk dargestellt
werden. Die Werte νij aus sind dann die Gewichte des Netzes. An den Knoten der
Eingangsschicht des Netzes werden die Werte χi angelegt, während die Werte yj an den
Knoten der Ausgabeschicht des Netzes erscheinen.
Für die Erregung der Eingangsknoten oder Eingangsneuronen des assoziativen Netzes wird
hier das Skalarprodukt gebildet und die Aktivierungsfunktion für den Knoten j wird mit
oj = yj als lineare Funktion angesetzt.
Analog zu einer Merkmalsextraktion werden alle Analysevektoren x(t) mit der Dimension κ
durch das assoziative Netzwerk in Vektoren y(t) mit der Dimension ny (ny < κ) abgebildet.
Mit der Assoziativmatrix V, die sich aus den Zeilenvektoren vj = (vlj, . . ., vκ j) (j = 1 . . . ny)
zusammensetzt, wird allgemein eine nicht näher spezifizierte, möglicherweise auch singuläre,
im speziellen Fall hier lineare Abbildung definiert. Die Belegung der Gewichte erfolgt mit den
Elementen der Eigenvektoren aus einer Hauptkomponentenanalyse, Linearen
Diskriminanzanalyse usw., oder besser noch nach dem Kriterium der minimalen Fehlerrate
klassifikatorglobal optimiert.
Der ASD-Wortklassifikator besitzt für jede Wortklasse ψm (l ≦ m ≦ W) ein Modell λm in
Form eines linearen gestreckten Zustandsgraphen. Jedes Modell λm umfaßt Nm Zustände
zmn (l ≦ n ≦ Nm). Alle Modellgraphen werden zu einem Erkennermodell Λ mit insgesamt
Zuständen zk (l ≦ k ≦ N) zusammengefaßt. Jeder Zustand zk beschreibt die Verteilung der
sekundären Vektoren y(t), die in diesem Zustand beobachtet werden können.
Da im ASD-Klassifikator prinzipiell der einfachste Fall einer groben Dichtemodellierung
angenommen, wird jeder Zustand zk lediglich durch den Mittelwertvektor oder einen ähnlich
definierten Schwerpunkt mk dieser Verteilung repräsentiert (siehe oben). Jeder Schwerpunkt
vektor kann im Falle des ASD-Worterklassifikators als kompakte, normierte Modellbeschrei
bung eines kürzeren Abschnittes im Wortsignal - etwa im Zeithorizont der mittleren Dauer
eines Phonemes - betrachtet werden.
Im Anschluß an die Abbildung durch das assoziative Netz erfolgt die Bewertung der
Ähnlichkeit eines sekundären Vektors y(t) zu einem der Zustände zk. Dabei wird der Abstand
zwischen y(t) und jedem der Schwerpunkte mk berechnet. Durch diesen Vorgang wird jeder
Vektor y(t) in einen Distanzvektor d(t) überführt.
Die mit dem Distanznetzwerk realisierte Abbildung wird im ASD-Wortklassifikator durch die
Ermittlung des sehr einfach zu berechnende Cityblock-Distanz
realisiert.
Durch das Distanznetzwerk des ASD-Wortklassifikators erfolgt zu jedem Zeitpunkt t die
stationäre Abbildung eines primären Merkmalsvektors x(t) in einen Cityblock-Distanzvektor
d(t). Zur Klassifikation eines vollständigen Wortmusters x mit veränderlicher und a-priori
unbekannter Länge schließt die klassenweise Aggregation der Distanzwerte durch Dynamische
Programmierung.
Für jede der m Wortklassen liegt zu jedem Zeitpunkt an den Ausgängen Gm(t) eine
Bewertung vor, die die Ähnlichkeit der bis zum Zeitpunkt t beobachteten Folge von
Merkmalsvektoren zu den in λm beschriebenen Modell der Klasse m quantifiziert.
Am Ende des Mustervergleichs wird bei t = T für jedes Modell λm die globale Bewertung
Gm(t) im letzten Knoten des Modells ausgegeben.
Am Ende des Mustervergleichs wird bei t = T für jedes Modell λm die globale Bewertung
Gm(t) im letzten Knoten des Modells ausgegeben.
Der Anwendungsbereich des ASD-Klassifikators erstreckt sich allgemein auf das gesamte
Gebiet der Folgenklassifikation und ist nicht auf die Klassifikation akustischer Muster be
schränkt.
[Hol. 91] Holmes, J. N.: Sprachsynthese und Spracherkennung. - München: R. Oldenbourg Verlag, 1991.
[RaJ. 93] Rabiner, L.; Juang, B.-H.: Fundamentals of Speech Recognition. - Englewood Cliffs Prentice Hall, 1993.
[SaC. 78] Sakoe, H.; Chiba, S.: A Dynamic Programming Algorithm for Spoken Word Recognition. - In IEEE Trans. on Acoustics Speech and Signal Processing, vol. ASSP-26, pp. 43-49, Feb. 1978.
[Skt. 95] Schukat-Talamazzini, E. G.: Automatische Spracherkennung. - Braunschweig, Wiesbaden: Vieweg Verlag, 1995.
[Hol. 91] Holmes, J. N.: Sprachsynthese und Spracherkennung. - München: R. Oldenbourg Verlag, 1991.
[RaJ. 93] Rabiner, L.; Juang, B.-H.: Fundamentals of Speech Recognition. - Englewood Cliffs Prentice Hall, 1993.
[SaC. 78] Sakoe, H.; Chiba, S.: A Dynamic Programming Algorithm for Spoken Word Recognition. - In IEEE Trans. on Acoustics Speech and Signal Processing, vol. ASSP-26, pp. 43-49, Feb. 1978.
[Skt. 95] Schukat-Talamazzini, E. G.: Automatische Spracherkennung. - Braunschweig, Wiesbaden: Vieweg Verlag, 1995.
Claims (4)
1. Anordnung zur robusten Folgenklassifikation, insbesondere für die schnelle und
zuverlässige Erkennung akustischer Wortrealisierungen, bestehend aus einem assoziativen
Netz und einem dynamischen Netz, wobei für das assoziative Netz eine Anzahl von primären
Merkmalsvektoren (x) vorgesehen sind, die mit einer geringeren Anzahl von sekundären
Merkmalsvektoren (y) zur Transformation und Merkmalsreduktion verbunden sind, die se
kundären Merkmalsvektoren (y) zur Referenz- und Schwerpunktbildung mit einer Anzahl von
Distanzvektoren (d) verbunden sind, und den Distanzvektoren (d) als dynamisches Netz eine
mit Dynamischer Programmierung arbeitende Verarbeitungsstufe nachgeordnet ist.
2. Anordnung nach Anspruch 1, bei der das assoziative Netz ein neuronales Netz ist und
die Transformation des primären Merkmalsvektors (x) in den sekundären Merkmalsvektor (y)
so ausgeführt wird, daß neben der Merkmalsreduktion eine Anpassung der statistischen
Parameter des Merkmalssatzes auf die Eigenschaften der reduzierten Modellbeschreibung
erfolgt.
3. Anordnung nach Anspruch 1 oder 2, bei der im dynamischen Netz mit dynamischer
Programmierung durch die Wahl der Transferfunktion eine weitere Abstimmung der
Parameter der Dynamischen Programmierung auf die Eigenschaften der vereinfachten
Klassifikatormodelle erfolgt.
4. Anordnung nach einem der Ansprüche 1 bis 3, bei der die optimale Ausrichtung der
Transferfunktion an einem minimalen Klassifikationsfehler erfolgt.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1999115711 DE19915711C2 (de) | 1999-04-08 | 1999-04-08 | Verfahren zur Klassifikation von Merkmalsvektorfolgen |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1999115711 DE19915711C2 (de) | 1999-04-08 | 1999-04-08 | Verfahren zur Klassifikation von Merkmalsvektorfolgen |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19915711A1 true DE19915711A1 (de) | 2001-01-04 |
DE19915711C2 DE19915711C2 (de) | 2003-02-27 |
Family
ID=7903796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1999115711 Expired - Lifetime DE19915711C2 (de) | 1999-04-08 | 1999-04-08 | Verfahren zur Klassifikation von Merkmalsvektorfolgen |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE19915711C2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102009060011A1 (de) | 2009-12-21 | 2011-07-21 | Soft Control GmbH Automatisierungstechnik, 64291 | Verfahren zur Objektklassifikation mittels Höhenprofilauswertung |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03120598A (ja) * | 1989-10-03 | 1991-05-22 | Canon Inc | 音声認識方法及び装置 |
GB9103349D0 (en) * | 1991-02-18 | 1991-04-03 | King Reginald A | Artificial neural network systems |
-
1999
- 1999-04-08 DE DE1999115711 patent/DE19915711C2/de not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102009060011A1 (de) | 2009-12-21 | 2011-07-21 | Soft Control GmbH Automatisierungstechnik, 64291 | Verfahren zur Objektklassifikation mittels Höhenprofilauswertung |
Also Published As
Publication number | Publication date |
---|---|
DE19915711C2 (de) | 2003-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60111329T2 (de) | Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung | |
DE69827586T2 (de) | Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung | |
DE60305568T2 (de) | Schlüsselworterkennung in einem Sprachsignal | |
EP0987683B1 (de) | Spracherkennungsverfahren mit Konfidenzmassbewertung | |
DE69829187T2 (de) | Halbüberwachte Sprecheradaptation | |
DE69919842T2 (de) | Sprachmodell basierend auf der spracherkennungshistorie | |
DE10306022B3 (de) | Dreistufige Einzelworterkennung | |
WO1993006591A1 (de) | Verfahren zur erkennung von mustern in zeitvarianten messsignalen | |
DE102008017993A1 (de) | Sprachsuchvorrichtung | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
WO1999059135A2 (de) | Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner | |
WO2003017252A1 (de) | Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge | |
EP1199704A2 (de) | Auswahl der alternativen Wortfolgen für diskriminative Anpassung | |
DE19508711A1 (de) | Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind | |
DE69628603T2 (de) | System zur Musteranpassung mittels einer Baumstruktur | |
DE10047718A1 (de) | Verfahren zur Spracherkennung | |
EP2431969A1 (de) | Spracherkennung mit kleinem Rechenaufwand und reduziertem Quantisierungsfehler | |
DE19915711C2 (de) | Verfahren zur Klassifikation von Merkmalsvektorfolgen | |
EP0813734B1 (de) | Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird | |
EP1125278B1 (de) | Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte | |
EP0965088B1 (de) | Sichere identifikation mit vorauswahl und rückweisungsklasse | |
EP0877354B1 (de) | Verfahren zur Spracherkennung durch einen Rechner | |
DE60104284T2 (de) | Verfahren zur Adaption von Sprecheridentifikationsdaten unter Verwendung von im Betrieb gewonnener Sprache | |
DE60209706T2 (de) | Spracherkennungsverfahren | |
DE10308611A1 (de) | Ermittlung der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8127 | New person/name/address of the applicant |
Owner name: VOICE INTER CONNECT GMBH, 01067 DRESDEN, DE |
|
8110 | Request for examination paragraph 44 | ||
8304 | Grant after examination procedure | ||
8364 | No opposition during term of opposition | ||
R071 | Expiry of right |