DE19915711A1 - ASD-Klassifikator - Google Patents

ASD-Klassifikator

Info

Publication number
DE19915711A1
DE19915711A1 DE1999115711 DE19915711A DE19915711A1 DE 19915711 A1 DE19915711 A1 DE 19915711A1 DE 1999115711 DE1999115711 DE 1999115711 DE 19915711 A DE19915711 A DE 19915711A DE 19915711 A1 DE19915711 A1 DE 19915711A1
Authority
DE
Germany
Prior art keywords
network
dynamic
vectors
feature
associative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE1999115711
Other languages
English (en)
Other versions
DE19915711C2 (de
Inventor
Torsten Rudolph
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Voice Inter Connect 01067 Dresden De GmbH
Original Assignee
Technische Universitaet Dresden
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technische Universitaet Dresden filed Critical Technische Universitaet Dresden
Priority to DE1999115711 priority Critical patent/DE19915711C2/de
Publication of DE19915711A1 publication Critical patent/DE19915711A1/de
Application granted granted Critical
Publication of DE19915711C2 publication Critical patent/DE19915711C2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

Die Erfindung betrifft eine Anordnung zur robusten Folgenklassifikation mit geringem Auf­ wand, die insbesondere für die schnelle und zuverlässige Erkennung akustischer Wortrealisie­ rungen geeignet ist.
Die Entwicklung marktreifer Produkte auf dem Gebiet der automatischen Erkennung fließender Sprache hat in den letzten Jahren deutliche Fortschritte gemacht. Diktiersysteme sind als eine Art akustische Schreibmaschine für wenige hundert Mark zu haben und Auskünfte zum Fahrplan können über Telefon im Dialog mit der Maschine eingeholt werden.
Dagegen läßt sich feststellen, daß bis heute kaum Produkte bekannt sind, in denen eine einfache Spracherkennung zur Steuerung z. B. elektronischer Geräte verwendet wird, obwohl gerade in diesem Bereich eine Fülle von Anwendungen denkbar ist. Sinnvolle Anwendung sind beispielsweise der akustische Lichtschalter oder die akustische Fernbedienung für TV- oder Video-Geräte. In beiden Fällen ließe sich eine Sprachsteuerung mit Einzelworterkennern realisieren, die nur einen sehr begrenzten Wortschatz verstehen müssen.
Um den Einsatz der Spracherkennung in diesem Bereich unter ökonomischen Gesichtspunkten interessant zu machen, darf der Erkenner gemessen am Preis des gesamten Gerätes nur sehr wenig kosten. Geringe Kosten werden verursacht, wenn der Erkenner nur wenige der vorhandenen Geräteressourcen verbraucht. Er muß daher mit besonders effizienten Erkennungsalgorithmen arbeiten und darf nur wenig Datenspeicher verbrauchen. Der Erkennungsaufwand muß also gering sein, d. h. der Erkenner muß möglichst schnell und klein sein.
Sehr einfache und zeiteffizient arbeitende Erkennungsalgorithmen sind allgemein wenig leistungsfähig bezüglich der Sicherheit der Erkennung. Die zu erkennenden Wörter werden häufig mit anderen Wörtern des Erkennervokabulars verwechselt. Trotz der durch geringen Speicher- und Rechenzeitbedarf gegebenen prinzipiellen Realisierbarkeit des Erkenners bietet sich dann ein Einsatz nicht an, weil die Akzeptanz bei potentiellen Anwendern durch eine mangelnde Erkennungssicherheit deutlich herabgesetzt wird. Die Benutzung immer wieder falsch erkennender Systeme kann sogar eine erhebliche Frustration beim Umgang mit dem Gerät auslösen und zu der Meinung führen, daß die Spracherkennung eigentlich überflüssig ist.
Neben einer aufwandsparenden und kostengünstigen Realisierbarkeit steht also auch für den kleinen Erkenner zur Gerätesteuerung die Forderung, daß er zuverlässig erkennen muß.
Für die Worterkennung z. B. lassen sich beim derzeitigen Entwicklungsstand zwei Leistungs­ klassen von Erkennern feststellen. Ein Erkenner umfaßt im Sinne der Objekterkennung die zwei wesentlichen Bausteine Analysator und Klassifikator. Aspekte der Analyse von Objekten bleiben in den folgenden Ausführungen unberücksichtigt. Die Begriffe Klassifikator und Erkenner werden daher synonym verwendet. Die erste Klasse umfaßt einfache Erkenner, die mit statischem Mustervergleich oder mit einer dynamischen Klassifikation auf der Basis sehr einfacher statistischer Modelle arbeiten (DTW-Erkenner - Dynamic Time Warping) [SaC. 78] [Hol. 91]. Diese Erkenner sind in der Regel sehr schnell und der Modellierungsaufwand ist gering. Ihre Erkennungsrate liegt aber deutlich unterhalb der möglichen Grenzerkennungsrate. Die zweite Klasse umfaßt Erkenner mit sehr leistungsfähigen statistischen Klassifikatoren (HMM-Erkenner - Hidden Markov Model) [RaJ. 93] [Skt. 95]. Mit Erkennern dieser Kategorie kann die Grenzerkennungsrate zwar annähernd erreicht werden, der Erkennungsaufwand ist jedoch erheblich höher.
Für die Realisierung von autonomen Erkennerbausteinen in Systemen mit geringen Ressourcen kommen daher nur die Erkenner der ersten Leistungsklasse in Frage. Bisher muß bei diesen einfach strukturierten Erkennern allerdings mit einer indiskutablen Erkennungssicherheit gerechnet werden. Die zu hohe Fehlerrate aufwandsarmer Systeme ist der Hauptgrund dafür, daß ein Einsatz der Worterkennung in vielen potentiellen Kleinanwendungen bisher nicht realisiert wurde.
Die Aufgabe der Erfindung besteht darin, eine Anordnung anzugeben, mit der der eingangs skizzierten Antagonismus von Erkennungsaufwand und Erkennungssicherheit überwunden bzw. zumindest gemildert werden. Erfindungsgemäß wird diese Aufgabe durch eine Anordnung mit den Merkmalen des Patentanspruchs 1 gelöst.
Es wird eine als Assoziativ-Dynamischer Erkenner (ASD) bezeichnete Erkenner- bzw. Klassifikatorstruktur beschrieben, die sich in der Realisierung durch einen geringen Speicher- und Verarbeitungsaufwand auszeichnet und prinzipiell derart diskriminativ trainiert werden kann, daß auch bei phonetisch problematischen Wortschätzen annähernd die theoretische Grenzerkennungsrate erreicht wird.
Damit ist es grundsätzlich möglich, Erkenner zu realisieren, die auch auf einer einfachen Hardware als Echtzeiterkenner implementiert werden können, ohne daß Kompromisse bezüglich der Erkennungsrate eingegangen werden müssen.
Die Anordnung dient allgemein zur schnellen und robusten Klassifikation unbekannter Objekte - z. B. akustischer Wortrealisierungen - die durch eine Folge zeitlich veränderlicher Merkmals­ vektoren repräsentiert sind.
Ziel der Anordnung ist es, ein durch die Folge von Vektoren beschriebenes Objektmuster einer definierten Klasse aus dem Klasseninventar des Erkenners zuzuordnen.
Die Anordnung besitzt die in Abb. 1 angegebene Struktur. In zeitlicher Abfolge werden an den Eingang der Schaltung die Merkmalsvektoren des zu klassifizierenden Objekts gegeben. Der Klassifikator berechnet dabei in jedem Zeitschritt für jede Klasse eine Bewertung dafür, wie ähnlich die bis dahin gesehenen Folge von Eingabevektoren zu den Klassenmodellen ist. Diese Bewertung kann in jedem Zeitschritt am Ausgang entnommen werden. Nach Eintreffen des letzten, das Objekt beschreibenden Merkmalsvektors kann als Klassifikationsergebnis die Klasse ausgegeben werden, für die die Bewertung am Ausgang der Schaltung am besten ist.
Alle Klassenmodelle werden als Zustandsmodelle verstanden. Entsprechend der Zielsetzung, den Klassifikationsaufwand gegenüber bekannten Anordnungen zur Folgenklassifikation drastisch zu senken, wird - im Gegensatz zum Dynamic Time Warping (DTW) - die Modell­ struktur des Klassifikators reduziert, indem die Zustandsanzahl der Klassenmodelle deutlich geringer gewählt wird, als die Anzahl der die Realisierungen einer Klasse im Mittel beschreibenden Merkmalsvektorenfolgen. Im Gegensatz zu HMM-Erkennern (Hidden Markov Model), die ebenfalls mit verkürzten Zustandsmodellen arbeiten, wird jeder Modellzustand durch nur einen einzigen Referenz- bzw. Schwerpunktvektor repräsentiert. Es handelt sich dann um nicht varianzbehaftete, normalisierte Referenzmodelle.
Ein Vergleich von Vektoren kann damit sehr zeiteffizient durch einfache Abstandsberechnung mit wenigen Prototypen sehr Zeit- und speicherplatzsparend erfolgen.
Die notwendige Normalisierung der statistischen Variabilität einzelner Klassenrealisierungen wird in der im Eingangsteil der Anordnung befindlichen diskriminativen Merkmalsextraktions­ stufe vorgenommen.
Den Eingangsteil der Schaltung bildet eine diskriminative Merkmalstransformation. Die Merkmalstransformation arbeitet als assoziatives neuronales Netz. Die Transformation des primären Merkmalsvektors x in den sekundären Merkmalsvektor y wird dabei so ausgeführt, daß neben einer Merkmalsreduktion - im Gegensatz zu bekannten Anordnungen zur Folgen­ klassifikation - vor allem eine Anpassung der statistischen Parameter des Merkmalssatzes auf die Eigenschaften der reduzierten Modellbeschreibung erfolgt. Dadurch ist eine Vereinfachung des Mustervergleichs möglich, ohne daß diskriminative, für die Klassenunterscheidung relevante Information verloren geht.
Jede der in Abb. 1 gezeigten Knoten-Transferfunktionen kann dabei allgemein eine lineare oder nichtlineare Funktion der Merkmalswerte in x sein.
Im mittleren Teil der Schaltung werden die am Ausgang des Assoziativen Netzes liegenden und in ihrer Dimensionalität reduzierten sekundären Merkmalsvektoren durch ein Distanznetzwerk auf die als Modellzustände fungierenden Referenz- bzw. Schwerpunktvektoren abgebildet. Die einzelnen Gewichte wjk entsprechen darin genau den Komponentenspezifischen Werten der Schwerpunktvektoren mjk.
Wird durch das Distanznetzwerk der quadratische Euklidische Abstand zwischen einem Vektor y(t) und den Referenzvektoren berechnet, so können die Elemente dk(t) des Distanzvektors d(t) am Ausgang des Distanznetzwerks einen groben Schätzwert dafür liefern, mit welcher Wahrscheinlichkeit der Merkmalsvektor y(t) durch jeden der Zustände zk repräsentiert wird. Allgemein stehen kleinere Werte von dk(t) für eine höhere Ähnlichkeit zwischen y(t) und einem Zustand zk.
Die Vektoren wk können als Zeilenvektoren zu einer die Abstandberechnung charakterisieren­ den Schwerpunktmatrix W zusammengefaßt werden.
Die Aggregation der vektorbezogenen Modellbewertungen zu den für die Klassifikationsent­ scheidung relevanten Klassenbewertung wird in einer den Ausgangsteil der Schaltung bildenden und mit Dynamischer Programmierung (DP) arbeitenden Verarbeitungsstufe vorgenommen. Im Gegensatz zu den in konventionellen HMM- und DTW-Erkennern üblichen DP-Stufen kann hier durch Wahl der in Abb. 1 gezeigten Transferfunktion nochmals eine Abstimmung der Parameter der DP auf die Eigenschaften der vereinfachten Klassifikatormodelle erfolgen.
Wird die Größe Nm der Modelle λm deutlich kleiner gewählt als die minimal zu erwartende Länge T der zu klassifizierenden unbekannten Testmuster x, so kann für den dynamischen Mustervergleich ein reduzierter DP-Algorithmus zur Anwendung kommen. Ausgehend vom Startzeitpunkt t = 1 wird dabei für jeden Zeitpunkt t der Globalbewertungsvektor g(t) = (gl, . . ., gk)T durch die DP-Rekursionsgleichung
berechnet.
Im rechten Teil von Abb. 1 ist die DP-Rekursion des ASD-Erkenners als Netzwerkstruktur dargestellt.
Für die Realisierung der reduzierten DP-Variante wird neben den bereits im assoziativen und im Distanznetzwerk verwendeten Operatoren für Transferfunktion und Distanzberechnung nur ein zusätzliches Verzögerungselement als Knotenoperator benötigt, falls als allgemeiner Distanzoperator die Minkowski-Distanz verwendet wird. Die Minimum-Operation in der Rekursionsgleichung kann dann durch den gleichen Distanzoperator dargestellt werden, da die Minkowski-Distanz für den Exponenten r = 0 genau in einen Minimumoperator übergeht, während sie z. B. für r = 1 den Cityblock-Abstand berechnet.
Die Addition in der Rekursion wird wieder durch den allgemeinen Transfer-Operator realisiert, der hier im Standardfall als gewichtete Summe berechnet wird. Es werden dann alle Gewichte für die im DP-Graphen vorhandenen Übergänge zu eins gesetzt, während alle anderen Gewichte mit null belegt werden.
Die beste Performance der Schaltung wird durch eine am minimalen Klassifikationsfehler orientierten optimalen Ausrichtung der Transferfunktionen, sowie der Wichtungsfaktoren und Schwerpunktvektoren erreicht.
Als Beispiel für die Anwendung der vorgestellten Anordnung soll ihr Einsatz zur schnellen Erkennung von Einzelwörtern beschrieben werden.
Angenommen wird, daß die Sprachanalyse im Abstand von 10 ms κ-dimensionale Merkmals­ vektoren x liefert, die an den Eingang des ASD-Klassifikators gegeben werden. Für eine Bark-Filter-Analyse ist κ typischerweise 16 . . . 20.
Sollen die Ziffern, sowie zusätzlich die Wörter ja und nein erkannt werden ist die Anzahl der Objekt- bzw. Wortklassen des Erkenners W = 12.
Zur Konstruktion eines einfachen ASD-Wortklassifikators wird die Merkmalsextraktion durch Verknüpfung der Selektionsstufe mit einer linearen Transformation realisiert, und durch die Beziehung
beschrieben. Diese Operation kann durch ein lineares assoziatives Netzwerk dargestellt werden. Die Werte νij aus sind dann die Gewichte des Netzes. An den Knoten der Eingangsschicht des Netzes werden die Werte χi angelegt, während die Werte yj an den Knoten der Ausgabeschicht des Netzes erscheinen.
Für die Erregung der Eingangsknoten oder Eingangsneuronen des assoziativen Netzes wird hier das Skalarprodukt gebildet und die Aktivierungsfunktion für den Knoten j wird mit oj = yj als lineare Funktion angesetzt.
Analog zu einer Merkmalsextraktion werden alle Analysevektoren x(t) mit der Dimension κ durch das assoziative Netzwerk in Vektoren y(t) mit der Dimension ny (ny < κ) abgebildet. Mit der Assoziativmatrix V, die sich aus den Zeilenvektoren vj = (vlj, . . ., vκ j) (j = 1 . . . ny) zusammensetzt, wird allgemein eine nicht näher spezifizierte, möglicherweise auch singuläre, im speziellen Fall hier lineare Abbildung definiert. Die Belegung der Gewichte erfolgt mit den Elementen der Eigenvektoren aus einer Hauptkomponentenanalyse, Linearen Diskriminanzanalyse usw., oder besser noch nach dem Kriterium der minimalen Fehlerrate klassifikatorglobal optimiert.
Der ASD-Wortklassifikator besitzt für jede Wortklasse ψm (l ≦ m ≦ W) ein Modell λm in Form eines linearen gestreckten Zustandsgraphen. Jedes Modell λm umfaßt Nm Zustände zmn (l ≦ n ≦ Nm). Alle Modellgraphen werden zu einem Erkennermodell Λ mit insgesamt
Zuständen zk (l ≦ k ≦ N) zusammengefaßt. Jeder Zustand zk beschreibt die Verteilung der sekundären Vektoren y(t), die in diesem Zustand beobachtet werden können.
Da im ASD-Klassifikator prinzipiell der einfachste Fall einer groben Dichtemodellierung angenommen, wird jeder Zustand zk lediglich durch den Mittelwertvektor oder einen ähnlich definierten Schwerpunkt mk dieser Verteilung repräsentiert (siehe oben). Jeder Schwerpunkt­ vektor kann im Falle des ASD-Worterklassifikators als kompakte, normierte Modellbeschrei­ bung eines kürzeren Abschnittes im Wortsignal - etwa im Zeithorizont der mittleren Dauer eines Phonemes - betrachtet werden.
Im Anschluß an die Abbildung durch das assoziative Netz erfolgt die Bewertung der Ähnlichkeit eines sekundären Vektors y(t) zu einem der Zustände zk. Dabei wird der Abstand zwischen y(t) und jedem der Schwerpunkte mk berechnet. Durch diesen Vorgang wird jeder Vektor y(t) in einen Distanzvektor d(t) überführt.
Die mit dem Distanznetzwerk realisierte Abbildung wird im ASD-Wortklassifikator durch die Ermittlung des sehr einfach zu berechnende Cityblock-Distanz
realisiert.
Durch das Distanznetzwerk des ASD-Wortklassifikators erfolgt zu jedem Zeitpunkt t die stationäre Abbildung eines primären Merkmalsvektors x(t) in einen Cityblock-Distanzvektor d(t). Zur Klassifikation eines vollständigen Wortmusters x mit veränderlicher und a-priori unbekannter Länge schließt die klassenweise Aggregation der Distanzwerte durch Dynamische Programmierung.
Für jede der m Wortklassen liegt zu jedem Zeitpunkt an den Ausgängen Gm(t) eine Bewertung vor, die die Ähnlichkeit der bis zum Zeitpunkt t beobachteten Folge von Merkmalsvektoren zu den in λm beschriebenen Modell der Klasse m quantifiziert.
Am Ende des Mustervergleichs wird bei t = T für jedes Modell λm die globale Bewertung Gm(t) im letzten Knoten des Modells ausgegeben.
Am Ende des Mustervergleichs wird bei t = T für jedes Modell λm die globale Bewertung Gm(t) im letzten Knoten des Modells ausgegeben.
Der Anwendungsbereich des ASD-Klassifikators erstreckt sich allgemein auf das gesamte Gebiet der Folgenklassifikation und ist nicht auf die Klassifikation akustischer Muster be­ schränkt.
[Hol. 91] Holmes, J. N.: Sprachsynthese und Spracherkennung. - München: R. Oldenbourg Verlag, 1991.
[RaJ. 93] Rabiner, L.; Juang, B.-H.: Fundamentals of Speech Recognition. - Englewood Cliffs Prentice Hall, 1993.
[SaC. 78] Sakoe, H.; Chiba, S.: A Dynamic Programming Algorithm for Spoken Word Recognition. - In IEEE Trans. on Acoustics Speech and Signal Processing, vol. ASSP-26, pp. 43-49, Feb. 1978.
[Skt. 95] Schukat-Talamazzini, E. G.: Automatische Spracherkennung. - Braunschweig, Wiesbaden: Vieweg Verlag, 1995.

Claims (4)

1. Anordnung zur robusten Folgenklassifikation, insbesondere für die schnelle und zuverlässige Erkennung akustischer Wortrealisierungen, bestehend aus einem assoziativen Netz und einem dynamischen Netz, wobei für das assoziative Netz eine Anzahl von primären Merkmalsvektoren (x) vorgesehen sind, die mit einer geringeren Anzahl von sekundären Merkmalsvektoren (y) zur Transformation und Merkmalsreduktion verbunden sind, die se­ kundären Merkmalsvektoren (y) zur Referenz- und Schwerpunktbildung mit einer Anzahl von Distanzvektoren (d) verbunden sind, und den Distanzvektoren (d) als dynamisches Netz eine mit Dynamischer Programmierung arbeitende Verarbeitungsstufe nachgeordnet ist.
2. Anordnung nach Anspruch 1, bei der das assoziative Netz ein neuronales Netz ist und die Transformation des primären Merkmalsvektors (x) in den sekundären Merkmalsvektor (y) so ausgeführt wird, daß neben der Merkmalsreduktion eine Anpassung der statistischen Parameter des Merkmalssatzes auf die Eigenschaften der reduzierten Modellbeschreibung erfolgt.
3. Anordnung nach Anspruch 1 oder 2, bei der im dynamischen Netz mit dynamischer Programmierung durch die Wahl der Transferfunktion eine weitere Abstimmung der Parameter der Dynamischen Programmierung auf die Eigenschaften der vereinfachten Klassifikatormodelle erfolgt.
4. Anordnung nach einem der Ansprüche 1 bis 3, bei der die optimale Ausrichtung der Transferfunktion an einem minimalen Klassifikationsfehler erfolgt.
DE1999115711 1999-04-08 1999-04-08 Verfahren zur Klassifikation von Merkmalsvektorfolgen Expired - Lifetime DE19915711C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1999115711 DE19915711C2 (de) 1999-04-08 1999-04-08 Verfahren zur Klassifikation von Merkmalsvektorfolgen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1999115711 DE19915711C2 (de) 1999-04-08 1999-04-08 Verfahren zur Klassifikation von Merkmalsvektorfolgen

Publications (2)

Publication Number Publication Date
DE19915711A1 true DE19915711A1 (de) 2001-01-04
DE19915711C2 DE19915711C2 (de) 2003-02-27

Family

ID=7903796

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1999115711 Expired - Lifetime DE19915711C2 (de) 1999-04-08 1999-04-08 Verfahren zur Klassifikation von Merkmalsvektorfolgen

Country Status (1)

Country Link
DE (1) DE19915711C2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102009060011A1 (de) 2009-12-21 2011-07-21 Soft Control GmbH Automatisierungstechnik, 64291 Verfahren zur Objektklassifikation mittels Höhenprofilauswertung

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03120598A (ja) * 1989-10-03 1991-05-22 Canon Inc 音声認識方法及び装置
GB9103349D0 (en) * 1991-02-18 1991-04-03 King Reginald A Artificial neural network systems

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102009060011A1 (de) 2009-12-21 2011-07-21 Soft Control GmbH Automatisierungstechnik, 64291 Verfahren zur Objektklassifikation mittels Höhenprofilauswertung

Also Published As

Publication number Publication date
DE19915711C2 (de) 2003-02-27

Similar Documents

Publication Publication Date Title
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
EP0987683B1 (de) Spracherkennungsverfahren mit Konfidenzmassbewertung
DE69829187T2 (de) Halbüberwachte Sprecheradaptation
DE69919842T2 (de) Sprachmodell basierend auf der spracherkennungshistorie
DE10306022B3 (de) Dreistufige Einzelworterkennung
WO1993006591A1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE102008017993A1 (de) Sprachsuchvorrichtung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
WO1999059135A2 (de) Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
WO2003017252A1 (de) Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge
EP1199704A2 (de) Auswahl der alternativen Wortfolgen für diskriminative Anpassung
DE19508711A1 (de) Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind
DE69628603T2 (de) System zur Musteranpassung mittels einer Baumstruktur
DE10047718A1 (de) Verfahren zur Spracherkennung
EP2431969A1 (de) Spracherkennung mit kleinem Rechenaufwand und reduziertem Quantisierungsfehler
DE19915711C2 (de) Verfahren zur Klassifikation von Merkmalsvektorfolgen
EP0813734B1 (de) Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird
EP1125278B1 (de) Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte
EP0965088B1 (de) Sichere identifikation mit vorauswahl und rückweisungsklasse
EP0877354B1 (de) Verfahren zur Spracherkennung durch einen Rechner
DE60104284T2 (de) Verfahren zur Adaption von Sprecheridentifikationsdaten unter Verwendung von im Betrieb gewonnener Sprache
DE60209706T2 (de) Spracherkennungsverfahren
DE10308611A1 (de) Ermittlung der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung

Legal Events

Date Code Title Description
8127 New person/name/address of the applicant

Owner name: VOICE INTER CONNECT GMBH, 01067 DRESDEN, DE

8110 Request for examination paragraph 44
8304 Grant after examination procedure
8364 No opposition during term of opposition
R071 Expiry of right