DE19915711A1

DE19915711A1 - ASD-Klassifikator

Info

Publication number: DE19915711A1
Application number: DE1999115711
Authority: DE
Inventors: Torsten Rudolph
Original assignee: Technische Universitaet Dresden
Current assignee: Voice Inter Connect 01067 Dresden De GmbH
Priority date: 1999-04-08
Filing date: 1999-04-08
Publication date: 2001-01-04
Anticipated expiration: 2019-04-09
Also published as: DE19915711C2

Description

Die Erfindung betrifft eine Anordnung zur robusten Folgenklassifikation mit geringem Auf wand, die insbesondere für die schnelle und zuverlässige Erkennung akustischer Wortrealisie rungen geeignet ist.

Die Entwicklung marktreifer Produkte auf dem Gebiet der automatischen Erkennung fließender Sprache hat in den letzten Jahren deutliche Fortschritte gemacht. Diktiersysteme sind als eine Art akustische Schreibmaschine für wenige hundert Mark zu haben und Auskünfte zum Fahrplan können über Telefon im Dialog mit der Maschine eingeholt werden.

Dagegen läßt sich feststellen, daß bis heute kaum Produkte bekannt sind, in denen eine einfache Spracherkennung zur Steuerung z. B. elektronischer Geräte verwendet wird, obwohl gerade in diesem Bereich eine Fülle von Anwendungen denkbar ist. Sinnvolle Anwendung sind beispielsweise der akustische Lichtschalter oder die akustische Fernbedienung für TV- oder Video-Geräte. In beiden Fällen ließe sich eine Sprachsteuerung mit Einzelworterkennern realisieren, die nur einen sehr begrenzten Wortschatz verstehen müssen.

Um den Einsatz der Spracherkennung in diesem Bereich unter ökonomischen Gesichtspunkten interessant zu machen, darf der Erkenner gemessen am Preis des gesamten Gerätes nur sehr wenig kosten. Geringe Kosten werden verursacht, wenn der Erkenner nur wenige der vorhandenen Geräteressourcen verbraucht. Er muß daher mit besonders effizienten Erkennungsalgorithmen arbeiten und darf nur wenig Datenspeicher verbrauchen. Der Erkennungsaufwand muß also gering sein, d. h. der Erkenner muß möglichst schnell und klein sein.

Sehr einfache und zeiteffizient arbeitende Erkennungsalgorithmen sind allgemein wenig leistungsfähig bezüglich der Sicherheit der Erkennung. Die zu erkennenden Wörter werden häufig mit anderen Wörtern des Erkennervokabulars verwechselt. Trotz der durch geringen Speicher- und Rechenzeitbedarf gegebenen prinzipiellen Realisierbarkeit des Erkenners bietet sich dann ein Einsatz nicht an, weil die Akzeptanz bei potentiellen Anwendern durch eine mangelnde Erkennungssicherheit deutlich herabgesetzt wird. Die Benutzung immer wieder falsch erkennender Systeme kann sogar eine erhebliche Frustration beim Umgang mit dem Gerät auslösen und zu der Meinung führen, daß die Spracherkennung eigentlich überflüssig ist.

Neben einer aufwandsparenden und kostengünstigen Realisierbarkeit steht also auch für den kleinen Erkenner zur Gerätesteuerung die Forderung, daß er zuverlässig erkennen muß.

Für die Worterkennung z. B. lassen sich beim derzeitigen Entwicklungsstand zwei Leistungs klassen von Erkennern feststellen. Ein Erkenner umfaßt im Sinne der Objekterkennung die zwei wesentlichen Bausteine Analysator und Klassifikator. Aspekte der Analyse von Objekten bleiben in den folgenden Ausführungen unberücksichtigt. Die Begriffe Klassifikator und Erkenner werden daher synonym verwendet. Die erste Klasse umfaßt einfache Erkenner, die mit statischem Mustervergleich oder mit einer dynamischen Klassifikation auf der Basis sehr einfacher statistischer Modelle arbeiten (DTW-Erkenner - Dynamic Time Warping) [SaC. 78] [Hol. 91]. Diese Erkenner sind in der Regel sehr schnell und der Modellierungsaufwand ist gering. Ihre Erkennungsrate liegt aber deutlich unterhalb der möglichen Grenzerkennungsrate. Die zweite Klasse umfaßt Erkenner mit sehr leistungsfähigen statistischen Klassifikatoren (HMM-Erkenner - Hidden Markov Model) [RaJ. 93] [Skt. 95]. Mit Erkennern dieser Kategorie kann die Grenzerkennungsrate zwar annähernd erreicht werden, der Erkennungsaufwand ist jedoch erheblich höher.

Für die Realisierung von autonomen Erkennerbausteinen in Systemen mit geringen Ressourcen kommen daher nur die Erkenner der ersten Leistungsklasse in Frage. Bisher muß bei diesen einfach strukturierten Erkennern allerdings mit einer indiskutablen Erkennungssicherheit gerechnet werden. Die zu hohe Fehlerrate aufwandsarmer Systeme ist der Hauptgrund dafür, daß ein Einsatz der Worterkennung in vielen potentiellen Kleinanwendungen bisher nicht realisiert wurde.

Die Aufgabe der Erfindung besteht darin, eine Anordnung anzugeben, mit der der eingangs skizzierten Antagonismus von Erkennungsaufwand und Erkennungssicherheit überwunden bzw. zumindest gemildert werden. Erfindungsgemäß wird diese Aufgabe durch eine Anordnung mit den Merkmalen des Patentanspruchs 1 gelöst.

Es wird eine als Assoziativ-Dynamischer Erkenner (ASD) bezeichnete Erkenner- bzw. Klassifikatorstruktur beschrieben, die sich in der Realisierung durch einen geringen Speicher- und Verarbeitungsaufwand auszeichnet und prinzipiell derart diskriminativ trainiert werden kann, daß auch bei phonetisch problematischen Wortschätzen annähernd die theoretische Grenzerkennungsrate erreicht wird.

Damit ist es grundsätzlich möglich, Erkenner zu realisieren, die auch auf einer einfachen Hardware als Echtzeiterkenner implementiert werden können, ohne daß Kompromisse bezüglich der Erkennungsrate eingegangen werden müssen.

Die Anordnung dient allgemein zur schnellen und robusten Klassifikation unbekannter Objekte - z. B. akustischer Wortrealisierungen - die durch eine Folge zeitlich veränderlicher Merkmals vektoren repräsentiert sind.

Ziel der Anordnung ist es, ein durch die Folge von Vektoren beschriebenes Objektmuster einer definierten Klasse aus dem Klasseninventar des Erkenners zuzuordnen.

Die Anordnung besitzt die in Abb. 1 angegebene Struktur. In zeitlicher Abfolge werden an den Eingang der Schaltung die Merkmalsvektoren des zu klassifizierenden Objekts gegeben. Der Klassifikator berechnet dabei in jedem Zeitschritt für jede Klasse eine Bewertung dafür, wie ähnlich die bis dahin gesehenen Folge von Eingabevektoren zu den Klassenmodellen ist. Diese Bewertung kann in jedem Zeitschritt am Ausgang entnommen werden. Nach Eintreffen des letzten, das Objekt beschreibenden Merkmalsvektors kann als Klassifikationsergebnis die Klasse ausgegeben werden, für die die Bewertung am Ausgang der Schaltung am besten ist.

Alle Klassenmodelle werden als Zustandsmodelle verstanden. Entsprechend der Zielsetzung, den Klassifikationsaufwand gegenüber bekannten Anordnungen zur Folgenklassifikation drastisch zu senken, wird - im Gegensatz zum Dynamic Time Warping (DTW) - die Modell struktur des Klassifikators reduziert, indem die Zustandsanzahl der Klassenmodelle deutlich geringer gewählt wird, als die Anzahl der die Realisierungen einer Klasse im Mittel beschreibenden Merkmalsvektorenfolgen. Im Gegensatz zu HMM-Erkennern (Hidden Markov Model), die ebenfalls mit verkürzten Zustandsmodellen arbeiten, wird jeder Modellzustand durch nur einen einzigen Referenz- bzw. Schwerpunktvektor repräsentiert. Es handelt sich dann um nicht varianzbehaftete, normalisierte Referenzmodelle.

Ein Vergleich von Vektoren kann damit sehr zeiteffizient durch einfache Abstandsberechnung mit wenigen Prototypen sehr Zeit- und speicherplatzsparend erfolgen.

Die notwendige Normalisierung der statistischen Variabilität einzelner Klassenrealisierungen wird in der im Eingangsteil der Anordnung befindlichen diskriminativen Merkmalsextraktions stufe vorgenommen.

Den Eingangsteil der Schaltung bildet eine diskriminative Merkmalstransformation. Die Merkmalstransformation arbeitet als assoziatives neuronales Netz. Die Transformation des primären Merkmalsvektors x in den sekundären Merkmalsvektor y wird dabei so ausgeführt, daß neben einer Merkmalsreduktion - im Gegensatz zu bekannten Anordnungen zur Folgen klassifikation - vor allem eine Anpassung der statistischen Parameter des Merkmalssatzes auf die Eigenschaften der reduzierten Modellbeschreibung erfolgt. Dadurch ist eine Vereinfachung des Mustervergleichs möglich, ohne daß diskriminative, für die Klassenunterscheidung relevante Information verloren geht.

Jede der in Abb. 1 gezeigten Knoten-Transferfunktionen kann dabei allgemein eine lineare oder nichtlineare Funktion der Merkmalswerte in x sein.

Im mittleren Teil der Schaltung werden die am Ausgang des Assoziativen Netzes liegenden und in ihrer Dimensionalität reduzierten sekundären Merkmalsvektoren durch ein Distanznetzwerk auf die als Modellzustände fungierenden Referenz- bzw. Schwerpunktvektoren abgebildet. Die einzelnen Gewichte w_jk entsprechen darin genau den Komponentenspezifischen Werten der Schwerpunktvektoren m_jk.

Wird durch das Distanznetzwerk der quadratische Euklidische Abstand zwischen einem Vektor y(t) und den Referenzvektoren berechnet, so können die Elemente d_k(t) des Distanzvektors d(t) am Ausgang des Distanznetzwerks einen groben Schätzwert dafür liefern, mit welcher Wahrscheinlichkeit der Merkmalsvektor y(t) durch jeden der Zustände z_k repräsentiert wird. Allgemein stehen kleinere Werte von d_k(t) für eine höhere Ähnlichkeit zwischen y(t) und einem Zustand z_k.

Die Vektoren w_k können als Zeilenvektoren zu einer die Abstandberechnung charakterisieren den Schwerpunktmatrix W zusammengefaßt werden.

Die Aggregation der vektorbezogenen Modellbewertungen zu den für die Klassifikationsent scheidung relevanten Klassenbewertung wird in einer den Ausgangsteil der Schaltung bildenden und mit Dynamischer Programmierung (DP) arbeitenden Verarbeitungsstufe vorgenommen. Im Gegensatz zu den in konventionellen HMM- und DTW-Erkennern üblichen DP-Stufen kann hier durch Wahl der in Abb. 1 gezeigten Transferfunktion nochmals eine Abstimmung der Parameter der DP auf die Eigenschaften der vereinfachten Klassifikatormodelle erfolgen.

Wird die Größe N_m der Modelle λ_m deutlich kleiner gewählt als die minimal zu erwartende Länge T der zu klassifizierenden unbekannten Testmuster x, so kann für den dynamischen Mustervergleich ein reduzierter DP-Algorithmus zur Anwendung kommen. Ausgehend vom Startzeitpunkt t = 1 wird dabei für jeden Zeitpunkt t der Globalbewertungsvektor g(t) = (g_l, . . ., g_k)^T durch die DP-Rekursionsgleichung

berechnet.

Im rechten Teil von Abb. 1 ist die DP-Rekursion des ASD-Erkenners als Netzwerkstruktur dargestellt.

Für die Realisierung der reduzierten DP-Variante wird neben den bereits im assoziativen und im Distanznetzwerk verwendeten Operatoren für Transferfunktion und Distanzberechnung nur ein zusätzliches Verzögerungselement als Knotenoperator benötigt, falls als allgemeiner Distanzoperator die Minkowski-Distanz verwendet wird. Die Minimum-Operation in der Rekursionsgleichung kann dann durch den gleichen Distanzoperator dargestellt werden, da die Minkowski-Distanz für den Exponenten r = 0 genau in einen Minimumoperator übergeht, während sie z. B. für r = 1 den Cityblock-Abstand berechnet.

Die Addition in der Rekursion wird wieder durch den allgemeinen Transfer-Operator realisiert, der hier im Standardfall als gewichtete Summe berechnet wird. Es werden dann alle Gewichte für die im DP-Graphen vorhandenen Übergänge zu eins gesetzt, während alle anderen Gewichte mit null belegt werden.

Die beste Performance der Schaltung wird durch eine am minimalen Klassifikationsfehler orientierten optimalen Ausrichtung der Transferfunktionen, sowie der Wichtungsfaktoren und Schwerpunktvektoren erreicht.

Als Beispiel für die Anwendung der vorgestellten Anordnung soll ihr Einsatz zur schnellen Erkennung von Einzelwörtern beschrieben werden.

Angenommen wird, daß die Sprachanalyse im Abstand von 10 ms κ-dimensionale Merkmals vektoren x liefert, die an den Eingang des ASD-Klassifikators gegeben werden. Für eine Bark-Filter-Analyse ist κ typischerweise 16 . . . 20.

Sollen die Ziffern, sowie zusätzlich die Wörter ja und nein erkannt werden ist die Anzahl der Objekt- bzw. Wortklassen des Erkenners W = 12.

Zur Konstruktion eines einfachen ASD-Wortklassifikators wird die Merkmalsextraktion durch Verknüpfung der Selektionsstufe mit einer linearen Transformation realisiert, und durch die Beziehung

beschrieben. Diese Operation kann durch ein lineares assoziatives Netzwerk dargestellt werden. Die Werte ν_ij aus sind dann die Gewichte des Netzes. An den Knoten der Eingangsschicht des Netzes werden die Werte χ_i angelegt, während die Werte y_j an den Knoten der Ausgabeschicht des Netzes erscheinen.

Für die Erregung der Eingangsknoten oder Eingangsneuronen des assoziativen Netzes wird hier das Skalarprodukt gebildet und die Aktivierungsfunktion für den Knoten j wird mit o_j = y_j als lineare Funktion angesetzt.

Analog zu einer Merkmalsextraktion werden alle Analysevektoren x(t) mit der Dimension κ durch das assoziative Netzwerk in Vektoren y(t) mit der Dimension ny (ny < κ) abgebildet. Mit der Assoziativmatrix V, die sich aus den Zeilenvektoren v_j = (v_lj, . . ., v_κ _j) (j = 1 . . . ny) zusammensetzt, wird allgemein eine nicht näher spezifizierte, möglicherweise auch singuläre, im speziellen Fall hier lineare Abbildung definiert. Die Belegung der Gewichte erfolgt mit den Elementen der Eigenvektoren aus einer Hauptkomponentenanalyse, Linearen Diskriminanzanalyse usw., oder besser noch nach dem Kriterium der minimalen Fehlerrate klassifikatorglobal optimiert.

Der ASD-Wortklassifikator besitzt für jede Wortklasse ψ_m (l ≦ m ≦ W) ein Modell λ_m in Form eines linearen gestreckten Zustandsgraphen. Jedes Modell λ_m umfaßt N_m Zustände z_mn (l ≦ n ≦ N_m). Alle Modellgraphen werden zu einem Erkennermodell Λ mit insgesamt

Zuständen z_k (l ≦ k ≦ N) zusammengefaßt. Jeder Zustand z_k beschreibt die Verteilung der sekundären Vektoren y(t), die in diesem Zustand beobachtet werden können.

Da im ASD-Klassifikator prinzipiell der einfachste Fall einer groben Dichtemodellierung angenommen, wird jeder Zustand z_k lediglich durch den Mittelwertvektor oder einen ähnlich definierten Schwerpunkt m_k dieser Verteilung repräsentiert (siehe oben). Jeder Schwerpunkt vektor kann im Falle des ASD-Worterklassifikators als kompakte, normierte Modellbeschrei bung eines kürzeren Abschnittes im Wortsignal - etwa im Zeithorizont der mittleren Dauer eines Phonemes - betrachtet werden.

Im Anschluß an die Abbildung durch das assoziative Netz erfolgt die Bewertung der Ähnlichkeit eines sekundären Vektors y(t) zu einem der Zustände z_k. Dabei wird der Abstand zwischen y(t) und jedem der Schwerpunkte m_k berechnet. Durch diesen Vorgang wird jeder Vektor y(t) in einen Distanzvektor d(t) überführt.

Die mit dem Distanznetzwerk realisierte Abbildung wird im ASD-Wortklassifikator durch die Ermittlung des sehr einfach zu berechnende Cityblock-Distanz

realisiert.

Durch das Distanznetzwerk des ASD-Wortklassifikators erfolgt zu jedem Zeitpunkt t die stationäre Abbildung eines primären Merkmalsvektors x(t) in einen Cityblock-Distanzvektor d(t). Zur Klassifikation eines vollständigen Wortmusters x mit veränderlicher und a-priori unbekannter Länge schließt die klassenweise Aggregation der Distanzwerte durch Dynamische Programmierung.

Für jede der m Wortklassen liegt zu jedem Zeitpunkt an den Ausgängen G_m(t) eine Bewertung vor, die die Ähnlichkeit der bis zum Zeitpunkt t beobachteten Folge von Merkmalsvektoren zu den in λ_m beschriebenen Modell der Klasse m quantifiziert.

Am Ende des Mustervergleichs wird bei t = T für jedes Modell λ_m die globale Bewertung G_m(t) im letzten Knoten des Modells ausgegeben.

Der Anwendungsbereich des ASD-Klassifikators erstreckt sich allgemein auf das gesamte Gebiet der Folgenklassifikation und ist nicht auf die Klassifikation akustischer Muster be schränkt.
[Hol. 91] Holmes, J. N.: Sprachsynthese und Spracherkennung. - München: R. Oldenbourg Verlag, 1991.
[RaJ. 93] Rabiner, L.; Juang, B.-H.: Fundamentals of Speech Recognition. - Englewood Cliffs Prentice Hall, 1993.
[SaC. 78] Sakoe, H.; Chiba, S.: A Dynamic Programming Algorithm for Spoken Word Recognition. - In IEEE Trans. on Acoustics Speech and Signal Processing, vol. ASSP-26, pp. 43-49, Feb. 1978.
[Skt. 95] Schukat-Talamazzini, E. G.: Automatische Spracherkennung. - Braunschweig, Wiesbaden: Vieweg Verlag, 1995.

Claims

1. Anordnung zur robusten Folgenklassifikation, insbesondere für die schnelle und zuverlässige Erkennung akustischer Wortrealisierungen, bestehend aus einem assoziativen Netz und einem dynamischen Netz, wobei für das assoziative Netz eine Anzahl von primären Merkmalsvektoren (x) vorgesehen sind, die mit einer geringeren Anzahl von sekundären Merkmalsvektoren (y) zur Transformation und Merkmalsreduktion verbunden sind, die se kundären Merkmalsvektoren (y) zur Referenz- und Schwerpunktbildung mit einer Anzahl von Distanzvektoren (d) verbunden sind, und den Distanzvektoren (d) als dynamisches Netz eine mit Dynamischer Programmierung arbeitende Verarbeitungsstufe nachgeordnet ist.

2. Anordnung nach Anspruch 1, bei der das assoziative Netz ein neuronales Netz ist und die Transformation des primären Merkmalsvektors (x) in den sekundären Merkmalsvektor (y) so ausgeführt wird, daß neben der Merkmalsreduktion eine Anpassung der statistischen Parameter des Merkmalssatzes auf die Eigenschaften der reduzierten Modellbeschreibung erfolgt.

3. Anordnung nach Anspruch 1 oder 2, bei der im dynamischen Netz mit dynamischer Programmierung durch die Wahl der Transferfunktion eine weitere Abstimmung der Parameter der Dynamischen Programmierung auf die Eigenschaften der vereinfachten Klassifikatormodelle erfolgt.

4. Anordnung nach einem der Ansprüche 1 bis 3, bei der die optimale Ausrichtung der Transferfunktion an einem minimalen Klassifikationsfehler erfolgt.