DE4317372A1

DE4317372A1 - Ein akustisches und visuelles Spracherkennungssystem auf der Basis eines Neural-Netzwerkes

Info

Publication number: DE4317372A1
Application number: DE4317372A
Authority: DE
Inventors: David G Stork; Gregory J Wolff; Earl Isaac Levine
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1992-05-26
Filing date: 1993-05-25
Publication date: 1993-12-02
Anticipated expiration: 2013-05-26
Also published as: US5771306A; DE4317372C2; US5586215A; JPH0643897A

Description

Die Erfindung betrifft das Gebiet der maschinellen Sprach erkennung und insbesondere die Verbesserung akustischer Spracherkennung durch die Nutzung maschinellen Lippenlesens in Verbindung mit akustischen Daten in einem Neural-Netz werks-Klassifikationssystem.

Das Ziel automatischer oder maschineller Spracherkennung ist es, ein System zu entwerfen, das der menschlichen Fä higkeit näherkommt, gesprochene Sprache zu verstehen, auch bei verschiedenen Akzenten von Sprechern, bei Personen ver schiedenen Geschlechts, verschiedener Sprechgeschwindig keit, verschiedener Grade der Koartikulierung, und all dies in der Gegenwart akustischer Ablenkung und Rauschen. Ge bräuchliche automatisierte Systeme haben eine niedrigere Genauigkeit und Robustheit als notwendig wäre, um das un geheure Bedürfnis bei Anwendungen, wie computerisierte Sprach-Text-Umwandlung, automatische Übersetzung und sprachbasierte Kontrollsysteme zu befriedigen. Zu den ver breiteten Methoden gehören versteckte Markov-Modelle, bei denen die Übergangswahrscheinlichkeiten in den Verbindungen zwischen den Knotenpunkten (Zuständen), die phonemische Segmente darstellen, kodiert sind und "Tafel-"Methoden ("Blackboard"-Methoden), bei denen phonologisch, lexika lisch und grammatikalisch basierte Spezial-Mehrzwecks-Unter systeme miteinander kombiniert werden, um synergetisch zu arbeiten, um die Spracherkennungsrate zu maximieren. In jüngerer Zeit sind Neural-Netzwerke mit einigem Erfolg in beschränkten Gebieten, wie z. B. durch A. Waibel in einem Artikel beschrieben, betitelt "Modular Construction of Time-Delay Neural Networks for Speech Recognition", ver öffentlicht in Neural Computation 1, 39-46 (1989), ange wandt worden.

Jede zur Vorhersage geeignete Informationsquelle und jede Nebenbedingung, die in vernünftiger Weise in eine künstli ches System aufgenommen werden kann, hat die Tendenz, zu einer Erhöhung der Erkennungsgenauigkeit zu führen und es ist deshalb wünschenswert, solche in ein Spracherkennungs system einzubeziehen. Traditionell hat sich die meiste For schung auf eine Einbeziehung höherwertiger linguistischer Information, wie z. B. grammatikalischer und syntaktischer Daten, konzentriert. Es ist klar, daß die Menschen andere als die durch akustische Signale gegebene Information ver wenden können, um das Verständnis zu verbessern. Hörgeschä digte Menschen z. B. nutzen oft visuelle Information zum "Sprachlesen", um die Erkennungsgenauigkeit zu verbessern. Siehe z. B. Dodd, B. und Campbell, R. (Hrsg.), "Hearing by Eye: The Psychology of Lipreading", Hillsdale, N.J., Lawrence Erlbaum Press (1987), oder DeFilippo, C.L. und Sims, D.G. (Hrsg.) "New Reflections on Speechreading", Son derausgabe des "The Volta Review" 90(5), (1988).

Sprachlesen kann direkte Information über Sprachsegmente und Phoneme und auch über die Geschwindigkeit, das Ge schlecht des Sprechers, seine Identität und subtile Infor mationen zur Trennung der Sprache vom Hintergrundrauschen liefern. Der wohlbekannte "Cocktail-Party-Effekt", bei dem durch den Lärm der Menge korrumpierte Sprache signifikant verständlicher wird, wenn man das Gesicht des Sprechers se hen kann, bietet einen starken Beweis dafür, daß Menschen visuelle Information bei der Spracherkennung nutzen.

Verschiedene Sprachlese-Systeme sind jüngst beschrieben worden, einschließlich:

a) Petajan, E.D. u. a., "An Improved Automatic Lipreading System to Enhance Speech Recognition" CM SIGCHI-88, 19-254 (1988);
b) Pentland, A. u. a. "Lip Reading: Automatic Visual Recognition of Spoken Words" Proc. Image Understanding and Machine Vision, optical Society of America, June 12-14 (1984); und
c) Yuhas, B.P. u. a. "Integration of Acoustic and Visual Speech Signals Using Neural Networks" Nov. 1989, IEEE Communications Magazine (1989).

Petajan u. a. benutzten Schwellenwertbilder (Bildpunkte) des Gesichts eines Sprechers während der Bildung eines Wortes in Verbindung mit einem Verzeichnis vorher abgespeicherter markierter Äußerungen und einem Standardabstands-Klassifi kator zur visuellen Erkennung.

Pentland u. a. benutzten ein optisches Flußverfahren, um die Geschwindigkeit der Oberlippe, Unterlippe und der beider Mundwinkel aus dem unverarbeiteten Bildpunkt-Videobild des Mundes abzuschätzen. Sie benutzten dann eine Hauptkomponen tenanalyse und einen Minimalabstands-Klassifikator für Sprechgruppen aus drei und vier Einheiten.

Yuhas u. a. trainierten ein Neural-Netzwerk unter Verwendung eines statischen Bildes der Mundform zur Vokalerkennung zu sammen mit einem Kontroller mit freien Parametern, um die relativen Gewichte der visuellen und auditiven Beiträge mit dem Ziel bester Erkennung in Gegenwart verschiedener Ni veaus akustischen Rauschens anzupassen.

Gemäß dieser Erfindung ist ein Spracherkennungssystem vor gesehen, in dem sowohl akustische als auch visuelle Sprach signale verarbeitet werden, um die Wahrscheinlichkeit einer korrekten Klassifizierung von Sprachäußerungen zu verbes sern.

Ein Ziel ist es, die Leistungsfähigkeit eines Spracherken nungssystems, das nur entweder akustische Information oder visuelle Information über die Position der Lippen insbeson dere in einer ungünstigen verrauschten Umgebung nutzt, zu verbessern.

Ein weiteres Ziel ist es, ein neues Zeitverzögerungs- Neural-Netzwerks-Sprachlesesystem zur Klassifizierung von Äußerungen zu schaffen, das nur visuelle Daten nutzt.

Ein weiteres Ziel ist es, ein akustisches Spracherkennungs system durch die Benutzung eines visuellen Zeitverzöge rungs-Neural-Netzwerks-Spracherkennungssystems in Verbin dung mit einem akustischen Spracherkennungssystem zu ver bessern.

Ein weiteres Ziel ist es, den Klassifikator mit einem kon tinuierlichen Strom zusammenhängender visueller und akusti scher Daten zu versorgen, aus dem die akustische Äußerung detektiert und klassifiziert werden kann.

Ein weiteres Ziel ist es, eine Zeitverzögerungs-Neural- Netzwerks-Klassifikatorarchitektur zu schaffen, die Gra dientenabstieg (gradient descent) oder andere Lernmethoden, wie z. B. Rückwärtsausbreitungstraining (back propagation training), unterstützt.

Ein weiteres Ziel ist es, akustische und visuelle Signal vorverarbeitung vor dem Zeitverzögerungs-Neural-Netzwerks- Klassifikator zu schaffen.

Ein weiteres Ziel ist es, eine Ausgangsklassifizierung zu schaffen, d. h. eine Wahrscheinlichkeitsverteilung, die die Wahrscheinlichkeit dafür, daß jede mögliche Äußerung eines Kandidaten in einem gegebenen Zeitintervall stattgefunden hat, darstellt.

Ein weiteres Ziel ist es, eine einfache Methode zur Extra hierung dynamischer, gesichtsbezogener, visueller Informa tion vermittels einer ausgewählten Menge von Gesichtsmarken zu schaffen.

Ein Spracherkennungssystem zur Erkennung von Äußerungen, die zu einem vorher eingerichteten Satz von zulässigen Äußerungen eines Kandidaten gehören, weist dabei folgendes auf: einen Merkmalsextraktionsapparat, einen Extraktions apparat für dynamische, visuelle Merkmale und einen Neural- Netzwerks-Klassifikationsapparat. Der Extraktionsapparat für akustische Merkmale wandelt akustische Sprechsignale, die repräsentativ für eine Äußerung sind, in einen entspre chenden Satz von Spektralmerkmalsvektoren um. Der Extrak tionsapparat für dynamische, visuelle Merkmale wandelt die dynamischen Gesichtsmerkmale, die mit der Erzeugung der akustischen Äußerung verbunden sind, in einen Satz dynami scher, visueller Merkmalsvektoren um. Der Neural-Netzwerks- Klassifikationsapparat wandelt die Vektoren der dynami schen, akustischen und visuellen Merkmale in eine bedingte Wahrscheinlichkeitsverteilung, die die Wahrscheinlichkeit für jede gesprochene Äußerung eines Kandidaten auf der Ba sis der gemessenen akustischen und visuellen Daten be schreibt, um.

Nachfolgend wird die Erfindung anhand von Ausführungsbei spielen unter Bezugnahme auf die Zeichnung beschrieben.

Fig. 1 zeigt ein Blockdiagramm eines akustischen und vi suellen, dynamischen Spracherkennungssystems.

Fig. 2 zeigt die Plazierung der visuellen Vergleichsmar ken auf den und um die Lippen des Sprechers.

Fig. 3 zeigt die Beziehung zwischen den gleichförmigen Mel-Frequenzbändern und den entsprechenden nicht- gleichförmigen linearen Frequenzbändern.

Fig. 4 zeigt zwei gleichwertige Implementierungen eines Einschichtzeitverzögerungs-Neural-Netzwerkes (TDNN, Time Delay Neural Network).

Fig. 5 zeigt ein elektrisches Analogon einer typischen Äußerung zusammen mit ihrem Spektrogramm.

Fig. 6 zeigt die Architektur eines nur visuellen (VO, Visual Only) Mehrschichts-TDNN.

Fig. 7 zeigt eine hardware-getreue TDNN-Architektur.

Fig. 8 zeigt ein Blockdiagramm eines akustischen und vi suellen Spracherkennungssystems, das die Ausgänge von getrennten akustischen und visuellen Erken nungssystemen verbindet.

Fig. 9 zeigt eine hardware-getreue Ausführungsform eines A×V TDNN-Sprachklassifikators.

Fig. 10 zeigt eine hardware-getreue Ausführungsform eines anderen TDNN-Sprachklassifikators.

Fig. 11 zeigt eine hardware-getreue Ausführungsform eines gesamten AV-Sprachklassifikators.

Fig. 12 zeigt die Architektur einer typischen künstlichen McCulloch-Pitts-Neuralzelle.

Fig. 13 zeigt Beispiele für die Übertragungscharakteri stik von Aktivierungsfunktionen.

Fig. 14 zeigt die Architektur einer typischen künstlichen Sigma-pi (ΣΠ) Neuralzelle.

Fig. 15 zeigt einen Satz von Lernkurven, die den Fort schritt des Lernens darstellen.

Fig. 16 zeigt eine Gruppe von Verwaschungsmatrizen für vier Systeme.

Verschiedene Ausführungsformen von Spracherkennungssystemen werden beschrieben, bei denen jedes System darauf trainiert ist, eine begrenzte Gruppe von Sprachäußerungen zu erken nen. Die verschiedenen Ausführungsformen unterscheiden sich in dem Typ der genutzten Information und/oder in der Art, in der die Informationssignale verarbeitet werden. In jedem Fall ist es das Ziel eines Spracherkennungssystems, am Aus gang des Klassifikators eine Wahrscheinlichkeitsverteilung zu erzeugen, die mit allen möglichen Äußerungen des Kandi daten zusammenhängt.

Aus Gründen der Klarheit werden in der folgenden Beschrei bung spezifische Beispiele der Ausführungsformen der Erfin dung, die dazu verwendet werden, eine von zehn Äußerungen des Kandidaten zu erkennen, benutzt. Dies ist jedoch keine Beschränkung in der Zahl oder der Typen von Äußerungen, die erfaßt werden können.

Die vorliegende Erfindung betrifft ein System zur Sprach erkennung, das sich dynamisch verändernde akustische und visuelle Signale zur Verbesserung des Spracherkennungsver haltens benutzt. Fig. 1 zeigt ein vereinfachtes Blockdia gramm einer Ausführungsform. Akustische Sprechdaten werden durch das Mikrophon 20 gesammelt, das vermittels der Aus gangsleitung 22 die elektrische Signalreplika der akusti schen Information an den Spektralanalysator 24 gibt, wo die akustische Energie auf eine Gruppe von 14 Filtern gegeben wird. Die zeitlich veränderliche Kurzzeitenergieausgabe von jedem der 14 Filter wird gemessen, normalisiert und an die 14 Ausgabeleitungen 25 als ein zeitlich veränderlicher Vek tor mit 14 Komponenten gegeben.

Gleichzeitig empfängt eine Videokamera 10 die damit ver bundenen visuellen Daten ein, die durch die Gruppe von Mar ken erzeugt wurden, um die durch die gegebene Sprachäuße rung erzeugten Lippen- und Mundbewegungen zu beschreiben. Diese Roh-Videoinformation wird vermittels der Leitung 12 zu dem Lippen- und Mundpositionsvektor-Generator 14 ge führt, wo die zeitlich veränderlichen Positionen der Lippen und Mundmarken bezüglich der Kopfneigung und Größe normali siert werden und einen zeitlich veränderlichen Vektor an den fünf Ausgangsleitungen 15 erzeugen, der die mit der akustischen Äußerung verbundene Lippen- und Mundaktivität beschreibt.

Der Lippen- und Mundpositionsvektor-Generator 14 umfaßt ein Nachführsystem 16 zur Verfolgung der Position von licht emittierenden oder reflektierenden Vergleichsmarken, die auf den und um die Lippen des Sprechers angeordnet sind, und einen Vektorgenerator 19, der ausgewählte Entfernungen zwischen den Vergleichsmarken extrahiert und normalisiert. Dieser Apparat wurde unter Verwendung des computerbasierten zweidimensionalen Bewegungsanalysesystems implementiert, das von der Motion Analysis Corporation, 3650 North Laughlin Road, Santa Rosa, California 95403, unter dem Warenzeichen "Expert Vision" hergestellt wird.

Das "Expert Vision"-Videonachführungssystem benutzt eine Videoausrüstung, um die Bewegungen der Objekte aufzunehmen. Reflektierende Marken sind an Stellen von Interesse an gebracht. Das System kann Daten aufnehmen und analysieren, die von einer Video-Kamera 10 (oder Band) bei der Standard videobildwechselfrequenz von 60 Hz oder bis zu 200 Hz auf genommen wurden.

Die unverarbeiteten Videodaten aus der Video-Kamera werden an das Videoverarbeitungsuntersystem gegeben, das die Mar kenbilder isoliert und sie in Echtzeit in digitalisierte Videokonturbilder umwandelt. Der Videoprozessor versorgt den Host-Rechner mit der Funktion des Nachführungssystems 16 durch die Erstellung der x- und y-Koordinaten der Ränder der Marken zur Weiterverarbeitung. Die bei Videobildwech selfrequenzintervallen detektierten Bildschirmpositionen werden in einem rechteckigen Muster von 256 Bildpunkten Breite (in die x-Richtung) und 240 Bildpunkten Höhe (in die y-Richtung) ausgedrückt.

Die Videokonturen werden zu Schwerpunkten durch die Soft ware des Host-Computers reduziert. Der Schwerpunkt jeder reflektierenden Marke wird durch die Mittelung der Koordi naten der individuellen Bildpunkte bestimmt, die die Kontur der Marke bilden. Die Schwerpunkte von jeder Marke werden gekennzeichnet und von Bild zu Bild verbunden, um eine Tra jektorie zu bilden. Zusätzliche Software des Host-Computers wird verwendet, um einen Satz von visuellen Abstandsvekto ren, wie unten beschrieben und funktionell angedeutet durch Vektorgenerator 19 in Fig. 1, zu generieren und zu normali sieren.

Beide der zeitlich veränderlichen Vektoren auf Leitungen 15 und 25 werden an einen Zeitverzögerungs-Neural-Netzwerk sprachklassifikator ("TDNN") 200 gegeben, wobei das Neural- Netzwerk zehn Ausgangssignale auf Leitungen 17 aufweist. Jede der Ausgabeleitungen 17 ist ausschließlich mit einer der zehn möglichen Sprachäußerungen, die das TDNN 200 trai ningsgemäß erkennen soll, zugeordnet. Der Signalpegel auf jeder der zehn Leitungen ist repräsentativ für die Wahr scheinlichkeit, mit der die damit assoziierte Äußerung ge macht wurde. Das Ausgabenetzwerk 18 (gepunktet gezeichnet) ist ein optionaler eins-aus-zehn Klassifikator (innerhalb des Fachgebiets gut bekannt), der die wahrscheinlichste Äußerung auswählt, indem er die Äußerung wählt, die der Leitung mit dem höchsten Pegel (Wahrscheinlichkeit) der zehn Leitungen 17 entspricht. Da der TDNN-Klassifikator 200 in der Lage ist, einen zeitlich veränderlichen Datenstrom zu untersuchen, ist die exakte Kenntnis der zeitlichen Po sition der akustischen und visuellen Information nicht not wendig.

Fig. 2 zeigt die Plazierung von zehn reflektierenden Marken (M0, 9) auf den Gesichtern der Sprecher, die in einer Aus führungsform verwendet wurden. Die Positionen der zehn Ver gleichsmarken waren: Die Nasenspitze (M0), die Mitte des Kinns (M1), der linke Mundwinkel (M2), der rechte Mundwin kel (M3), die obere Mitte der Lippen (M4), die untere Mitte der Lippen (M5) und vier Punkten auf den Lippen ungefähr mittig zwischen der Mitte der Oberlippe und dem linken und rechten Mundwinkel (M6, M7) und zwischen der Mitte der Un terlippe und dem linken und rechten Mundwinkel (M8, M9). Dieser Satz von Vergleichsmarken wurde benutzt, um die ge nerelle Form und Bewegung des Lippen- und Mundbereichs zu etablieren. Diese spezielle Anordnung hat den Vorteil der Einfachheit verglichen mit dem berechnungsintensiven Pro blem, dieselbe Information aus einem enormen Datenvolumen, das durch Sequenzen von Video-Bildpunktbildern erzeugt wur de, abzuleiten.

Die Position der reflektierenden Vergleichsmarken auf den Gesichtern jedes Sprechers wurden durch eine Video-Kamera bei einer Bildwechselfrequenz von 60 Hz aufgenommen und dann durch einen Positionsvektorgenerator 14 in visuelle Merkmalsvektoren transformiert, die fünf Komponenten ent halten, wie in folgender Tabelle gezeigt:

Diese besondere Wahl der Vektorkomponentenmerkmale wurde derart getroffen, daß die verschiedenen Abstände über den Mund und das Gesicht einfach unabhängig von Verschiebungen und Drehungen des Kopfes gemacht werden können. Dies wurde innerhalb des Vektorgenerators 14 erreicht, indem man zu erst den Kopf so drehte, daß die durch die Vergleichsmarken M0 und M1 gezogene Linie vertikal war, woraufhin die drei vertikalen Abstände (M0-M1, M4-M5 und der mittlere Abstand von M6-M8 und M7-M9) und die zwei horizontalen Abstände (M2-M3 und der mittlere Abstand von M6-M7 und M8-M9) be rechnet wurden.

Eine weitere Normalisierung der Merkmalskomponenten war nö tig aufgrund der bei Gesichtsmessungen auftretenden Unter schiede zwischen den Versuchspersonen. Es wurde auch fest gestellt, daß sich der Mund von Zeit zu Zeit in einer teil weise geöffneten Ruheposition befand. Der erste Normalisie rungsschritt lieferte einen für die Größe des Gesichts je des Sprechers charakteristischen Satz von Gesichtsmessun gen, indem die Vektoren, die allen Ruhepositionszeiten ent sprachen, gemittelt wurden. Daraufhin wurde jeder visuelle Vektor in der Folge normalisiert, indem man den Ruhemittel wert von jeder Komponente subtrahierte und die Länge derart skalierte, daß jede Komponente einen Wert von plus oder mi nus eins hat, wenn ihr Pegel plus oder minus zwei Standard abweichungen vom Mittelwert entspricht.

Obwohl der oben aufgezählte spezifische Satz von Gesichts bewegungsmerkmalen bei der Anwendung der Spracherkennung für die Praxis verwendet wurde, könnten auch andere glei chermaßen repräsentative Sätze von dynamischen Messungen verwendet werden, um die wesentliche visuelle Information zu liefern. Dies könnte zu einem anderen, aber effektiven, dynamischen visuellen Datenvektor führen. Zum Beispiel könnte eine Video-Kamera ein dynamisches Bildpunktbild von dem Mund und den Lippen des Sprechers produzieren. Die dy namische Form könnte charakterisiert werden, indem man den Abstand zwischen den Schatten unterhalb der Ober- und Un terlippe, der durch das Deckenoberlicht erzeugt wird, mißt. Ein Satz derartiger Messungen über den Mund verteilt, würde die dynamische Form beschreiben.

Die akustischen Datensignale fanden in einem Zeitfenster von 2 Sekunden Länge statt und wurden gleichzeitig durch ein Kardioid-Mikrophon 20 aufgenommen und dann bei einer Abtastfrequenz von 8012 Hz abgetastet und digitalisiert, wobei eine 8 Bit "mu-law"-Kodierung verwendet wurde (gleichwertig mit der Qualität digitaler Telephonleitun gen). Eine 14wertige Mel Leistungsspektrumsanalyse wurde durch den Spektralanalysator 24 mit Hilfe einer diskreten Fourier-Transformation auf 256 Datenpunktfenstern erstellt, die jeweils um Intervalle von 5 ms zentriert waren, um den 14 Mel Leistungsspektrumsanalysefilter zu simulieren. Jedes der 256 Datenpunktfenster wurde durch eine Hamming′sche Fensterfunktion dargestellt, um den Spektralschwund zu re duzieren. Die Anwendung der diskreten Fourier-Transforma tion auf die durch ein Fenster herausgegriffenen Daten und die Bildung der Quadrate der Werte der Fourier-Koeffizien ten führte zu einer gleichmäßigen Auflösung des Leistungs spektrums von 128 Punkten. Das 14 Band Mel Leistungsspek trum hat eine Frequenzskala, F, die zur normalen linearen Frequenzskala, f, in folgendem logerithmischem Zusammenhang steht:

F=ln(1+f/700).

Diese Mel-Frequenzskala basiert auf Experimenten zur psy choakustischen Frequenzskalierung, die zeigen, daß die menschliche Beurteilung der relativen Tonhöhe von zwei Sinusschwingungen nicht äquivalent zu ihrem tatsächlichen arithmetischen Verhältnis ist. Obiger Ausdruck setzt des halb die Beurteilung der wahrgenommenen Tonhöhe, F, zur physikalischen Messung der Frequenz, f, in Beziehung. Be merkenswert ist, daß, obwohl das Mel Leistungsspektrum be nutzt wurde, eine Vielzahl von Leistungsspektrumstypen, ein schließlich derer, die auf gleichförmigen oder exponentiell skalierten Bandintervallen beruhen, in dieser Anwendung auch leistungsfähig sein können.

Fig. 3 zeigt die graphische Darstellung der Mel-Frequenz, F, gegen die tatsächliche Frequenz, f. 14 Bänder gleichför miger Breite auf der Mel Skala sind auf der vertikalen Skala zusammen mit ihrer Projektion auf die tatsächliche Frequenzskala, als nicht gleichförmige Bänder, die in Über einstimmung mit obigem Ausdruck bei zunehmender Frequenz f zunehmen, dargestellt. Die Skala der unteren Abszisse setzt den Fourier-Koeffizientenfrequenzindex in bezug zur tat sächlichen Frequenz. Die 14 Mel Filter gleichförmiger Band breite werden deshalb, wie gezeigt, durch Summation des Leistungsspektrums in den entsprechenden nicht-gleichförmi gen Bändern linearer Skala simuliert. Ein statistisch be ständigeres Mel Skala-Leistungsspektrum wird alle 5 ms oder 200mal pro Sekunde erzeugt, indem aufeinanderfolgende Paare von Spektren gemittelt werden, was die effektive Spektrumsausgabegeschwindigkeit auf eine je 10 ms reduziert (100 Spektren pro Sekunde). Der nächste Verarbeitungs schritt, der vom Spektralanalysator 24 durchgeführt wird, ist die Bestimmung des Logarithmus von jedem Mel Spektrum, um einen 14komponentigen logarithmischen (log) Mel Spek tralvektor zu erhalten. Die Normalisierung von jedem Satz logarithmischer Mel Spektren, die einer gegebenen Äußerung entsprachen, wurde dadurch erreicht, daß man den Mittelwert berechnet und den größten und kleinsten aller Werte des Satzes extrahierte. Die logarithmischen Spektralsätze wur den dann skaliert und (zahlenmäßig) so verschoben, daß der neue Mittelwert bei 0 und der Maximalwert jeden logarith mischen Spektrums bei 1 liegt. Die normalisierten logarith mischen Mel Spektralvektoren werden an den Ausgangsleitun gen 25 des Spektralanalysators 24 verfügbar gemacht.

Da in einer Ausführungsform die Videobildwechselfrequenz der Kamera 10 bei 60 Bildern pro Sekunde lag, wohingegen die Spektralerzeugungsrate des Spektralanalysators bei 100 Spektren pro Sekunde lag, war ein zusätzlicher Verarbei tungsschritt notwendig, um die beiden Raten einander anzu passen. Dies ist graphisch in Fig. 1 durch die gepunktet gezeichnete Box 26, die mit "Interpolator" beschriftet ist, dargestellt, da diese nur notwendig ist, wenn die Videorahmen frequenz und die Spektralrahmenfrequenz nicht überein stimmen. In diesem Fall wurden aufeinanderfolgende Videoda tenfenster (Vektoren), jeweils aus den fünf vorher be schriebenen Vektorkomponenten bestehend, interpoliert unter Verwendung eines (sin x)/x-artigen Interpolationskerns, um eine neue Folge von Vektoren mit einer Frequenz von 100 pro Sekunde zu erzeugen. In anderen Worten, der Wert des k-ten interpolierten Ereignisses, das sich zur Zeit=k/100 Sekunden (k=0, ±1, ±2, . . . ) ereignet, d. h. in gleichförmi gen Zeitintervallen von 10 ms, ist gegeben durch:

wobei:
x(m/60) der Wert der Vektorkomponente zur Zeit= m/60 ist;
m der ursprüngliche ganzzahlige Zeitindex, der in Intervallen von 1/60 Sekunden inkrementiert wird, ist;
k der neue Zeitindex, der in Intervallen von 1/100 Sekunden inkrementiert wird, ist; und
X(k/100) der interpolierte Wert zu den 1/100 Sekunden Intervallen ist.

Diese Operation kann durch Standardkonvolutionsverfahren (digitale Filterung) durchgeführt werden. Andere mögliche Interpolationskerne, einschließlich linearer quadratischer Kerne und Kernen polynomialen Typs höherer Ordnung, könnten auch zur Interpolation verwendet werden, ohne signifikant die Funktion zu beeinträchtigen.

Die fünf Ausgangsleitungen 15 des visuellen Vektorgenera tors 14 und die 14 Ausgangsleitungen 25 des akustischen Spektralanalysators 14 bilden zusammen einen 19komponenti gen zeitlich veränderlichen audiovisuellen ("AV") Vektor, der auf das TDNN 200 gegeben wird.

Um sowohl Äußerungen variabler Länge als auch die gewisser maßen unvorhersagbare Zeit des Beginns der Äußerung zu be rücksichtigen, wurde als Neural-Netzwerk zur Spracherken nung ein Zeitverzögerungs-Neural-Netzwerk (TDNN), das dem von Waibel, A., in einem Artikel "Modular Construction of Time-Delay Neural Networks for Speech Recognition" in Neural Computation 1, 39-46 (1989) beschriebenen ähnlich ist.

Fig. 4 zeigt zwei funktionell gleichwertige Implementierun gen eines TDNN. Fig. 4(a) besteht aus einer Verzögerungs leitung 103 mit gleichförmigen Abgriffen, die eine Ein gangsdatensequenz, x(t), auf Eingangsleitung 101 annimmt. Die Signale an den Ausgangsabgriffen 102 der Verzögerungs leitung stellen einen Zeitfolgenvektor dar, der repräsenta tiv die Zeitfolge x(t) ist, der auf die Verzögerungsleitung 103 gegeben wurde, wobei die älteren Daten rechts liegen, d. h. jeder Abgriff hat einen Ausgang, der den Wert der Ein gangsfolge τ Sekunden früher als der unmittelbar links davon liegende Punkt darstellt. Zu jedem gegebenen Zeit punkt ist die zeitliche Entwicklung der Eingangssequenz an den Ausgangsabgriffen 102 verfügbar. Ein ausgewählter Satz von benachbarten Abgriffen ist mit Leitungen 105 von Neuro nen 110, die mit N1 beschriftet sind, verbunden. In ähnli cher Weise wird ein Satz, der die gleiche Zahl von Ein gangsabgriffen 102, jedoch um eine Einheit τ verschoben, hat auf das Neuron 110 - mit N2 beschriftet - gegeben. Wie gezeigt, kann die TDNN-Struktur jede beliebige Zahl zusätz licher Neuraleinheiten 110 haben, die in derselben Art ver bunden sind, wobei jede um eine Verzögerungseinheit τ ver schoben ist. Jedes Neuron 110 ist strukturidentisch und be nutzt denselben Satz synaptischer Gewichte bzw. Wichtungen, die via der Leitungen 107 zugeführt werden. So stellt der Ausgang jedes Neurons 110 auf die Ausgangsleitungen 109 eine neue Datensequenz {Y_k(t)} dar, die zeitlich um das Intervall τ vom Ausgang des Nachbarneurons 110 verschoben ist.

Die hardware-getreue TDNN-Struktur, die in Fig. 4(b) ge zeigt ist, benutzt ein einzelnes Neuron 110 in einem Multi plex-Betrieb. Die Eingangsdatensequenz, die auf die abge griffene Verzögerungsleitung 103 via Inputleitung 101 gege ben wird, produziert auf den Ausgangsleitungen 105 ein Bild ihrer vergangenen Werte in je τ Sekundenintervallen, die parallel auf die Neuralzelle 110 gegeben werden. Der Satz von Gewichten bzw. Wichtungen (identisch den in Fig. 4(a) benutzten) wird durch Eingangsleitungen 107 angelegt. In jedem Intervall der Länge τ produziert die Neuralzelle 110 einen Ausgangswert auf der Leitung 108, der auf eine zweite abgegriffene Verzögerungsleitung 103 gegeben wird. Wenn die zweite Verzögerungsleitung 103, die zur nächst höheren Schicht gehört, wie gezeigt, n Abgriffe hat, dann haben alle (n-1)τ Sekundenintervalle die Ausgangsabgriffe 109 einen neuen Satz von n Ausgangsvektoren, der identisch zu dem ist, der bei denselben Eingangsdatengewichten bzw. -wichtungen durch das TDNN von Fig. 4(a) produziert worden wäre.

Beide Strukturen von Fig. 4 sind geeignet, um die Komponen te einer einzigen zeitlich veränderlichen Vektorkomponente an ihrem Eingangsabgriff 101 aufzunehmen. Deswegen muß die gezeigte Struktur für jede Komponente des Eingangsvektors repliziert werden. Im allgemeinen würden die Eingangsge wichte bzw. -wichtungen für die durch die Trainingsprozedur bestimmte Komponente eindeutig sein.

Die Zeitverzögerungseinheit, τ, ist so gewählt, daß eine Verfälschung der Eingangsdaten minimiert wird. Wenn der Wert für τ wesentlich kleiner als das Nyquist Abtastinter vall wäre, würden die Werte benachbarter Ausgangsabgriffe 109 stark korreliert sein und könnten zu Instabilitäten beim Training aufgrund der überschüssigen Freiheitsgrade (Redundanz) , die in dem Netzwerk verwendet werden, führen. Wenn das Intervall τ größer ist als das Nyquist Abtastin tervall, wird eine Verfälschung eingeführt, die zu einer inkorrekten Klassifizierung der Eingangsdaten führen kann. Ein akzeptabler Wert wurde zu ungefähr 10 Millisekunden be stimmt.

Die Zahl der Verzögerungselemente pro Verzögerungsleitung muß ausreichend sein, um sicherzustellen, daß die gesamte Dauer einer Äußerung durch die Gesamtzeit von (n-1)τ für eine Verzögerungsleitungsstruktur von n Ausgangsabgriffen überspannt wird. Für die Klasse der benutzten Äußerungen erwies sich eine Spanne von 100 Elementen von 10 ms Verzö gerung (1000 ms insgesamt) als geeignet. Kürzere Beobach tungsspannen könnten den Wert der Klassifizierung reduzie ren, indem sie nicht die gesamte Dauer einer Äußerung ein schließen und längere Spannen könnten die Qualität der Klassifizierung reduzieren, indem sie zu viel überflüssige Daten einschließen.

In einem Spracherkennungssystem der Praxis ist ein Mehrla gen-TDNN mit Vektoreingabe von Nöten. Dies kann durch eine Zahl hintereinander geschalteter (kaskadierter) Einschicht- TDNN′s erreicht werden, so daß die Ausgangsfolge einer ge gebenen Schicht die Eingangsfolge der nächst höheren Schicht wird. Auf diese Weise bildet jede Schicht eine Ein gangszeitsequenz auf eine andere Ausgangszeitsequenz ab und bildet schließlich die Eingangszeitsequenz der Merkmale (akustische und visuelle) auf die Zeitsequenz der Attribute (Klassifizierung) ab. Da das TDNN eine Teilmenge der vor wärts gerichteten Neural-Netzwerke ist, ist es unter Ver wendung der wohlbekannten Rückwärtsausbreitungs- (back propagation) oder anderer Gradientenabstiegsalgorithmen (gradient descent) trainierbar. Zusätzlich hat das TDNN die wünschenswerte Eigenschaft, sequentiell eine identische Transformation auf eine Sequenz von Merkmalszeitfenstern zu schrittweise oder zunehmend variablen Zeitpunkten anzuwen den. Anders als bei konventionelleren vorwärts gerichteten Neural-Netzwerken muß die Eingangsdatensequenz präzise mit einer absoluten Zeitreferenz abgeglichen werden, um ein ordnungsgemäßes Training sicherzustellen. Die TDNN-Struktur trägt der Tatsache Rechnung, daß die Muster von Interesse innerhalb der Eingangsdatensequenz zu einem beliebigen Zeitpunkt auftreten können und das TDNN versucht, während des Lernens exemplarische Muster in der Trainingsdatense quenz zu finden, unabhängig davon, wann sie auftreten.

Wenn es jedoch erwünscht ist, daß der Netzwerksausgang einen einzigen Satz von Attributen aufweist, so kann in der Eingangsverzögerungsleitung eine Merkmalssequenz bestimmter Dauer gespeichert werden. Die Dauer sollte so gewählt wer den, daß sichergestellt ist, daß die Zeitspanne (Fenster) der Verzögerungsleitung die Sequenz von Interesse ein schließt. Wenn jede darauffolgende Schicht des TDNN eine Funktion der Fensterzeitspanne ist, kann der Ausgang für jedes Attribut der letzten Stufe zu einem einzigen Wert des Fensterintervalls gemittelt werden.

Fig. 5 zeigt ein Beispiel für eine typische gesprochene Äußerung. In Fig. 5(a) ist ein für den akustischen Druck repräsentatives elektrisches Signal gezeigt, das bei unge fähr 15,4 Sekunden beginnt und bei 17,0 Sekunden endet. Fig. 5(b) zeigt die fünf Komponenten des visuellen Vektors derselben Äußerung, der auch bei ungefähr 15,4 Sekunden be ginnt und ungefähr 1,6 Sekunden später endet (17,0 Sekun den). Ein Fenster von einer Sekunde Dauer würde deshalb ge eignet erscheinen, um einen Großteil sowohl der akustischen als auch visuellen Signale zu umfassen.

Für die unten beschriebenen Ausführungsformen wurden zehn mögliche Typen von Äußerungen in das Spracherkennungssystem gesprochen und zehn Ausgangswerte am Ausgang erzeugt, die jeweils die Wahrscheinlichkeit dafür darstellen, daß eine der zehn möglichen Äußerungen gesprochen wurde. Die Netz werkstruktur umfaßt zwei TDNN-artige Schichten, denen in der nächsten Stufe die Zeitmittelung und Wahrscheinlich keitsnormalisierung folgt.

Die fünf verschiedenen Ausführungsformen eines Spracherken nungssystems, das im folgenden beschrieben wird, beinhal ten:

a) das VO-System, das nur visuelle Daten verwendet;
b) das AO-System, das nur akustische Daten verwendet (AO acoustic only);
c) das A×V-System, eine Verbindung auf hohem Niveau eines AO- und VO-Systems;
d) das AV-System mit einer Verbindung auf mittlerem Niveau (Klassifikationsschicht) des AO- und VO-Sy stems; und
e) das volle AV-System mit integrierter Verarbeitung der akustischen und visuellen Daten.

Die Architektur eines TDNN-Netzwerkes ist in Fig. 6 ge zeigt, wie es in einer VO (visual only)-Ausführungsform eines Sprechklassifikators 200 benutzt wird, der auf dem Lesen der visuellen Gesichtsmarken basiert und unter Ver wendung der vorher beschriebenen fünf Abstandsmerkmale rea lisiert wurde. Keine akustischen Daten wurden für diese Realisierung verwendet. Die Verzögerungsleitungseingangs stufe 210 umfaßt fünf Verzögerungsleitungseinheiten 103 jeweils mit 100 Ausgangsabgriffen, wobei jede Verzögerungs leitung 103 eine der fünf Komponenten des visuellen Vek tors, der durch den Vektorgenerator 14 von Fig. 1 gegeben wird, speichert. Die Verzögerungsleitungen wurden durch Software simuliert. Das zeitliche Inkrement τ zwischen ge speicherten Werten beträgt 10 ms, so daß die Eingangszeit sequenzfenster 1000 ms überspannen.

Die verborgene Schicht 220 umfaßt vier Zeilen von Neural zellen mit jeweils 81 Neuralzellen und 5×20 Eingänge für jede Zelle. Jedes Neuron in einer gegebenen Zeile ist mit 20 benachbarten Verzögerungsleitungswerten der fünf Verzö gerungsleitungen verbunden. Die Reduktion von fünf auf vier Zeilen schuf eine geringe Datenkompression bezüglich der Zeilendimension.

Die Klassifikationsschicht 230 umfaßt zehn Zeilen, eine für jede zu detektierende Äußerung und ist 72 Neuralzellen lang. Jedes Neuron nimmt ein Feld von 40 Eingangsleitungen auf: vier Zeilen der verborgenen Schicht 220 mit zehn be nachbarten Neuralausgängen der verborgenen Schicht. Jede der resultierenden zehn Zeilen hat 72 Neuralzellen, die den 72 möglichen Werten entsprechen, die von dem zeitverschobe nen Ausgang der verborgenen Schicht verfügbar sind. Jeder Wert am Ausgang eines Neurons in einer gegebenen Reihe der Klassifikationsschicht 230 entspricht der Wahrscheinlich keit, daß die dementsprechende Äußerung während eines der 72 Zeitintervalle von 290 ms, die in 10 Millisekunden- Intervalle unterteilt sind und das ursprüngliche (Eingangs stufe) Datenfenster von 1000 ms aufspannen, stattfand. Die 290 ms Auflösung resultiert aus dem 20 ms Fenster, das als Eingang zur verborgenen Schicht 220 und den darauffolgenden zehn Einheitsfenstern, wie sie in der verborgenen Schicht 220 verwendet werden, benutzt wird.

Die Mittelungsschicht 240 umfaßt zehn Neuralzellen, die je weils einer spezifischen Zeile der Klassifikationsschicht und deshalb mit einer spezifischen der zehn zulässigen Äußerungen zugeordnet sind. Die Werte in jeder Ausgangsrei he der Klassifikationsschicht 230 geben die Wahrscheinlich keit dafür an, daß eine bestimmte Äußerung während eines 290 Millisekunden-Intervalls, das dieser Zelle entspricht, stattgefunden hat. Diese 72 Eingänge sind in der Mitte lungsschicht durch die entsprechende Neuralzelle verbunden, um an ihrem Ausgang einen Wert zu produzieren, der reprä sentativ für die Wahrscheinlichkeit ist, daß die Äußerung zu einem beliebigen Punkt während des Beobachtungsfensters von 1000 ms der Eingangsstufe 210 gesprochen wurde.

Das nur akustische (AO - acoustic only) Spracherkennungs system benutzt dieselbe Art von Architektur wie das VO- System, das in Fig. 6 gezeigt ist, wobei die Parameter so angepaßt werden, daß sie dem 14komponentigen Spektralmerk malsvektor auf der logarithmischen Mel-Skala, der durch den Spektralanalysator 14 in Fig. 1 zu Intervallen von 10 ms gegeben wird, Rechnung tragen. Die Verzögerungsleitungsein gangsstufe 210 besaß deshalb ein Feld von 14 Zeilen mit 100 Datenwerten als Eingänge zur verborgenen Schicht 220. Jede Reihe entspricht 1000 ms von Werten auf der logarithmischen Mel-Skala von einem der Sätze der 14 Ausgangsfilter des Spektralanalysators 14.

Die verborgene AO-Schicht 220 umfaßt vier Zeilen von 96 Neuralzellen, die für eine Merkmalskompression von 14 auf 4 sorgen. Jedes Neuron 221 ist mit fünf aneinander grenzenden Eingangsstufenzeitabtastsignalen von jedem der 14 Eingangs merkmale (insgesamt existieren 70 Eingangsmerkmalswerte pro Neuron) verbunden. Das Eingangsfenster von fünf Einheiten (50 ms) ist ein typisches Zeitintervall für die meisten wichtigen akustischen Merkmale, wie z. B. Kurzzeit- und Übergangsereignisse. Deshalb nimmt jedes darauffolgende Neuron in einer vorgegebenen Zeile der verborgenen Schicht 220 ein Feld von 14 Zeilen ×5 Spalten von Eingangswerten der Eingangsstufe 210 auf, die um ein 10 ms-Intervall ver schoben sind.

Jedes Neuron 231 der AO-Klassifikationsschicht 230 empfängt eine Eingangsauffächerung von vier Merkmalsreihen und 25 Zeitspalten von der verborgenen Schicht 220. Jede aufeinan derfolgende Spalte von Neuronen 231 empfängt Eingänge der verborgenen Schicht 220, die um eine Spaltenzeiteinheit von 10 ms verschoben sind. Die 25 Spaltenfenster wurden ge wählt, damit das gesamte effektive Zeitfenster, das durch die Klassifikationsschicht 230 gesehen wird, bei 290 ms (((5-1)+25)×10 ms) liegt; dasselbe effektive Fenster wurde in dem VO-Spracherkennungsnetzwerk, das oben be schrieben ist, verwendet. Insgesamt sind 720 Neuronen mit AO-Klassifikationsschicht 230 in zehn Zeilen zu je 72 Neu ronen angeordnet. Wie im Fall des VO-Spracherkennungsnetz werks entspricht eine der zehn Zeilen einer der zehn zu lässigen Äußerungen.

Die Ausgangsschicht 240 des AO TDNN-Klassifikators 200 um faßt eine Spalte von zehn Neuralzellen 241, wobei jede Zel le mit einer verschiedenen Merkmalsreihe der Klassifika tionsschicht 230 verbunden ist - mit einer Eingangsauffä cherung von 72. Die Werte am Ausgang der Mittelungsschicht 240 sind jeweils repräsentativ für die Wahrscheinlichkeit, daß die entsprechende Äußerung irgendwann innerhalb des 1000 ms-Datenfenster stattfand, wobei die Werte der Ein gangsstufe 210 präsentiert wurden.

Fig. 7 ist eine andere Ausführungsform eines AO TDNN, einem funktionalen Äquivalent zu dem oben beschriebenen Netzwerk, das die durch den Neuralzellen-Mehrfachbetrieb benötigte Hardware minimiert. Die 14 Spektraldatenkomponenten auf der logarithmischen Mel-Skala des akustischen Vektorsignals wer den auf die Verzögerungsleitungseinrichtung (delay line assembly, DLA) 302 gegeben, bestehend aus 14 abgegriffenen Verzögerungsleitungen, jede mit einer Datenkapazität von 5 Werten (in diesem Zusammenhang ist eine Verzögerungsleitung äquivalent zu einem analogen oder digitalen Schieberegi ster). Sobald die Verzögerungsleitung voll ist, nimmt die Neuralzelleneinrichtung (neuron cell assembly, NCA1) 310, die aus vier Neuralzellen (N1-N4) besteht, das Feld der 14 ×5 Werte von den Abgriffen der DLA 302 auf und verbindet dieses 70wertige Feld mit jedem der 70 Eingangskontakte der vier Zellen (N1-N4). NCA1 310 erzeugt vier verschiedene Ausgangswerte, einen für jede der N1-N4 Neuralzellen und gibt sie an den Eingang des DLA 304, der verborgenen- Schichts-Verzögerungsleitungseinrichtung. DLA 304 taktet in den vier Werten. 10 ms später kommt ein neuer Wert am Ein gang des DLA 302 an, der zu einer Verschiebung des Inhalts um eine Einheit nach rechts führt und so den ältesten Satz der 14 Spektraldatenwerte herausschiebt. Der neue Satz von 14×5 Datenpunkten wird dann auf jede der Zellen des NCA 310 gegeben, die an ihren vier Ausgangskontakten einen neuen vierkomponentigen Vektor schafft, der in vier Verzögerungen des DLA 304 getaktet ist. Dieser Prozeß setzt sich fort und führt schließlich dazu, daß das DLA 304 voll ist. Zu diesem Zeitpunkt berechnen die zehn Neuralzellen (N1-N14) des NCA 312 jeweils eine Ausgabe für die zehn Äußerungskategorien und übergeben zur Abspeicherung den zehnkomponentigen Vektor an DLA 306 der zehn Verzögerungs leitungen mit einer Kapazität von 72 Werten umfaßt.

So wird alle 10 ms-Intervalle danach ein neuer Vektor durch NCA 310 berechnet, der nach DLA 304 verschoben wird. Im Gegenzug berechnet NCA 312 einen neuen zehnkomponentigen Vektor, der nach DLA 306 verschoben wird. Sobald DLA 306 bis zur Speicherkapazität gefüllt ist, wird der Inhalt von jeder der zehn 1×72 Verzögerungsleitungen zu dem zugehö rigen Mittlungsneuron (N15-N24) von NCA 314 geführt. Der erste Satz von 10 Ausgängen stellt die Wahrscheinlichkeit dar, daß die mit ihr assoziierte Äußerung während der er sten 290 ms ausgesprochen wurde.

Während die Spektraldaten beständig in Intervallen von 10 ms ankommen, werden neue Werte für die Ausgangswahr scheinlichkeiten berechnet. So würde der zweite berechnete Wert der Wahrscheinlichkeit einer Äußerung, die während eines 290 ms-Fensters, das um 10 ms von der ersten ver schoben ist, stattgefunden hat, entsprechen. Aufeinander folgende Ausgangswahrscheinlichkeiten entsprechen 290 ms- Fenstern, die um 10 ms relativ zum vorhergehenden Fenster verschoben sind.

Obwohl der Betrieb des TDNN in Fig. 7 zur Benutzung in einem AO-Spracherkennungsnetzwerk beschrieben wurde, ist es klar, daß dasselbe Betriebsprinzip auch gültig wäre, wenn eine ähnliche Struktur in einem VO-Spracherkennungssystem benutzt werden sollte, das konsistent mit der vorausgegan genen Beschreibung des Betriebs in bezug zu Fig. 6 ist.

Die beschriebenen AO- und VO-Systeme arbeiten unabhängig voneinander mit den entsprechend akustischen und visuellen Sprechdaten. Sie sind in anderen Worten äquivalent zu dem System, das in Fig. 1 gezeigt ist, in dem entweder die vi suellen Daten, oder die akustischen Daten auf Null gesetzt sind. Es kann vernünftigerweise erwartet werden, daß eine Verbesserung eines AO-Systems durch visuelle Daten, die Klassifikationsgenauigkeit vor allem unter widrigen akusti schen Umgebungsbedingungen erhöht. Es werden drei Ausfüh rungsformen eines kombinierten akustischen und visuellen Spracherkennungssystems beschrieben.

Das erste, was als A×V-System bezeichnet wird und in Fig. 8 gezeigt ist, umfaßt einen AO-Sprachklassifikator 400 und einen VO-Sprachklassifikator 500 zusammen mit einer zusätz lichen Netzwerkschicht 250, um die Ausgangswahrscheinlich keiten beider Systeme in einem einzigen Satz von Wahr scheinlichkeiten zu kombinieren.

Der AO-Klassifikator 400 umfaßt einen Spektralanalysator 24 mit einer logarithmischen Mel-Skala, der das elektrische Analogon eines Sprachsignals aufnimmt und als Ausgang einen zehnkomponentigen akustischen Vektor produziert, der als Eingang des akustischen TDNN-Klassifikators 410, der be reits beschrieben wurde, benutzt wird. Der Ausgang des AO- Klassifikator 400 ist ein Wahrscheinlichkeitsvektor, der die Wahrscheinlichkeit dafür angibt, daß jede der zehn zu lässigen akustischen Äußerungen ausgesprochen wurde, wobei nur akustische Daten zugrundegelegt wurden. Er wird an den Wahrscheinlichkeitsverknüpfer 250 geführt.

In ähnlicher Weise benutzt der VO-Klassifikator 500 ein elektrisches Bild der Vergleichsmarken, um einen Lippen- und Gesichtsmerkmalsvektor zu definieren, der mit dem ent sprechenden akustischen Merkmalsvektor als ein Eingang an den Lippen- und Mundpositionsvektorgenerator 14 assoziiert ist. Der visuelle Ausgangsvektor, der durch das Vergleichs markennachführsystem und den Vektorgenerator der Einheit 14 erzeugt wurde, wird auf einen akustischen TDNN-Klassifika tor 510 gegeben, der einen zehnkomponentigen visuellen Wahrscheinlichkeitsvektor produziert, der dann an die den Wahrscheinlichkeitsverknüpfer 250 gegeben wird, der die Wahrscheinlichkeit, daß eine der möglichen zehn Äußerungen nur auf der Basis visueller Daten stattgefunden hat, an gibt.

Es wird angenommen, daß p(c : A) die bedingte Wahrscheinlich keit, daß die Äußerung c stattgefunden hat, wenn der damit verbundene akustische Datenvektor A gegeben ist und p(c : V) die bedingte Wahrscheinlichkeit ist, daß die Äußerung c stattgefunden hat, wenn der assoziierte visuelle Datenvek tor, V, gegeben ist. Damit entspricht p(c : A) dem c-ten Wert des Vektorausgangs des Klassifikators 410, der auf dem Vek tor A, der durch Spektralanalysator 24 erzeugt worden ist, basiert; p(c : V) entspricht dem c-ten Wert des Vektoraus gangs des Klassifikators 510, der auf Vektor V, der durch Generator 14 gegeben wurde, basiert.

Wenn die Vektoren A und V unabhängig voneinander sind, ist die kombinierte Wahrscheinlichkeit der c-ten Äußerung, wenn A und V gegeben sind

p(c : A, V)=p(c : A)·p(c : V)/p(c),

wobei p(c) die a priori Wahrscheinlichkeit dafür ist, daß Äußerung c eintritt. Dies ist der erwünschte Ausgang des Wahrscheinlichkeitsverknüpfers 250.

Da p(c : A) und p(c : V) vielleicht nicht streng unabhängig voneinander unabhängig sind und aufgrund von Fehlern bei der Abschätzung dieser Werte und weil p(c) vielleicht nicht bekannt ist, erzeugt der Wahrscheinlichkeitsverknüpfer in der Tat das skalierte Produkt

p(c : A, V)=k·p(c : A)·p(c : V),

wobei k ein Normalisierungsfaktor ist, der dazu verwendet wird, die zehn Ausgangswahrscheinlichkeiten so zu skalie ren, daß sichergestellt ist, daß ihre Summe 1 ergibt. Der Wahrscheinlichkeitsverknüpfer 250 bildet das Produkt der entsprechenden Terme von jedem der zehnkomponentigen Ein gangsvektoren und summiert dann die zehn resultierenden Produktterme,

auf, um die für die normalisierte Verbundswahrscheinlich keitsschätzung

zu bilden, wobei

Der Produktterm in obigem Ausdruck kann auf verschiedene Weise gebildet werden einschließlich analoger oder digita ler Multiplikatoren und sigma-pi (ΣΠ) Neuralzellen- Netzwerken, bei denen die entsprechenden p(c : A) und p(c : V) Terme dazu verwendet werden, um sich gegenseitig zu ver knüpfen ("steuern"). In ähnlicher Weise kann derselbe Term durch ein ΣΠ-Neuralzellennetzwerk mit 20 Eingängen erzeugt werden, indem sich die entsprechenden A und V Wahrschein lichkeitsvektorkomponenten gegenseitig verknüpfen ("steuern"), um Produktterme zu bilden, wobei der Ausgang durch die Summe der Produktterme gebildet wird. Die Divi sion von jedem der Produkte durch den Summenterm kann in kompatibler Technologie unter Verwendung analoger oder numerischer Computervorrichtungen implementiert werden.

Fig. 9 zeigt eine hardware-getreue Ausführungsform eines A×V-System-TDNN-Sprachklassifikators 200. Akustische und visuelle Datenvektoren werden in Verzögerungsleitung (DL) 302 und 301 entsprechend in 10 ms-Intervallen getaktet. Die akustischen und visuellen Datenflüsse folgen verschiedenen Pfaden bis zur letzten NCA3-Stufe. Unter Bezugnahme auf Fig. 7 ist ersichtlich, daß der akustische Eingangsdaten vektor in Fig. 9 in derselben Art und durch dieselbe Hard ware verarbeitet wird, wie im AO-Prozeß bis zu NCA3 314, die in der Mittlungsschicht liegt. In ähnlicher Weise wird der visuelle Datenvektor, V, in Fig. 9 in derselben Art, wie es in Fig. 6 für das VO-System beschrieben ist, verar beitet mit Ausnahme der letzten NCA3 314-Einheit. Die Endwahrscheinlichkeiten p(c : A, V) werden durch die zehn Sigma-Pi-Neuralzellen gebildet, die NCA3 314 und die Norma lisierungseinheit 255 umfassen. Die Normalisierungseinheit 255 liefert den Skalierungsfaktor, k, um die zehn Ausgangs vektorkomponenten p(c : A, V)=k·p(c : A)·p(c : V) für c=1, 2, . . . , 10 zu bilden.

Obwohl ein TDNN basierter akustischer AO-Prozessor be schrieben wurde, ist dieser nicht notwendig für die A×V- Ausführungsform. Das A×V-System kann unter Verwendung eines beliebigen akustischen Spracherkennungsprozessors, der funktionell äquivalent ist, konstruiert werden, selbst wenn es kein TDNN verwendet. Die Ausgänge der AO- und VO-Unter systeme wurden, wie oben beschrieben, verknüpft, um eine akuratere Klassifikation zu liefern, als dies jedes der Einzelsysteme selbst bewerkstelligen würde. In ähnlicher Weise kann ein beliebiger akustischer Vektorgenerator, der einen effektiven akustischen Vektor produziert, der die Äußerung mit ausreichender statistischer Verläßlichkeit charakterisiert, als einen akustischen Vor-Prozessor in je dem beliebigen verknüpften akustischen und visuellen Spracherkennungssystem verwendet werden.

Auf Fig. 10, einer anderen Ausführungsform des TDNN-Klassi fikators 200 aus Fig. 1, wird als AV-System-Klassifikator bezug genommen. In diesem Fall werden die Vektoreingänge A und V getrennt durch die verborgene Schicht 220, die NCA1 310 und NCA 309 umfaßt, verarbeitet. Die Ausgangswerte der verborgenen Schicht werden in DLA 304 und DLA 303 abgespeichert, wo das akustische 4×25 Feld von Werten von DLA 304 und das 4×10 Feld von Werten von DLA 303 auf die zehn Neuralzellen mit 140 Eingängen (N35-N44) von NCA2 313 gegeben werden. Diese frühere Zusammenführung akustischer und visueller Daten führt zu einer größeren Menge von Über schneidungstermen, auf die hin eine Lösung im Trainingspro zeß gesucht werden muß, was im allgemeinen zu einer besse ren Funktion des Gesamtsystems führt.

Nach der Verarbeitung durch NCA2 313 werden die Resultate an die Mittlungsschicht 240 weitergegeben. NCA3 315 umfaßt zehn Neuralzellen (N45-N55), die jeweils mit einer der zehn Verzögerungsleitungen in DLA 307 arbeiten. Das nicht-norma lisierte Wahrscheinlichkeitsprodukt p(c : A) · p(c : V) wird durch NCA3 315 gebildet und an die Normalisierungeinheit 255 zur Bildung der Endausgangswahrscheinlichkeit p(c : A, V) weitergegeben.

Fig. 11 zeigt einen weiteren Entwicklungsschritt auf dem Weg der Verknüpfung der Verarbeitung der akustischen und visuellen Daten zum frühestmöglichen Level bzw. Zeitpunkt. Nach dem Empfang und der Speicherung einer ausreichenden Menge akustischer oder visueller Eingangsdaten in DLA 302 und 301 kann es zur Bildung von Überkreuzungstermen in der verborgenen Schicht 220 dadurch kommen, daß jedes der acht Neuronen auf den verknüpften 14×5 und 5×20 Datenfel dern, die von DLA 302 und 301 vorgegeben sind, operiert. Der Ausgang der verborgenen Schicht wird in DLA 308 abge speichert und durch NCA2 313 der Klassifikationsschicht 230 weitergeleitet. Der Ausgang wird dann, wie oben in Fig. 10 beschrieben, bearbeitet.

In den TDNN-Strukturen der Fig. 7, 9, 10 und 11 werden zwei verschiedene Grundtypen von Neuralzellen verwendet. NCA1 der verborgenen Schicht 220 und NCA3 der Mittlungsschicht 240 umfassen konventionelle McColluch-Pitts (M-P) Neural zellen, wie sie in Fig. 12 gezeigt sind. Auf einen Ein gangsdatenvektor x, der am Eingangskontakt 601 besteht, wird durch den Gewichtsvektor w unter Verwendung der Ge wichtsmultiplikationselemente 603 eingewirkt. Das Summa tionsnetzwerk 605 summiert die x_iw_i-Terme, die durch das Multiplikationselement 603 gebildet wurden, was zu dem vektoriellen Skalarprodukt

führt, das am Ausgang des Summators 605 gebildet wird. Das vektorielle Skalarprodukt und der Offset werden an die Ak tivierungsfunktionseinheit 609 gegeben, die das Ausgangs signal f(z)=f(x^Tw+offset). Ein Offsetwert kann durch den Eingang 607 an den Summator 605 gegeben werden.

Die Aktivierungsfunktionseinheit 609 kann einen von ver schiedenen Typen von Übertragungscharakteristiken, wie sie z. B. in Fig. 13 gezeigt sind, haben. Die Übertragungscha rakteristik in Fig. 13(a) ist f(z)=tanh z, eine hyperbo lische Tangensfunktion des Eingangssignals z. Dies ist ein Beispiel einer großen Menge semilinearer zusammendrückender S-Funktionen, die in NCA1 der verborgenen Schicht verwendet werden können. Fig. 13(b) zeigt eine lineare Übertragungs funktion, f(z)=mz+offset. Diese Form der Aktivierungs funktion wird in den Neuralzellen von NCA3 der Mittelungs schicht 240 (mit einem Offset, der Null ist) verwendet.

Fig. 13(c) zeigt eine exponentielle Aktivierungsfunktion, f(z)=e^z/T, wobei T ein positiver "Temperatur"-Parameter ist, der effektiv den Basiswert, e^1/T, verändert, der dann durch den Eingangswert z exponentiert wird. Die exponen tielle Form der Aktivierungsfunktion wird verwendet, um die Wahrscheinlichkeit eines Satzes unbekannter Variablen (der Satz zulässiger Äußerungen) in Einklang mit "Parallel Distributed Processing: Explorations in the Microstructure of Cognition", Vol. 1: Foundations, Rumelhart, et al., The MIT Press, Cambridge, MA, 1986, Kapitel 6, Seiten 194-281, zu bilden. Die exponentielle Aktivierungsfunktion wird in den M-P-artigen Neuralzellen von NCA2 der Klassifikations schicht 230 verwendet.

Der zweite Typ von Neuralzellen, der in NCA4 der TDNN- Struktur von Fig. 9 verwendet wird, ist als Zelle vom Sigma-Pi (ΣΠ)-Typ, die in Fig. 14 gezeigt ist, bekannt. Anders als die M-P-Zellen in Fig. 12, wo ein einzelner Ein gangsdatenvektor auf einen Satz kontrollierbarer oder steuerbarer Wichtungen oder Gewichte {w_i} gegeben wird, nehmen ΣΠ-Neuralzellen in ihrer einfachsten Form zwei Ein gangsdatenvektoren x und y an den Eingangskontaktsätzen 701 bzw. 702 entsprechend auf. Die entsprechenden Eingangsvek torkomponenten x_i und y_i werden auf die Multiplikatorein heiten 703 gegeben, um die x_i·y_i-Produktterme zu bilden, die zusammen mit einem Offsetterm, der auf den Offsetein gangskontakt 707 gegeben wird, durch ein Summationsnetzwerk 705 summiert werden. Der Ausgang des Summators

ist das vektorielle Skalarprodukt von x und y plus einem Offset, der als Eingang an Aktivierungsfunktionseinheit 709 mit Übertragungscharakteristik f(0) gegeben wird. Die ΣΠ- Neuralzelle von Fig. 14 wird in dem A×V-Netzwerk in Fig. 9 verwendet, um die Summe der Produkte der zehn p(c : A)-Werte und der entsprechenden zehn p(c : V)-Werte in NCA4 der Mitt lungsschicht 240 (der Offset-Wert = 0) zu bilden.

Aufgrund der in der Neuralzelle benutzten differenzierbaren Aktivierungsfunktionseinheit (siehe Fig. 12, 13 und 14) wur de eine Form des gut bekannten Rückwärtsausbreitungsalgo rithmus (beschrieben durch Rumelhart, D.E., u. a. in "Learning Internal Representations by Error Propagation", 318-362 (Kapitel 8) von "Parallel Distributed Processing", Vol. 1: Foundations, The MIT Press, Cambridge, MA, 1960) verwendet, um die Neuralnetzwerksgewichte zu trainieren. Die Fehlerfunktion des Ausgangs während des Trainings war bedeutend verschieden von der, die in obiger Druckschrift beschrieben ist.

Wenn es die Aufgabe eines Neural-Netzwerkes ist, die Klasse auszuwählen, zu der ein Eingangsmuster gehört, wenn alle Eingangsmuster nur einer einzigen Klasse angehören (eine Eins aus n Klassifizierung) und wenn der Ausgang des Neu ral-Netzwerkes aus n Werten besteht, die repräsentativ für eine Wahrscheinlichkeitsverteilung (d. h. die Summe der Werte=1) sind, so ist die Fehlermetrik für einen einzel nen Trainingsklassifikationsversuch

Fehler = -ln{(c_l)},

wobei c_l die korrekte Klassifizierung des l-ten Klassenmit glieds ist und (c_l) der Versuchswert des Ausgangs ist, der die Wahrscheinlichkeit dafür darstellt, daß die Eingangsda ten zu Klasse c_l gehören. Da die wahre Wahrscheinlichkeit dafür, daß die Eingangsäußerung, c_l, eins ist (Sicherheit), muß obiger Ausdruck für den Fehler neu geschrieben werden als die Differenz von Logarithmen der wahren und Versuchs wahrscheinlichkeiten (p(c_l) bzw. (c_l) entsprechend), oder

Fehler = ln{p(c_l)} - ln {(c_l)} = ln {p(c_l)/(c_l)}.

Diese Fehlermetrik nutzt das Verhältnis der Wahrscheinlich keiten. Wenn in Erinnerung gerufen wird, daß die Wahr scheinlichkeiten durch die exponentiellen Aktivierungsfunk tionen (Fig. 13(c)) gebildet wurden, liefert die Substitu tion von

wobei z_l bzw. _l die korrekten und Versuchswerte des Ein gangs, z, für das l-te Neuralzellaktivierungsfunktionsklas sifikationsnetzwerk sind. Der negative Logarithmus der Versuchsausgangswahrscheinlichkeit ist deshalb ein Maß für den Fehler, der dadurch erzeugt wird, daß das Signal am Klassifikationsniveau einschließlich des Fehlers, der durch die Gewichte der l-ten Neuralzelle von NCA2 beigetragen wird, ankommt. Durch die Verwendung von Trainingsmustern, die repräsentativ für alle zu klassifizierenden Äußerungen sind, kann diese logarithmische Fehlerfunktion deshalb zum Training des TDNN-Netzwerks verwendet werden.

Experimente wurden unter Verwendung der beschriebenen Sy steme durchgeführt, um zehn gesprochene Buchstaben B, D, F, M, N, P, S, T, V und Z zu unterscheiden. Akustische und visuelle Information wurde von vier männlichen Versuchsper sonen, die amerikanisches Englisch als Muttersprache spre chen, gesammelt. Jeder Sprecher sprach jeden der Buchstaben fünfmal. Ein Beispiel des durch einen Sprecher gesprochenen Buchstabens P erwies sich aufgrund eines Fehlers im visu ellen Nachführungssystem als nicht nutzbar, was zu einer Gesamtzahl der Belegungsbits von 199 anstatt 200 führte. Jedes Belegungsbit wurde in einen visuellen (VO), akusti schen (AO), vollakustischen und Video (AV) Vektor zur wie oben beschriebenen Nutzung in der Klassifikationsschicht 230 umgewandelt.

Vier der fünf wiederholten Buchstabenäußerungen, die für jeden der zehn Buchstaben von den vier Sprechern gesprochen wurden (160 Muster), wurden für das Training verwendet. Die verbleibenden 39, die vier Beispiele für jeden Buchstaben mit Ausnahmen von drei für den Buchstaben P, wie oben be merkt, enthielten, wurden zum Testen verwendet.

Jedes der drei Netzwerke wurde unter Verwendung des Rück wärtsausbreitungsalgorithmus zur Auffindung des Satzes von Gewichten, die zum kleinsten Fehler für die Beispiele des Trainingssatzes führen, trainiert. Eine Lernratenkon stante von η=0,001 und Impulskonstante von α=0,9 wurde für den VO- und AO-Fall verwendet, wohingegen Konstanten von η=0,0002 und α=0,9 für den vollen AV-Fall verwendet wurden. Das volle AV-Netzwerk wurde durch Verknüpfung der trainierten AO- und VO-Netzwerke und Hinzufügen von Kreuz modell-Verbindungen zwischen den verborgenen A und V Schichten und der Klassifikationsschicht gebildet. Das Ler nen ging weiter, bis der Lernfehler über die letzten paar Hundert Trainingsiterationen nur noch eine vernachlässigba re Änderung aufwies. Die Softwaresimulation des Spektral analysators 24, des Lippen- und Mundpositionsvektorgenera tors 14 und TDNN-Sprachklassifikators 200 wurden auf einem Sun Sparcstation 2-Computer, hergestellt von Sun Micro systems, Inc., 2550 Garcia Avenue, Mountain View, California 94043-1100, durchgeführt. Das Training dauerte ungefähr 20 Sekunden je Trainingsiteration für das kompli zierteste volle AV-Netzwerk und weniger für die anderen. Alle 50 Trainingsiterationen wurden die Gewichte des Netz werks aufgezeichnet und der Fehler für das Testset berech net. Fig. 15 zeigt die fortschreitende Fehlerreduktion als Funktion der Zahl der Trainingsiterationen, die für den VO-, AO- und vollen AV-Fall verwendet wurden. Die gepunkte te Linie stellt den Fehler bei Verwendung eines Testsets aus Eingangsdaten dar, wohingegen die durchgezogene Linie den Fehler darstellt, den man beobachtet, wenn man das Trainingsset zum Testen verwendet. Wie erwartet, führt der zuletzt genannte Satz im allgemeinen zu einem geringeren Fehler.

Nachdem der "beste" Satz von Gewichten durch den Trainings prozeß für jeden der drei Fälle gefunden worden war, wurden Verwaschungsmatrizen für die Testdaten erzeugt. Für jede Buchstabenäußerung wurde das Mittel der Ausgangsverteilun gen über alle Testsatzbeispiele dieses Buchstabens berech net. Fig. 16 zeigt die resultierenden Verwaschungsmatrizen für die VO-, AO-, A×V- und die vollen AV-Netzwerke. Jede vertikale Spalte wird durch den als Eingang präsentierten, gesprochenen Buchstaben bezeichnet; jede horizontale Zeile stellt die Ausgangsbuchstaben dar, die mit ihren dazugehö rigen Wahrscheinlichkeiten, die durch die Größe jedes Krei ses angedeutet sind, ausgewählt wurden. Die Prozentzahl un ter jeder Verwaschungsmatrix entspricht der Gesamtgenauig keit des Systems.

Bemerkenswert ist die Verwaschung der /bi/- und /di/-Phone me in dem AO-Netzwerk und die asymmetrische Verwaschung der /bi/- und /pi/-Phoneme in dem VO-System. Obwohl /pi/ leicht mit /bi/ in dem VO-System verwechselt werden kann, können sie leicht in dem AO-System getrennt werden. Auf der ande ren Seite unterscheidet das VO-System problemlos zwischen /bi/ und /di/. Bemerkenswert ist auch die akustische (AO) Ähnlichkeit der /em/- und /en/-Phoneme, die sich im wesent lichen in dem akustisch subtilen Merkmal der Nasalität un terscheiden und klar in dem VO-System unterschieden werden. Das VO-System hat die Tendenz, /di/ und /ti/ miteinander zu verwechseln, das AO-System jedoch nicht. Das A×V-System eliminiert im wesentlichen diese und andere Verwechslungen, was durch die hohen Wahrscheinlichkeiten für die Klassifi zierung entlang der Hauptdiagonalen unter Beweis gestellt wird.

Obwohl man vernünftigerweise erwarten kann, daß das volle AV-System mit einer Gesamtgenauigkeit von 87% besser als das A×V-System mit einer gemessenen Genauigkeit von 91% aufgrund der Tatsache sein sollte, daß das volle AV-System Assoziationen auf einem niedrigeren (verborgene Schicht) Niveau lernen kann, zeigen Testergebnisse das Gegenteil. Dieses Resultat legt nahe, daß der 19elementige volle AV- Vektor nicht genau die Synchronisation zwischen den 10 aku stischen Elementen und den 5 visuellen Elementen des Ge samtvektors aufrechterhielt, da sie getrennt durch ihre entsprechenden Vorprozessoren verarbeitet wurden. Im Fall des A×V-Systems war die Synchronisation weniger kritisch, da die akustischen und visuellen Vektoren durch getrennte TDNN′s verarbeitet wurden. Mit anderen Worten könnten Kor relationen auf niedriger Ebene zwischen den Trainingsmu stern so verändert worden sein, daß das volle AV-Netz diese Information nicht gewinnbringend nutzen konnte.

Die relative Unempfindlichkeit des A×V-Systems gegenüber akustischem Rauschen wurde durch eine Simulation unter Be weis gestellt, bei der Rosa-Rauschen durch Hinzufügen einer vom Spektralanalysator erzeugten Zufallsvariable zu jedem Vektor A mit einer Standardabweichung von 0,4 hinzugefügt wurde. Unter diesen Bedingungen hatte das AO-Netzwerk eine Gesamtgenauigkeit von 43%, während das A×V-Netzwerk eine Genauigkeit von 74% hatte. Diese verbesserte Genauigkeit wurde ohne Anpassung irgendwelche frei veränderlicher Para meter, wie z. B. einer Veränderung des Verhältnisses der akustischen und visuellen Beiträge, erreicht.

In obiger Darstellung wurden zahlreiche spezifische Details, wie z. B. die spezifische Zahl von Äußerungen, Da tenbeispiele, Einrichtungen, usw. angegeben, um ein voll ständiges Verständnis der Ausführungsform zu ermöglichen. Es wird jedoch für jeden Fachmann auf dem Gebiet klar sein, daß die vorliegende Erfindung auch ohne diese spezifischen Details ausgeführt werden kann. In anderen Fällen wurden wohlbekannte Schaltkreise nicht in Detail gezeigt oder nur als Blockdiagramm dargestellt, um die vorliegende Erfindung nicht unnötigerweise unverständlicher zu machen.

Claims

1. Spracherkennungssystem zur Erkennung von Äußerungen, die zu einem vorher etablierten Satz von zulässigen Kandi daten-Äußerungen gehören, gekennzeichnet durch

a) einen akustischen Merkmalsextraktionsapparat zur Um wandlung von Signalen, die repräsentativ für akusti sche Sprache sind, in einen entsprechenden akustischen Merkmalsvektorsatz von Signalen;
b) einen Apparat für die Extraktion dynamischer visueller Merkmale zur Umwandlung der Begleitsignale, die für die dynamischen Gesichtsmerkmale repräsentativ sind, die mit der akustischen Spracherzeugung verbunden sind in einen entsprechenden visuellen Merkmalsvektorsatz von Signalen; und
c) einen Neural-Netzwerks-Klassifikationsapparat zur Er zeugung einer bedingten Wahrscheinlichkeitsverteilung der zulässigen Kandidaten-Sprechäußerungen durch ent sprechende Aufnahme und Verarbeitung der dynamischen akustischen und visuellen Merkmalsvektorsätze, die durch den akustischen und visuellen Merkmalsextrak tionsapparat gegeben werden.

2. Spracherkennungssystem nach Anspruch 1, dadurch ge kennzeichnet, daß der akustische Merkmalsextraktionsapparat einen logarithmischen Leistungsspektrumsanalysator umfaßt.

3. Spracherkennungssystem nach Anspruch 2, dadurch ge kennzeichnet, daß der Spektralanalysator ein nicht gleich förmiger Bandbreitenanalysator ist.

4. Spracherkennungssystem nach Anspruch 3, dadurch ge kennzeichnet, daß der Spektralanalysator ein gleichförmiger Mel-Bandbreitenspektralanalysator ist.

5. Spracherkennungssystem nach Anspruch 2, dadurch ge kennzeichnet, daß der akustische Merkmalsextraktionsapparat des weiteren ein Mikrophon und damit zugeordneten bzw. verbundenen Signalbearbeitungsapparat zur Erfassung der akustischen Sprachsignale umfaßt.

6. Spracherkennungssystem nach Anspruch 1, dadurch ge kennzeichnet, daß der visuelle dynamische Merkmalsextrak tionsapparat des weiteren eine Wandlereinheit zum Abtasten der Bewegung ausgewählter Gesichtsmerkmale und zur Umwand lung der abgetasteten Bewegung in ein elektrisches Signal, das repräsentativ für die Bewegung ist, zur Nutzung bei der Erzeugung des visuellen dynamischen Merkmalsvektorsatzes von Signalen umfaßt.

7. Spracherkennungssystem nach Anspruch 6, dadurch ge kennzeichnet, daß die abgetasteten Gesichtsmerkmale die ausgewählte Bewegung der vertikal gegenüberliegenden Ober- und Unterlippenpositionen, der Mundwinkelposition, der Na sen- und der Kinnposition umfaßt.

8. Spracherkennungssystem nach Anspruch 7, dadurch ge kennzeichnet, daß der visuelle dynamische Merkmalsextrak tionsapparat folgendes umfaßt:

a) eine Videokamera zur Produktion einer dynamischen Bildpunkt-Bilddarstellung des Mundes und der Lippen des entsprechenden Sprechers; und
b) eine Vorrichtung zur Charakterisierung der Mundform aus durch die Videokamera erzeugten Videoeinzelbil dern, durch Messung der Vielfalt der Abstände zwischen den mit den Ober- und Unterlippen verbundenen Schat ten.

9. Spracherkennungssystem nach Anspruch 7, dadurch ge kennzeichnet, daß der visuelle Merkmalsextraktionsapparat aus den abgetasteten Gesichtspunkten, die die Entfernungen zwischen den Kopf- und Kinnpositionen, zwischen den verti kal gegenüberliegenden Ober- und Unterlippenpositionen und zwischen den Mundwinkelpositionen umfaßt, visuelle Merk malsvektorkomponenten erzeugt.

10. Spracherkennungssystem nach Anspruch 9, dadurch ge kennzeichnet, daß die Gesichtsabstände bezüglich der Ge sichtsgröße und des Lippenabstandes in Ruheposition norma lisiert sind.

11. Spracherkennungssystem nach Anspruch 1, dadurch ge kennzeichnet, daß der Neural-Netzwerks-Klassifikationsappa rat folgendes umfaßt:

a) ein verborgene-Schicht-Zeitverzögerungs-Neural-Netz werk, das mit den Ausgängen des akustischen und visu ellen Merkmalsextraktionsapparates zur Verbesserung zeitabhängiger Merkmale verbunden ist;
b) ein Klassifikationsschichts-Zeitverzögerungs-Neural- Netzwerk, das mit dem Ausgang der Neuralzellen der verborgenen Schicht zur Erzeugung eines Satzes zeit lich veränderlicher Ausgangssignale, von denen jedes für die Wahrscheinlichkeit, daß die entsprechende Äußerung stattgefunden hat, repräsentativ ist, verbun den ist; und
c) ein Mittelungsschichtapparat, der mit dem Ausgang der Klassifikationsschicht zur Erzeugung eines Satzes zeitlich veränderlicher Ausgänge - jeweils einen für jeden zulässigen Äußerungstyp, der repräsentativ für die Gesamtwahrscheinlichkeit ist, daß die damit ver bundene Äußerung gesprochen wurde - verbunden ist.

12. Spracherkennungssystem nach Anspruch 11, dadurch ge kennzeichnet, daß der Neural-Netzwerks-Klassifikationsappa rat des weiteren Vorrichtungen zur Normalisierung der Ver knüpfungswahrscheinlichkeiten, die mit dem Ausgang des Mit telungsschichtsapparats verbunden sind, umfaßt.

13. Spracherkennungssystem nach Anspruch 11, dadurch ge kennzeichnet, daß das verborgene-Schicht-Zeitverzögerungs- Neural-Netzwerk einen getrennten akustischen und visuellen Zeitverzögerungs-Neural-Netzwerks-Merkmalsextraktionsappa rat umfaßt.

14. Spracherkennungssystem nach Anspruch 13, gekennzeich net durch:

a) getrennte akustische und visuelle Zeitverzögerungs- Neural-Netzwerks-Klassifikationsapparate in der Klas sifikationsschicht, die jeweils nur mit ihrem entspre chenden akustischen und visuellen verborgene-Schicht- Merkmalsextraktionsapparat verbunden sind;
b) eine getrennte akustische und visuelle Mittelungsvor richtung in der Mittelungsschicht zur Erzeugung zeit lich veränderlicher Ausgänge, die repräsentativ für die Wahrscheinlichkeit, daß die damit verbundene Äuße rung gesprochen wurde, sind; und
c) einer Wahrscheinlichkeitsverknüpfungsvorrichtung zur Bildung einer Abschätzung für die Äußerungswahrschein lichkeitsverteilung, indem man die getrennten entspre chenden Wahrscheinlichkeitspaare, die am Ausgang der getrennten akustischen und visuellen Klassifikations apparate erzeugt werden, miteinander multipliziert.

15. Spracherkennungssystem nach Anspruch 1, dadurch ge kennzeichnet, daß es des weiteren Vorrichtungen zur Auswahl des wahrscheinlichsten Kandidaten für den Neural-Netzwerks- Klassifikationsapparat umfaßt.

16. Spracherkennungssystem zur Erkennung von Äußerungen, die zu einem vorher etablierten Satz zulässiger Äußerungen eines Kandidaten gehören, gekennzeichnet durch:

a) einen visuellen Merkmalsextraktionsapparat zur Umwand lung von Signalen, die repräsentativ für die Gesichts merkmale, die mit der akustischen Spracherzeugung ver bunden sind, sind in einem entsprechenden visuellen Merkmalsvektorsatz von Signalen; und
b) einen Zeitverzögerungs-Neural-Netzwerks-Klassifika tionsapparat, der zur Erzeugung einer bedingten Wahr scheinlichkeitsverteilung der zulässigen Äußerung des Kandidaten mit dem Ausgang des visuellen Merkmals extraktionsapparats verbunden ist.

17. Spracherkennungssystem nach Anspruch 16, dadurch ge kennzeichnet, daß der Neural-Netzwerks-Klassifikationsappa rat folgendes umfaßt:

a) ein verborgene-Schicht-Zeitverzögerungs-Neural-Netz werk, das mit den Ausgängen des akustischen und visu ellen Merkmalsextraktionsapparats zur Verbesserung zeitabhängiger Merkmale verbunden ist;
b) ein Klassifikations-Schicht-Zeitverzögerungs-Neural- Netzwerk, das mit dem Ausgang der Neuralzellen in der verborgenen Schicht zur Erzeugung eines Satzes zeit lich veränderlicher Ausgangssignale verbunden ist, die repräsentativ für die Wahrscheinlichkeit, daß die ent sprechende Äußerung stattgefunden hat, sind; und
c) einen Mittelungsschicht-Apparat, der mit dem Ausgang der Klassifikationsschicht zur Erzeugung eines Satzes zeitlich veränderlicher Ausgänge - einen für jeden zu lässigen Äußerungstyp, der repräsentativ für die Ver knüpfungswahrscheinlichkeit der damit verbundenen ge sprochenen Äußerung ist - verbunden ist.