DE4436692A1

DE4436692A1 - Trainingssystem für ein Spracherkennungssystem

Info

Publication number: DE4436692A1
Application number: DE4436692A
Authority: DE
Inventors: David G Stork; Gregory Joseph Wolff
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1993-10-14
Filing date: 1994-10-13
Publication date: 1995-04-20
Anticipated expiration: 2014-10-14
Also published as: DE4436692C2; US5621858A

Description

Die Erfindung betrifft ein Trainingssystem für ein Spracherken nungssystem. Ferner bezieht sich die Erfindung auf das Gebiet einer maschinellen Spracherkennung und betrifft insbesondere die Verbes serung einer akustischen Spracherkennung indem ein maschinelles Lippenlesen in Verbindung mit akustischen Daten in einem neuronalen Netzwerk-Klassifikationssystem angewendet wird.

Das Ziel einer automatischen oder maschinellen Spracherkennung be steht darin, ein System so auszulegen, daß es der menschlichen Fä higkeit angenähert ist, gesprochene Sprache bei Änderungen in der Betonung des Sprechers, des Geschlechts, der Sprechgeschwindig keit, des Artikulationsgrades zu verstehen, somit alles Elemente, die in akustischen Distraktoren und Geräuschen vorhanden sind. Die der zeit vorhandenen automatisierten Geräte haben eine geringere Genau igkeit und Robustheit als das, was notwendig ist, um die sehr hohen Anforderungen in solchen Anwendungsfällen, wie einer Computer- Sprache-Text-Umwandlung, einer automatischen Übersetzung und bei auf Sprache basierenden Steuersystemen voll zu genügen. Typische Lösungen enthalten versteckte Markov-Modelle, bei welchen Über gangswahrscheinlichkeiten in Verbindungsgliedern zwischen Knoten punkten (Zuständen) codiert werden, welche phonetische Segmente darstellen, und "Blackboard"-Methoden, bei welchen mehrere speziel le phonologische, lexikalische und auf Grammatik basierende Untersy steme verknüpft werden, um synergetisch zu arbeiten, um Spracher kennungsergebnisse (score) zu maximieren. In letzter Zeit sind neuro nale Netzwerke mit einem gewissen Erfolg in begrenzten Bereichen an gewendet worden, wie beispielsweise von A. Waibel in einem Artikel mit dem Titel "Modular Construction of Time-Delay-Neural Networks for Speech Recorgnition" beschrieben worden ist, was in Neural Compu tation 1, Stn. 39 bis 46 (1989) veröffentlicht ist.

Eine vorausgesagte Informationsquelle und irgendwelche Beschränkun gen, die vernünftigerweise in ein künstliches System eingebracht wer den können, erhöhen im allgemeinen die Erkennungsgenauigkeit und es ist folglich wünschenswert, daß sie in einem Spracherkennungssystem enthalten sind. Üblicherweise ist die beste Untersuchung auf das Ein beziehen einer auf hohem Pegel liegenden, linguistischen Information, wie grammatikalischen und syntaktischen Daten, konzentriert worden.

Menschen können auch Information außer dem akustischen Signal ver wenden, um das Verständnis zu verbessern. Beispielsweise benutzen schwerhörige bzw. hörgeschädigte Personen oft visuelle Information für ein "Sprachelesen", um die Erkennungsgenauigkeit zu verbessern. (Siehe beispielsweise Dodd, B. und Campbell, R. (eds.), "Hearing by Eye: The Psychology of Lipreading", Hillsdale, N.J., Lawrence Erlbaum Press (1987); oder DeFilippo, C.L. und Sims, D.G. (eds.), "New Reflections on Speechreading", special issue of The Volta Review 90(5), (1988).

Ein Sprachelesen kann direkte Information über Sprachsegmente und Phoneme sowie über die Sprechgeschwindigkeit, das Geschlecht des Sprechenden und dessen Identität sowie subtile Information dadurch schaffen, daß Sprache von Hintergrundrauschen getrennt wird. Der be kannte "Cocktail-Party-Effect", bei welchem Sprache, welche durch Geräusche aus dem Menschengedränge verfälscht worden ist, merklich verständlicher wird, wenn man das Gesicht des Sprechenden sehen kann, stellt ein starkes Indiz dafür dar, daß Menschen visuelle Infor mation zur Spracherkennung benutzen.

Mehrere Sprachlesesysteme sind in letzter Zeit beschrieben worden, nämlich

a) Petajan, E.D., et al., "An Improved Automatic Lipreading System to Enhance Speech Recognition", ACM SIGCHI-88, Stn. 19 bis 25, (1988);
b) Pentland, A., et al., "Lip Reading: Automatic Visual Recognition of Spoken Words", Proc. Image Understanding and Machine Vision, Op tical Society of America, Juni 12 bis 14 (1984) und
c) Yuhas, B.P., et al., "Integration of Acoustic and visual Speech Signals Using Neural Networks", Nov. 1989, IEEE Communications Magazine (1989).

Petajan, et al. benutzten schwellenwert-beaufschlagte Bilder (Pixels) eines Sprechergesichts während der Erzeugung eines Wortes zusammen mit einem Wörterbuch von vorher gespeicherten und markierten Sprechweisen und einem Normabstand-Klassifikator für visuelle Er kennung.

Pentland, et al. verwendeten eine optische Verlauftechnik, um die Ge schwindigkeit der Oberlippe, der Unterlippe und der beiden Mundwinkel von dem unverarbeiteten Pixel-Video-Bild des Mundes zu schätzen. Sie verwendeten dann eine Null-Kreuzungs-Strategie, um drei- und vier stellige Phrasen zu klassifizieren.

Yuhas, et al., trainierten ein neuronales Netzwerk mit Hilfe statischer Bilder der Mundform für eine Vokal-Erkennung zusammen mit einer Kontrolleinheit mit freien Parametern, um die relativen Wertigkeiten von visuellen und akustischen Beiträgen zum besten Erkennen beim Vorhandensein unterschiedlicher Pegel bei akustischen Geräuschen ein zustellen.

Gemäß der Erfindung soll das Leistungsvermögen von Spracherken nungssystemen verbessert werden, welche nur akustische oder visuelle Lippenpositions-Information insbesondere in einer ungünstigen, ge räuschvollen Umgebung benutzen. Ferner soll ein neues zeitverzögertes neurales Netzwerk-Sprache-Lesesystem zum Klassifizieren von Aus sprache und Sprechweisen nur mit Hilfe von visuellen Daten geschaffen werden. Ferner soll ein akustisches Spracherkennungssystem verbes sert werden, indem ein ein zeitlich verzögertes neurales Netzwerk be nutzendes, visuelles Spracherkennungssystem in Verbindung mit dem akustischen Spracherkennungssystem verwendet wird.

Ferner soll der Klassifikator mit einem kontinuierlichen Strom von diesbezüglichen, visuellen und akustischen Daten versorgt werden, aus welchen die akustische Sprechweise detektiert und klassifiziert wer den kann. Ferner soll eine Trainingsmethode geschaffen werden, um die Genauigkeit von akustischen und visuellen Sprach-Klassifikatoren in geräuschvollen Umgebungen zu verbessern. Darüber hinaus soll eine zeitverzögerte neuronale Netzwerk-Klassifikator-Architektur ge schaffen werden, welche ein Gradientengefälle oder andere Lernmetho den, wie ein Rückausbreitungs-Training (backpropagation training) trägt. Ferner soll eine akustische und visuelle Signalverarbeitung vor dem zeitlich verzögerten neuronalen Netzwerk-Klassifikator geschaf fen werden.

Darüber hinaus soll eine Ausgangsklassifikation, d. h. eine Wahrschein lichkeits-Verteilung geschaffen werden, welche die Wahrscheinlich keit jeder möglichen Kandidaten-Sprechweise darstellt, die in einem vorgegebenen Zeitintervall vorgekommen ist. Darüber hinaus soll ein einfaches Verfahren zum Extrahieren von dynamischer, visueller Ge sichtsinformation mittels einer ausgewählten Gruppe von Gesichts kennzeichen geschaffen werden.

Gemäß der Erfindung ist dies bei einem Trainingssystem für ein Spracherkennungssystem durch die Merkmale im kennzeichnenden Teil des Anspruchs 1 erreicht. Vorteilhafte Weiterbildungen sind Gegen stand der auf den Anspruch 1 unmittelbar oder mittelbar rückbezogenen Ansprüche 2 bis 10.

Gemäß der Erfindung ist eine Trainingsmethode für ein Spracherken nungssystem geschaffen, bei welchem sowohl akustische als auch vi suelle Sprachsignale verarbeitet werden, um die Wahrscheinlichkeit einer richtigen Klassifikation der Sprechweise bzw. Aussprache zu er höhen.

Ferner weist ein Spracherkennungssystem zum Erkennen von Sprech weisen, die zu einer vorher eingerichteten Gruppe von zulässigen Kan didaten-Sprechweisen gehören, eine akustische Merkmal-Extrahier- Einrichtung, eine dynamische, visuelle Merkmal-Extrahier-Einrichtung und eine ein neuronales Netzwerk klassifizierende Einrichtung auf. Die akustische Merkmal-Extrahiereinrichtung wandelt akustische Sprach signale, die eine Sprechweise darstellen, in einen entsprechenden spektralen Merkmal-Vektorsatz um. Die dynamische visuelle Merkmal- Extrahier-Einrichtung wandelt die dynamischen Gesichtsmerkmale, die der Erzeugung der akustischen Sprechweise zugeordnet sind, in einen dynamischen, visuellen Merkmal-Vektorsatz um. Die ein neuronales Netzwerk klassifizierende Einrichtung wandelt die dynamischen, aku stischen und visuellen Merkmalvektoren in eine bedingte Wahrschein lichkeitsverteilung um, welche die Wahrscheinlichkeit jeder Kandida ten-Sprechweise beschreibt, die gesprochen worden ist, indem die be obachteten akustischen und visuellen Daten vorgegeben worden sind.

Nachfolgend wird die Erfindung anhand von bevorzugten Ausführungs formen unter Bezugnahme auf die anliegenden Zeichnungen im einzelnen erläutert. Es zeigen:

Fig. 1 ein Blockdiagramm eines akustischen und visuellen dynami schen Spracherkennungssystems;

Fig. 2 das Plazieren von visuellen Vergleichskennzeichen bzw. -Mar kierungen an und um die Lippen des Sprechers herum;

Fig. 3 die Beziehung zwischen den gleichmäßigen Mel-Frequenzbän dern und den entsprechenden nicht-gleichförmigen, linearen Frequenzbändern;

Fig. 4(a) und 4(b) zwei äquivalente Ausführungen eines zeitverzögern den, einlagigen neuronalen Netzwerks (TDNN);

Fig. 5(a) und 5(b) das elektrische Analogon einer typischen Aussprache zusammen mit deren Spektrogramm;

Fig. 6 die Architektur einer nur visuellen (VO) Mehrfachlage TDNN;

Fig. 7 eine Hardware einer TDNN-Architektur;

Fig. 8 ein Blockdiagramm eines akustischen und visuellen Spracher kennungssystems, das die Ausgangssignale von separaten, aku stischen und visuellen Erkennungssystemen verknüpft;

Fig. 9 eine Hardware einer Ausführungsform eines AxV-TDNN- Sprach-Klassifikators;

Fig. 10 eine Hardware einer Ausführungsform eines weiteren TDNN- Sprach-Klassifikators;

Fig. 11 eine Hardware einer Ausführungsform eines vollen AV-Sprach- Klassifikators;

Fig. 12 die Architektur eines typischen McCulloch-Pitts-Neurons;

Fig. 13(a) bis 13(c) Beispiele von Aktivierungsfunktion-Transferkenn daten;

Fig. 14 die Architektur einer typischen Sigma-Pi(ΣΠ) künstlichen neu ronalen Zelle;

Fig. 15 einen Satz von Lernkurven, welche den Trainingsfortschritt zeigen;

Fig. 16(a) bis 16(d) eine Gruppe von Verwirrungs-Matrizen für vier Sy steme;

Fig. 17 ein Flußdiagramm einer Trainingsprozedur, und

Fig. 18 ein funktionelles Blockdiagramm eines Trainingssystems.

Nunmehr werden mehrere Ausführungsformen von Spracherkennungssy stemen beschrieben, wobei jedes System trainiert wird, um eine be grenzte Menge von Sprechweisen bzw. Aussprachen zu erkennen. Die verschiedenen Ausführungsformen unterscheiden sich in der verwende ten Informationsart und/oder auf welche Weise die Informationssigna le verarbeitet werden. Auf jeden Fall ist es das Ziel des Spracherken nungssystems, an dem Klassifikator-Ausgang eine Wahrscheinlich keits-Verteilung zu erzeugen, die jeder der möglichen Kandidaten- Sprechweisen zugeordnet ist.

Im Hinblick auf die Klarheiten der folgenden Beschreibung werden spe zifische Beispiele der erfindungsgemäßen Ausführungsform verwendet, um eine von zehn Kandidaten-Sprechweisen zu erkennen. Hierbei sollte jedoch beachtet werden, daß dies nicht notwendigerweise eine Be schränkung auf eine Anzahl oder bestimmte Arten von Sprechweisen oder Äußerungen darstellt, welche in Einklang gebracht werden können.

Die vorliegende Erfindung ist ein System für eine Spracherkennung, bei welchem sich dynamisch ändernde, akustische und visuelle Signale für eine verbesserte Spracherkennungs-Effizienz verwendet werden. Fig. 1 zeigt ein vereinfachtes Blockdiagramm einer Ausführungsform. Akusti sche Sprechdaten werden mittels eines Mikrophons 28 aufgenommen, welches über eine Ausgangsleitung 22 die elektrischen Signal-Repliken der akustischen Information an einen Spektrum-Analysator anlegt, von welchem aus die akustische Energie an eine Anordnung von 14 Filtern angelegt wird. Die sich kurzfristig zeitlich ändernde Energie, welche von jedem der 14 Filter abgegeben wird, wird gemessen, normiert und an die 14 Ausgangsleitungen 25 als ein sich zeitlich ändernder Vektor mit 14 Komponenten angelegt.

Gleichzeitig nimmt eine Videokamera 10 die zugeordneten visuellen Daten auf, die aus einer Menge von Markierungen erzeugt worden ist, die verwendet werden, um die Lippen- und Mund-Bewegung zu beschreiben, welche durch eine vorgegebene Sprechweise erzeugt worden ist. Die unbehandelte Video-Information wird durch eine Leitung 12 an einen Lippen- und Mund-Positionsvektor-Generator 14 abgegeben, welcher die sich zeitlich ändernde Position der Lippen- und Mundmarkierungen für eine Kopfneigung und -größe normiert, was einen sich zeitlich ändern den Vektor auf den fünf Ausgangsleitungen 15 ergibt, welcher die Lip pen- und Mund-Tätigkeit beschreibt, welche der akustischen Sprech weise zugeordnet ist.

Der Lippen- und Mund-Positionsvektor-Generator 14 weist ein Nach laufsystem 16, um die Position von lichtemittierenden oder lichtre flektierenden Vergleichsmarkierungen zu verfolgen, die an und um die Lippen des Sprechers plaziert sind, und einen Vektorgenerator 19 auf, welcher ausgewählte Abstände zwischen Vergleichsmarkierungen ex trahiert und normiert. Diese Einrichtung wurde mit Hilfe des auf einem Computer basierenden, zweidimensionalen Bewegungs-Analysesystems ausgeführt, das von Motion Analysis Corporation, 3650 North Laughlin Road, Santa Rosa, Kalifornien 95403 unter dem Warenzeichen "Expert Vision" hergestellt wird.

Das Expert-Vision-Video-Nachlaufsystem benutzt eine Videoeinrich tung, um die Bewegung von Objekten einzufangen und aufzunehmen. Re flektierende Markierungen werden an interessierenden Stellen plaziert. Das System kann Daten einfangen und analysieren, die von einer Video kamera (oder einem -Band) mit einer Video-Norm-Bildfrequenz von 60 Hz bis zu 200 Hz gewonnen worden sind.

Die unverarbeiteten Videodaten von der Videokamera werden einem Videoprozessor-Untersystem zugeführt, welches die Kennzeichen- Markierungsbilder isoliert und sie in Echtzeit in digitalisierte Video- Umrißlinien umwandelt. Der Videoprozessor versieht die Funktion des Nachlaufsystems 16, indem er x- und y-Koordinaten der Markierungs ränder in dem Host-Computer für eine anschließende Verarbeitung er zeugt. Die detektierten Bildschirmpositionen werden in Videobildfre quenz-Intervallen in einem rechteckigen Gitter ausgedrückt, das (in der x-Richtung) 256 Pixel breit und (in der y-Richtung) 240 Pixel hoch ist.

Das Videobild der Markierungen wird mittels der Host-Computer-Soft ware auf Schwerpunkte reduziert. Der Schwerpunkt jeder reflektieren den Markierung wird dadurch festgelegt, daß die Koordinaten der ein zelnen Pixel gemittelt werden, welche die Umrißlinie der Markierung bilden. Die Schwerpunkte jeder Markierung werden von Bild-zu-Bild markiert und verbunden, um eine Trajektorie zu bilden. Zusätzliche Host-Computer-Software wird verwendet, um den Satz visueller Ab standsvektoren zu erzeugen und zu normieren, wie nachstehend noch beschrieben wird und funktionell durch den Vektorgenerator 19 der Fig. 1 angezeigt ist.

Die beiden, sich zeitlich ändernden Vektoren auf den Leitungen 15 und 25 werden an einen ein zeitverzögerndes, neurales Netzwerk-("TDNN") aufweisenden Sprach-Klassifikator 200 angelegt, wobei das neuronale Netzwerk zehn Ausgangssignale auf Leitungen 17 erzeugt. Jede der Ausgangsleitungen 17 ist ausschließlich einer von zehn möglichen Sprechweisen bzw. Aussprachen zugeordnet, so daß das TDNN 200 trai niert ist, sie zu erkennen. Die Signalgröße auf jeder der zehn Leitungen stellt die Wahrscheinlichkeit dar, daß die zugeordnete Sprechweise bzw. Aussprache gemacht wurde. Ein (gestrichelt dargestelltes) Ausga benetzwerk 18 ist ein optionaler (bekannter) Ein-aus-Zehn-Klassifika tor, welcher die wahrscheinlichste Aussprache auswählt, indem die Aussprache bzw. Sprechweise gewählt wird, die der Leitung mit dem höchsten Pegel (Wahrscheinlichkeit) der zehn Leitungen 17 entspricht. Da der TDNN-Klassifikator 200 einen sich zeitlich ändernden Daten strom prüfen kann, ist die genaue Kenntnis der zeitlichen Position der akustischen und visuellen Information nicht erforderlich.

Fig. 2 zeigt das Plazieren der zehn reflektierenden Markierungen (M0,9) an dem jeweiligen Sprechergesicht, die in einer Ausführungsform ver wendet wurden. Die Positionen der zehn Vergleichsmarkierungen waren die Spitze der Nase (M0), die Mitte des Kinns (M1), der linke Mundwinkel (M2), der rechte Mundwinkel (M3), die obere Mitte der Lippen (M4), die untere Mitte der Lippen (M5) und vier Stellen auf den Lippen, welche annähernd die Hälfte zwischen der Mitte der oberen Lippe und den lin ken und rechten Mundwinkel (M6, M7) und zwischen der Mitte der unte ren Lippe und den linken und rechten Mundwinkeln (M8, M9) sind. Dieser Satz von Vergleichsmarkierungen wurde verwendet, um die generelle Form und Bewegung des Lippen- und Mundbereichs festzustellen. Diese spezielle Anordnung hat den großen Vorteil der Einfachheit, im Ver gleich zu dem rechnerisch aufwendigen Problem, dieselbe Information aus der gewaltigen Datenmenge herzuleiten, welche durch Folgen von Video-Pixel-Bildern erzeugt worden sind.

Die Position der reflektierenden Vergleichsmarkierungen auf jedem Gesicht eines Sprechenden wurde mittels einer Videokamera 10 mit ei ner 60 Hz-Bildfrequenz aufgezeichnet und dann mittels eines Posi tionsvektor-Generators 14 in visuelle Merkmalvektoren umgeformt, welche fünf Komponenten haben, wie in der nachstehenden Tabelle auf geführt ist.

Diese spezielle Auswahl von Vektorkomponenten-Merkmalen wurde so gemacht, daß die verschiedenen Abstände quer zum Mund und Gesicht bereits unabhängig von Verschiebungen und Drehungen des Kopfes ge macht werden können. Dies wurde mit dem Vektorgenerator 14 ausge führt, indem zuerst der Kopf gedreht wird, so daß eine Linie, die durch die Vergleichsmarkierungen M0 und M1 gezogen wurde, vertikal war, dann wurden die drei vertikalen Abstände (M0-M1, M4-M5 und der durch schnittliche Abstand von M6-M8 und M7-M9) sowie die zwei horizonta len Abstände (M2-M3 und der durchschnittliche Abstand von M6-M7 und M8-M9) berechnet.

Eine weitere Normung der Komponenten-Merkmale wurde wegen Quer- Objekt-Unterschieden in Gesichtsabmessungen erforderlich. Ebenso wurde bemerkt, daß bei jedem Sprecher der Mund manchmal in einer teilweise offenen, bequemen und erholsamen Stellung war. Beim Nor mungsschritt wurde eine Menge von charakteristischen Gesichtsabmes sungen hinsichtlich der Größe jedes Gesichts eines Sprechers durch Mitteln der Vektoren erzeugt, die allen ausgeruhten Positionszeitpunk ten entsprechen. Dann wurde jeder visuelle Vektor in der Folge nor miert, indem der Ruhemittelwert von jeder Komponenten subtrahiert wurde und die Größe skaliert wurde, so daß jedem Komponentenwert ein Wert von plus oder minus eins zugeordnet ist, wenn dessen Pegel plus oder minus zwei Standardabweichungen von dem Durchschnitt entspricht.

Obwohl die spezifische Gruppe von vorstehend aufgezählten Gesichts bewegungsmerkmalen verwendet wurde, um die Spracherkennung in der Praxis zu reduzieren, könnten auch andere entsprechend kennzeichnende Mengen von dynamischen Abmessungen verwendet werden, um die we sentliche visuelle Information zu übermitteln. Dies könnte zu einem anderen, jedoch effektiven, dynamischen visuellen Datenvektor führen. Beispielsweise könnte eine Videokamera ein dynamisches Pixel-Bild des Sprecher-Mundes und dessen Lippen erzeugen. Die dynamische Form könnte durch Messen des Abstandes zwischen den Schatten unter den Unter- und den Oberlippen gemessen werden, welche durch eine Über kopfbeleuchtung hervorgerufen sind. Eine Menge derartiger Abmessun gen quer zu dem Mund würde die dynamische Form beschreiben.

Die akustischen Datensignale kamen in einem Zeitfenster mit einer Dauer von einer Sekunde vor und wurden gleichzeitig von einem Kar dioid-Mikrophon 20 aufgenommen und wurden dann mit einer Abtast frequenz von 8012 Hz mit einer 8 Bit-(mu-law-)Codierung abgetastet und digitalisiert (was einer digitalen Fernsprechleitungs-Qualität äquivalent ist). Eine vierzehnwertige Mel-Leistungsspektrums-Analyse wurde mittels eines Spektrum-Analysators 24 mit Hilfe einer diskre ten Fourier-Transformation 256 Datenpunkt-Rahmen durchgeführt, die in Intervallen von 5 ms zentriert sind, um die vierzehn Mel-Leistungs spektral-Analyse-Filter zu simulieren. Jeder der 256 Datenpunkt-Rah men wurde durch eine Hamming-Fensterfunktion mit einem Fenster versehen, um einen spektralen Verlust zu reduzieren. Das Anwenden der diskreten Fourier-Transformation bei den "gefensterten" Daten und das Ausbilden der quadrierten Größe der Fourier-Koeffizienten führte zu einem Leistungsspektrum mit einer gleichförmigen Auflösung mit 128 Punkten. Jedoch hat das Mel-Skalen-14 Band-Leistungsspektrum eine Frequenzskala F, die logarithmisch in Beziehung zu der normalen linea ren Frequenzskala f in folgender Weise steht:

F = In (1 + f/700).

Diese Mel-Frequenzskala basiert auf psycho-akustischen Frequenz- Skalierexperimenten, die zeigen, daß menschliche Beurteilungen des relativen Abstands von zwei Sinuskurven nicht äquivalent derem tat sächlichen arithmetischen Verhältnis sind. Folglich betrifft die vor stehende Gleichung die Beurteilung des wahrgenommenen Abstands F zu den physikalischen Messungen der Frequenz f. Obwohl des Mel-Lei stungsspektrum verwendet wurde, können bei einer Vielzahl von Lei stungsspektrum-Typen, welche diejenigen einschließen, die auf Gleichbleiben oder exponentiell skalierten Band-Intervallen basieren, in dieser Anwendung effektiv sein.

Fig. 3 zeigt einen graphischen Kurvenverlauf der Mel-Frequenz F über der tatsächlichen Frequenz f. Vierzehn gleichförmige Bandbreiten auf der Mel-Skala sind auf der vertikalen Skala zusammen mit deren Pro jektion auf die tatsächliche Frequenzskala als nicht-gleichförmige Bänder dargestellt, welche mit zunehmender Frequenz f entsprechend dem vorstehend wiedergegebenen Ausdruck größer werden. Die untere Abszissenskala bezieht sich auf einen Fourier-Koeffizienten-Frequen zindex bezüglich der tatsächlichen Frequenz. Folglich werden die gleichförmigen 14-Mel-Skalen-Bandbreitenfilter dadurch simuliert, daß die spektrale Leistung in den entsprechenden, linearen, nicht gleichförmigen Bändern, wie dargestellt, summiert werden. Ein stati stisch stetigeres Mel-Skalen-Leistungsspektrum wird jeweils alle 5ms oder 200 mal pro Sekunde erzeugt, indem sequentielle Paare von Spektren gemittelt werden, welche die effektive Ausgangs-Spektrums rate auf jeweils 10ms (100 Spektren pro Sekunde) reduziert. Der nächste Verarbeitungsschritt, der von dem Spektrum-Analysator 24 durchgeführt wird, ist die Erzeugung des Logarithmus jedes Mel-Spek trums, um einen logarithmischen 14 Komponenten-Mel-Spektralvektor zu erhalten. Eine Normung jedes Satzes von logarithmischen Mel-Spek tren, die einer vorgegebenen Sprechweise/Aussprache entsprechen, wird dadurch erreicht, daß der Mittelwert berechnet und das Maximum und Minimum aller Werte in dem Satz extrahiert werden. Die logarith mischen Mel-Spektralsätze wurden dann skaliert, um zu bewirken, daß der neue Mittelwert null ist und der Maximumwert jedes Log-Spek trums eins ist. Die normierten logarithmischen Mel-Spektralvektoren sind auf Ausgangsleitungen 25 des Spektrum-Analysators 24 verfügbar.

Da in einer Ausführungsform die Video-Bildfrequenz der Kamera 20 in Fig. 1 60 Bilder/s betrug, während die spektrale Erzeugungsfrequenz des Spektrumanalysators 100 Spektren pro Sekunde betrug, war ein zu sätzlicher Verarbeitungsschritt erforderlich, um die zwei Frequenzen anzupassen. Dies ist grafisch in Fig. 1 durch den strichpunktierten, mit "Interpolator" bezeichneten Block 26 dargestellt, der nur erforderlich ist, wenn die Video-Bildfrequenz und die spektrale Bildfrequenz nicht dieselben sind. In diesem Fall wurden aufeinanderfolgende Videodaten- Rahmen (Vektoren), die jeweils die vorstehend beschriebenen fünf Vek tor-Komponenten aufweisen, mit einem (sin x)/x-Interpolationskern interpoliert, um eine neue Folge von Frequenzen mit einer Geschwin digkeit von 100 pro Sekunde zu erzeugen. Mit anderen Worten, der Wert der interpolierten k-ten Abtastung, die in einer Zeit = k/100 pro Se kunde (k = 0, ±1, ±2, . . . ), d. h. in gleichförmigen Zeitintervallen von 10 ms vorkommt, ist dagegen durch:

wobei x(m/60) der Wert der Vektorkomponente zu einem Zeitpunkt =m/60 ist, m der ursprüngliche ganzzahlige Zeitindex ist, der in Inter vallen von 1/60s inkrementiert worden ist; k der neue Zeitindex ist, der in Intervallen von 1/100s inkrementiert worden ist, und X(k/100) die interpolierten Werte an den 1/100s-Intervallen ist.

Diese Operation kann mittels normaler Faltungs-(digitaler Filte rungs)Techniken durchgeführt werden. Andere mögliche Interpolations kerne einschließlich linearer, quadratischer und polynomischer Kerne höherer Ordnung könnten ebenso für eine Interpolation verwendet wer den, ohne den Nutzeffekt merklich zu beeinträchtigen.

Folglich werden die fünf Ausgangsleitungen 15 des visuellen Vektorge nerators 14 und die 14 Ausgangsleitungen 25 des akustischen Spek trum-Analysators 24 kombiniert, um einen zeitlich veränderlichen, au dio-visuellen ("AV") Vektor mit 19 Komponenten zu bilden, der an die TDNN 200 anzulegen ist, wie in Fig. 1 dargestellt ist.

Um Sprechweisen anzupassen, die von unterschiedlicher Länge und et was unvorhersehbar hinsichtlich ihres Anfangszeitpunkts sein können, wurde das für eine Sprach-Klassifikation verwendete neuronale Netz werk ausgewählt, das ein zeitverzögertes neuronales Netzwerk (TDNN) ist, das demjenigen entspricht, das von Waibel, A. in einem Artikel mit dem Titel "Modular Construction of Time-Delay Neural Networks for Speech Recognition" in Neural Computation 1, Stn. 39 bis 46 (1989) be schrieben ist.

Fig. 4(a) und 4(b) zeigen zwei funktionell äquivalente Ausführungen ei nes TDNN. Fig. 4(a) weist eine gleichmäßig mit Abgriffen versehene Verzögerungsleitung 103 auf, welche eine Eingangsdaten-Folge x(t) auf einer Eingangsleitung 101 erhält. Die Signale an den Abgriffen 102 der Verzögerungsleitung bilden einen Zeitfolge-Vektor, welcher die Zeit folge x(t) darstellt, die an die Verzögerungsleitung 103 angelegt wor den ist, wobei die älteren Daten auf der rechten Seite sind, d. h. jeder Abgriff hat einen Ausgang, welcher einen eingegebenen Folgewert dar stellt, welcher τ Sekunden eher anliegt, als ein unmittelbar links davon liegender Wert. Zu einem vorgegebenen Zeitpunkt ist ein zeitlicher Verlauf der eingegebenen Folge an den Ausgangsabgriffen 102 verfüg bar. Eine ausgewählte Gruppe von benachbarten Abgriffen ist mit Lei tungen 105 eines mit N1 bezeichneten Neuron 110 verbunden. Ebenso wird ein Satz, der die gleiche Anzahl von Eingängen wie Abgriffe 102 hat, aber um eine Verzögerungseinheit τ verschoben ist, an ein mit N2 bezeichnetes Neuron 110 angelegt. Wie dargestellt, kann die TDNN- Struktur eine Anzahl zusätzlicher Neuron-Einheiten 110 aufweisen, die in derselben Weise geschaltet sind, wobei jedes um eine Verzögerungs einheit τ verschoben ist. Die Neurons 110 sind jeweils im Aufbau iden tisch und benutzen die gleiche Gruppe synaptischer Gewichte, welche über Leitungen 107 angelegt werden. Folglich stellt der Ausgangswert jedes Neuron 110 auf Ausgangsleitungen 109 eine Datenfolge {y_k(t)} dar, welche in der Zeit um das Intervall τ von ihrem benachbarten Neu ron 110-Ausgang verschoben sind.

Die Hardware der in Fig. 4(b) dargestellten TDNN-Struktur benutzt ein einziges Neuron 110 in einem Multiplex-Mode. Die eingegebene Daten folge, die über die Eingangsleitung 101 an die mit Abgriffen versehene Verzögerungsleitung angelegt worden ist, erzeugt ein Bild ihrer ver gangenen Werte in Intervallen von τ Sekunden auf Ausgangsleitungen 105, welche parallel an eine Neuron-Zelle 110 angelegt sind. Ein Satz Gewichte (die identisch den in Fig. 4(a) verwendeten sind) werden durch Eingangsleitungen 107 angelegt. In jedem Intervall τ erzeugt eine Neu ron-Zelle 110 einen Ausgangswert auf der Leitung 108, welcher an eine zweite mit Abgriffen versehene Verzögerungsleitung 103 angelegt wird. Wenn die zweite Verzögerungsleitung 103, welche zu der nächst höheren Schicht gehört, n Abgriffe hat, wie dargestellt ist, hat jeder von (n-1) Ausgangsabgriffen 109 in Intervallen von τ Sekunden einen neuen Abtast-Ausgangsvektor, der identisch ist mit demjenigen, wel cher durch das TDNN der Fig. 4(a) für dieselben eingegebenen Datenge wichte erzeugt werden würde.

Beide Strukturen der Fig. 4(a) und (b) sind dazu geeignet, eine einzige sich zeitlich ändernde Vektorkomponente an ihrem Eingangsanschluß 101 aufzunehmen. Folglich müssen die dargestellten Strukturen für je de Komponente des Eingangsvektors unterteilt sein. Im allgemeinen werden die eingegebenen Gewichte für jede Komponente eindeutig sein, wie durch die Trainingsprozedur festgelegt worden ist.

Die Zeitverzögerungseinheit τ ist so gewählt, daß Aliasing von Einga bedaten minimiert wird. Wenn der Wert von τ im wesentlichen kleiner als das Nyquist-Abtastintervall ist, würden die Werte an benachbarten Ausgangsabgriffen 109 stark in Wechselbeziehung stehen und würden wegen der überschüssigen Freiheitsgrade (Redundanz), die in dem neu ronalen Netzwerk verwendet sind, zu Instabilitäten im Training führen. Wenn das Intervall τ größer als das Nyquist-Abtastintervall ist, wird ein Aliasing eingeführt, das zu einer inkorrekten Klassifikation von Eingabedaten führen kann. Es wurde festgestellt, daß ein annehmbarer Wert etwa 10 ms beträgt.

Die Anzahl an Verzögerungselementen pro Verzögerungsleitung muß ausreichend sein, um sicherzustellen, daß ein vollständiger Ausspra cheabschnitt durch die Gesamtverzögerung von (n-1) τ für die Verzöge rungsleitungs-Struktur mit n Ausgangsabgriffen überspannt wird. Für die Klasse von benutzten Sprechweise- bzw. Aussprachewerten wurde herausgefunden, daß eine Spannweite von 100 Elementen mit einer Verzögerung von 10ms (somit insgesamt 1000 ms) angemessen ist.

Kürzere Beobachtungsspannen können eine Klassifizierung verschlech tern, da sie nicht den gesamten Abschnitt enthalten, und längere Span nen können die Klassifikation verschlechtern, weil sie viele überflüs sige Daten enthalten.

In einem praktischen Spracherkennungssystem ist ein mehrlagiges Vektoreingabe-TDNN erforderlich. Dies kann durch eine kaskadenartige Anordnung einer Anzahl von einschichtigen TDNNs realisiert werden, so daß die Ausgangsfolge einer vorgegebenen Schicht die Eingangsfolge der nächst höheren Schicht wird. Auf diese Weise bildet jede Schicht eine eingegebene Zeitfolge in eine andere Ausgabezeitfolge ab und bil det zu allerletzt die eingegebene Zeitfolge von Merkmalen (akustischen und visuellen) in eine Zeitfolge von Attributen (Klassifikationen) ab. Da das TDNN ein Untergruppe von neuronalen Optimalwert-Netzwerken, ist es mit Hilfe der bekannten Rückausbreitungs- oder anderer Gradienten abwärts-Algorithmen trainierbar. Außerdem hat das TDNN die gefor derte Eigenschaft, eine identische Transformation einer Folge von Merkmal-Zeitfenstern an inkrementell veränderlichen Zeitabschnitten nacheinander durchzuführen. Im Gegensatz zu herkömmlicheren neuro nalen Optimalwert-Netzwerken muß die eingegebene Datenfolge nicht genau mit einem absoluten Zeitreferenzwert abgestimmt sein, um ein richtiges Training zuzulassen. Die TDNN-Struktur bestätigt, daß inter essierende Muster in der eingegebenen Datenfolge zeitlich irgendwo auftreten können und während des Lernens versucht das TDNN beispiel hafte Muster in der Trainingsfolge zu finden, ohne Rücksicht darauf, wann sie vorkommen.

Wenn jedoch gefordert wird, daß der Netzwerkausgang ein einziger Satz von Attributen ist, kann eine Merkmalsfolge fester Dauer in der Eingangs-Verzögerungsleitung gespeichert werden. Die Dauer sollte so gewählt werden, daß die Zeitspanne (das Fenster) der Verzögerungslei tung sicher die interessierende Folge enthalten kann. Wenn jede folgen de Schicht des TDNN eine Funktion der Fenster-Zeitspanne ist, kann der Ausgang für jedes Merkmal/Attribut der Endstufe auf einen einzigen Wert des Fensterintervalls gemittelt werden.

Fig. 5(a) und 5(b) zeigen ein Beispiel eines typischen gesprochenen Aus drucks (die Sprechweise). In Fig. 5(a) ist ein elektrisches Signal darge stellt, welches den Schalldruck darstellt, das bei etwa 15,4s beginnt und bei 17,0s endet. Fig. 5(b) zeigt die fünf Komponenten des visuellen Vektors derselben Äußerung, die ebenfalls bei etwa 15,4s beginnt und etwa 1,6s später (bei 17,0s) endet. Folglich würde ein Fenster von ei ner Sekunde Dauer angemessen erscheinen, um sowohl die meisten aku stischen als auch visuellen Signale zu enthalten.

In den nachstehend beschriebenen Ausführungsformen wurden zehn mögliche Ausdruck/Aussprachearten in das Spracherkennungssystem gesprochen, und dann wurden zehn Ausgangswerte am Ausgang erzeugt, die jeweils die Wahrscheinlichkeit einer der zehn möglichen Sprech weisen darstellen, die gesprochen worden sind. Die Netzwerkstruktur, wies zwei Schichten des TDNN-Typs auf, auf welche eine Stufe zur Zeitmittelung und Wahrscheinlichkeitsnormung folgte.

Die fünf verschiedenen Ausführungsformen eines zu beschreibenden Spracherkennungssystems enthalten:

a) das VO-System, das nur visuelle Daten benutzt;
b) das AO-System, das nur akustische Daten benutzt;
c) das AxV-System, das auf einem hohen Pegel eine Kombina tion des AO- und VO-Systems ist;
d) das AV-System, das auf mittlerem Pegel (Klassifikations schicht) des AO- und das VO-System verknüpft, und
e) das volle AV-System mit einer integrierten Verarbeitung von akustischen und visuellen Daten.

Die Architektur eines TDNN-Netzwerks ist in Fig. 6 dargestellt, wie es in einer VO-Ausführungsform eines Sprach-Klassifikators 200 verwendet ist, was nur auf dem Lesen der visuellen Vergleichsmarkierungen ba siert, wobei die fünf vorher beschriebenen Abstandsmerkmale verwen det werden. Bei dieser Ausführungsform wurden keine akustischen Da ten benutzt. Die Verzögerungsleitungs-Eingangsstufe 210 weist fünf Verzögerungsleitungseinheiten 103 mit jeweils 100 Ausgangsabgriffen auf, wobei jede Verzögerungsleitung 103 eine der fünf Komponenten des visuellen Vektors speichert, welcher mittels des Vektorgenerators 14 der Fig. 1 geschaffen ist. Die Verzögerungsleitungen wurden in Soft ware simuliert. Das Zeitinkrement τ zwischen gespeicherten Werten beträgt 10ms, so daß das eingegebene Zeitfolge-Fenster 1000ms über spannt.

Eine verdeckte Schicht 220 weist vier Reihen Neuron-Zellen auf, die jeweils 81 Neuron-Zellen mit (5×20) Eingängen an jeder Zeile haben. Jedes Neuron in einer vorgegebenen Reihe ist mit 20 benachbarten Ver zögerungsleitungswerten der fünf Verzögerungsleitungen verbunden. Die Reduzierung von fünf auf vier Reihen schaffte ein Modicum einer Datenkompression in der Reihenabmessung.

Die Klassifikationsschicht 230 weist zehn Reihen auf, eine für jede der zu der detektierenden Aussprachen und ist 72 Neuron-Zellen lang. Jedes Neuron nimmt ein Feld von 40 Eingangsleitungen auf: vier Reihen von der versteckten Schicht 220 mit zehn aneinandergrenzenden neuronalen Ausgängen in der verdeckten Schicht. Jeder der zehn sich ergebenden Reihen hat 72 Neuron-Zellen, welche den 72 möglichen Werten entspre chen, die von dem zeitlich verschobenen Ausgang der verdeckten Schicht zur Verfügung stehen. Jeder Wert am Ausgang der Neuronen in einer vorgegebenen Reihe der Klassifikationsschicht 230 entspricht der Wahrscheinlichkeit, daß die entsprechende Aussprache/Sprachwei se während eines von 72 Zeitintervallen von 290 ms aufgetreten ist, die in Intervallen von 10 ms angeordnet sind und das Original-(Ein gangsstufen-)Datenfenster von 1000ms überspannen. Die Auflösung von 290 ms ergibt sich aus dem 20ms-Fenster, das als Eingang zu der ver deckten Schicht 220 verwendet worden ist, und aus den nachfolgenden zehn Fenstereinheiten, welche in der verdeckten Schicht 220 verwen det sind.

Die Mittelungsschicht 240 weist 10 Neuron-Zellen auf, die jeweils ei ner spezifischen Reihe der Klassifikationsschicht und folglich einer spezifischen der zehn zulässigen Sprechweisen/Aussprachen zugeord net ist. Die Werte in jeder Ausgangsreihe der Klassifikationsschicht 230 zeigt die Wahrscheinlichkeit an, daß die spezielle Ausspra che/Sprechweise während eines Intervalls von 290 ms vorgekommen ist, welches dieser Zelle entspricht. Die 72 Eingänge werden in der entsprechenden Neuron-Zelle in der Mittelungsschicht verknüpft, um einen Wert an deren Ausgang zu erzeugen, welcher die Wahrscheinlich keit darstellt, daß diese Aussprache/Sprechweise irgendwo während des Beobachtungsfensters von 1000 ms der Eingangsstufe 210 gespro chen wurde.

Das nur akustische (AO-) Spracherkennungssystem verwendet dieselbe Architekturart wie die in Fig. 6 dargestellte VO-Systemarchitektur, wo bei Parameter eingestellt werden, um die logarithmischen Mel-Skala- Spektralmerkmal-Vektoren mit 14 Komponenten anzupassen, welche von dem Spektrum-Analysator 14 der Fig. 1 in Intervallen von 10ms ge schaffen worden sind. Folglich hat die Verzögerungsleitungs-Eingangs stufe 210 eine Anordnung von 14 Reihen von 100 Datenwerten als Ein gängen an der verdeckten Schicht 220. Jede Reihe entspricht einem 1000ms-Wert von logarithmischen Mel-Skalenwerten von einem der Gruppe von 14 Ausgangsfiltern des Spektrum-Analysators 14.

Die verdeckte AO-Schicht 220 wies vier Reihen von 96 Neuron-Zellen für eine Merkmalskompression von 14 auf 4 auf. Jedes Neuron 221 ist mit 5 benachbarten Eingangsstufen-Zeitabtastwerten (samples) jedes der 14 Eingangsmerkmale (insgesamt 70 Eingangsmerkmalswerten pro Neuron) verbunden. Das Eingangsfenster von 5 Einheiten (50ms) ist ein typisches Zeitintervall für die wichtigsten, akustischen, Merkmale, wie Bursts und Übergänge. Folglich erhält jedes drauffolgende Neuron in einer vorgegebenen Reihe einer verdeckten Schicht 220 eine (14 Zei len mal 5 Spalten) Anordnung von Eingangswerten von einer Eingangs stufe 210 an, die um ein Intervall von 10ms verschoben sind.

Jedes Neuron 231 der AO-Klassifikationsschicht 230 nimmt einen Ein gangsfaktor von 4 Merkmalsreihen und 25 Zeitspalten von der verdeck ten Schicht 220 an. Jede nachfolgende Spalte von Neuronen 231 erhält Eingänge von der verdeckten Schicht 220, die um eine Spalten-Zeitein heit von 10 ms verschoben sind. Das 25 Spalten-Fenster wurde so ge wählt, daß das gesamte effektive Zeitfenster, das von der Klassifika tionsschicht 230 gesehen worden ist, 290ms (((5-1) + 25) × 10ms) ist; daßelbe effektive Fenster wurde in dem vorstehend beschriebenen VO- Spracherkennungsnetzwerk verwendet. Eine Gesamtanzahl von 720 Neu ronen, welche die AO-Klassifikationsschicht 230 enthält, sind jeweils in zehn Reihen von 72 Neuronen angeordnet. Wie im Falle des VO-Spra cherkennungsnetzwerks entspricht jede der zehn Reihen einer der zehn zulässigen Sprechweisen/Aussprachen.

Die Ausgangsschicht 240 des AO-TDNN-Klassifikators 200 weist eine Spalte mit 10 Neuronen-Zellen 241 auf, wobei jede Zelle, die mit einer eindeutigen Merkmalsreihe der Klassifikationsschicht 230 verbunden ist, ein Eingangswert von 72 ist. Die Werte am Ausgang der Mittelungs schicht 240 sind jeweils repräsentativ für die Wahrscheinlichkeit, daß die entsprechende Aussprache/Sprechweise irgendwo in dem 1000ms Datenfenster in der Eingangsstufe 210 vorkam.

Fig. 7 ist eine weitere Ausführungsform des AO-TDNN, einer funktiona len Äquivalenz zu dem vorstehend beschriebenen Netzwerk, das die Menge an Hardware minimiert, die für ein Neuron-Zellen-Multiplexing erforderlich ist. Die 14 log. Mel-Skala-Spektraldaten-Komponenten des akustischen Vektorsignals werden an eine Verzögerungsleitung-Anord nung (DLA) 302 angelegt, die 14 Verzögerungsleitungen mit Abgriffen aufweist und von denen jede eine Kapazität von fünf Datenwerten hat. (In diesem Zusammenhang ist eine Verzögerungsleitung das Äquivalent eines analogen oder digitalen Schieberegisters). Sobald die Verzöge rungsleitung gefüllt ist, nimmt die Neuron-Zellenanordnung (NCA1) 310, die vier Neuron-Zellen (N1 bis N4) aufweist, das Feld von (14 × 5) Werten von den Abgriffen der DLA 302 auf und verbindet dieses 70 Werte-Feld mit jedem der 70 Eingangsanschlüsse der vier Zellen (N1 bis N4). Die NCA1 310 erzeugt vier eindeutige Ausgangswerte, und zwar einen für jede der Neuron-Zellen N1 bis N4 und übergibt sie an den Eingang der DLA 304 der Verzögerungsleitungs-Anordnung in der ver deckten Schicht. Die DLA 304 taktet die vier Werte. 10ms später er reicht ein neuer Wert den Eingang der DLA 302, wodurch deren Inhalt um eine Einheit nach rechts verschoben wird und folglich der älteste Satz von 14 spektralen Datenwerten ausgegeben wird. Der neue Satz von (14 × 5) Datenstellen wird dann an jede der Zellen der NCA 310 an gelegt, wodurch an deren vier Ausgangsanschlüssen ein neuer Vierkom ponenten-Vektor geschaffen wird, welcher in die vier Verzögerungslei tungen der DLA 304 eingegeben wird. Dieser Prozeß wird fortgesetzt, und hat schließlich zur Folge, daß die DLA 304 gefüllt ist. Zu diesem Zeitpunkt berechnen dann die zehn Neuron-Zellen (N5 bis N14) der NCA 312 jeweils einen Ausgangswert für die zehn Aussprache-Kategorien und liefern für ein Speichern den Zehnkomponenten-Vektor an die DLA 306, welche zehn Verzögerungsleitungen jeweils mit einer Kapazität von 72 Werten aufweist.

Somit wird jeweils nach 10ms ein neuer Vektor von der NCA 310 be rechnet, welcher in die DLA 304 geschoben wird. Der Reihe nach be rechnet dann die NCA 312 einen neuen Zehnkomponenten-Vektor, wel cher in die DLA 306 geschoben wird. Wenn die Kapazität der DLA 306 gefühlt ist, wird der Inhalt jeder der zehn (1 × 72) Verzögerungsleitun gen an das zugeordnete, den Mittelwert bildende Neuron (N15 bis N24) der NCA3 14 angelegt. Die erste Gruppe von zehn (10) Ausgängen stellt die Wahrscheinlichkeit dar, daß der zugeordnete Ausdruck während der ersten 290 ms gesprochen wurde.

Da Spektraldaten fortlaufend jeweils ein Intervall von 10ms erreichen, werden neue Werte von Ausgabewahrscheinlichkeiten berechnet. Folg lich würde der zweite berechnete Wert der Wahrscheinlichkeit eines Ausdrucks entsprechen, der in einem 290ms-Fenster vorkommt, das um 10ms gegenüber dem ersten verschoben ist. Nachfolgende Ausgabe wahrscheinlichkeiten entsprechen 290ms-Fenstern, die relativ zu dem vorherigen Fenster um 10ms verschoben sind.

Obwohl die Arbeitsweise des TDNN der Fig. 7 anhand eines AO-Spra cherkennungssystems beschrieben wurde, gilt dasselbe Operationsprin zip selbstverständlich auch dann, wenn eine ähnliche Struktur in einem VO-Spracherkennungssystem verwendet würde, das mit den vorherigen bezüglich Fig. 6 vorgenommenen Operationsbeschreibungen überein stimmt.

Die beschriebenen AO- und VO-Systeme arbeiten unabhängig von aku stischen bzw. visuellen Sprechdaten. Mit anderen Worten, sie sind das Äquivalent des in Fig. 1 dargestellten Systems, in welchem entweder die visuellen oder die akustischen Daten null (nulled) sind. Es ist durchaus zu erwarten, daß eine Steigerung/Vergrößerung eines AO-Sy stems durch visuelle Daten die Klassifikationsgenauigkeit insbesonde re unter ungünstigen akustischen Umgebungsbedingungen erhöhen wür de. Nunmehr werden drei Ausführungsformen eines kombinierten aku stischen und visuellen Spracherkennungssystems beschrieben.

Das erste System, das als A x V-System bezeichnet und in Fig. 16 dar gestellt ist, weist einen AO-Sprach-Klassifikator 400 und einen VO- Sprach-Klassifikator 500 zusammen mit einer zusätzlichen Netzwerk schicht 250 auf, um die Ausgabewahrscheinlichkeiten der beiden Sy steme in einem einzigen Satz von Wahrscheinlichkeiten zusammenzu fassen.

Eine AO-Klassifikator 400 weist einen log. Mel Skala-Spektrum-Analy sator 24 auf, welcher das elektrische Analogon eines Sprachsignals aufnimmt, und an seinem Ausgang einen akustischen Zehnkomponenten- Vektor erzeugt, welcher als der Eingangswert an einem akustischen TDNN-Klassifikator 410 verwendet wird, wie vorstehend beschrieben ist. Der Ausgang des AO-Klassifikators 400 ist ein Wahrscheinlich keitsvektor, welcher die Wahrscheinlichkeit beschreibt, daß jede der zehn zulässigen akustischen Sprechweisen/Aussprachen nur basierend auf den akustischen Daten ausgedrückt wurden. Dies wird dann einem Wahrscheinlichkeits-Kombinator 250 zugeführt.

Ebenso verwendet ein VO-Klassifikator 500 ein elektrisches Signal der Vergleichsmarkierungen, um einen Lippen- und Gesichts-Merkmalvek tor, welcher dem entsprechenden akustischen Merkmalsvektor zugeord net ist, als einen Eingangswert an dem Lippen- und Mundpositions-Vek torgenerator 14 festzulegen. Der abgegebene visuelle Vektor, welcher von dem Vergleichsmarkierungs-Suchsystem und dem Vektorgenerator einheit erzeugt worden ist, wird an einen akustischen TDNN-Klassifi kator 510 angelegt, welcher einen visuellen Zehnkomponenten-Wahr scheinlichkeitsvektor erzeugt, welche dem Wahrscheinlichkeits-Kom binator 250 zugeführt wird, welcher die Wahrscheinlichkeit darstellt, daß jeder der zehn möglichen vorgekommenen Sprechweisen/Ausspra chen allein auf den visuellen Daten basierte.

Nunmehr soll p(clA) die bedingte Wahrscheinlichkeit sein, daß die Aus sprache c mit dem zugeordneten akustischen Datenvektor A vorkam, und p(clV) soll die bedingte Wahrscheinlichkeit sein, daß die Ausspra che/Sprechweise 10 mit dem zugeordneten visuellen Datenvektor V vorkam. Folglich entspricht p(clA) dem c-ten Wert des Vektorausgangs des Klassifikators 410 basierend auf einem Vektor A, welcher von dem Spektrum-Analysator 24 erzeugt worden ist, und p(clV) entspricht dem c-ten Wert des Vektorausgangs des Klassifikators 510, basierend auf einem Vektor V, welcher von dem Generator 14 zugeführt worden ist.

Zu beachten ist, daß p(Alc), die bedingte Wahrscheinlichkeit eines vor kommenden Vektors A, der einer Aussprache der Kategorie c gegeben ist, und p(clA), die bedingte Wahrscheinlichkeit einer Aussprache der Kate gorie c, der ein akustischer Vektor gegeben ist,′ durch Apriori-Wahr scheinlichkeiten p(A) und p(c) folgendermaßen in Beziehung gebracht sind:

p(Alc) · p(c) = p(Alc) · p(A)
oder
p(Alc) = p(Alc)·p(A)/p(c)

Folglich können ein akustischer TDNN-Klassifikator 410 und ein visuel ler TDNN-Klassifikator 510 trainiert werden, um entweder p(Alc) oder p(clA) bzw. p(Vlc) oder p(clV) zu erzeugen, welche auf den relativen Frequenzen von p(A) und p(c) in den Trainingsdaten basieren.

Wenn Vektoren A und V unabhängig voneinander sind, dann ist die ver knüpfte Wahrscheinlichkeit der j-ten Aussprache c_j, welche durch einen akustischen Datenvektor und einen visuellen Vektor V gegeben ist:

welches der gewünschte Ausgang von dem Wahrscheinlichkeits-Kombi nator 250 ist.

Wenn (und nur wenn) p(c_j) = p(c_i) für alle i und j ist, dann vereinfacht sich der vorstehende Ausdruck zu:

Unter dieser Voraussetzung zeigt der vorstehende Ausdruck, daß p(c_jlA,V) durch das Produkt des j-ten Ausgangs des Klassifikators 410 bzw. 510 gebildet werden kann und durch die Summe von allen zehn Produkt-Termen normiert werden kann.

Der Produkt-Term aus den vorstehenden Ausdrücken kann mit verschie denen Einrichtungen einschließlich analoger oder digitaler Multiplizie reinheiten und einem Sigma-Pl(ΣΠ) neuronalen Zellen-Netzwerk er reicht werden, in welchem entsprechende p(clA) und p(clV) Terme ver wendet werden, um sie miteinander zu verknüpfen. Ebenso kann derselbe Term durch ein ΣΠ-neuronales Zellen-Netzwerk mit 20 Eingängen er zeugt werden, in welchem entsprechende A-und V-Wahrscheinlich keitsvektor-Komponenten miteinander verbunden sind, um Produkt- Terme zu bilden, und der Ausgangswert wird dann durch die Summe der Produkt-Terme gebildet. Ein Teilen jedes der Produkte durch den Sum men-Term kann in einer kompatiblen Technologie mit Hilfe analoger oder numerischer Recheneinheiten durchgeführt werden.

Fig. 9 zeigt eine Hardware-Ausführungsform des AxV-System-TDNN- Sprachen-Klassifikators 200. Akustische und visuelle Datenvektoren werden in Verzögerungsleitungen (DL) 302 bzw. 301 in Intervallen von 10ms eingegeben. Die akustischen und visuellen Datenflüsse folgen verschiedenen Wegen bis zu der letzten NCA3-Stufe. Der eingegebene akustische Datenvektor in Fig. 9 wird analog der Fig. 7 in derselben Wei se und mittels derselben Hardware wie in einem AO-Prozeß bis zu der Einheit NCA3 314 verarbeitet, die in der Mittelungsschicht angeordnet ist. Ebenso wird der visuelle Datenvektor V in Fig. 9 abgesehen von der Endeinheit NCA3 314, auf dieselben Weise verarbeitet, wie in Fig. 6 für das VO-System beschrieben ist. Die Endwahrscheinlichkeiten p(clA, V) werden durch die zehn Sigma-Pi-Neuron-Zellen gebildet, welche die Einheit NCA3 314 und die Normiereinheit 255 aufweisen. Die Normie reinheit 255 legt den Skalierfaktor k an, um die zehn Ausgangs-Vek tor-Komponenten p(clA,V) = k· p(clA)· p(clV) für c= 1,2 . . . ,10 zu bilden.

Obwohl ein auf TDNN basierender, akustischer AO-Prozessor beschrie ben worden ist, ist dies bei der AxV-Ausführungsform nicht wesent lich. Das AxV-System kann mit irgendeinem akustischen Spracherken nungs-Prozessor ausgeführt werden, welcher funktionell äquivalent ist, obwohl er nicht ein TDNN verwendet. Die Ausgänge des AO- und VO- Subsystems würde, wie beschrieben, verknüpft werden, um eine genau ere Klassifikation zu liefern, als sie jedes System für sich liefern würde. Ebenso kann ein akustischer Vektor-Generator, welcher einen wirksamen akustischen Vektor erzeugt, welcher die Sprechweise/Aus sprache mit einer annehmbaren statistischen Zuverlässigkeit kenn zeichnet, als ein akustischer Vor-Prozessor in einem der kombinierten akustischen und visuellen Spracherkennungssysteme verwendet wer den.

In Fig. 10 ist eine weitere Ausführungsform für einen TDNN-Klassifika tor 200 der Fig. 1 dargestellt, der als AV-System-Klassifikator be zeichnet wird. In diesem Fall werden die A- und V-Vektoreingänge ge sondert durch die versteckte Schicht 220 verarbeitet, welche NCA1 310 und NCA 309 aufweist. Die Ausgangswerte von der verdeckten Schicht werden in DLA 304 und DLA 303 gespeichert, von wo aus das akustische (4 × 25) Wertefeld von DLA 304 und das (4 × 10) Wertefeld von DLA 303 an die zehn 140 Eingänge aufweisenden Neuron-Zellen (N35 bis N44) der NCA2 313 angelegt werden. Das vorhergehende Mi schen von akustischen und visuellen Daten führt zu einem reicheren Satz von Quertermen, bei welchem eine Auflösung in dem Trainings- Prozeß gesucht werden kann, was insgesamt zu einer verbesserten Lei stung des Gesamtsystems führt.

Nach einem Verarbeiten durch NCA2 313 werden die Ergebnisse zu der Mittelungsschicht 240 durchgelassen. NCA3 315 weist zehn Neuron- Zellen (950 bis 955) auf, von welchen jede auf einer von zehn Verzöge rungssleitungen in DLA 307 arbeitet. Das unnormierte Wahrscheinlich keits-Produkt p(cla) · p(clV) wird durch MCA3 315 gebildet und zu einer Normiereinheit 255 durchgelassen, um die endgültigen Ausgangswahr scheinlichkeiten p(clA,V) zu bilden.

Fig. 11 zeigt einen weiteren Entwicklungsschritt in dem Prozeß, das Verarbeiten der akustischen visuellen Daten auf dem frühestmöglichen Pegel zu kombinieren. Bei Empfang und Speicherung von genügend ein gegebenen akustischen und Videodaten im DLA 302 bzw. 301 kann die Bildung von Quertermen in der versteckten Schicht 220 vorkommen, wobei jeder der acht (8) Neuronen auf den kombinierten (14 × 5) und (5 × 20) Datenfeldern arbeitet, die von DLA 302 und 301 verfügbar sind. Der Ausgang der verdeckten Schicht wird in DLA 308 gespeichert und durchläuft NCA3 313 der Klassifikationsschicht 230. Der Ausgangs wert wird dann so gehandelt, wie vorstehend anhand von Fig. 10 be schrieben ist.

In den TDNN-Strukturen der Fig. 7, 9, 10 und 11 werden die zwei Grund typen von Neuron-Zellen verwendet. NCA1 der verdeckten Schicht 220 und NCA3 der Mittelungsschicht 240 weisen herkömmliche McColluch- Pitts (M-P) Neuron-Zellen auf, wie in Fig. 12 dargestellt ist. Ein einge gebener Datenvektor X, der an einem Eingangsanschluß 601 vorgesehen ist, wird durch einen Wichtungsfaktor w mit Hilfe von Multiplizierele menten 603 verarbeitet. Ein Summiernetzwerk 605 summiert die x_iw_i Terme von den Multiplizierelementen 603, wodurch sich das Vektor- Punkt-Produkt ergibt:

das am Ausgang des Summiernetzwerks 605 gebildet wird. Das Vektor- Punkt-Produkt und Offset wird an eine Aktivierungs-Funktionseinheit 609 angelegt, welche das Ausgangssignal f(z) = f(x^T w + offset) bildet. Ein Offset-Wert kann durch eine Eingabe 607 am Summiernetzwerk 605 erhalten werden.

Die Aktivierungs-Funktionseinheit 609 kann eine von mehreren Trans fer-Charakteristiken, wie die in Fig. 13(a) und (b) dargestellt, haben. Die Transfer-Charakteristik in Fig. 13(a) ist f(z) = tanh z, d. h. eine hyperbo lische Tangensfunktion des eingegebenen Signals z. Dies ist ein Bei spiel für eine große Gruppe von halblinearen sigmoidalen Squashing- Funktionen, welche in NCA1 der verdeckten Schicht verwendet werden können. Fig. 13(b) zeigt eine lineare Transferfunktion f(z) = mz + offset. Diese Form einer Aktivierungsfunktion wird in den Neuron-Zellen von NCA3 der Mittelungsschicht 240 verwendet (wobei der Versatz (offset) gleich null ist).

Fig. 13(c) zeigt eine exponentielle Aktivierungs-Funktion f(z) = e^z/T wobei T ein positiver Wert "Temperatur"-Parameter ist, welcher wirk sam den Basiswert e^1/T ändert, welcher durch den Eingabewert z po tenziert ist. Der Exponentialwert der Aktivierungsfunktion wird dazu verwendet, die geschätzte Wahrscheinlichkeit eines Satzes von unbe kannten Veränderlichen (des Satzes von zulässigen Sprechweisen) ent sprechend Parallel Distributed Processing: Explorations in the Micro structure of Cognition, Vol.1: Foundations, Rumelhart, et al., The MIT Press, Cambridge, MA 1986, Kapitel 6, Stn. 194 bis 281. Die exponen tielle Aktivierungsfunktion wird in den M-P-Neuron-Zellen von NCA2 der Klassifikationsschicht 230 verwendet.

Die zweite Art von Neuron-Zellen, die in der NCA4 der TDNN-Struktur der Fig. 9 verwendet worden ist, ist als eine Sigma-Pi-(ΣΠ)Zelle be kannt, wie in Fig. 14 dargestellt ist. Im Unterschied zu der M-P-Zelle der Fig. 12, bei welcher ein einziger eingegebener Datenvektor an einen Satz von steuerbaren Gewichten {w_i} angelegt wird, nehmen ΣΠ-Neuron- Zellen in ihrer einfachsten Form zwei eingegebene Datenvektoren x und y an Eingangsanschlüssen 701 bzw. 702 auf. Entsprechende eingegebene Vektorkomponenten x_i und y_i werden an Multipliziereinheiten 703 an gelegt, um die x_i · y_i-Produkttermen zu bilden, welche durch ein Sum miernetzwerk zu einem Offset-Term summiert werden, welcher an ei nen Offset-Eingabeanschluß 707 angelegt wird. Folglich ist der Aus gang der Summiereinheit

das Vektor-Punkt-Produkt von x und y plus Offset, welches als der Ein gang an eine Aktivierungs-Funktionseinheit 709 mit einer Transfer- Charakteristik f(0) angelegt wird. Die ΣΠ-Neuron-Zelle der Fig. 14 wird in dem AxV-Netzwerk der Fig. 9 verwendet, um die Summe des Produkts der zehn p(clA) Werte und die entsprechenden zehn p(clV)Werte in NCA4 der Mittelungsschicht 240 zu bilden (wobei der Offset-Wert gleich null ist).

Wegen der differenzierbaren Aktivierungs-Funktionseinheiten, die in den Neuron-Zellen verwendet worden sind (siehe Fig. 12 bis 14), wurde eine Form des bekannten Rückübertragungs-Algorithmus (der von Rum melhart, D.E. et al., beschrieben worden ist in "Learning Internal Re presentations by Error Propagation", Stn. 318 bis 362 (Kapitel 8), of Parallel Distributed Processing Vol.1: Foundations, The MIT Press, Cambridge, MA, 1960) verwendet, um die neuronalen Netzwerk-Gewich te zu trainieren. Die Fehlerfunktion des Ausgangswertes während des Trainings hat einen beträchtlichen Unterschied zu demjenigen, welcher in der vorstehend wiedergegebenen Referenz beschrieben worden ist.

Wenn eine neuronale Netzwerk-Aufgabe darin besteht, die Klasse aus zuwählen, zu welcher ein eingegebenes Muster gehört, wenn alle einge gebenen Muster zu einer und nur einer Klasse (eine aus einer von einer n-Klassifikation), und wenn der Ausgangswert des neuronalen Netz werks aus n Werten besteht, welche eine Wahrscheinlichkeitsvertei lung darstellen (d. h. die Summe von Werten gleich eins ist), ist die Feh lermetrix für einen einzigen Trainings-Klassifikations-Versuch

Fehler = -ln{(c₁)}

wobei c_l die korrekte Klassifikation des l-ten Klassengliedes ist und p(c_l) der Versuchswert des Ausgangs ist, welcher die Wahrscheinlich keit darstellt, daß die eingegebenen Daten zur Klasse c_l gehören. Da die richtige Wahrscheinlichkeit der eingegebenen Aussprache/Sprechweise c_l eins (Sicherheit) ist, kann der vorstehend wiedergegebene Fehler ausdruck umgeschrieben werden als Differenz in den Logarithmen den tatsächlichen und Versuchs-Wahrscheinlichkeiten (p(c_l) bzw. (c_l)) oder

Fehler = ln{p(c_l)} - ln{p(c_l)} = ln{(c_l)/p(c_l)}.

Diese Fehlermetrix umfaßt das Verhältnis an Wahrscheinlichkeiten. Wenn, wie vorstehend ausgeführt, die Wahrscheinlichkeiten durch die potenzierende Aktivierungs-Funktion (Fig. 13(c)) gebildet wurden, er gibt die Substitution von

wobei z_l und _l die korrekten bzw. Testwerte des Eingangs z an dem l ten Klassifikations-Neuron-Zellen-Aktivierungs-Funktions-Netzwerk sind. Folglich ist der negative Logarithmus der abgegebenen empiri schen gehaltenen Wahrscheinlichkeit ein Maß für den Fehler, welcher mittels des Signals erzeugt worden ist, das auf dem Klassifikations- Pegel eintrifft, welcher den Fehler einschließt, welcher durch die Gewichte der l-ten Neunron-Zelle von NCA2 enthalten ist. Folglich kön nen mit Hilfe der Trainings-Muster, welche alle zu klassifizierenden Sprechweisen/Aussprachen darstellen, diese logarithmische Fehler funktion verwendet werden, um das TDNN-Netzwerk zu trainieren.

Versuche wurden mit Hilfe der beschriebenen Systeme durchgeführt, um zwischen zehn gesprochenen Buchstaben B, D, F, M, N, P, S, T, V und Z zu unterscheiden. Akustische und visuelle Information wurde von vier männlichen Personen gespeichert, welche einheimische Sprecher von amerikanischem Englisch sind. Jede Person sprach jeden Buchstaben fünfmal. Ein Beispiel des Buchstabens P, der von einer Person gespro chen worden ist, wurde durch einen Fehler in dem visuellen Nachführ- System unbrauchbar gemacht, weshalb sich insgesamt 199 und nicht 200 Balken (token) ergaben. Jeder Balken wurde in visuelle (VO-), aku stische (AO-) und aksustische und Video-(AV-)Vektoren umgesetzt, die sich für eine Klassifikations-Schicht 230 eignen, wie vorstehend be schrieben ist.

Vier der fünf wiederholten Buchstaben-Aussprachen für jeden der zehn Buchstaben, die von den vier Sprechern gesprochen worden sind (160 Muster) wurden zum Trainieren verwendet. Die verbleibenden 39, wel che vier Beispiele für jeden Buchstaben mit Ausnahme von drei für den Buchstaben P enthalten, wie vorstehend ausgeführt ist, wurden zum Testen verwendet.

Jedes der drei Netzwerke wurde mit dem Übertragungs-Algorithmus trainiert, um den Satz Gewichte zu finden, die einen minimalen Fehler für die Trainingssatz-Beispiele bewirken. Eine Lernraten-Konstante (η = 0,001 und eine Moment-Konstante von α = 0,09 wurden für die VO- und AO-Fälle verwendet, während Konstanten η = 0,002 und α= 0,3 für den AV-Fall verwendet werden. Das AV-Netzwerk wurde gebildet durch Vermischen der AO- und der VO-trainierten Netzwerke und durch Hin zufügen der Quer-Modell-Verbindungen zwischen den versteckten A- und V-Schichten und der Klassifikationsschicht. Das Lernen wurde zu gelassen, um Fortschritte zu machen, bis der Trainingsfehler über den letzten einigen hundert Trainings-Abschnitten eine vernachlässigbare Änderung zeigten. Die Software-Simulation des Spektrum-Analysators 24 des Lippen-Mund-Positions-Vektorgenerators 14 und des ADNN- Sprachen-Klassifikators 200 liefen auf einem Sun Sparcstation 2 Computer, der von Sun Microsystems, Inc. 2550 Garcia Avenue, Moun tain, View, California 94043-1100 hergestellt worden ist. Das Trai ning dauerte annähernd 20 Sekunden pro Abschnitt für das komplizierte ste AV-Netzwerk und weniger für die anderen Netzwerke. Bei jeweils 50 Trainingsabschnitten wurden die Gewichte in dem Netzwerk aufge zeichnet und der Testgruppen-Fehler wurde berechnet. Fig. 15 zeigt den Fortschritt einer Fehlerreduzierung als Funktion der Anzahl Trainings abschnitte, welche für die. VO-, AO- und die vollen AV-Fälle verwendet worden sind. Die gestrichelte Linie stellt den Fehler dar, wenn die Testgruppe von eingegebenen Daten verwendet wird, während die ge strichelte Linie der Fehler ist, der beobachtet worden ist, wenn die Trainingsgruppe zum Testen verwendet wird. Wie zu erwarten war, er zeugte die letztere im allgemeinen weniger Fehler.

Nachdem die "beste" Gewichtsgruppe durch den Trainingsprozeß für je den der drei Fälle festgestellt war, wurden Verwirrungsmatrizen für die Testdaten erzeugt. Für die jeweiligen Buchstaben-Sprechweisen wurde der Durchschnitt der ausgegebenen Verteilungen über alle Test gruppen-Beispiele dieses Buchstabens berechnet. Fig. 16 zeigt die sich ergebenden Verwirrungsmatrizen für die VO-, AO- und AxV- und die vollen AV-Netzwerke. Jede vertikale Spalte ist mit dem gesprochenen Buchstaben bezeichnet, welcher als der Eingangswert dargestellt ist; jede horizontale Zeile stellt die ausgegebenen Buchstaben dar, welche mit ihren zugeordneten Wahrscheinlichkeiten ausgewählt worden sind, welche durch die Stelle auf jeder Platte ausgewählt worden sind. Die Prozentzahl unter jeder Verwirrungsmatrix ist die Gesamtgenauigkeit dieses Systems. Zu beachten ist die Verwirrung bzw. das Durcheinander bei den /bi/- und den/di/-Phonemen in dem AO-Netzwerk und die un symmetrische Verwirrung von /bi/ und /pi/ in dem VO-System. Folg lich sind, obwohl /pi/ leicht mit /bi/ in dem V0-System verwechselt werden kann, diese ohne weiteres in dem OA-System zu unterscheiden.

Umgekehrt unterscheidet das VO-System ohne weiteres zwischen /bi/ und /di/. Ebenso ist die akustische (AO-)Ähnlichkeit der /em/- und /en/-Phoneme zu unterscheiden, die sich hauptsächlich in dem akusti schen subtilen Nasal-Merkmal unterscheiden und in dem VO-System deutlich unterscheidbar sind. Bei dem VO-System werden leicht /di/ und /ti/ aber nicht so in dem OA-System verwechselt. Das AxV-Sy stem eliminiert meist diese und andere Verwechselungen, wie durch die hohe Klassifikations-Wahrscheinlichkeit entlang der Hauptdiagona le bewiesen wird.

Obwohl vernünftigerweise zu erwarten ist, daß das volle AV-System mit einer Gesamtgenauigkeit von 87% besser sein sollte als das AxV- System mit einer gemessenen Genauigkeit von 91%, da das volle AV- System Assozationen auf einem niedrigeren (verdeckten Schicht) Pegel lernen kann, zeigen die Testergebnisse folgendes. Dieses Ergebnis weist nachdrücklich darauf hin, daß der volle AV-Vektor von 19 Ele menten sich nicht genau synchron zwischen den zehn (10) akustischen Elementen und den fünf (5) visuellen Elementteilen des kompletten Vektors erhält, da sie gesondert über ihre jeweiligen Vorprozessoren verarbeitet wurden. Im Falle des AxV-Systems war ein Gleichlauf we niger kritisch, da die akustischen und visuellen Vektoren durch geson derte TDNNs verarbeitet wurden. Mit anderen Worten, Niederpegel-Kor relationen in den Trainingsmustern hätten geändert werden können, so daß das volle AV-Netzwerk diese Information nicht ausnützen könnte.

Die relative Unempfindlichkeit des AxV-Systems bezüglich akustischen Geräuschen wurde durch eine Simulation demonstriert, bei welcher Ro sa-Rauschen mit einer Standardabweichung von 0,4 dadurch hinzuge fügt wurde, daß eine beliebige Veränderliche zu jedem A-Vektor hinzu gefügt wurde, welche durch den Spektrum-Analysator erzeugt worden ist. Unter diesen Bedingungen hatte das AO-Netzwerk eine Gesamtge nauigkeit von 43%, während das AV-Netzwerk eine Genauigkeit von 24% hatte. Diese verbesserte Genauigkeit wurde ohne ein Einstellen irgend eines freien Parameters, wie beispielsweise Modifizieren des Ver hältnis von akustisch zu visuell, erreicht.

Das Leistungsvermögen von Spracherkennungssystemen in einer ge räuschwollen Umgebung ist eine wichtige Überlegung. Insbesondere werden Systeme mit einer visuellen (Lippen-Lese-)Vergrößerung er wartet, um die beste Verwendung in geräuschvoller Umgebung, wie in großen Büros, gedrängt vollen Räumen, Fabrikräumen und Cockpits, zu finden. Unter diesen Umständen arbeiten akustische Standard-Spra cherkennungssysteme schlecht.

Die derzeitige Planung beim Planen und der Benutzung von adaptiven Lippen-Lese-Systemen ist auf Trainieren des Systems in geräuschloser Umgebung nicht in geräuschvoller Umgebung beschränkt, in welchen das System betrieben wird. (Siehe hierzu beispielsweise Yuhas et al., "Neu ral Network Models of Sensory Integration for Improved Vowel Re cognition," Proc.IEEE 78(10), 1988, Stn. 1658 bis 1668; und Petajan et al., "Automatic Lip-reading to Enhance Speech Recognition," Procee dings of the IEEE Communications Society Global Telecommunications Conference, November 26 bis 29, 1984, Atlanta, Georgia.)

Ein kritischer Punkt, der offensichtlich bei der derzeitigen Praxis nicht richtig eingeschätzt worden ist, ist das visuelle Gegenstück des Lombard-Effekts (Lombard, E., "Le Signe de le Elevation de la Voix", Ann.MaIad. I′Orielle. Larynx. Nex. Pharynx 37, 1911, Stn. 101 bis 119). Lombard zeigte, daß, wenn ein Sprecher sich in einer akustisch ge räuschvollen Umgebung befindet, der Klang der Sprache sich von demje nigen unterscheidet, der in einer ruhigen Umgebung erzeugt worden ist. Beispielsweise ändert sich die Dauer vieler akustischer Merkmale (üblicherweise werden sie länger) und die Amplitude des Tons wird hö her, wenn der Sprecher von einer ruhigen Umgebung in eine geräusch volle wechselt.

Unlängst durchgeführte Versuche haben gezeigt, daß die visuellen Merkmale des Sprechers sich in geräuschvoller Umgebung ebenfalls än dern. Beispielsweise ist die Größe des Lippenabstands während des Aussprechens von /oh/ in geräuschvoller Umgebung größer, und der Nasen-Kinn-Abstand während des Aussprechens von /awl/ ist ebenso größer. Dieses Verhalten ist analog den Überartikulations-Effekten in akustischen Spracherkennungssystemen und dem Lombard-Effekt.

Folglich wird nachstehend anhand von Fig. 17 eine verbesserte Methode des Trainierens von Lippenlese-Systemen beschrieben, bei welcher der Entdeckung des visuellen Gegenstücks zu dem Lombard-Effekt Rechnung getragen wird. Das in Fig. 17 dargestellte Flußdiagramm der Trainings methode beginnt beim Schritt 800, wobei angenommen wird, daß ein Satz von M eingegebenen Trainingsvektoren und entsprechende bei spielhafte Ausgabevektoren verfügbar sind. Der Trainingsvektor-Index m und der Geräuschpegel-Index I werden beide auf null eingestellt. Die synaptischen Gewichte des TDNN-Sprachen-Klassifikators werden durch einen Satz von Zufallsgewichten, wenn der TDNN-Klassifikator gänzlich untrainiert ist, oder durch einen Satz von teilweise trainier ten Gewichten initialisiert. Ebenso wird der Umgebungs-Geräuschpegel auf einen Anfangspegel von I = 0 eingestellt. Der m-te Trainingsvektor wird beim Schritt 802 bei dem TDNN-Klassifikator verwendet, und die sich ergebende Antwort wird mit dem entsprechenden beispielhaften n ten Ausgangsvektor beim Schritt 804 erzeugt, und es wird eine Fehler- Metrik erzeugt. Anschließend werden synaptische Gewichte beim Schritt 806 mit Hilfe eines bekannten Lernalgorithmus, wie beispiels weise mit Hilfe des bekannten Rück-Ausbreitungs-Algorithmus oder der verallgemeinerten Delta-Regel eingestellt, wie in "Parallel Distri buted Processing", Rumelhart et al., The MIT Press, Cambridge, MA, 1986, Vol. 1, Ch . . 8, Stn. 322 bis 328 beschrieben ist. Beim Schritt 808 wird geprüft, ob alle M-Trainingsvektoren verwendet worden sind, und, wenn nicht, wird für eine andere Iteration auf Schritt 302 zurückge sprungen. Wenn alle M-Trainingsvektoren verwendet worden sind (m=M), geht das Verfahren beim Schritt 812 weiter, bei welchem der Geräuschpegel auf einen Pegel I = I + 1 geändert wird. Beim Schritt 814 wird geprüft, um zu sehen, ob alle L Geräuschpegel verwendet worden sind, und, wenn dies nicht der Fall ist, wird auf den Schritt 802 für ei nen anderen Satz von M-Iterationen bei einem neuen Geräuschpegel I zurückgegangen. Wenn I = L ist, sind alle geplanten Trainingsgeräusch pegel verwendet worden, und der Prozeß geht auf Schritt 816 über, bei welchem ein Satz Testvektoren bei dem TDNN-Spracherkennungssystem verwendet werden. Die Antwort auf die Testvektoren wird beim Schritt 818 mit der gewünschten Antwort verglichen, und es wird eine Ge samtfehler-Metrik berechnet. Wenn die Fehler-Metrik annehmbar ist, endet beim Schritt 820 der Prozeß. Andernfalls geht der Prozeß auf Schritt 822 über, bei welchem Umschulungs-Prozeduren aufgerufen werden, welche ein Erzeugen eines neuen Satzes von Trainingsvektoren, ein erneutes Ordnen des ursprünglichen Satzes von Trainingsvektoren, ein Verwenden des ursprünglichen Trainings-Vektorsatzes, ein Ändern der Reihenfolge, an welcher verschiedene Geräuschpegel angelegt wer den, oder einfach ein erneutes Durchlaufen des gesamten Trainingspro zesses enthalten können, indem die Indizies, (m, I = 0) initiiert und für eine ganze neue Iteration auf den Schritt 802 zurückgekehrt wird. An dere mögliche Variationen der vorstehend umrissenen Prozedur sind für die auf diesem Gebiet versierten Fachleute offensichtlich, wie ein Verwenden von Testvektoren nach dem Testschritt 808 und dann ein erneutes Trainieren, falls es erforderlich ist.

Fig. 18 ist ein funktionelles Blockdiagramm eines Trainingssystems 500, bei welchem ein TDNN-Sprachen-Klassifiziersystem 501 verwen det wird, wie es in Fig. 1 dargestellt ist. Das System 500 ist in der La ge, akustische Trainingsdaten bei einem Umgebungsgeräusch am Ein gang 509 und visuelle Trainingsdaten am Eingang 510 aufzunehmen. Zu beachten ist, daß die visuellen Daten durch eine visuelle Störung, wie Rauch, Nebel oder Staub beeinträchtigt werden können. Ein weiterer Satz von digitalen Eingangstrainingsdaten wird von einem Speicher 503 aus über einen Systembus 511 zugeführt. In diesem Fall kann ein Ana log-Digital-Umsetzer-(ADC)System 506 verwendet werden, um vorher gespeicherte Audio- und visuelle Datenvektoren in analoge Werte um zuwandeln, die sich für ein Eingeben in den TDNN-Sprach-Klassifikator 200 des Systems 501 eignen. Der Ausgang des Sprach-Klassifikators 200 entspricht dem Ansprechen des Systems 501 auf die eingegebenen Trainingsdaten. Die Ausgangswerte des Systems 501 werden mit der gewünschten Antwort in einem Fehler-Generator 504 verglichen, wel cher einen Analog-Digital-Umsetzer (ADC) enthält, um den Ausgangs vektor des Systems 501 in einen beispielhaften quantisierten Ant wortvektor umzuwandeln, welcher von einem Speicher 503 über Ver bindungsleitungen 508 zugeführt worden ist. Die aktuelle Fehler-Metrik kann in einem Steuerprozessor 502 mit Hilfe eines einfachen Diffe renzvektors berechnet werden, welcher von dem Fehler-Generator 504 erzeugt worden ist. Der Steuerprozessor 502 schafft die notwendige Steuerung und Initialisierung des Systems 500 sowie einen Träger für Berechnungen, wie beispielsweise einen Gesamtfehler nach einem Training. Der AD-Umsetzer 506 und der AD-Umsetzer des Fehler-Gene rators 504 können unnötig sein, wenn quantisierte, visuelle und akusti sche Datenvektoren für den TDNN-Klassifikator 200 akzeptabel sind, und der Klassifikator 200 einen quantisierten Ausgangsvektor erzeugt.

Claims

1. Trainingssystem für ein Spracherkennungssystem mit

(a) einem Spracherkennungssystem, um Aussprachen/Sprechwei sen zu erkennen, die zu einem vorher gebildeten Satz von Kandidaten-Sprechweisen/Aussprachen mit akustischen Sprachsignalen und einer ausgewählten, begleitenden, dyna mischen, visuellen Gesichtsmerkmalsbewegung zwischen ausgewählten Gesichtsmerkmalen gehören, welche einer akustischen Spracherzeugung zugeordnet sind, mit
(i) einer akustischen Merkmal-Extrahiereinrichtung, um Signale, die eine dynamische, akustische Sprache dar stellen, in einen entsprechenden dynamischen, akusti schen Merkmalsvektorsatz von Signalen umzuwandeln;
(ii) einer dynamischen, visuellen Merkmalextrahiereinrich tung, um Signale, welche die ausgewählte, begleitende, dynamische Gesichtsmerkmalsbewegung darstellen, die der akustischen Spracherzeugung zugeordnet sind, in einen entsprechenden, dynamischen, visuellen Merk malsvektorsatz von Signalen umzuwandeln und
(iii) einer zeitverzögerten, ein neurales Netzwerk aufwei senden Klassifiziereinrichtung zum Erzeugen einer be dingten Wahrscheinlichkeitsverteilung der zulässigen Kandidaten-Sprechweisen/Aussprachen, indem ein Satz derzeit gültiger und zeitverzögerter, dynamischer, akustischer und visueller Merkmalsvektorsätze ange nommen und bearbeitet wird, die von der akustischen und visuellen Merkmal-Extrahiereinrichtung zugeführt worden sind und
(b) einem mit dem Spracherkennungssystem verbundenen Steuer system zum Initialisieren von Parametern, zum Steuern des Funktionierens von Systemelementen, zum Speichern von aku stischen und visuellen, beispielhaften Ausgangsvektoren, zum Berechnen von Ausgangsfehlern und zum Einstellen der neuro nalen, netzwerk-synaptischen Gewichte, die auf berechneten Fehlern entsprechend einer vorgeschriebenen Trainingsproze dur basieren, wobei das Steuersystem einen Steuerprozessor und einen zugeordneten Speicher aufweist, welche mit dem Spracherkennungssystem verbunden sind.

2. System nach Anspruch 1, bei welchem die zeitverzögerte, ein neura les Netzwerk klassifizierende Einrichtung aufweist:

(a) eine Eingabeschicht mit einer mit Abgriffen versehenen Verzö gerungsleitung, um eine Folge von akustischen und visuellen, sich zeitlich ändernden Merkmalvektoren aufzunehmen und um eine Vielfalt von sequentiellen, akustischen und visuellen Merkmalvektoren parallel an den Ausgangsabgriffen der Verzö gerungsleitung zu erzeugen;
(b) einer verdeckten Schicht von neuronalen Zellen, welche mit den Ausgangsabgriffen der mit Abgriffen versehenen Verzöge rungsleitung verbunden sind, um an deren Ausgang verbesserte zeitabhängige Merkmale zu erzeugen;
(c) einer Klassifikationsschicht von neuronalen Zellen, welche mit dem Ausgang der neuronalen Zellen der verdeckten Schicht ver bunden sind, um einen Satz zeitveränderlicher Ausgangssignale zu erzeugen, die jeweils die Wahrscheinlichkeit der entspre chenden vorhandenen Aussprache/Sprechweise darstellen, und
(d) einer Mittelungsschicht, welche mit den Ausgängen der Klassi fikationsschicht verbunden ist, um einen Satz zeitlich gemit telter, sich ändernder Ausgänge zu erzeugen, nämlich einen für jeden zulässigen Aussprachetyp, welcher eine bedingte Wahr scheinlichkeit darstellt, daß die zugeordnete Aussprache ge sprochen wurde.

3. System nach Anspruch 1, bei welchem die zeitverzögerte, ein neuro nales Netzwerk klassifizierende Einrichtung quantisierte akustische und visuelle Trainingsvektoren von dem Steuersystem aufnimmt.

4. System nach Anspruch 1, bei welchem die ein neuronales Netzwerk klassifizierende Einrichtung analoge akustische und visuelle Merk mals-Trainingsvektoren von dem Steuersystem annimmt und ferner ei ne Einrichtung aufweist, um quantisierte akustische und visuelle Merk mals-Trainingsvektoren von dem Steuerprozessor-Speicher in analoge Trainingsvektoren umzuwandeln.

5. System nach Anspruch 1, bei welchem die zeitverzögerte, ein neuro nales Netzwerk klassifizierende Einrichtung einen quantisierten Aus gang hat.

6. System nach Anspruch 1 mit einem Fehlergenerator, der mit dem Steuerprozessor verbunden und von diesem gesteuert wird und der mit dem Ausgang der zeitverzögerten, ein neuronales Netzwerk klassifizie renden Einrichtung verbunden ist, um einen abgegebenen Antwortvektor aufzunehmen, welcher durch einen visuellen und einen akustischen ein gegebenen Trainingsvektor erzeugt worden ist, um einen beispielhaften Ausgangsvektor mit dem ausgegebenen Antwortvektor zu vergleichen, um ein Vergleichsergebnis zu schaffen und um das Vergleichsergebnis an den Steuerprozessor abzugeben, um die zeitlich verzögernden synap tischen neuronalen Netzwerk-Gewichte einzustellen.

7. System nach Anspruch 1, bei welchem die vorgeschriebene Trai ningsprozedur die folgenden Schritte aufweist:

(a) Initialisieren der synaptischen Gewichte des neuronalen Netz werk-Klassifikators;
(b) Anlegen eines akustischen und eines visuellen Merkmal-Trai ningsvektors an den Eingang des neuronalen Netzwerk-Klassifika tors und Erzeugen eines Ausgabe-Antwortvektors;
(c) Vergleichen des ausgegebenen Antwortvektors mit einem bei spielhaften ausgegebenen Antwortvektors, welcher den Trai ningsvektoren entspricht, welche an den neuronalen Netzwerk- Klassifikator angelegt worden sind, und Erzeugen eines Fehlerma ßes;
(d) Einstellen der synaptischen Gewichte des neuronalen Netzwerk- Klassifikators entsprechend einem vorgeschriebenen Algorith mus, und
(e) Wiederholen der Schritte (b) bis (d) für eine vorgeschriebene An zahl Mal, um einen trainierten Satz von synaptischen Gewichten zu erzeugen.

8. System nach Anspruch 7, bei welchem der akustische und visuelle Merkmal Trainingsvektor einen vorgeschriebenen akustischen Ge räuschpegel hat.

9. System nach Anspruch 8, bei welchem die Trainingsprozedur zusätz lich die folgenden Schritte aufweist:

(a) Anlegen eines akustischen und visuellen Merkmalvektors mit einem anderen akustischen Geräuschpegel, und
(b) Wiederholen der Trainingsprozedur mit Hilfe des trainierten Sat zes von vorher erhaltenen, synaptischen Gewichten.

10. System nach Anspruch 9, bei welchem ferner der akustische und vi suelle Merkmal-Trainingsvektor erzeugt wird, indem eine geräuschvol le, akustische Sprechweise/Aussprache zusammen mit einem beglei tenden, visuellen Sprachsignal jeweils über eine gesonderte akustische und eine gesonderte visuelle Merkmal-Extrahiereinrichtung verarbeitet wird.