DE4436692A1 - Trainingssystem für ein Spracherkennungssystem - Google Patents

Trainingssystem für ein Spracherkennungssystem

Info

Publication number
DE4436692A1
DE4436692A1 DE4436692A DE4436692A DE4436692A1 DE 4436692 A1 DE4436692 A1 DE 4436692A1 DE 4436692 A DE4436692 A DE 4436692A DE 4436692 A DE4436692 A DE 4436692A DE 4436692 A1 DE4436692 A1 DE 4436692A1
Authority
DE
Germany
Prior art keywords
acoustic
visual
speech
training
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE4436692A
Other languages
English (en)
Other versions
DE4436692C2 (de
Inventor
David G Stork
Gregory Joseph Wolff
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of DE4436692A1 publication Critical patent/DE4436692A1/de
Application granted granted Critical
Publication of DE4436692C2 publication Critical patent/DE4436692C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Description

Die Erfindung betrifft ein Trainingssystem für ein Spracherken­ nungssystem. Ferner bezieht sich die Erfindung auf das Gebiet einer maschinellen Spracherkennung und betrifft insbesondere die Verbes­ serung einer akustischen Spracherkennung indem ein maschinelles Lippenlesen in Verbindung mit akustischen Daten in einem neuronalen Netzwerk-Klassifikationssystem angewendet wird.
Das Ziel einer automatischen oder maschinellen Spracherkennung be­ steht darin, ein System so auszulegen, daß es der menschlichen Fä­ higkeit angenähert ist, gesprochene Sprache bei Änderungen in der Betonung des Sprechers, des Geschlechts, der Sprechgeschwindig­ keit, des Artikulationsgrades zu verstehen, somit alles Elemente, die in akustischen Distraktoren und Geräuschen vorhanden sind. Die der­ zeit vorhandenen automatisierten Geräte haben eine geringere Genau­ igkeit und Robustheit als das, was notwendig ist, um die sehr hohen Anforderungen in solchen Anwendungsfällen, wie einer Computer- Sprache-Text-Umwandlung, einer automatischen Übersetzung und bei auf Sprache basierenden Steuersystemen voll zu genügen. Typische Lösungen enthalten versteckte Markov-Modelle, bei welchen Über­ gangswahrscheinlichkeiten in Verbindungsgliedern zwischen Knoten­ punkten (Zuständen) codiert werden, welche phonetische Segmente darstellen, und "Blackboard"-Methoden, bei welchen mehrere speziel­ le phonologische, lexikalische und auf Grammatik basierende Untersy­ steme verknüpft werden, um synergetisch zu arbeiten, um Spracher­ kennungsergebnisse (score) zu maximieren. In letzter Zeit sind neuro­ nale Netzwerke mit einem gewissen Erfolg in begrenzten Bereichen an­ gewendet worden, wie beispielsweise von A. Waibel in einem Artikel mit dem Titel "Modular Construction of Time-Delay-Neural Networks for Speech Recorgnition" beschrieben worden ist, was in Neural Compu­ tation 1, Stn. 39 bis 46 (1989) veröffentlicht ist.
Eine vorausgesagte Informationsquelle und irgendwelche Beschränkun­ gen, die vernünftigerweise in ein künstliches System eingebracht wer­ den können, erhöhen im allgemeinen die Erkennungsgenauigkeit und es ist folglich wünschenswert, daß sie in einem Spracherkennungssystem enthalten sind. Üblicherweise ist die beste Untersuchung auf das Ein­ beziehen einer auf hohem Pegel liegenden, linguistischen Information, wie grammatikalischen und syntaktischen Daten, konzentriert worden.
Menschen können auch Information außer dem akustischen Signal ver­ wenden, um das Verständnis zu verbessern. Beispielsweise benutzen schwerhörige bzw. hörgeschädigte Personen oft visuelle Information für ein "Sprachelesen", um die Erkennungsgenauigkeit zu verbessern. (Siehe beispielsweise Dodd, B. und Campbell, R. (eds.), "Hearing by Eye: The Psychology of Lipreading", Hillsdale, N.J., Lawrence Erlbaum Press (1987); oder DeFilippo, C.L. und Sims, D.G. (eds.), "New Reflections on Speechreading", special issue of The Volta Review 90(5), (1988).
Ein Sprachelesen kann direkte Information über Sprachsegmente und Phoneme sowie über die Sprechgeschwindigkeit, das Geschlecht des Sprechenden und dessen Identität sowie subtile Information dadurch schaffen, daß Sprache von Hintergrundrauschen getrennt wird. Der be­ kannte "Cocktail-Party-Effect", bei welchem Sprache, welche durch Geräusche aus dem Menschengedränge verfälscht worden ist, merklich verständlicher wird, wenn man das Gesicht des Sprechenden sehen kann, stellt ein starkes Indiz dafür dar, daß Menschen visuelle Infor­ mation zur Spracherkennung benutzen.
Mehrere Sprachlesesysteme sind in letzter Zeit beschrieben worden, nämlich
  • a) Petajan, E.D., et al., "An Improved Automatic Lipreading System to Enhance Speech Recognition", ACM SIGCHI-88, Stn. 19 bis 25, (1988);
  • b) Pentland, A., et al., "Lip Reading: Automatic Visual Recognition of Spoken Words", Proc. Image Understanding and Machine Vision, Op­ tical Society of America, Juni 12 bis 14 (1984) und
  • c) Yuhas, B.P., et al., "Integration of Acoustic and visual Speech Signals Using Neural Networks", Nov. 1989, IEEE Communications Magazine (1989).
Petajan, et al. benutzten schwellenwert-beaufschlagte Bilder (Pixels) eines Sprechergesichts während der Erzeugung eines Wortes zusammen mit einem Wörterbuch von vorher gespeicherten und markierten Sprechweisen und einem Normabstand-Klassifikator für visuelle Er­ kennung.
Pentland, et al. verwendeten eine optische Verlauftechnik, um die Ge­ schwindigkeit der Oberlippe, der Unterlippe und der beiden Mundwinkel von dem unverarbeiteten Pixel-Video-Bild des Mundes zu schätzen. Sie verwendeten dann eine Null-Kreuzungs-Strategie, um drei- und vier­ stellige Phrasen zu klassifizieren.
Yuhas, et al., trainierten ein neuronales Netzwerk mit Hilfe statischer Bilder der Mundform für eine Vokal-Erkennung zusammen mit einer Kontrolleinheit mit freien Parametern, um die relativen Wertigkeiten von visuellen und akustischen Beiträgen zum besten Erkennen beim Vorhandensein unterschiedlicher Pegel bei akustischen Geräuschen ein­ zustellen.
Gemäß der Erfindung soll das Leistungsvermögen von Spracherken­ nungssystemen verbessert werden, welche nur akustische oder visuelle Lippenpositions-Information insbesondere in einer ungünstigen, ge­ räuschvollen Umgebung benutzen. Ferner soll ein neues zeitverzögertes neurales Netzwerk-Sprache-Lesesystem zum Klassifizieren von Aus­ sprache und Sprechweisen nur mit Hilfe von visuellen Daten geschaffen werden. Ferner soll ein akustisches Spracherkennungssystem verbes­ sert werden, indem ein ein zeitlich verzögertes neurales Netzwerk be­ nutzendes, visuelles Spracherkennungssystem in Verbindung mit dem akustischen Spracherkennungssystem verwendet wird.
Ferner soll der Klassifikator mit einem kontinuierlichen Strom von diesbezüglichen, visuellen und akustischen Daten versorgt werden, aus welchen die akustische Sprechweise detektiert und klassifiziert wer­ den kann. Ferner soll eine Trainingsmethode geschaffen werden, um die Genauigkeit von akustischen und visuellen Sprach-Klassifikatoren in geräuschvollen Umgebungen zu verbessern. Darüber hinaus soll eine zeitverzögerte neuronale Netzwerk-Klassifikator-Architektur ge­ schaffen werden, welche ein Gradientengefälle oder andere Lernmetho­ den, wie ein Rückausbreitungs-Training (backpropagation training) trägt. Ferner soll eine akustische und visuelle Signalverarbeitung vor dem zeitlich verzögerten neuronalen Netzwerk-Klassifikator geschaf­ fen werden.
Darüber hinaus soll eine Ausgangsklassifikation, d. h. eine Wahrschein­ lichkeits-Verteilung geschaffen werden, welche die Wahrscheinlich­ keit jeder möglichen Kandidaten-Sprechweise darstellt, die in einem vorgegebenen Zeitintervall vorgekommen ist. Darüber hinaus soll ein einfaches Verfahren zum Extrahieren von dynamischer, visueller Ge­ sichtsinformation mittels einer ausgewählten Gruppe von Gesichts­ kennzeichen geschaffen werden.
Gemäß der Erfindung ist dies bei einem Trainingssystem für ein Spracherkennungssystem durch die Merkmale im kennzeichnenden Teil des Anspruchs 1 erreicht. Vorteilhafte Weiterbildungen sind Gegen­ stand der auf den Anspruch 1 unmittelbar oder mittelbar rückbezogenen Ansprüche 2 bis 10.
Gemäß der Erfindung ist eine Trainingsmethode für ein Spracherken­ nungssystem geschaffen, bei welchem sowohl akustische als auch vi­ suelle Sprachsignale verarbeitet werden, um die Wahrscheinlichkeit einer richtigen Klassifikation der Sprechweise bzw. Aussprache zu er­ höhen.
Ferner weist ein Spracherkennungssystem zum Erkennen von Sprech­ weisen, die zu einer vorher eingerichteten Gruppe von zulässigen Kan­ didaten-Sprechweisen gehören, eine akustische Merkmal-Extrahier- Einrichtung, eine dynamische, visuelle Merkmal-Extrahier-Einrichtung und eine ein neuronales Netzwerk klassifizierende Einrichtung auf. Die akustische Merkmal-Extrahiereinrichtung wandelt akustische Sprach­ signale, die eine Sprechweise darstellen, in einen entsprechenden spektralen Merkmal-Vektorsatz um. Die dynamische visuelle Merkmal- Extrahier-Einrichtung wandelt die dynamischen Gesichtsmerkmale, die der Erzeugung der akustischen Sprechweise zugeordnet sind, in einen dynamischen, visuellen Merkmal-Vektorsatz um. Die ein neuronales Netzwerk klassifizierende Einrichtung wandelt die dynamischen, aku­ stischen und visuellen Merkmalvektoren in eine bedingte Wahrschein­ lichkeitsverteilung um, welche die Wahrscheinlichkeit jeder Kandida­ ten-Sprechweise beschreibt, die gesprochen worden ist, indem die be­ obachteten akustischen und visuellen Daten vorgegeben worden sind.
Nachfolgend wird die Erfindung anhand von bevorzugten Ausführungs­ formen unter Bezugnahme auf die anliegenden Zeichnungen im einzelnen erläutert. Es zeigen:
Fig. 1 ein Blockdiagramm eines akustischen und visuellen dynami­ schen Spracherkennungssystems;
Fig. 2 das Plazieren von visuellen Vergleichskennzeichen bzw. -Mar­ kierungen an und um die Lippen des Sprechers herum;
Fig. 3 die Beziehung zwischen den gleichmäßigen Mel-Frequenzbän­ dern und den entsprechenden nicht-gleichförmigen, linearen Frequenzbändern;
Fig. 4(a) und 4(b) zwei äquivalente Ausführungen eines zeitverzögern­ den, einlagigen neuronalen Netzwerks (TDNN);
Fig. 5(a) und 5(b) das elektrische Analogon einer typischen Aussprache zusammen mit deren Spektrogramm;
Fig. 6 die Architektur einer nur visuellen (VO) Mehrfachlage TDNN;
Fig. 7 eine Hardware einer TDNN-Architektur;
Fig. 8 ein Blockdiagramm eines akustischen und visuellen Spracher­ kennungssystems, das die Ausgangssignale von separaten, aku­ stischen und visuellen Erkennungssystemen verknüpft;
Fig. 9 eine Hardware einer Ausführungsform eines AxV-TDNN- Sprach-Klassifikators;
Fig. 10 eine Hardware einer Ausführungsform eines weiteren TDNN- Sprach-Klassifikators;
Fig. 11 eine Hardware einer Ausführungsform eines vollen AV-Sprach- Klassifikators;
Fig. 12 die Architektur eines typischen McCulloch-Pitts-Neurons;
Fig. 13(a) bis 13(c) Beispiele von Aktivierungsfunktion-Transferkenn­ daten;
Fig. 14 die Architektur einer typischen Sigma-Pi(ΣΠ) künstlichen neu­ ronalen Zelle;
Fig. 15 einen Satz von Lernkurven, welche den Trainingsfortschritt zeigen;
Fig. 16(a) bis 16(d) eine Gruppe von Verwirrungs-Matrizen für vier Sy­ steme;
Fig. 17 ein Flußdiagramm einer Trainingsprozedur, und
Fig. 18 ein funktionelles Blockdiagramm eines Trainingssystems.
Nunmehr werden mehrere Ausführungsformen von Spracherkennungssy­ stemen beschrieben, wobei jedes System trainiert wird, um eine be­ grenzte Menge von Sprechweisen bzw. Aussprachen zu erkennen. Die verschiedenen Ausführungsformen unterscheiden sich in der verwende­ ten Informationsart und/oder auf welche Weise die Informationssigna­ le verarbeitet werden. Auf jeden Fall ist es das Ziel des Spracherken­ nungssystems, an dem Klassifikator-Ausgang eine Wahrscheinlich­ keits-Verteilung zu erzeugen, die jeder der möglichen Kandidaten- Sprechweisen zugeordnet ist.
Im Hinblick auf die Klarheiten der folgenden Beschreibung werden spe­ zifische Beispiele der erfindungsgemäßen Ausführungsform verwendet, um eine von zehn Kandidaten-Sprechweisen zu erkennen. Hierbei sollte jedoch beachtet werden, daß dies nicht notwendigerweise eine Be­ schränkung auf eine Anzahl oder bestimmte Arten von Sprechweisen oder Äußerungen darstellt, welche in Einklang gebracht werden können.
Die vorliegende Erfindung ist ein System für eine Spracherkennung, bei welchem sich dynamisch ändernde, akustische und visuelle Signale für eine verbesserte Spracherkennungs-Effizienz verwendet werden. Fig. 1 zeigt ein vereinfachtes Blockdiagramm einer Ausführungsform. Akusti­ sche Sprechdaten werden mittels eines Mikrophons 28 aufgenommen, welches über eine Ausgangsleitung 22 die elektrischen Signal-Repliken der akustischen Information an einen Spektrum-Analysator anlegt, von welchem aus die akustische Energie an eine Anordnung von 14 Filtern angelegt wird. Die sich kurzfristig zeitlich ändernde Energie, welche von jedem der 14 Filter abgegeben wird, wird gemessen, normiert und an die 14 Ausgangsleitungen 25 als ein sich zeitlich ändernder Vektor mit 14 Komponenten angelegt.
Gleichzeitig nimmt eine Videokamera 10 die zugeordneten visuellen Daten auf, die aus einer Menge von Markierungen erzeugt worden ist, die verwendet werden, um die Lippen- und Mund-Bewegung zu beschreiben, welche durch eine vorgegebene Sprechweise erzeugt worden ist. Die unbehandelte Video-Information wird durch eine Leitung 12 an einen Lippen- und Mund-Positionsvektor-Generator 14 abgegeben, welcher die sich zeitlich ändernde Position der Lippen- und Mundmarkierungen für eine Kopfneigung und -größe normiert, was einen sich zeitlich ändern­ den Vektor auf den fünf Ausgangsleitungen 15 ergibt, welcher die Lip­ pen- und Mund-Tätigkeit beschreibt, welche der akustischen Sprech­ weise zugeordnet ist.
Der Lippen- und Mund-Positionsvektor-Generator 14 weist ein Nach­ laufsystem 16, um die Position von lichtemittierenden oder lichtre­ flektierenden Vergleichsmarkierungen zu verfolgen, die an und um die Lippen des Sprechers plaziert sind, und einen Vektorgenerator 19 auf, welcher ausgewählte Abstände zwischen Vergleichsmarkierungen ex­ trahiert und normiert. Diese Einrichtung wurde mit Hilfe des auf einem Computer basierenden, zweidimensionalen Bewegungs-Analysesystems ausgeführt, das von Motion Analysis Corporation, 3650 North Laughlin Road, Santa Rosa, Kalifornien 95403 unter dem Warenzeichen "Expert Vision" hergestellt wird.
Das Expert-Vision-Video-Nachlaufsystem benutzt eine Videoeinrich­ tung, um die Bewegung von Objekten einzufangen und aufzunehmen. Re­ flektierende Markierungen werden an interessierenden Stellen plaziert. Das System kann Daten einfangen und analysieren, die von einer Video­ kamera (oder einem -Band) mit einer Video-Norm-Bildfrequenz von 60 Hz bis zu 200 Hz gewonnen worden sind.
Die unverarbeiteten Videodaten von der Videokamera werden einem Videoprozessor-Untersystem zugeführt, welches die Kennzeichen- Markierungsbilder isoliert und sie in Echtzeit in digitalisierte Video- Umrißlinien umwandelt. Der Videoprozessor versieht die Funktion des Nachlaufsystems 16, indem er x- und y-Koordinaten der Markierungs­ ränder in dem Host-Computer für eine anschließende Verarbeitung er­ zeugt. Die detektierten Bildschirmpositionen werden in Videobildfre­ quenz-Intervallen in einem rechteckigen Gitter ausgedrückt, das (in der x-Richtung) 256 Pixel breit und (in der y-Richtung) 240 Pixel hoch ist.
Das Videobild der Markierungen wird mittels der Host-Computer-Soft­ ware auf Schwerpunkte reduziert. Der Schwerpunkt jeder reflektieren­ den Markierung wird dadurch festgelegt, daß die Koordinaten der ein­ zelnen Pixel gemittelt werden, welche die Umrißlinie der Markierung bilden. Die Schwerpunkte jeder Markierung werden von Bild-zu-Bild markiert und verbunden, um eine Trajektorie zu bilden. Zusätzliche Host-Computer-Software wird verwendet, um den Satz visueller Ab­ standsvektoren zu erzeugen und zu normieren, wie nachstehend noch beschrieben wird und funktionell durch den Vektorgenerator 19 der Fig. 1 angezeigt ist.
Die beiden, sich zeitlich ändernden Vektoren auf den Leitungen 15 und 25 werden an einen ein zeitverzögerndes, neurales Netzwerk-("TDNN") aufweisenden Sprach-Klassifikator 200 angelegt, wobei das neuronale Netzwerk zehn Ausgangssignale auf Leitungen 17 erzeugt. Jede der Ausgangsleitungen 17 ist ausschließlich einer von zehn möglichen Sprechweisen bzw. Aussprachen zugeordnet, so daß das TDNN 200 trai­ niert ist, sie zu erkennen. Die Signalgröße auf jeder der zehn Leitungen stellt die Wahrscheinlichkeit dar, daß die zugeordnete Sprechweise bzw. Aussprache gemacht wurde. Ein (gestrichelt dargestelltes) Ausga­ benetzwerk 18 ist ein optionaler (bekannter) Ein-aus-Zehn-Klassifika­ tor, welcher die wahrscheinlichste Aussprache auswählt, indem die Aussprache bzw. Sprechweise gewählt wird, die der Leitung mit dem höchsten Pegel (Wahrscheinlichkeit) der zehn Leitungen 17 entspricht. Da der TDNN-Klassifikator 200 einen sich zeitlich ändernden Daten­ strom prüfen kann, ist die genaue Kenntnis der zeitlichen Position der akustischen und visuellen Information nicht erforderlich.
Fig. 2 zeigt das Plazieren der zehn reflektierenden Markierungen (M0,9) an dem jeweiligen Sprechergesicht, die in einer Ausführungsform ver­ wendet wurden. Die Positionen der zehn Vergleichsmarkierungen waren die Spitze der Nase (M0), die Mitte des Kinns (M1), der linke Mundwinkel (M2), der rechte Mundwinkel (M3), die obere Mitte der Lippen (M4), die untere Mitte der Lippen (M5) und vier Stellen auf den Lippen, welche annähernd die Hälfte zwischen der Mitte der oberen Lippe und den lin­ ken und rechten Mundwinkel (M6, M7) und zwischen der Mitte der unte­ ren Lippe und den linken und rechten Mundwinkeln (M8, M9) sind. Dieser Satz von Vergleichsmarkierungen wurde verwendet, um die generelle Form und Bewegung des Lippen- und Mundbereichs festzustellen. Diese spezielle Anordnung hat den großen Vorteil der Einfachheit, im Ver­ gleich zu dem rechnerisch aufwendigen Problem, dieselbe Information aus der gewaltigen Datenmenge herzuleiten, welche durch Folgen von Video-Pixel-Bildern erzeugt worden sind.
Die Position der reflektierenden Vergleichsmarkierungen auf jedem Gesicht eines Sprechenden wurde mittels einer Videokamera 10 mit ei­ ner 60 Hz-Bildfrequenz aufgezeichnet und dann mittels eines Posi­ tionsvektor-Generators 14 in visuelle Merkmalvektoren umgeformt, welche fünf Komponenten haben, wie in der nachstehenden Tabelle auf­ geführt ist.
Diese spezielle Auswahl von Vektorkomponenten-Merkmalen wurde so gemacht, daß die verschiedenen Abstände quer zum Mund und Gesicht bereits unabhängig von Verschiebungen und Drehungen des Kopfes ge­ macht werden können. Dies wurde mit dem Vektorgenerator 14 ausge­ führt, indem zuerst der Kopf gedreht wird, so daß eine Linie, die durch die Vergleichsmarkierungen M0 und M1 gezogen wurde, vertikal war, dann wurden die drei vertikalen Abstände (M0-M1, M4-M5 und der durch­ schnittliche Abstand von M6-M8 und M7-M9) sowie die zwei horizonta­ len Abstände (M2-M3 und der durchschnittliche Abstand von M6-M7 und M8-M9) berechnet.
Eine weitere Normung der Komponenten-Merkmale wurde wegen Quer- Objekt-Unterschieden in Gesichtsabmessungen erforderlich. Ebenso wurde bemerkt, daß bei jedem Sprecher der Mund manchmal in einer teilweise offenen, bequemen und erholsamen Stellung war. Beim Nor­ mungsschritt wurde eine Menge von charakteristischen Gesichtsabmes­ sungen hinsichtlich der Größe jedes Gesichts eines Sprechers durch Mitteln der Vektoren erzeugt, die allen ausgeruhten Positionszeitpunk­ ten entsprechen. Dann wurde jeder visuelle Vektor in der Folge nor­ miert, indem der Ruhemittelwert von jeder Komponenten subtrahiert wurde und die Größe skaliert wurde, so daß jedem Komponentenwert ein Wert von plus oder minus eins zugeordnet ist, wenn dessen Pegel plus oder minus zwei Standardabweichungen von dem Durchschnitt entspricht.
Obwohl die spezifische Gruppe von vorstehend aufgezählten Gesichts­ bewegungsmerkmalen verwendet wurde, um die Spracherkennung in der Praxis zu reduzieren, könnten auch andere entsprechend kennzeichnende Mengen von dynamischen Abmessungen verwendet werden, um die we­ sentliche visuelle Information zu übermitteln. Dies könnte zu einem anderen, jedoch effektiven, dynamischen visuellen Datenvektor führen. Beispielsweise könnte eine Videokamera ein dynamisches Pixel-Bild des Sprecher-Mundes und dessen Lippen erzeugen. Die dynamische Form könnte durch Messen des Abstandes zwischen den Schatten unter den Unter- und den Oberlippen gemessen werden, welche durch eine Über­ kopfbeleuchtung hervorgerufen sind. Eine Menge derartiger Abmessun­ gen quer zu dem Mund würde die dynamische Form beschreiben.
Die akustischen Datensignale kamen in einem Zeitfenster mit einer Dauer von einer Sekunde vor und wurden gleichzeitig von einem Kar­ dioid-Mikrophon 20 aufgenommen und wurden dann mit einer Abtast­ frequenz von 8012 Hz mit einer 8 Bit-(mu-law-)Codierung abgetastet und digitalisiert (was einer digitalen Fernsprechleitungs-Qualität äquivalent ist). Eine vierzehnwertige Mel-Leistungsspektrums-Analyse wurde mittels eines Spektrum-Analysators 24 mit Hilfe einer diskre­ ten Fourier-Transformation 256 Datenpunkt-Rahmen durchgeführt, die in Intervallen von 5 ms zentriert sind, um die vierzehn Mel-Leistungs­ spektral-Analyse-Filter zu simulieren. Jeder der 256 Datenpunkt-Rah­ men wurde durch eine Hamming-Fensterfunktion mit einem Fenster versehen, um einen spektralen Verlust zu reduzieren. Das Anwenden der diskreten Fourier-Transformation bei den "gefensterten" Daten und das Ausbilden der quadrierten Größe der Fourier-Koeffizienten führte zu einem Leistungsspektrum mit einer gleichförmigen Auflösung mit 128 Punkten. Jedoch hat das Mel-Skalen-14 Band-Leistungsspektrum eine Frequenzskala F, die logarithmisch in Beziehung zu der normalen linea­ ren Frequenzskala f in folgender Weise steht:
F = In (1 + f/700).
Diese Mel-Frequenzskala basiert auf psycho-akustischen Frequenz- Skalierexperimenten, die zeigen, daß menschliche Beurteilungen des relativen Abstands von zwei Sinuskurven nicht äquivalent derem tat­ sächlichen arithmetischen Verhältnis sind. Folglich betrifft die vor­ stehende Gleichung die Beurteilung des wahrgenommenen Abstands F zu den physikalischen Messungen der Frequenz f. Obwohl des Mel-Lei­ stungsspektrum verwendet wurde, können bei einer Vielzahl von Lei­ stungsspektrum-Typen, welche diejenigen einschließen, die auf Gleichbleiben oder exponentiell skalierten Band-Intervallen basieren, in dieser Anwendung effektiv sein.
Fig. 3 zeigt einen graphischen Kurvenverlauf der Mel-Frequenz F über der tatsächlichen Frequenz f. Vierzehn gleichförmige Bandbreiten auf der Mel-Skala sind auf der vertikalen Skala zusammen mit deren Pro­ jektion auf die tatsächliche Frequenzskala als nicht-gleichförmige Bänder dargestellt, welche mit zunehmender Frequenz f entsprechend dem vorstehend wiedergegebenen Ausdruck größer werden. Die untere Abszissenskala bezieht sich auf einen Fourier-Koeffizienten-Frequen­ zindex bezüglich der tatsächlichen Frequenz. Folglich werden die gleichförmigen 14-Mel-Skalen-Bandbreitenfilter dadurch simuliert, daß die spektrale Leistung in den entsprechenden, linearen, nicht­ gleichförmigen Bändern, wie dargestellt, summiert werden. Ein stati­ stisch stetigeres Mel-Skalen-Leistungsspektrum wird jeweils alle 5ms oder 200 mal pro Sekunde erzeugt, indem sequentielle Paare von Spektren gemittelt werden, welche die effektive Ausgangs-Spektrums­ rate auf jeweils 10ms (100 Spektren pro Sekunde) reduziert. Der nächste Verarbeitungsschritt, der von dem Spektrum-Analysator 24 durchgeführt wird, ist die Erzeugung des Logarithmus jedes Mel-Spek­ trums, um einen logarithmischen 14 Komponenten-Mel-Spektralvektor zu erhalten. Eine Normung jedes Satzes von logarithmischen Mel-Spek­ tren, die einer vorgegebenen Sprechweise/Aussprache entsprechen, wird dadurch erreicht, daß der Mittelwert berechnet und das Maximum und Minimum aller Werte in dem Satz extrahiert werden. Die logarith­ mischen Mel-Spektralsätze wurden dann skaliert, um zu bewirken, daß der neue Mittelwert null ist und der Maximumwert jedes Log-Spek­ trums eins ist. Die normierten logarithmischen Mel-Spektralvektoren sind auf Ausgangsleitungen 25 des Spektrum-Analysators 24 verfügbar.
Da in einer Ausführungsform die Video-Bildfrequenz der Kamera 20 in Fig. 1 60 Bilder/s betrug, während die spektrale Erzeugungsfrequenz des Spektrumanalysators 100 Spektren pro Sekunde betrug, war ein zu­ sätzlicher Verarbeitungsschritt erforderlich, um die zwei Frequenzen anzupassen. Dies ist grafisch in Fig. 1 durch den strichpunktierten, mit "Interpolator" bezeichneten Block 26 dargestellt, der nur erforderlich ist, wenn die Video-Bildfrequenz und die spektrale Bildfrequenz nicht dieselben sind. In diesem Fall wurden aufeinanderfolgende Videodaten- Rahmen (Vektoren), die jeweils die vorstehend beschriebenen fünf Vek­ tor-Komponenten aufweisen, mit einem (sin x)/x-Interpolationskern interpoliert, um eine neue Folge von Frequenzen mit einer Geschwin­ digkeit von 100 pro Sekunde zu erzeugen. Mit anderen Worten, der Wert der interpolierten k-ten Abtastung, die in einer Zeit = k/100 pro Se­ kunde (k = 0, ±1, ±2, . . . ), d. h. in gleichförmigen Zeitintervallen von 10 ms vorkommt, ist dagegen durch:
wobei x(m/60) der Wert der Vektorkomponente zu einem Zeitpunkt =m/60 ist, m der ursprüngliche ganzzahlige Zeitindex ist, der in Inter­ vallen von 1/60s inkrementiert worden ist; k der neue Zeitindex ist, der in Intervallen von 1/100s inkrementiert worden ist, und X(k/100) die interpolierten Werte an den 1/100s-Intervallen ist.
Diese Operation kann mittels normaler Faltungs-(digitaler Filte­ rungs)Techniken durchgeführt werden. Andere mögliche Interpolations­ kerne einschließlich linearer, quadratischer und polynomischer Kerne höherer Ordnung könnten ebenso für eine Interpolation verwendet wer­ den, ohne den Nutzeffekt merklich zu beeinträchtigen.
Folglich werden die fünf Ausgangsleitungen 15 des visuellen Vektorge­ nerators 14 und die 14 Ausgangsleitungen 25 des akustischen Spek­ trum-Analysators 24 kombiniert, um einen zeitlich veränderlichen, au­ dio-visuellen ("AV") Vektor mit 19 Komponenten zu bilden, der an die TDNN 200 anzulegen ist, wie in Fig. 1 dargestellt ist.
Um Sprechweisen anzupassen, die von unterschiedlicher Länge und et­ was unvorhersehbar hinsichtlich ihres Anfangszeitpunkts sein können, wurde das für eine Sprach-Klassifikation verwendete neuronale Netz­ werk ausgewählt, das ein zeitverzögertes neuronales Netzwerk (TDNN) ist, das demjenigen entspricht, das von Waibel, A. in einem Artikel mit dem Titel "Modular Construction of Time-Delay Neural Networks for Speech Recognition" in Neural Computation 1, Stn. 39 bis 46 (1989) be­ schrieben ist.
Fig. 4(a) und 4(b) zeigen zwei funktionell äquivalente Ausführungen ei­ nes TDNN. Fig. 4(a) weist eine gleichmäßig mit Abgriffen versehene Verzögerungsleitung 103 auf, welche eine Eingangsdaten-Folge x(t) auf einer Eingangsleitung 101 erhält. Die Signale an den Abgriffen 102 der Verzögerungsleitung bilden einen Zeitfolge-Vektor, welcher die Zeit­ folge x(t) darstellt, die an die Verzögerungsleitung 103 angelegt wor­ den ist, wobei die älteren Daten auf der rechten Seite sind, d. h. jeder Abgriff hat einen Ausgang, welcher einen eingegebenen Folgewert dar­ stellt, welcher τ Sekunden eher anliegt, als ein unmittelbar links davon liegender Wert. Zu einem vorgegebenen Zeitpunkt ist ein zeitlicher Verlauf der eingegebenen Folge an den Ausgangsabgriffen 102 verfüg­ bar. Eine ausgewählte Gruppe von benachbarten Abgriffen ist mit Lei­ tungen 105 eines mit N1 bezeichneten Neuron 110 verbunden. Ebenso wird ein Satz, der die gleiche Anzahl von Eingängen wie Abgriffe 102 hat, aber um eine Verzögerungseinheit τ verschoben ist, an ein mit N2 bezeichnetes Neuron 110 angelegt. Wie dargestellt, kann die TDNN- Struktur eine Anzahl zusätzlicher Neuron-Einheiten 110 aufweisen, die in derselben Weise geschaltet sind, wobei jedes um eine Verzögerungs­ einheit τ verschoben ist. Die Neurons 110 sind jeweils im Aufbau iden­ tisch und benutzen die gleiche Gruppe synaptischer Gewichte, welche über Leitungen 107 angelegt werden. Folglich stellt der Ausgangswert jedes Neuron 110 auf Ausgangsleitungen 109 eine Datenfolge {yk(t)} dar, welche in der Zeit um das Intervall τ von ihrem benachbarten Neu­ ron 110-Ausgang verschoben sind.
Die Hardware der in Fig. 4(b) dargestellten TDNN-Struktur benutzt ein einziges Neuron 110 in einem Multiplex-Mode. Die eingegebene Daten­ folge, die über die Eingangsleitung 101 an die mit Abgriffen versehene Verzögerungsleitung angelegt worden ist, erzeugt ein Bild ihrer ver­ gangenen Werte in Intervallen von τ Sekunden auf Ausgangsleitungen 105, welche parallel an eine Neuron-Zelle 110 angelegt sind. Ein Satz Gewichte (die identisch den in Fig. 4(a) verwendeten sind) werden durch Eingangsleitungen 107 angelegt. In jedem Intervall τ erzeugt eine Neu­ ron-Zelle 110 einen Ausgangswert auf der Leitung 108, welcher an eine zweite mit Abgriffen versehene Verzögerungsleitung 103 angelegt wird. Wenn die zweite Verzögerungsleitung 103, welche zu der nächst höheren Schicht gehört, n Abgriffe hat, wie dargestellt ist, hat jeder von (n-1) Ausgangsabgriffen 109 in Intervallen von τ Sekunden einen neuen Abtast-Ausgangsvektor, der identisch ist mit demjenigen, wel­ cher durch das TDNN der Fig. 4(a) für dieselben eingegebenen Datenge­ wichte erzeugt werden würde.
Beide Strukturen der Fig. 4(a) und (b) sind dazu geeignet, eine einzige sich zeitlich ändernde Vektorkomponente an ihrem Eingangsanschluß 101 aufzunehmen. Folglich müssen die dargestellten Strukturen für je­ de Komponente des Eingangsvektors unterteilt sein. Im allgemeinen werden die eingegebenen Gewichte für jede Komponente eindeutig sein, wie durch die Trainingsprozedur festgelegt worden ist.
Die Zeitverzögerungseinheit τ ist so gewählt, daß Aliasing von Einga­ bedaten minimiert wird. Wenn der Wert von τ im wesentlichen kleiner als das Nyquist-Abtastintervall ist, würden die Werte an benachbarten Ausgangsabgriffen 109 stark in Wechselbeziehung stehen und würden wegen der überschüssigen Freiheitsgrade (Redundanz), die in dem neu­ ronalen Netzwerk verwendet sind, zu Instabilitäten im Training führen. Wenn das Intervall τ größer als das Nyquist-Abtastintervall ist, wird ein Aliasing eingeführt, das zu einer inkorrekten Klassifikation von Eingabedaten führen kann. Es wurde festgestellt, daß ein annehmbarer Wert etwa 10 ms beträgt.
Die Anzahl an Verzögerungselementen pro Verzögerungsleitung muß ausreichend sein, um sicherzustellen, daß ein vollständiger Ausspra­ cheabschnitt durch die Gesamtverzögerung von (n-1) τ für die Verzöge­ rungsleitungs-Struktur mit n Ausgangsabgriffen überspannt wird. Für die Klasse von benutzten Sprechweise- bzw. Aussprachewerten wurde herausgefunden, daß eine Spannweite von 100 Elementen mit einer Verzögerung von 10ms (somit insgesamt 1000 ms) angemessen ist.
Kürzere Beobachtungsspannen können eine Klassifizierung verschlech­ tern, da sie nicht den gesamten Abschnitt enthalten, und längere Span­ nen können die Klassifikation verschlechtern, weil sie viele überflüs­ sige Daten enthalten.
In einem praktischen Spracherkennungssystem ist ein mehrlagiges Vektoreingabe-TDNN erforderlich. Dies kann durch eine kaskadenartige Anordnung einer Anzahl von einschichtigen TDNNs realisiert werden, so daß die Ausgangsfolge einer vorgegebenen Schicht die Eingangsfolge der nächst höheren Schicht wird. Auf diese Weise bildet jede Schicht eine eingegebene Zeitfolge in eine andere Ausgabezeitfolge ab und bil­ det zu allerletzt die eingegebene Zeitfolge von Merkmalen (akustischen und visuellen) in eine Zeitfolge von Attributen (Klassifikationen) ab. Da das TDNN ein Untergruppe von neuronalen Optimalwert-Netzwerken, ist es mit Hilfe der bekannten Rückausbreitungs- oder anderer Gradienten­ abwärts-Algorithmen trainierbar. Außerdem hat das TDNN die gefor­ derte Eigenschaft, eine identische Transformation einer Folge von Merkmal-Zeitfenstern an inkrementell veränderlichen Zeitabschnitten nacheinander durchzuführen. Im Gegensatz zu herkömmlicheren neuro­ nalen Optimalwert-Netzwerken muß die eingegebene Datenfolge nicht genau mit einem absoluten Zeitreferenzwert abgestimmt sein, um ein richtiges Training zuzulassen. Die TDNN-Struktur bestätigt, daß inter­ essierende Muster in der eingegebenen Datenfolge zeitlich irgendwo auftreten können und während des Lernens versucht das TDNN beispiel­ hafte Muster in der Trainingsfolge zu finden, ohne Rücksicht darauf, wann sie vorkommen.
Wenn jedoch gefordert wird, daß der Netzwerkausgang ein einziger Satz von Attributen ist, kann eine Merkmalsfolge fester Dauer in der Eingangs-Verzögerungsleitung gespeichert werden. Die Dauer sollte so gewählt werden, daß die Zeitspanne (das Fenster) der Verzögerungslei­ tung sicher die interessierende Folge enthalten kann. Wenn jede folgen­ de Schicht des TDNN eine Funktion der Fenster-Zeitspanne ist, kann der Ausgang für jedes Merkmal/Attribut der Endstufe auf einen einzigen Wert des Fensterintervalls gemittelt werden.
Fig. 5(a) und 5(b) zeigen ein Beispiel eines typischen gesprochenen Aus­ drucks (die Sprechweise). In Fig. 5(a) ist ein elektrisches Signal darge­ stellt, welches den Schalldruck darstellt, das bei etwa 15,4s beginnt und bei 17,0s endet. Fig. 5(b) zeigt die fünf Komponenten des visuellen Vektors derselben Äußerung, die ebenfalls bei etwa 15,4s beginnt und etwa 1,6s später (bei 17,0s) endet. Folglich würde ein Fenster von ei­ ner Sekunde Dauer angemessen erscheinen, um sowohl die meisten aku­ stischen als auch visuellen Signale zu enthalten.
In den nachstehend beschriebenen Ausführungsformen wurden zehn mögliche Ausdruck/Aussprachearten in das Spracherkennungssystem gesprochen, und dann wurden zehn Ausgangswerte am Ausgang erzeugt, die jeweils die Wahrscheinlichkeit einer der zehn möglichen Sprech­ weisen darstellen, die gesprochen worden sind. Die Netzwerkstruktur, wies zwei Schichten des TDNN-Typs auf, auf welche eine Stufe zur Zeitmittelung und Wahrscheinlichkeitsnormung folgte.
Die fünf verschiedenen Ausführungsformen eines zu beschreibenden Spracherkennungssystems enthalten:
  • a) das VO-System, das nur visuelle Daten benutzt;
  • b) das AO-System, das nur akustische Daten benutzt;
  • c) das AxV-System, das auf einem hohen Pegel eine Kombina­ tion des AO- und VO-Systems ist;
  • d) das AV-System, das auf mittlerem Pegel (Klassifikations­ schicht) des AO- und das VO-System verknüpft, und
  • e) das volle AV-System mit einer integrierten Verarbeitung von akustischen und visuellen Daten.
Die Architektur eines TDNN-Netzwerks ist in Fig. 6 dargestellt, wie es in einer VO-Ausführungsform eines Sprach-Klassifikators 200 verwendet ist, was nur auf dem Lesen der visuellen Vergleichsmarkierungen ba­ siert, wobei die fünf vorher beschriebenen Abstandsmerkmale verwen­ det werden. Bei dieser Ausführungsform wurden keine akustischen Da­ ten benutzt. Die Verzögerungsleitungs-Eingangsstufe 210 weist fünf Verzögerungsleitungseinheiten 103 mit jeweils 100 Ausgangsabgriffen auf, wobei jede Verzögerungsleitung 103 eine der fünf Komponenten des visuellen Vektors speichert, welcher mittels des Vektorgenerators 14 der Fig. 1 geschaffen ist. Die Verzögerungsleitungen wurden in Soft­ ware simuliert. Das Zeitinkrement τ zwischen gespeicherten Werten beträgt 10ms, so daß das eingegebene Zeitfolge-Fenster 1000ms über­ spannt.
Eine verdeckte Schicht 220 weist vier Reihen Neuron-Zellen auf, die jeweils 81 Neuron-Zellen mit (5×20) Eingängen an jeder Zeile haben. Jedes Neuron in einer vorgegebenen Reihe ist mit 20 benachbarten Ver­ zögerungsleitungswerten der fünf Verzögerungsleitungen verbunden. Die Reduzierung von fünf auf vier Reihen schaffte ein Modicum einer Datenkompression in der Reihenabmessung.
Die Klassifikationsschicht 230 weist zehn Reihen auf, eine für jede der zu der detektierenden Aussprachen und ist 72 Neuron-Zellen lang. Jedes Neuron nimmt ein Feld von 40 Eingangsleitungen auf: vier Reihen von der versteckten Schicht 220 mit zehn aneinandergrenzenden neuronalen Ausgängen in der verdeckten Schicht. Jeder der zehn sich ergebenden Reihen hat 72 Neuron-Zellen, welche den 72 möglichen Werten entspre­ chen, die von dem zeitlich verschobenen Ausgang der verdeckten Schicht zur Verfügung stehen. Jeder Wert am Ausgang der Neuronen in einer vorgegebenen Reihe der Klassifikationsschicht 230 entspricht der Wahrscheinlichkeit, daß die entsprechende Aussprache/Sprachwei­ se während eines von 72 Zeitintervallen von 290 ms aufgetreten ist, die in Intervallen von 10 ms angeordnet sind und das Original-(Ein­ gangsstufen-)Datenfenster von 1000ms überspannen. Die Auflösung von 290 ms ergibt sich aus dem 20ms-Fenster, das als Eingang zu der ver­ deckten Schicht 220 verwendet worden ist, und aus den nachfolgenden zehn Fenstereinheiten, welche in der verdeckten Schicht 220 verwen­ det sind.
Die Mittelungsschicht 240 weist 10 Neuron-Zellen auf, die jeweils ei­ ner spezifischen Reihe der Klassifikationsschicht und folglich einer spezifischen der zehn zulässigen Sprechweisen/Aussprachen zugeord­ net ist. Die Werte in jeder Ausgangsreihe der Klassifikationsschicht 230 zeigt die Wahrscheinlichkeit an, daß die spezielle Ausspra­ che/Sprechweise während eines Intervalls von 290 ms vorgekommen ist, welches dieser Zelle entspricht. Die 72 Eingänge werden in der entsprechenden Neuron-Zelle in der Mittelungsschicht verknüpft, um einen Wert an deren Ausgang zu erzeugen, welcher die Wahrscheinlich­ keit darstellt, daß diese Aussprache/Sprechweise irgendwo während des Beobachtungsfensters von 1000 ms der Eingangsstufe 210 gespro­ chen wurde.
Das nur akustische (AO-) Spracherkennungssystem verwendet dieselbe Architekturart wie die in Fig. 6 dargestellte VO-Systemarchitektur, wo­ bei Parameter eingestellt werden, um die logarithmischen Mel-Skala- Spektralmerkmal-Vektoren mit 14 Komponenten anzupassen, welche von dem Spektrum-Analysator 14 der Fig. 1 in Intervallen von 10ms ge­ schaffen worden sind. Folglich hat die Verzögerungsleitungs-Eingangs­ stufe 210 eine Anordnung von 14 Reihen von 100 Datenwerten als Ein­ gängen an der verdeckten Schicht 220. Jede Reihe entspricht einem 1000ms-Wert von logarithmischen Mel-Skalenwerten von einem der Gruppe von 14 Ausgangsfiltern des Spektrum-Analysators 14.
Die verdeckte AO-Schicht 220 wies vier Reihen von 96 Neuron-Zellen für eine Merkmalskompression von 14 auf 4 auf. Jedes Neuron 221 ist mit 5 benachbarten Eingangsstufen-Zeitabtastwerten (samples) jedes der 14 Eingangsmerkmale (insgesamt 70 Eingangsmerkmalswerten pro Neuron) verbunden. Das Eingangsfenster von 5 Einheiten (50ms) ist ein typisches Zeitintervall für die wichtigsten, akustischen, Merkmale, wie Bursts und Übergänge. Folglich erhält jedes drauffolgende Neuron in einer vorgegebenen Reihe einer verdeckten Schicht 220 eine (14 Zei­ len mal 5 Spalten) Anordnung von Eingangswerten von einer Eingangs­ stufe 210 an, die um ein Intervall von 10ms verschoben sind.
Jedes Neuron 231 der AO-Klassifikationsschicht 230 nimmt einen Ein­ gangsfaktor von 4 Merkmalsreihen und 25 Zeitspalten von der verdeck­ ten Schicht 220 an. Jede nachfolgende Spalte von Neuronen 231 erhält Eingänge von der verdeckten Schicht 220, die um eine Spalten-Zeitein­ heit von 10 ms verschoben sind. Das 25 Spalten-Fenster wurde so ge­ wählt, daß das gesamte effektive Zeitfenster, das von der Klassifika­ tionsschicht 230 gesehen worden ist, 290ms (((5-1) + 25) × 10ms) ist; daßelbe effektive Fenster wurde in dem vorstehend beschriebenen VO- Spracherkennungsnetzwerk verwendet. Eine Gesamtanzahl von 720 Neu­ ronen, welche die AO-Klassifikationsschicht 230 enthält, sind jeweils in zehn Reihen von 72 Neuronen angeordnet. Wie im Falle des VO-Spra­ cherkennungsnetzwerks entspricht jede der zehn Reihen einer der zehn zulässigen Sprechweisen/Aussprachen.
Die Ausgangsschicht 240 des AO-TDNN-Klassifikators 200 weist eine Spalte mit 10 Neuronen-Zellen 241 auf, wobei jede Zelle, die mit einer eindeutigen Merkmalsreihe der Klassifikationsschicht 230 verbunden ist, ein Eingangswert von 72 ist. Die Werte am Ausgang der Mittelungs­ schicht 240 sind jeweils repräsentativ für die Wahrscheinlichkeit, daß die entsprechende Aussprache/Sprechweise irgendwo in dem 1000ms Datenfenster in der Eingangsstufe 210 vorkam.
Fig. 7 ist eine weitere Ausführungsform des AO-TDNN, einer funktiona­ len Äquivalenz zu dem vorstehend beschriebenen Netzwerk, das die Menge an Hardware minimiert, die für ein Neuron-Zellen-Multiplexing erforderlich ist. Die 14 log. Mel-Skala-Spektraldaten-Komponenten des akustischen Vektorsignals werden an eine Verzögerungsleitung-Anord­ nung (DLA) 302 angelegt, die 14 Verzögerungsleitungen mit Abgriffen aufweist und von denen jede eine Kapazität von fünf Datenwerten hat. (In diesem Zusammenhang ist eine Verzögerungsleitung das Äquivalent eines analogen oder digitalen Schieberegisters). Sobald die Verzöge­ rungsleitung gefüllt ist, nimmt die Neuron-Zellenanordnung (NCA1) 310, die vier Neuron-Zellen (N1 bis N4) aufweist, das Feld von (14 × 5) Werten von den Abgriffen der DLA 302 auf und verbindet dieses 70 Werte-Feld mit jedem der 70 Eingangsanschlüsse der vier Zellen (N1 bis N4). Die NCA1 310 erzeugt vier eindeutige Ausgangswerte, und zwar einen für jede der Neuron-Zellen N1 bis N4 und übergibt sie an den Eingang der DLA 304 der Verzögerungsleitungs-Anordnung in der ver­ deckten Schicht. Die DLA 304 taktet die vier Werte. 10ms später er­ reicht ein neuer Wert den Eingang der DLA 302, wodurch deren Inhalt um eine Einheit nach rechts verschoben wird und folglich der älteste Satz von 14 spektralen Datenwerten ausgegeben wird. Der neue Satz von (14 × 5) Datenstellen wird dann an jede der Zellen der NCA 310 an­ gelegt, wodurch an deren vier Ausgangsanschlüssen ein neuer Vierkom­ ponenten-Vektor geschaffen wird, welcher in die vier Verzögerungslei­ tungen der DLA 304 eingegeben wird. Dieser Prozeß wird fortgesetzt, und hat schließlich zur Folge, daß die DLA 304 gefüllt ist. Zu diesem Zeitpunkt berechnen dann die zehn Neuron-Zellen (N5 bis N14) der NCA 312 jeweils einen Ausgangswert für die zehn Aussprache-Kategorien und liefern für ein Speichern den Zehnkomponenten-Vektor an die DLA 306, welche zehn Verzögerungsleitungen jeweils mit einer Kapazität von 72 Werten aufweist.
Somit wird jeweils nach 10ms ein neuer Vektor von der NCA 310 be­ rechnet, welcher in die DLA 304 geschoben wird. Der Reihe nach be­ rechnet dann die NCA 312 einen neuen Zehnkomponenten-Vektor, wel­ cher in die DLA 306 geschoben wird. Wenn die Kapazität der DLA 306 gefühlt ist, wird der Inhalt jeder der zehn (1 × 72) Verzögerungsleitun­ gen an das zugeordnete, den Mittelwert bildende Neuron (N15 bis N24) der NCA3 14 angelegt. Die erste Gruppe von zehn (10) Ausgängen stellt die Wahrscheinlichkeit dar, daß der zugeordnete Ausdruck während der ersten 290 ms gesprochen wurde.
Da Spektraldaten fortlaufend jeweils ein Intervall von 10ms erreichen, werden neue Werte von Ausgabewahrscheinlichkeiten berechnet. Folg­ lich würde der zweite berechnete Wert der Wahrscheinlichkeit eines Ausdrucks entsprechen, der in einem 290ms-Fenster vorkommt, das um 10ms gegenüber dem ersten verschoben ist. Nachfolgende Ausgabe­ wahrscheinlichkeiten entsprechen 290ms-Fenstern, die relativ zu dem vorherigen Fenster um 10ms verschoben sind.
Obwohl die Arbeitsweise des TDNN der Fig. 7 anhand eines AO-Spra­ cherkennungssystems beschrieben wurde, gilt dasselbe Operationsprin­ zip selbstverständlich auch dann, wenn eine ähnliche Struktur in einem VO-Spracherkennungssystem verwendet würde, das mit den vorherigen bezüglich Fig. 6 vorgenommenen Operationsbeschreibungen überein­ stimmt.
Die beschriebenen AO- und VO-Systeme arbeiten unabhängig von aku­ stischen bzw. visuellen Sprechdaten. Mit anderen Worten, sie sind das Äquivalent des in Fig. 1 dargestellten Systems, in welchem entweder die visuellen oder die akustischen Daten null (nulled) sind. Es ist durchaus zu erwarten, daß eine Steigerung/Vergrößerung eines AO-Sy­ stems durch visuelle Daten die Klassifikationsgenauigkeit insbesonde­ re unter ungünstigen akustischen Umgebungsbedingungen erhöhen wür­ de. Nunmehr werden drei Ausführungsformen eines kombinierten aku­ stischen und visuellen Spracherkennungssystems beschrieben.
Das erste System, das als A x V-System bezeichnet und in Fig. 16 dar­ gestellt ist, weist einen AO-Sprach-Klassifikator 400 und einen VO- Sprach-Klassifikator 500 zusammen mit einer zusätzlichen Netzwerk­ schicht 250 auf, um die Ausgabewahrscheinlichkeiten der beiden Sy­ steme in einem einzigen Satz von Wahrscheinlichkeiten zusammenzu­ fassen.
Eine AO-Klassifikator 400 weist einen log. Mel Skala-Spektrum-Analy­ sator 24 auf, welcher das elektrische Analogon eines Sprachsignals aufnimmt, und an seinem Ausgang einen akustischen Zehnkomponenten- Vektor erzeugt, welcher als der Eingangswert an einem akustischen TDNN-Klassifikator 410 verwendet wird, wie vorstehend beschrieben ist. Der Ausgang des AO-Klassifikators 400 ist ein Wahrscheinlich­ keitsvektor, welcher die Wahrscheinlichkeit beschreibt, daß jede der zehn zulässigen akustischen Sprechweisen/Aussprachen nur basierend auf den akustischen Daten ausgedrückt wurden. Dies wird dann einem Wahrscheinlichkeits-Kombinator 250 zugeführt.
Ebenso verwendet ein VO-Klassifikator 500 ein elektrisches Signal der Vergleichsmarkierungen, um einen Lippen- und Gesichts-Merkmalvek­ tor, welcher dem entsprechenden akustischen Merkmalsvektor zugeord­ net ist, als einen Eingangswert an dem Lippen- und Mundpositions-Vek­ torgenerator 14 festzulegen. Der abgegebene visuelle Vektor, welcher von dem Vergleichsmarkierungs-Suchsystem und dem Vektorgenerator­ einheit erzeugt worden ist, wird an einen akustischen TDNN-Klassifi­ kator 510 angelegt, welcher einen visuellen Zehnkomponenten-Wahr­ scheinlichkeitsvektor erzeugt, welche dem Wahrscheinlichkeits-Kom­ binator 250 zugeführt wird, welcher die Wahrscheinlichkeit darstellt, daß jeder der zehn möglichen vorgekommenen Sprechweisen/Ausspra­ chen allein auf den visuellen Daten basierte.
Nunmehr soll p(clA) die bedingte Wahrscheinlichkeit sein, daß die Aus­ sprache c mit dem zugeordneten akustischen Datenvektor A vorkam, und p(clV) soll die bedingte Wahrscheinlichkeit sein, daß die Ausspra­ che/Sprechweise 10 mit dem zugeordneten visuellen Datenvektor V vorkam. Folglich entspricht p(clA) dem c-ten Wert des Vektorausgangs des Klassifikators 410 basierend auf einem Vektor A, welcher von dem Spektrum-Analysator 24 erzeugt worden ist, und p(clV) entspricht dem c-ten Wert des Vektorausgangs des Klassifikators 510, basierend auf einem Vektor V, welcher von dem Generator 14 zugeführt worden ist.
Zu beachten ist, daß p(Alc), die bedingte Wahrscheinlichkeit eines vor­ kommenden Vektors A, der einer Aussprache der Kategorie c gegeben ist, und p(clA), die bedingte Wahrscheinlichkeit einer Aussprache der Kate­ gorie c, der ein akustischer Vektor gegeben ist,′ durch Apriori-Wahr­ scheinlichkeiten p(A) und p(c) folgendermaßen in Beziehung gebracht sind:
p(Alc) · p(c) = p(Alc) · p(A)
oder
p(Alc) = p(Alc)·p(A)/p(c)
Folglich können ein akustischer TDNN-Klassifikator 410 und ein visuel­ ler TDNN-Klassifikator 510 trainiert werden, um entweder p(Alc) oder p(clA) bzw. p(Vlc) oder p(clV) zu erzeugen, welche auf den relativen Frequenzen von p(A) und p(c) in den Trainingsdaten basieren.
Wenn Vektoren A und V unabhängig voneinander sind, dann ist die ver­ knüpfte Wahrscheinlichkeit der j-ten Aussprache cj, welche durch einen akustischen Datenvektor und einen visuellen Vektor V gegeben ist:
welches der gewünschte Ausgang von dem Wahrscheinlichkeits-Kombi­ nator 250 ist.
Wenn (und nur wenn) p(cj) = p(ci) für alle i und j ist, dann vereinfacht sich der vorstehende Ausdruck zu:
Unter dieser Voraussetzung zeigt der vorstehende Ausdruck, daß p(cjlA,V) durch das Produkt des j-ten Ausgangs des Klassifikators 410 bzw. 510 gebildet werden kann und durch die Summe von allen zehn Produkt-Termen normiert werden kann.
Der Produkt-Term aus den vorstehenden Ausdrücken kann mit verschie­ denen Einrichtungen einschließlich analoger oder digitaler Multiplizie­ reinheiten und einem Sigma-Pl(ΣΠ) neuronalen Zellen-Netzwerk er­ reicht werden, in welchem entsprechende p(clA) und p(clV) Terme ver­ wendet werden, um sie miteinander zu verknüpfen. Ebenso kann derselbe Term durch ein ΣΠ-neuronales Zellen-Netzwerk mit 20 Eingängen er­ zeugt werden, in welchem entsprechende A-und V-Wahrscheinlich­ keitsvektor-Komponenten miteinander verbunden sind, um Produkt- Terme zu bilden, und der Ausgangswert wird dann durch die Summe der Produkt-Terme gebildet. Ein Teilen jedes der Produkte durch den Sum­ men-Term kann in einer kompatiblen Technologie mit Hilfe analoger oder numerischer Recheneinheiten durchgeführt werden.
Fig. 9 zeigt eine Hardware-Ausführungsform des AxV-System-TDNN- Sprachen-Klassifikators 200. Akustische und visuelle Datenvektoren werden in Verzögerungsleitungen (DL) 302 bzw. 301 in Intervallen von 10ms eingegeben. Die akustischen und visuellen Datenflüsse folgen verschiedenen Wegen bis zu der letzten NCA3-Stufe. Der eingegebene akustische Datenvektor in Fig. 9 wird analog der Fig. 7 in derselben Wei­ se und mittels derselben Hardware wie in einem AO-Prozeß bis zu der Einheit NCA3 314 verarbeitet, die in der Mittelungsschicht angeordnet ist. Ebenso wird der visuelle Datenvektor V in Fig. 9 abgesehen von der Endeinheit NCA3 314, auf dieselben Weise verarbeitet, wie in Fig. 6 für das VO-System beschrieben ist. Die Endwahrscheinlichkeiten p(clA, V) werden durch die zehn Sigma-Pi-Neuron-Zellen gebildet, welche die Einheit NCA3 314 und die Normiereinheit 255 aufweisen. Die Normie­ reinheit 255 legt den Skalierfaktor k an, um die zehn Ausgangs-Vek­ tor-Komponenten p(clA,V) = k· p(clA)· p(clV) für c= 1,2 . . . ,10 zu bilden.
Obwohl ein auf TDNN basierender, akustischer AO-Prozessor beschrie­ ben worden ist, ist dies bei der AxV-Ausführungsform nicht wesent­ lich. Das AxV-System kann mit irgendeinem akustischen Spracherken­ nungs-Prozessor ausgeführt werden, welcher funktionell äquivalent ist, obwohl er nicht ein TDNN verwendet. Die Ausgänge des AO- und VO- Subsystems würde, wie beschrieben, verknüpft werden, um eine genau­ ere Klassifikation zu liefern, als sie jedes System für sich liefern würde. Ebenso kann ein akustischer Vektor-Generator, welcher einen wirksamen akustischen Vektor erzeugt, welcher die Sprechweise/Aus­ sprache mit einer annehmbaren statistischen Zuverlässigkeit kenn­ zeichnet, als ein akustischer Vor-Prozessor in einem der kombinierten akustischen und visuellen Spracherkennungssysteme verwendet wer­ den.
In Fig. 10 ist eine weitere Ausführungsform für einen TDNN-Klassifika­ tor 200 der Fig. 1 dargestellt, der als AV-System-Klassifikator be­ zeichnet wird. In diesem Fall werden die A- und V-Vektoreingänge ge­ sondert durch die versteckte Schicht 220 verarbeitet, welche NCA1 310 und NCA 309 aufweist. Die Ausgangswerte von der verdeckten Schicht werden in DLA 304 und DLA 303 gespeichert, von wo aus das akustische (4 × 25) Wertefeld von DLA 304 und das (4 × 10) Wertefeld von DLA 303 an die zehn 140 Eingänge aufweisenden Neuron-Zellen (N35 bis N44) der NCA2 313 angelegt werden. Das vorhergehende Mi­ schen von akustischen und visuellen Daten führt zu einem reicheren Satz von Quertermen, bei welchem eine Auflösung in dem Trainings- Prozeß gesucht werden kann, was insgesamt zu einer verbesserten Lei­ stung des Gesamtsystems führt.
Nach einem Verarbeiten durch NCA2 313 werden die Ergebnisse zu der Mittelungsschicht 240 durchgelassen. NCA3 315 weist zehn Neuron- Zellen (950 bis 955) auf, von welchen jede auf einer von zehn Verzöge­ rungssleitungen in DLA 307 arbeitet. Das unnormierte Wahrscheinlich­ keits-Produkt p(cla) · p(clV) wird durch MCA3 315 gebildet und zu einer Normiereinheit 255 durchgelassen, um die endgültigen Ausgangswahr­ scheinlichkeiten p(clA,V) zu bilden.
Fig. 11 zeigt einen weiteren Entwicklungsschritt in dem Prozeß, das Verarbeiten der akustischen visuellen Daten auf dem frühestmöglichen Pegel zu kombinieren. Bei Empfang und Speicherung von genügend ein­ gegebenen akustischen und Videodaten im DLA 302 bzw. 301 kann die Bildung von Quertermen in der versteckten Schicht 220 vorkommen, wobei jeder der acht (8) Neuronen auf den kombinierten (14 × 5) und (5 × 20) Datenfeldern arbeitet, die von DLA 302 und 301 verfügbar sind. Der Ausgang der verdeckten Schicht wird in DLA 308 gespeichert und durchläuft NCA3 313 der Klassifikationsschicht 230. Der Ausgangs­ wert wird dann so gehandelt, wie vorstehend anhand von Fig. 10 be­ schrieben ist.
In den TDNN-Strukturen der Fig. 7, 9, 10 und 11 werden die zwei Grund­ typen von Neuron-Zellen verwendet. NCA1 der verdeckten Schicht 220 und NCA3 der Mittelungsschicht 240 weisen herkömmliche McColluch- Pitts (M-P) Neuron-Zellen auf, wie in Fig. 12 dargestellt ist. Ein einge­ gebener Datenvektor X, der an einem Eingangsanschluß 601 vorgesehen ist, wird durch einen Wichtungsfaktor w mit Hilfe von Multiplizierele­ menten 603 verarbeitet. Ein Summiernetzwerk 605 summiert die xiwi Terme von den Multiplizierelementen 603, wodurch sich das Vektor- Punkt-Produkt ergibt:
das am Ausgang des Summiernetzwerks 605 gebildet wird. Das Vektor- Punkt-Produkt und Offset wird an eine Aktivierungs-Funktionseinheit 609 angelegt, welche das Ausgangssignal f(z) = f(xT w + offset) bildet. Ein Offset-Wert kann durch eine Eingabe 607 am Summiernetzwerk 605 erhalten werden.
Die Aktivierungs-Funktionseinheit 609 kann eine von mehreren Trans­ fer-Charakteristiken, wie die in Fig. 13(a) und (b) dargestellt, haben. Die Transfer-Charakteristik in Fig. 13(a) ist f(z) = tanh z, d. h. eine hyperbo­ lische Tangensfunktion des eingegebenen Signals z. Dies ist ein Bei­ spiel für eine große Gruppe von halblinearen sigmoidalen Squashing- Funktionen, welche in NCA1 der verdeckten Schicht verwendet werden können. Fig. 13(b) zeigt eine lineare Transferfunktion f(z) = mz + offset. Diese Form einer Aktivierungsfunktion wird in den Neuron-Zellen von NCA3 der Mittelungsschicht 240 verwendet (wobei der Versatz (offset) gleich null ist).
Fig. 13(c) zeigt eine exponentielle Aktivierungs-Funktion f(z) = ez/T wobei T ein positiver Wert "Temperatur"-Parameter ist, welcher wirk­ sam den Basiswert e1/T ändert, welcher durch den Eingabewert z po­ tenziert ist. Der Exponentialwert der Aktivierungsfunktion wird dazu verwendet, die geschätzte Wahrscheinlichkeit eines Satzes von unbe­ kannten Veränderlichen (des Satzes von zulässigen Sprechweisen) ent­ sprechend Parallel Distributed Processing: Explorations in the Micro­ structure of Cognition, Vol.1: Foundations, Rumelhart, et al., The MIT Press, Cambridge, MA 1986, Kapitel 6, Stn. 194 bis 281. Die exponen­ tielle Aktivierungsfunktion wird in den M-P-Neuron-Zellen von NCA2 der Klassifikationsschicht 230 verwendet.
Die zweite Art von Neuron-Zellen, die in der NCA4 der TDNN-Struktur der Fig. 9 verwendet worden ist, ist als eine Sigma-Pi-(ΣΠ)Zelle be­ kannt, wie in Fig. 14 dargestellt ist. Im Unterschied zu der M-P-Zelle der Fig. 12, bei welcher ein einziger eingegebener Datenvektor an einen Satz von steuerbaren Gewichten {wi} angelegt wird, nehmen ΣΠ-Neuron- Zellen in ihrer einfachsten Form zwei eingegebene Datenvektoren x und y an Eingangsanschlüssen 701 bzw. 702 auf. Entsprechende eingegebene Vektorkomponenten xi und yi werden an Multipliziereinheiten 703 an­ gelegt, um die xi · yi-Produkttermen zu bilden, welche durch ein Sum­ miernetzwerk zu einem Offset-Term summiert werden, welcher an ei­ nen Offset-Eingabeanschluß 707 angelegt wird. Folglich ist der Aus­ gang der Summiereinheit
das Vektor-Punkt-Produkt von x und y plus Offset, welches als der Ein­ gang an eine Aktivierungs-Funktionseinheit 709 mit einer Transfer- Charakteristik f(0) angelegt wird. Die ΣΠ-Neuron-Zelle der Fig. 14 wird in dem AxV-Netzwerk der Fig. 9 verwendet, um die Summe des Produkts der zehn p(clA) Werte und die entsprechenden zehn p(clV)Werte in NCA4 der Mittelungsschicht 240 zu bilden (wobei der Offset-Wert gleich null ist).
Wegen der differenzierbaren Aktivierungs-Funktionseinheiten, die in den Neuron-Zellen verwendet worden sind (siehe Fig. 12 bis 14), wurde eine Form des bekannten Rückübertragungs-Algorithmus (der von Rum­ melhart, D.E. et al., beschrieben worden ist in "Learning Internal Re­ presentations by Error Propagation", Stn. 318 bis 362 (Kapitel 8), of Parallel Distributed Processing Vol.1: Foundations, The MIT Press, Cambridge, MA, 1960) verwendet, um die neuronalen Netzwerk-Gewich­ te zu trainieren. Die Fehlerfunktion des Ausgangswertes während des Trainings hat einen beträchtlichen Unterschied zu demjenigen, welcher in der vorstehend wiedergegebenen Referenz beschrieben worden ist.
Wenn eine neuronale Netzwerk-Aufgabe darin besteht, die Klasse aus­ zuwählen, zu welcher ein eingegebenes Muster gehört, wenn alle einge­ gebenen Muster zu einer und nur einer Klasse (eine aus einer von einer n-Klassifikation), und wenn der Ausgangswert des neuronalen Netz­ werks aus n Werten besteht, welche eine Wahrscheinlichkeitsvertei­ lung darstellen (d. h. die Summe von Werten gleich eins ist), ist die Feh­ lermetrix für einen einzigen Trainings-Klassifikations-Versuch
Fehler = -ln{(c₁)}
wobei cl die korrekte Klassifikation des l-ten Klassengliedes ist und p(cl) der Versuchswert des Ausgangs ist, welcher die Wahrscheinlich­ keit darstellt, daß die eingegebenen Daten zur Klasse cl gehören. Da die richtige Wahrscheinlichkeit der eingegebenen Aussprache/Sprechweise cl eins (Sicherheit) ist, kann der vorstehend wiedergegebene Fehler­ ausdruck umgeschrieben werden als Differenz in den Logarithmen den tatsächlichen und Versuchs-Wahrscheinlichkeiten (p(cl) bzw. (cl)) oder
Fehler = ln{p(cl)} - ln{p(cl)} = ln{(cl)/p(cl)}.
Diese Fehlermetrix umfaßt das Verhältnis an Wahrscheinlichkeiten. Wenn, wie vorstehend ausgeführt, die Wahrscheinlichkeiten durch die potenzierende Aktivierungs-Funktion (Fig. 13(c)) gebildet wurden, er­ gibt die Substitution von
wobei zl und l die korrekten bzw. Testwerte des Eingangs z an dem l­ ten Klassifikations-Neuron-Zellen-Aktivierungs-Funktions-Netzwerk sind. Folglich ist der negative Logarithmus der abgegebenen empiri­ schen gehaltenen Wahrscheinlichkeit ein Maß für den Fehler, welcher mittels des Signals erzeugt worden ist, das auf dem Klassifikations- Pegel eintrifft, welcher den Fehler einschließt, welcher durch die Gewichte der l-ten Neunron-Zelle von NCA2 enthalten ist. Folglich kön­ nen mit Hilfe der Trainings-Muster, welche alle zu klassifizierenden Sprechweisen/Aussprachen darstellen, diese logarithmische Fehler­ funktion verwendet werden, um das TDNN-Netzwerk zu trainieren.
Versuche wurden mit Hilfe der beschriebenen Systeme durchgeführt, um zwischen zehn gesprochenen Buchstaben B, D, F, M, N, P, S, T, V und Z zu unterscheiden. Akustische und visuelle Information wurde von vier männlichen Personen gespeichert, welche einheimische Sprecher von amerikanischem Englisch sind. Jede Person sprach jeden Buchstaben fünfmal. Ein Beispiel des Buchstabens P, der von einer Person gespro­ chen worden ist, wurde durch einen Fehler in dem visuellen Nachführ- System unbrauchbar gemacht, weshalb sich insgesamt 199 und nicht 200 Balken (token) ergaben. Jeder Balken wurde in visuelle (VO-), aku­ stische (AO-) und aksustische und Video-(AV-)Vektoren umgesetzt, die sich für eine Klassifikations-Schicht 230 eignen, wie vorstehend be­ schrieben ist.
Vier der fünf wiederholten Buchstaben-Aussprachen für jeden der zehn Buchstaben, die von den vier Sprechern gesprochen worden sind (160 Muster) wurden zum Trainieren verwendet. Die verbleibenden 39, wel­ che vier Beispiele für jeden Buchstaben mit Ausnahme von drei für den Buchstaben P enthalten, wie vorstehend ausgeführt ist, wurden zum Testen verwendet.
Jedes der drei Netzwerke wurde mit dem Übertragungs-Algorithmus trainiert, um den Satz Gewichte zu finden, die einen minimalen Fehler für die Trainingssatz-Beispiele bewirken. Eine Lernraten-Konstante (η = 0,001 und eine Moment-Konstante von α = 0,09 wurden für die VO- und AO-Fälle verwendet, während Konstanten η = 0,002 und α= 0,3 für den AV-Fall verwendet werden. Das AV-Netzwerk wurde gebildet durch Vermischen der AO- und der VO-trainierten Netzwerke und durch Hin­ zufügen der Quer-Modell-Verbindungen zwischen den versteckten A- und V-Schichten und der Klassifikationsschicht. Das Lernen wurde zu­ gelassen, um Fortschritte zu machen, bis der Trainingsfehler über den letzten einigen hundert Trainings-Abschnitten eine vernachlässigbare Änderung zeigten. Die Software-Simulation des Spektrum-Analysators 24 des Lippen-Mund-Positions-Vektorgenerators 14 und des ADNN- Sprachen-Klassifikators 200 liefen auf einem Sun Sparcstation 2 Computer, der von Sun Microsystems, Inc. 2550 Garcia Avenue, Moun­ tain, View, California 94043-1100 hergestellt worden ist. Das Trai­ ning dauerte annähernd 20 Sekunden pro Abschnitt für das komplizierte­ ste AV-Netzwerk und weniger für die anderen Netzwerke. Bei jeweils 50 Trainingsabschnitten wurden die Gewichte in dem Netzwerk aufge­ zeichnet und der Testgruppen-Fehler wurde berechnet. Fig. 15 zeigt den Fortschritt einer Fehlerreduzierung als Funktion der Anzahl Trainings­ abschnitte, welche für die. VO-, AO- und die vollen AV-Fälle verwendet worden sind. Die gestrichelte Linie stellt den Fehler dar, wenn die Testgruppe von eingegebenen Daten verwendet wird, während die ge­ strichelte Linie der Fehler ist, der beobachtet worden ist, wenn die Trainingsgruppe zum Testen verwendet wird. Wie zu erwarten war, er­ zeugte die letztere im allgemeinen weniger Fehler.
Nachdem die "beste" Gewichtsgruppe durch den Trainingsprozeß für je­ den der drei Fälle festgestellt war, wurden Verwirrungsmatrizen für die Testdaten erzeugt. Für die jeweiligen Buchstaben-Sprechweisen wurde der Durchschnitt der ausgegebenen Verteilungen über alle Test­ gruppen-Beispiele dieses Buchstabens berechnet. Fig. 16 zeigt die sich ergebenden Verwirrungsmatrizen für die VO-, AO- und AxV- und die vollen AV-Netzwerke. Jede vertikale Spalte ist mit dem gesprochenen Buchstaben bezeichnet, welcher als der Eingangswert dargestellt ist; jede horizontale Zeile stellt die ausgegebenen Buchstaben dar, welche mit ihren zugeordneten Wahrscheinlichkeiten ausgewählt worden sind, welche durch die Stelle auf jeder Platte ausgewählt worden sind. Die Prozentzahl unter jeder Verwirrungsmatrix ist die Gesamtgenauigkeit dieses Systems. Zu beachten ist die Verwirrung bzw. das Durcheinander bei den /bi/- und den/di/-Phonemen in dem AO-Netzwerk und die un­ symmetrische Verwirrung von /bi/ und /pi/ in dem VO-System. Folg­ lich sind, obwohl /pi/ leicht mit /bi/ in dem V0-System verwechselt werden kann, diese ohne weiteres in dem OA-System zu unterscheiden.
Umgekehrt unterscheidet das VO-System ohne weiteres zwischen /bi/ und /di/. Ebenso ist die akustische (AO-)Ähnlichkeit der /em/- und /en/-Phoneme zu unterscheiden, die sich hauptsächlich in dem akusti­ schen subtilen Nasal-Merkmal unterscheiden und in dem VO-System deutlich unterscheidbar sind. Bei dem VO-System werden leicht /di/ und /ti/ aber nicht so in dem OA-System verwechselt. Das AxV-Sy­ stem eliminiert meist diese und andere Verwechselungen, wie durch die hohe Klassifikations-Wahrscheinlichkeit entlang der Hauptdiagona­ le bewiesen wird.
Obwohl vernünftigerweise zu erwarten ist, daß das volle AV-System mit einer Gesamtgenauigkeit von 87% besser sein sollte als das AxV- System mit einer gemessenen Genauigkeit von 91%, da das volle AV- System Assozationen auf einem niedrigeren (verdeckten Schicht) Pegel lernen kann, zeigen die Testergebnisse folgendes. Dieses Ergebnis weist nachdrücklich darauf hin, daß der volle AV-Vektor von 19 Ele­ menten sich nicht genau synchron zwischen den zehn (10) akustischen Elementen und den fünf (5) visuellen Elementteilen des kompletten Vektors erhält, da sie gesondert über ihre jeweiligen Vorprozessoren verarbeitet wurden. Im Falle des AxV-Systems war ein Gleichlauf we­ niger kritisch, da die akustischen und visuellen Vektoren durch geson­ derte TDNNs verarbeitet wurden. Mit anderen Worten, Niederpegel-Kor­ relationen in den Trainingsmustern hätten geändert werden können, so daß das volle AV-Netzwerk diese Information nicht ausnützen könnte.
Die relative Unempfindlichkeit des AxV-Systems bezüglich akustischen Geräuschen wurde durch eine Simulation demonstriert, bei welcher Ro­ sa-Rauschen mit einer Standardabweichung von 0,4 dadurch hinzuge­ fügt wurde, daß eine beliebige Veränderliche zu jedem A-Vektor hinzu­ gefügt wurde, welche durch den Spektrum-Analysator erzeugt worden ist. Unter diesen Bedingungen hatte das AO-Netzwerk eine Gesamtge­ nauigkeit von 43%, während das AV-Netzwerk eine Genauigkeit von 24% hatte. Diese verbesserte Genauigkeit wurde ohne ein Einstellen irgend­ eines freien Parameters, wie beispielsweise Modifizieren des Ver­ hältnis von akustisch zu visuell, erreicht.
Das Leistungsvermögen von Spracherkennungssystemen in einer ge­ räuschwollen Umgebung ist eine wichtige Überlegung. Insbesondere werden Systeme mit einer visuellen (Lippen-Lese-)Vergrößerung er­ wartet, um die beste Verwendung in geräuschvoller Umgebung, wie in großen Büros, gedrängt vollen Räumen, Fabrikräumen und Cockpits, zu finden. Unter diesen Umständen arbeiten akustische Standard-Spra­ cherkennungssysteme schlecht.
Die derzeitige Planung beim Planen und der Benutzung von adaptiven Lippen-Lese-Systemen ist auf Trainieren des Systems in geräuschloser Umgebung nicht in geräuschvoller Umgebung beschränkt, in welchen das System betrieben wird. (Siehe hierzu beispielsweise Yuhas et al., "Neu­ ral Network Models of Sensory Integration for Improved Vowel Re­ cognition," Proc.IEEE 78(10), 1988, Stn. 1658 bis 1668; und Petajan et al., "Automatic Lip-reading to Enhance Speech Recognition," Procee­ dings of the IEEE Communications Society Global Telecommunications Conference, November 26 bis 29, 1984, Atlanta, Georgia.)
Ein kritischer Punkt, der offensichtlich bei der derzeitigen Praxis nicht richtig eingeschätzt worden ist, ist das visuelle Gegenstück des Lombard-Effekts (Lombard, E., "Le Signe de le Elevation de la Voix", Ann.MaIad. I′Orielle. Larynx. Nex. Pharynx 37, 1911, Stn. 101 bis 119). Lombard zeigte, daß, wenn ein Sprecher sich in einer akustisch ge­ räuschvollen Umgebung befindet, der Klang der Sprache sich von demje­ nigen unterscheidet, der in einer ruhigen Umgebung erzeugt worden ist. Beispielsweise ändert sich die Dauer vieler akustischer Merkmale (üblicherweise werden sie länger) und die Amplitude des Tons wird hö­ her, wenn der Sprecher von einer ruhigen Umgebung in eine geräusch­ volle wechselt.
Unlängst durchgeführte Versuche haben gezeigt, daß die visuellen Merkmale des Sprechers sich in geräuschvoller Umgebung ebenfalls än­ dern. Beispielsweise ist die Größe des Lippenabstands während des Aussprechens von /oh/ in geräuschvoller Umgebung größer, und der Nasen-Kinn-Abstand während des Aussprechens von /awl/ ist ebenso größer. Dieses Verhalten ist analog den Überartikulations-Effekten in akustischen Spracherkennungssystemen und dem Lombard-Effekt.
Folglich wird nachstehend anhand von Fig. 17 eine verbesserte Methode des Trainierens von Lippenlese-Systemen beschrieben, bei welcher der Entdeckung des visuellen Gegenstücks zu dem Lombard-Effekt Rechnung getragen wird. Das in Fig. 17 dargestellte Flußdiagramm der Trainings­ methode beginnt beim Schritt 800, wobei angenommen wird, daß ein Satz von M eingegebenen Trainingsvektoren und entsprechende bei­ spielhafte Ausgabevektoren verfügbar sind. Der Trainingsvektor-Index m und der Geräuschpegel-Index I werden beide auf null eingestellt. Die synaptischen Gewichte des TDNN-Sprachen-Klassifikators werden durch einen Satz von Zufallsgewichten, wenn der TDNN-Klassifikator gänzlich untrainiert ist, oder durch einen Satz von teilweise trainier­ ten Gewichten initialisiert. Ebenso wird der Umgebungs-Geräuschpegel auf einen Anfangspegel von I = 0 eingestellt. Der m-te Trainingsvektor wird beim Schritt 802 bei dem TDNN-Klassifikator verwendet, und die sich ergebende Antwort wird mit dem entsprechenden beispielhaften n­ ten Ausgangsvektor beim Schritt 804 erzeugt, und es wird eine Fehler- Metrik erzeugt. Anschließend werden synaptische Gewichte beim Schritt 806 mit Hilfe eines bekannten Lernalgorithmus, wie beispiels­ weise mit Hilfe des bekannten Rück-Ausbreitungs-Algorithmus oder der verallgemeinerten Delta-Regel eingestellt, wie in "Parallel Distri­ buted Processing", Rumelhart et al., The MIT Press, Cambridge, MA, 1986, Vol. 1, Ch . . 8, Stn. 322 bis 328 beschrieben ist. Beim Schritt 808 wird geprüft, ob alle M-Trainingsvektoren verwendet worden sind, und, wenn nicht, wird für eine andere Iteration auf Schritt 302 zurückge­ sprungen. Wenn alle M-Trainingsvektoren verwendet worden sind (m=M), geht das Verfahren beim Schritt 812 weiter, bei welchem der Geräuschpegel auf einen Pegel I = I + 1 geändert wird. Beim Schritt 814 wird geprüft, um zu sehen, ob alle L Geräuschpegel verwendet worden sind, und, wenn dies nicht der Fall ist, wird auf den Schritt 802 für ei­ nen anderen Satz von M-Iterationen bei einem neuen Geräuschpegel I zurückgegangen. Wenn I = L ist, sind alle geplanten Trainingsgeräusch­ pegel verwendet worden, und der Prozeß geht auf Schritt 816 über, bei welchem ein Satz Testvektoren bei dem TDNN-Spracherkennungssystem verwendet werden. Die Antwort auf die Testvektoren wird beim Schritt 818 mit der gewünschten Antwort verglichen, und es wird eine Ge­ samtfehler-Metrik berechnet. Wenn die Fehler-Metrik annehmbar ist, endet beim Schritt 820 der Prozeß. Andernfalls geht der Prozeß auf Schritt 822 über, bei welchem Umschulungs-Prozeduren aufgerufen werden, welche ein Erzeugen eines neuen Satzes von Trainingsvektoren, ein erneutes Ordnen des ursprünglichen Satzes von Trainingsvektoren, ein Verwenden des ursprünglichen Trainings-Vektorsatzes, ein Ändern der Reihenfolge, an welcher verschiedene Geräuschpegel angelegt wer­ den, oder einfach ein erneutes Durchlaufen des gesamten Trainingspro­ zesses enthalten können, indem die Indizies, (m, I = 0) initiiert und für eine ganze neue Iteration auf den Schritt 802 zurückgekehrt wird. An­ dere mögliche Variationen der vorstehend umrissenen Prozedur sind für die auf diesem Gebiet versierten Fachleute offensichtlich, wie ein Verwenden von Testvektoren nach dem Testschritt 808 und dann ein erneutes Trainieren, falls es erforderlich ist.
Fig. 18 ist ein funktionelles Blockdiagramm eines Trainingssystems 500, bei welchem ein TDNN-Sprachen-Klassifiziersystem 501 verwen­ det wird, wie es in Fig. 1 dargestellt ist. Das System 500 ist in der La­ ge, akustische Trainingsdaten bei einem Umgebungsgeräusch am Ein­ gang 509 und visuelle Trainingsdaten am Eingang 510 aufzunehmen. Zu beachten ist, daß die visuellen Daten durch eine visuelle Störung, wie Rauch, Nebel oder Staub beeinträchtigt werden können. Ein weiterer Satz von digitalen Eingangstrainingsdaten wird von einem Speicher 503 aus über einen Systembus 511 zugeführt. In diesem Fall kann ein Ana­ log-Digital-Umsetzer-(ADC)System 506 verwendet werden, um vorher gespeicherte Audio- und visuelle Datenvektoren in analoge Werte um­ zuwandeln, die sich für ein Eingeben in den TDNN-Sprach-Klassifikator 200 des Systems 501 eignen. Der Ausgang des Sprach-Klassifikators 200 entspricht dem Ansprechen des Systems 501 auf die eingegebenen Trainingsdaten. Die Ausgangswerte des Systems 501 werden mit der gewünschten Antwort in einem Fehler-Generator 504 verglichen, wel­ cher einen Analog-Digital-Umsetzer (ADC) enthält, um den Ausgangs­ vektor des Systems 501 in einen beispielhaften quantisierten Ant­ wortvektor umzuwandeln, welcher von einem Speicher 503 über Ver­ bindungsleitungen 508 zugeführt worden ist. Die aktuelle Fehler-Metrik kann in einem Steuerprozessor 502 mit Hilfe eines einfachen Diffe­ renzvektors berechnet werden, welcher von dem Fehler-Generator 504 erzeugt worden ist. Der Steuerprozessor 502 schafft die notwendige Steuerung und Initialisierung des Systems 500 sowie einen Träger für Berechnungen, wie beispielsweise einen Gesamtfehler nach einem Training. Der AD-Umsetzer 506 und der AD-Umsetzer des Fehler-Gene­ rators 504 können unnötig sein, wenn quantisierte, visuelle und akusti­ sche Datenvektoren für den TDNN-Klassifikator 200 akzeptabel sind, und der Klassifikator 200 einen quantisierten Ausgangsvektor erzeugt.

Claims (10)

1. Trainingssystem für ein Spracherkennungssystem mit
  • (a) einem Spracherkennungssystem, um Aussprachen/Sprechwei­ sen zu erkennen, die zu einem vorher gebildeten Satz von Kandidaten-Sprechweisen/Aussprachen mit akustischen Sprachsignalen und einer ausgewählten, begleitenden, dyna­ mischen, visuellen Gesichtsmerkmalsbewegung zwischen ausgewählten Gesichtsmerkmalen gehören, welche einer akustischen Spracherzeugung zugeordnet sind, mit
  • (i) einer akustischen Merkmal-Extrahiereinrichtung, um Signale, die eine dynamische, akustische Sprache dar­ stellen, in einen entsprechenden dynamischen, akusti­ schen Merkmalsvektorsatz von Signalen umzuwandeln;
  • (ii) einer dynamischen, visuellen Merkmalextrahiereinrich­ tung, um Signale, welche die ausgewählte, begleitende, dynamische Gesichtsmerkmalsbewegung darstellen, die der akustischen Spracherzeugung zugeordnet sind, in einen entsprechenden, dynamischen, visuellen Merk­ malsvektorsatz von Signalen umzuwandeln und
  • (iii) einer zeitverzögerten, ein neurales Netzwerk aufwei­ senden Klassifiziereinrichtung zum Erzeugen einer be­ dingten Wahrscheinlichkeitsverteilung der zulässigen Kandidaten-Sprechweisen/Aussprachen, indem ein Satz derzeit gültiger und zeitverzögerter, dynamischer, akustischer und visueller Merkmalsvektorsätze ange­ nommen und bearbeitet wird, die von der akustischen und visuellen Merkmal-Extrahiereinrichtung zugeführt worden sind und
  • (b) einem mit dem Spracherkennungssystem verbundenen Steuer­ system zum Initialisieren von Parametern, zum Steuern des Funktionierens von Systemelementen, zum Speichern von aku­ stischen und visuellen, beispielhaften Ausgangsvektoren, zum Berechnen von Ausgangsfehlern und zum Einstellen der neuro­ nalen, netzwerk-synaptischen Gewichte, die auf berechneten Fehlern entsprechend einer vorgeschriebenen Trainingsproze­ dur basieren, wobei das Steuersystem einen Steuerprozessor und einen zugeordneten Speicher aufweist, welche mit dem Spracherkennungssystem verbunden sind.
2. System nach Anspruch 1, bei welchem die zeitverzögerte, ein neura­ les Netzwerk klassifizierende Einrichtung aufweist:
  • (a) eine Eingabeschicht mit einer mit Abgriffen versehenen Verzö­ gerungsleitung, um eine Folge von akustischen und visuellen, sich zeitlich ändernden Merkmalvektoren aufzunehmen und um eine Vielfalt von sequentiellen, akustischen und visuellen Merkmalvektoren parallel an den Ausgangsabgriffen der Verzö­ gerungsleitung zu erzeugen;
  • (b) einer verdeckten Schicht von neuronalen Zellen, welche mit den Ausgangsabgriffen der mit Abgriffen versehenen Verzöge­ rungsleitung verbunden sind, um an deren Ausgang verbesserte zeitabhängige Merkmale zu erzeugen;
  • (c) einer Klassifikationsschicht von neuronalen Zellen, welche mit dem Ausgang der neuronalen Zellen der verdeckten Schicht ver­ bunden sind, um einen Satz zeitveränderlicher Ausgangssignale zu erzeugen, die jeweils die Wahrscheinlichkeit der entspre­ chenden vorhandenen Aussprache/Sprechweise darstellen, und
  • (d) einer Mittelungsschicht, welche mit den Ausgängen der Klassi­ fikationsschicht verbunden ist, um einen Satz zeitlich gemit­ telter, sich ändernder Ausgänge zu erzeugen, nämlich einen für jeden zulässigen Aussprachetyp, welcher eine bedingte Wahr­ scheinlichkeit darstellt, daß die zugeordnete Aussprache ge­ sprochen wurde.
3. System nach Anspruch 1, bei welchem die zeitverzögerte, ein neuro­ nales Netzwerk klassifizierende Einrichtung quantisierte akustische und visuelle Trainingsvektoren von dem Steuersystem aufnimmt.
4. System nach Anspruch 1, bei welchem die ein neuronales Netzwerk klassifizierende Einrichtung analoge akustische und visuelle Merk­ mals-Trainingsvektoren von dem Steuersystem annimmt und ferner ei­ ne Einrichtung aufweist, um quantisierte akustische und visuelle Merk­ mals-Trainingsvektoren von dem Steuerprozessor-Speicher in analoge Trainingsvektoren umzuwandeln.
5. System nach Anspruch 1, bei welchem die zeitverzögerte, ein neuro­ nales Netzwerk klassifizierende Einrichtung einen quantisierten Aus­ gang hat.
6. System nach Anspruch 1 mit einem Fehlergenerator, der mit dem Steuerprozessor verbunden und von diesem gesteuert wird und der mit dem Ausgang der zeitverzögerten, ein neuronales Netzwerk klassifizie­ renden Einrichtung verbunden ist, um einen abgegebenen Antwortvektor aufzunehmen, welcher durch einen visuellen und einen akustischen ein­ gegebenen Trainingsvektor erzeugt worden ist, um einen beispielhaften Ausgangsvektor mit dem ausgegebenen Antwortvektor zu vergleichen, um ein Vergleichsergebnis zu schaffen und um das Vergleichsergebnis an den Steuerprozessor abzugeben, um die zeitlich verzögernden synap­ tischen neuronalen Netzwerk-Gewichte einzustellen.
7. System nach Anspruch 1, bei welchem die vorgeschriebene Trai­ ningsprozedur die folgenden Schritte aufweist:
  • (a) Initialisieren der synaptischen Gewichte des neuronalen Netz­ werk-Klassifikators;
  • (b) Anlegen eines akustischen und eines visuellen Merkmal-Trai­ ningsvektors an den Eingang des neuronalen Netzwerk-Klassifika­ tors und Erzeugen eines Ausgabe-Antwortvektors;
  • (c) Vergleichen des ausgegebenen Antwortvektors mit einem bei­ spielhaften ausgegebenen Antwortvektors, welcher den Trai­ ningsvektoren entspricht, welche an den neuronalen Netzwerk- Klassifikator angelegt worden sind, und Erzeugen eines Fehlerma­ ßes;
  • (d) Einstellen der synaptischen Gewichte des neuronalen Netzwerk- Klassifikators entsprechend einem vorgeschriebenen Algorith­ mus, und
  • (e) Wiederholen der Schritte (b) bis (d) für eine vorgeschriebene An­ zahl Mal, um einen trainierten Satz von synaptischen Gewichten zu erzeugen.
8. System nach Anspruch 7, bei welchem der akustische und visuelle Merkmal Trainingsvektor einen vorgeschriebenen akustischen Ge­ räuschpegel hat.
9. System nach Anspruch 8, bei welchem die Trainingsprozedur zusätz­ lich die folgenden Schritte aufweist:
  • (a) Anlegen eines akustischen und visuellen Merkmalvektors mit einem anderen akustischen Geräuschpegel, und
  • (b) Wiederholen der Trainingsprozedur mit Hilfe des trainierten Sat­ zes von vorher erhaltenen, synaptischen Gewichten.
10. System nach Anspruch 9, bei welchem ferner der akustische und vi­ suelle Merkmal-Trainingsvektor erzeugt wird, indem eine geräuschvol­ le, akustische Sprechweise/Aussprache zusammen mit einem beglei­ tenden, visuellen Sprachsignal jeweils über eine gesonderte akustische und eine gesonderte visuelle Merkmal-Extrahiereinrichtung verarbeitet wird.
DE4436692A 1993-10-14 1994-10-13 Trainingssystem für ein Spracherkennungssystem Expired - Fee Related DE4436692C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/137,318 US5621858A (en) 1992-05-26 1993-10-14 Neural network acoustic and visual speech recognition system training method and apparatus

Publications (2)

Publication Number Publication Date
DE4436692A1 true DE4436692A1 (de) 1995-04-20
DE4436692C2 DE4436692C2 (de) 1998-04-30

Family

ID=22476834

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4436692A Expired - Fee Related DE4436692C2 (de) 1993-10-14 1994-10-13 Trainingssystem für ein Spracherkennungssystem

Country Status (2)

Country Link
US (1) US5621858A (de)
DE (1) DE4436692C2 (de)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0896319A1 (de) * 1996-12-26 1999-02-10 Sony Corporation Vorrichtung und verfahren zur mustererkennung und zur adaption
DE19802261A1 (de) * 1998-01-22 1999-07-29 Daimler Chrysler Ag Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder
EP1058453A1 (de) * 1998-12-17 2000-12-06 Matsushita Electric Industrial Co., Ltd. Verfahren und vorrichtung, um gewünschte video- und audioszenen durch spracherkennunf wiederzufinden
CN109214820A (zh) * 2018-07-06 2019-01-15 厦门快商通信息技术有限公司 一种基于音视频结合的商户收款系统及方法
CN110163351A (zh) * 2018-02-13 2019-08-23 旺宏电子股份有限公司 用于类神经计算器系统的装置及其制造方法

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0758471B1 (de) * 1994-03-15 1999-07-28 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Personenidentifikation mit bewegungsinformation
US5907351A (en) * 1995-10-24 1999-05-25 Lucent Technologies Inc. Method and apparatus for cross-modal predictive coding for talking head sequences
JP3112254B2 (ja) * 1997-03-04 2000-11-27 富士ゼロックス株式会社 音声検出装置
SE511927C2 (sv) * 1997-05-27 1999-12-20 Telia Ab Förbättringar i, eller med avseende på, visuell talsyntes
US6178398B1 (en) * 1997-11-18 2001-01-23 Motorola, Inc. Method, device and system for noise-tolerant language understanding
US6038535A (en) * 1998-03-23 2000-03-14 Motorola, Inc. Speech classifier and method using delay elements
US6483532B1 (en) * 1998-07-13 2002-11-19 Netergy Microelectronics, Inc. Video-assisted audio signal processing system and method
WO2000055811A1 (fr) * 1999-03-12 2000-09-21 Sony Corporation Processeur de donnees, procede de traitement de donnees, et support d'enregistrement
EP1143735A1 (de) * 2000-03-01 2001-10-10 Texas Instruments Incorporated Teleskopische Rekonstruction von Gesichtszügen aus einem Sprachmuster
WO2002029784A1 (en) * 2000-10-02 2002-04-11 Clarity, Llc Audio visual speech processing
US7006969B2 (en) * 2000-11-02 2006-02-28 At&T Corp. System and method of pattern recognition in very high-dimensional space
US7369993B1 (en) 2000-11-02 2008-05-06 At&T Corp. System and method of pattern recognition in very high-dimensional space
US6614466B2 (en) 2001-02-22 2003-09-02 Texas Instruments Incorporated Telescopic reconstruction of facial features from a speech pattern
WO2002077972A1 (en) * 2001-03-27 2002-10-03 Rast Associates, Llc Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech
GB2378776A (en) * 2001-05-22 2003-02-19 Canon Kk Apparatus and method for managing a multi-modal interface in which the inputs feedback on each other
US20030083872A1 (en) * 2001-10-25 2003-05-01 Dan Kikinis Method and apparatus for enhancing voice recognition capabilities of voice recognition software and systems
US7219062B2 (en) * 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
US20050259865A1 (en) * 2002-11-15 2005-11-24 Koninklijke Philips Electronics N.V. Object classification via time-varying information inherent in imagery
US7319955B2 (en) * 2002-11-29 2008-01-15 International Business Machines Corporation Audio-visual codebook dependent cepstral normalization
KR100486735B1 (ko) * 2003-02-28 2005-05-03 삼성전자주식회사 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치
US20040186714A1 (en) * 2003-03-18 2004-09-23 Aurilab, Llc Speech recognition improvement through post-processsing
US20050228673A1 (en) * 2004-03-30 2005-10-13 Nefian Ara V Techniques for separating and evaluating audio and video source data
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US20060235698A1 (en) * 2005-04-13 2006-10-19 Cane David A Apparatus for controlling a home theater system by speech commands
US20080027725A1 (en) * 2006-07-26 2008-01-31 Microsoft Corporation Automatic Accent Detection With Limited Manually Labeled Data
US8326636B2 (en) 2008-01-16 2012-12-04 Canyon Ip Holdings Llc Using a physical phenomenon detector to control operation of a speech recognition engine
US8798311B2 (en) * 2009-01-23 2014-08-05 Eldon Technology Limited Scrolling display of electronic program guide utilizing images of user lip movements
JP5911796B2 (ja) * 2009-04-30 2016-04-27 サムスン エレクトロニクス カンパニー リミテッド マルチモーダル情報を用いるユーザ意図推論装置及び方法
US8509479B2 (en) * 2009-05-29 2013-08-13 Microsoft Corporation Virtual object
US8635066B2 (en) * 2010-04-14 2014-01-21 T-Mobile Usa, Inc. Camera-assisted noise cancellation and speech recognition
US8700392B1 (en) * 2010-09-10 2014-04-15 Amazon Technologies, Inc. Speech-inclusive device interfaces
US9274744B2 (en) 2010-09-10 2016-03-01 Amazon Technologies, Inc. Relative position-inclusive device interfaces
US20120076368A1 (en) * 2010-09-27 2012-03-29 David Staudacher Face identification based on facial feature changes
US9223415B1 (en) 2012-01-17 2015-12-29 Amazon Technologies, Inc. Managing resource usage for task performance
US9767828B1 (en) * 2012-06-27 2017-09-19 Amazon Technologies, Inc. Acoustic echo cancellation using visual cues
US9785706B2 (en) * 2013-08-28 2017-10-10 Texas Instruments Incorporated Acoustic sound signature detection based on sparse features
US11199906B1 (en) 2013-09-04 2021-12-14 Amazon Technologies, Inc. Global user input management
US9367203B1 (en) 2013-10-04 2016-06-14 Amazon Technologies, Inc. User interface techniques for simulating three-dimensional depth
US9652711B2 (en) * 2014-03-12 2017-05-16 Qualcomm Incorporated Analog signal reconstruction and recognition via sub-threshold modulation
US9484022B2 (en) 2014-05-23 2016-11-01 Google Inc. Training multiple neural networks with different accuracy
US9697833B2 (en) * 2015-08-25 2017-07-04 Nuance Communications, Inc. Audio-visual speech recognition with scattering operators
US10332515B2 (en) 2017-03-14 2019-06-25 Google Llc Query endpointing based on lip detection
US10628486B2 (en) * 2017-11-15 2020-04-21 Google Llc Partitioning videos
CN110709924B (zh) 2017-11-22 2024-01-09 谷歌有限责任公司 视听语音分离
US11354459B2 (en) * 2018-05-08 2022-06-07 Microsoft Technology Licensing, Llc Computer vision and speech algorithm design service
US11087176B2 (en) 2018-05-08 2021-08-10 Microsoft Technology Licensing, Llc Spatial localization design service
CN109145799A (zh) * 2018-08-13 2019-01-04 湖南志东科技有限公司 一种基于多层信息的物体鉴别方法
EP3624113A1 (de) * 2018-09-13 2020-03-18 Nxp B.V. Vorrichtung zur verarbeitung eines signals
CN111352075B (zh) * 2018-12-20 2022-01-25 中国科学院声学研究所 一种基于深度学习的水下多声源定位方法及系统
CN111462732B (zh) * 2019-01-21 2024-04-09 阿里巴巴集团控股有限公司 语音识别方法和装置
CN110379414B (zh) * 2019-07-22 2021-12-03 出门问问(苏州)信息科技有限公司 声学模型增强训练方法、装置、可读存储介质及计算设备
CN112289297A (zh) * 2019-07-25 2021-01-29 阿里巴巴集团控股有限公司 语音合成方法、装置和系统
TWI749880B (zh) * 2020-11-19 2021-12-11 緯創資通股份有限公司 生理病徵識別方法及生理病徵感測系統

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4757541A (en) * 1985-11-05 1988-07-12 Research Triangle Institute Audio visual speech recognition
WO1991000591A1 (en) * 1989-06-30 1991-01-10 British Telecommunications Public Limited Company Pattern recognition
WO1991011802A1 (en) * 1990-01-31 1991-08-08 United States Department Of Energy Time series association learning

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4620286A (en) * 1984-01-16 1986-10-28 Itt Corporation Probabilistic learning element
US4975960A (en) * 1985-06-03 1990-12-04 Petajan Eric D Electronic facial tracking and detection system and method and apparatus for automated speech recognition
US4937872A (en) * 1987-04-03 1990-06-26 American Telephone And Telegraph Company Neural computation by time concentration
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5175793A (en) * 1989-02-01 1992-12-29 Sharp Kabushiki Kaisha Recognition apparatus using articulation positions for recognizing a voice
JPH0375860A (ja) * 1989-08-18 1991-03-29 Hitachi Ltd パーソナライズド端末

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4757541A (en) * 1985-11-05 1988-07-12 Research Triangle Institute Audio visual speech recognition
WO1991000591A1 (en) * 1989-06-30 1991-01-10 British Telecommunications Public Limited Company Pattern recognition
WO1991011802A1 (en) * 1990-01-31 1991-08-08 United States Department Of Energy Time series association learning

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
RUMELHART et al.:"Parallel Distributed Processing"The MIT Press, Cambridge, MA, 1986, Vol. 1, Ch. 8,Stn. 322-228 *
US-Z: PENTLAND, A., et al.: "Lip Reading: Automa- tic Visual Recognition of Spoken Words", Proc. Image Understanding and Machine Vision, Optical Society of America, Juni 12 bis 14 (1984) *
US-Z: PETAJAN et al.: "Automatic Lip-reading to Enhance Speech Recognition", Proceedings of the IEEE Communications Society Global Telecommuni- cations Conference, November 26 bis 29, 1984, Atlanta, Georgia *
US-Z: PETAJAN, E.D., et al.: "An Improved Automatic Lipreading System to Enhance Speech Recognition", ACM SIGCHI-88, Stn. 19-25, (1988) *
US-Z: YUHAS, B.P., et al.: "Integration of Acoustic and visual Speech Signals Using Neural Networks", Nov. 1989, IEEE Communications Maga- zine (1989) *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0896319A1 (de) * 1996-12-26 1999-02-10 Sony Corporation Vorrichtung und verfahren zur mustererkennung und zur adaption
EP0896319A4 (de) * 1996-12-26 2000-03-08 Sony Corp Vorrichtung und verfahren zur mustererkennung und zur adaption
US6396954B1 (en) 1996-12-26 2002-05-28 Sony Corporation Apparatus and method for recognition and apparatus and method for learning
DE19802261A1 (de) * 1998-01-22 1999-07-29 Daimler Chrysler Ag Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder
EP1058453A1 (de) * 1998-12-17 2000-12-06 Matsushita Electric Industrial Co., Ltd. Verfahren und vorrichtung, um gewünschte video- und audioszenen durch spracherkennunf wiederzufinden
EP1058453A4 (de) * 1998-12-17 2002-03-13 Matsushita Electric Ind Co Ltd Verfahren und vorrichtung, um gewünschte video- und audioszenen durch spracherkennunf wiederzufinden
US6611803B1 (en) 1998-12-17 2003-08-26 Matsushita Electric Industrial Co., Ltd. Method and apparatus for retrieving a video and audio scene using an index generated by speech recognition
CN110163351A (zh) * 2018-02-13 2019-08-23 旺宏电子股份有限公司 用于类神经计算器系统的装置及其制造方法
CN110163351B (zh) * 2018-02-13 2023-06-30 旺宏电子股份有限公司 用于类神经计算器系统的装置及其制造方法
CN109214820A (zh) * 2018-07-06 2019-01-15 厦门快商通信息技术有限公司 一种基于音视频结合的商户收款系统及方法

Also Published As

Publication number Publication date
DE4436692C2 (de) 1998-04-30
US5621858A (en) 1997-04-15

Similar Documents

Publication Publication Date Title
DE4436692C2 (de) Trainingssystem für ein Spracherkennungssystem
DE4317372C2 (de) Ein akustisches und visuelles Spracherkennungssystem auf der Basis eines Neural-Netzwerkes
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
US5680481A (en) Facial feature extraction method and apparatus for a neural network acoustic and visual speech recognition system
DE60318990T2 (de) Lernvorrichtung, lernverfahren und robotervorrichtung
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69831114T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE69725106T2 (de) Verfahren und Vorrichtung zur Spracherkennung mit Rauschadaptierung
DE68912397T2 (de) Spracherkennung mit Sprecheranpassung durch Lernprozess.
DE4310190A1 (de) Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn
CN107972028B (zh) 人机交互方法、装置及电子设备
EP0925579A1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE2422028C2 (de) Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort
WO1998011537A2 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE60107072T2 (de) Robuste merkmale für die erkennung von verrauschten sprachsignalen
Wang et al. Speech augmentation using wavenet in speech recognition
Wu et al. Neural network vowel-recognition jointly using voice features and mouth shape image
WO2022013045A1 (de) Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente
Sawai et al. Spotting Japanese CV-syllables and phonemes using the time-delay neural networks
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee