DE4317372A1 - Ein akustisches und visuelles Spracherkennungssystem auf der Basis eines Neural-Netzwerkes - Google Patents
Ein akustisches und visuelles Spracherkennungssystem auf der Basis eines Neural-NetzwerkesInfo
- Publication number
- DE4317372A1 DE4317372A1 DE4317372A DE4317372A DE4317372A1 DE 4317372 A1 DE4317372 A1 DE 4317372A1 DE 4317372 A DE4317372 A DE 4317372A DE 4317372 A DE4317372 A DE 4317372A DE 4317372 A1 DE4317372 A1 DE 4317372A1
- Authority
- DE
- Germany
- Prior art keywords
- acoustic
- visual
- speech recognition
- recognition system
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 84
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 35
- 230000033001 locomotion Effects 0.000 title claims abstract description 13
- 230000000007 visual effect Effects 0.000 title claims description 81
- 230000003595 spectral effect Effects 0.000 claims abstract description 26
- 210000003061 neural cell Anatomy 0.000 claims description 33
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012935 Averaging Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 8
- 230000001815 facial effect Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000011161 development Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 230000036962 time dependent Effects 0.000 claims 2
- 238000004519 manufacturing process Methods 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 2
- 238000012544 monitoring process Methods 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 49
- 238000012549 training Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 20
- 210000002569 neuron Anatomy 0.000 description 19
- 230000000875 corresponding effect Effects 0.000 description 17
- 238000000034 method Methods 0.000 description 12
- 230000004913 activation Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 9
- 101100079450 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) NCA3 gene Proteins 0.000 description 8
- 238000010606 normalization Methods 0.000 description 8
- 210000004027 cell Anatomy 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 6
- 101150058760 NCA2 gene Proteins 0.000 description 5
- 230000001537 neural effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 241001212789 Dynamis Species 0.000 description 2
- 230000005534 acoustic noise Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 241001051118 Garcinia nigrolineata Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 235000011449 Rosa Nutrition 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000020411 cell activation Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- HAHMABKERDVYCH-ZUQRMPMESA-N neticonazole hydrochloride Chemical compound Cl.CCCCCOC1=CC=CC=C1\C(=C/SC)N1C=NC=C1 HAHMABKERDVYCH-ZUQRMPMESA-N 0.000 description 1
- 238000000053 physical method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/248—Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Description
Die Erfindung betrifft das Gebiet der maschinellen Sprach
erkennung und insbesondere die Verbesserung akustischer
Spracherkennung durch die Nutzung maschinellen Lippenlesens
in Verbindung mit akustischen Daten in einem Neural-Netz
werks-Klassifikationssystem.
Das Ziel automatischer oder maschineller Spracherkennung
ist es, ein System zu entwerfen, das der menschlichen Fä
higkeit näherkommt, gesprochene Sprache zu verstehen, auch
bei verschiedenen Akzenten von Sprechern, bei Personen ver
schiedenen Geschlechts, verschiedener Sprechgeschwindig
keit, verschiedener Grade der Koartikulierung, und all dies
in der Gegenwart akustischer Ablenkung und Rauschen. Ge
bräuchliche automatisierte Systeme haben eine niedrigere
Genauigkeit und Robustheit als notwendig wäre, um das un
geheure Bedürfnis bei Anwendungen, wie computerisierte
Sprach-Text-Umwandlung, automatische Übersetzung und
sprachbasierte Kontrollsysteme zu befriedigen. Zu den ver
breiteten Methoden gehören versteckte Markov-Modelle, bei
denen die Übergangswahrscheinlichkeiten in den Verbindungen
zwischen den Knotenpunkten (Zuständen), die phonemische
Segmente darstellen, kodiert sind und "Tafel-"Methoden
("Blackboard"-Methoden), bei denen phonologisch, lexika
lisch und grammatikalisch basierte Spezial-Mehrzwecks-Unter
systeme miteinander kombiniert werden, um synergetisch
zu arbeiten, um die Spracherkennungsrate zu maximieren. In
jüngerer Zeit sind Neural-Netzwerke mit einigem Erfolg in
beschränkten Gebieten, wie z. B. durch A. Waibel in einem
Artikel beschrieben, betitelt "Modular Construction of
Time-Delay Neural Networks for Speech Recognition", ver
öffentlicht in Neural Computation 1, 39-46 (1989), ange
wandt worden.
Jede zur Vorhersage geeignete Informationsquelle und jede
Nebenbedingung, die in vernünftiger Weise in eine künstli
ches System aufgenommen werden kann, hat die Tendenz, zu
einer Erhöhung der Erkennungsgenauigkeit zu führen und es
ist deshalb wünschenswert, solche in ein Spracherkennungs
system einzubeziehen. Traditionell hat sich die meiste For
schung auf eine Einbeziehung höherwertiger linguistischer
Information, wie z. B. grammatikalischer und syntaktischer
Daten, konzentriert. Es ist klar, daß die Menschen andere
als die durch akustische Signale gegebene Information ver
wenden können, um das Verständnis zu verbessern. Hörgeschä
digte Menschen z. B. nutzen oft visuelle Information zum
"Sprachlesen", um die Erkennungsgenauigkeit zu verbessern.
Siehe z. B. Dodd, B. und Campbell, R. (Hrsg.), "Hearing by
Eye: The Psychology of Lipreading", Hillsdale, N.J.,
Lawrence Erlbaum Press (1987), oder DeFilippo, C.L. und
Sims, D.G. (Hrsg.) "New Reflections on Speechreading", Son
derausgabe des "The Volta Review" 90(5), (1988).
Sprachlesen kann direkte Information über Sprachsegmente
und Phoneme und auch über die Geschwindigkeit, das Ge
schlecht des Sprechers, seine Identität und subtile Infor
mationen zur Trennung der Sprache vom Hintergrundrauschen
liefern. Der wohlbekannte "Cocktail-Party-Effekt", bei dem
durch den Lärm der Menge korrumpierte Sprache signifikant
verständlicher wird, wenn man das Gesicht des Sprechers se
hen kann, bietet einen starken Beweis dafür, daß Menschen
visuelle Information bei der Spracherkennung nutzen.
Verschiedene Sprachlese-Systeme sind jüngst beschrieben
worden, einschließlich:
- a) Petajan, E.D. u. a., "An Improved Automatic Lipreading System to Enhance Speech Recognition" CM SIGCHI-88, 19-254 (1988);
- b) Pentland, A. u. a. "Lip Reading: Automatic Visual Recognition of Spoken Words" Proc. Image Understanding and Machine Vision, optical Society of America, June 12-14 (1984); und
- c) Yuhas, B.P. u. a. "Integration of Acoustic and Visual Speech Signals Using Neural Networks" Nov. 1989, IEEE Communications Magazine (1989).
Petajan u. a. benutzten Schwellenwertbilder (Bildpunkte) des
Gesichts eines Sprechers während der Bildung eines Wortes
in Verbindung mit einem Verzeichnis vorher abgespeicherter
markierter Äußerungen und einem Standardabstands-Klassifi
kator zur visuellen Erkennung.
Pentland u. a. benutzten ein optisches Flußverfahren, um die
Geschwindigkeit der Oberlippe, Unterlippe und der beider
Mundwinkel aus dem unverarbeiteten Bildpunkt-Videobild des
Mundes abzuschätzen. Sie benutzten dann eine Hauptkomponen
tenanalyse und einen Minimalabstands-Klassifikator für
Sprechgruppen aus drei und vier Einheiten.
Yuhas u. a. trainierten ein Neural-Netzwerk unter Verwendung
eines statischen Bildes der Mundform zur Vokalerkennung zu
sammen mit einem Kontroller mit freien Parametern, um die
relativen Gewichte der visuellen und auditiven Beiträge mit
dem Ziel bester Erkennung in Gegenwart verschiedener Ni
veaus akustischen Rauschens anzupassen.
Gemäß dieser Erfindung ist ein Spracherkennungssystem vor
gesehen, in dem sowohl akustische als auch visuelle Sprach
signale verarbeitet werden, um die Wahrscheinlichkeit einer
korrekten Klassifizierung von Sprachäußerungen zu verbes
sern.
Ein Ziel ist es, die Leistungsfähigkeit eines Spracherken
nungssystems, das nur entweder akustische Information oder
visuelle Information über die Position der Lippen insbeson
dere in einer ungünstigen verrauschten Umgebung nutzt, zu
verbessern.
Ein weiteres Ziel ist es, ein neues Zeitverzögerungs-
Neural-Netzwerks-Sprachlesesystem zur Klassifizierung von
Äußerungen zu schaffen, das nur visuelle Daten nutzt.
Ein weiteres Ziel ist es, ein akustisches Spracherkennungs
system durch die Benutzung eines visuellen Zeitverzöge
rungs-Neural-Netzwerks-Spracherkennungssystems in Verbin
dung mit einem akustischen Spracherkennungssystem zu ver
bessern.
Ein weiteres Ziel ist es, den Klassifikator mit einem kon
tinuierlichen Strom zusammenhängender visueller und akusti
scher Daten zu versorgen, aus dem die akustische Äußerung
detektiert und klassifiziert werden kann.
Ein weiteres Ziel ist es, eine Zeitverzögerungs-Neural-
Netzwerks-Klassifikatorarchitektur zu schaffen, die Gra
dientenabstieg (gradient descent) oder andere Lernmethoden,
wie z. B. Rückwärtsausbreitungstraining (back propagation
training), unterstützt.
Ein weiteres Ziel ist es, akustische und visuelle Signal
vorverarbeitung vor dem Zeitverzögerungs-Neural-Netzwerks-
Klassifikator zu schaffen.
Ein weiteres Ziel ist es, eine Ausgangsklassifizierung zu
schaffen, d. h. eine Wahrscheinlichkeitsverteilung, die die
Wahrscheinlichkeit dafür, daß jede mögliche Äußerung eines
Kandidaten in einem gegebenen Zeitintervall stattgefunden
hat, darstellt.
Ein weiteres Ziel ist es, eine einfache Methode zur Extra
hierung dynamischer, gesichtsbezogener, visueller Informa
tion vermittels einer ausgewählten Menge von Gesichtsmarken
zu schaffen.
Ein Spracherkennungssystem zur Erkennung von Äußerungen,
die zu einem vorher eingerichteten Satz von zulässigen
Äußerungen eines Kandidaten gehören, weist dabei folgendes
auf: einen Merkmalsextraktionsapparat, einen Extraktions
apparat für dynamische, visuelle Merkmale und einen Neural-
Netzwerks-Klassifikationsapparat. Der Extraktionsapparat
für akustische Merkmale wandelt akustische Sprechsignale,
die repräsentativ für eine Äußerung sind, in einen entspre
chenden Satz von Spektralmerkmalsvektoren um. Der Extrak
tionsapparat für dynamische, visuelle Merkmale wandelt die
dynamischen Gesichtsmerkmale, die mit der Erzeugung der
akustischen Äußerung verbunden sind, in einen Satz dynami
scher, visueller Merkmalsvektoren um. Der Neural-Netzwerks-
Klassifikationsapparat wandelt die Vektoren der dynami
schen, akustischen und visuellen Merkmale in eine bedingte
Wahrscheinlichkeitsverteilung, die die Wahrscheinlichkeit
für jede gesprochene Äußerung eines Kandidaten auf der Ba
sis der gemessenen akustischen und visuellen Daten be
schreibt, um.
Nachfolgend wird die Erfindung anhand von Ausführungsbei
spielen unter Bezugnahme auf die Zeichnung beschrieben.
Fig. 1 zeigt ein Blockdiagramm eines akustischen und vi
suellen, dynamischen Spracherkennungssystems.
Fig. 2 zeigt die Plazierung der visuellen Vergleichsmar
ken auf den und um die Lippen des Sprechers.
Fig. 3 zeigt die Beziehung zwischen den gleichförmigen
Mel-Frequenzbändern und den entsprechenden nicht-
gleichförmigen linearen Frequenzbändern.
Fig. 4 zeigt zwei gleichwertige Implementierungen eines
Einschichtzeitverzögerungs-Neural-Netzwerkes
(TDNN, Time Delay Neural Network).
Fig. 5 zeigt ein elektrisches Analogon einer typischen
Äußerung zusammen mit ihrem Spektrogramm.
Fig. 6 zeigt die Architektur eines nur visuellen (VO,
Visual Only) Mehrschichts-TDNN.
Fig. 7 zeigt eine hardware-getreue TDNN-Architektur.
Fig. 8 zeigt ein Blockdiagramm eines akustischen und vi
suellen Spracherkennungssystems, das die Ausgänge
von getrennten akustischen und visuellen Erken
nungssystemen verbindet.
Fig. 9 zeigt eine hardware-getreue Ausführungsform eines
A×V TDNN-Sprachklassifikators.
Fig. 10 zeigt eine hardware-getreue Ausführungsform eines
anderen TDNN-Sprachklassifikators.
Fig. 11 zeigt eine hardware-getreue Ausführungsform eines
gesamten AV-Sprachklassifikators.
Fig. 12 zeigt die Architektur einer typischen künstlichen
McCulloch-Pitts-Neuralzelle.
Fig. 13 zeigt Beispiele für die Übertragungscharakteri
stik von Aktivierungsfunktionen.
Fig. 14 zeigt die Architektur einer typischen künstlichen
Sigma-pi (ΣΠ) Neuralzelle.
Fig. 15 zeigt einen Satz von Lernkurven, die den Fort
schritt des Lernens darstellen.
Fig. 16 zeigt eine Gruppe von Verwaschungsmatrizen für
vier Systeme.
Verschiedene Ausführungsformen von Spracherkennungssystemen
werden beschrieben, bei denen jedes System darauf trainiert
ist, eine begrenzte Gruppe von Sprachäußerungen zu erken
nen. Die verschiedenen Ausführungsformen unterscheiden sich
in dem Typ der genutzten Information und/oder in der Art,
in der die Informationssignale verarbeitet werden. In jedem
Fall ist es das Ziel eines Spracherkennungssystems, am Aus
gang des Klassifikators eine Wahrscheinlichkeitsverteilung
zu erzeugen, die mit allen möglichen Äußerungen des Kandi
daten zusammenhängt.
Aus Gründen der Klarheit werden in der folgenden Beschrei
bung spezifische Beispiele der Ausführungsformen der Erfin
dung, die dazu verwendet werden, eine von zehn Äußerungen
des Kandidaten zu erkennen, benutzt. Dies ist jedoch keine
Beschränkung in der Zahl oder der Typen von Äußerungen, die
erfaßt werden können.
Die vorliegende Erfindung betrifft ein System zur Sprach
erkennung, das sich dynamisch verändernde akustische und
visuelle Signale zur Verbesserung des Spracherkennungsver
haltens benutzt. Fig. 1 zeigt ein vereinfachtes Blockdia
gramm einer Ausführungsform. Akustische Sprechdaten werden
durch das Mikrophon 20 gesammelt, das vermittels der Aus
gangsleitung 22 die elektrische Signalreplika der akusti
schen Information an den Spektralanalysator 24 gibt, wo die
akustische Energie auf eine Gruppe von 14 Filtern gegeben
wird. Die zeitlich veränderliche Kurzzeitenergieausgabe von
jedem der 14 Filter wird gemessen, normalisiert und an die
14 Ausgabeleitungen 25 als ein zeitlich veränderlicher Vek
tor mit 14 Komponenten gegeben.
Gleichzeitig empfängt eine Videokamera 10 die damit ver
bundenen visuellen Daten ein, die durch die Gruppe von Mar
ken erzeugt wurden, um die durch die gegebene Sprachäuße
rung erzeugten Lippen- und Mundbewegungen zu beschreiben.
Diese Roh-Videoinformation wird vermittels der Leitung 12
zu dem Lippen- und Mundpositionsvektor-Generator 14 ge
führt, wo die zeitlich veränderlichen Positionen der Lippen
und Mundmarken bezüglich der Kopfneigung und Größe normali
siert werden und einen zeitlich veränderlichen Vektor an
den fünf Ausgangsleitungen 15 erzeugen, der die mit der
akustischen Äußerung verbundene Lippen- und Mundaktivität
beschreibt.
Der Lippen- und Mundpositionsvektor-Generator 14 umfaßt ein
Nachführsystem 16 zur Verfolgung der Position von licht
emittierenden oder reflektierenden Vergleichsmarken, die
auf den und um die Lippen des Sprechers angeordnet sind,
und einen Vektorgenerator 19, der ausgewählte Entfernungen
zwischen den Vergleichsmarken extrahiert und normalisiert.
Dieser Apparat wurde unter Verwendung des computerbasierten
zweidimensionalen Bewegungsanalysesystems implementiert,
das von der Motion Analysis Corporation, 3650 North
Laughlin Road, Santa Rosa, California 95403, unter dem
Warenzeichen "Expert Vision" hergestellt wird.
Das "Expert Vision"-Videonachführungssystem benutzt eine
Videoausrüstung, um die Bewegungen der Objekte aufzunehmen.
Reflektierende Marken sind an Stellen von Interesse an
gebracht. Das System kann Daten aufnehmen und analysieren,
die von einer Video-Kamera 10 (oder Band) bei der Standard
videobildwechselfrequenz von 60 Hz oder bis zu 200 Hz auf
genommen wurden.
Die unverarbeiteten Videodaten aus der Video-Kamera werden
an das Videoverarbeitungsuntersystem gegeben, das die Mar
kenbilder isoliert und sie in Echtzeit in digitalisierte
Videokonturbilder umwandelt. Der Videoprozessor versorgt
den Host-Rechner mit der Funktion des Nachführungssystems 16
durch die Erstellung der x- und y-Koordinaten der Ränder
der Marken zur Weiterverarbeitung. Die bei Videobildwech
selfrequenzintervallen detektierten Bildschirmpositionen
werden in einem rechteckigen Muster von 256 Bildpunkten
Breite (in die x-Richtung) und 240 Bildpunkten Höhe (in die
y-Richtung) ausgedrückt.
Die Videokonturen werden zu Schwerpunkten durch die Soft
ware des Host-Computers reduziert. Der Schwerpunkt jeder
reflektierenden Marke wird durch die Mittelung der Koordi
naten der individuellen Bildpunkte bestimmt, die die Kontur
der Marke bilden. Die Schwerpunkte von jeder Marke werden
gekennzeichnet und von Bild zu Bild verbunden, um eine Tra
jektorie zu bilden. Zusätzliche Software des Host-Computers
wird verwendet, um einen Satz von visuellen Abstandsvekto
ren, wie unten beschrieben und funktionell angedeutet durch
Vektorgenerator 19 in Fig. 1, zu generieren und zu normali
sieren.
Beide der zeitlich veränderlichen Vektoren auf Leitungen 15
und 25 werden an einen Zeitverzögerungs-Neural-Netzwerk
sprachklassifikator ("TDNN") 200 gegeben, wobei das Neural-
Netzwerk zehn Ausgangssignale auf Leitungen 17 aufweist.
Jede der Ausgabeleitungen 17 ist ausschließlich mit einer
der zehn möglichen Sprachäußerungen, die das TDNN 200 trai
ningsgemäß erkennen soll, zugeordnet. Der Signalpegel auf
jeder der zehn Leitungen ist repräsentativ für die Wahr
scheinlichkeit, mit der die damit assoziierte Äußerung ge
macht wurde. Das Ausgabenetzwerk 18 (gepunktet gezeichnet)
ist ein optionaler eins-aus-zehn Klassifikator (innerhalb
des Fachgebiets gut bekannt), der die wahrscheinlichste
Äußerung auswählt, indem er die Äußerung wählt, die der
Leitung mit dem höchsten Pegel (Wahrscheinlichkeit) der
zehn Leitungen 17 entspricht. Da der TDNN-Klassifikator 200
in der Lage ist, einen zeitlich veränderlichen Datenstrom
zu untersuchen, ist die exakte Kenntnis der zeitlichen Po
sition der akustischen und visuellen Information nicht not
wendig.
Fig. 2 zeigt die Plazierung von zehn reflektierenden Marken
(M0, 9) auf den Gesichtern der Sprecher, die in einer Aus
führungsform verwendet wurden. Die Positionen der zehn Ver
gleichsmarken waren: Die Nasenspitze (M0), die Mitte des
Kinns (M1), der linke Mundwinkel (M2), der rechte Mundwin
kel (M3), die obere Mitte der Lippen (M4), die untere Mitte
der Lippen (M5) und vier Punkten auf den Lippen ungefähr
mittig zwischen der Mitte der Oberlippe und dem linken und
rechten Mundwinkel (M6, M7) und zwischen der Mitte der Un
terlippe und dem linken und rechten Mundwinkel (M8, M9).
Dieser Satz von Vergleichsmarken wurde benutzt, um die ge
nerelle Form und Bewegung des Lippen- und Mundbereichs zu
etablieren. Diese spezielle Anordnung hat den Vorteil der
Einfachheit verglichen mit dem berechnungsintensiven Pro
blem, dieselbe Information aus einem enormen Datenvolumen,
das durch Sequenzen von Video-Bildpunktbildern erzeugt wur
de, abzuleiten.
Die Position der reflektierenden Vergleichsmarken auf den
Gesichtern jedes Sprechers wurden durch eine Video-Kamera
bei einer Bildwechselfrequenz von 60 Hz aufgenommen und
dann durch einen Positionsvektorgenerator 14 in visuelle
Merkmalsvektoren transformiert, die fünf Komponenten ent
halten, wie in folgender Tabelle gezeigt:
Diese besondere Wahl der Vektorkomponentenmerkmale wurde
derart getroffen, daß die verschiedenen Abstände über den
Mund und das Gesicht einfach unabhängig von Verschiebungen
und Drehungen des Kopfes gemacht werden können. Dies wurde
innerhalb des Vektorgenerators 14 erreicht, indem man zu
erst den Kopf so drehte, daß die durch die Vergleichsmarken
M0 und M1 gezogene Linie vertikal war, woraufhin die drei
vertikalen Abstände (M0-M1, M4-M5 und der mittlere Abstand
von M6-M8 und M7-M9) und die zwei horizontalen Abstände
(M2-M3 und der mittlere Abstand von M6-M7 und M8-M9) be
rechnet wurden.
Eine weitere Normalisierung der Merkmalskomponenten war nö
tig aufgrund der bei Gesichtsmessungen auftretenden Unter
schiede zwischen den Versuchspersonen. Es wurde auch fest
gestellt, daß sich der Mund von Zeit zu Zeit in einer teil
weise geöffneten Ruheposition befand. Der erste Normalisie
rungsschritt lieferte einen für die Größe des Gesichts je
des Sprechers charakteristischen Satz von Gesichtsmessun
gen, indem die Vektoren, die allen Ruhepositionszeiten ent
sprachen, gemittelt wurden. Daraufhin wurde jeder visuelle
Vektor in der Folge normalisiert, indem man den Ruhemittel
wert von jeder Komponente subtrahierte und die Länge derart
skalierte, daß jede Komponente einen Wert von plus oder mi
nus eins hat, wenn ihr Pegel plus oder minus zwei Standard
abweichungen vom Mittelwert entspricht.
Obwohl der oben aufgezählte spezifische Satz von Gesichts
bewegungsmerkmalen bei der Anwendung der Spracherkennung
für die Praxis verwendet wurde, könnten auch andere glei
chermaßen repräsentative Sätze von dynamischen Messungen
verwendet werden, um die wesentliche visuelle Information
zu liefern. Dies könnte zu einem anderen, aber effektiven,
dynamischen visuellen Datenvektor führen. Zum Beispiel
könnte eine Video-Kamera ein dynamisches Bildpunktbild von
dem Mund und den Lippen des Sprechers produzieren. Die dy
namische Form könnte charakterisiert werden, indem man den
Abstand zwischen den Schatten unterhalb der Ober- und Un
terlippe, der durch das Deckenoberlicht erzeugt wird, mißt.
Ein Satz derartiger Messungen über den Mund verteilt, würde
die dynamische Form beschreiben.
Die akustischen Datensignale fanden in einem Zeitfenster
von 2 Sekunden Länge statt und wurden gleichzeitig durch
ein Kardioid-Mikrophon 20 aufgenommen und dann bei einer
Abtastfrequenz von 8012 Hz abgetastet und digitalisiert,
wobei eine 8 Bit "mu-law"-Kodierung verwendet wurde
(gleichwertig mit der Qualität digitaler Telephonleitun
gen). Eine 14wertige Mel Leistungsspektrumsanalyse wurde
durch den Spektralanalysator 24 mit Hilfe einer diskreten
Fourier-Transformation auf 256 Datenpunktfenstern erstellt,
die jeweils um Intervalle von 5 ms zentriert waren, um den
14 Mel Leistungsspektrumsanalysefilter zu simulieren. Jedes
der 256 Datenpunktfenster wurde durch eine Hamming′sche
Fensterfunktion dargestellt, um den Spektralschwund zu re
duzieren. Die Anwendung der diskreten Fourier-Transforma
tion auf die durch ein Fenster herausgegriffenen Daten und
die Bildung der Quadrate der Werte der Fourier-Koeffizien
ten führte zu einer gleichmäßigen Auflösung des Leistungs
spektrums von 128 Punkten. Das 14 Band Mel Leistungsspek
trum hat eine Frequenzskala, F, die zur normalen linearen
Frequenzskala, f, in folgendem logerithmischem Zusammenhang
steht:
F=ln(1+f/700).
Diese Mel-Frequenzskala basiert auf Experimenten zur psy
choakustischen Frequenzskalierung, die zeigen, daß die
menschliche Beurteilung der relativen Tonhöhe von zwei
Sinusschwingungen nicht äquivalent zu ihrem tatsächlichen
arithmetischen Verhältnis ist. Obiger Ausdruck setzt des
halb die Beurteilung der wahrgenommenen Tonhöhe, F, zur
physikalischen Messung der Frequenz, f, in Beziehung. Be
merkenswert ist, daß, obwohl das Mel Leistungsspektrum be
nutzt wurde, eine Vielzahl von Leistungsspektrumstypen, ein
schließlich derer, die auf gleichförmigen oder exponentiell
skalierten Bandintervallen beruhen, in dieser Anwendung
auch leistungsfähig sein können.
Fig. 3 zeigt die graphische Darstellung der Mel-Frequenz,
F, gegen die tatsächliche Frequenz, f. 14 Bänder gleichför
miger Breite auf der Mel Skala sind auf der vertikalen
Skala zusammen mit ihrer Projektion auf die tatsächliche
Frequenzskala, als nicht gleichförmige Bänder, die in Über
einstimmung mit obigem Ausdruck bei zunehmender Frequenz f
zunehmen, dargestellt. Die Skala der unteren Abszisse setzt
den Fourier-Koeffizientenfrequenzindex in bezug zur tat
sächlichen Frequenz. Die 14 Mel Filter gleichförmiger Band
breite werden deshalb, wie gezeigt, durch Summation des
Leistungsspektrums in den entsprechenden nicht-gleichförmi
gen Bändern linearer Skala simuliert. Ein statistisch be
ständigeres Mel Skala-Leistungsspektrum wird alle 5 ms oder
200mal pro Sekunde erzeugt, indem aufeinanderfolgende
Paare von Spektren gemittelt werden, was die effektive
Spektrumsausgabegeschwindigkeit auf eine je 10 ms reduziert
(100 Spektren pro Sekunde). Der nächste Verarbeitungs
schritt, der vom Spektralanalysator 24 durchgeführt wird,
ist die Bestimmung des Logarithmus von jedem Mel Spektrum,
um einen 14komponentigen logarithmischen (log) Mel Spek
tralvektor zu erhalten. Die Normalisierung von jedem Satz
logarithmischer Mel Spektren, die einer gegebenen Äußerung
entsprachen, wurde dadurch erreicht, daß man den Mittelwert
berechnet und den größten und kleinsten aller Werte des
Satzes extrahierte. Die logarithmischen Spektralsätze wur
den dann skaliert und (zahlenmäßig) so verschoben, daß der
neue Mittelwert bei 0 und der Maximalwert jeden logarith
mischen Spektrums bei 1 liegt. Die normalisierten logarith
mischen Mel Spektralvektoren werden an den Ausgangsleitun
gen 25 des Spektralanalysators 24 verfügbar gemacht.
Da in einer Ausführungsform die Videobildwechselfrequenz
der Kamera 10 bei 60 Bildern pro Sekunde lag, wohingegen
die Spektralerzeugungsrate des Spektralanalysators bei 100
Spektren pro Sekunde lag, war ein zusätzlicher Verarbei
tungsschritt notwendig, um die beiden Raten einander anzu
passen. Dies ist graphisch in Fig. 1 durch die gepunktet
gezeichnete Box 26, die mit "Interpolator" beschriftet ist,
dargestellt, da diese nur notwendig ist, wenn die Videorahmen
frequenz und die Spektralrahmenfrequenz nicht überein
stimmen. In diesem Fall wurden aufeinanderfolgende Videoda
tenfenster (Vektoren), jeweils aus den fünf vorher be
schriebenen Vektorkomponenten bestehend, interpoliert unter
Verwendung eines (sin x)/x-artigen Interpolationskerns, um
eine neue Folge von Vektoren mit einer Frequenz von 100 pro
Sekunde zu erzeugen. In anderen Worten, der Wert des k-ten
interpolierten Ereignisses, das sich zur Zeit=k/100
Sekunden (k=0, ±1, ±2, . . . ) ereignet, d. h. in gleichförmi
gen Zeitintervallen von 10 ms, ist gegeben durch:
wobei:
x(m/60) der Wert der Vektorkomponente zur Zeit= m/60 ist;
m der ursprüngliche ganzzahlige Zeitindex, der in Intervallen von 1/60 Sekunden inkrementiert wird, ist;
k der neue Zeitindex, der in Intervallen von 1/100 Sekunden inkrementiert wird, ist; und
X(k/100) der interpolierte Wert zu den 1/100 Sekunden Intervallen ist.
x(m/60) der Wert der Vektorkomponente zur Zeit= m/60 ist;
m der ursprüngliche ganzzahlige Zeitindex, der in Intervallen von 1/60 Sekunden inkrementiert wird, ist;
k der neue Zeitindex, der in Intervallen von 1/100 Sekunden inkrementiert wird, ist; und
X(k/100) der interpolierte Wert zu den 1/100 Sekunden Intervallen ist.
Diese Operation kann durch Standardkonvolutionsverfahren
(digitale Filterung) durchgeführt werden. Andere mögliche
Interpolationskerne, einschließlich linearer quadratischer
Kerne und Kernen polynomialen Typs höherer Ordnung, könnten
auch zur Interpolation verwendet werden, ohne signifikant
die Funktion zu beeinträchtigen.
Die fünf Ausgangsleitungen 15 des visuellen Vektorgenera
tors 14 und die 14 Ausgangsleitungen 25 des akustischen
Spektralanalysators 14 bilden zusammen einen 19komponenti
gen zeitlich veränderlichen audiovisuellen ("AV") Vektor,
der auf das TDNN 200 gegeben wird.
Um sowohl Äußerungen variabler Länge als auch die gewisser
maßen unvorhersagbare Zeit des Beginns der Äußerung zu be
rücksichtigen, wurde als Neural-Netzwerk zur Spracherken
nung ein Zeitverzögerungs-Neural-Netzwerk (TDNN), das dem
von Waibel, A., in einem Artikel "Modular Construction of
Time-Delay Neural Networks for Speech Recognition" in
Neural Computation 1, 39-46 (1989) beschriebenen ähnlich
ist.
Fig. 4 zeigt zwei funktionell gleichwertige Implementierun
gen eines TDNN. Fig. 4(a) besteht aus einer Verzögerungs
leitung 103 mit gleichförmigen Abgriffen, die eine Ein
gangsdatensequenz, x(t), auf Eingangsleitung 101 annimmt.
Die Signale an den Ausgangsabgriffen 102 der Verzögerungs
leitung stellen einen Zeitfolgenvektor dar, der repräsenta
tiv die Zeitfolge x(t) ist, der auf die Verzögerungsleitung
103 gegeben wurde, wobei die älteren Daten rechts liegen,
d. h. jeder Abgriff hat einen Ausgang, der den Wert der Ein
gangsfolge τ Sekunden früher als der unmittelbar links
davon liegende Punkt darstellt. Zu jedem gegebenen Zeit
punkt ist die zeitliche Entwicklung der Eingangssequenz an
den Ausgangsabgriffen 102 verfügbar. Ein ausgewählter Satz
von benachbarten Abgriffen ist mit Leitungen 105 von Neuro
nen 110, die mit N1 beschriftet sind, verbunden. In ähnli
cher Weise wird ein Satz, der die gleiche Zahl von Ein
gangsabgriffen 102, jedoch um eine Einheit τ verschoben,
hat auf das Neuron 110 - mit N2 beschriftet - gegeben. Wie
gezeigt, kann die TDNN-Struktur jede beliebige Zahl zusätz
licher Neuraleinheiten 110 haben, die in derselben Art ver
bunden sind, wobei jede um eine Verzögerungseinheit τ ver
schoben ist. Jedes Neuron 110 ist strukturidentisch und be
nutzt denselben Satz synaptischer Gewichte bzw. Wichtungen,
die via der Leitungen 107 zugeführt werden. So stellt der
Ausgang jedes Neurons 110 auf die Ausgangsleitungen 109
eine neue Datensequenz {Yk(t)} dar, die zeitlich um das
Intervall τ vom Ausgang des Nachbarneurons 110 verschoben
ist.
Die hardware-getreue TDNN-Struktur, die in Fig. 4(b) ge
zeigt ist, benutzt ein einzelnes Neuron 110 in einem Multi
plex-Betrieb. Die Eingangsdatensequenz, die auf die abge
griffene Verzögerungsleitung 103 via Inputleitung 101 gege
ben wird, produziert auf den Ausgangsleitungen 105 ein Bild
ihrer vergangenen Werte in je τ Sekundenintervallen, die
parallel auf die Neuralzelle 110 gegeben werden. Der Satz
von Gewichten bzw. Wichtungen (identisch den in Fig. 4(a)
benutzten) wird durch Eingangsleitungen 107 angelegt. In
jedem Intervall der Länge τ produziert die Neuralzelle 110
einen Ausgangswert auf der Leitung 108, der auf eine zweite
abgegriffene Verzögerungsleitung 103 gegeben wird. Wenn die
zweite Verzögerungsleitung 103, die zur nächst höheren
Schicht gehört, wie gezeigt, n Abgriffe hat, dann haben
alle (n-1)τ Sekundenintervalle die Ausgangsabgriffe 109
einen neuen Satz von n Ausgangsvektoren, der identisch zu
dem ist, der bei denselben Eingangsdatengewichten bzw.
-wichtungen durch das TDNN von Fig. 4(a) produziert worden
wäre.
Beide Strukturen von Fig. 4 sind geeignet, um die Komponen
te einer einzigen zeitlich veränderlichen Vektorkomponente
an ihrem Eingangsabgriff 101 aufzunehmen. Deswegen muß die
gezeigte Struktur für jede Komponente des Eingangsvektors
repliziert werden. Im allgemeinen würden die Eingangsge
wichte bzw. -wichtungen für die durch die Trainingsprozedur
bestimmte Komponente eindeutig sein.
Die Zeitverzögerungseinheit, τ, ist so gewählt, daß eine
Verfälschung der Eingangsdaten minimiert wird. Wenn der
Wert für τ wesentlich kleiner als das Nyquist Abtastinter
vall wäre, würden die Werte benachbarter Ausgangsabgriffe
109 stark korreliert sein und könnten zu Instabilitäten
beim Training aufgrund der überschüssigen Freiheitsgrade
(Redundanz) , die in dem Netzwerk verwendet werden, führen.
Wenn das Intervall τ größer ist als das Nyquist Abtastin
tervall, wird eine Verfälschung eingeführt, die zu einer
inkorrekten Klassifizierung der Eingangsdaten führen kann.
Ein akzeptabler Wert wurde zu ungefähr 10 Millisekunden be
stimmt.
Die Zahl der Verzögerungselemente pro Verzögerungsleitung
muß ausreichend sein, um sicherzustellen, daß die gesamte
Dauer einer Äußerung durch die Gesamtzeit von (n-1)τ für
eine Verzögerungsleitungsstruktur von n Ausgangsabgriffen
überspannt wird. Für die Klasse der benutzten Äußerungen
erwies sich eine Spanne von 100 Elementen von 10 ms Verzö
gerung (1000 ms insgesamt) als geeignet. Kürzere Beobach
tungsspannen könnten den Wert der Klassifizierung reduzie
ren, indem sie nicht die gesamte Dauer einer Äußerung ein
schließen und längere Spannen könnten die Qualität der
Klassifizierung reduzieren, indem sie zu viel überflüssige
Daten einschließen.
In einem Spracherkennungssystem der Praxis ist ein Mehrla
gen-TDNN mit Vektoreingabe von Nöten. Dies kann durch eine
Zahl hintereinander geschalteter (kaskadierter) Einschicht-
TDNN′s erreicht werden, so daß die Ausgangsfolge einer ge
gebenen Schicht die Eingangsfolge der nächst höheren
Schicht wird. Auf diese Weise bildet jede Schicht eine Ein
gangszeitsequenz auf eine andere Ausgangszeitsequenz ab und
bildet schließlich die Eingangszeitsequenz der Merkmale
(akustische und visuelle) auf die Zeitsequenz der Attribute
(Klassifizierung) ab. Da das TDNN eine Teilmenge der vor
wärts gerichteten Neural-Netzwerke ist, ist es unter Ver
wendung der wohlbekannten Rückwärtsausbreitungs- (back
propagation) oder anderer Gradientenabstiegsalgorithmen
(gradient descent) trainierbar. Zusätzlich hat das TDNN die
wünschenswerte Eigenschaft, sequentiell eine identische
Transformation auf eine Sequenz von Merkmalszeitfenstern zu
schrittweise oder zunehmend variablen Zeitpunkten anzuwen
den. Anders als bei konventionelleren vorwärts gerichteten
Neural-Netzwerken muß die Eingangsdatensequenz präzise mit
einer absoluten Zeitreferenz abgeglichen werden, um ein
ordnungsgemäßes Training sicherzustellen. Die TDNN-Struktur
trägt der Tatsache Rechnung, daß die Muster von Interesse
innerhalb der Eingangsdatensequenz zu einem beliebigen
Zeitpunkt auftreten können und das TDNN versucht, während
des Lernens exemplarische Muster in der Trainingsdatense
quenz zu finden, unabhängig davon, wann sie auftreten.
Wenn es jedoch erwünscht ist, daß der Netzwerksausgang
einen einzigen Satz von Attributen aufweist, so kann in der
Eingangsverzögerungsleitung eine Merkmalssequenz bestimmter
Dauer gespeichert werden. Die Dauer sollte so gewählt wer
den, daß sichergestellt ist, daß die Zeitspanne (Fenster)
der Verzögerungsleitung die Sequenz von Interesse ein
schließt. Wenn jede darauffolgende Schicht des TDNN eine
Funktion der Fensterzeitspanne ist, kann der Ausgang für
jedes Attribut der letzten Stufe zu einem einzigen Wert des
Fensterintervalls gemittelt werden.
Fig. 5 zeigt ein Beispiel für eine typische gesprochene
Äußerung. In Fig. 5(a) ist ein für den akustischen Druck
repräsentatives elektrisches Signal gezeigt, das bei unge
fähr 15,4 Sekunden beginnt und bei 17,0 Sekunden endet.
Fig. 5(b) zeigt die fünf Komponenten des visuellen Vektors
derselben Äußerung, der auch bei ungefähr 15,4 Sekunden be
ginnt und ungefähr 1,6 Sekunden später endet (17,0 Sekun
den). Ein Fenster von einer Sekunde Dauer würde deshalb ge
eignet erscheinen, um einen Großteil sowohl der akustischen
als auch visuellen Signale zu umfassen.
Für die unten beschriebenen Ausführungsformen wurden zehn
mögliche Typen von Äußerungen in das Spracherkennungssystem
gesprochen und zehn Ausgangswerte am Ausgang erzeugt, die
jeweils die Wahrscheinlichkeit dafür darstellen, daß eine
der zehn möglichen Äußerungen gesprochen wurde. Die Netz
werkstruktur umfaßt zwei TDNN-artige Schichten, denen in
der nächsten Stufe die Zeitmittelung und Wahrscheinlich
keitsnormalisierung folgt.
Die fünf verschiedenen Ausführungsformen eines Spracherken
nungssystems, das im folgenden beschrieben wird, beinhal
ten:
- a) das VO-System, das nur visuelle Daten verwendet;
- b) das AO-System, das nur akustische Daten verwendet (AO acoustic only);
- c) das A×V-System, eine Verbindung auf hohem Niveau eines AO- und VO-Systems;
- d) das AV-System mit einer Verbindung auf mittlerem Niveau (Klassifikationsschicht) des AO- und VO-Sy stems; und
- e) das volle AV-System mit integrierter Verarbeitung der akustischen und visuellen Daten.
Die Architektur eines TDNN-Netzwerkes ist in Fig. 6 ge
zeigt, wie es in einer VO (visual only)-Ausführungsform
eines Sprechklassifikators 200 benutzt wird, der auf dem
Lesen der visuellen Gesichtsmarken basiert und unter Ver
wendung der vorher beschriebenen fünf Abstandsmerkmale rea
lisiert wurde. Keine akustischen Daten wurden für diese
Realisierung verwendet. Die Verzögerungsleitungseingangs
stufe 210 umfaßt fünf Verzögerungsleitungseinheiten 103
jeweils mit 100 Ausgangsabgriffen, wobei jede Verzögerungs
leitung 103 eine der fünf Komponenten des visuellen Vek
tors, der durch den Vektorgenerator 14 von Fig. 1 gegeben
wird, speichert. Die Verzögerungsleitungen wurden durch
Software simuliert. Das zeitliche Inkrement τ zwischen ge
speicherten Werten beträgt 10 ms, so daß die Eingangszeit
sequenzfenster 1000 ms überspannen.
Die verborgene Schicht 220 umfaßt vier Zeilen von Neural
zellen mit jeweils 81 Neuralzellen und 5×20 Eingänge für
jede Zelle. Jedes Neuron in einer gegebenen Zeile ist mit
20 benachbarten Verzögerungsleitungswerten der fünf Verzö
gerungsleitungen verbunden. Die Reduktion von fünf auf vier
Zeilen schuf eine geringe Datenkompression bezüglich der
Zeilendimension.
Die Klassifikationsschicht 230 umfaßt zehn Zeilen, eine für
jede zu detektierende Äußerung und ist 72 Neuralzellen
lang. Jedes Neuron nimmt ein Feld von 40 Eingangsleitungen
auf: vier Zeilen der verborgenen Schicht 220 mit zehn be
nachbarten Neuralausgängen der verborgenen Schicht. Jede
der resultierenden zehn Zeilen hat 72 Neuralzellen, die den
72 möglichen Werten entsprechen, die von dem zeitverschobe
nen Ausgang der verborgenen Schicht verfügbar sind. Jeder
Wert am Ausgang eines Neurons in einer gegebenen Reihe der
Klassifikationsschicht 230 entspricht der Wahrscheinlich
keit, daß die dementsprechende Äußerung während eines der
72 Zeitintervalle von 290 ms, die in 10 Millisekunden-
Intervalle unterteilt sind und das ursprüngliche (Eingangs
stufe) Datenfenster von 1000 ms aufspannen, stattfand. Die
290 ms Auflösung resultiert aus dem 20 ms Fenster, das als
Eingang zur verborgenen Schicht 220 und den darauffolgenden
zehn Einheitsfenstern, wie sie in der verborgenen Schicht
220 verwendet werden, benutzt wird.
Die Mittelungsschicht 240 umfaßt zehn Neuralzellen, die je
weils einer spezifischen Zeile der Klassifikationsschicht
und deshalb mit einer spezifischen der zehn zulässigen
Äußerungen zugeordnet sind. Die Werte in jeder Ausgangsrei
he der Klassifikationsschicht 230 geben die Wahrscheinlich
keit dafür an, daß eine bestimmte Äußerung während eines
290 Millisekunden-Intervalls, das dieser Zelle entspricht,
stattgefunden hat. Diese 72 Eingänge sind in der Mitte
lungsschicht durch die entsprechende Neuralzelle verbunden,
um an ihrem Ausgang einen Wert zu produzieren, der reprä
sentativ für die Wahrscheinlichkeit ist, daß die Äußerung
zu einem beliebigen Punkt während des Beobachtungsfensters
von 1000 ms der Eingangsstufe 210 gesprochen wurde.
Das nur akustische (AO - acoustic only) Spracherkennungs
system benutzt dieselbe Art von Architektur wie das VO-
System, das in Fig. 6 gezeigt ist, wobei die Parameter so
angepaßt werden, daß sie dem 14komponentigen Spektralmerk
malsvektor auf der logarithmischen Mel-Skala, der durch den
Spektralanalysator 14 in Fig. 1 zu Intervallen von 10 ms
gegeben wird, Rechnung tragen. Die Verzögerungsleitungsein
gangsstufe 210 besaß deshalb ein Feld von 14 Zeilen mit 100
Datenwerten als Eingänge zur verborgenen Schicht 220. Jede
Reihe entspricht 1000 ms von Werten auf der logarithmischen
Mel-Skala von einem der Sätze der 14 Ausgangsfilter des
Spektralanalysators 14.
Die verborgene AO-Schicht 220 umfaßt vier Zeilen von 96
Neuralzellen, die für eine Merkmalskompression von 14 auf 4
sorgen. Jedes Neuron 221 ist mit fünf aneinander grenzenden
Eingangsstufenzeitabtastsignalen von jedem der 14 Eingangs
merkmale (insgesamt existieren 70 Eingangsmerkmalswerte pro
Neuron) verbunden. Das Eingangsfenster von fünf Einheiten
(50 ms) ist ein typisches Zeitintervall für die meisten
wichtigen akustischen Merkmale, wie z. B. Kurzzeit- und
Übergangsereignisse. Deshalb nimmt jedes darauffolgende
Neuron in einer vorgegebenen Zeile der verborgenen Schicht
220 ein Feld von 14 Zeilen ×5 Spalten von Eingangswerten
der Eingangsstufe 210 auf, die um ein 10 ms-Intervall ver
schoben sind.
Jedes Neuron 231 der AO-Klassifikationsschicht 230 empfängt
eine Eingangsauffächerung von vier Merkmalsreihen und 25
Zeitspalten von der verborgenen Schicht 220. Jede aufeinan
derfolgende Spalte von Neuronen 231 empfängt Eingänge der
verborgenen Schicht 220, die um eine Spaltenzeiteinheit von
10 ms verschoben sind. Die 25 Spaltenfenster wurden ge
wählt, damit das gesamte effektive Zeitfenster, das durch
die Klassifikationsschicht 230 gesehen wird, bei 290 ms
(((5-1)+25)×10 ms) liegt; dasselbe effektive Fenster
wurde in dem VO-Spracherkennungsnetzwerk, das oben be
schrieben ist, verwendet. Insgesamt sind 720 Neuronen mit
AO-Klassifikationsschicht 230 in zehn Zeilen zu je 72 Neu
ronen angeordnet. Wie im Fall des VO-Spracherkennungsnetz
werks entspricht eine der zehn Zeilen einer der zehn zu
lässigen Äußerungen.
Die Ausgangsschicht 240 des AO TDNN-Klassifikators 200 um
faßt eine Spalte von zehn Neuralzellen 241, wobei jede Zel
le mit einer verschiedenen Merkmalsreihe der Klassifika
tionsschicht 230 verbunden ist - mit einer Eingangsauffä
cherung von 72. Die Werte am Ausgang der Mittelungsschicht
240 sind jeweils repräsentativ für die Wahrscheinlichkeit,
daß die entsprechende Äußerung irgendwann innerhalb des
1000 ms-Datenfenster stattfand, wobei die Werte der Ein
gangsstufe 210 präsentiert wurden.
Fig. 7 ist eine andere Ausführungsform eines AO TDNN, einem
funktionalen Äquivalent zu dem oben beschriebenen Netzwerk,
das die durch den Neuralzellen-Mehrfachbetrieb benötigte
Hardware minimiert. Die 14 Spektraldatenkomponenten auf der
logarithmischen Mel-Skala des akustischen Vektorsignals wer
den auf die Verzögerungsleitungseinrichtung (delay line
assembly, DLA) 302 gegeben, bestehend aus 14 abgegriffenen
Verzögerungsleitungen, jede mit einer Datenkapazität von 5
Werten (in diesem Zusammenhang ist eine Verzögerungsleitung
äquivalent zu einem analogen oder digitalen Schieberegi
ster). Sobald die Verzögerungsleitung voll ist, nimmt die
Neuralzelleneinrichtung (neuron cell assembly, NCA1) 310,
die aus vier Neuralzellen (N1-N4) besteht, das Feld der 14
×5 Werte von den Abgriffen der DLA 302 auf und verbindet
dieses 70wertige Feld mit jedem der 70 Eingangskontakte
der vier Zellen (N1-N4). NCA1 310 erzeugt vier verschiedene
Ausgangswerte, einen für jede der N1-N4 Neuralzellen und
gibt sie an den Eingang des DLA 304, der verborgenen-
Schichts-Verzögerungsleitungseinrichtung. DLA 304 taktet in
den vier Werten. 10 ms später kommt ein neuer Wert am Ein
gang des DLA 302 an, der zu einer Verschiebung des Inhalts
um eine Einheit nach rechts führt und so den ältesten Satz
der 14 Spektraldatenwerte herausschiebt. Der neue Satz von
14×5 Datenpunkten wird dann auf jede der Zellen des NCA
310 gegeben, die an ihren vier Ausgangskontakten einen
neuen vierkomponentigen Vektor schafft, der in vier
Verzögerungen des DLA 304 getaktet ist. Dieser Prozeß setzt
sich fort und führt schließlich dazu, daß das DLA 304 voll
ist. Zu diesem Zeitpunkt berechnen die zehn Neuralzellen
(N1-N14) des NCA 312 jeweils eine Ausgabe für die zehn
Äußerungskategorien und übergeben zur Abspeicherung den
zehnkomponentigen Vektor an DLA 306 der zehn Verzögerungs
leitungen mit einer Kapazität von 72 Werten umfaßt.
So wird alle 10 ms-Intervalle danach ein neuer Vektor durch
NCA 310 berechnet, der nach DLA 304 verschoben wird. Im
Gegenzug berechnet NCA 312 einen neuen zehnkomponentigen
Vektor, der nach DLA 306 verschoben wird. Sobald DLA 306
bis zur Speicherkapazität gefüllt ist, wird der Inhalt von
jeder der zehn 1×72 Verzögerungsleitungen zu dem zugehö
rigen Mittlungsneuron (N15-N24) von NCA 314 geführt. Der
erste Satz von 10 Ausgängen stellt die Wahrscheinlichkeit
dar, daß die mit ihr assoziierte Äußerung während der er
sten 290 ms ausgesprochen wurde.
Während die Spektraldaten beständig in Intervallen von
10 ms ankommen, werden neue Werte für die Ausgangswahr
scheinlichkeiten berechnet. So würde der zweite berechnete
Wert der Wahrscheinlichkeit einer Äußerung, die während
eines 290 ms-Fensters, das um 10 ms von der ersten ver
schoben ist, stattgefunden hat, entsprechen. Aufeinander
folgende Ausgangswahrscheinlichkeiten entsprechen 290 ms-
Fenstern, die um 10 ms relativ zum vorhergehenden Fenster
verschoben sind.
Obwohl der Betrieb des TDNN in Fig. 7 zur Benutzung in
einem AO-Spracherkennungsnetzwerk beschrieben wurde, ist es
klar, daß dasselbe Betriebsprinzip auch gültig wäre, wenn
eine ähnliche Struktur in einem VO-Spracherkennungssystem
benutzt werden sollte, das konsistent mit der vorausgegan
genen Beschreibung des Betriebs in bezug zu Fig. 6 ist.
Die beschriebenen AO- und VO-Systeme arbeiten unabhängig
voneinander mit den entsprechend akustischen und visuellen
Sprechdaten. Sie sind in anderen Worten äquivalent zu dem
System, das in Fig. 1 gezeigt ist, in dem entweder die vi
suellen Daten, oder die akustischen Daten auf Null gesetzt
sind. Es kann vernünftigerweise erwartet werden, daß eine
Verbesserung eines AO-Systems durch visuelle Daten, die
Klassifikationsgenauigkeit vor allem unter widrigen akusti
schen Umgebungsbedingungen erhöht. Es werden drei Ausfüh
rungsformen eines kombinierten akustischen und visuellen
Spracherkennungssystems beschrieben.
Das erste, was als A×V-System bezeichnet wird und in Fig. 8
gezeigt ist, umfaßt einen AO-Sprachklassifikator 400 und
einen VO-Sprachklassifikator 500 zusammen mit einer zusätz
lichen Netzwerkschicht 250, um die Ausgangswahrscheinlich
keiten beider Systeme in einem einzigen Satz von Wahr
scheinlichkeiten zu kombinieren.
Der AO-Klassifikator 400 umfaßt einen Spektralanalysator 24
mit einer logarithmischen Mel-Skala, der das elektrische
Analogon eines Sprachsignals aufnimmt und als Ausgang einen
zehnkomponentigen akustischen Vektor produziert, der als
Eingang des akustischen TDNN-Klassifikators 410, der be
reits beschrieben wurde, benutzt wird. Der Ausgang des AO-
Klassifikator 400 ist ein Wahrscheinlichkeitsvektor, der
die Wahrscheinlichkeit dafür angibt, daß jede der zehn zu
lässigen akustischen Äußerungen ausgesprochen wurde, wobei
nur akustische Daten zugrundegelegt wurden. Er wird an den
Wahrscheinlichkeitsverknüpfer 250 geführt.
In ähnlicher Weise benutzt der VO-Klassifikator 500 ein
elektrisches Bild der Vergleichsmarken, um einen Lippen-
und Gesichtsmerkmalsvektor zu definieren, der mit dem ent
sprechenden akustischen Merkmalsvektor als ein Eingang an
den Lippen- und Mundpositionsvektorgenerator 14 assoziiert
ist. Der visuelle Ausgangsvektor, der durch das Vergleichs
markennachführsystem und den Vektorgenerator der Einheit 14
erzeugt wurde, wird auf einen akustischen TDNN-Klassifika
tor 510 gegeben, der einen zehnkomponentigen visuellen
Wahrscheinlichkeitsvektor produziert, der dann an die den
Wahrscheinlichkeitsverknüpfer 250 gegeben wird, der die
Wahrscheinlichkeit, daß eine der möglichen zehn Äußerungen
nur auf der Basis visueller Daten stattgefunden hat, an
gibt.
Es wird angenommen, daß p(c : A) die bedingte Wahrscheinlich
keit, daß die Äußerung c stattgefunden hat, wenn der damit
verbundene akustische Datenvektor A gegeben ist und p(c : V)
die bedingte Wahrscheinlichkeit ist, daß die Äußerung c
stattgefunden hat, wenn der assoziierte visuelle Datenvek
tor, V, gegeben ist. Damit entspricht p(c : A) dem c-ten Wert
des Vektorausgangs des Klassifikators 410, der auf dem Vek
tor A, der durch Spektralanalysator 24 erzeugt worden ist,
basiert; p(c : V) entspricht dem c-ten Wert des Vektoraus
gangs des Klassifikators 510, der auf Vektor V, der durch
Generator 14 gegeben wurde, basiert.
Wenn die Vektoren A und V unabhängig voneinander sind, ist
die kombinierte Wahrscheinlichkeit der c-ten Äußerung, wenn
A und V gegeben sind
p(c : A, V)=p(c : A)·p(c : V)/p(c),
wobei p(c) die a priori Wahrscheinlichkeit dafür ist, daß
Äußerung c eintritt. Dies ist der erwünschte Ausgang des
Wahrscheinlichkeitsverknüpfers 250.
Da p(c : A) und p(c : V) vielleicht nicht streng unabhängig
voneinander unabhängig sind und aufgrund von Fehlern bei
der Abschätzung dieser Werte und weil p(c) vielleicht nicht
bekannt ist, erzeugt der Wahrscheinlichkeitsverknüpfer in
der Tat das skalierte Produkt
p(c : A, V)=k·p(c : A)·p(c : V),
wobei k ein Normalisierungsfaktor ist, der dazu verwendet
wird, die zehn Ausgangswahrscheinlichkeiten so zu skalie
ren, daß sichergestellt ist, daß ihre Summe 1 ergibt. Der
Wahrscheinlichkeitsverknüpfer 250 bildet das Produkt der
entsprechenden Terme von jedem der zehnkomponentigen Ein
gangsvektoren und summiert dann die zehn resultierenden
Produktterme,
auf, um die für die normalisierte Verbundswahrscheinlich
keitsschätzung
zu bilden, wobei
Der Produktterm in obigem Ausdruck kann auf verschiedene
Weise gebildet werden einschließlich analoger oder digita
ler Multiplikatoren und sigma-pi (ΣΠ) Neuralzellen-
Netzwerken, bei denen die entsprechenden p(c : A) und p(c : V)
Terme dazu verwendet werden, um sich gegenseitig zu ver
knüpfen ("steuern"). In ähnlicher Weise kann derselbe Term
durch ein ΣΠ-Neuralzellennetzwerk mit 20 Eingängen erzeugt
werden, indem sich die entsprechenden A und V Wahrschein
lichkeitsvektorkomponenten gegenseitig verknüpfen
("steuern"), um Produktterme zu bilden, wobei der Ausgang
durch die Summe der Produktterme gebildet wird. Die Divi
sion von jedem der Produkte durch den Summenterm kann in
kompatibler Technologie unter Verwendung analoger oder
numerischer Computervorrichtungen implementiert werden.
Fig. 9 zeigt eine hardware-getreue Ausführungsform eines
A×V-System-TDNN-Sprachklassifikators 200. Akustische und
visuelle Datenvektoren werden in Verzögerungsleitung (DL)
302 und 301 entsprechend in 10 ms-Intervallen getaktet. Die
akustischen und visuellen Datenflüsse folgen verschiedenen
Pfaden bis zur letzten NCA3-Stufe. Unter Bezugnahme auf
Fig. 7 ist ersichtlich, daß der akustische Eingangsdaten
vektor in Fig. 9 in derselben Art und durch dieselbe Hard
ware verarbeitet wird, wie im AO-Prozeß bis zu NCA3 314,
die in der Mittlungsschicht liegt. In ähnlicher Weise wird
der visuelle Datenvektor, V, in Fig. 9 in derselben Art,
wie es in Fig. 6 für das VO-System beschrieben ist, verar
beitet mit Ausnahme der letzten NCA3 314-Einheit. Die
Endwahrscheinlichkeiten p(c : A, V) werden durch die zehn
Sigma-Pi-Neuralzellen gebildet, die NCA3 314 und die Norma
lisierungseinheit 255 umfassen. Die Normalisierungseinheit
255 liefert den Skalierungsfaktor, k, um die zehn Ausgangs
vektorkomponenten p(c : A, V)=k·p(c : A)·p(c : V) für c=1,
2, . . . , 10 zu bilden.
Obwohl ein TDNN basierter akustischer AO-Prozessor be
schrieben wurde, ist dieser nicht notwendig für die A×V-
Ausführungsform. Das A×V-System kann unter Verwendung eines
beliebigen akustischen Spracherkennungsprozessors, der
funktionell äquivalent ist, konstruiert werden, selbst wenn
es kein TDNN verwendet. Die Ausgänge der AO- und VO-Unter
systeme wurden, wie oben beschrieben, verknüpft, um eine
akuratere Klassifikation zu liefern, als dies jedes der
Einzelsysteme selbst bewerkstelligen würde. In ähnlicher
Weise kann ein beliebiger akustischer Vektorgenerator, der
einen effektiven akustischen Vektor produziert, der die
Äußerung mit ausreichender statistischer Verläßlichkeit
charakterisiert, als einen akustischen Vor-Prozessor in je
dem beliebigen verknüpften akustischen und visuellen
Spracherkennungssystem verwendet werden.
Auf Fig. 10, einer anderen Ausführungsform des TDNN-Klassi
fikators 200 aus Fig. 1, wird als AV-System-Klassifikator
bezug genommen. In diesem Fall werden die Vektoreingänge A
und V getrennt durch die verborgene Schicht 220, die NCA1
310 und NCA 309 umfaßt, verarbeitet. Die Ausgangswerte der
verborgenen Schicht werden in DLA 304 und DLA 303
abgespeichert, wo das akustische 4×25 Feld von Werten von
DLA 304 und das 4×10 Feld von Werten von DLA 303 auf die
zehn Neuralzellen mit 140 Eingängen (N35-N44) von NCA2 313
gegeben werden. Diese frühere Zusammenführung akustischer
und visueller Daten führt zu einer größeren Menge von Über
schneidungstermen, auf die hin eine Lösung im Trainingspro
zeß gesucht werden muß, was im allgemeinen zu einer besse
ren Funktion des Gesamtsystems führt.
Nach der Verarbeitung durch NCA2 313 werden die Resultate
an die Mittlungsschicht 240 weitergegeben. NCA3 315 umfaßt
zehn Neuralzellen (N45-N55), die jeweils mit einer der zehn
Verzögerungsleitungen in DLA 307 arbeiten. Das nicht-norma
lisierte Wahrscheinlichkeitsprodukt p(c : A) · p(c : V) wird
durch NCA3 315 gebildet und an die Normalisierungeinheit
255 zur Bildung der Endausgangswahrscheinlichkeit p(c : A, V)
weitergegeben.
Fig. 11 zeigt einen weiteren Entwicklungsschritt auf dem
Weg der Verknüpfung der Verarbeitung der akustischen und
visuellen Daten zum frühestmöglichen Level bzw. Zeitpunkt.
Nach dem Empfang und der Speicherung einer ausreichenden
Menge akustischer oder visueller Eingangsdaten in DLA 302
und 301 kann es zur Bildung von Überkreuzungstermen in der
verborgenen Schicht 220 dadurch kommen, daß jedes der acht
Neuronen auf den verknüpften 14×5 und 5×20 Datenfel
dern, die von DLA 302 und 301 vorgegeben sind, operiert.
Der Ausgang der verborgenen Schicht wird in DLA 308 abge
speichert und durch NCA2 313 der Klassifikationsschicht 230
weitergeleitet. Der Ausgang wird dann, wie oben in Fig. 10
beschrieben, bearbeitet.
In den TDNN-Strukturen der Fig. 7, 9, 10 und 11 werden zwei
verschiedene Grundtypen von Neuralzellen verwendet. NCA1
der verborgenen Schicht 220 und NCA3 der Mittlungsschicht
240 umfassen konventionelle McColluch-Pitts (M-P) Neural
zellen, wie sie in Fig. 12 gezeigt sind. Auf einen Ein
gangsdatenvektor x, der am Eingangskontakt 601 besteht,
wird durch den Gewichtsvektor w unter Verwendung der Ge
wichtsmultiplikationselemente 603 eingewirkt. Das Summa
tionsnetzwerk 605 summiert die xiwi-Terme, die durch das
Multiplikationselement 603 gebildet wurden, was zu dem
vektoriellen Skalarprodukt
führt, das am Ausgang des Summators 605 gebildet wird. Das
vektorielle Skalarprodukt und der Offset werden an die Ak
tivierungsfunktionseinheit 609 gegeben, die das Ausgangs
signal f(z)=f(xTw+offset). Ein Offsetwert kann durch
den Eingang 607 an den Summator 605 gegeben werden.
Die Aktivierungsfunktionseinheit 609 kann einen von ver
schiedenen Typen von Übertragungscharakteristiken, wie sie
z. B. in Fig. 13 gezeigt sind, haben. Die Übertragungscha
rakteristik in Fig. 13(a) ist f(z)=tanh z, eine hyperbo
lische Tangensfunktion des Eingangssignals z. Dies ist ein
Beispiel einer großen Menge semilinearer zusammendrückender
S-Funktionen, die in NCA1 der verborgenen Schicht verwendet
werden können. Fig. 13(b) zeigt eine lineare Übertragungs
funktion, f(z)=mz+offset. Diese Form der Aktivierungs
funktion wird in den Neuralzellen von NCA3 der Mittelungs
schicht 240 (mit einem Offset, der Null ist) verwendet.
Fig. 13(c) zeigt eine exponentielle Aktivierungsfunktion,
f(z)=ez/T, wobei T ein positiver "Temperatur"-Parameter
ist, der effektiv den Basiswert, e1/T, verändert, der dann
durch den Eingangswert z exponentiert wird. Die exponen
tielle Form der Aktivierungsfunktion wird verwendet, um die
Wahrscheinlichkeit eines Satzes unbekannter Variablen (der
Satz zulässiger Äußerungen) in Einklang mit "Parallel
Distributed Processing: Explorations in the Microstructure
of Cognition", Vol. 1: Foundations, Rumelhart, et al., The
MIT Press, Cambridge, MA, 1986, Kapitel 6, Seiten 194-281,
zu bilden. Die exponentielle Aktivierungsfunktion wird in
den M-P-artigen Neuralzellen von NCA2 der Klassifikations
schicht 230 verwendet.
Der zweite Typ von Neuralzellen, der in NCA4 der TDNN-
Struktur von Fig. 9 verwendet wird, ist als Zelle vom
Sigma-Pi (ΣΠ)-Typ, die in Fig. 14 gezeigt ist, bekannt.
Anders als die M-P-Zellen in Fig. 12, wo ein einzelner Ein
gangsdatenvektor auf einen Satz kontrollierbarer oder
steuerbarer Wichtungen oder Gewichte {wi} gegeben wird,
nehmen ΣΠ-Neuralzellen in ihrer einfachsten Form zwei Ein
gangsdatenvektoren x und y an den Eingangskontaktsätzen 701
bzw. 702 entsprechend auf. Die entsprechenden Eingangsvek
torkomponenten xi und yi werden auf die Multiplikatorein
heiten 703 gegeben, um die xi·yi-Produktterme zu bilden,
die zusammen mit einem Offsetterm, der auf den Offsetein
gangskontakt 707 gegeben wird, durch ein Summationsnetzwerk
705 summiert werden. Der Ausgang des Summators
ist das vektorielle Skalarprodukt von x und y plus einem
Offset, der als Eingang an Aktivierungsfunktionseinheit 709
mit Übertragungscharakteristik f(0) gegeben wird. Die ΣΠ-
Neuralzelle von Fig. 14 wird in dem A×V-Netzwerk in Fig. 9
verwendet, um die Summe der Produkte der zehn p(c : A)-Werte
und der entsprechenden zehn p(c : V)-Werte in NCA4 der Mitt
lungsschicht 240 (der Offset-Wert = 0) zu bilden.
Aufgrund der in der Neuralzelle benutzten differenzierbaren
Aktivierungsfunktionseinheit (siehe Fig. 12, 13 und 14) wur
de eine Form des gut bekannten Rückwärtsausbreitungsalgo
rithmus (beschrieben durch Rumelhart, D.E., u. a. in
"Learning Internal Representations by Error Propagation",
318-362 (Kapitel 8) von "Parallel Distributed Processing",
Vol. 1: Foundations, The MIT Press, Cambridge, MA, 1960)
verwendet, um die Neuralnetzwerksgewichte zu trainieren.
Die Fehlerfunktion des Ausgangs während des Trainings war
bedeutend verschieden von der, die in obiger Druckschrift
beschrieben ist.
Wenn es die Aufgabe eines Neural-Netzwerkes ist, die Klasse
auszuwählen, zu der ein Eingangsmuster gehört, wenn alle
Eingangsmuster nur einer einzigen Klasse angehören (eine
Eins aus n Klassifizierung) und wenn der Ausgang des Neu
ral-Netzwerkes aus n Werten besteht, die repräsentativ für
eine Wahrscheinlichkeitsverteilung (d. h. die Summe der
Werte=1) sind, so ist die Fehlermetrik für einen einzel
nen Trainingsklassifikationsversuch
Fehler = -ln{(cl)},
wobei cl die korrekte Klassifizierung des l-ten Klassenmit
glieds ist und (cl) der Versuchswert des Ausgangs ist, der
die Wahrscheinlichkeit dafür darstellt, daß die Eingangsda
ten zu Klasse cl gehören. Da die wahre Wahrscheinlichkeit
dafür, daß die Eingangsäußerung, cl, eins ist (Sicherheit),
muß obiger Ausdruck für den Fehler neu geschrieben werden
als die Differenz von Logarithmen der wahren und Versuchs
wahrscheinlichkeiten (p(cl) bzw. (cl) entsprechend), oder
Fehler = ln{p(cl)} - ln {(cl)} = ln {p(cl)/(cl)}.
Diese Fehlermetrik nutzt das Verhältnis der Wahrscheinlich
keiten. Wenn in Erinnerung gerufen wird, daß die Wahr
scheinlichkeiten durch die exponentiellen Aktivierungsfunk
tionen (Fig. 13(c)) gebildet wurden, liefert die Substitu
tion von
wobei zl bzw. l die korrekten und Versuchswerte des Ein
gangs, z, für das l-te Neuralzellaktivierungsfunktionsklas
sifikationsnetzwerk sind. Der negative Logarithmus der
Versuchsausgangswahrscheinlichkeit ist deshalb ein Maß für
den Fehler, der dadurch erzeugt wird, daß das Signal am
Klassifikationsniveau einschließlich des Fehlers, der durch
die Gewichte der l-ten Neuralzelle von NCA2 beigetragen
wird, ankommt. Durch die Verwendung von Trainingsmustern,
die repräsentativ für alle zu klassifizierenden Äußerungen
sind, kann diese logarithmische Fehlerfunktion deshalb zum
Training des TDNN-Netzwerks verwendet werden.
Experimente wurden unter Verwendung der beschriebenen Sy
steme durchgeführt, um zehn gesprochene Buchstaben B, D, F,
M, N, P, S, T, V und Z zu unterscheiden. Akustische und
visuelle Information wurde von vier männlichen Versuchsper
sonen, die amerikanisches Englisch als Muttersprache spre
chen, gesammelt. Jeder Sprecher sprach jeden der Buchstaben
fünfmal. Ein Beispiel des durch einen Sprecher gesprochenen
Buchstabens P erwies sich aufgrund eines Fehlers im visu
ellen Nachführungssystem als nicht nutzbar, was zu einer
Gesamtzahl der Belegungsbits von 199 anstatt 200 führte.
Jedes Belegungsbit wurde in einen visuellen (VO), akusti
schen (AO), vollakustischen und Video (AV) Vektor zur wie
oben beschriebenen Nutzung in der Klassifikationsschicht
230 umgewandelt.
Vier der fünf wiederholten Buchstabenäußerungen, die für
jeden der zehn Buchstaben von den vier Sprechern gesprochen
wurden (160 Muster), wurden für das Training verwendet. Die
verbleibenden 39, die vier Beispiele für jeden Buchstaben
mit Ausnahmen von drei für den Buchstaben P, wie oben be
merkt, enthielten, wurden zum Testen verwendet.
Jedes der drei Netzwerke wurde unter Verwendung des Rück
wärtsausbreitungsalgorithmus zur Auffindung des Satzes
von Gewichten, die zum kleinsten Fehler für die Beispiele
des Trainingssatzes führen, trainiert. Eine Lernratenkon
stante von η=0,001 und Impulskonstante von α=0,9 wurde
für den VO- und AO-Fall verwendet, wohingegen Konstanten
von η=0,0002 und α=0,9 für den vollen AV-Fall verwendet
wurden. Das volle AV-Netzwerk wurde durch Verknüpfung der
trainierten AO- und VO-Netzwerke und Hinzufügen von Kreuz
modell-Verbindungen zwischen den verborgenen A und V
Schichten und der Klassifikationsschicht gebildet. Das Ler
nen ging weiter, bis der Lernfehler über die letzten paar
Hundert Trainingsiterationen nur noch eine vernachlässigba
re Änderung aufwies. Die Softwaresimulation des Spektral
analysators 24, des Lippen- und Mundpositionsvektorgenera
tors 14 und TDNN-Sprachklassifikators 200 wurden auf einem
Sun Sparcstation 2-Computer, hergestellt von Sun Micro
systems, Inc., 2550 Garcia Avenue, Mountain View,
California 94043-1100, durchgeführt. Das Training dauerte
ungefähr 20 Sekunden je Trainingsiteration für das kompli
zierteste volle AV-Netzwerk und weniger für die anderen.
Alle 50 Trainingsiterationen wurden die Gewichte des Netz
werks aufgezeichnet und der Fehler für das Testset berech
net. Fig. 15 zeigt die fortschreitende Fehlerreduktion als
Funktion der Zahl der Trainingsiterationen, die für den
VO-, AO- und vollen AV-Fall verwendet wurden. Die gepunkte
te Linie stellt den Fehler bei Verwendung eines Testsets
aus Eingangsdaten dar, wohingegen die durchgezogene Linie
den Fehler darstellt, den man beobachtet, wenn man das
Trainingsset zum Testen verwendet. Wie erwartet, führt der
zuletzt genannte Satz im allgemeinen zu einem geringeren
Fehler.
Nachdem der "beste" Satz von Gewichten durch den Trainings
prozeß für jeden der drei Fälle gefunden worden war, wurden
Verwaschungsmatrizen für die Testdaten erzeugt. Für jede
Buchstabenäußerung wurde das Mittel der Ausgangsverteilun
gen über alle Testsatzbeispiele dieses Buchstabens berech
net. Fig. 16 zeigt die resultierenden Verwaschungsmatrizen
für die VO-, AO-, A×V- und die vollen AV-Netzwerke. Jede
vertikale Spalte wird durch den als Eingang präsentierten,
gesprochenen Buchstaben bezeichnet; jede horizontale Zeile
stellt die Ausgangsbuchstaben dar, die mit ihren dazugehö
rigen Wahrscheinlichkeiten, die durch die Größe jedes Krei
ses angedeutet sind, ausgewählt wurden. Die Prozentzahl un
ter jeder Verwaschungsmatrix entspricht der Gesamtgenauig
keit des Systems.
Bemerkenswert ist die Verwaschung der /bi/- und /di/-Phone
me in dem AO-Netzwerk und die asymmetrische Verwaschung der
/bi/- und /pi/-Phoneme in dem VO-System. Obwohl /pi/ leicht
mit /bi/ in dem VO-System verwechselt werden kann, können
sie leicht in dem AO-System getrennt werden. Auf der ande
ren Seite unterscheidet das VO-System problemlos zwischen
/bi/ und /di/. Bemerkenswert ist auch die akustische (AO)
Ähnlichkeit der /em/- und /en/-Phoneme, die sich im wesent
lichen in dem akustisch subtilen Merkmal der Nasalität un
terscheiden und klar in dem VO-System unterschieden werden.
Das VO-System hat die Tendenz, /di/ und /ti/ miteinander zu
verwechseln, das AO-System jedoch nicht. Das A×V-System
eliminiert im wesentlichen diese und andere Verwechslungen,
was durch die hohen Wahrscheinlichkeiten für die Klassifi
zierung entlang der Hauptdiagonalen unter Beweis gestellt
wird.
Obwohl man vernünftigerweise erwarten kann, daß das volle
AV-System mit einer Gesamtgenauigkeit von 87% besser als
das A×V-System mit einer gemessenen Genauigkeit von 91%
aufgrund der Tatsache sein sollte, daß das volle AV-System
Assoziationen auf einem niedrigeren (verborgene Schicht)
Niveau lernen kann, zeigen Testergebnisse das Gegenteil.
Dieses Resultat legt nahe, daß der 19elementige volle AV-
Vektor nicht genau die Synchronisation zwischen den 10 aku
stischen Elementen und den 5 visuellen Elementen des Ge
samtvektors aufrechterhielt, da sie getrennt durch ihre
entsprechenden Vorprozessoren verarbeitet wurden. Im Fall
des A×V-Systems war die Synchronisation weniger kritisch,
da die akustischen und visuellen Vektoren durch getrennte
TDNN′s verarbeitet wurden. Mit anderen Worten könnten Kor
relationen auf niedriger Ebene zwischen den Trainingsmu
stern so verändert worden sein, daß das volle AV-Netz diese
Information nicht gewinnbringend nutzen konnte.
Die relative Unempfindlichkeit des A×V-Systems gegenüber
akustischem Rauschen wurde durch eine Simulation unter Be
weis gestellt, bei der Rosa-Rauschen durch Hinzufügen einer
vom Spektralanalysator erzeugten Zufallsvariable zu jedem
Vektor A mit einer Standardabweichung von 0,4 hinzugefügt
wurde. Unter diesen Bedingungen hatte das AO-Netzwerk eine
Gesamtgenauigkeit von 43%, während das A×V-Netzwerk eine
Genauigkeit von 74% hatte. Diese verbesserte Genauigkeit
wurde ohne Anpassung irgendwelche frei veränderlicher Para
meter, wie z. B. einer Veränderung des Verhältnisses der
akustischen und visuellen Beiträge, erreicht.
In obiger Darstellung wurden zahlreiche spezifische
Details, wie z. B. die spezifische Zahl von Äußerungen, Da
tenbeispiele, Einrichtungen, usw. angegeben, um ein voll
ständiges Verständnis der Ausführungsform zu ermöglichen.
Es wird jedoch für jeden Fachmann auf dem Gebiet klar sein,
daß die vorliegende Erfindung auch ohne diese spezifischen
Details ausgeführt werden kann. In anderen Fällen wurden
wohlbekannte Schaltkreise nicht in Detail gezeigt oder nur
als Blockdiagramm dargestellt, um die vorliegende Erfindung
nicht unnötigerweise unverständlicher zu machen.
Claims (17)
1. Spracherkennungssystem zur Erkennung von Äußerungen,
die zu einem vorher etablierten Satz von zulässigen Kandi
daten-Äußerungen gehören, gekennzeichnet durch
- a) einen akustischen Merkmalsextraktionsapparat zur Um wandlung von Signalen, die repräsentativ für akusti sche Sprache sind, in einen entsprechenden akustischen Merkmalsvektorsatz von Signalen;
- b) einen Apparat für die Extraktion dynamischer visueller Merkmale zur Umwandlung der Begleitsignale, die für die dynamischen Gesichtsmerkmale repräsentativ sind, die mit der akustischen Spracherzeugung verbunden sind in einen entsprechenden visuellen Merkmalsvektorsatz von Signalen; und
- c) einen Neural-Netzwerks-Klassifikationsapparat zur Er zeugung einer bedingten Wahrscheinlichkeitsverteilung der zulässigen Kandidaten-Sprechäußerungen durch ent sprechende Aufnahme und Verarbeitung der dynamischen akustischen und visuellen Merkmalsvektorsätze, die durch den akustischen und visuellen Merkmalsextrak tionsapparat gegeben werden.
2. Spracherkennungssystem nach Anspruch 1, dadurch ge
kennzeichnet, daß der akustische Merkmalsextraktionsapparat
einen logarithmischen Leistungsspektrumsanalysator umfaßt.
3. Spracherkennungssystem nach Anspruch 2, dadurch ge
kennzeichnet, daß der Spektralanalysator ein nicht gleich
förmiger Bandbreitenanalysator ist.
4. Spracherkennungssystem nach Anspruch 3, dadurch ge
kennzeichnet, daß der Spektralanalysator ein gleichförmiger
Mel-Bandbreitenspektralanalysator ist.
5. Spracherkennungssystem nach Anspruch 2, dadurch ge
kennzeichnet, daß der akustische Merkmalsextraktionsapparat
des weiteren ein Mikrophon und damit zugeordneten bzw.
verbundenen Signalbearbeitungsapparat zur Erfassung der
akustischen Sprachsignale umfaßt.
6. Spracherkennungssystem nach Anspruch 1, dadurch ge
kennzeichnet, daß der visuelle dynamische Merkmalsextrak
tionsapparat des weiteren eine Wandlereinheit zum Abtasten
der Bewegung ausgewählter Gesichtsmerkmale und zur Umwand
lung der abgetasteten Bewegung in ein elektrisches Signal,
das repräsentativ für die Bewegung ist, zur Nutzung bei der
Erzeugung des visuellen dynamischen Merkmalsvektorsatzes
von Signalen umfaßt.
7. Spracherkennungssystem nach Anspruch 6, dadurch ge
kennzeichnet, daß die abgetasteten Gesichtsmerkmale die
ausgewählte Bewegung der vertikal gegenüberliegenden Ober-
und Unterlippenpositionen, der Mundwinkelposition, der Na
sen- und der Kinnposition umfaßt.
8. Spracherkennungssystem nach Anspruch 7, dadurch ge
kennzeichnet, daß der visuelle dynamische Merkmalsextrak
tionsapparat folgendes umfaßt:
- a) eine Videokamera zur Produktion einer dynamischen Bildpunkt-Bilddarstellung des Mundes und der Lippen des entsprechenden Sprechers; und
- b) eine Vorrichtung zur Charakterisierung der Mundform aus durch die Videokamera erzeugten Videoeinzelbil dern, durch Messung der Vielfalt der Abstände zwischen den mit den Ober- und Unterlippen verbundenen Schat ten.
9. Spracherkennungssystem nach Anspruch 7, dadurch ge
kennzeichnet, daß der visuelle Merkmalsextraktionsapparat
aus den abgetasteten Gesichtspunkten, die die Entfernungen
zwischen den Kopf- und Kinnpositionen, zwischen den verti
kal gegenüberliegenden Ober- und Unterlippenpositionen und
zwischen den Mundwinkelpositionen umfaßt, visuelle Merk
malsvektorkomponenten erzeugt.
10. Spracherkennungssystem nach Anspruch 9, dadurch ge
kennzeichnet, daß die Gesichtsabstände bezüglich der Ge
sichtsgröße und des Lippenabstandes in Ruheposition norma
lisiert sind.
11. Spracherkennungssystem nach Anspruch 1, dadurch ge
kennzeichnet, daß der Neural-Netzwerks-Klassifikationsappa
rat folgendes umfaßt:
- a) ein verborgene-Schicht-Zeitverzögerungs-Neural-Netz werk, das mit den Ausgängen des akustischen und visu ellen Merkmalsextraktionsapparates zur Verbesserung zeitabhängiger Merkmale verbunden ist;
- b) ein Klassifikationsschichts-Zeitverzögerungs-Neural- Netzwerk, das mit dem Ausgang der Neuralzellen der verborgenen Schicht zur Erzeugung eines Satzes zeit lich veränderlicher Ausgangssignale, von denen jedes für die Wahrscheinlichkeit, daß die entsprechende Äußerung stattgefunden hat, repräsentativ ist, verbun den ist; und
- c) ein Mittelungsschichtapparat, der mit dem Ausgang der Klassifikationsschicht zur Erzeugung eines Satzes zeitlich veränderlicher Ausgänge - jeweils einen für jeden zulässigen Äußerungstyp, der repräsentativ für die Gesamtwahrscheinlichkeit ist, daß die damit ver bundene Äußerung gesprochen wurde - verbunden ist.
12. Spracherkennungssystem nach Anspruch 11, dadurch ge
kennzeichnet, daß der Neural-Netzwerks-Klassifikationsappa
rat des weiteren Vorrichtungen zur Normalisierung der Ver
knüpfungswahrscheinlichkeiten, die mit dem Ausgang des Mit
telungsschichtsapparats verbunden sind, umfaßt.
13. Spracherkennungssystem nach Anspruch 11, dadurch ge
kennzeichnet, daß das verborgene-Schicht-Zeitverzögerungs-
Neural-Netzwerk einen getrennten akustischen und visuellen
Zeitverzögerungs-Neural-Netzwerks-Merkmalsextraktionsappa
rat umfaßt.
14. Spracherkennungssystem nach Anspruch 13, gekennzeich
net durch:
- a) getrennte akustische und visuelle Zeitverzögerungs- Neural-Netzwerks-Klassifikationsapparate in der Klas sifikationsschicht, die jeweils nur mit ihrem entspre chenden akustischen und visuellen verborgene-Schicht- Merkmalsextraktionsapparat verbunden sind;
- b) eine getrennte akustische und visuelle Mittelungsvor richtung in der Mittelungsschicht zur Erzeugung zeit lich veränderlicher Ausgänge, die repräsentativ für die Wahrscheinlichkeit, daß die damit verbundene Äuße rung gesprochen wurde, sind; und
- c) einer Wahrscheinlichkeitsverknüpfungsvorrichtung zur Bildung einer Abschätzung für die Äußerungswahrschein lichkeitsverteilung, indem man die getrennten entspre chenden Wahrscheinlichkeitspaare, die am Ausgang der getrennten akustischen und visuellen Klassifikations apparate erzeugt werden, miteinander multipliziert.
15. Spracherkennungssystem nach Anspruch 1, dadurch ge
kennzeichnet, daß es des weiteren Vorrichtungen zur Auswahl
des wahrscheinlichsten Kandidaten für den Neural-Netzwerks-
Klassifikationsapparat umfaßt.
16. Spracherkennungssystem zur Erkennung von Äußerungen,
die zu einem vorher etablierten Satz zulässiger Äußerungen
eines Kandidaten gehören, gekennzeichnet durch:
- a) einen visuellen Merkmalsextraktionsapparat zur Umwand lung von Signalen, die repräsentativ für die Gesichts merkmale, die mit der akustischen Spracherzeugung ver bunden sind, sind in einem entsprechenden visuellen Merkmalsvektorsatz von Signalen; und
- b) einen Zeitverzögerungs-Neural-Netzwerks-Klassifika tionsapparat, der zur Erzeugung einer bedingten Wahr scheinlichkeitsverteilung der zulässigen Äußerung des Kandidaten mit dem Ausgang des visuellen Merkmals extraktionsapparats verbunden ist.
17. Spracherkennungssystem nach Anspruch 16, dadurch ge
kennzeichnet, daß der Neural-Netzwerks-Klassifikationsappa
rat folgendes umfaßt:
- a) ein verborgene-Schicht-Zeitverzögerungs-Neural-Netz werk, das mit den Ausgängen des akustischen und visu ellen Merkmalsextraktionsapparats zur Verbesserung zeitabhängiger Merkmale verbunden ist;
- b) ein Klassifikations-Schicht-Zeitverzögerungs-Neural- Netzwerk, das mit dem Ausgang der Neuralzellen in der verborgenen Schicht zur Erzeugung eines Satzes zeit lich veränderlicher Ausgangssignale verbunden ist, die repräsentativ für die Wahrscheinlichkeit, daß die ent sprechende Äußerung stattgefunden hat, sind; und
- c) einen Mittelungsschicht-Apparat, der mit dem Ausgang der Klassifikationsschicht zur Erzeugung eines Satzes zeitlich veränderlicher Ausgänge - einen für jeden zu lässigen Äußerungstyp, der repräsentativ für die Ver knüpfungswahrscheinlichkeit der damit verbundenen ge sprochenen Äußerung ist - verbunden ist.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/889,619 US5586215A (en) | 1992-05-26 | 1992-05-26 | Neural network acoustic and visual speech recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
DE4317372A1 true DE4317372A1 (de) | 1993-12-02 |
DE4317372C2 DE4317372C2 (de) | 1997-03-20 |
Family
ID=25395452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4317372A Expired - Fee Related DE4317372C2 (de) | 1992-05-26 | 1993-05-25 | Ein akustisches und visuelles Spracherkennungssystem auf der Basis eines Neural-Netzwerkes |
Country Status (3)
Country | Link |
---|---|
US (2) | US5586215A (de) |
JP (1) | JPH0643897A (de) |
DE (1) | DE4317372C2 (de) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19502554A1 (de) * | 1994-02-28 | 1995-08-31 | Fujitsu Ltd | Verfahren und Vorrichtung zur Informationsverarbeitung und Verfahren und Vorrichtung zur Ausführung einer Arbeitsanweisung |
DE19653553C1 (de) * | 1996-12-20 | 1998-04-30 | Siemens Nixdorf Advanced Techn | Verfahren zum Trainieren eines mehrschichtigen neuronalen Netzes mit Trainingsdaten und Anordnung zur Durchführung des Verfahrens |
EP0950239A1 (de) * | 1996-03-08 | 1999-10-20 | Motorola, Inc. | Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch |
DE19925046A1 (de) * | 1999-06-01 | 2001-05-03 | Alcatel Sa | Verfahren und Vorrichtung zur Unterdrückung von Rauschen und Echos |
DE10043271A1 (de) * | 2000-09-02 | 2002-10-02 | Deutsche Telekom Ag | Doppelt klassifiziertes Name-Dailling |
DE10221391A1 (de) * | 2002-05-14 | 2003-12-04 | Siemens Ag | Verfahren zum Analysieren einer Szene |
DE10244722A1 (de) * | 2002-09-25 | 2004-04-08 | Infineon Technologies Ag | Verfahren und Vorrichtung zum rechnergestützten Vergleich einer ersten Folge lautsprachlicher Einheiten mit einer zweiten Folge lautsprachlicher Einheiten, Spracherkennungseinrichtung und Sprachsyntheseeinrichtung |
DE10111056B4 (de) * | 2000-04-07 | 2005-11-10 | International Business Machines Corporation | Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem |
Families Citing this family (95)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6101264A (en) * | 1994-03-15 | 2000-08-08 | Fraunhofer Gesellschaft Fuer Angewandte Forschung E.V. Et Al | Person identification based on movement information |
US5878389A (en) * | 1995-06-28 | 1999-03-02 | Oregon Graduate Institute Of Science & Technology | Method and system for generating an estimated clean speech signal from a noisy speech signal |
US5806036A (en) * | 1995-08-17 | 1998-09-08 | Ricoh Company, Ltd. | Speechreading using facial feature parameters from a non-direct frontal view of the speaker |
US6006175A (en) * | 1996-02-06 | 1999-12-21 | The Regents Of The University Of California | Methods and apparatus for non-acoustic speech characterization and recognition |
US5745874A (en) * | 1996-03-04 | 1998-04-28 | National Semiconductor Corporation | Preprocessor for automatic speech recognition system |
US5963899A (en) * | 1996-08-07 | 1999-10-05 | U S West, Inc. | Method and system for region based filtering of speech |
JPH1091789A (ja) * | 1996-09-11 | 1998-04-10 | Oki Electric Ind Co Ltd | 単語認識装置 |
US6014625A (en) * | 1996-12-30 | 2000-01-11 | Daewoo Electronics Co., Ltd | Method and apparatus for producing lip-movement parameters in a three-dimensional-lip-model |
JP3112254B2 (ja) | 1997-03-04 | 2000-11-27 | 富士ゼロックス株式会社 | 音声検出装置 |
US5924066A (en) * | 1997-09-26 | 1999-07-13 | U S West, Inc. | System and method for classifying a speech signal |
WO1999031654A2 (en) * | 1997-12-12 | 1999-06-24 | Koninklijke Philips Electronics N.V. | Method of determining model-specific factors for pattern recognition, in particular for speech patterns |
JP3688879B2 (ja) * | 1998-01-30 | 2005-08-31 | 株式会社東芝 | 画像認識装置、画像認識方法及びその記録媒体 |
US6219639B1 (en) * | 1998-04-28 | 2001-04-17 | International Business Machines Corporation | Method and apparatus for recognizing identity of individuals employing synchronized biometrics |
US7081915B1 (en) * | 1998-06-17 | 2006-07-25 | Intel Corporation | Control of video conferencing using activity detection |
JP3893763B2 (ja) * | 1998-08-17 | 2007-03-14 | 富士ゼロックス株式会社 | 音声検出装置 |
US6185529B1 (en) * | 1998-09-14 | 2001-02-06 | International Business Machines Corporation | Speech recognition aided by lateral profile image |
JP3513030B2 (ja) * | 1998-09-22 | 2004-03-31 | シャープ株式会社 | データ再生装置 |
EP1863013B1 (de) * | 1998-10-09 | 2013-01-02 | Sony Corporation | Normalisierung von Vektor-Codebuch Daten zwecks audio-visueller Spracherkennung |
US6487531B1 (en) | 1999-07-06 | 2002-11-26 | Carol A. Tosaya | Signal injection coupling into the human vocal tract for robust audible and inaudible voice recognition |
US6594629B1 (en) * | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
DE19949637A1 (de) * | 1999-10-14 | 2001-04-19 | Dietrich Kuehner | Verfahren und Vorrichtungen zur Geräuscherkennung und -trennung sowie Lärmüberwachung und -prognose |
US7110951B1 (en) * | 2000-03-03 | 2006-09-19 | Dorothy Lemelson, legal representative | System and method for enhancing speech intelligibility for the hearing impaired |
JP4538705B2 (ja) * | 2000-08-02 | 2010-09-08 | ソニー株式会社 | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 |
AU2001296459A1 (en) * | 2000-10-02 | 2002-04-15 | Clarity, L.L.C. | Audio visual speech processing |
US7095401B2 (en) * | 2000-11-02 | 2006-08-22 | Siemens Corporate Research, Inc. | System and method for gesture interface |
EP1340187A2 (de) * | 2000-11-22 | 2003-09-03 | Koninklijke Philips Electronics N.V. | Multimodales integrationssystem auf kandidatenniveau |
WO2002077972A1 (en) * | 2001-03-27 | 2002-10-03 | Rast Associates, Llc | Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech |
GB2378776A (en) * | 2001-05-22 | 2003-02-19 | Canon Kk | Apparatus and method for managing a multi-modal interface in which the inputs feedback on each other |
US7027618B2 (en) * | 2001-09-28 | 2006-04-11 | Koninklijke Philips Electronics N.V. | Head motion estimation from four feature points |
US20030083872A1 (en) * | 2001-10-25 | 2003-05-01 | Dan Kikinis | Method and apparatus for enhancing voice recognition capabilities of voice recognition software and systems |
DE10157220A1 (de) * | 2001-11-22 | 2003-06-12 | Siemens Ag | Verfahren zum Klassifizieren einer zeitlichen Folge von Eingangsgrößen unter Verwendung eines gepulste Neuronen enthaltenden neuronalen Netzes, neuronales Netz und Anordnung zum Durchführen des Verfahrens |
JP2003316387A (ja) * | 2002-02-19 | 2003-11-07 | Ntt Docomo Inc | 学習装置、移動通信端末、情報認識システム、及び、学習方法 |
JP2003255993A (ja) | 2002-03-04 | 2003-09-10 | Ntt Docomo Inc | 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム |
KR100445911B1 (ko) * | 2002-04-17 | 2004-08-25 | 학교법인 포항공과대학교 | 시간차 신경망을 이용한 고립단어 인식을 위한 하드웨어구조 |
DE10220521B4 (de) * | 2002-05-08 | 2005-11-24 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen |
EP1363271A1 (de) | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
DE10220524B4 (de) | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
DE10220520A1 (de) * | 2002-05-08 | 2003-11-20 | Sap Ag | Verfahren zur Erkennung von Sprachinformation |
EP1361740A1 (de) * | 2002-05-08 | 2003-11-12 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs |
DE10220522B4 (de) * | 2002-05-08 | 2005-11-17 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse |
US6925438B2 (en) * | 2002-10-08 | 2005-08-02 | Motorola, Inc. | Method and apparatus for providing an animated display with translated speech |
DE10254612A1 (de) * | 2002-11-22 | 2004-06-17 | Humboldt-Universität Zu Berlin | Verfahren zur Ermittlung spezifisch relevanter akustischer Merkmale von Schallsignalen für die Analyse unbekannter Schallsignale einer Schallerzeugung |
JP4447857B2 (ja) | 2003-06-20 | 2010-04-07 | 株式会社エヌ・ティ・ティ・ドコモ | 音声検出装置 |
US7343289B2 (en) * | 2003-06-25 | 2008-03-11 | Microsoft Corp. | System and method for audio/video speaker detection |
US7269560B2 (en) * | 2003-06-27 | 2007-09-11 | Microsoft Corporation | Speech detection and enhancement using audio/video fusion |
US8150495B2 (en) | 2003-08-11 | 2012-04-03 | Veran Medical Technologies, Inc. | Bodily sealants and methods and apparatus for image-guided delivery of same |
US7398116B2 (en) | 2003-08-11 | 2008-07-08 | Veran Medical Technologies, Inc. | Methods, apparatuses, and systems useful in conducting image guided interventions |
US20050071166A1 (en) * | 2003-09-29 | 2005-03-31 | International Business Machines Corporation | Apparatus for the collection of data for performing automatic speech recognition |
US20050228673A1 (en) * | 2004-03-30 | 2005-10-13 | Nefian Ara V | Techniques for separating and evaluating audio and video source data |
JP4553667B2 (ja) * | 2004-09-10 | 2010-09-29 | 日本信号株式会社 | 発話識別方法及びこれを用いたパスワード照合装置 |
DE102004048348B4 (de) * | 2004-10-01 | 2006-07-13 | Daimlerchrysler Ag | Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle |
JP5008269B2 (ja) * | 2005-04-08 | 2012-08-22 | キヤノン株式会社 | 情報処理装置、情報処理方法 |
EP1924198B1 (de) | 2005-09-13 | 2019-04-03 | Veran Medical Technologies, Inc. | Vorrichtung zur bildgelenkten präzisionsprüfung |
US20070066881A1 (en) * | 2005-09-13 | 2007-03-22 | Edwards Jerome R | Apparatus and method for image guided accuracy verification |
US8116550B2 (en) * | 2006-12-20 | 2012-02-14 | Cytyc Corporation | Method and system for locating and focusing on fiducial marks on specimen slides |
US8798311B2 (en) * | 2009-01-23 | 2014-08-05 | Eldon Technology Limited | Scrolling display of electronic program guide utilizing images of user lip movements |
KR101092820B1 (ko) * | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
US9826942B2 (en) * | 2009-11-25 | 2017-11-28 | Dental Imaging Technologies Corporation | Correcting and reconstructing x-ray images using patient motion vectors extracted from marker positions in x-ray images |
US9082036B2 (en) * | 2009-11-25 | 2015-07-14 | Dental Imaging Technologies Corporation | Method for accurate sub-pixel localization of markers on X-ray images |
US9082177B2 (en) * | 2009-11-25 | 2015-07-14 | Dental Imaging Technologies Corporation | Method for tracking X-ray markers in serial CT projection images |
US9082182B2 (en) * | 2009-11-25 | 2015-07-14 | Dental Imaging Technologies Corporation | Extracting patient motion vectors from marker positions in x-ray images |
US8363919B2 (en) * | 2009-11-25 | 2013-01-29 | Imaging Sciences International Llc | Marker identification and processing in x-ray images |
JP2011191423A (ja) * | 2010-03-12 | 2011-09-29 | Honda Motor Co Ltd | 発話認識装置、発話認識方法 |
US8635066B2 (en) * | 2010-04-14 | 2014-01-21 | T-Mobile Usa, Inc. | Camera-assisted noise cancellation and speech recognition |
TWI398853B (zh) * | 2010-05-10 | 2013-06-11 | Univ Nat Cheng Kung | 人臉說話模擬系統及方法 |
EP2605693B1 (de) | 2010-08-20 | 2019-11-06 | Veran Medical Technologies, Inc. | Vorrichtung für vierdimensionale weichgewebenavigation |
US8756061B2 (en) | 2011-04-01 | 2014-06-17 | Sony Computer Entertainment Inc. | Speech syllable/vowel/phone boundary detection using auditory attention cues |
EP2816966B1 (de) | 2012-02-22 | 2023-10-25 | Veran Medical Technologies, Inc. | Lenkbarer chirurgischer katheter mit einer biopsievorrichtung an seinem distalen endteil |
US9020822B2 (en) | 2012-10-19 | 2015-04-28 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
US9031293B2 (en) | 2012-10-19 | 2015-05-12 | Sony Computer Entertainment Inc. | Multi-modal sensor based emotion recognition and emotional interface |
US9672811B2 (en) * | 2012-11-29 | 2017-06-06 | Sony Interactive Entertainment Inc. | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
US20140276165A1 (en) * | 2013-03-14 | 2014-09-18 | Covidien Lp | Systems and methods for identifying patient talking during measurement of a physiological parameter |
US9190061B1 (en) * | 2013-03-15 | 2015-11-17 | Google Inc. | Visual speech detection using facial landmarks |
US20150305612A1 (en) | 2014-04-23 | 2015-10-29 | Mark Hunter | Apparatuses and methods for registering a real-time image feed from an imaging device to a steerable catheter |
US20150305650A1 (en) | 2014-04-23 | 2015-10-29 | Mark Hunter | Apparatuses and methods for endobronchial navigation to and confirmation of the location of a target tissue and percutaneous interception of the target tissue |
US9881610B2 (en) | 2014-11-13 | 2018-01-30 | International Business Machines Corporation | Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities |
US9626001B2 (en) * | 2014-11-13 | 2017-04-18 | International Business Machines Corporation | Speech recognition candidate selection based on non-acoustic input |
US10275672B2 (en) * | 2015-04-29 | 2019-04-30 | Beijing Kuangshi Technology Co., Ltd. | Method and apparatus for authenticating liveness face, and computer program product thereof |
US10878318B2 (en) | 2016-03-28 | 2020-12-29 | Google Llc | Adaptive artificial neural network selection techniques |
JP6686977B2 (ja) * | 2017-06-23 | 2020-04-22 | カシオ計算機株式会社 | 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム |
JP6964044B2 (ja) * | 2018-05-21 | 2021-11-10 | 株式会社デンソーアイティーラボラトリ | 学習装置、学習方法、プログラム、学習済みモデルおよびリップリーディング装置 |
CN108831472B (zh) * | 2018-06-27 | 2022-03-11 | 中山大学肿瘤防治中心 | 一种基于唇语识别的人工智能发声系统及发声方法 |
CN110767228B (zh) * | 2018-07-25 | 2022-06-03 | 杭州海康威视数字技术股份有限公司 | 一种声音获取方法、装置、设备及系统 |
US20200065654A1 (en) * | 2018-08-22 | 2020-02-27 | Electronics And Telecommunications Research Institute | Neural network fusion apparatus and modular neural network fusion method and matching interface generation method for the same |
EP3624113A1 (de) * | 2018-09-13 | 2020-03-18 | Nxp B.V. | Vorrichtung zur verarbeitung eines signals |
CN109524006B (zh) * | 2018-10-17 | 2023-01-24 | 天津大学 | 一种基于深度学习的汉语普通话唇语识别方法 |
CN109410957B (zh) * | 2018-11-30 | 2023-05-23 | 福建实达电脑设备有限公司 | 基于计算机视觉辅助的正面人机交互语音识别方法及系统 |
KR20200073733A (ko) * | 2018-12-14 | 2020-06-24 | 삼성전자주식회사 | 전자 장치의 기능 실행 방법 및 이를 사용하는 전자 장치 |
CN111462732B (zh) * | 2019-01-21 | 2024-04-09 | 阿里巴巴集团控股有限公司 | 语音识别方法和装置 |
US11151979B2 (en) | 2019-08-23 | 2021-10-19 | Tencent America LLC | Duration informed attention network (DURIAN) for audio-visual synthesis |
CN110931023B (zh) * | 2019-11-29 | 2022-08-19 | 厦门快商通科技股份有限公司 | 性别识别方法、系统、移动终端及存储介质 |
CN111326143B (zh) * | 2020-02-28 | 2022-09-06 | 科大讯飞股份有限公司 | 语音处理方法、装置、设备及存储介质 |
US11790900B2 (en) * | 2020-04-06 | 2023-10-17 | Hi Auto LTD. | System and method for audio-visual multi-speaker speech separation with location-based selection |
CN111833859B (zh) * | 2020-07-22 | 2024-02-13 | 科大讯飞股份有限公司 | 发音检错方法、装置、电子设备及存储介质 |
JP2023135203A (ja) * | 2022-03-15 | 2023-09-28 | 株式会社東芝 | 音声区間検出装置、学習装置及び音声区間検出プログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4620286A (en) * | 1984-01-16 | 1986-10-28 | Itt Corporation | Probabilistic learning element |
US4757541A (en) * | 1985-11-05 | 1988-07-12 | Research Triangle Institute | Audio visual speech recognition |
US4937872A (en) * | 1987-04-03 | 1990-06-26 | American Telephone And Telegraph Company | Neural computation by time concentration |
US4975960A (en) * | 1985-06-03 | 1990-12-04 | Petajan Eric D | Electronic facial tracking and detection system and method and apparatus for automated speech recognition |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3486194T2 (de) * | 1983-06-03 | 1993-11-18 | Fondazione Pro Juventute Don C | Modular ausbaufähiges System zur Echtzeit-Verarbeitung einer TV-Anzeige, besonders brauchbar zur Koordinatenerfassung von Objekten von bekannter Form und Verfahren zur Benutzung dieses Systems bei Röntgenaufnahmen. |
GB8528143D0 (en) * | 1985-11-14 | 1985-12-18 | British Telecomm | Image encoding & synthesis |
JPS62239231A (ja) * | 1986-04-10 | 1987-10-20 | Kiyarii Rabo:Kk | 口唇画像入力による音声認識方法 |
JPH0375860A (ja) * | 1989-08-18 | 1991-03-29 | Hitachi Ltd | パーソナライズド端末 |
FR2656700B1 (fr) * | 1989-12-28 | 1992-08-07 | Aerospatiale | Procede de restitution du mouvement d'un mobile par observation d'un symbole forme sur ce dernier et dispositifs pour la mise en óoeuvre du procede. |
US5022089A (en) * | 1990-01-19 | 1991-06-04 | Wilson Monti R | Method and apparatus for fast registration using crosshair register marks |
-
1992
- 1992-05-26 US US07/889,619 patent/US5586215A/en not_active Expired - Lifetime
-
1993
- 1993-04-30 JP JP5103842A patent/JPH0643897A/ja active Pending
- 1993-05-25 DE DE4317372A patent/DE4317372C2/de not_active Expired - Fee Related
- 1993-10-22 US US08/142,168 patent/US5771306A/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4620286A (en) * | 1984-01-16 | 1986-10-28 | Itt Corporation | Probabilistic learning element |
US4975960A (en) * | 1985-06-03 | 1990-12-04 | Petajan Eric D | Electronic facial tracking and detection system and method and apparatus for automated speech recognition |
US4757541A (en) * | 1985-11-05 | 1988-07-12 | Research Triangle Institute | Audio visual speech recognition |
US4937872A (en) * | 1987-04-03 | 1990-06-26 | American Telephone And Telegraph Company | Neural computation by time concentration |
Non-Patent Citations (6)
Title |
---|
DODD, B. und CAMPBELL, R. (Hrsg.): "Hearing by Eye: The Psychology of Lipreading", Hillsdale, N.J., Lawrence Erlbaum Press (1987) * |
PENTLAND, A. u.a.: "Lip Reading: Automatic Visual Recognition of Spoken Words" Proc. Image Under- standing and Machine Vision, Optical Society of America, June 12-14 (1984) * |
PETAJAN, E.D. u.a.: "An Improved Automatic Lipreading System to Enhance Speech Recognition" ACM SIGCHI-88, 19-25 (1988) * |
SIMS, D.G. (Hrsg.): "New Reflections on Speech- reading", Sonderausgabe des "The Volta Review" 90 (5), (1988) * |
WAIBEL, A.: "Modular Construction of Time-Delay Neural Networks for Speech Recognition", Neural Computation 1, 1989, S. 39-46 * |
YUHAS, B.P. u.a.: "Integration of Acoustic and Visual Speech Signals Using Neural Networks" Nov. 1989, IEEE Communications Magazine (1989) * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19502554A1 (de) * | 1994-02-28 | 1995-08-31 | Fujitsu Ltd | Verfahren und Vorrichtung zur Informationsverarbeitung und Verfahren und Vorrichtung zur Ausführung einer Arbeitsanweisung |
US5845050A (en) * | 1994-02-28 | 1998-12-01 | Fujitsu Limited | Method and apparatus for processing information and a method and apparatus for executing a work instruction |
DE19502554C2 (de) * | 1994-02-28 | 1999-07-01 | Fujitsu Ltd | Lernverfahren für ein Objekterkennungsgerät, Objekterkennungsverfahren und -gerät, sowie Verfahren und Vorrichtung zur maschinellen Ausführung einer Arbeitsanweisung |
EP0950239A1 (de) * | 1996-03-08 | 1999-10-20 | Motorola, Inc. | Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch |
EP0950239A4 (de) * | 1996-03-08 | 2000-07-12 | Motorola Inc | Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch |
DE19653553C1 (de) * | 1996-12-20 | 1998-04-30 | Siemens Nixdorf Advanced Techn | Verfahren zum Trainieren eines mehrschichtigen neuronalen Netzes mit Trainingsdaten und Anordnung zur Durchführung des Verfahrens |
DE19925046A1 (de) * | 1999-06-01 | 2001-05-03 | Alcatel Sa | Verfahren und Vorrichtung zur Unterdrückung von Rauschen und Echos |
DE10111056B4 (de) * | 2000-04-07 | 2005-11-10 | International Business Machines Corporation | Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem |
DE10043271A1 (de) * | 2000-09-02 | 2002-10-02 | Deutsche Telekom Ag | Doppelt klassifiziertes Name-Dailling |
DE10221391A1 (de) * | 2002-05-14 | 2003-12-04 | Siemens Ag | Verfahren zum Analysieren einer Szene |
DE10221391B4 (de) * | 2002-05-14 | 2006-08-24 | Siemens Ag | Verfahren zum Analysieren einer Szene |
DE10244722A1 (de) * | 2002-09-25 | 2004-04-08 | Infineon Technologies Ag | Verfahren und Vorrichtung zum rechnergestützten Vergleich einer ersten Folge lautsprachlicher Einheiten mit einer zweiten Folge lautsprachlicher Einheiten, Spracherkennungseinrichtung und Sprachsyntheseeinrichtung |
Also Published As
Publication number | Publication date |
---|---|
US5771306A (en) | 1998-06-23 |
DE4317372C2 (de) | 1997-03-20 |
US5586215A (en) | 1996-12-17 |
JPH0643897A (ja) | 1994-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4317372C2 (de) | Ein akustisches und visuelles Spracherkennungssystem auf der Basis eines Neural-Netzwerkes | |
DE4436692C2 (de) | Trainingssystem für ein Spracherkennungssystem | |
US5680481A (en) | Facial feature extraction method and apparatus for a neural network acoustic and visual speech recognition system | |
WO2021143327A1 (zh) | 语音识别方法、装置和计算机可读存储介质 | |
DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
DE69520067T2 (de) | Verfahren und Einrichtung zur Kennzeichnung eines Eingangssignales | |
DE60101540T2 (de) | Verfahren zur Animation eines künstlichen Modells eines menschlichen Gesichts unter Verwendung akustischer Signale | |
Peng et al. | Multi-resolution modulation-filtered cochleagram feature for LSTM-based dimensional emotion recognition from speech | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
WO2006000103A1 (en) | Spiking neural network and use thereof | |
CN112818764A (zh) | 一种基于特征重建模型的低分辨率图像人脸表情识别方法 | |
DE69517571T2 (de) | Verfahren zur Erkennung von Mustern | |
Suuny et al. | Performance of different classifiers in speech recognition | |
CN111275638A (zh) | 基于多通道注意力选择生成对抗网络的人脸修复方法 | |
Tzirakis et al. | Synthesising 3D facial motion from “in-the-wild” speech | |
Sunny et al. | Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms | |
Wu et al. | Neural network vowel-recognition jointly using voice features and mouth shape image | |
WO2022013045A1 (de) | Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente | |
CN112259086A (zh) | 一种基于语谱图合成的语音转换方法 | |
Movellan et al. | Robust sensor fusion: Analysis and application to audio visual speech recognition | |
Sunny et al. | Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam | |
DE4435272C2 (de) | Verfahren und Vorrichtung zum Extrahieren eines visuellen Merkmalvektors aus einer Folge von Bildern sowie Spracherkennungsvorrichtung | |
Hong et al. | Real-time speech-driven 3D face animation | |
Jati et al. | An Unsupervised Neural Prediction Framework for Learning Speaker Embeddings Using Recurrent Neural Networks. | |
Sunny et al. | Discrete wavelet transforms and artificial neural networks for recognition of isolated spoken words |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |