DE4436692A1 - Trainingssystem für ein Spracherkennungssystem - Google Patents
Trainingssystem für ein SpracherkennungssystemInfo
- Publication number
- DE4436692A1 DE4436692A1 DE4436692A DE4436692A DE4436692A1 DE 4436692 A1 DE4436692 A1 DE 4436692A1 DE 4436692 A DE4436692 A DE 4436692A DE 4436692 A DE4436692 A DE 4436692A DE 4436692 A1 DE4436692 A1 DE 4436692A1
- Authority
- DE
- Germany
- Prior art keywords
- acoustic
- visual
- speech
- training
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 64
- 239000013598 vector Substances 0.000 claims abstract description 121
- 230000000007 visual effect Effects 0.000 claims abstract description 94
- 238000013528 artificial neural network Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000033001 locomotion Effects 0.000 claims abstract description 11
- 230000000946 synaptic effect Effects 0.000 claims abstract description 8
- 238000009826 distribution Methods 0.000 claims abstract description 7
- 210000002569 neuron Anatomy 0.000 claims description 45
- 238000000034 method Methods 0.000 claims description 28
- 238000012935 Averaging Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 11
- 230000001815 facial effect Effects 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000003111 delayed effect Effects 0.000 claims description 5
- 230000001537 neural effect Effects 0.000 claims description 5
- 230000005534 acoustic noise Effects 0.000 claims description 3
- 210000003061 neural cell Anatomy 0.000 claims description 3
- 230000036962 time dependent Effects 0.000 claims 1
- 238000001228 spectrum Methods 0.000 abstract description 25
- 230000000694 effects Effects 0.000 abstract description 7
- 239000000284 extract Substances 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 49
- 230000006870 function Effects 0.000 description 17
- 238000012360 testing method Methods 0.000 description 13
- 230000003595 spectral effect Effects 0.000 description 12
- 210000004027 cell Anatomy 0.000 description 11
- 230000004913 activation Effects 0.000 description 10
- 101100079450 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) NCA3 gene Proteins 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 7
- 238000012546 transfer Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 101150058760 NCA2 gene Proteins 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 208000032041 Hearing impaired Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241000222120 Candida <Saccharomycetales> Species 0.000 description 1
- 101150073928 MCA3 gene Proteins 0.000 description 1
- 235000011449 Rosa Nutrition 0.000 description 1
- 206010047571 Visual impairment Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000020411 cell activation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000008242 dietary patterns Nutrition 0.000 description 1
- 208000002173 dizziness Diseases 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000003897 fog Substances 0.000 description 1
- 230000005021 gait Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- HAHMABKERDVYCH-ZUQRMPMESA-N neticonazole hydrochloride Chemical compound Cl.CCCCCOC1=CC=CC=C1\C(=C/SC)N1C=NC=C1 HAHMABKERDVYCH-ZUQRMPMESA-N 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 238000000053 physical method Methods 0.000 description 1
- 230000003389 potentiating effect Effects 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/248—Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Description
Die Erfindung betrifft ein Trainingssystem für ein Spracherken
nungssystem. Ferner bezieht sich die Erfindung auf das Gebiet einer
maschinellen Spracherkennung und betrifft insbesondere die Verbes
serung einer akustischen Spracherkennung indem ein maschinelles
Lippenlesen in Verbindung mit akustischen Daten in einem neuronalen
Netzwerk-Klassifikationssystem angewendet wird.
Das Ziel einer automatischen oder maschinellen Spracherkennung be
steht darin, ein System so auszulegen, daß es der menschlichen Fä
higkeit angenähert ist, gesprochene Sprache bei Änderungen in der
Betonung des Sprechers, des Geschlechts, der Sprechgeschwindig
keit, des Artikulationsgrades zu verstehen, somit alles Elemente, die
in akustischen Distraktoren und Geräuschen vorhanden sind. Die der
zeit vorhandenen automatisierten Geräte haben eine geringere Genau
igkeit und Robustheit als das, was notwendig ist, um die sehr hohen
Anforderungen in solchen Anwendungsfällen, wie einer Computer-
Sprache-Text-Umwandlung, einer automatischen Übersetzung und bei
auf Sprache basierenden Steuersystemen voll zu genügen. Typische
Lösungen enthalten versteckte Markov-Modelle, bei welchen Über
gangswahrscheinlichkeiten in Verbindungsgliedern zwischen Knoten
punkten (Zuständen) codiert werden, welche phonetische Segmente
darstellen, und "Blackboard"-Methoden, bei welchen mehrere speziel
le phonologische, lexikalische und auf Grammatik basierende Untersy
steme verknüpft werden, um synergetisch zu arbeiten, um Spracher
kennungsergebnisse (score) zu maximieren. In letzter Zeit sind neuro
nale Netzwerke mit einem gewissen Erfolg in begrenzten Bereichen an
gewendet worden, wie beispielsweise von A. Waibel in einem Artikel
mit dem Titel "Modular Construction of Time-Delay-Neural Networks
for Speech Recorgnition" beschrieben worden ist, was in Neural Compu
tation 1, Stn. 39 bis 46 (1989) veröffentlicht ist.
Eine vorausgesagte Informationsquelle und irgendwelche Beschränkun
gen, die vernünftigerweise in ein künstliches System eingebracht wer
den können, erhöhen im allgemeinen die Erkennungsgenauigkeit und es
ist folglich wünschenswert, daß sie in einem Spracherkennungssystem
enthalten sind. Üblicherweise ist die beste Untersuchung auf das Ein
beziehen einer auf hohem Pegel liegenden, linguistischen Information,
wie grammatikalischen und syntaktischen Daten, konzentriert worden.
Menschen können auch Information außer dem akustischen Signal ver
wenden, um das Verständnis zu verbessern. Beispielsweise benutzen
schwerhörige bzw. hörgeschädigte Personen oft visuelle Information
für ein "Sprachelesen", um die Erkennungsgenauigkeit zu verbessern.
(Siehe beispielsweise Dodd, B. und Campbell, R. (eds.), "Hearing by Eye:
The Psychology of Lipreading", Hillsdale, N.J., Lawrence Erlbaum Press
(1987); oder DeFilippo, C.L. und Sims, D.G. (eds.), "New Reflections on
Speechreading", special issue of The Volta Review 90(5), (1988).
Ein Sprachelesen kann direkte Information über Sprachsegmente und
Phoneme sowie über die Sprechgeschwindigkeit, das Geschlecht des
Sprechenden und dessen Identität sowie subtile Information dadurch
schaffen, daß Sprache von Hintergrundrauschen getrennt wird. Der be
kannte "Cocktail-Party-Effect", bei welchem Sprache, welche durch
Geräusche aus dem Menschengedränge verfälscht worden ist, merklich
verständlicher wird, wenn man das Gesicht des Sprechenden sehen
kann, stellt ein starkes Indiz dafür dar, daß Menschen visuelle Infor
mation zur Spracherkennung benutzen.
Mehrere Sprachlesesysteme sind in letzter Zeit beschrieben worden,
nämlich
- a) Petajan, E.D., et al., "An Improved Automatic Lipreading System to Enhance Speech Recognition", ACM SIGCHI-88, Stn. 19 bis 25, (1988);
- b) Pentland, A., et al., "Lip Reading: Automatic Visual Recognition of Spoken Words", Proc. Image Understanding and Machine Vision, Op tical Society of America, Juni 12 bis 14 (1984) und
- c) Yuhas, B.P., et al., "Integration of Acoustic and visual Speech Signals Using Neural Networks", Nov. 1989, IEEE Communications Magazine (1989).
Petajan, et al. benutzten schwellenwert-beaufschlagte Bilder (Pixels)
eines Sprechergesichts während der Erzeugung eines Wortes zusammen
mit einem Wörterbuch von vorher gespeicherten und markierten
Sprechweisen und einem Normabstand-Klassifikator für visuelle Er
kennung.
Pentland, et al. verwendeten eine optische Verlauftechnik, um die Ge
schwindigkeit der Oberlippe, der Unterlippe und der beiden Mundwinkel
von dem unverarbeiteten Pixel-Video-Bild des Mundes zu schätzen. Sie
verwendeten dann eine Null-Kreuzungs-Strategie, um drei- und vier
stellige Phrasen zu klassifizieren.
Yuhas, et al., trainierten ein neuronales Netzwerk mit Hilfe statischer
Bilder der Mundform für eine Vokal-Erkennung zusammen mit einer
Kontrolleinheit mit freien Parametern, um die relativen Wertigkeiten
von visuellen und akustischen Beiträgen zum besten Erkennen beim
Vorhandensein unterschiedlicher Pegel bei akustischen Geräuschen ein
zustellen.
Gemäß der Erfindung soll das Leistungsvermögen von Spracherken
nungssystemen verbessert werden, welche nur akustische oder visuelle
Lippenpositions-Information insbesondere in einer ungünstigen, ge
räuschvollen Umgebung benutzen. Ferner soll ein neues zeitverzögertes
neurales Netzwerk-Sprache-Lesesystem zum Klassifizieren von Aus
sprache und Sprechweisen nur mit Hilfe von visuellen Daten geschaffen
werden. Ferner soll ein akustisches Spracherkennungssystem verbes
sert werden, indem ein ein zeitlich verzögertes neurales Netzwerk be
nutzendes, visuelles Spracherkennungssystem in Verbindung mit dem
akustischen Spracherkennungssystem verwendet wird.
Ferner soll der Klassifikator mit einem kontinuierlichen Strom von
diesbezüglichen, visuellen und akustischen Daten versorgt werden, aus
welchen die akustische Sprechweise detektiert und klassifiziert wer
den kann. Ferner soll eine Trainingsmethode geschaffen werden, um die
Genauigkeit von akustischen und visuellen Sprach-Klassifikatoren in
geräuschvollen Umgebungen zu verbessern. Darüber hinaus soll eine
zeitverzögerte neuronale Netzwerk-Klassifikator-Architektur ge
schaffen werden, welche ein Gradientengefälle oder andere Lernmetho
den, wie ein Rückausbreitungs-Training (backpropagation training)
trägt. Ferner soll eine akustische und visuelle Signalverarbeitung vor
dem zeitlich verzögerten neuronalen Netzwerk-Klassifikator geschaf
fen werden.
Darüber hinaus soll eine Ausgangsklassifikation, d. h. eine Wahrschein
lichkeits-Verteilung geschaffen werden, welche die Wahrscheinlich
keit jeder möglichen Kandidaten-Sprechweise darstellt, die in einem
vorgegebenen Zeitintervall vorgekommen ist. Darüber hinaus soll ein
einfaches Verfahren zum Extrahieren von dynamischer, visueller Ge
sichtsinformation mittels einer ausgewählten Gruppe von Gesichts
kennzeichen geschaffen werden.
Gemäß der Erfindung ist dies bei einem Trainingssystem für ein
Spracherkennungssystem durch die Merkmale im kennzeichnenden Teil
des Anspruchs 1 erreicht. Vorteilhafte Weiterbildungen sind Gegen
stand der auf den Anspruch 1 unmittelbar oder mittelbar rückbezogenen
Ansprüche 2 bis 10.
Gemäß der Erfindung ist eine Trainingsmethode für ein Spracherken
nungssystem geschaffen, bei welchem sowohl akustische als auch vi
suelle Sprachsignale verarbeitet werden, um die Wahrscheinlichkeit
einer richtigen Klassifikation der Sprechweise bzw. Aussprache zu er
höhen.
Ferner weist ein Spracherkennungssystem zum Erkennen von Sprech
weisen, die zu einer vorher eingerichteten Gruppe von zulässigen Kan
didaten-Sprechweisen gehören, eine akustische Merkmal-Extrahier-
Einrichtung, eine dynamische, visuelle Merkmal-Extrahier-Einrichtung
und eine ein neuronales Netzwerk klassifizierende Einrichtung auf. Die
akustische Merkmal-Extrahiereinrichtung wandelt akustische Sprach
signale, die eine Sprechweise darstellen, in einen entsprechenden
spektralen Merkmal-Vektorsatz um. Die dynamische visuelle Merkmal-
Extrahier-Einrichtung wandelt die dynamischen Gesichtsmerkmale, die
der Erzeugung der akustischen Sprechweise zugeordnet sind, in einen
dynamischen, visuellen Merkmal-Vektorsatz um. Die ein neuronales
Netzwerk klassifizierende Einrichtung wandelt die dynamischen, aku
stischen und visuellen Merkmalvektoren in eine bedingte Wahrschein
lichkeitsverteilung um, welche die Wahrscheinlichkeit jeder Kandida
ten-Sprechweise beschreibt, die gesprochen worden ist, indem die be
obachteten akustischen und visuellen Daten vorgegeben worden sind.
Nachfolgend wird die Erfindung anhand von bevorzugten Ausführungs
formen unter Bezugnahme auf die anliegenden Zeichnungen im einzelnen
erläutert. Es zeigen:
Fig. 1 ein Blockdiagramm eines akustischen und visuellen dynami
schen Spracherkennungssystems;
Fig. 2 das Plazieren von visuellen Vergleichskennzeichen bzw. -Mar
kierungen an und um die Lippen des Sprechers herum;
Fig. 3 die Beziehung zwischen den gleichmäßigen Mel-Frequenzbän
dern und den entsprechenden nicht-gleichförmigen, linearen
Frequenzbändern;
Fig. 4(a) und 4(b) zwei äquivalente Ausführungen eines zeitverzögern
den, einlagigen neuronalen Netzwerks (TDNN);
Fig. 5(a) und 5(b) das elektrische Analogon einer typischen Aussprache
zusammen mit deren Spektrogramm;
Fig. 6 die Architektur einer nur visuellen (VO) Mehrfachlage TDNN;
Fig. 7 eine Hardware einer TDNN-Architektur;
Fig. 8 ein Blockdiagramm eines akustischen und visuellen Spracher
kennungssystems, das die Ausgangssignale von separaten, aku
stischen und visuellen Erkennungssystemen verknüpft;
Fig. 9 eine Hardware einer Ausführungsform eines AxV-TDNN-
Sprach-Klassifikators;
Fig. 10 eine Hardware einer Ausführungsform eines weiteren TDNN-
Sprach-Klassifikators;
Fig. 11 eine Hardware einer Ausführungsform eines vollen AV-Sprach-
Klassifikators;
Fig. 12 die Architektur eines typischen McCulloch-Pitts-Neurons;
Fig. 13(a) bis 13(c) Beispiele von Aktivierungsfunktion-Transferkenn
daten;
Fig. 14 die Architektur einer typischen Sigma-Pi(ΣΠ) künstlichen neu
ronalen Zelle;
Fig. 15 einen Satz von Lernkurven, welche den Trainingsfortschritt
zeigen;
Fig. 16(a) bis 16(d) eine Gruppe von Verwirrungs-Matrizen für vier Sy
steme;
Fig. 17 ein Flußdiagramm einer Trainingsprozedur, und
Fig. 18 ein funktionelles Blockdiagramm eines Trainingssystems.
Nunmehr werden mehrere Ausführungsformen von Spracherkennungssy
stemen beschrieben, wobei jedes System trainiert wird, um eine be
grenzte Menge von Sprechweisen bzw. Aussprachen zu erkennen. Die
verschiedenen Ausführungsformen unterscheiden sich in der verwende
ten Informationsart und/oder auf welche Weise die Informationssigna
le verarbeitet werden. Auf jeden Fall ist es das Ziel des Spracherken
nungssystems, an dem Klassifikator-Ausgang eine Wahrscheinlich
keits-Verteilung zu erzeugen, die jeder der möglichen Kandidaten-
Sprechweisen zugeordnet ist.
Im Hinblick auf die Klarheiten der folgenden Beschreibung werden spe
zifische Beispiele der erfindungsgemäßen Ausführungsform verwendet,
um eine von zehn Kandidaten-Sprechweisen zu erkennen. Hierbei sollte
jedoch beachtet werden, daß dies nicht notwendigerweise eine Be
schränkung auf eine Anzahl oder bestimmte Arten von Sprechweisen
oder Äußerungen darstellt, welche in Einklang gebracht werden können.
Die vorliegende Erfindung ist ein System für eine Spracherkennung, bei
welchem sich dynamisch ändernde, akustische und visuelle Signale für
eine verbesserte Spracherkennungs-Effizienz verwendet werden. Fig. 1
zeigt ein vereinfachtes Blockdiagramm einer Ausführungsform. Akusti
sche Sprechdaten werden mittels eines Mikrophons 28 aufgenommen,
welches über eine Ausgangsleitung 22 die elektrischen Signal-Repliken
der akustischen Information an einen Spektrum-Analysator anlegt, von
welchem aus die akustische Energie an eine Anordnung von 14 Filtern
angelegt wird. Die sich kurzfristig zeitlich ändernde Energie, welche
von jedem der 14 Filter abgegeben wird, wird gemessen, normiert und
an die 14 Ausgangsleitungen 25 als ein sich zeitlich ändernder Vektor
mit 14 Komponenten angelegt.
Gleichzeitig nimmt eine Videokamera 10 die zugeordneten visuellen
Daten auf, die aus einer Menge von Markierungen erzeugt worden ist, die
verwendet werden, um die Lippen- und Mund-Bewegung zu beschreiben,
welche durch eine vorgegebene Sprechweise erzeugt worden ist. Die
unbehandelte Video-Information wird durch eine Leitung 12 an einen
Lippen- und Mund-Positionsvektor-Generator 14 abgegeben, welcher die
sich zeitlich ändernde Position der Lippen- und Mundmarkierungen für
eine Kopfneigung und -größe normiert, was einen sich zeitlich ändern
den Vektor auf den fünf Ausgangsleitungen 15 ergibt, welcher die Lip
pen- und Mund-Tätigkeit beschreibt, welche der akustischen Sprech
weise zugeordnet ist.
Der Lippen- und Mund-Positionsvektor-Generator 14 weist ein Nach
laufsystem 16, um die Position von lichtemittierenden oder lichtre
flektierenden Vergleichsmarkierungen zu verfolgen, die an und um die
Lippen des Sprechers plaziert sind, und einen Vektorgenerator 19 auf,
welcher ausgewählte Abstände zwischen Vergleichsmarkierungen ex
trahiert und normiert. Diese Einrichtung wurde mit Hilfe des auf einem
Computer basierenden, zweidimensionalen Bewegungs-Analysesystems
ausgeführt, das von Motion Analysis Corporation, 3650 North Laughlin
Road, Santa Rosa, Kalifornien 95403 unter dem Warenzeichen "Expert
Vision" hergestellt wird.
Das Expert-Vision-Video-Nachlaufsystem benutzt eine Videoeinrich
tung, um die Bewegung von Objekten einzufangen und aufzunehmen. Re
flektierende Markierungen werden an interessierenden Stellen plaziert.
Das System kann Daten einfangen und analysieren, die von einer Video
kamera (oder einem -Band) mit einer Video-Norm-Bildfrequenz von 60
Hz bis zu 200 Hz gewonnen worden sind.
Die unverarbeiteten Videodaten von der Videokamera werden einem
Videoprozessor-Untersystem zugeführt, welches die Kennzeichen-
Markierungsbilder isoliert und sie in Echtzeit in digitalisierte Video-
Umrißlinien umwandelt. Der Videoprozessor versieht die Funktion des
Nachlaufsystems 16, indem er x- und y-Koordinaten der Markierungs
ränder in dem Host-Computer für eine anschließende Verarbeitung er
zeugt. Die detektierten Bildschirmpositionen werden in Videobildfre
quenz-Intervallen in einem rechteckigen Gitter ausgedrückt, das (in der
x-Richtung) 256 Pixel breit und (in der y-Richtung) 240 Pixel hoch ist.
Das Videobild der Markierungen wird mittels der Host-Computer-Soft
ware auf Schwerpunkte reduziert. Der Schwerpunkt jeder reflektieren
den Markierung wird dadurch festgelegt, daß die Koordinaten der ein
zelnen Pixel gemittelt werden, welche die Umrißlinie der Markierung
bilden. Die Schwerpunkte jeder Markierung werden von Bild-zu-Bild
markiert und verbunden, um eine Trajektorie zu bilden. Zusätzliche
Host-Computer-Software wird verwendet, um den Satz visueller Ab
standsvektoren zu erzeugen und zu normieren, wie nachstehend noch
beschrieben wird und funktionell durch den Vektorgenerator 19 der
Fig. 1 angezeigt ist.
Die beiden, sich zeitlich ändernden Vektoren auf den Leitungen 15 und
25 werden an einen ein zeitverzögerndes, neurales Netzwerk-("TDNN")
aufweisenden Sprach-Klassifikator 200 angelegt, wobei das neuronale
Netzwerk zehn Ausgangssignale auf Leitungen 17 erzeugt. Jede der
Ausgangsleitungen 17 ist ausschließlich einer von zehn möglichen
Sprechweisen bzw. Aussprachen zugeordnet, so daß das TDNN 200 trai
niert ist, sie zu erkennen. Die Signalgröße auf jeder der zehn Leitungen
stellt die Wahrscheinlichkeit dar, daß die zugeordnete Sprechweise
bzw. Aussprache gemacht wurde. Ein (gestrichelt dargestelltes) Ausga
benetzwerk 18 ist ein optionaler (bekannter) Ein-aus-Zehn-Klassifika
tor, welcher die wahrscheinlichste Aussprache auswählt, indem die
Aussprache bzw. Sprechweise gewählt wird, die der Leitung mit dem
höchsten Pegel (Wahrscheinlichkeit) der zehn Leitungen 17 entspricht.
Da der TDNN-Klassifikator 200 einen sich zeitlich ändernden Daten
strom prüfen kann, ist die genaue Kenntnis der zeitlichen Position der
akustischen und visuellen Information nicht erforderlich.
Fig. 2 zeigt das Plazieren der zehn reflektierenden Markierungen (M0,9)
an dem jeweiligen Sprechergesicht, die in einer Ausführungsform ver
wendet wurden. Die Positionen der zehn Vergleichsmarkierungen waren
die Spitze der Nase (M0), die Mitte des Kinns (M1), der linke Mundwinkel
(M2), der rechte Mundwinkel (M3), die obere Mitte der Lippen (M4), die
untere Mitte der Lippen (M5) und vier Stellen auf den Lippen, welche
annähernd die Hälfte zwischen der Mitte der oberen Lippe und den lin
ken und rechten Mundwinkel (M6, M7) und zwischen der Mitte der unte
ren Lippe und den linken und rechten Mundwinkeln (M8, M9) sind. Dieser
Satz von Vergleichsmarkierungen wurde verwendet, um die generelle
Form und Bewegung des Lippen- und Mundbereichs festzustellen. Diese
spezielle Anordnung hat den großen Vorteil der Einfachheit, im Ver
gleich zu dem rechnerisch aufwendigen Problem, dieselbe Information
aus der gewaltigen Datenmenge herzuleiten, welche durch Folgen von
Video-Pixel-Bildern erzeugt worden sind.
Die Position der reflektierenden Vergleichsmarkierungen auf jedem
Gesicht eines Sprechenden wurde mittels einer Videokamera 10 mit ei
ner 60 Hz-Bildfrequenz aufgezeichnet und dann mittels eines Posi
tionsvektor-Generators 14 in visuelle Merkmalvektoren umgeformt,
welche fünf Komponenten haben, wie in der nachstehenden Tabelle auf
geführt ist.
Diese spezielle Auswahl von Vektorkomponenten-Merkmalen wurde so
gemacht, daß die verschiedenen Abstände quer zum Mund und Gesicht
bereits unabhängig von Verschiebungen und Drehungen des Kopfes ge
macht werden können. Dies wurde mit dem Vektorgenerator 14 ausge
führt, indem zuerst der Kopf gedreht wird, so daß eine Linie, die durch
die Vergleichsmarkierungen M0 und M1 gezogen wurde, vertikal war,
dann wurden die drei vertikalen Abstände (M0-M1, M4-M5 und der durch
schnittliche Abstand von M6-M8 und M7-M9) sowie die zwei horizonta
len Abstände (M2-M3 und der durchschnittliche Abstand von M6-M7 und
M8-M9) berechnet.
Eine weitere Normung der Komponenten-Merkmale wurde wegen Quer-
Objekt-Unterschieden in Gesichtsabmessungen erforderlich. Ebenso
wurde bemerkt, daß bei jedem Sprecher der Mund manchmal in einer
teilweise offenen, bequemen und erholsamen Stellung war. Beim Nor
mungsschritt wurde eine Menge von charakteristischen Gesichtsabmes
sungen hinsichtlich der Größe jedes Gesichts eines Sprechers durch
Mitteln der Vektoren erzeugt, die allen ausgeruhten Positionszeitpunk
ten entsprechen. Dann wurde jeder visuelle Vektor in der Folge nor
miert, indem der Ruhemittelwert von jeder Komponenten subtrahiert
wurde und die Größe skaliert wurde, so daß jedem Komponentenwert
ein Wert von plus oder minus eins zugeordnet ist, wenn dessen Pegel
plus oder minus zwei Standardabweichungen von dem Durchschnitt
entspricht.
Obwohl die spezifische Gruppe von vorstehend aufgezählten Gesichts
bewegungsmerkmalen verwendet wurde, um die Spracherkennung in der
Praxis zu reduzieren, könnten auch andere entsprechend kennzeichnende
Mengen von dynamischen Abmessungen verwendet werden, um die we
sentliche visuelle Information zu übermitteln. Dies könnte zu einem
anderen, jedoch effektiven, dynamischen visuellen Datenvektor führen.
Beispielsweise könnte eine Videokamera ein dynamisches Pixel-Bild
des Sprecher-Mundes und dessen Lippen erzeugen. Die dynamische Form
könnte durch Messen des Abstandes zwischen den Schatten unter den
Unter- und den Oberlippen gemessen werden, welche durch eine Über
kopfbeleuchtung hervorgerufen sind. Eine Menge derartiger Abmessun
gen quer zu dem Mund würde die dynamische Form beschreiben.
Die akustischen Datensignale kamen in einem Zeitfenster mit einer
Dauer von einer Sekunde vor und wurden gleichzeitig von einem Kar
dioid-Mikrophon 20 aufgenommen und wurden dann mit einer Abtast
frequenz von 8012 Hz mit einer 8 Bit-(mu-law-)Codierung abgetastet
und digitalisiert (was einer digitalen Fernsprechleitungs-Qualität
äquivalent ist). Eine vierzehnwertige Mel-Leistungsspektrums-Analyse
wurde mittels eines Spektrum-Analysators 24 mit Hilfe einer diskre
ten Fourier-Transformation 256 Datenpunkt-Rahmen durchgeführt, die
in Intervallen von 5 ms zentriert sind, um die vierzehn Mel-Leistungs
spektral-Analyse-Filter zu simulieren. Jeder der 256 Datenpunkt-Rah
men wurde durch eine Hamming-Fensterfunktion mit einem Fenster
versehen, um einen spektralen Verlust zu reduzieren. Das Anwenden der
diskreten Fourier-Transformation bei den "gefensterten" Daten und das
Ausbilden der quadrierten Größe der Fourier-Koeffizienten führte zu
einem Leistungsspektrum mit einer gleichförmigen Auflösung mit 128
Punkten. Jedoch hat das Mel-Skalen-14 Band-Leistungsspektrum eine
Frequenzskala F, die logarithmisch in Beziehung zu der normalen linea
ren Frequenzskala f in folgender Weise steht:
F = In (1 + f/700).
Diese Mel-Frequenzskala basiert auf psycho-akustischen Frequenz-
Skalierexperimenten, die zeigen, daß menschliche Beurteilungen des
relativen Abstands von zwei Sinuskurven nicht äquivalent derem tat
sächlichen arithmetischen Verhältnis sind. Folglich betrifft die vor
stehende Gleichung die Beurteilung des wahrgenommenen Abstands F zu
den physikalischen Messungen der Frequenz f. Obwohl des Mel-Lei
stungsspektrum verwendet wurde, können bei einer Vielzahl von Lei
stungsspektrum-Typen, welche diejenigen einschließen, die auf
Gleichbleiben oder exponentiell skalierten Band-Intervallen basieren,
in dieser Anwendung effektiv sein.
Fig. 3 zeigt einen graphischen Kurvenverlauf der Mel-Frequenz F über
der tatsächlichen Frequenz f. Vierzehn gleichförmige Bandbreiten auf
der Mel-Skala sind auf der vertikalen Skala zusammen mit deren Pro
jektion auf die tatsächliche Frequenzskala als nicht-gleichförmige
Bänder dargestellt, welche mit zunehmender Frequenz f entsprechend
dem vorstehend wiedergegebenen Ausdruck größer werden. Die untere
Abszissenskala bezieht sich auf einen Fourier-Koeffizienten-Frequen
zindex bezüglich der tatsächlichen Frequenz. Folglich werden die
gleichförmigen 14-Mel-Skalen-Bandbreitenfilter dadurch simuliert,
daß die spektrale Leistung in den entsprechenden, linearen, nicht
gleichförmigen Bändern, wie dargestellt, summiert werden. Ein stati
stisch stetigeres Mel-Skalen-Leistungsspektrum wird jeweils alle
5ms oder 200 mal pro Sekunde erzeugt, indem sequentielle Paare von
Spektren gemittelt werden, welche die effektive Ausgangs-Spektrums
rate auf jeweils 10ms (100 Spektren pro Sekunde) reduziert. Der
nächste Verarbeitungsschritt, der von dem Spektrum-Analysator 24
durchgeführt wird, ist die Erzeugung des Logarithmus jedes Mel-Spek
trums, um einen logarithmischen 14 Komponenten-Mel-Spektralvektor
zu erhalten. Eine Normung jedes Satzes von logarithmischen Mel-Spek
tren, die einer vorgegebenen Sprechweise/Aussprache entsprechen,
wird dadurch erreicht, daß der Mittelwert berechnet und das Maximum
und Minimum aller Werte in dem Satz extrahiert werden. Die logarith
mischen Mel-Spektralsätze wurden dann skaliert, um zu bewirken, daß
der neue Mittelwert null ist und der Maximumwert jedes Log-Spek
trums eins ist. Die normierten logarithmischen Mel-Spektralvektoren
sind auf Ausgangsleitungen 25 des Spektrum-Analysators 24 verfügbar.
Da in einer Ausführungsform die Video-Bildfrequenz der Kamera 20 in
Fig. 1 60 Bilder/s betrug, während die spektrale Erzeugungsfrequenz
des Spektrumanalysators 100 Spektren pro Sekunde betrug, war ein zu
sätzlicher Verarbeitungsschritt erforderlich, um die zwei Frequenzen
anzupassen. Dies ist grafisch in Fig. 1 durch den strichpunktierten, mit
"Interpolator" bezeichneten Block 26 dargestellt, der nur erforderlich
ist, wenn die Video-Bildfrequenz und die spektrale Bildfrequenz nicht
dieselben sind. In diesem Fall wurden aufeinanderfolgende Videodaten-
Rahmen (Vektoren), die jeweils die vorstehend beschriebenen fünf Vek
tor-Komponenten aufweisen, mit einem (sin x)/x-Interpolationskern
interpoliert, um eine neue Folge von Frequenzen mit einer Geschwin
digkeit von 100 pro Sekunde zu erzeugen. Mit anderen Worten, der Wert
der interpolierten k-ten Abtastung, die in einer Zeit = k/100 pro Se
kunde (k = 0, ±1, ±2, . . . ), d. h. in gleichförmigen Zeitintervallen von 10
ms vorkommt, ist dagegen durch:
wobei x(m/60) der Wert der Vektorkomponente zu einem Zeitpunkt
=m/60 ist, m der ursprüngliche ganzzahlige Zeitindex ist, der in Inter
vallen von 1/60s inkrementiert worden ist; k der neue Zeitindex ist,
der in Intervallen von 1/100s inkrementiert worden ist, und X(k/100)
die interpolierten Werte an den 1/100s-Intervallen ist.
Diese Operation kann mittels normaler Faltungs-(digitaler Filte
rungs)Techniken durchgeführt werden. Andere mögliche Interpolations
kerne einschließlich linearer, quadratischer und polynomischer Kerne
höherer Ordnung könnten ebenso für eine Interpolation verwendet wer
den, ohne den Nutzeffekt merklich zu beeinträchtigen.
Folglich werden die fünf Ausgangsleitungen 15 des visuellen Vektorge
nerators 14 und die 14 Ausgangsleitungen 25 des akustischen Spek
trum-Analysators 24 kombiniert, um einen zeitlich veränderlichen, au
dio-visuellen ("AV") Vektor mit 19 Komponenten zu bilden, der an die
TDNN 200 anzulegen ist, wie in Fig. 1 dargestellt ist.
Um Sprechweisen anzupassen, die von unterschiedlicher Länge und et
was unvorhersehbar hinsichtlich ihres Anfangszeitpunkts sein können,
wurde das für eine Sprach-Klassifikation verwendete neuronale Netz
werk ausgewählt, das ein zeitverzögertes neuronales Netzwerk (TDNN)
ist, das demjenigen entspricht, das von Waibel, A. in einem Artikel mit
dem Titel "Modular Construction of Time-Delay Neural Networks for
Speech Recognition" in Neural Computation 1, Stn. 39 bis 46 (1989) be
schrieben ist.
Fig. 4(a) und 4(b) zeigen zwei funktionell äquivalente Ausführungen ei
nes TDNN. Fig. 4(a) weist eine gleichmäßig mit Abgriffen versehene
Verzögerungsleitung 103 auf, welche eine Eingangsdaten-Folge x(t) auf
einer Eingangsleitung 101 erhält. Die Signale an den Abgriffen 102 der
Verzögerungsleitung bilden einen Zeitfolge-Vektor, welcher die Zeit
folge x(t) darstellt, die an die Verzögerungsleitung 103 angelegt wor
den ist, wobei die älteren Daten auf der rechten Seite sind, d. h. jeder
Abgriff hat einen Ausgang, welcher einen eingegebenen Folgewert dar
stellt, welcher τ Sekunden eher anliegt, als ein unmittelbar links davon
liegender Wert. Zu einem vorgegebenen Zeitpunkt ist ein zeitlicher
Verlauf der eingegebenen Folge an den Ausgangsabgriffen 102 verfüg
bar. Eine ausgewählte Gruppe von benachbarten Abgriffen ist mit Lei
tungen 105 eines mit N1 bezeichneten Neuron 110 verbunden. Ebenso
wird ein Satz, der die gleiche Anzahl von Eingängen wie Abgriffe 102
hat, aber um eine Verzögerungseinheit τ verschoben ist, an ein mit N2
bezeichnetes Neuron 110 angelegt. Wie dargestellt, kann die TDNN-
Struktur eine Anzahl zusätzlicher Neuron-Einheiten 110 aufweisen, die
in derselben Weise geschaltet sind, wobei jedes um eine Verzögerungs
einheit τ verschoben ist. Die Neurons 110 sind jeweils im Aufbau iden
tisch und benutzen die gleiche Gruppe synaptischer Gewichte, welche
über Leitungen 107 angelegt werden. Folglich stellt der Ausgangswert
jedes Neuron 110 auf Ausgangsleitungen 109 eine Datenfolge {yk(t)}
dar, welche in der Zeit um das Intervall τ von ihrem benachbarten Neu
ron 110-Ausgang verschoben sind.
Die Hardware der in Fig. 4(b) dargestellten TDNN-Struktur benutzt ein
einziges Neuron 110 in einem Multiplex-Mode. Die eingegebene Daten
folge, die über die Eingangsleitung 101 an die mit Abgriffen versehene
Verzögerungsleitung angelegt worden ist, erzeugt ein Bild ihrer ver
gangenen Werte in Intervallen von τ Sekunden auf Ausgangsleitungen
105, welche parallel an eine Neuron-Zelle 110 angelegt sind. Ein Satz
Gewichte (die identisch den in Fig. 4(a) verwendeten sind) werden durch
Eingangsleitungen 107 angelegt. In jedem Intervall τ erzeugt eine Neu
ron-Zelle 110 einen Ausgangswert auf der Leitung 108, welcher an eine
zweite mit Abgriffen versehene Verzögerungsleitung 103 angelegt
wird. Wenn die zweite Verzögerungsleitung 103, welche zu der nächst
höheren Schicht gehört, n Abgriffe hat, wie dargestellt ist, hat jeder
von (n-1) Ausgangsabgriffen 109 in Intervallen von τ Sekunden einen
neuen Abtast-Ausgangsvektor, der identisch ist mit demjenigen, wel
cher durch das TDNN der Fig. 4(a) für dieselben eingegebenen Datenge
wichte erzeugt werden würde.
Beide Strukturen der Fig. 4(a) und (b) sind dazu geeignet, eine einzige
sich zeitlich ändernde Vektorkomponente an ihrem Eingangsanschluß
101 aufzunehmen. Folglich müssen die dargestellten Strukturen für je
de Komponente des Eingangsvektors unterteilt sein. Im allgemeinen
werden die eingegebenen Gewichte für jede Komponente eindeutig sein,
wie durch die Trainingsprozedur festgelegt worden ist.
Die Zeitverzögerungseinheit τ ist so gewählt, daß Aliasing von Einga
bedaten minimiert wird. Wenn der Wert von τ im wesentlichen kleiner
als das Nyquist-Abtastintervall ist, würden die Werte an benachbarten
Ausgangsabgriffen 109 stark in Wechselbeziehung stehen und würden
wegen der überschüssigen Freiheitsgrade (Redundanz), die in dem neu
ronalen Netzwerk verwendet sind, zu Instabilitäten im Training führen.
Wenn das Intervall τ größer als das Nyquist-Abtastintervall ist, wird
ein Aliasing eingeführt, das zu einer inkorrekten Klassifikation von
Eingabedaten führen kann. Es wurde festgestellt, daß ein annehmbarer
Wert etwa 10 ms beträgt.
Die Anzahl an Verzögerungselementen pro Verzögerungsleitung muß
ausreichend sein, um sicherzustellen, daß ein vollständiger Ausspra
cheabschnitt durch die Gesamtverzögerung von (n-1) τ für die Verzöge
rungsleitungs-Struktur mit n Ausgangsabgriffen überspannt wird. Für
die Klasse von benutzten Sprechweise- bzw. Aussprachewerten wurde
herausgefunden, daß eine Spannweite von 100 Elementen mit einer
Verzögerung von 10ms (somit insgesamt 1000 ms) angemessen ist.
Kürzere Beobachtungsspannen können eine Klassifizierung verschlech
tern, da sie nicht den gesamten Abschnitt enthalten, und längere Span
nen können die Klassifikation verschlechtern, weil sie viele überflüs
sige Daten enthalten.
In einem praktischen Spracherkennungssystem ist ein mehrlagiges
Vektoreingabe-TDNN erforderlich. Dies kann durch eine kaskadenartige
Anordnung einer Anzahl von einschichtigen TDNNs realisiert werden, so
daß die Ausgangsfolge einer vorgegebenen Schicht die Eingangsfolge
der nächst höheren Schicht wird. Auf diese Weise bildet jede Schicht
eine eingegebene Zeitfolge in eine andere Ausgabezeitfolge ab und bil
det zu allerletzt die eingegebene Zeitfolge von Merkmalen (akustischen
und visuellen) in eine Zeitfolge von Attributen (Klassifikationen) ab. Da
das TDNN ein Untergruppe von neuronalen Optimalwert-Netzwerken, ist
es mit Hilfe der bekannten Rückausbreitungs- oder anderer Gradienten
abwärts-Algorithmen trainierbar. Außerdem hat das TDNN die gefor
derte Eigenschaft, eine identische Transformation einer Folge von
Merkmal-Zeitfenstern an inkrementell veränderlichen Zeitabschnitten
nacheinander durchzuführen. Im Gegensatz zu herkömmlicheren neuro
nalen Optimalwert-Netzwerken muß die eingegebene Datenfolge nicht
genau mit einem absoluten Zeitreferenzwert abgestimmt sein, um ein
richtiges Training zuzulassen. Die TDNN-Struktur bestätigt, daß inter
essierende Muster in der eingegebenen Datenfolge zeitlich irgendwo
auftreten können und während des Lernens versucht das TDNN beispiel
hafte Muster in der Trainingsfolge zu finden, ohne Rücksicht darauf,
wann sie vorkommen.
Wenn jedoch gefordert wird, daß der Netzwerkausgang ein einziger
Satz von Attributen ist, kann eine Merkmalsfolge fester Dauer in der
Eingangs-Verzögerungsleitung gespeichert werden. Die Dauer sollte so
gewählt werden, daß die Zeitspanne (das Fenster) der Verzögerungslei
tung sicher die interessierende Folge enthalten kann. Wenn jede folgen
de Schicht des TDNN eine Funktion der Fenster-Zeitspanne ist, kann der
Ausgang für jedes Merkmal/Attribut der Endstufe auf einen einzigen
Wert des Fensterintervalls gemittelt werden.
Fig. 5(a) und 5(b) zeigen ein Beispiel eines typischen gesprochenen Aus
drucks (die Sprechweise). In Fig. 5(a) ist ein elektrisches Signal darge
stellt, welches den Schalldruck darstellt, das bei etwa 15,4s beginnt
und bei 17,0s endet. Fig. 5(b) zeigt die fünf Komponenten des visuellen
Vektors derselben Äußerung, die ebenfalls bei etwa 15,4s beginnt und
etwa 1,6s später (bei 17,0s) endet. Folglich würde ein Fenster von ei
ner Sekunde Dauer angemessen erscheinen, um sowohl die meisten aku
stischen als auch visuellen Signale zu enthalten.
In den nachstehend beschriebenen Ausführungsformen wurden zehn
mögliche Ausdruck/Aussprachearten in das Spracherkennungssystem
gesprochen, und dann wurden zehn Ausgangswerte am Ausgang erzeugt,
die jeweils die Wahrscheinlichkeit einer der zehn möglichen Sprech
weisen darstellen, die gesprochen worden sind. Die Netzwerkstruktur,
wies zwei Schichten des TDNN-Typs auf, auf welche eine Stufe zur
Zeitmittelung und Wahrscheinlichkeitsnormung folgte.
Die fünf verschiedenen Ausführungsformen eines zu beschreibenden
Spracherkennungssystems enthalten:
- a) das VO-System, das nur visuelle Daten benutzt;
- b) das AO-System, das nur akustische Daten benutzt;
- c) das AxV-System, das auf einem hohen Pegel eine Kombina tion des AO- und VO-Systems ist;
- d) das AV-System, das auf mittlerem Pegel (Klassifikations schicht) des AO- und das VO-System verknüpft, und
- e) das volle AV-System mit einer integrierten Verarbeitung von akustischen und visuellen Daten.
Die Architektur eines TDNN-Netzwerks ist in Fig. 6 dargestellt, wie es in
einer VO-Ausführungsform eines Sprach-Klassifikators 200 verwendet
ist, was nur auf dem Lesen der visuellen Vergleichsmarkierungen ba
siert, wobei die fünf vorher beschriebenen Abstandsmerkmale verwen
det werden. Bei dieser Ausführungsform wurden keine akustischen Da
ten benutzt. Die Verzögerungsleitungs-Eingangsstufe 210 weist fünf
Verzögerungsleitungseinheiten 103 mit jeweils 100 Ausgangsabgriffen
auf, wobei jede Verzögerungsleitung 103 eine der fünf Komponenten
des visuellen Vektors speichert, welcher mittels des Vektorgenerators
14 der Fig. 1 geschaffen ist. Die Verzögerungsleitungen wurden in Soft
ware simuliert. Das Zeitinkrement τ zwischen gespeicherten Werten
beträgt 10ms, so daß das eingegebene Zeitfolge-Fenster 1000ms über
spannt.
Eine verdeckte Schicht 220 weist vier Reihen Neuron-Zellen auf, die
jeweils 81 Neuron-Zellen mit (5×20) Eingängen an jeder Zeile haben.
Jedes Neuron in einer vorgegebenen Reihe ist mit 20 benachbarten Ver
zögerungsleitungswerten der fünf Verzögerungsleitungen verbunden.
Die Reduzierung von fünf auf vier Reihen schaffte ein Modicum einer
Datenkompression in der Reihenabmessung.
Die Klassifikationsschicht 230 weist zehn Reihen auf, eine für jede der
zu der detektierenden Aussprachen und ist 72 Neuron-Zellen lang. Jedes
Neuron nimmt ein Feld von 40 Eingangsleitungen auf: vier Reihen von
der versteckten Schicht 220 mit zehn aneinandergrenzenden neuronalen
Ausgängen in der verdeckten Schicht. Jeder der zehn sich ergebenden
Reihen hat 72 Neuron-Zellen, welche den 72 möglichen Werten entspre
chen, die von dem zeitlich verschobenen Ausgang der verdeckten
Schicht zur Verfügung stehen. Jeder Wert am Ausgang der Neuronen in
einer vorgegebenen Reihe der Klassifikationsschicht 230 entspricht
der Wahrscheinlichkeit, daß die entsprechende Aussprache/Sprachwei
se während eines von 72 Zeitintervallen von 290 ms aufgetreten ist,
die in Intervallen von 10 ms angeordnet sind und das Original-(Ein
gangsstufen-)Datenfenster von 1000ms überspannen. Die Auflösung von
290 ms ergibt sich aus dem 20ms-Fenster, das als Eingang zu der ver
deckten Schicht 220 verwendet worden ist, und aus den nachfolgenden
zehn Fenstereinheiten, welche in der verdeckten Schicht 220 verwen
det sind.
Die Mittelungsschicht 240 weist 10 Neuron-Zellen auf, die jeweils ei
ner spezifischen Reihe der Klassifikationsschicht und folglich einer
spezifischen der zehn zulässigen Sprechweisen/Aussprachen zugeord
net ist. Die Werte in jeder Ausgangsreihe der Klassifikationsschicht
230 zeigt die Wahrscheinlichkeit an, daß die spezielle Ausspra
che/Sprechweise während eines Intervalls von 290 ms vorgekommen
ist, welches dieser Zelle entspricht. Die 72 Eingänge werden in der
entsprechenden Neuron-Zelle in der Mittelungsschicht verknüpft, um
einen Wert an deren Ausgang zu erzeugen, welcher die Wahrscheinlich
keit darstellt, daß diese Aussprache/Sprechweise irgendwo während
des Beobachtungsfensters von 1000 ms der Eingangsstufe 210 gespro
chen wurde.
Das nur akustische (AO-) Spracherkennungssystem verwendet dieselbe
Architekturart wie die in Fig. 6 dargestellte VO-Systemarchitektur, wo
bei Parameter eingestellt werden, um die logarithmischen Mel-Skala-
Spektralmerkmal-Vektoren mit 14 Komponenten anzupassen, welche
von dem Spektrum-Analysator 14 der Fig. 1 in Intervallen von 10ms ge
schaffen worden sind. Folglich hat die Verzögerungsleitungs-Eingangs
stufe 210 eine Anordnung von 14 Reihen von 100 Datenwerten als Ein
gängen an der verdeckten Schicht 220. Jede Reihe entspricht einem
1000ms-Wert von logarithmischen Mel-Skalenwerten von einem der
Gruppe von 14 Ausgangsfiltern des Spektrum-Analysators 14.
Die verdeckte AO-Schicht 220 wies vier Reihen von 96 Neuron-Zellen
für eine Merkmalskompression von 14 auf 4 auf. Jedes Neuron 221 ist
mit 5 benachbarten Eingangsstufen-Zeitabtastwerten (samples) jedes
der 14 Eingangsmerkmale (insgesamt 70 Eingangsmerkmalswerten pro
Neuron) verbunden. Das Eingangsfenster von 5 Einheiten (50ms) ist ein
typisches Zeitintervall für die wichtigsten, akustischen, Merkmale,
wie Bursts und Übergänge. Folglich erhält jedes drauffolgende Neuron
in einer vorgegebenen Reihe einer verdeckten Schicht 220 eine (14 Zei
len mal 5 Spalten) Anordnung von Eingangswerten von einer Eingangs
stufe 210 an, die um ein Intervall von 10ms verschoben sind.
Jedes Neuron 231 der AO-Klassifikationsschicht 230 nimmt einen Ein
gangsfaktor von 4 Merkmalsreihen und 25 Zeitspalten von der verdeck
ten Schicht 220 an. Jede nachfolgende Spalte von Neuronen 231 erhält
Eingänge von der verdeckten Schicht 220, die um eine Spalten-Zeitein
heit von 10 ms verschoben sind. Das 25 Spalten-Fenster wurde so ge
wählt, daß das gesamte effektive Zeitfenster, das von der Klassifika
tionsschicht 230 gesehen worden ist, 290ms (((5-1) + 25) × 10ms) ist;
daßelbe effektive Fenster wurde in dem vorstehend beschriebenen VO-
Spracherkennungsnetzwerk verwendet. Eine Gesamtanzahl von 720 Neu
ronen, welche die AO-Klassifikationsschicht 230 enthält, sind jeweils
in zehn Reihen von 72 Neuronen angeordnet. Wie im Falle des VO-Spra
cherkennungsnetzwerks entspricht jede der zehn Reihen einer der zehn
zulässigen Sprechweisen/Aussprachen.
Die Ausgangsschicht 240 des AO-TDNN-Klassifikators 200 weist eine
Spalte mit 10 Neuronen-Zellen 241 auf, wobei jede Zelle, die mit einer
eindeutigen Merkmalsreihe der Klassifikationsschicht 230 verbunden
ist, ein Eingangswert von 72 ist. Die Werte am Ausgang der Mittelungs
schicht 240 sind jeweils repräsentativ für die Wahrscheinlichkeit, daß
die entsprechende Aussprache/Sprechweise irgendwo in dem 1000ms
Datenfenster in der Eingangsstufe 210 vorkam.
Fig. 7 ist eine weitere Ausführungsform des AO-TDNN, einer funktiona
len Äquivalenz zu dem vorstehend beschriebenen Netzwerk, das die
Menge an Hardware minimiert, die für ein Neuron-Zellen-Multiplexing
erforderlich ist. Die 14 log. Mel-Skala-Spektraldaten-Komponenten des
akustischen Vektorsignals werden an eine Verzögerungsleitung-Anord
nung (DLA) 302 angelegt, die 14 Verzögerungsleitungen mit Abgriffen
aufweist und von denen jede eine Kapazität von fünf Datenwerten hat.
(In diesem Zusammenhang ist eine Verzögerungsleitung das Äquivalent
eines analogen oder digitalen Schieberegisters). Sobald die Verzöge
rungsleitung gefüllt ist, nimmt die Neuron-Zellenanordnung (NCA1)
310, die vier Neuron-Zellen (N1 bis N4) aufweist, das Feld von (14 × 5)
Werten von den Abgriffen der DLA 302 auf und verbindet dieses 70
Werte-Feld mit jedem der 70 Eingangsanschlüsse der vier Zellen (N1
bis N4). Die NCA1 310 erzeugt vier eindeutige Ausgangswerte, und
zwar einen für jede der Neuron-Zellen N1 bis N4 und übergibt sie an den
Eingang der DLA 304 der Verzögerungsleitungs-Anordnung in der ver
deckten Schicht. Die DLA 304 taktet die vier Werte. 10ms später er
reicht ein neuer Wert den Eingang der DLA 302, wodurch deren Inhalt
um eine Einheit nach rechts verschoben wird und folglich der älteste
Satz von 14 spektralen Datenwerten ausgegeben wird. Der neue Satz
von (14 × 5) Datenstellen wird dann an jede der Zellen der NCA 310 an
gelegt, wodurch an deren vier Ausgangsanschlüssen ein neuer Vierkom
ponenten-Vektor geschaffen wird, welcher in die vier Verzögerungslei
tungen der DLA 304 eingegeben wird. Dieser Prozeß wird fortgesetzt,
und hat schließlich zur Folge, daß die DLA 304 gefüllt ist. Zu diesem
Zeitpunkt berechnen dann die zehn Neuron-Zellen (N5 bis N14) der NCA
312 jeweils einen Ausgangswert für die zehn Aussprache-Kategorien
und liefern für ein Speichern den Zehnkomponenten-Vektor an die DLA
306, welche zehn Verzögerungsleitungen jeweils mit einer Kapazität
von 72 Werten aufweist.
Somit wird jeweils nach 10ms ein neuer Vektor von der NCA 310 be
rechnet, welcher in die DLA 304 geschoben wird. Der Reihe nach be
rechnet dann die NCA 312 einen neuen Zehnkomponenten-Vektor, wel
cher in die DLA 306 geschoben wird. Wenn die Kapazität der DLA 306
gefühlt ist, wird der Inhalt jeder der zehn (1 × 72) Verzögerungsleitun
gen an das zugeordnete, den Mittelwert bildende Neuron (N15 bis N24)
der NCA3 14 angelegt. Die erste Gruppe von zehn (10) Ausgängen stellt
die Wahrscheinlichkeit dar, daß der zugeordnete Ausdruck während der
ersten 290 ms gesprochen wurde.
Da Spektraldaten fortlaufend jeweils ein Intervall von 10ms erreichen,
werden neue Werte von Ausgabewahrscheinlichkeiten berechnet. Folg
lich würde der zweite berechnete Wert der Wahrscheinlichkeit eines
Ausdrucks entsprechen, der in einem 290ms-Fenster vorkommt, das um
10ms gegenüber dem ersten verschoben ist. Nachfolgende Ausgabe
wahrscheinlichkeiten entsprechen 290ms-Fenstern, die relativ zu dem
vorherigen Fenster um 10ms verschoben sind.
Obwohl die Arbeitsweise des TDNN der Fig. 7 anhand eines AO-Spra
cherkennungssystems beschrieben wurde, gilt dasselbe Operationsprin
zip selbstverständlich auch dann, wenn eine ähnliche Struktur in einem
VO-Spracherkennungssystem verwendet würde, das mit den vorherigen
bezüglich Fig. 6 vorgenommenen Operationsbeschreibungen überein
stimmt.
Die beschriebenen AO- und VO-Systeme arbeiten unabhängig von aku
stischen bzw. visuellen Sprechdaten. Mit anderen Worten, sie sind das
Äquivalent des in Fig. 1 dargestellten Systems, in welchem entweder
die visuellen oder die akustischen Daten null (nulled) sind. Es ist
durchaus zu erwarten, daß eine Steigerung/Vergrößerung eines AO-Sy
stems durch visuelle Daten die Klassifikationsgenauigkeit insbesonde
re unter ungünstigen akustischen Umgebungsbedingungen erhöhen wür
de. Nunmehr werden drei Ausführungsformen eines kombinierten aku
stischen und visuellen Spracherkennungssystems beschrieben.
Das erste System, das als A x V-System bezeichnet und in Fig. 16 dar
gestellt ist, weist einen AO-Sprach-Klassifikator 400 und einen VO-
Sprach-Klassifikator 500 zusammen mit einer zusätzlichen Netzwerk
schicht 250 auf, um die Ausgabewahrscheinlichkeiten der beiden Sy
steme in einem einzigen Satz von Wahrscheinlichkeiten zusammenzu
fassen.
Eine AO-Klassifikator 400 weist einen log. Mel Skala-Spektrum-Analy
sator 24 auf, welcher das elektrische Analogon eines Sprachsignals
aufnimmt, und an seinem Ausgang einen akustischen Zehnkomponenten-
Vektor erzeugt, welcher als der Eingangswert an einem akustischen
TDNN-Klassifikator 410 verwendet wird, wie vorstehend beschrieben
ist. Der Ausgang des AO-Klassifikators 400 ist ein Wahrscheinlich
keitsvektor, welcher die Wahrscheinlichkeit beschreibt, daß jede der
zehn zulässigen akustischen Sprechweisen/Aussprachen nur basierend
auf den akustischen Daten ausgedrückt wurden. Dies wird dann einem
Wahrscheinlichkeits-Kombinator 250 zugeführt.
Ebenso verwendet ein VO-Klassifikator 500 ein elektrisches Signal der
Vergleichsmarkierungen, um einen Lippen- und Gesichts-Merkmalvek
tor, welcher dem entsprechenden akustischen Merkmalsvektor zugeord
net ist, als einen Eingangswert an dem Lippen- und Mundpositions-Vek
torgenerator 14 festzulegen. Der abgegebene visuelle Vektor, welcher
von dem Vergleichsmarkierungs-Suchsystem und dem Vektorgenerator
einheit erzeugt worden ist, wird an einen akustischen TDNN-Klassifi
kator 510 angelegt, welcher einen visuellen Zehnkomponenten-Wahr
scheinlichkeitsvektor erzeugt, welche dem Wahrscheinlichkeits-Kom
binator 250 zugeführt wird, welcher die Wahrscheinlichkeit darstellt,
daß jeder der zehn möglichen vorgekommenen Sprechweisen/Ausspra
chen allein auf den visuellen Daten basierte.
Nunmehr soll p(clA) die bedingte Wahrscheinlichkeit sein, daß die Aus
sprache c mit dem zugeordneten akustischen Datenvektor A vorkam,
und p(clV) soll die bedingte Wahrscheinlichkeit sein, daß die Ausspra
che/Sprechweise 10 mit dem zugeordneten visuellen Datenvektor V
vorkam. Folglich entspricht p(clA) dem c-ten Wert des Vektorausgangs
des Klassifikators 410 basierend auf einem Vektor A, welcher von dem
Spektrum-Analysator 24 erzeugt worden ist, und p(clV) entspricht dem
c-ten Wert des Vektorausgangs des Klassifikators 510, basierend auf
einem Vektor V, welcher von dem Generator 14 zugeführt worden ist.
Zu beachten ist, daß p(Alc), die bedingte Wahrscheinlichkeit eines vor
kommenden Vektors A, der einer Aussprache der Kategorie c gegeben ist,
und p(clA), die bedingte Wahrscheinlichkeit einer Aussprache der Kate
gorie c, der ein akustischer Vektor gegeben ist,′ durch Apriori-Wahr
scheinlichkeiten p(A) und p(c) folgendermaßen in Beziehung gebracht
sind:
p(Alc) · p(c) = p(Alc) · p(A)
oder
p(Alc) = p(Alc)·p(A)/p(c)
oder
p(Alc) = p(Alc)·p(A)/p(c)
Folglich können ein akustischer TDNN-Klassifikator 410 und ein visuel
ler TDNN-Klassifikator 510 trainiert werden, um entweder p(Alc) oder
p(clA) bzw. p(Vlc) oder p(clV) zu erzeugen, welche auf den relativen
Frequenzen von p(A) und p(c) in den Trainingsdaten basieren.
Wenn Vektoren A und V unabhängig voneinander sind, dann ist die ver
knüpfte Wahrscheinlichkeit der j-ten Aussprache cj, welche durch
einen akustischen Datenvektor und einen visuellen Vektor V gegeben
ist:
welches der gewünschte Ausgang von dem Wahrscheinlichkeits-Kombi
nator 250 ist.
Wenn (und nur wenn) p(cj) = p(ci) für alle i und j ist, dann vereinfacht
sich der vorstehende Ausdruck zu:
Unter dieser Voraussetzung zeigt der vorstehende Ausdruck, daß
p(cjlA,V) durch das Produkt des j-ten Ausgangs des Klassifikators 410
bzw. 510 gebildet werden kann und durch die Summe von allen zehn
Produkt-Termen normiert werden kann.
Der Produkt-Term aus den vorstehenden Ausdrücken kann mit verschie
denen Einrichtungen einschließlich analoger oder digitaler Multiplizie
reinheiten und einem Sigma-Pl(ΣΠ) neuronalen Zellen-Netzwerk er
reicht werden, in welchem entsprechende p(clA) und p(clV) Terme ver
wendet werden, um sie miteinander zu verknüpfen. Ebenso kann derselbe
Term durch ein ΣΠ-neuronales Zellen-Netzwerk mit 20 Eingängen er
zeugt werden, in welchem entsprechende A-und V-Wahrscheinlich
keitsvektor-Komponenten miteinander verbunden sind, um Produkt-
Terme zu bilden, und der Ausgangswert wird dann durch die Summe der
Produkt-Terme gebildet. Ein Teilen jedes der Produkte durch den Sum
men-Term kann in einer kompatiblen Technologie mit Hilfe analoger
oder numerischer Recheneinheiten durchgeführt werden.
Fig. 9 zeigt eine Hardware-Ausführungsform des AxV-System-TDNN-
Sprachen-Klassifikators 200. Akustische und visuelle Datenvektoren
werden in Verzögerungsleitungen (DL) 302 bzw. 301 in Intervallen von
10ms eingegeben. Die akustischen und visuellen Datenflüsse folgen
verschiedenen Wegen bis zu der letzten NCA3-Stufe. Der eingegebene
akustische Datenvektor in Fig. 9 wird analog der Fig. 7 in derselben Wei
se und mittels derselben Hardware wie in einem AO-Prozeß bis zu der
Einheit NCA3 314 verarbeitet, die in der Mittelungsschicht angeordnet
ist. Ebenso wird der visuelle Datenvektor V in Fig. 9 abgesehen von der
Endeinheit NCA3 314, auf dieselben Weise verarbeitet, wie in Fig. 6 für
das VO-System beschrieben ist. Die Endwahrscheinlichkeiten p(clA, V)
werden durch die zehn Sigma-Pi-Neuron-Zellen gebildet, welche die
Einheit NCA3 314 und die Normiereinheit 255 aufweisen. Die Normie
reinheit 255 legt den Skalierfaktor k an, um die zehn Ausgangs-Vek
tor-Komponenten p(clA,V) = k· p(clA)· p(clV) für c= 1,2 . . . ,10 zu bilden.
Obwohl ein auf TDNN basierender, akustischer AO-Prozessor beschrie
ben worden ist, ist dies bei der AxV-Ausführungsform nicht wesent
lich. Das AxV-System kann mit irgendeinem akustischen Spracherken
nungs-Prozessor ausgeführt werden, welcher funktionell äquivalent
ist, obwohl er nicht ein TDNN verwendet. Die Ausgänge des AO- und VO-
Subsystems würde, wie beschrieben, verknüpft werden, um eine genau
ere Klassifikation zu liefern, als sie jedes System für sich liefern
würde. Ebenso kann ein akustischer Vektor-Generator, welcher einen
wirksamen akustischen Vektor erzeugt, welcher die Sprechweise/Aus
sprache mit einer annehmbaren statistischen Zuverlässigkeit kenn
zeichnet, als ein akustischer Vor-Prozessor in einem der kombinierten
akustischen und visuellen Spracherkennungssysteme verwendet wer
den.
In Fig. 10 ist eine weitere Ausführungsform für einen TDNN-Klassifika
tor 200 der Fig. 1 dargestellt, der als AV-System-Klassifikator be
zeichnet wird. In diesem Fall werden die A- und V-Vektoreingänge ge
sondert durch die versteckte Schicht 220 verarbeitet, welche NCA1
310 und NCA 309 aufweist. Die Ausgangswerte von der verdeckten
Schicht werden in DLA 304 und DLA 303 gespeichert, von wo aus das
akustische (4 × 25) Wertefeld von DLA 304 und das (4 × 10) Wertefeld
von DLA 303 an die zehn 140 Eingänge aufweisenden Neuron-Zellen
(N35 bis N44) der NCA2 313 angelegt werden. Das vorhergehende Mi
schen von akustischen und visuellen Daten führt zu einem reicheren
Satz von Quertermen, bei welchem eine Auflösung in dem Trainings-
Prozeß gesucht werden kann, was insgesamt zu einer verbesserten Lei
stung des Gesamtsystems führt.
Nach einem Verarbeiten durch NCA2 313 werden die Ergebnisse zu der
Mittelungsschicht 240 durchgelassen. NCA3 315 weist zehn Neuron-
Zellen (950 bis 955) auf, von welchen jede auf einer von zehn Verzöge
rungssleitungen in DLA 307 arbeitet. Das unnormierte Wahrscheinlich
keits-Produkt p(cla) · p(clV) wird durch MCA3 315 gebildet und zu einer
Normiereinheit 255 durchgelassen, um die endgültigen Ausgangswahr
scheinlichkeiten p(clA,V) zu bilden.
Fig. 11 zeigt einen weiteren Entwicklungsschritt in dem Prozeß, das
Verarbeiten der akustischen visuellen Daten auf dem frühestmöglichen
Pegel zu kombinieren. Bei Empfang und Speicherung von genügend ein
gegebenen akustischen und Videodaten im DLA 302 bzw. 301 kann die
Bildung von Quertermen in der versteckten Schicht 220 vorkommen,
wobei jeder der acht (8) Neuronen auf den kombinierten (14 × 5) und (5
× 20) Datenfeldern arbeitet, die von DLA 302 und 301 verfügbar sind.
Der Ausgang der verdeckten Schicht wird in DLA 308 gespeichert und
durchläuft NCA3 313 der Klassifikationsschicht 230. Der Ausgangs
wert wird dann so gehandelt, wie vorstehend anhand von Fig. 10 be
schrieben ist.
In den TDNN-Strukturen der Fig. 7, 9, 10 und 11 werden die zwei Grund
typen von Neuron-Zellen verwendet. NCA1 der verdeckten Schicht 220
und NCA3 der Mittelungsschicht 240 weisen herkömmliche McColluch-
Pitts (M-P) Neuron-Zellen auf, wie in Fig. 12 dargestellt ist. Ein einge
gebener Datenvektor X, der an einem Eingangsanschluß 601 vorgesehen
ist, wird durch einen Wichtungsfaktor w mit Hilfe von Multiplizierele
menten 603 verarbeitet. Ein Summiernetzwerk 605 summiert die xiwi
Terme von den Multiplizierelementen 603, wodurch sich das Vektor-
Punkt-Produkt ergibt:
das am Ausgang des Summiernetzwerks 605 gebildet wird. Das Vektor-
Punkt-Produkt und Offset wird an eine Aktivierungs-Funktionseinheit
609 angelegt, welche das Ausgangssignal f(z) = f(xT w + offset) bildet.
Ein Offset-Wert kann durch eine Eingabe 607 am Summiernetzwerk
605 erhalten werden.
Die Aktivierungs-Funktionseinheit 609 kann eine von mehreren Trans
fer-Charakteristiken, wie die in Fig. 13(a) und (b) dargestellt, haben. Die
Transfer-Charakteristik in Fig. 13(a) ist f(z) = tanh z, d. h. eine hyperbo
lische Tangensfunktion des eingegebenen Signals z. Dies ist ein Bei
spiel für eine große Gruppe von halblinearen sigmoidalen Squashing-
Funktionen, welche in NCA1 der verdeckten Schicht verwendet werden
können. Fig. 13(b) zeigt eine lineare Transferfunktion f(z) = mz + offset.
Diese Form einer Aktivierungsfunktion wird in den Neuron-Zellen von
NCA3 der Mittelungsschicht 240 verwendet (wobei der Versatz (offset)
gleich null ist).
Fig. 13(c) zeigt eine exponentielle Aktivierungs-Funktion f(z) = ez/T
wobei T ein positiver Wert "Temperatur"-Parameter ist, welcher wirk
sam den Basiswert e1/T ändert, welcher durch den Eingabewert z po
tenziert ist. Der Exponentialwert der Aktivierungsfunktion wird dazu
verwendet, die geschätzte Wahrscheinlichkeit eines Satzes von unbe
kannten Veränderlichen (des Satzes von zulässigen Sprechweisen) ent
sprechend Parallel Distributed Processing: Explorations in the Micro
structure of Cognition, Vol.1: Foundations, Rumelhart, et al., The MIT
Press, Cambridge, MA 1986, Kapitel 6, Stn. 194 bis 281. Die exponen
tielle Aktivierungsfunktion wird in den M-P-Neuron-Zellen von NCA2
der Klassifikationsschicht 230 verwendet.
Die zweite Art von Neuron-Zellen, die in der NCA4 der TDNN-Struktur
der Fig. 9 verwendet worden ist, ist als eine Sigma-Pi-(ΣΠ)Zelle be
kannt, wie in Fig. 14 dargestellt ist. Im Unterschied zu der M-P-Zelle
der Fig. 12, bei welcher ein einziger eingegebener Datenvektor an einen
Satz von steuerbaren Gewichten {wi} angelegt wird, nehmen ΣΠ-Neuron-
Zellen in ihrer einfachsten Form zwei eingegebene Datenvektoren x und
y an Eingangsanschlüssen 701 bzw. 702 auf. Entsprechende eingegebene
Vektorkomponenten xi und yi werden an Multipliziereinheiten 703 an
gelegt, um die xi · yi-Produkttermen zu bilden, welche durch ein Sum
miernetzwerk zu einem Offset-Term summiert werden, welcher an ei
nen Offset-Eingabeanschluß 707 angelegt wird. Folglich ist der Aus
gang der Summiereinheit
das Vektor-Punkt-Produkt von x und y plus Offset, welches als der Ein
gang an eine Aktivierungs-Funktionseinheit 709 mit einer Transfer-
Charakteristik f(0) angelegt wird. Die ΣΠ-Neuron-Zelle der Fig. 14 wird
in dem AxV-Netzwerk der Fig. 9 verwendet, um die Summe des Produkts
der zehn p(clA) Werte und die entsprechenden zehn p(clV)Werte in NCA4
der Mittelungsschicht 240 zu bilden (wobei der Offset-Wert gleich null
ist).
Wegen der differenzierbaren Aktivierungs-Funktionseinheiten, die in
den Neuron-Zellen verwendet worden sind (siehe Fig. 12 bis 14), wurde
eine Form des bekannten Rückübertragungs-Algorithmus (der von Rum
melhart, D.E. et al., beschrieben worden ist in "Learning Internal Re
presentations by Error Propagation", Stn. 318 bis 362 (Kapitel 8), of
Parallel Distributed Processing Vol.1: Foundations, The MIT Press,
Cambridge, MA, 1960) verwendet, um die neuronalen Netzwerk-Gewich
te zu trainieren. Die Fehlerfunktion des Ausgangswertes während des
Trainings hat einen beträchtlichen Unterschied zu demjenigen, welcher
in der vorstehend wiedergegebenen Referenz beschrieben worden ist.
Wenn eine neuronale Netzwerk-Aufgabe darin besteht, die Klasse aus
zuwählen, zu welcher ein eingegebenes Muster gehört, wenn alle einge
gebenen Muster zu einer und nur einer Klasse (eine aus einer von einer
n-Klassifikation), und wenn der Ausgangswert des neuronalen Netz
werks aus n Werten besteht, welche eine Wahrscheinlichkeitsvertei
lung darstellen (d. h. die Summe von Werten gleich eins ist), ist die Feh
lermetrix für einen einzigen Trainings-Klassifikations-Versuch
Fehler = -ln{(c₁)}
wobei cl die korrekte Klassifikation des l-ten Klassengliedes ist und
p(cl) der Versuchswert des Ausgangs ist, welcher die Wahrscheinlich
keit darstellt, daß die eingegebenen Daten zur Klasse cl gehören. Da die
richtige Wahrscheinlichkeit der eingegebenen Aussprache/Sprechweise
cl eins (Sicherheit) ist, kann der vorstehend wiedergegebene Fehler
ausdruck umgeschrieben werden als Differenz in den Logarithmen den
tatsächlichen und Versuchs-Wahrscheinlichkeiten (p(cl) bzw. (cl))
oder
Fehler = ln{p(cl)} - ln{p(cl)} = ln{(cl)/p(cl)}.
Diese Fehlermetrix umfaßt das Verhältnis an Wahrscheinlichkeiten.
Wenn, wie vorstehend ausgeführt, die Wahrscheinlichkeiten durch die
potenzierende Aktivierungs-Funktion (Fig. 13(c)) gebildet wurden, er
gibt die Substitution von
wobei zl und l die korrekten bzw. Testwerte des Eingangs z an dem l
ten Klassifikations-Neuron-Zellen-Aktivierungs-Funktions-Netzwerk
sind. Folglich ist der negative Logarithmus der abgegebenen empiri
schen gehaltenen Wahrscheinlichkeit ein Maß für den Fehler, welcher
mittels des Signals erzeugt worden ist, das auf dem Klassifikations-
Pegel eintrifft, welcher den Fehler einschließt, welcher durch die
Gewichte der l-ten Neunron-Zelle von NCA2 enthalten ist. Folglich kön
nen mit Hilfe der Trainings-Muster, welche alle zu klassifizierenden
Sprechweisen/Aussprachen darstellen, diese logarithmische Fehler
funktion verwendet werden, um das TDNN-Netzwerk zu trainieren.
Versuche wurden mit Hilfe der beschriebenen Systeme durchgeführt,
um zwischen zehn gesprochenen Buchstaben B, D, F, M, N, P, S, T, V und
Z zu unterscheiden. Akustische und visuelle Information wurde von vier
männlichen Personen gespeichert, welche einheimische Sprecher von
amerikanischem Englisch sind. Jede Person sprach jeden Buchstaben
fünfmal. Ein Beispiel des Buchstabens P, der von einer Person gespro
chen worden ist, wurde durch einen Fehler in dem visuellen Nachführ-
System unbrauchbar gemacht, weshalb sich insgesamt 199 und nicht
200 Balken (token) ergaben. Jeder Balken wurde in visuelle (VO-), aku
stische (AO-) und aksustische und Video-(AV-)Vektoren umgesetzt, die
sich für eine Klassifikations-Schicht 230 eignen, wie vorstehend be
schrieben ist.
Vier der fünf wiederholten Buchstaben-Aussprachen für jeden der zehn
Buchstaben, die von den vier Sprechern gesprochen worden sind (160
Muster) wurden zum Trainieren verwendet. Die verbleibenden 39, wel
che vier Beispiele für jeden Buchstaben mit Ausnahme von drei für den
Buchstaben P enthalten, wie vorstehend ausgeführt ist, wurden zum
Testen verwendet.
Jedes der drei Netzwerke wurde mit dem Übertragungs-Algorithmus
trainiert, um den Satz Gewichte zu finden, die einen minimalen Fehler
für die Trainingssatz-Beispiele bewirken. Eine Lernraten-Konstante
(η = 0,001 und eine Moment-Konstante von α = 0,09 wurden für die VO-
und AO-Fälle verwendet, während Konstanten η = 0,002 und α= 0,3 für
den AV-Fall verwendet werden. Das AV-Netzwerk wurde gebildet durch
Vermischen der AO- und der VO-trainierten Netzwerke und durch Hin
zufügen der Quer-Modell-Verbindungen zwischen den versteckten A-
und V-Schichten und der Klassifikationsschicht. Das Lernen wurde zu
gelassen, um Fortschritte zu machen, bis der Trainingsfehler über den
letzten einigen hundert Trainings-Abschnitten eine vernachlässigbare
Änderung zeigten. Die Software-Simulation des Spektrum-Analysators
24 des Lippen-Mund-Positions-Vektorgenerators 14 und des ADNN-
Sprachen-Klassifikators 200 liefen auf einem Sun Sparcstation 2
Computer, der von Sun Microsystems, Inc. 2550 Garcia Avenue, Moun
tain, View, California 94043-1100 hergestellt worden ist. Das Trai
ning dauerte annähernd 20 Sekunden pro Abschnitt für das komplizierte
ste AV-Netzwerk und weniger für die anderen Netzwerke. Bei jeweils
50 Trainingsabschnitten wurden die Gewichte in dem Netzwerk aufge
zeichnet und der Testgruppen-Fehler wurde berechnet. Fig. 15 zeigt den
Fortschritt einer Fehlerreduzierung als Funktion der Anzahl Trainings
abschnitte, welche für die. VO-, AO- und die vollen AV-Fälle verwendet
worden sind. Die gestrichelte Linie stellt den Fehler dar, wenn die
Testgruppe von eingegebenen Daten verwendet wird, während die ge
strichelte Linie der Fehler ist, der beobachtet worden ist, wenn die
Trainingsgruppe zum Testen verwendet wird. Wie zu erwarten war, er
zeugte die letztere im allgemeinen weniger Fehler.
Nachdem die "beste" Gewichtsgruppe durch den Trainingsprozeß für je
den der drei Fälle festgestellt war, wurden Verwirrungsmatrizen für
die Testdaten erzeugt. Für die jeweiligen Buchstaben-Sprechweisen
wurde der Durchschnitt der ausgegebenen Verteilungen über alle Test
gruppen-Beispiele dieses Buchstabens berechnet. Fig. 16 zeigt die sich
ergebenden Verwirrungsmatrizen für die VO-, AO- und AxV- und die
vollen AV-Netzwerke. Jede vertikale Spalte ist mit dem gesprochenen
Buchstaben bezeichnet, welcher als der Eingangswert dargestellt ist;
jede horizontale Zeile stellt die ausgegebenen Buchstaben dar, welche
mit ihren zugeordneten Wahrscheinlichkeiten ausgewählt worden sind,
welche durch die Stelle auf jeder Platte ausgewählt worden sind. Die
Prozentzahl unter jeder Verwirrungsmatrix ist die Gesamtgenauigkeit
dieses Systems. Zu beachten ist die Verwirrung bzw. das Durcheinander
bei den /bi/- und den/di/-Phonemen in dem AO-Netzwerk und die un
symmetrische Verwirrung von /bi/ und /pi/ in dem VO-System. Folg
lich sind, obwohl /pi/ leicht mit /bi/ in dem V0-System verwechselt
werden kann, diese ohne weiteres in dem OA-System zu unterscheiden.
Umgekehrt unterscheidet das VO-System ohne weiteres zwischen /bi/
und /di/. Ebenso ist die akustische (AO-)Ähnlichkeit der /em/- und
/en/-Phoneme zu unterscheiden, die sich hauptsächlich in dem akusti
schen subtilen Nasal-Merkmal unterscheiden und in dem VO-System
deutlich unterscheidbar sind. Bei dem VO-System werden leicht /di/
und /ti/ aber nicht so in dem OA-System verwechselt. Das AxV-Sy
stem eliminiert meist diese und andere Verwechselungen, wie durch
die hohe Klassifikations-Wahrscheinlichkeit entlang der Hauptdiagona
le bewiesen wird.
Obwohl vernünftigerweise zu erwarten ist, daß das volle AV-System
mit einer Gesamtgenauigkeit von 87% besser sein sollte als das AxV-
System mit einer gemessenen Genauigkeit von 91%, da das volle AV-
System Assozationen auf einem niedrigeren (verdeckten Schicht) Pegel
lernen kann, zeigen die Testergebnisse folgendes. Dieses Ergebnis
weist nachdrücklich darauf hin, daß der volle AV-Vektor von 19 Ele
menten sich nicht genau synchron zwischen den zehn (10) akustischen
Elementen und den fünf (5) visuellen Elementteilen des kompletten
Vektors erhält, da sie gesondert über ihre jeweiligen Vorprozessoren
verarbeitet wurden. Im Falle des AxV-Systems war ein Gleichlauf we
niger kritisch, da die akustischen und visuellen Vektoren durch geson
derte TDNNs verarbeitet wurden. Mit anderen Worten, Niederpegel-Kor
relationen in den Trainingsmustern hätten geändert werden können, so
daß das volle AV-Netzwerk diese Information nicht ausnützen könnte.
Die relative Unempfindlichkeit des AxV-Systems bezüglich akustischen
Geräuschen wurde durch eine Simulation demonstriert, bei welcher Ro
sa-Rauschen mit einer Standardabweichung von 0,4 dadurch hinzuge
fügt wurde, daß eine beliebige Veränderliche zu jedem A-Vektor hinzu
gefügt wurde, welche durch den Spektrum-Analysator erzeugt worden
ist. Unter diesen Bedingungen hatte das AO-Netzwerk eine Gesamtge
nauigkeit von 43%, während das AV-Netzwerk eine Genauigkeit von 24%
hatte. Diese verbesserte Genauigkeit wurde ohne ein Einstellen irgend
eines freien Parameters, wie beispielsweise Modifizieren des Ver
hältnis von akustisch zu visuell, erreicht.
Das Leistungsvermögen von Spracherkennungssystemen in einer ge
räuschwollen Umgebung ist eine wichtige Überlegung. Insbesondere
werden Systeme mit einer visuellen (Lippen-Lese-)Vergrößerung er
wartet, um die beste Verwendung in geräuschvoller Umgebung, wie in
großen Büros, gedrängt vollen Räumen, Fabrikräumen und Cockpits, zu
finden. Unter diesen Umständen arbeiten akustische Standard-Spra
cherkennungssysteme schlecht.
Die derzeitige Planung beim Planen und der Benutzung von adaptiven
Lippen-Lese-Systemen ist auf Trainieren des Systems in geräuschloser
Umgebung nicht in geräuschvoller Umgebung beschränkt, in welchen das
System betrieben wird. (Siehe hierzu beispielsweise Yuhas et al., "Neu
ral Network Models of Sensory Integration for Improved Vowel Re
cognition," Proc.IEEE 78(10), 1988, Stn. 1658 bis 1668; und Petajan et
al., "Automatic Lip-reading to Enhance Speech Recognition," Procee
dings of the IEEE Communications Society Global Telecommunications
Conference, November 26 bis 29, 1984, Atlanta, Georgia.)
Ein kritischer Punkt, der offensichtlich bei der derzeitigen Praxis
nicht richtig eingeschätzt worden ist, ist das visuelle Gegenstück des
Lombard-Effekts (Lombard, E., "Le Signe de le Elevation de la Voix",
Ann.MaIad. I′Orielle. Larynx. Nex. Pharynx 37, 1911, Stn. 101 bis 119).
Lombard zeigte, daß, wenn ein Sprecher sich in einer akustisch ge
räuschvollen Umgebung befindet, der Klang der Sprache sich von demje
nigen unterscheidet, der in einer ruhigen Umgebung erzeugt worden ist.
Beispielsweise ändert sich die Dauer vieler akustischer Merkmale
(üblicherweise werden sie länger) und die Amplitude des Tons wird hö
her, wenn der Sprecher von einer ruhigen Umgebung in eine geräusch
volle wechselt.
Unlängst durchgeführte Versuche haben gezeigt, daß die visuellen
Merkmale des Sprechers sich in geräuschvoller Umgebung ebenfalls än
dern. Beispielsweise ist die Größe des Lippenabstands während des
Aussprechens von /oh/ in geräuschvoller Umgebung größer, und der
Nasen-Kinn-Abstand während des Aussprechens von /awl/ ist ebenso
größer. Dieses Verhalten ist analog den Überartikulations-Effekten in
akustischen Spracherkennungssystemen und dem Lombard-Effekt.
Folglich wird nachstehend anhand von Fig. 17 eine verbesserte Methode
des Trainierens von Lippenlese-Systemen beschrieben, bei welcher der
Entdeckung des visuellen Gegenstücks zu dem Lombard-Effekt Rechnung
getragen wird. Das in Fig. 17 dargestellte Flußdiagramm der Trainings
methode beginnt beim Schritt 800, wobei angenommen wird, daß ein
Satz von M eingegebenen Trainingsvektoren und entsprechende bei
spielhafte Ausgabevektoren verfügbar sind. Der Trainingsvektor-Index
m und der Geräuschpegel-Index I werden beide auf null eingestellt. Die
synaptischen Gewichte des TDNN-Sprachen-Klassifikators werden
durch einen Satz von Zufallsgewichten, wenn der TDNN-Klassifikator
gänzlich untrainiert ist, oder durch einen Satz von teilweise trainier
ten Gewichten initialisiert. Ebenso wird der Umgebungs-Geräuschpegel
auf einen Anfangspegel von I = 0 eingestellt. Der m-te Trainingsvektor
wird beim Schritt 802 bei dem TDNN-Klassifikator verwendet, und die
sich ergebende Antwort wird mit dem entsprechenden beispielhaften n
ten Ausgangsvektor beim Schritt 804 erzeugt, und es wird eine Fehler-
Metrik erzeugt. Anschließend werden synaptische Gewichte beim
Schritt 806 mit Hilfe eines bekannten Lernalgorithmus, wie beispiels
weise mit Hilfe des bekannten Rück-Ausbreitungs-Algorithmus oder
der verallgemeinerten Delta-Regel eingestellt, wie in "Parallel Distri
buted Processing", Rumelhart et al., The MIT Press, Cambridge, MA,
1986, Vol. 1, Ch . . 8, Stn. 322 bis 328 beschrieben ist. Beim Schritt 808
wird geprüft, ob alle M-Trainingsvektoren verwendet worden sind, und,
wenn nicht, wird für eine andere Iteration auf Schritt 302 zurückge
sprungen. Wenn alle M-Trainingsvektoren verwendet worden sind
(m=M), geht das Verfahren beim Schritt 812 weiter, bei welchem der
Geräuschpegel auf einen Pegel I = I + 1 geändert wird. Beim Schritt 814
wird geprüft, um zu sehen, ob alle L Geräuschpegel verwendet worden
sind, und, wenn dies nicht der Fall ist, wird auf den Schritt 802 für ei
nen anderen Satz von M-Iterationen bei einem neuen Geräuschpegel I
zurückgegangen. Wenn I = L ist, sind alle geplanten Trainingsgeräusch
pegel verwendet worden, und der Prozeß geht auf Schritt 816 über, bei
welchem ein Satz Testvektoren bei dem TDNN-Spracherkennungssystem
verwendet werden. Die Antwort auf die Testvektoren wird beim Schritt
818 mit der gewünschten Antwort verglichen, und es wird eine Ge
samtfehler-Metrik berechnet. Wenn die Fehler-Metrik annehmbar ist,
endet beim Schritt 820 der Prozeß. Andernfalls geht der Prozeß auf
Schritt 822 über, bei welchem Umschulungs-Prozeduren aufgerufen
werden, welche ein Erzeugen eines neuen Satzes von Trainingsvektoren,
ein erneutes Ordnen des ursprünglichen Satzes von Trainingsvektoren,
ein Verwenden des ursprünglichen Trainings-Vektorsatzes, ein Ändern
der Reihenfolge, an welcher verschiedene Geräuschpegel angelegt wer
den, oder einfach ein erneutes Durchlaufen des gesamten Trainingspro
zesses enthalten können, indem die Indizies, (m, I = 0) initiiert und für
eine ganze neue Iteration auf den Schritt 802 zurückgekehrt wird. An
dere mögliche Variationen der vorstehend umrissenen Prozedur sind für
die auf diesem Gebiet versierten Fachleute offensichtlich, wie ein
Verwenden von Testvektoren nach dem Testschritt 808 und dann ein
erneutes Trainieren, falls es erforderlich ist.
Fig. 18 ist ein funktionelles Blockdiagramm eines Trainingssystems
500, bei welchem ein TDNN-Sprachen-Klassifiziersystem 501 verwen
det wird, wie es in Fig. 1 dargestellt ist. Das System 500 ist in der La
ge, akustische Trainingsdaten bei einem Umgebungsgeräusch am Ein
gang 509 und visuelle Trainingsdaten am Eingang 510 aufzunehmen. Zu
beachten ist, daß die visuellen Daten durch eine visuelle Störung, wie
Rauch, Nebel oder Staub beeinträchtigt werden können. Ein weiterer
Satz von digitalen Eingangstrainingsdaten wird von einem Speicher 503
aus über einen Systembus 511 zugeführt. In diesem Fall kann ein Ana
log-Digital-Umsetzer-(ADC)System 506 verwendet werden, um vorher
gespeicherte Audio- und visuelle Datenvektoren in analoge Werte um
zuwandeln, die sich für ein Eingeben in den TDNN-Sprach-Klassifikator
200 des Systems 501 eignen. Der Ausgang des Sprach-Klassifikators
200 entspricht dem Ansprechen des Systems 501 auf die eingegebenen
Trainingsdaten. Die Ausgangswerte des Systems 501 werden mit der
gewünschten Antwort in einem Fehler-Generator 504 verglichen, wel
cher einen Analog-Digital-Umsetzer (ADC) enthält, um den Ausgangs
vektor des Systems 501 in einen beispielhaften quantisierten Ant
wortvektor umzuwandeln, welcher von einem Speicher 503 über Ver
bindungsleitungen 508 zugeführt worden ist. Die aktuelle Fehler-Metrik
kann in einem Steuerprozessor 502 mit Hilfe eines einfachen Diffe
renzvektors berechnet werden, welcher von dem Fehler-Generator 504
erzeugt worden ist. Der Steuerprozessor 502 schafft die notwendige
Steuerung und Initialisierung des Systems 500 sowie einen Träger für
Berechnungen, wie beispielsweise einen Gesamtfehler nach einem
Training. Der AD-Umsetzer 506 und der AD-Umsetzer des Fehler-Gene
rators 504 können unnötig sein, wenn quantisierte, visuelle und akusti
sche Datenvektoren für den TDNN-Klassifikator 200 akzeptabel sind,
und der Klassifikator 200 einen quantisierten Ausgangsvektor erzeugt.
Claims (10)
1. Trainingssystem für ein Spracherkennungssystem mit
- (a) einem Spracherkennungssystem, um Aussprachen/Sprechwei sen zu erkennen, die zu einem vorher gebildeten Satz von Kandidaten-Sprechweisen/Aussprachen mit akustischen Sprachsignalen und einer ausgewählten, begleitenden, dyna mischen, visuellen Gesichtsmerkmalsbewegung zwischen ausgewählten Gesichtsmerkmalen gehören, welche einer akustischen Spracherzeugung zugeordnet sind, mit
- (i) einer akustischen Merkmal-Extrahiereinrichtung, um Signale, die eine dynamische, akustische Sprache dar stellen, in einen entsprechenden dynamischen, akusti schen Merkmalsvektorsatz von Signalen umzuwandeln;
- (ii) einer dynamischen, visuellen Merkmalextrahiereinrich tung, um Signale, welche die ausgewählte, begleitende, dynamische Gesichtsmerkmalsbewegung darstellen, die der akustischen Spracherzeugung zugeordnet sind, in einen entsprechenden, dynamischen, visuellen Merk malsvektorsatz von Signalen umzuwandeln und
- (iii) einer zeitverzögerten, ein neurales Netzwerk aufwei senden Klassifiziereinrichtung zum Erzeugen einer be dingten Wahrscheinlichkeitsverteilung der zulässigen Kandidaten-Sprechweisen/Aussprachen, indem ein Satz derzeit gültiger und zeitverzögerter, dynamischer, akustischer und visueller Merkmalsvektorsätze ange nommen und bearbeitet wird, die von der akustischen und visuellen Merkmal-Extrahiereinrichtung zugeführt worden sind und
- (b) einem mit dem Spracherkennungssystem verbundenen Steuer system zum Initialisieren von Parametern, zum Steuern des Funktionierens von Systemelementen, zum Speichern von aku stischen und visuellen, beispielhaften Ausgangsvektoren, zum Berechnen von Ausgangsfehlern und zum Einstellen der neuro nalen, netzwerk-synaptischen Gewichte, die auf berechneten Fehlern entsprechend einer vorgeschriebenen Trainingsproze dur basieren, wobei das Steuersystem einen Steuerprozessor und einen zugeordneten Speicher aufweist, welche mit dem Spracherkennungssystem verbunden sind.
2. System nach Anspruch 1, bei welchem die zeitverzögerte, ein neura
les Netzwerk klassifizierende Einrichtung aufweist:
- (a) eine Eingabeschicht mit einer mit Abgriffen versehenen Verzö gerungsleitung, um eine Folge von akustischen und visuellen, sich zeitlich ändernden Merkmalvektoren aufzunehmen und um eine Vielfalt von sequentiellen, akustischen und visuellen Merkmalvektoren parallel an den Ausgangsabgriffen der Verzö gerungsleitung zu erzeugen;
- (b) einer verdeckten Schicht von neuronalen Zellen, welche mit den Ausgangsabgriffen der mit Abgriffen versehenen Verzöge rungsleitung verbunden sind, um an deren Ausgang verbesserte zeitabhängige Merkmale zu erzeugen;
- (c) einer Klassifikationsschicht von neuronalen Zellen, welche mit dem Ausgang der neuronalen Zellen der verdeckten Schicht ver bunden sind, um einen Satz zeitveränderlicher Ausgangssignale zu erzeugen, die jeweils die Wahrscheinlichkeit der entspre chenden vorhandenen Aussprache/Sprechweise darstellen, und
- (d) einer Mittelungsschicht, welche mit den Ausgängen der Klassi fikationsschicht verbunden ist, um einen Satz zeitlich gemit telter, sich ändernder Ausgänge zu erzeugen, nämlich einen für jeden zulässigen Aussprachetyp, welcher eine bedingte Wahr scheinlichkeit darstellt, daß die zugeordnete Aussprache ge sprochen wurde.
3. System nach Anspruch 1, bei welchem die zeitverzögerte, ein neuro
nales Netzwerk klassifizierende Einrichtung quantisierte akustische
und visuelle Trainingsvektoren von dem Steuersystem aufnimmt.
4. System nach Anspruch 1, bei welchem die ein neuronales Netzwerk
klassifizierende Einrichtung analoge akustische und visuelle Merk
mals-Trainingsvektoren von dem Steuersystem annimmt und ferner ei
ne Einrichtung aufweist, um quantisierte akustische und visuelle Merk
mals-Trainingsvektoren von dem Steuerprozessor-Speicher in analoge
Trainingsvektoren umzuwandeln.
5. System nach Anspruch 1, bei welchem die zeitverzögerte, ein neuro
nales Netzwerk klassifizierende Einrichtung einen quantisierten Aus
gang hat.
6. System nach Anspruch 1 mit einem Fehlergenerator, der mit dem
Steuerprozessor verbunden und von diesem gesteuert wird und der mit
dem Ausgang der zeitverzögerten, ein neuronales Netzwerk klassifizie
renden Einrichtung verbunden ist, um einen abgegebenen Antwortvektor
aufzunehmen, welcher durch einen visuellen und einen akustischen ein
gegebenen Trainingsvektor erzeugt worden ist, um einen beispielhaften
Ausgangsvektor mit dem ausgegebenen Antwortvektor zu vergleichen,
um ein Vergleichsergebnis zu schaffen und um das Vergleichsergebnis
an den Steuerprozessor abzugeben, um die zeitlich verzögernden synap
tischen neuronalen Netzwerk-Gewichte einzustellen.
7. System nach Anspruch 1, bei welchem die vorgeschriebene Trai
ningsprozedur die folgenden Schritte aufweist:
- (a) Initialisieren der synaptischen Gewichte des neuronalen Netz werk-Klassifikators;
- (b) Anlegen eines akustischen und eines visuellen Merkmal-Trai ningsvektors an den Eingang des neuronalen Netzwerk-Klassifika tors und Erzeugen eines Ausgabe-Antwortvektors;
- (c) Vergleichen des ausgegebenen Antwortvektors mit einem bei spielhaften ausgegebenen Antwortvektors, welcher den Trai ningsvektoren entspricht, welche an den neuronalen Netzwerk- Klassifikator angelegt worden sind, und Erzeugen eines Fehlerma ßes;
- (d) Einstellen der synaptischen Gewichte des neuronalen Netzwerk- Klassifikators entsprechend einem vorgeschriebenen Algorith mus, und
- (e) Wiederholen der Schritte (b) bis (d) für eine vorgeschriebene An zahl Mal, um einen trainierten Satz von synaptischen Gewichten zu erzeugen.
8. System nach Anspruch 7, bei welchem der akustische und visuelle
Merkmal Trainingsvektor einen vorgeschriebenen akustischen Ge
räuschpegel hat.
9. System nach Anspruch 8, bei welchem die Trainingsprozedur zusätz
lich die folgenden Schritte aufweist:
- (a) Anlegen eines akustischen und visuellen Merkmalvektors mit einem anderen akustischen Geräuschpegel, und
- (b) Wiederholen der Trainingsprozedur mit Hilfe des trainierten Sat zes von vorher erhaltenen, synaptischen Gewichten.
10. System nach Anspruch 9, bei welchem ferner der akustische und vi
suelle Merkmal-Trainingsvektor erzeugt wird, indem eine geräuschvol
le, akustische Sprechweise/Aussprache zusammen mit einem beglei
tenden, visuellen Sprachsignal jeweils über eine gesonderte akustische
und eine gesonderte visuelle Merkmal-Extrahiereinrichtung verarbeitet
wird.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/137,318 US5621858A (en) | 1992-05-26 | 1993-10-14 | Neural network acoustic and visual speech recognition system training method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
DE4436692A1 true DE4436692A1 (de) | 1995-04-20 |
DE4436692C2 DE4436692C2 (de) | 1998-04-30 |
Family
ID=22476834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4436692A Expired - Fee Related DE4436692C2 (de) | 1993-10-14 | 1994-10-13 | Trainingssystem für ein Spracherkennungssystem |
Country Status (2)
Country | Link |
---|---|
US (1) | US5621858A (de) |
DE (1) | DE4436692C2 (de) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0896319A1 (de) * | 1996-12-26 | 1999-02-10 | Sony Corporation | Vorrichtung und verfahren zur mustererkennung und zur adaption |
DE19802261A1 (de) * | 1998-01-22 | 1999-07-29 | Daimler Chrysler Ag | Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder |
EP1058453A1 (de) * | 1998-12-17 | 2000-12-06 | Matsushita Electric Industrial Co., Ltd. | Verfahren und vorrichtung, um gewünschte video- und audioszenen durch spracherkennunf wiederzufinden |
CN109214820A (zh) * | 2018-07-06 | 2019-01-15 | 厦门快商通信息技术有限公司 | 一种基于音视频结合的商户收款系统及方法 |
CN110163351A (zh) * | 2018-02-13 | 2019-08-23 | 旺宏电子股份有限公司 | 用于类神经计算器系统的装置及其制造方法 |
Families Citing this family (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995025316A1 (de) * | 1994-03-15 | 1995-09-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Personenidentifikation mit bewegungsinformation |
US5907351A (en) * | 1995-10-24 | 1999-05-25 | Lucent Technologies Inc. | Method and apparatus for cross-modal predictive coding for talking head sequences |
JP3112254B2 (ja) * | 1997-03-04 | 2000-11-27 | 富士ゼロックス株式会社 | 音声検出装置 |
SE511927C2 (sv) * | 1997-05-27 | 1999-12-20 | Telia Ab | Förbättringar i, eller med avseende på, visuell talsyntes |
US6178398B1 (en) * | 1997-11-18 | 2001-01-23 | Motorola, Inc. | Method, device and system for noise-tolerant language understanding |
US6038535A (en) * | 1998-03-23 | 2000-03-14 | Motorola, Inc. | Speech classifier and method using delay elements |
US6483532B1 (en) * | 1998-07-13 | 2002-11-19 | Netergy Microelectronics, Inc. | Video-assisted audio signal processing system and method |
JP4432262B2 (ja) * | 1999-03-12 | 2010-03-17 | ソニー株式会社 | 画像処理装置、画像処理方法及び記録媒体 |
EP1143735A1 (de) * | 2000-03-01 | 2001-10-10 | Texas Instruments Incorporated | Teleskopische Rekonstruction von Gesichtszügen aus einem Sprachmuster |
US20020116197A1 (en) * | 2000-10-02 | 2002-08-22 | Gamze Erten | Audio visual speech processing |
US7006969B2 (en) * | 2000-11-02 | 2006-02-28 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
US7369993B1 (en) | 2000-11-02 | 2008-05-06 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
US6614466B2 (en) | 2001-02-22 | 2003-09-02 | Texas Instruments Incorporated | Telescopic reconstruction of facial features from a speech pattern |
US7082393B2 (en) * | 2001-03-27 | 2006-07-25 | Rast Associates, Llc | Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech |
GB2378776A (en) * | 2001-05-22 | 2003-02-19 | Canon Kk | Apparatus and method for managing a multi-modal interface in which the inputs feedback on each other |
US20030083872A1 (en) * | 2001-10-25 | 2003-05-01 | Dan Kikinis | Method and apparatus for enhancing voice recognition capabilities of voice recognition software and systems |
US7219062B2 (en) * | 2002-01-30 | 2007-05-15 | Koninklijke Philips Electronics N.V. | Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system |
EP1361740A1 (de) * | 2002-05-08 | 2003-11-12 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs |
DE10220520A1 (de) * | 2002-05-08 | 2003-11-20 | Sap Ag | Verfahren zur Erkennung von Sprachinformation |
DE10220522B4 (de) * | 2002-05-08 | 2005-11-17 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse |
DE10220524B4 (de) * | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
EP1363271A1 (de) * | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
DE10220521B4 (de) * | 2002-05-08 | 2005-11-24 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen |
US20050259865A1 (en) * | 2002-11-15 | 2005-11-24 | Koninklijke Philips Electronics N.V. | Object classification via time-varying information inherent in imagery |
US7319955B2 (en) * | 2002-11-29 | 2008-01-15 | International Business Machines Corporation | Audio-visual codebook dependent cepstral normalization |
KR100486735B1 (ko) * | 2003-02-28 | 2005-05-03 | 삼성전자주식회사 | 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치 |
US20040186714A1 (en) * | 2003-03-18 | 2004-09-23 | Aurilab, Llc | Speech recognition improvement through post-processsing |
US20050228673A1 (en) * | 2004-03-30 | 2005-10-13 | Nefian Ara V | Techniques for separating and evaluating audio and video source data |
US8589156B2 (en) * | 2004-07-12 | 2013-11-19 | Hewlett-Packard Development Company, L.P. | Allocation of speech recognition tasks and combination of results thereof |
US20060235698A1 (en) * | 2005-04-13 | 2006-10-19 | Cane David A | Apparatus for controlling a home theater system by speech commands |
US20080027725A1 (en) * | 2006-07-26 | 2008-01-31 | Microsoft Corporation | Automatic Accent Detection With Limited Manually Labeled Data |
US8326636B2 (en) * | 2008-01-16 | 2012-12-04 | Canyon Ip Holdings Llc | Using a physical phenomenon detector to control operation of a speech recognition engine |
US8798311B2 (en) * | 2009-01-23 | 2014-08-05 | Eldon Technology Limited | Scrolling display of electronic program guide utilizing images of user lip movements |
JP5911796B2 (ja) * | 2009-04-30 | 2016-04-27 | サムスン エレクトロニクス カンパニー リミテッド | マルチモーダル情報を用いるユーザ意図推論装置及び方法 |
US8509479B2 (en) * | 2009-05-29 | 2013-08-13 | Microsoft Corporation | Virtual object |
US8635066B2 (en) * | 2010-04-14 | 2014-01-21 | T-Mobile Usa, Inc. | Camera-assisted noise cancellation and speech recognition |
US9274744B2 (en) | 2010-09-10 | 2016-03-01 | Amazon Technologies, Inc. | Relative position-inclusive device interfaces |
US8700392B1 (en) * | 2010-09-10 | 2014-04-15 | Amazon Technologies, Inc. | Speech-inclusive device interfaces |
US20120076368A1 (en) * | 2010-09-27 | 2012-03-29 | David Staudacher | Face identification based on facial feature changes |
US9223415B1 (en) | 2012-01-17 | 2015-12-29 | Amazon Technologies, Inc. | Managing resource usage for task performance |
US9767828B1 (en) * | 2012-06-27 | 2017-09-19 | Amazon Technologies, Inc. | Acoustic echo cancellation using visual cues |
US9785706B2 (en) * | 2013-08-28 | 2017-10-10 | Texas Instruments Incorporated | Acoustic sound signature detection based on sparse features |
US11199906B1 (en) | 2013-09-04 | 2021-12-14 | Amazon Technologies, Inc. | Global user input management |
US9367203B1 (en) | 2013-10-04 | 2016-06-14 | Amazon Technologies, Inc. | User interface techniques for simulating three-dimensional depth |
US9652711B2 (en) * | 2014-03-12 | 2017-05-16 | Qualcomm Incorporated | Analog signal reconstruction and recognition via sub-threshold modulation |
US9484022B2 (en) | 2014-05-23 | 2016-11-01 | Google Inc. | Training multiple neural networks with different accuracy |
US9697833B2 (en) * | 2015-08-25 | 2017-07-04 | Nuance Communications, Inc. | Audio-visual speech recognition with scattering operators |
US10332515B2 (en) | 2017-03-14 | 2019-06-25 | Google Llc | Query endpointing based on lip detection |
US10628486B2 (en) * | 2017-11-15 | 2020-04-21 | Google Llc | Partitioning videos |
US11456005B2 (en) | 2017-11-22 | 2022-09-27 | Google Llc | Audio-visual speech separation |
US11354459B2 (en) * | 2018-05-08 | 2022-06-07 | Microsoft Technology Licensing, Llc | Computer vision and speech algorithm design service |
US11087176B2 (en) | 2018-05-08 | 2021-08-10 | Microsoft Technology Licensing, Llc | Spatial localization design service |
CN109145799A (zh) * | 2018-08-13 | 2019-01-04 | 湖南志东科技有限公司 | 一种基于多层信息的物体鉴别方法 |
EP3624113A1 (de) * | 2018-09-13 | 2020-03-18 | Nxp B.V. | Vorrichtung zur verarbeitung eines signals |
CN111352075B (zh) * | 2018-12-20 | 2022-01-25 | 中国科学院声学研究所 | 一种基于深度学习的水下多声源定位方法及系统 |
CN111462732B (zh) * | 2019-01-21 | 2024-04-09 | 阿里巴巴集团控股有限公司 | 语音识别方法和装置 |
CN110379414B (zh) * | 2019-07-22 | 2021-12-03 | 出门问问(苏州)信息科技有限公司 | 声学模型增强训练方法、装置、可读存储介质及计算设备 |
CN112289297B (zh) * | 2019-07-25 | 2024-08-02 | 阿里巴巴集团控股有限公司 | 语音合成方法、装置和系统 |
TWI749880B (zh) * | 2020-11-19 | 2021-12-11 | 緯創資通股份有限公司 | 生理病徵識別方法及生理病徵感測系統 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4757541A (en) * | 1985-11-05 | 1988-07-12 | Research Triangle Institute | Audio visual speech recognition |
WO1991000591A1 (en) * | 1989-06-30 | 1991-01-10 | British Telecommunications Public Limited Company | Pattern recognition |
WO1991011802A1 (en) * | 1990-01-31 | 1991-08-08 | United States Department Of Energy | Time series association learning |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4620286A (en) * | 1984-01-16 | 1986-10-28 | Itt Corporation | Probabilistic learning element |
US4975960A (en) * | 1985-06-03 | 1990-12-04 | Petajan Eric D | Electronic facial tracking and detection system and method and apparatus for automated speech recognition |
US4937872A (en) * | 1987-04-03 | 1990-06-26 | American Telephone And Telegraph Company | Neural computation by time concentration |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5175793A (en) * | 1989-02-01 | 1992-12-29 | Sharp Kabushiki Kaisha | Recognition apparatus using articulation positions for recognizing a voice |
JPH0375860A (ja) * | 1989-08-18 | 1991-03-29 | Hitachi Ltd | パーソナライズド端末 |
-
1993
- 1993-10-14 US US08/137,318 patent/US5621858A/en not_active Expired - Fee Related
-
1994
- 1994-10-13 DE DE4436692A patent/DE4436692C2/de not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4757541A (en) * | 1985-11-05 | 1988-07-12 | Research Triangle Institute | Audio visual speech recognition |
WO1991000591A1 (en) * | 1989-06-30 | 1991-01-10 | British Telecommunications Public Limited Company | Pattern recognition |
WO1991011802A1 (en) * | 1990-01-31 | 1991-08-08 | United States Department Of Energy | Time series association learning |
Non-Patent Citations (5)
Title |
---|
RUMELHART et al.:"Parallel Distributed Processing"The MIT Press, Cambridge, MA, 1986, Vol. 1, Ch. 8,Stn. 322-228 * |
US-Z: PENTLAND, A., et al.: "Lip Reading: Automa- tic Visual Recognition of Spoken Words", Proc. Image Understanding and Machine Vision, Optical Society of America, Juni 12 bis 14 (1984) * |
US-Z: PETAJAN et al.: "Automatic Lip-reading to Enhance Speech Recognition", Proceedings of the IEEE Communications Society Global Telecommuni- cations Conference, November 26 bis 29, 1984, Atlanta, Georgia * |
US-Z: PETAJAN, E.D., et al.: "An Improved Automatic Lipreading System to Enhance Speech Recognition", ACM SIGCHI-88, Stn. 19-25, (1988) * |
US-Z: YUHAS, B.P., et al.: "Integration of Acoustic and visual Speech Signals Using Neural Networks", Nov. 1989, IEEE Communications Maga- zine (1989) * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0896319A1 (de) * | 1996-12-26 | 1999-02-10 | Sony Corporation | Vorrichtung und verfahren zur mustererkennung und zur adaption |
EP0896319A4 (de) * | 1996-12-26 | 2000-03-08 | Sony Corp | Vorrichtung und verfahren zur mustererkennung und zur adaption |
US6396954B1 (en) | 1996-12-26 | 2002-05-28 | Sony Corporation | Apparatus and method for recognition and apparatus and method for learning |
DE19802261A1 (de) * | 1998-01-22 | 1999-07-29 | Daimler Chrysler Ag | Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder |
EP1058453A1 (de) * | 1998-12-17 | 2000-12-06 | Matsushita Electric Industrial Co., Ltd. | Verfahren und vorrichtung, um gewünschte video- und audioszenen durch spracherkennunf wiederzufinden |
EP1058453A4 (de) * | 1998-12-17 | 2002-03-13 | Matsushita Electric Ind Co Ltd | Verfahren und vorrichtung, um gewünschte video- und audioszenen durch spracherkennunf wiederzufinden |
US6611803B1 (en) | 1998-12-17 | 2003-08-26 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for retrieving a video and audio scene using an index generated by speech recognition |
CN110163351A (zh) * | 2018-02-13 | 2019-08-23 | 旺宏电子股份有限公司 | 用于类神经计算器系统的装置及其制造方法 |
CN110163351B (zh) * | 2018-02-13 | 2023-06-30 | 旺宏电子股份有限公司 | 用于类神经计算器系统的装置及其制造方法 |
CN109214820A (zh) * | 2018-07-06 | 2019-01-15 | 厦门快商通信息技术有限公司 | 一种基于音视频结合的商户收款系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
US5621858A (en) | 1997-04-15 |
DE4436692C2 (de) | 1998-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4436692C2 (de) | Trainingssystem für ein Spracherkennungssystem | |
DE4317372C2 (de) | Ein akustisches und visuelles Spracherkennungssystem auf der Basis eines Neural-Netzwerkes | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE69427083T2 (de) | Spracherkennungssystem für mehrere sprachen | |
DE69010722T2 (de) | Spracherkennungssystem. | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE60318990T2 (de) | Lernvorrichtung, lernverfahren und robotervorrichtung | |
DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE69615748T2 (de) | Verfahren und Gerät zur Sprecherprüfung mittels Unterscheidung der Prototypen-Zusammenstellung | |
DE60305568T2 (de) | Schlüsselworterkennung in einem Sprachsignal | |
DE69831114T2 (de) | Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen | |
DE69725106T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mit Rauschadaptierung | |
DE69414752T2 (de) | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes | |
DE4310190A1 (de) | Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn | |
WO1998011534A1 (de) | Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem | |
DE2422028C2 (de) | Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
EP0925461A2 (de) | Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem | |
DE69517571T2 (de) | Verfahren zur Erkennung von Mustern | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
DE69512961T2 (de) | Spracherkennung auf Grundlage von "HMMs" | |
DE60107072T2 (de) | Robuste merkmale für die erkennung von verrauschten sprachsignalen | |
Wang et al. | Speech augmentation using wavenet in speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |