DE4010028C2 - Spracherkennungsverfahren - Google Patents
SpracherkennungsverfahrenInfo
- Publication number
- DE4010028C2 DE4010028C2 DE4010028A DE4010028A DE4010028C2 DE 4010028 C2 DE4010028 C2 DE 4010028C2 DE 4010028 A DE4010028 A DE 4010028A DE 4010028 A DE4010028 A DE 4010028A DE 4010028 C2 DE4010028 C2 DE 4010028C2
- Authority
- DE
- Germany
- Prior art keywords
- word
- analysis
- words
- spoken
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 43
- 230000001537 neural effect Effects 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 235000014121 butter Nutrition 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 239000003973 paint Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Machine Translation (AREA)
Description
Die Erfindung betrifft ein Spracherkennungsverfahren
nach dem Oberbegriff des Anpruches 1. Hierbei wird eine
erste Analyse der Sprachsignale zur Identifizierung der
Grenzen zwischen verschiedenen Wörtern ausgeführt und
eine erste Anzeige der gesprochenen Wörter durch Ver
gleich mit einem gespeicherten Vokabular durchgeführt.
Bei komplexen Anlagen mit vielen Funktionen kann es nütz
lich sein, eine Steuerung der Anlage durch gesprochene
Kommandos durchzuführen. Dies ist auch nützlich in den
Fällen, wo die Hände des Benutzers andere Aufgaben durch
führen oder wo der Benutzer nicht in der Lage ist, mit
seinen Händen konventionelle mechanische Schalter oder
Steuer- und Kontrollgeräte zu bedienen.
Das Problem bei durch Sprache gesteuerten Anlagen be
steht darin, daß die Spracherkennung unzuverlässig ist,
insbesondere wo die Sprache des Sprechers von Umgebungs
faktoren, wie beispielsweise Vibrationen, überlagert
ist. Dies kann zum Ausfall der Spracherkennung oder zu
Ausführungen falscher Operationen führen.
Zur Spracherkennung sind verschiedene Techniken bekannt.
Eine der Techniken besteht in der Verwendung des Markov-
Modells, das insofern nützlich ist, da mit ihm bei einer
fortlaufenden Aussprache die Grenzen zwischen aufeinan
derfolgenden Wörtern identifiziert werden können. Bei
einer geräuschvollen Umgebung oder wo die Sprache des
Sprechers durch Stress verzerrt ist, weisen jedoch die
Markov-Modelltechniken den Nachteil einer nicht ausreichend
zuverlässigen Identifizierung der gesprochenen Worte
auf. In letzter Zeit wurden beträchtliche Anstrengungen unternommen, die Durchführung
solcher Techniken durch Geräuschkompensation, Syntaxselektion und andere Methoden zu
verbessern.
Die US 4,286,115 beschreibt ein Verfahren zur Spracherkennung, bei dem bei einer ersten
Analyse des Sprachsignals bereits eine Wortidentifikation stattfindet. Die erste Analyse ist
vergleichbar mit einer Grobfilterung, um eine begrenzte Anzahl möglicher Wortkandidaten
auszuwählen. Werden bei dieser Analyse Wortkandidaten nicht erkannt und somit
ausgeschlossen, ergibt die nachfolgende zweite Analyse kein Ergebnis, obwohl diese in der
Lage wäre, ausgeschlossene Wörter zu identifizieren. Die EP 0 242 743 A1 und die EP 0 285 352 A2
beschreiben Neural-Net-Techniken, die sich jedoch nicht unmittelbar zur
Kombination mit der US 4,286,115 eignen.
Die DE 32 16 800 A1 zeigt, bei einem Verfahren zur Spracherkennung gesprochene Wörter
anzuzeigen und die DE 33 37 353 A1 zeigt ein Verfahren zur Spracherkennung mit Hilfe
eines Markov-Modells.
Die Neural-Net-
Techniken ermöglichen die Identifizierung individueller
Wörter mit hoher Genauigkeit, selbst wenn die Aussprache
ziemlich verzerrt ist. Diese Techniken sind jedoch nicht
geeignet zur Identifizierung von Wörtern bei einer kon
tinuierlichen Aussprache, da das Verfahren nicht geeignet
ist, mit ausreichender Genauigkeit Wortgrenzen zu identi
fizieren.
Es besteht die Aufgabe, das Verfahren so zu verbessern,
daß eine einwandfreie Identifikation von Wörtern auch
bei einer kontinuierlichen Sprechweise möglich ist.
Gelöst wird diese Aufgabe mit den kennzeichnenden Merk
malen des Anspruches 1. Vorteilhafte Ausgestaltungen
sind den Unteransprüchen entnehmbar.
Das Verfahren wird nachfolgend anhand der Zeichnung näher
erläutert, welche ein Blockschaltbild eines Geräts zur
Ausführung des Verfahrens wiedergibt.
Das Spracherkennungsgerät, das allgemein mit der Bezugs
ziffer 1 gekennzeichnet ist, empfängt Spracheingangs
signale von einem Mikrofon 2, das beipielsweise in der
Sauerstoffmaske eines Flugzeugpiloten angeordnet ist.
Ausgangssignale, die repräsentativ sind für identifi
zierte Wörter werden vom Gerät 1 einer Rückführvorrich
tung 3 und einer Betätigungsvorrichtung 4 zugeführt.
Bei der Rückführvorrichtung 3 kann es sich beispiels
weise um eine visuelle Anzeigevorrichtung oder um eine
Lautsprechervorrichtung handeln, die den Sprecher über
die vom Gerät 1 identifizierten Wörter informiert. Bei
der Betätigungsvorrichtung 4 handelt es sich um eine
Vorrichtung zur Ausführung von Steuerfunktionen beim
Flugzeug in Abhängigkeit von gesprochenen Befehlen, die
von der Betätigungsvorrichtung von Ausgangssignalen des
Geräts erkannt wurden.
Die Ausgangssignale des Mikrofons 2 werden einem Vorver
stärker 10 zugeführt, der eine Voranhebungsstufe 11 um
faßt, welche ein flaches, langzeitiges Durchschnitts
sprachspektrum erzeugt, um sicherzustellen, daß alle
Frequenzkanalausgänge einen ähnlichen dynamischen Bereich
einnehmen, wobei die Charakteristik nominal flach bis
zu 1 kHz ist. Ein Schalter 12 kann gesetzt werden, um
entweder eine 3 oder 6 dB/Oktave-Anhebung bei höheren
Frequenzen zu ergeben. Der Vorverstärker 10 umfaßt wei
terhin ein Antiparallelfilter 21 in Form eines Butter
worth-Tiefpassfilters achter Ordnung mit einer -3 dB
Grenzfrequenz bei 4 kHz.
Die Ausgangssignale des Vorverstärkers 10 werden über
einen Analog-Digitalkonverter 13 einer digitalen Filter
bank 14 zugeführt. Die Filterbank 14 weist 19 Kanäle
auf, die als Assembly-Software in einem Mikroprozessor
TMS32010 ausgeführt sind und welche basiert auf dem
JSRU Channel Vocoder, beschrieben von Holmes, J. N in IEE
Proc., Band 127, Pt. F, No. 1, Februar 1980. Die Filter
bank 14 weist einen ungleichen Kanalabstand auf, nähe
rungsweise entsprechend den kritischen Bändern eines
hörbaren Wahrnehmungsvermögens im Bereich von 250 bis
4000 Hz. Die Ansprechempfindlichkeiten benachbarter Ka
näle kreuzen sich bei näherungsweise 3 dB unterhalb ihrer
Spitzen. Im Zentrum eines Kanals beträgt die Dämpfung
eines benachbarten Kanals etwa 11 dB.
Die Signale der Filterbank 14 werden einer Integrations-
und Geräuschmarkierungseinheit 15 zugeführt, welche einen
Geräuschmarkierungsalgorithmus derart durchführt, wie
er von J. S. Bridle et al. beschrieben ist (a noise
compensating spectrum distance measure applied to
automatic speech recognition, Proc. Inst. Acoust.,
Windemere, Nov. 1984). Anpaßbare Geräuschlöschtechniken
zur Reduzierung periodischer Geräusche können bei der
Einheit 15 durchgeführt werden, was nützlich zur Redu
zierung wiederkehrender Geräusche ist, wie beispiels
weise das periodische Geräusch eines Helikopters.
Der Ausgang der Geräuschmarkierungseinheit 15 wird einer
Musterpaßeinheit 16 zugeführt, die verschiedene Muster
paßalgorithmen ausführt. Die Musterpaßeinheit 16 ist
verbunden mit einem Vokabularspeicher 17, welcher Dynamic
Time Warping (DTW)-Schablonen und Markov-Modelle von
jedem Wort des Vokabulars enthält.
Die DTW-Schablonen können entweder unter Verwendung von
einpassigen, zeitfluchtenden, mittelwertbildenden oder
von einbettenden, umhüllenden Trainingstechniken erzeugt
werden. Die Schablonen stellen die Frequenz gegenüber
der Zeit- und Spektralenergie dar.
Die Markov-Modelle werden während des Trainings des Ge
räts abgeleitet von vielen Aussprachen des gleichen
Worts, wobei zeitliche und spektrale Variationen in einem
stochastischen Modell eingefangen werden. Das Markov-
Modell wird aufgebaut von einer Anzahl diskreter Zustän
de, wobei jeder Zustand ein Paar von Spektral- und Abwei
chungsrahmen umfaßt. Der Spektralrahmen enthält 19 Werte,
welche einen Frequenzbereich von 120 Hz bis 4 kHz ab
decken. Der Abweichungsrahmen enthält die Abweichungs
information, die jedem Spektralvektor/-merkmal in Form
einer Zustandsmitteldauer und einer Standardabweichungs
information zugeordnet ist.
Die individuellen Ausspracheweisen während des Trainings
werden analysiert zur Klassifizierung stationärer phone
tischer Zustände und ihrer Spektralübergänge. Die Modell
parameter werden mit einem Näherungsverfahren abge
schätzt, wobei der Viterbi-Schätzalgorithmus verwendet
wird, wie er von Russell, M. J. and Moore, R. H. beschrie
ben wurde (explicit modelling of state occupancy in
hidden Markov Models for automatic speech recognition,
Proc IEEE Int. Conf. on Acoustics, Speech and Signal
Processing, Tampa, 26. bis 29. März 1985). Das letztlich
erhaltene Wortmodell enthält die natürlich gesprochenen
Wortvariablen, sowohl was die Zeit als auch die Modulation
betrifft. Zwischen dem Speicher 17 und der Muster
paßeinheit 16 ist eine Syntaxeinheit 18 angeordnet, die
bei dem gespeicherten Vokabular, mit dem das Sprachsignal
verglichen wird, eine konventionelle Syntaxbegrenzung
ausführt, entsprechend dem Syntax der zuvor identifi
zierten Wörter.
Die Musterpaßeinheit 16 ist weiterhin verbunden mit einer
Neural-Net-Einheit 20. Die Neural-Net-Einheit 20 umfaßt
einen Multi-Layer Perceptron (MLP) wie er von Peeling,
S. M. und Moore, R. H. beschrieben wurde (experiments in
isolated digit recognition using the multi-layer
perceptron, RSRE Memorandum No. 4073, 1987).
Der MLP hat die Eigenschaft in der Lage zu sein, unvoll
ständige Muster zu erkennen, beispielsweise wenn ein
starkes Hintergrundsgeräusch eine Reibelaute enthaltende
Sprache niedriger Energie maskiert. Der MLP arbeitet
in der Weise, wie von Rumelhart, D. E. et al. beschrie
ben wurde (learning internal representations by error
back propagation, Institute for Cognitive Science, UCSD,
ICS Report 8506, September 1985).
Die Musterpaßeinheit 16 verwendet drei verschiedene Algo
rithmen zur Auswahl des besten übereinstimmens zwischen
dem gesprochenen Wort und den Wörtern des Vokabulars.
Der eine Algorithmus ist ein asymmetrischer DTW-Algo
rithmus, wie er von Bridle, J. S. beschrieben wurde
(stochastic models and template matching: some important
relationships between two apparently different techniques
for automatic speech recognition, Proc. Inst. of
Acoustics, Windemere, November 1984) und durch Bridle,
J. S. et al. (continuous connected word recognition using
whole word templates, The Radio and Electronic Engineer,
Vol. 53, No. 4, April 1983). Hierbei handelt es sich
um ein wirksames einpassiges Verfahren, welches beson
ders für eine Realzeitspracherkennung geeignet ist. Der
Algorithmus arbeitet wirksam zusammen mit einer von der
Einheit 15 ausgeführten Geräuschkompensationstechnik.
Ein zweiter Algorithmus verwendet Hidden Semi Markov
Model (HSMM)-Techniken, bei welchen die im Vokabular
speicher 17 enthaltenen Markov-Modelle verglichen werden
mit gesprochenen Wortsignalen. Die zusätzliche Informa
tion in den Markov-Modellen über zeitliche und Modula
tionsvariationen in den gesprochenen Wörtern begünstigt
die Erkennungsdurchführung während des Mustervergleichs.
In der Praxis sind die DTW- und HSMM-Algorithmen mit
einander integriert. Die integrierte DTW- und HSMM-Tech
niken ermöglichen die Identifizierung zwischen benach
barten Wörtern bei einer kontinuierlichen Aussprache.
Der dritte Algorithmus verwendet MLP-Techniken in Verbin
dung mit der Neural-Net-Einheit 20. Der MLP wird ge
steuert durch einen DTW/HSMM-Algorithmus, wobei der MLP
einen variablen Fensterblick in einen Sprachpuffer inner
halb der Musterpaßeinheit 16 hat, wobei die Größe und
die Lage dieses Fensters bestimmt wird durch den DTW/
HSMM-Algorithmus. Auf diese Weise wird der HSMM-Algorith
mus durch den MLP dazu verwendet, Wortgrenzen zu identi
fizieren, oder Endpunkte und die Spektralzeitsegmente
oder Wortkandidaten können sodann durch den MLP verarbeitet
werden. Jeder Algorithmus liefert ein Signal,
welches die Erläuterung eines Sprachsignals anzeigt,
d. h. die Anzeige eines Worts im Vokabularspeicher, das
durch den Algorithmus am nächstenliegend mit der Sprache
identifiziert wurde zusammen mit einem Sicherheitsgrad.
Eine Liste verschiedener Wörter kann bei jedem Algorith
mus erzeugt werden zusammen mit ihren zugeordneten Si
cherheitsgraden. Eine höherwertige Software innerhalb
der Einheit 16 vergleicht die voneinander unabhängig
erhaltenen Resultate, die bei jedem Algorithmus erhal
ten wurden und erzeugt ein Ausgangssignal zur Rückführ
vorrichtung 3 und zur Betätigungsvorrichtung 4, da es
auf diesen Resultaten nach deren Gewichtung und Wertung
basiert.
Auf diese Weise ermöglicht das Verfahren die Verwendung
einer Neural-Net-Technik bei der Erkennung einer natür
lichen fortlaufenden Sprechweise, was zuvor nicht möglich
war. Einer der Vorteile des vorliegenden Verfahrens ist
die kurze Ansprechzeit und die rasche Rückübermittlung
der erkannten Wörter zum Sprecher. Dies ist besonders
bei Anwendungen in Flugzeugen von Bedeutung.
Es ist möglich, auch alternative Algorithmen zu verwen
den, jedoch ist es notwendig, einen Algorithmus einzu
setzen, der in der Lage ist, in Verbindung mit einem
zweiten Algorithmus, der sich der Neural-Net-Techniken
bedient, Wortgrenzen zu identifizieren.
Der Neural-Net-Algorithmus muß nicht notwendigerweise
bei jedem Wort eingesetzt werden. Es ist ausreichend,
den Markov-Algorithmus allein zu verwenden, solange das
Maß der Sicherheit der Identifizierung über einem be
stimmten Schwellwert liegt. Wenn ein schwieriges Wort
ausgesprochen wird oder eine undeutliche Aussprache vor
liegt oder das Hintergrundsgeräusch stark ist, dann fällt
der Sicherheitsgrad der Identifizierung ab, so daß das
Gerät nunmehr den Neural-Net-Algorithmus konsultiert
und einsetzt, um eine zur vorherigen Identifizierung
unabhängige Meinung zu erhalten.
Die von dem vorgeschriebenen Gerät ausgeführten Funk
tionen können auch durch Programmieren eines oder mehre
rer Computer ausgeführt werden. Es ist nicht notwendig,
daß die zuvor beschriebenen diskreten Einheiten vorhanden
sind.
Das Gerät kann für viele Anwendungsbereiche eingesetzt
werden, jedoch ist es besonders geeignet in Fällen, wo
starke Umgebungsgeräusche vorhanden sind, wie beispiels
weise zur Steuerung von Maschinen und Fahrzeugen, ins
besondere bei Flugzeugen und Drehflüglern.
Claims (10)
1. Verfahren zur Spracherkennung, bei dem eine erste Analyse des Sprachsignals
durchgeführt wird zur Identifizierung der Wortgrenzen der im Sprachsignal auf
tretenden Wörter und zur Erzeugung einer ersten Anzeige der bei der ersten Ana
lyse erkannten gesprochenen Wörter d. h. Wortkandidaten, durch Vergleich mit einem gespeicherten
Vokabular, bei dem eine zweite Analyse unter Verwendung der Neural-Net-Tech
niken und der Wortgrenzenidentifikation der ersten Analyse durchgeführt wird
zur Erzeugung einer zweiten Anzeige gesprochener Wörter und mindestens auf
grund der zweiten Anzeige Ausgangssignale erzeugt werden, die repräsentativ für
die erkannten und gesprochenen Wörter sind.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die erste Analyse
unter Verwendung einer Markov-Modells durchgeführt wird.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß das Vokabular
dynamische Zeit-Warping-Schablonen enthält.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß die erste Analyse
unter Verwendung eines asymmetrischen dynamischen Zeit-Warping-Algorith
mus ausgeführt wird.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die
erste Analyse unter Verwendung von mehreren unterschiedlichen Algorithmen
ausgeführt wird, daß jeder Algorithmus ein Signal liefert, das ein Wort im ge
speicherten Vokabular anzeigt, das dem gesprochenen Wort am nächsten kommt,
zusammen mit einer Anzeige des Sicherheitsgrads, mit dem das angezeigte Wort
mit dem gesprochenen Wort übereinstimmt und daß ein Vergleich zwischen den
von den verschiedenen Algorithmen gelieferten Signalen durchgeführt wird.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die
erste Anzeige der gesprochenen Wörter einen Sicherheitsgrad umfaßt und daß das
Ausgangssignal in Abhängigkeit der ersten Anzeige nur dann erfolgt, wenn der
Sicherheitsgrad größer ist als ein vorgegebener Wert.
7. Verfahren nach einem der Ansprüche 1 bis 6 dadurch gekennzeichnet, daß die
zweite Analyse unter Verwendung einer mehrschichtigen Perceptrontechnik in
Verbindung mit einem Neural-Net durchgeführt wird.
8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß das
Ausgangssignal zu dem Sprecher der gesprochener Wörter zurückgeführt wird.
9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß das
Verfahren den Schritt der Durchführung eines Geräuschmarkierungsalgorithmus
beim Sprachsignal umfaßt.
10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß das
Verfahren die Schritte des Ausführens einer Syntaxbeschränkung beim
gespeicherten Vokabular in Übereinstimmung mit dem Syntax der zuvor identi
fizierten Wörter umfaßt.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB898908205A GB8908205D0 (en) | 1989-04-12 | 1989-04-12 | Speech recognition apparatus and methods |
Publications (2)
Publication Number | Publication Date |
---|---|
DE4010028A1 DE4010028A1 (de) | 1990-10-18 |
DE4010028C2 true DE4010028C2 (de) | 2003-03-20 |
Family
ID=10654850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4010028A Expired - Lifetime DE4010028C2 (de) | 1989-04-12 | 1990-03-29 | Spracherkennungsverfahren |
Country Status (4)
Country | Link |
---|---|
JP (2) | JPH02298998A (de) |
DE (1) | DE4010028C2 (de) |
FR (1) | FR2645999B1 (de) |
GB (2) | GB8908205D0 (de) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3004023B2 (ja) * | 1989-11-28 | 2000-01-31 | 株式会社東芝 | 音声認識装置 |
GB2240203A (en) * | 1990-01-18 | 1991-07-24 | Apple Computer | Automated speech recognition system |
DE4120308A1 (de) * | 1991-06-20 | 1992-12-24 | Standard Elektrik Lorenz Ag | Einrichtung und verfahren zum erkennen von sprache |
DE4131387A1 (de) * | 1991-09-20 | 1993-03-25 | Siemens Ag | Verfahren zur erkennung von mustern in zeitvarianten messsignalen |
US5758021A (en) * | 1992-06-12 | 1998-05-26 | Alcatel N.V. | Speech recognition combining dynamic programming and neural network techniques |
KR100202425B1 (ko) * | 1992-08-27 | 1999-06-15 | 정호선 | 가전제품의 리모콘 명령어를 인식하기 위한 음성 인식 시스템 |
IT1270919B (it) * | 1993-05-05 | 1997-05-16 | Cselt Centro Studi Lab Telecom | Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali |
US5857099A (en) * | 1996-09-27 | 1999-01-05 | Allvoice Computing Plc | Speech-to-text dictation system with audio message capability |
US6961700B2 (en) | 1996-09-24 | 2005-11-01 | Allvoice Computing Plc | Method and apparatus for processing the output of a speech recognition engine |
GB2303955B (en) * | 1996-09-24 | 1997-05-14 | Allvoice Computing Plc | Data processing method and apparatus |
JP3039408B2 (ja) | 1996-12-27 | 2000-05-08 | 日本電気株式会社 | 音類別方式 |
DE19705471C2 (de) * | 1997-02-13 | 1998-04-09 | Sican F & E Gmbh Sibet | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
US6182038B1 (en) | 1997-12-01 | 2001-01-30 | Motorola, Inc. | Context dependent phoneme networks for encoding speech information |
ITTO980383A1 (it) | 1998-05-07 | 1999-11-07 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano. |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4286115A (en) * | 1978-07-18 | 1981-08-25 | Nippon Electric Co., Ltd. | System for recognizing words continuously spoken according to a format |
DE3216800A1 (de) * | 1981-05-15 | 1982-12-02 | Asulab S.A., 2502 Bienne | Anordnung zur eingabe von befehlsworten durch sprache |
DE3337353A1 (de) * | 1982-10-15 | 1984-04-19 | Western Electric Co., Inc., 10038 New York, N.Y. | Sprachanalysator auf der grundlage eines verborgenen markov-modells |
EP0242743A1 (de) * | 1986-04-25 | 1987-10-28 | Texas Instruments Incorporated | Spracherkennungssystem |
EP0285352A2 (de) * | 1987-04-03 | 1988-10-05 | AT&T Corp. | Neurale Berechnung durch zeitliche Konzentration |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06105394B2 (ja) * | 1986-03-19 | 1994-12-21 | 株式会社東芝 | 音声認識方式 |
-
1989
- 1989-04-12 GB GB898908205A patent/GB8908205D0/en active Pending
-
1990
- 1990-03-29 GB GB9007067A patent/GB2230370B/en not_active Expired - Lifetime
- 1990-03-29 DE DE4010028A patent/DE4010028C2/de not_active Expired - Lifetime
- 1990-04-09 FR FR9004783A patent/FR2645999B1/fr not_active Expired - Lifetime
- 1990-04-09 JP JP2092371A patent/JPH02298998A/ja active Pending
-
2000
- 2000-07-13 JP JP2000004957U patent/JP2001000007U/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4286115A (en) * | 1978-07-18 | 1981-08-25 | Nippon Electric Co., Ltd. | System for recognizing words continuously spoken according to a format |
DE3216800A1 (de) * | 1981-05-15 | 1982-12-02 | Asulab S.A., 2502 Bienne | Anordnung zur eingabe von befehlsworten durch sprache |
DE3337353A1 (de) * | 1982-10-15 | 1984-04-19 | Western Electric Co., Inc., 10038 New York, N.Y. | Sprachanalysator auf der grundlage eines verborgenen markov-modells |
EP0242743A1 (de) * | 1986-04-25 | 1987-10-28 | Texas Instruments Incorporated | Spracherkennungssystem |
EP0285352A2 (de) * | 1987-04-03 | 1988-10-05 | AT&T Corp. | Neurale Berechnung durch zeitliche Konzentration |
Also Published As
Publication number | Publication date |
---|---|
JP2001000007U (ja) | 2001-02-09 |
GB9007067D0 (en) | 1990-05-30 |
GB8908205D0 (en) | 1989-05-24 |
JPH02298998A (ja) | 1990-12-11 |
GB2230370B (en) | 1993-05-12 |
DE4010028A1 (de) | 1990-10-18 |
FR2645999B1 (fr) | 1993-05-14 |
FR2645999A1 (fr) | 1990-10-19 |
GB2230370A (en) | 1990-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69806557T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE69427083T2 (de) | Spracherkennungssystem für mehrere sprachen | |
DE4010028C2 (de) | Spracherkennungsverfahren | |
DE60123161T2 (de) | Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel | |
DE60222249T2 (de) | Spracherkennungsystem mittels impliziter sprecheradaption | |
DE60007637T2 (de) | Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung | |
DE69414752T2 (de) | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
DE69720134T2 (de) | Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE69614937T2 (de) | Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche | |
EP0987682B1 (de) | Verfahren zur Adaption von linguistischen Sprachmodellen | |
DE69512961T2 (de) | Spracherkennung auf Grundlage von "HMMs" | |
DE102014207437B4 (de) | Spracherkennung mit einer Mehrzahl an Mikrofonen | |
DE102022106036A1 (de) | Kontextabhängige signalaufbereitung für den sprachassistenten im fahrzeug | |
EP0467157A2 (de) | Sprachgesteuertes Gerät der Unterhaltungselektronik, insbesondere Videorecorder | |
DE102019205543A1 (de) | Verfahren zum Klassifizieren zeitlich aufeinanderfolgender digitaler Audiodaten | |
DE4012337A1 (de) | Verfahren zur erkennung von sprache | |
DE3875894T2 (de) | Adaptive multivariable analyseeinrichtung. | |
EP0817167B1 (de) | Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens | |
AT408286B (de) | Verfahren zur unterdrückung von störrauschen in einem signalfeld | |
DE3642591C2 (de) | ||
DE102004011426B3 (de) | Vorrichtung zum Erkennen einer in einem Sprachsignal enthaltenen Emotion und Verfahren zum Erkennen einer in einem Sprachsignal enthaltenen Emotion | |
DE102021103310B4 (de) | Verfahren und vorrichtung zur verbesserung der sprachverständlichkeit in einem raum | |
EP0470411A2 (de) | Anpassung von Referenzsprachmustern an umgebungsbedingte Aussprachevarianten |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
8127 | New person/name/address of the applicant |
Owner name: SMITHS GROUP PLC, LONDON, GB |
|
8304 | Grant after examination procedure | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: GE AVIATION UK, MANCHESTER, GB |