DE4010028A1 - Spracherkennungsverfahren - Google Patents

Spracherkennungsverfahren

Info

Publication number
DE4010028A1
DE4010028A1 DE4010028A DE4010028A DE4010028A1 DE 4010028 A1 DE4010028 A1 DE 4010028A1 DE 4010028 A DE4010028 A DE 4010028A DE 4010028 A DE4010028 A DE 4010028A DE 4010028 A1 DE4010028 A1 DE 4010028A1
Authority
DE
Germany
Prior art keywords
analysis
words
word
algorithm
spoken
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE4010028A
Other languages
English (en)
Other versions
DE4010028C2 (de
Inventor
Ian Bickerton
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GE Aviation UK
Original Assignee
Smiths Group PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smiths Group PLC filed Critical Smiths Group PLC
Publication of DE4010028A1 publication Critical patent/DE4010028A1/de
Application granted granted Critical
Publication of DE4010028C2 publication Critical patent/DE4010028C2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Description

Die Erfindung betrifft ein Spracherkennungsverfahren nach dem Oberbegriff des Anpruches 1. Hierbei wird eine erste Analyse der Sprachsignale zur Identifizierung der Grenzen zwischen verschiedenen Wörtern ausgeführt und eine erste Anzeige der gesprochenen Wörter durch Ver­ gleich mit einem gespeicherten Vokabular durchgeführt.
Bei komplexen Anlagen mit vielen Funktionen kann es nütz­ lich sein, eine Steuerung der Anlage durch gesprochene Kommandos durchzuführen. Dies ist auch nützlich in den Fällen, wo die Hände des Benutzers andere Aufgaben durch­ führen oder wo der Benutzer nicht in der Lage ist, mit seinen Händen konventionelle mechanische Schalter oder Steuer- und Kontrollgeräte zu bedienen.
Das Problem bei durch Sprache gesteuerten Anlagen be­ steht darin, daß die Spracherkennung unzuverlässig ist, insbesondere wo die Sprache des Sprechers von Umgebungs­ faktoren, wie beispielsweise Vibrationen, überlagert ist. Dies kann zum Ausfall der Spracherkennung oder zu Ausführungen falscher Operationen führen.
Zur Spracherkennung sind verschiedene Techniken bekannt. Eine der Techniken besteht in der Verwendung des Markov- Modells, das insofern nützlich ist, da mit ihm bei einer fortlaufenden Aussprache die Grenzen zwischen aufeinan­ derfolgenden Wörtern identifiziert werden können. Bei einer geräuschvollen Umgebung oder wo die Sprache des Sprechers durch Stress verzerrt ist, weisen jedoch die Markov-Modelltechniken den Nachteil einer nicht ausreichend zuverlässigen Identifizierung der gesprochenen Worte auf. In letzter Zeit wurden beträchtliche Anstrengungen unternommen, die Durchführung solcher Techniken durch Geräuschkompensation, Syntaxselektion und andere Methoden zu verbessern.
Eine alternative Technik zur Spracherkennung besteht in der Verwendung von Neural Nets. Diese Neural-Nets- Techniken ermöglichen die Identifizierung individueller Wörter mit hoher Genauigkeit, selbst wenn die Aussprache ziemlich verzerrt ist. Diese Techniken sind jedoch nicht geeignet zur Identifizierung von Wörtern bei einer kon­ tinuierlichen Aussprache, da das Verfahren nicht geeignet ist, mit ausreichender Genauigkeit Wortgrenzen zu identi­ fizieren.
Es besteht die Aufgabe, das Verfahren so zu verbessern, daß eine einwandfreie Identifikation von Wörtern auch bei einer kontinuierlichen Sprechweise möglich ist.
Gelöst wird diese Aufgabe mit den kennzeichnenden Merk­ malen des Anspruches 1. Vorteilhafte Ausgestaltungen sind den Unteransprüchen entnehmbar.
Das Verfahren wird nachfolgend anhand der Zeichnung näher erläutert, welche ein Blockschaltbild eines Geräts zur Ausführung des Verfahrens wiedergibt.
Das Spracherkennungsgerät, das allgemein mit der Bezugs­ ziffer 1 gekennzeichnet ist, empfängt Spracheingangs­ signale von einem Mikrofon 2, das beipielsweise in der Sauerstoffmaske eines Flugzeugpiloten angeordnet ist.
Ausgangssignale, die repräsentativ sind für identifi­ zierte Wörter werden vom Gerät 1 einer Rückführvorrich­ tung 3 und einer Betätigungsvorrichtung 4 zugeführt. Bei der Rückführvorrichtung 3 kann es sich beispiels­ weise um eine visuelle Anzeigevorrichtung oder um eine Lautsprechervorrichtung handeln, die den Sprecher über die vom Gerät 1 identifizierten Wörter informiert. Bei der Betätigungsvorrichtung 4 handelt es sich um eine Vorrichtung zur Ausführung von Steuerfunktionen beim Flugzeug in Abhängigkeit von gesprochenen Befehlen, die von der Betätigungsvorrichtung von Ausgangssignalen des Geräts erkannt wurden.
Die Ausgangssignale des Mikrofons 2 werden einem Vorver­ stärker 10 zugeführt, der eine Voranhebungsstufe 11 um­ faßt, welche ein flaches, langzeitiges Durchschnitts­ sprachspektrum erzeugt, um sicherzustellen, daß alle Frequenzkanalausgänge einen ähnlichen dynamischen Bereich einnehmen, wobei die Charakteristik nominal flach bis zu 1 kHz ist. Ein Schalter 12 kann gesetzt werden, um entweder eine 3 oder 6 dB/Oktave-Anhebung bei höheren Frequenzen zu ergeben. Der Vorverstärker 10 umfaßt wei­ terhin ein Antiparallelfilter 21 in Form eines Butter­ worth-Tiefpaßfilters achter Ordnung mit einer -3dB Grenzfrequenz bei 4 kHz.
Die Ausgangssignale des Vorverstärkers 10 werden über einen Analog-Digitalkonverter 13 einer digitalen Filter­ bank 14 zugeführt. Die Filterbank 14 weist 19 Kanäle auf, die als Assembly-Software in einem Mikroprozessor TMS32010 ausgeführt sind und welche basiert auf dem JSRU Channel Vocoder beschrieben von Holmes, J.N in IEE Proc., Band 127, Pt.F, No. 1, Februar 1980. Die Filter­ bank 14 weist einen ungleichen Kanalabstand auf, nähe­ rungsweise entsprechend den kritischen Bändern eines hörbaren Wahrnehmungsvermögens im Bereich von 250 bis 4000 Hz. Die Ansprechempfindlichkeiten benachbarter Ka­ näle kreuzen sich bei näherungsweise 3 dB unterhalb ihrer Spitzen. Im Zentrum eines Kanals beträgt die Dämpfung eines benachbarten Kanals etwa 11dB.
Die Signale der Filterbank 14 werden einer Integrations­ und Geräuschmarkierungseinheit 15 zugeführt, welche einen Geräuschmarkierungsalgorithmus derart durchführt, wie er von J.S. Bridle et al. beschrieben ist (a noise compensating spectrum distance measure applied to automatic speech recognition, Proc. Inst. Acoust., Windemere, Nov.1984). Anpaßbare Geräuschlöschtechniken zur Reduzierung periodischer Geräusche können bei der Einheit 15 durchgeführt werden, was nützlich zur Redu­ zierung wiederkehrender Geräusche ist, wie beispiels­ weise das periodische Geräusch eines Helikopters.
Der Ausgang der Geräuschmarkierungseinheit 15 wird einer Musterpaßeinheit 16 zugeführt, die verschiedene Muster­ paßalgorithmen ausführt. Die Musterpaßeinheit 16 ist verbunden mit einem Vokabularspeicher 17, welcher Dynamic Time Warping (DTW)-Schablonen und Markov-Modelle von jedem Wort des Vokabulars enthält.
Die DTW-Schablonen können entweder unter Verwendung von einpassigen, zeitfluchtenden, mittelwertbildenden oder von einbettenden, umhüllenden Trainingstechniken erzeugt werden. Die Schablonen stellen die Frequenz gegenüber der Zeit- und Spektralenergie dar.
Die Markov-Modelle werden während des Trainings des Ge­ räts abgeleitet von vielen Aussprachen des gleichen Worts, wobei zeitliche und spektrale Variationen in einem stochastischen Modell eingefangen werden. Das Markov- Modell wird aufgebaut von einer Anzahl diskreter Zustän­ de, wobei jeder Zustand ein Paar von Spektral- und Abwei­ chungsrahmen umfaßt. Der Spektralrahmen enthält 19 Werte, welche einen Frequenzbereich von 120 Hz bis 4 kHz ab­ decken. Der Abweichungsrahmen enthält die Abweichungs­ information, die jedem Spektralvektor/-merkmal in Form einer Zustandsmitteldauer und einer Standardabweichungs­ information zugeordnet ist.
Die individuellen Ausspracheweisen während des Trainings werden analysiert zur Klassifizierung stationärer phone­ tischer Zustände und ihrer Spektralübergänge. Die Modell­ parameter werden mit einem Näherungsverfahren abge­ schätzt, wobei der Viterbi-Schätzalgorithmus verwendet wird, wie er von Russell, M.J. and Moore, R.H. beschrie­ ben wurde (explicit modelling of state occupancy in hidden Markov Models for automatic speech recognition, Proc IEEE Int. Conf. on Acoustics, Speech and Signal Processing, Tampa, 26. bis 29. März 1985). Das letztlich erhaltene Wortmodell enthält die natürlich gesprochenen Wortvariablen, sowohl was die Zeit als auch die Modula­ tion betrifft. Zwischen dem Speicher 17 und der Muster­ paßeinheit 16 ist eine Syntaxeinheit 18 angeordnet, die bei dem gespeicherten Vokabular, mit dem das Sprachsignal verglichen wird, eine konventionelle Syntaxbegrenzung ausführt, entsprechend dem Syntax der zuvor identifi­ zierten Wörter.
Die Musterpaßeinheit 16 ist weiterhin verbunden mit einer Neural-Net-Einheit 20. Die Neural-Net-Einheit 20 umfaßt einen Multi-Layer Perceptron (MLP) wie er von Peeling, S.M. und Moore, R.H. beschrieben wurde (experiments in isolated digit recognition using the multi-layer perceptron, RSRE Memorandum No. 4073, 1987).
Der MLP hat die Eigenschaft in der Lage zu sein, unvoll­ ständige Muster zu erkennen, beispielsweise wenn ein starkes Hintergrundsgeräusch eine Reibelaute enthaltende Sprache niedriger Energie maskiert. Der MLP arbeitet in der Weise, wie von Rumelhart, D.E. et al. beschrie­ ben wurde (learning internal representations by error back propagation, Institute for Cognitive Science, UCSD, ICS Report 8506, September 1985).
Die Musterpaßeinheit 16 verwendet drei verschiedene Algo­ rithmen zur Auswahl des besten übereinstimmens zwischen dem gesprochenen Wort und den Wörtern des Vokabulars.
Der eine Algorithmus ist ein asymmetrischer DTW-Algo­ rithmus, wie er von Bridle, J.S. beschrieben wurde (stochastic models and template matching: some important relationships between two apparently different techniques for automatic speech recognition, Proc. Inst. of Acoustics, Windemere, November 1984) und durch Bridle, J.S. et al. (continuous connected word recognition using whole word templates, The Radio and Electronic Engineer, Vol. 53, No. 4, Aprilil 1983). Hierbei handelt es sich um ein wirksames einpassiges Verfahren, welches beson­ ders für eine Realzeitspracherkennung geeignet ist. Der Algorithmus arbeitet wirksam zusammen mit einer von der Einheit 15 ausgeführten Geräuschkompensationstechnik.
Ein zweiter Algorithmus verwendet Hidden Semi Markov Model (HSMM)-Techniken, bei welchen die im Vokabular­ speicher 17 enthaltenen Markov-Modelle verglichen werden mit gesprochenen Wortsignalen. Die zusätzliche Informa­ tion in den Markov-Modellen über zeitliche und Modula­ tionsvariationen in den gesprochenen Wörtern begünstigt die Erkennungsdurchführung während des Mustervergleichs. In der Praxis sind die DTW- und HSMM-Algorithmen mit­ einander integriert. Die integrierte DTW- und HSMM-Tech­ niken ermöglichen die Identifizierung zwischen benach­ barten Wörtern bei einer kontinuierlichen Aussprache.
Der dritte Algorithmus verwendet MLP-Techniken in Verbin­ dung mit der Neural-Net-Einheit 20. Der MLP wird ge­ steuert durch einen DTW/HSMM-Algorithmus, wobei der MLP einen variablen Fensterblick in einen Sprachpuffer inner­ halb der Musterpaßeinheit 16 hat, wobei die Größe und die Lage dieses Fensters bestimmt wird durch den DTW/ HSMM-Algorithmus. Auf diese Weise wird der HSMM-Algorith­ mus durch den MLP dazu verwendet, Wortgrenzen zu identi­ fizieren, oder Endpunkte und die Spektralzeitsegmente oder Wortkandidaten können sodann durch den MLP verar­ beitet werden. Jeder Algorithmus liefert ein Signal, welches die Erläuterung eines Sprachsignals anzeigt, d.h. die Anzeige eines Worts im Vokabularspeicher, das durch den Algorithmus am nächstenliegend mit der Sprache identifiziert wurde zusammen mit einem Sicherheitsgrad. Eine Liste verschiedener Wörter kann bei jedem Algorith­ mus erzeugt werden zusammen mit ihren zugeordneten Si­ cherheitsgraden. Eine höherwertige Software innerhalb der Einheit 16 vergleicht die voneinander unabhängig erhaltenen Resultate, die bei jedem Algorithmus erhal­ ten wurden und erzeugt ein Ausgangssignal zur Rückführ­ vorrichtung 3 und zur Betätigungsvorrichtung 4, da es auf diesen Resultaten nach deren Gewichtung und Wertung basiert.
Auf diese Weise ermöglicht das Verfahren die Verwendung einer Neural-Net-Technik bei der Erkennung einer natür­ lichen fortlaufenden Sprechweise, was zuvor nicht möglich war. Einer der Vorteile des vorliegenden Verfahrens ist die kurze Ansprechzeit und die rasche Rückübermittlung der erkannten Wörter zum Sprecher. Dies ist besonders bei Anwendungen in Flugzeugen von Bedeutung.
Es ist möglich, auch alternative Algorithmen zu verwen­ den, jedoch ist es notwendig, einen Algorithmus einzu­ setzen, der in der Lage ist, in Verbindung mit einem zweiten Algorithmus, der sich der Neural-Net-Techniken bedient, Wortgrenzen zu identifizieren.
Der Neural-Net-Algorithmus muß nicht notwendigerweise bei jedem Wort eingesetzt werden. Es ist ausreichend, den Markov-Algorithmus allein zu verwenden, solange das Maß der Sicherheit der Identifizierung über einem be­ stimmten Schwellwert liegt. Wenn ein schwieriges Wort ausgesprochen wird oder eine undeutliche Aussprache vor­ liegt oder das Hintergrundsgeräusch stark ist, dann fällt der Sicherheitsgrad der Identifizierung ab, so daß das Gerät nunmehr den Neural-Net-Algorithmus konsultiert und einsetzt, um eine zur vorherigen Identifizierung unabhängige Meinung zu erhalten.
Die von dem vorgeschriebenen Gerät ausgeführten Funk­ tionen können auch durch Programmieren eines oder mehre­ rer Computer ausgeführt werden. Es ist nicht notwendig, daß die zuvor beschriebenen diskreten Einheiten vorhanden sind.
Das Gerät kann für viele Anwendungsbereiche eingesetzt werden, jedoch ist es besonders geeignet in Fällen, wo starke Umgebungsgeräusche vorhanden sind, wie beispiels­ weise zur Steuerung von Maschinen und Fahrzeugen, ins­ besondere bei Flugzeugen und Drehflüglern.

Claims (10)

1. Verfahren zur Spracherkennung, bei dem eine erste Analyse des Sprachsignals zur Identifizierung der Grenzen zwischen verschiedenen Wörtern und zur Er­ zeugung einer ersten Anzeige gesprochener Wörter durch Vergleich mit einem gespeicherten Vokabular ausgeführt wird, dadurch gekennzeich­ net, daß unter Verwendung der Neural-Net-Techniken und der Wortgrenzenidentifikation der ersten Analyse eine zweite Analyse des Sprachsignals zur Erzeugung einer zweiten Anzeige gesprochener Wörter durchge­ führt wird und mindestens aufgrund der zweiten An­ zeige Ausgangssignale erzeugt werden, die reprasen­ tativ für die erkannten gesprochenen Wörter sind.
2. Verfahren nach Anspruch 1, dadurch gekenn­ zeichnet, daß die erste Analyse unter Verwen­ dung eines Markov-Modells durchgeführt wird.
3. Verfahren nach Anspruch 1 oder 2, dadurch ge­ kennzeichnet, daß das Vokabular dynamische Zeit-Warping-Schablonen enthält.
4. Verfahren nach Anspruch 3, dadurch gekenn­ zeichnet, daß die erste Analyse unter Ver­ wendung eines asymmetrischen dynamischen Zeit- Warping-Algorithmus ausgeführt wird.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die erste Analyse unter Verwendung von mehreren unterschiedlichen Algo­ rithmen ausgeführt wird, daß jeder Algorithmus ein Signal liefert, das ein Wort im gespeicherten Vokabu­ lar anzeigt, das dem gesprochenen Signal am nächsten kommt, zusammen mit einer Anzeige des Sicherheits­ grads, mit dem das angezeigte Wort mit dem gespro­ chenen Wort übereinstimmt und daß ein Vergleich zwi­ schen den von den verschiedenen Algorithmen gelie­ ferten Signalen durchgeführt wird.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die erste Anzeige der gesprochenen Wörter einen Sicherheitsgrad umfaßt und daß das Ausgangssignal in Abhängigkeit der ersten Anzeige nur dann erfolgt, wenn der Sicherheitsgrad größer ist als ein vorgegebener Wert.
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die zweite Analyse unter Verwendung einer mehrschichtigen Perceptron­ technik in Verbindung mit einem Neural-Net durch­ geführt wird.
8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß das Ausgangssignal zu dem Sprecher der gesprochenen Wörter zurückgeführt wird.
9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß das Verfahren den Schritt der Durchführung eines Geräuschmarkierungs­ algorithmus beim Sprachsignal umfaßt.
10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß das Verfahren die Schritte des Ausführens einer Syntaxbeschränkung beim gespeicherten Vokabular in Übereinstimmung mit dem Syntax der zuvor identifizierten Wörter umfaßt.
DE4010028A 1989-04-12 1990-03-29 Spracherkennungsverfahren Expired - Lifetime DE4010028C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
GB898908205A GB8908205D0 (en) 1989-04-12 1989-04-12 Speech recognition apparatus and methods

Publications (2)

Publication Number Publication Date
DE4010028A1 true DE4010028A1 (de) 1990-10-18
DE4010028C2 DE4010028C2 (de) 2003-03-20

Family

ID=10654850

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4010028A Expired - Lifetime DE4010028C2 (de) 1989-04-12 1990-03-29 Spracherkennungsverfahren

Country Status (4)

Country Link
JP (2) JPH02298998A (de)
DE (1) DE4010028C2 (de)
FR (1) FR2645999B1 (de)
GB (2) GB8908205D0 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993006591A1 (de) * 1991-09-20 1993-04-01 Siemens Aktiengesellschaft Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE19705471A1 (de) * 1997-02-13 1997-07-24 Sibet Gmbh Sican Forschungs Un Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
DE4328752B4 (de) * 1992-08-27 2004-08-05 Gold Star Electron Co., Ltd. Spracherkennungssystem

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3004023B2 (ja) * 1989-11-28 2000-01-31 株式会社東芝 音声認識装置
GB2240203A (en) * 1990-01-18 1991-07-24 Apple Computer Automated speech recognition system
DE4120308A1 (de) * 1991-06-20 1992-12-24 Standard Elektrik Lorenz Ag Einrichtung und verfahren zum erkennen von sprache
US5758021A (en) * 1992-06-12 1998-05-26 Alcatel N.V. Speech recognition combining dynamic programming and neural network techniques
IT1270919B (it) * 1993-05-05 1997-05-16 Cselt Centro Studi Lab Telecom Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali
GB2302199B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US6961700B2 (en) 1996-09-24 2005-11-01 Allvoice Computing Plc Method and apparatus for processing the output of a speech recognition engine
US5857099A (en) * 1996-09-27 1999-01-05 Allvoice Computing Plc Speech-to-text dictation system with audio message capability
JP3039408B2 (ja) 1996-12-27 2000-05-08 日本電気株式会社 音類別方式
US6182038B1 (en) 1997-12-01 2001-01-30 Motorola, Inc. Context dependent phoneme networks for encoding speech information
ITTO980383A1 (it) 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4286115A (en) * 1978-07-18 1981-08-25 Nippon Electric Co., Ltd. System for recognizing words continuously spoken according to a format
DE3216800A1 (de) * 1981-05-15 1982-12-02 Asulab S.A., 2502 Bienne Anordnung zur eingabe von befehlsworten durch sprache
DE3337353A1 (de) * 1982-10-15 1984-04-19 Western Electric Co., Inc., 10038 New York, N.Y. Sprachanalysator auf der grundlage eines verborgenen markov-modells
EP0242743A1 (de) * 1986-04-25 1987-10-28 Texas Instruments Incorporated Spracherkennungssystem
EP0285352A2 (de) * 1987-04-03 1988-10-05 AT&T Corp. Neurale Berechnung durch zeitliche Konzentration

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4286115A (en) * 1978-07-18 1981-08-25 Nippon Electric Co., Ltd. System for recognizing words continuously spoken according to a format
DE3216800A1 (de) * 1981-05-15 1982-12-02 Asulab S.A., 2502 Bienne Anordnung zur eingabe von befehlsworten durch sprache
DE3337353A1 (de) * 1982-10-15 1984-04-19 Western Electric Co., Inc., 10038 New York, N.Y. Sprachanalysator auf der grundlage eines verborgenen markov-modells
EP0242743A1 (de) * 1986-04-25 1987-10-28 Texas Instruments Incorporated Spracherkennungssystem
EP0285352A2 (de) * 1987-04-03 1988-10-05 AT&T Corp. Neurale Berechnung durch zeitliche Konzentration

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993006591A1 (de) * 1991-09-20 1993-04-01 Siemens Aktiengesellschaft Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE4328752B4 (de) * 1992-08-27 2004-08-05 Gold Star Electron Co., Ltd. Spracherkennungssystem
DE19705471A1 (de) * 1997-02-13 1997-07-24 Sibet Gmbh Sican Forschungs Un Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
DE19705471C2 (de) * 1997-02-13 1998-04-09 Sican F & E Gmbh Sibet Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen

Also Published As

Publication number Publication date
GB8908205D0 (en) 1989-05-24
GB2230370B (en) 1993-05-12
JPH02298998A (ja) 1990-12-11
DE4010028C2 (de) 2003-03-20
FR2645999A1 (fr) 1990-10-19
GB9007067D0 (en) 1990-05-30
JP2001000007U (ja) 2001-02-09
FR2645999B1 (fr) 1993-05-14
GB2230370A (en) 1990-10-17

Similar Documents

Publication Publication Date Title
US5228087A (en) Speech recognition apparatus and methods
DE602005001142T2 (de) Nachrichtenübertragungsgerät
DE60123161T2 (de) Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE60020865T2 (de) System, Verfahren und Computerprogramm für einen telefonischen Emotionsdetektor mit Rückmeldung an einen Bediener
DE60023517T2 (de) Klassifizierung von schallquellen
DE60222249T2 (de) Spracherkennungsystem mittels impliziter sprecheradaption
DE4010028C2 (de) Spracherkennungsverfahren
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE60007637T2 (de) Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung
DE10030105A1 (de) Spracherkennungseinrichtung
DE102016125104A1 (de) Dynamisches umschalten von akustischen modellen zur verbesserung der erkennung verrauschter sprachsignale
DE60023398T2 (de) Verfahren und Vorrichtung zur Verbesserung der Spracherkennungsgenauigkeit mittels ereignis-basierter Beschränkungen
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
DE102014207437B4 (de) Spracherkennung mit einer Mehrzahl an Mikrofonen
DE102022106036A1 (de) Kontextabhängige signalaufbereitung für den sprachassistenten im fahrzeug
DE102019205543A1 (de) Verfahren zum Klassifizieren zeitlich aufeinanderfolgender digitaler Audiodaten
DE4012337A1 (de) Verfahren zur erkennung von sprache
EP0817167B1 (de) Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens
DE3642591C2 (de)
DE102004011426B3 (de) Vorrichtung zum Erkennen einer in einem Sprachsignal enthaltenen Emotion und Verfahren zum Erkennen einer in einem Sprachsignal enthaltenen Emotion
DE102021103310B4 (de) Verfahren und vorrichtung zur verbesserung der sprachverständlichkeit in einem raum
EP1445759B1 (de) Benutzeradaptives Verfahren zur Geräuschmodellierung in Spracherkennung
EP0470411A2 (de) Anpassung von Referenzsprachmustern an umgebungsbedingte Aussprachevarianten
EP0540535B1 (de) Verfahren zur sprecheradaption eines automatischen spracherkennungssystems
EP0962914B1 (de) Verfahren und Vorrichtung zum Ermitteln eines Zuverlässigkeitsmasses für die Spracherkennung

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8127 New person/name/address of the applicant

Owner name: SMITHS GROUP PLC, LONDON, GB

8304 Grant after examination procedure
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: GE AVIATION UK, MANCHESTER, GB