DE4012337A1 - Verfahren zur erkennung von sprache - Google Patents

Verfahren zur erkennung von sprache

Info

Publication number
DE4012337A1
DE4012337A1 DE4012337A DE4012337A DE4012337A1 DE 4012337 A1 DE4012337 A1 DE 4012337A1 DE 4012337 A DE4012337 A DE 4012337A DE 4012337 A DE4012337 A DE 4012337A DE 4012337 A1 DE4012337 A1 DE 4012337A1
Authority
DE
Germany
Prior art keywords
word
phrase
words
features
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE4012337A
Other languages
English (en)
Inventor
Ian Bickerton
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smiths Group PLC
Original Assignee
Smiths Group PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smiths Group PLC filed Critical Smiths Group PLC
Publication of DE4012337A1 publication Critical patent/DE4012337A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

Die Erfindung betrifft ein Verfahren zur Erkennung von Sprache.
Bei komplexen Anlagen, die viele Funktionen aufweisen, kann es nützlich sein, bestimmte Funktionen durch gespro­ chene Befehle zu steuern. Eine solche Steuerung ist auch dort nützlich, wo die Hände einer Person andere Aufgaben auszuführen haben oder wo der Sprecher nicht in der Lage ist, mit seinen Händen konventionelle mechanische Schalter oder Steuergeräte zu bedienen.
Die Programmierung eines Spracherkennungsgeräts wird er­ reicht durch Lesen einer Liste von Wörtern oder Phrasen, die in ein Bezugsvokabular aufgenommen werden sollen. Die Sprechtöne werden hierbei bezüglich ihrer Spektralkompo­ nenten analysiert und als Spektral-Zeitwortmodelle oder -schablonen gespeichert.
Wird ein unbekanntes Wort ausgesprochen, wird dies eben­ falls in seine Spektralkomponenten zerlegt und mit dem Bezugsvokabular verglichen, was mittels geeigneter Algorith­ men erfolgt, beispielsweise mittels des Hidden Semi-Markov Modells. Das Bezugsvokabular wird bevorzugt aufgebaut, indem das gleiche Wort unter verschiedenen Umständen und von unterschiedlichen Leuten mehrfach ausgesprochen wird. Dies führt zu einer Spreizung der Wortmodelle, so daß eine höhere Wahrscheinlichkeit besteht, daß ein gesprochenes Wort von den gespeicherten Wortmodellen identifiziert wird. Die Verbreiterung der Wortmodelle führt jedoch zu einer Überlappung ähnlicher Wortmodelle, so daß eine größere Wahrscheinlichkeit einer falschen Identifikation besteht.
Die Verwendung von Neuralnetzen wurde ebenfalls schon vor­ geschlagen, jedoch sind diese nicht zur Identifikation bei einer kontinuierlichen Aussprache, beispielsweise von Sätzen, geeignet.
Die Möglichkeit, eine richtige Identifikation gesprochener Wörter zu erreichen, wird bei ungünstigen Umständen zu­ nehmend schwieriger, wie beispielsweise bei starken Hinter­ grundsgeräuschen oder wenn die Aussprache einer Person unter Streß erfolgt.
Es besteht die Aufgabe, ohne Erhöhung der Speicherkapizi­ tät des die Wortmodelle speichernden Speichers die Wort­ erkennung zu verbessern.
Gelöst wird diese Aufgabe mit den kennzeichnenden Merkmalen des Anspruches 1. Vorteilhafte Ausgestaltungen sind den Unteransprüchen entnehmbar.
Gemäß dem Verfahren werden mehrere Sprachsignale mehrerer bekannter Wörter oder Phrasen erzeugt und einem Neural­ netz zugeführt. Das Neuralnetz identifiziert die Merkmale jedes Worts oder jeder Phrase, die sich von anderen Wörtern oder Phrasen unterscheiden. Diese Informationen in Bezug auf die charakteristischen Merkmale werden zusammen mit Informationen zur Identifikation des Worts oder der Phrase einem Speicher zugeführt zum Aufbau eines Bezugsvokabulars. Gesprochene Signale werden sodann verglichen mit den cha­ rakteristischen Merkmalen, wie sie im Vokabularspeicher gespeichert sind, zur Identifikation des gesprochenen Worts oder Phrase.
Bevorzugt werden die gesprochenen Beispiele jedes Worts zeitlich zueinander ausgerichtet und dem Neuralnetz zuge­ führt. Die ermittelten Unterscheidungsmerkmale können Spek­ tralmerkmale oder lineare prädiktive Koeffizienten sein. Der Vergleich des gesprochenen Signals mit den gespeicher­ ten Sprachschablonen wird bevorzugt ausgeführt nach der Technik des Hidden Semi-Markov Modells. Das Bezugsvokabular im Speicher können Dynamic Time Warping-Schablonen enthal­ ten. Eine Syntaxbegrenzung beim Bezugsvokabular kann bevor­ zugt entsprechend der Syntax der zuvor identifizierten Wörter ausgeführt werden.
Ein Ausführungsbeispiel des Verfahrens wird nachfolgend anhand der Zeichnungen näher erläutert. Es zeigen:
Fig. 1 das Blockschaltbild eines Spracherkennungs­ geräts,;
Fig. 2 die aufeinanderfolgenden Schritte des Ver­ fahrens und
Fig. 3 einen Schritt bei der Ausführung des Ver­ fahrens.
Das Spracherkennungsgerät ist in seiner Gesamtheit mit der Bezugsziffer 1 gekennzeichnet und erhält Sprachein­ gangssignale von einem Mikrophon 2, das beispielsweise in der Sauerstoffmaske eines Flugzeugpiloten angeordnet ist. Ausgangssignale, welche repräsentativ für identifi­ zierte Wörter sind, werden vom Gerät 1 einer Rückführvor­ richtung 3 und einer Betätigungsvorrichtung 4 zugeführt.
Bei der Rückführvorrichtung 3 kann es sich um eine visuelle Anzeigevorrichtung oder um einen Lautsprecher handeln, der den Sprecher der Wörter davon informiert, wenn ein Wort vom Gerät 1 identifiziert wurde. Die Betätigungsvor­ richtung 4 steuert gemäß diesem Beispiel Funktionen im Flugzeug in Abhängigkeit eines gesprochenen Befehls, der vom Gerät identifiziert wurde.
Die Signale des Mikrophons 2 werden einem Vorverstärker 10 zugeführt, der eine Vorbetonungsstufe 11 umfaßt, welche ein flaches langzeitiges Durchschnittssprachspektrum er­ zeugt, um sicherzustellen, daß alle Frequenzkanalausgänge einen gleichen Dynamikbereich einnehmen, dessen Charakteri­ stik nominell flach bis zu 1 kHz ist. Ein Schalter 12 kann eingestellt werden, um entweder eine 3 oder 6 dB/Oktave- Anhebung bei höheren Frequenzen zu ergeben. Der Vorver­ stärker 10 weist weiterhin ein Anti-Aliasing-Filter 21 in Form eines Butterworth-Tiefpaßfilters achter Ordnung auf, das eine -3 dB-Grenzfrequenz bei 4 kHz aufweist.
Das Ausgangssignal des Vorverstärkers 10 wird über einen Analog-Digitalkonverter 13 einer digitalen Filterbank 14 zugeführt. Die Filterbank 14 weist 19 Kanäle auf, die als Assembly-Software in einem TMS32010-Mikroprozessor ausge­ führt sind, basierend auf dem JSRU Channel Vocoder, be­ schrieben bei J.N. Holmes in IEE Proc., Band 127, Pt.F, Nr. 1, Februar 1980. Die Filterbank 14 weist einen unglei­ chen Kanalabstand auf, näherungsweise entsprechend den kritischen Bändern eines hörbaren Wahrnehmungsvermögens im Bereich von 250 bis 4000 Hz. Die Ansprechempfindlich­ keiten benachbarter Kanäle kreuzen sich bei näherungsweise 3 dB unterhalb ihrer Spitzen. Im Zentrum eines Kanals be­ trägt die Dämpfung eines benachbarten Kanals etwa 11 dB.
Signale von der Filterbank 14 werden einer Integrations- und Geräuschmarkierungseinheit 15 zugeführt, welche einen Geräuschmarkierungsalgorithmus durchführt, wie er von J.S. Bridle et al. beschrieben ist. (A noise compensating spectrum distance measure applied to automatic speech recognition, Proc. Inst. Acoust., Windemere Nov. 1984.) Anpaßbare Geräuschlöschtechniken zur Reduzierung periodi­ scher Geräusche können bei der Einheit 15 durchgeführt werden, was nützlich ist zur Reduzierung wiederkehrender Geräusche, beispielsweise des periodischen Geräuschs eines Hubschraubers.
Der Ausgang der Geräuschmarkierungseinheit 15 wird einer Musterpaßeinheit 16 zugeführt, welche verschiedene Muster­ paßalgorithmen ausführt. Die Musterpaßeinheit 16 ist ver­ bunden mit einem Vokabularspeicher 17, welcher Markov- Modelle in Bezug auf unterscheidbare Merkmale jedes Worts oder Phrase im Bezugsvokabular enthält. Diese charakteri­ stischen Merkmale werden in den Vokabularspeicher in der Weise eingegeben, wie sie anhand der Fig. 2 und 3 er­ läutert wird.
Als erstes werden isolierte Beispiele jedes Worts oder Phrase, die in das Bezugsvokabular aufgenommen werden sol­ len, aufgezeichnet. Dies wird wiederholt, so daß viele Beispiele jedes Worts oder Phrase zur Verfügung stehen. Als nächstes werden mittels eines dynamischen Programms die einzelnen aufgezeichneten Aussprachen zeitlich zu einem Mittelwert der Aussprachen gefluchtet. Hierdurch werden die zeitlichen Variationen der natürlichen Sprache besei­ tigt, die entstehen, wenn das gleiche Wort unterschiedlich schnell ausgesprochen wird. Das gemittelte Wort wird als solches ausgewählt, das eine mittlere Dauer aufweist, oder es wird dazu verwendet, in der Mitte einer Wörtergruppe plaziert zu werden. Falls beispielsweise das Bezugsvoka­ bular die Zahlen "0" bis "9" umfaßt, dann weisen alle Trainingswiederholungen jeder Zahl nach der dynamischen Verarbeitung die gleiche Zeitdauer auf.
Die zeitlich fluchtenden Sätze der Trainingswörter werden nunmehr einem Neuralnetz (Nervennetz) präsentiert. Die Neuralnetzstruktur kann einfach oder mehrfach geschichtet sein mit irgendeiner konventionellen Fehlerrückverfolgungs­ lernstrategie. Das Neuralnetz ist so ausgebildet, daß es charakteristische Spektralmerkmale des Vokabulars lernt, d.h. solche Merkmale eines Worts, die unterschiedlich sind von den anderen Wörtern im Vokabular. Ein Beispiel davon ist in Fig. 3 dargestellt, das links die Spektral-Zeitana­ lyse des gesprochenen Worts "one" wiedergibt. Der rechte Teil der Fig. 3 zeigt diejenigen Merkmale des Wortes "one", die sich von den gesprochenen Wörtern "zero", "two", "three" und so weiter unterscheiden.
Diese charakteristischen Merkmale werden sodann in einen konventionellen Algorithmus überführt, der es ermöglicht, die zeitlichen Variationen der natürlichen Sprache zu über­ winden. In diesem Beispiel wird das Hidden Semi-Markov Modell (HSMM) verwendet. Die charakteristischen Merkmale, wie sie durch das Neuralnetz identifiziert wurden, werden mit den HSMM-Parametern zur Speicherung im Speicher 17 integriert.
Auf diese Weise enthält der Speicher 17 ein Modell jedes Worts oder Phrase im Vokabular, das der Verwechslungsmög­ lichkeit dieses Worts mit anderen Wörtern im Vokabular Rechnung trägt. Die Einreihungsprozedur für die an­ schließende Musteranpassung bzw. -überprüfung wird hier­ durch verbessert.
Die verwendeten Unterscheidungsmerkmale zur Identifizie­ rung jedes Worts müssen nicht notwendigerweise Spektral­ merkmale sein. Es kann sich hierbei auch um lineare prä­ diktive Koeffizienten oder um andere Merkmale des Sprach­ signals handeln.
Die im Speicher gespeicherten Wortmodelle können Dynamic Time Warping (DTW)-Schablonen sein, um zeitlichen Varia­ tionen und der Neuralnetz-Distanzmetrik, summiert über das Wort hinweg, Rechnung zu tragen. Eine Syntaxeinheit 18, die zwischen dem Vokabularspeicher 17 und der Musterpaß­ einheit 16 zwischengeschaltet ist, kann dazu verwendet werden, beim gespeicherten Vokabular, das mit der Sprache verglichen wird, eine konventionelle Syntaxbegrenzung aus­ zuführen, entsprechend der Syntax der zuvor identifizierten Wörter.
Die Methode ermöglicht das Erkennen von Wörtern bei einer kontinuierlichen Sprechweise unter Verwendung eines Neural­ netzverfahrens bei verbesserter Worterkennung und ohne übermäßige Prozeßkapazität.

Claims (7)

1. Verfahren zur Spracherkennung, dadurch gekenn­ zeichnet, daß
Sprachsignale in Bezug auf eine Vielzahl bekannter Wörter oder Phrasen einem Neuralnetz (20) zugeführt werden,
das Neuralnetz die Merkmale jedes Worts oder Phrase identifiziert, in denen sich das Wort oder die Phrase von anderen Wörtern oder Phrasen unterscheidet,
Informationen über diese charakteristischen Unterschei­ dungsmerkmale zusammen mit Informationen des zugehöri­ gen Worts oder Phrase einem Speicher (17) zum Aufbau eines Bezugsvokabulars zugeführt werden und
Sprachsignale mit den gespeicherten charakteristischen Unterscheidungsmerkmalen verglichen und bei Überein­ stimmung die Information des identifizierten Worts oder Phrase vom Speicher (17) ausgegeben wird.
2. Verfahren nach Anspruch 1, dadurch gekenn­ zeichnet, daß jedes bekannte Wort oder Phrase mehrfach ausgesprochen wird, eine zeitliche Ausrich­ tung der gesprochenen Beispiele jedes Worts zur Er­ zeugung von Sprachsignalen erfolgt und diese dem Neu­ ralnetz (20) zugeführt werden.
3. Verfahren nach Anspruch 1 oder 2, dadurch ge­ kennzeichnet, daß die Merkmale jedes Worts oder Phrase, die als Unterscheidungsmerkmale identi­ fiziert werden, Spektralmerkmale sind.
4. Verfahren nach Anspruch 1 oder 2, dadurch ge­ kennzeichnet, daß die Merkmale jedes Worts oder Phrase, die als charakteristische Unterscheidungs­ merkmale identifiziert werden die linearen prädiktiven Koeffizienten sind.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß der Vergleich der Sprachsignale mit den gespeicherten charakteristischen Unterscheidungsmerkmalen mittels einer Hidden Semi- Markov Modelltechnik durchgeführt wird.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß das Bezugsvokabular im Speicher (17) dynamische Zeit-Warping-Schablonen der charakteristischen Unterscheidungsmerkmale enthält.
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß eine Syntaxbeschrän­ kung beim Bezugsvokabular entsprechend der Syntax der zuvor identifizierten Wörter ausgeführt wird.
DE4012337A 1989-05-18 1990-04-18 Verfahren zur erkennung von sprache Withdrawn DE4012337A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
GB898911461A GB8911461D0 (en) 1989-05-18 1989-05-18 Temperature adaptors

Publications (1)

Publication Number Publication Date
DE4012337A1 true DE4012337A1 (de) 1990-11-22

Family

ID=10656978

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4012337A Withdrawn DE4012337A1 (de) 1989-05-18 1990-04-18 Verfahren zur erkennung von sprache

Country Status (4)

Country Link
JP (1) JPH0315898A (de)
DE (1) DE4012337A1 (de)
FR (1) FR2647249B1 (de)
GB (2) GB8911461D0 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0983906A2 (de) 1998-08-29 2000-03-08 Volkswagen Aktiengesellschaft Verfahren und Steuereinrichtung zur Bedienung technischer Einrichtungen eines Fahrzeugs

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9116255D0 (en) * 1991-07-27 1991-09-11 Dodd Nigel A Apparatus and method for monitoring
KR100202425B1 (ko) * 1992-08-27 1999-06-15 정호선 가전제품의 리모콘 명령어를 인식하기 위한 음성 인식 시스템
DE4309985A1 (de) * 1993-03-29 1994-10-06 Sel Alcatel Ag Geräuschreduktion zur Spracherkennung
IT1270919B (it) * 1993-05-05 1997-05-16 Cselt Centro Studi Lab Telecom Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali
ITTO980383A1 (it) 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
CN103856600B (zh) * 2012-12-04 2016-09-28 中兴通讯股份有限公司 一种内置搜索语音短信功能的移动终端及其搜索方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0983906A2 (de) 1998-08-29 2000-03-08 Volkswagen Aktiengesellschaft Verfahren und Steuereinrichtung zur Bedienung technischer Einrichtungen eines Fahrzeugs

Also Published As

Publication number Publication date
FR2647249B1 (fr) 1993-07-09
GB8911461D0 (en) 1989-07-05
GB9010291D0 (en) 1990-06-27
GB2231698B (en) 1993-07-28
GB2231698A (en) 1990-11-21
JPH0315898A (ja) 1991-01-24
FR2647249A1 (fr) 1990-11-23

Similar Documents

Publication Publication Date Title
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE60020865T2 (de) System, Verfahren und Computerprogramm für einen telefonischen Emotionsdetektor mit Rückmeldung an einen Bediener
EP0925461B1 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
DE69725172T2 (de) Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE3242866C2 (de)
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE10138408A1 (de) Verfahren zur Unterstützung des Korrekturlesens eines spracherkannten Textes mit an die Erkennungszuverlässigkeit angepasstem Wiedergabegeschwindigkeitsverlauf
EP1264301B1 (de) Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem
DE60108104T2 (de) Verfahren zur Sprecheridentifikation
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE4010028C2 (de) Spracherkennungsverfahren
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
DE102014207437B4 (de) Spracherkennung mit einer Mehrzahl an Mikrofonen
US5278911A (en) Speech recognition using a neural net
DE2021126C3 (de) Spracherkennungs anordnung
DE112015007163B4 (de) Spracherkennungsvorrichtung, Sprachhervorhebungsvorrichtung, Spracherkennungsverfahren, Sprachhervorhebungsverfahren und Navigationssystem
DE4012337A1 (de) Verfahren zur erkennung von sprache
DE19654549C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60317218T2 (de) Verfahren zur spracherkennung mit automatischen korrektur
DE3129353A1 (de) Verfahren zur sprecherunabhaengigen erkennung von gesprochenen worten in fernmeldesystemen
DE69814442T2 (de) Strukturerkennung
EP1445759B1 (de) Benutzeradaptives Verfahren zur Geräuschmodellierung in Spracherkennung
DE4015381A1 (de) Spracherkennungsgeraet und verfahren zur spracherkennung
DE102004011426B3 (de) Vorrichtung zum Erkennen einer in einem Sprachsignal enthaltenen Emotion und Verfahren zum Erkennen einer in einem Sprachsignal enthaltenen Emotion

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8139 Disposal/non-payment of the annual fee