DE4012337A1

DE4012337A1 - Verfahren zur erkennung von sprache

Info

Publication number: DE4012337A1
Application number: DE4012337A
Authority: DE
Inventors: Ian Bickerton
Original assignee: Smiths Group PLC
Current assignee: Smiths Group PLC
Priority date: 1989-05-18
Filing date: 1990-04-18
Publication date: 1990-11-22
Also published as: JPH0315898A; FR2647249A1; GB2231698A; GB9010291D0; GB8911461D0; GB2231698B; FR2647249B1

Description

Die Erfindung betrifft ein Verfahren zur Erkennung von Sprache.

Bei komplexen Anlagen, die viele Funktionen aufweisen, kann es nützlich sein, bestimmte Funktionen durch gespro chene Befehle zu steuern. Eine solche Steuerung ist auch dort nützlich, wo die Hände einer Person andere Aufgaben auszuführen haben oder wo der Sprecher nicht in der Lage ist, mit seinen Händen konventionelle mechanische Schalter oder Steuergeräte zu bedienen.

Die Programmierung eines Spracherkennungsgeräts wird er reicht durch Lesen einer Liste von Wörtern oder Phrasen, die in ein Bezugsvokabular aufgenommen werden sollen. Die Sprechtöne werden hierbei bezüglich ihrer Spektralkompo nenten analysiert und als Spektral-Zeitwortmodelle oder -schablonen gespeichert.

Wird ein unbekanntes Wort ausgesprochen, wird dies eben falls in seine Spektralkomponenten zerlegt und mit dem Bezugsvokabular verglichen, was mittels geeigneter Algorith men erfolgt, beispielsweise mittels des Hidden Semi-Markov Modells. Das Bezugsvokabular wird bevorzugt aufgebaut, indem das gleiche Wort unter verschiedenen Umständen und von unterschiedlichen Leuten mehrfach ausgesprochen wird. Dies führt zu einer Spreizung der Wortmodelle, so daß eine höhere Wahrscheinlichkeit besteht, daß ein gesprochenes Wort von den gespeicherten Wortmodellen identifiziert wird. Die Verbreiterung der Wortmodelle führt jedoch zu einer Überlappung ähnlicher Wortmodelle, so daß eine größere Wahrscheinlichkeit einer falschen Identifikation besteht.

Die Verwendung von Neuralnetzen wurde ebenfalls schon vor geschlagen, jedoch sind diese nicht zur Identifikation bei einer kontinuierlichen Aussprache, beispielsweise von Sätzen, geeignet.

Die Möglichkeit, eine richtige Identifikation gesprochener Wörter zu erreichen, wird bei ungünstigen Umständen zu nehmend schwieriger, wie beispielsweise bei starken Hinter grundsgeräuschen oder wenn die Aussprache einer Person unter Streß erfolgt.

Es besteht die Aufgabe, ohne Erhöhung der Speicherkapizi tät des die Wortmodelle speichernden Speichers die Wort erkennung zu verbessern.

Gelöst wird diese Aufgabe mit den kennzeichnenden Merkmalen des Anspruches 1. Vorteilhafte Ausgestaltungen sind den Unteransprüchen entnehmbar.

Gemäß dem Verfahren werden mehrere Sprachsignale mehrerer bekannter Wörter oder Phrasen erzeugt und einem Neural netz zugeführt. Das Neuralnetz identifiziert die Merkmale jedes Worts oder jeder Phrase, die sich von anderen Wörtern oder Phrasen unterscheiden. Diese Informationen in Bezug auf die charakteristischen Merkmale werden zusammen mit Informationen zur Identifikation des Worts oder der Phrase einem Speicher zugeführt zum Aufbau eines Bezugsvokabulars. Gesprochene Signale werden sodann verglichen mit den cha rakteristischen Merkmalen, wie sie im Vokabularspeicher gespeichert sind, zur Identifikation des gesprochenen Worts oder Phrase.

Bevorzugt werden die gesprochenen Beispiele jedes Worts zeitlich zueinander ausgerichtet und dem Neuralnetz zuge führt. Die ermittelten Unterscheidungsmerkmale können Spek tralmerkmale oder lineare prädiktive Koeffizienten sein. Der Vergleich des gesprochenen Signals mit den gespeicher ten Sprachschablonen wird bevorzugt ausgeführt nach der Technik des Hidden Semi-Markov Modells. Das Bezugsvokabular im Speicher können Dynamic Time Warping-Schablonen enthal ten. Eine Syntaxbegrenzung beim Bezugsvokabular kann bevor zugt entsprechend der Syntax der zuvor identifizierten Wörter ausgeführt werden.

Ein Ausführungsbeispiel des Verfahrens wird nachfolgend anhand der Zeichnungen näher erläutert. Es zeigen:

Fig. 1 das Blockschaltbild eines Spracherkennungs geräts,;

Fig. 2 die aufeinanderfolgenden Schritte des Ver fahrens und

Fig. 3 einen Schritt bei der Ausführung des Ver fahrens.

Das Spracherkennungsgerät ist in seiner Gesamtheit mit der Bezugsziffer 1 gekennzeichnet und erhält Sprachein gangssignale von einem Mikrophon 2, das beispielsweise in der Sauerstoffmaske eines Flugzeugpiloten angeordnet ist. Ausgangssignale, welche repräsentativ für identifi zierte Wörter sind, werden vom Gerät 1 einer Rückführvor richtung 3 und einer Betätigungsvorrichtung 4 zugeführt.

Bei der Rückführvorrichtung 3 kann es sich um eine visuelle Anzeigevorrichtung oder um einen Lautsprecher handeln, der den Sprecher der Wörter davon informiert, wenn ein Wort vom Gerät 1 identifiziert wurde. Die Betätigungsvor richtung 4 steuert gemäß diesem Beispiel Funktionen im Flugzeug in Abhängigkeit eines gesprochenen Befehls, der vom Gerät identifiziert wurde.

Die Signale des Mikrophons 2 werden einem Vorverstärker 10 zugeführt, der eine Vorbetonungsstufe 11 umfaßt, welche ein flaches langzeitiges Durchschnittssprachspektrum er zeugt, um sicherzustellen, daß alle Frequenzkanalausgänge einen gleichen Dynamikbereich einnehmen, dessen Charakteri stik nominell flach bis zu 1 kHz ist. Ein Schalter 12 kann eingestellt werden, um entweder eine 3 oder 6 dB/Oktave- Anhebung bei höheren Frequenzen zu ergeben. Der Vorver stärker 10 weist weiterhin ein Anti-Aliasing-Filter 21 in Form eines Butterworth-Tiefpaßfilters achter Ordnung auf, das eine -3 dB-Grenzfrequenz bei 4 kHz aufweist.

Das Ausgangssignal des Vorverstärkers 10 wird über einen Analog-Digitalkonverter 13 einer digitalen Filterbank 14 zugeführt. Die Filterbank 14 weist 19 Kanäle auf, die als Assembly-Software in einem TMS32010-Mikroprozessor ausge führt sind, basierend auf dem JSRU Channel Vocoder, be schrieben bei J.N. Holmes in IEE Proc., Band 127, Pt.F, Nr. 1, Februar 1980. Die Filterbank 14 weist einen unglei chen Kanalabstand auf, näherungsweise entsprechend den kritischen Bändern eines hörbaren Wahrnehmungsvermögens im Bereich von 250 bis 4000 Hz. Die Ansprechempfindlich keiten benachbarter Kanäle kreuzen sich bei näherungsweise 3 dB unterhalb ihrer Spitzen. Im Zentrum eines Kanals be trägt die Dämpfung eines benachbarten Kanals etwa 11 dB.

Signale von der Filterbank 14 werden einer Integrations- und Geräuschmarkierungseinheit 15 zugeführt, welche einen Geräuschmarkierungsalgorithmus durchführt, wie er von J.S. Bridle et al. beschrieben ist. (A noise compensating spectrum distance measure applied to automatic speech recognition, Proc. Inst. Acoust., Windemere Nov. 1984.) Anpaßbare Geräuschlöschtechniken zur Reduzierung periodi scher Geräusche können bei der Einheit 15 durchgeführt werden, was nützlich ist zur Reduzierung wiederkehrender Geräusche, beispielsweise des periodischen Geräuschs eines Hubschraubers.

Der Ausgang der Geräuschmarkierungseinheit 15 wird einer Musterpaßeinheit 16 zugeführt, welche verschiedene Muster paßalgorithmen ausführt. Die Musterpaßeinheit 16 ist ver bunden mit einem Vokabularspeicher 17, welcher Markov- Modelle in Bezug auf unterscheidbare Merkmale jedes Worts oder Phrase im Bezugsvokabular enthält. Diese charakteri stischen Merkmale werden in den Vokabularspeicher in der Weise eingegeben, wie sie anhand der Fig. 2 und 3 er läutert wird.

Als erstes werden isolierte Beispiele jedes Worts oder Phrase, die in das Bezugsvokabular aufgenommen werden sol len, aufgezeichnet. Dies wird wiederholt, so daß viele Beispiele jedes Worts oder Phrase zur Verfügung stehen. Als nächstes werden mittels eines dynamischen Programms die einzelnen aufgezeichneten Aussprachen zeitlich zu einem Mittelwert der Aussprachen gefluchtet. Hierdurch werden die zeitlichen Variationen der natürlichen Sprache besei tigt, die entstehen, wenn das gleiche Wort unterschiedlich schnell ausgesprochen wird. Das gemittelte Wort wird als solches ausgewählt, das eine mittlere Dauer aufweist, oder es wird dazu verwendet, in der Mitte einer Wörtergruppe plaziert zu werden. Falls beispielsweise das Bezugsvoka bular die Zahlen "0" bis "9" umfaßt, dann weisen alle Trainingswiederholungen jeder Zahl nach der dynamischen Verarbeitung die gleiche Zeitdauer auf.

Die zeitlich fluchtenden Sätze der Trainingswörter werden nunmehr einem Neuralnetz (Nervennetz) präsentiert. Die Neuralnetzstruktur kann einfach oder mehrfach geschichtet sein mit irgendeiner konventionellen Fehlerrückverfolgungs lernstrategie. Das Neuralnetz ist so ausgebildet, daß es charakteristische Spektralmerkmale des Vokabulars lernt, d.h. solche Merkmale eines Worts, die unterschiedlich sind von den anderen Wörtern im Vokabular. Ein Beispiel davon ist in Fig. 3 dargestellt, das links die Spektral-Zeitana lyse des gesprochenen Worts "one" wiedergibt. Der rechte Teil der Fig. 3 zeigt diejenigen Merkmale des Wortes "one", die sich von den gesprochenen Wörtern "zero", "two", "three" und so weiter unterscheiden.

Diese charakteristischen Merkmale werden sodann in einen konventionellen Algorithmus überführt, der es ermöglicht, die zeitlichen Variationen der natürlichen Sprache zu über winden. In diesem Beispiel wird das Hidden Semi-Markov Modell (HSMM) verwendet. Die charakteristischen Merkmale, wie sie durch das Neuralnetz identifiziert wurden, werden mit den HSMM-Parametern zur Speicherung im Speicher 17 integriert.

Auf diese Weise enthält der Speicher 17 ein Modell jedes Worts oder Phrase im Vokabular, das der Verwechslungsmög lichkeit dieses Worts mit anderen Wörtern im Vokabular Rechnung trägt. Die Einreihungsprozedur für die an schließende Musteranpassung bzw. -überprüfung wird hier durch verbessert.

Die verwendeten Unterscheidungsmerkmale zur Identifizie rung jedes Worts müssen nicht notwendigerweise Spektral merkmale sein. Es kann sich hierbei auch um lineare prä diktive Koeffizienten oder um andere Merkmale des Sprach signals handeln.

Die im Speicher gespeicherten Wortmodelle können Dynamic Time Warping (DTW)-Schablonen sein, um zeitlichen Varia tionen und der Neuralnetz-Distanzmetrik, summiert über das Wort hinweg, Rechnung zu tragen. Eine Syntaxeinheit 18, die zwischen dem Vokabularspeicher 17 und der Musterpaß einheit 16 zwischengeschaltet ist, kann dazu verwendet werden, beim gespeicherten Vokabular, das mit der Sprache verglichen wird, eine konventionelle Syntaxbegrenzung aus zuführen, entsprechend der Syntax der zuvor identifizierten Wörter.

Die Methode ermöglicht das Erkennen von Wörtern bei einer kontinuierlichen Sprechweise unter Verwendung eines Neural netzverfahrens bei verbesserter Worterkennung und ohne übermäßige Prozeßkapazität.

Claims

1. Verfahren zur Spracherkennung, dadurch gekenn zeichnet, daß
Sprachsignale in Bezug auf eine Vielzahl bekannter Wörter oder Phrasen einem Neuralnetz (20) zugeführt werden,
das Neuralnetz die Merkmale jedes Worts oder Phrase identifiziert, in denen sich das Wort oder die Phrase von anderen Wörtern oder Phrasen unterscheidet,
Informationen über diese charakteristischen Unterschei dungsmerkmale zusammen mit Informationen des zugehöri gen Worts oder Phrase einem Speicher (17) zum Aufbau eines Bezugsvokabulars zugeführt werden und
Sprachsignale mit den gespeicherten charakteristischen Unterscheidungsmerkmalen verglichen und bei Überein stimmung die Information des identifizierten Worts oder Phrase vom Speicher (17) ausgegeben wird.

2. Verfahren nach Anspruch 1, dadurch gekenn zeichnet, daß jedes bekannte Wort oder Phrase mehrfach ausgesprochen wird, eine zeitliche Ausrich tung der gesprochenen Beispiele jedes Worts zur Er zeugung von Sprachsignalen erfolgt und diese dem Neu ralnetz (20) zugeführt werden.

3. Verfahren nach Anspruch 1 oder 2, dadurch ge kennzeichnet, daß die Merkmale jedes Worts oder Phrase, die als Unterscheidungsmerkmale identi fiziert werden, Spektralmerkmale sind.

4. Verfahren nach Anspruch 1 oder 2, dadurch ge kennzeichnet, daß die Merkmale jedes Worts oder Phrase, die als charakteristische Unterscheidungs merkmale identifiziert werden die linearen prädiktiven Koeffizienten sind.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß der Vergleich der Sprachsignale mit den gespeicherten charakteristischen Unterscheidungsmerkmalen mittels einer Hidden Semi- Markov Modelltechnik durchgeführt wird.

6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß das Bezugsvokabular im Speicher (17) dynamische Zeit-Warping-Schablonen der charakteristischen Unterscheidungsmerkmale enthält.

7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß eine Syntaxbeschrän kung beim Bezugsvokabular entsprechend der Syntax der zuvor identifizierten Wörter ausgeführt wird.