DE4015381A1

DE4015381A1 - Spracherkennungsgeraet und verfahren zur spracherkennung

Info

Publication number: DE4015381A1
Application number: DE4015381A
Authority: DE
Inventors: Michael Robinson Taylor
Original assignee: Smiths Group PLC
Current assignee: Smiths Group PLC
Priority date: 1989-05-16
Filing date: 1990-05-14
Publication date: 1990-11-22
Also published as: GB2231700B; FR2647248A1; GB8911153D0; GB9010577D0; GB2231700A; JPH03208099A

Description

Die Erfindung betrifft ein Spracherkennungsgerät nach dem Oberbegriff des Anspruches 1 und ein Verfahren zur Spracherkennung.

Spracherkennungsgeräte vergleichen die von einem Sprecher gesprochenen Wörter mit Informationen in einem Speicher, wobei diese Informationen ein Bezugsvokabular darstellen. Sind die gesprochenen Wörter ziemlich ähnlich mit den spektral-temporalen oder akustisch-phonetischen Informa tionen im Speicher, dann sind auf diese Weise die gespro chenen Wörter identifizierbar. Das Maß der Übereinstimmung kann hierbei gestaffelt werden. Das Bezugsvokabular wird abgeleitet von Informationen verschiedener Sprecher bei unterschiedlichen Verhältnissen und kann modifiziert werden, um ziemlich eng das Sprachmuster eines bestimmten Sprechers zu charakterisieren. Eine ziemlich genaue und zuverlässige Spracherkennung wird erhalten, wenn die Aussprache des Sprechers ziemlich gleich ist zu derjeni gen, mit welcher das Bezugsvokabular erzeugt wurde.

Unter bestimmten Umgebungsverhältnissen kann jedoch die Aussprache des Sprechers so modifiziert sein, daß eine Spracherkennung unzuverlässig wird. Dies ist beispiels weise der Fall, wenn die Aussprache des Sprechers durch lineare Beschleunigungskräfte beeinflußt wird, wie bei spielsweise durch hohe g-Kräfte in Flugzeugen. Weitere Einflüsse können Vibrationen oder Streßsituationen sein, welche das Aussprachemuster so verändern, daß das Sprach erkennungsgerät keine Übereinstimmung mit dem gespeicher ten Vokabular feststellt. Gemäß der GB-A 21 86 726 soll dieses Problem gelöst werden. Hierbei werden Beschleu nigungen oder andere Umgebungseinflüsse gemessen, die dazu verwendet werden, die gespeicherten Bezugsschablonen oder Wortmodelle des Bezugsvokabulars zu modifizieren. Hierbei erfolgt eine dynamische Anpassung der Schablonen oder Wortmodelle in der Weise, wie die Aussprache durch diese Umgebungseinflüsse beeinflußt wird. Damit wird erreicht, daß die gespeicherte Information nach ihrer Anpassung eine größere Ähnlichkeit mit der tatsächlichen, beeinflußten Aussprache aufweist, beispielsweise der Aussprache bei Beschleunigungen. Nachteilig ist hierbei jedoch, daß eine große Rechnerkapazität erforderlich ist und auch bei schnell arbeitenden Rechnern eine merk bare Verzögerung bei der Spracherkennung auftritt.

Es besteht die Aufgabe, das Spracherkennungsgerät so auszubilden und das Verfahren zur Spracherkennung so durchzuführen, daß auch durch Umgebungseinflüsse beein flußte Aussprachen rasch und sicher erkannt werden.

Bei einem Spracherkennungsgerät der eingangs genannten Art wird diese Aufgabe mit den kennzeichnenden Merkmalen des Anspruches 1 gelöst. Die Lösung des Verfahrens ist in Anspruch 9 angegeben. Bevorzugte Ausführungsformen können den Unteransprüchen entnommen werden.

Ein Ausführungsbeispiel eines Spracherkennungsgeräts für ein Flugzeug und ein Verfahren zur Spracherkennung werden nachfolgend anhand der Zeichnungen näher erläutert. Es zeigen:

Fig. 1 ein Blockschaltbild des Geräts;

Fig. 2 ein Diagramm zur Erläuterung der Arbeits weise eines bekannten Geräts und

Fig. 3 eine graphische Darstellung zur Erläuterung eines Teils des Geräts nach Fig. 1.

Das Spracherkennungsgerät weist eine Prozeßeinheit 10 auf, der Eingangssignale von einem Mikrofon 1, einem Kehlkopfmikrofon 2, Umgebungssensoren 3 und von einem Datenbus 4 zugeführt werden.

Das Mikrofon 1 ist nahe dem Mund des Sprechers angeordnet und erfaßt somit die Sprechtöne. Das Kehlkopfmikrofon kann aufgebaut sein wie in der GB-A 21 93 024 beschrieben, ist am Nacken des Sprechers befestigt und erfaßt die Bewegungen der Stimmbänder und liefert somit Ausgangs signale, die den gesprochenen Sprechtönen entsprechen. Die Umgebungssensoren 3 sind so angeordnet, daß sie im wesentlichen die gleichen Umgebungseinflüsse erfassen, denen der Sprecher ausgesetzt ist. Die Sensoren 3 können bestehen aus einem Beschleunigungssensor, der auf die g-Kräfte anspricht, denen der Sprecher ausgesetzt ist, einem Vibrationssensor sowie einem Geräuschsensor.

Die Signale vom Mikrofon 1 werden zuerst einer Filterein heit 11 in der Prozeßeinheit 10 zugeführt, der auch die Signale vom Kehlkopfmikrofon 2 und den Sensoren 3 zuge führt werden und deren Arbeitsweise später beschrieben wird. Die Ausgangssignale der Filtereinheit 11 werden zugeführt einer Spektralanalyseeinheit 12, die Ausgangs signale in Übereinstimmung mit den Frequenzbändern er zeugt, in welche die Töne fallen. Diese Ausgangssignale werden zugeführt einer Spektralkorrektur- und Geräusch adaptionseinheit 13, bei welcher das Signal-Rauschver hältnis verbessert wird oder welche jene Signale elimi niert oder markiert, die nur von Geräuschen und nicht von Sprache stammen können. Die Ausgangssignale der Ein heit 13 werden zugeführt dem Eingang eines Komparators oder einer Musterpaßeinheit 14. Der andere Eingang der Muster paßeinheit 14 stammt von einem Vokabularspeicher 30, der später noch im einzelnen beschrieben wird. Die Muster paßeinheit 14 vergleicht die Spektral-Temporalfrequenz zeitmuster des Mikrofons 1 mit dem gespeicherten Voka bular und erzeugt ein Ausgangssignal in der Leitung 15 in Übereinstimmung mit dem Wort, bei welchem die beste Passung bzw. Übereinstimmung oder die höchste Wahrschein lichkeit besteht, daß es das vom Mikrofon 1 übermittelte Wort ist.

Das Ausgangssignal in der Leitung 15 wird einem Eingang einer Nacherkennungsprozeßeinheit 16 zugeführt, deren anderer Eingang mit einem entfernten Terminal 17 ver bunden ist, über den Zustands- und dynamische Daten zuge führt werden. Die Einheit 16 führt verschiedene Aufgaben bei der Wortfolge aus, wie sie von der Musterpaßeinheit 14 ausgegeben werden. Die Nacherkennungsprozeßeinheit 16 weist drei Ausgänge auf. An einen Ausgang ist die Leitung 18 angeschlossen, die einen Rückführkanal zu einer Anzeige 21 bildet. Diese Anzeige kann eine hörbare oder visuelle Anzeige sein, die dem Sprecher angibt, welches gesprochene Kommando von den Einheiten 14 und 16 identifiziert wurde, damit er dieses überprüfen kann oder das ein Signal erzeugt, welches anzeigt, daß eine Wiederholung des gesprochenen Kommandos durchgeführt werden soll, wenn das Gerät ein gesprochenes Kommando nicht identifiziert hat. Der zweite Ausgang ist mit der Leitung 19 verbunden, die zu einer Wortuntersatz-Auswahl einheit 32 führt, die Teil des Vokabularspeichers 30 ist. Die Arbeitsweise der Einheit 32 wird später noch beschrieben. Der dritte Ausgang ist mit der Leitung 20 verbunden und erzeugt Systemsteuersignale für den ent fernten Terminal 17. Die Systemsteuersignale werden er zeugt, wenn die Einheit 10 mit ausreichender Wahrschein lichkeit ein gesprochenes Kommando identifiziert hat, das dann die Steuerung externer Geräte über den Datenbus 4 bewirkt.

Der Speicher 30 umfaßt ein Bezugsvokabular 31 in Form von Musterschablonen oder Wortmodellen der spektral-tem poralen Muster oder Zustandsbeschreibungen verschiedener Wörter. Dieses Vokabular wird errichtet, indem der Spre cher eine Liste von Wörtern spricht und zwar unter norma len Umgebungsbedingungen, ohne Vibrationen, ohne Ge räusche und ohne Beschleunigungen. Die gesprochenen Wör ter werden in das Vokabularregister 31 eingegeben und mit dem zugehörigen Wort markiert. Das Gesamtvokabular 31 kann reduziert werden durch eine fakultative Unter satzauswahl 32 bei Steuerung durch Signale in der Leitung 19 in Übereinstimmung mit zuvor gesprochenen und erkannten Wörtern.

Nach der Untersatzauswahl wird das Vokabular bei 33 einer aktiven Wortauswahl unterworfen, in Abhängigkeit von Zustandsdaten in der Leitung 34, die vom Terminal 17 stammen und welche abgeleitet sind von Informationen, die über den Datenbus 4 dem Terminal zugeführt werden.

Bei einem Flugzeug beispielsweise zeigen die Zustands daten an, ob das Flugzeug landet, startet oder sich im Flugzustand befindet. Alternativ dazu können die Zustands daten beispielsweise auch dazu dienen, die Auswahl von Funkfrequenzen aus dem Vokabular 33 zu sperren, wenn zuvor ein Funkfrequenzkanal ausgesprochen und identifi ziert wurde, da dann die Wahrscheinlichkeit gering ist, daß die Auswahl einer anderen Funkfrequenz gewünscht wird. Eine schlechte Übereinstimmung mit ausgewählten aktiven Schablonen kann dazu verwendet werden, eine Neu verarbeitung der Sprache in einer breiteren Syntax durch zuführen.

Die von der Einheit 16 auszuführenden Arbeiten sind fol gende:

1. Grammatische Satzzergliederung und Worterkennungs techniken werden dazu verwendet, Fehler zu erkennen und Wörter zurückzugewinnen, welche nicht identifi ziert wurden.
2. Identifikation der Schablonenfolge oder Wortmodell sequenz von Wörtern, die am besten im Zusammenhang stehen mit der im Augenblick vorliegenden Informa tion. Da spezielle Wortfolgen wahrscheinlicher sind als andere während besonderer Umgebungsumstände, kann dies dazu verwendet werden, die Identifikation spezieller gesprochener Kommandos zu verbessern.
3. Nach der endgültigen Identifikation kann die Prozeß einheit 16 Signale erzeugen, um die bei 32 ausgeführte Vokabularuntersatzauswahl auf den neuesten Stand zu bringen. Diese Signale werden dem Vokabularspeicher 30 über die Leitung 19 zugeführt.

Es ist bekannt, daß die Sprache durch die Umgebungsver hältnisse beeinflußt werden kann, denen der Sprecher unter worfen ist. Das Ergebnis von beispielsweise hohen Beschleu nigungen, denen der Sprecher ausgesetzt ist, kann dazu führen, daß die Brust und die Kehle hohen Drücken ausge setzt ist, wodurch das Sprechen erschwert wird und die Sprache somit von konventionellen Spracherkennungsgeräten nicht identifizierbar ist. Wirken beispielsweise starke Vibrationen auf den Sprecher, dann wird hierdurch die Mög lichkeit der Artikulation und der Luftstrommechanismus beeinflußt und damit die Sprache stark verfälscht. Dies ist beschrieben in "Effects of Low Frequency Whole-Body Sinusoidal Vibration on Speech" von Michael R. Taylor, Proc. I.O.A. Band 11, Teil 5 (1989) Seiten 151 bis 158 sowie in "Studies in Automatic Speech Recognition and its Application in Aerospace", Kapitel 5 - Doktorarbeit von Michael R. Taylor.

Es wurde weiterhin gefunden, daß bei starken Umgebungsge räuschen der Sprecher automatisch seine Aussprache derart ändert, daß nicht nur die Amplitude anwächst. Streß situationen, wie beispielsweise bei Müdigkeit, hohen Be lastungen oder Gefahrensituationen, beeinflussen ebenfalls das Sprachmuster des Sprechers. Die Sprachveränderungen, die bei diesen unterschiedlichen Umgebungsbedingungen auf treten, sind komplex und benötigen zu ihrer Kompensation bei einem Spracherkennungsgerät eine große Rechnerkapazi tät. Es wurde jedoch gefunden, daß diese Umgebungseinflüsse einen einheitlichen Effekt besonderer Art auf die Aus sprache ausüben. Im speziellen wurde erkannt, daß diese Umgebungseinflüsse zu einer Erhöhung der mittleren funda mentalen Erregungsfrequenz bei der Aussprache führen, d.h. bei der durch Bewegungen der Stimmbänder erzeugten Sprache, was zu einer Aufwärtsverzerrung im gesprochenen Sprach spektrum führt.

Bei konventionellen Spracherkennungsgeräten ist es allge mein üblich, einen Vorfilter zu verwenden, der ein Anheben der oberen Frequenzen im Sprachsignal bewirkt, bevor ir gendwelche Musteranpassungsfunktionen ausgeführt werden. Die Wirkung eines solchen Filters ist in Fig. 2 darge stellt. Im vorliegenden Fall jedoch arbeitet die Filter einheit 11 in entgegengesetzter Richtung, derart, daß die mittlere Frequenz des Spracheingangssignals reduziert wird, d.h. daß unter bestimmten Umständen eine Sprachverzerrung in Richtung abnehmender Amplitude bei höheren Frequenzen durchgeführt wird, wie dies die Fig. 3 zeigt. Dies wird erreicht durch Bedämpfen höherer Frequenzen, um progressiv größere Beträge. Die Fig. 3 zeigt eine Familie von drei Kurven A bis C, obwohl in Praxis eine beträchtlich größere Zahl von Kurven verwendbar ist. Die anwendbare Kurve wird ausgewählt gemäß der Größe und Art der Umgebungseinflüsse, denen der Sprecher ausgesetzt ist. Liegt beispielsweise eine hohe Beschleunigung mit einem hohen Umgebungsgeräusch pegel vor, dann arbeitet das Filter 11 nach der Charakteri stik der Kurve A, während bei geringen Beschleunigungen und einem geringeren Geräuschpegel die Kurve C verwendet wird.

Die spektrale Verzerrungskorrekturfunktion wird lediglich eingesetzt, wenn die Umgebungseinflüsse ausreichend groß sind, um die Sprache zu beeinflussen. Bei normalen Zustän den mit geringen Umgebungseinflüssen weist das Filter 11 eine neutrale flache Charakteristik auf oder die Charak teristik nach Fig. 2, wo das Sprachspektrum mit zunehmen der Frequenz angehoben wird.

Die gesprochene Sprache wird erfaßt in obigem Beispiel mittels eines Kehlkopfmikrofons oder einer anderen Vor richtung, welche auf die Bewegungen der Stimmbänder an spricht. Alternativ dazu kann die gesprochene Sprache identifiziert werden durch eine Analyse der Sprachsignale vom Mikrofon. Eine geeignete Analyse ist beschrieben in "Theory and Applications of Digital Signal Processing" von L.B. Rabiner und B. Gold, Prentice Hall Inc pub., 1975 Seiten 681 bis 687. Eine Modifikation der mittleren Fre quenz des Spracheingangssignals kann auf relativ einfache Art erreicht werden ohne große Rechnerkapazität und es wurde gefunden, daß ein beträchtliches Anwachsen der Er kennungsrate erreichbar ist, wenn ungünstige Umgebungs zustände vorliegen.

Obwohl das obige System anhand der Erzeugung von Steuer signalen beschrieben wurde, wie beispielsweise zur Steue rung von Teilen eines Flugzeugs, kann es auch verwendet werden bei Sprachkommunikationssystemen. Bei einem solchen System treten in der Leitung 20 anstelle der Steuersignale Sprachsignale auf, die identifizierten Wörtern oder Phrasen entsprechen. Die verschiedenen Verfahrensschritte des Er kennungssystems müssen nicht von diskreten Baueinheiten ausgeführt werden. Es ist auch möglich, ein oder mehrere Rechner oder Prozeßeinheiten entsprechend zu programmieren.

Claims

1. Spracherkennungsgerät mit einem die Sprache erfassenden und Sprachinformationssignale erzeugenden Sensor, die einem Komparator zugeführt werden, der diese Sprach informationssignale mit gespeicherten Sprachinforma tionssignalen vergleicht, dadurch gekenn zeichnet, daß das Gerät einen Sensor (3) auf weist, der die Umgebungseinflüsse erfaßt, denen der Sprecher ausgesetzt ist und die seine Aussprache modi fizieren, eine Vorrichtung (2) vorgesehen ist, die das Auftreten von Sprache erfaßt, ein Filter (11) vor gesehen ist, das die spektrale Neigung der Sprachin formationssignale während des Sprechens reduziert, wenn die gemessenen Umgebungseinflüsse ausreichend sind, um bei der Aussprache des Sprechers die mittlere fundamentale Erregungsfrequenz zu erhöhen, wobei die spektrale Neigung mindestens teilweise die Erhöhung der mittleren fundamentalen Erregungsfrequenz kompen siert und der Komparator (14) die so kompensierten Sprachinformationssignale mit den gespeicherten Sprach informationssignalen vergleicht.

2. Spracherkennungsgerät nach Anspruch 1, dadurch ge kennzeichnet, daß der Sensor ein Beschleu nigungssensor (3) ist.

3. Spracherkennungsgerät nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß der Sensor ein Vi brationssensor (3) ist.

4. Spracherkennungsgerät nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß der Sensor ein Geräuschsensor (3) ist.

5. Spracherkennungsgerät nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die Vorrichtung (2) die Bewegungen der Stimmbänder des Sprechers erfaßt.

6. Spracherkennungsgerät nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß das Filter (11) zwischen dem Sprachsensor (1) und einer Spektralanalyseeinheit (12) geschaltet ist, wobei die Spektralanalyseeinheit (12) Ausgangssignale erzeugt, welche repräsentativ für die Frequenzbänder sind, in welche die gesprochenen Töne fallen.

7. Spracherkennungsgerät nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß das Filter (11) die Amplitude der Sprachinformationssignale mit zunehmenden Umgebungseinflüssen zunehmend ver mindert.

8. Spracherkennnungsgerät nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß das Filter (11) die Amplitude der Sprachinformationssignale mit zunehmender Frequenz zunehmend bedämpft.

9. Verfahren zur Spracherkennung, bei welchem die von der Sprache eines Sprechers abgeleiteten Sprachinfor mationssignale mit gespeicherten Sprachinformations signalen verglichen werden, dadurch gekenn zeichnet, daß die Umgebungseinflüsse erfaßt werden, denen der Sprecher ausgesetzt ist und welche die Sprechtöne des Sprechers modifizieren, die spek trale Neigung der Sprachinformationssignale während des Sprechens reduziert werden, wenn die gemessenen Umgebungseinflüsse ausreichend sind, um bei der Aus sprache des Sprechers die mittlere fundamentale Er regungsfrequenz zu erhöhen, hierbei die spektrale Nei gung mindestens teilweise die Erhöhung der mittleren fundamentalen Erregungsfrequenz kompensiert und die so kompensierten Sprachinformationssignale mit den gespeicherten Sprachinformationssignalen verglichen werden.

10. Verfahren nach Anspruch 9, dadurch gekenn zeichnet, daß die Amplitude der Sprachinfor mationssignale mit zunehmenden Umgebungseinflüssen zunehmend vermindert wird.

11. Verfahren nach Anspruch 9 oder 10, dadurch ge kennzeichnet, daß die Amplitude der Sprachinformationssignale mit zunehmender Frequenz zunehmend vermindert wird.