DE69701774T2

DE69701774T2 - Spracherkennung in geräuschvoller umgebung und vorrichtung zur durchführung des verfahrens

Info

Publication number: DE69701774T2
Application number: DE69701774T
Authority: DE
Inventors: Christian Gulli; Dominique Pastor; Gerard Raynaud
Original assignee: Thales Avionics SAS
Current assignee: Thales Avionics SAS
Priority date: 1996-01-26
Filing date: 1997-01-24
Publication date: 2000-11-09
Anticipated expiration: 2017-01-25
Also published as: DE69701774D1; US6128594A; FR2744277B1; FR2744277A1; EP0818036B1; JPH11502953A; CA2214103A1; EP0818036A1; WO1997027577A1

Description

Die vorliegende Erfindung bezieht sich auf ein Verfahren zur Spracherkennung sowie auf ein System zur Sprachsteuerung in einer "schwierigen" Umgebung, d. h. in einer Umgebung, in der sich nicht nur Lärm störend auswirkt, sondern in der auch verschiedene physikalische und physiologische Faktoren auf den Anwender einwirken können.
In einer schwierigen Umgebung wie beispielsweise in derjenigen, die im Cockpit eines Militärflugzeugs herrscht, sind die Vorrichtungen zur Aufnahme, zur Wiedergabe und zur Bearbeitung der Stimme nicht optimiert, sondern zumeist sogar schlecht ausgeführt. Die Funkverbindungen zwischen der Besatzung und ihren Gesprächspartnern sind von schlechter Qualität. Die Anwender kommunizieren mit mehreren Gesprächspartnern (weiteren Flugzeugen, Bodenstationen, weiteren Besatzungsmitgliedern, ihre eigene Stimme wird an sie zurückübertragen). Diese Verbindungen sind monophon, gestört, kaum verständlich und nicht hierarchisch strukturiert. Außerdem können verschiedene physikalische und physiologische Faktoren die Leistungsfähigkeit des Anwenders beeinträchtigen. Von diesen Faktoren seien insbesondere der Faktor der Belastung durch das Flugzeug, die Sauerstoffmaske, der Atemüberdruck und der Streß des Piloten hervorgehoben. Diese schlechten Verständigungsmöglichkeiten, die zum Umgebungslärm hinzukommen, tragen erheblich zur Ermüdung der Besatzungen bei und können sogar ihre Gesundheit beeinträchtigen. Die Helme, die sie tragen, schützen sie wenig oder schlecht vor diesen Störgeräuschen. Die einzigen Mittel, über die sie verfügen, um zu versuchen, diese Gespräche etwas besser verständlich zu machen, sind Befehle zur Lautstärkeregelung, was bei weitem nicht befriedigend ist. Die verschiedenen Vorrichtungen zur Realisierung dieser Verbindungen sind heterogen und ihre Kennlinien sind nicht immer völlig kompatibel. Außerdem zieht die wachsende Komplexität der Bordsysteme eine Arbeitsüberlastung der Bedienungsperson nach sich, die Streß, einen Konzentrationsverlust und schließlich einen Leistungsfähigkeitsverlust hervorruft, der für die Fortführung einer die beste Verfassung erfordernden Einsatzaufgabe besonders verhängnisvoll ist. Unter diesen Umständen ist eine Sprachsteuerungsvorrichtung mit einer hohen Erkennungsrate besonders günstig, denn sie ermöglicht in einer verhältnismäßig direkten und natürlichen Art und Weise, ein komplexes System zu steuern, ohne die gesamte Aufmerksamkeit der Bedienungsperson zu binden, was bei weitem nicht der Fall ist, wenn taktile Oberflächen, Tastaturen und Mehrfachstellknöpfe eingesetzt werden.
Aus dem Patent EF-A-0 238 695 ist ein System zur Spracherkennung bekannt, das eine Stufe zur Groberkennung umfaßt, auf die eine Stufe zur Feinerkennung folgt.
Die vorliegende Erfindung hat eine System zur Sprachsteuerung, insbesondere für eine verrauschte Umgebung, zum Gegenstand, das, eine hohe Erkennungsrate (typisch 95%) bei einem Wortschatz in der Größenordnung von einigen hundert Wörtern und Phrasen, die 10 Wörter und mehr umfassen können, erzielen kann.
Das Verfahren der Erfindung ist dadurch gekennzeichnet, daß es darin besteht, eine grobe Erkennung auszuführen, dann nach einem Vergleich mit gespeicherten akustischen Referenzen die N besten erkannten Phrasen zu liefern und aus diesen N besten Phrasen durch Vergleichen mit wahrscheinlichen Dialogmodellen und durch Ausführen einer akusto-phonetischen Decodierung parallel zur Grobparametrisierung-Groberkennung des Signals die wahrscheinlichste Phrase zu wählen.
Das System zur Spracherkennung gemäß der Erfindung enthält eine Erfasssungsvorrichtung, die mit einer akusto-phonetischen Decodiervorrichtung, die ihrerseits mit einer Erkennungsüberwachungsvorrichtung verbunden ist, sowie mit einer Spracherkennungsvorrichtung verbunden ist, die ihrerseits mit einem Wörterbuch, mit dem Erkennungsüberwacher und mit einer Syntaxerkennungsvorrichtung verbunden ist, wobei diese letztere mit einer Dialogspeichervorrichtung verbunden ist, die mit dem Überwacher verbunden ist.
Die vorliegende Erfindung wird besser verständlich beim Lesen der ausführlichen Beschreibung einer Ausführungsform, die als nicht beschränkendes Beispiel gegeben wird und durch die beigefügte Zeichnung veranschaulicht ist, worin
- die einzige Figur ein Blockschaltplan eines Systems zur Sprachsteuerung gemäß der Erfindung ist.
Die Erfindung wird nachstehend mit Bezug auf ein Audiophonsystem eines Flugzeugs, insbesondere eines Kampfflugzeugs, beschrieben, selbstverständlich ist sie jedoch nicht auf eine derartige Anwendung beschränkt und sowohl in anderen Typen von Fahrzeugen (zu Land oder zur See) als auch in feststehenden Anlagen, insbesondere in einer sehr lauten Umgebung, wie beispielsweise in metallurgischen Fabriken, benutzbar. Der Benutzer dieses Systems ist im vorliegenden Fall der Pilot eines Kampfflugzeugs, selbstverständlich kann es jedoch gleichzeitig mehrere Benutzer geben, insbesondere dann, wenn es sich um ein ziviles Transportflugzeug handelt, wobei für jeden Benutzer eigene Vorrichtungen in entsprechender Anzahl vorgesehen sind.
Das System 1 zur Spracherkennung wird über einen Druckknopf 2 gesteuert, der auch als "Knopf zum Wechsel auf Sprachsteuerung" bezeichnet wird. Dieser Knopf 2 ist notwendig, um die Kommunikationssignale (Wechselsprechen an Bord, Funkverbindungen) von Sprachbefehlen, die der Anwender von sich gibt, zu unterscheiden. Das Drücken auf diesen Wechsler löst die algorithmischen Verfahren der Spracherkennungsvorrichtung 3 aus. Diese Vorrichtung 3 empfängt ständig die Mikrophon-Abtastraster (die von einer nicht dargestellten Mikrophonschaltung stammen, über einen Leiter 4, der ein Bus sein kann) und speichert diese in einer Pufferzone eines Speichers 5 (wodurch beispielsweise 150 ms Sprachäußerung gespeichert werden können), damit diese Schaltung einen Anfang des Sprechaktes suchen kann, der dem Betätigen des Knopfes 2 vorausgeht.
Die Vorrichtung 3 ist mit einer Erkennungsüberwachungsvorrichtung 6 und über eine Syntaxerkennungsvorrichtung 7 mit einer Vorrichtung 8 zur Speicherung und zur Prüfung der Dialogmodelle verbunden, die ihrerseits mit der Vorrichtung 6 verbunden ist. Die Vorrichtung 6 ist über eine Schnittstelle 9 und über einen Bus 10 mit einem nicht dargestellten Steuerprozessor verbunden. Die Vorrichtung 1 enthält außerdem eine akustophonetische Decodiervorrichtung 11, die den Speicher 5 mit dem Überwacher 6 verbindet, ein Wörterbuch akustischer Referenzen 12, das mit der Vorrichtung 3 verbunden ist, sowie eine Vorrichtung 13 zur Textsynthese, die den Überwacher 6 mit dem Bus 4 verbindet. Das Wörterbuch 12 ist über den Bus 4 mit einer Schnittstelle 14 verbunden, die vorteilhaft mit einer Personalisierungsspeicherkarte 15 zusammenwirkt, auf welcher die auf den Sprecher, der diese Karte besitzt, bezogenen Parameter gespeichert werden, um die akustischen Referenzen des Wörterbuchs 12 zu optimieren. Selbstverständlich können der Kartenleser und die Karten durch jede gleichwertige Vorrichtung (Einsteck-ROM, Fernübertragung, ...) ersetzt sein.
Die Vorrichtung 3 liefert der Überwacherschaltung 6 die Phrase oder die Phrasen, welche sie aus den Abtastsignalen, die sie vom Speicher 5 erhält, erkannt hat. Die Vorrichtung 3 umfaßt in herkömmlicher Weise drei Teile: zur Erfassung, zur Parametrisierung und zur Formerkennung. Die Erfassung des vom Bus 4 kommenden Sprachsignals erfolgt vorteilhaft mit einer Abtastfrequenz von 12 kHz für eine Wortbreite von 16 Bit.
Die Parametrisierung stellt eine Charakterisierung-Kompression des Sprachsignals dar: ausgehend von einem Raster aus 256 Abtastungen zu 16 Bit werden 8 cepstrale Koeffizienten aus 8 Bit geliefert. Diese Phase wird in einer verrauschten Umgebung vorteilhaft durch Verfahren zur Aktivitätsdetektion und zur Rauschunterdrückung ergänzt und verbessert. Die Detektion ermöglicht, den Anfang und das Ende des tatsächlichen Sprechaktes genau zu erfassen und sich damit von Problemen der Synchronisation zwischen dem Sprechakt und dem Drücken-und-Loslassen des Wechslers zu befreien. Der Algorithmus basiert auf der Erfassung von Stimmhaftigkeit (Suche nach harmonischen Strukturen) und stimmlosen Lauten (in Abwandlung des Sprachgebrauchs Frikative genannt), wobei er um eine Prüfungsphase erweitert ist, die ermöglicht, die Struktur der Sprachäußerung zu bestimmen: vokalischer Kern sowie diesem Kern vorausgehende oder nachfolgende frikative Blöcke. Die Rauschunterdrückung findet auf zwei Ebenen statt: in der Detektionsphase in Form einer Sperrfilterung (Weißen), um die Detektionsschärfe in der "herkömmlichen" Parametrisierungskette in Form einer Frequenzfilterung (beispielsweise WIENER-Filterung) zu erhöhen, um die Qualität der Parametrisierung in einer schwierigen Umgebung zu erhöhen. Die Rauschunterdrückung benutzt eine doppelte Rauschmodellierung: eine autoregressive Modellierung durch angepaßte Filterung oder lineare Voraussage und die Bestimmung des Moments zweiter Ordnung des mittleren Rauschspektrums für die Frequenzfilterung. Die Suche nach Rauschrastern muß soweit wie möglich auf die Sprachäußerung lokal bezogen sein, um in einer ersten Näherung die Hypothese eines stationären Rauschzustandes beizubehalten. Die Verwendung des Knopfes 2 erlaubt unabhängig vom gewählten Konversationsmodus die Ausführung eines Algorithmus zur Auswahl von Rauschrastern, der mit der Spracherkennung und der Rauschunterdrückung des Mikrophons kompatibel ist.
Die Formerkennung nimmt den dynamischen Vergleich (Abstandsberechnung) von Spektren, die aus der Parametrisierung hervorgegangen sind, mit "Referenzspektren", die von der Bedienungsperson in der Lernphase erzeugt und vor dem Flug in den Speicher eingetragen worden sind (sprecherabhängige Spracherkennung), vor. Es kann sein, daß in Abhängigkeit von den Ergebnissen dieser Berechnungen nicht nur eine einzige Lösung (die im Sinne des Algorithmus zur Formerkennung erkannte beste "Phrase") zurückgegeben wird, sondern mehrere, die vom Erkennungsüberwachungsmodul gesichtet werden. Außerdem kann die zum Aufbau der Sprache zur Sprachsteuerung verwendete Syntax aus ineinander übergreifenden syntaktischen Untereinheiten bestehen, deren Baumstruktur weniger komplex ist: Unter schlechteren Bedingungen kann daher die Funktionalität der "Sprachsteuerung" mit einer Erkennungsleistung auf hohem Niveau aufrechterhalten werden, indem die Fehler, die durch einen zu hohen Verzweigungsfaktor bedingt sind, ausgeschaltet werden. Der Pilot kann also in Abhängigkeit von der Art und vom Verlauf seiner Mission eine Arbeitssyntax wählen, wobei diese Syntaxänderung auch automatisch in Abhängigkeit vom Zustand der Sensoren erfolgen kann, die beispielsweise bei Bewegungen unter einem Belastungsfaktor mit dem Überwacher verbunden sind (Trägheitszentrale, Anstellwinkelsonde...).
Die Aufgabe der Vorrichtung 8 besteht darin, den "Einsatzkontext" des geäußerten Befehls sowie die Interaktionen Pilot-Maschine (vor kurzem gegebene Befehle, Flugzeugkonfiguration, Szenario der Mission im Fall eines Militärflugzeugs, ...) zu berücksichtigen, um die Syntaxbögen zwischen den Wörtern deterministisch zu gewichten. Diese Gewichtung berücksichtigt verschiedene Faktoren wie etwa: die Konfiguration des Navigationssystems und des Waffensystems des Flugzeugs, den Zustand von Sensoren für physikalische Größen des Flugzeugs (Trägheitszentrale, Belastungsfaktor, ...), die Historie des Dialogs, den Inhalt des Wörterbuches 12, die Modellierung der Dialoge und der Aufgabe, die akusto-phonetische Decodierung, die in Abhängigkeit von phonetischen Kriterien eine erste Zurückweisung bewirkt, die verschiedenen erkannten Phasen, ... Diese Operationen werden vom Überwacher 6 überwacht. Demzufolge ermöglicht die Erfindung, die Spracherkennung in einer "schwierigen" Umgebung, wie diese weiter oben definiert ist, zu optimieren. Folglich führt diese Schaltung, um Mehrdeutigkeiten bei der Erkennung zu beheben, eine dynamische "intelligente" Bearbeitung des Kontextes aus, wobei bestimmte Sprachäußerungen gegenüber anderen begünstigt oder zurückgesetzt werden (beispielsweise vermeidet sie die Auswahl von Frequenzen, die unter einem Belastungsfaktor, d. h. dann, wenn der Pilot nicht seine gewöhnliche Sprechweise hat, ermittelt worden sind).
Die akusto-phonetische Decodierung wird parallel zur herkömmlichen Parametrisierung-Erkennung des Signals ausgeführt. Das Ziel besteht darin, die phonetischen Komponenten des Sprachsignals zu bestimmen und jedem Signalsegment die Signatur eines Phonems oder zumindest in einer ersten Zeit die Signatur einer Phonemklasse zuzuordnen: Radar enthält [r] [a] [d] [a] [r] (stimmhafte Liquida, Vokal, stimmhafter Okklusiv, Vokal, stimmhafte Liquida). Eine zusätzliche Information wird der Überwachungsvorrichtung zugeführt, die infolgedessen bestimmte Phrasen, die vom Standpunkt der Distanzberechnung als ähnlich bestimmt worden sind, sich phonetisch jedoch gegenseitig ausschließen (beispielsweise "Auto" und "Stopp", zurücksetzen kann.
Die Überwachungsvorrichtung 6 hat zur Aufgabe, den gültigen Befehl an die Schnittstelle 9 zu liefern. Dieser Befehl muß die beste erkannte Phrase sein, wobei die Erkennung die Informationen, die von den Flugzeugsensoren stammen (Trägheitszentrale, Lastfaktorsensoren, Anstellwinkelsonde, ...), das Dialogmodell (8) sowie die akusto-phonetische Decodierung (11) berücksichtigt.
Die Textsynthesevorrichtung 13 erzeugt durch Sprachsynthese den erkannten Befehl, um ihn über den Bus 4 an die Rückgabeschaltung zum Abhören durch den Piloten zu schicken. Vorteilhaft verwendet diese Schaltung nicht die digitalisierten, im Speicher angeordneten Wörter, die auf die Anforderung hin wiedergegeben werden würden, sondern erzeugt im Gegenteil ausgehend von ihrer orthographischen Formulierung wiederum die akusto-phonetischen Komponenten der erkannten Sprachäußerung.
Zusammenfassend läßt sich sagen, daß die verschiedenen Erken nungsvorrichtungen des Systems 1 folgende Aufgaben haben: Die Vorrichtung 3 führt mittels eines an sich bekannten Verfahrens (beispielsweise mittels Parametrisierung des Signals und Formerkennung) von einer in 5 gespeicherten Sprachäußerung eine Groberkennung aus und liefert dann nach Vergleichen mit in 12 gespeicherten akustischen Referenzen die N besten erkannten Phrasen, die einer gegebenen Syntax angehören (in 7 überprüft).
Die akusto-phonetische Decodiervorrichtung 11 nimmt eine Analyse an sich bekannter Art vor (indem beispielsweise eine Filterbank eingesetzt wird und indem charakteristische phonetische Merkmale gesucht werden) und liefert anschließend mehr oder weniger detailliert die phonetische Struktur der gerade ausgesprochenen Wörter. Dieses Auffinden der phonetischen Struktur kann beispielsweise einfach in der Unterscheidung von stimmhaften und stimmlosen Bereichen bestehen.
Die Vorrichtung 8 ermöglicht, die syntaktische Basis, auf der die Ermittlung der erkannten Phrase erfolgt, zu aktualisieren, d. h. diese Basis einzuschränken oder zu erweitern. Diese Aktualisierung erfolgt in Abhängigkeit von wenigstens einem der folgenden Parameter: den Parametern des Trägerfortbewegungsmittels (Anstellwinkel, Lastfaktor, ... wenn das Fortbewegungsmittel ein Flugzeug ist), der Art und der Phase der laufenden Mission (wenn es sich um ein Kampfflugzeug handelt: Reisegeschwindigkeit, Angriff, Start, Anflug, ...), der Historie der zuvor ausgeführten Sprachbefehle (die demzufolge erfolgreich erkannt worden sind) und eventuell, den Möglichkeiten der Vorrichtung 11 folgend, der phonetischen Struktur der Sprachäußerung. In vorteilhafter Weise ist diese Vorrichtung 8 in der Lage, infolge eines Erkennungsfehlers oder eines der Bedienungsperson zuzurechnenden Fehlers die Wiederholung von Sprachanweisungen ohne vollständige Wiederholung des Befehls des Befehls zu gestatten (wenn beispielsweise die erkannte Phrase "Zeige Motor-Seite auf linkem Display." ist, kann die Bedienungsperson in folgender Art und Weise korrigieren:
"Nein. Radar-Seite." oder "Nein. Rechts.").
Die Aufgabe der Vorrichtung 6 besteht darin, die Entscheidung über DIE Phrase, die anhand der von den Vorrichtungen 3, 11 und 8 gelieferten Informationen erkannt worden ist (und die zu einem Sprachbefehl wird), zu treffen. Diese Vorrichtung 6 setzt die erkannte Phrase in eine Folge von Symbolen um, die von den Vorrichtungen 9 und 13 erfaßt werden können. Die Schnittstellenvorrichtung 9 hat zur Aufgabe, an die Ausrüstungsteile, die von dem entsprechenden abgegebenen Sprachbefehl betroffen sind, die entsprechende Anweisung zu übertragen. Vorteilhaft wird die Vorrichtung 13 beauftragt, einen Sprachbericht der dem Befehl entsprechenden Aktion zu erstellen, wenn es beispielsweise keinen visuelle Kontrolle für die auszuführende Aktion gibt. Außerdem informiert die Vorrichtung 6 die Vorrichtung 8 über die getroffene Entscheidung für das Fortschreiben der Historie der abgegebenen Befehle.
Die von den obenbeschriebenen Vorrichtungen ausgeführte Spracherkennung kann beispielsweise wie folgt ablaufen: Die Bedienungsperson drückt auf den Wechsler 2, äußert eine Phrase, die in 5 aufgenommen (gespeichert) wird. Das resultierende Signal wird bearbeitet und in 3 und 11 erkannt. Die Ergebnisse der Analyse werden dem Überwacher 6 übermittelt. Die N besten Phrasen (die dem Ergebnis der Erkennung durch die Vorrichtung 3 am ähnlichsten sind) werden durch 7 ausgewählt. Die Vorrichtung 6 trifft ausgehend von diesen N besten Phrasen mit Hilfe der von 11 gelieferten Informationen über die phonetische Struktur (Stimmhaftigkeit, Frikative) eine Entscheidung. Der Überwacher 6 schreibt die Historie der Befehle fort, indem er den Inhalt von 8 ergänzt. Dieser letzere führt außerdem eine Gewichtung der aktiven Syntax aus: im Falle einer Auswahl von Funkstationen werden beispielsweise die entsprechenden Befehle bei der Ausführung der nächsten Befehle bevorrechtet. Die vom Überwacher 6 gewählte Reihenfolge wird im vorliegenden Fall an die Schnittstelle 9 und nicht an die Vorrichtung 13 übertragen, weil das Ergebnis visuell überwacht werden kann (beispielsweise durch Anzeige des gewählten Funkkanals).

Claims

1. Verfahren zur Spracherkennung in einer schwierigen Umgebung, dadurch gekennzeichnet, daß es darin besteht, eine grobe Erkennung auszuführen, dann nach dem Vergleich mit gespeicherten akustischen Referenzen die N besten erkannten Phrasen zu liefern und aus diesen N besten Phrasen durch Vergleichen mit wahrscheinlichen Dialogmodellen und durch Ausführen einer akusto-phonetischen Decodierung parallel zur Groberkennungsparametrisierung des Signals die wahrscheinlichste Phrase auszuwählen.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, das die Dialogmodelle in Abhängigkeit vom Einsatzkontext der Erkennung gewählt werden.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Dialogmodelle durch Gewichtung von Syntaxbögen zwischen den Wörtern gewählt werden, wobei die Gewichtung außer dem Umgebungsrauschen wenigstens einen der folgenden Faktoren berücksichtigt: den Zustand von Sensoren für physikalische Größen bezüglich der Umgebungsbedingungen, die Historie der Dialoge, den Inhalt eines Wörterbuchs akustischer Referenzen, die Modellierung des Dialogs und der Aufgabe, auf die sich die Dialoge beziehen, und die akusto-phonetische Decodierung, die in Abhängigkeit von phonetischen Kriterien eine erste Zurückweisung der bereits erkannten verschiedenen Phrasen bewirkt.

4. Verfahren nach Anspruch 3, das auf ein Kampfflugzeug angewendet wird, dadurch gekennzeichnet, daß die auf die Umgebungsbedingungen bezogenen physikalischen Größen die Eigenschaften des Navigationssystems und des Waffensystems des Flugzeugs sowie den Zustand der Sensoren des Flugzeugs wie etwa seine Trägheitszentrale und seinen Lastfaktor umfassen.

5. System zur Sprachsteuerung in schwieriger Umgebung, dadurch gekennzeichnet, daß es für die Ausführung des Verfahrens nach Anspruch 1 ausgelegt ist und hierzu eine Erfassungsvorrichtung (5) enthält, die mit einer akusto-phonetischen Decodiervorrichtung (11), die ihrerseits mit einer Erkennungsüberwachungsvorrichtung (6) verbunden ist, und mit einer Spracherkennungsvorrichtung (3) verbunden ist, die ihrerseits mit einem Wörterbuch (12), mit dem Erkennungsüberwacher (6) und mit einer Syntaxerkennungsvorrichtung (7) verbunden ist, wobei diese letztere mit einer Dialogspeichervorrichtung (8) verbunden ist, die mit dem Überwacher (6) verbunden ist.

6. System nach Anspruch 5, dadurch gekennzeichnet, daß es mit einer Speicherkarten-Schnittstelle (14) verbunden ist, die mit Personalisierungsspeicherkarten (15) zusammenwirkt, wovon in jeder die auf den entsprechenden Sprecher bezogenen Parameter gespeichert sind.

7. System nach Anspruch 5 oder 6, dadurch gekennzeichnet, daß die Spracherkennungsvorrichtung (3) eine Vorrichtung zur Signalparametrisierung und zur Formenerkennung ist.

8. System nach einem der Ansprüche 5 bis 7, dadurch gekennzeichnet, daß die akusto-phonetische Decodiervorrichtung eine Filterbank-Analysevorrichtung ist.