-
Die
vorliegende Erfindung betrifft ein Verfahren der Spracherkennung
mit automatischer Korrektur in den Spracherkennungssystemen mit
beschränkter
Syntax, d. h. dass die erkennbaren Sätze sich in einer Einheit von
bestimmten Möglichkeiten befinden.
Dieses Verfahren ist besonders geeignet für die Spracherkennung in geräuschvoller
Umgebung, zum Beispiel in den Cockpits von Militär- oder Zivilflugzeugen, in
den Hubschraubern oder im Auto.
-
Viele
Arbeiten auf dem Gebiet der Spracherkennung mit beschränkter Syntax
haben es ermöglicht,
Erkennungsraten in der Größenordnung
von 95% zu erhalten, und dies selbst in der geräuschvollen Umgebung eines Cockpits
eines Militärflugzeugs (etwa
100–110
dBA um den Helm des Piloten herum). Diese Leistung ist aber nicht
ausreichend für eine
sprachliche Steuerung eines Hauptsteuermediums für aus der Sicht der Flugsicherheit
kritische Parameter.
-
Eine
verwendete Strategie besteht darin, die kritischen Steuerungen einer
Validierung durch den Piloten zu unterziehen, der durch den erkannten
Satz überprüft, ob die
richtigen Werte den richtigen Parametern zugeordnet werden ("primäres Feedback"). Bei einem Fehler
des Erkennungssystems – oder Aussprachefehler
des Piloten – muss
der Pilot erneut den ganzen Satz aussprechen, und die Fehlerwahrscheinlichkeit
bei der Erkennung des erneut ausgesprochenen Satzes ist die gleiche.
Wenn zum Beispiel der Pilot ausspricht "Select altitude two five five zero feet", führt das
System die Erkennungsalgorithmen durch und gibt dem Piloten eine
visuelle Antwort. Wenn man den Fall in Betracht zieht, in dem ein Fehler
auftritt, schlägt
das System zum Beispiel vor "SEL
ALT 2 5 9 0 FT".
Bei einem klassischen System muss der Pilot dann erneut den ganzen
Satz sagen, mit den gleichen Fehlerwahrscheinlichkeiten.
-
Ein
bezüglich
der Erkennungsrate besseres Fehlerkorrektursystem besteht darin,
den Piloten einen Korrektursatz sagen zu lassen, der als solcher erkannt
wird. Wenn man zum Beispiel das vorherige Beispiel wieder aufnimmt,
kann der Pilot sagen "Correction
third digit five".
Diese Methode erhöht
aber die Arbeitslast des Piloten im Erkennungsverfahren, was nicht
wünschenswert
ist.
-
Die
Druckschrift
US 6 141 661 zeigt
so die Möglichkeit,
ein Wort zu wiederholen, indem die Erkennung des ersten zurückgewiesenen
Kandidaten ausgeschlossen wird.
-
Die
Erfindung schlägt
ein Spracherkennungsverfahren vor, das eine automatische Korrektur des
gesprochenen Satzes anwendet, die es ermöglicht, eine Erkennungsrate
nahe 100% zu erhalten, ohne Erhöhung
der Belastung des Piloten.
-
Hierzu
betrifft die Erfindung, wie sie im Anspruch 1 definiert ist, ein
Verfahren zur Spracherkennung eines von einem Sprecher ausgesprochenen Sprachsignals
mit automatischer Korrektur, das insbesondere einen Schritt der
Verarbeitung des Sprachsignals, der ein Signal in komprimierter
Form liefert, und einen Schritt der Formerkennung aufweist, um ausgehend
von einer Syntax, die von einer Einheit von Sätzen gebildet wird, die die
Gesamtheit der möglichen
Wege zwischen einer Einheit von bei einem vorhergehenden Satz voreingespeicherten Wörtern darstellen,
einen Satz der Syntax zu suchen, der dem Signal in seiner komprimierten
Form am nächsten
ist, dadurch gekennzeichnet, dass es aufweist
- – die Speicherung
(16) des Signals in seiner komprimierten Form,
- – die
Erzeugung (17) einer neuen Syntax (SYNT2), in der der Weg,
der dem im vorherigen Erkennungsschritt bestimmten Satz entspricht, verboten
ist,
- – die
Wiederholung des Formerkennungsschritts, um ausgehend von der neuen
Syntax einen anderen Satz zu suchen, der dem gespeicherten Signal
am nächsten
ist.
-
Weitere
Vorteile und Merkmale gehen klarer aus der nachfolgenden Beschreibung
hervor, die von den beiliegenden Figuren veranschaulicht wird. Es zeigen:
-
1 das
Prinzipschema eines Spracherkennungssystems von bekanntem Typ;
-
2 das
Schema eines Spracherkennungssystems vom Typ desjenigen der 1,
das das erfindungsgemäße Verfahren
anwendet;
-
3 ein
Schema, das die Veränderung
der Syntax im erfindungsgemäßen Verfahren
veranschaulicht.
-
In
diesen Figuren tragen gleiche Elemente die gleichen Bezugszeichen.
-
1 zeigt
das Prinzipschema eines Spracherkennungssystems mit beschränkter Syntax
von bekanntem Typ, zum Beispiel ein in sehr geräuschvoller Umgebung installiertes
System. Bei einem System mit beschränkter Syntax mit einem Sprecher ermöglicht eine
Lernphase in Nicht-Echtzeit es einem gegebenen Sprecher, eine Einheit
von akustischen Referenzen (Wörtern)
aufzuzeichnen, die in einem Referenzraum 10 gespeichert
werden. Die Syntax 11 wird von einer Einheit von Sätzen geformt,
die die Gesamtheit der möglichen
Wege oder Übergänge zwischen
den verschiedenen Wörtern
darstellen. Typischerweise werden etwa 300 Wörter im Referenzraum aufgezeichnet,
die typischerweise 400 000 mögliche
Sätze der
Syntax bilden.
-
In
klassischer Weise weist ein Spracherkennungssystem mindestens drei
Blöcke
auf, wie in
1 dargestellt ist. Es weist
einen Block
12 der Erfassung des Sprachsignals (oder Tonaufnahme),
einen Block
13 der Verarbeitung des Signals und einen Block
14 der
Formerkennung auf. Eine ausführliche Beschreibung
der Einheit dieser Blöcke
gemäß einer Ausführungsform
findet sich zum Beispiel in der französischen Patentanmeldung
FR 2 808 917 im Namen der
Anmelderin.
-
In
bekannter Weise ist das vom Tonaufnahmeblock 12 verarbeitete
akustische Signal ein Sprachsignal, das von einem elektroakustischen Transducer
aufgefangen wird. Dieses Signal wird durch Abtastung digitalisiert
und in eine bestimmte Anzahl von überlappenden oder nicht überlappenden Rahmen
von gleicher Dauer oder nicht zerschnitten. Im Block 13 der
Signalverarbeitung wird in klassischer Weise jeder Rahmen einem
Parametervektor zugeordnet, der die im Rahmen enthaltene akustische
Information übersetzt.
Es gibt mehrere Methoden, um einen Parametervektor zu bestimmen.
Ein klassisches Beispiel einer Methode ist diejenige, die die cepstralen
Koeffizienten vom Typ MFCC (Abkürzung
des englischen Ausdrucks "Mel
Frequency Cepstral Coefficient")
verwendet. Der Block 13 ermöglicht es, zuerst die Spektralenergie
jedes Rahmens in einer bestimmten Anzahl von Frequenzkanälen oder
Fenstern zu bestimmen. Er liefert für jeden der Rahmen einen Spektralenergiewert
oder Spektralkoeffizient pro Frequenzkanal. Er führt anschließend eine
Komprimierung der erhaltenen Spektralkoeffizienten durch, um das
Verhalten des menschlichen Hörsystems
zu berücksichtigen.
Er führt
schließlich
eine Umwandlung der komprimierten Koeffizienten durch, wobei diese
umgewandelten komprimierten Spektralkoeffizienten die Parameter des
gesuchten Parametervektors sind.
-
Der
Block 14 der Formerkennung ist mit dem Referenzraum 10 verbunden.
Er vergleicht die Reihe der vom Signalverarbeitungsblock stammenden
Parametervektoren mit den während
der Lernphase erhaltenen Referenzen, wobei diese Referenzen die akustischen
Eindrücke
jedes Worts, jedes Phonems, allgemeiner jedes Befehls, und dessen,
was in der nachfolgenden Beschreibung generisch "Satz" genannt
wird, übersetzen.
Da die Formerkennung durch Vergleich zwischen Parametervektoren
durchgeführt
wird, muss man diese Basisparametervektoren zur Verfügung haben.
Man erhält
sie in gleicher Weise wie für
die Nutzsignalrahmen, indem für
jeden Basisrahmen seine Spektralenergie in einer bestimmten Anzahl
von Frequenzkanälen
berechnet wird und indem gleiche Gewichtungsfenster verwendet werden.
-
Am
Ende des letzten Rahmens, was allgemein dem Ende eines Befehls entspricht,
ergibt der Vergleich entweder einen Abstand zwischen dem getesteten
Befehl und Referenzbefehlen, wobei der Referenzbefehl, der den geringsten
Abstand hat, erkannt wird, oder eine Wahrscheinlichkeit, dass die Reihe
der Parametervektoren zu einer Folge von Phonemen gehören. Die üblicherweise
während
der Formerkennungsphase verwendeten Algorithmen sind im ersten Fall
vom Typ DTW (Abkürzung
des englischen Ausdrucks für
Dynamic Time Warping) oder im zweiten Fall vom Typ HMM (Abkürzung des englischen
Ausdrucks Hidden Markov Models). Im Fall eines Algorithmus vom Typ
HMM sind die Referenzen gaußsche
Funktionen, die je einem Phonem und nicht Reihen von Parametervektoren
zugeordnet sind. Diese gaußschen
Funktionen sind durch ihr Zentrum und ihre typische Abweichung gekennzeichnet.
Dieses Zentrum und diese Abweichung hängen von den Parametern aller
Rahmen des Phonems ab, d. h. den komprimierten Spektralkoeffizienten
aller Rahmen des Phonems.
-
Die
einen erkannten Satz darstellenden digitalen Signale werden an eine
Vorrichtung 15 übertragen,
die die Kopplung mit der Umgebung durchführt, zum Beispiel durch Anzeige
des erkannten Satzes auf dem Head-up-Display eines Flugzeugcockpits.
-
Wie
oben erläutert,
kann der Pilot für
die kritischen Befehle über
einen Validierungsknopf verfügen,
der die Durchführung
des Befehls erlaubt. Wenn der erkannte Satz fehlerhaft ist, muss
er allgemein den Satz wiederholen, mit der gleichen Fehlerwahrscheinlichkeit.
-
Das
erfindungsgemäße Verfahren
erlaubt eine automatische Korrektur mit großer Wirksamkeit und einfacher
Anwendung. Seine Implementierung in einem Spracherkennungssystem
des Typs der 1 ist in 2 schematisch
dargestellt.
-
Erfindungsgemäß wird nach
der Verarbeitungsphase des Signals 13 das Sprachsignal
in seiner komprimierten Form (Einheit der Parametervektoren, auch "Cepstren" genannt) gespeichert
(Schritt 16). Sobald ein Satz erkannt wird, wird eine neue Syntax
erzeugt (Schritt 17), in der der erkannte Satz nicht mehr
ein möglicher
Weg der Syntax ist. Dann wird die Phase der Formerkennung mit dem
gespeicherten Signal, aber an der neuen Syntax wiederholt. Vorzugsweise
wird die Formerkennung systematisch wiederholt, um eine andere mögliche Lösung vorzubereiten.
Wenn der Pilot einen Fehler im erkannten Befehl entdeckt, drückt er zum
Beispiel auf einen spezifischen Korrekturknopf oder übt einen
kurzen Druck oder einen Doppelklick auf die Sprechsteuertaste aus,
und das System schlägt
ihm die neue Lösung
vor, die bei der Wiederholung der Formerkennung gefunden wurde.
Man wiederholt die vorhergehenden Schritte, um neue Syntaxen zu
erzeugen, die alle vorher gefundenen Lösungen verbieten. Wenn der
Pilot die Lösung
sieht, die tatsächlich
dem gesprochenen Satz entspricht, validiert er über ein beliebiges Mittel (Knopf,
Stimme, usw.).
-
Nun
wird das vorher erwähnte
Beispiel unter Nutzung der Erfindung wieder aufgenommen. Der Pilot
sagt gemäß diesem
Beispiel "Select
altitude two five five zero feet".
Das System führt
die Erkennungsalgorithmen durch, und erkennt zum Beispiel aufgrund
des Umgebungsgeräuschs "Select altitude two five
nine zero feet".
Ein visuelles Feedback wird dem Piloten angezeigt: "SEL ALT 2 5 9 0 FT". Während der
Sprecher den erkannten Satz liest, greift das System einem möglichen
Fehler voraus, indem es automatisch eine neue Syntax erzeugt, in
der der erkannte Satz gelöscht
wird und indem der Schritt der Formerkennung wiederholt wird.
-
3 veranschaulicht
durch ein einfaches Schema den Fall des vorherigen Beispiels, wobei
die Veränderung
der Syntax mit einem Formerkennungsalgorithmus des Typs DTW die
Suche eines neuen Satzes erlaubt. Der vom Sprecher gemäß dem vorhergehenden
Beispiel gesprochene Satz ist "SEL ALT
2 5 5 0 FT". Es
wird angenommen, dass der von der ersten Formerkennungsphase erkannte
Satz "SEL ALT 2
5 9 0 FT" ist. Diese
erste Phase nutzt die Anfangssyntax SYNT1, in der alle Kombinationen (oder
Wege) für
die vier zu erkennenden Zahlen möglich
sind. In einer zweiten Formerkennungsphase wird der erkannte Satz
aus den möglichen
Kombinationen entfernt, wodurch der Syntaxbaum verändert wird,
wie dies in 3 dargestellt ist. Es wird eine
neue Syntax erzeugt, die den der erkannten Lösung entsprechenden Weg verbietet.
Dann wird ein zweiter Satz erkannt. Die Formerkennungsphase kann
wiederholt werden, mit jedes Mal der Erzeugung einer neuen Syntax,
die die vorhergehenden Syntax wieder aufnimmt, aber bei der der
vorher gefundene Satz gelöscht
wird.
-
So
wird die neue Syntax durch Umorganisation der vorherigen Syntax
erhalten, in der Weise, dass der Weg, der dem im vorhergehenden
Erkennungsschritt bestimmten Satz entspricht, gekennzeichnet wird,
und dann dieser Weg entfernt wird. Diese Umorganisation wird zum
Beispiel durchgeführt,
indem die frühere
Syntax in Abhängigkeit
von den Wörtern
des vorher erkannten Satzes durchlaufen wird und indem im Laufe
dieses Durchlaufs der für
diesen Satz spezifische Weg geformt wird.
-
In
einem möglichen
Betriebsmodus zeigt der Pilot dem System an, dass er eine Korrektur
wünscht (zum
Beispiel durch kurzes Drücken
auf die Sprechsteuertaste), und sobald eine neue Lösung verfügbar ist,
wird sie angezeigt. Die automatische Suche eines neuen Satzes endet
zum Beispiel, wenn ein erkannter Satz vom Piloten validiert wird.
In unserem Beispiel ist es wahrscheinlich, dass der Pilot schon
in der zweiten Formerkennungsphase sieht "SEL ALT 2 5 5 0 FT". Dann kann er den Befehl validieren.
Da viele Erkennungsfehler durch Konfusionen zwischen nahen Wörtern verursacht
werden (zum Beispiel five-nine), ermöglicht es die Erfindung, diese
Fehler fast sicher mit einem Minimum an zusätzlicher Arbeitsbelastung des
Piloten und sehr schnell zu korrigieren aufgrund des Vorgreifens
auf die Korrektur, das das erfindungsgemäße Verfahren durchführen kann.
-
Durch
Erzeugen einer neuen Syntax und durch Wiederholung des Formerkennungsschritts
an der neuen Syntax erhöht
man außerdem
nicht die Komplexität
des Syntaxbaums. Der Verarbeitungsalgorithmus kann also die Erkennung
mit einer ähnlichen
Verzögerung
bei jeder Wiederholung durchführen,
wobei diese Verzögerung
für den
Piloten aufgrund des Vorgreifens auf die Korrektur nicht wahrnehmbar
ist.