DE69701774T2 - Spracherkennung in geräuschvoller umgebung und vorrichtung zur durchführung des verfahrens - Google Patents
Spracherkennung in geräuschvoller umgebung und vorrichtung zur durchführung des verfahrensInfo
- Publication number
- DE69701774T2 DE69701774T2 DE69701774T DE69701774T DE69701774T2 DE 69701774 T2 DE69701774 T2 DE 69701774T2 DE 69701774 T DE69701774 T DE 69701774T DE 69701774 T DE69701774 T DE 69701774T DE 69701774 T2 DE69701774 T2 DE 69701774T2
- Authority
- DE
- Germany
- Prior art keywords
- recognition
- phonetic
- acousto
- dialogue
- aircraft
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 11
- 238000001514 detection method Methods 0.000 claims description 10
- 238000012806 monitoring device Methods 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims 1
- 238000001914 filtration Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
- Die vorliegende Erfindung bezieht sich auf ein Verfahren zur Spracherkennung sowie auf ein System zur Sprachsteuerung in einer "schwierigen" Umgebung, d. h. in einer Umgebung, in der sich nicht nur Lärm störend auswirkt, sondern in der auch verschiedene physikalische und physiologische Faktoren auf den Anwender einwirken können.
- In einer schwierigen Umgebung wie beispielsweise in derjenigen, die im Cockpit eines Militärflugzeugs herrscht, sind die Vorrichtungen zur Aufnahme, zur Wiedergabe und zur Bearbeitung der Stimme nicht optimiert, sondern zumeist sogar schlecht ausgeführt. Die Funkverbindungen zwischen der Besatzung und ihren Gesprächspartnern sind von schlechter Qualität. Die Anwender kommunizieren mit mehreren Gesprächspartnern (weiteren Flugzeugen, Bodenstationen, weiteren Besatzungsmitgliedern, ihre eigene Stimme wird an sie zurückübertragen). Diese Verbindungen sind monophon, gestört, kaum verständlich und nicht hierarchisch strukturiert. Außerdem können verschiedene physikalische und physiologische Faktoren die Leistungsfähigkeit des Anwenders beeinträchtigen. Von diesen Faktoren seien insbesondere der Faktor der Belastung durch das Flugzeug, die Sauerstoffmaske, der Atemüberdruck und der Streß des Piloten hervorgehoben. Diese schlechten Verständigungsmöglichkeiten, die zum Umgebungslärm hinzukommen, tragen erheblich zur Ermüdung der Besatzungen bei und können sogar ihre Gesundheit beeinträchtigen. Die Helme, die sie tragen, schützen sie wenig oder schlecht vor diesen Störgeräuschen. Die einzigen Mittel, über die sie verfügen, um zu versuchen, diese Gespräche etwas besser verständlich zu machen, sind Befehle zur Lautstärkeregelung, was bei weitem nicht befriedigend ist. Die verschiedenen Vorrichtungen zur Realisierung dieser Verbindungen sind heterogen und ihre Kennlinien sind nicht immer völlig kompatibel. Außerdem zieht die wachsende Komplexität der Bordsysteme eine Arbeitsüberlastung der Bedienungsperson nach sich, die Streß, einen Konzentrationsverlust und schließlich einen Leistungsfähigkeitsverlust hervorruft, der für die Fortführung einer die beste Verfassung erfordernden Einsatzaufgabe besonders verhängnisvoll ist. Unter diesen Umständen ist eine Sprachsteuerungsvorrichtung mit einer hohen Erkennungsrate besonders günstig, denn sie ermöglicht in einer verhältnismäßig direkten und natürlichen Art und Weise, ein komplexes System zu steuern, ohne die gesamte Aufmerksamkeit der Bedienungsperson zu binden, was bei weitem nicht der Fall ist, wenn taktile Oberflächen, Tastaturen und Mehrfachstellknöpfe eingesetzt werden.
- Aus dem Patent EF-A-0 238 695 ist ein System zur Spracherkennung bekannt, das eine Stufe zur Groberkennung umfaßt, auf die eine Stufe zur Feinerkennung folgt.
- Die vorliegende Erfindung hat eine System zur Sprachsteuerung, insbesondere für eine verrauschte Umgebung, zum Gegenstand, das, eine hohe Erkennungsrate (typisch 95%) bei einem Wortschatz in der Größenordnung von einigen hundert Wörtern und Phrasen, die 10 Wörter und mehr umfassen können, erzielen kann.
- Das Verfahren der Erfindung ist dadurch gekennzeichnet, daß es darin besteht, eine grobe Erkennung auszuführen, dann nach einem Vergleich mit gespeicherten akustischen Referenzen die N besten erkannten Phrasen zu liefern und aus diesen N besten Phrasen durch Vergleichen mit wahrscheinlichen Dialogmodellen und durch Ausführen einer akusto-phonetischen Decodierung parallel zur Grobparametrisierung-Groberkennung des Signals die wahrscheinlichste Phrase zu wählen.
- Das System zur Spracherkennung gemäß der Erfindung enthält eine Erfasssungsvorrichtung, die mit einer akusto-phonetischen Decodiervorrichtung, die ihrerseits mit einer Erkennungsüberwachungsvorrichtung verbunden ist, sowie mit einer Spracherkennungsvorrichtung verbunden ist, die ihrerseits mit einem Wörterbuch, mit dem Erkennungsüberwacher und mit einer Syntaxerkennungsvorrichtung verbunden ist, wobei diese letztere mit einer Dialogspeichervorrichtung verbunden ist, die mit dem Überwacher verbunden ist.
- Die vorliegende Erfindung wird besser verständlich beim Lesen der ausführlichen Beschreibung einer Ausführungsform, die als nicht beschränkendes Beispiel gegeben wird und durch die beigefügte Zeichnung veranschaulicht ist, worin
- - die einzige Figur ein Blockschaltplan eines Systems zur Sprachsteuerung gemäß der Erfindung ist.
- Die Erfindung wird nachstehend mit Bezug auf ein Audiophonsystem eines Flugzeugs, insbesondere eines Kampfflugzeugs, beschrieben, selbstverständlich ist sie jedoch nicht auf eine derartige Anwendung beschränkt und sowohl in anderen Typen von Fahrzeugen (zu Land oder zur See) als auch in feststehenden Anlagen, insbesondere in einer sehr lauten Umgebung, wie beispielsweise in metallurgischen Fabriken, benutzbar. Der Benutzer dieses Systems ist im vorliegenden Fall der Pilot eines Kampfflugzeugs, selbstverständlich kann es jedoch gleichzeitig mehrere Benutzer geben, insbesondere dann, wenn es sich um ein ziviles Transportflugzeug handelt, wobei für jeden Benutzer eigene Vorrichtungen in entsprechender Anzahl vorgesehen sind.
- Das System 1 zur Spracherkennung wird über einen Druckknopf 2 gesteuert, der auch als "Knopf zum Wechsel auf Sprachsteuerung" bezeichnet wird. Dieser Knopf 2 ist notwendig, um die Kommunikationssignale (Wechselsprechen an Bord, Funkverbindungen) von Sprachbefehlen, die der Anwender von sich gibt, zu unterscheiden. Das Drücken auf diesen Wechsler löst die algorithmischen Verfahren der Spracherkennungsvorrichtung 3 aus. Diese Vorrichtung 3 empfängt ständig die Mikrophon-Abtastraster (die von einer nicht dargestellten Mikrophonschaltung stammen, über einen Leiter 4, der ein Bus sein kann) und speichert diese in einer Pufferzone eines Speichers 5 (wodurch beispielsweise 150 ms Sprachäußerung gespeichert werden können), damit diese Schaltung einen Anfang des Sprechaktes suchen kann, der dem Betätigen des Knopfes 2 vorausgeht.
- Die Vorrichtung 3 ist mit einer Erkennungsüberwachungsvorrichtung 6 und über eine Syntaxerkennungsvorrichtung 7 mit einer Vorrichtung 8 zur Speicherung und zur Prüfung der Dialogmodelle verbunden, die ihrerseits mit der Vorrichtung 6 verbunden ist. Die Vorrichtung 6 ist über eine Schnittstelle 9 und über einen Bus 10 mit einem nicht dargestellten Steuerprozessor verbunden. Die Vorrichtung 1 enthält außerdem eine akustophonetische Decodiervorrichtung 11, die den Speicher 5 mit dem Überwacher 6 verbindet, ein Wörterbuch akustischer Referenzen 12, das mit der Vorrichtung 3 verbunden ist, sowie eine Vorrichtung 13 zur Textsynthese, die den Überwacher 6 mit dem Bus 4 verbindet. Das Wörterbuch 12 ist über den Bus 4 mit einer Schnittstelle 14 verbunden, die vorteilhaft mit einer Personalisierungsspeicherkarte 15 zusammenwirkt, auf welcher die auf den Sprecher, der diese Karte besitzt, bezogenen Parameter gespeichert werden, um die akustischen Referenzen des Wörterbuchs 12 zu optimieren. Selbstverständlich können der Kartenleser und die Karten durch jede gleichwertige Vorrichtung (Einsteck-ROM, Fernübertragung, ...) ersetzt sein.
- Die Vorrichtung 3 liefert der Überwacherschaltung 6 die Phrase oder die Phrasen, welche sie aus den Abtastsignalen, die sie vom Speicher 5 erhält, erkannt hat. Die Vorrichtung 3 umfaßt in herkömmlicher Weise drei Teile: zur Erfassung, zur Parametrisierung und zur Formerkennung. Die Erfassung des vom Bus 4 kommenden Sprachsignals erfolgt vorteilhaft mit einer Abtastfrequenz von 12 kHz für eine Wortbreite von 16 Bit.
- Die Parametrisierung stellt eine Charakterisierung-Kompression des Sprachsignals dar: ausgehend von einem Raster aus 256 Abtastungen zu 16 Bit werden 8 cepstrale Koeffizienten aus 8 Bit geliefert. Diese Phase wird in einer verrauschten Umgebung vorteilhaft durch Verfahren zur Aktivitätsdetektion und zur Rauschunterdrückung ergänzt und verbessert. Die Detektion ermöglicht, den Anfang und das Ende des tatsächlichen Sprechaktes genau zu erfassen und sich damit von Problemen der Synchronisation zwischen dem Sprechakt und dem Drücken-und-Loslassen des Wechslers zu befreien. Der Algorithmus basiert auf der Erfassung von Stimmhaftigkeit (Suche nach harmonischen Strukturen) und stimmlosen Lauten (in Abwandlung des Sprachgebrauchs Frikative genannt), wobei er um eine Prüfungsphase erweitert ist, die ermöglicht, die Struktur der Sprachäußerung zu bestimmen: vokalischer Kern sowie diesem Kern vorausgehende oder nachfolgende frikative Blöcke. Die Rauschunterdrückung findet auf zwei Ebenen statt: in der Detektionsphase in Form einer Sperrfilterung (Weißen), um die Detektionsschärfe in der "herkömmlichen" Parametrisierungskette in Form einer Frequenzfilterung (beispielsweise WIENER-Filterung) zu erhöhen, um die Qualität der Parametrisierung in einer schwierigen Umgebung zu erhöhen. Die Rauschunterdrückung benutzt eine doppelte Rauschmodellierung: eine autoregressive Modellierung durch angepaßte Filterung oder lineare Voraussage und die Bestimmung des Moments zweiter Ordnung des mittleren Rauschspektrums für die Frequenzfilterung. Die Suche nach Rauschrastern muß soweit wie möglich auf die Sprachäußerung lokal bezogen sein, um in einer ersten Näherung die Hypothese eines stationären Rauschzustandes beizubehalten. Die Verwendung des Knopfes 2 erlaubt unabhängig vom gewählten Konversationsmodus die Ausführung eines Algorithmus zur Auswahl von Rauschrastern, der mit der Spracherkennung und der Rauschunterdrückung des Mikrophons kompatibel ist.
- Die Formerkennung nimmt den dynamischen Vergleich (Abstandsberechnung) von Spektren, die aus der Parametrisierung hervorgegangen sind, mit "Referenzspektren", die von der Bedienungsperson in der Lernphase erzeugt und vor dem Flug in den Speicher eingetragen worden sind (sprecherabhängige Spracherkennung), vor. Es kann sein, daß in Abhängigkeit von den Ergebnissen dieser Berechnungen nicht nur eine einzige Lösung (die im Sinne des Algorithmus zur Formerkennung erkannte beste "Phrase") zurückgegeben wird, sondern mehrere, die vom Erkennungsüberwachungsmodul gesichtet werden. Außerdem kann die zum Aufbau der Sprache zur Sprachsteuerung verwendete Syntax aus ineinander übergreifenden syntaktischen Untereinheiten bestehen, deren Baumstruktur weniger komplex ist: Unter schlechteren Bedingungen kann daher die Funktionalität der "Sprachsteuerung" mit einer Erkennungsleistung auf hohem Niveau aufrechterhalten werden, indem die Fehler, die durch einen zu hohen Verzweigungsfaktor bedingt sind, ausgeschaltet werden. Der Pilot kann also in Abhängigkeit von der Art und vom Verlauf seiner Mission eine Arbeitssyntax wählen, wobei diese Syntaxänderung auch automatisch in Abhängigkeit vom Zustand der Sensoren erfolgen kann, die beispielsweise bei Bewegungen unter einem Belastungsfaktor mit dem Überwacher verbunden sind (Trägheitszentrale, Anstellwinkelsonde...).
- Die Aufgabe der Vorrichtung 8 besteht darin, den "Einsatzkontext" des geäußerten Befehls sowie die Interaktionen Pilot-Maschine (vor kurzem gegebene Befehle, Flugzeugkonfiguration, Szenario der Mission im Fall eines Militärflugzeugs, ...) zu berücksichtigen, um die Syntaxbögen zwischen den Wörtern deterministisch zu gewichten. Diese Gewichtung berücksichtigt verschiedene Faktoren wie etwa: die Konfiguration des Navigationssystems und des Waffensystems des Flugzeugs, den Zustand von Sensoren für physikalische Größen des Flugzeugs (Trägheitszentrale, Belastungsfaktor, ...), die Historie des Dialogs, den Inhalt des Wörterbuches 12, die Modellierung der Dialoge und der Aufgabe, die akusto-phonetische Decodierung, die in Abhängigkeit von phonetischen Kriterien eine erste Zurückweisung bewirkt, die verschiedenen erkannten Phasen, ... Diese Operationen werden vom Überwacher 6 überwacht. Demzufolge ermöglicht die Erfindung, die Spracherkennung in einer "schwierigen" Umgebung, wie diese weiter oben definiert ist, zu optimieren. Folglich führt diese Schaltung, um Mehrdeutigkeiten bei der Erkennung zu beheben, eine dynamische "intelligente" Bearbeitung des Kontextes aus, wobei bestimmte Sprachäußerungen gegenüber anderen begünstigt oder zurückgesetzt werden (beispielsweise vermeidet sie die Auswahl von Frequenzen, die unter einem Belastungsfaktor, d. h. dann, wenn der Pilot nicht seine gewöhnliche Sprechweise hat, ermittelt worden sind).
- Die akusto-phonetische Decodierung wird parallel zur herkömmlichen Parametrisierung-Erkennung des Signals ausgeführt. Das Ziel besteht darin, die phonetischen Komponenten des Sprachsignals zu bestimmen und jedem Signalsegment die Signatur eines Phonems oder zumindest in einer ersten Zeit die Signatur einer Phonemklasse zuzuordnen: Radar enthält [r] [a] [d] [a] [r] (stimmhafte Liquida, Vokal, stimmhafter Okklusiv, Vokal, stimmhafte Liquida). Eine zusätzliche Information wird der Überwachungsvorrichtung zugeführt, die infolgedessen bestimmte Phrasen, die vom Standpunkt der Distanzberechnung als ähnlich bestimmt worden sind, sich phonetisch jedoch gegenseitig ausschließen (beispielsweise "Auto" und "Stopp", zurücksetzen kann.
- Die Überwachungsvorrichtung 6 hat zur Aufgabe, den gültigen Befehl an die Schnittstelle 9 zu liefern. Dieser Befehl muß die beste erkannte Phrase sein, wobei die Erkennung die Informationen, die von den Flugzeugsensoren stammen (Trägheitszentrale, Lastfaktorsensoren, Anstellwinkelsonde, ...), das Dialogmodell (8) sowie die akusto-phonetische Decodierung (11) berücksichtigt.
- Die Textsynthesevorrichtung 13 erzeugt durch Sprachsynthese den erkannten Befehl, um ihn über den Bus 4 an die Rückgabeschaltung zum Abhören durch den Piloten zu schicken. Vorteilhaft verwendet diese Schaltung nicht die digitalisierten, im Speicher angeordneten Wörter, die auf die Anforderung hin wiedergegeben werden würden, sondern erzeugt im Gegenteil ausgehend von ihrer orthographischen Formulierung wiederum die akusto-phonetischen Komponenten der erkannten Sprachäußerung.
- Zusammenfassend läßt sich sagen, daß die verschiedenen Erken nungsvorrichtungen des Systems 1 folgende Aufgaben haben: Die Vorrichtung 3 führt mittels eines an sich bekannten Verfahrens (beispielsweise mittels Parametrisierung des Signals und Formerkennung) von einer in 5 gespeicherten Sprachäußerung eine Groberkennung aus und liefert dann nach Vergleichen mit in 12 gespeicherten akustischen Referenzen die N besten erkannten Phrasen, die einer gegebenen Syntax angehören (in 7 überprüft).
- Die akusto-phonetische Decodiervorrichtung 11 nimmt eine Analyse an sich bekannter Art vor (indem beispielsweise eine Filterbank eingesetzt wird und indem charakteristische phonetische Merkmale gesucht werden) und liefert anschließend mehr oder weniger detailliert die phonetische Struktur der gerade ausgesprochenen Wörter. Dieses Auffinden der phonetischen Struktur kann beispielsweise einfach in der Unterscheidung von stimmhaften und stimmlosen Bereichen bestehen.
- Die Vorrichtung 8 ermöglicht, die syntaktische Basis, auf der die Ermittlung der erkannten Phrase erfolgt, zu aktualisieren, d. h. diese Basis einzuschränken oder zu erweitern. Diese Aktualisierung erfolgt in Abhängigkeit von wenigstens einem der folgenden Parameter: den Parametern des Trägerfortbewegungsmittels (Anstellwinkel, Lastfaktor, ... wenn das Fortbewegungsmittel ein Flugzeug ist), der Art und der Phase der laufenden Mission (wenn es sich um ein Kampfflugzeug handelt: Reisegeschwindigkeit, Angriff, Start, Anflug, ...), der Historie der zuvor ausgeführten Sprachbefehle (die demzufolge erfolgreich erkannt worden sind) und eventuell, den Möglichkeiten der Vorrichtung 11 folgend, der phonetischen Struktur der Sprachäußerung. In vorteilhafter Weise ist diese Vorrichtung 8 in der Lage, infolge eines Erkennungsfehlers oder eines der Bedienungsperson zuzurechnenden Fehlers die Wiederholung von Sprachanweisungen ohne vollständige Wiederholung des Befehls des Befehls zu gestatten (wenn beispielsweise die erkannte Phrase "Zeige Motor-Seite auf linkem Display." ist, kann die Bedienungsperson in folgender Art und Weise korrigieren:
- "Nein. Radar-Seite." oder "Nein. Rechts.").
- Die Aufgabe der Vorrichtung 6 besteht darin, die Entscheidung über DIE Phrase, die anhand der von den Vorrichtungen 3, 11 und 8 gelieferten Informationen erkannt worden ist (und die zu einem Sprachbefehl wird), zu treffen. Diese Vorrichtung 6 setzt die erkannte Phrase in eine Folge von Symbolen um, die von den Vorrichtungen 9 und 13 erfaßt werden können. Die Schnittstellenvorrichtung 9 hat zur Aufgabe, an die Ausrüstungsteile, die von dem entsprechenden abgegebenen Sprachbefehl betroffen sind, die entsprechende Anweisung zu übertragen. Vorteilhaft wird die Vorrichtung 13 beauftragt, einen Sprachbericht der dem Befehl entsprechenden Aktion zu erstellen, wenn es beispielsweise keinen visuelle Kontrolle für die auszuführende Aktion gibt. Außerdem informiert die Vorrichtung 6 die Vorrichtung 8 über die getroffene Entscheidung für das Fortschreiben der Historie der abgegebenen Befehle.
- Die von den obenbeschriebenen Vorrichtungen ausgeführte Spracherkennung kann beispielsweise wie folgt ablaufen: Die Bedienungsperson drückt auf den Wechsler 2, äußert eine Phrase, die in 5 aufgenommen (gespeichert) wird. Das resultierende Signal wird bearbeitet und in 3 und 11 erkannt. Die Ergebnisse der Analyse werden dem Überwacher 6 übermittelt. Die N besten Phrasen (die dem Ergebnis der Erkennung durch die Vorrichtung 3 am ähnlichsten sind) werden durch 7 ausgewählt. Die Vorrichtung 6 trifft ausgehend von diesen N besten Phrasen mit Hilfe der von 11 gelieferten Informationen über die phonetische Struktur (Stimmhaftigkeit, Frikative) eine Entscheidung. Der Überwacher 6 schreibt die Historie der Befehle fort, indem er den Inhalt von 8 ergänzt. Dieser letzere führt außerdem eine Gewichtung der aktiven Syntax aus: im Falle einer Auswahl von Funkstationen werden beispielsweise die entsprechenden Befehle bei der Ausführung der nächsten Befehle bevorrechtet. Die vom Überwacher 6 gewählte Reihenfolge wird im vorliegenden Fall an die Schnittstelle 9 und nicht an die Vorrichtung 13 übertragen, weil das Ergebnis visuell überwacht werden kann (beispielsweise durch Anzeige des gewählten Funkkanals).
Claims (8)
1. Verfahren zur Spracherkennung in einer schwierigen
Umgebung, dadurch gekennzeichnet, daß es darin besteht, eine
grobe Erkennung auszuführen, dann nach dem Vergleich mit
gespeicherten akustischen Referenzen die N besten erkannten
Phrasen zu liefern und aus diesen N besten Phrasen durch
Vergleichen mit wahrscheinlichen Dialogmodellen und durch
Ausführen einer akusto-phonetischen Decodierung parallel zur
Groberkennungsparametrisierung des Signals die
wahrscheinlichste Phrase auszuwählen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, das
die Dialogmodelle in Abhängigkeit vom Einsatzkontext der
Erkennung gewählt werden.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß
die Dialogmodelle durch Gewichtung von Syntaxbögen zwischen
den Wörtern gewählt werden, wobei die Gewichtung außer dem
Umgebungsrauschen wenigstens einen der folgenden Faktoren
berücksichtigt: den Zustand von Sensoren für physikalische
Größen bezüglich der Umgebungsbedingungen, die Historie der
Dialoge, den Inhalt eines Wörterbuchs akustischer Referenzen,
die Modellierung des Dialogs und der Aufgabe, auf die sich die
Dialoge beziehen, und die akusto-phonetische Decodierung, die
in Abhängigkeit von phonetischen Kriterien eine erste
Zurückweisung der bereits erkannten verschiedenen Phrasen bewirkt.
4. Verfahren nach Anspruch 3, das auf ein Kampfflugzeug
angewendet wird, dadurch gekennzeichnet, daß die auf die
Umgebungsbedingungen bezogenen physikalischen Größen die
Eigenschaften des Navigationssystems und des Waffensystems des
Flugzeugs sowie den Zustand der Sensoren des Flugzeugs wie
etwa seine Trägheitszentrale und seinen Lastfaktor umfassen.
5. System zur Sprachsteuerung in schwieriger Umgebung,
dadurch gekennzeichnet, daß es für die Ausführung des
Verfahrens nach Anspruch 1 ausgelegt ist und hierzu eine
Erfassungsvorrichtung (5) enthält, die mit einer akusto-phonetischen
Decodiervorrichtung (11), die ihrerseits mit einer
Erkennungsüberwachungsvorrichtung (6) verbunden ist, und mit einer
Spracherkennungsvorrichtung (3) verbunden ist, die ihrerseits
mit einem Wörterbuch (12), mit dem Erkennungsüberwacher (6)
und mit einer Syntaxerkennungsvorrichtung (7) verbunden ist,
wobei diese letztere mit einer Dialogspeichervorrichtung (8)
verbunden ist, die mit dem Überwacher (6) verbunden ist.
6. System nach Anspruch 5, dadurch gekennzeichnet, daß es
mit einer Speicherkarten-Schnittstelle (14) verbunden ist, die
mit Personalisierungsspeicherkarten (15) zusammenwirkt, wovon
in jeder die auf den entsprechenden Sprecher bezogenen
Parameter gespeichert sind.
7. System nach Anspruch 5 oder 6, dadurch gekennzeichnet,
daß die Spracherkennungsvorrichtung (3) eine Vorrichtung zur
Signalparametrisierung und zur Formenerkennung ist.
8. System nach einem der Ansprüche 5 bis 7, dadurch
gekennzeichnet, daß die akusto-phonetische Decodiervorrichtung
eine Filterbank-Analysevorrichtung ist.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR9600934A FR2744277B1 (fr) | 1996-01-26 | 1996-01-26 | Procede de reconnaissance vocale en ambiance bruitee, et dispositif de mise en oeuvre |
| PCT/FR1997/000147 WO1997027577A1 (fr) | 1996-01-26 | 1997-01-24 | Procede de reconnaissance vocale en ambiance severe, et dispositif de mise en oeuvre |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE69701774D1 DE69701774D1 (de) | 2000-05-31 |
| DE69701774T2 true DE69701774T2 (de) | 2000-11-09 |
Family
ID=9488513
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE69701774T Expired - Fee Related DE69701774T2 (de) | 1996-01-26 | 1997-01-24 | Spracherkennung in geräuschvoller umgebung und vorrichtung zur durchführung des verfahrens |
Country Status (7)
| Country | Link |
|---|---|
| US (1) | US6128594A (de) |
| EP (1) | EP0818036B1 (de) |
| JP (1) | JPH11502953A (de) |
| CA (1) | CA2214103A1 (de) |
| DE (1) | DE69701774T2 (de) |
| FR (1) | FR2744277B1 (de) |
| WO (1) | WO1997027577A1 (de) |
Families Citing this family (44)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| FR2771542B1 (fr) | 1997-11-21 | 2000-02-11 | Sextant Avionique | Procede de filtrage frequentiel applique au debruitage de signaux sonores mettant en oeuvre un filtre de wiener |
| FR2786107B1 (fr) | 1998-11-25 | 2001-02-16 | Sextant Avionique | Masque inhalateur d'oxygene avec dispositif de prise de son |
| US6449617B1 (en) * | 1999-06-15 | 2002-09-10 | Microsoft Corporation | Edit command delegation program for editing electronic files |
| FR2808917B1 (fr) * | 2000-05-09 | 2003-12-12 | Thomson Csf | Procede et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant |
| US7236859B2 (en) * | 2000-09-01 | 2007-06-26 | Cattron Intellectual Property Corporation | Remote control system for a locomotive |
| GB2380644A (en) * | 2001-06-07 | 2003-04-09 | Canon Kk | Speech detection |
| US7127271B1 (en) | 2001-10-18 | 2006-10-24 | Iwao Fujisaki | Communication device |
| US7466992B1 (en) | 2001-10-18 | 2008-12-16 | Iwao Fujisaki | Communication device |
| US7107081B1 (en) | 2001-10-18 | 2006-09-12 | Iwao Fujisaki | Communication device |
| FR2842064B1 (fr) * | 2002-07-02 | 2004-12-03 | Thales Sa | Systeme de spatialisation de sources sonores a performances ameliorees |
| US8229512B1 (en) | 2003-02-08 | 2012-07-24 | Iwao Fujisaki | Communication device |
| US8241128B1 (en) | 2003-04-03 | 2012-08-14 | Iwao Fujisaki | Communication device |
| CN1830025A (zh) * | 2003-08-01 | 2006-09-06 | 皇家飞利浦电子股份有限公司 | 驱动对话系统的方法 |
| US8090402B1 (en) | 2003-09-26 | 2012-01-03 | Iwao Fujisaki | Communication device |
| US7917167B1 (en) | 2003-11-22 | 2011-03-29 | Iwao Fujisaki | Communication device |
| US8041348B1 (en) | 2004-03-23 | 2011-10-18 | Iwao Fujisaki | Communication device |
| EA011361B1 (ru) * | 2004-09-07 | 2009-02-27 | Сенсир Пти Лтд. | Аппарат и способ усиления звука |
| US8208954B1 (en) | 2005-04-08 | 2012-06-26 | Iwao Fujisaki | Communication device |
| US7774202B2 (en) * | 2006-06-12 | 2010-08-10 | Lockheed Martin Corporation | Speech activated control system and related methods |
| US8692809B2 (en) * | 2006-07-06 | 2014-04-08 | Elo Touch Solutions, Inc. | Auto-gain switching module for acoustic touch systems |
| US20080114603A1 (en) * | 2006-11-15 | 2008-05-15 | Adacel, Inc. | Confirmation system for command or speech recognition using activation means |
| US20080201148A1 (en) * | 2007-02-15 | 2008-08-21 | Adacel, Inc. | System and method for generating and using an array of dynamic grammar |
| US7890089B1 (en) | 2007-05-03 | 2011-02-15 | Iwao Fujisaki | Communication device |
| US8559983B1 (en) | 2007-05-03 | 2013-10-15 | Iwao Fujisaki | Communication device |
| US8234121B1 (en) * | 2007-08-10 | 2012-07-31 | Rockwell Collins, Inc. | Voice recognition system for an avionics system using unique words to encode specific frequencies |
| US8676273B1 (en) | 2007-08-24 | 2014-03-18 | Iwao Fujisaki | Communication device |
| EP2040250B8 (de) * | 2007-09-21 | 2011-09-28 | The Boeing Company | Gesprochene Fahrzeugsteuerung |
| US8639214B1 (en) | 2007-10-26 | 2014-01-28 | Iwao Fujisaki | Communication device |
| US8472935B1 (en) | 2007-10-29 | 2013-06-25 | Iwao Fujisaki | Communication device |
| US8744720B1 (en) | 2007-12-27 | 2014-06-03 | Iwao Fujisaki | Inter-vehicle middle point maintaining implementer |
| US8543157B1 (en) | 2008-05-09 | 2013-09-24 | Iwao Fujisaki | Communication device which notifies its pin-point location or geographic area in accordance with user selection |
| US8340726B1 (en) | 2008-06-30 | 2012-12-25 | Iwao Fujisaki | Communication device |
| US8452307B1 (en) | 2008-07-02 | 2013-05-28 | Iwao Fujisaki | Communication device |
| US8515763B2 (en) | 2009-11-24 | 2013-08-20 | Honeywell International Inc. | Methods and systems for utilizing voice commands onboard an aircraft |
| US8700405B2 (en) * | 2010-02-16 | 2014-04-15 | Honeywell International Inc | Audio system and method for coordinating tasks |
| US8666748B2 (en) | 2011-12-20 | 2014-03-04 | Honeywell International Inc. | Methods and systems for communicating audio captured onboard an aircraft |
| US8930180B1 (en) * | 2012-08-15 | 2015-01-06 | The Boeing Company | Rapid scenario generation using natural language understanding |
| US9305554B2 (en) * | 2013-07-17 | 2016-04-05 | Samsung Electronics Co., Ltd. | Multi-level speech recognition |
| US9550578B2 (en) | 2014-02-04 | 2017-01-24 | Honeywell International Inc. | Systems and methods for utilizing voice commands onboard an aircraft |
| DE102014017385B4 (de) | 2014-11-24 | 2016-06-23 | Audi Ag | Kraftfahrzeug-Gerätebedienung mit Bedienkorrektur |
| CN104931130B (zh) * | 2015-06-16 | 2017-07-04 | 中国气象科学研究院 | 一种数据采集传输仪以及数据采集和识别系统 |
| FR3041140B1 (fr) | 2015-09-15 | 2017-10-20 | Dassault Aviat | Reconnaissance vocale automatique avec detection d'au moins un element contextuel, et application au pilotage et a la maintenance d'un aeronef |
| CN108932944B (zh) * | 2017-10-23 | 2021-07-30 | 北京猎户星空科技有限公司 | 解码方法及装置 |
| US12492008B2 (en) * | 2022-03-08 | 2025-12-09 | Textron Innovations Inc. | Cockpit voice recorder decoder |
Family Cites Families (24)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5870287A (ja) * | 1981-10-22 | 1983-04-26 | 日産自動車株式会社 | 音声認識装置 |
| JPS5870286A (ja) * | 1981-10-22 | 1983-04-26 | 日産自動車株式会社 | 音声認識装置 |
| US4725956A (en) * | 1985-10-15 | 1988-02-16 | Lockheed Corporation | Voice command air vehicle control system |
| US4797924A (en) * | 1985-10-25 | 1989-01-10 | Nartron Corporation | Vehicle voice recognition method and apparatus |
| DE3681156D1 (de) * | 1986-03-27 | 1991-10-02 | Ibm | Automatische erzeugung von eingeschraenkten auf markov-modellen gestuetzten wortmustern. |
| US4827518A (en) * | 1987-08-06 | 1989-05-02 | Bell Communications Research, Inc. | Speaker verification system using integrated circuit cards |
| FR2652164A1 (fr) * | 1989-09-15 | 1991-03-22 | Thomson Csf | Procede de formation de voies pour sonar, notamment pour sonar remorque. |
| CA2049173C (en) * | 1990-08-16 | 1996-06-25 | Shoji Fujimoto | Speech recognition apparatus |
| FR2677828B1 (fr) * | 1991-06-14 | 1993-08-20 | Sextant Avionique | Procede de detection d'un signal utile bruite. |
| FR2678103B1 (fr) * | 1991-06-18 | 1996-10-25 | Sextant Avionique | Procede de synthese vocale. |
| US5241619A (en) * | 1991-06-25 | 1993-08-31 | Bolt Beranek And Newman Inc. | Word dependent N-best search method |
| US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
| FR2696574B1 (fr) * | 1992-10-06 | 1994-11-18 | Sextant Avionique | Procédé et dispositif d'analyse d'un message fourni par des moyens d'interaction à un système de dialogue homme-machine. |
| FR2697101B1 (fr) * | 1992-10-21 | 1994-11-25 | Sextant Avionique | Procédé de détection de la parole. |
| FR2700055B1 (fr) * | 1992-12-30 | 1995-01-27 | Sextant Avionique | Procédé de débruitage vectoriel de la parole et dispositif de mise en Óoeuvre. |
| FR2704111B1 (fr) * | 1993-04-16 | 1995-05-24 | Sextant Avionique | Procédé de détection énergétique de signaux noyés dans du bruit. |
| JPH0781498A (ja) * | 1993-09-20 | 1995-03-28 | Mitsubishi Electric Corp | 車両用走行制御装置 |
| US5805772A (en) * | 1994-12-30 | 1998-09-08 | Lucent Technologies Inc. | Systems, methods and articles of manufacture for performing high resolution N-best string hypothesization |
| JP3741156B2 (ja) * | 1995-04-07 | 2006-02-01 | ソニー株式会社 | 音声認識装置および音声認識方法並びに音声翻訳装置 |
| US5677990A (en) * | 1995-05-05 | 1997-10-14 | Panasonic Technologies, Inc. | System and method using N-best strategy for real time recognition of continuously spelled names |
| JP3716870B2 (ja) * | 1995-05-31 | 2005-11-16 | ソニー株式会社 | 音声認識装置および音声認識方法 |
| US5712957A (en) * | 1995-09-08 | 1998-01-27 | Carnegie Mellon University | Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists |
| US5937383A (en) * | 1996-02-02 | 1999-08-10 | International Business Machines Corporation | Apparatus and methods for speech recognition including individual or speaker class dependent decoding history caches for fast word acceptance or rejection |
| FR2744871B1 (fr) * | 1996-02-13 | 1998-03-06 | Sextant Avionique | Systeme de spatialisation sonore, et procede de personnalisation pour sa mise en oeuvre |
-
1996
- 1996-01-26 FR FR9600934A patent/FR2744277B1/fr not_active Expired - Fee Related
-
1997
- 1997-01-24 US US08/913,849 patent/US6128594A/en not_active Expired - Lifetime
- 1997-01-24 WO PCT/FR1997/000147 patent/WO1997027577A1/fr not_active Ceased
- 1997-01-24 EP EP97901671A patent/EP0818036B1/de not_active Expired - Lifetime
- 1997-01-24 DE DE69701774T patent/DE69701774T2/de not_active Expired - Fee Related
- 1997-01-24 JP JP9526617A patent/JPH11502953A/ja active Pending
- 1997-01-24 CA CA002214103A patent/CA2214103A1/fr not_active Abandoned
Also Published As
| Publication number | Publication date |
|---|---|
| CA2214103A1 (fr) | 1997-07-31 |
| FR2744277A1 (fr) | 1997-08-01 |
| EP0818036B1 (de) | 2000-04-26 |
| US6128594A (en) | 2000-10-03 |
| DE69701774D1 (de) | 2000-05-31 |
| FR2744277B1 (fr) | 1998-03-06 |
| WO1997027577A1 (fr) | 1997-07-31 |
| EP0818036A1 (de) | 1998-01-14 |
| JPH11502953A (ja) | 1999-03-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69701774T2 (de) | Spracherkennung in geräuschvoller umgebung und vorrichtung zur durchführung des verfahrens | |
| DE102020205786B4 (de) | Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze | |
| DE60124559T2 (de) | Einrichtung und verfahren zur spracherkennung | |
| DE10134908B4 (de) | Spracherkennungsvorrichtung und Verfahren, welche zwei gegenteilige Wörter verwenden | |
| DE69806557T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
| DE69427083T2 (de) | Spracherkennungssystem für mehrere sprachen | |
| DE69923379T2 (de) | Nicht-interaktive Registrierung zur Spracherkennung | |
| EP0925461B1 (de) | Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem | |
| DE10306022B3 (de) | Dreistufige Einzelworterkennung | |
| DE69914131T2 (de) | Positionshandhabung bei der Spracherkennung | |
| DE69229816T2 (de) | Einrichtung und Verfahren für Sprachmusteridentifizierung | |
| EP0925579B1 (de) | Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem | |
| DE60020660T2 (de) | Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung | |
| DE10334400A1 (de) | Verfahren zur Spracherkennung und Kommunikationsgerät | |
| EP3430615B1 (de) | Fortbewegungsmittel, system und verfahren zur anpassung einer länge einer erlaubten sprechpause im rahmen einer spracheingabe | |
| EP1182646A2 (de) | Verfahren zur Zuordnung von Phonemen | |
| EP0987682A2 (de) | Verfahren zur Adaption von linguistischen Sprachmodellen | |
| EP1238250B1 (de) | Spracherkennungsverfahren und -einrichtung | |
| EP1063633B1 (de) | Verfahren zum Training eines automatischen Spracherkenners | |
| DE10118668B4 (de) | Koordinatenmeßvorrichtung | |
| EP1457966A1 (de) | Verfahren zum Ermitteln der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung | |
| DE102005030965B4 (de) | Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments | |
| DE10122087C1 (de) | Verfahren zum Training und Betrieb eines Spracherkenners, Spracherkenner und Spracherkenner-Trainingssystem | |
| DE19824450C2 (de) | Verfahren und Vorrichtung zur Verarbeitung von Sprachsignalen | |
| EP0834860B1 (de) | Verfahren zur Spracherkennung mit kontexabhängig modellierten Hidden Markov Modellen |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 8364 | No opposition during term of opposition | ||
| 8339 | Ceased/non-payment of the annual fee |