-
Die
vorliegende Erfindung bezieht sich auf ein Verfahren zur Spracherkennung
in einer Geräuschumgebung,
in der der Rauschpegel fluktuieren kann, und auf eine Vorrichtung
zur Spracherkennung in einem akustischen Signal, das ein Rauschen
aufweist, das fluktuieren kann.
-
Die
Erfindung betrifft also die Verarbeitung von akustischen Signalen,
die Sprache enthalten, die in einer verrauschten Umgebung erfasst
wird, wobei dieses Rauschen zeitlich variieren kann. Sie findet
ihre Anwendung insbesondere, aber nicht ausschließlich, im
Rahmen der Spracherkennung an Bord von allen möglichen Fahrzeugen, zum Beispiel
in den Cockpits von Luftfahrzeugen oder in den Fahrgastzellen von
Kraftfahrzeugen. Sie betrifft ebenfalls die Telefonverbindungen
oder Funktelefonverbindungen in verrauschter Umgebung, zum Beispiel
auf der Straße
in der Stadt.
-
In
der Geräuschumgebung
in einem Cockpit eines Luftfahrzeugs stammt das Rauschen von den
Motoren, der Klimaanlage, der Lüftung,
den Bordausrüstungen
und dem aerodynamischen Rauschen. Bei dieser Anwendung ist das Rauschen
variabel und hängt
stark von der Drehzahl der Motoren ab. Das Rauschen ist sehr unterschiedlich
wenn das Luftfahrzeug still steht, in der Rollphase, in der Start-
oder Landephase, beim stabilisierten Reiseflug. Dieses Rauschen
wird zumindest zum Teil von einem Mikrophon erfasst, in das der Pilot
oder ein anderes Mitglied der Crew spricht, und es verdeckt das
Nutzsignal, d.h. die Unterhaltungen, die man erkennen möchte.
-
In
gleicher Weise ist die Geräuschumgebung
in einem Kraftfahrzeug sehr unterschiedlich, wenn es steht oder
fährt.
In der Stadt hängt
der Rauschpegel stark vom Fahrzeugverkehr ab.
-
In
der bekannten Technik weisen die einfachsten Spracherkennungssysteme,
die das Rauschen nicht berücksichtigen,
mindestens drei Blöcke
auf, wie es in 1a gezeigt ist. Diese Blöcke sind:
ein Block 1 der Erfassung des Sprachsignals, ein Block 2 der
Parametrisierung oder Parametrisierungskette und ein Block 3 der
Erkennung von Formen.
-
Im
Erfassungsblock 1 ist das verarbeitete akustische Signal
tatsächlich
ein Sprachsignal, das von einem elektroakustischen Wandler erfasst
wird. Dieses Signal wird durch Tastung digitalisiert und in eine
bestimmte Anzahl überlappender
oder nicht überlappender
Rahmen gleicher oder nicht gleicher Zeitdauer zerschnitten. Bei
der Sprachverarbeitung ist es üblich,
anzunehmen, dass stationäre
Betriebszustände
sich in Zeitdauern zwischen 10 und 40 ms aufbauen. Dies sind Zeitintervalle,
die Rahmen genannt werden. Die Überlappung
zwischen Rahmen wird aufgrund von bestimmten, so genannten "plosiven" Phonemen vorgesehen, die
den Tönen "p", "t", "k", "b", "d", "g" entsprechen, die
eine geringere Zeitdauer als diejenige eines Rahmens haben. Ein
Phonem ist die kleinste in der Sprache vorhandene Einheit, die durch
ihr Vorhandensein die Bedeutung eines Worts ändern kann.
-
Im
Parametrisierungsblock 2 wird jeder Rahmen einem Parametervektor
zugeordnet, der die im Rahmen enthaltene akustische Information
ausdrückt.
Es gibt mehrere Methoden, um einen Parametervektor zu bestimmen.
Ein klassisches Beispiel einer Methode ist die Methode, die die
cepstralen Koeffizienten des Typs MFCC verwendet, eine englische
Abkürzung
von "Mel Frequency
Cepstral Coefficient".
-
Der
in 1 dargestellte Parametrisierungsblock 2 ist
generisch. Er setzt eine Schätzung
der gefensterten Spektralenergie ein und umfasst also die Parametrisierungsketten
vom Typ MFCC. Er besitzt mehrere Module 21, 22, 23,
darunter den Modul 21, der es ermöglicht, die Spektralenergie
jedes Rahmens in einer bestimmten Anzahl von Frequenzkanälen Nb oder
Fenstern zu bestimmen. Er empfängt
jeden Rahmen und liefert für
jeden von ihnen einen Spektralenergiewert oder Spektralkoeffizient
pro Frequenzkanal. Der Modul 22 führt eine Komprimierung der
Nb Spektralkoeffizienten durch, die im Modul 21 erhalten
werden, um das Verhalten des menschlichen Hörsystems zu berücksichtigen.
Der Modul 23 führt
eine Transformation der komprimierten Spektralkoeffizienten durch,
wobei diese transformierten komprimierten Spektralkoeffizienten
die Parameter des gesuchten Parametervektors sind.
-
Der
Formerkennungsblock 3 weist seinerseits mindestens zwei
Module auf: einen eigentlichen Formerkennungsmodul 31 und
einen Modul 32 zur Speicherung von akustischen Referenzen,
Frequenzraum genannt. Der Modul 31 bewertet die Reihe der
Parametervektoren, die von der Parametrisierung stammt, im Vergleich
mit Referenzen, die während
einer Lernphase erhalten werden, wobei diese Referenzen die akustischen Prägungen jedes
Satzes, jedes Worts oder jedes Phonems, allgemein jedes Steuerbefehls,
ausdrücken.
Nach dem letzten Rahmen, was allgemein dem Ende eines Steuerbefehls
entspricht, ergibt der Vergleich entweder einer Entfernung zwischen
dem getesteten Steuerbefehl und Referenzsteuerbefehlen, wobei der
Referenzsteuerbefehl, der die geringste Entfernung aufweist, erkannt
wird, oder eine Wahrscheinlichkeit, dass die Reihe von Parametervektoren
zu einer Folge von Phonemen gehören.
Die digitalen Signale, die einen erkannten Steuerbefehl darstellen,
werden an eine Verwendungsvorrichtung 4 übertragen.
-
Die
in dieser Phase üblicherweise
verwendeten Algorithmen sind im ersten Fall vom Typ DTW, der englischen
Abkürzung
für Dynamic
Time Warping, oder, im zweiten Fall, vom Typ HMM, der englischen
Abkürzung
für Hidden
Markov Models.
-
Das
Rauschen ist aber die Hauptfehlerquelle beim Prozess der Spracherkennung.
Das verarbeitete akustische Signal ist das zum Rauschsignal hinzugefügte Sprachsignal.
Das Rauschsignal verdeckt das Sprachsignal, es führt zu einem Auflösungsverlust
der Spracherkennung. Je höher
der Rauschpegel, desto stärker
ist der Erkennungsverlust.
-
Um
zu versuchen, sich vom Rauschen zu befreien, kann man eine Entrauschungsverarbeitung
vor der Bestimmung der Spektralenergie einführen, um das Rauschsignal im
verarbeiteten akustischen Signal zu minimieren. Dieses Entrauschen
kann auf verschiedene Weise erfolgen und insbesondere, wie in der
französischen
Patentanmeldung FR-2 765 715 beschrieben ist. In dieser Patentanmeldung
wird das Entrauschen ausgehend von den Spektraleigenschaften eines
gespeicherten Rauschmodells durchgeführt und verwendet ein Wiener-Filter,
das durch die Spektraleigenschaften des Rauschmodells parametrisiert
ist. Diese Patentanmeldung erklärt
die automatische und permanente Suche nach dem Rauschmodell und
den Schritt des Entrauschens. In 1b findet
man den Erfassungsblock 1, den Parametrisierungsblock 2 und
den Formerkennungsblock 3 wie in 1a, aber
es gibt einen Sprachermittlungsblock 7, einen Rauschmodellisierungsblock 5 und
einen Entrauschungsblock 6 zwischen dem Erfassungsblock 1 und
dem Parametrisierungsblock 2.
-
Trotz
des Entrauschens bleibt das an den Parametrisierungsblock 2 übertragene,
entrauschte akustische Signal aber mit einem Restrauschen von nicht
vernachlässigbarer
Amplitude behaftet, das den Spracherkennungsprozess stört. Das
Hinzufügen
der Entrauschungsverarbeitung reicht nicht aus, um das Rauschen zu
bekämpfen.
-
Es
wurde versucht, Parametrisierungsketten zu verwenden, die so robust
wie möglich
sind, d.h., die so wenig wie möglich
vom Rauschen beeinträchtigt
werden. Solche Ketten verarbeiten vorwiegend die energetischsten
Bereiche des akustischen Signals. Je energetischer eine Komponente
ist, desto weniger empfindlich ist sie nämlich für das Rauschen. Das Gegenstück zur Robustheit
ist der Verlust der Empfindlichkeit.
-
Das
Problem bei den in Betracht gezogenen Anwendungen ist es, dass das
Rauschen variieren kann; es kann zeitweise fast inexistent und dann
wieder sehr stark sein. Die Verarbeitung des erfassten akustischen Signals
muss also unabhängig
vom Rauschpegel leistungsfähig
sein. Es muss ein optimaler Kompromiss zwischen Robustheit und Empfindlichkeit
erhalten werden. Das ist eine erste Schwierigkeit. Das Problem stellt sich
noch stärker,
wenn der Rauschpegel in sehr kurzer Zeit sehr stark variiert. Dies
ist zum Beispiel beim Kraftfahrzeug oder einem Luftfahrzeug der
Fall, die, nachdem sie anfangs stillstehen, dann starten.
-
So
beschreibt das Patent
EP 0 918
317 ein Frequenzfilterungsverfahren zum Entrauschen von Sprachsignalen
für die
automatische Erkennung der Sprache, bei dem ein Rauschmodell für jeden
Rahmen geschätzt
und seine Kompatibilität
mit dem vorhergehenden Modell überprüft wird.
Dieses Verfahren kann aber zu häufige
Anpassungen und Aktualisierungen nach sich ziehen, während das
Rauschen nicht wirklich störend
ist.
-
Die
vorliegende Erfindung hat sich zum Ziel gesetzt, in Echtzeit die
Parametrisierung und die Formerkennung an das Rauschen anzupassen,
nachdem ein Übergang
im Umgebungsrauschen identifiziert wurde, um die Spracherkennung
in Gegenwart eines starken Rauschens so robust wie möglich, und,
wenn das Rauschen nicht vorhanden oder praktisch nicht vorhanden
ist, so empfindlich wie möglich
zu machen.
-
Um
dies zu erreichen, weist das Verfahren zur Spracherkennung in einem
akustischen Signal gemäß der Erfindung
auf:
eine Phase der Digitalisierung und des Zerschneidens des
verrauschten akustischen Signals in eine Folge von Zeitrahmen,
eine
Phase der Parametrisierung von Sprache enthaltenden Zeitrahmen,
um für
jeden Rahmen einen Vektor von Parametern im Frequenzbereich zu erhalten,
wobei dieser Parametervektor den akustischen Inhalt des Rahmens
ausdrückt,
eine
Phase der Erkennung von Formen, in der die Parametervektoren bezüglich von
während
einer vorhergehenden Lernphase in einem Referenzraum voreingespeicherten
Referenzen ausgewertet werden, um die Erkennung durch Bestimmung
mindestens einer Referenz zu erhalten, die den Parametervektoren
am nächsten liegt,
eine
Phase der Spracherfassung, während
der nur die Rauschrahmen isoliert werden,
eine Phase der wiederholten
Suche nach in der Folge von Zeitrahmen aufeinander folgenden Rauschmodellen,
wobei ein neues Rauschmodell ein laufendes Rauschmodell ersetzt,
wobei ein Rauschmodell mehrere aufeinander folgende Rahmen enthält,
dadurch
gekennzeichnet, dass es aufweist
- – eine Phase
der Suche nach einem Rauschübergang
zwischen dem neuen Rauschmodell und dem laufenden Modell, wobei
die Phase der Suche nach einem Übergang
einen Schritt der Suche nach einer energetischen Inkompatibilität und/oder
einen Schritt der Suche nach einer spektralen Inkompatibilität zwischen
dem neuen Rauschmodell und dem laufenden Modell enthält, wobei
die Erfassung einer Inkompatibilität einen Rauschübergang
ausdrückt,
und
wenn ein Rauschübergang
erfasst wurde, dadurch, dass es eine Phase der Aktualisierung des
Referenzraums in Abhängigkeit
von dem neuen Rauschmodell enthält,
wobei die Parametrisierungsphase einen Schritt der Anpassung der
Parameter an das neue Rauschmodell enthält.
-
Der
Schritt der Suche nach einer energetischen Inkompatibilität kann den
Vergleich des Verhältnisses zwischen
der mittleren Energie des neuen Rauschmodells und der mittleren
Energie des laufenden Rauschmodells mit einem niedrigen Schwellwert
und einem hohen Schwellwert enthalten, wobei eine energetische Inkompatibilität gefunden
wird, wenn das Verhältnis
außerhalb
des Intervalls liegt, das von den beiden Schwellwerten begrenzt
wird.
-
Um
zu häufige
Anpassungen und Aktualisierungen zu vermeiden, wenn das Rauschen
nicht wirklich störend
ist, kann der Schritt der Suche nach einer energetischen Inkompatibilität ebenfalls
einen Vergleich der mittleren Energie des neuen Rauschmodells und
der mittleren Energie des laufenden Rauschmodells mit einem Mindest-Energieschwellwert
enthalten, unterhalb dessen das Rauschen vernachlässigbar
ist, wobei die durch den Vergleich des Verhältnisses zwischen der mittleren
Energie des neuen Rauschmodells und der mittleren Energie des laufenden
Rauschmodells bestimmte energetische Inkompatibilität ignoriert
wird, wenn die mittlere Energie des neuen Rauschmodells und die
mittlere Energie des laufenden Rauschmodells beide unter dem Mindest-Energieschwellwert
liegen.
-
Der
Schritt der Suche nach einer spektralen Inkompatibilität kann ausgehend
von Spektralkoeffizienten, die die Spektralenergie der Rahmen des
laufenden Rauschmodells bzw. die Spektralenergie der Rahmen des
neuen Rauschmodells in mindestens einem Frequenzkanal ausdrücken, einen
Vergleich des Verhältnisses
zwischen dem dem Frequenzkanal des neuen Rauschmodells zugeordneten
Spektralkoeffizienten und dem dem gleichen Frequenzkanal zugeordneten
Spektralkoeffizienten des laufenden Rauschmodells mit einem niedrigen
Schwellwert und einem hohen Schwellwert enthalten, wobei eine spektrale
Inkompatibilität
gefunden wird, wenn das Verhältnis
sich außerhalb
des von den beiden Schwellwerten begrenzten Intervalls befindet.
-
Nach
wie vor, um zu häufige
Aktualisierungen und Anpassungen zu vermeiden, die nicht wirklich
berechtigt wären,
kann der Schritt der Suche nach einer spektralen Inkompatibilität ebenfalls
für mindestens
einen Frequenzkanal einen Vergleich des Spektralkoeffizienten des
neuen Rauschmodells in diesem Frequenzkanal und des Spektralkoeffizienten
des laufenden Rauschmodells in diesem Frequenzkanal mit einem Mindest-Spektralkoeffizient
in diesem Frequenzkanal enthalten, ein Mindestwert, unterhalb dessen
das Rauschen vernachlässigbar
ist, wobei eine spektrale Inkompatibilität, die durch den Vergleich
des Verhältnisses
zwischen Spektralkoeffizienten bestimmt wird, ignoriert wird, wenn
für diesen
Frequenzkanal die Spektralkoeffizienten des neuen Modells und des
laufenden Modells beide unter dem Mindest-Spektralkoeffizient liegen.
-
Die
Phase der Parametrisierung kann einen Schritt der Bestimmung von
je einem Frequenzkanal zugeordneten Spektralkoeffizienten aufweisen,
die je die Spektralenergie eines Sprache enthaltenden Rahmens im
Frequenzkanal ausdrücken,
wobei
der Schritt der Anpassung der Parameter für jeden Spektralkoeffizient
eine Bestimmung eines Robustheitsoperators, der das dem Spektralkoeffizient
bezüglich
des Rauschpegels des neuen Rauschmodells im gleichen Frequenzkanal,
das den Übergang
ausgelöst
hat, zu gewährende
Vertrauen ausdrückt,
eine Gewichtung des Spektralkoeffizienten mit dem Robustheitsoperator,
eine Bestimmung des Parametervektors ausgehend von den gewichteten
Spektralkoeffizienten aufweist.
-
Der
Robustheitsoperator für
die Parametrisierung kann die folgende Beziehung erfüllen:
wobei
B
i,par der Spektralkoeffizient und P (B
i,nouvmod) ein Parameter ist, der vom Rauschpegel
des neuen Rauschmodells abhängt,
das den Übergang
im Frequenzkanal i ausgelöst
hat.
-
Die
Phase der Aktualisierung des Referenzraums kann ausgehend von je
einem Frequenzkanal zugeordneten Basis-Spektralkoeffizienten, die
je die Spektralenergie eines Basisrahmens ausdrücken, der in der Lernphase
erhalten wurde, die Bestimmung eines Robustheitsoperators für jeden
Basis-Spektralkoeffizient, wobei
dieser Robustheitsoperator das dem Spektralkoeffizient bezüglich des
Rauschpegels zu gewährende Vertrauen
ausdrückt,
die
Gewichtung der Basis-Spektralkoeffizienten mit den jeweiligen Robustheitsoperatoren,
die
Ausarbeitung der aktualisierten Referenzen mit den gewichteten Spektralkoeffizienten
aufweisen.
-
Der
Robustheitsoperator zur Aktualisierung des Referenzraums kann die
folgende Beziehung erfüllen:
wobei B
i,bas der
Basis-Spektralkoeffizient und P (B
i,nouvmod) ein
Parameter ist, der vom Rauschpegel des neuen Rauschmodells abhängt, das
den Übergang
im Frequenzkanal i ausgelöst
hat.
-
Wenn
die Referenzen ausgehend von komprimierten Basis-Spektralkoeffizienten ausgearbeitet
werden, um Rechenzeit zu sparen, kann das Verfahren unter Verwendung
einer Konvertierungstabelle die komprimierten Basis-Spektralkoeffizienten
in die komprimierten und gewichteten Basis-Spektralkoeffizienten konvertieren.
-
Die
Konvertierungstabelle enthält
die nicht komprimierten Basis-Spektralkoeffizienten, die durch Anwendung
des Kehrwerts der Komprimierungsfunktion an die komprimierten Basiskoeffizienten
erhalten werden, und das Verfahren weist auf:
eine Bestimmung
des Robustheitsoperators für
jeden der nicht komprimierten Basis-Spektralkoeffizienten,
eine
Gewichtung der nicht komprimierten Basis-Spektralkoeffizienten,
eine Komprimierung
von nicht komprimierten und gewichteten Basis-Spektralkoeffizienten,
um die komprimierten und gewichteten Basis-Spektralkoeffizienten zu erhalten.
-
Das
Verfahren wird mit Referenzen verwendet, die aus einer Folge von
Zeitrahmen gebildet werden, die einem oder mehreren Wörtern entsprechen,
wobei diese Folge von Rahmen durch eine Reihe von Parametervektoren
identifiziert wird, wobei diese Parameter durch Komprimierung von
Spektralkoeffizienten erhalten werden.
-
Es
wird ebenfalls mit Referenzen verwendet, die aus einer Folge von
Zeitrahmen gebildet werden, die einem oder mehreren Phonemen entsprechen,
wobei diese Rahmenfolge durch das Zentrum und die Standardabweichung
einer oder mehreren Gaußschen Funktionen
identifiziert wird, wobei dieses Zentrum und diese Standardabweichung
von den Parametern der Parametervektoren der Rahmen abhängen.
-
Für eine bessere
Erkennung kann eine Phase des Entrauschens der Sprache enthaltenden
Zeitrahmen vor der Phase der Parametrisierung stattfinden.
-
Die
vorliegende Erfindung betrifft ebenfalls ein System zur Spracherkennung
in einem verrauschten akustischen Signal zur Anwendung des Verfahrens.
Es weist auf:
Mittel, um das akustische Signal zu erfassen,
es zu digitalisieren und in Zeitrahmen zu zerschneiden,
eine
Parametrisierungskette, um die Sprache enthaltenden Zeitrahmen in
Parametervektoren im Frequenzbereich auszudrücken,
Mittel zur Erkennung
von Formen mit einem Raum von Referenzen, die während eines Lernvorgangs erfasst wurden,
um die von der Parametrisierungskette stammenden Parametervektoren
bezüglich
der Referenzen auszuwerten, um die Erkennung durch Bestimmung einer
Referenz zu erhalten, die sich den Parametervektoren am meisten
annähert,
Mittel
zur Modellisierung des Rauschens, um wiederholt Rauschmodelle zu
erarbeiten, wobei ein neues Rauschmodell ein laufendes Rauschmodell
ersetzt,
Mittel zur Erfassung eines Rauschübergangs zwischen dem neuen
Rauschmodell und dem laufenden Rauschmodell,
Mittel, um die
Parametrisierungskette an das Rauschen des neuen Rauschmodells anzupassen,
das den Rauschübergang
ausgelöst
hat,
Mittel, um die Referenzen des Referenzraums in Abhängigkeit
vom Rauschpegel des neuen Rauschmodells zu aktualisieren, das den
Rauschübergang
ausgelöst
hat.
-
Die
Mittel, um die Referenzen des Referenzraums zu aktualisieren, können einen
ersten Speicherraum aufweisen, um die aktualisierten Referenzen
zu speichern, wobei diese aktualisierten Referenzen laufende Referenzen
ersetzen sollen, die zur Erkennung von Formen vor der Erfassung
des Rauschübergangs verwendet
werden, wobei diese laufenden Referenzen in einem zweiten Speicherraum
gespeichert sind.
-
Es
kann auch einen Speicherraum, um komprimierte Basis-Spektralkoeffizienten
zu speichern, die ausgehend von Basis-Spektralkoeffizienten erhalten
wurden, die je einem Frequenzkanal zugeordnet sind, wobei jeder
dieser Basis-Spektralkoeffizienten die Spektralenergie eines Basisrahmens
ausdrückt,
der vom Lernvorgang stammt, und eine Konvertierungstabelle aufweisen,
um die komprimierten Basis-Spektralkoeffizienten in komprimierte
Basis-Spektralkoeffizienten zu konvertieren, die je von einem Robustheitsoperator
abhängig
vom Rauschpegel des neuen Rauschmodells, das den Rauschübergang
ausgelöst
hat, und vom zu gewichtenden Basis-Spektralkoeffizienten gewichtet
werden, wobei diese komprimierten und gewichteten Basis-Spektralkoeffizienten
zur Aktualisierung der Referenzen des Referenzraums verwendet werden.
-
Vorzugsweise
weist es Mittel auf, um die Sprache enthaltenden Zeitrahmen vor
ihrer Parametrisierung zu entrauschen.
-
Die
Erfindung wird besser verstanden werden und weitere Merkmale und
Vorteile gehen aus der nachfolgenden Beschreibung unter Bezugnahme
auf die beiliegenden Figuren hervor. Es zeigen:
-
die 1a, 1b (bereits
beschrieben) schematisch in Form von Blockdiagrammen zwei bekannte Spracherkennungssysteme,
wobei dasjenige der 1b eine Entrauschungsverarbeitung
enthält;
-
2 ein
Spracherkennungssystem zur Anwendung des erfindungsgemäßen Spracherkennungsverfahrens;
-
die 3a, 3b die
Erfassung des Rauschübergangs;
-
4 die
Entwicklung des Robustheitsoperators in Abhängigkeit von den Werten des
Spektralkoeffizienten für
zwei unterschiedliche operationelle Funktionen;
-
5 im
Detail ein Beispiel einer Parametrisierungskette des erfindungsgemäßen Spracherkennungssystems;
-
6 ein
Beispiel der Aktualisierung des Frequenzraums des erfindungsgemäßen Spracherkennungssystems;
-
7 eine
graphische Darstellung, die es ermöglicht, den Spracherkennungsgrad
in Abhängigkeit vom
Rauschpegel mit einerseits einem klassischen Spracherkennungssystem
und andererseits dem erfindungsgemäßen Spracherkennungssystem
zu vergleichen.
-
Es
wird auf 2 Bezug genommen, die ein Beispiel
eines erfindungsgemäßen Spracherkennungssystems
zeigt. Das mit 100 bezeichnete Spracherkennungssystem empfängt am Eingang
ein akustisches Zeitsignal, das zumindest zeitweise von einem Nutzsignal,
der gesuchten Sprache, gebildet wird, zu dem sich ein Rauschsignal,
nur Rauschen oder nur Sprache, hinzufügt. Man findet wie in den 1a, 1b einen
Erfassungsblock 1, der das akustische Signal empfängt, es
durch Tasten digitalisiert und in Rahmen von mehreren Tastproben
zerschneidet. Ein erster an sich klassischer Modul 7 empfängt die
Rahmen und unterscheidet in ihrem akustischen Signal das Nutzsignal
vom Rauschsignal. Die Unterscheidung zwischen Sprache und Rauschen
ist eine klassische und bekannte Signalverarbeitung. Es sind verschiedene
Methoden bekannt, und sie beruhen auf den folgenden Feststellungen.
Das Rauschen und die Sprache liegen energiemäßig übereinander, so dass ein Sprache
und Umgebungsrauschen enthaltendes akustisches Signal mehr Energie
enthält
als ein Signal nur mit Umgebungsrauschen. Das Umgebungsrauschen
besitzt kurzfristig eine relativ stabile und geringe Energie. Der
Sprache geht meist ein Atemgeräusch
voraus, das einige Hundert Millisekunden vor der ersten Sprachausgabe
endet, so dass man nur das Umgebungsrauschen kurz vor dem Aussenden
von Sprache findet. Die Spektren bestimmter Phoneme, insbesondere
der Phoneme, die gesprochenen Vokalen und Konsonanten entsprechen,
besitzen eine charakteristische Periodizität.
-
Wenn
Sprache erfasst wird, werden die Nutzsignal-Rahmen, die sowohl die zu erkennende
Sprache als auch das Umgebungsrauschen enthalten, zum Parametrisierungsmodul 2 gesendet,
der später
beschrieben werden wird. Vor dem Beginn der effektiven Parametrisierung
kann man eine Verarbeitung des Entrauschens vorsehen, die durch
den später
beschriebenen Block 6 dargestellt wird. Man findet anschließend in
der Spracherkennungskette den Block 3 zur Erkennung von
Formen, der erkannte Sprache 4 liefert, wobei dieser Block
zur Erkennung von Formen den Referenzraum 32 enthält.
-
Am
Ausgang des Spracherfassungsblocks 7 werden nur die Rauschrahmen
isoliert und an einen Block der Modellisierung des Rauschens 5 gesendet.
Die Ausarbeitung eines Rauschmodells ausgehend von einem verrauschten
Signal ist an sich klassisch. Ein Verfahren der wiederholten Suche
nach Rauschmodellen, das besonders an die hauptsächlich von dem erfindungsgemäßen Spracherkennungssystem
anvisierten Anwendungen angepasst ist, ist in der französischen
Anmeldung FR-2 765 715 beschrieben.
-
Ein
Rauschmodell wird von aufeinander folgenden Rahmen gebildet, deren
Energie im Wesentlichen die gleiche ist und unter einem Schwellwert
liegt.
-
Die
automatische und wiederholte Suche nach einem Rauschmodell besteht
darin, die aufeinander folgenden Rahmen zu analysieren, um N aufeinander
folgende Rahmen zu finden, deren Energien einander nahe sind. Hierzu
untersucht man, ob das Verhältnis
zwischen der Signalenergie, die in einem Rahmen enthalten ist, und
der Signalenergie, die in einem benachbarten Rahmen enthalten ist,
sich innerhalb eines bestimmten Wertebereichs befindet. Wenn eine
solche Folge von Rahmen gefunden wurde, speichert man die digitalen
Werte aller Tastproben dieser Rahmen. Diese Einheit von digitalen
Werten bildet das laufende Modell. Die Analyse der Rahmen setzt
sich fort, um ein neues, passenderes Modell zu finden, entweder,
weil es das Umgebungsrauschen besser ausdrückt, oder weil das Umgebungsrauschen
sich entwickelt hat. Wenn man mindestens N weitere aufeinander folgende
Rahmen findet, die den gleichen Bedingungen der energetischen Stabilität entsprechen,
vergleicht man die mittlere Energie dieser neuen Folge von Rahmen
mit der mittleren Energie des laufenden Modells, und wenn das Verhältnis zwischen
der mittleren Energie der neuen Folge und der mittleren Energie
des laufenden Modells unter einer Ersatzschwelle liegt, die vorzugsweise
geringfügig größer als
Eins ist, bildet die neue Folge von Rahmen ein neues Modell, das
zu speichern ist und das laufende Modell ersetzen wird. Die mittlere
Energie eines Rauschmodells ist gleich der Summe der Energien der
N Rahmen, die es bilden, geteilt durch N.
-
Wenn
das Rauschen sich langsam entwickelt, wird die Entwicklung des Rauschens
durch das Ersetzen der Modelle dann berücksichtigt, wenn die Ersatzschwelle über eins
liegt. Wenn aber das Rauschen sich schnell in Aufwärtsrichtung
entwickelt, kann möglicherweise
die Entwicklung nicht berücksichtigt
werden, wenn man nicht von Zeit zu Zeit eine Rücksetzung der Suche nach einem
Rauschmodell durchführt.
In der Anwendung auf Luftfahrzeuge darf zum Beispiel nicht während des
Starts das Rauschmodell darauf fixiert bleiben, was es war, als
das Luftfahrzeug still stand, da ein Rauschmodell nur durch ein
weniger energetisches Modell ersetzt wird. Ein einfaches Rücksetzen
besteht darin, von Zeit zu Zeit ein laufendes Modell durch ein neues Modell
zu ersetzen, unabhängig
vom Vergleich der mittleren Energien des laufenden Modells und des
neuen Modells.
-
Wie
beim Stand der Technik wird das laufende Modell in der Phase des
Entrauschens, die im Block 6 dargestellt ist, verwendet.
Dieser Block 6 empfängt
das akustische Signal, das das Nutzsignal und das Rauschsignal enthält. Das
Entrauschen kann erfolgen, indem die Fourier-Transformationen des
zu entrauschenden akustischen Signals bearbeitet werden. Die Fourier-Transformation des
zu entrauschenden akustischen Signals wird Rahmen für Rahmen
durchgeführt
und liefert für
jeden Rahmen Tastproben, die je einem Frequenzkanal zugeordnet sind.
Diese Tastproben werden vorzugsweise in einem Wiener-Filter gefiltert.
Das Wiener-Filter besitzt ebenso viele Koeffizienten wie Frequenzkanäle. Jede
Tastprobe wird mit dem jeweiligen Koeffizienten des Filters multipliziert.
Die Koeffizienten werden ausgehend von der Spektraldichte des verrauschten
akustischen Signals und der Spektraldichte des Rauschmodells berechnet.
Die mit dem entsprechenden Koeffizienten multiplizierten Tastproben
eines Rahmen bilden den entrauschten Rahmen.
-
Nun
dient die Modellisierung des Rauschens aber ebenfalls dazu, die
Parametrisierung an das Rauschen anzupassen und den Referenzraum
in Abhängigkeit
vom Rauschen zu aktualisieren. Der Block 50 ermöglicht es, eine
Veränderung
im Umgebungsrauschen zu identifizieren, die eine Aktualisierung
des Referenzraums und eine Veränderung
der Parametrisierungskette rechtfertigt, sobald Sprache erfasst
wird. Im Block 50 wird ein Rauschübergang zwischen dem neuen
Rauschmodell und dem laufenden Rauschmodell erfasst. Die Erfassung
des Rauschübergangs
enthält
einen Schritt der Suche nach einer energetischen und/oder spektralen
Inkompatibilität
zwischen dem neuen Rauschmodell und dem laufenden Modell.
-
Ein
Energieübergang
tritt auf, wenn der allgemeine Pegel des Rauschens ansteigt oder
sinkt. Ein Spektralübergang
tritt auf, wenn die Form des Spektrums sich ändert, ohne dass sich deswegen
die mittlere Energie unbedingt wesentlich ändert.
-
Nun
wird auf 3a Bezug genommen. Um über die
energetische Inkompatibilität
im Block 501 zu entscheiden, wird die mittlere Energie
Enouvmod des neuen Rauschmodells mit der
mittleren Energie Emodcour des laufenden
Rauschmodells verglichen. Das laufende Rauschmodell wird bei der
laufenden Parametrisierung verwendet, so lange kein Rauschübergang
erfasst wird. Man berechnet das Verhältnis zwischen den beiden mittleren
Energien Enouvmod/Emodcour.
Die Regel ist wie folgt: Wenn dieses Verhältnis aus einem Intervall stammt, das
von zwei Schwellwerten S und S' begrenzt
wird, von denen einer S größer als
eins und der andere S' kleiner
als eins ist, liegt eine Inkompatibilität zwischen den beiden Modellen
vor. Es wird ein Rauschübergang
erfasst. Die beiden Schwellwerte S und S' sind vorzugsweise der gegenseitige
Kehrwert: S' = 1/S,
wodurch die Bestimmung eines von beiden ausreicht. Zum Beispiel
ist ein typischer Wert S = 4, und somit S' = 0,25. Der Schwellwert ermöglicht es,
die Frequenz der Erfassung der Übergänge und
somit die Frequenz der Veränderung
der Parametrisierungskette und der Aktualisierung des Referenzraums
festzulegen. Man versucht, eine zu große Frequenz zu vermeiden, die
einen Fluss von Aktualisierungen des Referenzraums bedingen würde, der
mit der verfügbaren
Rechenleistung inkompatibel wäre.
Wenn eine energetische Inkompatibilität erfasst wird, wird der Referenzraum
aktualisiert und die Parametrisierung an das neue Rauschmodell angepasst,
das den Rauschübergang
erzeugt hat. Diese Anpassung und diese Aktualisierung werden später erläutert.
-
Wenn
keine energetische Inkompatibilität erfasst wird, wird im Block 502 eine
Suche nach der spektralen Inkompatibilität durchgeführt. Man hätte mit der Suche nach der
spektralen Inkompatibilität
beginnen können,
die Reihenfolge hat keine Bedeutung.
-
Um über die
spektrale Inkompatibilität
zu entscheiden, wird in den Frequenzbereich übergegangen. Man vergleicht
für jeden
der Frequenzkanäle
i (i ist eine ganze Zahl zwischen 1 und Nb) den Spektralkoeffizient Bi,nouvmod der dem Kanal i des neuen Rauschmodells
zugeordnet ist, mit dem Spektralkoeffizient Bi,modcour,
der dem gleichen Kanal des laufenden Rauschmodells zugeordnet ist.
Jeder Spektralkoeffizient drückt
die Spektralenergie aller Rahmen eines Rauschmodells im betrachteten
Frequenzkanal aus.
-
Um
die Spektralkoeffizienten eines Rauschmodells zu erhalten, wendet
man eine Fourier-Transformation an die Rahmen des Rauschmodells
an, um eine Frequenzverteilung der Amplitude der Rauschsignale jedes
der Rahmen zu erhalten. Man quadriert diese Amplitude, um das Energiespektrum
zu erhalten. Man berechnet anschließend das mittlere Energiespektrum
des Modells, indem für
das gleiche Frequenzband die Energiespektren aller Rahmen summiert
und durch die Anzahl N von Rahmen des Modells dividiert werden.
Um die Besonderheiten des menschlichen Gehörsystems zu berücksichtigen,
werden an das mittlere Energiespektrum Nb Gewichtungsfenster angewendet,
vorzugsweise sechzehn Bark-Fenster, die die Form der Filter des
menschlichen Hörsystems
reproduzieren, um die gesuchten Nb Spektralkoeffizienten zu erhalten.
-
Die
Eigenschaften der Bark-Fenster sind im Stand der Technik bekannt
und es ist unnötig,
sie ausführlicher
zu beschreiben. Für
weitere Einzelheiten kann man sich auf das Werk: "La parole et son
traitement automatique",
Calliope, Edition MASSON, 1989, und genauer auf seine Seite 268
beziehen.
-
Man
kann hinzufügen,
dass die ersten Fenster, die den niedrigsten Frequenzen entsprechen,
eine Spitze hoher Amplitude und eine schmale Bandbreite aufweisen,
und dass die Amplitude derjenigen höheren Rangs abnimmt, während ihre
Bandbreite zunimmt. Außerdem überlappen
sich die aneinander grenzenden Fenster paarweise.
-
Man
berechnet das Verhältnis
zwischen dem i-ten (i ist eine ganze Zahl zwischen 1 und Nb) Spektralkoeffizient
Bi,nouvmod des neuen Rauschmodells und dem
i-ten Spektralkoeffizient Bi,modcour des
laufenden Rauschmodells. Diese i-ten Spektralkoeffizienten sind
dem Frequenzkanal i zugeordnet. Die Inkompatibilitätsregel
ist wie folgt: Wenn dieses Verhältnis
Bi,nouvmod/Bi,modcour von
einem Intervall stammt, das von zwei Schwellwerten Sf und Sf' begrenzt wird, von
denen einer, Sf, größer als
eins, und der andere, Sf',
kleiner als eins ist, gibt es eine Inkompatibilität zwischen
den beiden Modellen. Ein Rauschübergang
wird erfasst. Die beiden Schwellwerte Sf und Sf' sind vorzugsweise der gegenseitige
Kehrwert, so dass gilt Sf' =
1/Sf, wodurch die Bestimmung eines der beiden genügt. Zum
Beispiel ist ein typischer Wert Sf = 9, und folglich gilt Sf' = 1/9. In gleicher
Weise wie vorher wird der Schwellwert angepasst, um die Übergänge zu minimieren,
die nicht signifikant wären.
-
Wenn
keine Inkompatibilität
erfasst wird, sind die zwei Modelle kompatibel, es gibt keine signifikante Veränderung
des Rauschens, es ist keine Aktualisierung des Referenzraums und
Anpassung der Parametrisierung durchzuführen. Das neue Modell ersetzt
seinerseits das laufende Modell und wird zum Entrauschen verwendet
werden.
-
Wenn
eine spektrale Inkompatibilität
zwischen Modellen erfasst wird, wird der Referenzraum aktualisiert
und die Parametrisierung an das neue Rauschmodell angepasst, das
den Rauschübergang
erzeugt hat. Diese Anpassung und diese Aktualisierung werden später erläutert werden.
-
Es
ist aber besser, nach wie vor mit dem Ziel, die Frequenz der Aktualisierungen
zu reduzieren, die Durchführung
von Aktualisierungen zu vermeiden, wenn das Rauschen des neuen Modells
und das Rauschen des laufenden Modell schwach sind, da sie in dieser
Situation die Spracherkennung wenig oder gar nicht stören. Es
wird auf 3b verwiesen.
-
In
diesem Zusammenhang kann man vorsehen, wenn eine energetische Inkompatibilität erfasst
wurde, im Block 511 die Energie Enouvmod des
neuen Rauschmodells und diejenige Emodcour des
laufenden Rauschmodells mit einem Mindest-Energieschwellwert Emin zu vergleichen. Wenn die beiden Energien
Enouvmod und Emodcour unter
diesem Mindest-Energieschwellwert
Emin liegen, wird die Inkompatibilität zwischen
Modellen ignoriert, und es wird keine Aktualisierung oder Anpassung
durchgeführt.
Dies bedeutet nämlich,
dass die Energien der beiden Modelle schwach und wenig störend für die Spracherkennung
sind.
-
In
gleicher Weise ist es besser, im Block 522, wenn eine spektrale
Inkompatibilität
in einem der Frequenzkanäle
i erfasst wurde, den i-ten Spektralkoeffizient Bi,nouvmod des
neuen Rauschmodells und den i-ten Spektralkoeffizient Bi,modcour des
laufenden Rauschmodells mit einem i-ten Mindestwert-Spektralkoeffizient
Bi,min zu vergleichen. Wenn die beiden Spektralkoeffizienten
Bi,nouvmod, Bi,modcour unter
diesem i-ten Mindestwert-Spektralkoeffizient Bi,min liegen,
wird die Inkompatibilität
zwischen Modellen ignoriert und keine Aktualisierung oder Anpassung
durchgeführt.
Dies bedeutet nämlich,
dass die Spektren der beiden Modelle schwach und für die Spracherkennung
wenig störend
sind.
-
Da
der Prozess der Spracherkennung in Echtzeit abläuft, wird, wenn ein neues Rauschmodell
des Rangs n erfasst wird, während
gerade eine Aktualisierung abläuft,
nach einer Inkompatibilität
zwischen dem neuen Rauschmodell des Rangs n und dem Rauschmodell
des Rangs n-1 gesucht, das ein laufendes Rauschmodell geworden ist
und das die Aktualisierung ausgelöst hat. Wenn keine Inkompatibilität gefunden wird,
wird die Aktualisierung ausgehend vom laufenden Rauschmodell des
Rangs n-1 bestätigt
und das neue Rauschmodell des Rangs n wird für die Aktualisierung nicht
berücksichtigt.
Es wird das neue Rauschmodell für
das Entrauschen. wenn eine Inkompatibilität erfasst wird, wird die Aktualisierung
annulliert, die Parametrisierung und der Referenzraum behalten die
Konfigurationen, die sie vor der Aktualisierung besaßen, und
man setzt die wiederholte Suche nach neuen Rauschmodelle fort.
-
Man
wird nun sehen, wie die Anpassung der Parametrisierung erfolgt,
wenn ein Rauschübergang
erfasst wurde und wenn Sprache erfasst wurde. Zunächst wird
unter Bezugnahme auf 2 die Funktionsweise der Parametrisierungskette 2 ausführlicher
erklärt.
In klassischer Weise werden die digitalen Zeitrahmen, die vom Entrauschungsblock 6 stammen,
so verarbeitet, dass sie in den Frequenzbereich übergehen. Man bestimmt im ersten
Block 21 für
jeden Nutzsignalrahmen seine Spektralenergie in einer bestimmten
Anzahl von Frequenzbändern.
Hierzu wird eine Fourier-Transformation
an die Rahmen angewendet, um eine Frequenzverteilung der Amplitude
der Signale jedes der Rahmen zu erhalten. Man quadriert diese Amplitude,
um das Energiespektrum zu erhalten.
-
Um
die Besonderheiten des menschlichen Hörsystems zu berücksichtigen,
werden an das Energiespektrum Nb Gewichtungsfenster angewendet,
vorzugsweise sechzehn Bark-Fenster, die die Form der Filter des
menschlichen Hörsystems
reproduzieren, um die gesuchten Nb Spektralkoeffizienten Bi,par zu erhalten, mit i einer ganzen Zahl
zwischen 1 und Nb. Es sind diese Spektralkoeffizienten, die der
Block 21 liefert.
-
Die
Anpassung der Parametrisierungskette 2 erfolgt durch Berechnen
für jeden
i-ten Spektralkoeffizient Bi,par eines Nutzsignalrahmens
eines Robustheitsoperators OpRob(Bi,par)
des Rangs i mit einer Gewichtungsfunktion. Der Block 200 veranschaulicht
die Bestimmung des Robustheitsoperators OpRob(Bi,par)
des Rangs i.
-
Es
ist ein Faktor zwischen Null und Eins, dessen Funktion es ist, das
einem Spektralkoeffizient des Rahmens bezüglich des Rauschpegels, der
den Übergang
ausgelöst
hat, gewährte
Vertrauen auszudrücken. Je
näher der
Wert des i-ten Spektralkoeffizienten eines Nutzsignalrahmens dem
Wert des i-ten Spektralkoeffizienten des Rauschmodells ist, das
den Übergang
ausgelöst
hat, desto mehr nähert
sich Im gleichen Frequenzkanal i der Wert des Robustheitsoperators
des Rangs i Eins an.
-
Die
Daten, die bei der Bestimmung des anzuwendenden Robustheitsoperators
eingesetzt werden, sind also: der Wert des i-ten Spektralkoeffizienten,
eines Nutzsignalrahmens und der Rauschpegel im Frequenzkanal i des
neuen Rauschmodells, der den Rauschübergang ausgelöst hat.
Zur Veranschaulichung kann der Robustheitsoperator durch die folgende
Beziehung angegeben werden:
wobei
B
i,par der i-te Spektralkoeffizient eines
Nutzsignalrahmens, P(B
i,nouvmod) ein Parameter
ist, der vom Rauschpegel des neuen Rauschmodells abhängt, der
den Übergang
im betrachteten Frequenzkanal i ausgelöst hat. Dieser Parameter beherrscht
die Form der Funktion, die den Robustheitsoperator regelt, und er
variiert wie der i-te Spektralkoeffizient B
i,nouvmod des
Rauschmodells, das den Übergang
ausgelöst
hat. Je größer P(B
i,nouvmod) desto weiter nähert sich der Robustheitsoperator über eine
lange Periode an Null an. Man kann sich auf
4 beziehen,
die die Entwicklung des Robustheitsoperators des Rangs i in Abhängigkeit
vom i-ten Spektralkoeffizient
eines Nutzsignalrahmens zeigt, mit einem Parameter P(B
i,nouvmod),
der entweder den Wert 200 oder 1500 hat. Für P(B
i,nouvmod)
gleich 1500 bleibt der Robustheitsoperator auf Null, so lange der
Spektralkoeffizient nicht etwa 1000 erreicht hat, während für P(B
i,nouvmod) gleich 200 der Robustheitsoperator
zu wachsen beginnt, sobald der Spektralkoeffizient etwa 100 überschreitet.
-
Ein
relevantes Abhängigkeitsbeispiel
für den
Parameter P(Bi,nouvmod) ist es, ihm den
Wert des i-ten Spektralkoeffizienten Bi,nouvmod des
neuen Rauschmodells zu geben, das den Übergang ausgelöst hat.
-
Man
wendet anschließend
im Block 210 einen so berechneten Robustheitsoperator OpRob(Bi,par) an jeden der Nb Spektralkoeffizienten
Bi,par an, die vom Block 21 stammen,
um sie zu gewichten. Im Block 22 erfahren die vom Robustheitsoperator
gewichteten Nb Spektralkoeffizienten eine Komprimierung, um das
Verhalten des menschlichen Hörsystems
zu berücksichtigen.
In klassischer Weise kann diese Komprimierung eine logarithmische
Komprimierung, und genauer eine Komprimierung Qlog sein. Diese Funktion
Qlog nimmt am Anfang den Wert Null anstelle von minus Unendlich
für eine
rein logarithmische Funktion an, und hat ein logarithmisches Verhalten
für Abszissen
oberhalb Null. Es können
natürlich
auch andere Möglichkeiten
gewählt
werden.
-
Die
so komprimierten, gewichteten Nb Spektralkoeffizienten werden anschließend im
Block 23 transformiert. Es kann zum Beispiel eine diskrete
Konsinustransformation verwendet werden. Das Ergebnis der Transformation
ermöglicht
es, für
jeden Nutzsignalrahmen die Parameter des gesuchten Parametervektors
zu erhalten. Es kann eine gewisse Auswahl durchgeführt werden,
da bestimmte nach Transformation gewichtete Spektralkoeffizienten
nicht signifikant sind. Man entscheidet sich im Allgemeinen dafür, nur acht
Parameter beizubehalten, die den Rängen 2 bis 9 entsprechen. Der
Parametervektor ist für
das akustische Signal des Rahmens repräsentativ.
-
5 zeigt
in Form von Blöcken
die Parametrisierungskette im erfindungsgemäßen Spracherkennungsverfahren.
Ihr Robustheitspegel ist an das Rauschen angepasst.
-
Der
Referenzraum muss aktualisiert werden, damit die Formerkennungsphase
kohärent
zwischen den an das Rauschen angepassten Parametervektoren und den
dementsprechend veränderten
Referenzen erfolgt.
-
Es
wird wieder auf 2 Bezug genommen. Die Aktualisierung
des Referenzraums erfolgt, sobald ein Rauschübergang erfasst wurde. Diese
Phase 33 der Aktualisierung, die einige Sekunden dauern
kann, muss das Spracherkennungsverfahren so wenig wie möglich stören. Man
versucht zu erreichen, dass diese Aktualisierungsphase für den Benutzer
des Spracherkennungssystems transparent ist.
-
Im
beschriebenen Beispiel wird angenommen, dass die Referenzen des
Referenzraums den Inhalt von Steuerbefehlen ausdrücken, d.h.
Wörter
oder Sätze,
und dass sie von Reihen von Basis-Parametervektoren realisiert werden,
die Folgen von Basisrahmen entsprechen. Jedes Wort kann von einer
oder mehreren Referenzen in Abhängigkeit
von der Aussprache des oder der Sprecher beschrieben werden. Der
Referenzraum 32 kann tausende Referenzen enthalten.
-
Die
Erkennung von Formen erfolgt durch Auswertung einer Reihe von Parametervektoren,
die von der Parametrisierung stammt, entsprechend der zu erkennenden
akustischen Prägung
eines analysierten Steuerbefehls, gegenüber einer Reihe von Basis-Parametervektoren,
die in der Lernphase erhalten wurden, wobei diese Reihe der akustischen
Prägung
eines Basisbefehls entspricht. Aus dieser Auswertung wird eine Entfernung
zwischen dem analysierten Steuerbefehl und dem Referenz-Steuerbefehl
abgeleitet. Der Referenz-Steuerbefehl,
der die kürzeste
Entfernung zum analysierten Steuerbefehl aufweist, stellt den zu
erkennenden Steuerbefehl dar.
-
Um
diese Phase der Erkennung von Formen durchzuführen, verwendet man einen Algorithmus
zum Beispiel vom Typ DTW.
-
Da
die Erkennung von Formen durch Vergleich zwischen Parametervektoren
erfolgt, muss man über diese
Basis-Parametervektoren
verfügen.
Man erhält
sie in gleicher Weise wie bei den Nutzsignalrahmen, indem für jeden
Basisrahmen seine Spektralenergie in einer gewissen Anzahl Nb von
Frequenzkanälen
berechnet wird, und indem Gewichtungsfenster verwendet werden. Die
erhaltenen Energiewerte sind die gesuchten Nb Basis-Spektralkoeffizienten
B
i,bas mit i einer ganzen Zahl zwischen
1 und Nb. Nach der Erfassung eines Rauschübergangs wird zur Aktualisierung
des Referenzraums im Block
300 ein Robustheitsoperator OpRob(B
i,bas) des Rangs i für jeden i-ten Basis-Spektralkoeffizienten
B
i,bas berechnet. Wie vorher ist es die Funktion
dieses Operators, den Parameter in Abhängigkeit von seinem Wert und
dem Rauschpegel des Rauschmodells zu gewichten, der die Aktualisierung
im betrachteten Frequenzkanal ausgelöst hat. Zum Beispiel kann der
Robustheitsoperator durch die folgende Beziehung angegeben werden:
mit B
i,bas dem
i-ten Basis-Spektralkoeffizient eines Basisrahmens von Referenzen,
P(B
i,nouvmod) einem Parameter, der von dem
Rauschpegel abhängt,
der den Übergang
in dem betrachteten Frequenzkanal i ausgelöst hat.
-
Wie
vorher ist es ein relevantes Abhängigkeitsbeispiel
für den
Parameter P(Bi,nouvmod), ihm den Wert des
i-ten Spektralkoeffizienten Bi,nouvmod des
neuen Rauschmodells zu geben, der den Übergang ausgelöst hat.
-
Ein
solcher Operator wird an die Nb Basis-Spektralkoeffizienten aller Referenzen
angewendet, um die gewichteten Basis-Spektralkoeffizienten zu erhalten.
Die Anzahl von möglichen
Werten für
die Basis-Spektralkoeffizienten ist wesentlich kleiner als die Anzahl
von Referenzen. In dr Anwendung auf Luftfahrzeuge liegt sie in der
Größenordnung
von 300.
-
Die
gewichteten Basis-Spektralkoeffizienten werden anschließend komprimiert,
zum Beispiel wie vorher mit der Funktion Qlog. Die so komprimierten
gewichteten Basis-Spektralkoeffizienten werden anschließend transformiert.
Es kann zum Beispiel eine diskrete Kosinustransformation verwendet
werden. Das Ergebnis der Transformation ermöglicht es, für jeden
Rahmen seinen an das Rauschen angepassten Parametervektor zu erhalten.
Diese aktualisierten Parametervektoren tragen zur Aktualisierung
der Referenzen bei.
-
Man
sieht einen ersten Speicherraum, um die aktualisierten Referenzen
zu speichern, und einen zweiten Speicherraum vor, um die laufenden
Referenzen zu speichern, wie später
bei der Beschreibung der 6 beschrieben wird, die eine
Variante der Aktualisierung des Referenzraums darstellt.
-
Um
die Geschwindigkeit der Aktualisierung des Referenzraums zu optimieren,
kann es erforderlich sein, gleichzeitig die Gewichtung der Spektralkoeffizienten
der Referenzen durch den Robustheitsoperator und die Komprimierung
der gewichteten Spektralkoeffizienten durchzuführen.
-
Es
wird auf 6 Bezug genommen. In einer Speicherzone 320 des
Referenzraums 32 wird nach der vorhergehenden Lernphase
ein Satz von komprimierten Basis-Spektralkoeffizienten zurückbehalten.
Sie werden ausgehend von der Lernphase erhalten und stammen von
allen in der betrachteten Anwendung möglichen Steuerbefehlen. Dieser
Satz bleibt während
der verschiedenen Aktualisierungen fixiert. Die Anzahl von möglichen
Werten für
die komprimierten Basis-Spektralkoeffizienten
ist klein, zum Beispiel in der Größenordnung von 300 bei
der Anwendung auf Luftfahrzeuge.
-
Man
sieht eine Konvertierungstabelle 321 vor, die es ermöglicht,
von dem Satz von komprimierten Basis-Spektralkoeffizienten zu einem Satz
von vom Robustheitsoperator gewichteten, komprimierten Basis-Spektralkoeffizienten überzugehen.
Sie enthält
für den
Wertebereich des Satzes von möglichen
komprimierten Spektralkoeffizienten der Zone 320 seinen
Kehrwert durch Anwendung des Kehrwerts der Komprimierungsfunktion,
wodurch ein Satz von Basis-Spektralkoeffizienten
gebildet wird. Dieser nicht komprimierte Satz von Basis-Spektralkoeffizienten
wird ebenfalls während
der verschiedenen Aktualisierungen fixiert.
-
Für jeden
i-ten nicht komprimierten Basis-Spektralkoeffizient
des Satzes kann man im Block 300 den Robustheitsoperator
des Rangs i in Abhängigkeit
vom neuen Rauschmodell, das den Rauschübergang ausgelöst hat,
und vom Basis-Spektralkoeffizient berechnen. Man gewichtet in der
Konvertierungstabelle 321 die nicht komprimierten Spektralkoeffizienten
des Satzes mit den berechneten Robustheitsoperatoren, und man führt eine
Komprimierung durch, um einen Satz von komprimierten und gewichteten,
d.h. aktualisierten Spektralkoeffizienten zu erhalten. Dieser Satz
wird in einem Speicherraum 322 gespeichert.
-
Ausgehend
von diesem Satz von komprimierten und aktualisierten Spektralkoeffizienten
kann man die Transformation 323 durchführen, um die Parameter der
Parametervektoren und die aktualisierten Referenzen des Referenzraums 32 zu
erhalten. Sie werden in einer Speicherzone 324 gespeichert.
Sie entsprechen in diesem Beispiel Folgen von Rahmen und somit Folgen
von Parametervektoren.
-
Ursprünglich werden
die aus dem Lernvorgang stammenden Basisreferenzen in einer Speicherzone 325 gespeichert.
Sie bilden die laufenden Referenzen und werden in der Phase der
Erkennung von Formen verwendet, so lange kein Rauschübergang
erfasst und keine Aktualisierung durchgeführt wird. Sobald eine Aktualisierung
beendet ist, werden die laufenden Referenzen durch die aktualisierten
Referenzen ersetzt. Sie werden in der Phase der Erkennung von Formen
verwendet, so lange sie nicht durch neue, aktualisierte Referenzen
ersetzt werden.
-
Wenn
ein Sprachsignal während
der Aktualisierungsphase des Referenzraums auftritt, erfolgt die
Phase der Erkennung von Formen mit den laufenden Referenzen, die
immer verfügbar
sind, und die Aktualisierung wird ausgesetzt. Die Aktualisierungsverarbeitung
verzögert
also nicht die Spracherkennung. Mit einer modernen Prozessorarchitektur
zum Beispiel vom Typ "power
PC. 750" benötigt die
Aktualisierung des Referenzraums weniger als 10 Sekunden.
-
Mit
einer Syntax von etwa 120 Wörtern
und einer Million von möglichen
zu erkennenden Sätzen
ermöglichen
die zwischen einem klassischen Spracherkennungssystem wie demjenigen
der 1b und dem erfindungsgemäßen System durchgeführten Vergleiche,
die in 7 dargestellten Diagramme zu zeichnen. Es wird
angenommen, dass die Anwendung diejenige der Kabine eines Luftfahrzeugs
ist, in der die Sprecher mit Helmen und Masken ausgestattet sind.
In der Abszisse befindet sich der Umgebungs-Rauschpegel in dBL, und
in der Ordinate der Spracherkennungsgrad. Der zwischen den gestrichelten
Linien markierte Rauschbereich entspricht dem Rauschen beim Flug.
Man kann aus diesen Diagrammen entnehmen, dass das erfindungsgemäße Spracherkennungssystem
es ermöglicht,
die Fehlerrate in den am stärksten
verrauschten Umgebungen zu halbieren.
-
Die
obige Beschreibung der Aktualisierung des Referenzraums beruhte
auf einem Referenzraum, der an eine Erkennung von Formen durch Berechnung
der minimalen Entfernung angepasst ist. Das erfindungsgemäße Verfahren
betrifft ebenfalls eine Phase der Erkennung von Formen, die die
Wahrscheinlichkeiten verwendet. Die Phase der Erkennung von Formen
verwendet dann einen Algorithmus zum Beispiel vom Typ HMM. Es gibt
einen geringfügigen
Unterschied, da die Referenzen Gaußsche Funktionen sind, die
je einem Phonem zugeordnet sind, und keine Reihen von Parametervektoren.
Diese Gaußschen
Funktionen sind durch ihr Zentrum und ihre typische Abweichung gekennzeichnet.
Dieses Zentrum und diese typische Abweichung hängen von den Parametern aller
Rahmen des Phonems ab, d.h. den komprimierten Spektralkoeffizienten
aller Rahmen des Phonems.
-
Die
Aktualisierung erfolgt nach wie vor, indem ein Robustheitsoperator
des Rangs i an jeden i-ten Basis-Spektralkoeffizient
eines Basisrahmens angewendet wird, der von dem Lernvorgang stammt.
Ausgehend von den gewichteten und komprimierten Basis-Spektralkoeffizienten
kann man die Zentren und typischen Abweichungen der aktualisierten
Gaußschen
Funktionen und somit die aktualisierten Referenzen erarbeiten. Die in 6 dargestellte
Variante wird ebenfalls mittels einer geeigneten Transformation
angewendet, um von den komprimierten und gewichteten Basis-Spektralkoeffizienten
zu den aktualisierten Referenzen überzugehen.
-
Aus
der obigen Beschreibung geht hervor, dass das soeben beschriebene
Spracherkennungssystem unter allen Rauschbedingungen aufgrund des
Vorhandenseins des Robustheitsoperators optimal arbeitet. Es ist
also sowohl in einer Laborumgebung als auch in einem Fahrzeug oder
einem Luftfahrzeug betriebsbereit. Es ist ein autonomes und vielfältig anwendbares
System.
-
Indem
man die spektrale Verarbeitung des Rauschens anwendet, da der einem
Frequenzkanal, in dem das Rauschen stark ist, zugeordnete Robustheitsoperator sich
von dem Robustheitsoperator unterscheidet, der einem Frequenzkanal
zugeordnet ist, in dem das Rauschen schwach ist, erhält man eine
optimale Robustheit und Empfindlichkeit unabhängig von der Schallumgebung.
Die Frequenzkanäle,
in denen das Rauschen sehr stark ist, haben aufgrund der Gewichtung
eine minimierte Bedeutung bei der Bestimmung der Parameter.
-
Für den Benutzer
führt das
Einsetzen des Systems zu keiner zusätzlichen Belastung. Die Lernphase wird
nicht verändert
im Vergleich mit dem, was aus der Sicht des Benutzers bisher stattfand.
Man behält
nur die Basis-Spektralkoeffizienten
oder die komprimierten Basis-Spektralkoeffizienten
im Speicher, wenn man die Variante verwendet, die die Beschleunigung
der Aktualisierung ermöglicht.
-
In
der Erkennungsphase werden die Phase der Erfassung eines Übergangs
und die Phase der Aktualisierung des Referenzraums in Abwesenheit
von zu erkennender Sprache durchgeführt, wenn der Prozessor nicht
beschäftigt
ist. Wenn während
einer Aktualisierung Sprache auftritt, unterbricht man die Aktualisierung. Diese
Verarbeitungen erhöhen
die Reaktionszeit des Systems nicht.
-
Der
einzige durch die Anwendung des Verfahrens bedingte Zwang ist es,
dass einerseits mehr Speicherraum erforderlich ist, um die Basis-Spektralkoeffizienten
zu speichern, ob sie nun komprimiert sind oder nicht, und andererseits,
um die Referenzen zu speichern: die laufenden Referenzen, aber auch
die aktualisierten Referenzen. Im Stand der Technik reichte ein
einziger Speicherraum für
die Referenzen aus. Diese Zwänge
sind aber ziemlich begrenzt.