DE60123161T2 - Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel - Google Patents

Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel Download PDF

Info

Publication number
DE60123161T2
DE60123161T2 DE60123161T DE60123161T DE60123161T2 DE 60123161 T2 DE60123161 T2 DE 60123161T2 DE 60123161 T DE60123161 T DE 60123161T DE 60123161 T DE60123161 T DE 60123161T DE 60123161 T2 DE60123161 T2 DE 60123161T2
Authority
DE
Germany
Prior art keywords
noise
spectral
noise model
model
spectral coefficients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60123161T
Other languages
English (en)
Other versions
DE60123161D1 (de
Inventor
Pierre-Albert Breton
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales SA
Original Assignee
Thales SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thales SA filed Critical Thales SA
Publication of DE60123161D1 publication Critical patent/DE60123161D1/de
Application granted granted Critical
Publication of DE60123161T2 publication Critical patent/DE60123161T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein Verfahren zur Spracherkennung in einer Geräuschumgebung, in der der Rauschpegel fluktuieren kann, und auf eine Vorrichtung zur Spracherkennung in einem akustischen Signal, das ein Rauschen aufweist, das fluktuieren kann.
  • Die Erfindung betrifft also die Verarbeitung von akustischen Signalen, die Sprache enthalten, die in einer verrauschten Umgebung erfasst wird, wobei dieses Rauschen zeitlich variieren kann. Sie findet ihre Anwendung insbesondere, aber nicht ausschließlich, im Rahmen der Spracherkennung an Bord von allen möglichen Fahrzeugen, zum Beispiel in den Cockpits von Luftfahrzeugen oder in den Fahrgastzellen von Kraftfahrzeugen. Sie betrifft ebenfalls die Telefonverbindungen oder Funktelefonverbindungen in verrauschter Umgebung, zum Beispiel auf der Straße in der Stadt.
  • In der Geräuschumgebung in einem Cockpit eines Luftfahrzeugs stammt das Rauschen von den Motoren, der Klimaanlage, der Lüftung, den Bordausrüstungen und dem aerodynamischen Rauschen. Bei dieser Anwendung ist das Rauschen variabel und hängt stark von der Drehzahl der Motoren ab. Das Rauschen ist sehr unterschiedlich wenn das Luftfahrzeug still steht, in der Rollphase, in der Start- oder Landephase, beim stabilisierten Reiseflug. Dieses Rauschen wird zumindest zum Teil von einem Mikrophon erfasst, in das der Pilot oder ein anderes Mitglied der Crew spricht, und es verdeckt das Nutzsignal, d.h. die Unterhaltungen, die man erkennen möchte.
  • In gleicher Weise ist die Geräuschumgebung in einem Kraftfahrzeug sehr unterschiedlich, wenn es steht oder fährt. In der Stadt hängt der Rauschpegel stark vom Fahrzeugverkehr ab.
  • In der bekannten Technik weisen die einfachsten Spracherkennungssysteme, die das Rauschen nicht berücksichtigen, mindestens drei Blöcke auf, wie es in 1a gezeigt ist. Diese Blöcke sind: ein Block 1 der Erfassung des Sprachsignals, ein Block 2 der Parametrisierung oder Parametrisierungskette und ein Block 3 der Erkennung von Formen.
  • Im Erfassungsblock 1 ist das verarbeitete akustische Signal tatsächlich ein Sprachsignal, das von einem elektroakustischen Wandler erfasst wird. Dieses Signal wird durch Tastung digitalisiert und in eine bestimmte Anzahl überlappender oder nicht überlappender Rahmen gleicher oder nicht gleicher Zeitdauer zerschnitten. Bei der Sprachverarbeitung ist es üblich, anzunehmen, dass stationäre Betriebszustände sich in Zeitdauern zwischen 10 und 40 ms aufbauen. Dies sind Zeitintervalle, die Rahmen genannt werden. Die Überlappung zwischen Rahmen wird aufgrund von bestimmten, so genannten "plosiven" Phonemen vorgesehen, die den Tönen "p", "t", "k", "b", "d", "g" entsprechen, die eine geringere Zeitdauer als diejenige eines Rahmens haben. Ein Phonem ist die kleinste in der Sprache vorhandene Einheit, die durch ihr Vorhandensein die Bedeutung eines Worts ändern kann.
  • Im Parametrisierungsblock 2 wird jeder Rahmen einem Parametervektor zugeordnet, der die im Rahmen enthaltene akustische Information ausdrückt. Es gibt mehrere Methoden, um einen Parametervektor zu bestimmen. Ein klassisches Beispiel einer Methode ist die Methode, die die cepstralen Koeffizienten des Typs MFCC verwendet, eine englische Abkürzung von "Mel Frequency Cepstral Coefficient".
  • Der in 1 dargestellte Parametrisierungsblock 2 ist generisch. Er setzt eine Schätzung der gefensterten Spektralenergie ein und umfasst also die Parametrisierungsketten vom Typ MFCC. Er besitzt mehrere Module 21, 22, 23, darunter den Modul 21, der es ermöglicht, die Spektralenergie jedes Rahmens in einer bestimmten Anzahl von Frequenzkanälen Nb oder Fenstern zu bestimmen. Er empfängt jeden Rahmen und liefert für jeden von ihnen einen Spektralenergiewert oder Spektralkoeffizient pro Frequenzkanal. Der Modul 22 führt eine Komprimierung der Nb Spektralkoeffizienten durch, die im Modul 21 erhalten werden, um das Verhalten des menschlichen Hörsystems zu berücksichtigen. Der Modul 23 führt eine Transformation der komprimierten Spektralkoeffizienten durch, wobei diese transformierten komprimierten Spektralkoeffizienten die Parameter des gesuchten Parametervektors sind.
  • Der Formerkennungsblock 3 weist seinerseits mindestens zwei Module auf: einen eigentlichen Formerkennungsmodul 31 und einen Modul 32 zur Speicherung von akustischen Referenzen, Frequenzraum genannt. Der Modul 31 bewertet die Reihe der Parametervektoren, die von der Parametrisierung stammt, im Vergleich mit Referenzen, die während einer Lernphase erhalten werden, wobei diese Referenzen die akustischen Prägungen jedes Satzes, jedes Worts oder jedes Phonems, allgemein jedes Steuerbefehls, ausdrücken. Nach dem letzten Rahmen, was allgemein dem Ende eines Steuerbefehls entspricht, ergibt der Vergleich entweder einer Entfernung zwischen dem getesteten Steuerbefehl und Referenzsteuerbefehlen, wobei der Referenzsteuerbefehl, der die geringste Entfernung aufweist, erkannt wird, oder eine Wahrscheinlichkeit, dass die Reihe von Parametervektoren zu einer Folge von Phonemen gehören. Die digitalen Signale, die einen erkannten Steuerbefehl darstellen, werden an eine Verwendungsvorrichtung 4 übertragen.
  • Die in dieser Phase üblicherweise verwendeten Algorithmen sind im ersten Fall vom Typ DTW, der englischen Abkürzung für Dynamic Time Warping, oder, im zweiten Fall, vom Typ HMM, der englischen Abkürzung für Hidden Markov Models.
  • Das Rauschen ist aber die Hauptfehlerquelle beim Prozess der Spracherkennung. Das verarbeitete akustische Signal ist das zum Rauschsignal hinzugefügte Sprachsignal. Das Rauschsignal verdeckt das Sprachsignal, es führt zu einem Auflösungsverlust der Spracherkennung. Je höher der Rauschpegel, desto stärker ist der Erkennungsverlust.
  • Um zu versuchen, sich vom Rauschen zu befreien, kann man eine Entrauschungsverarbeitung vor der Bestimmung der Spektralenergie einführen, um das Rauschsignal im verarbeiteten akustischen Signal zu minimieren. Dieses Entrauschen kann auf verschiedene Weise erfolgen und insbesondere, wie in der französischen Patentanmeldung FR-2 765 715 beschrieben ist. In dieser Patentanmeldung wird das Entrauschen ausgehend von den Spektraleigenschaften eines gespeicherten Rauschmodells durchgeführt und verwendet ein Wiener-Filter, das durch die Spektraleigenschaften des Rauschmodells parametrisiert ist. Diese Patentanmeldung erklärt die automatische und permanente Suche nach dem Rauschmodell und den Schritt des Entrauschens. In 1b findet man den Erfassungsblock 1, den Parametrisierungsblock 2 und den Formerkennungsblock 3 wie in 1a, aber es gibt einen Sprachermittlungsblock 7, einen Rauschmodellisierungsblock 5 und einen Entrauschungsblock 6 zwischen dem Erfassungsblock 1 und dem Parametrisierungsblock 2.
  • Trotz des Entrauschens bleibt das an den Parametrisierungsblock 2 übertragene, entrauschte akustische Signal aber mit einem Restrauschen von nicht vernachlässigbarer Amplitude behaftet, das den Spracherkennungsprozess stört. Das Hinzufügen der Entrauschungsverarbeitung reicht nicht aus, um das Rauschen zu bekämpfen.
  • Es wurde versucht, Parametrisierungsketten zu verwenden, die so robust wie möglich sind, d.h., die so wenig wie möglich vom Rauschen beeinträchtigt werden. Solche Ketten verarbeiten vorwiegend die energetischsten Bereiche des akustischen Signals. Je energetischer eine Komponente ist, desto weniger empfindlich ist sie nämlich für das Rauschen. Das Gegenstück zur Robustheit ist der Verlust der Empfindlichkeit.
  • Das Problem bei den in Betracht gezogenen Anwendungen ist es, dass das Rauschen variieren kann; es kann zeitweise fast inexistent und dann wieder sehr stark sein. Die Verarbeitung des erfassten akustischen Signals muss also unabhängig vom Rauschpegel leistungsfähig sein. Es muss ein optimaler Kompromiss zwischen Robustheit und Empfindlichkeit erhalten werden. Das ist eine erste Schwierigkeit. Das Problem stellt sich noch stärker, wenn der Rauschpegel in sehr kurzer Zeit sehr stark variiert. Dies ist zum Beispiel beim Kraftfahrzeug oder einem Luftfahrzeug der Fall, die, nachdem sie anfangs stillstehen, dann starten.
  • So beschreibt das Patent EP 0 918 317 ein Frequenzfilterungsverfahren zum Entrauschen von Sprachsignalen für die automatische Erkennung der Sprache, bei dem ein Rauschmodell für jeden Rahmen geschätzt und seine Kompatibilität mit dem vorhergehenden Modell überprüft wird. Dieses Verfahren kann aber zu häufige Anpassungen und Aktualisierungen nach sich ziehen, während das Rauschen nicht wirklich störend ist.
  • Die vorliegende Erfindung hat sich zum Ziel gesetzt, in Echtzeit die Parametrisierung und die Formerkennung an das Rauschen anzupassen, nachdem ein Übergang im Umgebungsrauschen identifiziert wurde, um die Spracherkennung in Gegenwart eines starken Rauschens so robust wie möglich, und, wenn das Rauschen nicht vorhanden oder praktisch nicht vorhanden ist, so empfindlich wie möglich zu machen.
  • Um dies zu erreichen, weist das Verfahren zur Spracherkennung in einem akustischen Signal gemäß der Erfindung auf:
    eine Phase der Digitalisierung und des Zerschneidens des verrauschten akustischen Signals in eine Folge von Zeitrahmen,
    eine Phase der Parametrisierung von Sprache enthaltenden Zeitrahmen, um für jeden Rahmen einen Vektor von Parametern im Frequenzbereich zu erhalten, wobei dieser Parametervektor den akustischen Inhalt des Rahmens ausdrückt,
    eine Phase der Erkennung von Formen, in der die Parametervektoren bezüglich von während einer vorhergehenden Lernphase in einem Referenzraum voreingespeicherten Referenzen ausgewertet werden, um die Erkennung durch Bestimmung mindestens einer Referenz zu erhalten, die den Parametervektoren am nächsten liegt,
    eine Phase der Spracherfassung, während der nur die Rauschrahmen isoliert werden,
    eine Phase der wiederholten Suche nach in der Folge von Zeitrahmen aufeinander folgenden Rauschmodellen, wobei ein neues Rauschmodell ein laufendes Rauschmodell ersetzt, wobei ein Rauschmodell mehrere aufeinander folgende Rahmen enthält,
    dadurch gekennzeichnet, dass es aufweist
    • – eine Phase der Suche nach einem Rauschübergang zwischen dem neuen Rauschmodell und dem laufenden Modell, wobei die Phase der Suche nach einem Übergang einen Schritt der Suche nach einer energetischen Inkompatibilität und/oder einen Schritt der Suche nach einer spektralen Inkompatibilität zwischen dem neuen Rauschmodell und dem laufenden Modell enthält, wobei die Erfassung einer Inkompatibilität einen Rauschübergang ausdrückt,
    und wenn ein Rauschübergang erfasst wurde, dadurch, dass es eine Phase der Aktualisierung des Referenzraums in Abhängigkeit von dem neuen Rauschmodell enthält, wobei die Parametrisierungsphase einen Schritt der Anpassung der Parameter an das neue Rauschmodell enthält.
  • Der Schritt der Suche nach einer energetischen Inkompatibilität kann den Vergleich des Verhältnisses zwischen der mittleren Energie des neuen Rauschmodells und der mittleren Energie des laufenden Rauschmodells mit einem niedrigen Schwellwert und einem hohen Schwellwert enthalten, wobei eine energetische Inkompatibilität gefunden wird, wenn das Verhältnis außerhalb des Intervalls liegt, das von den beiden Schwellwerten begrenzt wird.
  • Um zu häufige Anpassungen und Aktualisierungen zu vermeiden, wenn das Rauschen nicht wirklich störend ist, kann der Schritt der Suche nach einer energetischen Inkompatibilität ebenfalls einen Vergleich der mittleren Energie des neuen Rauschmodells und der mittleren Energie des laufenden Rauschmodells mit einem Mindest-Energieschwellwert enthalten, unterhalb dessen das Rauschen vernachlässigbar ist, wobei die durch den Vergleich des Verhältnisses zwischen der mittleren Energie des neuen Rauschmodells und der mittleren Energie des laufenden Rauschmodells bestimmte energetische Inkompatibilität ignoriert wird, wenn die mittlere Energie des neuen Rauschmodells und die mittlere Energie des laufenden Rauschmodells beide unter dem Mindest-Energieschwellwert liegen.
  • Der Schritt der Suche nach einer spektralen Inkompatibilität kann ausgehend von Spektralkoeffizienten, die die Spektralenergie der Rahmen des laufenden Rauschmodells bzw. die Spektralenergie der Rahmen des neuen Rauschmodells in mindestens einem Frequenzkanal ausdrücken, einen Vergleich des Verhältnisses zwischen dem dem Frequenzkanal des neuen Rauschmodells zugeordneten Spektralkoeffizienten und dem dem gleichen Frequenzkanal zugeordneten Spektralkoeffizienten des laufenden Rauschmodells mit einem niedrigen Schwellwert und einem hohen Schwellwert enthalten, wobei eine spektrale Inkompatibilität gefunden wird, wenn das Verhältnis sich außerhalb des von den beiden Schwellwerten begrenzten Intervalls befindet.
  • Nach wie vor, um zu häufige Aktualisierungen und Anpassungen zu vermeiden, die nicht wirklich berechtigt wären, kann der Schritt der Suche nach einer spektralen Inkompatibilität ebenfalls für mindestens einen Frequenzkanal einen Vergleich des Spektralkoeffizienten des neuen Rauschmodells in diesem Frequenzkanal und des Spektralkoeffizienten des laufenden Rauschmodells in diesem Frequenzkanal mit einem Mindest-Spektralkoeffizient in diesem Frequenzkanal enthalten, ein Mindestwert, unterhalb dessen das Rauschen vernachlässigbar ist, wobei eine spektrale Inkompatibilität, die durch den Vergleich des Verhältnisses zwischen Spektralkoeffizienten bestimmt wird, ignoriert wird, wenn für diesen Frequenzkanal die Spektralkoeffizienten des neuen Modells und des laufenden Modells beide unter dem Mindest-Spektralkoeffizient liegen.
  • Die Phase der Parametrisierung kann einen Schritt der Bestimmung von je einem Frequenzkanal zugeordneten Spektralkoeffizienten aufweisen, die je die Spektralenergie eines Sprache enthaltenden Rahmens im Frequenzkanal ausdrücken,
    wobei der Schritt der Anpassung der Parameter für jeden Spektralkoeffizient eine Bestimmung eines Robustheitsoperators, der das dem Spektralkoeffizient bezüglich des Rauschpegels des neuen Rauschmodells im gleichen Frequenzkanal, das den Übergang ausgelöst hat, zu gewährende Vertrauen ausdrückt, eine Gewichtung des Spektralkoeffizienten mit dem Robustheitsoperator, eine Bestimmung des Parametervektors ausgehend von den gewichteten Spektralkoeffizienten aufweist.
  • Der Robustheitsoperator für die Parametrisierung kann die folgende Beziehung erfüllen:
    Figure 00090001
    wobei Bi,par der Spektralkoeffizient und P (Bi,nouvmod) ein Parameter ist, der vom Rauschpegel des neuen Rauschmodells abhängt, das den Übergang im Frequenzkanal i ausgelöst hat.
  • Die Phase der Aktualisierung des Referenzraums kann ausgehend von je einem Frequenzkanal zugeordneten Basis-Spektralkoeffizienten, die je die Spektralenergie eines Basisrahmens ausdrücken, der in der Lernphase erhalten wurde, die Bestimmung eines Robustheitsoperators für jeden Basis-Spektralkoeffizient, wobei dieser Robustheitsoperator das dem Spektralkoeffizient bezüglich des Rauschpegels zu gewährende Vertrauen ausdrückt,
    die Gewichtung der Basis-Spektralkoeffizienten mit den jeweiligen Robustheitsoperatoren,
    die Ausarbeitung der aktualisierten Referenzen mit den gewichteten Spektralkoeffizienten aufweisen.
  • Der Robustheitsoperator zur Aktualisierung des Referenzraums kann die folgende Beziehung erfüllen:
    Figure 00090002
    wobei Bi,bas der Basis-Spektralkoeffizient und P (Bi,nouvmod) ein Parameter ist, der vom Rauschpegel des neuen Rauschmodells abhängt, das den Übergang im Frequenzkanal i ausgelöst hat.
  • Wenn die Referenzen ausgehend von komprimierten Basis-Spektralkoeffizienten ausgearbeitet werden, um Rechenzeit zu sparen, kann das Verfahren unter Verwendung einer Konvertierungstabelle die komprimierten Basis-Spektralkoeffizienten in die komprimierten und gewichteten Basis-Spektralkoeffizienten konvertieren.
  • Die Konvertierungstabelle enthält die nicht komprimierten Basis-Spektralkoeffizienten, die durch Anwendung des Kehrwerts der Komprimierungsfunktion an die komprimierten Basiskoeffizienten erhalten werden, und das Verfahren weist auf:
    eine Bestimmung des Robustheitsoperators für jeden der nicht komprimierten Basis-Spektralkoeffizienten,
    eine Gewichtung der nicht komprimierten Basis-Spektralkoeffizienten,
    eine Komprimierung von nicht komprimierten und gewichteten Basis-Spektralkoeffizienten, um die komprimierten und gewichteten Basis-Spektralkoeffizienten zu erhalten.
  • Das Verfahren wird mit Referenzen verwendet, die aus einer Folge von Zeitrahmen gebildet werden, die einem oder mehreren Wörtern entsprechen, wobei diese Folge von Rahmen durch eine Reihe von Parametervektoren identifiziert wird, wobei diese Parameter durch Komprimierung von Spektralkoeffizienten erhalten werden.
  • Es wird ebenfalls mit Referenzen verwendet, die aus einer Folge von Zeitrahmen gebildet werden, die einem oder mehreren Phonemen entsprechen, wobei diese Rahmenfolge durch das Zentrum und die Standardabweichung einer oder mehreren Gaußschen Funktionen identifiziert wird, wobei dieses Zentrum und diese Standardabweichung von den Parametern der Parametervektoren der Rahmen abhängen.
  • Für eine bessere Erkennung kann eine Phase des Entrauschens der Sprache enthaltenden Zeitrahmen vor der Phase der Parametrisierung stattfinden.
  • Die vorliegende Erfindung betrifft ebenfalls ein System zur Spracherkennung in einem verrauschten akustischen Signal zur Anwendung des Verfahrens. Es weist auf:
    Mittel, um das akustische Signal zu erfassen, es zu digitalisieren und in Zeitrahmen zu zerschneiden,
    eine Parametrisierungskette, um die Sprache enthaltenden Zeitrahmen in Parametervektoren im Frequenzbereich auszudrücken,
    Mittel zur Erkennung von Formen mit einem Raum von Referenzen, die während eines Lernvorgangs erfasst wurden, um die von der Parametrisierungskette stammenden Parametervektoren bezüglich der Referenzen auszuwerten, um die Erkennung durch Bestimmung einer Referenz zu erhalten, die sich den Parametervektoren am meisten annähert,
    Mittel zur Modellisierung des Rauschens, um wiederholt Rauschmodelle zu erarbeiten, wobei ein neues Rauschmodell ein laufendes Rauschmodell ersetzt,
    Mittel zur Erfassung eines Rauschübergangs zwischen dem neuen Rauschmodell und dem laufenden Rauschmodell,
    Mittel, um die Parametrisierungskette an das Rauschen des neuen Rauschmodells anzupassen, das den Rauschübergang ausgelöst hat,
    Mittel, um die Referenzen des Referenzraums in Abhängigkeit vom Rauschpegel des neuen Rauschmodells zu aktualisieren, das den Rauschübergang ausgelöst hat.
  • Die Mittel, um die Referenzen des Referenzraums zu aktualisieren, können einen ersten Speicherraum aufweisen, um die aktualisierten Referenzen zu speichern, wobei diese aktualisierten Referenzen laufende Referenzen ersetzen sollen, die zur Erkennung von Formen vor der Erfassung des Rauschübergangs verwendet werden, wobei diese laufenden Referenzen in einem zweiten Speicherraum gespeichert sind.
  • Es kann auch einen Speicherraum, um komprimierte Basis-Spektralkoeffizienten zu speichern, die ausgehend von Basis-Spektralkoeffizienten erhalten wurden, die je einem Frequenzkanal zugeordnet sind, wobei jeder dieser Basis-Spektralkoeffizienten die Spektralenergie eines Basisrahmens ausdrückt, der vom Lernvorgang stammt, und eine Konvertierungstabelle aufweisen, um die komprimierten Basis-Spektralkoeffizienten in komprimierte Basis-Spektralkoeffizienten zu konvertieren, die je von einem Robustheitsoperator abhängig vom Rauschpegel des neuen Rauschmodells, das den Rauschübergang ausgelöst hat, und vom zu gewichtenden Basis-Spektralkoeffizienten gewichtet werden, wobei diese komprimierten und gewichteten Basis-Spektralkoeffizienten zur Aktualisierung der Referenzen des Referenzraums verwendet werden.
  • Vorzugsweise weist es Mittel auf, um die Sprache enthaltenden Zeitrahmen vor ihrer Parametrisierung zu entrauschen.
  • Die Erfindung wird besser verstanden werden und weitere Merkmale und Vorteile gehen aus der nachfolgenden Beschreibung unter Bezugnahme auf die beiliegenden Figuren hervor. Es zeigen:
  • die 1a, 1b (bereits beschrieben) schematisch in Form von Blockdiagrammen zwei bekannte Spracherkennungssysteme, wobei dasjenige der 1b eine Entrauschungsverarbeitung enthält;
  • 2 ein Spracherkennungssystem zur Anwendung des erfindungsgemäßen Spracherkennungsverfahrens;
  • die 3a, 3b die Erfassung des Rauschübergangs;
  • 4 die Entwicklung des Robustheitsoperators in Abhängigkeit von den Werten des Spektralkoeffizienten für zwei unterschiedliche operationelle Funktionen;
  • 5 im Detail ein Beispiel einer Parametrisierungskette des erfindungsgemäßen Spracherkennungssystems;
  • 6 ein Beispiel der Aktualisierung des Frequenzraums des erfindungsgemäßen Spracherkennungssystems;
  • 7 eine graphische Darstellung, die es ermöglicht, den Spracherkennungsgrad in Abhängigkeit vom Rauschpegel mit einerseits einem klassischen Spracherkennungssystem und andererseits dem erfindungsgemäßen Spracherkennungssystem zu vergleichen.
  • Es wird auf 2 Bezug genommen, die ein Beispiel eines erfindungsgemäßen Spracherkennungssystems zeigt. Das mit 100 bezeichnete Spracherkennungssystem empfängt am Eingang ein akustisches Zeitsignal, das zumindest zeitweise von einem Nutzsignal, der gesuchten Sprache, gebildet wird, zu dem sich ein Rauschsignal, nur Rauschen oder nur Sprache, hinzufügt. Man findet wie in den 1a, 1b einen Erfassungsblock 1, der das akustische Signal empfängt, es durch Tasten digitalisiert und in Rahmen von mehreren Tastproben zerschneidet. Ein erster an sich klassischer Modul 7 empfängt die Rahmen und unterscheidet in ihrem akustischen Signal das Nutzsignal vom Rauschsignal. Die Unterscheidung zwischen Sprache und Rauschen ist eine klassische und bekannte Signalverarbeitung. Es sind verschiedene Methoden bekannt, und sie beruhen auf den folgenden Feststellungen. Das Rauschen und die Sprache liegen energiemäßig übereinander, so dass ein Sprache und Umgebungsrauschen enthaltendes akustisches Signal mehr Energie enthält als ein Signal nur mit Umgebungsrauschen. Das Umgebungsrauschen besitzt kurzfristig eine relativ stabile und geringe Energie. Der Sprache geht meist ein Atemgeräusch voraus, das einige Hundert Millisekunden vor der ersten Sprachausgabe endet, so dass man nur das Umgebungsrauschen kurz vor dem Aussenden von Sprache findet. Die Spektren bestimmter Phoneme, insbesondere der Phoneme, die gesprochenen Vokalen und Konsonanten entsprechen, besitzen eine charakteristische Periodizität.
  • Wenn Sprache erfasst wird, werden die Nutzsignal-Rahmen, die sowohl die zu erkennende Sprache als auch das Umgebungsrauschen enthalten, zum Parametrisierungsmodul 2 gesendet, der später beschrieben werden wird. Vor dem Beginn der effektiven Parametrisierung kann man eine Verarbeitung des Entrauschens vorsehen, die durch den später beschriebenen Block 6 dargestellt wird. Man findet anschließend in der Spracherkennungskette den Block 3 zur Erkennung von Formen, der erkannte Sprache 4 liefert, wobei dieser Block zur Erkennung von Formen den Referenzraum 32 enthält.
  • Am Ausgang des Spracherfassungsblocks 7 werden nur die Rauschrahmen isoliert und an einen Block der Modellisierung des Rauschens 5 gesendet. Die Ausarbeitung eines Rauschmodells ausgehend von einem verrauschten Signal ist an sich klassisch. Ein Verfahren der wiederholten Suche nach Rauschmodellen, das besonders an die hauptsächlich von dem erfindungsgemäßen Spracherkennungssystem anvisierten Anwendungen angepasst ist, ist in der französischen Anmeldung FR-2 765 715 beschrieben.
  • Ein Rauschmodell wird von aufeinander folgenden Rahmen gebildet, deren Energie im Wesentlichen die gleiche ist und unter einem Schwellwert liegt.
  • Die automatische und wiederholte Suche nach einem Rauschmodell besteht darin, die aufeinander folgenden Rahmen zu analysieren, um N aufeinander folgende Rahmen zu finden, deren Energien einander nahe sind. Hierzu untersucht man, ob das Verhältnis zwischen der Signalenergie, die in einem Rahmen enthalten ist, und der Signalenergie, die in einem benachbarten Rahmen enthalten ist, sich innerhalb eines bestimmten Wertebereichs befindet. Wenn eine solche Folge von Rahmen gefunden wurde, speichert man die digitalen Werte aller Tastproben dieser Rahmen. Diese Einheit von digitalen Werten bildet das laufende Modell. Die Analyse der Rahmen setzt sich fort, um ein neues, passenderes Modell zu finden, entweder, weil es das Umgebungsrauschen besser ausdrückt, oder weil das Umgebungsrauschen sich entwickelt hat. Wenn man mindestens N weitere aufeinander folgende Rahmen findet, die den gleichen Bedingungen der energetischen Stabilität entsprechen, vergleicht man die mittlere Energie dieser neuen Folge von Rahmen mit der mittleren Energie des laufenden Modells, und wenn das Verhältnis zwischen der mittleren Energie der neuen Folge und der mittleren Energie des laufenden Modells unter einer Ersatzschwelle liegt, die vorzugsweise geringfügig größer als Eins ist, bildet die neue Folge von Rahmen ein neues Modell, das zu speichern ist und das laufende Modell ersetzen wird. Die mittlere Energie eines Rauschmodells ist gleich der Summe der Energien der N Rahmen, die es bilden, geteilt durch N.
  • Wenn das Rauschen sich langsam entwickelt, wird die Entwicklung des Rauschens durch das Ersetzen der Modelle dann berücksichtigt, wenn die Ersatzschwelle über eins liegt. Wenn aber das Rauschen sich schnell in Aufwärtsrichtung entwickelt, kann möglicherweise die Entwicklung nicht berücksichtigt werden, wenn man nicht von Zeit zu Zeit eine Rücksetzung der Suche nach einem Rauschmodell durchführt. In der Anwendung auf Luftfahrzeuge darf zum Beispiel nicht während des Starts das Rauschmodell darauf fixiert bleiben, was es war, als das Luftfahrzeug still stand, da ein Rauschmodell nur durch ein weniger energetisches Modell ersetzt wird. Ein einfaches Rücksetzen besteht darin, von Zeit zu Zeit ein laufendes Modell durch ein neues Modell zu ersetzen, unabhängig vom Vergleich der mittleren Energien des laufenden Modells und des neuen Modells.
  • Wie beim Stand der Technik wird das laufende Modell in der Phase des Entrauschens, die im Block 6 dargestellt ist, verwendet. Dieser Block 6 empfängt das akustische Signal, das das Nutzsignal und das Rauschsignal enthält. Das Entrauschen kann erfolgen, indem die Fourier-Transformationen des zu entrauschenden akustischen Signals bearbeitet werden. Die Fourier-Transformation des zu entrauschenden akustischen Signals wird Rahmen für Rahmen durchgeführt und liefert für jeden Rahmen Tastproben, die je einem Frequenzkanal zugeordnet sind. Diese Tastproben werden vorzugsweise in einem Wiener-Filter gefiltert. Das Wiener-Filter besitzt ebenso viele Koeffizienten wie Frequenzkanäle. Jede Tastprobe wird mit dem jeweiligen Koeffizienten des Filters multipliziert. Die Koeffizienten werden ausgehend von der Spektraldichte des verrauschten akustischen Signals und der Spektraldichte des Rauschmodells berechnet. Die mit dem entsprechenden Koeffizienten multiplizierten Tastproben eines Rahmen bilden den entrauschten Rahmen.
  • Nun dient die Modellisierung des Rauschens aber ebenfalls dazu, die Parametrisierung an das Rauschen anzupassen und den Referenzraum in Abhängigkeit vom Rauschen zu aktualisieren. Der Block 50 ermöglicht es, eine Veränderung im Umgebungsrauschen zu identifizieren, die eine Aktualisierung des Referenzraums und eine Veränderung der Parametrisierungskette rechtfertigt, sobald Sprache erfasst wird. Im Block 50 wird ein Rauschübergang zwischen dem neuen Rauschmodell und dem laufenden Rauschmodell erfasst. Die Erfassung des Rauschübergangs enthält einen Schritt der Suche nach einer energetischen und/oder spektralen Inkompatibilität zwischen dem neuen Rauschmodell und dem laufenden Modell.
  • Ein Energieübergang tritt auf, wenn der allgemeine Pegel des Rauschens ansteigt oder sinkt. Ein Spektralübergang tritt auf, wenn die Form des Spektrums sich ändert, ohne dass sich deswegen die mittlere Energie unbedingt wesentlich ändert.
  • Nun wird auf 3a Bezug genommen. Um über die energetische Inkompatibilität im Block 501 zu entscheiden, wird die mittlere Energie Enouvmod des neuen Rauschmodells mit der mittleren Energie Emodcour des laufenden Rauschmodells verglichen. Das laufende Rauschmodell wird bei der laufenden Parametrisierung verwendet, so lange kein Rauschübergang erfasst wird. Man berechnet das Verhältnis zwischen den beiden mittleren Energien Enouvmod/Emodcour. Die Regel ist wie folgt: Wenn dieses Verhältnis aus einem Intervall stammt, das von zwei Schwellwerten S und S' begrenzt wird, von denen einer S größer als eins und der andere S' kleiner als eins ist, liegt eine Inkompatibilität zwischen den beiden Modellen vor. Es wird ein Rauschübergang erfasst. Die beiden Schwellwerte S und S' sind vorzugsweise der gegenseitige Kehrwert: S' = 1/S, wodurch die Bestimmung eines von beiden ausreicht. Zum Beispiel ist ein typischer Wert S = 4, und somit S' = 0,25. Der Schwellwert ermöglicht es, die Frequenz der Erfassung der Übergänge und somit die Frequenz der Veränderung der Parametrisierungskette und der Aktualisierung des Referenzraums festzulegen. Man versucht, eine zu große Frequenz zu vermeiden, die einen Fluss von Aktualisierungen des Referenzraums bedingen würde, der mit der verfügbaren Rechenleistung inkompatibel wäre. Wenn eine energetische Inkompatibilität erfasst wird, wird der Referenzraum aktualisiert und die Parametrisierung an das neue Rauschmodell angepasst, das den Rauschübergang erzeugt hat. Diese Anpassung und diese Aktualisierung werden später erläutert.
  • Wenn keine energetische Inkompatibilität erfasst wird, wird im Block 502 eine Suche nach der spektralen Inkompatibilität durchgeführt. Man hätte mit der Suche nach der spektralen Inkompatibilität beginnen können, die Reihenfolge hat keine Bedeutung.
  • Um über die spektrale Inkompatibilität zu entscheiden, wird in den Frequenzbereich übergegangen. Man vergleicht für jeden der Frequenzkanäle i (i ist eine ganze Zahl zwischen 1 und Nb) den Spektralkoeffizient Bi,nouvmod der dem Kanal i des neuen Rauschmodells zugeordnet ist, mit dem Spektralkoeffizient Bi,modcour, der dem gleichen Kanal des laufenden Rauschmodells zugeordnet ist. Jeder Spektralkoeffizient drückt die Spektralenergie aller Rahmen eines Rauschmodells im betrachteten Frequenzkanal aus.
  • Um die Spektralkoeffizienten eines Rauschmodells zu erhalten, wendet man eine Fourier-Transformation an die Rahmen des Rauschmodells an, um eine Frequenzverteilung der Amplitude der Rauschsignale jedes der Rahmen zu erhalten. Man quadriert diese Amplitude, um das Energiespektrum zu erhalten. Man berechnet anschließend das mittlere Energiespektrum des Modells, indem für das gleiche Frequenzband die Energiespektren aller Rahmen summiert und durch die Anzahl N von Rahmen des Modells dividiert werden. Um die Besonderheiten des menschlichen Gehörsystems zu berücksichtigen, werden an das mittlere Energiespektrum Nb Gewichtungsfenster angewendet, vorzugsweise sechzehn Bark-Fenster, die die Form der Filter des menschlichen Hörsystems reproduzieren, um die gesuchten Nb Spektralkoeffizienten zu erhalten.
  • Die Eigenschaften der Bark-Fenster sind im Stand der Technik bekannt und es ist unnötig, sie ausführlicher zu beschreiben. Für weitere Einzelheiten kann man sich auf das Werk: "La parole et son traitement automatique", Calliope, Edition MASSON, 1989, und genauer auf seine Seite 268 beziehen.
  • Man kann hinzufügen, dass die ersten Fenster, die den niedrigsten Frequenzen entsprechen, eine Spitze hoher Amplitude und eine schmale Bandbreite aufweisen, und dass die Amplitude derjenigen höheren Rangs abnimmt, während ihre Bandbreite zunimmt. Außerdem überlappen sich die aneinander grenzenden Fenster paarweise.
  • Man berechnet das Verhältnis zwischen dem i-ten (i ist eine ganze Zahl zwischen 1 und Nb) Spektralkoeffizient Bi,nouvmod des neuen Rauschmodells und dem i-ten Spektralkoeffizient Bi,modcour des laufenden Rauschmodells. Diese i-ten Spektralkoeffizienten sind dem Frequenzkanal i zugeordnet. Die Inkompatibilitätsregel ist wie folgt: Wenn dieses Verhältnis Bi,nouvmod/Bi,modcour von einem Intervall stammt, das von zwei Schwellwerten Sf und Sf' begrenzt wird, von denen einer, Sf, größer als eins, und der andere, Sf', kleiner als eins ist, gibt es eine Inkompatibilität zwischen den beiden Modellen. Ein Rauschübergang wird erfasst. Die beiden Schwellwerte Sf und Sf' sind vorzugsweise der gegenseitige Kehrwert, so dass gilt Sf' = 1/Sf, wodurch die Bestimmung eines der beiden genügt. Zum Beispiel ist ein typischer Wert Sf = 9, und folglich gilt Sf' = 1/9. In gleicher Weise wie vorher wird der Schwellwert angepasst, um die Übergänge zu minimieren, die nicht signifikant wären.
  • Wenn keine Inkompatibilität erfasst wird, sind die zwei Modelle kompatibel, es gibt keine signifikante Veränderung des Rauschens, es ist keine Aktualisierung des Referenzraums und Anpassung der Parametrisierung durchzuführen. Das neue Modell ersetzt seinerseits das laufende Modell und wird zum Entrauschen verwendet werden.
  • Wenn eine spektrale Inkompatibilität zwischen Modellen erfasst wird, wird der Referenzraum aktualisiert und die Parametrisierung an das neue Rauschmodell angepasst, das den Rauschübergang erzeugt hat. Diese Anpassung und diese Aktualisierung werden später erläutert werden.
  • Es ist aber besser, nach wie vor mit dem Ziel, die Frequenz der Aktualisierungen zu reduzieren, die Durchführung von Aktualisierungen zu vermeiden, wenn das Rauschen des neuen Modells und das Rauschen des laufenden Modell schwach sind, da sie in dieser Situation die Spracherkennung wenig oder gar nicht stören. Es wird auf 3b verwiesen.
  • In diesem Zusammenhang kann man vorsehen, wenn eine energetische Inkompatibilität erfasst wurde, im Block 511 die Energie Enouvmod des neuen Rauschmodells und diejenige Emodcour des laufenden Rauschmodells mit einem Mindest-Energieschwellwert Emin zu vergleichen. Wenn die beiden Energien Enouvmod und Emodcour unter diesem Mindest-Energieschwellwert Emin liegen, wird die Inkompatibilität zwischen Modellen ignoriert, und es wird keine Aktualisierung oder Anpassung durchgeführt. Dies bedeutet nämlich, dass die Energien der beiden Modelle schwach und wenig störend für die Spracherkennung sind.
  • In gleicher Weise ist es besser, im Block 522, wenn eine spektrale Inkompatibilität in einem der Frequenzkanäle i erfasst wurde, den i-ten Spektralkoeffizient Bi,nouvmod des neuen Rauschmodells und den i-ten Spektralkoeffizient Bi,modcour des laufenden Rauschmodells mit einem i-ten Mindestwert-Spektralkoeffizient Bi,min zu vergleichen. Wenn die beiden Spektralkoeffizienten Bi,nouvmod, Bi,modcour unter diesem i-ten Mindestwert-Spektralkoeffizient Bi,min liegen, wird die Inkompatibilität zwischen Modellen ignoriert und keine Aktualisierung oder Anpassung durchgeführt. Dies bedeutet nämlich, dass die Spektren der beiden Modelle schwach und für die Spracherkennung wenig störend sind.
  • Da der Prozess der Spracherkennung in Echtzeit abläuft, wird, wenn ein neues Rauschmodell des Rangs n erfasst wird, während gerade eine Aktualisierung abläuft, nach einer Inkompatibilität zwischen dem neuen Rauschmodell des Rangs n und dem Rauschmodell des Rangs n-1 gesucht, das ein laufendes Rauschmodell geworden ist und das die Aktualisierung ausgelöst hat. Wenn keine Inkompatibilität gefunden wird, wird die Aktualisierung ausgehend vom laufenden Rauschmodell des Rangs n-1 bestätigt und das neue Rauschmodell des Rangs n wird für die Aktualisierung nicht berücksichtigt. Es wird das neue Rauschmodell für das Entrauschen. wenn eine Inkompatibilität erfasst wird, wird die Aktualisierung annulliert, die Parametrisierung und der Referenzraum behalten die Konfigurationen, die sie vor der Aktualisierung besaßen, und man setzt die wiederholte Suche nach neuen Rauschmodelle fort.
  • Man wird nun sehen, wie die Anpassung der Parametrisierung erfolgt, wenn ein Rauschübergang erfasst wurde und wenn Sprache erfasst wurde. Zunächst wird unter Bezugnahme auf 2 die Funktionsweise der Parametrisierungskette 2 ausführlicher erklärt. In klassischer Weise werden die digitalen Zeitrahmen, die vom Entrauschungsblock 6 stammen, so verarbeitet, dass sie in den Frequenzbereich übergehen. Man bestimmt im ersten Block 21 für jeden Nutzsignalrahmen seine Spektralenergie in einer bestimmten Anzahl von Frequenzbändern. Hierzu wird eine Fourier-Transformation an die Rahmen angewendet, um eine Frequenzverteilung der Amplitude der Signale jedes der Rahmen zu erhalten. Man quadriert diese Amplitude, um das Energiespektrum zu erhalten.
  • Um die Besonderheiten des menschlichen Hörsystems zu berücksichtigen, werden an das Energiespektrum Nb Gewichtungsfenster angewendet, vorzugsweise sechzehn Bark-Fenster, die die Form der Filter des menschlichen Hörsystems reproduzieren, um die gesuchten Nb Spektralkoeffizienten Bi,par zu erhalten, mit i einer ganzen Zahl zwischen 1 und Nb. Es sind diese Spektralkoeffizienten, die der Block 21 liefert.
  • Die Anpassung der Parametrisierungskette 2 erfolgt durch Berechnen für jeden i-ten Spektralkoeffizient Bi,par eines Nutzsignalrahmens eines Robustheitsoperators OpRob(Bi,par) des Rangs i mit einer Gewichtungsfunktion. Der Block 200 veranschaulicht die Bestimmung des Robustheitsoperators OpRob(Bi,par) des Rangs i.
  • Es ist ein Faktor zwischen Null und Eins, dessen Funktion es ist, das einem Spektralkoeffizient des Rahmens bezüglich des Rauschpegels, der den Übergang ausgelöst hat, gewährte Vertrauen auszudrücken. Je näher der Wert des i-ten Spektralkoeffizienten eines Nutzsignalrahmens dem Wert des i-ten Spektralkoeffizienten des Rauschmodells ist, das den Übergang ausgelöst hat, desto mehr nähert sich Im gleichen Frequenzkanal i der Wert des Robustheitsoperators des Rangs i Eins an.
  • Die Daten, die bei der Bestimmung des anzuwendenden Robustheitsoperators eingesetzt werden, sind also: der Wert des i-ten Spektralkoeffizienten, eines Nutzsignalrahmens und der Rauschpegel im Frequenzkanal i des neuen Rauschmodells, der den Rauschübergang ausgelöst hat. Zur Veranschaulichung kann der Robustheitsoperator durch die folgende Beziehung angegeben werden:
    Figure 00230001
    wobei Bi,par der i-te Spektralkoeffizient eines Nutzsignalrahmens, P(Bi,nouvmod) ein Parameter ist, der vom Rauschpegel des neuen Rauschmodells abhängt, der den Übergang im betrachteten Frequenzkanal i ausgelöst hat. Dieser Parameter beherrscht die Form der Funktion, die den Robustheitsoperator regelt, und er variiert wie der i-te Spektralkoeffizient Bi,nouvmod des Rauschmodells, das den Übergang ausgelöst hat. Je größer P(Bi,nouvmod) desto weiter nähert sich der Robustheitsoperator über eine lange Periode an Null an. Man kann sich auf 4 beziehen, die die Entwicklung des Robustheitsoperators des Rangs i in Abhängigkeit vom i-ten Spektralkoeffizient eines Nutzsignalrahmens zeigt, mit einem Parameter P(Bi,nouvmod), der entweder den Wert 200 oder 1500 hat. Für P(Bi,nouvmod) gleich 1500 bleibt der Robustheitsoperator auf Null, so lange der Spektralkoeffizient nicht etwa 1000 erreicht hat, während für P(Bi,nouvmod) gleich 200 der Robustheitsoperator zu wachsen beginnt, sobald der Spektralkoeffizient etwa 100 überschreitet.
  • Ein relevantes Abhängigkeitsbeispiel für den Parameter P(Bi,nouvmod) ist es, ihm den Wert des i-ten Spektralkoeffizienten Bi,nouvmod des neuen Rauschmodells zu geben, das den Übergang ausgelöst hat.
  • Man wendet anschließend im Block 210 einen so berechneten Robustheitsoperator OpRob(Bi,par) an jeden der Nb Spektralkoeffizienten Bi,par an, die vom Block 21 stammen, um sie zu gewichten. Im Block 22 erfahren die vom Robustheitsoperator gewichteten Nb Spektralkoeffizienten eine Komprimierung, um das Verhalten des menschlichen Hörsystems zu berücksichtigen. In klassischer Weise kann diese Komprimierung eine logarithmische Komprimierung, und genauer eine Komprimierung Qlog sein. Diese Funktion Qlog nimmt am Anfang den Wert Null anstelle von minus Unendlich für eine rein logarithmische Funktion an, und hat ein logarithmisches Verhalten für Abszissen oberhalb Null. Es können natürlich auch andere Möglichkeiten gewählt werden.
  • Die so komprimierten, gewichteten Nb Spektralkoeffizienten werden anschließend im Block 23 transformiert. Es kann zum Beispiel eine diskrete Konsinustransformation verwendet werden. Das Ergebnis der Transformation ermöglicht es, für jeden Nutzsignalrahmen die Parameter des gesuchten Parametervektors zu erhalten. Es kann eine gewisse Auswahl durchgeführt werden, da bestimmte nach Transformation gewichtete Spektralkoeffizienten nicht signifikant sind. Man entscheidet sich im Allgemeinen dafür, nur acht Parameter beizubehalten, die den Rängen 2 bis 9 entsprechen. Der Parametervektor ist für das akustische Signal des Rahmens repräsentativ.
  • 5 zeigt in Form von Blöcken die Parametrisierungskette im erfindungsgemäßen Spracherkennungsverfahren. Ihr Robustheitspegel ist an das Rauschen angepasst.
  • Der Referenzraum muss aktualisiert werden, damit die Formerkennungsphase kohärent zwischen den an das Rauschen angepassten Parametervektoren und den dementsprechend veränderten Referenzen erfolgt.
  • Es wird wieder auf 2 Bezug genommen. Die Aktualisierung des Referenzraums erfolgt, sobald ein Rauschübergang erfasst wurde. Diese Phase 33 der Aktualisierung, die einige Sekunden dauern kann, muss das Spracherkennungsverfahren so wenig wie möglich stören. Man versucht zu erreichen, dass diese Aktualisierungsphase für den Benutzer des Spracherkennungssystems transparent ist.
  • Im beschriebenen Beispiel wird angenommen, dass die Referenzen des Referenzraums den Inhalt von Steuerbefehlen ausdrücken, d.h. Wörter oder Sätze, und dass sie von Reihen von Basis-Parametervektoren realisiert werden, die Folgen von Basisrahmen entsprechen. Jedes Wort kann von einer oder mehreren Referenzen in Abhängigkeit von der Aussprache des oder der Sprecher beschrieben werden. Der Referenzraum 32 kann tausende Referenzen enthalten.
  • Die Erkennung von Formen erfolgt durch Auswertung einer Reihe von Parametervektoren, die von der Parametrisierung stammt, entsprechend der zu erkennenden akustischen Prägung eines analysierten Steuerbefehls, gegenüber einer Reihe von Basis-Parametervektoren, die in der Lernphase erhalten wurden, wobei diese Reihe der akustischen Prägung eines Basisbefehls entspricht. Aus dieser Auswertung wird eine Entfernung zwischen dem analysierten Steuerbefehl und dem Referenz-Steuerbefehl abgeleitet. Der Referenz-Steuerbefehl, der die kürzeste Entfernung zum analysierten Steuerbefehl aufweist, stellt den zu erkennenden Steuerbefehl dar.
  • Um diese Phase der Erkennung von Formen durchzuführen, verwendet man einen Algorithmus zum Beispiel vom Typ DTW.
  • Da die Erkennung von Formen durch Vergleich zwischen Parametervektoren erfolgt, muss man über diese Basis-Parametervektoren verfügen. Man erhält sie in gleicher Weise wie bei den Nutzsignalrahmen, indem für jeden Basisrahmen seine Spektralenergie in einer gewissen Anzahl Nb von Frequenzkanälen berechnet wird, und indem Gewichtungsfenster verwendet werden. Die erhaltenen Energiewerte sind die gesuchten Nb Basis-Spektralkoeffizienten Bi,bas mit i einer ganzen Zahl zwischen 1 und Nb. Nach der Erfassung eines Rauschübergangs wird zur Aktualisierung des Referenzraums im Block 300 ein Robustheitsoperator OpRob(Bi,bas) des Rangs i für jeden i-ten Basis-Spektralkoeffizienten Bi,bas berechnet. Wie vorher ist es die Funktion dieses Operators, den Parameter in Abhängigkeit von seinem Wert und dem Rauschpegel des Rauschmodells zu gewichten, der die Aktualisierung im betrachteten Frequenzkanal ausgelöst hat. Zum Beispiel kann der Robustheitsoperator durch die folgende Beziehung angegeben werden:
    Figure 00260001
    mit Bi,bas dem i-ten Basis-Spektralkoeffizient eines Basisrahmens von Referenzen, P(Bi,nouvmod) einem Parameter, der von dem Rauschpegel abhängt, der den Übergang in dem betrachteten Frequenzkanal i ausgelöst hat.
  • Wie vorher ist es ein relevantes Abhängigkeitsbeispiel für den Parameter P(Bi,nouvmod), ihm den Wert des i-ten Spektralkoeffizienten Bi,nouvmod des neuen Rauschmodells zu geben, der den Übergang ausgelöst hat.
  • Ein solcher Operator wird an die Nb Basis-Spektralkoeffizienten aller Referenzen angewendet, um die gewichteten Basis-Spektralkoeffizienten zu erhalten. Die Anzahl von möglichen Werten für die Basis-Spektralkoeffizienten ist wesentlich kleiner als die Anzahl von Referenzen. In dr Anwendung auf Luftfahrzeuge liegt sie in der Größenordnung von 300.
  • Die gewichteten Basis-Spektralkoeffizienten werden anschließend komprimiert, zum Beispiel wie vorher mit der Funktion Qlog. Die so komprimierten gewichteten Basis-Spektralkoeffizienten werden anschließend transformiert. Es kann zum Beispiel eine diskrete Kosinustransformation verwendet werden. Das Ergebnis der Transformation ermöglicht es, für jeden Rahmen seinen an das Rauschen angepassten Parametervektor zu erhalten. Diese aktualisierten Parametervektoren tragen zur Aktualisierung der Referenzen bei.
  • Man sieht einen ersten Speicherraum, um die aktualisierten Referenzen zu speichern, und einen zweiten Speicherraum vor, um die laufenden Referenzen zu speichern, wie später bei der Beschreibung der 6 beschrieben wird, die eine Variante der Aktualisierung des Referenzraums darstellt.
  • Um die Geschwindigkeit der Aktualisierung des Referenzraums zu optimieren, kann es erforderlich sein, gleichzeitig die Gewichtung der Spektralkoeffizienten der Referenzen durch den Robustheitsoperator und die Komprimierung der gewichteten Spektralkoeffizienten durchzuführen.
  • Es wird auf 6 Bezug genommen. In einer Speicherzone 320 des Referenzraums 32 wird nach der vorhergehenden Lernphase ein Satz von komprimierten Basis-Spektralkoeffizienten zurückbehalten. Sie werden ausgehend von der Lernphase erhalten und stammen von allen in der betrachteten Anwendung möglichen Steuerbefehlen. Dieser Satz bleibt während der verschiedenen Aktualisierungen fixiert. Die Anzahl von möglichen Werten für die komprimierten Basis-Spektralkoeffizienten ist klein, zum Beispiel in der Größenordnung von 300 bei der Anwendung auf Luftfahrzeuge.
  • Man sieht eine Konvertierungstabelle 321 vor, die es ermöglicht, von dem Satz von komprimierten Basis-Spektralkoeffizienten zu einem Satz von vom Robustheitsoperator gewichteten, komprimierten Basis-Spektralkoeffizienten überzugehen. Sie enthält für den Wertebereich des Satzes von möglichen komprimierten Spektralkoeffizienten der Zone 320 seinen Kehrwert durch Anwendung des Kehrwerts der Komprimierungsfunktion, wodurch ein Satz von Basis-Spektralkoeffizienten gebildet wird. Dieser nicht komprimierte Satz von Basis-Spektralkoeffizienten wird ebenfalls während der verschiedenen Aktualisierungen fixiert.
  • Für jeden i-ten nicht komprimierten Basis-Spektralkoeffizient des Satzes kann man im Block 300 den Robustheitsoperator des Rangs i in Abhängigkeit vom neuen Rauschmodell, das den Rauschübergang ausgelöst hat, und vom Basis-Spektralkoeffizient berechnen. Man gewichtet in der Konvertierungstabelle 321 die nicht komprimierten Spektralkoeffizienten des Satzes mit den berechneten Robustheitsoperatoren, und man führt eine Komprimierung durch, um einen Satz von komprimierten und gewichteten, d.h. aktualisierten Spektralkoeffizienten zu erhalten. Dieser Satz wird in einem Speicherraum 322 gespeichert.
  • Ausgehend von diesem Satz von komprimierten und aktualisierten Spektralkoeffizienten kann man die Transformation 323 durchführen, um die Parameter der Parametervektoren und die aktualisierten Referenzen des Referenzraums 32 zu erhalten. Sie werden in einer Speicherzone 324 gespeichert. Sie entsprechen in diesem Beispiel Folgen von Rahmen und somit Folgen von Parametervektoren.
  • Ursprünglich werden die aus dem Lernvorgang stammenden Basisreferenzen in einer Speicherzone 325 gespeichert. Sie bilden die laufenden Referenzen und werden in der Phase der Erkennung von Formen verwendet, so lange kein Rauschübergang erfasst und keine Aktualisierung durchgeführt wird. Sobald eine Aktualisierung beendet ist, werden die laufenden Referenzen durch die aktualisierten Referenzen ersetzt. Sie werden in der Phase der Erkennung von Formen verwendet, so lange sie nicht durch neue, aktualisierte Referenzen ersetzt werden.
  • Wenn ein Sprachsignal während der Aktualisierungsphase des Referenzraums auftritt, erfolgt die Phase der Erkennung von Formen mit den laufenden Referenzen, die immer verfügbar sind, und die Aktualisierung wird ausgesetzt. Die Aktualisierungsverarbeitung verzögert also nicht die Spracherkennung. Mit einer modernen Prozessorarchitektur zum Beispiel vom Typ "power PC. 750" benötigt die Aktualisierung des Referenzraums weniger als 10 Sekunden.
  • Mit einer Syntax von etwa 120 Wörtern und einer Million von möglichen zu erkennenden Sätzen ermöglichen die zwischen einem klassischen Spracherkennungssystem wie demjenigen der 1b und dem erfindungsgemäßen System durchgeführten Vergleiche, die in 7 dargestellten Diagramme zu zeichnen. Es wird angenommen, dass die Anwendung diejenige der Kabine eines Luftfahrzeugs ist, in der die Sprecher mit Helmen und Masken ausgestattet sind. In der Abszisse befindet sich der Umgebungs-Rauschpegel in dBL, und in der Ordinate der Spracherkennungsgrad. Der zwischen den gestrichelten Linien markierte Rauschbereich entspricht dem Rauschen beim Flug. Man kann aus diesen Diagrammen entnehmen, dass das erfindungsgemäße Spracherkennungssystem es ermöglicht, die Fehlerrate in den am stärksten verrauschten Umgebungen zu halbieren.
  • Die obige Beschreibung der Aktualisierung des Referenzraums beruhte auf einem Referenzraum, der an eine Erkennung von Formen durch Berechnung der minimalen Entfernung angepasst ist. Das erfindungsgemäße Verfahren betrifft ebenfalls eine Phase der Erkennung von Formen, die die Wahrscheinlichkeiten verwendet. Die Phase der Erkennung von Formen verwendet dann einen Algorithmus zum Beispiel vom Typ HMM. Es gibt einen geringfügigen Unterschied, da die Referenzen Gaußsche Funktionen sind, die je einem Phonem zugeordnet sind, und keine Reihen von Parametervektoren. Diese Gaußschen Funktionen sind durch ihr Zentrum und ihre typische Abweichung gekennzeichnet. Dieses Zentrum und diese typische Abweichung hängen von den Parametern aller Rahmen des Phonems ab, d.h. den komprimierten Spektralkoeffizienten aller Rahmen des Phonems.
  • Die Aktualisierung erfolgt nach wie vor, indem ein Robustheitsoperator des Rangs i an jeden i-ten Basis-Spektralkoeffizient eines Basisrahmens angewendet wird, der von dem Lernvorgang stammt. Ausgehend von den gewichteten und komprimierten Basis-Spektralkoeffizienten kann man die Zentren und typischen Abweichungen der aktualisierten Gaußschen Funktionen und somit die aktualisierten Referenzen erarbeiten. Die in 6 dargestellte Variante wird ebenfalls mittels einer geeigneten Transformation angewendet, um von den komprimierten und gewichteten Basis-Spektralkoeffizienten zu den aktualisierten Referenzen überzugehen.
  • Aus der obigen Beschreibung geht hervor, dass das soeben beschriebene Spracherkennungssystem unter allen Rauschbedingungen aufgrund des Vorhandenseins des Robustheitsoperators optimal arbeitet. Es ist also sowohl in einer Laborumgebung als auch in einem Fahrzeug oder einem Luftfahrzeug betriebsbereit. Es ist ein autonomes und vielfältig anwendbares System.
  • Indem man die spektrale Verarbeitung des Rauschens anwendet, da der einem Frequenzkanal, in dem das Rauschen stark ist, zugeordnete Robustheitsoperator sich von dem Robustheitsoperator unterscheidet, der einem Frequenzkanal zugeordnet ist, in dem das Rauschen schwach ist, erhält man eine optimale Robustheit und Empfindlichkeit unabhängig von der Schallumgebung. Die Frequenzkanäle, in denen das Rauschen sehr stark ist, haben aufgrund der Gewichtung eine minimierte Bedeutung bei der Bestimmung der Parameter.
  • Für den Benutzer führt das Einsetzen des Systems zu keiner zusätzlichen Belastung. Die Lernphase wird nicht verändert im Vergleich mit dem, was aus der Sicht des Benutzers bisher stattfand. Man behält nur die Basis-Spektralkoeffizienten oder die komprimierten Basis-Spektralkoeffizienten im Speicher, wenn man die Variante verwendet, die die Beschleunigung der Aktualisierung ermöglicht.
  • In der Erkennungsphase werden die Phase der Erfassung eines Übergangs und die Phase der Aktualisierung des Referenzraums in Abwesenheit von zu erkennender Sprache durchgeführt, wenn der Prozessor nicht beschäftigt ist. Wenn während einer Aktualisierung Sprache auftritt, unterbricht man die Aktualisierung. Diese Verarbeitungen erhöhen die Reaktionszeit des Systems nicht.
  • Der einzige durch die Anwendung des Verfahrens bedingte Zwang ist es, dass einerseits mehr Speicherraum erforderlich ist, um die Basis-Spektralkoeffizienten zu speichern, ob sie nun komprimiert sind oder nicht, und andererseits, um die Referenzen zu speichern: die laufenden Referenzen, aber auch die aktualisierten Referenzen. Im Stand der Technik reichte ein einziger Speicherraum für die Referenzen aus. Diese Zwänge sind aber ziemlich begrenzt.

Claims (18)

  1. Verfahren zur Spracherkennung in einem verrauschten akustischen Signal, das aufweist: eine Phase (1) der Digitalisierung und des Zerschneidens des verrauschten akustischen Signals in eine Folge von Zeitrahmen, eine Phase (2) der Parametrisierung von Sprache enthaltenden Zeitrahmen, um für jeden Rahmen einen Vektor von Parametern im Frequenzbereich zu erhalten, wobei dieser Parametervektor den akustischen Inhalt des Rahmens ausdrückt, eine Phase (3) der Erkennung von Formen, in der die Parametervektoren bezüglich von während einer vorhergehenden Lernphase in einem Referenzraum voreingespeicherten Referenzen ausgewertet werden, um die Erkennung durch Bestimmung mindestens einer Referenz zu erhalten, die den Parametervektoren am nächsten liegt, eine Phase der Spracherfassung (7), während der nur die Rauschrahmen isoliert werden, eine Phase (5) der wiederholten Suche nach in der Folge von Zeitrahmen aufeinander folgenden Rauschmodellen, wobei ein neues Rauschmodell ein laufendes Rauschmodell ersetzt, wobei ein Rauschmodell mehrere aufeinander folgende Rahmen enthält, dadurch gekennzeichnet, dass es aufweist eine Phase (50) der Suche nach einem Rauschübergang zwischen dem neuen Rauschmodell und dem laufenden Modell, wobei die Phase der Suche nach einem Übergang einen Schritt der Suche nach einer energetischen Inkompatibilität und/oder einen Schritt der Suche nach einer spektralen Inkompatibilität zwischen dem neuen Rauschmodell und dem laufenden Modell enthält, wobei die Erfassung einer Inkompatibilität einen Rauschübergang ausdrückt, und wenn ein Rauschübergang erfasst wurde, dadurch, dass es eine Phase (33) der Aktualisierung des Referenzraums (32) in Abhängigkeit von dem neuen Rauschmodell enthält, wobei die Parametrisierungsphase (2) einen Schritt der Anpassung (200, 210) der Parameter an das neue Rauschmodell enthält.
  2. Spracherkennungsverfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt der Suche nach einer energetischen Inkompatibilität den Vergleich des Verhältnisses zwischen der mittleren Energie (Enouvmod) des neuen Rauschmodells und der mittleren Energie (Emodcour) des laufenden Rauschmodells mit einem niedrigen Schwellwert (S') und einem hohen Schwellwert (S) enthält, wobei eine energetische Inkompatibilität gefunden wird, wenn das Verhältnis außerhalb des Intervalls liegt, das von den beiden Schwellwerten (S, S') begrenzt wird.
  3. Spracherkennungsverfahren nach Anspruch 2, dadurch gekennzeichnet, dass der Schritt der Suche nach einer energetischen Inkompatibilität ebenfalls einen Vergleich der mittleren Energie (Enouvmod) des neuen Rauschmodells und der mittleren Energie (Emodcour) des laufenden Rauschmodells mit einem Mindest-Energieschwellwert (Emin) enthält, unterhalb dessen das Rauschen vernachlässigbar ist, wobei die durch den Vergleich des Verhältnisses zwischen der mittleren Energie (Enouvmod) des neuen Rauschmodells und der mittleren Energie (Emodcour) des laufenden Rauschmodells bestimmte energetische Inkompatibilität ignoriert wird, wenn die mittlere Energie (Enouvmod) des neuen Rauschmodells und die mittlere Energie (Emodcour) des laufenden Rauschmodells beide unter dem Mindest-Energieschwellwert (Emin) liegen.
  4. Spracherkennungsverfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass der Schritt der Suche nach einer spektralen Inkompatibilität ausgehend von Spektralkoeffizienten (Bi,modcour, Bi,nouvmod), die die Spektralenergie der Rahmen des laufenden Rauschmodells bzw. die Spektralenergie der Rahmen des neuen Rauschmodells in mindestens einem Frequenzkanal (i) ausdrücken, einen Vergleich des Verhältnisses zwischen dem dem Frequenzkanal (i) des neuen Rauschmodells zugeordneten Spektralkoeffizient (Bi,nouvmod) und dem dem gleichen Frequenzkanal (i) zugeordneten Spektralkoeffizient (Bi,modcour) des laufenden Rauschmodells mit einem niedrigen Schwellwert (Sf') und einem hohen Schwellwert (Sf) enthält, wobei eine spektrale Inkompatibilität gefunden wird, wenn das Verhältnis sich außerhalb des von den beiden Schwellwerten (Sf, Sf') begrenzten Intervalls befindet.
  5. Spracherkennungsverfahren nach Anspruch 4, dadurch gekennzeichnet, dass der Schritt der Suche nach einer spektralen Inkompatibilität ebenfalls für mindestens einen Frequenzkanal (i) einen Vergleich des Spektralkoeffizienten (Bi,nouvmod) des neuen Rauschmodells in diesem Frequenzkanal (i) und des Spektralkoeffizienten (Bi,modcor) des laufenden Rauschmodells in diesem Frequenzkanal (i) mit einem diesem Frequenzkanal (i) zugeordneten Mindest-Spektralkoeffizient (Bmin) enthält, ein Mindestwert, unterhalb dessen das Rauschen vernachlässigbar ist, wobei eine spektrale Inkompatibilität, die durch den Vergleich des Verhältnisses zwischen Spektralkoeffizienten bestimmt wird, ignoriert wird, wenn für diesen Frequenzkanal (i) die Spektralkoeffizienten des neuen Modells und des laufenden Modells beide unter dem Mindest-Spektralkoeffizient (Bi,min) liegen.
  6. Spracherkennungsverfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die Phase (2) der Parametrisierung einen Schritt der Bestimmung von je einem Frequenzkanal (i) zugeordneten Spektralkoeffizienten (Bi,par) aufweist, die je eine Darstellung der Spektralenergie eines Sprache enthaltenden Rahmens im Frequenzkanal (i) ausdrücken, den Schritt (200, 210) der Anpassung des Satzes von Parametern, der für jeden Spektralkoeffizient (Bi,par) eine Bestimmung eines Robustheitsoperators (OpRob(Bi,par)) aufweist, wobei dieser Robustheitsoperator das dem Spektralkoeffizient (Bi,par) bezüglich des Rauschpegels des neuen Rauschmodells im gleichen Frequenzkanal (i) zu gewährende Vertrauen ausdrückt, eine Gewichtung des Spektralkoeffizienten (Bi,par) mit dem Robustheitsoperator (OpRob(Bi,par)) eine Bestimmung des Parametervektors ausgehend von den gewichteten Spektralkoeffizienten aufweist.
  7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass der Robustheitsoperator (OpRob(Bi,par)) die folgende Beziehung erfüllt:
    Figure 00350001
    wobei Bi,par der Spektralkoeffizient und P(Bi,nouvmod) ein Parameter ist, der vom Rauschpegel des neuen Rauschmodells abhängt, das den Übergang im Frequenzkanal (i) ausgelöst hat.
  8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die Phase (33) der Aktualisierung des Referenzraums (32) ausgehend von je einem Frequenzkanal (i) zugeordneten Basis-Spektralkoeffizienten, die je die Spektralenergie eines Basisrahmens ausdrücken, der in der Lernphase erhalten wurde, die Bestimmung eines Robustheitsoperators (OpRob(Bi,bas)) für jeden Basis-Spektralkoeffizient (Bi,bas), wobei dieser Robustheitsoperator das dem Spektralkoeffizient (Bi,bas) bezüglich des Rauschpegels des neuen Rauschmodells im gleichen Frequenzkanal (i) zu gewährende Vertrauen ausdrückt, die Gewichtung der Basis-Spektralkoeffizienten (Bi,bas) mit den jeweiligen Robustheitsoperatoren (OpROb(Bi,bas)), die Ausarbeitung der aktualisierten Referenzen mit den gewichteten Spektralkoeffizienten aufweist.
  9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass der Robustheitsoperator (OpROb(Bi,bas)) die folgende Beziehung erfüllt:
    Figure 00360001
    wobei Bi,bas der Basis-Spektralkoeffizient und P(Bi,nouvmod) ein Parameter ist, der vom Rauschpegel des neuen Rauschmodells abhängt, das den Übergang im Frequenzkanal (i) ausgelöst hat.
  10. Verfahren nach einem der Ansprüche 8 oder 9, bei dem die Referenzen ausgehend von komprimierten Basis-Spektralkoeffizienten ausgearbeitet werden, dadurch gekennzeichnet, dass es eine Konvertierungstabelle (321) verwendet, um die komprimierten Basis-Spektralkoeffizienten in die komprimierten und gewichteten Basis-Spektralkoeffizienten zu konvertieren.
  11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass die Konvertierungstabelle (321) die nicht komprimierten Basis-Spektralkoeffizienten (Bi,bas) enthält, die durch Anwendung des Kehrwerts der Komprimierungsfunktion an die komprimierten Basiskoeffizienten erhalten werden, und dass es eine Bestimmung der Robustheitsoperatoren (OpRob(Bi,bas)) für jeden der nicht komprimierten Basis-Spektralkoeffizienten (Bi,bas), eine Gewichtung der nicht komprimierten Basis-Spektralkoeffizienten (Bi,bas), eine Komprimierung von nicht komprimierten und gewichteten Basis-Spektralkoeffizienten aufweist, um die komprimierten und gewichteten Basis-Spektralkoeffizienten zu erhalten.
  12. Verfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass es als Referenzen eine Folge von Zeitrahmen verwendet, die einem oder mehreren Wörtern entsprechen, wobei diese Rahmenfolge durch eine Reihe von Parametervektoren identifiziert wird, wobei diese Parameter durch Komprimierung von Spektralkoeffizienten erhalten werden.
  13. Verfahren nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, dass es als Referenzen eine Folge von Zeitrahmen entsprechend einem oder mehreren Phonemen verwendet, wobei diese Rahmenfolge durch das Zentrum und die Standardabweichung einer Gaußschen Funktion identifiziert wird, wobei dieses Zentrum und diese Standardabweichung von den Parametern der Vektoren von Parametern der Rahmen abhängen.
  14. Verfahren nach einem der Ansprüche 1 bis 13, dadurch gekennzeichnet, dass es eine Phase (6) des Entrauschens der Sprache enthaltenden Zeitrahmen vor der Phase (2) der Parametrisierung enthält.
  15. System zur Spracherkennung in einem verrauschten akustischen Signal zur Anwendung des Verfahrens nach einem der Ansprüche 1 bis 14, dadurch gekennzeichnet, dass es aufweist: Mittel (1), um das akustische Signal zu erfassen, es zu digitalisieren und in Zeitrahmen zu zerschneiden, eine Parametrisierungskette (2), um die Sprache enthaltenden Zeitrahmen in Parametervektoren im Frequenzbereich auszudrücken, Mittel zur Erkennung von Formen (3) mit einem Raum (32) von Referenzen, die während eines Lernvorgangs erfasst wurden, um die von der Parametrisierungskette stammenden Parametervektoren mit den Referenzen zu vergleichen, um die Erkennung durch Bestimmung einer Referenz zu erhalten, die sich den Parametervektoren am meisten annähert, Mittel zur Spracherfassung (7), während der die Rauschrahmen alleine isoliert sind, Mittel (5) zur Modellisierung des Rauschens, um wiederholt Rauschmodelle zu erarbeiten, wobei ein neues Rauschmodell ein laufendes Rauschmodell ersetzt, Mittel (50) zur Erfassung eines Rauschübergangs zwischen dem neuen Rauschmodell und dem laufenden Rauschmodell, Mittel (200, 210), um die Parametrisierungskette an das Rauschen des neuen Rauschmodells anzupassen, das den Rauschübergang ausgelöst hat, Mittel (33), um die Referenzen des Referenzraums (32) in Abhängigkeit vom Rauschpegel des neuen Rauschmodells zu aktualisieren, das den Rauschübergang ausgelöst hat.
  16. Spracherkennungssystem nach Anspruch 15, dadurch gekennzeichnet, dass die Mittel (33), um die Referenzen des Referenzraums (32) zu aktualisieren, einen ersten Speicherraum (324) aufweisen, um die aktualisierten Referenzen zu speichern, wobei diese aktualisierten Referenzen laufende Referenzen ersetzen sollen, die zur Erkennung von Formen vor der Erfassung des Rauschübergangs verwendet werden, wobei diese laufenden Referenzen in einem zweiten Speicherraum (325) gespeichert sind.
  17. Spracherkennungssystem nach einem der Ansprüche 15 oder 16, dadurch gekennzeichnet, dass es einen Speicherraum (320), um komprimierte Basis-Spektralkoeffizienten zu speichern, die ausgehend von Basis-Spektralkoeffizienten erhalten wurden, die je einem Frequenzkanal (i) zugeordnet sind, wobei jeder dieser Basis-Spektralkoeffizienten die Spektralenergie eines Basisrahmens ausdrückt, der vom Lernvorgang stammt, und eine Konvertierungstabelle (321) aufweist, um die komprimierten Basis-Spektralkoeffizienten in komprimierte Basis-Spektralkoeffizienten zu konvertieren, die je von einem Robustheitsoperator (OpRob(Bi,bas)) abhängig vom Rauschpegel des neuen Rauschmodells, das den Übergang ausgelöst hat, und vom zu gewichtenden Basis-Spektralkoeffizient (Bi,bas) gewichtet werden, wobei diese komprimierten und gewichteten Basis-Spektralkoeffizienten zur Aktualisierung der Referenzen des Referenzraums verwendet werden.
  18. Spracherkennungssystem nach einem der Ansprüche 15 oder 16, dadurch gekennzeichnet, dass es Mittel (6) aufweist, um die Sprache enthaltenden Zeitrahmen vor ihrer Parametrisierung zu entrauschen.
DE60123161T 2000-05-09 2001-04-24 Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel Expired - Fee Related DE60123161T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0005864 2000-05-09
FR0005864A FR2808917B1 (fr) 2000-05-09 2000-05-09 Procede et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant

Publications (2)

Publication Number Publication Date
DE60123161D1 DE60123161D1 (de) 2006-11-02
DE60123161T2 true DE60123161T2 (de) 2007-09-06

Family

ID=8850003

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60123161T Expired - Fee Related DE60123161T2 (de) 2000-05-09 2001-04-24 Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel

Country Status (4)

Country Link
US (1) US6859773B2 (de)
EP (1) EP1154405B1 (de)
DE (1) DE60123161T2 (de)
FR (1) FR2808917B1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8548036B2 (en) 2009-06-24 2013-10-01 Autonetworks Technologies, Ltd. Noise detection method, noise detection apparatus, simulation method, simulation apparatus, and communication system
DE102013111784A1 (de) * 2013-10-25 2015-04-30 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7457750B2 (en) 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
KR100429896B1 (ko) * 2001-11-22 2004-05-03 한국전자통신연구원 잡음 환경에서의 음성신호 검출방법 및 그 장치
EP1327976B1 (de) * 2001-12-21 2004-10-27 Dietmar Dr. Ruwisch Verfahren und Vorrichtung zur Erkennung von verrauschten Sprachsignalen
FR2844911B1 (fr) * 2002-09-24 2006-07-21 Thales Sa Procede de reconnaissance vocale avec correction automatique
EP1569200A1 (de) * 2004-02-26 2005-08-31 Sony International (Europe) GmbH Sprachdetektion in digitalen Audiodaten
US7516069B2 (en) * 2004-04-13 2009-04-07 Texas Instruments Incorporated Middle-end solution to robust speech recognition
WO2006026812A2 (en) * 2004-09-07 2006-03-16 Sensear Pty Ltd Apparatus and method for sound enhancement
US7567903B1 (en) 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
US7774202B2 (en) * 2006-06-12 2010-08-10 Lockheed Martin Corporation Speech activated control system and related methods
TWI356399B (en) * 2007-12-14 2012-01-11 Ind Tech Res Inst Speech recognition system and method with cepstral
KR101335417B1 (ko) * 2008-03-31 2013-12-05 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
KR101317813B1 (ko) * 2008-03-31 2013-10-15 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
NO328622B1 (no) * 2008-06-30 2010-04-06 Tandberg Telecom As Anordning og fremgangsmate for reduksjon av tastaturstoy i konferanseutstyr
EP2151821B1 (de) 2008-08-07 2011-12-14 Nuance Communications, Inc. Rauschunterdrückende Verarbeitung von Sprachsignalen
FR2938396A1 (fr) * 2008-11-07 2010-05-14 Thales Sa Procede et systeme de spatialisation du son par mouvement dynamique de la source
US8515763B2 (en) 2009-11-24 2013-08-20 Honeywell International Inc. Methods and systems for utilizing voice commands onboard an aircraft
US8700405B2 (en) * 2010-02-16 2014-04-15 Honeywell International Inc Audio system and method for coordinating tasks
US8370157B2 (en) 2010-07-08 2013-02-05 Honeywell International Inc. Aircraft speech recognition and voice training data storage and retrieval methods and apparatus
US8942975B2 (en) * 2010-11-10 2015-01-27 Broadcom Corporation Noise suppression in a Mel-filtered spectral domain
JP5724361B2 (ja) * 2010-12-17 2015-05-27 富士通株式会社 音声認識装置、音声認識方法および音声認識プログラム
EP2724340B1 (de) * 2011-07-07 2019-05-15 Nuance Communications, Inc. Einkanalige unterdrückung von impulsartigen interferenzen in geräuschbehafteten sprachsignalen
US8666748B2 (en) * 2011-12-20 2014-03-04 Honeywell International Inc. Methods and systems for communicating audio captured onboard an aircraft
US8965763B1 (en) * 2012-02-02 2015-02-24 Google Inc. Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
CN102929143B (zh) * 2012-10-10 2015-05-06 西北工业大学 飞行器时间滞后模型的控制器设计方法
CN102929138B (zh) * 2012-10-10 2015-05-13 西北工业大学 含有非线性的飞行器控制器设计方法
US8804814B1 (en) * 2013-06-04 2014-08-12 Centri Technology, Inc. Seeding of a workspace to optimize codec operations
US9514747B1 (en) * 2013-08-28 2016-12-06 Amazon Technologies, Inc. Reducing speech recognition latency
US9550578B2 (en) 2014-02-04 2017-01-24 Honeywell International Inc. Systems and methods for utilizing voice commands onboard an aircraft
CA2953619A1 (en) 2014-06-05 2015-12-10 Interdev Technologies Inc. Systems and methods of interpreting speech data
US10276180B2 (en) 2014-07-21 2019-04-30 Honeywell International Inc. Audio command adaptive processing system and method
US9947318B2 (en) * 2014-10-03 2018-04-17 2236008 Ontario Inc. System and method for processing an audio signal captured from a microphone
US9530408B2 (en) * 2014-10-31 2016-12-27 At&T Intellectual Property I, L.P. Acoustic environment recognizer for optimal speech processing
JP2016109725A (ja) * 2014-12-02 2016-06-20 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10783899B2 (en) * 2016-02-05 2020-09-22 Cerence Operating Company Babble noise suppression
KR102492727B1 (ko) 2017-12-04 2023-02-01 삼성전자주식회사 전자장치 및 그 제어방법
CN110164431B (zh) * 2018-11-15 2023-01-06 腾讯科技(深圳)有限公司 一种音频数据处理方法及装置、存储介质
KR102260216B1 (ko) * 2019-07-29 2021-06-03 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버
CN112652304B (zh) * 2020-12-02 2022-02-01 北京百度网讯科技有限公司 智能设备的语音交互方法、装置和电子设备
US12077314B1 (en) 2021-04-08 2024-09-03 Onstation Corporation Transforming aircraft using low-cost attritable aircraft modified with adaptive suites
US12077313B1 (en) 2021-05-28 2024-09-03 Onstation Corporation Low-cost attritable aircraft modified with adaptive suites
IT202100017513A1 (it) * 2021-07-02 2023-01-02 Pragma Etimos S R L Metodo di elaborazione di un flusso audio per il riconoscimento di voci e/o suoni di sottofondo e relativo sistema
WO2023028018A1 (en) 2021-08-26 2023-03-02 Dolby Laboratories Licensing Corporation Detecting environmental noise in user-generated content
CN116320176B (zh) * 2023-05-16 2023-08-15 泰坦(天津)能源技术有限公司 一种提高井下语音识别精度的处理方法及系统
CN116299318B (zh) * 2023-05-18 2023-08-11 成都凯天电子股份有限公司 基于点云密度的直升机大气数据的去噪方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2677828B1 (fr) * 1991-06-14 1993-08-20 Sextant Avionique Procede de detection d'un signal utile bruite.
US5673364A (en) * 1993-12-01 1997-09-30 The Dsp Group Ltd. System and method for compression and decompression of audio signals
US5793891A (en) * 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
US5706395A (en) * 1995-04-19 1998-01-06 Texas Instruments Incorporated Adaptive weiner filtering using a dynamic suppression factor
FR2744277B1 (fr) * 1996-01-26 1998-03-06 Sextant Avionique Procede de reconnaissance vocale en ambiance bruitee, et dispositif de mise en oeuvre
US5778342A (en) * 1996-02-01 1998-07-07 Dspc Israel Ltd. Pattern recognition system and method
US6026359A (en) * 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
FR2765715B1 (fr) * 1997-07-04 1999-09-17 Sextant Avionique Procede de recherche d'un modele de bruit dans des signaux sonores bruites
FR2771542B1 (fr) * 1997-11-21 2000-02-11 Sextant Avionique Procede de filtrage frequentiel applique au debruitage de signaux sonores mettant en oeuvre un filtre de wiener
US6188982B1 (en) * 1997-12-01 2001-02-13 Industrial Technology Research Institute On-line background noise adaptation of parallel model combination HMM with discriminative learning using weighted HMM for noisy speech recognition

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8548036B2 (en) 2009-06-24 2013-10-01 Autonetworks Technologies, Ltd. Noise detection method, noise detection apparatus, simulation method, simulation apparatus, and communication system
US8718124B2 (en) 2009-06-24 2014-05-06 Autonetworks Technologies, Ltd. Noise detection method, noise detection apparatus, simulation method, simulation apparatus, and communication system
DE102010030450B4 (de) * 2009-06-24 2014-10-23 Sumitomo Wiring Systems, Ltd. Rauscherfassungsverfahren, Rauscherfassungsvorrichtung, Simulationsverfahren, Simulationsvorrichtung und Kommunikationssystem
DE102013111784A1 (de) * 2013-10-25 2015-04-30 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
US10249322B2 (en) 2013-10-25 2019-04-02 Intel IP Corporation Audio processing devices and audio processing methods
DE102013111784B4 (de) * 2013-10-25 2019-11-14 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren

Also Published As

Publication number Publication date
DE60123161D1 (de) 2006-11-02
FR2808917A1 (fr) 2001-11-16
EP1154405B1 (de) 2006-09-20
US6859773B2 (en) 2005-02-22
US20020035471A1 (en) 2002-03-21
EP1154405A1 (de) 2001-11-14
FR2808917B1 (fr) 2003-12-12

Similar Documents

Publication Publication Date Title
DE60123161T2 (de) Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE69432943T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69705891T2 (de) Verfahren und Vorrichtung zur entzerrenden Filterung eines Sprachsignals unter Verwendung eines statistischen Signalmodells
DE69423588T2 (de) Spracherkennungsgerät
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69806006T2 (de) Verfahren zur bestimmung eines rauschmodells in einem gestörten audiosignal
DE60100637T2 (de) Verfahren zur Rauschadaptierung mittels transformierter Matrizen in der automatischen Spracherkennung
DE60222249T2 (de) Spracherkennungsystem mittels impliziter sprecheradaption
DE69029001T2 (de) Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE2719973A1 (de) Verfahren und vorrichtung zum adaptiven filtern von fast stationaerem geraeusch aus sprache
DE10030105A1 (de) Spracherkennungseinrichtung
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
WO2005013261A1 (de) Verfahren zur spracherkennung und kommunikationsgerät
DE69930961T2 (de) Vorrichtung und verfahren zur sprachsegmentierung
WO1998011537A2 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE69616724T2 (de) Verfahren und System für die Spracherkennung
DE69512961T2 (de) Spracherkennung auf Grundlage von "HMMs"
DE69906569T2 (de) Verfahren und vorrichtung zur spracherkennung eines mit störungen behafteten akustischen signals
DE60036522T2 (de) Verziehung der Frequenzen für Spracherkennung
DE60317218T2 (de) Verfahren zur spracherkennung mit automatischen korrektur

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee