DE69906569T2 - Verfahren und vorrichtung zur spracherkennung eines mit störungen behafteten akustischen signals - Google Patents

Verfahren und vorrichtung zur spracherkennung eines mit störungen behafteten akustischen signals Download PDF

Info

Publication number
DE69906569T2
DE69906569T2 DE69906569T DE69906569T DE69906569T2 DE 69906569 T2 DE69906569 T2 DE 69906569T2 DE 69906569 T DE69906569 T DE 69906569T DE 69906569 T DE69906569 T DE 69906569T DE 69906569 T2 DE69906569 T2 DE 69906569T2
Authority
DE
Germany
Prior art keywords
noise
energy
series
phase
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69906569T
Other languages
English (en)
Other versions
DE69906569D1 (de
Inventor
Pierre-Albert Breton
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales Avionics SAS
Original Assignee
Thales Avionics SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thales Avionics SAS filed Critical Thales Avionics SAS
Application granted granted Critical
Publication of DE69906569D1 publication Critical patent/DE69906569D1/de
Publication of DE69906569T2 publication Critical patent/DE69906569T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Noise Elimination (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zur Spracherkennung in einem verrauschten akustischen Signal.
  • Die Erfindung betrifft auch ein System zur Spracherkennung, das dieses Verfahren verwendet.
  • Die Erfindung betrifft also die Bearbeitung akustischer Signale, die ein Sprachsignal enthalten, das in einem stark verrauschten Umfeld aufgenommen wurde. Daher wird die Erfindung hauptsächlich, aber nicht ausschließlich im Rahmen von Telefon- oder Funktelefonverbindungen, für die Spracherkennung, bei der Aufnahme von Sprachsignalen an Bord von zivilen oder militärischen Flugzeugen oder ganz allgemein in Fahrzeugen mit hohem Geräuschpegel, für den Sprechverkehr an Bord von Fahrzeugen u.s.w. eingesetzt.
  • Um ein die Erfindung nicht einschränkendes Beispiel zu nennen, beruht dieses Geräusch im Fall eines Flugzeugs auf den Motoren, der Klima-Anlage, der Kühlung von Bordgeräten oder auf aerodynamischen Geräuschen. All diese Geräusche werden zumindest teilweise vom Mikrophon aufgenommen, in das der Pilot oder ein anderes Mitglied der Mannschaft hineinspricht. Für diese Art Anwendung insbesondere gilt außerdem, daß ein Merkmal des Rauschens in seiner großen zeitlichen Varianz liegt. Diese Geräusche sind nämlich stark von der Art des Betriebs der Motoren (während des Starts oder auf Strecke) abhängig. Die Nutzsignale, das heißt die Signale der Gespräche, haben auch eine Besonderheit, nämlich daß sie meist nur von kurzer Dauer sind.
  • Bei der Bearbeitung von Sprachsignalen ist die Annahme üblich, daß ein stationärer Betrieb sich nach 10 bis 20 ms einstellt. Dieses Zeitintervall ist typisch für elementare Phänomene bei der Sprachbildung und wird nachfolgend als "Rahmen" bezeichnet.
  • Nachfolgend wird, soweit nichts Gegenteiliges gesagt wird, und ohne die Erfindung zu beschränken, von einer bevorzugten Anwendung der Erfindung bei der Spracherkennung im Inneren eines Flugzeugs ausgegangen.
  • Die meisten bekannten Systeme der Spracherkennung, die im Handel erhältlich sind, beruhen auf einem sogenannten "globalen" Verfahren. Wie schematisch im Blockdiagramm der 1 im Anhang zur vorliegenden Beschreibung zu ersehen ist, enthält ein solches System 1 zwei Hauptfunktionsblöcke, nämlich einen Block 11 zur Parametrisierung eines von einem elektroakustischen Transduktor, beispielsweise einem Mikrophon Mic über Analog/Digitalwandlerschaltungen empfangenen zeitlichen Signals und einen Block 12 zur Klassifizierung der Formen.
  • Die Parametrisierung verwandelt das von den Analog/-Digitalwandlerschaltungen 10 empfangene zeitliche Signal, also eine Folge digitaler Tastproben, in eine Folge von Vektoren von Parametern, wobei jeder Vektor für ein zeitliches Segment repräsentativ ist, das wie oben erwähnt Rahmen genannt wird. Der Sinn der Parametrisierung ist es, den akustischen Inhalt des Signals durch eine verringerte Anzahl von Vektoren auszudrücken. In der betrachteten Anwendung wird ein Rahmen von 256 Tastproben durch einen Vektor von acht Parametern ausgedrückt.
  • Der Block zur Erkennung von Formen enthält seinerseits zwei Moduln, nämlich einen Modul 121 für die eigentliche Erkennung von Formen und einen Modul 120 zur Speicherung von akustischen Referenzen. Der Modul 121 vergleicht die Serie von aus der Parametrisierung kommenden Vektoren mit einer Serie von Vektoren, die in einer Lernphase erhalten wurden, während der akustische Muster jedes Worts oder Lauts bestimmt werden. Der Vergleich ermöglicht es, eine "Distanz" zwischen dem ausgesprochenen Satz und den Syntax-Sätzen zu erstellen. Die Syntax-Sätze, die die geringste Distanz haben, bilden a priori den zu erkennenden Satz.
  • Die den erkannten Satz bildenden digitalen Signale werden an einen Verwendungsblock 13 übertragen.
  • In den meisten Anwendungen, und insbesondere der bevorzugten Anwendung, sind die Nutzsignale, das heißt die Sprachsignale, mehr oder minder verrauscht, da das Mikrophon Mic auch Töne aufnimmt, die keine Sprache sind, wie oben angegeben. Dieses Rauschen bildet die Hauptquelle für Fehler im Prozeß der Spracherkennung. Das Rauschen überdeckt nämlich einen Teil des akustischen Signals, was zu einem Verlust an Auflösung bei der Erkennung führt. Dieses Phänomen ist um so deutlicher, je höher der Rauschpegel ist. In manchen Situationen geht das Nutzsignal vollständig im Rauschen unter.
  • Ein anderes Problem stellt sich, wenn der Rauschpegel von einem Moment zum nächsten sich sehr stark verändert.
  • Dies gilt beispielsweise für ein Kraftfahrzeug, das aus dem Stand in den Fahrbetrieb übergeht, oder auch für ein Flugzeug, das aus der Startphase in den Streckenflug übergeht. Die Rauschbearbeitung muß unter den beiden Bedingungen des Rauschumfelds wirkungsvoll sein.
  • Die Erfahrung zeigt außerdem, daß das Problem sich noch vergrößert, wenn die Schwankungen des Rauschpegels sehr schnell sind.
  • Nach dem Stand der Technik versucht man die Störwirkungen des Rauschens zu bekämpfen. Hierzu trifft man vor der eigentlichen Spracherkennung Maßnahmen zur Geräuschminderung, also Maßnahmen, die die Wirkungen des Rauschens minimieren. Diese Maßnahmen ermöglichen aber nur die Begrenzung der Verschlechterung des Grads der Spracherkennung aufgrund des Rauschens. Für hohe Rauschpegel sind sie nicht geeignet, eine ausreichende Verständlichkeit zu erzielen.
  • In allen Fällen bleibt das Signal nach den Rauschminderungsoperationen mit einem Restrauschen behaftet. Wenngleich dies geringer als der ursprüngliche Rauschpegel ist, wird in den meisten Fällen der Restrauschpegel doch nicht vernachlässigbar und stört somit stark den Prozeß der Spracherkennung. Diese Methode ist also alleine nicht ausreichend zur Beseitigung der Störungen.
  • Eine sogenannte Cepstrum-Parametrisierungskette, bekannt unter dem Siegel "MFCC" (Mel Frequency Cepstrum Coefficients) wird häufig bei der Spracherkennung verwendet. Sie wird beispielsweise in dem Patent US-A-5 696 878 und in dem Aufsatz von R. VERGIN et al. "Compensated mel frequency Cepstrum coefficients" beschrieben der erschienen ist in Proc. of ICASSP 1996, Atlanta, GA, USA, 7-10 M, Seiten 323 – 326, Vol.1, XP002110436 1996, New York, NY, USA, IEEE, USA ISBN 0-7803-3192-3. Aber diese Parametrisierungskette ist gegenüber dem Rauschen nicht widerstandsfähig, also nicht rauschfest.
  • Weiter wurde eine ergänzende Lösung vorgeschlagen, die darin besteht, die Parametrisierungskette widerstandsfähiger zu machen, das heißt, sie gegen Rauschen möglichst unempfindlich zu machen. Dieses Merkmal steht mit den Parametrisierungsketten, die die energiereichsten Phänomene des Sprachsignals herausfiltern. Je energiereicher eine Komponente ist, umso weniger ist sie durch Rauschen verletzbar.
  • Aber auch dieses Verfahren ist nicht frei von Nachteilen. Es führt als Konsequenz zur erreichten Rauschfestigkeit zu einem Verlust an Empfindlichkeit. Liegt kein Rauschen vor, dann ist natürlich eine rauschfeste Parametrisierungskette weniger wirksam als eine empfindliche Parametrisierungskette.
  • Ziel der Erfindung ist ein Verfahren, das einer Parametrisierungskette sowohl eine hohe Empfindlichkeit bei einem niedrigen Rauschpegel oder gar bei Rauschfreiheit zu erhalten erlaubt, als auch die Kette bei einem erheblichen Rauschpegel rauschfest macht.
  • Hierzu steuert das erfindungsgemäße Verfahren in Echtzeit den Grad der Rauschfestigkeit der Parametrisierungskette, sodaβ in jedem Augenblick unabhängig vom Rauschpegel der bestmögliche Kompromiβ zwischen Rauschfestigkeit und Empfindlichkeit erhalten wird.
  • Gegenstand der Erfindung ist also ein Verfahren zur Spracherkennung in einem verrauschten akustischen Signal, wobei das Verfahren zumindest eine Digitalisierungsphase, eine Phase der Zerlegung des akustischen Signals in eine Folge von zeitlichen Rahmen vorbestimmter Dauer, eine Phase der Parametrisierung der zeitlichen Rahmen, sodaß diese in eine erste Serie von Parametervektoren im Frequenzbereich umgewandelt werden, und eine Phase des Vergleichs der Parametervektoren der ersten Serie mit Parametervektoren einer zweiten Serie aufweist, die in einer Vorphase, Lernphase genannt, eingespeichert wurden, sodaß die Spracherkennung durch Bestimmung einer Mindestdistanz zwischen den Vektoren der ersten Serie und besonderen Vektoren der zweiten Serie erhalten wird, dadurch gekennzeichnet, daß die Phase der Parametrisierung die folgenden Schritte aufweist:
    • – die Berechnung der spektralen Energie der Rahmen durch Quadrierung und die Anwendung einer Folge von Wichtungsfenstern auf je einen bestimmten Wichtungskoeffizient, die die Form von das menschliche Hörsystem charakterisierenden Filtern reproduzieren, sodaß Frequenzkanäle erzeugt werden,
    • – eine logarithmische Kompression der Energiewerte der in den Frequenzkanälen vorhandenen Signale,
    • – die Erzeugung der Folge von Parametervektoren in dem Frequenzbereich,
  • und daß das Verfahren einen Schritt enthält, bei dem ein vorbestimmter Wert, Offsetwert genannt, zu den bestimmten Wichtungskoeffizienten hinzugefügt wird, sodaß die Parametrisierung verändert und die Spracherkennung in Gegenwart eines Rauschens rauschfester wird.
  • Gegenstand der Erfindung ist auch ein System zur Spracherkennung zur Durchführung dieses Verfahrens.
  • Die Erfindung und weitere Vorzüge werden nun anhand der beiliegenden Zeichnungen näher erläutert.
  • 1 zeigt schematisch in Form eines Blockdia gramms ein System zur Spracherkennung nach dem Stand der Technik, das nach einem sogenannten globalen Verfahren arbeitet.
  • 2 zeigt im einzelnen einen Parametrisierungsblock, der einen Baustein des Systems aus 1 bildet. 3 zeigt in Form eines Diagramms die Konfiguration von sogenannten BARK-Fenstern.
  • 4 zeigt in Form eines Diagramms den Verlauf von Kurven des Typs Qlog.
  • 5 zeigt eine Parametrisierungkette für die Durchführung des Verfahrens zur Spracherkennung gemäß einer ersten Ausführungsform der Erfindung.
  • 6 zeigt ein vollständiges System, das das Verfahren zur Spracherkennung gemäß einem bevorzugten Ausführungsmodus der Erfindung anwendet.
  • 7 zeigt ein typisches Beispiel für ein akustisches Signal, das in einem verrauschten Umfeld aufgenommen wurde.
  • 8 ist ein Flußdiagramm mit den Schritten eines besonderen Verfahrens zur Suche eines Rauschmodells.
  • Ehe im einzelnen ein System zur Spracherkennung beschrieben wird, das die Durchführung des erfindungsgemäßen Verfahrens erlaubt, ist es nützlich, die wesentlichen Komponenten von Parametrisierungsschaltungen genauer darzustellen, nämlich den Block 11 in 1.
  • Konkret, ohne daß dies den Rahmen der Erfindung beschränken würde, wird nun ein Beispiel einer bekannten cepstralen Parametrisierungskette beschrieben, wie sie unter dem Siegel MFCC bekannt ist (Mel Frequency Cepstrum Coefficient). Eine solche Parametrisierungskette wird derzeit häufig in Anwendungen der Spracherkennung eingesetzt.
  • 2 zeigt einen solchen Parametrisierungsblock 11, bestehend aus drei Funktionsmoduln 110 bis 112.
  • Der erste Modul 110 erlaubt eine Bestimmung der spektralen Energie. Die Eingangssignale Se bestehen aus digitalen Rahmen, die von Schaltungen 10 (1) erzeugt wurden. Das Spektrum jedes zeitlichen Rahmens wird erst quadriert. Dann wendet man auf die erhaltenen digitalen Werte Wichtungsfenster an, vorzugsweise 16 sogenannte BARK-Fenster, die die Form der Filter des menschlichen Gehörs nachahmen, sodaß sich 16 Energiewerte in Frequenzkanälen ergeben.
  • 3 ist ein Diagramm, das die Form der 16 angewendeten BARK-Fenster FBi zeigt (1 ≤ i ≤ 16). An der Ordinate ist die Amplitude der Wichtungskoeffizienten und an der Abszisse die Frequenz (in Hz) aufgetragen. Die ersten Fenster besitzen einen Höchstwert großer Amplitude und ein schmales Durchlaßband, während die Amplitude der Fenster höheren Rangs abnimmt, aber ihre Durchlaßbandbreite zunimmt. Die BARK-Fenster FBi überlappen sich paarweise. Die exakten Merkmale dieser BARK-Fenster sind dem Fachmann wohlbekannt, sodaß sie nicht genauer beschrieben werden müssen. Für weitere Einzelheiten sei auf das Buch "La Parole et son Traitement Automatique" Calliope, Edition Masson, 1989, und insbesondere auf die Seite 268 dieses Buches verwiesen.
  • Die 16 erhaltenen Werte werden dann in Form von digitalen Signalen an Schaltungen 111 zur logarithmischen Kompression übertragen. Genauer gesagt ist die Kompressionsfunktion eine Funktion Qlog. Mithilfe dieser Funktion ergibt sich eine Annäherung an ein logarithmisches Verhalten. Eine solche Funktion ist in 4 durch die Kurve C1 wiedergegeben. Im Gegensatz zu einer rein logarithmischen Funktion, die am Ursprung zu minus Unendlich tendiert, beginnt die Funktion Qlog am Ursprung bei null. Die Funktion Qlog hat für Abszissenwerte größer als null ein logarithmisches Verhalten.
  • Die komprimierten digitalen Signale werden dann an den Modul 112 übertragen, der eine diskrete Cosinus-Transformierte durchführt. Man wählt dann die Koeffizienten 2 bis 9 dieser Transformierten aus. Diese Koeffizienten bilden den gesuchten Parameter, der dem Formerkennungsblock 12 ( 1) geliefert wird.
  • Nun wird gezeigt, daß diese Parametrisierungskette bei Vorliegen eines Rauschens nicht rauschfest ist. Um den Einfluß des Rauschens zu messen, untersucht man die Distanz d zwischen zwei Vektoren für ein gleiches Sprachsegment, wobei in einem Fall im Rahmen 1 ein Rauschen, aber im anderen Fall im Rahmen m kein Rauschen vorhanden ist. Die Distanz d ergibt sich dann wie folgt:
  • d =
    Figure 00080001
    |Cm,j – Cl,j| (1)
  • Hierbei sind Cm,j und Cl,j die j-ten Cepstrum-Koefizienten es Rahmens m beziehungsweise 1.
  • Es sei angenommen, daß die Rausch- und Sprachsignale voneinander unabhängig sind, woraus sich folgende Beziehung ergibt:
    Bl,i = Bm,i + Bn,r (2)
  • In dieser Beziehung bedeuten Bl,i, Bm,i und Bn,i die i-ten BARK-Koeffizienten des verrauschten Rahmens 1, des rauschfreien Rahmens m, beziehungsweise des reinen Rauschsignals.
  • Aufgrund der logarithmischen Kompressionsoperation der diskreten Kosinus-Transformierten, wobei diese letztere eine lineare Transformation ist, kann man zeigen, daβ die Distanz d zwischen zwei Rahmen eine steigende Funktion in Qlog der Verhältnisse zwischen den BARK-Koeffizienten ist.
  • Daraus folgt, daß die nachfolgenden Gleichungen gelten:
    d = f((Qlog(Bl,i/Bm,i))) für i = 1,...16 (3)
    und d = f ((Qlog(1 + Bnn,i/Bm,r ))) für i = 1,... 16 (3bis )
  • Daraus folgt, wenn das Verhältnis Bn,i/Bm,i) groß ist, das heißt, wenn das reine Rauschen wesentlich stärker als das Nutzsignal ist, daß der Abstand zwischen den beiden Rahmen groß ist, was auf einen Mangel an Rauschfestigkeit hinweist, da die beiden Rahmen den gleichen Inhalt haben.
  • Diese Eventualität ist umso wichtiger, je geringer der BARK-Koeffizient Bm,i ist. Die Verzerrung zwischen den beiden Rahmen beruht im wesentlichen auf den am wenigsten energiereichen BARK-Koeffizienten, das heißt auf denen, die die geringste akustische Information tragen.
  • Gemäß einem ersten wichtigen Merkmal des erfindungsgemäßen Verfahrens fügt man einen "Offset"-Wert Ki (gemäß der englischen Terminologie) zur Gesamtheit der BARK-Koeffizienten hinzu.
  • Die nach dem erfindungsgemäßen Verfahren veränderte Parametrisierungskette, die nun 11' genannt wird, ist in 5 gezeigt. Die Schaltungen 110, 111, 112 gleichen hinsichtlich ihrer Funktionen vollständig den Schaltungen gleichen Bezugszeichens in 2, sodaβ sie nicht nochmals beschrieben werden müssen. In der in 5 gezeigten Ausführungsform fügt man eine zusätzliche Schaltung 113 zwischen die Schaltungen 110 und 111 ein. Diese Schaltung hat die Aufgabe, die 16 BARK-Koeffizienten dem erwähnten Prozeß zu unterwerfen.
  • Dann bekommt die Beziehung (3bis) folgende Form:
    d = f((Qlog(1+ Bnn,i/(Ki + Bm,i)))) für i = 1,...16 (4)
  • Die Beziehung (4) zeigt, daß die Distanz d eine steigende Funktion des Verhältnisses (Bn,i/(Ki + Bm , i) ist. Mit anderen Worten kompensiert der Offset-Wert Ki für einen kleinen Wert Bm ,i diesen kleinen Wert und verhindert, daß das Verhältnis zu große Werte annimmt, was eine zu große Distanz zwischen den beiden Rahmen ergäbe. Man stellt also auch fest, daß das System umso rauschfester wird, da unempfindlich, je größer der Offsetwert ist, oder zumindest sehr wenig empfindlich gegenüber Veränderungen der BARK-Koeffizienten geringer Energie.
  • Ist jedoch der Offset-Koeffizient konstant, dann bleibt ein Rest-Nachteil. Die Empfindlichkeit nimmt nämlich ab und die bedeutenden Schwankungen aufgrund der unterschiedlichen Inhalte der Rahmen können nicht mehr berücksichtigt werden.
  • Es wird erneut auf das Diagramm in 4 Bezug genommen. In diesem Diagramm ist die durch Anwendung des oben erwähnten Offset-Koeffizienten Ki veränderte Kurve Qlog (C2) dargestellt. Es wird beispielsweise angenommen, daß der Koeffizient Ki = 2000 gewählt wird. Man stellt fest, daß die veränderte Kurve Qlog (C2) für diesen Wert von Ki die Nulllinie bei der Ordinate 40 quert und eine geringere Neigung hat als die nicht-modifizierte Kurve Qlog (C1), was sich in einer geringeren Empfindlichkeit gegenüber Schwankungen der BARK-Koeffizienten bei niedrigen Pegeln ausdrückt.
  • Bei einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens werden die Ergebnisse dadurch weiter verbessert, daß die Rauschfestigkeit in Echtzeit an den Pegel des Rauschens im Umfeld angepaβt wird.
  • Nachfolgend wird mit "Konfiguration der Offset-Werte" die Gesamtheit der 16 Offset-Werte bezeichnet, die man zu den 16 BARK-Koeffizienten hinzuaddiert. Diese Konfiguration der Offset-Werte bestimmt die Rauschfestigkeit der Parametrisierungskette. Je größer nämlich die Offset-Werte sind, desto rauschfester wird die Parametrisierung, aber im Gegenzug wird die Auflösung weniger fein. Daraus folgt, daß die Erzielung eines optimalen Kompromisses zwischen Rauschfestigkeit und Empfindlichkeit unmittelbar durch die Offset-Konfiguration bestimmt wird. Die Erfindung nutzt diese Erkenntnis.
  • Da die 16 Offset-Werte unabhängig sind, können besondere Werte für die 16 Kanäle vom BARK-Typ gewählt werden. Die Wahl der Offset-Werte wird durch zwei Haupt-Faktoren bestimmt:
  • An erster Stelle berücksichtigt man das mittlere Spektrum der menschlichen Sprache. Dieses Spektrum hat natürlich eine wesentlich höhere Energie bei niedrigen und mittleren Frequenzen als bei höheren Frequenzen.
  • An zweiter Stelle berücksichtigt man die spektrale Verteilung des Rauschens. Wie oben angegeben, muβ die Rauschfestigkeit für die Kanäle stärker sein, die den höch sten Rauschpegel aufweisen. Im bevorzugten Ausführungsbeispiel, das heißt bei der Spracherkennung in Militärflugzeugen, hat das von der Sauerstoffmaske des Piloten aufgenommene Rauschen typisch einen Höchstwert bei 2 kHz. Es ist daher günstig, wenn der Offset-Wert entsprechend dieser Frequenz hoch ist.
  • Nun wird ein vollständiges System zur Spracherkennung, das das Verfahren gemäß einem bevorzugten Ausführungsbeispiel der Erfindung durchführt, anhand des Blockdiagramms in 6 beschrieben.
  • Das System zur Spracherkennung, das nun das Bezugszeichen 2 trägt, empfängt am Eingang ein zeitlich variables Signal U(t). Dieses Signal kann von einem reinen Nutzsignal, das heißt von Sprache ohne Rauschen, von einem mehr oder minder verrauschten Signal oder einem reinen Rauschsignal gebildet werden.
  • Es ist also zuerst notwendig, in einer Vorphase die Merkmale des Rauschens im Zeitpunkt des Sprechens zu bestimmen. Diese Vorbearbeitung findet in einem Block 3 statt.
  • Ein erster Modul 30 unterscheidet im ankommenden Signal U(t) das Sprachsignal vom Rauschsignal. Die Rauschsegmente werden isoliert und an einen Rausch-Modellbildungsmodul 31 übertragen. Die Erfassung der Sprache ist eine übliche und wohlbekannte Signalbearbeitung. Hierfür wurden bereits verschiedene Methoden vorgeschlagen.
  • Die oben im einzelnen dargelegte Vorbearbeitung kann von bekannter Art sein. Insbesondere ist die Bildung eines Modells des Rauschens in einem verrauschten Signal eine an sich bekannte Operation. Die für diese Operation verwendete Methode kann eine bekannte Methode oder eine neue Methode sein.
  • Nachfolgend wird anhand der 7 und 8 eine Methode zur Bildung eines Rauschmodells beschrieben, die besonders für die durch das erfindungsgemäße Verfahren in Betracht gezogenen hauptsächlichen Anwendungen geeignet ist.
  • Diese Methode beruht auf einer permanenten und automatischen Suche eines Rauschmodells. Die Suche erfolgt anhand der Signaltastproben U(t), die digitalisiert und in einen Eingangspufferspeicher (nicht dargestellt) eingespeichert werden. Dieser Speicher kann gleichzeitig alle Tastproben mehrerer Rahmen des Eingangssignals speichern (mindestens zwei Rahmen und ganz allgemein N Rahmen).
  • Das gesuchte Rauschmodell wird von einer Folge mehrerer Rahmen gebildet, deren energetische Stabilität und deren relativer Energiepegel die Vermutung nahelegen, daβ es sich um ein Umfeldrauschen und nicht um ein Sprachsignal oder ein anderes Störgeräusch handelt. Weiter unten wird dargelegt, wie diese automatische Suche abläuft.
  • Wenn ein Rauschmodell gefunden wurde, werden alle Tastproben der N aufeinanderfolgenden Rahmen, die dieses Rauschmodell repräsentieren, in einem Speicher so gespeichert, daß das Spektrum dieses Rauschens analysiert und für eine Rauschminderung verwendet werden kann. Die automatische Suche nach dem Rauschmodell setzt sich aber anhand des zeitlich variablen Eingangssignals U(t) fort, um gegebenenfalls ein neueres oder besser angepaßtes Modell zu finden, entweder weil es dem Umfeldrauschen besser entspricht oder weil das Umfeldrauschen sich ändert. Das neueste Rauschmodell wird anstelle des vorausgegangenen gespeichert, wenn der Vergleich mit dem vorausgegangenen zeigt, daß es für das Umfeldrauschen nicht mehr repräsentativ ist.
  • Die Ausgangsforderungen für die automatische Erarbeitung eines Rauschmodells sind folgende:
    • – Das zu eliminierende Rauschen ist ein Hintergrund-Umfeldrauschen.
    • – Das Umfeldrauschen hat kurzzeitig eine relativ stabile Energie.
    • – Der Sprache geht meist ein Geräusch des Luftholens des Piloten voraus, das nicht mit dem Umfeldrauschen verwechselt werden darf. Dieses Luftholen endet einige 100 ms vor dem ersten eigentlichen Wort, sodaß man kurz vor dem ersten Wort das wahre Umfeldrauschen vorfindet.
    • – Schließlich überlagern sich das Rauschen und die Spra che aus der Sicht der Signalenergie, sodaß ein Signal aus der Sprache und einem störenden Rauschen einschließlich des Luftholens im Mikrophon natürlich mehr Energie enthält als ein Signal mit nur dem Umfeldrauschen.
  • Daraus folgt, daß die nachstehende einfache Hypothese aufgestellt werden kann: Das Umfeldrauschen ist ein Signal, das eine kurzzeitig stabile minimale Energie besitzt. Unter "kurzzeitig" wird hier eine Zeit über mehrere Rahmen verstanden; anhand des nachfolgenden praktischen Beispiels beträgt die Anzahl von Rahmen zur Bewertung der Stabilität des Rauschens zwischen 5 und 20 Rahmen. Die Energie muß über mehrere Rahmen stabil sein, sodaß man ansonsten annehmen muß, daß das Signal eher Sprachlaute oder ein anderes Geräusch als das Umfeldrauschen enthält. Die Energie muß minimal sein, sodaß man ansonsten annehmen muß, daß das Signal vom Luftholen stammt oder Lautelemente der Sprache enthält, die dem Rauschen ähneln, aber dem Umfeldrauschen überlagert sind.
  • 7 zeigt eine typische Konfiguration der zeitlichen Entwicklung der Energie eines Mikrophonsignals zu Beginn einer Sprechphase mit einer Phase des Luftholens, die für die Dauer von einigen 10 oder 100 ms verschwindet, sodaß nun nur noch das Umfeldrauschen vorhanden ist. Danach zeigt ein hoher Energiepegel das Vorliegen von Sprache, die schließlich in ein Umfeldrauschen mündet.
  • Die automatische Suche nach dem Umfeldrauschen besteht also darin, mindestens N1 aufeinanderfolgende Rahmen zu finden (z.B. N = 5), deren Energie nur wenig schwankt, d.h. daß das Verhältnis der in einem Rahmen enthaltenen Signalenergie und der in dem oder vorzugsweise den vorausgehenden Rahmen enthaltenen Signalenergie innerhalb eines bestimmten Wertebereichs liegt (z.B. zwischen 1/3 und 3).
  • Wurde eine solche Folge von Rahmen relativ stabiler Energie gefunden, dann speichert man die digitalen Werte aller Tastproben dieser N Rahmen. Diese Gruppe von N·P Tastproben bildet das aktuelle Rauschmodell. Es wird für die Rauschminderung verwendet. Die Analyse der folgenden Rahmen geht weiter. Findet man eine andere Folge von mindestens N1 Rahmen, die die gleichen Bedingungen der Stabilität der Energie erfüllen (Energieverhältnisse von Rahmen in einem bestimmten Bereich), dann vergleicht man die mittlere Energie dieser neuen Folge von Rahmen mit der mittleren Energie des gespeicherten Modells und ersetzt letzteres durch die neue Folge, wenn das Verhältnis zwischen der mittleren Energie der neuen Folge und der mittleren Energie des gespeicherten Modells unter einem bestimmten Schwellwert für den Ersatz liegt, der beispielsweise 1, 5 betragen kann.
  • Aus diesem Ersatz eines Rauschmodells durch ein neueres weniger energiereiches oder nicht sehr viel energiereicheres Rauschmodell folgt, daß sich das Rauschmodell global auf das permanente Umfeldrauschen einstellt. Selbst vor einer Sprechphase, der ein Luftholen vorausgeht, gibt es eine Phase, in der das Umfeldrauschen alleine für eine ausreichend lange Zeit vorliegt, um als aktives Rauschmodell in Betracht gezogen zu werden. Diese Phase des Umfeldrauschens alleine nach dem Luftholen ist kurz. Die Zahl N1 wird relativ klein gewählt, um genug Zeit zu haben, das Rauschmodell auf das Umfeldrauschen nach der Phase des Luftholens einzustellen.
  • Entwickelt sich das Umfeldrauschen langsam, dann wird diese Entwicklung in Betracht gezogen, da die Schwelle des Vergleichs mit dem gespeicherten Modell größer als 1 ist. Entwickelt sich das Umfeldrauschen schneller in Richtung auf größere Energie, dann könnte diese Entwicklung eventuell nicht berücksichtigt werden, sodaß es günstig ist, von Zeit zu Zeit eine neue Initialisierung der Suche nach einem Rauschmodell durchzuführen. Beispielsweise ist das Umfeld rauschen in einem Flugzeug während des Halts am Boden relativ gering, und es sollte vermieden werden, daβ während der Startphase das Rauschmodell auf dem Wert gehalten wird, auf dem es während des Halts war, da ein Rauschmodell nur durch ein weniger energiereiches oder nicht viel energiereicheres Modell ersetzt wird. Weiter unten werden die Methoden der in Betracht gezogenen Neu-Initialisierung erläutert.
  • 8 zeigt ein Ablaufschema der Operationen bei der automatischen Suche nach einem Modell des Umfeldrauschens.
  • Das Eingangssignal U(t), das mit der Tastfrequenz Fe = 1/Te getastet und von einem Analog/Digitalwandler digitalisiert wurde, wird in einem Pufferspeicher gespeichert, der alle Tastproben von mindestens zwei Rahmen speichern kann.
  • Die Nummer des laufenden Rahmens in einer Operation der Suche nach einem Rauschmodell wird mit n bezeichnet und im Verlauf der Suche von einem Zähler gezählt. Bei der Initialisierung der Suche wird n auf den Wert 1 gesetzt. Diese Nummer n wird während der Erarbeitung eines Modells von mehreren aufeinanderfolgenden Rahmen inkrementiert. Wenn man den laufenden Rahmen n analysiert, nimmt man an, daβ das Modell bereits n-1 aufeinanderfolgende Rahmen enthält, die den Bedingungen entsprechen, die für die Teilnahme an einem Modell erforderlich sind.
  • Man geht zuerst davon aus, daß es sich um eine erste Bildung eines Modells handelt, daβ also vorher ein anderes Modell entwickelt wurde. Nachfolgend wird gezeigt, was bei späteren Modellbildungen geschieht.
  • Die Energie des Signals des Rahmens wird durch Summierung der Quadrate der digitalen Tastprobenwerte des Rahmens berechnet und dann gespeichert.
  • Dann liest man den nächsten Rahmen des Rangs n = 2 und berechnet seine Energie auf die gleiche Art. Auch dieser Wert wird gespeichert.
  • Man berechnet das Verhältnis zwischen den Energien der beiden Rahmen. Liegt dieses Verhältnis zwischen zwei Schwellen S und S', von denen die eine größer als 1 und die andere kleiner als 1 ist, dann schließt man daraus, daß die Energiewerte der beiden Rahmen einander sehr nahekommen und daß die beiden Rahmen zu einem Rauschmodell gehören können. Die Schwellen S und S' sind vorzugsweise zueinander invers (S = 1/S'), sodaß es ausreicht, die eine Schwelle zu definieren, um auch die andere zu erhalten. Ein typischer Wert ist beispielsweise S=3 und S'=1/3. Wenn die Rahmen zu einem gemeinsamen Rauschmodell gehören können, werden die diese Rahmen bildenden Tastproben gespeichert, um mit der Bildung des Modells beginnen zu können. Die Suche geht dann durch Iteration weiter, indem n um eine Einheit erhöht wird.
  • Wenn das Verhältnis zwischen den Energien der beiden ersten Rahmen das vorgegebene Intervall verläßt, werden die Rahmen als inkompatibel erklärt und die Suche wird erneut begonnen, indem man n auf 1 setzt.
  • Geht die Suche weiter, dann inkrementiert man den Rang n des laufenden Rahmens und führt in einer iterativen Verfahrensschleife eine Energieberechnung des nächsten Rahmens und einen Vergleich mit der Energie des oder der vorausgegangenen Rahmen unter Verwendung der Schwellen S und S' durch.
  • Es sei hierzu bemerkt, daß zwei Vergleichsarten möglich sind, um einen Rahmen den n-1 vorausgegangenen Rahmen beizufügen, die bereits als hinsichtlich der Energie homogen erkannt wurden. Die erste Art des Vergleichs besteht darin, nur die Energie des Rahmens n mit der Energie des Rahmens n-1 zu vergleichen. Die zweite Art besteht darin, die Energie des Rahmens n mit der jedes Rahmens von 1 bis n-1 zu vergleichen. Die zweite Art führt zu einer besseren Homogenität des Modells, aber sie hat den Nachteil, daß sie manche Fälle nicht ausreichend berücksichtigt, in denen der Rauschpegel schnell zu- oder abnimmt.
  • So wird die Energie des Rahmens des Rangs n mit der Energie des Rahmens des Rangs n-1 und gegebenenfalls weiteren vorausgegangenen Rahmen verglichen (übrigens nicht unbedingt mit allen).
  • Ergibt der Vergleich, daß keine Homogenität mit den vorausgegangenen Rahmen vorliegt, da das Verhältnis der Energien nicht zwischen 1/S und S liegt, dann sind zwei Fälle möglich:
    • – Entweder ist n≤ ein Mindestwert N1, unterhalb von dem das Modell nicht als signifikativ für das Umfeldrauschen betrachtet werden kann, da die Dauer der Homogenität zu kurz ist (z.B. N1 = 5). In diesem Fall verwirft man das gerade bearbeitete Modell und beginnt die Suche erneut von vorne mit n=1;
    • – oder aber n ist größer als der Mindestwert N1. Da nun ein Verlust an Homogenität festgestellt wird, geht man davon aus, daß möglicherweise nach einer Phase homogenen Rauschens ein Sprachsignal beginnt, und behält als Rauschmodell alle Tastproben der n-1 Rahmen mit homogenem Rauschen bei, die dem Verlust der Homogenität vorausgegangen sind. Dieses Modell bleibt gespeichert, bis man ein neueres Modell findet, das ebenfalls ein Umfeldrauschen zu repräsentieren scheint. Die Suche wird in jedem Fall neu gestartet, indem man setzt n=1.
  • Der Vergleich des Rahmens n mit den vorausgegangenen hätte aber auch zur Feststellung eines Rahmens mit noch homogener Energie bezüglich des oder der vorausgegangenen Rahmen führen können. In diesem Fall ist n entweder kleiner als eine zweite Zahl N2 (beispielsweise gilt N2 = 20), die die gewünschte maximale Länge für das Rauschmodell darstellt, oder n hat den Wert N2 erreicht. Die Zahl N2 wird so gewählt, daß die Rechenzeit in den nachfolgenden Operationen der Schätzung der Spektraldichte des Rauschens begrenzt wird.
  • Ist n kleiner als N2, dann wird der homogene Rahmen den vorausgegangenen hinzugefügt, um zur Konstruktion des Rauschmodells beizutragen. Dann wird n inkrementiert, und der nächstfolgende Rahmen wird analysiert.
  • Wenn n den Wert N2 erreicht, wird der Rahmen ebenfalls den n-1 vorausgegangenen homogenen Rahmen hinzugefügt, und das Modell der n homogenen Rahmen wird gespeichert, um zur Eliminierung des Rauschens zu dienen. Die Suche nach einem Modell wird dann neu initialisiert, indem man setzt n=1.
  • Die obigen Schritte betreffen die erste Suche nach einem Modell. Wenn aber ein Modell gespeichert ist, kann es in jedem Augenblick durch ein neueres ersetzt werden.
  • Die Bedingung, unter der der Ersatz erfolgt, ist wieder eine Energiebedingung, aber diesmal bezieht sie sich auf die mittlere Energie des Modells und nicht mehr auf die Energie jedes Rahmens.
  • Wenn daher ein mögliches Modell gefunden wurde und N zwischen N1 und N2 liegt, berechnet man die mittlere Energie dieses Modells, bei der es sich um die Summe der Energien der N Rahmen geteilt durch N handelt, und vergleicht sie mit der mittleren Energie der N Rahmen des vorher gespeicherten Modells.
  • Liegt das Verhältnis zwischen der mittleren Energie des möglichen Modells und der mittleren Energie des aktuell gültigen Modells unter eine Schwelle SR für den Ersatz, dann wird das neue Modell als besser betrachtet und anstelle des vorausgegangenen Modells gespeichert. Ansonsten wird das neue Modell verworfen und das alte bleibt in Kraft.
  • Die Schwelle SR ist vorzugsweise geringfügig größer als 1.
  • Wenn die Schwelle SR kleiner oder gleich 1 wäre, würde man jedes Mal die weniger energiereichen homogenen Rahmen speichern, was der Tatsache entspricht, daß man davon ausgeht, daß das Umfeldrauschen der Energiepegel ist, der nie unterschritten wird. Man würde so die Möglichkeit der Entwicklung des Modells ausschließen, wenn das Umfeldrauschen zuzunehmen begänne.
  • Wäre die Schwelle SR zu hoch oberhalb des Werts 1, dann bestünde die Gefahr, daß man das Umfeldrauschen und andere Störgeräusche (Luftholen) oder sogar bestimmte Phänomene, die dem Rauschen ähnlich sind (z.B. Pfeif- oder Zischkonsonanten) nicht unterscheiden könnte. Die Eliminierung des Rauschens aufgrund eines Rauschmodells, das auf das Luftholen oder auf Pfeif- oder Zischlaute eingestellt wäre, würde also die Gefahr bergen, die Verständlichkeit des vom Rauschen befreiten Signals zu beeinträchtigen.
  • In einem bevorzugten Beispiel liegt die Schwelle SR bei etwa 1,5. Oberhalb dieser Schwelle bleibt es beim bisherigen Modell. Unterhalb dieser Schwelle ersetzt man das alte Modell durch das neue. In beiden Fällen beginnt man die Suche erneut mit dem Lesen eines ersten Rahmens des Eingangssignals U(t) und setzt n=1.
  • Um die Erarbeitung des Rauschmodells zuverlässiger zu machen, kann man vorsehen, daß die Suche nach einem Modell blockiert wird, wenn ein Sprachsignal im Nutzsignal gefunden wurde. Die für die Spracherkennung üblicherweise verwendeten digitalen Verarbeitungen ermöglichen die Identifizierung Vorliegens der Sprache auf der Grundlage der charakteristischen Periodizitätsspektren bestimmter Laute, insbesondere der Laute entsprechend den Vokalen oder stimmhaften Konsonanten.
  • Ziel dieser Blockierung ist es, zu vermeiden, daß bestimmte Laute als Rauschen genommen werden, obwohl sie nützliche Laute sind, daß ein Rauschmodell auf der Basis dieser Laute gespeichert wird und daß die spätere Rauschminderung nach der Erarbeitung des Modells alle ähnlichen Laute unterdrücken würde.
  • Außerdem ist es sinnvoll, von Zeit zu Zeit eine Neu-Initialisierung der Modellsuche durchzuführen, um eine Aktualisierung des Modells zu erlauben, während die Zunahme des Umfeldrauschens nicht berücksichtigt wurde, so lange SR nicht wesentlich größer als 1 ist.
  • Das Umfeldrauschen kann nämlich erheblich und rasch, beispielsweise während der Phase der Beschleunigung der Motoren eines Flugzeugs oder eines anderen Fahrzeugs in der Luft, auf dem Boden oder auf dem Meer zunehmen. Die Schwelle SR fordert aber, daß das vorausgegangene Rauschmodell erhalten bleibt, wenn die mittlere Rauschenergie zu schnell zunimmt.
  • Möchte man diese Situation verbessern, dann kann man auf verschiedene Arten vorgehen, aber am einfachsten ist es, das Modell periodisch neu zu initialisieren und ein neues Modell zu suchen, indem man es als aktives Modell unabhängig vom Vergleich zwischen diesem Modell und dem vorher gespeicherten Modell nimmt. Die Periodizität kann auf der mittleren Dauer der Sprechphase in der betrachteten Anwendung beruhen. Beispielsweise sind die Sprechphasen für eine Flugzeugbesatzung im Mittel nur einige Sekunden lang, und die neue Initialisierung kann mit einer Periodizität von einigen Sekunden erfolgen.
  • Die Realisierung der Methode zur Erarbeitung eines Rauschmodells 31 (6) kann mithilfe von nicht spezialisierten Rechnern erfolgen, die die erforderlichen Programme besitzen und die digitalisierten Signaltastproben so empfangen, wie sie von einem Analog/Digitalwandler über einen geeigneten Port geliefert werden.
  • Dies kann auch mit einem spezialisierten Rechner auf der Basis von digitalen Signalprozessoren geschehen, wodurch eine größere Zahl digitaler Signale noch schneller bearbeitet werden kann.
  • Die Rechner besitzen wie üblich verschiedene Formen von Speichern, statische und dynamische, um die Programme und die wechselnden Daten zu speichern, sowie umlaufende Speicher vom FIFO-Typ.
  • Nun werden die für das erfindungsgemäße Verfahren spezifischen Verarbeitungsphasen beschrieben.
  • Die Rauschenergie vor der Sprechphase ist ein Bild des akustischen Umfelds, in dem die Spracherkennung erfolgt. Dieser Wert vermag also den Grad der den Normalbetrieb der Spracherkennung erforderlichen Rauschfestigkeit zu definieren. Um eine optimale Anpassung der Spracherkennung abhängig vom Rauschpegel zu erhalten, führt das erfindungsgemäße Verfahren eine Abhängigkeit zwischen der gemessenen Rauschenergie und der Parametrisierungskette ein.
  • Diese Operation enthält zwei Hauptschritte:
  • Der erste Schritt, der im einzigen Modul 40 des Blocks 4 stattfindet, besteht darin, die Rauschenergie zu quantifizieren. Dieser Modul empfängt unmittelbar die Sprachund Rauschsignale aus dem Modul 31 zur Modellbildung. Um die erwähnte Quantifizierung durchzuführen, bestimmt man die Energie des Rauschens und vergleicht sie mit einer vordefinierten Reihe von Energiewerten. Wie bekannt, kann die Energie eines Signals einfach durch Bildung des quadratischen Mittelwerts der Tastproben erhalten werden. Jedes Intervall, das durch einen Maximalwert und einen Minimalwert der Rauschenergie begrenzt wird, entspricht einem vorbestimmten Wert der Rauschfestigkeit. Mit anderen Worten ist für alle Werte der Rauschenergie innerhalb eines Intervalls die Parametrisierungskette konstant. Natürlich fügen sich die verschiedenen Intervalle nahtlos aneinander an.
  • Die Bestimmung der Betriebsbereiche erfolgt a priori ein- für allemal während einer Vorphäse abhängig von der genauen in Betracht gezogenen Anwendung.
  • Um konkret zu werden, ohne daβ dies die Erfindung einschränkt, kann man für eine Spracherkennung in einem Militärflugzeug typisch fünf Variationsbereiche des Rauschpegels unterscheiden:
    • – Bereich 1: 0 bis 90 dB
    • – Bereich 2: 90 bis 98 dB
    • – Bereich 3: 98 bis 106 dB
    • – Bereich 4: 106 bis 114 dB
    • – Bereich 5: ≥ 114 dB
  • Der zweite Schritt besteht darin, selektiv die Parametrisierungskette zu verändern. Mit anderen Worten entspricht jedem Betriebsbereich eine andere Parametrisierungskette.
  • Die eigentliche Parametrisierungskette ist der Block 5, der seinerseits mehrere Moduln enthält, nämlich einen Modul 50, der einfach als Umschalter bezeichnet wird, einen Modul 51 zur Rauschminderung des Sprachsignals, einen Modul 52 zur Berechnung der BARK-Koeffizienten, einen Block 53 zur Konfiguration der Offset-Werte und einen Modul 54 zur Berechnung der Cepstrum-Werte.
  • Die Parametrisierungskette 5 besitzt eine Konfiguration ähnlich der anhand der 5 beschriebenen Kette. Insbesondere ermöglicht der Modul 52 die Bestimmung der in den BARK-Fenstern enthaltenen spektralen Energie. Dieser Modul gleicht dem Modul 110 in 5. Der Modul 54 faßt seinerseits die Moduln 111 und 112 aus 5 zusammen. Diese Moduln sind im übrigen die gleichen wie die bekannten Moduln 110 bis 112 in 2.
  • Vor der Berechnung der Spektralenergie kann optional eine Rauschminderung des Sprachsignals in dem Modul 51 erfolgen. Hierzu kann der Modul 51 wie üblich ein Wiener-Filter oder ein generalisiertes Wiener-Filter besitzen.
  • Ohne daß die Erfindung dadurch eingeschränkt würde, wird auf die Wiener-Filter verwiesen, die in den nachfolgenden Büchern beschrieben sind:
    • – Yves THOMAS: "Signaux et Systèmes Linèaires", Edition Masson 1994;
    • – François MICHAUT "Méthodes adaptatives pour le signal", Edition HERMES 1992.
  • Das Wiener-Filter empfängt eingangsseitig ein digitales Signal, Nutzsignal genannt, das rauschbehaftet ist, beispielsweise das Sprachsignal in der beschriebenen Anwendung, und liefert am Ausgang dasselbe Signal, das theoretisch keine Rauschkomponente mehr enthält. Wenn auch, wie oben erwähnt, die Rauschminderungsmethoden das Signal/-Rauschverhältnis wirksam verbessern, so bleibt doch ein Restrauschen von im allgemeinen nicht vernachlässigbarer Amplitude übrig.
  • Die Parametrisierungskette 5 enthält dagegen zwei für die Erfindung spezifische Komponenten.
  • Die erste Komponente, der Modul 53, kann wie im Fall der anhand der 5 beschriebenen Konfiguration Offset-Werte zu den HARK-Werten hinzufügen. Jedoch sind gemäß dem vorgenannten Merkmal des bevorzugten Ausführungsbeispiels, das in 6 gezeigt ist, die Offset-Werte nicht mehr zeitlich konstant. Für jeden der obigen Energiebereiche wendet man eine eigene Offset-Konfiguration an. Wie bereits erwähnt, hängt die Anzahl von Bereichen von der in Betracht gezogenen spezifischen Anwendung ab. In dem in 6 gezeigten Beispiel geht man davon aus, daß fünf Bereiche und damit auch fünf verschiedene Offset-Konfigurationen existieren.
  • Der zweite spezifische Modul wird von dem erwähnten Umschalter 50 gebildet. Dieses Organ erfaßt das Ergebnis des Vergleichs des Quantifizierungsmoduls 40. Das Ergebnis des Vergleichs kann beispielsweise von einem binären Steuerwort gebildet werden, das die Zahlen 1 bis 5 darstellt oder allgemeiner 1 bis n, wenn n unterschiedliche Konfigurationen existieren. Das Organ 50 arbeitet mit dem Modul 53 zusammen und überträgt ihm über die Verbindung 500 dieses Steuerwort. Es kann eine Speicherzone 530, beispielsweise aus Registern bestehend, für die Speicherung der verschiedenen Offset-Konfigurationen und eine Zone mit logischen Schaltungen 531 enthalten, die die Offset-Werte Ki den 16 BARK-Koeffizienten hinzufügen können. Das von der Verbindung 500 übertragene Binärwort erlaubt es, eine der in der Zone 530 gespeicherten Offset-Konfigurationen auszuwählen und auf die BARK-Koeffizienten wie oben beschrieben vor der Operation der logarithmischen Kompression im Modul 54 anzuwenden.
  • Der Modul 6 zur Erkennung von Formen kann unter Verwendung einer an sich bekannten Methode, beispielsweise vom Typ DTW (Dynamic Time Warping) oder HMM (Hidden Markov Model) realisiert werden. Es ist jedoch günstig, wenn der Modul zur Erkennung von Formen über die vorliegende Offset-Konfiguration informiert wird. In den bekannten Systemen zur Erkennung von Formen ist es nämlich üblich, einen sogenannten Pruning-Schwellparameter zu berücksichtigen, der der maximal zulässigen Verzerrung für eine gegebene Sprechphase entspricht. Dieser Parameter dimensioniert die Reaktionszeit des Systems. Um eine konstante Reaktionszeit zu erreichen, ist es günstig, diesen Wert in Korrelation mit der Entwicklung der Offset-Werte zu verändern. Der Modul 50 überträgt also auch über eine Verbindung 501 ein Steuerwort an den Modul 6 zur Erkennung von Formen, um die Pruning-Schwelle für jede verwendete Offset-Konfiguration zu justieren. Die erforderliche Anpassung des Blocks 6 erfordert nur eine geringfügige Veränderung der Standardschaltungen, die für diesen Zweck verwendet werden. Das Steuerwort kann auch dasselbe wie das an den Modul 53 übertragene Wort sein. In diesem Fall verwendet man dieselbe Übertragungsverbindung 500.
  • Wenn der gesprochene Satz erkannt wurde, werden in ebenfalls bekannter Weise die digitalen Signale hierfür an einen Verwendungsblock 7 übertragen, Kopfhörer, Tonbandgerät u.s.w.
  • Aus obigen Ausführungen erkennt man leicht, daß das beschriebene System gemäß im wesentlichen der 6 die Ziele erreicht, die sich die Erfindung gesteckt hat.
  • Sie erlaubt einen optimierten Kompromiß zwischen der Rauschfestigkeit und der Empfindlichkeit, indem die Merkmale der Parametrisierungskette abhängig vom Rauschpegel angepaßt und in Echtzeit gewählt werden.
  • Das System erlaubt die Anpassung an wechselnde Rauschpegel, indem für jede Sprechphase das vorliegende Rauschen analysiert wird.
  • Ein Versuchssystem zur Durchführung des Verfahrens zur Spracherkennung nach einer bevorzugten Ausführungsform der Erfindung auf der Basis der anhand von 6 beschriebenen Konfiguration hat gezeigt, daβ der Erkennungsgrad und die Leistungen bei vorliegendem Rauschen deutlich verbessert wurden. Die Fehlerraten wurden typisch in einem Verhältnis von 1 : 3 verringert.
  • Dagegen bleiben die durch das Verfahren und das System eingeführten zusätzlichen Beschränkungen sehr limitiert.
  • Für die Lernphase verändert die Durchführung des erfindungsgemäßen Verfahrens die Arbeitslast des Benutzers nicht wesentlich, was die akustischen Bezugswerte (die gespeicherten Bezugswerte) angeht. Die Rechenzeit der Station, in der die Lernphase durchgeführt wird, nimmt aber zu. Dies beruht auf der Tatsache, daß für jede vordefinierte Offset-Konfiguration eine Lernphase erforderlich ist. Es sei jedoch festgestellt, daß diese Berechnungen ein- für allemal durchgeführt werden, oder zumindest nur selten, nämlich bei Systemänderungen, Vergrößerung des Lerncorps u.s.w.
  • Während der Spracherkennungsphasen, also der Betriebsphasen ist dagegen die Erkennungsdauer identisch der einer Spracherkennung mit klassischer Cepstrum-Parametrisierung. Die erforderliche zusätzliche Rechenzeit für die Quantifizierung der Energie des Rauschens und das Laden der Offset-Konfigurationswerte ist im Vergleich zur Rechenzeit für die eigentliche Spracherkennung völlig vernachlässigbar.
  • Aus der Hardware-Sicht erfordert das System einen größeren Speicherraum, um die akustischen Bezugswerte für die verschiedenen Offset-Konfigurationen zu speichern. Angesichts der Fortschritte in der Technologie (Miniaturi sierung der Speicherorgane auf der Basis von integrierten Schaltungen und Zunahme der Kapazität) und auch angesichts der permanent sinkenden Preise für derartige Organe bleibt jedoch diese erwähnte Belastung mit den realistischen industriellen und wirtschaftlichen Betrachtungen vereinbar.
  • Es wurde auch gezeigt, daβ das Verfahren und das System gemäß der Erfindung mit den auf dem Gebiet der Spracherkennung verwendeten Technologien vereinbar bleibt. Die meisten klassischen Schaltungen bleiben verwendbar. Das Verfahren erfordert nämlich nur beschränkte Anpassungen und einige zusätzliche spezifisch funktionale Moduln in ebenfalls beschränkter Anzahl.
  • Es sollte jedoch klar sein, daß die Erfindung nicht auf die explizit beschriebenen Ausführungsbeispiele anhand insbesondere der 2 und 6 beschränkt ist. Insbesondere wurden die numerischen Angaben nur gemacht, um eine Vorstellung zu vermitteln. Sie hängen wesentlich von der in Betracht gezogenen genauen Anwendung ab. Dies gilt insbesondere hinsichtlich der Anzahl von vordefinierten Energiebereichen und der Anzahl von Offset-Konfigurationen, die daraus resultieren.
  • Obwohl die Erfindung besonders für die Spracherkennung in einem Militärflugzeug geeignet ist, sollte klar sein, daß sie nicht auf diese besondere Anwendung beschränkt ist. Sie ist vielmehr auf die Spracherkennung in allen verrauschten Umfeldern anwendbar.

Claims (18)

  1. Verfahren zur Spracherkennung in einem verrauschten akustischen Signal, wobei das Verfahren zumindest eine Digitalisierungsphase, eine Phase der Zerlegung des akustischen Signals in eine Folge von zeitlichen Rahmen vorbestimmter Dauer, eine Phase der Parametrisierung der zeitlichen Rahmen, sodaß diese in eine erste Serie von Parametervektoren im Frequenzbereich umgewandelt werden, und eine Phase des Vergleichs der Parametervektoren der ersten Serie mit Parametervektoren einer zweiten Serie aufweist, die in einer Vorphase, Lernphase genannt, eingespeichert wurden, sodaß die Spracherkennung durch Bestimmung einer Mindestdistanz zwischen den Vektoren der ersten Serie und besonderen Vektoren der zweiten Serie erhalten wird und wobei die Phase der Parametrisierung die folgenden Schritte aufweist:
  2. – die Berechnung (110) der spektralen Energie der Rahmen durch Quadrierung und die Anwendung einer Folge von Wichtungsfenstern auf je einen bestimmten Wichtungskoeffizient, die die Form von das menschliche Hörsystem charakterisierenden Filtern reproduzieren, sodaß Frequenzkanäle erzeugt werden,
  3. – eine logarithmische Kompression (111) der Energiewerte der in den Frequenzkanälen vorhandenen Signale,
  4. – die Erzeugung (112) der Folge von Parametervektoren in dem Frequenzbereich,
  5. dadurch gekennzeichnet, daß das Verfahren einen Schritt (113) enthält, bei dem ein vorbestimmter Wert, Offsetwert genannt, zu den bestimmten Wichtungskoeffizienten hinzugefügt wird, sodaß die Parametrisierung verändert und die Spracherkennung in Gegenwart eines Rauschens rauschfester wird.
  6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Wichtungsfenster sogenannten BARK-Koeffizienten zugeordnet sind und daß 16 solche Fenster vorhanden sind.
  7. Verfahren nach einem der Ansprüche 1 und 2, dadurch gekennzeichnet, daß die logarithmische Kompression (11) mithilfe einer Qlog-Funktion erhalten wird.
  8. Verfahren nach einem beliebigen der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß der Schritt der Erzeugung der Parametervektoren (112) in dem Frequenzbereich in der Anwendung einer diskreten Cosinus-Transformierten auf die komprimierten Energiewerte besteht und daß jeder Parametervektor durch Auswahl der Koeffizienten zwei bis 9 dieser diskreten Cosinustransformierten erhalten wird.
  9. Verfahren nach einem beliebigen der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß der zu den bestimmten Wichtungskoeffizienten hinzugefügte Offsetwert von einem Frequenzkanal zum nächsten variabel ist und daß die Offset-Amplitude für die bestimmten Wichtungskoeffizienten größer ist, die den Frequenzkanälen zugeordnet sind, welche die größten Energiewerte aufweisen.
  10. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Amplitude der Offsetwerte, die den bestimmten und den unteren und mittleren Frequenzkanälen des mittleren Spektrums der akustischen Signale der menschlichen Stimme zugeordneten Wichtungskoeffizienten größer sind als die Amplituden der Offsetwerte, die den Kanälen der höchsten Frequenzen dieses Spektrums hinzugefügt werden.
  11. Verfahren nach einem beliebigen der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß es eine erste Vorphase enthält, die darin besteht, eine Folge von aneinander an schließenden Bereichen von Pegeln vorbestimmter Rauschenergie zu bestimmen, eine zweite Vorphase, die darin besteht, für jeden der Bereiche eine eigene Konfiguration der den bestimmten Wichtungskoeffizienten hinzuzufügenden Offset-Werte zu bestimmen, und eine zusätzliche Phase mit einem ersten Schritt, der darin besteht, die Rauschenergie in dem akustischen Signal durch Vergleich mit der Serie der aneinander anschließenden Energiebereiche zu quantifizieren (40), und einen zweiten Schritt, der darin besteht, auf die bestimmten Wichtungskoeffizienten eine der Konfigurationen von Offset-Werten abhängig vom Ergebnis der Quantifizierung anzuwenden (50, 53).
  12. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Wahl einer der Konfigurationen von Offset-Werten so durchgeführt wird, daß die Amplitude der Offset-Werte mit der Amplitude des Rauschenergiepegels des akustischen Signals steigt.
  13. Verfahren nach einem beliebigen der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß es eine zusätzliche Vorphase enthält, die darin besteht, ein Modell (31) der Entwicklung der Merkmale des in dem akustischen Signal vorhandenen Rauschens zu bestimmen.
  14. Verfahren nach einem beliebigen der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß es vor dem Schritt der Anwendung einer Folge von Wichtungsfenstern, die bestimmten Wichtungskoeffizienten zugeordnet sind, einen zusätzlichen Schritt enthält, der in einer Rauschminderung (51) des akustischen Signals mithilfe eines Wiener-Filters oder generalisierten Wiener-Filters besteht, sodaβ die Rauschkomponente im akustischen Signal abnimmt.
  15. System zur Spracherkennung in einem verrauschten akustischen Signal zur Durchführung des Verfahrens nach einem beliebigen der Ansprüche 1 bis 10, mit einer Parametrisierungskette (11', 5) für die zeitlichen Rahmen, die einen ersten Modul (110, 52) zur Berechnung der spektralen Energie der Rahmen durch Quadrierung und zur Anwendung einer Folge von Wichtungsfenstern auf je einen bestimmten Wichtungskoeffizient, sodaβ die Frequenzkanäle erzeugt werden, einen zweiten Modul (113, 53), der zu allen bestimmten Wichtungskoeffizienten einen Offset-Wert hinzufügt, einen dritten Modul (111, 54), der eine logarithmische Kompression der bestimmten Wichtungskoeffizienten durchführt, und einen Modul (112, 54) aufweist, der eine diskrete Cosinustransformierte auf die bestimmten und komprimierten Wichtungskoeffizienten anwendet, sodaβ sich eine erste Serie von Parametervektoren ergibt, und mit Mitteln (6) zur Formerkennung, die die Vektoren von Parametern der ersten Serie mit Parametervektoren der zweiten Serie vergleichen, um die Spracherkennung durch Berechnung von Distanzen zwischen den Vektoren der ersten Serie und denen der zweiten Serie zu erreichen.
  16. System zur Spracherkennung nach Anspruch 11, dadurch gekennzeichnet, daβ es Mittel (40) zur Quantifizierung der Rauschenergie in den Rahmen und zum Vergleich mit einer Serie von vorab gebildeten Energiebereichen, sodaß eine Konfiguration von Offset-Werten aus einer Folge von diskreten Konfigurationen ausgewählt wird, deren Anzahl der Anzahl von vorbestimmten Energiebereichen gleicht, und Mittel (50, 53) zur Anwendung der Konfiguration auf die bestimmten Wichtungskoeffizienten durch Hinzufügung der Offset-Werte aufweist.
  17. System zur Spracherkennung nach Anspruch 12, dadurch gekennzeichnet, daß es außerdem Mittel (31) zur Modellbildung des in den Rahmen vorhandenen Rauschens ent hält, wobei die das Rauschen in dem Modell darstellenden _ Signale an die Mittel (40) zur Quantifizierung der Rauschenergie übermittelt werden.
  18. System zur Spracherkennung nach einem beliebigen der Ansprüche 11 bis 13, dadurch gekennzeichnet, daß es außerdem Mittel (51) zur Minderung des im akustischen Signal vorhandenen Rauschens aufweist und daß diese Mittel ein Wiener-Filter oder ein generalisiertes Wiener-Filter enthalten.
DE69906569T 1998-11-20 1999-11-19 Verfahren und vorrichtung zur spracherkennung eines mit störungen behafteten akustischen signals Expired - Fee Related DE69906569T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR9814641A FR2786308B1 (fr) 1998-11-20 1998-11-20 Procede de reconnaissance vocale dans un signal acoustique bruite et systeme mettant en oeuvre ce procede
FR9814641 1998-11-20
PCT/FR1999/002852 WO2000031728A1 (fr) 1998-11-20 1999-11-19 Procede de reconnaissance vocale dans un signal acoustique bruite et systeme mettant en oeuvre ce procede

Publications (2)

Publication Number Publication Date
DE69906569D1 DE69906569D1 (de) 2003-05-08
DE69906569T2 true DE69906569T2 (de) 2004-01-08

Family

ID=9533000

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69906569T Expired - Fee Related DE69906569T2 (de) 1998-11-20 1999-11-19 Verfahren und vorrichtung zur spracherkennung eines mit störungen behafteten akustischen signals

Country Status (5)

Country Link
US (1) US6868378B1 (de)
EP (1) EP1131813B1 (de)
DE (1) DE69906569T2 (de)
FR (1) FR2786308B1 (de)
WO (1) WO2000031728A1 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2786308B1 (fr) * 1998-11-20 2001-02-09 Sextant Avionique Procede de reconnaissance vocale dans un signal acoustique bruite et systeme mettant en oeuvre ce procede
US7165028B2 (en) * 2001-12-12 2007-01-16 Texas Instruments Incorporated Method of speech recognition resistant to convolutive distortion and additive distortion
US7139701B2 (en) * 2004-06-30 2006-11-21 Motorola, Inc. Method for detecting and attenuating inhalation noise in a communication system
US7254535B2 (en) * 2004-06-30 2007-08-07 Motorola, Inc. Method and apparatus for equalizing a speech signal generated within a pressurized air delivery system
US7155388B2 (en) 2004-06-30 2006-12-26 Motorola, Inc. Method and apparatus for characterizing inhalation noise and calculating parameters based on the characterization
US7436969B2 (en) * 2004-09-02 2008-10-14 Hewlett-Packard Development Company, L.P. Method and system for optimizing denoising parameters using compressibility
US7774202B2 (en) * 2006-06-12 2010-08-10 Lockheed Martin Corporation Speech activated control system and related methods
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US7873114B2 (en) * 2007-03-29 2011-01-18 Motorola Mobility, Inc. Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
FR2938396A1 (fr) * 2008-11-07 2010-05-14 Thales Sa Procede et systeme de spatialisation du son par mouvement dynamique de la source
JP6169849B2 (ja) * 2013-01-15 2017-07-26 本田技研工業株式会社 音響処理装置
CN113794979B (zh) * 2021-08-30 2023-05-12 航宇救生装备有限公司 低阻抗送话器匹配低阻抗音频控制模块时的评价控制方法
CN114743562B (zh) * 2022-06-09 2022-11-01 成都凯天电子股份有限公司 一种飞机声纹识别方法、系统、电子设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5583961A (en) * 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
US5696878A (en) * 1993-09-17 1997-12-09 Panasonic Technologies, Inc. Speaker normalization using constrained spectra shifts in auditory filter domain
DE69725172T2 (de) * 1996-03-08 2004-04-08 Motorola, Inc., Schaumburg Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
FR2771542B1 (fr) * 1997-11-21 2000-02-11 Sextant Avionique Procede de filtrage frequentiel applique au debruitage de signaux sonores mettant en oeuvre un filtre de wiener
FR2786308B1 (fr) * 1998-11-20 2001-02-09 Sextant Avionique Procede de reconnaissance vocale dans un signal acoustique bruite et systeme mettant en oeuvre ce procede

Also Published As

Publication number Publication date
EP1131813A1 (de) 2001-09-12
FR2786308B1 (fr) 2001-02-09
WO2000031728A1 (fr) 2000-06-02
FR2786308A1 (fr) 2000-05-26
EP1131813B1 (de) 2003-04-02
US6868378B1 (en) 2005-03-15
DE69906569D1 (de) 2003-05-08

Similar Documents

Publication Publication Date Title
DE60123161T2 (de) Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE60316704T2 (de) Mehrkanalige spracherkennung in ungünstigen umgebungen
DE60023517T2 (de) Klassifizierung von schallquellen
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE69816610T2 (de) Verfahren und vorrichtung zur rauschverminderung, insbesondere bei hörhilfegeräten
DE69906569T2 (de) Verfahren und vorrichtung zur spracherkennung eines mit störungen behafteten akustischen signals
DE69725172T2 (de) Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE60108401T2 (de) System zur erhöhung der sprachqualität
US6445801B1 (en) Method of frequency filtering applied to noise suppression in signals implementing a wiener filter
EP2158588B1 (de) Spektralglättungsverfahren von verrauschten signalen
DE112017006486T5 (de) Online-enthallungsalgorithmus basierend auf gewichtetem vorhersagefehler für lärmbehaftete zeitvariante umgebungen
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE602005001048T2 (de) Erweiterung der Bandbreite eines schmalbandigen Sprachsignals
DE60314128T2 (de) Parametrische online-histogramm normierung zur rauschrobusten spracherkennung
DE112014003337T5 (de) Sprachsignaltrennung und Synthese basierend auf auditorischer Szenenanalyse und Sprachmodellierung
DE2719973A1 (de) Verfahren und vorrichtung zum adaptiven filtern von fast stationaerem geraeusch aus sprache
DE112009000805T5 (de) Rauschreduktion
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
DE60025748T2 (de) Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee