EP1212751A1

EP1212751A1 - Verfahren zur unterdrückung von störrauschen in einem signalfeld

Info

Publication number: EP1212751A1
Application number: EP00958032A
Authority: EP
Inventors: Wolfgang Tschirk
Original assignee: Siemens AG Oesterreich
Current assignee: Siemens AG
Priority date: 1999-09-10
Filing date: 2000-08-28
Publication date: 2002-06-12
Anticipated expiration: 2020-08-28
Also published as: US20020173276A1; ATA155999A; EP1212751B1; AT408286B; WO2001020598A1; JP2003509730A; DE50008440D1

Abstract

Zur Unterdrückung von Störrauschen in einem Signalfeld (S2), z.B. einem Spektrum eines Sprachsignals, enthaltend eine Vielzahl von Signalkomponenten, welche jeweils einen Wert eines Signalpegels annehmen und über einem Ordinatenbereich (T, F) auftragbar sind, wird zunächst die Verteilungsfunktion (P2(E)) des Signalfelds bestimmt. Diese gibt als Funktion des Signalpegels an, wie groß der Anteil jener Signalkomponenten ist, deren Signalpegel niedriger als ihr Argumentwert (E) ist. Sodann werden aufgrund eines Vergleiches der Verteilungsfunktion (P2(E)) mit einer Referenzverteilungsfunktion, welche aus einer für einen Satz von Referenzmustern bestimmten Verteilungsfunktion gewonnen wurde, die Signalpegelwerte des Signalfeldes modifiziert, wobei die Abfolge der Signalkomponenten hinsichtlich ihrer Energiepegel ungeändert bleibt sowie Signalkomponenten, deren ursprüngliche Signalpegel gleich sind, gleiche modifizierte Signalpegel zugewiesen werden.

Description

VERFAHREN ZUR UNTERDRÜCKUNG VON STÖRRAUSCHEN IN EINEM SIGNALFELD

Die Erfindung betrifft ein Verfahren zur Unterdrückung von Störrauschen in einem Signalfeld enthaltend eine Vielzahl von Signalkomponenten, welche jeweils einen Wert eines Signalpegels annehmen und über einem Ordinatenbereich auftragbar sind, bei welchem aus dem Signalfeld eine Verteilungsfunktion bestimmt wird, welche als Funktion des Signalpegels zu jedem seiner möglichen Signalpegel-Argumentwerte angibt, wie groß der Anteil jener Signalkomponenten ist, deren Signalpegel niedriger als der Argumentwert ist.

Signalfelder, auf die das erfindungsgemäße Verfahren sich bezieht, werden beispielsweise in Mustererkennungssystemen zur Beschreibung der zu erkennenden Muster verwendet. Der bei der Erkennung eines Musters ablaufende Vorgang kann gewöhnlich grob in die folgenden Schritte aufgeteilt werden: Erfassung des Musters, Vorverarbeitung und Klassifizierung.

Der erste Schritt, die Mustererfassung, dient der Umwandlung des originalen Musters, z.B. eine gesprochene Äußerung eines Benutzers oder ein mit Text beschriebenes Schriftstück, in ein für die Verarbeitung geeignetes Format, z.B. in Form eines elektronischen Signals, das analog oder digital codiert sein kann, oder einer Datei vorgegebenen Formats. Hierher gehört auch die Umwandlung eines Signal/ Dateiformats, z.B. einer Rasterbildaufnahme, in ein für die weitere Verarbeitung geeignetes Format. Im Falle einer Spracherkennung beispielsweise wird die vom Benutzer gesprochene Äußerung über eine akustische Eingabe, wie z.B. ein Mikrophon, aufgenommen, gegebenenfalls vorverstärkt und in ein elektrisches Sprachsignal in analoger oder digitalisierter Form umgesetzt.

Das so erfasste Muster wird der Vorverarbeitung zugeführt, die eine Reduktion der zu verarbeitenden Daten sowie eine bessere Unterscheidbarkeit der zu bestimmenden Muster erreicht. Ergebnis der Vorverarbeitung ist ein Signalfeld, im Beispiel der Spracherkennung ein Spektrum der Äußerung, das dem Klassifizierungssystem zugeführt werden kann. Häufig ist ein wesentlicher Schritt der Vorverarbeitung eine Signalanalyse des Mustersignals, z.B. kann für das elektrische Sprachsignal der Benutzer-Äußerung eine Signalanalyse in Form einer Aufteilung in Zeitrahmen (Diskretisierung) und einer nachfolgenden, jeweils innerhalb eines Zeitrahmens durchgeführten Fourier-Transformation mit Zerlegung in Frequenzbänder erfolgen, aus der ein Zeit-Frequenz-Spektrum gewonnen wird. Damit ist zugleich eine - im allgemeinen beträchtliche - Datenreduktion verbunden. Ein weiterer, unter Umständen wesentlicher Schritt der Vorverarbeitung ist die Verringerung von Störrauschen in dem Mustersignal bzw. dem daraus gewonnen Signalfeld. Das Signalfeld umfasst eine Vielzahl von Signalkomponenten, die jeweils einen eigenen, hier als Signalpegel bezeichneten Wert gleichen Typs annehmen. Die Signalkomponenten sind naturgemäß innerhalb des Signalfelds geordnet, wobei diese Ordnung mit Hilfe eines oder mehrerer Ordinatenparameter ausgedrückt ist. Beispielsweise besteht ein als Zeit-Frequenz- Spektrum realisiertes Signalfeld aus vielen Spektralkomponenten, die jeweils einen eigenen Energiepegel annehmen; die Spektralkomponenten sind nach Zeitrahmen und Frequenzband geordnet. Jeder Signalkomponente kann somit in dem Ordinatenbereich, über den sich das Signalfeld erstreckt, ein eigener Bereichselement des Ordinatenbereichs zugeordnet werden, sodass die Bereichselemente insgesamt den Ordinatenbereich des Signalfeld abdecken. In Abhängigkeit von der Anzahl der Ordinatenparameter kann der Ordinatenbereich ein-, zwei- oder mehrdimensional sein; dementsprechend sind die Bereichselemente Linien-, Flächen- oder (π-dimensionale) Volumselemente.

Das durch die Vorverarbeitung erhaltene Signalfeld wird dem Klassifizierungssystem zugeführt. Dieses ermittelt, zu welcher Erkennungsklasse - d.i. im Falle der Spracherkennung ein Wort eines vorgegebenen Wortschatzes oder eine Wortkette - eine Übereinstimmung gegeben ist. Das Erkennungsresultat wird dann Ausgabe zugeführt, beispielsweise auf einer Anzeige, oder zur weiteren Verarbeitung genutzt, z.B. bei einer Befehlseingabe einer sprachorientierten Einrichtung.

Die Ausführung einer Mustererkennung wird oftmals durch Störrauschen erschwert, das die zu erkennenden Muster überlagert. Beispielsweise kann die Leistungsfähigkeit eines Sprach- erkennungssystems durch akustischen Hintergrundlärm stark herabgesetzt oder ganz vereitelt werden.

Bei bekannten Verfahren zur Rauschunterdrückung wird in der Vorverarbeitung eine Abschätzung der dem Signal unterliegenden Rauschparameter durchgeführt und aufgrund dieser Abschätzung ein Referenzrauschsignal abgezogen wird. Derartige Verfahren der spektrale Subtraktion für Sprachsignale werden von S. V. Vaseghi und B. P. Milner in 'Noise Compensation Models for Hidden Markov Model Speech Recognition in Adverse Environments', IEEE Transactions on Speech and Audio Processing, Vol. 5, No. 1, Januar 1997, S. 11- 21 beschrieben. Hierbei wird von dem Energiepegel E jeweils einer Spektralkomponente des Spektrums die entsprechende Komponente eines Referenzrauschsignals E_r gemäß dem Ausdruck

F = s_s( E, E_r ) = ( E^b - α E_r ^b )^{1 b}

„subtrahiert". Das Referenzrauschsignal E_r wird aufgrund vorgegebener oder abgeschätzter Rauschparameter simuliert. Die Subtraktion der Energiepegel kann hierbei z.B. in Bezug auf die linearen Energiepegel durchgeführt werden oder „konvolutiv" im logarithmischen Bereich, d.h. in der genannten Formel stehen anstelle der Energiepegel E, E_r, E¹ die entsprechenden Logarithmen log E, etc.

Der Subtraktionsansatz hat jedoch den Mangel, dass die zur Beschreibung des Rauschens notwendigen Parameter nicht mit der erforderHchen Genauigkeit und Vollständigkeit bekannt sein können. Beispielsweise ist für eine korrekte Rauschkompensation nicht nur die Kenntnis der Rauschamplituden, sondern auch der Phasenbeziehungen erforderlich, was - wenn überhaupt - nur mit sehr großem Aufwand möglich ist. Störungen, die keine additive oder konvolutive Überlagerung darstellen, wie z.B. Mischformen aus additiven und konvo- lutiven Störungen, sind noch schwieriger zu behandeln.

Die EP 0 062519 AI lehrt die Beseitigung von Störungen in Radarsignalen, wobei die Verteilung der Störungen bekannt, wenn auch beliebig ist, im Gegensatz zu vorher bekannten Verfahren, die eine Rayleigh- oder Weibull-verteüte Störung verlangen. Die Kenntnis der Verteilung oder zumindest der zugehörenden Wahrscheinlichkeitsdichte, aus der man sie ableiten kann, ist notwendige Voraussetzung für die Anwendung des Verfahrens dieses Dokuments. Ohne Kenntnis einer solchen Verteilung ist eine Störungsbeseitigung nach diesem Verfahren somit nicht durchführbar.

Die EP 0 548527 A2 lehrt ein Verfahren zur Erzeugung einer Transformation der Pegelskala eines digitalen radiographischen Bildes, z.B. Röntgenbildes, in welchem eine kumulative Verteilungsfunktion des Bildes verwendet wird, um die Pegelverteilung des Bildes dahingehend zu modifizieren, dass sie im interessierenden Bereich im wesentlichen linear ist. Die diesem Verfahren zugrundeliegende Aufgabenstellung, nämlich eine Darstellung des Bildes in einer für die weitere Untersuchung durch Betrachtung des Bildes geeigneten Form, unterscheidet sich freilich wesentlich von jener der Erfindung.

Die EP 0 720358 A2 betrifft die Kompression von Videosignaldaten. Dabei wird die Pegelverteilung eines Bildes so modifiziert, dass jedem Eingangspegelbereich ein um so größerer Ausgangspegelbereich zugeordnet wird, je mehr Eingangspegel in ersteren Bereich fallen, wobei der gesamte Ausgangspegelbereich begrenzt ist. Auch in diesem Fall ist die Aufgabenstellung, nämlich eine gleichmäßigere Signalkompression, von jener der Erfindung wesentlich verschieden. Dem entsprechend wird bei der Kompression nach dieser Schrift eine Zielverteilung nicht angestrebt; vielmehr verwendet die Kompressionsvorschrift lediglich aus dem Eingangssignal abgeleitete Parameter. Aus keinen der genannten Dokumente geht die Verwendung einer aus Trainings- oder Referenzdaten gewonnenen Referenzverteilungsfunktion hervor.

Es ist daher Aufgabe der Erfindung, ein Verfahren zur Rauschunterdrückung aufzuzeigen, das die Beeinträchtigung des Signalfelds durch das Störrauschen hinsichtlich der nachfolgenden Auswertung, insbesondere einer Klassifizierung, zuverlässig verringert. Weiters soll die Rauschunterdrückung ohne nähere Kenntnis der Eigenschaften des Rauschens und ohne eine Simulation eines Hintergrundrauschens durchführbar sein.

Die Aufgabe wird von einem Verfahren der eingangs genannten Art gelöst, bei welchem erfindungsgemäß aus dem Signalfeld eine Verteilungsfunktion bestimmt wird, welche als Funktion des Signalpegels zu jedem seiner möglichen Signalpegel- Argumentwerte angibt, wie groß der Anteil jener Signalkomponenten ist, deren Signalpegel niedriger als der Argumentwert ist, und sodann aufgrund eines Vergleiches der Verteilungsfunktion mit einer vorbestimmten Referenzverteilungsfunktion die Signalpegelwerte des Signalfeldes modifiziert werden, wobei die Abfolge der Signalkomponenten hinsichtlich ihrer Energiepegel ungeändert bleibt sowie Signalkomponenten, deren ursprüngliche Signalpegel gleich sind, gleiche modifizierte Signalpegel zugewiesen werden, wobei als Referenzverteilungsfunktion eine aus einer Verteilungsfunktion, die für einen Satz von Referenzmustern bestimmt worden ist, gewonnene Funktion verwendet wird.

Diese Lösung ermöglicht eine Rauschunterdrückung sowohl für additiven bzw. konvoluti- ven Rauschhintergrund als auch für Mischformen oder noch kompliziertere Störungen. Durch das erfindungsgemäße Verfahren kann die Auswirkung der Störung auf die Signalparameter des Signalfelds beträchtlich reduziert werden, auch ohne nähere Kenntnis von Rauschparametern.

Die Forderung, dass die Abfolge der Signalkomponenten hinsichtlich ihrer Energiepegel ungeändert bleibt, bedeutet, dass für jedes (beliebige) Paar von Signalkomponenten, für welche der ursprüngliche Pegel der ersten Komponente kleiner als jener der zweiten ist, nach der Zuweisung modifizierter Pegel zu den Signalkomponenten der modifizierte Pegel der ersten Komponente nicht größer (also gleich oder kleiner) als der modifizierte Pegel der zweiten Komponente ist.

Es sei darauf hingewiesen, dass sich aus den oben genannten Schriften keinerlei Hinweise entnehmen lassen, dass eine Modifikation anhand einer Referenzverteilungsfunktion ohne Berücksichtigung der Art des Störrauschens erfolgreich sein könnte. Der für das erfindungsgemäße Verfahren wesentliche Parameter, die Referenzverteilungsfunktion, kann im vorhinein z.B. mit Hilfe von Versuchen bestimmt werden. Wenn ein Trainings- oder Vergleichssatz von Mustern vorliegt, können diese oder eine ausgewählter Teil dieser Muster zur Erzeugung der Referenzverteilungsfunktion dienen. Vorteilhafterweise kann dann als Referenzverteilungsfunktion eine aus einer Verteilungsfunktion, die für einen Satz von Referenzmustern bestimmt worden ist, gewonnene Funktion verwendet werden. Dabei kann die Verteilungsfunktion des Referenzmustersatzes selbst als Referenzverteilungsfunktion genutzt werden, oder eine aus ihr, z.B. durch Vereinfachung des Kurvenverlaufs, gewonnene Funktion des Pegels.

Günstigerweise erfolgt die Modifizierung der Signalpegelwerte dadurch, dass ausgehend von einer Aufteilung des Wertebereichs der Signalpegel in eine Anzahl von Pegelbereichen für jeden Pegelbereich

- zu einem diesen Pegelbereich repräsentierenden, ersten Pegel unter Anwendung der Verteilungsfunktion und des Werts der Referenzverteilungsfunktion an dem ersten Pegel ein zweiter Pegel ausgewählt wird, für welchen der Wert der Verteilungsfunktion dem genannten Wert der Referenzverteilungsfunktion möglichst nahe kommt, und

- jenen Signalkomponenten, deren Signalpegel zwischen dem ersten und dem zweiten Pegel fällt, der Wert des ersten Pegels zugewiesen wird.

Dies erlaubt eine möglichst weitgehende Anpassung des Signals an die Referenzverteilungsfunktion. Im einfachsten Falle der Aufteilung des Signalpegel- Wertebereichs in Pegelbereiche wird für jeden auftretenden Signalpegel ein eigener Bereich zugeordnet, sodass jeder Pegelbereich mit dem zugehörenden Signalpegel identifiziert werden kann.

Des weiteren wird eine besonders zweckmäßige Realisierung der Erfindung für ein als zeit- und/oder frequenzabhängiges Spektrum eines akustischen Signals realisiertes Signalfeld ausgeführt.

Die Erfindung wird im folgenden anhand eines Ausführungsbeispiels erläutert, das die Spracherkennung eines gesprochenen Wortes in einem Kraftfahrzeugwagen betrifft. Dabei werden die beigefügten Figuren herangezogen, welche zeigen:

Fig. 1 ein Spektrogramm einer Äußerung unter geräuschfreien Bedingungen;

Fig. 2 die Energieverteilungsfunktion zu dem Spektrogramm der Fig. 1;

Fig. 3 und 4 ein Spektrogramm und die zugehörende Energieverteilungsfunktion einer Äußerung mit Geräuschhintergrund;

Fig. 5 und 6 ein Spektrogramm und die zugehörende Energieverteilungsfunktion, welche sich durch spektrale Subtraktion aus dem Spektrogramm der Fig. 3 ergeben; Fig. 7 eine Referenzverteilungsfunktion zur Anwendung der Erfindung;

Fig. 8 und 9 ein Spektrogramm und die zugehörende Energieverteilungsfunktion, welche sich aus dem Spektrogramm der Fig. 3 mittels der erfindungsgemäßen Rauschreduktion anhand der Referenzverteilungsfunktion der Fig. 7 ergeben.

Sprachsignale, welche vor einem Geräuschhintergrund, wie z.B. jenem im Inneren eines Kraftfahrzeugwagens in Betrieb, gesprochen werden, werden durch Geräusche beeinträchtigt, die von verschiedenen Quellen, z.B. dem Fahrzeugmotor, anderen Fahrzeugen, Wind usw., stammen können und oftmals eine Mischung von Schallkomponenten hoher Energie mit nicht vorhersehbarer Statistik hinsichtlich ihres Zeitablaufs und ihrer Frequenz darstellen. Die Leistungsfähigkeit von Spracherkennungssystemen nimmt daher schnell ab, wenn der Geräuschhintergrund zunimmt, beispielsweise weil die Fahrzeuggeschwindigkeit größer wird. Das im folgenden dargestellte Ausführungsbeispiel der Erfindung betrifft die Erkennung der englischen Wörter 'zero', One', 'two', usw. bis 'nine' für die Ziffern 0 bis 9 mittels eines Spracher kennungssystems in einem Wagen vom KFZ-Kleinwagentyp.

Fig. 1 zeigt ein Spektrogramm Sl eines Spektrums zu einer Äußerung des englischen Wortes 'seven', gesprochen von einem männlichen Sprecher in dem Wagen unter geräuschfreien Bedingungen.

In den in dem Ausführungsbeispiel behandelten Spektren erfasst die Zeitachse einen Zeitraum von 0.992 s, die in 31 Rahmen T gleicher Zeitdauer (sogenannte 'frames') aufgeteilt ist. Der Frequenzbereich erstreckt sich von f = 200 Hz bis 3.4 kHz und ist in 9 Bänder F mit ungefähr logarithmisch abgestufter Bandbreite und -abstand aufgeteilt. Die spektrale Energie ist in allen Figuren logarithmisch als Energiepegel E, mit der Einheit dB und bezogen auf einen allen Figuren gemeinsamen Grundpegel, dargestellt.

Spektren dieser Art wurden in Spracherkennungsversuchen der Anmelderin für Äußerungen über den genannten Wortschatz verwendet. In dem verwendeten Spracherkennungs- system erfolgt nach einer Vorverarbeitung des zu erkennenden Äußerung mittels einer Rauschunterdrückung wie weiter unten näher erläutert eine Klassifizierung, bei welcher ein geschichtetes neuronales Netzwerk, welches mit einem Trainingswortschatz trainiert worden war, als Mustererkennungssystem dient. Für den Trainingswortschatz wurde der Wortschatz von einer Anzahl von Sprechern - vorteilhafterweise sowohl männliche als auch weibliche Personen - in einer Umgebung, die der Sprechumgebung des Wagens entspricht, gesprochen, und zwar für jedes Wort jeweils mehrere Male unter rauschfreien Bedingungen des Rauschhintergrunds (Ruhe des Wagens). Fig. 2 zeigt die Energieverteilungsfunktion P1(E) zu dem in Fig. 1 dargestellten Spektrum S . Eine einem Spektrum S zugeordnete Energieverteilungsfunktion P(E) gibt als Funktion des Energiepegels E an, wie viele der spektralen Komponenten S(T,F) des betreffenden Spektrums S einen Energiepegel aufweisen, der niedriger als der angegebene Energiepegel E ist, wobei diese Zahl als Wert zwischen 0 und 1 bezogen auf die Gesamtzahl der spektralen Komponenten ausgedrückt ist. Beispielsweise hat die Energieverteilungsfunktion Pl bei 48 dB den Wert 0.6, denn 60 % der Energiepegel des Spektrums Sl liegen unter 48 dB. Eine große (kleine) Steigung in der Energieverteilungsfunktion P(E) entspricht einem Energiepegel, dessen Wert in einer großen (kleinen) Anzahl von Komponenten des zugehörenden Spektrums S auftritt. Eine Energieverteilungsfunktion kann auch für eine Vielzahl von Spektren bestimmt werden und gibt dann den Anteil der Komponenten sämtUcher Spektren mit Energiepegel unter dem angegeben Pegel E, geteilt durch die Gesamtzahl der Komponenten aller dieser Spektren, an.

Fig. 3 zeigt das Spektrogramm S2 zu einer Äußerung des Wortes von demselben Sprecher bei einer Wagengeschwindigkeit von 113 km/h (70 mph). Wie aus dem Vergleich der Spektrogramme Sl und S2 (Fig. 1 bzw. 3) ersichtlich, bleiben lediglich die Sprachanteile hoher Energie wenig beeinträchtigt, während die übrigen Anteile von den Geräuschen maskiert sind. Der Hintergrund-Energiepegel steigt von ungefähr 25 dB auf ungefähr 65 dB, die Spitzen der Äußerung sind bei 85 dB, die Sprachanteile unterhalb 70 dB gehen im Geräuschhintergrund unter. Die zugehörende Energieverteilungsfunktion P2(E) ist in Fig. 4 dargestellt.

Die Energieverteilungsfunktionen Pl und P2 (Fig. 2 bzw. 4) zeigen, dass die spektrale Verteilung des rauschfreien Signals Sl deutlich verschieden von jener des geräuschbehafteten Signals S2 ist, in dem die Hintergrundenergie um ungefähr 40 dB höher liegen als im Falle des rauschfreien Signals.

Mittels der eingangs erwähnten spektralen Subtraktion nach S. V. Vaseghi und B. P. Milner ist eine Rauschreduktion des verrauschten Signals erreichbar. Entsprechend dem weiter oben Gesagten, wird das Spektrum S unter Verwendung eines Referenzrauschsignals S_r dadurch transformiert, dass in jeder Spektralkomponente S(T,F) die jeweils entsprechende Komponente S_r(T,F) des Referenzrauschens gemäß dem Ausdruck

S'(T,F) = E0 = s_s( E, E_r ) = ( E^b - α E_r ^b )^1/b , wobei E = S(T,F) und

E_r - S_r(T,F)

„subtrahiert" wird. Die Rauschreduktion nach der spektralen Subtraktion wurde im Rahmen der weiter unten beschriebenen Versuche der Anmelderin für das Spektrum S2 durchge- führt. In Fig. 5 und 6 sind das Spektrum S3 = s_s( S2, S_r ), das sich bei der Anwendung der spektralen Subtraktion auf das Spektrogramm S2 ergibt, und die zugehörende Energieverteilungsfunktion P3 dargestellt; dabei wurden jene Parameter b und α verwendet, bei denen die Ergebnisse von durchgeführten Spracherkennungstests für verschiedene Parameter b und am besten waren, sowie ein aus der Aufnahme der Äußerung S2 gewonnenes Referenzrauschen S_r. Wie aus Fig. 5 und 6 ersichtlich ist, ist das Hintergrundrauschen ist um ca. 10 dB niedriger als im unbehandelten Signal S2, jedoch ist ein beträchtlicher Anteil der Sprachanteile niedriger Energie immer noch vom restlichen Rauschen verdeckt. Daher verbessert sich die Erfolgsquote bei der Spracherkennung nur geringfügig.

Da das als Referenzrauschsignal S_r verwendete Signal nur statistisch mit dem Rauschen übereinstimmt, welches als Hintergrund des verrauschten Signals S2 vorliegt, erzielt die spektrale Subtraktion eine Reduktion des Rauschpegels nur an einzelnen Komponenten des sich ergebenden Spektrums S3. Denn in Abhängigkeit von der relativen Phasenlage des Referenzrauschens und des tatsächlichen Hintergrunds kommt es nur für einen Teil der Komponenten des Spektrums zu einer Auslöschung des Rauschanteils der betreffenden Komponente, in anderen Komponenten bleibt der Pegel ungefähr gleich, in manchen ergibt sich sogar eine Verstärkung (wenngleich deren Auswirkung aufgrund der logarithrrύschen Darstellung der Energiepegel gemildert ist). Dies ist in Fig. 5 besonders an den Niedrigpegel- Anteilen ca. ab Zeitrahmen 20 zu erkennen.

Gemäß der Erfindung erfolgt die Rauschunterdrückung für das vorliegende Sprachsignal S2 unter Verwendung einer vorgegebenen „Vorlagefunktion", nämlich einer als Referenz dienenden Energieverteilungsfunktion. Vorteilhafterweise geschieht dies derart, dass die Pegel der Spektralkomponenten des Sprachsignal-Spektrums S2 an die Vorlagefunktion ange- passt werden. Die Energieverteilungsfunktion des sich ergebenden Spektrums stimmt dann im wesentlichen mit der Vorlagefunktion überein.

Idealerweise würde als Vorlagefunktion die Energieverteilungsfunktion der Summe jener Spektren verwendet werden, welche beim Training des Spracherkennungssystems für das betreffende Wort (hier 'seven') verwendet werden; da das zu erkennende Wort dem Sprach- erkennungssystem naturgemäß nicht im vorhinein bekannt ist, ist dies nicht möglich. Es wird stattdessen eine Energieverteilungsfunktion als Vorlagefunktion gewählt, welche in Bezug auf die Gesamtheit der Worte des zu erkennenden Wortschatzes zweckmäßig ist. Beispielsweise kann jene Energieverteilungsfunktion als Vorlagefunktion PO verwendet werden, welche aus den Spektren des gesamten Trainingswortschatzes abgeleitet wurde. Die erfindungsgemäße Rauschunterdrückung durch Anpassung der Pegel an eine Vorlagefunktion erfolgt derart, dass Spektralkomponenten, deren Pegel E = S(T,F) ursprünglich gleich ist, auch nach der Anpassung einen gemeinsamen Pegel E0 = S'(T,F) aufweisen, d.h. für alle Spektralkomponenten gilt die Anpassungsbedingung

S^,(Tι,Fι) = S^,(T₂,F₂) wenn S(Tι,F,) = S(T₂,F₂) . (1)

De weiteren soll die Abfolge der Komponenten hinsichtlich ihrer Energiepegel nicht geändert werden, d.h.

S'(Tι,Fι) < S'(T₂,F₂) wenn S(Tι,Fι) < S(T₂,F₂) ; (2) diese Monotoniebedingung bewahrt bei der Rauschunterdrückung des Spektrums S in ein modifiziertes Spektrum S' die Strukturen des Spektrums zumindest in qualitativer Hinsicht.

Die Rauschunterdrückung kann als Konsequenz der Anpassungsbedingung (1) durch eine Anpassungsfunktion R(E) vollständig beschrieben werden, die jedem ursprünglichen Pegel E einen modifizierten Pegel E0 = R(E) zuordnet, auf welchen jene Spektralkomponenten gesenkt (oder gehoben) werden, die ursprünglich den Pegel E aufwiesen. Die Anpassungsfunktion ist wegen der Monotoniebedingung (2) monoton, d.h. R(E}) < R(E₂) wenn E < E . Erfindungsgemäß erfolgt dies Anpassung des Spektrums derart, dass für die zugeordnete Energie Verteilungsfunktion gilt P0(E0) = P(E). Daher ist die Anpassungsfunktion R(E) eindeutig durch den Vergleich der Energieverteilungsfunktion P2 des vorliegenden Signals mit der Vorlagefunktion PO bestimmt. Da die Energieverteilungsfunktionen P,P0 gleichfalls monoton wachsende Funktionen sind, kann formal daraus die Anpassungsfunktion mittels Umkehrung der Vorlagefunktion PO ermittelt werden.

Tabelle 1 zeigt einen beispielhaften Programm-Pseudocode, durch den die erfindungsgemäße Anpassung eines Spektrums erfolgt. Das anzupassende Spektrum S ist hierbei in der Feldvariablen S gespeichert, das über die Intervalle Tmin . . Tmax sowie Fmin . . Fmax des Zeit-Frequenz-Raumes definiert ist. Die Energiepegel des Spektrums können diskrete Werte in dem Wertebereich zwischen den Energiepegeln Emin und Emax annehmen. In der Feldvariablen PO ist eine Referenz-Energieverteilungsfunktion als Vorlagefunktion vorgegeben. Die Energieverteilungsfunktionen sind als Felder über das genannte Intervall Emin . . Emax definiert.

Zunächst (ab der Marke PS/S) wird die zugehörende Energie Verteilungsfunktion ermittelt und in der Feldvariablen PS abgelegt. Hierzu wird für jede Komponente S [ T , F ] des Spektrums der Pegelwert ermittelt, und sämtliche Komponenten der Energieverteilungsfunktion { PS/S } for E = Emin to Emax :

PS[E] = 0; end for; for T = Tmin to Tmax : for F = Fmin to Fmax : for E = S[T,F] to Emax : inc(PS[E]); end for; end for; end for;

{ RED/S } for E0 = Emin to Emax : if P0[E0] > PS[E0] : dE = 0; while E0+dE<=Emax and abs( P0[E0] -PS[E0+dE] )<=abs( P0[E0] -PS[E0+dE-1 ] ) : inc(dE) ; end while; dec(dE); if dE > 0 : for T = Tmin to Tmax : for F = Fmin to Fmax : if S[T , F] > E0 and S [T , F ] <= EO+dE :

S [T , F] = E0 ; end if ; end for ; end for ; end if ; end if ; end for ;

Tabelle 1

PS, deren zugeordneter Energiepegel über diesem Pegel wert liegt, werden inkrementiert. Hierbei bezeichnet ine die Inkrementierfunktion.

Sodann (ab der Marke RED/S) wird in einer for-Schleife für jeden der diskreten Werte E0, sofern an diesem Pegel die Energie Verteilungsfunktion PS [ E0 ] kleiner als die Vorlagefunktion P0 [ E0 ] ist, die folgenden Schritte ausgeführt: Es wird zunächst ein dem Pegelwert E0 zugeordneter Energiepegel EO+dE bestimmt. Dies geschieht dadurch, dass der Abstand dE dieser Pegel ausgehend von dem Wert 0 solange inkrementiert wird (while-Schleife), bis der Wert der Energieverteilungsfunktion am zugeordneten Pegel PS [ EO+dE ] dem Wert der Vorlagefunktion am gegebenen Pegelwert P0 [ E0 ] am nächsten kommt. Hierzu wird die Funktion abs zur Ermittlung des Absolutbetrages verwendet. Der nach der while-Schleife stattfindende Dekrementierschritt dec ( dE ) dient der Korrektur auf jenen Wert, für welchen die genannte Bedingung tatsächlich zutrifft. Nun stellt der Pegelwert E0 den modifizierten Pegel zu dem Energiepegel EO+dE dar. Sodann wird geprüft, ob der Pegelabstand dE positiv (größer als 0) ist; in diesem Fall werden sämtliche Komponenten S [ T , F ] des Spektrums, deren Energiepegel in das Intervall zwischen EO und EO+dE fällt, auf den Energiepegel EO gestellt. Nach dem letzten Durchlauf der äußeren for-Schleife enthält das Feld S das erfindungsgemäß rauschunterdrückte Spektrum S'.

Fig. 7 zeigt die in dem Ausführungsbeispiel verwendete Vorlagefunktion P0(E0), nämlich die Energieverteilungsfunktion für den oben genannten Trainingswortschatz, d.s. die englischen Zahlwörter 'zero' bis 'nine'. Für die verrauschte Äußerung S2 ergibt die erfindungsgemäße Rauschunterdrückung mit Hilfe der genannten Vorlagefu ktion PO das als Spektrogramm S4 in Fig. 8 gezeigte Spektrum; die zugehörende Energieverteilungsfunktion P4 ist in Fig. 9 wiedergegeben.

Zur Verringerung des Aufwands bei der Durchführung des erfindungsgemäßen Verfahrens kann jeweils ein Pegelbereich des ursprüngUchen Spektrums derart gemeinsam behandelt werden, dass den zugehörenden Spektralkomponenten ein einheitUcher modifizierter Pegel zugewiesen wird. Dieser modifizierte Pegel wird in Bezug auf einen respräsentativen Pegelwert des betreffenden Pegelbereichs, z.B. den Mittelwert des Pegelbereichs oder den Mediän der Pegel über die in den in den Pegelbereich f aUenden Komponenten, wie oben beschrieben bestimmt, beispielsweise mittels der Anpassungsfunktion.

Bei von der Anmelderin durchgeführten ersten Spracherkennungsversuchen mit dem oben beschriebenen Spracherkennungssystem wurde das erfindungsgemäße Verfahren getestet und zugleich mit dem Verfahren der spektralen Subtraktion vergUchen. Die zu erkennenden Äußerungen wurden unter verschiedenen Bedingungen des Rauschhintergrunds gesprochen, nämlich Fahrt bei 80 km/h (50 mph) und bei 113 km/h (70 mph). Es wurden hierbei die Ereignisse gezählt, bei denen das Spracherkennungssystem die Äußerung falsch erkannt hat, wobei nur Substitutionsfehler berücksichtigt wurden. Bei einer Kontrollreihe, in der die Signale ohne Rauschreduktion der Mustererkennung zugeführt wurden, wurden 30 % der Äußerungen falsch erkannt. Bei Einsatz der spektralen Subtraktion als Rauschreduktionsverfahren ging der Anteil der fehlerhaften Erkennungen auf 23.3 % zurück. Mit dem erfindungsgemäßen Verfahren verringerte sich der Fehleranteil auf 13.3 %, also eine Reduktion der Fehlerrate um fast die Hälfte im Vergleich zum bekannten Verfahren.

Das erfindungsgemäße Verfahren eignet sich insbesondere zur Unterdrückung überlagernder Störungen, welche die Monotonierelation der Spektralkomponenten der Äußerung nicht oder nur geringfügig stören. Zu derartigen Störungen gehören z.B. weißes Rauschen, eine lineare oder nichtlineare Verstärkung oder Abschwächung des gesamten Spektrums sowie verschiedene Phänomene des Lombard-Effekts, der bekanntermaßen eine Änderung der Stiinme und der Aussprache in Abhängigkeit von dem psychischen Zustand des Sprechers, z.B. Stress, beschreibt.

In dem Spektrogramm S4 der Fig. 8 ist um Zeitrahmen 16 bei den oberen Frequenzbändern ein Artefakt erkennbar, welches in der eigentlichen Äußerung (Fig. 1) nicht enthalten ist und von dem erfindungsgemäßen Verfahren nicht beseitigt wurde. Derartige Artefakte können in den meisten FäUen z.B. mit Hilfe einer der Rauschunterdrückung nachgeschalteten Medianfilterung elirniniert werden.

Das erfindungsgemäße Verfahren der Rauschunterdrückung verändert das zu verarbeitende Signal auch bei Abwesenheit von Rauschen, da die Vorlagefunktion PO im aUgemeinen von der Energieverteilungsfunktion der ungestörten Äußerung verschieden ist. Hierdurch kann unter Umständen eine QueUe für Erkennungsfehler im rauschfreien Fall entstehen. Um dies zu vermeiden, kann beispielsweise das Training des Spracherkennungssystems mit Hilfe von Spektren durchgeführt werden, die bereits mit dem erfindungsgemäßen Verfahren an die verwendete Vorlagefunktion angepasst worden sind. Der Trainingswortschatz kann diese Spektren anstelle von oder gemeinsam mit den ursprüngUchen Spektren enthalten.

Ein anderer Ansatz besteht darin, das erfindungsgemäße Verfahren nur dann einzusetzen, wenn das VorUegen von Rauschen festgesteUt wird, z.B. im Zeitraum kurz vor der Äußerung; anderenfalls wird das Sprachsignal der Spracherkennung ohne Rauschunterdrückung zugeführt. Dieser Ansatz benötigt keine Abschätzung des Rauschens, die über die bloße Detektion von Rauschen hinausginge.

In einer vereinfachten Variante des erfindungsgemäßen Verfahrens kann die Anpassung des Spektrums dadurch deutlich vereinfacht werden, dass nur eine festgelegte Anzahl von Parametern der Vorlagefunktion verwendet werden, und die Anpassung im HinbUck auf diese Parameter erfolgt. Beispielsweise könnten Mittelwert und Streuung der Verteilung der Vorlagefunktion verwendet werden. Zur Anpassung werden gleichfalls Mittelwert und Streuung der Verteilung der Energieverteilungsfunktion ermittelt, und aus dem Vergleich dieser Parameter mit denen der Vorlagefunktion wird eine lineare Transformation für die Energiepegel des Spektrums bestimmt. Durch die Anwendung dieser linearen Transformation ergibt sich ein modifiziertes Spektrum, in welchem der störende Effekt des Hintergrundrauschens deutlich verringert ist. Sofern die Anwendung einer linearen Transformation nicht genügt, kann z.B. eine Transformation höherer Ordnung verwendet werden, die aus dem Vergleich einer entsprechenden Anzahl von Parametern der Energieverteilungsfunktion und der Vorlagefunktion, z.B. höherer Momente der Verteilungen, bestimmt wird. Das erfindungsgemäße Verfahren eignet sich nicht nur für die Störungsverringerung für akustische Signale, wie z.B. Sprachsignale; vielmehr kann es ebenso für Muster anderer Art verwendet werden, welches sich durch eine über einem ein- oder mehrdimensionalen Feld aufgetragene Merkmalsgröße beschreiben läßt. MögUche Einsatzgebiete sind demgemäß z.B. die Zeichenerkennung in geschriebenem Text od.dgl., Rekonstruktion und/ oder Auswertung von Bildern usf.

Claims

PATENTANSPRÜCHE

1. Verfahren zur Unterdrückung von Störrauschen in einem Signalfeld (S2) enthaltend eine Vielzahl von Signalkomponenten, welche jeweils einen Wert eines Signalpegels annehmen und über einem Ordinatenbereich (T,F) auf tragbar sind, bei welchem aus dem Signalfeld (S2) eine Verteilungsfunktion (P2(E)) bestimmt wird, welche als Funktion des Signalpegels zu jedem seiner möglichen Signalpegel-Argumentwerte (E) angibt, wie groß der Anteil jener Signalkomponenten ist, deren Signalpegel niedriger als der Argumentwert (E) ist, dadurch gekennzeichnet, dass aufgrund eines Vergleiches der Verteilungsfunktion (P2(E)) mit einer vorbestimmten Referenzverteilungsfunktion (P0(E)) die Signalpegelwerte des Signalfeldes modifiziert werden, wobei die Abfolge der Signalkomponenten hinsichtUch ihrer Energiepegel ungeändert bleibt sowie Signalkomponenten, deren ursprüngUche Signalpegel gleich sind, gleiche modifizierte Signalpegel zugewiesen werden, wobei als Referenzverteilungsfunktion (PO) eine aus einer Verteilungsfunktion, die für einen Satz von Referenzmustern bestimmt worden ist, gewonnene Funktion verwendet wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass für die Modifizierung der Signalpegelwerte ausgehend von einer Aufteilung des Wertebereichs der Signalpegel in eine Anzahl von Pegelbereichen für jeden Pegelbereich

- zu einem diesen Pegelbereich repräsentierenden, ersten Pegel (EO) unter Anwendung der Verteilungsfunktion (P2) und des Werts der Referenzverteilungsfunktion an dem ersten Pegel (P0(E0)) ein zweiter Pegel ausgewählt wird, für welchen der Wert der Verteilungsfunktion (P2(E)) dem genannten Wert der Referenzverteilungsfunktion (P0(E0)) mögUchst nahe kommt, und

- jenen Signalkomponenten, deren Signalpegel zwischen dem ersten und dem zweiten Pegel fällt, der Wert des ersten Pegels (EO) zugewiesen wird.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass es für ein als zeit- und/oder frequenzabhängiges Spektrum eines akustischen Signals reaUsiertes Signalfeld ausgeführt wird.