DE60104091T2 - Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung - Google Patents

Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung Download PDF

Info

Publication number
DE60104091T2
DE60104091T2 DE60104091T DE60104091T DE60104091T2 DE 60104091 T2 DE60104091 T2 DE 60104091T2 DE 60104091 T DE60104091 T DE 60104091T DE 60104091 T DE60104091 T DE 60104091T DE 60104091 T2 DE60104091 T2 DE 60104091T2
Authority
DE
Germany
Prior art keywords
signal
components
noise
bark
subspace
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60104091T
Other languages
English (en)
Other versions
DE60104091D1 (de
Inventor
Rolf Vetter
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Centre Suisse dElectronique et Microtechnique SA CSEM
Original Assignee
Centre Suisse dElectronique et Microtechnique SA CSEM
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Centre Suisse dElectronique et Microtechnique SA CSEM filed Critical Centre Suisse dElectronique et Microtechnique SA CSEM
Publication of DE60104091D1 publication Critical patent/DE60104091D1/de
Application granted granted Critical
Publication of DE60104091T2 publication Critical patent/DE60104091T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Description

  • Diese Erfindung liegt im Gebiet der Signalverarbeitung und ist genauer auf die Rauschunterdrückung (oder umgekehrt auf die Signalverbesserung) in der Telekommunikation menschlicher Sprache gerichtet.
  • Die Sprachverbesserung ist häufig erforderlich, um die Ermüdung des Hörers zu verringern oder um die Leistung automatischer Sprachverarbeitungssysteme zu erhöhen. Eine Hauptklasse von Rauschunterdrückungstechniken wird im Gebiet als Spektralsubtraktion bezeichnet. Die Spektralsubtraktion betrachtet das übertragene verrauschte Signal allgemein als die Summe des gewünschten Sprachsignals mit einer Rauschkomponente.
  • Ein typischer Zugang besteht darin, das Spektrum der Rauschkomponente zu schätzen und daraufhin dieses geschätzte Rauschspektrum im Frequenzbereich von dem übertragenen verrauschten Signal zu subtrahieren, um das verbleibende gewünschte Sprachsignal zu liefern.
  • Subtraktive Techniken beruhen typisch auf der diskreten Fourier-Transformation (DFT) und bilden einen herkömmlichen Zugang zur Entfernung von stationärem Hintergrundrauschen in Einkanalsystemen. Allerdings ist ein Hauptproblem bei den meisten dieser Verfahren, dass sie an einer "musikalisches Restrauschen" genannten Verzerrung leiden.
  • Um diese Verzerrung zu verringern, ist ein Verfahren des Standes der Technik vorgeschlagen worden, das die gleichzeitige Maskierungswirkung des menschlichen Ohrs nutzt. Es ist beobachtet worden, dass das menschliche Ohr additives Rauschen ignoriert oder wenigstens toleriert, solange seine Amplitude in jedem von mehreren kritischen Frequenzbändern in dem menschlichen Ohr unter einem Maskierungsschwellenwert bleibt. Wie im Gebiet gut bekannt ist, ist ein kritisches Band ein Band von Frequenzen, die vom menschlichen Ohr gleich wahrgenommen werden. N. Virag, "Single Channel Speech Enhancement Based on Masking Properties of the Human Auditory System", IEEE Transactions on Speech and Audio Processing, Bd. 7, Nr. 2 (März 1999), S. 126–137, beschreibt eine Technik, in der für jedes kritische Band Maskierungsschwellenwerte definiert und bei der Optimierung der spektralen Subtraktion verwendet werden, um den Umfang zu berücksichtigen, in dem Rauschen während Sprachintervallen maskiert wird.
  • Außerdem sind Fortschritte unter Verwendung von Eigenraumzugängen erzielt worden, die auf der Karhunen-Loève-Transformation (KLT) beruhen. Y. Ephraim u. a., "A Signal Subspace Approach for Speech Enhancement", IEEE Transactions on Speech and Audio Processing, Bd. 3, Nr. 4 (Juli 1995), S. 251–266, beschreibt einen Unterraumzugang, der auf der KLT beruht. Das zu Grunde liegende Prinzip dieses Unterraumzugangs ist es, die Daten in einem hochdimensionalen Raum verzögerter Koordinaten zu beobachten. Da angenommen wird, dass das Rauschen statistisch ist, verläuft es in allen Richtungen dieses Raums etwa in gleichförmiger Weise, während die Dynamik des deterministischen Systems, das dem Sprachsignal zu Grunde liegt, die Trajektorien des Nutzsignals demgegenüber auf einen niederdimensionalen Unterraum beschränkt. Folglich wird der Eigenraum des verrauschten Signals in einen Rauschunterraum und einen Signal-plus-Rauschen-Unterraum partitioniert. Durch Entfernen des Rauschunterraums und optimales Gewichten des Signal-plus-Rauschen-Unterraums wird eine Verbesserung erhalten.
  • Es ist bemerkenswert, dass gezeigt worden ist, dass die höchste Leistung bei Verwendung einer KLT mit einer zugeordneten Unterraumauswahl, die das Minimalbeschreibungslängen-Kriterium (MDL-Kriterium) verwendet, erhalten wird. Vetter u. a., "Single Channel Speech Enhancement Using Principal Component Analysis and MDL Subspace Selection", in Proceedings of the 6th European Conference on Speech Communication and Technology (Eurospeech'99), Budapest, Ungarn (5.–9. September 1999), Bd. 5, S. 2411–2414, beschreibt einen Unterraumzugang für die Einkanal-Sprachverbesserung und -Spracherkennung in stark verrauschten Umgebungen, der auf der Hauptkomponentenanalyse (PCA) beruht. Um die Rauschverringerung zu maximieren und die Signalverzerrung zu minimieren, wird der Eigenraum der Rauschdaten gemäß diesem besonderen Zugang in drei verschiedene Unterräume partitioniert:
    • i) einen Rauschunterraum, der hauptsächlich Rauschbeiträge enthält. Diese Komponenten werden während der Rekonstruktion annulliert;
    • ii) einen Signalunterraum, der Komponenten mit hohen Signal/Rausch-Verhältnissen (SNRj >> 1) enthält. Da die Komponenten dieses Unterraums hauptsächlich Komponenten aus dem Ausgangssignal enthalten, sind sie nicht gewichtet. Dies ermöglicht eine Minimierung der Signalverzerrung; und
    • iii) einen Signal-plus-Rauschen-Unterraum, der die Komponenten mit SNRj ≈ 1 enthält. Die Schätzung der Dimension dieses Unterraums kann lediglich mit einer hohen Fehlerwahrscheinlichkeit erfolgen. Folglich können zu ihm Hauptkomponenten mit SNRj < 1 gehören, wobei während der Rekonstruktion eine Gewichtung angewendet wird.
  • Das allgemeine Verbesserungsschema dieses Zugangs des Standes der Technik ist in 1 dargestellt. Eine ausführliche Beschreibung dieses Verbesserungsschemas ist in dem oben erwähnten Literaturhinweis von Vetter u. a. beschrieben.
  • Da während jedes Rahmens die Eigenvektoren oder Eigenfilter berechnet werden müssen, was hohe Rechenanforderungen beinhaltet, sind die oben angeführten KLT-basierten Unterraumzugänge aber nicht für die Echtzeitimplementierung geeignet.
  • Somit ist es eine Hauptaufgabe der vorliegenden Erfindung, ein Verfahren und ein System zum Verbessern von Sprache in einer verrauschten Umgebung zu schaffen, die die Robustheit und Effizienz der KLT-basierten Unterraumzugänge liefern.
  • Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein Verfahren und ein System zum Verbessern von Sprache zu schaffen, die niedrige Rechenanforderungen beinhalten und somit ermöglichen, dieses Verfahren für die Echtzeitsprachverbesserung in Echtweltbedingungen zu implementieren und dieses System für die Echtzeitsprachverbesserung in Echtweltbedingungen zu verwenden.
  • Dementsprechend wird ein Verfahren zum Verbessern von Sprache in einer verrauschten Umgebung geschaffen, dessen Merkmale in Anspruch 1 angeführt sind.
  • Außerdem wird ein System zum Verbessern von Sprache in einer verrauschten Umgebung geschaffen, dessen Merkmale in Anspruch 13 angeführt sind.
  • Weitere vorteilhafte Ausführungsformen der Erfindung sind der Gegenstand der abhängigen Ansprüche.
  • Um den oben erwähnten Nachteil der KLT-basierten Unterraumzugänge, d. h. die hohen Rechenanforderungen, zu umgehen, wird gemäß der vorliegenden Erfindung Vorkenntnis über Wahrnehmungseigenschaften des menschlichen Hörsystems verwendet. Insbesondere werden die Eigenfilter in dem KLT-Zugang gemäß der vorliegenden Erfindung durch die so genannten Bark-Filter ersetzt.
  • Gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung wird diese Bark-Filterung in dem DCT-Bereich verarbeitet, d. h. eine diskrete Kosinus-Transformation ausgeführt. Es ist gezeigt worden, dass die DCT im Vergleich zu der DFT, die herkömmlich verwendet wird, eine erheblich höhere Energiekompaktifizierung schafft. Tatsächlich liegt diese Leistung sehr nahe bei der optimalen KLT. Allerdings ist klar, dass die DFT, trotzdem sie eine niedrigere Leistung liefert, ebenso anwendbar ist.
  • Das Verfahren gemäß der vorliegenden Erfindung schafft in Bezug auf die KLT-basierten Unterraumzugänge von Ephraim u. a. und Vetter u. a. eine ähnliche Leistung in Bezug auf Robustheit und Effizienz. Im Gegensatz zu diesen Verbesserungsverfahren des Standes der Technik ist allerdings die Rechenlast des Verfahrens gemäß der vorliegenden Erfindung um eine Größenordnung verringert, was dieses Verfahren als eine viel versprechende Lösung für die Echtzeit-Sprachverbesserung fördert.
  • Weitere Aspekte, Merkmale und Vorteile der vorliegenden Erfindung werden klar beim Lesen der folgenden ausführlichen Beschreibung nicht einschränkender Beispiele und Ausführungsformen, die mit Bezug auf die beigefügte Zeichnung vorgenommen wird, in der:
  • 1 schematisch ein Sprachverbesserungsschema des Standes der Technik veranschaulicht, das auf der Karhunen-Loève-Transformation KLT oder Hauptkomponentenanalyse mit einem zugeordneten Minimalbeschreibungslängen-Kriterium (MDL-Kriterium) beruht;
  • 2 ein Blockschaltplan eines Einkanal-Sprachverbesserungssystems zur Implementierung einer ersten Ausführungsform des Verfahrens gemäß der vorliegenden Erfindung ist;
  • 3 ein Ablaufplan ist, der das Sprachverbesserungsverfahren der vorliegenden Erfindung allgemein veranschaulicht;
  • 4 schematisch eine bevorzugte Ausführungsform eines Einkanal-Sprachverbesserungsschemas gemäß der vorliegenden Erfindung veranschaulicht, das auf einer diskreten Kosinus-Transformation (DCT) beruht;
  • 5 einen typischen Zyklus eines genetischen Algorithmus (GA-Zyklus) veranschaulicht, der zur Optimierung der Parameter des Sprachverbesserungsverfahrens der vorliegenden Erfindung verwendet werden kann;
  • 6a bis 6d Sprachspektrogramme sind, die die Leistungsfähigkeit des Sprachverbesserungsverfahrens der vorliegenden Erfindung, insbesondere im Vergleich zum klassischen subtraktiven Verbesserungsschema, das die DFT verwendet, wie etwa zu einer nichtlinearen Spektralsubtraktion (NSS), veranschaulichen;
  • 6e die Signal- und die Signal-plus-Rauschen-Unterraumdimensionen (p1 und p2) veranschaulicht, die unter Verwendung des Verfahrens der vorliegen den Erfindung geschätzt werden;
  • 7 ein Blockschaltplan eines Zweikanal-Sprachverbesserungssystems zur Implementierung einer zweiten Ausführungsform des Verfahrens gemäß der vorliegenden Erfindung ist; und
  • 8 schematisch eine bevorzugte Ausführungsform eines Zweikanal-Sprachverbesserungsschemas gemäß der vorliegenden Erfindung ist, das auf der DCT beruht.
  • 2 zeigt schematisch ein Einkanal-Sprachverbesserungssystem zur Implementierung des Sprachverbesserungsschemas gemäß der vorliegenden Erfindung. Grundsätzlich umfasst dieses System ein Mikrofon 10 mit den zugeordneten Verstärkungsmitteln 11 zum Erfassen der eingegebenen verrauschten Signale, ein Filter 12, das mit dem Verstärker 11 verbunden ist, und einen Analog/Digital-Umsetzer (ADC) 14, um die empfangenen Signale abzutasten und in die digitale Form umzusetzen. Das Ausgangssignal des ADC 14 wird an einen digitalen Signalprozessor (DSP) 16 angelegt, der so programmiert ist, dass er die Signale gemäß der im Folgenden beschriebenen Erfindung verarbeitet. Die am Ausgang des DSP 16 erzeugten verbesserten Signale werden einem Endanwendersystem 18 wie etwa einem automatischen Sprachverarbeitungssystem zugeführt.
  • Der DSP 16 ist so programmiert, dass er an dem empfangenen Sprach- und Audioeingangssignal vom Mikrofon 10 eine Rauschunterdrückung ausführt. 3 zeigt schematisch die Folge von Operationen, die gemäß einer nun beschriebenen bevorzugten Ausführungsform der Erfindung vom DSP 16 beim Unterdrücken des Rauschens und Verbessern der Sprache in dem Eingangssignal ausgeführt werden.
  • Wie in 3 veranschaulicht ist, wird das Eingangssignal zuerst, typisch durch Anwenden einer Hanning-Fensterung mit einem bestimmten Überlappungsprozentsatz, in mehrere Rahmen unterteilt, die jeweils N Abtastwerte umfassen. Somit ist klar, dass das Verfahren gemäß der vorliegenden Erfindung auf einer rahmenweisen Grundlage arbeitet. Nach diesem Fensterungsprozess, der in 3 mit 100 bezeichnet ist, wird auf diese N Abtastwerte eine Transformation angewendet, wie sie durch Schritt 110 angegeben ist, um N mit X(k) bezeichnete Frequenzbereichskomponenten zu erzeugen.
  • Diese Frequenzbereichskomponenten X(k) werden daraufhin für jeden Rahmen in Schritt 120 durch so genannte Bark-Filter gefiltert, um N mit X(k)Bark bezeichnete Bark-Komponenten zu erzeugen, und daraufhin einem im Folgenden ausführlicher beschriebenen Unterraumauswahlprozess 130 ausgesetzt, um die Rauschdaten in drei verschiedene Unterräume, d. h. einen Rauschunterraum, einen Signalunterraum und einen Signal-plus-Rauschen-Unterraum, zu partitionieren.
  • Das verbesserte Signal wird dadurch erhalten, dass auf die Komponenten des Signalunterraums und auf die gewichteten Komponenten des Signal-plus-Rauschen-Unterraums die inverse Transformation angewendet wird (Schritt 150), während der Rauschunterraum während der Rekonstruktion annulliert wird (Schritt 140).
  • Im Folgenden wird das globale System für den Unterraumzugang gemäß der vorliegenden Erfindung ausführlicher beschrieben. Im Kontext der vorliegenden Erfindung wird das Problem des additiven Rauschens betrachtet, d. h., das beobachtete verrauschte Signals x(t) ist gegeben durch: x(t) = s(t) + n(t) (1)t = 0, ..., Nt – 1
    wobei s(t) das interessierende Sprachsignal, n(t) ein additives stationäres Hintergrundrauschen mit dem Mittelwert null und Nt die Anzahl der beobachteten Abtastwerte sind.
  • Wie bereits erwähnt wurde, kann die Grundidee bei Unterraumzugängen auf allgemeine Weise wie folgt formuliert werden: Die Rauschdaten werden in einem großen m-dimensionalen Raum eines gegebenen dualen Bereichs beobachtet (z. B. in dem Eigenraum, der durch eine KLT berechnet wird, wie sie in der oben angeführten Y. Ephraim u. a., "A Signal Subspace Approach for Speech Enhancement", beschrieben ist). Falls das Rauschen statistisch und weiß ist, verläuft es in allen Richtungen dieses dualen Bereichs auf etwa gleichförmige Weise, während die Dynamik des deterministischen Systems, das dem Sprachsignal zu Grunde liegt, demgegenüber die Trajektorien des Nutzsignals auf einen niederdimensionalen Unterraum der Dimension p < m beschränkt. Folglich wird der Eigenraum des verrauschten Signals in einen Rauschunterraum und einen Signal-plus-Rauschen-Unterraum partitioniert. Die Verbesserung wird dadurch erhalten, dass der Rauschunterraum annulliert und der Signal-plus-Rauschen-Unterraum optimal gewichtet wird.
  • Der optimale Entwurf eines solchen Unterraumalgorithmus ist eine schwierige Aufgabe. Die Unterraumdimension p sollte durch eine geeignete Auswahlre gel während jedes Rahmens auf optimale Weise gewählt werden. Außerdem führt die Gewichtung des Signal-plus-Rauschen-Unterraums eine beträchtliche Menge Rauschverzerrung ein.
  • Wie bereits erwähnt wurde, wurde bereits in Vetter u. a., "Single Channel Speech Enhancement Using Principle Component Analysis and MDL Subspace Selection" (bereits oben angeführt), ein Erfolg versprechender Zugang zur gleichzeitigen Maximierung der Rauschminderung und Minimierung der Signalverzerrung vorgeschlagen, der in einer Partition des Eigenraums der Rauschdaten in drei verschiedene Unterräume besteht, d. h. in:
    • i) einen Rauschunterraum der Dimension m–p2, der hauptsächlich Rauschbeiträge enthält. Diese Komponenten werden während der Rekonstruktion annulliert;
    • ii) einen Signalunterraum der Dimension p1, der Komponenten mit hohen Signal/Rausch-Verhältnissen (SNRj >> 1) enthält. Die Komponenten dieses Unterraums werden nicht gewichtet, da sie hauptsächlich Komponenten von dem Ausgangssignal enthalten. Dies ermöglicht eine Minimierung der Signalverzerrung; und
    • iii) einen Signal-plus-Rauschen-Unterraum der Dimension p2–p1, der die Komponenten mit SNRj ≈ 1 enthält. Die Schätzung der Dimension dieses Unterraums kann lediglich mit einer hohen Fehlerwahrscheinlichkeit erfolgen. Folglich können zu ihm Hauptkomponenten mit SNRj < 1 gehören, wobei während der Rekonstruktion eine Gewichtung angewendet wird.
  • Gemäß der vorliegenden Erfindung wird ein ähnlicher Zugang verwendet (Schritt 130 in 3), um den Raum der Rauschdaten zu partitionieren. In klassischen Unterraumzugängen werden die Komponenten des dualen Bereichs dadurch erhalten, dass die durch die KLT berechneten Eigenvektoren oder Eigenfilter auf die Rauschdaten mit eingebetteter Verzögerung angewendet werden. Um die für diese Operationen erforderlichen großen Rechenmittel zu vermeiden, wird gemäß der vorliegenden Erfindung vorgeschlagen, die Maskierungseigenschaften des menschlichen Hörsystems zu verwenden, um die Eigenfilter der klassischen Unterraumzugänge durch die so genannten Bark-Filter zu ersetzen.
  • Die Rauschmaskierung ist ein gut bekanntes Merkmal des menschlichen Hörsystems. Sie bezeichnet die Tatsache, dass das Hörsystem zwei Signale, die im Zeit- oder Frequenzbereich nahe sind, nicht unterscheiden kann. Dies wird offenkundig durch eine Anhebung des minimalen Hörbarkeitsschwellenwerts wegen eines Maskensignals, dessen Verwendung in dem Verbesserungsprozess zum Maskieren des Restrauschens und/oder der Signalverzerrung motiviert ist. Die am meisten angewendete Eigenschaft des menschlichen Ohrs ist das gleichzeitige Maskieren. Es bezeichnet die Tatsache, dass die Wahrnehmung eines Signals bei einer besonderen Frequenz durch das Hörsystem durch die Energie eines Störungssignals in einem kritischen Band um diese Frequenz beeinflusst wird. Außerdem ändert sich die Bandbreite eines kritischen Bands mit der Frequenz, wobei sie für Frequenzen unter 1 kHz bei etwa 100 Hz beginnt und für Frequenzen über 4 kHz bis zu 1 kHz zunimmt.
  • Vom Standpunkt der Signalverarbeitung wird die gleichzeitige Maskierung durch eine kritische Filterbank, die so genannte Bark-Filterbank, implementiert, die den Abschnitten der Sprache mit der gleichen Wahrnehmungsbedeutung das gleiche Gewicht gibt. Gemäß der Erfindung wird die Vorkenntnis über das menschliche Hörsystem verwendet, um die Eigenfilter in dem KLT-Zugang durch die Bark-Filterung zu ersetzen.
  • Um eine maximale Energiekompaktifizierung zu haben, wird die Filterung außerdem vorzugsweise im Bereich der diskreten Kosinus-Transformation (DCT-Bereich) verarbeitet. Tatsächlich übertrifft die Leistung der DCT hinsichtlich der Energiekompaktifizierung die der DFT, wobei ihre Leistung sehr nahe bei der der optimalen KLT liegt. Es ist wieder klar, dass die DFT, obgleich sie weniger optimal als die DCT ist, gleichfalls zur Ausführung dieser Filterung anwendbar ist.
  • Da die Bark-Filterung auf Energiebetrachtungen beruht, beruht diese Filterung auf dem Quadrat der DCT-Komponenten. Somit sind die Bark-Komponenten durch den folgenden Ausdruck definiert:
    Figure 00080001
    wobei b + 1 die Verarbeitungsbreite des Filters, G(j, k) das Bark-Filter, dessen Bandbreite von k abhängt, und X(k) die als:
    Figure 00080002
    definierten DCT-Komponenten sind, wobei α(0) = √1/N und α(k) = √2/N für k ≠ 0 ist. An dieser Stelle ist es wichtig anzumerken, dass durch Berechnung der Komponenten des dualen Bereichs, wie sie durch den Ausdruck (2) gegeben sind, ein dualer Bereich der Dimension m = N erhalten wird.
  • Ein entscheidender Punkt in dem vorgeschlagenen Algorithmus ist die angemessene Wahl der Dimensionen des Signal-plus-Rauschen-Unterraums (p2) und des Signalunterraums (p1). Sie erfordert die Verwendung eines Abschneidekriteriums, das für kurze Zeitreihen anwendbar ist. Es ist gezeigt worden, dass das Minimalbeschreibungslängen-Kriterium (MDL-Kriterium) unter den möglichen Auswahlkriterien besonders für kurze Zeitreihen in mehreren Bereichen eine konsistente Modellfolgenschätzfunktion ist. Diese hohe Zuverlässigkeit und Robustheit des MDL-Kriteriums bildet die primäre Motivation für seine Verwendung in dem Verfahren der vorliegenden Erfindung. Um diese Aufgabe zu lösen, wird angenommen, dass die durch den obigen Ausdruck (2) gegebenen in absteigender Folge umgeordneten Bark-Komponenten eine zutreffende Näherung der Hauptkomponenten der Sprache sind. Unter dieser Annahme wird im Fall des additiven weißen Gauß'schen Rauschens, wie es in dem oben angegebenen Vetter u. a. beschrieben ist, für die MDL der folgende Ausdruck erhalten:
    Figure 00090001
    wobei i = 1, 2, M = piN – pi 2/2 + pi/2 + 1 die Anzahl freier Parameter und λj für j = 0, ..., N – 1 die durch den Ausdruck (2) gegebenen in absteigender Folge umgeordneten Bark-Komponenten sind. Der Parameter γ bestimmt die Selektivität der MDL. Dementsprechend sind die Dimensionen p1 und p2 durch das Minimum von MDL(pi) mit γ = 64 bzw. γ = 1 gegeben. Die Wahl von γ beinhaltet, dass der Parameter p1 eine sehr sparsame Darstellung des Signals liefert, während p2 ebenfalls Komponenten mit Signal/Rausch-Verhältnissen SNRj ≈ 1 auswählt.
  • Ein wichtiges Merkmal des Verfahrens gemäß der vorliegenden Erfindung liegt in der Tatsache, dass Rahmen ohne irgendeine Sprachaktivität zu einem Nullsignalunterraum führen. Somit liefert dieses Merkmal eine sehr zuverlässige Sprach/Rausch-Erfassungseinrichtung. Diese Informationen werden in der vorliegenden Erfindung während Rahmen ohne irgendeine Sprachaktivität zum Aktualisieren des Bark-Spektrums und der Varianz des Rauschens verwendet, was schließlich eine optimale Signalvorweißung und -gewichtung sicherstellt. Insbesondere wird darauf hingewiesen, dass die Vorweißung des Signals wichtig ist, da die MDL weißes Gauß'sches Rauschen voraussetzt.
  • 4 veranschaulicht schematisch das vorgeschlagene Verbesserungsverfahren gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung. Wie veranschaulicht ist, werden die Zeitbereichskomponenten des verrauschten Signals x(t) auf einen Fensterungsprozess 200 folgend unter Verwendung der DCT in den Frequenzbereich transformiert (Schritt 210), um die mit X(k) bezeichneten Frequenzbereichskomponenten zu erzeugen. Diese Komponenten werden unter Verwendung von wie oben beschriebenen Bark-Filtern verarbeitet (Schritt 220), um die wie im Ausdruck (2) definierten Bark-Komponenten zu erzeugen. Diese Bark-Komponenten werden einem Vorweißungsprozess 230 ausgesetzt, um Komponenten zu erzeugen, die der für den nachfolgenden Unterraumauswahlprozess 240 unter Verwendung der MDL gemachten Annahme entsprechen, d. h. der Tatsache, dass die MDL ein weißes Gauß'sches Rauschen annimmt. Der Vorweißungsprozess 230 kann typisch unter Verwendung eines so genannten Weißungsfilters realisiert werden, wie es in "Statistical Digital Signal Processing and Modeling", Monson H. Hayes, Georgia Institute of Technology, John Wiley & Sons (1996), § 3.5, S. 104–106, beschrieben ist.
  • Wie bereits beschrieben wurde, führt der MDL-basierte Unterraumauswahlprozess 240 zu einer Partition der Rauschdaten in einen Rauschunterraum der Dimension N–p2, in einen Signalunterraum der Dimension p1 und in einen Signal-plus-Rauschen-Unterraum der Dimension p2–p1. Außerdem schafft dieser Prozess eine Angabe der Rahmen ohne irgendeine Sprachaktivität, da der Signalunterraum in diesem Fall null ist, d. h. p1 = p2 = 0. Somit wird in Schritt 280 eine Sprache/Rauschen-Erfassung geschaffen.
  • Das verbesserte Signal wird dadurch erhalten, dass die inverse DCT auf die Komponenten des Signalunterraums und auf die gewichteten Komponenten des Signal-plus-Rauschen-Unterraums angewendet wird (Schritte 250 und 260 in 4), worauf eine Überlappungs-/Additions-Verarbeitung folgt (Schritt 300), da anfangs in Schritt 200 eine Hanning-Fensterung ausgeführt wurde. Unter Verwendung der Definition der inversen DCT kann sie geschrieben werden als:
    Figure 00100001
    mit
    Figure 00110001
    wobei λj für j = 1, ..., N die durch den Ausdruck (2) gegebenen in absteigender Folge umgeordneten Bark-Komponenten sind, lj der Umordnungsindex ist und gj eine geeignete Gewichtungsfunktion ist.
  • Diese Gewichtungsfunktion gj kann z. B. das Ergebnis einer Bereichsmaskierung mit autoregressivem gleitendem Zeitmittelwert der Form
    Figure 00110002
    sein, wobei die nicht gefilterte Gewichtungsfunktion wie folgt gewählt worden ist: g ~j = exp{–νj/SNRj} (8)j = p1 + 1, ..., p2
    wobei SNRj für j = 0, ..., N – 1 das geschätzte lokale Signal/Rausch-Verhältnis jeder Bark-Komponente ist und der Parameter ν durch einen nichtlinearen probabilistischen Operator als Funktion des globalen Signal/Rausch-Verhältnisses SNR wie folgt eingestellt wird:
    Figure 00110003
    wobei fi = κi1 + κi2logsig{κi3 + κi4SÑR} (10)und SÑR = median(SNR(k), ..., SNR(k – lagκ)) (11)und SNR(k) das geschätzte globale logarithmische Signal/Rausch-Verhältnis ist.
  • Wieder anhand von 4 ist zu sehen, dass in den Schritten 270 bzw. 275 das globale und das lokale Signal/Rausch-Verhältnis geschätzt werden, um die oben definierte Gewichtungsfunktion einzustellen. Außerdem werden diese Schätzungen während Rahmen ohne Sprachaktivität aktualisiert (Schritt 280).
  • Um die höchste Wahrnehmungsleistung zu erhalten, kann zusätzlich das Hintergrundrauschen auf einem gewissen Niveau toleriert werden und eine Rauschkompensation (290) der Form: s ~(t) = ν4ŝ(t) + (1 – ν4)x(t) (12)mit ν4 = f4(SÑR) (13)verwendet werden, wobei f4 durch den Ausdruck (10) gegeben ist.
  • Das obige Rekonstruktionsschema enthält eine große Anzahl unbekannter Parameter, d. h.: κ = [κa, κlagb, κbl, ..., κblagb, κ11, κ12, ..., κ44]T (14)
  • Diese Parametermenge sollte optimiert werden, um die höchste Leistung zu erhalten. Hierzu werden für die Schätzung der optimalen Parametermenge vorzugsweise so genannte genetische Algorithmen (GA) angewendet.
  • Genetische Algorithmen oder GAs ziehen in letzter Zeit für die Auflösung von Optimierungsproblemen in verschiedenen Anwendungen das wachsende Interesse von der Signalverarbeitungsgesellschaft auf sich. Es kann z. B. verwiesen werden auf H. Holland, "Adaptation in natural and artificial systems", the University of Michigan Press, MI, USA (1975), K. S. Tang u. a., "Genetic algorithms and their applications", IEEE Signal Processing Magazine, Bd. 13, Nr. 6 (November 1996), S. 22–37, R. Vetter, u. a., "Observer of the human cardiac sympathetic nerve activity using blind source separation and genetic algorithm optimization", in der 19th Annual International Conference of the IEEE Engineering in Medicine and Biological Society (EMBS), Chicago (1997), S. 293–296, oder R. Vetter, "Extraction of efficient and characteristics features of multidimensional time series", Doktorarbeit, EPFL, Lausanne (1999).
  • GAs sind Suchalgorithmen, die auf den Gesetzen der natürlichen Auswahl und Evolution einer Population beruhen. Sie gehören zu einer Klasse robuster Optimierungstechniken, die keine besondere Nebenbedingung wie etwa z. B. die Stetigkeit, Differenzierbarkeit und Unimodalität des Suchraums erfordern. In diesem Sinn können die GAs herkömmlichen, auf der Differential- und Integralrechnung beruhenden Optimierungstechniken, die die gradientengerichtete Optimie rung nutzen, entgegengesetzt werden. Somit sind GAs für unklar definierte Probleme wie das Problem der Parameteroptimierung des Sprachverbesserungsverfahrens gemäß der vorliegenden Erfindung gut geeignet.
  • Die allgemeine Struktur eines GA ist in 5 veranschaulicht. Ein GA bearbeitet eine Population, die eine Menge von Chromosomen umfasst. Diese Chromosomen bilden Kandidaten für die Lösung eines Problems. Die Evolution der Chromosomen von momentanen Generationen (Eltern) zu neuen Generationen (Nachkommen) wird in einem einfachen GA durch drei Grundoperationen geleitet: Selektion, genetische Operationen und Ersatz.
  • Die Auswahl der Eltern emuliert einen Mechanismus des "Überlebens des Geeignetsten" in der Natur. Ein geeigneteres Elternteil erzeugt durch Reproduktion einen größeren Nachkommen, wobei die Chancen des Überlebens der jeweiligen Chromosomen erhöht sind. Während der Reproduktion können die Chromosomen durch Mutations- und Kreuzungsoperationen geändert werden. Die Mutation führt zufällige Änderungen in die Chromosomen ein, die in ihren Nachkommen leicht veränderte Merkmale erzeugen. Demgegenüber kombiniert die Kreuzung Unterteile von zwei Elternchromosomen und erzeugt Nachkommen, die gleiche Teile des genetischen Materials beider Eltern enthalten. Wegen des Auswahlprozesses verbessert sich die Leistung des geeignetsten Mitglieds der Population von Generation zu Generation, bis ein gewisses Optimum erreicht ist. Dennoch ist es wegen der Zufälligkeit der genetischen Operationen allgemein schwierig, das Konvergenzverhalten von GAs zu bewerten. Wie in C. Z. Janikow u. a., "An experimental comparison of binary and floating point representation in genetic algorithms", in Proceedings of the 4th International Conference on Genetic Algorithms (1991), S. 31–36, diskutiert ist, wird die Konvergenzrate eines GA insbesondere stark durch das angewendete Parametercodierungsschema beeinflusst. In klassischen GAs werden die Parameter häufig durch Binärzahlen codiert. Allerdings ist in C. Z. Janikow u. a. gezeigt worden, dass die Konvergenz von GAs durch die Gleitkommadarstellung von Chromosomen verbessert werden kann.
  • In dem vorliegenden Problem ist es das Ziel, die Parameter des vorgeschlagenen Sprachverbesserungsverfahrens zu schätzen, um die höchste Leistung zu erhalten. Somit besteht die Population aus den Chromosomen ci, i = 1, ..., L, von denen jedes eine Menge codierter Parameter κ eines Kandidatenverfahrens enthält. Der Wertebereich dieser Parameter ist wegen des Wesens des vorliegenden Problems begrenzt. Tatsächlich erlegt dies einen begrenzten Such raum auf, was eine notwendige Bedingung für die globale Konvergenz von GAs ist. In dem vorliegenden Optimierungsproblem wird die Folge zum Erzielen der Evolution der Population durch einen spezifischen GA geleitet, der besonders für kleine Populationen angepasst ist.
  • Dieser Algorithmus wurde zuerst von D. E. Goldberg in "Genetic algorithm in search, optimization and machine learning", Addison Wesley, Reading, USA (1989), eingeführt, und es ist gezeigt worden, dass er in zahlreichen Anwendungen eine hohe Leistung liefert. Der Algorithmus kann wie folgt zusammengefasst werden:
    • – Erzeuge zufällig eine Anfangspopulation P(0) = [c1 ... cL] mit L einer ungeraden ganzen Zahl;
    • – berechne die Eignung F jedes der Chromosomen in der momentanen Population;
    • – erzeuge durch Anwenden einer der folgenden Operationen neue Chromosomen:
    • – elitäre Strategie: das Chromosom mit der besten Eignung geht unverändert in die nächste Generation;
    • – Mutation: (L – 1)/2 Mutationen von dem geeignetsten Chromosom werden an die nächste Generation übergeben. Durch Addieren von Gauß'schem Rauschen mit einer Varianz σ1 zu einem zufällig gewählten Parameter des geeignetsten Chromosoms werden (L – 1)/4 Chromosomen erzeugt, wobei für die verbleibenden (L – 1)/4 Chromosomen die gleiche Operation mit der Varianz σ2 << σ1 ausgeführt wird;
    • – Kreuzung: Jedes Chromosom konkurriert mit seinem Nachbarn. Die Verlierer werden verworfen, während die Gewinner in einen Pass-Pool getan werden. Aus diesem Pool werden durch Kreuzungsoperationen (L – 1)/2 Chromosomen für die nächste Generation erzeugt;
    • – iteriere das Schema, bis Konvergenz erreicht ist.
  • Die zentralen Elemente in dem vorgeschlagenen GA sind die elitäre Überlebensstrategie, die Gauß'sche Mutation in einem begrenzten Parameterraum, die Erzeugung von zwei Unterpopulationen und die Eignungsfunktionen. Die elitäre Strategie stellt das Überleben des geeignetsten Chromosoms sicher. Dies bedeutet, dass die Parameter mit der höchsten Wahrnehmungsleistung immer ungeändert an die nächste Generation fortgepflanzt werden. Durch das vorliegende Problem wird der begrenzte Parameterraum auferlegt, der zusammen mit der Gauß'schen Mutation sicherstellt, dass die Wahrscheinlichkeit der Konvergenz der Parameter zu der optimalen Lösung für eine unendliche Anzahl von Generationen gleich eins ist. Die Konvergenzeigenschaften werden durch die Erzeugung von zwei Unterpopulationen mit verschiedenen zufälligen Einflüssen σ1, σ2 verbessert. Wegen σ2 << σ1 stellt die durch σ2 erzeugte Population eine schnelle lokale Konvergenz des GA sicher. Demgegenüber deckt die durch σ1 erzeugte Population den gesamten Parameterraum ab und ermöglicht, dass der GA aus lokalen Minima springt und zu dem globalen Minimum konvergiert.
  • Ein sehr wichtiges Element des GA ist die Eignungsfunktion F, die ein objektives Maß der Leistung der Kandidaten bildet. Im Kontext der Sprachverbesserung sollte diese Funktion die Wahrnehmungsleistung einer besonderen Parametermenge beurteilen. Somit wird der Sprachverständlichkeitsindex (SII) angewendet, wie er durch die amerikanische nationale Norm ANSI S3.5-1997 definiert ist. Schließlich wurde an einer Datenbank, die aus französischen Sätzen besteht, eine GA-Optimierung ausgeführt.
  • In Bezug auf die Leistung des Sprachverbesserungsverfahrens der vorliegenden Erfindung ist von den Autoren beobachtet worden, dass die Leistung der Unterraumzugänge die linearer und nichtlinearer subtraktiver Verfahren, die die DFT verwenden, übertrifft. Insbesondere liefern Unterraumzugänge eine beträchtliche Verringerung des so genannten "musikalischen Rauschens". Diese Beobachtung ist auf qualitative Weise durch formlose Hörtests, aber auch durch Untersuchungen der in den 6a bis 6e gezeigten Spektrogramme bestätigt worden.
  • 6a zeigt schematisch das Sprachspektrogramm des Ausgangssprachsignals, das dem französischen Satz "Un loup s'est jeté immédiatement sur la petite chèvre" entspricht. 6b zeigt schematisch das verrauschte Signal (nicht stationäres Fabrikrauschen bei einer Segmenteingabe SNR = 10 dB). 6c veranschaulicht das verbesserte Signal, das unter Verwendung einer nichtlinearen Spektralsubtraktion (NSS) unter Verwendung der DFT, wie sie in P. Lockwood, "Experiments with a Nonlinear Spectral Subtractor (NSS), Hidden Markov Models and Projection, for Robust Recognition in Cars", Speech Communications (Juni 1992), Bd. 11, S. 215–228, beschrieben ist, erhalten wurde. 6d zeigt das verbesserte Signal, das unter Verwendung des Verbesserungsschemas der vorliegenden Erfindung erhalten wurde, und 6e zeigt die durch MDL geschätzten Dimensionen p1 und p2 des Signalunterraums und des Signal-plus-Rauschen-Unterraums.
  • Die Analyse aus 6c hebt hervor, dass die NSS eine beträchtliche Menge restliches "musikalisches Rauschen" erzeugt. Demgegenüber unterstreicht 6d die hohe Leistung des vorgeschlagenen Zugangs, da er die relevanten Merkmale des Sprachsignals entnimmt und das Rauschen auf einen tolerierbaren Pegel verringert. Insbesondere bestätigt diese hohe Leistung die Effizienz und Konsistenz des MDL-basierten Unterraumverfahrens.
  • Das Verfahren gemäß der vorliegenden Erfindung schafft eine ähnliche Leistung in Bezug auf den Unterraumzugang von Ephraim u. a. oder Vetter u. a., der die KLT verwendet. Allerdings ist darauf hingewiesen worden, dass die Rechenanforderungen des Verfahrens gemäß der vorliegenden Erfindung in Bezug auf die bekannten KLT-basierten Unterraumzugänge um eine Größenordnung verringert sind.
  • Außerdem ist ein wichtiges zusätzliches Merkmal des Verfahrens gemäß der vorliegenden Erfindung, dass es sogar in sehr verrauschten Bedingungen hocheffizient und robust beim Erfassen von Sprachpausen ist. Dies kann in 6e beobachtet werden, da die Sprachunterraumdimension während Rahmen ohne irgendeine Sprachaktivität null ist.
  • Es ist klar, dass das vorgeschlagene Verbesserungsverfahren als Teil eines Verbesserungsschemas in Zwei- oder Mehrkanal-Verbesserungssystemen, d. h. in Systemen, die auf die Anwesenheit mehrerer Mikrofone beruhen, angewendet werden kann. Die Analyse und Kombination der von den mehreren Mikrofonen empfangenen Signale ermöglicht die weitere Verbesserung der Leistungen des Systems, insbesondere dadurch, dass zugelassen wird, dass räumliche Informationen genutzt werden, um die Nachhallbeseitigung und Rauschminderung zu verbessern.
  • 7 zeigt schematisch ein Zweikanal-Sprachverbesserungssystem zur Implementierung eines Sprachverbesserungsschemas gemäß einer zweiten Ausführungsform der vorliegenden Erfindung. Dieses Zweikanalsystem umfasst ähnlich dem Einkanal-Sprachverbesserungssystem aus 2 einen ersten und einen zweiten Kanal, der jeweils ein Mikrofon 10, 10' mit zugeordneten Verstärkungsmitteln 11, 11', ein mit dem Mikrofon 10, 10' verbundenes Filter 12, 12' und einen Analog/Digital-Umsetzer (ADC) 14, 14' zum Abtasten und Umsetzen des empfangenen Signals jedes Kanals in die digitale Form umfasst. Die von den ADCs 14, 14' gelieferten digitalen Signale werden an einen digitalen Signalprozessor (DSP) 16 angelegt, der so programmiert ist, dass er die Signale gemäß der im Folgenden beschriebenen zweiten Ausführungsform verarbeitet. Die am Ausgang des DSP 16 erzeugten verbesserten Signale werden wieder einem Endanwendersystem 18 zugeführt.
  • Das zu Grunde liegende Prinzip des Zweikanal-Verbesserungsverfahrens ist im Wesentlichen ähnlich dem oben beschriebenen Prinzip. Allerdings nutzt das Zweikanal-Sprachverbesserungsverfahren außerdem eine Kohärenzfunktion, die ermöglicht, die räumliche Verschiedenheit des Schallfelds auszunutzen. Im Wesentlichen ist dieses Verfahren eine Mischung des oben beschriebenen Einkanal-Unterraumzugangs und einer Zweikanal-Sprachverbesserung, die auf der räumlichen Kohärenz des verrauschten Schallfelds beruht. In Bezug auf diesen letzteren Aspekt kann Bezug genommen werden auf R. Le Bourquin "Enhancement of noisy speech signals: applications to mobile radio communications", Speech Communication (1996), Bd. 18, S. 3–19.
  • Anhand des obigen Ausdrucks (1) wird ein von einem Sprecher geäußertes Sprachsignal s(t) wegen seiner Fortpflanzung Änderungen ausgesetzt. Außerdem wird ein gewisses Rauschen hinzugefügt, so dass die zwei resultierenden Signale, die an den Mikrofonen verfügbar sind, als: x1(t) = s1(t) + n1(t) x2(t) = s2(t) + n2(t) t = 0, ..., Nt – 1 (15)geschrieben werden können.
  • Das vorliegende Prinzip beruht auf den folgenden Annahmen: (a1) Die Mikrofone sind in dem direkten Schallfeld des interessierenden Signals, (a2) während sie in dem diffusen Schallfeld der Rauschquellen sind. Wie in M. Drews, "Mikrofonarrays und mehrkanalige Signalverarbeitung zur Verbesserung gestörter Sprache", Doktorarbeit, Technische Universität, Berlin (1999), spezifiziert ist, erfordert die Annahme (a1), dass der Abstand zwischen dem interessierenden Sprecher und den Mikrofonen kleiner als der kritische Abstand ist, während (a2) erfordert, dass der Abstand zwischen den Rauschquellen und den Mikrofonen größer als der kritische Abstand ist. Für eine große Anzahl von Anwendungen ist dies eine plausible Annahme. Als ein Beispiel wird ein Raum mit mäßigem Nachhall mit einem Volumen von 125 m3 und mit einer Nachhallzeit von 0,2 Sekunden betrachtet, der einen kritischen Abstand rC = 1,4 m liefert. Folglich ist die Annahme (a1) bestätigt, falls der Sprecher näher als rC ist, während (a2) fordert, dass die Rauschquellen in einem Abstand größer als rC sind. Die Folge von (a1) ist, dass die Beiträge des interessierenden Signals s1(t) und s2(t) in dem aufgezeichneten Signal stark korreliert sind. Demgegenüber beinhaltet (a2) zusammen mit einem ausreichenden Abstand zwischen den Mikrofonen, dass die Beiträge des Rauschens n1(t) und n2(t) in dem aufgezeichneten Signal schwach korreliert sind. Da das Signal und das Rauschen in dem Zeit-Frequenz-Bereich allgemein eine ungleichförmige Verteilung haben, ist es vorteilhaft, eine Korrelationsmaßnahme in Bezug auf die Frequenz und die Zeit auszuführen. Dies führt zu dem Konzept der zeitadaptiven Kohärenzfunktion.
  • 8 veranschaulicht schematisch das vorgeschlagene Zweikanal-Sprachverbesserungsverfahren gemäß einer bevorzugten Ausführungsform der Erfindung. Die Schritte, die ähnlich den Schritten aus 4 sind, sind mit den gleichen Bezugszeichen bezeichnet und werden hier nicht noch einmal beschrieben. Wie veranschaulicht ist, werden die Zeitbereichskomponenten der verrauschten Signale x1(t) und x2(t) auf den Fensterungsprozess 200 folgend, wie bereits oben in Bezug auf das Einkanal-Sprachverbesserungsverfahren beschrieben wurde, unter Verwendung der DCT in den Frequenzbereich transformiert (Schritt 210) und im Folgenden unter Verwendung der Bark-Filterung verarbeitet (Schritt 220). Somit sind die obigen Ausdrücke (2) und (3) auf jede der DCT-Komponenten X1(k) und X2(k) ebenso anwendbar. Wie zuvor werden die Vorweißung (Schritt 230) und die Unterraumauswahl (Schritt 240) auf der Grundlage des MDL-Kriteriums (Ausdruck 4) angewendet.
  • Ähnlich wird durch Anwenden der inversen DCT auf die Komponenten des Signalunterraums und auf die gewichteten Komponenten des Signal-plus-Rauschen-Unterraums, wie sie durch die obigen Ausdrücke (5), (6) und (7) definiert sind, eine Rekonstruktion des verbesserten Signals erhalten.
  • Allerdings ist die ungefilterte Gewichtungsfunktion im Ausdruck (7) geändert und verwendet eine Kohärenzfunktion Cj (Schritt 278) sowie das lokale SNRj (Schritt 275) jeder Bark-Komponente wie folgt: g ~j = exp{–νj/(CjSNRj)} (16)j = p1 + 1, ..., p2
    wobei die Kohärenzfunktion Cj im Bark-Bereich durch:
    Figure 00180001
    mit
    Figure 00190001
    mit p, q = 1, 2 berechnet wird. Der Parameter ν im Ausdruck (16) wird durch einen nichtlinearen probabilistischen Operator als Funktion des globalen Signal/Rausch-Verhältnisses SNR eingestellt, wie es bereits oben durch die Ausdrücke (9), (10) und (11) definiert worden ist.
  • Wie zuvor kann die höchste Wahrnehmungsleistung durch zusätzliches Tolerieren von Hintergrundrauschen auf einem gegebenen Niveau und Verwendung einer in den obigen Ausdrücken (12) und (13) definierten Rauschkompensation (Schritt 290) erhalten werden.
  • Schließlich kann ein letzter Schritt im optimalen Mischen der zwei verbesserten Signale bestehen. Zum Beispiel kann eine Gewichtete-Verzögerung- und Summen-Prozedur angewendet werden, wie sie in S. Haykin, "Adaptive Filter Theory", Prentice Hall (1991), beschrieben ist, die schließlich das verbesserte Signal liefert: s ~(t) = w1ŝ1(t) + w2ŝ2(t) (19)wobei w1 und w2 so gewählt sind, dass das spätere SNR optimiert wird.
  • In Bezug auf die Leistung des Zweikanal-Sprachverbesserungsverfahrens der vorliegenden Erfindung ist von den Autoren beobachtet worden, dass die Leistung des vorgeschlagenen Zweikanal-Unterraumzugangs die klassischer Einkanal-Algorithmen wie etwa die des Einkanal-Zugangs, der auf einer nicht kausalen Wiener-Filterung beruht, die in J. R. Deller, u. a., "Discrete-Time Processing of Speech Signals", Macmillan Publishing Company, New York (1993), beschrieben ist, übersteigt. Tests haben darauf hingewiesen, dass die Aufnahme der Kohärenzfunktion die Wahrnehmungsleistung des oben dargestellten Einkanal-Unterraumzugangs verbessert.
  • Nachdem die Erfindung in Bezug auf bestimmte spezifische Ausführungsformen beschrieben worden ist, sind diese Ausführungsformen selbstverständlich nicht als Einschränkungen der Erfindung gedacht. Tatsächlich sind für den Fachmann auf dem Gebiet verschiedene Änderungen und/oder Anpassungen sichtbar, ohne von dem Umfang der beigefügten Ansprüche abzuweichen. Zum Beispiel soll das vorgeschlagene Optimierungsschema, das genetische Algorithmen verwendet, nicht als Einschränkung an den Umfang der vorliegenden Erfindung betrachtet werden. Tatsächlich ist klar, dass irgendein anderes geeignetes Optimie rungsschema angewendet werden kann, um die Parameter des vorgeschlagenen Sprachverbesserungsverfahrens zu optimieren.
  • Außerdem ist die DCT angewendet worden, um die Komponenten des dualen Bereichs zu erhalten, um eine maximale Energiekompaktifizierung zu besitzen, wobei aber die diskrete Fourier-Transformation DFT, trotzdem sie weniger optimal als die DCT ist, gleichfalls anwendbar ist.

Claims (13)

  1. Verfahren zum Verbessern von Sprache in einer verrauschten Umgebung, das die folgenden Schritte umfasst: a) Abtasten (14) eines Eingangssignals, das additives Rauschen enthält, um eine Reihe von im Zeitbereich abgetasteten Komponenten zu erzeugen; b) Unterteilen (100) der Zeitbereichskomponenten in mehrere überlappende Rahmen, wovon jeder eine Anzahl N von Abtastwerten umfasst; c) für jeden der Rahmen Anwenden einer Transformation (110) auf die N Zeitbereichskomponenten, um eine Reihe von N Frequenzbereichskomponenten X(k) zu erzeugen; d) Anwenden einer Bark-Filterung (120) auf die Frequenzbereichskomponenten X(k), um Bark-Komponenten (X(k)Bark) zu erzeugen, die durch den folgenden Ausdruck gegeben sind:
    Figure 00210001
    k = 0, ..., N – 1 wobei b + 1 die Verarbeitungsbreite des Filters ist und G(j, k) das Bark-Filter ist, dessen Bandbreite von k abhängt, wobei die Bark-Komponenten einen N-dimensionalen Raum von Rauschdaten bilden; e) Partitionieren des N-dimensionalen Raums (130) von Rauschdaten in drei verschiedene Unterräume, nämlich: – einen ersten Unterraum oder Rauschunterraum der Dimension N–p2, der im Wesentlichen Rauschbeiträge mit Signal/Rausch-Verhältnissen (SNRj < 1) enthält; – einen zweiten Unterraum oder Signalunterraum der Dimension p1, der Komponenten mit Signal/Rausch-Verhältnissen SNRj >> 1 enthält; und – einen dritten Unterraum oder Signal-plus-Rauschen-Unterraum der Dimension p2–p1, der Komponenten mit SNRj ≈ 1 enthält; und f) Rekonstruieren (150) eines verbesserten Signals durch Anwenden der inversen Transformation auf die Komponenten des Signalunterraums und gewichtete (140) Komponenten des Signal-plus-Rauschen-Unterraums.
  2. Verfahren nach Anspruch 1, bei dem die Schritte a) bis f) auf der Grundlage eines ersten und eines zweiten Eingangssignals ausgeführt werden, die von einem ersten bzw. einem zweiten Kanal bereitgestellt werden, wobei der Rekonstruktionsschritt f) unter Verwendung einer Kohärenzfunktion (Cj) ausgeführt wird, die auf Bark-Komponenten (X1(k)Bark, X2(k)Bark) des ersten bzw. des zweiten Signals basiert.
  3. Verfahren nach Anspruch 1 oder 2, bei dem der Partitionierungsschritt die Verwendung eines Minimalbeschreibungslängen-Kriteriums oder MDL-Kriteriums umfasst, um die Dimensionen p1, p2 der Unterräume zu bestimmen, wobei das MDL-Kriterium durch den folgenden Ausdruck gegeben ist:
    Figure 00220001
    wobei i = 1, 2, M = piN – pi 2/2 + pi/2 + 1 die Anzahl freier Parameter ist, λj für j = 0, ..., N – 1 die Bark-Komponenten sind, die in absteigender Folge umgeordnet sind, und γ ein Parameter ist, der die Selektivität des MDL-Kriteriums bestimmt.
  4. Verfahren nach Anspruch 3, bei dem die Dimensionen p1 und p2 durch das Minimum des MDL-Kriteriums für γ = 64 bzw. γ = 1 gegeben sind.
  5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Transformation eine diskrete Kosinustransformation (DCT) ist.
  6. Verfahren nach Anspruch 5, bei dem der Rekonstruktionsschritt f) das Anwenden der inversen diskreten Kosinustransformation auf Komponenten des Signalunterraums und auf gewichtete Komponenten des Signal-plus-Rauschen-Unterraums umfasst, wobei das verbesserte Signal durch den folgenden Ausdruck gegeben ist:
    Figure 00220002
    mit
    Figure 00220003
    wobei λj für j = 1, ..., N die Bark-Komponenten sind, die in abnehmender Folge umgeordnet sind, lj der Umordnungsindex ist und gj eine geeignete Gewichtungs funktion ist.
  7. Verfahren nach Anspruch 6, bei dem die Gewichtungsfunktion gj durch den folgenden Ausdruck gegeben ist:
    Figure 00230001
    mit g ~j = exp{–νj/SNRj}j = p1 + 1, ..., p2 wobei SNRj für j = 0, ..., N – 1 das geschätzte Signal/Rausch-Verhältnis jeder Bark-Komponente ist und der Parameter ν durch einen nichtlinearen probabilistischen Operator als Funktion des globalen Signal/Rausch-Verhältnisses SNR eingestellt wird, wobei die Parameter κa, κlagb und κbl bis κblagb so gewählt sind, dass das Sprachverbesserungsverfahren optimiert wird.
  8. Verfahren nach Anspruch 6, bei dem die Schritte a) bis f) auf der Grundlage eines ersten und eines zweiten Eingangssignals ausgeführt werden, die durch einen ersten bzw. einen zweiten Kanal bereitgestellt werden, wobei der Rekonstruktionsschritt f) unter Verwendung einer Kohärenzfunktion (Cj) ausgeführt wird, die auf Bark-Komponenten (X1(k)Bark, X2(k)Bark) des ersten bzw. des zweiten Eingangssignals basiert, wobei die Gewichtungsfunktion Gj durch den folgenden Ausdruck gegeben ist:
    Figure 00230002
    mit g ~j = exp{–νj/(CjSNRj)}j = p1 + 1, ..., p2 wobei die Kohärenzfunktion Cj in dem Bark-Bereich bewertet wird durch:
    Figure 00230003
    wobei
    Figure 00230004
    p, q = 1, 2 und wobei SNRj für j = 0, ..., N – 1 das geschätzte Signal/Rausch-Verhältnis für jede Bark-Komponente ist und der Parameter ν durch einen nichtlinearen probabi listischen Operator als Funktion des globalen Signal/Rausch-Verhältnisses SNR eingestellt wird, wobei die Parameter κa, κlagb und κbL bis κblagb so gewählt sind, dass das Sprachverbesserungsverfahren optimiert wird.
  9. Verfahren nach Anspruch 7 oder 8, bei dem der Parameter ν folgendermaßen eingestellt wird:
    Figure 00240001
    wobei fi = κi1 + κi2logsig{κi3 + κi4SÑRund SÑR = median(SNR(k), ..., SNR(k – lagκ))wobei SNR(k) das geschätzte globale logarithmische Signal/Rausch-Verhältnis ist und die Parameter κ11, κ12, ..., κ44 so gewählt sind, dass das Sprachverbesserungsverfahren optimiert wird.
  10. Verfahren nach Anspruch 9, bei dem die Parameter κa, κlagb, κbl bis κblagb und κ11, κ12, ..., κ44 mittels eines genetischen Algorithmus optimiert werden.
  11. Verfahren nach Anspruch 9 oder 10, das ferner einen Rauschkompensationsschritt der folgenden Form umfasst: s ~(t) = ν4ŝ(t) + (1 – ν4)x(t)wobei ν4 = f4(SÑR)und f4 durch den in Anspruch 9 definierten Ausdruck gegeben ist.
  12. Verfahren nach Anspruch 8, das ferner das Mischen eines ersten verbesserten Signals, das aus Komponenten rekonstruiert ist, die aus dem ersten Kanal abgeleitet sind, und eines zweiten verbesserten Signals, das aus Komponenten rekonstruiert ist, die aus dem zweiten Kanal abgeleitet sind, umfasst.
  13. System zum Verbessern von Sprache in einer verrauschten Umgebung, das umfasst: – Mittel (10, 11, 12; 10', 11', 12') zum Erfassen eines Eingangssignals, das ein Sprachsignal und ein additives Rauschen umfasst; – Mittel (14; 14') zum Abtasten und Umsetzen des Eingangssignals in eine Reihe von im Zeitbereich abgetasteten Komponenten; und – digitale Signalverarbeitungsmittel (16), die die Reihe von im Zeitbereich abgetasteten Komponenten verarbeiten und ein verbessertes Signal erzeugen, das im Wesentlichen das in dem Eingangssignal enthaltene Sprachsignal repräsentiert, dadurch gekennzeichnet, dass die digitalen Verarbeitungsmittel (16) so programmiert sind, dass sie jeden der Schritte eines Sprachverbesserungsverfahrens nach einem der vorhergehenden Ansprüche ausführen.
DE60104091T 2001-04-27 2001-04-27 Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung Expired - Fee Related DE60104091T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP01201551A EP1253581B1 (de) 2001-04-27 2001-04-27 Verfahren und Vorrichtung zur Sprachverbesserung in verrauschter Umgebung

Publications (2)

Publication Number Publication Date
DE60104091D1 DE60104091D1 (de) 2004-08-05
DE60104091T2 true DE60104091T2 (de) 2005-08-25

Family

ID=8180224

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60104091T Expired - Fee Related DE60104091T2 (de) 2001-04-27 2001-04-27 Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung

Country Status (3)

Country Link
US (1) US20030014248A1 (de)
EP (1) EP1253581B1 (de)
DE (1) DE60104091T2 (de)

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US7970147B2 (en) 2004-04-07 2011-06-28 Sony Computer Entertainment Inc. Video game controller with noise canceling logic
US7191127B2 (en) * 2002-12-23 2007-03-13 Motorola, Inc. System and method for speech enhancement
US20040213415A1 (en) * 2003-04-28 2004-10-28 Ratnam Rama Determining reverberation time
WO2004097350A2 (en) * 2003-04-28 2004-11-11 The Board Of Trustees Of The University Of Illinois Room volume and room dimension estimation
EP1509065B1 (de) * 2003-08-21 2006-04-26 Bernafon Ag Verfahren zur Verarbeitung von Audiosignalen
US20050288923A1 (en) * 2004-06-25 2005-12-29 The Hong Kong University Of Science And Technology Speech enhancement by noise masking
US20060020454A1 (en) * 2004-07-21 2006-01-26 Phonak Ag Method and system for noise suppression in inductive receivers
FR2875633A1 (fr) * 2004-09-17 2006-03-24 France Telecom Procede et dispositif d'evaluation de l'efficacite d'une fonction de reduction de bruit destinee a etre appliquee a des signaux audio
US7702505B2 (en) * 2004-12-14 2010-04-20 Electronics And Telecommunications Research Institute Channel normalization apparatus and method for robust speech recognition
DE102005008734B4 (de) * 2005-01-14 2010-04-01 Rohde & Schwarz Gmbh & Co. Kg Verfahren und System zur Detektion und/oder Beseitigung von sinusförmigen Störsignalen in einem Rauschsignal
FR2882458A1 (fr) * 2005-02-18 2006-08-25 France Telecom Procede de mesure de la gene due au bruit dans un signal audio
US20060206320A1 (en) * 2005-03-14 2006-09-14 Li Qi P Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers
DE602005015419D1 (de) 2005-04-07 2009-08-27 Suisse Electronique Microtech Verfahren und Vorrichtung zur Sprachkonversion
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8934641B2 (en) * 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US20090210222A1 (en) * 2008-02-15 2009-08-20 Microsoft Corporation Multi-Channel Hole-Filling For Audio Compression
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US9113240B2 (en) * 2008-03-18 2015-08-18 Qualcomm Incorporated Speech enhancement using multiple microphones on multiple devices
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
ES2678415T3 (es) * 2008-08-05 2018-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica
US20100262423A1 (en) * 2009-04-13 2010-10-14 Microsoft Corporation Feature compensation approach to robust speech recognition
TWI397057B (zh) * 2009-08-03 2013-05-21 Univ Nat Chiao Tung 音訊分離裝置及其操作方法
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8989403B2 (en) * 2010-03-09 2015-03-24 Mitsubishi Electric Corporation Noise suppression device
US9222816B2 (en) * 2010-05-14 2015-12-29 Belkin International, Inc. Apparatus configured to detect gas usage, method of providing same, and method of detecting gas usage
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
DK2395506T3 (da) * 2010-06-09 2012-09-10 Siemens Medical Instr Pte Ltd Fremgangsmåde og system til behandling af akustisk signal til undertrykkelse af interferens og støj i binaurale mikrofonkonfigurationer
CN101930746B (zh) * 2010-06-29 2012-05-02 上海大学 一种mp3压缩域音频自适应降噪方法
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
KR20160102815A (ko) * 2015-02-23 2016-08-31 한국전자통신연구원 잡음에 강인한 오디오 신호 처리 장치 및 방법
JP7013789B2 (ja) * 2017-10-23 2022-02-01 富士通株式会社 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
CN109036452A (zh) * 2018-09-05 2018-12-18 北京邮电大学 一种语音信息处理方法、装置、电子设备及存储介质
JP7167640B2 (ja) * 2018-11-08 2022-11-09 日本電信電話株式会社 最適化装置、最適化方法、およびプログラム
CN111145768B (zh) * 2019-12-16 2022-05-17 西安电子科技大学 基于wshrrpca算法的语音增强方法
CN111323744B (zh) * 2020-03-19 2022-12-13 哈尔滨工程大学 一种基于mdl准则的目标个数和目标角度估计方法
CN111508519B (zh) * 2020-04-03 2022-04-26 北京达佳互联信息技术有限公司 一种音频信号人声增强的方法及装置
US11740327B2 (en) * 2020-05-27 2023-08-29 Qualcomm Incorporated High resolution and computationally efficient radar techniques
CN111986693A (zh) * 2020-08-10 2020-11-24 北京小米松果电子有限公司 音频信号的处理方法及装置、终端设备和存储介质
CN114520757A (zh) * 2020-11-20 2022-05-20 富士通株式会社 非线性通信系统的性能估计装置及方法、电子设备
CN112581973B (zh) * 2020-11-27 2022-04-29 深圳大学 一种语音增强方法及系统
CN113364539B (zh) * 2021-08-09 2021-11-16 成都华日通讯技术股份有限公司 频谱监测设备中的数字信号信噪比盲估计方法
CN115273883A (zh) * 2022-09-27 2022-11-01 成都启英泰伦科技有限公司 卷积循环神经网络、语音增强方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI19992350A (fi) * 1999-10-29 2001-04-30 Nokia Mobile Phones Ltd Parannettu puheentunnistus
US6760435B1 (en) * 2000-02-08 2004-07-06 Lucent Technologies Inc. Method and apparatus for network speech enhancement

Also Published As

Publication number Publication date
EP1253581A1 (de) 2002-10-30
US20030014248A1 (en) 2003-01-16
DE60104091D1 (de) 2004-08-05
EP1253581B1 (de) 2004-06-30

Similar Documents

Publication Publication Date Title
DE60104091T2 (de) Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung
DE102017102134B4 (de) Global optimierte Nachfilterung mit der Kleinste-Quadrate-Methode für die Sprachverbesserung
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE60120949T2 (de) Eine hörprothese mit automatischer hörumgebungsklassifizierung
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE112009000805B4 (de) Rauschreduktion
DE69619284T3 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE60031354T2 (de) Geräuschunterdrückung vor der Sprachkodierung
EP2158588B1 (de) Spektralglättungsverfahren von verrauschten signalen
DE60304859T2 (de) Verfahren zur Verarbeitung von Audiosignalen
DE19747885B4 (de) Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
DE19948308C2 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE112017006486T5 (de) Online-enthallungsalgorithmus basierend auf gewichtetem vorhersagefehler für lärmbehaftete zeitvariante umgebungen
EP1386307B1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE19859174C1 (de) Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale
AT509570B1 (de) Methode und apparat zur einkanal-sprachverbesserung basierend auf einem latenzzeitreduzierten gehörmodell
DE60107072T2 (de) Robuste merkmale für die erkennung von verrauschten sprachsignalen
EP3065417B1 (de) Verfahren zur unterdrückung eines störgeräusches in einem akustischen system
DE102018117558A1 (de) Adaptives nachfiltern
You et al. Audible noise reduction in eigendomain for speech enhancement
DE102004008225B4 (de) Verfahren und Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, Verfahren und Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien
EP2543035A1 (de) Verfahren zur ermittlung von grundfrequenz-verläufen mehrerer signalquellen
DE202022106134U1 (de) Eine spektro-temporale diskriminierende, auf Zufallsfeldern basierende Sprachanhebung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee