DE102014221810A1 - Sprachpräsenzwahrscheinlichkeits-Modifizierer, der Log-MMSE-basierte Rauschunterdrückungsleistung verbessert - Google Patents

Sprachpräsenzwahrscheinlichkeits-Modifizierer, der Log-MMSE-basierte Rauschunterdrückungsleistung verbessert Download PDF

Info

Publication number
DE102014221810A1
DE102014221810A1 DE201410221810 DE102014221810A DE102014221810A1 DE 102014221810 A1 DE102014221810 A1 DE 102014221810A1 DE 201410221810 DE201410221810 DE 201410221810 DE 102014221810 A DE102014221810 A DE 102014221810A DE 102014221810 A1 DE102014221810 A1 DE 102014221810A1
Authority
DE
Germany
Prior art keywords
spp
signal
value
noise
mmse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE201410221810
Other languages
English (en)
Inventor
Guillaume Lamy
Jianming Song
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Continental Automotive Systems Inc
Original Assignee
Continental Automotive Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Continental Automotive Systems Inc filed Critical Continental Automotive Systems Inc
Publication of DE102014221810A1 publication Critical patent/DE102014221810A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Noise Elimination (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

Akustisches Rauschen in einem Audiosignal wird durch Berechnen eines Faktors einer Sprachpräsenzwahrscheinlichkeit (SPP) unter Verwendung eines minimalen mittleren quadratischen Fehlers (MMSE) verringert. Der SPP-Faktor, der einen Wert üblicherweise in einem Bereich zwischen null und eins aufweist, wird in Erwiderung auf einen Wert modifiziert oder verzerrt, der von der Evaluierung einer Sigmoidfunktion erhalten wird, deren Gestalt durch ein Signal-Rausch-Verhältnis (SNR) bestimmt wird, das durch eine Evaluierung der Signalenergie und Rauschenergie erhalten wird, die von einem Mikrofon im Laufe der Zeit ausgegeben wird.

Description

  • HINTERGRUND
  • Zahlreiche Verfahren und ein Gerät wurden zum Unterdrücken oder Entfernen eines Rauschens von informationstragenden Signalen entwickelt. Ein allgemein bekanntes Rauschunterdrückungsverfahren verwendet einen Rausch-Schätzwert, der unter Verwendung einer Berechnung eines minimalen mittleren quadratischen Fehlers oder „MMSE” (engl. minimum mean square error, MMSE) erhalten wird. Der MMSE ist in der Literatur beschrieben. Siehe beispielsweise Alan V. Oppenheim und Georg C. Verghese, „Estimation With Minimum Mean Square Error", MIT Open Course-Ware, http://ocw.mit.edu, zuletzt geändert Frühling 2010, dessen Inhalt durch Verweis in vollem Umfang hierin aufgenommen ist.
  • Zwar ist Log-MMSE eine etablierte Rauschunterdrückungsmethodik, aber im Laufe der Zeit wurden Verbesserungen an derselben vorgenommen. Eine Verbesserung ist die Verwendung der Sprachpräsenzwahrscheinlichkeit oder „SPP” als Exponent zu dem log-MMSE-Schätzer q ^, was auch als auf einer optimalen log-spektralen Amplitude basierter Schätzer oder „OLSA”-Ansatz bekannt ist, was den MMSE-Algorithmus die maximal zugelassene Abschwächungs- bzw. Dämpfungsmenge desselben effektiv erreichen lässt.
  • Die OLSA-Modifikation der Log-MMSE-Rauschschätzung leidet an zwei bekannten Problemen. Ein Problem ist, dass dieselbe das sogenannte musikalische Rauschen in Situationen mit geringem Rauschabstand bzw. Signal-Rausch-Verhältnis erhöht. Ein anderes und signifikanteres Problem ist, dass dieselbe schwache Sprache bei geräuschvollen bzw. rauschigen (noisy) Bedingungen auch zu stark unterdrückt. Eine MMSE-basierte Rauschschätzung, die die Probleme verringert oder vermeidet, deren Existenz bei der OLSA-Modifikation einer MMSE-basierten Rausch-Schätzwert-Bestimmung des Stands der Technik bekannt ist, wäre eine Verbesserung gegenüber dem Stand der Technik.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist eine grafische Darstellung einer einzelnen Wellenform, die für ein sauberes Sprachsignal repräsentativ ist;
  • 2 ist eine grafische Darstellung eines akustischen Hintergrundrauschsignals;
  • 3 ist eine grafische Darstellung, die ein rauschiges Sprachsignal, d. h. ein sauberes Sprachsignal, wie beispielsweise das, das in 1 gezeigt ist, und ein akustisches Hintergrundrauschsignal, wie beispielsweise das, das in 2 gezeigt ist, repräsentiert;
  • 4 stellt Abtastwerte des rauschigen Sprachsignals dar, das in 3 gezeigt ist;
  • 5A stellt einen ersten Rahmen bzw. Frame aus Datenabtastwerten dar, der in einer bevorzugten Ausführungsform zehn aufeinanderfolgende Abtastwerte eines rauschigen Sprachsignals aufweist;
  • 5B stellt einen zweiten Frame aus Datenabtastwerten dar, der zehn Abtastwerte aufweist, die nach den ersten zehn Abtastwerten auftreten, die in 5A gezeigt sind;
  • die 6A und 6B stellen relative Amplituden von mehreren Frequenzkomponentenbändern oder -bereichen dar, die jeweils den ersten und den zweiten Frame in dem Frequenzbereich repräsentieren;
  • 7 ist ein Blockdiagramm einer Drahtloskommunikationsvorrichtung, die konfiguriert ist, um eine verbesserte MMSE-Bestimmungseinrichtung aufzuweisen;
  • 8A ist ein Blockdiagramm einer verbesserten MMSE-Bestimmungseinrichtung;
  • 8B ist ein Blockdiagramm einer bevorzugten Implementierung einer MMSE-Bestimmungseinrichtung;
  • 9 ist eine Ablaufplan/Blockdiagramm-Darstellung des Betriebs der verbesserten MMSE-Bestimmungseinrichtung;
  • die 10A und 10B zeigen einen ersten bzw. zweiten Teil eines Ablaufplans, der Schritte eines Verfahrens zum Verzerren oder Modifizieren einer Sprachpräsenzwahrscheinlichkeit (SPP) und Entrauschen einer verzerrten SPP darstellt;
  • 11 stellt vier Sigmoidkurven dar; und
  • 12 stellt Schritte eines Verfahrens zum Bestimmen eines Signal-Rausch-Verhältnisses dar.
  • DETAILLIERTE BESCHREIBUNG
  • Rauschen wird hierin als ein unerwünschtes, nichtinformationstragendes Signal in einem Kommunikationssystem betrachtet. Weißes Rauschen oder Zufallsrauschen ist Zufallsenergie, die eine gleichmäßige Energieverteilung aufweist. Dieselbe wird zumeist durch Elektronenbewegung erzeugt, wie beispielsweise Strom durch einen Halbleiter, Widerstand oder Leiter. Schrotrauschen ist eine Art nicht zufälliges Rauschen bzw. Nicht-Zufallsrauschen (un-random noise), das erzeugt werden kann, wenn elektrischer Strom abrupt über einen Übergang oder eine Verbindung fließt. Akustisches Rauschen ist entweder ein unerwünschter oder nicht erwünschter Schall. Bei einem Kraftfahrzeug enthält akustisches Rauschen ein Windgeräusch, Reifengeräusch, Motorengeräusch und Fahrbahngeräusch, ist aber nicht darauf beschränkt.
  • Akustisches Rauschen wird durch Mikrofone schnell detektiert, die mit einem Kommunikationsgerät verwendet werden müssen. Akustisches Rauschen wird folglich zu informationstragenden Sprachsignalen „hinzugefügt”, die durch ein Mikrofon detektiert werden.
  • Das Unterdrücken von akustischem Rauschen erfordert folglich das selektive Dämpfen von Audiofrequenzsignalen, die als unerwünschte oder nicht erwünschte, nichtinformationstragende Signale bestimmt oder angesehen werden. Unglücklicherweise sind viele Arten des akustischen Rauschens nicht kontinuierlich und können schwer zu unterdrücken sein.
  • Wie hierin verwendet, bezieht sich der Begriff „bandbegrenzt” auf ein Signal, dessen spektrale Leistungsdichte null oder über einer gewissen vorbestimmten Frequenz „abgeschnitten” ist. Die vorbestimmte Frequenz für die meisten Telekommunikationssysteme, die sowohl eine Mobilfunkleitung als auch Drahtleitung enthalten, beträgt achttausend Hertz (8 KHz).
  • 1 ist eine Darstellung eines kurzen Zeitabschnittes eines einzelnen, sauberen, bandbegrenzten Audiosignals 100, wie beispielsweise Stimme oder Sprache, das im Laufe der Zeit t variiert. Zum Zwecke der Klarheit und Einfachheit wird nur eine Wellenform gezeigt, die einem Signal entspricht. Wie jemand mit gewöhnlichen technischen Fähigkeiten weiß, ist das Audiosignal 100 über kurze Zeitdauern, die in Millisekunden gemessen werden, etwas „stoßartig”. Das Signal 100 enthält folglich grundsätzlich kurze Zeitdauern 102, während welchen das Audiosignal fehlt.
  • Das in 1 dargestellte Signal 100 variiert im Laufe der Zeit hinsichtlich der Amplitude. Das Signal 100, das die Zeitabschnitte der Stille oder der Ruhe 102 enthält, ist folglich jemandem mit gewöhnlichen technischen Fähigkeiten als Signal bekannt, das in dem Zeitbereich ist.
  • 2 stellt ein paar hundert Millisekunden eines akustischen Rauschsignals 200 dar. Im Gegensatz zu dem in 1 gezeigten Audiosignal 100, wird das Rauschsignal 200 als im Wesentlichen konstant über zumindest die paar hundert Millisekunden dargestellt, die in 2 dargestellt sind. Das Rauschsignal 200 könnte jedoch über lange Zeitdauern konstant sein, was geschehen wird, wenn das Rauschsignal von einem Windgeräusch, Fahrbahngeräusch oder Ähnlichem ist.
  • Wie allgemein bekannt ist, sind bei einem Kraftfahrzeug Sprache und Rauschen üblicherweise koexistent, was so viel heißt wie, wenn ein Sprachsignal 100 und ein akustisches Rauschsignal 200 durch das gleiche Mikrofon gleichzeitig detektiert werden, was geschieht, wenn eine Person ein Mikrofon in einem Fahrzeug verwendet, während sich das Fahrzeug mit einer relativ hohen Geschwindigkeit fortbewegt, wobei ein Fenster des Fahrers offen ist, wird das Mikrofon die Sprache und das Rauschen zusammenfügen.
  • 3 ist eine vereinfachte Darstellung des Sprachsignals 100 der 1, wenn das in 2 gezeigte Rauschsignal 200 zu der Sprache hinzugefügt wird, was geschieht, wenn ein Mikrofon sowohl ein Sprachsignal 100 als auch akustisches Hintergrundsrauschen 200 umwandelt. Wie in 3 gezeigt, ist das resultierende Signal 300 ein „rauschiges” bandbegrenztes Audiosignal 300, das eine Kombination aus einem sauberen, bandbegrenzten Audiosignal 102, wie beispielsweise das Signal, das in 1 gezeigt ist, und einem akustischen Rauschsignal 104 ist, wie beispielsweise das Signal, das in 2 gezeigt ist. Das Rauschsignal 200 kann als zu dem sauberen Sprachsignal 100 „hinzugefügt” betrachtet werden. Beachten Sie auch, dass in 3 Zeitdauern einer relativen Ruhe 102 oder Sprachabwesenheit 102 mit Hintergrundrauschen 200 „gefüllt” sind. In 3 zeigt die Zeitdauer, die durch die Bezugsnummer 302 identifiziert ist, wo das in 2 gezeigte Hintergrundrauschsignal den anderenfalls ruhigen Zeitabschnitt 102 des in 1 gezeigten Signals belegt.
  • Die Sprech- bzw. Sprach- (voice) oder Audiokommunikationen, die durch die meisten Telekommunikationssysteme bereitgestellt werden, die Zellularsysteme enthalten, werden eigentlich durch die Übertragung und den Empfang digitaler Daten bereitgestellt, die zeitlich variierende oder analoge Signale repräsentieren, wie beispielsweise diese, die in den 1 und 2 gezeigt sind. Der Prozess zum Umwandeln eines analogen Signals in eine digitale Form ist allgemein bekannt und erfordert das Abtasten eines bandbegrenzten Signals mit einer Rate, die zumindest das Zweifache oder Doppelte der höchsten Frequenz beträgt, die in dem bandbegrenzten Signal vorliegt. Sobald die Abtastwerte eines analogen Signals genommen werden, werden die Abtastwerte in digitale Werte oder „Worte” umgewandelt, die die Abtastwerte repräsentieren. Die digitalen Werte, die einen Abtastwert eines analogen Signals repräsentieren, werden zu einem Zielort übertragen, an dem die digitalen Werte verwendet werden, um die Abtastwerte eines analogen Signals wiederherzustellen, von dem die ursprünglichen Abtastwerte genommen wurden. Die wiederhergestellten Abtastwerte werden dann zum Wiederherstellen des ursprünglichen analogen Signals an dem Zielort verwendet.
  • 4 stellt Abtastwerte 400 des rauschigen, bandbegrenzten Audiosignals 300 dar, das in 3 gezeigt ist. Einige der Abtastwerte 404 eines rauschigen Signals 300 werden Abtastwerte von nur dem akustischen Rauschen 200 sein, das durch ein Mikrofon „hinzugefügt” wurde. Andere Abtastwerte 403 werden ein informationstragendes Audiosignal 100 und Rauschen 200 repräsentieren.
  • Ungeachtet dessen, ob die Abtastwerte 400 ein sauberes Signal 100 und Rauschen 200 oder nur Rauschen 200 repräsentieren, werden alle Abtastwerte 400 in Binärwerte zur Übertragung zu einem Zielort umgewandelt. Wie nachstehend dargelegt, kann jedoch zumindest ein Teil des Rauschens 200, das das rauschige Signal 300 bildet, unterdrückt oder entfernt werden, wenn Komponenten des rauschigen Signals 300 aufgrund des Rauschens 200 unterdrückt werden. Es wird folglich erwünscht zu identifizieren oder zu bestimmen, ob ein Abtastwert eines rauschigen Signals tatsächlich oder zumindest wahrscheinlich ein Signal 100 oder Rauschen 200 repräsentiert.
  • Der Begriff schnelle Fourier-Transformation (FFT; englisch Fast Fourier Transform) bezieht sich auf einen Prozess, der jemandem mit gewöhnlichen Fähigkeiten in der Technik der digitalen Signalverarbeitung allgemein bekannt ist, durch den ein Zeitbereich-Signal, das digitale Signale enthält, in den Frequenzbereich umgewandelt werden kann. Mit anderen Worten liefert die FFT ein Verfahren, durch das ein Zeitbereich-Signal unter Verwendung eines Satzes einzelner Signale vieler verschiedener Frequenzen mathematisch repräsentiert wird, die, wenn miteinander kombiniert, das Zeitbereich-Signal wieder bilden oder rekonstruieren werden. Einfach formuliert ist ein Signal in dem Frequenzbereich einfach eine numerische Repräsentation verschiedener sinusförmiger Signale mit jeweils einer unterschiedlichen Frequenz, die, wenn zusammengefügt, das Zeitbereich-Signal wiederherstellen werden.
  • Jemand mit gewöhnlichen Fähigkeiten in der Technik der digitalen Signalverarbeitung weiß, dass die Handhabung und Verarbeitung von sowohl analogen als auch digitalen Signalen vorzugsweise in dem Frequenzbereich erfolgt. Jemand mit gewöhnlichen Fähigkeiten in der Technik der digitalen Signalverarbeitung weiß auch, dass Abtastwerte eines analogen Signals und digitale Repräsentationen solcher Abtastwerte unter Verwendung der FFT auch in den Frequenzbereich umgewandelt und in demselben verarbeitet werden können. Daher wird eine weitere Beschreibung der FFT-Techniken der Kürze wegen ausgelassen.
  • 5A stellt die ersten zehn aufeinanderfolgenden Abtastwerte 400 dar, die in 4 gezeigt sind und einen ersten Frame aus Abtastwerten bilden, Frame 0, der ein rauschiges Audiosignal repräsentiert, wie beispielsweise das rauschige Signal 300, das in 3 gezeigt ist. An sich enthält der Frame aus Abtastwerten, der in 5A gezeigt ist, Abtastwerte eines sauberen Signals 100, das mit Rauschen 200 kombiniert wurde.
  • 5B stellt eine zweite Gruppe zehn aufeinanderfolgender Abtastwerte 404 dar, die in 4 gezeigt sind und während des Intervalls genommen wurden, das durch die Bezugsnummer 402 identifiziert ist, und die einen zweiten Frame aus Abtastwerten, Frame 1, bilden, der nur Rauschen 200 repräsentiert.
  • Die 6A und 6B stellen relative Amplituden vieler verschiedener Frequenzen in verschiedenen Frequenzbändern B1–B8 der zehn Abtastwerte dar, die in den 5A und 5B gezeigt sind. Die in den 6A und 6B gezeigten Frequenzkomponenten repräsentieren die Ergebnisse einer Umwandlung der Frames, die in dem Zeitbereich sind, in den Frequenzbereich.
  • Verschiedene Bänder der Frequenzkomponenten B1–B8, die eine FFT der zehn Abtastwerte jedes Frames bilden, werden auf der vertikalen Achse jedes Graphen gezeigt; die relative Amplitude Amp jeder Komponente des Frequenzbands B1–B8, die bei der FFT eines Frames vorliegt, wird entlang der „x”-Achse angezeigt. Die 6A und 6B zeigen folglich, wie zehn aufeinanderfolgende Abtastwerte oder ein Frame eines Signals in dem Frequenzbereich durch die relativen Amplituden verschiedener Frequenzen repräsentiert werden können/kann. Der Ton (audio) plus Rauschen sowie das Rauschen alleine können folglich durch verschiedene Frequenzen unterschiedlicher Amplituden repräsentiert werden.
  • Jemand mit gewöhnlichen Fähigkeiten in der Technik der digitalen Signalverarbeitung weiß, dass es Verfahren gibt, durch die Zeitbereich-Frames aus Abtastwerten eines rauschigen Signals 300, wie beispielsweise die in den 5A und 5B gezeigten Frames, in den Frequenzbereich umgewandelt und in demselben digital verarbeitet werden können. Sobald die Abtastwerte in den Frequenzbereich umgewandelt werden, können die Frequenzen, die die Zeitbereich-Abtastwerte repräsentieren, die das ursprüngliche rauschige Signal 300 repräsentieren, selektiv gedämpft werden, um Frequenzkomponenten zu unterdrücken oder zu dämpfen, die als Rauschen 200 identifiziert sind oder zumindest als dasselbe angesehen werden. Mit anderen Worten können, wenn ein Frame aus Abtastwerten 402 von dem Zeitbereich in den Frequenzbereich umgewandelt wird und FFT-Repräsentationen des Frames selektiv verarbeitet werden, um zu bestimmen, ob der Frame wahrscheinlich Stimme oder Rauschen enthält, einzelne Frequenzen, die das Rauschen 200 repräsentieren, in dem Frequenzbereich derart gedämpft werden, dass beim Rekonstruieren des ursprünglichen Zeitbereich-Signals der Rauschanteil 302, der in dem ursprünglichen rauschigen Signal 300 vorliegt, verringert oder beseitigt werden wird.
  • Zur Recheneffizienz evaluieren das hierin beschriebene Gerät und Verfahren digitale Repräsentationen von Signalabtastwerten, jeweils zehn. Zehn solche Repräsentationen werden hierin als „Frame” bezeichnet. Die Verarbeitung wird vorzugsweise durch einen digitalen Signalprozessor (DSP) durchgeführt, aber kann auch durch einen angemessen programmierten Allzweckprozessor durchgeführt werden.
  • 7 ist ein vereinfachtes Blockdiagramm einer Drahtloskommunikationsvorrichtung 700. Die Vorrichtung 700 weist ein herkömmliches Mikrofon 702 auf, das Audiofrequenzsignale, die ein Sprachsignal 704 und ein akustisches Hintergrundrauschsignal 706 enthalten, in ein elektrisches analoges Signal 708 umwandelt. Das Ausgangssignal 708 von dem Mikrofon 702 ist folglich ein informationstragendes Sprachsignal 704, das mit Hintergrundrauschen 706 kombiniert ist, welches das Mikrofon 702 auch aufnahm.
  • Das von dem Mikrofon 702 ausgegebene rauschige Sprachsignal 708 wird durch einen herkömmlichen Analog-Digital-Wandler (A/D-Wandler) 712 in ein Digitalformat-Signal 714 umgewandelt. Wie allgemein bekannt ist, tastet der A/D-Wandler 712 das analoge Signal mit einer vorbestimmten Rate ab und wandelt die Abtastwerte in Binärwerte, d. h. digitale Werte, um.
  • Die digitalen Werte von dem A/D-Wandler 712, die Repräsentationen 714 der Abtastwerte des rauschigen Sprachsignals 708 sind, werden in einem herkömmlichen digitalen Bandpassfilter 716 digital gefiltert, das eine Bandbegrenzung an dem digitalen Signal 714 durchführt und folglich eine effektive Bandbegrenzung an Signalen von dem Mikrofon 702 durchführt. Digitales Filtern ist jemandem mit gewöhnlichen technischen Fähigkeiten allgemein bekannt.
  • Die bandbegrenzten digitalen Repräsentationen 718 des rauschigen Sprachsignals 708 werden durch einen herkömmlichen FFT-Wandler 720 in den Frequenzbereich 722 umgewandelt. Verschiedene Verfahren zum Berechnen einer schnellen Fourier-Transformation (FFT) sind jemandem mit gewöhnlichen Fähigkeiten in der Technik der digitalen Signalverarbeitung allgemein bekannt. Eine Beschreibung der FFT-Bestimmungen wird daher der Kürze halber ausgelassen.
  • Frequenzbereich-Signale 722 von dem FFT-Wandler 720 werden einer MMSE-Bestimmungseinrichtung 740 bereitgestellt. Die MMSE-Bestimmungseinrichtung 740 verarbeitet Frequenzbereich-Repräsentationen der Abtastwerte in Frames, d. h. jeweils zehn Abtastwerte, um zu bestimmen, ob die Frames wahrscheinlich Sprache oder Rauschen repräsentieren. Die MMSE-Bestimmungseinrichtung 740 dämpft Frames, die wahrscheinlich Rauschen sind. Frames von der MMSE-Bestimmungseinrichtung 740 werden einem herkömmlichen Wandler 750 zur inversen schnellen Fourier-Transformation (iFFT; engl. inverse Fast Fourier Transform) bereitgestellt. Derselbe rekonstruiert digitale Repräsentationen der ursprünglichen Abtastwerte minus zumindest eines Teils des Hintergrundrauschens, das durch das Mikrofon 702 aufgenommen wurde. Ein herkömmlicher Digital-Analog-Wandler (D/A-Wandler) 760 rekonstruiert das ursprüngliche rauschige Audiosignal, aber als rauschreduziertes Signal 762, das von einem herkömmlichen Sender 770 übertragen wird. Rauschunterdrückung findet folglich bei der Frequenzbereich-Verarbeitung statt, die durch die MMSE-Bestimmungseinrichtung 740 durchgeführt wird.
  • Wie unten beschrieben, liefert die digitale Signalverarbeitung in dem Frequenzbereich durch die MMSE-Bestimmungseinrichtung 740 zeitgleiche und adaptive Wahrscheinlichkeiten oder Schätzwerte bzw. Schätzungen dessen, ob (ein) von dem Mikrofon 702 kommende(s) Signal(e) Sprache oder Rauschen ist/sind. Die MMSE-Bestimmungseinrichtung 740 liefert auch Dämpfungsfaktoren, die zum selektiven Dämpfen von Komponenten jedes Teilbands verwendet werden, deren Beispiele die Teilbänder B1–B8 sind, die in den 6A und 6B dargestellt sind. Es ist daher wichtig akkurat zu schätzen, ob eine Frequenzbereich-Repräsentation eines Signals eine Repräsentation ist, die Sprache oder Rauschen repräsentiert.
  • Wie hierin verwendet, bezieht sich „Echtzeit” auf einen Betriebsmodus, in dem eine Berechnung während der tatsächlichen Zeit, zu der ein externer Prozess stattfindet, durchgeführt wird, damit die Rechenergebnisse zum Steuern oder Überwachen des externen Prozesses oder zeitnahen Ansprechen auf denselben verwendet werden können. Das Bestimmen, ob eine Frequenzbereich-Repräsentation eines Signalabtastwertes Stimme oder Rauschen repräsentierten kann, ist allgemein bekannt, aber nicht trivial, und erfordert die Durchführung zahlreicher Berechnungen in Echtzeit oder nahezu Echtzeit. Zu Zwecken der Recheneffizienz wird die Bestimmung, ob ein Abtastwert Sprache oder Rauschen enthalten oder repräsentieren kann, nicht auf einer abtastwertweisen Basis durchgeführt, sondern stattdessen an mehreren aufeinanderfolgenden Abtastwerten durchgeführt, die einen Frame bilden. Bei einer bevorzugten Ausführungsform ist die Bestimmung, ob Signale von einem Mikrofon Sprache oder Rauschen enthalten, auf Analysen von Daten basiert, die mehrere verschiedene Frequenzbänder in zehn aufeinanderfolgenden Abtastwerten repräsentieren, wobei zehn Abtastwerte hierin als Datenframe bezeichnet werden.
  • Einfach formuliert ist die MMSE-Bestimmungseinrichtung zum Analysieren von Frequenzbereich-Repräsentationen von Frames aus rauschigen Audiosignaldaten konfiguriert, um eine verbesserte Likelihood oder Wahrscheinlichkeit zu bestimmen, dass dieselben ein Signal oder Rauschen repräsentieren. Wie hierin verwendet, werden die Sprachpräsenzwahrscheinlichkeit oder SPP und das Symbol q ^ austauschbar verwendet. Die MMSE-Bestimmungseinrichtung 740 bildet folglich eine Ausschmückung eines Prozesses des Stands der Technik zum Bestimmen einer Sprachpräsenzwahrscheinlichkeit oder „SPP”, der durch Ephraim und Cohen, "Recent Advancements in Speech Processing", 17. Mai 2004, nachstehend als „Ephraim und Cohen” bezeichnet, beschrieben wurde und dessen Inhalt durch Verweis hierin aufgenommen ist. Siehe auch Y. Ephraim und D. Malah, „Speech Enhancement Using a Minimum Mean Square Error Short Time Spectral Amplitude Estimator", IEEE Trans. Acoust., Speech, Signal Processing, Band 32, S. 1109–1121, Dezember 1984; P. J. Wolfe und S. J. Godsill, "Efficient Alternatives to Ephraim and Malah Suppression Rule for Audio Signal Enhancement", EURASIP Journal on Applied Signal Processing, Band 2003, Ausgabe 10, Seiten 1043–1051, 2003; Y. Ephraim und D. Malah, "Speech Enhancement Using a Minimum Mean Square Error Log-spectral Amplitude Estimator", IEEE Trans. Acoust., Speech, Signal Processing, Band 33, Seiten 443–445, Dezember 1985, all deren Inhalte in vollem Umfang durch Verweis hierin aufgenommen sind.
  • Wie hierin verwendet, bezieht sich der Begriff Verstärkung (gain) eigentlich auf eine Dämpfung. Wie der Begriff hierin verwendet wird, ist eine Verstärkung daher negativ. Bei Ephraim und Cohen und in den Figuren hierin wird eine Verstärkung durch die Variable „G”, wie bei Gmmse, repräsentiert.
  • Die MMSE-Bestimmungseinrichtung 740 bestimmt eine SPP, die, wie oben beschrieben wurde, eine Schätzung oder Wahrscheinlichkeit ist, dass ein Frame Sprache enthält. Die MMSE-Bestimmungseinrichtung 740 bestimmt auch eine Dämpfung oder einen Verstärkungsfaktor, die/der auf die Komponenten aller verschiedener Frequenzteilbänder in jedem Frame anzuwenden ist, wie durch Ephraim und Cohen offenbart.
  • Die SPP oder q ^ und Dämpfung Gmmse, die durch die MMSE-Methodik bereitgestellt werden, die durch Ephraim und Cohen vertreten wird, werden adaptiv frameweise bestimmt. Die für einen ersten Frame bestimmte SPP wird bei der Bestimmung einer SPP für einen darauffolgenden Frame verwendet.
  • Der durch Ephraim und Cohen vertretene MMSE erfordert auch eine Schätzung eines Signal-Rausch-Verhältnisses (SNR; engl. signal-to-noise ratio). Wenn der Wert des SNR, der durch das MMSE-Verfahren von Ephraim und Cohen verwendet wird, gering wird, werden leider die resultierenden SPP- und Gmmse-Werte inkorrekt sein. Folglich wird das Rauschen und infolgedessen die durch Rauschen begleitete Stimme zunehmend zu stark unterdrückt sein. Mit anderen Worten stützt sich die MMSE-Berechnung, wie durch Ephraim und Cohen beschrieben, auf eine Schätzung eines Signal-Rausch-Verhältnisses (SNR), die üblicherweise ungenau ist.
  • Bei der bevorzugten Ausführungsform der MMSE-Bestimmungseinrichtung 740, die hierin offenbart ist, wird die unter Verwendung der Methode von Ephraim und Cohen bestimmte SPP modifiziert, nachdem dieselbe berechnet wird. Die Modifikation wird in Erwiderung auf ein extern bereitgestelltes und extern bestimmtes Signal-Rausch-Verhältnis durchgeführt, um die Überdämpfung der Sprache zu verringern oder zu beseitigen, wenn ein Signal-Rausch-Verhältnis niedrig, d. h. unter ca. 1,5:1 ist. Bei einer bevorzugten Ausführungsform und wie unten beschrieben, ist die SPP-Modifikation unter bestimmten SNR-Bedingungen nicht linear und unter anderen SNR-Bedingungen linear.
  • 8A ist ein Blockdiagramm einer verbesserten MMSE-Bestimmungseinrichtung 800 zur Verwendung in einer Kommunikationsvorrichtung, wie beispielsweise die in 7 gezeigte Vorrichtung. Die MMSE-Bestimmungseinrichtung 800 weist eine Sprachwahrscheinlichkeits-Bestimmungseinrichtung (SPP-Bestimmungseinrichtung) 802, einen Multiplizierer 804 und einen SPP-Modifizierer 806 auf.
  • Die SPP-Bestimmungseinrichtung 802 liefert eine SPP 806, wie durch Ephraim und Cohen beschrieben. Der Multiplizierer 804 modifiziert die SPP 806 durch einen SPP-Modifikationsfaktor 810, der ein Wert zwischen null und einer Zahl ist, die von dem SPP-Modifizierer 806 erhalten wird. Der Ausgang 812 des Multiplizierers 804 ist eine „verzerrte SPP”, die so genannt wird, da der Modifikationsfaktor 810, der von dem SPP-Modifizierer 806 erhalten wird, ein Wert ist, der sich nicht linear verändert.
  • Bei der bevorzugten Ausführungsform liefert der SPP-Modifizierer einen SPP-Modifikationsfaktor 810 durch Evaluieren einer nichtlinearen Funktion, vorzugsweise einer Sigmoidfunktion, deren Parameter ein extern geliefertes Signal-Rausch-Verhältnis (SNR) repräsentieren, das vorzugsweise in Echtzeit und anhand tatsächlicher Signalwerte bestimmt wird. Die verbesserte MMSE-Bestimmungseinrichtung 800 liefert folglich eine SPP, die inhärent akkurater ist als unter Verwendung von Ephraim und Cohen möglich ist, da die SPP von der MMSE-Bestimmungseinrichtung 800 in Erwiderung auf ein Echtzeit-SNR bestimmt wird.
  • Wie in 8B zu sehen ist, ist die MMSE-Bestimmungseinrichtung 800 vorzugsweise als digitaler Signalprozessor (DSP) 850 ausgeführt, der mit einer nicht-transitorischen Speichervorrichtung 860 gekoppelt ist, die ausführbare Befehle speichert. Der DSP 850 ist mit der Speichervorrichtung 860 über einen herkömmlichen Bus 870 gekoppelt. Der DSP gibt Werte der SPP und Datenframes aus, die zehn aufeinanderfolgende Stimmen-Abtastwerte repräsentieren, deren Frequenzkomponenten gedämpft werden, wie hierin beschrieben, um ein Rauschen 200 von einem rauschigen Audiosignal 300 zu verringern oder zu beseitigen.
  • Ausführbare Befehle in dem nicht-transitorischen Speicher lassen den DSP Operationen an Datenframes durchführen, wie in 9 gezeigt, die ein Blockdiagramm ist, das ein bevorzugtes Verfahren zum Verbessern einer log-MMSE basierten Rauschunterdrückung durch die Bestimmung einer SPP anhand eines Echtzeit- oder nahezu-Echtzeit-SNR darstellt, das von einer externen Quelle, d. h. nicht dem MMSE selbst, erhalten wird.
  • Nun in Bezug auf 9, die den Betrieb der MMSE-Bestimmungseinrichtung 800 darstellt, werden im Schritt 902 Abtastwerte eines rauschigen Signals, die einen „Frame” bilden und daher als von einer identischen Ereigniszeit t betrachtet werden, durch die Sprachwahrscheinlichkeits-Bestimmungseinrichtung 802 verarbeitet, um eine SPP für alle Frequenzbänder k für einen Frame zu liefern. Die im Schritt 902 gelieferte Verarbeitung liefert eine SPP oder q ^ durch Evaluieren der Gl. 3,11, die durch Ephraim und Cohen gelehrt wird, wovon eine Kopie nachstehend eingefügt ist.
  • Figure DE102014221810A1_0002
  • In Gl. 3,11 und bei der MMSE-Bestimmungseinrichtung 800 ist „k” ein Frequenzteilband, d. h., ein Bereich von Frequenzen, der durch die Evaluierung einer schnellen Fourier-Transformation bereitgestellt wird; „t” ein Datenframe, d. h., zehn oder mehr aufeinanderfolgende Frequenzbereich-Repräsentationen von Abtastwerten, die von einem rauschigen Stimmensignal genommen werden, die „zusammengefasst” werden. ξ ist eine Signal-Rausch-Verhältnis-Schätzung (SNR-Schätzung) eines ersten Frames; υ ist eine SNR-Schätzung eines darauffolgenden Frames. SPP oder q ^ wird folglich Frame für Frame adaptiv bestimmt. Siehe Ephraim und Cohen, S. 10.
  • Wie in Gl. 3,11 zu sehen ist, wird der Wert von q ^ für einen bestimmten Datenframe unter Verwendung eines zuvor bestimmten q ^, d. h., ein q ^ für einen vorherigen Frame, erhalten, der als q ^tk|t-1 bezeichnet ist. SPPs verändern sich im Laufe der Zeit in Erwiderung auf Veränderungen der Werte von ξ und υ, die von einem SNR abhängen. Die Genauigkeit der SPP wird folglich von einem SNR abhängen.
  • Die SPP oder der q ^, die/der sich aus einer Berechnung der Gl. 3,11 ergibt, ist ein Skalar, dessen Wert in einem Bereich zwischen null und eins mit null und Werten dazwischen liegt. Null gibt eine Null-Wahrscheinlichkeit an, dass ein bestimmtes Band von Frequenzen eines Datenframes Sprachdaten enthält; eins gibt eine scheinbare Gewissheit an, dass ein entsprechendes Band von Frequenzen eines Datenframes Sprache enthält.
  • Wie auch in Gl. 3,11 zu sehen ist, wird die SPP, wenn ein Signal-Rausch-Verhältnis ξ gering ist, d. h. nahezu 1:1, was geschehen wird, wenn ein Kanal rauschig ist, folglich auch gering sein. Eine geringwertige SPP bedeutet, dass ein Abtastwert wohl keine Sprache repräsentiert, was eine Dämpfung der Frequenzkomponenten eines Frames auslösen wird. Gl. 3,11 liefert folglich zumindest eine ungünstige Charakteristik des MMSE, der von Ephraim und Cohen vertreten wird, die eine unerwünschte Überdämpfung der Sprache ist, wenn sich ein SNR eins nähert. Inkorrekte SNR-Werte können eine inakzeptable Sprachdämpfung liefern.
  • Um die zu starke Unterdrückung von Sprachsignalen bei rauschigen Bedingungen zu verringern oder zu beseitigen, ist die in 8 gezeigte MMSE-Bestimmungseinrichtung 800 zum Modifizieren des Wertes von q ^, der anhand der Gl. 3,11 bestimmt wird, in Erwiderung auf den Empfang eines SNR auf einer frameweisen Basis konfiguriert. Wie in den 8 und 9 gezeigt, wird der durch die Gl. 3,11 von Ephraim und Cohen gelieferte q ^ durch „Multiplizieren” dieses Wertes von q ^ mit einer Zahl modifiziert, die durch die Evaluierung einer nichtlinearen Funktion, vorzugsweise einer Sigmoidfunktion, erhalten wird, deren Form Folgende ist:
    Figure DE102014221810A1_0003
    deren allgemeine Gestalt in 11 geliefert ist, die drei Sigmoidkurven 1102, 1104, 1106 zeigt, deren Gestalten im Wesentlichen gleich sind.
  • Im Allgemeinen weist eine Sigmoidkurve zwei Charakteristiken auf: eine Steigung oder Nichtlinearität c und einen Mittelpunkt b. Der Ausgang der Sigmoidfunktion y wird hierin als Verzerrungsfaktor (warp factor) betrachtet. Der Wert von y, der erhalten wird, wenn Werte von „x,” von dem Mittelpunkt b entfernt sind und in den nichtlinearen Bereichen 1108 der Kurven liegen, verändert oder verzerrt eine SPP nicht linear, die unter Verwendung des MMSE bestimmt wird, der unter Verwendung der Methodik von Ephraim und Cohen erhalten wird.
  • In einer Sigmoidgleichung ist „b” der Mittelpunkt der Sigmoidkurve. Bei der bevorzugten Ausführungsform der Anmelderin ist der Wert von „x” ein Signal-Rausch-Verhältnis bzw. SNR. Im Gegensatz zu dem SNR, das bei der herkömmlichen MMSE-Methodik verwendet wird, wird bei der bevorzugten Ausführungsform der Anmelderin ein SNR vorzugsweise von einer externen Quelle erhalten, wie nachstehend beschrieben. Der Mittelpunkt b wird auch durch das extern gelieferte SNR bestimmt.
  • Die Werte des Mittelpunktes b, der Sigmoidkurve, der Steigung c und von x oder SNR bestimmen den Wert von y, dessen Wert als Verzerrungsfaktor bezeichnet werden kann. Der Wert des Verzerrungsfaktors y bestimmt den Grad, zu dem die SPP, die durch die SPP-Bestimmungseinrichtung 802 bestimmt wird, verzerrt oder modifiziert wird. Für ein gegebenes SNR und eine Steigung c wird das Verändern des Mittelpunktes b die Aggressivität der Sigmoidfunktion verändern.
  • Bei einer bevorzugten Ausführungsform der Erfindung der Anmelderin tendiert das Verzerren dazu abzunehmen, wenn das Rauschen überwältigend wird, d. h., wenn das SNR gering ist. Daher wird erwünscht die Sigmoidverzerrung zu verringern, um in Situationen mit einem hohen Rauschen weniger aggressiv zu sein, um eine Sprachpräsenzwahrscheinlichkeit zu bewahren, selbst wenn dieselbe unzuverlässig sein kann. Das Modifizieren der Sigmoidverzerrung und infolgedessen der Aggressivität derselben wird durch das „Verschieben” der Sigmoidkurve nach links und rechts entlang der x-Achse vollbracht. Dabei wird sich auch der Mittelpunkt der Sigmoidkurve verschieben. Umgekehrt wird das Verschieben des Mittelpunktes einer Sigmoidkurve auch die Sigmoidkurve nach links und rechts verschieben und die Aggressivität der Sigmoidverzerrung verändern.
  • Nun in Bezug auf 11, die vier Sigmoidkurven 1102, 1104, 1106 und 1108 zeigt, erfolgt die Bestimmung eines Mittelpunktes P für eine Sigmoidkurve, die durch den SPP-Modifizierer 662 evaluiert wird, gemäß der folgenden Gleichung:
    Figure DE102014221810A1_0004
  • In der obigen Gleichung sind SNR0 und SNR1 experimentell bestimmte Konstanten, vorzugsweise ca. 2,0 (1,6 dB) bzw. 10,0 (10 dB). Warpfactor(realSNR) variiert zwischen 0,0 und 1,0. Die Bestimmung von realSNR wird nachstehend erläutert.
  • Unter Verwendung eines vorbestimmten oder erwünschten Warpfactor wird midP für die in 11 gezeigten Kurven, der auch b in einer Sigmoidfunktion ist, wie folgt berechnet: midP = Warpfactor.(midPmin – midPmax) + midPmax (Gl. 3).
  • Die Grenzen midPmax und midPmin sind experimentell bestimmte Grenzen für midP, vorzugsweise ca. 0,5 bzw. ca. 0,3. Dieselben begrenzen oder definieren den Bereich von Werten, die der Verzerrungsfaktor annehmen kann.
  • In Gl. 3 oben wird das Auswählen der Werte für midPmin, midPmax und Warpfactor den Wert des Mittelpunktes b entlang der x-Achse bewegen. Durch Bewegen des Wertes von midP nach rechts in Richtung von midPmax, wird die nichtlineare Verzerrung verringert oder minimiert, wenn das SNR gering wird. Das Bewegen des Mittelpunktes midP nach links in Richtung von midPmin erhöht die nichtlineare Verzerrung (mehr Effekt), wenn das SNR hoch wird, um Sprache bei rauschigen Bedingungen zu bewahren, während musikalisches Rauschen bei weniger rauschigen Bedingungen gesäubert bzw. gereinigt wird.
  • Die Steigung c der Sigmoidkurven kann selektiv entweder sehr aggressiv oder neutral, d. h. linear oder nahezu linear, gemacht werden. In 11 weisen die Kurven, die durch die Bezugsnummern 1102, 1104 und 1006 identifiziert sind, unterschiedliche Mittelpunkte auf, sowie Steigungen, die im Wesentlichen gleich sind. Die durch die Bezugsnummer 1108 identifizierte Kurve weist jedoch den gleichen Mittelpunkt wie die durch die Bezugsnummer 1104 identifizierte Kurve, aber eine verringerte oder weniger aggressive Steigung auf. Wenn eine Steigung einer Sigmoidkurve aggressiv ist, wie beispielsweise die durch die Bezugsnummer 1108 identifizierte Kurve, wird der Wert der SPP zwischen Rausch- und Sprachabschnitten des Spektrums des gegenwärtigen Frames diskriminativer. Wenn die Steigung der Sigmoidkurve linear oder nahezu linear ist, bleibt die SPP, die durch den MMSE berechnet wird, im Wesentlichen unverändert. Bei einer bevorzugten Ausführungsform werden die Steigung c und der Mittelpunkt durch Signal-Rausch-Verhältnisse bestimmt.
  • Eine Aufgabe oder ein Ziel beim Auswählen einer Gestalt einer Sigmoidkurve ist die SPP bei Bedingungen eines geringen SNR neutral zu machen, um so viel Sprache wie möglich zu bewahren, und die SPP diskriminativer zu machen, wenn ein SNR relativ hoch ist, d. h. eine maximale Rauschunterdrückung Gmin realisiert wird.
  • Die Sigmoidverzerrungssteigung c(Warp_factor) ist eine lineare Funktion von Warp_factor: c(Warpfactor.) = a.Warpfactor + b (Gl. 4).
  • Wie oben dargelegt, ist ein Verzerrungsfaktor jedoch eine Funktion von SNR. Die Koeffizienten „a” und „b” werden wie folgt berechnet: a = (CMIN – CMAX), b = CMIN – a (Gl. 5).
  • CMIN = 1 und CMAX = 15 werden experimentell bestimmt oder ausgewählt und definieren einen maximalen und minimalen Grad einer nichtlinearen Verzerrung.
  • Es wurde experimentell bestimmt, dass der Mittelpunkt b zwischen einem maximalen Wert bmax gleich ca. 0,8 und einem minimalen Wert bmin gleich ca. 0,3 gehalten werden sollte, um den Grad zu begrenzen, durch den die SPP 806 in Erwiderung auf ein SNR gedämpft oder verzerrt werden kann.
  • Wieder in Bezug auf 8 ist das Produkt von q ^, der unter Verwendung von Gl. 3,11 erhalten wird und durch die SPP-Bestimmungseinrichtung 802 bereitgestellt wird, und dem Wert einer Sigmoidfunktion, die oben dargelegt ist, eine verzerrte SPP. Dasselbe ist auch der Wert, der für q ^ bei der Berechnung von q ^ für den nächsten Datenframe eingesetzt wird.
  • Wie in 9 gezeigt, wird die verzerrte SPP unter Verwendung von zwei SNRs bestimmt. Mit anderen Worten aktualisieren das Verfahren und Gerät der Anmelderin die Berechnung einer SPP oder von q ^ unter Verwendung einer Sigmoidfunktion adaptiv, deren Gestalt in Erwiderung auf ein Signal-Rausch-Verhältnis gesteuert oder bestimmt wird, um eine Dämpfung der Stimme bei geringem SNR zu glätten oder zu reduzieren und die Dämpfung zu erhöhen, wenn der Wert von q ^, der von Gl. 3,11 ausgegeben wird, hoch ist.
  • Noch in Bezug auf 9 wird die Bestimmung einer SPP und einer verzerrten SPP für alle Frequenzbänder eines Frames durchgeführt. Bei der bevorzugten Ausführungsform werden, nachdem die verzerrten SPPs im Schritt 904 für alle Frequenzbänder eines Frames berechnet werden, die SPPs im Schritt 906 „entrauscht”, dessen Details in 10 gezeigt sind, die Schritte eines Verfahrens 1000 zum Entrauschen verzerrter SPPs zeigt.
  • In einem ersten Schritt 1002, der oben beschrieben ist, wird eine SPP oder q ^ durch die Evaluierung der Gl. 3,11 von Ephraim und Cohen berechnet. Nachdem ein SNR, wie hierin beschrieben, im Schritt 1004 empfangen wird, wird im Schritt 1006 ein SPP-Modifizierer bestimmt, der bei der bevorzugten Ausführungsform ein Wert ist, der durch die Evaluierung einer Sigmoidfunktion erhalten wird, deren „Gestalt” durch das im Schritt 1004 empfangene SNR bestimmt wird. Im Schritt 1008 wird die im Schritt 1002 bestimmte SPP modifiziert, um eine verzerrte SPP' oder einen verzerrten q ^ zu produzieren.
  • Nachdem verzerrte SPPs für alle Frequenzbänder bestimmt werden, die einen Datenframe bilden, wird ein Durchschnittswert der verzerrten q ^-Werte (q) im Schritt 1010 bestimmt. Nachdem der Durchschnittswert aller verzerrten q ^-Werte im Schritt 1010 bestimmt wird, wird im Schritt 1012 jede zuvor berechnete verzerrte SPP mit einem ersten minimalen verzerrten SPP-Schwellenwert TH1 verglichen, um verzerrte SPP-Werte zu identifizieren, die aberrant sein könnten. TH1 ist vorbestimmt und vorzugsweise ein Wert gleich dem Mittel- oder Durchschnittswert für alle verzerrten q ^-Werte (q), die um zwei Standardabweichungen von q erhöht werden.
  • Ein arithmetischer Vergleich erfolgt im Schritt 1014, wobei der Wert einer verzerrten SPP mit TH1 verglichen wird. Wenn bestimmt wird, dass der Wert einer verzerrten SPP größer als TH1 ist, gilt die verzerrte SPP als Aberration. In den Schritten 1016 und 1018 wird die mittlere SPP (q) für aberrante verzerrte SPP-Werte eingesetzt, um einen Satz verzerrter SPPs zu liefern, deren jeweiliger Wert die Wahrscheinlichkeit angibt, dass Sprache in einem entsprechenden Frequenzband eines entsprechenden Frames vorliegt, der von einem zeitlich variierenden Signal erhalten wird.
  • Im Schritt 1020 wird eine SNR-Schätzung für jedes Frequenzband, wie durch Ephraim und Cohen vertreten, unter Verwendung des verzerrten SPP-Wertes modifiziert. Ein revidiertes Signal-Rausch-Verhältnis SNR' wird im Schritt 1022 berechnet, dessen Ergebnis im Schritt 1024 eine erste Verstärkungsfunktion Gmmse liefert, die in Abhängigkeit von dem Frequenzbereich-Datenframe zu multiplizieren ist.
  • Ein minimaler Verstärkungsfaktor Gmin wird im Schritt 1026 bestimmt.
  • In dem letzten Schritt 1028 wird ein endgültiger bzw. letzter Verstärkungsfaktor durch Multiplizieren der ersten modifizierten Verstärkungsfunktion mit der minimalen Verstärkung bestimmt, die zu einer Potenz gleich eins minus der verzerrten SPP erhoben ist, um einen letzten Verstärkungsfaktor zu liefern, der auf das empfangene Signal angewandt wird, was so viel heißt wie, auf die Frequenzkomponente des empfangenen Signals angewandt wird.
  • Bei einer bevorzugten Ausführungsform liegt der Sprachpräsenzwahrscheinlichkeitsfaktor, der durch die Evaluierung der ersten Stufe der MMSE-Berechnung erzeugt wird, in einem Bereich zwischen einem ersten minimalen Wert gleich null und bis zu 1,0. Der SPP-Faktor wird durch einen Ausgang einer Sigmoidfunktion modifiziert, dessen Wert vorzugsweise in einem Bereich von null bis eins liegt. Bei einer alternativen Ausführungsform kann der Wert des Sprachpräsenzwahrscheinlichkeitsfaktors, der von der MMSE-Berechnung ausgegeben wird, andere Werte als null und eins sein, solange dieselben alle weniger als eins betragen. Ähnlich können die Werte, zwischen denen der SPP-Verstärkungsfaktor modifiziert wird, Werte zwischen null und eins sein, solange die Werte kleiner als eins sind.
  • Die Signal-Rausch-Verhältnisse, die zum Bestimmen der Gestalt der Sigmoidfunktion und infolgedessen der Verzerrungsfaktoren und der verzerrten SPPs verwendet werden, werden vorzugsweise unter Verwendung einer Methodik bestimmt, die in 12 graphisch dargestellt ist.
  • Bei einer bevorzugten Ausführungsform stützt sich das Bestimmen einer Signal-Rausch-Verhältnis-Schätzung an und für sich auf zwei SNR-Schätzungen und ein neues Maß der Zuverlässigkeit der Sprachpräsenzwahrscheinlichkeit. Die erste SNR-Schätzung wird hierin als „softSNR” bezeichnet. Dieselbe ist eine SNR-Schätzung, die im Laufe der Zeit sehr schnell zu 0 dB tendiert, wenn ein Audiosignal durch einen hohen Pegel von akustischem Rauschen begleitet wird, was sich in geräuschvollen Umgebungen ereignet. Ein Fahrgastraum eines Kraftfahrzeugs, das mit einer relativ hohen Geschwindigkeit mit heruntergelassenen Fenstern fährt, ist eine geräuschvolle Umgebung. Die zweite SNR-Schätzung wird hierin als „realSNR” bezeichnet, was eine ziemlich akkurate SNR-Schätzung ist, die selbst bei geräuschvollen Umgebungen dazu tendiert zuverlässig zu sein.
  • Das neue Maß der Zuverlässigkeit der Sprachpräsenzwahrscheinlichkeit wird hierin als „qRel” bezeichnet. 12 zeigt, wie diese Komponenten softSNR, realSNR und qRel miteinander agieren und zu der Bestimmung eines ziemlich genauen tatsächlichen SNR führen, das zum Bestimmen der Gestalt der Sigmoidfunktion verwendet wird, durch die die Bestimmung der SPP nach Ephraim und Cohen verzerrt wird. 12 zeigt, dass verschiedene Bestimmungen gleichzeitig oder parallel zu anderen Bestimmungen erfolgen. Mit anderen Worten ist die in 12 dargestellte Methodik nicht ganz sequenziell.
  • In den Schritten 1202 und 1204 wird eine SPP oder ein q ^ für einen ersten Datenframe unter Verwendung des Verfahrens des Stands der Technik nach Ephraim und Cohen berechnet. In den Schritten 1206 und 1208 wird eine Sigmoidfunktion der oben dargelegten Form evaluiert, der Mittelpunkt P bestimmt und ein Verzerrungsfaktor erzeugt.
  • Im Schritt 1210 wird der im Schritt 1208 erzeugte Verzerrungsfaktor modifiziert. Der Verzerrungsfaktor des Schrittes 1210 bleibt aber innerhalb oder zwischen Schwellenwerten für den Verzerrungsfaktor, der im Schritt 1212 empfangen wird. Die Schwellenwerte werden nun als solche berechnet:
    Figure DE102014221810A1_0005
    wobei qRel ein Zuverlässigkeitsfaktor der Sprachpräsenzwahrscheinlichkeit ist. qRel tendiert zu 0, wenn eine hohe Zuverlässigkeit erwartet wird, und zu 1, wenn unzuverlässig.
  • Denoise_max und Denoise_min sind experimentell bestimmte Konstanten, üblicherweise ca. 0,3 bzw. ca. 0,0, und sind maximale und minimale Werte für die SPP-Verzerrungsfaktoren. Der Denoise-Schwellenwert (zu Deutsch: Entrausch-Schwellenwert) Denoisethresh tendiert daher zu Denoise_max, wenn die SPP-Zuverlässigkeit qRel hoch ist, und zu Denoise_min, wenn die Zuverlässigkeit qRel gering ist.
  • Nach dem Einstellen der SPP im Schritt 1210, wird im Schritt 1212 eine „neu verzerrte” SPP zur Verwendung beim Berechnen einer SPP für den nächsten Datenframe ausgegeben. Im Schritt 1214 wird eine „neu verzerrte” SPP zum Berechnen eines „softSNR” und „realSNR-Verlaufs-Modifizierers” α verwendet.
  • Beim Bestimmen eines Signal-Rausch-Verhältnisses ist es nützlich einen Verlauf von Signal-Rausch-Werten über eine relativ kurze Dauer einer jüngsten Zeit zu berücksichtigen. Beim Bestimmen eines softSNR und realSNR wird ein SPP-Verlaufs-Modifizierer αhist eingesetzt. Der Wert desselben wird basierend auf dem Mittelwert und einer Standardabweichung der Sprachpräsenzwahrscheinlichkeit berechnet, die oben berechnet wurde.
  • Der Verlaufs-Modifizierer αhist wird in zwei Schritten berechnet. Der erste Schritt ist die lineare Transformation des Mittelwertes (mean) und der Standardabweichung der SPP, begrenzt zwischen zwei Werten k_1 und k_2 und dann wieder zwischen 0 und 1 expandiert, als solche:
    Figure DE102014221810A1_0006
  • In der obigen Gleichung sind k1 und k2 experimentell bestimmte Konstanten und betragen üblicherweise ca. 0,2 bzw. ca. 0,8. Das Kompandieren und Expandieren verstärkt empirisch eine Differenzierung zwischen Sprache und Rauschen und beschleunigt die SNR-Wert-Veränderungen oder SNR-„Bewegung”. Der Verlaufs-Modifizierer αhist tendiert folglich zu dem Wert von 1,0, wenn hauptsächlich Sprache vorliegt, und zu dem Wert 0,0, wenn hauptsächlich Rauschen detektiert wird.
  • Eine softSNR-Berechnung erfordert die Berechnung einer langfristigen Sprachenergie ltSpeechEnergy, die vorzugsweise für jeden Frame aktualisiert wird, und die Berechnung einer langfristigen Rauschenergie ltNoiseEnergy. Die Aktualisierungsrate basiert auf einem exponentiell abnehmenden Faktor.
  • Figure DE102014221810A1_0007
  • In den obigen Gleichungen ist „Mic” Energie in Joule, die von einem Mikrofon ausgegeben wird, das Sprache und akustisches Hintergrundrauschen detektiert. Die obigen Gleichungen repräsentieren Sprach- und Rauschenergie als eine Funktion des Mikrofonausgangs und ALPHA_LT, das eine experimentell bestimmte Konstante ist, deren Wert üblicherweise 0,93 beträgt, was einer ziemlich schnellen Adaptionsrate des Mikrofons entspricht.
  • Wenn αhist zu 1 tendiert, was geschehen wird, wenn hauptsächlich Sprache vorliegt, wird die langfristige Sprachenergie ltSpeechEnergy gemäß einem normalen exponentiell abnehmenden Faktor aktualisiert, während ltNoiseEnergie dazu tendiert den historischen Wert derselben zu halten.
  • Wenn αhist zu 0 tendiert, trifft das Gegenteil zu. Im Schritt 1218 wird ein „softSNR” anhand der langfristigen Sprachenergie und der langfristigen Rauschenergie bestimmt. Folglich wird das softSNR unter Verwendung der langfristigen Sprachenergie und langfristigen Rauschenergie bestimmt, die anhand der oben dargelegten Gl. 8 und 9 bestimmt werden. Das SNRsoft kann daher wie folgt zum Ausdruck gebracht werden: SNRsoft = ltSpeechEnergy / ltNoiseEnergy (Gl. 10)
  • Der SNR-Wert SNRsoft wird so genannt, da der Wert desselben nicht feststehend oder starr ist, was so viel heißt wie, dass derselbe kontinuierlich aktualisiert wird und dazu tendiert 0 dB zu erreichen, wenn Sprache aufgrund einer unzuverlässigen Sprachwahrscheinlichkeitsschätzung in sehr geräuschvollen Umgebungen nicht vorliegt.
  • Im Schritt 1218 wird die Größe „qRel” berechnet, die eine Schätzung der Zuverlässigkeit der Sprachpräsenzwahrscheinlichkeit ist. qRel weist ein direktes lineares Verhältnis mit dem softSNR-Wert auf, wie in der folgenden Gleichung dargelegt.
  • Figure DE102014221810A1_0008
  • Die Form der Gleichung 11 oben ist identisch zu Gl. 3, obwohl der Zweck derselben anders ist. Nach Gl. 11 tendiert der Zuverlässigkeitsfaktor qRel zu 1, wenn softSNR gering wird; wenn softSNR hoch wird, tendiert der Zuverlässigkeitsfaktor qRel zu 0.
  • Im Schritt 1220 wird ein „Entscheidungs-Flag” für ein realSNR berechnet. Das Entscheidungs-Flag, das zum Aktualisieren des realSNR verwendet wird, ist eigentlich die gleiche Variable, die als abnehmender Schwellenwert verwendet wird, der in Gl. 6 für Denoisethresh zu sehen ist. Wenn Denoisethresh kleiner als Denoisemax ist, zeigt die Zuverlässigkeit des SPP-Schätzers, dass es nicht „sicher” ist die langfristige Sprachenergie zu aktualisieren. Es ist jedoch „sicher” die Rauschenergie zu aktualisieren, da bei hohem Rauschen die Signalenergie plus Rauschenergie ungefähr gleich der Rauschenergie allein ist.
  • Schließlich wird im Schritt 1222 das realSNR berechnet. Ähnlich dem softSNR verwendet das realSNR den gleichen Verlaufs-Modifizierer auf der Exponentialkonstante desselben, aber harte Logik ist nun vorhanden, um die Aktualisierung nur bei Bedarf durchzusetzen, wie die Logikfolge in 12 zeigt, wobei die Berechnung der Sprach- und Rauschenergie diesen Gleichungen folgen:
    Figure DE102014221810A1_0009
    Figure DE102014221810A1_0010
  • Die Berechnung von αhist ist, wie in Gl. 7 oben gezeigt. „Mic” ist Mikrofonenergie. ALPHA_LTreal ist eine experimentell bestimmte Konstante, üblicherweise ca. 0,99 (langsame Adaptionsrate).
  • Das realSNR, das zum Bestimmen der Gestalt der Sigmoidfunktion verwendet wird, wird unter Verwendung der langfristigen Sprachenergie und langfristigen Rauschenergie berechnet, die unter Verwendung der Gl. 12 bzw. Gl. 13 berechnet werden. SNRreal kann folglich wie folgt zum Ausdruck gebracht werden: SNRreal = ltSpeechEng / ltNoiseEng (Gl. 14).
  • Es ist wichtig zu beachten, dass die Anfangswerte softSNR und realSNR zugewiesen werden. Beide werden anfangs auf ca. 20 dB festgelegt. Ähnlich wird die langfristige Sprachenergie ltSpeechEng anfangs auf 100 festgelegt. Die langfristige Rauschenergie ltNoiseEng wird auch auf 1,0 festgelegt.
  • Die vorangehende Beschreibung dient dem Zwecke der Veranschaulichung. Der wahre Bereich der Erfindung ist in den folgenden Ansprüchen dargelegt.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • Alan V. Oppenheim und Georg C. Verghese, „Estimation With Minimum Mean Square Error”, MIT Open Course-Ware, http://ocw.mit.edu, zuletzt geändert Frühling 2010 [0001]
    • Ephraim und Cohen, ”Recent Advancements in Speech Processing”, 17. Mai 2004 [0045]
    • Y. Ephraim und D. Malah, „Speech Enhancement Using a Minimum Mean Square Error Short Time Spectral Amplitude Estimator”, IEEE Trans. Acoust., Speech, Signal Processing, Band 32, S. 1109–1121, Dezember 1984 [0045]
    • P. J. Wolfe und S. J. Godsill, ”Efficient Alternatives to Ephraim and Malah Suppression Rule for Audio Signal Enhancement”, EURASIP Journal on Applied Signal Processing, Band 2003, Ausgabe 10, Seiten 1043–1051, 2003 [0045]
    • Y. Ephraim und D. Malah, ”Speech Enhancement Using a Minimum Mean Square Error Log-spectral Amplitude Estimator”, IEEE Trans. Acoust., Speech, Signal Processing, Band 33, Seiten 443–445, Dezember 1985 [0045]
    • Ephraim und Cohen, S. 10 [0057]

Claims (13)

  1. Verfahren zum Verringern von Rauschen in einem empfangenen Signal, wobei das Verfahren Folgendes aufweist: Berechnen eines Sprachpräsenzwahrscheinlichkeitsfaktors (SPP-Faktors) unter Verwendung einer Berechnung eines minimalen mittleren quadratischen Fehlers (MMSE), wobei der SPP-Faktor einen Wert in einem Bereich zwischen einem ersten minimalen Wert und einem zweiten maximalen Wert aufweist; Modifizieren des SPP-Faktors durch eine Funktion mit einem Ausgangswert in einem Bereich zwischen einem dritten minimalen Wert und einem vierten maximalen Wert, um eine verzerrte SPP zu liefern.
  2. Verfahren nach Anspruch 1, wobei der Schritt zum Modifizieren der SPP-Funktion die Schritte zum Multiplizieren des SPP-Faktors mit einem Wert aufweist, der durch Evaluieren einer vorbestimmten Sigmoidfunktion erhalten wird.
  3. Verfahren nach Anspruch 2, wobei die Sigmoidfunktion in Erwiderung auf eine Bestimmung eines Signal-Rausch-Verhältnisses konfiguriert ist.
  4. Verfahren nach einem der vorangehenden Ansprüche, wobei der erste und dritte minimale Wert einander gleichen.
  5. Verfahren nach einem der vorangehenden Ansprüche, wobei der zweite und vierte maximale Wert einander gleichen.
  6. Verfahren nach einem der vorangehenden Ansprüche, wobei das empfangene Signal eine Vielzahl von Frequenzbändern aufweist und wobei die Schritte zum Berechnen einer SPP und Modifizieren der SPP an jedem Frequenzband auf einer frequenzbandweisen Basis und zum Liefern einer entsprechenden Anzahl von verzerrten SPP-Werten durchgeführt werden, wobei das Verfahren ferner Folgendes aufweist: Vergleichen jedes verzerrten SPP-Wertes mit einem Schwellenwert; wobei, wenn ein verzerrter SPP-Wert mehr als der Schwellenwert beträgt, der Wert des verzerrten SPP-Wertes durch einen Mittelwert aller verzerrten SPP-Werte ersetzt wird.
  7. Verfahren nach Anspruch 6, wobei der Schwellenwert im Wesentlichen gleich einer Summe des mittleren verzerrten SPP-Wertes und zumindest einer Standardabweichung aller verzerrten SPP-Werte ist.
  8. Verfahren nach einem der vorangehenden Ansprüche, ferner mit dem folgenden Schritt: Bestimmen eines Schätzwertes des Rauschens in dem empfangenen Signal unter Verwendung des verzerrten SPP-Wertes in einer zweiten Stufe des MMSE-Rahmens; Bestimmen eines Signal-Rausch-Verhältnisses für das empfangene Signal unter Verwendung des Schätzwertes des Rauschens in dem empfangenen Signal; Bestimmen einer ersten Verstärkungsfunktion, um auf das empfangene Signal angewendet zu werden, unter Verwendung der MMSE-Berechnung/des MMSE-Rahmens und des bestimmten Signal-Rausch-Verhältnisses; Bestimmen einer minimalen Verstärkung; Erheben der ersten Verstärkungsfunktion zu einer Potenz gleich der verzerrten SPP, um eine erste modifizierte Verstärkungsfunktion zu produzieren; und Multiplizieren der ersten modifizierten Verstärkungsfunktion durch die minimale Verstärkung, die zu einer Potenz gleich eins minus der verzerrten SPP erhoben ist, um einen letzten Verstärkungsfaktor zu liefern, um auf das empfangene Signal angewendet zu werden.
  9. Gerät zum Verringern von Rauschen in einem empfangenen Signal, wobei das Gerät Folgendes aufweist: eine Sprachwahrscheinlichkeits-Bestimmungseinrichtung, die zum Berechnen einer ersten Sprachpräsenzwahrscheinlichkeit (SPP) unter Verwendung eines minimalen mittleren quadratischen Fehlers (MMSE) konfiguriert ist, wobei die SPP einen Wert in einem Bereich zwischen einem ersten minimalen Wert und einem zweiten maximalen Wert aufweist; einen SPP-Modifizierer, der zum Bereitstellen eines SPP-Modifikationsfaktors konfiguriert ist; und einen Multiplizierer, der zum Empfangen der SPP und des SPP-Modifikationsfaktors und Multiplizieren der SPP mit dem SPP-Modifikationsfaktor konfiguriert ist, wobei der Multiplizierer eine verzerrte SPP als Ausgang liefert.
  10. Gerät nach Anspruch 9 oder 10, wobei die Sprachwahrscheinlichkeits-Bestimmungseinrichtung einen digitalen Signalprozessor aufweist.
  11. Gerät nach Anspruch 9 bis 11, wobei der SPP-Modifizierer zum Bereitstellen des SPP-Modifikationsfaktors durch Evaluieren einer vorbestimmten nichtlinearen Funktion konfiguriert ist.
  12. Gerät nach Anspruch 11, wobei die vorbestimmte nichtlineare Funktion eine Sigmoidfunktion aufweist.
  13. Gerät nach Anspruch 12, wobei der SPP-Modifizierer zum Modifizieren einer Gestalt der Sigmoidfunktion in Erwiderung auf eine Bestimmung eines Signal-Rausch-Verhältnisses konfiguriert ist.
DE201410221810 2013-11-07 2014-10-27 Sprachpräsenzwahrscheinlichkeits-Modifizierer, der Log-MMSE-basierte Rauschunterdrückungsleistung verbessert Pending DE102014221810A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/074,495 2013-11-07
US14/074,495 US9449610B2 (en) 2013-11-07 2013-11-07 Speech probability presence modifier improving log-MMSE based noise suppression performance

Publications (1)

Publication Number Publication Date
DE102014221810A1 true DE102014221810A1 (de) 2015-05-07

Family

ID=50114722

Family Applications (1)

Application Number Title Priority Date Filing Date
DE201410221810 Pending DE102014221810A1 (de) 2013-11-07 2014-10-27 Sprachpräsenzwahrscheinlichkeits-Modifizierer, der Log-MMSE-basierte Rauschunterdrückungsleistung verbessert

Country Status (5)

Country Link
US (2) US9449610B2 (de)
CN (1) CN104637493B (de)
DE (1) DE102014221810A1 (de)
FR (1) FR3012929B1 (de)
GB (1) GB201322971D0 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105895084B (zh) * 2016-03-30 2019-09-17 Tcl集团股份有限公司 一种应用于语音识别的信号增益方法和装置
CN108074582B (zh) * 2016-11-10 2021-08-06 电信科学技术研究院 一种噪声抑制信噪比估计方法和用户终端
US10043531B1 (en) * 2018-02-08 2018-08-07 Omnivision Technologies, Inc. Method and audio noise suppressor using MinMax follower to estimate noise
US10043530B1 (en) 2018-02-08 2018-08-07 Omnivision Technologies, Inc. Method and audio noise suppressor using nonlinear gain smoothing for reduced musical artifacts
CN112969130A (zh) * 2020-12-31 2021-06-15 维沃移动通信有限公司 音频信号处理方法、装置和电子设备
CN115424635B (zh) * 2022-11-03 2023-02-10 南京凯盛国际工程有限公司 一种基于声音特征的水泥厂设备故障诊断方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0960417B1 (de) * 1997-12-12 2003-05-28 Koninklijke Philips Electronics N.V. Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster
US7343284B1 (en) * 2003-07-17 2008-03-11 Nortel Networks Limited Method and system for speech processing for enhancement and detection
US20050091049A1 (en) * 2003-10-28 2005-04-28 Rongzhen Yang Method and apparatus for reduction of musical noise during speech enhancement
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
JP4670483B2 (ja) * 2005-05-31 2011-04-13 日本電気株式会社 雑音抑圧の方法及び装置
DK1760696T3 (en) * 2005-09-03 2016-05-02 Gn Resound As Method and apparatus for improved estimation of non-stationary noise to highlight speech
KR100821177B1 (ko) 2006-09-29 2008-04-14 한국전자통신연구원 통계적 모델에 기반한 선험적 음성 부재 확률 추정 방법
KR20080075362A (ko) 2007-02-12 2008-08-18 인하대학교 산학협력단 잡음 환경에서 음성 신호의 추정치를 구하는 방법
WO2009035613A1 (en) 2007-09-12 2009-03-19 Dolby Laboratories Licensing Corporation Speech enhancement with noise level estimation adjustment
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
US8380497B2 (en) * 2008-10-15 2013-02-19 Qualcomm Incorporated Methods and apparatus for noise estimation
US8160271B2 (en) * 2008-10-23 2012-04-17 Continental Automotive Systems, Inc. Variable noise masking during periods of substantial silence
FR2948484B1 (fr) * 2009-07-23 2011-07-29 Parrot Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
US8571231B2 (en) * 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
CN101777349B (zh) * 2009-12-08 2012-04-11 中国科学院自动化研究所 基于听觉感知特性的信号子空间麦克风阵列语音增强方法
JPWO2012070670A1 (ja) * 2010-11-25 2014-05-19 日本電気株式会社 信号処理装置、信号処理方法、及び信号処理プログラム
KR101726737B1 (ko) * 2010-12-14 2017-04-13 삼성전자주식회사 다채널 음원 분리 장치 및 그 방법
EP2663470A4 (de) * 2011-01-12 2016-03-02 Personics Holdings Inc Automobilsystem mit konstantem signal-rausch-verhältnis für verbessertes situationsbewusstsein
US9173025B2 (en) * 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US9786275B2 (en) * 2012-03-16 2017-10-10 Yale University System and method for anomaly detection and extraction
US8484022B1 (en) * 2012-07-27 2013-07-09 Google Inc. Adaptive auto-encoders
CN104781880B (zh) 2012-09-03 2017-11-28 弗劳恩霍夫应用研究促进协会 用于提供通知的多信道语音存在概率估计的装置和方法
US9368116B2 (en) * 2012-09-07 2016-06-14 Verint Systems Ltd. Speaker separation in diarization

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Alan V. Oppenheim und Georg C. Verghese, "Estimation With Minimum Mean Square Error", MIT Open Course-Ware, http://ocw.mit.edu, zuletzt geändert Frühling 2010
Ephraim und Cohen, "Recent Advancements in Speech Processing", 17. Mai 2004
Ephraim und Cohen, S. 10
P. J. Wolfe und S. J. Godsill, "Efficient Alternatives to Ephraim and Malah Suppression Rule for Audio Signal Enhancement", EURASIP Journal on Applied Signal Processing, Band 2003, Ausgabe 10, Seiten 1043-1051, 2003
Y. Ephraim und D. Malah, "Speech Enhancement Using a Minimum Mean Square Error Log-spectral Amplitude Estimator", IEEE Trans. Acoust., Speech, Signal Processing, Band 33, Seiten 443-445, Dezember 1985
Y. Ephraim und D. Malah, "Speech Enhancement Using a Minimum Mean Square Error Short Time Spectral Amplitude Estimator", IEEE Trans. Acoust., Speech, Signal Processing, Band 32, S. 1109-1121, Dezember 1984

Also Published As

Publication number Publication date
US20170069337A1 (en) 2017-03-09
US9773509B2 (en) 2017-09-26
GB201322971D0 (en) 2014-02-12
CN104637493A (zh) 2015-05-20
US20150127331A1 (en) 2015-05-07
US9449610B2 (en) 2016-09-20
CN104637493B (zh) 2020-03-31
FR3012929B1 (fr) 2016-05-06
FR3012929A1 (fr) 2015-05-08

Similar Documents

Publication Publication Date Title
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
DE102014221810A1 (de) Sprachpräsenzwahrscheinlichkeits-Modifizierer, der Log-MMSE-basierte Rauschunterdrückungsleistung verbessert
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE112012000052B4 (de) Verfahren und Vorrichtung zum Ausblenden von Windgeräuschen
DE112009000805B4 (de) Rauschreduktion
EP0948237B1 (de) Verfahren zur Störbefreiung eines Mikrophonsignals
US9761245B2 (en) Externally estimated SNR based modifiers for internal MMSE calculations
DE102014221528B4 (de) Akkurate Vorwärts-SNR-Schätzung basierend auf MMSE-Sprachpräsenzwahrscheinlichkeit
DE102012107952A1 (de) Rauschreduzierung für Dual-Mikrofon-Kommunikationsgeräte
DE112012006876T5 (de) Formantabhaengige Sprachsignalverbesserung
DE112017007005B4 (de) Akustiksignal-verarbeitungsvorrichtung, akustiksignalverarbeitungsverfahren und freisprech-kommunikationsvorrichtung
DE102007030209A1 (de) Glättungsverfahren
AT509570B1 (de) Methode und apparat zur einkanal-sprachverbesserung basierend auf einem latenzzeitreduzierten gehörmodell
EP3089481B1 (de) Verfahren zur frequenzabhängigen rauschunterdrückung eines eingangssignals
DE102013011761A1 (de) Kraftfahrzeug mit einer Freisprecheinrichtung und Verfahren zur Erzeugung eines Frequenzganges für Freisprecheinrichtungen
EP2080197B1 (de) Vorrichtung zur geräuschunterdrückung bei einem audiosignal
EP3065417B1 (de) Verfahren zur unterdrückung eines störgeräusches in einem akustischen system
DE10157535B4 (de) Verfahren und Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen
DE102014221765A1 (de) Auf extern bestimmtem SNR basierte Modifizierer für interne MMSE-Berechnungen
DE102019102414B4 (de) Verfahren und System zur Detektion von Reibelauten in Sprachsignalen
DE10137348A1 (de) Verfahren und Schaltungsanordnung zur Geräuschreduktion bei der Sprachübertragung in Kommunikationssystemen
DE102018117558A1 (de) Adaptives nachfiltern
DE102018131687B4 (de) Verfahren und vorrichtungen zur reduzierung von ploppgeräuschen
DE102018117556A1 (de) Einzelkanal-rauschreduzierung
KR101958006B1 (ko) 음성 향상 장치 및 방법, 기록 매체

Legal Events

Date Code Title Description
R082 Change of representative

Representative=s name: BONN, ROMAN, DIPL.-ING. DR.-ING., DE

R012 Request for examination validly filed