DE112017004548B4 - Verfahren und Vorrichtung zur robusten Geräuschschätzung für eine Sprachverbesserung in variablen Geräuschbedingungen - Google Patents

Verfahren und Vorrichtung zur robusten Geräuschschätzung für eine Sprachverbesserung in variablen Geräuschbedingungen Download PDF

Info

Publication number
DE112017004548B4
DE112017004548B4 DE112017004548.7T DE112017004548T DE112017004548B4 DE 112017004548 B4 DE112017004548 B4 DE 112017004548B4 DE 112017004548 T DE112017004548 T DE 112017004548T DE 112017004548 B4 DE112017004548 B4 DE 112017004548B4
Authority
DE
Germany
Prior art keywords
noise
speech
lpc
signal
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE112017004548.7T
Other languages
English (en)
Other versions
DE112017004548T5 (de
Inventor
Jianming Song
Bijal Joshi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Continental Automotive Systems Inc
Original Assignee
Continental Automotive Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Continental Automotive Systems Inc filed Critical Continental Automotive Systems Inc
Publication of DE112017004548T5 publication Critical patent/DE112017004548T5/de
Application granted granted Critical
Publication of DE112017004548B4 publication Critical patent/DE112017004548B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Abstract

Verfahren für das Entfernen eingebetteter akustischer Geräusche und für das Verbessern von Sprache durch Identifizieren und Schätzen von Geräuschen in variablen Geräuschbedingungen, wobei das Verfahren Folgendes aufweist:das Verwenden eines Sprach-/Geräuschklassifizierers, um mehrere lineareVorhersagekodierungs-Koeffizientensätze, die einen ankommenden Signal-Frame mit einer LPC höherer Ordnung und einer LPC niedrigerer Ordnung modellieren, zu erzeugen;das Verwenden des Sprach-/Geräuschklassifizierers, um einen logarithmischen Spektralabstand zwischen der LPC höherer Ordnung und niedrigerer Ordnung, die aus dem Signal-Frame resultieren, zu berechnen, wobei der logarithmische Spektralabstand durch zwei Cepstral-Koeffizientensätze berechnet wird, die aus den LPC-Koeffizientensätzen höherer und niedrigerer Ordnung abgeleitet werden;das Verwenden eines Sprach-/Geräuschklassifizierers, um den Abstand und seinen Kurzzeit-Bewegungsablauf gegen einen Satz von Schwellenwerten zu vergleichen, um zu bestimmen, ob der Signal-Frame Sprache oder Geräusche ist, wobei die für den Sprach-/Geräuschklassifizierer verwendeten Schwellenwerte basierend auf Klassifizierungsstatistiken und/oder in Abstimmung mit anderen Sprachaktivitätserkennungsverfahren aktualisiert werden;das Erzeugen mehrerer linearer Vorhersagekodierungs (LPC) -Koeffizientensätze als online erzeugte Geräuschmodelle während der Laufzeit, wobei jeder Satz von LPC-Koeffizienten entsprechende Geräusche darstellt, wobei die Geräuschmodelle unter Bedingungen erzeugt und aktualisiert werden, unter denen der aktuelle Signal-Frame durch eine Wahrscheinlichkeit der Anwesenheit von Sprache und/oder den LPC-Sprach-/Geräuschklassifizierer als Geräusche klassifiziert wird;das Verwenden eines separaten, aber parallelen Sprach-/Geräuschklassifizierers basierend auf dem Beurteilen des Abstands der LPC-Koeffizienten des Eingangssignals gegen die durch LPC-Koeffizientensätze dargestellten Geräuschmodelle;wenn der beurteilte Abstand unter einem Schwellenwert ist, wird das Signal als Geräusche klassifiziert, andernfalls wird das Signal als Sprache klassifiziert;das Verwenden eines Geräuschunterdrückungsverfahrens durch Verwenden der Wahrscheinlichkeit der Anwesenheit von Sprache, um Geräuschbeseitigung durchzuführen, wenn Umgebungsgeräusche stationär sind;das Verwenden eines zweiten Geräuschunterdrückers, der eine LPC-basierte Geräusch-/Sprachklassifizierung aufweist, um die Geräuschschätzung und Geräuschdämpfung zu erweitern, wenn Umgebungsgeräusche transient oder nicht stationär sind;wobei die Geräuschschätzung durch den zweiten Geräuschunterdrücker die Wahrscheinlichkeit der Anwesenheit von Sprache berücksichtigt und die Geräusch-PSD in dem Frequenzbereich entsprechend überall dort anpasst, wo die herkömmliche Geräuschschätzung unzureichend ist; unddas Verwenden der neu berechneten Geräusch-PSD von der erweiterten Geräuschklassifizierung/-Schätzung, um einen verfeinerten Satz von Geräuschunterdrückungsverstärkungen in dem Frequenzbereich zu erzeugen.

Description

  • Hintergrund
  • Sprachverbesserungssysteme in einem Kraftfahrzeug müssen selbstverständlich mit Bedingungen eines niedrigen Signal-Geräusch-Verhältnisses (signal-to-noise ratio - SNR) kämpfen, aber sie müssen auch mit verschiedenen Arten von Geräuschen kämpfen, von denen einige als transient oder „nicht stationär“ betrachtet werden. Wie hierin verwendet, beinhalten nicht stationäre Fahrzeuggeräusche transiente Geräusche aufgrund von Fahrzeugbeschleunigung, Verkehrsgeräuschen, Straßenunebenheiten und Windgeräuschen, sind jedoch nicht darauf beschränkt.
  • Gewöhnliche Fachleute wissen, dass Sprachverbesserungsverfahren nach herkömmlichem Stand der Technik „retrospektiv“ sind, sie verlassen sich auf die Erkennung und Analyse von Geräuschsignalen, die bereits aufgetreten sind, um Geräusche, die vorhanden sind oder von denen erwartet wird, dass sie in der Zukunft auftreten, das heißt Geräusche, die noch nicht geschehen sind, zu unterdrücken. Geräuschunterdrückungsverfahren nach Stand der Technik nehmen somit an, dass Geräusche stabil oder „stationär“ oder mindestens pseudo-stationär sind, das heißt, die Geräusch-Leistungsspektrumsdichte (power spectrum density - PSD) ist stabil und wird deshalb über eine langsame zeitliche Glättung der erkannten Geräusche nahe approximiert oder geschätzt.
  • Die Anmeldung US 2016/0155457A1 beschreibt ein Verfahren zum Glätten von stationärem Hintergrundrauschen in einer Telekommunikationssprachsitzung, wobei das Verfahren das adaptive Glätten einer Hintergrundrauschkomponente auf der Grundlage des bereitgestellten Verrauschtheitsmaßes umfasst.
  • Die deutsche Druckschrift DE 69433254T2 beschreibt eine Vorrichtung zur Sprachdetektion, um unter Geräuschbedingungen in einer realistischen Umgebung, welche Sprache mit verschiedenen stationären und/oder nicht-stationären Geräuschen enthält, zu entscheiden, ob ein Eingangsignal Sprache oder Nichtsprache ist.
  • Wenn Hintergrundgeräusche plötzlich und unerwartet auftreten, wie dies geschieht, wenn ein Fahrzeug zum Beispiel auf eine Straßenoberflächenunvollkommenheit auftrifft, können herkömmliche Geräuscherkennungs-/-Schätzverfahren nach Stand der Technik die Geräusche nicht schnell von Sprache unterscheiden, sondern erfordern stattdessen signifikante Mengen zukünftiger Abtastwerte, die noch nicht geschehen sind. Traditionelle Sprachverbesserungstechniken sind deshalb naturgemäß unzureichend, um sogenannte nicht stationäre Geräusche zu unterdrücken. Ein Verfahren und eine Vorrichtung für das Erkennen und Unterdrücken solcher Geräusche wäre eine Verbesserung gegenüber dem Stand der Technik.
  • Kurzfassung
  • Kurz gesagt, Elemente eines Verfahrens und einer Vorrichtung, um transiente, nicht stationäre Geräusche in einem Audiosignal schnell zu erkennen und zu unterdrücken, werden hierin dargelegt. Die Verfahrensschritte werden auf der Frequenzebene ausgeführt.
  • Als ein erster Schritt wird ein Geräuschmodell erzeugt, das auf einer Analyse der linearen Vorhersagekodierung (linear predictive coding - LPC) eines geräuschvollen Audiosignals basiert.
  • Ein Sprachaktivitätserkenner (voice activity detector - VAD) wird für jede analysierte Frequenz von einer Wahrscheinlichkeit der Anwesenheit von Sprache (speech presence probability - SPP) abgeleitet. Als ein zweiter Schritt wird das in dem ersten Schritt erzeugte Geräuschmodell bei der Frame-Rate des Audiosignals aktualisiert, falls die Sprachaktivitätserkennung (Voice Activity Detection - VAD) dies ermöglicht.
  • Es sei darauf hingewiesen, dass die „Reihenfolge“ der LPC-Analyse vorzugsweise eine große Anzahl (zum Beispiel 10 oder höher) ist, was hierin als „erforderlich“ für Sprache angesehen wird. Geräuschkomponenten werden andererseits mit einem viel niedrigeren LPC-Modell (zum Beispiel 4 oder niedriger) ebenso gut dargestellt. Mit anderen Worten, der Unterschied zwischen LPC höherer Ordnung und LPC niedrigerer Ordnung ist für Sprache signifikant, aber für Geräusche ist das nicht der Fall. Diese Unterscheidung stellt einen Mechanismus für die verzögerungsfreie Trennung von Geräuschen von Sprache bereit, unabhängig von dem in dem Signal dargestellten Energielevel.
  • Als ein dritter Schritt wird eine Ähnlichkeitsmetrik (oder Di-Ähnlichkeit) zwischen LPC-Koeffizienten höherer und niedrigerer Ordnung bei jedem Frame berechnet. Nachdem die Metrik berechnet wurde, wird eine zweite Metrik der „Anpassungsgüte“ der Parameter höherer Ordnung zwischen dem Online-Geräuschmodell und den LPC-Koeffizienten bei jedem Frame berechnet.
  • Ein „Frame“ eines geräuschvollen Audiofrequenzsignals wird als Geräusche klassifiziert, wenn die zwei oben beschriebenen Metriken beide geringer als ihre einzelnen vorberechneten Schwellenwerte sind. Diese in der Entscheidungslogik verwendeten Schwellenwerte werden als Teil des Geräuschmodells berechnet.
  • Wenn ein Geräuschklassifizierer den aktuellen Frame des Signals als Geräusche identifiziert, wird die Geräusch-PSD (power spectral density), das heißt, die Geräuschschätzung, berechnet oder verfeinert, falls auch eine separate Geräuschschätzung basierend auf anderen Sprach-/Geräuschklassifizierungsverfahren (zum Beispiel Sprachaktivitätserkennung (VAD) oder Wahrscheinlichkeit der Anwesenheit von Sprache) existiert.
  • Der Geräuschklassifizierer und das Geräuschmodell werden „on-the-fly“ erzeugt und benötigen kein „Offline“-Training.
  • Die Berechnung der verfeinerten Geräusch-PSD basiert auf der Wahrscheinlichkeit der Anwesenheit von Sprache. Ein Mechanismus ist so eingebaut, dass die Geräusch-PSD nicht überschätzt wird, falls das herkömmliche Verfahren dies bereits getan hat (zum Beispiel in stationärer Geräuschbedingung). Die Wahrscheinlichkeit von Sprache bestimmt, um wieviel die Geräusch-PSD bei jedem Frame verfeinert werden soll.
  • Die verfeinerte Geräusch-PSD wird für die SNR-Neuberechnung verwendet (SNR der 2. Stufe).
  • Die Geräuschunterdrückungsverstärkungsfunktion wird ebenfalls neu berechnet (Verstärkung der 2. Stufe), basierend auf der verfeinerten Geräusch-PSD und dem SNR.
  • Schließlich wird die verfeinerte Verstärkungsfunktion (NS der 2. Stufe) auf die Geräuschunterdrückungsoperation angewendet.
  • Figurenliste
    • 1 ist ein Blockdiagramm eines Geräuschschätzers und -Unterdrückers nach dem Stand der Technik.
    • 2 ist ein Blockdiagramm eines verbesserten Geräuschschätzers, der dazu ausgebildet ist, nicht stationäre Geräusche, wie zum Beispiel durch plötzliche Beschleunigung, Fahrzeugverkehr oder Straßenunebenheiten verursachte transiente Geräusche, zu erkennen und zu unterdrücken.
    • 3 ist ein Flussdiagramm, das Schritte eines Verfahrens für das Verbessern von Sprache durch Schätzen nicht stationärer Geräusche in variablen Geräuschbedingungen darstellt.
    • 4 ist ein Blockdiagramm einer Vorrichtung für das schnelle Schätzen nicht stationärer Geräusche in variablen Geräuschbedingungen.
    • 5 stellt Spektren dar, die von einem höheren und niedrigeren LPC-Modellen, zusammen mit dem detaillierten Signalspektrum selbst, für eine weibliche Stimme umgewandelt wurden.
    • 6 stellt Spektren dar, die von einem höheren und niedrigeren LPC-Modellen, zusammen mit dem detaillierten Signalspektrum selbst, für eine männliche Stimme umgewandelt wurden.
    • 7 stellt Spektren dar, die von einem höheren und niedrigeren LPC-Modellen, zusammen mit dem detaillierten Signalspektrum selbst, für Fahrzeuggeräusche (zum Beispiel Motorgeräusche, Straßengeräusche von Reifen und dergleichen) umgewandelt wurden.
    • 8 stellt Spektren dar, die von einem höheren und niedrigeren LPC-Modellen, zusammen mit dem detaillierten Signalspektrum selbst, für Windgeräusche umgewandelt wurden.
    • 9 stellt Ergebnisse dar, die von einem energieunabhängigen Sprachaktivitätserkenner erzeugt wurden, gemäß Ausführungsformen der Erfindung.
    • 10 ist ein schematisches Diagramm eines Geräuschunterdrückungssystems, das einen Sprachaktivitätserkenner mit linearer Vorhersagekodierung beinhaltet, gemäß Ausführungsformen der Erfindung.
  • Detaillierte Beschreibung
  • Wie hierin verwendet, bezieht sich der Begriff „Geräusche“ auf Signale, einschließlich elektrischer und akustischer Signale, die mehrere Frequenzen umfassen und die zufällige Änderungen in den Frequenzen oder Amplituden dieser Frequenzen beinhalten. Gemäß dem I.E.E.E. Standards Dictionary, Copyright 2009 von I.E.E.E., ist eine der Definitionen von „Geräuschen“, dass sie „unerwünschte elektrische Signale, die unerwünschte Wirkungen in den Schaltkreisen eines Steuersystems erzeugen, in dem sie auftreten“ aufweisen. Für ein Freisprech-Sprachkommunikationssystem in dem Fahrzeug werden akustische Geräusche durch Motor, Reifen, Straßen, Wind und Verkehr in der Nähe erzeugt.
  • 1 stellt ein Blockdiagramm von Geräuschschätzer 100 nach dem Stand der Technik dar. Geräuschvolles Signal 102, das Sprache und Geräusche umfasst, wird schnellem Fourier-Transformationsprozessor 104 (FFT 104) bereitgestellt. Ausgang 106 des FFT-Prozessors 104 wird herkömmlichem Signal-Geräusch-Verhältnis (SNR) -Schätzer 108 und Geräuschschätzer 110 bereitgestellt. Der Ausgang 106 wird in Dämpfungsfaktor (Unterdrückungsverstärkung) 118 umgewandelt.
  • Der Signal-Geräusch-Verhältnis (SNR) -Schätzer 108 wird Schätzung des Geräuschinhalts 112 des geräuschvollen Signals 102 bereitgestellt. Der Schätzer 108 stellt auch Signal-Geräusch-Verhältnisschätzwert 114 an Geräuschverstärker/-Dämpfer 116 bereit.
  • Der SNR-Schätzer 108, der Geräuschschätzer 110 und der Dämpfer 116 stellen Dämpfungsfaktor 118 für Multiplikator 113 bereit, der Kopien der FFT des geräuschvollen Audiosignals 102 empfängt. Produkt 120 des Dämpfungsfaktors 118 und der FFT 106 sind im Wesentlichen eine Kopie des geräuschunterdrückten Frequenzbereichs des geräuschvollen Signals 102.
  • Inverse Fourier-Transformation (IFFT) 122 wird an Ausgang 124, der eine geräuschunterdrückte „Translation“ in der Zeitebene des in den Geräuschschätzer 100 eingegebenen geräuschvollen Signals 102 ist, ausgeführt. „Geräuschfreies“ Signal 126 wird in Bezug auf Geräuschpegel und Sprachklarheit verbessert. In das Signal 126 können immer noch nicht stationäre Geräuschkomponenten eingebettet sein, da der Geräuschschätzer 100 nicht in der Lage ist, schnell auf transiente oder schnell auftretende Geräuschsignale zu reagieren.
  • 2 ist ein Blockdiagramm von verbessertem Geräuschschätzer 200. Der in 2 gezeigte Geräuschschätzer 200 ist im Wesentlichen der gleiche wie der in 1 gezeigte Geräuschschätzer, außer der Hinzufügung von linearem Vorhersagekodierungs (LPC) -Musterabgleichsgeräuschschätzers 202, der dazu ausgebildet ist, schnelle oder schnell auftretende Geräuschübergänge durch Verwenden eines Musterabgleichs von Geräuschdarstellungen mit einer Frequenzbereichskopie der Eingabe des geräuschvollen Signals 102 in das System zu erkennen und darauf zu reagieren, sowie einer Analyse der Ähnlichkeitsmetrik zwischen einer LPC höherer Ordnung und einer LPC niedrigerer Ordnung in dem gleichen Signalstück (Frame) . Das in 2 gezeigte System 200 unterscheidet sich durch die Ähnlichkeitsmetrik und Musterabgleichsgeräuschschätzer 202, der Informationen von den in 1 gezeigten Komponenten nach Stand der Technik empfängt und eine verbesserte oder überarbeitete Schätzung der transienten Geräusche erzeugt.
  • 3 stellt Schritte eines Verfahrens für das Verbesserns von Sprache durch Schätzen transienter Geräusche in variablen Geräuschbedingungen dar. Das Verfahren beginnt bei Schritt 302, wo ein geräuschvolles Mikrofonsignal X, das aus Sprache und Geräuschen besteht, von einem Mikrofon erkannt wird. Anders ausgedrückt, das geräuschvolle Signal von dem Mikrofon, X = S + N, wobei „S“ Sprache ist und „N“ ein Geräuschsignal ist.
  • Das geräuschvolle Signal X wird durch Verwenden herkömmlicher Geräuscherkennungsschritte 304 nach Stand der Technik verarbeitet, aber das geräuschvolle Signal X wird auch durch neue Schritte 305 verarbeitet, die im Wesentlichen bestimmen, ob Geräusche auch unterdrückt werden sollten, indem die Ähnlichkeitsmetrik oder ein „Abstand“ zwischen einer LPC höherer Ordnung und einer LPC niedrigerer Ordnung analysiert wird, sowie durch Vergleichen des LPC-Inhalts des geräuschvollen Signals X mit den linearen Vorhersagekoeffizienten (LPC) des Geräuschmodells, die im laufenden Betrieb erzeugt und aktualisiert werden. Das Signal X wird bei Schritt 320 entweder als Geräusche oder Sprache klassifiziert. Nun Bezug nehmend auf die vorherigen Schritte, werden in dem durch das Bezugszeichen 306 identifizierten Schritt die Geräuschcharakteristiken durch Verwenden einer statistischen Analyse bestimmt. Bei Schritt 308 wird eine Wahrscheinlichkeit der Anwesenheit von Sprache berechnet. Bei Schritt 310 wird eine Geräuschschätzung in Form von Leistungsspektraldichte oder PSD berechnet.
  • Eine Geräuschkompensation wird bei Schritt 312 durch Verwenden der Leistungsspektraldichte berechnet oder bestimmt.
  • In den Schritten 314 und 316 wird ein Signal-Geräusch-Verhältnis (SNR) bestimmt und ein Dämpfungsfaktor bestimmt.
  • Nun Bezug nehmend auf die in der mit dem Bezugszeichen 305 bezeichneten Klammer eingeschlossenen neuen Schritte, wird bei Schritt 318 eine Analyse der linearen Vorhersagekoeffizienten an dem Geräuschsignal X ausgeführt. Unter der Bedingung, dass X durch Schritt 308 als Geräusche interpretiert wird, wird das Ergebnis der LPC-Analyse bei Schritt 318 dem LPC-Geräuschmodellerzeugungs- und -Anpassungsschritt 317 bereitgestellt, dessen Ergebnis die Erzeugung eines Satzes von LPC-Koeffizienten ist, die Umgebungsgeräusche über die Zeit modellieren oder darstellen. Der LPC-Geräuschmodellerzeugungs- und -Anpassungsschritt erzeugt somit eine Tabelle oder Liste von LPC-Koeffizientensätzen, von denen jeder Satz entsprechende Geräusche darstellt, wobei die durch jeden Satz von LPC-Koeffizienten dargestellten Geräusche sich von Geräuschen unterscheiden, die durch andere LPC-Koeffizientensätze dargestellt werden.
  • Der LPC-Analyseschritt 318 erzeugt einen Satz von LPC-Koeffizienten, die das geräuschvolle Signal darstellen. Diese Koeffizienten werden mit den Sätzen von Koeffizienten oder Online-Geräuschmodelle verglichen, die über die Zeit in Geräuschklassifizierungsschritt 320 erzeugt werden. (Wie hierin verwendet, bezieht sich der Begriff „Online-Geräuschmodell“ auf ein in „Echtzeit“ erstelltes Geräuschmodell. Und „Echtzeit“ bezieht sich auf eine tatsächliche Zeit, während der ein Ereignis oder ein Prozess stattfindet.) Der Geräuschklassifizierungsschritt 320 kann somit als ein Schritt betrachtet werden, wobei die LPC-Koeffizienten die Sprach- und Geräuschabtastwerte von dem Mikrofon darstellen. Der erste aus der LPC-Analyse empfangene Satz von Abtastwerten stellt somit somit eine Audiokomponente und eine Geräuschsignalkomponente dar.
  • Neben einer LPC-Analyse höherer (zum Beispiel 10.) Ordnung wird bei Schritt 318 auch eine LPC niedrigerer (zum Beispiel 4.) Ordnung für die Eingabe X berechnet. Ein logarithmisches Spektralabstandsmaß zwischen zwei Spektren, das den zwei LPC entspricht, dient als die Ähnlichkeitsmetrik zwischen den zwei LPC. Aufgrund des Fehlens einer inhärenten Spektralstruktur oder einer Unvorhersagbarkeit in dem Fall von Geräuschen wird erwartet, dass die Abstandsmetrik klein ist. Auf der anderen Seite ist die Abstandsmetrik relativ groß, wenn das Signal unter Analyse Sprache ist.
  • Der Abstand des logarithmischen Spektrums wird mit dem euklidischen Abstand zweier Sätze von Cepstral-Vektoren approximiert. Jeder Cepstral-Vektor wird von seinen entsprechenden (höheren oder niedrigeren) LPC-Koeffizienten umgewandelt. Somit kann der Abstand in dem Frequenzbereich berechnet werden, ohne tatsächlich eine rechenintensive Operation auf dem Signal X einzubeziehen.
  • Der logarithmische Spektralabstand oder der Cepstral-Abstand zwischen der LPC höherer und niedrigerer Ordnung wird mit der Frame-Rate berechnet, der Abstand und seine Variation über die Zeit werden bei Schritt 320 mit einem Satz von Schwellenwerten verglichen. Signal X wird als Sprache klassifiziert, wenn der Abstand und sein Bewegungsablauf über bestimmten Schwellenwerten liegen. Ansonsten wird es als Geräusche eingestuft.
  • Das Ergebnis der Geräuschklassifizierung wird einer zweiten Geräuschberechnung in der Form einer Leistungsspektraldichte oder PSD bereitgestellt. Um den Grad der Geräusch-PSD-Verfeinerung zu steuern, empfängt die zweite PSD-Geräuschberechnung bei Schritt 322 die erste Sprachanwesenheitswahrscheinlichkeitsberechnung von Schritt 308 und eine Geräuschkompensationsbestimmung von Schritt 312 als Eingaben.
  • Die zweite Geräuschberechnung durch Verwenden von Leistungsspektraldichte oder PSD wird bei Schritt 324 einer zweiten Berechnung des Signal-Geräusch-Verhältnisses, die auch die bei Schritt 316 erhaltene erste Geräuschunterdrückungsverstärkungsberechnung verwendet, bereitgestellt. Bei 326 wird eine zweite Geräuschunterdrückungsverstärkungsberechnung durchgeführt, die Multiplikator 328 bereitgestellt wird, dessen Ausgangssignal 330 ein geräuschgedämpftes Signal ist, wobei die gedämpften Geräusche transiente oder sogenannte nicht stationäres Geräusche beinhaltet.
  • Nun Bezug nehmend auf 4, umfasst eine Vorrichtung für das Verbessern von Sprache durch Schätzen von transienten oder nicht stationären Geräuschen einen Satz von Komponenten oder einen Prozessor, der mit einem nichtflüchtigen Speichergerät gekoppelt ist, das Programmanweisungen enthält, die die in 3 dargestellten Schritte ausführen. Vorrichtung 400 weist einen LPC-Analysierer 402 auf.
  • Die Ausgabe des LPC-Analysierers 402 wird Geräuschklassifizierer 404 und LPC-Geräuschmodellerzeuger und -Anpasser 406 bereitgestellt. Ihre Ausgaben werden zweitem PSD-Berechner 408 bereitgestellt.
  • Der zweite PSD-Geräuschberechner 408 aktualisiert eine Berechnung der Geräusch-Leistungsspektraldichte (PSD) als Reaktion auf die Bestimmung, dass die Geräusche in dem Signal X nicht stationär sind, und die von dem Geräuschklassifizierer 404 vorgenommen wird. Die Ausgabe des zweiten PSD-Geräuschberechners wird zweitem Signal-Geräusch-Verhältnisberechner 410 bereitgestellt. Zweiter Geräuschunterdrückungsberechner 412 empfängt geräuschvolles Mikrofonausgangssignal 401 und die Ausgabe des zweiten SNR-Berechners 410 und erzeugt geräuschgedämpfte Ausgangsaudiosignale 414.
  • Immer noch Bezug nehmend auf 4, beinhaltet der Geräuschunterdrücker Geräuschverfolger nach dem Stand der Technik 416 und SPP (Sprachwahrscheinlichkeitsbestimmer) nach dem Stand der Technik 418. Geräuschschätzer 420 wird Geräuschkompensator 422 bereitgestellt.
  • Erster Geräuschbestimmer 424 wird mit seinem Ausgang erstem Geräuschkompensations- oder Geräuschunterdrückungsberechner 426 bereitgestellt, dessen Ausgang dem zweiten SNR-Berechner 410 bereitgestellt wird.
  • Ein Verfahren für das Entfernen eingebetteter akustischer Geräusche und für das Verbessern von Sprache durch Identifizieren und Schätzen von Geräuschen in variablen Geräuschbedingungen wird hierin offenbart. Das Verfahren weist auf: Einen Sprach-/Geräuschklassifizierer, der mehrere lineare Vorhersagekodierungs-Koeffizientensätze erzeugt, die einen ankommenden Signal-Frame mit einer LPC höherer Ordnung und einer LPC niedrigerer Ordnung modellieren; einen Sprach-/Geräuschklassifizierer, der den logarithmischen Spektralabstand zwischen der LPC höherer und niedrigerer Ordnung, die aus dem selben Signal-Frame resultieren, berechnet. Der logarithmische Spektralabstand wird durch zwei Sätze von Cepstral-Koeffizientensätzen, die aus den LPC-Koeffizientensätzen höherer und niedrigerer Ordnung abgeleitet werden, berechnet; einen Sprach-/Geräuschklassifizierer, der den Abstand und seinen Kurzzeit-Bewegungsablauf gegen einen Satz von Schwellenwerten vergleicht, um zu bestimmen, ob der Signal-Frame Sprache oder Geräusche ist; die für den Sprach-/Geräuschklassifizierer verwendeten Schwellenwerte werden basierend auf den Klassifizierungsstatistiken und/oder in Abstimmung mit anderen Sprachaktivitätserkennungsverfahren aktualisiert; das Erzeugen mehrerer linearer Vorhersagekodierungs (LPC) -Koeffizientensätze als online erzeugte Geräuschmodelle während der Laufzeit, wobei jeder Satz von LPC-Koeffizienten entsprechende Geräusche darstellt; das Geräuschmodell wird unter Bedingungen erzeugt und aktualisiert, unter denen der aktuelle Signal-Frame durch herkömmliche Verfahren (zum Beispiel Wahrscheinlichkeit der Anwesenheit von Sprache) oder durch den LPC-Sprach-/Geräuschklassifizierer als Geräusche klassifiziert wird; eine separate, aber parallele Geräusch-/Sprachklassifizierung wird auch basierend auf der Beurteilung des Abstands der LPC-Koeffizienten des Eingangssignals gegen die durch LPC-Koeffizientensätze dargestellten Geräuschmodelle eingerichtet. Wenn der Abstand unter einem bestimmten Schwellenwert liegt, wird das Signal als Geräusche, andernfalls als Sprache klassifiziert; ein herkömmliches Geräuschunterdrückungsverfahren, wie zum Beispiel MMSE, das die Wahrscheinlichkeit der Anwesenheit von Sprache verwendet, führt die Geräuschbeseitigung aus, wenn Umgebungsgeräusche stationär sind; ein zweiter Geräuschunterdrücker, der eine LPC-basierte Geräusch-/Sprachklassifizierung aufweist, verfeinert (oder erweitert) die Geräuschschätzung und Geräuschdämpfung, wenn die Umgebungsgeräusche transient oder nicht stationär sind; die Geräuschschätzung der zweiten Stufe berücksichtigt die Wahrscheinlichkeit der Anwesenheit von Sprache und passt die Geräusch-PSD in dem Frequenzbereich entsprechend an, wo immer die herkömmliche Geräuschschätzung fehlschlägt oder ungeeignet ist; die Geräuschschätzung der zweiten Stufe, die die Wahrscheinlichkeit der Anwesenheit von Sprache verwendet, verhindert auch eine Überschätzung der Geräusch-PSD, wenn das herkömmliche Verfahren bereits in stationären Geräuschbedingungen arbeitet; unter der Bedingung, dass das Signal durch den LPC-basierten Klassifizierer als Geräusche klassifiziert wird, ist die Menge an Geräuschaktualisierung (Verfeinerung) in der zweiten Stufe proportional zu der Wahrscheinlichkeit der Anwesenheit von Sprache, das heißt, je größer die Wahrscheinlichkeit von Sprache ist, desto mehr Geräuschaktualisierung erfolgt; SNR- und Verstärkungsfunktionen werden sowohl neu berechnet, als auch auf das geräuschvolle Signal in der Geräuschunterdrückung der zweiten Stufe angewendet; wenn das herkömmliche Verfahren die Eingabe mit einem hohen Vertrauensgrad als Geräusche erkennt, wird die zweite Stufe der Geräuschunterdrückung nichts tun, ungeachtet der Ergebnisse der neuen Sprach-/Geräuschklassifizierung und der Neuschätzung der Geräusche. Andererseits kann zusätzliche Geräuschdämpfung schnell anlaufen, selbst wenn die herkömmliche (erste Stufe der) Geräuschunterdrückung bei plötzlich erhöhten Geräuschen unwirksam ist; die neu berechnete Geräusch-PSD von der „erweiterten“ Geräuschklassifizierung/-Schätzung wird dann verwendet, um einen verfeinerten Satz von Geräuschunterdrückungsverstärkungen in dem Frequenzbereich zu erzeugen.
  • Durchschnittsfachleute sollten anerkennen, dass das Erkennen von Geräuschen und eines geräuschvollen Signals durch Verwenden eines Musterabgleichs rechnerisch schneller ist als Verfahren nach dem Stand der Technik für das Berechnen linearer Vorhersagekoeffizienten, für das Analysieren der Wahrscheinlichkeit der Anwesenheit von Sprache, für das Schätzen von Geräuschen und für das Ausführen einer SNR-Berechnung. Die Verfahren nach dem Stand der Technik zur Geräuschunterdrückung, die naturgemäß retrospektiv sind, werden durch Verwenden von aktuellen oder nahezu Echtzeit-Geräuschbestimmungen vermieden. Transiente oder sogenannte nicht stationäre Geräuschsignale können in viel kürzerer Zeit, als die Verfahren nach dem Stand der Technik erforderten, unterdrückt werden.
  • Um Geräusche effektiv zu entfernen, sollte ein Geräuschunterdrückungsalgorithmus ein Eingangssignal korrekt als Geräusche oder Sprache klassifizieren. Die meisten herkömmlichen Sprachaktivitätserkennungs (VAD) -Algorithmen schätzen den Pegel und/oder die Variation der Energie von einem Audioeingang in Echtzeit und vergleichen die gegenwärtig gemessene Energie mit der Energie von in der Vergangenheit geschätzten Geräuschen. Die Messung des Signal-Geräusch-Verhältnisses (SNR) und die Überprüfung der Werte sind die Säule für zahlreiche VAD-Verfahren, und sie funktioniert relativ gut, wenn Umgebungsgeräusche stationär sind; schließlich ist der Energiepegel während der Anwesenheit von Sprache tatsächlich größer, verglichen mit dem Energiepegel, wenn Sprache nicht anwesend ist, wenn der Geräuschhintergrund stationär (das heißt relativ konstant) bleibt.
  • Diese Annahme und dieser Mechanismus sind jedoch nicht länger gültig, wenn der Geräuschpegel in nicht stationären oder transienten Geräuschbedingungen, wie zum Beispiel während der Fahrzeugbeschleunigung, Windgeräuschen, vorbeifahrendem Verkehr usw., plötzlich ansteigt. Wenn die Geräusche plötzlich ansteigen, ist die gemessene Energie signifikant größer als die in der Vergangenheit geschätzte Geräuschenergie. Ein auf SNR basierendes VAD-Verfahren kann deshalb leicht versagen oder eine signifikante Menge an Zeit erfordern, um eine Entscheidung zu treffen. Das Dilemma ist, dass eine verspätete Erkennung, obwohl sie korrekt ist, im Wesentlichen für die Unterdrückung von transienten Geräuschen in einem Kraftfahrzeug ungeeignet ist.
  • Ein parametrisches Modell gemäß Ausführungsformen der Erfindung wird vorgeschlagen und implementiert, um die Schwäche der herkömmlichen energie-/SNR-basierten VAD zu verbessern.
  • Geräusche sind im Allgemeinen in der Zeit nicht vorhersagbar, und ihre spektrale Darstellung ist monoton und hat keine Struktur. Andererseits sind menschliche Stimmen durch Verwenden einer linearen Kombination vorheriger Abtastwerte etwas vorhersagbar, und die spektrale Darstellung einer menschlichen Stimme ist aufgrund von Auswirkungen von Stimmtrakt (Formanten, usw.) und Stimmbandvibration (Tonhöhe oder Oberschwingungen) sehr viel strukturierter.
  • Diese Unterschiede zwischen Geräuschen und Sprache sind durch lineare Vorhersagekodierung (LPC) gut charakterisiert. Tatsächlich kann das Geräuschsignal durch eine LPC höherer Ordnung (zum Beispiel 10. Ordnung) oder eine LPC niedrigerer Ordnung (4. Ordnung) fast gleich gut modelliert werden. Andererseits sollte eine LPC höherer Ordnung (10. oder höher) verwendet werden, um ein stimmhaftes Signal zu charakterisieren. Einer LPC niedrigerer Ordnung (zum Beispiel 4.) fehlt die Komplexität und Modellierungsleistung und ist daher für die Sprachsignalcharakterisierung nicht ausreichend.
  • 5 stellt Spektren dar, die aus einem höheren und niedrigeren LPC-Modellen, zusammen mit dem detaillierten Signalspektrum selbst, für eine weibliche Stimme umgewandelt wurden.
  • 6 stellt Spektren dar, die aus einem höheren und niedrigeren LPC-Modellen, zusammen mit dem detaillierten Signalspektrum selbst, für eine männliche Stimme umgewandelt wurden.
  • 7 stellt Spektren dar, die aus einem höheren und niedrigeren LPC-Modellen, zusammen mit dem detaillierten Signalspektrum selbst, für Fahrzeuggeräusche (zum Beispiel Motorgeräusche, Straßengeräusche von Reifen und dergleichen) umgewandelt wurden.
  • 8 stellt Spektren dar, die aus einem höheren und niedrigeren LPC-Modellen, zusammen mit dem detaillierten Signalspektrum selbst, für Windgeräusche umgewandelt wurden.
  • Wie in den 5-8 gezeigt, ist aufgrund der Formantstruktur und der Frequenzcharakteristiken eines stimmhaften Signals die spektrale Differenz zwischen der LPC höherer und niedrigerer Ordnung signifikant. Andererseits ist der Unterschied für Geräusche gering, manchmal sehr gering.
  • Dieser Typ von Analyse stellt eine robuste Art bereit, um Geräusche von Sprache zu unterscheiden, ungeachtet des Energiepegels, den ein Signal in sich trägt.
  • 9 stellt Ergebnisse, die von einem energieunabhängigen Sprachaktivitätserkenner erzeugt wurden, gemäß Ausführungsformen der Erfindung, und Ergebnisse, die von einem anspruchsvollen herkömmlichen energieabhängigen Sprachaktivitätsdetektor erzeugt wurden, dar. In 9 ist eine geräuschvolle Eingabe sowohl in dem Zeit- als auch in dem Frequenzbereich dargestellt. Der Zweck eines VAD-Algorithmus ist es, eine Eingabe in Echtzeit (zum Beispiel während jedes 10-Millisekunden-Intervalls) korrekt als Geräusche oder Sprache zu identifizieren. In 9 zeigt ein VAD-Pegel von 1 eine Bestimmung an, dass Sprache anwesend ist, während ein VAD-Pegel von Null eine Bestimmung anzeigt, dass Sprache nicht anwesend ist.
  • Ein LPC-VAD (hierin auch bezeichnet als ein auf parametrischem Modell basierender Ansatz) gemäß Ausführungsformen der Erfindung übertrifft den herkömmlichen VAD, wenn Geräusche, nicht aber Sprache, anwesend sind. Dies trifft insbesondere zu, wenn die Hintergrundgeräusche während des mittleren Abschnitts des in 9 gezeigten Audiosignalabtastwerts erhöht werden. In dieser Situation kann der herkömmliche VAD keine Geräusche identifizieren, während der LPC VAD Sprach- und Geräuschabschnitte des geräuschvollen Eingangssignals korrekt klassifiziert.
  • 10 ist ein schematisches Diagramm eines Geräuschunterdrückungssystems, das einen Sprachaktivitätserkenner mit linearer Vorhersagekodierung (hierin auch bezeichnet als ein parametrisches Modell) beinhaltet, gemäß Ausführungsformen der Erfindung. In 10 sind geräuschvoller Audioeingang 1002, Tiefpassfilter 1004, Vorverstärkung 1006, Autokorrelation 1008, LPC1 1010, CEP1 1012 und CEP-Abstandsbestimmer 1014, LPC2 1016, CEP2 1018, LPC-VAD-Geräusch-/Sprachklassifizierer 1020, Geräuschunterdrücker 1022 und geräuschunterdrücktes Audiosignal 1024 gezeigt.
  • Ein optionaler Tiefpassfilter mit einer Grenzfrequenz von 3kHz wird auf den Eingang angewendet.
  • Auf das Eingangssignal wird eine Vorverstärkung angewendet. s ( n ) ,0 n N 1,
    Figure DE112017004548B4_0001
    die Vorverstärkung soll den Hochfrequenzinhalt anheben, sodass die Hochfrequenzspektralstruktur verstärkt wird, das heißt, s ( n ) = s ( n ) μ s ( n 1 ) ,0,5 μ 0.9.
    Figure DE112017004548B4_0002
  • Berechnen einer Sequenz von Autokorrelationen des vorverstärkten Eingangs.
  • Anwenden der ersten LPC-Analyse höherer Ordnung und Berechnen eines längeren Satzes von LPC-Koeffizienten (zum Beispiel Ordnung 10) s ( n ) i = 1 P a i s ( n i )
    Figure DE112017004548B4_0003
  • Anwenden der zweiten LPC-Analyse höherer Ordnung und Berechnen eines kürzeren Satzes von LPC-Koeffizienten (zum Beispiel Ordnung 4) (LPC2) s ( n ) i = 1 Q a ' i s ( n i )
    Figure DE112017004548B4_0004
  • Umwandeln der zwei Sätze von LPC-Koeffizienten A P = [ a 0 , a 1 , a P ] ,
    Figure DE112017004548B4_0005
    und A Q = [ a ' 0 , a ' 1 , a ' Q ] ,
    Figure DE112017004548B4_0006
    in den Spektralbereich (Übertragungsfunktion), das heißt H P = 1 i = 1 P a i z i ,
    Figure DE112017004548B4_0007
    H Q = 1 i = 0 Q a ' i z i
    Figure DE112017004548B4_0008
  • Verwerfen des Energieterms in den obigen Übertragungsfunktionen, deshalb sind die Spektraldarstellungen von zwei LPC-Modellen energetisch normalisiert oder unabhängig.
  • Wählen des logarithmischen Spektralabstands als aussagekräftige Metrik, um die Ähnlichkeit von zwei Spektralkurven zu messen.
  • Berechnen des logarithmischen Spektralabstands zwischen zwei Spektren entsprechend den zwei Übertragungsfunktionen, das heißt, D ( H P , H Q ) = 0 π [ log H P ( ω ) log H P ( ω ) ] 2 d ω
    Figure DE112017004548B4_0009
  • Approximieren des logarithmischen Spektralabstands mit dem euklidischen Cepstrum-Abstand, um die erforderliche beträchtliche Berechnungslast stark zu reduzieren, das heißt, D ( H P , H Q ) = 0 π [ log H P ( ω ) log H P ( ω ) ] 2 d ω m = 1 M ( c m c ' m ) 2
    Figure DE112017004548B4_0010
    um das Wählen des logarithmischen Spektralabstands als eine aussagekräftige Metrik, um die Ähnlichkeit von zwei Spektralkurven zu messen, zu erfüllen, zwei Sätze von Cepstrum-Koeffizienten, C und C', entsprechend AP und AQ (CEP1 und CEP2) C = [ c 1 , c 2 , c M ] , u n d C ' = [ c ' 1 , c ' 2 , c ' M ] , M > m a x ( P , Q )
    Figure DE112017004548B4_0011
    c m = a m 1 m k = 1 m 1 [ ( m k ) a k c ( m k ) ] , 1 m P
    Figure DE112017004548B4_0012
    c m = 1 m k = 1 P [ ( m k ) a k c ( m k ) ] , P < m M
    Figure DE112017004548B4_0013
  • Die VAD-Entscheidungsfindungslogik bestimmt jeden Frame des Eingangssignals als Sprache oder Geräusche wie folgt: wenn D(HP,HQ) < THRESHOLD_NOISE, dann wird das Signal als Geräusche klassifiziert (das heißt VAD = 0); ansonsten, wenn D(HP,HQ) > THRESHOLD_SPEECH, dann wird das Signal als Sprache klassifiziert; ansonsten wird das Signal gleich wie der vorherige Frame klassifiziert, oder durch einen unterschiedlichen Ansatz bestimmt.
  • Die vorstehende Beschreibung ist nur für Zwecke der Veranschaulichung. Der wahre Geltungsbereich der Erfindung wird in den folgenden Ansprüchen dargelegt.

Claims (6)

  1. Verfahren für das Entfernen eingebetteter akustischer Geräusche und für das Verbessern von Sprache durch Identifizieren und Schätzen von Geräuschen in variablen Geräuschbedingungen, wobei das Verfahren Folgendes aufweist: das Verwenden eines Sprach-/Geräuschklassifizierers, um mehrere lineare Vorhersagekodierungs-Koeffizientensätze, die einen ankommenden Signal-Frame mit einer LPC höherer Ordnung und einer LPC niedrigerer Ordnung modellieren, zu erzeugen; das Verwenden des Sprach-/Geräuschklassifizierers, um einen logarithmischen Spektralabstand zwischen der LPC höherer Ordnung und niedrigerer Ordnung, die aus dem Signal-Frame resultieren, zu berechnen, wobei der logarithmische Spektralabstand durch zwei Cepstral-Koeffizientensätze berechnet wird, die aus den LPC-Koeffizientensätzen höherer und niedrigerer Ordnung abgeleitet werden; das Verwenden eines Sprach-/Geräuschklassifizierers, um den Abstand und seinen Kurzzeit-Bewegungsablauf gegen einen Satz von Schwellenwerten zu vergleichen, um zu bestimmen, ob der Signal-Frame Sprache oder Geräusche ist, wobei die für den Sprach-/Geräuschklassifizierer verwendeten Schwellenwerte basierend auf Klassifizierungsstatistiken und/oder in Abstimmung mit anderen Sprachaktivitätserkennungsverfahren aktualisiert werden; das Erzeugen mehrerer linearer Vorhersagekodierungs (LPC) -Koeffizientensätze als online erzeugte Geräuschmodelle während der Laufzeit, wobei jeder Satz von LPC-Koeffizienten entsprechende Geräusche darstellt, wobei die Geräuschmodelle unter Bedingungen erzeugt und aktualisiert werden, unter denen der aktuelle Signal-Frame durch eine Wahrscheinlichkeit der Anwesenheit von Sprache und/oder den LPC-Sprach-/Geräuschklassifizierer als Geräusche klassifiziert wird; das Verwenden eines separaten, aber parallelen Sprach-/Geräuschklassifizierers basierend auf dem Beurteilen des Abstands der LPC-Koeffizienten des Eingangssignals gegen die durch LPC-Koeffizientensätze dargestellten Geräuschmodelle; wenn der beurteilte Abstand unter einem Schwellenwert ist, wird das Signal als Geräusche klassifiziert, andernfalls wird das Signal als Sprache klassifiziert; das Verwenden eines Geräuschunterdrückungsverfahrens durch Verwenden der Wahrscheinlichkeit der Anwesenheit von Sprache, um Geräuschbeseitigung durchzuführen, wenn Umgebungsgeräusche stationär sind; das Verwenden eines zweiten Geräuschunterdrückers, der eine LPC-basierte Geräusch-/Sprachklassifizierung aufweist, um die Geräuschschätzung und Geräuschdämpfung zu erweitern, wenn Umgebungsgeräusche transient oder nicht stationär sind; wobei die Geräuschschätzung durch den zweiten Geräuschunterdrücker die Wahrscheinlichkeit der Anwesenheit von Sprache berücksichtigt und die Geräusch-PSD in dem Frequenzbereich entsprechend überall dort anpasst, wo die herkömmliche Geräuschschätzung unzureichend ist; und das Verwenden der neu berechneten Geräusch-PSD von der erweiterten Geräuschklassifizierung/-Schätzung, um einen verfeinerten Satz von Geräuschunterdrückungsverstärkungen in dem Frequenzbereich zu erzeugen.
  2. Vorrichtung, die Folgendes aufweist: einen Sprachaktivitätserkenner mit linearer Vorhersagekodierung, der dazu ausgebildet ist, das Eingangssignal tiefpasszufiltern; eine Vorverstärkung auf einen Hochfrequenzinhalt des Eingangssignals anzuwenden, sodass eine Hochfrequenzspektrumsstruktur des tiefpassgefilterten Eingangssignals verstärkt wird; eine Folge von Autokorrelationen des vorverstärkten tiefpassgefilterten Eingangssignals zu berechnen; eine erste lineare Vorhersagekodierungs („LPC“) -Analyse höherer Ordnung anzuwenden und einen längeren Satz von LPC-Koeffizienten zu berechnen; eine zweite LPC-Analyse höherer Ordnung anzuwenden und einen kürzeren Satz von LPC-Koeffizienten zu berechnen; den längeren Satz von LPC-Koeffizienten und den kürzeren Satz von LPC-Koeffizienten in den Spektralbereich umzuwandeln; die Spektralbereichsdarstellungen des längeren Satzes von LPC-Koeffizienten und des kürzeren Satzes von LPC-Koeffizienten energetisch zu normalisieren; einen logarithmischen Spektralabstand zwischen den energetisch normalisierten Spektralbereichsdarstellungen des längeren Satzes von LPC-Koeffizienten und des kürzeren Satzes von LPC-Koeffizienten zu bestimmen; zu bestimmen, ob ein Frame des Eingangssignals Geräusche ist, basierend darauf, ob der bestimmte logarithmische Spektralabstand zwischen den energetisch normalisierten Spektralbereichsdarstellungen des längeren Satzes von LPC-Koeffizienten und des kürzeren Satzes von LPC-Koeffizienten kleiner als ein Geräuschschwellenwert ist; und wenn bestimmt wird, dass der Frame des Eingangssignals keine Geräusche ist, zu bestimmen, ob der Frame des Eingangssignals Sprache ist, basierend darauf, ob der bestimmte logarithmische Spektralabstand zwischen den energetisch normalisierten Spektralbereichsdarstellungen des längeren Satzes von LPC-Koeffizienten und des kürzeren Satzes von LPC-Koeffizienten größer als ein Sprachschwellenwert ist.
  3. Vorrichtung nach Anspruch 2, wobei der Tiefpassfilter eine Grenzfrequenz von 3kHz hat.
  4. Vorrichtung nach Anspruch 2, wobei der längere Satz von LPC-Koeffizienten eine Größenordnung von 10 oder mehr hat.
  5. Vorrichtung nach Anspruch 2, wobei der kürzere Satz von LPC-Koeffizienten eine Größenordnung von 4 oder weniger hat.
  6. Vorrichtung nach Anspruch 2, wobei der logarithmische Spektralabstand mit dem euklidischen Cepstrum-Abstand approximiert wird, um eine zugeordnete Berechnungslast zu reduzieren.
DE112017004548.7T 2016-09-09 2017-09-09 Verfahren und Vorrichtung zur robusten Geräuschschätzung für eine Sprachverbesserung in variablen Geräuschbedingungen Active DE112017004548B4 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662385464P 2016-09-09 2016-09-09
US62/385,464 2016-09-09
PCT/US2017/050850 WO2018049282A1 (en) 2016-09-09 2017-09-09 Robust noise estimation for speech enhancement in variable noise conditions

Publications (2)

Publication Number Publication Date
DE112017004548T5 DE112017004548T5 (de) 2019-05-23
DE112017004548B4 true DE112017004548B4 (de) 2022-05-05

Family

ID=57610658

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112017004548.7T Active DE112017004548B4 (de) 2016-09-09 2017-09-09 Verfahren und Vorrichtung zur robusten Geräuschschätzung für eine Sprachverbesserung in variablen Geräuschbedingungen

Country Status (5)

Country Link
US (1) US10249316B2 (de)
CN (1) CN109643552B (de)
DE (1) DE112017004548B4 (de)
GB (1) GB201617016D0 (de)
WO (1) WO2018049282A1 (de)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2712125C2 (ru) * 2015-09-25 2020-01-24 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер и способ кодирования аудиосигнала с уменьшенным фоновым шумом с использованием кодирования с линейным предсказанием
US10140089B1 (en) * 2017-08-09 2018-11-27 2236008 Ontario Inc. Synthetic speech for in vehicle communication
US10580430B2 (en) * 2017-10-19 2020-03-03 Bose Corporation Noise reduction using machine learning
US11017798B2 (en) * 2017-12-29 2021-05-25 Harman Becker Automotive Systems Gmbh Dynamic noise suppression and operations for noisy speech signals
US10896674B2 (en) * 2018-04-12 2021-01-19 Kaam Llc Adaptive enhancement of speech signals
CN111105798B (zh) * 2018-10-29 2023-08-18 宁波方太厨具有限公司 基于语音识别的设备控制方法
CN111192573B (zh) * 2018-10-29 2023-08-18 宁波方太厨具有限公司 基于语音识别的设备智能化控制方法
CN109490626B (zh) * 2018-12-03 2021-02-02 中车青岛四方机车车辆股份有限公司 一种基于非平稳随机振动信号的标准psd获取方法及装置
CN110069830B (zh) * 2019-03-29 2023-04-07 江铃汽车股份有限公司 路面不平引起的车内噪声与振动的计算方法及系统
US11763832B2 (en) * 2019-05-01 2023-09-19 Synaptics Incorporated Audio enhancement through supervised latent variable representation of target speech and noise
CN112017676A (zh) * 2019-05-31 2020-12-01 京东数字科技控股有限公司 音频处理方法、装置和计算机可读存储介质
CN110798418B (zh) * 2019-10-25 2022-06-17 中国人民解放军63921部队 基于频域阈值递进分割的通信信号自动检测与监视方法及装置
CN110739005B (zh) * 2019-10-28 2022-02-01 南京工程学院 一种面向瞬态噪声抑制的实时语音增强方法
CN110910906A (zh) * 2019-11-12 2020-03-24 国网山东省电力公司临沂供电公司 基于电力内网的音频端点检测及降噪方法
CN111783434B (zh) * 2020-07-10 2023-06-23 思必驰科技股份有限公司 提升回复生成模型抗噪能力的方法及系统
CN113611320B (zh) * 2021-04-07 2023-07-04 珠海市杰理科技股份有限公司 风噪抑制方法、装置、音频设备及系统
CN115570568B (zh) * 2022-10-11 2024-01-30 江苏高倍智能装备有限公司 一种多机械手协同控制方法及系统
CN117475360B (zh) * 2023-12-27 2024-03-26 南京纳实医学科技有限公司 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69433254T2 (de) 1993-05-19 2004-08-12 Matsushita Electric Industrial Co., Ltd., Kadoma Verfahren und Vorrichtung zur Sprachdetektion
US20160155457A1 (en) 2007-03-05 2016-06-02 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for controlling smoothing of stationary background noise

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680508A (en) 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
JP3522012B2 (ja) 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
US6070137A (en) * 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
US6862567B1 (en) * 2000-08-30 2005-03-01 Mindspeed Technologies, Inc. Noise suppression in the frequency domain by adjusting gain according to voicing parameters
US7725315B2 (en) 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
CN101149921B (zh) 2006-09-21 2011-08-10 展讯通信(上海)有限公司 一种静音检测方法和装置
WO2012158156A1 (en) * 2011-05-16 2012-11-22 Google Inc. Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69433254T2 (de) 1993-05-19 2004-08-12 Matsushita Electric Industrial Co., Ltd., Kadoma Verfahren und Vorrichtung zur Sprachdetektion
US20160155457A1 (en) 2007-03-05 2016-06-02 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for controlling smoothing of stationary background noise

Also Published As

Publication number Publication date
CN109643552B (zh) 2023-11-14
CN109643552A (zh) 2019-04-16
US10249316B2 (en) 2019-04-02
DE112017004548T5 (de) 2019-05-23
WO2018049282A1 (en) 2018-03-15
GB201617016D0 (en) 2016-11-23
US20180075859A1 (en) 2018-03-15

Similar Documents

Publication Publication Date Title
DE112017004548B4 (de) Verfahren und Vorrichtung zur robusten Geräuschschätzung für eine Sprachverbesserung in variablen Geräuschbedingungen
DE60023517T2 (de) Klassifizierung von schallquellen
DE112015004785B4 (de) Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal
DE112009000805B4 (de) Rauschreduktion
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
CN106486131A (zh) 一种语音去噪的方法及装置
DE102013111784B4 (de) Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
Islam et al. Speech enhancement based on student $ t $ modeling of Teager energy operated perceptual wavelet packet coefficients and a custom thresholding function
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE60212617T2 (de) Vorrichtung zur sprachverbesserung
DE69813597T2 (de) Mustererkennung, die mehrere referenzmodelle verwendet
DE102019102414A1 (de) Detektion von Reibelauten in Sprachsignalen
WO2005069278A1 (de) Verfahren und vorrichtung zur bearbeitung eines sprachsignals für die robuste spracherkennung
Maganti et al. A perceptual masking approach for noise robust speech recognition
Li et al. Sub-band based log-energy and its dynamic range stretching for robust in-car speech recognition
DE112013000942T5 (de) Rauschminderungsverfahren, Programmprodukt und Vorrichtung
Ghribi et al. Thresholding wavelet-based forward BSS algorithm for speech enhancement and complexity reduction
Patil et al. Performance analysis of SS based speech enhancement algorithms for ASR with Non-stationary Noisy Database-NOIZEUS
Ravi Performance analysis of adaptive wavelet denosing by speech discrimination and thresholding
Poblete et al. Optimization of the parameters characterizing sigmoidal rate-level functions based on acoustic features
Han et al. Joint optimization of modified ideal radio mask and deep neural networks for monaural speech enhancement
Ghorpade et al. Single-channel speech enhancement by PSO-GSA with harmonic regeneration noise reduction
DE202023103428U1 (de) Ein Sprachqualitätsschätzsystem für reale Signale basierend auf nicht negativer frequenzgewichteter Energie
Guo et al. Segmented Time-Frequency Masking Algorithm for Speech Separation Based on Deep Neural Networks

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: MICHELSEN, MARKUS, DIPL.-PHYS. DR. PHIL. NAT., DE

Representative=s name: BRAND, MARKUS, DIPL.-PHYS. DR. PHIL. NAT., DE

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0021020800

Ipc: G10L0021026400

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final