DE102016203482A1 - Echtzeit-Windstoß-Geräusch-Erkennung - Google Patents

Echtzeit-Windstoß-Geräusch-Erkennung Download PDF

Info

Publication number
DE102016203482A1
DE102016203482A1 DE102016203482.0A DE102016203482A DE102016203482A1 DE 102016203482 A1 DE102016203482 A1 DE 102016203482A1 DE 102016203482 A DE102016203482 A DE 102016203482A DE 102016203482 A1 DE102016203482 A1 DE 102016203482A1
Authority
DE
Germany
Prior art keywords
speech
gust
state
probability
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102016203482.0A
Other languages
English (en)
Inventor
Matthew R. Kirsch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Continental Automotive Systems Inc
Original Assignee
Continental Automotive Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Continental Automotive Systems Inc filed Critical Continental Automotive Systems Inc
Publication of DE102016203482A1 publication Critical patent/DE102016203482A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Windstoß-Geräusche in einem Mikrofonsignal werden unter Verwendung einer Pro-Frequenz-Wahrscheinlichkeit einer Sprachbewertung als auch einer Kurzzeit- und Langzeit-Niedrigfrequenz-Energie erkannt. Bei Verwendung der Wahrscheinlichkeit der Sprachpräsenz-Bewertung kann der Windstoß-keine-Sprache-Zustand genau erkannt werden. Jedoch ist die Wahrscheinlichkeit der Sprachpräsenz an und für sich unzureichend für eine Unterscheidung zwischen dem Windstoß-Sprache-Zustand und einem der Kein-Windstoß-Zustände. Es kann angenommen werden, dass, falls ein Windstoß auftritt, dieser während sowohl Sprache- als auch Nicht-Sprache-Segmenten auftritt, um eine Unterscheidung zwischen den anderen möglichen Zuständen zu unterstützen. Das heißt, der Wahrscheinlichkeits-Unterschied kann als das Kriterium für einen Eintritt in den Windstoß-keine-Sprache-Zustand verwendet werden, wobei dann einige andere Informationen (zum Beispiel Niedrigfrequenz-Energie) verwendet werden können, um zu bestimmen, wann ein Übergang zu dem Windstoß-Sprache-Zustand oder zu einem der Kein-Windstoß-Zustände stattfinden soll, sobald die Wahrscheinlichkeitsunterschied-Kriterien nicht länger erfüllt sind.

Description

  • Hintergrund
  • Freisprech-Audiosysteme in Kraftfahrzeugen können ohne Zuhilfenahme der Hände (beispielsweise über Sprachbefehle) verwendet werden, oder, in einem weiteren Sinne, unter relativ eingeschränkter Zuhilfenahme der Hände, so dass der Fahrer ein Telefon-Handteil nicht in seiner Hand halten muss, während er das Kraftfahrzeug lenkt.
  • Freisprech-Audiosysteme für Fahrzeuge benutzen meistens einen oder mehrere der Fahrzeuglautsprecher, um die Stimme des Gesprächsteilnehmers am anderen Ende zu übertragen, und ein oder mehrere Mikrofone in dem Fahrzeug, um die Stimme des Fahrers und/oder die Stimme oder Stimmen eines oder mehrerer Passagiere während der Telefonate aufzunehmen.
  • Ein Mobiltelefon ist meistens über Bluetooth mit einer Fahrzeug-Audiosystem-Kopfeinheit bzw. einer Telematikeinheit in dem Fahrzeug verbunden. Auch könnte die Kopfeinheit bzw. Telematikeinheit ihre eigene Netzwerkzugriffseinrichtung (NAD) aufweisen. In einem solchen System wird, wenn das Mikrofonsignal durch das System läuft, das Signal bearbeitet und an die Person am anderen Ende über das Mobiltelefon oder NAD gesendet. Die Sprache von der Gegenseite kommt über das Telefon (über Bluetooth) oder NAD, wird bearbeitet und kommt dann über die Lautsprecher.
  • Am Mikrofon im Fahrzeug können Nahnebensprechen, Hintergrundgeräusche oder -rauschen, Windgeräusche und Echo vorhanden sein, was als Hörsignal aus den Audiosystem-Lautsprechern kommt, und was außerdem über das Mikrofon aufgefangen wird. Wenn die Person auf der Gegenseite spricht, dann möchte diese Person nicht ihr Echo, Straßen- oder Windgeräusche hören. Deshalb wird das Echo (Widerhall) typischerweise ausgelöscht, die Straßengeräusche werden typischerweise unterdrückt, was die üblichen Maßnahmen sind, jedoch würden, bei Verwendung eines Fahrzeug-Freisprech-Audiosystems, verbesserte Techniken für ein Identifizieren von Windstoß-Geräuschen (auch als Wummern bezeichnet) zur besseren Unterdrückung der selben die Klangqualität auf der Gegenseite von Telefonaten verbessern.
  • Kurze Zusammenfassung
  • In Übereinstimmung mit Ausführungsformen der Erfindung werden Windstoß-Geräusche in einem Mikrofonsignal unter Verwendung einer Pro-Frequenz-Wahrscheinlichkeit (d. h. Wahrscheinlichkeit je Frequenz) einer Sprachbewertung als auch einer Kurzzeit- und Langzeit-Niedrigfrequenzenergie erkannt. Unter Verwendung der Wahrscheinlichkeit der Sprachpräsenz-Bewertung kann der Windstoß-keine-Sprache-Zustand genau erfasst werden. Jedoch ist die Wahrscheinlichkeit von Sprachpräsenz für sich genommen unzureichend für eine Unterscheidung zwischen dem Windstoß-Sprache-Zustand und einem der Kein-Windstoß-Zustände. Es ist anzunehmen, dass, falls ein Windstoß auftritt, dieser sowohl während Sprache- als auch Nicht-Sprache-Segmenten auftritt, um eine Unterscheidung zwischen den anderen möglichen Zuständen zu unterstützen. Das heißt, der Wahrscheinlichkeits-Unterschied kann als die Kriterien für ein Eintreten in den Windstoß-keine-Sprache-Zustand verwendet werden, wobei dann einige andere Informationen (zum Beispiel Niedrigfrequenz-Energie) für eine Bestimmung verwendet werden können, wann in den Windstoß-Sprache-Zustand oder in einen der Kein-Windstoß-Zustände überzugehen ist, sobald das Wahrscheinlichkeits-Unterschied-Kriterium nicht länger erfüllt wird.
  • Kurze Beschreibung der Zeichnungen
  • 1 zeigt eine beispielhafte Betriebsumgebung 100 für Ausführungsformen der Erfindung.
  • 2 zeigt ein Blockdiagramm eines Windstoß-Geräusche- und Sprachpräsenz-Klassifizierers 200 in Übereinstimmung mit Ausführungsformen der Erfindung.
  • 3 zeigt eine Matrix, die die Wahrscheinlichkeitswerte aufzeigt, die für jeden der vier möglichen Zustände erwartet werden.
  • 4 zeigt ein Zustandsdiagramm, das Zustände für Übergänge zwischen den vier Zuständen darstellt.
  • Detaillierte Beschreibung
  • Windstoß-Geräusche können aus unterschiedlichen Situationen in einem Kraftfahrzeug herrühren, einschließlich, jedoch nicht darauf beschränkt: Ein Schiebedach, das aufgestellt ist, ein oder mehrere offene Fenster, ein Klimaanlagengebläse ist auf einer hohen Stufe eingestellt und zum Mikrofon gerichtet, und dergleichen. Windstoß-Geräusche bestehen im Wesentlichen aus Luftstößen, die auf das Mikrofon treffen. Das Windstoßen klingt wie ein niederfrequentes Poltergeräusch, das hin und wieder auftritt und dann wieder verschwindet.
  • Windstoß-Geräusche treten allgemein im Niedrigfrequenz-Bereich auf, beispielsweise zwischen etwa 0 bis 600 Hz. Allerdings befindet sich auch Sprache in diesem Bereich. Deshalb ist es eine Herausforderung, zu versuchen, Windstoß-Geräusche zu erkennen und dann zu entfernen. Bei Standard-Schmalbandtelefonie befindet sich Sprache im Bereich von 0 bis 4 kHz. Die Abtastrate beträgt 8 kHz. Breitbandsprache kann bis zu 8 kHz reichen. Sprache an sich kann noch höhere Frequenzen aufweisen. Aufgrund der Eigenschaften des Mikrofons und einiger Vorab-Bearbeitungsschritte werden Frequenzen unterhalb von etwa 50 bis 100 Hz typischerweise entfernt oder deutlich abgeschwächt.
  • Windstoß-Geräusche sind ein ernsthaftes Problem für Freisprech-Kommunikation in einer Fahrzeug-Umgebung. Diese Art von Geräuschen maskiert oftmals erwünschte Sprachklänge, wobei aufgrund der nicht-stationären Eigenschaften der Geräusche herkömmliche Rausch- bzw. Geräuschunterdrückungstechniken nicht wirksam sind. Dies führt zu unverständlichen Sprachübertragungen auf der Kommunikationsgegenseite.
  • Typischerweise tritt in einer Fahrzeug-Umgebung Hintergrundrauschen auf. Das Rauschen tendiert dazu, relativ stationär zu sein, was bedeutet, dass es sich nicht verändert. Beispielsweise würde das einem vorbeifahrenden Lastwagen zugeordnete Rauschen bzw. Geräusch als ein vorübergehendes Rauschen bzw. Geräusch bezeichnet werden, da es kommt und relativ schnell wieder vergeht. Herkömmliche Rauschunterdrückungstechnologien entfernen solche Art von Rauschen typischerweise nicht, da eine solche Technologie auf Rauschen beruht, das innerhalb eines bestimmten Zeitrahmens als stationär angenommen wird. Windstoß-Geräusche sind nicht stationär, sondern typischerweise eher ausgedehnt und frequenzmäßig lokalisiert.
  • Windstoß-Geräusche machen Sprache unverständlich, da sie, obwohl niederfrequent, dazu tendieren, eine höhere Energie aufzuweisen als die Sprache in den unteren Frequenzen, wo sich Sprache und Windstoß-Geräusche überdecken.
  • In Übereinstimmung mit Ausführungsformen der Erfindung werden Windstoß-Geräusche in einem Mikrofonsignal unter Verwendung einer frequenzabhängigen Wahrscheinlichkeit der Sprachbewertung als auch unter Verwendung einer Kurzzeit- und Langzeit-Niedrigfrequenzenergie erkannt.
  • Es kann eine Vielzahl von Information verwendet werden, einschließlich frequenzabhängiger Wahrscheinlichkeit der Sprachpräsenz, der Niedrigfrequenz-Kurzzeit-Energie und der Niedrigfrequenz-Langzeit-Energie, um jeden Eingaberahmen des Mikrofonsignals in einen der vier möglichen Zustände zu klassifizieren: Windstoß-keine-Sprache; Windstoß-Sprache; Kein-Windstoß-keine-Sprache; und Kein-Windstoß-Sprache.
  • 1 zeigt eine beispielhafte Betriebsumgebung 100 für Ausführungsformen der Erfindung. Die in 1 gezeigte Betriebsumgebung 100 umfasst eine Drahtlos-Kommunikationseinrichtung 102, die von Insassen eines Innenraums eines Fahrzeuges 104 verwendbar ist. Die Drahtlos-Kommunikationseinrichtung 102 stellt eine Zwei-Wege-Drahtlos-Kommunikation bereit, die Sprachkommunikation enthält, die durch ein Drahtlosnetzwerk 108 ermöglicht wird, das mit der Drahtlos-Kommunikationseinrichtung 102 kompatibel ist.
  • In dem Fahrzeug 104 umfasst das Freisprech-Audiosystem 105 ein Mikrofon 112 oder mehrere Mikrofone (wovon lediglich eines dargestellt ist) und einen Lautsprecher 114 oder mehrere Lautsprecher (wovon einer dargestellt ist). Das Mikrofon 112 nimmt die Audiofrequenz-Signale aus dem Fahrgastraum bzw. dem Inneren 103 des Fahrzeuges 104 auf und stellt elektrische Signale, die diese Audiosignale repräsentieren, der Drahtlos-Kommunikationseinrichtung 102 über eine Steuerung 130 für das Freisprech-Audiosystem 105 bereit. Das Mikrofon 112 nimmt somit Straßengeräusche, Windgeräusche und Motorgeräusche auf, die durch das Fahrzeug beim Fahren verursacht werden, als auch von den Lautsprechern 114 in dem Fahrgastraum 103 ausgegebene Audiosignale, einschließlich Audiosignale, die von der Gegenseite eines Telekommunikationspfades zurückgegeben, was als „Echo” bezeichnet wird.
  • Der Lautsprecher 114-Abschnitt des Freisprechsystems 105 empfängt elektrische Signale im Hörfrequenzbereich von der Drahtlos-Kommunikationseinrichtung 102 über die Steuerung 130 für das Freisprech-Audiosystem 105. Der Lautsprecher 114 wandelt diese elektrischen Signale in Klangwellen oder Audiosignale 113 um, die im Fahrgastraum 103 des Fahrzeuges 104 hörbar sind.
  • Durch das Mikrofon 112 aufgenommene Audiosignale 113 werden in elektrische Signale umgewandelt, welche die Audiosignale darstellen. Die elektrischen Signale werden dann der Drahtlos-Kommunikationseinrichtung 102 bereitgestellt. Die Drahtlos-Kommunikationseinrichtung 102 überträgt Radiofrequenzsignale, welche die von dem Mikrofon aufgenommenen elektrischen Signale enthält, an das Drahtlos-Kommunikationsnetzwerk 108, wo sie von dem Netzwerk 108 zu einem herkömmlichen Telefon-Schaltsystem 120 geleitet werden.
  • Das Telefon-Schaltsystem bzw. Netzwerk 120 schaltet oder „routet” die vom Fahrzeug 104 erhaltenen Audiosignale 113 zu einer Kommunikationseinrichtung, wie zum Beispiel einem Mobiltelefon oder einem herkömmlichen Telefon-Handset 122, das sich an einem entfernten Ort 124 befindet, das heißt an einem im Abstand D von dem Fahrzeug 104 entfernten Ort. Die Sprachfrequenz-Kommunikation 113, die zwischen einer Person in dem Fahrzeug 104 und einer Person an dem entfernten Ort 124 stattfindet, findet somit über einen Kommunikationslink oder Kanal statt, der in 1 mit Bezugszeichen „116” gekennzeichnet ist.
  • 2 zeigt ein Blockdiagramm eines Windstoß-Geräusche-und-Sprachpräsenz-Klassifizierers 200 in Übereinstimmung mit Ausführungsformen der Erfindung, der Teil des Freisprech-Audiosystems 105 aus 1 sein kann. In verschiedenen Ausführungsformen umfasst der Windstoß-Geräusche-und-Sprach-Präsenz-Klassifizierer 200 ein oder mehrere Computerprogramme (Computerprogrammanweisungen sowie Daten bzw. Parameter), die in einem nichtflüchtigen Speicher abgespeichert sind und durch eine Mikrosteuerung bzw. einen Mikroprozessor ausgeführt werden. Wenn die Programmanweisungen ausgeführt werden, dann bringen sie den Prozessor dazu, eine Klassifizierung der Windstoß-Geräusche-Präsenz- bzw. -Abwesenheit-Zustände und der Sprachpräsenz-oder-Abwesenheit-Zustände auf Grundlage der Digitaldaten 212 durchzuführen, welche die mit dem Mikrofon 112 erfassten Audiosignale repräsentieren, von denen wenigstens einige dem Mikrofon 112 über den Lautsprecher 114 bereitgestellt werden können.
  • Der Klassifizierer 200 ist dazu ausgebildet, zwischen verschiedenen Sprachpräsenz-oder-Abwesenheit- und Windstoß-Geräusche-Präsenz-oder-Abwesenheit-Zuständen zu unterscheiden. Der Klassifizierer 200 nimmt als einen Eingang Eingaberahmen 202 von dem Mikrofon 112 bzw. von den mehreren Mikrofonen auf. Für das Mikrofon 112 umfasst die Audio-Hardware-Schnittstelle einen herkömmlichen Analog-zu-Digital(A/D)-Umwandler. Der A/D-Umwandler empfängt analoge Spannungen und gibt binäre Zahlen aus, welche die analogen Spannungen repräsentieren.
  • Ein FFT-Modul 204 führt herkömmliche Fast-Fourier-Transformationen an den Eingaberahmen 202 durch und gibt Frequenz-Domain-Darstellungen der Eingaberahmen an ein Wahrscheinlichkeit-der-Sprachpräsenz-Modul 206 und an ein Niedrigfrequenz-Kurzzeit/Langzeit-Energiemodul 208 aus.
  • Das Wahrscheinlichkeit-der-Sprachpräsenz-Modul 206 berechnet Wahrscheinlichkeit-der-Sprachpräsenz-Bewertungen auf Basis der Frequenz-Domain-Darstellungen der Eingaberahmen, die von dem FFT-Modul empfangen worden sind. Das Wahrscheinlichkeit-der-Sprachpräsenz-Modul kann jede geeignete Technik anwenden, einschließlich, jedoch nicht darauf begrenzt, ein Berechnen einer frequenzabhängigen Wahrscheinlichkeit-der-Sprachpräsenz-Bewertung, wie zum Beispiel berechnet in: I. Cohen, „Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging"; IEEE Transactions on Speech and Audio Processing, Band 11, Nr. 5, Seiten 466–475, September 2003.
  • Das Niedrigfrequenz-Kurzzeit/Langzeit-Energiemodul 208 bestimmt einen aktualisierten Langzeit-Durchschnitt der Niedrigfrequenz-Energie (zum Beispiel unterhalb von 300 Hz, und bezeichnet als die Niedrigfrequenz„Energieebene” bzw. Elow, floor), welche eine Darstellung des Niedrigfrequenz-Energie-Inhalts während des Normalzustands (das heißt kein Windstoß) bereitstellt. Zusätzlich wird ein Kurzzeit-Durchschnitt der Energie unterhalb 300 Hz (bezeichnet als Elow) berechnet und aktualisiert, unabhängig vom momentanen Zustand. Unter bestimmten im Folgenden diskutierten Zuständen wird die Kurzzeit-Energie mit der Energieebene verglichen, wobei wenigstens zum Teil basierend auf dem Ergebnis des Vergleichs verschiedene Übergänge zwischen Zuständen auftreten können, wie im Folgenden detailliert beschrieben wird.
  • Ein Zustands-Klassifizierer 210 empfängt die Wahrscheinlichkeit-der-Sprachpräsenz-Bewertung-Information von dem Wahrscheinlichkeit-der-Sprachpräsenz-Modul 206 und die Niedrigfrequenz-Kurzzeit/Langzeit-Energie-Information von dem Niedrigfrequenz-Kurzzeit/Langzeit-Energie-Modul 208, und bestimmt auf Basis dieser Eingänge und wie im Folgenden detailliert beschrieben wird, einen Präsenz- bzw. Abwesenheits-Zustand mit Bezug auf Sprache, und einen Präsenz- oder Abwesenheits-Zustand mit Bezug auf Windstoß-Geräusche.
  • Die Präsenz- oder Abwesenheits-Zustände mit Bezug auf Sprache und mit Bezug auf Windstoß-Geräusche können von dem Freisprech-Audiosystem 105 angewendet werden, um Geräusche bzw. Rauschen auf mehr oder weniger „aggressive” Art und Weise in Abhängigkeit davon auszulöschen, ob Sprache vorhanden ist oder nicht, und abhängig davon, ob Windstoß-Geräusche entweder vorhanden oder nicht vorhanden sind.
  • In Übereinstimmung mit Ausführungsformen der Erfindung kann eine frequenzabhängige Wahrscheinlichkeit der Sprachpräsenz-Bewertung, wie beispielsweise berechnet in: I. Cohen, „Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging IEEE Transactions on Speech and Audio Processing, Band 11, Nr. 5, Seiten 466–475, September 2003, verwendet werden, um Windstoß-Geräusche während Perioden ohne Sprache zu erkennen. Diese Wahrscheinlichkeit variiert kontinuierlich zwischen 0,0 und 1,0 für jede Frequenz. Da diese Wahrscheinlichkeit auf der Abschätzung des Signal-zu-Rauschen-Verhältnisses (SNR) basiert, werden Windstoß-Geräusche zur Folge haben, dass sich die Wahrscheinlichkeit an 1,0 (Sprache) im Niederfrequenzbereich annähert.
  • Wenn jedoch keine Sprache vorhanden ist, dann wird die Wahrscheinlichkeit in den Bereichen mit höheren Frequenzen ziemlich genau gleich Null sein. Diese Information kann für ein genaues Erkennen des Windstoß-keine-Sprache-Zustands verwendet werden.
  • Insbesondere kann plow als die durchschnittliche Wahrscheinlichkeit in dem unteren Frequenzband (zum Beispiel 0 bis 600 Hz) definiert werden, und phigh kann als die durchschnittliche Wahrscheinlichkeit in dem oberen Frequenzband definiert werden (zum Beispiel 600-fs/2 Hz, wobei fs die Abtastfrequenz ist). Die Differenz zwischen der Niedrigfrequenz- und Hochfrequenz-Sprache-Wahrscheinlichkeit-Präsenz kann dann berechnet werden als pdiff = plow – phigh.
  • 3 stellt eine Matrix dar, die die Wahrscheinlichkeitswerte zeigt, die für jeden der vier möglichen Zustände erwartet werden, nämlich Windstoß-Sprache, Kein-Windstoß-Sprache, und Windstoß-keine-Sprache, und Kein-Windstoß-keine-Sprache.
  • 4 stellt ein Zustandsdiagramm dar, das Bedingungen für Übergänge zwischen den vier Zuständen zeigt.
  • Unter Verwendung der Wahrscheinlichkeit der Sprachpräsenz-Bewertung kann der Windstoß-keine-Sprache-Zustand 404 genau erfasst werden. Jedoch ist die Wahrscheinlichkeit der Sprachpräsenz für sich genommen unzureichend für eine Unterscheidung zwischen der Windstoß-Sprache-410 und einem der Kein-Windstoß-Zustände 428 und 434.
  • Jedoch ist davon auszugehen, dass, falls ein Windstoß auftritt, dieser während sowohl Sprache- als auch Nicht-Sprache-Segmenten auftritt, um eine Unterscheidung von den anderen möglichen Zuständen zu unterstützen. Das heißt, die Wahrscheinlichkeitsdifferenz kann als das Kriterium für einen Eintritt in den Windstoß-keine-Sprache-Zustand 404 verwendet werden, wobei dann weitere Informationen (zum Beispiel Niedrigfrequenz-Energie) verwendet werden können, um zu bestimmen, wann in den Windstoß-Sprache-Zustand 410 oder in einen der Kein-Windstoß-Zustände 428 und 434 überzugehen ist, sowie die Wahrscheinlichkeits-Differenz-Kriterien nicht länger erfüllt sind.
  • Aufgrund der Natur von Windstoß-Geräuschen und ihrer Häufung in den unteren Frequenzen können die Niedrigfrequenz-Energie-Werte zur Bestimmung verwendet werden, in welchen Zustand von dem Windstoß-keine-Sprache-Zustand 404 überzugehen ist, sobald das Sprache-Wahrscheinlichkeit-Unterschied-Kriterium Pdiff > T1 nicht länger erfüllt ist. Falls es weiterhin ein großes Maß an Niedrigfrequenz-Energie im Vergleich zu der Kein-Windstoß-Niedrigfrequenz-Energie gibt, dann sollte ein Übergang 406 in den Windstoß-Sprache-Zustand 410 auftreten; ansonsten sollte ein Übergang 416 oder 420 in einen der Kein-Windstoß-Zustände 428 oder 434 aufgrund des Erfassens von normaler Niedrigfrequenz-Energie auftreten.
  • Insbesondere wird während des Kein-Windstoß-keine-Sprache-Zustands 434 ein Langzeit-Durchschnitt der Niedrigfrequenz-Energie (beispielsweise unterhalb 300 Hz, und als die Niedrigfrequenz-„Energieebene” bzw. Elow, floor bezeichnet) aktualisiert und stellt eine Darstellung der Niedrigfrequenz-Energie des Hintergrundrauschen-Inhalts während des Normalzustands (das heißt kein Windstoß) bereit. Zusätzlich wird ein Kurzzeit-Durchschnitt der Energie unterhalb 300 Hz (bezeichnet als Elow) berechnet und aktualisiert, ungeachtet des momentanen Zustands. Falls der momentane Zustand einer der Windstoß-Zustände ist, und die Wahrscheinlichkeit-Unterschied-Kriterien nicht länger erfüllt werden, dann wird die Kurzzeit-Energie mit der Energieebene verglichen. Falls die Kurzzeit-Energie größer als die Energieebene ist, dann findet ein Übergang 406 in den Windstoß-Sprache-Zustand 410 statt; ansonsten, wenn die Kurzzeit-Energie kleiner als oder gleich der Energie-Ebene ist, findet ein Übergang 416 oder 420 in einen der Kein-Windstoß-Zustände statt (das heißt Kein-Windstoß-keine-Sprache 434 oder Kein-Windstoß-Sprache 428), auf Basis der Wahrscheinlichkeit der Sprachpräsenz in dem Hochfrequenz-Bereich (phigh), die entweder kleiner als oder größer als ein jeweiliger zweiter Schwellenwert T2 ist.
  • Eine Ausführungsform beginnt in dem Kein-Windstoß-keine-Sprache-Zustand 434, da es anfänglich noch keine Information über das Vorhandensein von Sprache oder Windstoß-Geräuschen gibt. Von dem Kein-Windstoß-keine-Sprache-Zustand 434 kann ein Übergang 418 zu dem Windstoß-keine-Sprache-Zustand 404 auftreten auf Basis der Wahrscheinlichkeit der Sprachpräsenz, was das Hauptmaß ist, das für Übergänge in diesen Zustand und aus diesem Zustand heraus verwendet wird. Für diesen Übergang 418 werden die anderen Parameter nicht angewendet.
  • Das heißt, von dem Kein-Windstoß-keine-Sprache-Zustand 434 findet, falls Windstoßen erkannt worden ist, ein Übergang 418 in den Windstoß-keine-Sprache-Zustand 404 statt. Andererseits gibt es keinen Übergang 436 von dem momentanen Kein-Windstoß-keine-Sprache-Zustand, oder, falls die Wahrscheinlichkeit der Sprachpräsenz in dem Hochfrequenz-Bereich (phigh) anzeigt, dass Sprache möglicherweise vorhanden ist, es findet ein Übergang 432 in den Kein-Windstoß-Sprache-Zustand 428 statt.
  • Das heißt, für den Zweck der Windstoß-Erkennung existiert tatsächlich kein großer Unterschied zwischen den Kein-Windstoß-Zuständen 428 und 434, da sie beide auf nicht erkannten Windstoß-Geräuschen basiert sind. Beide Übergänge 414 oder 418 in den Windstoß-keine-Sprache-Zustand können auf dem Wahrscheinlichkeitsunterschied-Schwellenwert pdiff basieren, der größer als T1 ist.
  • Es gibt keinen Übergang von dem Kein-Windstoß-keine-Sprache-Zustand 434 direkt in den Windstoß-Sprache-Zustand 410, da die Wahrscheinlichkeit der Sprachpräsenz keine ausreichende Information für einen solchen Übergang enthält. Ein Auftreten von Windstoßen „sieht” für die Wahrscheinlichkeitsbewertung wie Sprache aus. Das heißt, dass sich möglicherweise in dem unteren Frequenzbereich Sprache befindet. Jedoch ist nicht bekannt, ob sich auch Sprache in dem oberen Frequenzbereich befindet. Tatsächlich muss kein Windstoßen vorhanden sein. Lediglich Sprache könnte vorhanden sein.
  • Bei Eintritt in den Windstoß-keine-Sprache-Zustand 404 können Windstoß-Geräusche auf wirksame Weise unterdrückt werden. Im Vergleich zu dem Windstoß-Sprache-Zustand kann eine noch wirksamere Rausch- bzw. Geräuscheunterdrückung in dem Windstoß-keine-Sprache-Zustand angewendet werden, da keine Sprache vorhanden, die sich hinsichtlich des Frequenzbereichs mit den Windstoß-Geräuschen überdeckt. Diese wirksame Unterdrückung im Windstoß-keine-Sprache-Zustand 404 könnte eine Form annehmen, bei der der gesamte Inhalt unterhalb einer Abschneidefrequenz (das heißt im Falle eines Hochpassfilters) entfernt oder deutlich abgeschwächt wird. Wenn jedoch versucht wird, Windstoß-Geräusche bei gleichzeitiger Präsenz von Sprache zu entfernen, dann wäre eine solche Hochpass-Filtertechnik nicht wünschenswert, da sowohl Sprache als auch Windstoß-Geräusche in dem unteren Frequenzbereich entfernt werden. Deshalb ist es nützlich, zwischen diesen zwei Windstoß-Zuständen 404 und 410 zu unterscheiden, so dass unterschiedliche Unterdrückungstechniken angewendet werden können. Wie mit Bezugszeichen 402 gezeigt ist, solange die Unterschiedskriterien erfüllt sind, das heißt, dass die Niedrigfrequenz-Wahrscheinlichkeit der Sprachpräsenz deutlich höher als die höhere Frequenz-Wahrscheinlichkeit der Sprachpräsenz ist, gibt es keinen Übergang weg von dem Windstoß-keine-Sprache-Zustand 404. Wenn die Bedingung nicht länger erfüllt ist, kann eine Bestimmung mit Bezug darauf gemacht werden, ob: (1) es noch Windstoßen mit der vorhandenen Sprache gibt; oder (2) es kein Windstoßen mit oder ohne Sprache gibt. Die Niedrigfrequenz-Kurzzeit/Langzeit-Energie kann in Verbindung mit der Wahrscheinlichkeit der Sprachpräsenz in dem oberen Frequenzbereich dazu verwendet werden, um diese Bestimmung auszuführen.
  • Wie mit Bezugszeichen 406 gezeigt ist, tritt ein Übergang von dem Windstoß-keine-Sprache-Zustand 404 in den Windstoß-Sprache-Zustand 410 auf, wenn die Kurzzeit-Niedrigfrequenz-Energie größer als die Langzeit-Niedrigfrequenz-Energie-„Ebene” ist, was darauf hindeutet, dass es noch ein hohes Maß an Niedrigfrequenz-Inhalt gibt.
  • Ein weiterer Übergang in einen Sprache-Zustand von dem Windstoß-keine-Sprache-Zustand 404 ist bei 416 gezeigt, was einen Übergang in den Kein-Windstoß-Sprache-Zustand 428 darstellt. Der Übergang 416 unterscheidet sich von dem Übergang 406 dahingehend, dass die Kurzzeit-Niedrigfrequenz-Energie kleiner ist als die Langzeit-Niedrigfrequenz-Energie-„Ebene”. Bei dem Übergang 416 ist Sprache vorhanden, jedoch ist die Niedrigfrequenz-Energie jetzt kleiner als zuvor. Das bedeutet, dass wahrscheinlich Windstoßen vorhanden war, und jetzt nicht mehr vorhanden ist, da die Kurzzeit-Niedrigfrequenz-Energie kleiner als die Langzeit-Niedrigfrequenz-Energie ist.
  • Die Übergänge 406 und 416 sind Haupt-Übergänge von dem Windstoß-keine-Sprache-Zustand 404 in einen der Sprache-Zustände 410 und 428. Es wird eine Bestimmung durchgeführt, ob noch Windstoßen vorhanden ist oder nicht.
  • Ein Übergang 420 von dem Windstoß-keine-Sprache-Zustand 404 in den Kein-Windstoß-keine-Sprache-Zustand 434 tritt beim Aufhören des Windstoßens auf. Das heißt, die pdiff-Bedingung ist nicht erfüllt, jedoch dieses Mal aus einem unterschiedlichen Grund. Der Übergang 420 basiert darauf, dass Pdiff den Schwellenwert T1 nicht länger überschreitet, welcher der Haupt-Schwellenwert ist, so dass, wenn Pdiff den Schwellenwert überschreitet, kein Übergang von dem Windstoß-keine-Sprache-Zustand 404 auftritt. Dann ist zusätzlich der Elow-Wert kleiner als der Elow, floor-Wert. Jedoch entspricht der Unterschied zwischen dem Übergang 416 und dem Übergang 420 der Wahrscheinlichkeit der Sprache in den oberen Frequenzbereichen. Das heißt, wenn die Wahrscheinlichkeit der Sprache in den oberen Bereichen auf ein Auftreten von Sprache hindeutet, dann findet der Übergang 416 in den Kein-Windstoß-Sprache-Zustand 428 statt. Falls die Wahrscheinlichkeit der Sprache in den oberen Bereichen darauf hindeutet, dass keine Sprache auftritt, dann findet der Übergang 420 in den Kein-Windstoß-keine-Sprache-Zustand 434 statt.
  • Ein Eintritt in den Windstoß-keine-Sprache-Zustand 404 kann über Übergänge 414, 418 oder 408 stattfinden, und zwar mit einem relativ hohen Maß an Sicherheit auf Basis des Wahrscheinlichkeitsunterschiedes Pdiff, der den Schwellenwert T1 überschreitet. Wobei dann die Wahrscheinlichkeit in dem oberen Frequenzbereich und die Energie in dem unteren Bereich angewendet werden können, um einen Übergang weg von dem Windstoß-keine-Sprache-Zustand 404 zu vollführen, sobald das Wahrscheinlichkeitsunterschied-Kriterium nicht länger erfüllt ist. Es werden dann Bestimmungen dahingehend durchgeführt, ob noch ein Windstoßen vorhanden ist, und ob Sprache vorhanden ist. Zwei zusätzliche Eingaben können verwendet werden, nämlich die Wahrscheinlichkeit der Sprachpräsenz in dem hohen Frequenzbereich und die Kurzzeit-Niedrigfrequenz-Energie gegenüber der Langzeit-Niedrigfrequenz-Energie.
  • Zusätzliche Übergänge und Nicht-Übergänge sind in 4 dargestellt. Beispielsweise verbleibt ein Nicht-Übergang 412 in dem Windstoß-Sprache-Zustand, während Pdiff < T1 und Elow > Elow, floor ist. Übergänge 422 treten auf, wenn Pdiff < T1, Elow < Elow, floor und Phigh < T2 sind. Übergang 424 tritt auf, wenn Pdiff < T1, Elow < Elow, floor und Phigh < T2 sind. Nicht-Übergang 426 tritt auf, wenn Pdiff < T1 und Phigh > T2 sind. Und Übergang 430 tritt auf, wenn Pdiff < T1 und Phigh < T2 sind.
  • Eine Ausführungsform wird typischerweise mit Puffern von 10 ms betrieben. Die Zeitdauer, die zwischen Zustandsübergängen verstreicht, könnte so gering wie 10 ms sein. Konstruktionsbedingte Aspekte, beispielsweise um Schwankungen zu vermeiden, werden typischerweise eine längere Dauer erfordern, um vor einem Übergang in einen nächsten Zustand in einem bestimmten Zustand zu verbleiben.
  • In einer Ausführungsform ist die Dauer des Kurzzeit-Durchschnitts in der Größenordnung von 500 ms, und die Dauer des Langzeit-Durchschnitts ist in der Größenordnung von 5 s. Selbstverständlich können auch andere geeignete Zeitdauern verwendet werden.
  • In einer Ausführungsform treten Windstoß-Geräusche hauptsächlich in der Niedrigfrequenz-Energie auf, beispielsweise unterhalb etwa 300 Hz, was experimentell als eine wirksame Abschneidefrequenz ermittelt wurde. Sprache tendiert dazu, eine geringere oder keine Windstoß-Geräusche-Energie im Bereich von 600 Hz und darüber zu umfassen. Selbstverständlich können weitere geeignete Abschneidefrequenzen verwendet werden.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • I. Cohen, „Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging”; IEEE Transactions on Speech and Audio Processing, Band 11, Nr. 5, Seiten 466–475, September 2003 [0025]
    • I. Cohen, „Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging IEEE Transactions on Speech and Audio Processing, Band 11, Nr. 5, Seiten 466–475, September 2003 [0029]

Claims (13)

  1. Vorrichtung, umfassend: ein schnelle-Fourier-Transformation-Modul, das dazu ausgebildet ist, schnelle Fourier-Transformationen von digitalisierten Sprachdaten zu berechnen; einen Wahrscheinlichkeit-einer-Sprachpräsenz-Abschätzer, der dazu ausgebildet ist, eine durchschnittliche Wahrscheinlichkeit einer Sprachpräsenz-Bewertung in einem unteren Frequenzband und eine Wahrscheinlichkeit einer Sprachpräsenz-Bewertung in einem oberen Frequenzband auf Basis der schnellen Fourier-Transformationen der digitalisierten Sprachdaten zu berechnen; einen Niedrig-Frequenz-Kurzzeit/Langzeit-Energieberechner, der dazu ausgebildet ist, eine Langzeit-Energieebene auf Basis der schnellen Fourier-Transformationen der digitalisierten Sprachdaten und einen Kurzzeit-Durchschnitt der Energie unterhalb einer Windstoß-Abschneidefrequenz zu berechnen; einen Zustandsklassifizierer, der dazu ausgebildet ist: in einem Kein-Windstoß-keine-Sprache-Zustand zu starten; zu einem Windstoß-keine-Sprache-Zustand überzugehen in Antwort auf ein Bestimmen, dass für die digitalisierten Sprachdaten ein Wahrscheinlichkeitsunterschied zwischen der durchschnittlichen Wahrscheinlichkeit der Sprachpräsenz-Bewertung in einem unteren Frequenzband und der Wahrscheinlichkeit der Sprachpräsenz-Bewertung in einem oberen Frequenzband einen ersten Schwellenwert überschreitet; in Antwort auf das Bestimmen, dass der Wahrscheinlichkeitsunterschied den ersten Schwellenwert nicht weiter überschreitet, von dem Windstoß-keine-Sprache-Zustand zu einem Zustand überzugehen, der ausgewählt ist aus: Windstoß-Sprache, Kein-Windstoß-Sprache, und Kein-Windstoß-keine-Sprache; und wobei der Zustand, der in den/von dem Windstoß-keine-Sprache-Zustand übergegangen ist, abhängt von, wenigstens zum Teil, einem Unterschied zwischen der berechneten Kurzzeit-Niedrigfrequenz-Energie der digitalisierten Sprachdaten und der Langzeit-Energieebene.
  2. Vorrichtung nach Anspruch 1, wobei das untere Frequenzband von etwa 0 Hz bis zu einer Sprache-Abschneidefrequenz reicht, insbesondere 600 Hz, und das obere Frequenzband etwa von der Sprache-Abschneidefrequenz bis zu einer Hälfte einer Abtastfrequenz der digitalisierten Sprachdaten reicht.
  3. Vorrichtung nach einem der vorangehenden Ansprüche, wobei die Windstoß-Abschneidefrequenz etwa 300 Hz beträgt.
  4. Vorrichtung nach einem der vorangehenden Ansprüche, wobei der Zustandsklassifizierer weiterhin derart ausgebildet ist, während er entweder in dem Windstoß-keine-Sprache-Zustand oder in dem Windstoß-Sprache-Zustand ist, und sobald der Wahrscheinlichkeitsunterschied den ersten Schwellenwert nicht weiter überschreitet, falls die Kurzzeit-Energie höher ist als die Langzeit-Energieebene, in den Windstoß-Sprache-Zustand überzugehen.
  5. Vorrichtung nach einem der vorangehenden Ansprüche, wobei der Zustandsklassifizierer weiterhin dazu ausgebildet ist, während er entweder in dem Windstoß-keine-Sprache-Zustand oder in dem Windstoß-Sprache-Zustand ist, und sobald der Wahrscheinlichkeitsunterschied den ersten Schwellenwert nicht weiter überschreitet, falls die Kurzzeit-Energie kleiner als die Energie-Ebene ist, in den kein-Windstoß-keine-Sprache-Zustand überzugehen auf Basis der Wahrscheinlichkeit der Sprachpräsenz in dem Hochfrequenzbereich, wobei die Wahrscheinlichkeit kleiner als ein zweiter Schwellenwert ist.
  6. Vorrichtung nach einem der vorangehenden Ansprüche, wobei der Zustandsklassifizierer weiterhin dazu ausgebildet ist, während er entweder in dem Windstoß-keine-Sprache-Zustand oder in dem Windstoß-Sprache-Zustand ist, und sobald der Wahrscheinlichkeitsunterschied den ersten Schwellenwert nicht weiter überschreitet, falls die Kurzzeit-Energie kleiner als die Energie-Ebene ist, in den kein-Windstoß-Sprache-Zustand überzugehen auf Basis auf der Wahrscheinlichkeit der Sprachpräsenz in dem Hochfrequenzbereich, wobei die Wahrscheinlichkeit größer als ein zweiter Schwellenwert ist.
  7. Verfahren, umfassend: Beginnen in einem Kein-Windstoß-keine-Sprache-Zustand und, wenn in dem Kein-Windstoß-keine-Sprache-Zustand, Berechnen einer Energie-Ebene auf Basis einer Langzeit-Niedrigfrequenz-Energie digitalisierter Sprachdaten; Übergehen zu einem Windstoß-keine-Sprache-Zustand in Antwort auf ein Bestimmen, dass, für die digitalisierten Sprachdaten, ein Wahrscheinlichkeitsunterschied zwischen einer durchschnittlichen Wahrscheinlichkeit der Sprachpräsenz-Bewertung in einem unteren Frequenzband und einer Wahrscheinlichkeit Sprachpräsenz-Bewertung in einem oberen Frequenzband einen ersten Schwellenwert überschreitet; Berechnen eines Kurzzeit-Durchschnitts der Energie unterhalb einer Windstoß-Abschneidefrequenz; in Antwort auf das Bestimmen, dass der Wahrscheinlichkeitsunterschied nicht weiter den ersten Schwellenwert überschreitet, Übergehen von dem Windstoß-keine-Sprache-Zustand in einen Zustand ausgewählt von: Windstoß-Sprache, Kein-Windstoß-Sprache, und Kein-Windstoß-keine-Sprache; und wobei der Zustand, der zu/von dem Windstoß-keine-Sprache-Zustand übergegangen ist, abhängt von, wenigstens zum Teil, einem Unterschied zwischen der berechneten Kurzzeit-Niedrigfrequenz-Energie der digitalisierten Sprachdaten und der Energie-Ebene.
  8. Verfahren nach Anspruch 7, wobei das untere Frequenzband von etwa 0 Hz bis zu einer Sprache-Abschneidefrequenz, insbesondere 600 Hz, reicht, wobei das höhere Frequenzband etwa von der Sprache-Abschneidefrequenz zu einer Hälfte einer Abtastfrequenz der digitalisierten Sprachdaten reicht.
  9. Verfahren nach einem der vorangehenden verfahrensbasierten Ansprüche, wobei die Windstoß-Abschneidefrequenz etwa 300 Hz beträgt.
  10. Verfahren nach einem der vorangehenden verfahrensbasierten Ansprüche, wobei, während entweder in dem Windstoß-keine-Sprache-Zustand oder in dem Windstoß-Sprache-Zustand, und sobald der Wahrscheinlichkeitsunterschied den ersten Schwellenwert nicht weiter überschreitet, falls die Kurzzeit-Energie höher ist als die Langzeit-Energieebene, in den Windstoß-Sprache-Zustand übergegangen wird.
  11. Verfahren nach einem der vorangehenden verfahrensbasierten Ansprüche, wobei, während entweder in dem Windstoß-keine-Sprache-Zustand oder in dem Windstoß-Sprache-Zustand, und sobald der Wahrscheinlichkeitsunterschied den ersten Schwellenwert nicht weiter überschreitet, falls die Kurzzeit-Energie kleiner als die Energie-Ebene ist, in den kein-Windstoß-keine-Sprache-Zustand übergegangen wird auf Basis der Wahrscheinlichkeit der Sprachpräsenz in dem Hochfrequenzbereich, wobei die Wahrscheinlichkeit kleiner als ein zweiter Schwellenwert ist.
  12. Verfahren nach einem der vorangehenden verfahrensbasierten Ansprüche, wobei, während entweder in dem Windstoß-keine-Sprache-Zustand oder in dem Windstoß-Sprache-Zustand, und sobald der Wahrscheinlichkeitsunterschied den ersten Schwellenwert nicht weiter überschreitet, falls die Kurzzeit-Energie kleiner als die Energie-Ebene ist, in den Kein-Windstoß-Sprache-Zustand übergegangen wird auf Basis auf der Wahrscheinlichkeit der Sprachpräsenz in dem Hochfrequenzbereich, wobei die Wahrscheinlichkeit größer als ein zweiter Schwellenwert ist.
  13. Nicht-flüchtiges computerlesbares Medium mit darauf abgespeicherten Computer-ausführbaren Anweisungen, die bei Ausführung durch einen Prozessor Schritte eines Verfahrens nach einem der Ansprüche 7 bis 12 durchführen.
DE102016203482.0A 2015-03-27 2016-03-03 Echtzeit-Windstoß-Geräusch-Erkennung Pending DE102016203482A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/670,887 2015-03-27
US14/670,887 US9330684B1 (en) 2015-03-27 2015-03-27 Real-time wind buffet noise detection

Publications (1)

Publication Number Publication Date
DE102016203482A1 true DE102016203482A1 (de) 2016-09-29

Family

ID=53488802

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102016203482.0A Pending DE102016203482A1 (de) 2015-03-27 2016-03-03 Echtzeit-Windstoß-Geräusch-Erkennung

Country Status (4)

Country Link
US (1) US9330684B1 (de)
CN (1) CN106024018B (de)
DE (1) DE102016203482A1 (de)
GB (1) GB2558164A (de)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105913854B (zh) * 2016-04-15 2020-10-23 腾讯科技(深圳)有限公司 语音信号级联处理方法和装置
US10462567B2 (en) 2016-10-11 2019-10-29 Ford Global Technologies, Llc Responding to HVAC-induced vehicle microphone buffeting
US10186260B2 (en) 2017-05-31 2019-01-22 Ford Global Technologies, Llc Systems and methods for vehicle automatic speech recognition error detection
US10525921B2 (en) 2017-08-10 2020-01-07 Ford Global Technologies, Llc Monitoring windshield vibrations for vehicle collision detection
US10049654B1 (en) 2017-08-11 2018-08-14 Ford Global Technologies, Llc Accelerometer-based external sound monitoring
US10308225B2 (en) 2017-08-22 2019-06-04 Ford Global Technologies, Llc Accelerometer-based vehicle wiper blade monitoring
US10562449B2 (en) 2017-09-25 2020-02-18 Ford Global Technologies, Llc Accelerometer-based external sound monitoring during low speed maneuvers
US10479300B2 (en) 2017-10-06 2019-11-19 Ford Global Technologies, Llc Monitoring of vehicle window vibrations for voice-command recognition

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6480823B1 (en) * 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
CN1426048A (zh) * 2001-12-13 2003-06-25 中国科学院自动化研究所 基于熵的端点检测方法
US7895036B2 (en) * 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US20100082339A1 (en) * 2008-09-30 2010-04-01 Alon Konchitsky Wind Noise Reduction
US8380497B2 (en) * 2008-10-15 2013-02-19 Qualcomm Incorporated Methods and apparatus for noise estimation
US8600073B2 (en) * 2009-11-04 2013-12-03 Cambridge Silicon Radio Limited Wind noise suppression
US8781137B1 (en) * 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9330675B2 (en) 2010-11-12 2016-05-03 Broadcom Corporation Method and apparatus for wind noise detection and suppression using multiple microphones
US8983833B2 (en) 2011-01-24 2015-03-17 Continental Automotive Systems, Inc. Method and apparatus for masking wind noise
JP5744236B2 (ja) * 2011-02-10 2015-07-08 ドルビー ラボラトリーズ ライセンシング コーポレイション 風の検出及び抑圧のためのシステム及び方法
US9443511B2 (en) * 2011-03-04 2016-09-13 Qualcomm Incorporated System and method for recognizing environmental sound
WO2012158156A1 (en) * 2011-05-16 2012-11-22 Google Inc. Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood
CN103165137B (zh) * 2011-12-19 2015-05-06 中国科学院声学研究所 一种非平稳噪声环境下传声器阵列的语音增强方法
US9099098B2 (en) * 2012-01-20 2015-08-04 Qualcomm Incorporated Voice activity detection in presence of background noise
US20150058002A1 (en) 2012-05-03 2015-02-26 Telefonaktiebolaget L M Ericsson (Publ) Detecting Wind Noise In An Audio Signal
FR3002679B1 (fr) * 2013-02-28 2016-07-22 Parrot Procede de debruitage d'un signal audio par un algorithme a gain spectral variable a durete modulable dynamiquement
CN203165457U (zh) * 2013-03-08 2013-08-28 华南理工大学 一种可用于强噪声环境的语音采集装置
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
I. Cohen, „Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging"; IEEE Transactions on Speech and Audio Processing, Band 11, Nr. 5, Seiten 466–475, September 2003

Also Published As

Publication number Publication date
CN106024018B (zh) 2022-06-03
GB201507248D0 (en) 2015-06-10
GB2558164A (en) 2018-07-11
US9330684B1 (en) 2016-05-03
CN106024018A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
DE102016203482A1 (de) Echtzeit-Windstoß-Geräusch-Erkennung
DE102017116528B4 (de) Verfahren und Vorrichtung zur Audiosignal-Qualitätsverbesserung basierend auf quantitativer SNR-Analyse und adaptiver Wiener-Filterung
DE112012000052B4 (de) Verfahren und Vorrichtung zum Ausblenden von Windgeräuschen
DE102014100407B4 (de) Geräuschminderungsvorrichtungen und Geräuschminderungsverfahren
DE112014006865B4 (de) Echounterdrücker
DE112011104737B4 (de) Geräuschunterdrückungsvorrichtung
DE4330143A1 (de) Anordnung zur Siganlverarbeitung akustischer Eingangssignale
DE102015110935A1 (de) Adaptive Fahrzeugzustandsbasierte Freisprechtelefon-Geräuschreduktion mit Lernfähigkeit
DE102015111400A1 (de) Fahrzeugzustandsbasierte Freisprechtelefon-Geräuschreduktion mit Lernfähigkeit
DE102014214052A1 (de) Virtuelle Verdeckungsmethoden
DE102016225204B4 (de) Verfahren zum Betrieb eines Hörgerätes
DE102013111784B4 (de) Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
DE102015117380B4 (de) Selektive Geräuschunterdrückung während automatischer Spracherkennung
EP3337189A1 (de) Verfahren zum bestimmen einer richtung einer nutzsignalquelle
DE102019102090A1 (de) Fahrzeuginterne medienstimmunterdrückung
DE102016217026A1 (de) Sprachsteuerung eines Kraftfahrzeugs
DE102014221528B4 (de) Akkurate Vorwärts-SNR-Schätzung basierend auf MMSE-Sprachpräsenzwahrscheinlichkeit
DE10043064A1 (de) Verfahren und Vorrichtung zur Elimination von Lautsprecherinterferenzen aus Mikrofonsignalen
DE102022106036A1 (de) Kontextabhängige signalaufbereitung für den sprachassistenten im fahrzeug
EP2416593A1 (de) Verfahren zur Innenraumkommunikation
DE102022103057B3 (de) Verfahren zum Bereitstellen einer Geräuschunterdrückungsfunktion in einem Kraftfahrzeug und Kraftfahrzeug
DE102014210760B4 (de) Betrieb einer Kommunikationsanlage
EP1445761B1 (de) Einrichtung und Verfahren zum Betrieb von sprachunterstützten Systemen in Kraftfahrzeugen
DE102008007240A1 (de) Verfahren zur automatischen Kontrolle mindestens eines akustischen Parameters
DE102004035988A1 (de) Notrufsystem für ein Personentransportsystem, insbesondere für ein Kraftfahrzeug, und Verfahren zur automatischen Übermittlung eines Notrufes

Legal Events

Date Code Title Description
R082 Change of representative

Representative=s name: BONN, ROMAN, DIPL.-ING. DR.-ING., DE

R012 Request for examination validly filed