DE102016203482A1

DE102016203482A1 - Echtzeit-Windstoß-Geräusch-Erkennung

Info

Publication number: DE102016203482A1
Application number: DE102016203482.0A
Authority: DE
Inventors: Matthew R. Kirsch
Original assignee: Continental Automotive Systems Inc
Current assignee: Continental Automotive Systems Inc
Priority date: 2015-03-27
Filing date: 2016-03-03
Publication date: 2016-09-29
Also published as: CN106024018B; GB201507248D0; GB2558164A; US9330684B1; CN106024018A

Abstract

Windstoß-Geräusche in einem Mikrofonsignal werden unter Verwendung einer Pro-Frequenz-Wahrscheinlichkeit einer Sprachbewertung als auch einer Kurzzeit- und Langzeit-Niedrigfrequenz-Energie erkannt. Bei Verwendung der Wahrscheinlichkeit der Sprachpräsenz-Bewertung kann der Windstoß-keine-Sprache-Zustand genau erkannt werden. Jedoch ist die Wahrscheinlichkeit der Sprachpräsenz an und für sich unzureichend für eine Unterscheidung zwischen dem Windstoß-Sprache-Zustand und einem der Kein-Windstoß-Zustände. Es kann angenommen werden, dass, falls ein Windstoß auftritt, dieser während sowohl Sprache- als auch Nicht-Sprache-Segmenten auftritt, um eine Unterscheidung zwischen den anderen möglichen Zuständen zu unterstützen. Das heißt, der Wahrscheinlichkeits-Unterschied kann als das Kriterium für einen Eintritt in den Windstoß-keine-Sprache-Zustand verwendet werden, wobei dann einige andere Informationen (zum Beispiel Niedrigfrequenz-Energie) verwendet werden können, um zu bestimmen, wann ein Übergang zu dem Windstoß-Sprache-Zustand oder zu einem der Kein-Windstoß-Zustände stattfinden soll, sobald die Wahrscheinlichkeitsunterschied-Kriterien nicht länger erfüllt sind.

Description

Hintergrund
Freisprech-Audiosysteme in Kraftfahrzeugen können ohne Zuhilfenahme der Hände (beispielsweise über Sprachbefehle) verwendet werden, oder, in einem weiteren Sinne, unter relativ eingeschränkter Zuhilfenahme der Hände, so dass der Fahrer ein Telefon-Handteil nicht in seiner Hand halten muss, während er das Kraftfahrzeug lenkt.
Freisprech-Audiosysteme für Fahrzeuge benutzen meistens einen oder mehrere der Fahrzeuglautsprecher, um die Stimme des Gesprächsteilnehmers am anderen Ende zu übertragen, und ein oder mehrere Mikrofone in dem Fahrzeug, um die Stimme des Fahrers und/oder die Stimme oder Stimmen eines oder mehrerer Passagiere während der Telefonate aufzunehmen.
Ein Mobiltelefon ist meistens über Bluetooth mit einer Fahrzeug-Audiosystem-Kopfeinheit bzw. einer Telematikeinheit in dem Fahrzeug verbunden. Auch könnte die Kopfeinheit bzw. Telematikeinheit ihre eigene Netzwerkzugriffseinrichtung (NAD) aufweisen. In einem solchen System wird, wenn das Mikrofonsignal durch das System läuft, das Signal bearbeitet und an die Person am anderen Ende über das Mobiltelefon oder NAD gesendet. Die Sprache von der Gegenseite kommt über das Telefon (über Bluetooth) oder NAD, wird bearbeitet und kommt dann über die Lautsprecher.
Am Mikrofon im Fahrzeug können Nahnebensprechen, Hintergrundgeräusche oder -rauschen, Windgeräusche und Echo vorhanden sein, was als Hörsignal aus den Audiosystem-Lautsprechern kommt, und was außerdem über das Mikrofon aufgefangen wird. Wenn die Person auf der Gegenseite spricht, dann möchte diese Person nicht ihr Echo, Straßen- oder Windgeräusche hören. Deshalb wird das Echo (Widerhall) typischerweise ausgelöscht, die Straßengeräusche werden typischerweise unterdrückt, was die üblichen Maßnahmen sind, jedoch würden, bei Verwendung eines Fahrzeug-Freisprech-Audiosystems, verbesserte Techniken für ein Identifizieren von Windstoß-Geräuschen (auch als Wummern bezeichnet) zur besseren Unterdrückung der selben die Klangqualität auf der Gegenseite von Telefonaten verbessern.
Kurze Zusammenfassung
In Übereinstimmung mit Ausführungsformen der Erfindung werden Windstoß-Geräusche in einem Mikrofonsignal unter Verwendung einer Pro-Frequenz-Wahrscheinlichkeit (d. h. Wahrscheinlichkeit je Frequenz) einer Sprachbewertung als auch einer Kurzzeit- und Langzeit-Niedrigfrequenzenergie erkannt. Unter Verwendung der Wahrscheinlichkeit der Sprachpräsenz-Bewertung kann der Windstoß-keine-Sprache-Zustand genau erfasst werden. Jedoch ist die Wahrscheinlichkeit von Sprachpräsenz für sich genommen unzureichend für eine Unterscheidung zwischen dem Windstoß-Sprache-Zustand und einem der Kein-Windstoß-Zustände. Es ist anzunehmen, dass, falls ein Windstoß auftritt, dieser sowohl während Sprache- als auch Nicht-Sprache-Segmenten auftritt, um eine Unterscheidung zwischen den anderen möglichen Zuständen zu unterstützen. Das heißt, der Wahrscheinlichkeits-Unterschied kann als die Kriterien für ein Eintreten in den Windstoß-keine-Sprache-Zustand verwendet werden, wobei dann einige andere Informationen (zum Beispiel Niedrigfrequenz-Energie) für eine Bestimmung verwendet werden können, wann in den Windstoß-Sprache-Zustand oder in einen der Kein-Windstoß-Zustände überzugehen ist, sobald das Wahrscheinlichkeits-Unterschied-Kriterium nicht länger erfüllt wird.
Kurze Beschreibung der Zeichnungen
1 zeigt eine beispielhafte Betriebsumgebung 100 für Ausführungsformen der Erfindung.
2 zeigt ein Blockdiagramm eines Windstoß-Geräusche- und Sprachpräsenz-Klassifizierers 200 in Übereinstimmung mit Ausführungsformen der Erfindung.
3 zeigt eine Matrix, die die Wahrscheinlichkeitswerte aufzeigt, die für jeden der vier möglichen Zustände erwartet werden.
4 zeigt ein Zustandsdiagramm, das Zustände für Übergänge zwischen den vier Zuständen darstellt.
Detaillierte Beschreibung
Windstoß-Geräusche können aus unterschiedlichen Situationen in einem Kraftfahrzeug herrühren, einschließlich, jedoch nicht darauf beschränkt: Ein Schiebedach, das aufgestellt ist, ein oder mehrere offene Fenster, ein Klimaanlagengebläse ist auf einer hohen Stufe eingestellt und zum Mikrofon gerichtet, und dergleichen. Windstoß-Geräusche bestehen im Wesentlichen aus Luftstößen, die auf das Mikrofon treffen. Das Windstoßen klingt wie ein niederfrequentes Poltergeräusch, das hin und wieder auftritt und dann wieder verschwindet.
Windstoß-Geräusche treten allgemein im Niedrigfrequenz-Bereich auf, beispielsweise zwischen etwa 0 bis 600 Hz. Allerdings befindet sich auch Sprache in diesem Bereich. Deshalb ist es eine Herausforderung, zu versuchen, Windstoß-Geräusche zu erkennen und dann zu entfernen. Bei Standard-Schmalbandtelefonie befindet sich Sprache im Bereich von 0 bis 4 kHz. Die Abtastrate beträgt 8 kHz. Breitbandsprache kann bis zu 8 kHz reichen. Sprache an sich kann noch höhere Frequenzen aufweisen. Aufgrund der Eigenschaften des Mikrofons und einiger Vorab-Bearbeitungsschritte werden Frequenzen unterhalb von etwa 50 bis 100 Hz typischerweise entfernt oder deutlich abgeschwächt.
Windstoß-Geräusche sind ein ernsthaftes Problem für Freisprech-Kommunikation in einer Fahrzeug-Umgebung. Diese Art von Geräuschen maskiert oftmals erwünschte Sprachklänge, wobei aufgrund der nicht-stationären Eigenschaften der Geräusche herkömmliche Rausch- bzw. Geräuschunterdrückungstechniken nicht wirksam sind. Dies führt zu unverständlichen Sprachübertragungen auf der Kommunikationsgegenseite.
Typischerweise tritt in einer Fahrzeug-Umgebung Hintergrundrauschen auf. Das Rauschen tendiert dazu, relativ stationär zu sein, was bedeutet, dass es sich nicht verändert. Beispielsweise würde das einem vorbeifahrenden Lastwagen zugeordnete Rauschen bzw. Geräusch als ein vorübergehendes Rauschen bzw. Geräusch bezeichnet werden, da es kommt und relativ schnell wieder vergeht. Herkömmliche Rauschunterdrückungstechnologien entfernen solche Art von Rauschen typischerweise nicht, da eine solche Technologie auf Rauschen beruht, das innerhalb eines bestimmten Zeitrahmens als stationär angenommen wird. Windstoß-Geräusche sind nicht stationär, sondern typischerweise eher ausgedehnt und frequenzmäßig lokalisiert.
Windstoß-Geräusche machen Sprache unverständlich, da sie, obwohl niederfrequent, dazu tendieren, eine höhere Energie aufzuweisen als die Sprache in den unteren Frequenzen, wo sich Sprache und Windstoß-Geräusche überdecken.
In Übereinstimmung mit Ausführungsformen der Erfindung werden Windstoß-Geräusche in einem Mikrofonsignal unter Verwendung einer frequenzabhängigen Wahrscheinlichkeit der Sprachbewertung als auch unter Verwendung einer Kurzzeit- und Langzeit-Niedrigfrequenzenergie erkannt.
Es kann eine Vielzahl von Information verwendet werden, einschließlich frequenzabhängiger Wahrscheinlichkeit der Sprachpräsenz, der Niedrigfrequenz-Kurzzeit-Energie und der Niedrigfrequenz-Langzeit-Energie, um jeden Eingaberahmen des Mikrofonsignals in einen der vier möglichen Zustände zu klassifizieren: Windstoß-keine-Sprache; Windstoß-Sprache; Kein-Windstoß-keine-Sprache; und Kein-Windstoß-Sprache.
1 zeigt eine beispielhafte Betriebsumgebung 100 für Ausführungsformen der Erfindung. Die in 1 gezeigte Betriebsumgebung 100 umfasst eine Drahtlos-Kommunikationseinrichtung 102, die von Insassen eines Innenraums eines Fahrzeuges 104 verwendbar ist. Die Drahtlos-Kommunikationseinrichtung 102 stellt eine Zwei-Wege-Drahtlos-Kommunikation bereit, die Sprachkommunikation enthält, die durch ein Drahtlosnetzwerk 108 ermöglicht wird, das mit der Drahtlos-Kommunikationseinrichtung 102 kompatibel ist.
In dem Fahrzeug 104 umfasst das Freisprech-Audiosystem 105 ein Mikrofon 112 oder mehrere Mikrofone (wovon lediglich eines dargestellt ist) und einen Lautsprecher 114 oder mehrere Lautsprecher (wovon einer dargestellt ist). Das Mikrofon 112 nimmt die Audiofrequenz-Signale aus dem Fahrgastraum bzw. dem Inneren 103 des Fahrzeuges 104 auf und stellt elektrische Signale, die diese Audiosignale repräsentieren, der Drahtlos-Kommunikationseinrichtung 102 über eine Steuerung 130 für das Freisprech-Audiosystem 105 bereit. Das Mikrofon 112 nimmt somit Straßengeräusche, Windgeräusche und Motorgeräusche auf, die durch das Fahrzeug beim Fahren verursacht werden, als auch von den Lautsprechern 114 in dem Fahrgastraum 103 ausgegebene Audiosignale, einschließlich Audiosignale, die von der Gegenseite eines Telekommunikationspfades zurückgegeben, was als „Echo” bezeichnet wird.
Der Lautsprecher 114-Abschnitt des Freisprechsystems 105 empfängt elektrische Signale im Hörfrequenzbereich von der Drahtlos-Kommunikationseinrichtung 102 über die Steuerung 130 für das Freisprech-Audiosystem 105. Der Lautsprecher 114 wandelt diese elektrischen Signale in Klangwellen oder Audiosignale 113 um, die im Fahrgastraum 103 des Fahrzeuges 104 hörbar sind.
Durch das Mikrofon 112 aufgenommene Audiosignale 113 werden in elektrische Signale umgewandelt, welche die Audiosignale darstellen. Die elektrischen Signale werden dann der Drahtlos-Kommunikationseinrichtung 102 bereitgestellt. Die Drahtlos-Kommunikationseinrichtung 102 überträgt Radiofrequenzsignale, welche die von dem Mikrofon aufgenommenen elektrischen Signale enthält, an das Drahtlos-Kommunikationsnetzwerk 108, wo sie von dem Netzwerk 108 zu einem herkömmlichen Telefon-Schaltsystem 120 geleitet werden.
Das Telefon-Schaltsystem bzw. Netzwerk 120 schaltet oder „routet” die vom Fahrzeug 104 erhaltenen Audiosignale 113 zu einer Kommunikationseinrichtung, wie zum Beispiel einem Mobiltelefon oder einem herkömmlichen Telefon-Handset 122, das sich an einem entfernten Ort 124 befindet, das heißt an einem im Abstand D von dem Fahrzeug 104 entfernten Ort. Die Sprachfrequenz-Kommunikation 113, die zwischen einer Person in dem Fahrzeug 104 und einer Person an dem entfernten Ort 124 stattfindet, findet somit über einen Kommunikationslink oder Kanal statt, der in 1 mit Bezugszeichen „116” gekennzeichnet ist.
2 zeigt ein Blockdiagramm eines Windstoß-Geräusche-und-Sprachpräsenz-Klassifizierers 200 in Übereinstimmung mit Ausführungsformen der Erfindung, der Teil des Freisprech-Audiosystems 105 aus 1 sein kann. In verschiedenen Ausführungsformen umfasst der Windstoß-Geräusche-und-Sprach-Präsenz-Klassifizierer 200 ein oder mehrere Computerprogramme (Computerprogrammanweisungen sowie Daten bzw. Parameter), die in einem nichtflüchtigen Speicher abgespeichert sind und durch eine Mikrosteuerung bzw. einen Mikroprozessor ausgeführt werden. Wenn die Programmanweisungen ausgeführt werden, dann bringen sie den Prozessor dazu, eine Klassifizierung der Windstoß-Geräusche-Präsenz- bzw. -Abwesenheit-Zustände und der Sprachpräsenz-oder-Abwesenheit-Zustände auf Grundlage der Digitaldaten 212 durchzuführen, welche die mit dem Mikrofon 112 erfassten Audiosignale repräsentieren, von denen wenigstens einige dem Mikrofon 112 über den Lautsprecher 114 bereitgestellt werden können.
Der Klassifizierer 200 ist dazu ausgebildet, zwischen verschiedenen Sprachpräsenz-oder-Abwesenheit- und Windstoß-Geräusche-Präsenz-oder-Abwesenheit-Zuständen zu unterscheiden. Der Klassifizierer 200 nimmt als einen Eingang Eingaberahmen 202 von dem Mikrofon 112 bzw. von den mehreren Mikrofonen auf. Für das Mikrofon 112 umfasst die Audio-Hardware-Schnittstelle einen herkömmlichen Analog-zu-Digital(A/D)-Umwandler. Der A/D-Umwandler empfängt analoge Spannungen und gibt binäre Zahlen aus, welche die analogen Spannungen repräsentieren.
Ein FFT-Modul 204 führt herkömmliche Fast-Fourier-Transformationen an den Eingaberahmen 202 durch und gibt Frequenz-Domain-Darstellungen der Eingaberahmen an ein Wahrscheinlichkeit-der-Sprachpräsenz-Modul 206 und an ein Niedrigfrequenz-Kurzzeit/Langzeit-Energiemodul 208 aus.
Das Wahrscheinlichkeit-der-Sprachpräsenz-Modul 206 berechnet Wahrscheinlichkeit-der-Sprachpräsenz-Bewertungen auf Basis der Frequenz-Domain-Darstellungen der Eingaberahmen, die von dem FFT-Modul empfangen worden sind. Das Wahrscheinlichkeit-der-Sprachpräsenz-Modul kann jede geeignete Technik anwenden, einschließlich, jedoch nicht darauf begrenzt, ein Berechnen einer frequenzabhängigen Wahrscheinlichkeit-der-Sprachpräsenz-Bewertung, wie zum Beispiel berechnet in: I. Cohen, „Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging"; IEEE Transactions on Speech and Audio Processing, Band 11, Nr. 5, Seiten 466–475, September 2003.
Das Niedrigfrequenz-Kurzzeit/Langzeit-Energiemodul 208 bestimmt einen aktualisierten Langzeit-Durchschnitt der Niedrigfrequenz-Energie (zum Beispiel unterhalb von 300 Hz, und bezeichnet als die Niedrigfrequenz„Energieebene” bzw. E_{low, floor}), welche eine Darstellung des Niedrigfrequenz-Energie-Inhalts während des Normalzustands (das heißt kein Windstoß) bereitstellt. Zusätzlich wird ein Kurzzeit-Durchschnitt der Energie unterhalb 300 Hz (bezeichnet als E_low) berechnet und aktualisiert, unabhängig vom momentanen Zustand. Unter bestimmten im Folgenden diskutierten Zuständen wird die Kurzzeit-Energie mit der Energieebene verglichen, wobei wenigstens zum Teil basierend auf dem Ergebnis des Vergleichs verschiedene Übergänge zwischen Zuständen auftreten können, wie im Folgenden detailliert beschrieben wird.
Ein Zustands-Klassifizierer 210 empfängt die Wahrscheinlichkeit-der-Sprachpräsenz-Bewertung-Information von dem Wahrscheinlichkeit-der-Sprachpräsenz-Modul 206 und die Niedrigfrequenz-Kurzzeit/Langzeit-Energie-Information von dem Niedrigfrequenz-Kurzzeit/Langzeit-Energie-Modul 208, und bestimmt auf Basis dieser Eingänge und wie im Folgenden detailliert beschrieben wird, einen Präsenz- bzw. Abwesenheits-Zustand mit Bezug auf Sprache, und einen Präsenz- oder Abwesenheits-Zustand mit Bezug auf Windstoß-Geräusche.
Die Präsenz- oder Abwesenheits-Zustände mit Bezug auf Sprache und mit Bezug auf Windstoß-Geräusche können von dem Freisprech-Audiosystem 105 angewendet werden, um Geräusche bzw. Rauschen auf mehr oder weniger „aggressive” Art und Weise in Abhängigkeit davon auszulöschen, ob Sprache vorhanden ist oder nicht, und abhängig davon, ob Windstoß-Geräusche entweder vorhanden oder nicht vorhanden sind.
In Übereinstimmung mit Ausführungsformen der Erfindung kann eine frequenzabhängige Wahrscheinlichkeit der Sprachpräsenz-Bewertung, wie beispielsweise berechnet in: I. Cohen, „Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging IEEE Transactions on Speech and Audio Processing, Band 11, Nr. 5, Seiten 466–475, September 2003, verwendet werden, um Windstoß-Geräusche während Perioden ohne Sprache zu erkennen. Diese Wahrscheinlichkeit variiert kontinuierlich zwischen 0,0 und 1,0 für jede Frequenz. Da diese Wahrscheinlichkeit auf der Abschätzung des Signal-zu-Rauschen-Verhältnisses (SNR) basiert, werden Windstoß-Geräusche zur Folge haben, dass sich die Wahrscheinlichkeit an 1,0 (Sprache) im Niederfrequenzbereich annähert.
Wenn jedoch keine Sprache vorhanden ist, dann wird die Wahrscheinlichkeit in den Bereichen mit höheren Frequenzen ziemlich genau gleich Null sein. Diese Information kann für ein genaues Erkennen des Windstoß-keine-Sprache-Zustands verwendet werden.
Insbesondere kann p_low als die durchschnittliche Wahrscheinlichkeit in dem unteren Frequenzband (zum Beispiel 0 bis 600 Hz) definiert werden, und p_high kann als die durchschnittliche Wahrscheinlichkeit in dem oberen Frequenzband definiert werden (zum Beispiel 600-f_s/2 Hz, wobei f_s die Abtastfrequenz ist). Die Differenz zwischen der Niedrigfrequenz- und Hochfrequenz-Sprache-Wahrscheinlichkeit-Präsenz kann dann berechnet werden als p_diff = p_low – p_high.
3 stellt eine Matrix dar, die die Wahrscheinlichkeitswerte zeigt, die für jeden der vier möglichen Zustände erwartet werden, nämlich Windstoß-Sprache, Kein-Windstoß-Sprache, und Windstoß-keine-Sprache, und Kein-Windstoß-keine-Sprache.
4 stellt ein Zustandsdiagramm dar, das Bedingungen für Übergänge zwischen den vier Zuständen zeigt.
Unter Verwendung der Wahrscheinlichkeit der Sprachpräsenz-Bewertung kann der Windstoß-keine-Sprache-Zustand 404 genau erfasst werden. Jedoch ist die Wahrscheinlichkeit der Sprachpräsenz für sich genommen unzureichend für eine Unterscheidung zwischen der Windstoß-Sprache-410 und einem der Kein-Windstoß-Zustände 428 und 434.
Jedoch ist davon auszugehen, dass, falls ein Windstoß auftritt, dieser während sowohl Sprache- als auch Nicht-Sprache-Segmenten auftritt, um eine Unterscheidung von den anderen möglichen Zuständen zu unterstützen. Das heißt, die Wahrscheinlichkeitsdifferenz kann als das Kriterium für einen Eintritt in den Windstoß-keine-Sprache-Zustand 404 verwendet werden, wobei dann weitere Informationen (zum Beispiel Niedrigfrequenz-Energie) verwendet werden können, um zu bestimmen, wann in den Windstoß-Sprache-Zustand 410 oder in einen der Kein-Windstoß-Zustände 428 und 434 überzugehen ist, sowie die Wahrscheinlichkeits-Differenz-Kriterien nicht länger erfüllt sind.
Aufgrund der Natur von Windstoß-Geräuschen und ihrer Häufung in den unteren Frequenzen können die Niedrigfrequenz-Energie-Werte zur Bestimmung verwendet werden, in welchen Zustand von dem Windstoß-keine-Sprache-Zustand 404 überzugehen ist, sobald das Sprache-Wahrscheinlichkeit-Unterschied-Kriterium P_diff > T₁ nicht länger erfüllt ist. Falls es weiterhin ein großes Maß an Niedrigfrequenz-Energie im Vergleich zu der Kein-Windstoß-Niedrigfrequenz-Energie gibt, dann sollte ein Übergang 406 in den Windstoß-Sprache-Zustand 410 auftreten; ansonsten sollte ein Übergang 416 oder 420 in einen der Kein-Windstoß-Zustände 428 oder 434 aufgrund des Erfassens von normaler Niedrigfrequenz-Energie auftreten.
Insbesondere wird während des Kein-Windstoß-keine-Sprache-Zustands 434 ein Langzeit-Durchschnitt der Niedrigfrequenz-Energie (beispielsweise unterhalb 300 Hz, und als die Niedrigfrequenz-„Energieebene” bzw. E_{low, floor} bezeichnet) aktualisiert und stellt eine Darstellung der Niedrigfrequenz-Energie des Hintergrundrauschen-Inhalts während des Normalzustands (das heißt kein Windstoß) bereit. Zusätzlich wird ein Kurzzeit-Durchschnitt der Energie unterhalb 300 Hz (bezeichnet als E_low) berechnet und aktualisiert, ungeachtet des momentanen Zustands. Falls der momentane Zustand einer der Windstoß-Zustände ist, und die Wahrscheinlichkeit-Unterschied-Kriterien nicht länger erfüllt werden, dann wird die Kurzzeit-Energie mit der Energieebene verglichen. Falls die Kurzzeit-Energie größer als die Energieebene ist, dann findet ein Übergang 406 in den Windstoß-Sprache-Zustand 410 statt; ansonsten, wenn die Kurzzeit-Energie kleiner als oder gleich der Energie-Ebene ist, findet ein Übergang 416 oder 420 in einen der Kein-Windstoß-Zustände statt (das heißt Kein-Windstoß-keine-Sprache 434 oder Kein-Windstoß-Sprache 428), auf Basis der Wahrscheinlichkeit der Sprachpräsenz in dem Hochfrequenz-Bereich (p_high), die entweder kleiner als oder größer als ein jeweiliger zweiter Schwellenwert T₂ ist.
Eine Ausführungsform beginnt in dem Kein-Windstoß-keine-Sprache-Zustand 434, da es anfänglich noch keine Information über das Vorhandensein von Sprache oder Windstoß-Geräuschen gibt. Von dem Kein-Windstoß-keine-Sprache-Zustand 434 kann ein Übergang 418 zu dem Windstoß-keine-Sprache-Zustand 404 auftreten auf Basis der Wahrscheinlichkeit der Sprachpräsenz, was das Hauptmaß ist, das für Übergänge in diesen Zustand und aus diesem Zustand heraus verwendet wird. Für diesen Übergang 418 werden die anderen Parameter nicht angewendet.
Das heißt, von dem Kein-Windstoß-keine-Sprache-Zustand 434 findet, falls Windstoßen erkannt worden ist, ein Übergang 418 in den Windstoß-keine-Sprache-Zustand 404 statt. Andererseits gibt es keinen Übergang 436 von dem momentanen Kein-Windstoß-keine-Sprache-Zustand, oder, falls die Wahrscheinlichkeit der Sprachpräsenz in dem Hochfrequenz-Bereich (p_high) anzeigt, dass Sprache möglicherweise vorhanden ist, es findet ein Übergang 432 in den Kein-Windstoß-Sprache-Zustand 428 statt.
Das heißt, für den Zweck der Windstoß-Erkennung existiert tatsächlich kein großer Unterschied zwischen den Kein-Windstoß-Zuständen 428 und 434, da sie beide auf nicht erkannten Windstoß-Geräuschen basiert sind. Beide Übergänge 414 oder 418 in den Windstoß-keine-Sprache-Zustand können auf dem Wahrscheinlichkeitsunterschied-Schwellenwert p_diff basieren, der größer als T₁ ist.
Es gibt keinen Übergang von dem Kein-Windstoß-keine-Sprache-Zustand 434 direkt in den Windstoß-Sprache-Zustand 410, da die Wahrscheinlichkeit der Sprachpräsenz keine ausreichende Information für einen solchen Übergang enthält. Ein Auftreten von Windstoßen „sieht” für die Wahrscheinlichkeitsbewertung wie Sprache aus. Das heißt, dass sich möglicherweise in dem unteren Frequenzbereich Sprache befindet. Jedoch ist nicht bekannt, ob sich auch Sprache in dem oberen Frequenzbereich befindet. Tatsächlich muss kein Windstoßen vorhanden sein. Lediglich Sprache könnte vorhanden sein.
Bei Eintritt in den Windstoß-keine-Sprache-Zustand 404 können Windstoß-Geräusche auf wirksame Weise unterdrückt werden. Im Vergleich zu dem Windstoß-Sprache-Zustand kann eine noch wirksamere Rausch- bzw. Geräuscheunterdrückung in dem Windstoß-keine-Sprache-Zustand angewendet werden, da keine Sprache vorhanden, die sich hinsichtlich des Frequenzbereichs mit den Windstoß-Geräuschen überdeckt. Diese wirksame Unterdrückung im Windstoß-keine-Sprache-Zustand 404 könnte eine Form annehmen, bei der der gesamte Inhalt unterhalb einer Abschneidefrequenz (das heißt im Falle eines Hochpassfilters) entfernt oder deutlich abgeschwächt wird. Wenn jedoch versucht wird, Windstoß-Geräusche bei gleichzeitiger Präsenz von Sprache zu entfernen, dann wäre eine solche Hochpass-Filtertechnik nicht wünschenswert, da sowohl Sprache als auch Windstoß-Geräusche in dem unteren Frequenzbereich entfernt werden. Deshalb ist es nützlich, zwischen diesen zwei Windstoß-Zuständen 404 und 410 zu unterscheiden, so dass unterschiedliche Unterdrückungstechniken angewendet werden können. Wie mit Bezugszeichen 402 gezeigt ist, solange die Unterschiedskriterien erfüllt sind, das heißt, dass die Niedrigfrequenz-Wahrscheinlichkeit der Sprachpräsenz deutlich höher als die höhere Frequenz-Wahrscheinlichkeit der Sprachpräsenz ist, gibt es keinen Übergang weg von dem Windstoß-keine-Sprache-Zustand 404. Wenn die Bedingung nicht länger erfüllt ist, kann eine Bestimmung mit Bezug darauf gemacht werden, ob: (1) es noch Windstoßen mit der vorhandenen Sprache gibt; oder (2) es kein Windstoßen mit oder ohne Sprache gibt. Die Niedrigfrequenz-Kurzzeit/Langzeit-Energie kann in Verbindung mit der Wahrscheinlichkeit der Sprachpräsenz in dem oberen Frequenzbereich dazu verwendet werden, um diese Bestimmung auszuführen.
Wie mit Bezugszeichen 406 gezeigt ist, tritt ein Übergang von dem Windstoß-keine-Sprache-Zustand 404 in den Windstoß-Sprache-Zustand 410 auf, wenn die Kurzzeit-Niedrigfrequenz-Energie größer als die Langzeit-Niedrigfrequenz-Energie-„Ebene” ist, was darauf hindeutet, dass es noch ein hohes Maß an Niedrigfrequenz-Inhalt gibt.
Ein weiterer Übergang in einen Sprache-Zustand von dem Windstoß-keine-Sprache-Zustand 404 ist bei 416 gezeigt, was einen Übergang in den Kein-Windstoß-Sprache-Zustand 428 darstellt. Der Übergang 416 unterscheidet sich von dem Übergang 406 dahingehend, dass die Kurzzeit-Niedrigfrequenz-Energie kleiner ist als die Langzeit-Niedrigfrequenz-Energie-„Ebene”. Bei dem Übergang 416 ist Sprache vorhanden, jedoch ist die Niedrigfrequenz-Energie jetzt kleiner als zuvor. Das bedeutet, dass wahrscheinlich Windstoßen vorhanden war, und jetzt nicht mehr vorhanden ist, da die Kurzzeit-Niedrigfrequenz-Energie kleiner als die Langzeit-Niedrigfrequenz-Energie ist.
Die Übergänge 406 und 416 sind Haupt-Übergänge von dem Windstoß-keine-Sprache-Zustand 404 in einen der Sprache-Zustände 410 und 428. Es wird eine Bestimmung durchgeführt, ob noch Windstoßen vorhanden ist oder nicht.
Ein Übergang 420 von dem Windstoß-keine-Sprache-Zustand 404 in den Kein-Windstoß-keine-Sprache-Zustand 434 tritt beim Aufhören des Windstoßens auf. Das heißt, die p_diff-Bedingung ist nicht erfüllt, jedoch dieses Mal aus einem unterschiedlichen Grund. Der Übergang 420 basiert darauf, dass P_diff den Schwellenwert T₁ nicht länger überschreitet, welcher der Haupt-Schwellenwert ist, so dass, wenn P_diff den Schwellenwert überschreitet, kein Übergang von dem Windstoß-keine-Sprache-Zustand 404 auftritt. Dann ist zusätzlich der E_low-Wert kleiner als der E_{low, floor}-Wert. Jedoch entspricht der Unterschied zwischen dem Übergang 416 und dem Übergang 420 der Wahrscheinlichkeit der Sprache in den oberen Frequenzbereichen. Das heißt, wenn die Wahrscheinlichkeit der Sprache in den oberen Bereichen auf ein Auftreten von Sprache hindeutet, dann findet der Übergang 416 in den Kein-Windstoß-Sprache-Zustand 428 statt. Falls die Wahrscheinlichkeit der Sprache in den oberen Bereichen darauf hindeutet, dass keine Sprache auftritt, dann findet der Übergang 420 in den Kein-Windstoß-keine-Sprache-Zustand 434 statt.
Ein Eintritt in den Windstoß-keine-Sprache-Zustand 404 kann über Übergänge 414, 418 oder 408 stattfinden, und zwar mit einem relativ hohen Maß an Sicherheit auf Basis des Wahrscheinlichkeitsunterschiedes P_diff, der den Schwellenwert T₁ überschreitet. Wobei dann die Wahrscheinlichkeit in dem oberen Frequenzbereich und die Energie in dem unteren Bereich angewendet werden können, um einen Übergang weg von dem Windstoß-keine-Sprache-Zustand 404 zu vollführen, sobald das Wahrscheinlichkeitsunterschied-Kriterium nicht länger erfüllt ist. Es werden dann Bestimmungen dahingehend durchgeführt, ob noch ein Windstoßen vorhanden ist, und ob Sprache vorhanden ist. Zwei zusätzliche Eingaben können verwendet werden, nämlich die Wahrscheinlichkeit der Sprachpräsenz in dem hohen Frequenzbereich und die Kurzzeit-Niedrigfrequenz-Energie gegenüber der Langzeit-Niedrigfrequenz-Energie.
Zusätzliche Übergänge und Nicht-Übergänge sind in 4 dargestellt. Beispielsweise verbleibt ein Nicht-Übergang 412 in dem Windstoß-Sprache-Zustand, während P_diff < T₁ und E_low > E_{low, floor} ist. Übergänge 422 treten auf, wenn P_diff < T₁, E_low < E_{low, floor} und P_high < T₂ sind. Übergang 424 tritt auf, wenn P_diff < T₁, E_low < E_{low, floor} und P_high < T₂ sind. Nicht-Übergang 426 tritt auf, wenn P_diff < T₁ und P_high > T₂ sind. Und Übergang 430 tritt auf, wenn P_diff < T₁ und P_high < T₂ sind.
Eine Ausführungsform wird typischerweise mit Puffern von 10 ms betrieben. Die Zeitdauer, die zwischen Zustandsübergängen verstreicht, könnte so gering wie 10 ms sein. Konstruktionsbedingte Aspekte, beispielsweise um Schwankungen zu vermeiden, werden typischerweise eine längere Dauer erfordern, um vor einem Übergang in einen nächsten Zustand in einem bestimmten Zustand zu verbleiben.
In einer Ausführungsform ist die Dauer des Kurzzeit-Durchschnitts in der Größenordnung von 500 ms, und die Dauer des Langzeit-Durchschnitts ist in der Größenordnung von 5 s. Selbstverständlich können auch andere geeignete Zeitdauern verwendet werden.
In einer Ausführungsform treten Windstoß-Geräusche hauptsächlich in der Niedrigfrequenz-Energie auf, beispielsweise unterhalb etwa 300 Hz, was experimentell als eine wirksame Abschneidefrequenz ermittelt wurde. Sprache tendiert dazu, eine geringere oder keine Windstoß-Geräusche-Energie im Bereich von 600 Hz und darüber zu umfassen. Selbstverständlich können weitere geeignete Abschneidefrequenzen verwendet werden.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

I. Cohen, „Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging”; IEEE Transactions on Speech and Audio Processing, Band 11, Nr. 5, Seiten 466–475, September 2003 [0025]
I. Cohen, „Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging IEEE Transactions on Speech and Audio Processing, Band 11, Nr. 5, Seiten 466–475, September 2003 [0029]

Claims

Vorrichtung, umfassend: ein schnelle-Fourier-Transformation-Modul, das dazu ausgebildet ist, schnelle Fourier-Transformationen von digitalisierten Sprachdaten zu berechnen; einen Wahrscheinlichkeit-einer-Sprachpräsenz-Abschätzer, der dazu ausgebildet ist, eine durchschnittliche Wahrscheinlichkeit einer Sprachpräsenz-Bewertung in einem unteren Frequenzband und eine Wahrscheinlichkeit einer Sprachpräsenz-Bewertung in einem oberen Frequenzband auf Basis der schnellen Fourier-Transformationen der digitalisierten Sprachdaten zu berechnen; einen Niedrig-Frequenz-Kurzzeit/Langzeit-Energieberechner, der dazu ausgebildet ist, eine Langzeit-Energieebene auf Basis der schnellen Fourier-Transformationen der digitalisierten Sprachdaten und einen Kurzzeit-Durchschnitt der Energie unterhalb einer Windstoß-Abschneidefrequenz zu berechnen; einen Zustandsklassifizierer, der dazu ausgebildet ist: in einem Kein-Windstoß-keine-Sprache-Zustand zu starten; zu einem Windstoß-keine-Sprache-Zustand überzugehen in Antwort auf ein Bestimmen, dass für die digitalisierten Sprachdaten ein Wahrscheinlichkeitsunterschied zwischen der durchschnittlichen Wahrscheinlichkeit der Sprachpräsenz-Bewertung in einem unteren Frequenzband und der Wahrscheinlichkeit der Sprachpräsenz-Bewertung in einem oberen Frequenzband einen ersten Schwellenwert überschreitet; in Antwort auf das Bestimmen, dass der Wahrscheinlichkeitsunterschied den ersten Schwellenwert nicht weiter überschreitet, von dem Windstoß-keine-Sprache-Zustand zu einem Zustand überzugehen, der ausgewählt ist aus: Windstoß-Sprache, Kein-Windstoß-Sprache, und Kein-Windstoß-keine-Sprache; und wobei der Zustand, der in den/von dem Windstoß-keine-Sprache-Zustand übergegangen ist, abhängt von, wenigstens zum Teil, einem Unterschied zwischen der berechneten Kurzzeit-Niedrigfrequenz-Energie der digitalisierten Sprachdaten und der Langzeit-Energieebene.
Vorrichtung nach Anspruch 1, wobei das untere Frequenzband von etwa 0 Hz bis zu einer Sprache-Abschneidefrequenz reicht, insbesondere 600 Hz, und das obere Frequenzband etwa von der Sprache-Abschneidefrequenz bis zu einer Hälfte einer Abtastfrequenz der digitalisierten Sprachdaten reicht.
Vorrichtung nach einem der vorangehenden Ansprüche, wobei die Windstoß-Abschneidefrequenz etwa 300 Hz beträgt.
Vorrichtung nach einem der vorangehenden Ansprüche, wobei der Zustandsklassifizierer weiterhin derart ausgebildet ist, während er entweder in dem Windstoß-keine-Sprache-Zustand oder in dem Windstoß-Sprache-Zustand ist, und sobald der Wahrscheinlichkeitsunterschied den ersten Schwellenwert nicht weiter überschreitet, falls die Kurzzeit-Energie höher ist als die Langzeit-Energieebene, in den Windstoß-Sprache-Zustand überzugehen.
Vorrichtung nach einem der vorangehenden Ansprüche, wobei der Zustandsklassifizierer weiterhin dazu ausgebildet ist, während er entweder in dem Windstoß-keine-Sprache-Zustand oder in dem Windstoß-Sprache-Zustand ist, und sobald der Wahrscheinlichkeitsunterschied den ersten Schwellenwert nicht weiter überschreitet, falls die Kurzzeit-Energie kleiner als die Energie-Ebene ist, in den kein-Windstoß-keine-Sprache-Zustand überzugehen auf Basis der Wahrscheinlichkeit der Sprachpräsenz in dem Hochfrequenzbereich, wobei die Wahrscheinlichkeit kleiner als ein zweiter Schwellenwert ist.
Vorrichtung nach einem der vorangehenden Ansprüche, wobei der Zustandsklassifizierer weiterhin dazu ausgebildet ist, während er entweder in dem Windstoß-keine-Sprache-Zustand oder in dem Windstoß-Sprache-Zustand ist, und sobald der Wahrscheinlichkeitsunterschied den ersten Schwellenwert nicht weiter überschreitet, falls die Kurzzeit-Energie kleiner als die Energie-Ebene ist, in den kein-Windstoß-Sprache-Zustand überzugehen auf Basis auf der Wahrscheinlichkeit der Sprachpräsenz in dem Hochfrequenzbereich, wobei die Wahrscheinlichkeit größer als ein zweiter Schwellenwert ist.
Verfahren, umfassend: Beginnen in einem Kein-Windstoß-keine-Sprache-Zustand und, wenn in dem Kein-Windstoß-keine-Sprache-Zustand, Berechnen einer Energie-Ebene auf Basis einer Langzeit-Niedrigfrequenz-Energie digitalisierter Sprachdaten; Übergehen zu einem Windstoß-keine-Sprache-Zustand in Antwort auf ein Bestimmen, dass, für die digitalisierten Sprachdaten, ein Wahrscheinlichkeitsunterschied zwischen einer durchschnittlichen Wahrscheinlichkeit der Sprachpräsenz-Bewertung in einem unteren Frequenzband und einer Wahrscheinlichkeit Sprachpräsenz-Bewertung in einem oberen Frequenzband einen ersten Schwellenwert überschreitet; Berechnen eines Kurzzeit-Durchschnitts der Energie unterhalb einer Windstoß-Abschneidefrequenz; in Antwort auf das Bestimmen, dass der Wahrscheinlichkeitsunterschied nicht weiter den ersten Schwellenwert überschreitet, Übergehen von dem Windstoß-keine-Sprache-Zustand in einen Zustand ausgewählt von: Windstoß-Sprache, Kein-Windstoß-Sprache, und Kein-Windstoß-keine-Sprache; und wobei der Zustand, der zu/von dem Windstoß-keine-Sprache-Zustand übergegangen ist, abhängt von, wenigstens zum Teil, einem Unterschied zwischen der berechneten Kurzzeit-Niedrigfrequenz-Energie der digitalisierten Sprachdaten und der Energie-Ebene.
Verfahren nach Anspruch 7, wobei das untere Frequenzband von etwa 0 Hz bis zu einer Sprache-Abschneidefrequenz, insbesondere 600 Hz, reicht, wobei das höhere Frequenzband etwa von der Sprache-Abschneidefrequenz zu einer Hälfte einer Abtastfrequenz der digitalisierten Sprachdaten reicht.
Verfahren nach einem der vorangehenden verfahrensbasierten Ansprüche, wobei die Windstoß-Abschneidefrequenz etwa 300 Hz beträgt.
Verfahren nach einem der vorangehenden verfahrensbasierten Ansprüche, wobei, während entweder in dem Windstoß-keine-Sprache-Zustand oder in dem Windstoß-Sprache-Zustand, und sobald der Wahrscheinlichkeitsunterschied den ersten Schwellenwert nicht weiter überschreitet, falls die Kurzzeit-Energie höher ist als die Langzeit-Energieebene, in den Windstoß-Sprache-Zustand übergegangen wird.
Verfahren nach einem der vorangehenden verfahrensbasierten Ansprüche, wobei, während entweder in dem Windstoß-keine-Sprache-Zustand oder in dem Windstoß-Sprache-Zustand, und sobald der Wahrscheinlichkeitsunterschied den ersten Schwellenwert nicht weiter überschreitet, falls die Kurzzeit-Energie kleiner als die Energie-Ebene ist, in den kein-Windstoß-keine-Sprache-Zustand übergegangen wird auf Basis der Wahrscheinlichkeit der Sprachpräsenz in dem Hochfrequenzbereich, wobei die Wahrscheinlichkeit kleiner als ein zweiter Schwellenwert ist.
Verfahren nach einem der vorangehenden verfahrensbasierten Ansprüche, wobei, während entweder in dem Windstoß-keine-Sprache-Zustand oder in dem Windstoß-Sprache-Zustand, und sobald der Wahrscheinlichkeitsunterschied den ersten Schwellenwert nicht weiter überschreitet, falls die Kurzzeit-Energie kleiner als die Energie-Ebene ist, in den Kein-Windstoß-Sprache-Zustand übergegangen wird auf Basis auf der Wahrscheinlichkeit der Sprachpräsenz in dem Hochfrequenzbereich, wobei die Wahrscheinlichkeit größer als ein zweiter Schwellenwert ist.
Nicht-flüchtiges computerlesbares Medium mit darauf abgespeicherten Computer-ausführbaren Anweisungen, die bei Ausführung durch einen Prozessor Schritte eines Verfahrens nach einem der Ansprüche 7 bis 12 durchführen.