DE102013111784A1 - Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren - Google Patents

Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren Download PDF

Info

Publication number
DE102013111784A1
DE102013111784A1 DE201310111784 DE102013111784A DE102013111784A1 DE 102013111784 A1 DE102013111784 A1 DE 102013111784A1 DE 201310111784 DE201310111784 DE 201310111784 DE 102013111784 A DE102013111784 A DE 102013111784A DE 102013111784 A1 DE102013111784 A1 DE 102013111784A1
Authority
DE
Germany
Prior art keywords
sound
acoustic environment
audio processing
noise
determiner
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE201310111784
Other languages
English (en)
Other versions
DE102013111784B4 (de
Inventor
Christoph Nelke
Navin Chatlani
Christophe Beaugeant
Peter Vary
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel IP Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel IP Corp filed Critical Intel IP Corp
Priority to DE102013111784.8A priority Critical patent/DE102013111784B4/de
Priority to US15/024,085 priority patent/US10249322B2/en
Priority to PCT/US2014/060791 priority patent/WO2015061116A1/en
Publication of DE102013111784A1 publication Critical patent/DE102013111784A1/de
Application granted granted Critical
Publication of DE102013111784B4 publication Critical patent/DE102013111784B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

Es wird eine Audioverarbeitungsvorrichtung beschrieben, die Folgendes umfasst: einen Energieverteilungsbestimmer, der dafür ausgelegt ist, eine Energieverteilung eines Tons zu bestimmen, und einen Akustikumgebungsbestimmer, der dafür ausgelegt ist, auf der Grundlage der Energieverteilung zu bestimmen, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.

Description

  • Technisches Gebiet
  • Verschiedene Aspekte dieser Offenbarung betreffen allgemein Audioverarbeitungsvorrichtungen und Audioverarbeitungsverfahren.
  • Hintergrund
  • Der Vorteil der Verwendung von Mobilkommunikationsvorrichtungen in fast allen Situationen führt häufig zu extremen akustischen Umgebungen. Ein ärgerlicher Faktor ist das Auftreten von Rauschen, das auch während eines Gesprächs durch das Mikrofon aufgefangen wird. Windrauschen stellt eine spezielle Klasse von Rauschsignalen dar, weil es direkt durch die von einem Windstrom um die Kommunikationsvorrichtung erzeugten Turbulenzen erzeugt wird. In dem Fall, in dem ein Sprachsignal durch Windrauschen überlagert wird, können die Qualität und Verständlichkeit während eines Gesprächs stark beeinträchtigt werden. Weil die meisten mobilen Vorrichtungen keinen Platz für eine Windabschirmung bieten, ist es erforderlich, Systeme zu entwickeln, welche die Wirkungen von Windrauschen verringern können.
  • Kurzbeschreibung der Zeichnung
  • In der Zeichnung beziehen sich gleiche Bezugszahlen im Allgemeinen in den verschiedenen Ansichten auf die gleichen Teile. Die Zeichnung ist nicht notwendigerweise maßstabsgerecht, wobei die Betonung stattdessen allgemein auf das Erläutern der Grundgedanken der verschiedenen Aspekte dieser Offenbarung gelegt wird. In der folgenden Beschreibung werden verschiedene Aspekte mit Bezug auf die folgende Zeichnung beschrieben. Es zeigen:
  • die 1A und 1B eine Audioverarbeitungsvorrichtung,
  • 2 ein Flussdiagramm eines Audioverarbeitungsverfahrens,
  • 3 ein Windrauschverringerungssystem,
  • 4 ein weiteres Windrauschverringerungssystem gemäß dieser Offenbarung,
  • 5 eine Darstellung einer Integration der Windrauschverringerung in eine Sprachkommunikationsstrecke,
  • 6 ein Histogramm der ersten Unterbandsignalzentroide SSC1 für Windrauschen und stimmhafte Sprache,
  • 7 eine Darstellung einer SSC1 einer Mischung von Sprache und Wind,
  • 8 eine Darstellung von Spektren von stimmhafter Sprache und Windrauschen,
  • 9 eine Darstellung einer Polynomnäherung eines Windrauschperiodogramms,
  • 10 eine Darstellung einer Demonstration des Systems gemäß verschiedenen Aspekten dieser Offenbarung und
  • 11 eine Darstellung eines Vergleichs der Vorrichtungen und Verfahren gemäß verschiedenen Aspekten dieser Offenbarung mit gemeinhin verwendeten Ansätzen.
  • Beschreibung der Ausführungsformen
  • Die folgende detaillierte Beschreibung bezieht sich auf die anliegende Zeichnung, worin zur Veranschaulichung spezifische Einzelheiten und Aspekte dieser Offenbarung gezeigt sind, worin verschiedene Aspekte dieser Offenbarung verwirklicht werden können. Andere Aspekte können verwendet werden, und strukturelle, logische und elektrische Änderungen können vorgenommen werden, ohne vom Schutzumfang der verschiedenen Aspekte dieser Offenbarung abzuweichen. Die verschiedenen Aspekte dieser Offenbarung schließen einander nicht notwendigerweise aus, weil einige Aspekte dieser Offenbarung mit einem oder mehreren anderen Aspekten dieser Offenbarung kombiniert werden können, um neue Aspekte zu bilden.
  • Die Begriffe ”Kopplung” oder ”Verbindung” sollen eine direkte ”Kopplung” oder eine direkte ”Verbindung” sowie eine indirekte ”Kopplung” oder eine indirekte ”Verbindung” einschließen.
  • Das Wort ”als Beispiel dienend” wird hier verwendet, um ”als ein Beispiel, ein Fall oder eine Erläuterung dienend” zu bedeuten. Ein hier als ”als Beispiel dienend” beschriebener Aspekt dieser Offenbarung oder eines Entwurfs ist nicht notwendigerweise als gegenüber einem anderen Aspekt dieser Offenbarung oder dieser Entwürfe bevorzugt oder vorteilhaft auszulegen.
  • Die Audioverarbeitungsvorrichtung kann einen Speicher aufweisen, der beispielsweise bei der Verarbeitung verwendet werden kann, die durch die Audioverarbeitungsvorrichtung ausgeführt wird. Ein Speicher kann ein flüchtiger Speicher, beispielsweise ein DRAM (dynamischer Direktzugriffsspeicher), oder ein nicht flüchtiger Speicher, beispielsweise ein PROM (programmierbarer Nurlesespeicher), ein EPROM (löschbarer PROM), ein EEPROM (elektrisch löschbarer PROM), oder ein Flash-Speicher, beispielsweise ein Floating-Gate-Speicher, ein Ladung einfangender Speicher, ein MRAM (magnetoresistiver Direktzugriffsspeicher) oder ein PCRAM (Phasenänderungs-Direktzugriffsspeicher), sein.
  • Hier kann eine ”Schaltung” als irgendeine Art einer Logik implementierenden Einheit verstanden werden, welche eine Schaltungsanordnung für spezielle Zwecke oder ein Prozessor, der in einem Speicher, Firmware oder einer Kombination davon gespeicherte Software ausführt, sein kann. Ferner kann eine ”Schaltung” eine festverdrahtete Logikschaltung oder eine programmierbare Logikschaltung in der Art eines programmierbaren Prozessors, beispielsweise ein Mikroprozessor (beispielsweise ein Computerprozessor mit einem komplexen Befehlssatz (CISC-Prozessor) oder ein Computerprozessor mit einem reduzierten Befehlssatz (RISC-Prozessor)) sein. Eine ”Schaltung” kann auch ein Prozessor sein, der Software ausführt, beispielsweise irgendeine Art eines Computerprogramms, beispielsweise ein Computerprogramm, das einen virtuellen Maschinencode, wie beispielsweise Java, verwendet. Eine beliebige andere Implementationsart der jeweiligen Funktionen, die nachstehend in weiteren Einzelheiten beschrieben werden, kann auch als eine ”Schaltung” verstanden werden. Es sei auch bemerkt, dass beliebige zwei (oder mehr) der beschriebenen Schaltungen zu einer Schaltung kombiniert werden können.
  • Es werden Vorrichtungen und Verfahren beschrieben. Es sei bemerkt, dass Grundeigenschaften der Vorrichtungen auch für die Verfahren gelten, und umgekehrt. Daher kann im Interesse der Kürze auf eine Doppelbeschreibung solcher Eigenschaften verzichtet werden.
  • Es sei bemerkt, dass eine beliebige hier für eine spezifische Vorrichtung beschriebene Eigenschaft auch für eine beliebige hier beschriebene Vorrichtung gelten kann. Es sei bemerkt, dass eine beliebige hier für ein spezifisches Verfahren beschriebene Eigenschaft auch für ein beliebiges hier beschriebenes Verfahren gelten kann.
  • Der Vorteil der Verwendung von Mobilkommunikationsvorrichtungen in fast jeder Situation führt häufig zu extremen akustischen Umgebungen. Ein ärgerlicher Faktor ist das Auftreten von Geräuschen, die während eines Gesprächs durch das Mikrofon eingefangen werden. Windrauschen stellt eine spezielle Klasse von Rauschsignalen dar, weil es direkt durch die Turbulenzen erzeugt wird, welche durch einen Windstrom um die Kommunikationsvorrichtung erzeugt werden. In dem Fall, in dem ein Sprachsignal durch Windrauschen überlagert wird, können die Qualität und die Verständlichkeit während eines Gesprächs erheblich beeinträchtigt werden. Weil die meisten mobilen Vorrichtungen keinen Platz für eine Windabschirmung bieten, ist es erforderlich, Systeme zu entwickeln, welche die Wirkungen von Windrauschen verringern können.
  • Gegenwärtig werden Einkanal-Sprachverbesserungssysteme in Mobilkommunikationsvorrichtungen verwendet, um den Rauschpegel von rauschbehafteten Sprachsignalen zu verringern. Die Verringerung von Windrauschen unter Verwendung eines einzigen Mikrofonsignals ist ein anspruchsvolles Problem, weil sich Windrauschen stark von anderen akustischen Rauschsignalen unterscheidet, die während eines Gesprächs auftreten können. Weil Windrauschen durch einen turbulenten Luftstrom erzeugt wird, ist es stark transient und lässt sich demgemäß nur schwer verringern, insbesondere mit nur einem Mikrofon. Es wurden viele Verfahren für die allgemeine Verringerung von Hintergrundrauschen in Sprachsignalen vorgeschlagen. Wenngleich diese Ansätze für viele Typen von Rauschsignalen eine gute Leistungsfähigkeit zeigen, verringern sie Windrauschen infolge seiner nicht stationären Eigenschaften nur geringfügig. Vor kurzem wurden andere Verfahren speziell für die Verringerung von Windrauschen entwickelt. Allerdings zeigen diese Verfahren eine hohe rechnerische Komplexität, oder sie sind durch die Anforderung beschränkt, zwei oder mehr Mikrofone zu verwenden, während die Vorrichtungen (beispielsweise Systeme) und Verfahren gemäß der vorliegenden Offenbarung nicht durch diese Randbedingung beschränkt sind. Üblicherweise verwendete Ansätze sind gewöhnlich auf die Verwendung von mehr als einem Mikrofon beschränkt und haben eine hohe Komplexität. Es wurde kein existierender Ansatz als gegen Mikrofonabschneidefrequenzen robust dokumentiert.
  • Gemäß verschiedenen Aspekten dieser Offenbarung können Vorrichtungen und Verfahren bereitgestellt werden, um das Windrauschen abzuschwächen, ohne das gewünschte Sprachsignal zu verzerren. Wenngleich Lösungen existieren, bei denen zwei oder mehr Mikrofone verwendet werden, ist der Ansatz gemäß dieser Offenbarung dafür ausgelegt, eine Windrauschverringerung mit einem einzigen Mikrofon auszuführen. Dieses System ist dafür ausgelegt, für die Hochpasskennlinie des verwendeten Mikrofons skalierbar zu sein.
  • Die Vorrichtungen (beispielsweise ein System, beispielsweise eine Audioverarbeitungsvorrichtung) und Verfahren gemäß der vorliegenden Offenbarung können in der Lage sein, Windrauschen zu erfassen und die aktuelle spektrale Dichte der Rauschleistung (Rausch-PSD) zu schätzen. Diese PSD-Schätzung wird für die Windrauschverringerung verwendet. Eine Bewertung mit realen Messungen zeigte, dass das System einen guten Ausgleich zwischen der Rauschverringerung und der Sprachverzerrung gewährleistet. Hörtests bestätigten diese Ergebnisse.
  • 1A zeigt eine Audioverarbeitungsvorrichtung 100. Die Audioverarbeitungsvorrichtung 100 kann einen Energieverteilungsbestimmer 102 aufweisen, der dafür ausgelegt ist, eine Energieverteilung eines Tons zu bestimmen. Die Audioverarbeitungsvorrichtung 100 kann ferner einen Akustikumgebungsbestimmer 104, beispielsweise einen Windbestimmer, aufweisen, der dafür ausgelegt ist, auf der Grundlage der Energieverteilung zu bestimmen, ob der Ton einen durch die akustische Umgebung, wie Wind, hervorgerufenen Ton aufweist. Der Energieverteilungsbestimmer 102 und der Akustikumgebungsbestimmer 104 können, beispielsweise über eine Verbindung 106, beispielsweise eine optische Verbindung oder eine elektrische Verbindung in der Art beispielsweise eines Kabels oder eines Computerbusses, oder über eine andere geeignete elektrische Verbindung für das Austauschen elektrischer Signale miteinander gekoppelt sein.
  • Mit anderen Worten kann die Audioverarbeitungsvorrichtung 100 auf der Grundlage einer Energieverteilung des Tons bestimmen, ob ein Ton Rauschen aufweist, das durch akustische Umgebungen, wie Wind, hervorgerufen wird.
  • 1B zeigt eine Audioverarbeitungsvorrichtung 108. Die Audioverarbeitungsvorrichtung 108 kann, ähnlich der Audioverarbeitungsvorrichtung 100 aus 1A, einen Energieverteilungsbestimmer 102 aufweisen, der dafür ausgelegt ist, eine Energieverteilung eines Tons zu bestimmen. Die Audioverarbeitungsvorrichtung 108 kann, ähnlich der Audioverarbeitungsvorrichtung 100 aus 1A, ferner einen Akustikumgebungsbestimmer 104 aufweisen, der dafür ausgelegt ist, auf der Grundlage der Energieverteilung zu bestimmen, ob der Ton einen durch eine akustische Umgebung, wie Wind, hervorgerufenen Ton aufweist. Die Audioverarbeitungsvorrichtung 108 kann ferner einen Spektrumsbestimmer 110 aufweisen, wie nachstehend in weiteren Einzelheiten beschrieben wird. Die Audioverarbeitungsvorrichtung 108 kann ferner einen Cepstrum-Bestimmer 112 aufweisen, wie nachstehend in weiteren Einzelheiten beschrieben wird. Die Audioverarbeitungsvorrichtung 108 kann ferner einen Energieverhältnisbestimmer 114 aufweisen, wie nachstehend in weiteren Einzelheiten beschrieben wird. Die Audioverarbeitungsvorrichtung 108 kann ferner eine Rauschschätzschaltung 116, beispielsweise eine Windrauschschätzschaltung, aufweisen, wie nachstehend in weiteren Einzelheiten beschrieben wird. Die Audioverarbeitungsvorrichtung 108 kann ferner eine Rauschverringerungsschaltung 118, beispielsweise eine Windrauschverringerungsschaltung, aufweisen, wie nachstehend in weiteren Einzelheiten beschrieben wird. Die Audioverarbeitungsvorrichtung 108 kann ferner eine Toneingabeschaltung 120 aufweisen, wie nachstehend in weiteren Einzelheiten beschrieben wird. Der Energieverteilungsbestimmer 102, der Akustikumgebungsbestimmer 104, der Spektrumsbestimmer 110, der Cepstrum-Bestimmer 112, der Energieverhältnisbestimmer 114, die Rauschschätzschaltung 116, die Rauschverringerungsschaltung 118 und die Toneingabeschaltung 120 können miteinander gekoppelt sein, beispielsweise über eine Verbindung 106, beispielsweise eine optische Verbindung oder eine elektrische Verbindung, wie beispielsweise ein Kabel oder ein Computerbus, oder über eine andere geeignete elektrische Verbindung für das Austauschen elektrischer Signale.
  • Der Spektrumsbestimmer 110 kann dafür ausgelegt sein, ein Spektrum des Tons zu bestimmen.
  • Der Spektrumsbestimmer 110 kann dafür ausgelegt sein, eine Fourier-Transformation des Tons auszuführen.
  • Der Energieverteilungsbestimmer 102 kann ferner dafür ausgelegt sein, eine spektrale Energieverteilung des Tons zu bestimmen. Der Akustikumgebungsbestimmer 104 kann dafür ausgelegt sein, auf der Grundlage der spektralen Energieverteilung zu bestimmen, ob der Ton einen durch eine akustische Umgebung, wie Wind, hervorgerufenen Ton aufweist.
  • Der Energieverteilungsbestimmer 102 kann ferner dafür ausgelegt sein, Unterbandsignalzentroide des Tons zu bestimmen. Der Akustikumgebungsbestimmer 104 kann dafür ausgelegt sein, auf der Grundlage der Unterbandsignalzentroide zu bestimmen, ob der Ton einen Ton aufweist, der durch eine akustische Umgebung, wie Wind, hervorgerufen wird.
  • Der Energieverteilungsbestimmer 102 kann dafür ausgelegt sein, eine gewichtete Summe von im Ton vorhandenen Frequenzen zu bestimmen. Der Akustikumgebungsbestimmer 104 kann dafür ausgelegt sein, auf der Grundlage der gewichteten Summe zu bestimmen, ob der Ton einen durch die akustische Umgebung, wie Wind, hervorgerufenen Ton aufweist.
  • Der Cepstrum-Bestimmer 112 kann dafür ausgelegt sein, eine Cepstrum-Transformation des Tons zu bestimmen.
  • Der Akustikumgebungsbestimmer 104 kann dafür ausgelegt sein, auf der Grundlage der Cepstrum-Transformation zu bestimmen, ob der Ton einen durch die akustische Umgebung, wie Wind, hervorgerufenen Ton aufweist.
  • Der Energieverhältnisbestimmer 114 kann dafür ausgelegt sein, ein Energieverhältnis zwischen zwei Frequenzbändern zu bestimmen.
  • Der Akustikumgebungsbestimmer 104 kann ferner dafür ausgelegt sein, auf der Grundlage des Energieverhältnisses zu bestimmen, ob der Ton einen Ton aufweist, der durch die akustische Umgebung, wie Wind, hervorgerufen wird.
  • Der Akustikumgebungsbestimmer 104 kann ferner dafür ausgelegt sein, den Ton in eine der folgenden Klassen zu klassifizieren: einen Ton, bei dem hauptsächlich (oder nur) ein durch eine erste akustische Umgebung, wie Wind, hervorgerufener Ton vorhanden ist, einen Ton, bei dem hauptsächlich (oder nur) ein durch eine zweite akustische Umgebung, wie Sprache, hervorgerufener Ton vorhanden ist, oder einen Ton, bei dem ein durch eine Kombination einer ersten und einer zweiten akustischen Umgebung, wie sowohl Wind als auch Sprache, hervorgerufener Ton vorhanden ist.
  • Die Rauschschätzschaltung 116 kann dafür ausgelegt sein, das akustische Umgebungsrauschen im Audiosignal zu schätzen.
  • Die Rauschschätzschaltung 116 kann dafür ausgelegt sein, das Rauschen (beispielsweise Windrauschen) im Audiosignal auf der Grundlage einer spektralen Leistungsdichte zu bestimmen.
  • Die Rauschschätzschaltung 116 kann ferner dafür ausgelegt sein, ein Rauschperiodogramm (beispielsweise ein Windrauschperiodogramm) mit einem Polynom anzunähern.
  • Die Rauschverringerungsschaltung 118 kann dafür ausgelegt sein, Rauschen im Audiosignal auf der Grundlage des Tons und auf der Grundlage des geschätzten Rauschens zu verringern.
  • Die Toneingabeschaltung 120 kann dafür ausgelegt sein, den Ton darstellende Daten zu empfangen.
  • 2 zeigt ein Flussdiagramm 200, welches ein Audioverarbeitungsverfahren veranschaulicht. Bei 202 kann ein Energieverteilungsbestimmer eine Energieverteilung eines Tons bestimmen. Bei 204 kann ein Akustikumgebungsbestimmer auf der Grundlage der Energieverteilung bestimmen, ob der Ton einen durch die akustische Umgebung, wie Wind, hervorgerufenen Ton aufweist.
  • Das Verfahren kann ferner das Bestimmen eines Spektrums des Tons aufweisen.
  • Das Verfahren kann ferner das Ausführen einer Fourier-Transformation des Tons aufweisen.
  • Das Verfahren kann ferner das Bestimmen einer spektralen Energieverteilung des Tons und das Bestimmen, auf der Grundlage der spektralen Energieverteilung, ob der Ton einen durch die akustische Umgebung, wie Wind, hervorgerufenen Ton aufweist, aufweisen.
  • Das Verfahren kann ferner das Bestimmen von Unterbandsignalzentroiden des Tons und das Bestimmen, auf der Grundlage der Unterbandsignalzentroide, ob der Ton einen durch die akustische Umgebung, wie Wind, hervorgerufenen Ton aufweist, aufweisen.
  • Das Verfahren kann ferner das Bestimmen einer gewichteten Summe von Frequenzen, die im Ton vorhanden sind, und das Bestimmen, auf der Grundlage der gewichteten Summe, ob der Ton einen durch die akustische Umgebung, wie Wind, hervorgerufenen Ton aufweist, aufweisen.
  • Das Verfahren kann ferner das Bestimmen einer Cepstrum-Transformation des Tons aufweisen.
  • Das Verfahren kann ferner das Bestimmen, auf der Grundlage der Cepstrum-Transformation, ob der Ton einen durch die akustische Umgebung, wie Wind, hervorgerufenen Ton aufweist, aufweisen.
  • Das Verfahren kann ferner das Bestimmen eines Energieverhältnisses zwischen zwei Frequenzbändern aufweisen.
  • Das Verfahren kann ferner das Bestimmen, auf der Grundlage des Energieverhältnisses, ob der Ton einen durch die akustische Umgebung, wie Wind, hervorgerufenen Ton aufweist, aufweisen.
  • Das Verfahren kann ferner das Klassifizieren des Tons in eine der folgenden Klassen aufweisen: einen Ton, bei dem hauptsächlich (oder nur) ein durch eine erste akustische Umgebung, wie Wind, hervorgerufener Ton vorhanden ist, einen Ton, bei dem hauptsächlich (oder nur) ein durch eine zweite akustische Umgebung, wie Sprache, hervorgerufener Ton vorhanden ist, oder einen Ton, bei dem ein durch eine Kombination einer ersten und einer zweiten akustischen Umgebung, wie sowohl Wind als auch Sprache, hervorgerufener Ton vorhanden ist.
  • Das Verfahren kann ferner das Schätzen des Rauschens im Audiosignal aufweisen.
  • Das Verfahren kann ferner das Schätzen des Rauschens im Audiosignal auf der Grundlage einer spektralen Leistungsdichte aufweisen.
  • Das Verfahren kann ferner das Annähern eines Rauschperiodogramms (beispielsweise eines Windrauschperiodogramms) durch ein Polynom aufweisen.
  • Das Verfahren kann ferner das Verringern von Rauschen im Audiosignal auf der Grundlage des Tons und auf der Grundlage des geschätzten Rauschens aufweisen.
  • Das Verfahren kann ferner das Empfangen den Ton darstellender Daten aufweisen.
  • Vorrichtungen und Verfahren für Einzelmikrofonrauschverringerungsausnutzungssignalzentroide können bereitgestellt werden.
  • Vorrichtungen und Verfahren können unter Verwendung einer Windrauschverringerungs-(WNR)-Technik für durch ein einziges Mikrofon erfasste rauschbehaftete Sprache für die Sprachverbesserung bereitgestellt werden. Diese Vorrichtungen und Verfahren können in rauschbehafteten Umgebungen, die Windrauschquellen enthalten, besonders wirksam sein. Es werden Vorrichtungen und Verfahren zum Erfassen des Vorhandenseins von Windrauschen, wodurch die Zielsprachsignale kontaminiert werden, bereitgestellt. Es werden Vorrichtungen und Verfahren für das Schätzen der Leistung dieses Windrauschens bereitgestellt. Diese Windrauschleistungsschätzung kann dann für die Rauschverringerung zur Sprachverbesserung verwendet werden. Das WNR-System wurde dafür ausgelegt, für die untere Abschneidefrequenz von Mikrofonen, die in realen Vorrichtungen verwendet werden, robust zu sein. Das WNR-System gemäß der vorliegenden Offenbarung kann ein Gleichgewicht zwischen der Rauschpegelverringerung und der Sprachverzerrung beibehalten. Hörtests wurden ausgeführt, um die Ergebnisse zu bestätigen.
  • Zusätzlich kann die Einzelmikrofonlösung gemäß der vorliegenden Offenbarung als eine Erweiterung für ein Zwei- oder Mehrmikrofonsystem in einer Weise verwendet werden, dass die Windrauschverringerung unabhängig von jedem Mikrofonsignal ausgeführt wird, bevor die Mehrkanalverarbeitung verwirklicht wird.
  • Nachfolgend wird ein Systemüberblick gegeben.
  • 3 zeigt ein Windrauschverringerungs-(WNR)-System 300. Eine Segmentations-(und/oder Fensterbildungs)-Schaltung 302, eine FFT-(schnelle Fourier-Transformation)-Schaltung 304, eine Merkmalsextraktionsschaltung 306, eine Windrauscherkennungsschaltung 308, eine Windrausch-PSD-(spektrale Leistungsdichte)-Schätzschaltung 310, eine spektrale Substraktionsverstärkungsberechnungsschaltung 312, eine IFFT-(inverse FFT)-Schaltung 314 und eine Überlappung-Addier-Schaltung 316, die nachstehend in weiteren Einzelheiten beschrieben werden, können bereitgestellt werden.
  • Das rauschbehaftete Sprachsignal x(k) kann durch eine Überlagerung des reinen Sprachsignals s(k) und des Rauschsignals n(k) modelliert werden, wobei k der diskrete Zeitindex eines Digitalsignals ist. Das System kann eine Rauschverringerung ausführen, während die Sprachverzerrung verringert wird. Komponenten des Systems gemäß der vorliegenden Offenbarung können folgende sein:
    • i. die Erkennung von Windrauschen und
    • ii. die Schätzung der spektralen Leistungsdichte (PSD) des Windrauschens.
  • Mit anderen Worten kann bei einem grundlegenden Konzept für die Windrauschschätzung gemäß verschiedenen Aspekten dieser Offenbarung die Schätzung der Windrausch-PSD Φ ^n(λ, μ) in zwei getrennte Schritte unterteilt werden, die für jeden Rahmen des Eingangssignals ausgeführt werden:
    • i. Windrauscherkennung (WND), welche eine Merkmalsextraktion (beispielsweise Berechnung des Unterbandsignalzentroids (SSC) in jedem Rahmen) und eine Klassifikation von Signalrahmen als reine stimmhafte Sprache, rauschbehaftete stimmhafte Sprache (Sprache + Wind) oder reines Windrauschen auf der Grundlage des extrahierten Merkmals (beispielsweise des SSC-Werts) aufweisen kann.
    • ii. Windrauschschätzung (WNEST), welche eine Windrauschperiodogrammschätzung auf der Grundlage der Signalklassifikation als
    • a) reine stimmhafte Sprache: keine Windrauschschätzung,
    • b) rauschbehaftete Sprache: minimales Suchen im Spektrum und Polynomanpassung oder
    • c) reines Windrauschen: Verwenden des Eingangssignals als Windrauschperiodogrammschätzung
    aufweisen kann.
  • Die WNEST kann ferner die Berechnung eines adaptiven Glättungsfaktors für die endgültige Rausch-PSD-Schätzung aufweisen.
  • Diese Systemkomponenten können beispielsweise die Merkmalsextraktionsschaltung 306, die Windrauscherkennungsschaltung 308 und die Windrausch-PSD-Schätzschaltung 310 sein. Das System kann in einer Weise konfiguriert sein, dass diese Blöcke (oder Schaltungen) keine Randbedingungen zu einer Hochpasskennlinie des verwendeten Mikrofons zeigen. Weitere Einzelheiten zu diesen Blöcken werden nachstehend beschrieben.
  • Die Einzelmikrofonlösung gemäß der vorliegenden Offenbarung kann in einer solchen Weise als eine Erweiterung eines Zwei- oder Mehrmikrofonsystems verwendet werden, dass die Windrauschverringerung unabhängig auf jedem Mikrofonsignal ausgeführt wird, bevor die Mehrkanalverarbeitung verwirklicht wird.
  • Bei den Verfahren und Vorrichtungen (beispielsweise dem System) gemäß verschiedenen Aspekten dieser Offenbarung kann ein Überlappung-Addier-Rahmen bereitgestellt werden. Die Rauschverringerung kann in einer Überlappung-Addier-Struktur verwirklicht werden, wie in 3 dargestellt ist. Daher wird das rauschbehaftete Eingangssignal x(k) zuerst in Rahmen von 20 ms mit einer Überlappung von 50%, d. h. 10 ms, segmentiert. Danach wird jeder Rahmen gefenstert (beispielsweise mit einem Hann-Fenster) und unter Verwendung der schnellen Fourier-Transformation (FFT) in den diskreten Frequenzbereich transformiert, was X(λ, μ) ergibt, wobei λ der Rahmenindex ist und μ der diskrete Frequenzbalken ist. Die Windrauschverringerung kann im Frequenzbereich durch Multiplizieren des rauschbehafteten Spektrums X(λ, μ) mit spektralen Verstärkungen G(λ, μ) erreicht werden. Das verbesserte Signal S ^(λ, μ) kann unter Verwendung der inversen schnellen Fourier-Transformation (IFFT) in den Zeitbereich transformiert werden. Schließlich werden die überlappenden verbesserten Signalrahmen aufsummiert, wodurch sich das Ausgangssignal s ^(k) ergibt.
  • 4 zeigt ein weiteres WNR-System 400 gemäß dieser Offenbarung. Eine STFT-(Kurzzeit-Fourier-Transformation)-Schaltung 402, eine WND-(Windrauscherkennung)-Schaltung 404, eine WNEST-(Windrauschschätzung)-Schaltung 406, eine spektrale Subtraktionsschaltung 408 und eine inverse STFT-Schaltung 410, wie sie nachstehend in weiteren Einzelheiten beschrieben werden, können bereitgestellt werden.
  • In 4 ist ersichtlich, dass die WNR gemäß der vorliegenden Offenbarung (beispielsweise zuerst) Windrauscherkennung (WND) ausführen kann, um zugrunde liegende Signalkennlinien und Merkmale zu extrahieren, die für das Erkennen des Vorhandenseins von Windrauschen verwendet werden. Der Signalunterbandzentroidwert SSCm(λ) und das Energieverhältnis ER(λ) können in der WND bestimmt werden und bei der Windrauschschätztechnik (WNEST-Technik) verwendet werden, um die Windrauschleistung zu schätzen, wenn Windrauschen erkannt wird. Diese Windrauschkomponenten können dann durch Ausführen einer spektralen Subtraktion abgeschwächt werden. Das verbesserte Ausgangssignal S ^[λ, μ] kann dann für das Rekonstruieren des Ausgangssignals unter Verwendung der inversen STFT verwendet werden. Das WNR-System ist so ausgelegt, dass diese Blöcke keine Randbedingungen zu einer Hochpasskennlinie des verwendeten Mikrofons zeigen.
  • Die bereitgestellten Verfahren und Systeme können den Rauschpegel in windigen Situationen verringern, wodurch die Qualität von Sprachkonversationen in Mobilkommunikationsvorrichtungen verbessert wird. Sie können eine Rauschverringerung an spektralen Komponenten ausführen, die nur dem Windrauschen zugeordnet sind, und es wird dadurch typischerweise kein anderer Typ vorgefundener Rauschquellen oder von Sprache beeinflusst. Daher können sie keine Sprachverzerrung einbringen, die üblicherweise bei Rauschverringerungstechniken eingebracht wird. Infolge der automatischen Analyse des Signals erfordern die Vorrichtungen und Verfahren keine zusätzliche Hardware oder Software zum Ein- und Ausschalten der Technik, weil sie nur auf die Windrauschkomponenten einwirken, wenn sie vorhanden sind. Diese Technik kann nicht durch Mikrofonabschneidefrequenzen beschränkt werden, die typischerweise bei realen Vorrichtungen angetroffen werden. Dies kann wichtig sein, weil einige andere Techniken ausschließlich auf Informationen unterhalb dieser Frequenz beruhen, während die Vorrichtungen und Verfahren (beispielsweise das System) gemäß der vorliegenden Offenbarung für diese Mikrofonkennlinien robust sind. Die Vorrichtungen und Verfahren können zusammen mit einem existierenden Rauschverringerungssystem verwendet werden, indem es als ein getrennter Schritt angewendet wird, und als solche auch getrennt optimiert und abgestimmt werden. Die Vorrichtungen und Verfahren können wegen ihrer modularen Implementation eine niedrige Komplexität aufweisen. Sie können sowohl niedrige Rechenanforderungen als auch niedrige Speicheranforderungen aufweisen. Dies können wichtige Vorteile für batteriebetriebene Vorrichtungen sein. Die Techniken der Vorrichtungen und Verfahren können auf eine Mehrmikrofonverarbeitung erweitert werden, wobei jedes Mikrofon infolge der niedrigen Kohärenz des Windrauschens zwischen Mikrofonen unabhängig verarbeitet werden kann. Überdies arbeiten viele andere akustische Verbesserungstechniken, die typischerweise in einer Kommunikationsstrecke vorgefunden werden, auch im Frequenzbereich. Ein Beispiel sind Echounterdrücker. Diese können rechnerisch effiziente Implementationen durch Kombinieren der Frequenz-zu-Zeit-Transformationen verschiedener Verarbeitungsmodule im Audiountersystem ermöglichen.
  • Die bereitgestellten Vorrichtungen und Verfahren können die Szene automatisch analysieren, um für die Erkennung von Windrauschen vorzubereiten. Sie können eine erste Erfassungsstufe für das Identifizieren und Extrahieren von Merkmalen ausführen, die Windrauschquellen zugeordnet sind.
  • Die bereitgestellten Vorrichtungen und Verfahren können die drei Fälle von ausschließlich Sprache, ausschließlich Windrauschen und Sprache in Windrauschen unterscheiden. Sie können den aktuellen Fall anhand in der Windrauscherkennungsstufe extrahierter Merkmale bestimmen, und dies kann für eine genaue Rauschleistungsschätzung erforderlich sein.
  • Die bereitgestellten Vorrichtungen und Verfahren können die Windrauschleistung schätzen. Die Windrauschleistung kann durch Untersuchen der spektralen Informationen, welche die Sprachsignalkomponenten umgeben, und anschließendes Ausführen einer Polynomanpassung geschätzt werden.
  • Die bereitgestellten Vorrichtungen und Verfahren können den Windrauschpegel unter Verwendung der geschätzten Windrauschleistung verringern.
  • Die bereitgestellten Vorrichtungen und Verfahren können zu einer komfortableren Hörerfahrung führen, indem der Pegel von Windrauschquellen ohne die Sprachverzerrung verringert wird, die gewöhnlich bei Rauschverringerungstechniken eingebracht wird.
  • 5 zeigt eine Veranschaulichung 500 einer (System-)Integration der WNR in einer Sprachkommunikationsstrecke. Das Aufwärtsstreckensignal von einem Mikrofon 502 (das die rauschbehaftete Sprache enthält, wobei die vom Mikrofon 502 erfassten Daten als das Nahendsignal bezeichnet werden können) kann (beispielsweise zuerst) durch eine Mikrofonentzerrungsschaltung 504 und eine Rauschverringerungsschaltung (oder ein Rauschverringerungsmodul) 506 verarbeitet werden. Die Ausgabe kann in die Windrauschverringerungsvorrichtung 508 eingegeben werden (die auch als ein WNR-System bezeichnet werden kann). Beispielsweise kann die WNR mit der Frequenzbereichsrestechounterdrückungsschaltung (oder dem Frequenzbereichsrestechounterdrückungsmodul) kombiniert werden, falls dieses Modul jedoch nicht verfügbar wäre, könnte die WNR ihre eigene Frequenz-zu-Zeit-Transformation aufweisen. Die anderen Verarbeitungselemente auf der Abwärtsstrecke und die akustische Echounterdrückungskomponente sind auch zu Veranschaulichungszwecken dargestellt. Beispielsweise kann die Windrauschverringerungsschaltung 508 Frequenzbalken an eine Restechounterdrückungsschaltung 510 ausgeben. Ein Multiplizierer 512 kann von einer AGC-(automatische Verstärkungssteuerung)-Schaltung 522 und von der Restechounterdrückungsschaltung 510 eingegebene Daten empfangen und ausgegebene Daten einer DRP-(Dynamikbereichsprozessor)-Aufwärtsstreckenschaltung 514 bereitstellen. Ein Fernendesignal (das beispielsweise durch Mobilfunkkommunikation empfangen wird) kann in eine weitere Rauschverringerungsschaltung 516 eingegeben werden, deren Ausgabe in eine DRP-Abwärtsstreckenschaltung 518 eingegeben werden kann. Die Ausgabe der DRP-Abwärtsstreckenschaltung 518 kann in einen akustischen Echounterdrücker 520 (der seine Ausgabe einer Summationsschaltung 528 bereitstellen kann, welche ihre Summe (weiter unter Berücksichtigung der Ausgabe der Mikrofonentzerrungsschaltung 504) an die Rauschverringerungsschaltung 506 ausgibt), die AGC-Schaltung 522 und eine Lautsprecherentzerrungsschaltung 524 eingegeben werden. Die Lautsprecherentzerrungsschaltung 524 kann ihre Ausgabe einem Lautsprecher 526 bereitstellen. 5 zeigt ein Beispiel der Aufnahme des WNR-Systems 508 in eine Kommunikationsvorrichtung.
  • Nachfolgend wird die Signalstatistik beschrieben.
  • Windrauschen befindet sich hauptsächlich bei niedrigen Frequenzen (< 500 Hz) und zeigt in etwa einen 1/f-Abfall zu höheren Frequenzen. Ein Sprachsignal kann in stimmhafte und nicht stimmhafte Segmente unterteilt werden. Stimmhafte Sprachsegmente zeigen eine harmonische Struktur, und der Hauptteil der Signalenergie befindet sich bei Frequenzen zwischen 0 und 3000 Hz. Im Gegensatz dazu sind nicht stimmhafte Segmente rauschartig und zeigen eine Hochpasskennlinie der Signalenergie (> 3000 Hz). Diese Energieverteilung führt zu der Tatsache, dass in erster Linie stimmhafte Sprache durch Windrauschen beeinträchtigt wird. Demgemäß kann die Rauschverringerung nur auf die niedrigeren Frequenzen (0–3000 Hz) angewendet werden.
  • Nachfolgend wird die Windrauscherkennung (WND) beschrieben.
  • Für die WND wird ein robustes Merkmal bereitgestellt, an dem eine Klassifikation des aktuellen Rahmens erreicht werden kann. Dieses Merkmal wird dann abgebildet, um die Erkennung der reinen Sprache, des Windrauschens oder eine weiche Entscheidung über eine Mischung der beiden vorhergehenden Fälle auszuführen.
  • Bei verschiedenen Aspekten der Offenbarung können Unterbandsignalzentroide (SSC) ausgenutzt werden. SSC können die spektrale Energieverteilung eines Signalrahmens X(λ, μ) darstellen, und der SSC des m-ten Unterbands ist definiert als:
    Figure DE102013111784A1_0002
  • Die Frequenzbalken μm können die Grenzen zwischen den Unterbändern definieren. Für das System gemäß verschiedenen Aspekten dieser Offenbarung kann nur der Zentroid des den niederfrequenten Bereich (0–3000 Hz) abdeckenden ersten Unterbands SSC1 berücksichtigt werden. In diesem Fall gelten:
    Figure DE102013111784A1_0003
    wobei fs die Abtastfrequenz sein kann, N die Größe der FFT sein kann und 〈〉 für das Runden auf die nächste natürliche Zahl stehen kann. Der SSC1 kann als der ”Schwerpunkt” im Spektrum für ein gegebenes Signal gesehen werden.
  • Die mit Bezug auf die Signalstatistik beschriebenen Beobachtungen können zu der Tatsache führen, dass SSC1 nur durch stimmhafte Sprachsegmente und Windrauschsegmente beeinflusst wird, während nicht stimmhafte Sprachsegmente nur einen marginalen Einfluss auf den ersten Zentroid haben. Für einen idealen 1/f-Abfall eines Windrauschsignals ist der SSC1-Wert konstant und unabhängig von der absoluten Signalenergie.
  • 6 zeigt ein Histogramm 600 des ersten SSC für Windrauschen und stimmhafte Sprache. Eine horizontale Achse 602 gibt den SSC1 an, und eine vertikale Achse 604 gibt das relative Auftreten an. Eine erste Kurve 606 zeigt Windrauschen (als unterbrochene Linienkurve dargestellt). Eine zweite Kurve 608 zeigt stimmhafte Sprache (als durchgezogene Linienkurve dargestellt). 6 zeigt die Verteilung der ersten Signalzentroide für Windrauschen 606 und stimmhafte Sprachsegmente 608 im Histogramm 600. Für eine klarere Präsentation werden die SSC1-Werte in die entsprechenden Frequenzen umgewandelt.
  • Aus 6 ist klar ersichtlich, dass die SSC1-Werte für Windrauschsignale unter 100 Hz konzentriert sind, während stimmhafte Sprachsegmente zu einer Verteilung von SSC1 zwischen 250 und 700 Hz führen. Auf der Grundlage der SSC1-Werte kann eine Schwelle angewendet werden, um reine Windrauschsegmente oder reine stimmhafte Sprachsegmente zu erfassen. Typische Werte liegen zwischen 100 und 200 Hz. Demgemäß kann, wie durch einen Pfeil 610 angegeben ist, eine gute Unterscheidung zwischen Sprache und Wind bereitgestellt werden.
  • 7 zeigt eine Darstellung 700 eines SSC1 einer Mischung von Sprache und Wind. Eine horizontale Achse 702 gibt das Signal-zu-Rausch-Verhältnis (SNR) an. Eine vertikale Achse zeigt SSC1.
  • In 7 ist ersichtlich, dass es bei realen Szenarien allerdings auch einen Übergangsbereich mit einer Überlagerung von Sprache und Wind gibt. Daher ist es notwendig, nicht nur eine harte Entscheidung zwischen dem Vorhandensein von stimmhafter Sprache und Windrauschen zu treffen. Zusätzlich gibt ein weicher Wert Informationen über den Grad der Signalverzerrungen. Die sich ergebenden SSC1-Werte von Simulationen mit Mischungen von stimmhafter Sprache und Windrauschen bei verschiedenen Signal-zu-Rausch-Verhältnissen (SNR) sind in 7 dargestellt.
  • Die Kurve 706 kann in drei Bereiche unterteilt werden. Für SNR unter –10 dB (A; 708) und über +15 dB (C; 712) zeigt der SSC1 einen fast konstanten Wert entsprechend reinem Windrauschen (A; 708) bzw. reiner Sprache (C; 712). Dazwischen (B; 710) zeigt die Kurve eine nahezu lineare Progression. Aus diesem Experiment folgernd sei bemerkt, dass der SSC1-Wert für eine genauere Klassifikation des Eingangssignals verwendet werden kann.
  • Zusätzlich zum SSC1 kann das Energieverhältnis ER(λ) zwischen zwei Frequenzbändern als ein Sicherheitsnetz für die Erkennung reiner gesprochener Sprache und reinen Windrauschens verwendet werden. Dies ist besonders vernünftig, wenn die verwendeten Mikrofone eine Hochpasskennlinie zeigen.
  • Das Energieverhältnis ER(λ) kann folgendermaßen definiert werden:
    Figure DE102013111784A1_0004
  • Die Frequenzbalken μ0, μ1, μ2 und μ3 können die Frequenzbalken definieren, welche die beiden Frequenzbänder begrenzen. Falls die Grenzen μ0 und μ1 einen niedrigeren Frequenzbereich (beispielsweise 0–200 Hz) als μ2 und μ3 (beispielsweise 200–4000 Hz) abdecken, gibt ein hoher Wert des Energieverhältnisses (ER(λ) >> 1) reine Sprache an und gibt ein niedriger Wert (0 < ER(λ) < 1) Windrauschen an. Typische Werte für diese Schwellen sind ER(λ) < 0,2 für die Erkennung reinen Windrauschens und ER(λ) > 10 für die Erkennung reiner stimmhafter Sprache.
  • Nachfolgend wird die Windrauschschätzung (WNEST) beschrieben.
  • Wie vorstehend beschrieben wurde, stellt das System gemäß verschiedenen Aspekten dieser Offenbarung eine Schätzung der Windrausch-PSD Φ ^n(λ, μ) bereit. Eine PSD-Schätzung Φ ^X(λ, μ) eines gegebenen Signals kann durch rekursives Glätten aufeinander folgender Signalrahmen X(λ, μ) abgeleitet werden: Φ ^X(λ, μ) = α(λ)·Φ ^X(λ – 1, μ) + (1 – α(λ))·|X(λ, μ)|2, (3) wobei der Glättungsfaktor α(λ) Werte zwischen 0 und 1 annehmen kann und fest oder adaptiv gewählt werden kann. Die betragsquadrierte Fourier-Transformation |X(λ, μ)|2 wird als ein Periodogramm bezeichnet. Für die erforderliche Windrausch-PSD Φ ^n(λ, μ) sind die Periodogramme des Rausch-|N(λ, μ)|2-Signals nicht direkt zugänglich, weil das Eingangssignal sowohl Sprache als auch Windrauschen enthält. Daher können die Rauschperiodogramme für das System gemäß verschiedenen Aspekten dieser Offenbarung auf der Grundlage der im vorhergehenden Abschnitt definierten Klassifikation geschätzt werden. Für den Bereich, wo Windrauschen vorherrschend ist (A; beispielsweise 708 in 7), kann das Eingangssignal direkt als Rauschperiodogramm verwendet werden. Im Bereich (C; beispielsweise 712 in 7), wo wir reine Sprache annehmen, wird das Rauschperiodogramm auf Null gesetzt. Für die Schätzung im dritten Bereich (B; beispielsweise 710 in 7), wo sowohl stimmhafte Sprache als auch Windrauschen aktiv sind, wird ein komplexerer Ansatz verwendet, der die spektralen Eigenschaften von Windrauschen und stimmhafter Sprache ausnutzt.
  • Wie vorstehend beschrieben wurde, kann das Spektrum von Windrauschen einen 1/f-Abfall haben. Demgemäß können die Windrauschperiodogramme durch ein einfaches Polynom als |N ^pol(λ, μ)|2 = β·μγ (4) angenähert werden.
  • Die Parameter β und γ können eingeführt werden, um die Leistung und den Abfall von |N ^pol(λ, μ)|2 einzustellen. Typische Werte für den Abfallsparameter γ liegen zwischen –2 und –0,5. Für die Berechnung von β und γ sind zwei Unterstützungspunkte im Spektrum erforderlich, und diese können dem Windrauschperiodogramm zugewiesen werden. Bei diesem Entwurf wird die harmonische Struktur der stimmhaften Sprache ausgenutzt. Das Spektrum eines stimmhaften Sprachsegments zeigt lokale Maxima bei der so genannten Pitch-Frequenz und Vielfachen dieser Frequenz. Die Pitch-Frequenz hängt von der Artikulation ab und ändert sich für verschiedene Sprecher. Zwischen den Vielfachen der Pitch-Frequenz zeigt das Sprachspektrum lokale Minima, wo sich keine oder eine nur sehr niedrige Sprachenergie befindet. Die Spektren eines reinen stimmhaften Sprachsegments und eines typischen Windrauschsegments sind in 8 dargestellt.
  • 8 zeigt eine Darstellung 800 von Spektren von stimmhafter Sprache und von Windrauschen. Eine horizontale Achse 802 zeigt die Frequenz. Eine vertikale Achse 804 zeigt den Betrag. Das harmonisch strukturierte Spektrum der Sprache ist durch eine erste Kurve 806 gegeben (als eine durchgezogene Linienkurve dargestellt), während die zweite Kurve 808 (als eine unterbrochene Linienkurve dargestellt) das Windrauschspektrum zeigt.
  • Für die Schätzung des Windrauschperiodogramms während stimmhafter Sprachaktivität sind zwei Unterstützungspunkte für die Polynomnäherung in Gleichung (4) erforderlich. Diese können die ersten beiden Minima sein, wie in 9 dargestellt ist.
  • 9 zeigt eine Darstellung 900 einer Polynomnäherung eines Windrauschperiodogramms. Eine horizontale Achse 902 zeigt die Frequenz. Eine vertikale Achse 904 zeigt den Betrag. Ein rauschbehaftetes Sprachspektrum 908 (als eine durchgezogene Linienkurve dargestellt) und ein Windrauschspektrum 906 (als eine gepunktete Linienkurve dargestellt) sind dargestellt. Schwarze Kreise zeigen lokale Minima 910 des für die Polynomnäherung |N ^pol(λ, μ)|2 verwendeten rauschbehafteten Sprachspektrums, wie durch eine unterbrochene Linienkurve 912 dargestellt ist. Es ist ersichtlich, dass |N ^pol(λ, μ)|2 zu einer guten Näherung des realen Windrauschspektrums führt.
  • Wenn zwei Minima an den Frequenzbalken μmin1 und μmin2 gegeben sind, können die Parameter β und γ folgendermaßen geschätzt werden:
    Figure DE102013111784A1_0005
  • Um eine Überschätzung des Windrauschperiodogramms insbesondere für niedrige Frequenzen (< 100 Hz) zu verhindern, ist das berechnete Periodogramm durch das aktuelle Periodogramm folgendermaßen begrenzt: |N ^'pol(λ, μ)|2 = min(|N ^pol(λ, μ)|2, |X ^(λ, μ)|2). (7)
  • Die Berechnung des Windrauschperiodogramms auf der Grundlage des aktuellen SSC1-Werts kann folgendermaßen zusammengefasst werden:
    Figure DE102013111784A1_0006
  • θ1 und θ2 stellen die Schwellen der SSC1-Werte zwischen den drei in 7 definierten Bereichen dar. Die Schwellen können auf 200 und 600 Hz als die entsprechenden Frequenzen für θ1 und θ2 gesetzt werden.
  • Für die Bestimmung der erforderlichen Windrausch-PSD kann die in Gleichung (3) gegebene rekursive Glättung auf die Periodogramme von Gleichung (8) angewendet werden. Hier spielt die Auswahl des Glättungsfaktors α(λ) eine wichtige Rolle. Einerseits ermöglicht ein kleiner Glättungsfaktor eine schnelle Verfolgung des Windrauschens, hat jedoch den Nachteil, dass Sprachsegmente, die falsch als Windrauschen erkannt werden, einen großen Einfluss auf die Rausch-PSD haben. Andererseits verringert ein großer Glättungsfaktor nahe 1 die Wirkung einer falschen Erkennung während der Sprachaktivität, führt jedoch zu einer geringen Anpassungsgeschwindigkeit der Rauschschätzung. Demgemäß ist eine adaptive Berechnung von α(λ) vorteilhaft, wenn niedrige Werte während Wind in Sprachpausen gewählt werden und hohe Werte während Sprachaktivität gewählt werden. Weil der SSC1-Wert ein Indikator für die aktuelle SNR-Bedingung ist, wird die folgende lineare Abbildung für den Glättungsfaktor verwendet:
    Figure DE102013111784A1_0007
  • Diese Beziehung zwischen dem Glättungsfaktor α(λ) und dem SSC1(λ)-Wert führt zu einer schnellen Verfolgung und folglich zu einer genauen Rauschschätzung in Sprachpausen und verringert das Risiko einer falschen Erkennung von Sprache als Windrauschen während der Sprachaktivität. Ferner kann eine nicht lineare Abbildung in der Art einer Sigmoid-Funktion für die Beziehung zwischen SSC1(λ) und α(λ) angewendet werden.
  • Nachfolgend wird die Rauschverringerung beschrieben.
  • Die Verringerung des Windrauschens kann durch Multiplikation des rauschbehafteten Spektrums X(λ, μ) mit den spektralen Verstärkungen G(λ, μ) verwirklicht werden. Die spektralen Verstärkungen können anhand der geschätzten Rausch-PSD Φ ^n(λ, μ) und des rauschbehafteten Eingangsspektrums X(λ, μ) unter Verwendung des spektralen Subtraktionsansatzes bestimmt werden:
    Figure DE102013111784A1_0008
  • In einer mobilen Vorrichtung verwendete Mikrofone können eine Hochpasskennlinie zeigen. Dies führt zu einer Abschwächung des niederfrequenten Bereichs, welche hauptsächlich das Windrauschsignal beeinflusst. Dieser Effekt beeinflusst die Windrauscherkennung und die Windrauschschätzung. Diese Überlegung kann in ein System zum Verbessern der Robustheit der unteren Abschneidefrequenz des Mikrofons integriert werden. Das beschriebene System kann folgendermaßen angepasst werden.
  • Nachfolgend wird die Windrauscherkennung beschrieben. Die Energieverteilung und folglich die Signalzentroide können zu höheren Frequenzen verschoben werden. Um das Windrauschverringerungssystem anzupassen, können die Schwellen θ1 und θ2 für die Signalklassifikation und die Glättungsfaktorberechnung modifiziert werden. Dies kann zur Modifikation des Glättungsfaktors aus Gleichung 9 führen.
  • Nachfolgend wird die Windrauschschätzung beschrieben. Die Hochpasskennlinie des Mikrofons kann zu einer niedrigen Signalleistung unterhalb der Abschneidefrequenz des Mikrofons führen. Dies kann die Genauigkeit der Näherung verringern, wie vorstehend beschrieben wurde. Um dieses Problem zu überwinden, kann die vorstehend beschriebene Minimumsuche oberhalb der Mikrofonabschneidefrequenz ausgeführt werden.
  • Nachfolgend wird eine Funktionsweisebewertung beschrieben.
  • Die Funktionsweise des Systems gemäß verschiedenen Aspekten dieser Offenbarung wird in 10 gezeigt.
  • 10 zeigt eine Darstellung 1000 einer Demonstration des Systems gemäß verschiedenen Aspekten dieser Offenbarung. 10 zeigt drei Spektrogramme des reinen Sprachsignals (oben; 1002), des durch Windrauschen verzerrten rauschbehafteten Sprachsignals (Mitte; 1004) und des erweiterten Ausgangssignals des Systems gemäß verschiedenen Aspekten dieser Offenbarung (unten; 1006). Es ist klar ersichtlich, dass die Wirkung des Windrauschens im niederfrequenten Bereich in hohem Maße verringert werden kann.
  • Die Verfahren und Vorrichtungen gemäß verschiedenen Aspekten dieser Offenbarung werden auch mit existierenden Lösungen für eine Einzelmikrofonrauschverringerung verglichen. Die Bewertung berücksichtigt die Verbesserung des gewünschten Sprachsignals und die rechnerische Komplexität. Die Funktionsweise der untersuchten Systeme wird durch die Rauschabschwächung minus der Sprachabschwächung (NA – SA) gemessen, wobei ein hoher Wert eine Verbesserung angibt. Zusätzlich wird der Sprachverständlichkeitsindex (SII) als ein Maß angewendet. Der SII stellt einen Wert zwischen 0 und 1 bereit, wobei ein SII-Wert, der höher als 0,75 ist, ein gutes Kommunikationssystem angibt und Werte unterhalb von 0,45 einem schlechten System entsprechen. Um eine Einsicht in die rechnerische Komplexität zu geben, wird die Ausführungszeit in MATLAB gemessen.
  • Das System gemäß verschiedenen Aspekten dieser Offenbarung wurde mit gemeinhin verwendeten Systemen für die allgemeine Rauschverringerung und zwei speziell für die Windrauschverringerung ausgelegten Systemen verglichen (welche als CB bzw. MORPH bezeichnet werden können). Das System für die allgemeine Rauschverringerung beruht auf der Sprachvorhandenseinswahrscheinlichkeit und kann als SPP bezeichnet werden. Die Ergebnisse sind in 11 dargestellt.
  • 11 zeigt eine Darstellung 1100 eines Vergleichs der Vorrichtungen und Verfahren gemäß verschiedenen Aspekten dieser Offenbarung mit gemeinhin verwendeten Ansätzen. Ein erstes Diagramm 1102 zeigt NA – SA über SNR. Ein zweites Diagramm 1104 zeigt SII über SNR. Daten in Bezug auf SPP sind durch Linien mit ausgefüllten Kreisen 1106 angegeben. Daten in Bezug auf CB sind durch Linien mit ausgefüllten Quadraten 1108 dargestellt. Daten in Bezug auf MORPH sind durch Linien mit ausgefüllten Dreiecken 1110 angegeben. Daten in Bezug auf die vorgeschlagenen Vorrichtungen und Verfahren gemäß verschiedenen Aspekten dieser Offenbarung sind durch Linien mit ausgefüllten Diamanten 1112 angegeben. Eine rauschbehaftete Eingabe ist als eine unterbrochene Linienkurve 1114 dargestellt.
  • Die Energieverteilung einer bestimmten akustischen Umgebung kann als konstant angenommen werden, und die Systeme und Verfahren gemäß verschiedenen Aspekten dieser Offenbarung können dabei für eine breite Klassifikation akustischer Umgebungen verwendet werden. Beispielsweise kann bestimmt werden, ob die akustische Umgebung eine akustische Umgebung ist, in der Wind vorhanden ist oder in der es Windrauschen gibt. Der Begriff ”akustische Umgebung”, wie er hier verwendet wird, kann sich beispielsweise auf eine Umgebung beziehen, in der Windrauschen vorhanden ist, oder auf eine Umgebung, in der Sprache vorhanden ist, sich jedoch nicht auf verschiedene Wörter oder Silben oder gesprochene Buchstaben beziehen (er kann sich mit anderen Worten nicht auf eine automatische Spracherkennung beziehen).
  • Die folgenden Beispiele beziehen sich auf weitere Ausführungsformen.
  • Beispiel 1 ist eine Audioverarbeitungsvorrichtung, welche Folgendes aufweist: einen Energieverteilungsbestimmer, der dafür ausgelegt ist, eine Energieverteilung eines Tons zu bestimmen, und einen Akustikumgebungsbestimmer, der dafür ausgelegt ist, auf der Grundlage der Energieverteilung zu bestimmen, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  • In Beispiel 2 kann der Gegenstand von Beispiel 1 optional aufweisen, dass die akustische Umgebung Wind umfasst.
  • In Beispiel 3 kann der Gegenstand von Beispiel 1 oder 2 optional aufweisen: einen Spektrumsbestimmer, der dafür ausgelegt ist, ein Spektrum des Tons zu bestimmen.
  • In Beispiel 4 kann der Gegenstand von Beispiel 3 optional aufweisen, dass der Spektrumsbestimmer dafür ausgelegt ist, eine Fourier-Transformation des Tons auszuführen.
  • In Beispiel 5 kann der Gegenstand von Beispiel 3 oder 4 optional aufweisen, dass der Energieverteilungsbestimmer ferner dafür ausgelegt ist, eine spektrale Energieverteilung des Tons zu bestimmen, und dass der Akustikumgebungsbestimmer dafür ausgelegt ist, auf der Grundlage der spektralen Energieverteilung zu bestimmen, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  • In Beispiel 6 kann der Gegenstand von einem der Beispiele 3 bis 5 optional aufweisen, dass der Energieverteilungsbestimmer ferner dafür ausgelegt ist, Unterbandsignalzentroide des Tons zu bestimmen, und dass der Akustikumgebungsbestimmer dafür ausgelegt ist, auf der Grundlage des Unterbandsignalzentroids zu bestimmen, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  • In Beispiel 7 kann der Gegenstand von einem der Beispiele 1–6 optional aufweisen, dass der Energieverteilungsbestimmer dafür ausgelegt ist, eine gewichtete Summe der im Ton vorhandenen Frequenzen zu bestimmen, und dass der Akustikumgebungsbestimmer dafür ausgelegt ist, auf der Grundlage der gewichteten Summe zu bestimmen, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  • In Beispiel 8 kann der Gegenstand von einem der Beispiele 1–7 optional einen Cepstrum-Bestimmer aufweisen, der dafür ausgelegt ist, eine Cepstrum-Transformation des Tons zu bestimmen.
  • In Beispiel 9 kann der Gegenstand von Beispiel 8 optional aufweisen, dass der Akustikumgebungsbestimmer dafür ausgelegt ist, auf der Grundlage der Cepstrum-Transformation zu bestimmen, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  • In Beispiel 10 kann der Gegenstand von einem der Beispiele 1–9 optional einen Energieverhältnisbestimmer aufweisen, der dafür ausgelegt ist, ein Energieverhältnis zwischen zwei Frequenzbändern zu bestimmen.
  • In Beispiel 11 kann der Gegenstand von Beispiel 9 optional aufweisen, dass der Akustikumgebungsbestimmer ferner dafür ausgelegt ist, auf der Grundlage des Energieverhältnisses zu bestimmen, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  • In Beispiel 12 kann der Gegenstand von einem der Beispiele 1–11 optional aufweisen, dass der Akustikumgebungsbestimmer ferner dafür ausgelegt ist, den Ton in eine der folgenden Klassen zu klassifizieren: einen Ton, bei dem hauptsächlich ein durch die akustische Umgebung hervorgerufener Ton vorhanden ist, einen Ton, bei dem hauptsächlich ein durch eine weitere akustische Umgebung hervorgerufener Ton vorhanden ist, oder einen Ton, bei dem ein durch eine Kombination der akustischen Umgebung und der weiteren akustischen Umgebung hervorgerufener Ton vorhanden ist.
  • In Beispiel 13 kann der Gegenstand von Beispiel 12 optional aufweisen, dass die weitere akustische Umgebung Sprache umfasst.
  • In Beispiel 14 kann der Gegenstand von einem der Beispiele 1–13 optional eine Rauschschätzschaltung aufweisen, die dafür ausgelegt ist, das Rauschen im Audiosignal zu schätzen.
  • In Beispiel 15 kann der Gegenstand von Beispiel 14 optional aufweisen, dass die Rauschschätzschaltung dafür ausgelegt ist, das Rauschen im Audiosignal auf der Grundlage einer spektralen Leistungsdichte zu schätzen.
  • In Beispiel 16 kann der Gegenstand von Beispiel 14 oder 15 optional aufweisen, dass die Windrauschschätzschaltung ferner dafür ausgelegt ist, ein Rauschperiodogramm durch ein Polynom anzunähern.
  • In Beispiel 17 kann der Gegenstand von einem der Beispiele 14–15 optional eine Rauschverringerungsschaltung aufweisen, die dafür ausgelegt ist, Rauschen im Audiosignal auf der Grundlage des Tons und auf der Grundlage des geschätzten Rauschens zu verringern.
  • In Beispiel 18 kann der Gegenstand von einem der Beispiele 1–17 optional eine Toneingabeschaltung aufweisen, die dafür ausgelegt ist, den Ton darstellende Daten zu empfangen.
  • In Beispiel 19 ist ein Audioverarbeitungsverfahren vorgesehen, welches folgende Schritte aufweist: Bestimmen einer Energieverteilung eines Tons und Bestimmen, auf der Grundlage der Energieverteilung, ob der Ton einen durch eine vorgegebene akustische Umgebung hervorgerufenen Ton aufweist.
  • In Beispiel 20 kann der Gegenstand von Beispiel 19 optional aufweisen, dass die akustische Umgebung Wind umfasst.
  • In Beispiel 21 kann der Gegenstand von Beispiel 19 oder 20 optional das Bestimmen eines Spektrums des Tons aufweisen.
  • In Beispiel 22 kann der Gegenstand von Beispiel 21 optional das Ausführen einer Fourier-Transformation des Tons aufweisen.
  • In Beispiel 23 kann der Gegenstand von Beispiel 21 oder 22 optional aufweisen: Bestimmen einer spektralen Energieverteilung des Tons und Bestimmen, auf der Grundlage der spektralen Energieverteilung, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  • In Beispiel 24 kann der Gegenstand von einem der Beispiele 21–23 optional aufweisen: Bestimmen von Unterbandsignalzentroiden des Tons und Bestimmen, auf der Grundlage der Unterbandsignalzentroide, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  • In Beispiel 25 kann der Gegenstand von einem der Beispiele 19–24 optional aufweisen: Bestimmen einer gewichteten Summe von im Ton vorhandenen Frequenzen und Bestimmen, auf der Grundlage der gewichteten Summe, ob der Ton einen durch den Wind der akustischen Umgebung hervorgerufenen Ton aufweist.
  • In Beispiel 26 kann der Gegenstand von einem der Beispiele 19–25 optional das Bestimmen einer Cepstrum-Transformation des Tons aufweisen.
  • In Beispiel 27 kann der Gegenstand von Beispiel 26 optional aufweisen: Bestimmen, auf der Grundlage der Cepstrum-Transformation, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  • In Beispiel 28 kann der Gegenstand von einem der Beispiele 19–27 optional das Bestimmen eines Energieverhältnisses zwischen zwei Frequenzbändern aufweisen.
  • In Beispiel 29 kann der Gegenstand von Beispiel 28 optional aufweisen: Bestimmen, auf der Grundlage des Energieverhältnisses, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  • In Beispiel 30 kann der Gegenstand von einem der Beispiele 19–29 optional das Klassifizieren des Tons in eine der folgenden Klassen aufweisen: einen Ton, bei dem hauptsächlich ein durch die akustische Umgebung hervorgerufener Ton vorhanden ist, einen Ton, bei dem hauptsächlich ein durch eine weitere akustische Umgebung hervorgerufener Ton vorhanden ist, oder einen Ton, bei dem ein durch eine Kombination der akustischen Umgebung und der weiteren akustischen Umgebung hervorgerufener Ton vorhanden ist.
  • In Beispiel 31 kann der Gegenstand von Beispiel 30 optional aufweisen, dass die weitere akustische Umgebung Sprache umfasst.
  • In Beispiel 32 kann der Gegenstand von einem der Beispiele 19–31 optional das Schätzen des Rauschens im Audiosignal aufweisen.
  • In Beispiel 33 kann der Gegenstand von Beispiel 32 optional das Schätzen des Rauschens im Audiosignal auf der Grundlage einer spektralen Leistungsdichte aufweisen.
  • In Beispiel 34 kann der Gegenstand von Beispiel 32 oder 33 optional das Annähern eines Rauschperiodogramms durch ein Polynom aufweisen.
  • In Beispiel 35 kann der Gegenstand von einem der Beispiele 32–34 optional das Verringern von Rauschen im Audiosignal auf der Grundlage des Tons und auf der Grundlage des geschätzten Rauschens aufweisen.
  • In Beispiel 36 kann der Gegenstand von einem der Beispiele 19–35 optional das Empfangen den Ton darstellender Daten aufweisen.
  • Beispiel 37 ist eine Audioverarbeitungsvorrichtung, die Folgendes aufweist: eine Energieverteilungsbestimmungseinrichtung zum Bestimmen einer Energieverteilung eines Tons und eine Akustikumgebungsbestimmungseinrichtung zum Bestimmen, auf der Grundlage der Energieverteilung, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  • In Beispiel 38 kann der Gegenstand von Beispiel 37 optional aufweisen, dass die akustische Umgebung Wind umfasst.
  • In Beispiel 39 kann der Gegenstand von Beispiel 37 oder 38 optional eine Spektrumsbestimmungseinrichtung zum Bestimmen eines Spektrums des Tons aufweisen.
  • In Beispiel 40 kann der Gegenstand von Beispiel 39 optional aufweisen, dass die Spektrumsbestimmungseinrichtung das Ausführen einer Fourier-Transformation des Tons umfasst.
  • In Beispiel 41 kann der Gegenstand von Beispiel 39–40 optional aufweisen, dass die Energieverteilungsbestimmungseinrichtung ferner das Bestimmen einer spektralen Energieverteilung des Tons umfasst und dass die Akustikumgebungsbestimmungseinrichtung das Bestimmen, auf der Grundlage der spektralen Energieverteilung, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist, umfasst.
  • In Beispiel 42 kann der Gegenstand von einem der Beispiele 39–41 optional aufweisen, dass die Energieverteilungsbestimmungseinrichtung ferner das Bestimmen von Unterbandsignalzentroiden des Tons umfasst und dass die Akustikumgebungsbestimmungseinrichtung das Bestimmen, auf der Grundlage der Unterbandsignalzentroide, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist, umfasst.
  • In Beispiel 43 kann der Gegenstand von einem der Beispiele 37–42 optional aufweisen, dass die Energieverteilungsbestimmungseinrichtung das Bestimmen einer gewichteten Summe im Ton vorhandener Frequenzen umfasst und dass die Akustikumgebungsbestimmungseinrichtung das Bestimmen, auf der Grundlage der gewichteten Summe, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist, umfasst.
  • In Beispiel 44 kann der Gegenstand von einem der Beispiele 37–43 optional eine Cepstrum-Bestimmungseinrichtung zum Bestimmen einer Cepstrum-Transformation des Tons aufweisen.
  • In Beispiel 45 kann der Gegenstand von Beispiel 44 optional aufweisen, dass die Akustikumgebungsbestimmungseinrichtung das Bestimmen, auf der Grundlage der Cepstrum-Transformation, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist, umfasst.
  • In Beispiel 46 kann der Gegenstand von einem der Beispiele 37–45 optional aufweisen, dass eine Energieverhältnisbestimmungseinrichtung das Bestimmen eines Energieverhältnisses zwischen zwei Frequenzbändern umfasst.
  • In Beispiel 47 kann der Gegenstand von Beispiel 46 optional aufweisen, dass die Windbestimmungseinrichtung ferner das Bestimmen, auf der Grundlage des Energieverhältnisses, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist, umfasst.
  • In Beispiel 48 kann der Gegenstand von einem der Beispiele 37–47 optional aufweisen, dass die Windbestimmungseinrichtung ferner das Klassifizieren des Tons in eine der folgenden Klassen umfasst: einen Ton, bei dem hauptsächlich ein durch die akustische Umgebung hervorgerufener Ton vorhanden ist, einen Ton, bei dem hauptsächlich ein durch eine weitere akustische Umgebung hervorgerufener Ton vorhanden ist, oder einen Ton, bei dem ein durch eine Kombination der akustischen Umgebung und der weiteren akustischen Umgebung hervorgerufener Ton vorhanden ist.
  • In Beispiel 49 kann der Gegenstand von Beispiel 48 optional aufweisen, dass die weitere akustische Umgebung Sprache umfasst.
  • In Beispiel 50 kann der Gegenstand von einem der Beispiele 37–49 optional eine Rauschschätzeinrichtung zum Schätzen des Rauschens im Audiosignal aufweisen.
  • In Beispiel 51 kann der Gegenstand von Beispiel 50 optional aufweisen, dass die Rauschschätzeinrichtung das Schätzen des Rauschens im Audiosignal auf der Grundlage einer spektralen Leistungsdichte umfasst.
  • In Beispiel 52 kann der Gegenstand von Beispiel 50 oder 51 optional aufweisen, dass die Rauschschätzeinrichtung ferner das Annähern eines Rauschperiodogramms durch ein Polynom umfasst.
  • In Beispiel 53 kann der Gegenstand von einem der Beispiele 50–52 optional eine Rauschverringerungseinrichtung zum Verringern des Rauschens im Audiosignal auf der Grundlage des Tons und auf der Grundlage des geschätzten Rauschens aufweisen.
  • In Beispiel 54 kann der Gegenstand von einem der Beispiele 37–53 optional eine Toneingabeeinrichtung zum Empfangen den Ton darstellender Daten aufweisen.
  • In Beispiel 55 ist ein computerlesbares Medium vorgesehen, welches Programmbefehle aufweist, die, wenn sie durch einen Prozessor ausgeführt werden, den Prozessor veranlassen, ein Verfahren zum Steuern einer Mobilfunkkommunikation auszuführen, wobei das computerlesbare Medium ferner Programmbefehle aufweist, die, wenn sie durch einen Prozessor ausgeführt werden, den Prozessor veranlassen, Folgendes auszuführen: Bestimmen einer Energieverteilung eines Tons und Bestimmen, auf der Grundlage der Energieverteilung, ob der Ton einen durch eine akustische Umgebung hervorgerufenen Ton aufweist.
  • In Beispiel 56 kann der Gegenstand von Beispiel 55 optional aufweisen, dass die akustische Umgebung Wind umfasst.
  • In Beispiel 57 kann der Gegenstand von Beispiel 55 oder 56 optional Programmbefehle aufweisen, die, wenn sie von einem Prozessor ausgeführt werden, den Prozessor veranlassen, Folgendes auszuführen: Bestimmen eines Spektrums des Tons.
  • In Beispiel 58 kann der Gegenstand von Beispiel 57 optional Programmbefehle aufweisen, die, wenn sie von einem Prozessor ausgeführt werden, den Prozessor veranlassen, Folgendes auszuführen: Ausführen einer Fourier-Transformation des Tons.
  • In Beispiel 59 kann der Gegenstand von Beispiel 57 oder 58 optional Programmbefehle aufweisen, die, wenn sie von einem Prozessor ausgeführt werden, den Prozessor veranlassen, Folgendes auszuführen: Bestimmen einer spektralen Energieverteilung des Tons und Bestimmen, auf der Grundlage der spektralen Energieverteilung, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  • In Beispiel 60 kann der Gegenstand von einem der Beispiele 57 bis 59 optional Programmbefehle aufweisen, die, wenn sie von einem Prozessor ausgeführt werden, den Prozessor veranlassen, Folgendes auszuführen: Bestimmen von Unterbandsignalzentroiden des Tons und Bestimmen, auf der Grundlage der Unterbandsignalzentroide, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  • In Beispiel 61 kann der Gegenstand von einem der Beispiele 55–60 optional Programmbefehle aufweisen, die, wenn sie von einem Prozessor ausgeführt werden, den Prozessor veranlassen, Folgendes auszuführen: Bestimmen einer gewichteten Summe der im Ton vorhandenen Frequenzen und Bestimmen, auf der Grundlage der gewichteten Summe, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  • In Beispiel 62 kann der Gegenstand von einem der Beispiele 55–61 optional Programmbefehle aufweisen, die, wenn sie von einem Prozessor ausgeführt werden, den Prozessor veranlassen, Folgendes auszuführen: Bestimmen einer Cepstrum-Transformation des Tons.
  • In Beispiel 63 kann der Gegenstand von Beispiel 62 optional Programmbefehle aufweisen, die, wenn sie von einem Prozessor ausgeführt werden, den Prozessor veranlassen, Folgendes auszuführen: Bestimmen, auf der Grundlage der Cepstrum-Transformation, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  • In Beispiel 64 kann der Gegenstand von einem der Beispiele 55–63 optional Programmbefehle aufweisen, die, wenn sie von einem Prozessor ausgeführt werden, den Prozessor veranlassen, Folgendes auszuführen: Bestimmen eines Energieverhältnisses zwischen zwei Frequenzbändern.
  • In Beispiel 65 kann der Gegenstand von Beispiel 64 optional Programmbefehle aufweisen, die, wenn sie von einem Prozessor ausgeführt werden, den Prozessor veranlassen, Folgendes auszuführen: Bestimmen, auf der Grundlage des Energieverhältnisses, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  • In Beispiel 66 kann der Gegenstand von einem der Beispiele 55–65 optional Programmbefehle aufweisen, die, wenn sie von einem Prozessor ausgeführt werden, den Prozessor veranlassen, Folgendes auszuführen: Klassifizieren des Tons in eine der folgenden Klassen: einen Ton, bei dem hauptsächlich ein durch die akustische Umgebung hervorgerufener Ton vorhanden ist, einen Ton, bei dem hauptsächlich ein durch eine weitere akustische Umgebung hervorgerufener Ton vorhanden ist, oder einen Ton, bei dem ein durch eine Kombination der akustischen Umgebung und der weiteren akustischen Umgebung hervorgerufener Ton vorhanden ist.
  • In Beispiel 67 kann der Gegenstand von Beispiel 66 optional aufweisen, dass die akustische Umgebung Sprache umfasst.
  • In Beispiel 68 kann der Gegenstand von einem der Beispiele 55–67 optional Programmbefehle aufweisen, die, wenn sie von einem Prozessor ausgeführt werden, den Prozessor veranlassen, Folgendes auszuführen: Schätzen des Rauschens im Audiosignal.
  • In Beispiel 69 kann der Gegenstand von Beispiel 68 optional Programmbefehle aufweisen, die, wenn sie von einem Prozessor ausgeführt werden, den Prozessor veranlassen, Folgendes auszuführen: Schätzen des Rauschens im Audiosignal auf der Grundlage einer spektralen Leistungsdichte.
  • In Beispiel 70 kann der Gegenstand von Beispiel 68 oder 69 optional Programmbefehle aufweisen, die, wenn sie von einem Prozessor ausgeführt werden, den Prozessor veranlassen, Folgendes auszuführen: Annähern eines Rauschperiodogramms durch ein Polynom.
  • In Beispiel 71 kann der Gegenstand von einem der Beispiele 68–70 optional Programmbefehle aufweisen, die, wenn sie von einem Prozessor ausgeführt werden, den Prozessor veranlassen, Folgendes auszuführen: Verringern des Rauschens im Audiosignal auf der Grundlage des Tons und auf der Grundlage des geschätzten Rauschens.
  • In Beispiel 72 kann der Gegenstand von einem der Beispiele 55–71 optional Programmbefehle aufweisen, die, wenn sie von einem Prozessor ausgeführt werden, den Prozessor veranlassen, Folgendes auszuführen: Empfangen von Daten, welche den Ton darstellen.
  • Wenngleich spezifische Aspekte beschrieben wurden, sollten Fachleute verstehen, dass verschiedene Änderungen an der Form und den Einzelheiten vorgenommen werden können, ohne vom Gedanken und vom Schutzumfang der Aspekte dieser Offenbarung, wie durch die anliegenden Ansprüche definiert, abzuweichen. Der Schutzumfang wird demgemäß durch die anliegenden Ansprüche angegeben, und alle Änderungen, die innerhalb der Bedeutung und des Äquivalenzbereichs der Ansprüche liegen, sollen daher eingeschlossen sein.

Claims (25)

  1. Audioverarbeitungsvorrichtung, welche Folgendes umfasst: einen Energieverteilungsbestimmer, der dafür ausgelegt ist, eine Energieverteilung eines Tons zu bestimmen, und einen Akustikumgebungsbestimmer, der dafür ausgelegt ist, auf der Grundlage der Energieverteilung zu bestimmen, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  2. Audioverarbeitungsvorrichtung nach Anspruch 1, welche ferner umfasst: einen Spektrumsbestimmer, der dafür ausgelegt ist, ein Spektrum des Tons zu bestimmen.
  3. Audioverarbeitungsvorrichtung nach Anspruch 2, wobei der Spektrumsbestimmer dafür ausgelegt ist, eine Fourier-Transformation des Tons auszuführen.
  4. Audioverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 3, wobei der Energieverteilungsbestimmer ferner dafür ausgelegt ist, eine spektrale Energieverteilung des Tons zu bestimmen, und wobei der Akustikumgebungsbestimmer dafür ausgelegt ist, auf der Grundlage der spektralen Energieverteilung zu bestimmen, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  5. Audioverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 4, wobei der Energieverteilungsbestimmer ferner dafür ausgelegt ist, Unterbandsignalzentroide des Tons zu bestimmen, und wobei der Akustikumgebungsbestimmer dafür ausgelegt ist, auf der Grundlage der Unterbandsignalzentroide zu bestimmen, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  6. Audioverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 5, wobei der Energieverteilungsbestimmer dafür ausgelegt ist, eine gewichtete Summe von im Ton vorhandenen Frequenzen zu bestimmen, und wobei der Akustikumgebungsbestimmer dafür ausgelegt ist, auf der Grundlage der gewichteten Summe zu bestimmen, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  7. Audioverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 6, welche ferner umfasst: einen Cepstrum-Bestimmer, der dafür ausgelegt ist, eine Cepstrum-Transformation des Tons zu bestimmen.
  8. Audioverarbeitungsvorrichtung nach Anspruch 7, wobei der Akustikumgebungsbestimmer dafür ausgelegt ist, auf der Grundlage der Cepstrum-Transformation zu bestimmen, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  9. Audioverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 8, welche ferner umfasst: einen Energieverhältnisbestimmer, der dafür ausgelegt ist, ein Energieverhältnis zwischen zwei Frequenzbändern zu bestimmen.
  10. Audioverarbeitungsvorrichtung nach Anspruch 9, wobei der Akustikumgebungsbestimmer ferner dafür ausgelegt ist, auf der Grundlage des Energieverhältnisses zu bestimmen, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  11. Audioverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 10, wobei der Akustikumgebungsbestimmer ferner dafür ausgelegt ist, den Ton in eine der folgenden Klassen zu klassifizieren: einen Ton, bei dem hauptsächlich ein durch die akustische Umgebung hervorgerufener Ton vorhanden ist, einen Ton, bei dem hauptsächlich ein durch eine weitere akustische Umgebung hervorgerufener Ton vorhanden ist, oder einen Ton, bei dem ein durch eine Kombination der akustischen Umgebung und der weiteren akustischen Umgebung hervorgerufener Ton vorhanden ist.
  12. Audioverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 11, welche ferner umfasst: eine Rauschschätzschaltung, die dafür ausgelegt ist, das Rauschen im Audiosignal zu schätzen.
  13. Audioverarbeitungsvorrichtung nach Anspruch 12, wobei die Rauschschätzschaltung dafür ausgelegt ist, das Rauschen im Audiosignal auf der Grundlage einer spektralen Leistungsdichte zu schätzen.
  14. Audioverarbeitungsvorrichtung nach Anspruch 12 oder 13, wobei die Rauschschätzschaltung ferner dafür ausgelegt ist, ein Rauschperiodogramm durch ein Polynom anzunähern.
  15. Audioverarbeitungsvorrichtung nach einem der Ansprüche 12 bis 14, welche ferner umfasst: eine Rauschverringerungsschaltung, die dafür ausgelegt ist, das Rauschen im Audiosignal auf der Grundlage des Tons und auf der Grundlage des geschätzten Rauschens zu verringern.
  16. Audioverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 15, welche ferner umfasst: eine Toneingabeschaltung, die dafür ausgelegt ist, den Ton darstellende Daten zu empfangen.
  17. Audioverarbeitungsverfahren, welches folgende Schritte umfasst: Bestimmen einer Energieverteilung eines Tons, und Bestimmen, auf der Grundlage der Energieverteilung, ob der Ton einen durch eine vorgegebene akustische Umgebung hervorgerufenen Ton aufweist.
  18. Audioverarbeitungsverfahren nach Anspruch 17, welches ferner folgenden Schritt umfasst: Bestimmen eines Spektrums des Tons.
  19. Audioverarbeitungsverfahren nach Anspruch 17 oder 18, welches ferner folgende Schritte umfasst: Bestimmen einer spektralen Energieverteilung des Tons, und Bestimmen, auf der Grundlage der spektralen Energieverteilung, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  20. Audioverarbeitungsverfahren nach einem der Ansprüche 17 bis 19, welches ferner folgende Schritte umfasst: Bestimmen einer gewichteten Summe von im Ton vorhandener Frequenzen, und Bestimmen, auf der Grundlage der gewichteten Summe, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  21. Audioverarbeitungsverfahren nach einem der Ansprüche 17 bis 20, welches ferner umfasst: Bestimmen eines Energieverhältnisses zwischen zwei Frequenzbändern.
  22. Audioverarbeitungsverfahren nach Anspruch 21, welches ferner umfasst: Bestimmen, auf der Grundlage des Energieverhältnisses, ob der Ton einen durch die akustische Umgebung hervorgerufenen Ton aufweist.
  23. Audioverarbeitungsverfahren nach einem der Ansprüche 17 bis 22, welches ferner umfasst: Schätzen des Rauschens im Audiosignal.
  24. Audioverarbeitungsverfahren nach Anspruch 23, welches ferner umfasst: Schätzen des Rauschens im Audiosignal auf der Grundlage einer spektralen Leistungsdichte.
  25. Audioverarbeitungsverfahren nach Anspruch 23 oder 24, welches ferner umfasst: Verringern des Rauschens im Audiosignal auf der Grundlage des Tons und auf der Grundlage des geschätzten Rauschens.
DE102013111784.8A 2013-10-25 2013-10-25 Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren Active DE102013111784B4 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE102013111784.8A DE102013111784B4 (de) 2013-10-25 2013-10-25 Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
US15/024,085 US10249322B2 (en) 2013-10-25 2014-10-16 Audio processing devices and audio processing methods
PCT/US2014/060791 WO2015061116A1 (en) 2013-10-25 2014-10-16 Audio processing devices and audio processing methods

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102013111784.8A DE102013111784B4 (de) 2013-10-25 2013-10-25 Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren

Publications (2)

Publication Number Publication Date
DE102013111784A1 true DE102013111784A1 (de) 2015-04-30
DE102013111784B4 DE102013111784B4 (de) 2019-11-14

Family

ID=52811466

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102013111784.8A Active DE102013111784B4 (de) 2013-10-25 2013-10-25 Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren

Country Status (3)

Country Link
US (1) US10249322B2 (de)
DE (1) DE102013111784B4 (de)
WO (1) WO2015061116A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107393550A (zh) * 2017-07-14 2017-11-24 深圳永顺智信息科技有限公司 语音处理方法及装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016034915A1 (en) * 2014-09-05 2016-03-10 Intel IP Corporation Audio processing circuit and method for reducing noise in an audio signal
US9780815B2 (en) * 2016-01-11 2017-10-03 Nxp B.V. Multi-tones narrow band RF noise elimination through adaptive algorithm
CN109427345B (zh) * 2017-08-29 2022-12-02 杭州海康威视数字技术股份有限公司 一种风噪检测方法、装置及系统
CN109859745A (zh) * 2019-03-27 2019-06-07 北京爱数智慧科技有限公司 一种音频处理方法、设备及计算机可读介质
CN110087159B (zh) * 2019-04-03 2020-11-17 歌尔科技有限公司 一种反馈降噪方法、系统、耳机及存储介质
US11217264B1 (en) * 2020-03-11 2022-01-04 Meta Platforms, Inc. Detection and removal of wind noise

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2765715A1 (fr) * 1997-07-04 1999-01-08 Sextant Avionique Procede de recherche d'un modele de bruit dans des signaux sonores bruites
DE69503895T2 (de) * 1994-04-25 1999-02-04 Minnesota Mining & Mfg Fahrzeugklassifikationssystem mit passivem audioeingang zu einem neuralen netzwerk
DE60203436T2 (de) * 2001-05-21 2006-02-09 Mitsubishi Denki K.K. Verfahren und System zum Erkennen, Indizieren und Suchen von akustischen Signalen
DE60123161T2 (de) * 2000-05-09 2007-09-06 Thales Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
EP1092964B1 (de) * 1999-10-14 2007-12-12 deBAKOM, Gesellschaft für sensorische Messtechnik mbH Vorrichtung zur Geräuscherkennung und Geräuschtrennung
EP1700294B1 (de) * 2003-12-29 2009-08-26 Nokia Corporation Verfahren und vorrichtung zur sprachverbesserung bei vorhandensein von hintergrundgeräuschen
EP2226794A1 (de) * 2009-03-06 2010-09-08 Harman Becker Automotive Systems GmbH Hintergrundgeräuschschätzung
EP1703471B1 (de) * 2005-03-14 2011-05-11 Harman Becker Automotive Systems GmbH Automatische Erkennung von Fahrzeugbetrieb-Geräuschsignalen

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI19992453A (fi) * 1999-11-15 2001-05-16 Nokia Mobile Phones Ltd Kohinanvaimennus
US7158931B2 (en) * 2002-01-28 2007-01-02 Phonak Ag Method for identifying a momentary acoustic scene, use of the method and hearing device
EP1581026B1 (de) * 2004-03-17 2015-11-11 Nuance Communications, Inc. Geräuscherkennungs- und Geräuschminderungsverfahren eines Mikrofonfeldes
US7813921B2 (en) * 2004-03-31 2010-10-12 Pioneer Corporation Speech recognition device and speech recognition method
US7492889B2 (en) 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
JP4729927B2 (ja) * 2005-01-11 2011-07-20 ソニー株式会社 音声検出装置、自動撮像装置、および音声検出方法
EP1994788B1 (de) * 2006-03-10 2014-05-07 MH Acoustics, LLC Rauschunterdrückendes direktionales mikrophon-array
US20090154726A1 (en) * 2007-08-22 2009-06-18 Step Labs Inc. System and Method for Noise Activity Detection
US8538749B2 (en) * 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
WO2010140355A1 (ja) * 2009-06-04 2010-12-09 パナソニック株式会社 音響信号処理装置および方法
US8433564B2 (en) * 2009-07-02 2013-04-30 Alon Konchitsky Method for wind noise reduction
CN102044241B (zh) 2009-10-15 2012-04-04 华为技术有限公司 一种实现通信系统中背景噪声的跟踪的方法和装置
EP2577656A4 (de) * 2010-05-25 2014-09-10 Nokia Corp Bandbreitenerweiterer
US20140314241A1 (en) * 2013-04-22 2014-10-23 Vor Data Systems, Inc. Frequency domain active noise cancellation system and method
CN104424956B9 (zh) * 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69503895T2 (de) * 1994-04-25 1999-02-04 Minnesota Mining & Mfg Fahrzeugklassifikationssystem mit passivem audioeingang zu einem neuralen netzwerk
FR2765715A1 (fr) * 1997-07-04 1999-01-08 Sextant Avionique Procede de recherche d'un modele de bruit dans des signaux sonores bruites
EP1092964B1 (de) * 1999-10-14 2007-12-12 deBAKOM, Gesellschaft für sensorische Messtechnik mbH Vorrichtung zur Geräuscherkennung und Geräuschtrennung
DE60123161T2 (de) * 2000-05-09 2007-09-06 Thales Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE60203436T2 (de) * 2001-05-21 2006-02-09 Mitsubishi Denki K.K. Verfahren und System zum Erkennen, Indizieren und Suchen von akustischen Signalen
EP1700294B1 (de) * 2003-12-29 2009-08-26 Nokia Corporation Verfahren und vorrichtung zur sprachverbesserung bei vorhandensein von hintergrundgeräuschen
EP1703471B1 (de) * 2005-03-14 2011-05-11 Harman Becker Automotive Systems GmbH Automatische Erkennung von Fahrzeugbetrieb-Geräuschsignalen
EP2226794A1 (de) * 2009-03-06 2010-09-08 Harman Becker Automotive Systems GmbH Hintergrundgeräuschschätzung

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107393550A (zh) * 2017-07-14 2017-11-24 深圳永顺智信息科技有限公司 语音处理方法及装置
CN107393550B (zh) * 2017-07-14 2021-03-19 深圳永顺智信息科技有限公司 语音处理方法及装置

Also Published As

Publication number Publication date
DE102013111784B4 (de) 2019-11-14
WO2015061116A1 (en) 2015-04-30
US20160225388A1 (en) 2016-08-04
US10249322B2 (en) 2019-04-02
WO2015061116A8 (en) 2015-06-18

Similar Documents

Publication Publication Date Title
DE102014100407B4 (de) Geräuschminderungsvorrichtungen und Geräuschminderungsverfahren
DE102013111784B4 (de) Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE112017004548B4 (de) Verfahren und Vorrichtung zur robusten Geräuschschätzung für eine Sprachverbesserung in variablen Geräuschbedingungen
DE112009000805B4 (de) Rauschreduktion
DE112010005895B4 (de) Störungsunterdrückungsvorrichtung
DE60023517T2 (de) Klassifizierung von schallquellen
DE112012000052B4 (de) Verfahren und Vorrichtung zum Ausblenden von Windgeräuschen
DE112012005855B4 (de) Störungsunterdrückungsvorrichtung
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
DE112012006876B4 (de) Verfahren und Sprachsignal-Verarbeitungssystem zur formantabhängigen Sprachsignalverstärkung
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE112011105791B4 (de) Störungsunterdrückungsvorrichtung
EP0912974B1 (de) Verfahren zur verringerung von störungen eines sprachsignals
DE112014003337T5 (de) Sprachsignaltrennung und Synthese basierend auf auditorischer Szenenanalyse und Sprachmodellierung
DE112011104737T5 (de) Geräuschunterdrückungsvorrichtung
DE102012107952A1 (de) Rauschreduzierung für Dual-Mikrofon-Kommunikationsgeräte
DE102008039330A1 (de) Vorrichtung und Verfahren zum Berechnen von Filterkoeffizienten zur Echounterdrückung
DE112011106045B4 (de) Audiosignal-Wiederherstellungsvorrichtung und Audiosignal-Wiederherstellungsverfahren
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE102008031150B3 (de) Verfahren zur Störgeräuschunterdrückung und zugehöriges Hörgerät
DE112014000945T5 (de) Sprachbetonungsgerät
DE60018690T2 (de) Verfahren und Vorrichtung zur Stimmhaft-/Stimmlos-Entscheidung
DE102014207437A1 (de) Spracherkennung mit einer Mehrzahl an Mikrofonen
DE10157535B4 (de) Verfahren und Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0019020000

Ipc: G10L0021021600

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R081 Change of applicant/patentee

Owner name: INTEL CORPORATION, SANTA CLARA, US

Free format text: FORMER OWNER: INTEL IP CORPORATION, SANTA CLARA, CA, US

R082 Change of representative

Representative=s name: VIERING, JENTSCHURA & PARTNER MBB PATENT- UND , DE