DE10312065A1 - Verfahren und Vorrichtung zum Entmischen akustischer Signale - Google Patents

Verfahren und Vorrichtung zum Entmischen akustischer Signale Download PDF

Info

Publication number
DE10312065A1
DE10312065A1 DE2003112065 DE10312065A DE10312065A1 DE 10312065 A1 DE10312065 A1 DE 10312065A1 DE 2003112065 DE2003112065 DE 2003112065 DE 10312065 A DE10312065 A DE 10312065A DE 10312065 A1 DE10312065 A1 DE 10312065A1
Authority
DE
Germany
Prior art keywords
dependent
frequency
signals
acoustic
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE2003112065
Other languages
English (en)
Other versions
DE10312065B4 (de
Inventor
Dorothea Kolossa
Wolf Baumann
Reinhold Prof. Dr. Orglmeister
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Technische Universitaet Berlin
Original Assignee
Technische Universitaet Berlin
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technische Universitaet Berlin filed Critical Technische Universitaet Berlin
Priority to DE2003112065 priority Critical patent/DE10312065B4/de
Priority to PCT/DE2004/000450 priority patent/WO2004083884A2/de
Publication of DE10312065A1 publication Critical patent/DE10312065A1/de
Application granted granted Critical
Publication of DE10312065B4 publication Critical patent/DE10312065B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Abstract

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Entmischen von akustischen Signalen. Bei dem werden mit Hilfe von wenigstens zwei akustischen Sensoren M¶1¶ und M¶2¶ mindestens zwei zeitabhängige akustische Mischsignale x¶1¶(t) und x¶2¶(t) erfaßt, die jeweils gemischte Signalanteile zeitabhängiger akustischer Quellsignale s¶1¶(t) und s¶2¶(t) von akustischen Signalquellen Q¶1¶ und Q¶2¶ umfassen. Die akustischen Mischsignale x¶1¶(t) und x¶2¶(t) werden zum Bilden von frequenzabhängigen Mischsignalen X¶1¶(omega) und X¶2¶(omega) mit Hilfe einer Verarbeitungseinrichtung in den Frequenzbereich transformiert. Mit Hilfe der Verarbeitungseinrichtung werden die frequenzabhängigen Mischsignale X¶1¶(omega) und X¶2¶(omega) mittels einer im Frequenzbereich ausgeführten Null-Beamforming-Analyse auf Basis eines Delay-and-Sum-Verfahrens analysiert, um entmischte frequenzabhängige Ausgangssignale Y¶1¶(omega) und Y¶2¶(omega) zu bilden, die anschließend in entmischte zeitabhängige Ausgangssignale y¶1¶(t) und y¶2¶(t) transformiert werden, wobei Einfallswinkel phi¶1¶ und phi¶2¶ der aus den zeitabhängigen akustischen Mischsignalen x¶1¶(t) und x¶2¶(t) abgeleiteten, frequenzabhängigen Mischsignale X¶1¶(omega) bzw. X¶2¶(omega) bei der Null-Beamforming-Analyse auf Basis des Delay-and-Sum-Verfahrens als frequenzabhängige Einfallswinkel phi¶1¶(omega¶k¶) und phi¶2¶(omega¶k¶) für mehrere Frequenzbänder omega¶k¶ (k = 1, 2, ...) optimiert werden.

Description

  • Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zum Entmischen akustischer Signale.
  • Das Entmischen akustischer Signale ist eine Aufgabenstellung in verschiedenen technischen Bereichen. Das grundlegende Problem besteht darin, daß sich in einer realen Umgebung stets akustische Signale von verschiedenen Geräuschquellen zu einem sonoren Umfeld überlagern. Akustische Sensoren nehmen in einem solchen Fall stets nur Superpositionen der verschiede nen akustischen Signale auf. Es besteht dann das Problem, die verschiedenen miteinander überlagerten akustischen Einzelsignale zu entmischen bzw. zu trennen.
  • Eine derartige Aufgabenstellung stellt sich beispielsweise in Verbindung mit einer Sprachsteuerung von Steuerungselementen. Die Steuerungselemente können zum Beispiel in einem Kraftfahrzeug angeordnet sein. Eine Sprachsteuerung kann dann beispielsweise für die Bedienung eines Audiosystems, eines elektronischen Orientierungssystems oder einer Mobilfunk-Telefoneinrichtung in dem Kraftfahrzeug vorgesehen sein. Bei einer solchen Sprachsteuerung ist es wichtig, daß für den Fall von gleichzeitig sprechenden Kraftfahrzeuginsassen nur das Sprachsignal der Bedienperson an das Spracherkennungssystem weitergegeben wird, um Fehlbedienungen auszuschließen. Da die Insassen des Kraftfahrzeugs im allgemeinen keine Ansteckmikrofone benutzen, was die Zuordbarkeit des Sprachsignals der Bedienperson erleichtern würde, müssen die Sprachsignale der Insassen des Fahrzeugs getrennt werden. In ähnlicher Weise gestaltete Aufgabenstellungen bestehen jedoch nicht nur in Kraftfahrzeugen, sondern sind von allgemeiner Art bei Anwendungen, in denen ein akustisches Signal aus einer Superposition von mehreren akustischen Signalen heraus zu filtern ist.
  • Zum Trennen/Entmischen der akustischen Signale können unterschiedliche Verfahren herangezogen werden. Als ein mögliches Verfahren ist das sogenannte Beamforming bekannt (K. Haddad et. al.: Capabilities of a beamforming technique for acoustic measurements inside a moving car, The 2002 Interntional Congress and Exposition on Noise Control Engineering, Dearborn, MI, USA, 19.-21. August 2002). Beim Beamforming gemäß dem bekannten Verfahren werden mehrere Mikrofone zu einer Mikrofonanordnung zusammengeschaltet. Eine auf die Mikrofonanordnung einfallende Schallwelle erzeugt richtungsabhängige Phasendifferenzen zwischen den erfaßten Sensorsignalen an den mehreren Mikrofonen. Mit Hilfe der Phasendifferenz kann eine räumliche Filterung vorgenommen werden. Als ein Form des Beamforming wird die Delay-and-Sum-Analyse genannt.
  • Eine weitere Möglichkeit zum Trennen akustischer Signale bildet die sogenannte blinde Quellentrennung (BSS – „Blind Source Separation"). Bei diesem statistischen Verfahren werden die in den erfaßten Mikrofonsignalen unterschiedlichen Mischungsverhältnisse der einzelnen Geräuschquellen verwendet, um unter Annahme der gegenseitigen statistischen Unabhängigkeit der Geräuschquellen den Mischprozeß der akustischen Signale zu invertieren. Das Problem der blinden Quellentrennung kann mit Hilfe eines ICA-Verfahrens (ICA – „Independent Component Analysis") gelöst werden. Die IC-Analyse findet hierbei statistisch möglichst unabhängige akustische Komponenten aus der Superposition der akustischen Signale.
  • Aufgabe der Erfindung ist es, ein verbessertes Verfahren und eine verbesserte Vorrichtung zum Entmischen akustischer Signale anzugeben, bei denen die Störanfälligkeit und der Einfluß ungewünschter Nebengeräusche beim Entmischen akustischer Signale vermindert ist.
  • Diese Aufgabe wird erfindungsgemäß durch ein Verfahren nach dem unabhängigen Anspruch 1 und eine Vorrichtung nach dem unabhängigen Anspruch 8 gelöst.
  • Die Erfindung umfaßt den Gedanken, zum Entmischen von akustischen Signalen ein im Frequenzbereich ausgeführtes Null-Beamforming auf Basis eines Delay-and-Sum-Verfahrens zu nutzen, wobei die Einfallswinkel der akustischen Signale auf die akustischen Sensoren als frequenzabhängige Größen verwendet werden. Auf diese Weise wird ein frequenzabhängiges Beamforming ausgeführt. Im Vergleich zu herkömmlichen Beamforming-Verfahren besteht der Vorteil darin, daß nur so viele Mikrofone benutzt werden müssen, wie Geräuschquellen vorhanden sind. Von besonderem Vorteil im Vergleich zu bekannten Methoden der ICA-basierten blinden Quellentrennung ist, daß eine eindeutige Zuordnung der Ausgangssignale zu den einzelnen Geräuschquellen möglich ist und des weiteren, daß pro Frequenzband nur m reellwertige Parameter bestimmt werden müssen, wobei m der Anzahl der verwendeten Mikrofone entspricht.
  • Mit Hilfe der Erfindung können akustische Signale von mehreren Geräuschquellen getrennt und die entmischten Signale den mehreren Geräuschquellen jeweils eindeutig zugeordnet werden, wobei es sich um beliebige Geräuschquellen handeln kann, die bei verschiedensten technischen Anwendungen auftreten.
  • Die Erfindung wird im folgenden anhand eines Ausführungsbeispiels unter Bezugnahme auf eine Zeichnung näher erläutert. Hierbei zeigen:
  • 1 eine Anordnung mit zwei Mikrofonen und zwei Geräuschquellen; und
  • 2 eine schematische Darstellung zur Erläuterung des Verfahrens zum Entmischen akustischer Signale.
  • 1 zeigt eine schematische Darstellung mit zwei Mikrofonen M1 und M2, die in einem Abstand d angeordnet sind. Der Abstand d beträgt vorzugsweise nur einige Zentimeter, sollte jedoch nicht größer als etwa 1 m sein. Um den Einfluß von Mehrdeutigkeiten bei der räumlichen Abtastung zu vermindern, kann der Abstand d zweckmäßig so gewählt werden, daß der Abstand d etwa der halben Wellenlänge der maximalen Frequenz der akustischen Signale von den zu berücksichtigenden Geräuschquellen entspricht. Die folgende Beschreibung des Ausführungsbeispiels erfolgt unter Bezugnahme auf die in Figur dargestellte Anordnung mit den beidem Mikrofonen M1 und M2. Zum Erfassen akustischer Signale können jedoch beliebige geeignete Sensoreinrichtungen zum Messen akustischer Signale genutzt werden, die der Fachmann in Abhängigkeit von einer gewünschten Meßwerterfassung unter den jeweiligen Umgebungsbedingungen des Anwendungsfalls auswählen kann. Zur Vereinfachung der Darstellung wurde zur Erläuterung des Ausführungsbeispiels eine Anordnung mit zwei Mikrofonen M1 und M2 gewählt. Das Verfahren kann ohne weiteres auch für Anordnungen mit mehr Mikrofonen erweitert werden.
  • Mit Hilfe der beiden Mikrofone M1 und M2 werden akustische Signale von zwei Geräuschquellen Q1 und Q2 empfangen, bei denen es sich um beliebige Geräuschquellen handeln kann, die einem Anwendungsfall akustische Signale abgeben, die sich überlagern. Das im folgenden erläuterte Verfahren ist jedoch nicht auf Anordnungen mit zwei Geräuschquellen beschränkt, sondern kann ohne weiteres vom Fachmann auch für Anwendungsfälle mit mehr als zwei Geräuschquellen ausgeführt werden. Aufgrund der gleichzeitigen Abgabe akustischer Signale durch die beiden Geräuschquellen Q1 und Q2 werden von den Mikrofonen M1 und M2 jeweils Superpositionen der von den Geräuschquellen Q1, Q2 abgegebenen akustischen Signale empfangen. Die in 1 schematisch dargestellte Anordnung der Mikrofone M1, M2, die als akustische Sensoreinrichtungen dienen, und der beiden Geräuschquellen Q1, Q2 entspricht, ohne hierauf beschränkt zu sein, zum Beispiel einer Situation in einem Kraftfahrzeug, bei dem die beiden Mikrofone M1, M2 im Frontbereich des Fahrzeugs Beifahrer, beispielsweise integriert in einen Innenrückspiegel, vor dem Fahrer und dem angeordnet sind. Der Fahrer und der Beifahrer oder auch der Fahrer und das Fahrgeräusch im Kraftfahrzeug entsprechen dann den beiden Geräuschquellen Q1, Q2. Vergleichbare reale Bedingungen bestehen in verschiedensten Anwendungsbereichen grundsätzlich immer dann, wenn sich die von Geräuschquellen abgegebenen akustischen Signale aufgrund von Umgebungsbedingungen überlagern.
  • 2 zeigt eine schematische Darstellung, bei der den beiden Mikrofonen M1 und M2 jeweils ein Verstärker 10, 20 und ein Analog-Digital-Wandler 30, 40 nachgeschaltet ist. Sind beide Sprecher gleichzeitig aktiv, überlagern sich die Sprachsignale an beiden Mikrofonen M1 und M2, im Signal x1(t) von Mikrofon 1 ist sowohl Sprachsignal s1(t) als auch Sprachsignal s2(t) mit jeweils unbekanntem Anteil enthalten. Die an den beiden Mikrofonen M1, M2 gemessenen akustischen Signale x1(t) und x2(t) ergeben sich als Überlagerung von gefilterten Versionen der originalen Sprachsignale. Die Filterung erfolgt jeweils mit der Impulsantwort zwischen Geräuschquelle (Sprecher) Q1, Q2 und Mikrofon M1, M2 und wird mathematisch durch das Symbol "*" beschrieben. Daraus folgt für die Mikrofonsignale: x1(t)=h11·s1(t) + h12·s2(t) (1) x2(t) = h21·s1(t) + h22·s2 (t)
  • Um die Quellsignale wieder zu rekonstruieren, ist es nötig, geeignete Entmischungsfilter zu finden. Probleme dieser An werden vorzugsweise im Frequenzbereich betrachtet, da sich dann die Filterung mit der Impulsantwort auf eine Multiplikation mit der entsprechenden Übertragungsfunktion reduziert. Für die gemessenen akustischen Signale x1 (t) und x2 (t) ergibt sich folgende Darstellung im Frequenzbereich: X1(ω) = H11(ω)·S1(ω) + H12(ω)·S2(ω) X2(ω) = H21(ω)·S1(ω) + H22(ω)·S2(ω) (2)
  • Die Transformation in den Frequenzbereich erfolgt mit Hilfe der diskreten Kurzzeit-Fouriertranformation (STFT), beispielsweise mit Hilfe von Standard-Parametern (FFT-Länge = 512, Fensterlänge = FFT-Länge, Overlap = 3/4·Fensterlänge, Hanning-Fensterfunktion). Nach Durchlaufen des Algorithmus werden entmischte frequenzabhängige Ausgangssignale Y1(ω) und Y2(ω) wieder in den Zeitbereich zurücktransformiert und überlappend aufaddiert.
  • Ausgehend von diesen Überlegungen wird im folgenden die Trennung/Entmischung der beiden Sprachsignale erläutert werden. Das Verfahren beruht auf einer im Gegensatz zu den Gleichungen (1) und (2) etwas vereinfachten Darstellung der Mischung. Vernachlässigt man die in den Übertragungsfunktionen H11(ω) bis H22(ω) auftretenden Dämpfungsfaktoren und betrachtet ein Delay-and-Sum-Beamforming Model, würden sich die Mikrofonsignale aus zeitverzögerten Versionen der einzelnen Sprachsignale zusammensetzen: x1(t) = s1(t) + s2(t) x2(t) = s1(t – τ1) + s2(t – τ2) (3)
  • Hierbei werden nur relative Verzögerungen betrachtet, also eine Zeitverzögerung von Null am Mikrofon M1 angenommen. Im Frequenzbereich entspricht die Verzögerung einer Multiplikation mit einem Phasenfaktor, so daß die Überlagerung wie folgt dargestellt werden kann: X1(ω) = S1(ω) + S2(ω) X2(ω) = e11,ω)·S1(ω) + e22,ω)·S2(ω) (4) wobei blickrichtungsabhängige Phasenfaktoren e11,ω) und e22,ω) wie folgt definiert sind:
    Figure 00070001
  • In Matrixschreibweise ergibt sich hieraus: X(ω) = A(ω)·S(ω), (6)mit der Mischungsmatrix
    Figure 00070002
  • Im Unterschied zum üblichen Delay-and-Sum-Beamforming wird eine frequenzabhängige Betrachtung durchgeführt, so daß die Einfallswinkel φ1 und φ2 für verschiedene Frequenzen als nicht konstant angenommen werden, was einer realen Umgebung, beispielsweise in einem Fahrzeug, entspricht, da durch die Übertragungsfunktion zwischen Sprecher und Mikrofon zusätzliche Phasendrehungen auf die Signale wirken. Diese zusätzlichen Phasendrehungen sind jedoch unbekannt, so daß lediglich von einer ungefähren Einfallsrichtung ausgegangen werden kann, die sich von Frequenzband zu Frequenzband ändert. Aus diesem Grund wird das Verfahren frequenzvariiert implementiert, d.h. die Blickrichtungen φ1 und φ2 werden für jedes Frequenzband ωk (k = 2 bis NFFT/2) separat angepaßt.
  • Insbesondere für tiefe Frequenzbereiche können je nach Umgebungsbedingungen anwendungsfallabhängig Phasendrehungen auftreten, die größer als die mit Hilfe des Beamforming- Konzepts nach Gleichung (5) erfaßbaren Phasendrehungen sind. In diesem Fall kann eine zusätzliche Skalierungsfunktion λ(ω) in den Exponenten der beiden Terme in Gleichung (5) zu einer Verbesserung des Verfahrens führen.
  • Für jede Frequenz wird gefordert, daß im entmischten frequenzabhängigen Ausgangssignal Y1(ω) der Anteil von Sprecher 2 (Geräuschquelle Q1) gleich Null und der Anteil von Sprecher 1 (Geräuschquelle Q1) gleich Eins ist. Für das entmischte frequenzabhängige Ausgangssignal Y2(ω) gilt dementsprechend, daß der Anteil von Sprecher 1 gleich Null und der Anteil von Sprecher 2 gleich Eins ist. Diese Bedingung kann durch die Bildung der Inversen der Mischungsmatrix aus Gleichung (7) realisiert werden. In jedem Frequenzband gibt es also eine folgendermaßen definierte Entmischungsmatrix:
    Figure 00080001
    wobei die Phasenfaktoren e1 und e2 gemäß Gleichung (5) definiert sind. Die Ausgangssignale ergeben sich aus Multiplikation der Entmischungsmatrix mit den Mikrofonsignalen. Y(ω) = W(ω)·X(ω) (9)
  • Für die einzelnen Ausgangssignale in jedem Frequenzband ergibt sich:
    Figure 00080002
  • Damit ergibt sich eine wie in 2 gezeigte Anordnung von zwei parallelen frequenzvarianten Delay and Sum Beamformern, die auch als Anordnung von zwei parallelen Filter and Sum Beamformern, deren Filter beide eine Allpaßcharakteristik aufweisen, interpretiert werden kann.
  • Die Entmischungsfilter, also die Elemente der Entmischungsmatrix, hängen in jedem Frequenzband ausschließlich von den beiden Blickrichtungen φ1(ω) und φ2(ω) ab. Die Optimierung dieser beiden Richtungen erfolgt mit Hilfe einer ICA-Analyse (ICA – „ Independent Component Analysis"). Hierbei ist stets gewährleistet, daß die Richtung minimaler Dämpfung des ersten Sprachsignales die Ausnullungsrichtung des zweiten Sprachsignales ist. Gleiches gilt umgekehrt für das zweite Sprachsignal, dessen Blickrichtung gleichzeitig die Ausnullungsrichtung des ersten Sprachsignals ist.
  • Für den Einsatz im Kfz ist es günstig, tieffrequente Störungen gleich mit herauszufiltern. Zu diesem Zweck wird in der Entmischungsmatrix ein blickrichtungs- und frequenzabhängiger Dämpfungsfaktor |e1 – e2| benutzt. Die endgültige Entmischungsmatrix lautet dann:
    Figure 00090001
  • In jedem Frequenzband werden die beiden Blickrichtungen des Beamformers, φ1 und φ2 , so angepaßt, daß die beiden Ausgangssignale Y1(ω) und Y2(ω) des Beamformers (vgl. 2) im statistischen Sinne möglichst unabhängig voneinander sind. Mathematisch betrachtet werden also die Richtungen φ1(ω) und φ2(ω) optimiert, so daß die beiden entmischten frequenzabhängigen Ausgangssignale Y1(ω) und Y2(ω) möglichst geringe statistische Abhängigkeiten voneinander besitzen.
  • Zur Beurteilung der statistischen Abhängigkeit wird als statistisches Maß vierter Ordnung die folgende Kreuzkumulante verwendet:
    Figure 00100001
  • Hierbei bilden Y ' / 1 und Y ' / 2 mittelwertbefreite, normierte Versionen der entmischten frequenzabhängigen Ausgangssignale Y1(ω) und Y2(ω)
    Figure 00100002
  • Die Kostenfunktion J = Cum(Y ' / 1,Y ' / 2) wird so optimiert, daß die optimalen φ1(ω) und φ2(ω) folgende Anforderung erfüllen müssen:
    Figure 00100003
  • Die Suche nach den optimalen φ1(ω) und φ2(ω) erfolgt sequentiell für jedes Frequenzband ωk (mit k=2 bis NFFT/2) mittels eines Gradientenabstiegs. Als Startwert in jedem Frequenzband ωk dienen die arithmetischen Mittelwerte der bis zu dieser Frequenz gefundenen Blickrichtungen:
    Figure 00100004
  • Als Suchrichtung dienen die Realteile der partiellen Ableitungen ∂J/∂φ1 und ∂J/∂φ2.
  • Figure 00110001
  • Bei der Berechnung der partiellen Ableitungen wurde der komplexe Vorfaktor aus Gleichung (11) weggelassen, was folgender Form der Entmischungsmatrix entspricht:
    Figure 00110002
  • Der Vorfaktor beeinflußt nicht den Grad der statistischen Unabhängigkeit, so daß er bei der Optimierung keine Rolle spielt. Für die tatsächliche Entmischung mit den optimierten Blickrichtungen muß er jedoch berücksichtigt werden, da sich andernfalls die Qualität der entmischten Signale deutlich verschlechtert.
  • Eine einfache Erweiterung des erläuterten Entmischungsverfahrens zur Berücksichtigung der in der Realität auftretenden Dämpfunsfaktoren wird erreicht, wenn die Faktoren e1 und e2 in Gleichung (5) um einen Betragsanteil erweitert bzw. als komplexe Faktoren mit beliebigem Betrag definiert werden. Dieses bedeutet, daß abweichend vom Beamforming-Modell e1 und e2 nicht mehr auf dem Einheitskreis in der komplexen Ebene liegen müssen, sondern frei variiert werden können. Wird für die weitere Optimierung die Kostenfunktion aus Gleichung (12) benutzt, ergeben sich die Ableitungen nach den konjugiert komplexen Faktoren, also nach e * / 1 und e * / 2 , wie folgt:
    Figure 00110003
  • Die bisher gefundenen Blickrichtungen werden als Startwerte benutzt, und anschließend werden in der Nachverarbeitung e1 und e2 so optimiert, daß der Grad der statistischen Unabhängigkeit zwischen den frequenzabhängigen Ausgangssignalen Y1(ω) und Y2(ω) ein Minimum erreicht. In dieser Weise kann das Verfahren als Vorverarbeitungsstufe für andere Methoden der blinden Quellentrennung von akustischen Signalen genutzt werden.
  • Das beschriebene Verfahren zum Entmischen akustischer Signale basiert auf zwei parallelen im Frequenzbereich implementierten Delay-and-Sum-Beamformern (vgl. 2) unter Verwendung der Signale der beiden Mikrofone M1 und M2. Die Blickrichtungen der beiden Beamformer werden so definiert, daß die Einfallsrichtung der Geräuschquelle Q1 die Auslöschrichtung für die Geräuschquelle Q2 ist. Im Unterschied zu üblichen Beamforming-Verfahren sind hierbei die beiden Einfallsrichtungen nicht für alle Frequenzen gleich. Auf diese Weise wird eine Anpassung an reale Umgebungsbedingungen in verschiedensten Anwendungen erreicht, so daß durch die Raumakustik bedingte zusätzliche Phasendrehungen ausgeglichen werden. Die frequenzabhängige Einstellung der beiden Einfallsrichtungen erfolgt mit Hilfe von Kriterien statistischer Unabhängigkeit. Hierbei wird gemäß der beispielhaften Ausführungsform ein Kriterium vierter Ordnung (Kreuzkumulante) benutzt. Als Maß für statistische Unabhängigkeit können ebenfalls ICA-Kriterien aus der Informations- und Schätztheorie verwendet werden. Mögliche Kriterien sind beispielsweise: Maximum Likelihood, Maximum Entropy, Negentropy, Kurtosis, Minimum Mutual Information, Kernelbasierte Verfahren, Statistik zweiter Ordnung (mit zusätzlicher Ausnutzung der Nichtstationarität oder Benutzung linearer Operatoren). Eine weitere Möglichkeit wäre, als Nicht-ICA-Kriterium die Ausnutzung von Statistik zweiter Ordnung zu verwenden, beispielsweise Kohärenz oder Kovarianz.
  • Die in der vorstehenden Beschreibung, den Ansprüchen und der Zeichnung offenbarten Merkmale der Erfindung können sowohl einzeln als auch in beliebiger Kombination für die Verwirklichung der Erfindung in ihren verschiedenen Ausführungsformen von Bedeutung sein.

Claims (12)

  1. Verfahren zum Entmischen von akustischen Signalen, bei dem: – mit Hilfe von wenigstens zwei akustischen Sensoren M1 und M2 mindestens zwei zeitabhängige akustische Mischsignale x1(t) und x2(t) erfaßt werden, die jeweils gemischte Signalanteile zeitabhängiger akustischer Quellsignale s1(t) und s2(t) von akustischen Signalquellen Q1 und Q2 umfassen; – die akustischen Mischsignale x1(t) und x2(t) zum Bilden von frequenzabhängigen Mischsignalen X1(ω) und X2(ω) mit Hilfe einer Verarbeitungseinrichtung in den Frequenzbereich transformiert werden; und – mit Hilfe der Verarbeitungseinrichtung die frequenzabhängigen Mischsignale X1(ω) und X2(ω) mittels eines im Frequenzbereich ausgeführten Null-Beamformings auf Basis eines Delay-and-Sum-Verfahrens analysiert werden, um entmischte frequenzabhängige Ausgangssignale Y1(ω) und Y2(ω) zu bilden, die anschließend in entmischte zeitabhängige Ausgangssignale y1(t) und y2(t) transformiert werden, wobei Einfallswinkel der zeitabhängigen akustischen Quellsignale s1(t) und s2(t) bei dem Null-Beamforming auf Basis des Delay-and-Sum-Verfahrens als frequenzabhängige Einfallswinkel φ1n) und φ2n) für mehrere Frequenzbänder ωn(n = 1, 2,...) optimiert werden.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die frequenzabhängigen Einfallswinkel φ1n) und φ2(ω) in dem jeweiligen Frequenzband ωn optimiert werden, um für die entmischten frequenzabhängigen Ausgangssignale Y1(ω) und Y2(ω) eine optimierte statistische Unabhängigkeit auszubilden.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß als ein Maß für die statistische Unabhängigkeit der entmischten frequenzabhängigen Ausgangssignale Y1(ω) und Y2(ω) eine Kreuzkumulante wie folgt verwendet wird:
    Figure 00140001
    wobei Y ' / 1 und Y ' / 2 mittelwertbefreite, normierte Versionen der entmischten frequenzabhängigen Ausgangsignale Y1(ω) und Y2(ω) wie folgt darstellen:
    Figure 00140002
  4. V erfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die Optimierung der Einfallswinkel φ1n) und φ2n) für das jeweilige Frequenzband ωn mit Hilfe eines ICA-Kriteriums (ICA – „Independent Component Analysis") ausgeführt wird.
  5. Verfahren nach einem der vorangehenden Ansprüche, wobei die folgenden Bildungsregeln für die zeitabhängigen akustischen Mischsignalen x1(t) und x2(t) x1(t) = s1(t) + s2(t) x2(t) = s1(t – τ1) + s2(t – τ2)und die frequenzabhängigen Mischsignale X1(ω) und X2(ω) X1(ω) = S1(ω) + S2(ω) X2(ω) = e11,ω)·S1(ω) + e22,ω)·S2(ω)verwendet werden, wobei die blickrichtungsabhängigen Phasenfaktoren e11,ω) und e22,ω) wie folgt definiert sind:
    Figure 00150001
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß für eine weitere Optimierung der Phasenfaktoren e11,ω) und e22,ω) komplexe Ableitungen einer Kostenfunktion nach e * / 1 und e * / 2 wie folgt berechnet werden:
    Figure 00150002
  7. Verwendung eines Verfahrens nach einem der vorangehenden Ansprüche zum Entmischen von akustischen Signalen in einem Fahrzeug.
  8. Vorrichtung zum Entmischen akustischer Signale gemäß einem Verfahren nach einem der Ansprüche 1 bis 7 mit einer Anordnung von mindestens zwei akustischen Sensoren M1 und M2 zum Erfassen von zwei zeitabhängigen akustischen Mischsignalen x1(t) und x2(t), die jeweils Signalanteile zeitabhängiger akustischer Quellsignale s1(t) und s2(t) von akustischen Signalquellen Q1 und Q2 umfassen, und einer Verarbeitungseinrichtung, die konfiguriert ist, um die folgenden Mittel aufzuweisen: – Mittel zum Bilden von frequenzabhängigen Mischsignalen X1(ω) und X2(ω) im Frequenzbereich aus den akustischen Mischsignalen x1(t) und x2(t); und – Mittel, um ausgehend von den frequenzabhängigen Mischsignalen X1(ω) und X2(ω) mittels eines im Frequenzbereich ausgeführten Null-Beamformings auf Basis eines Delay-and-Sum-Verfahrens entmischte frequenzabhängige Ausgangssignale Y1(ω) und Y2(ω) zu bilden, die anschließend in entmischte zeitabhängige Ausgangssignale y1(t) und y2(t) transformiert werden, wobei Einfallswinkel φ1 und φ2 der zeitabhängigen akustischen Quellsignale s1(t) und s2(t) beim Null-Beamforming auf Basis des Delay-and-Sum-Verfahrens als frequenzabhängige Einfallswinkel φ1n) und φ2n) für mehrere Frequenzbänder ωn (n = 1, 2,...) optimiert werden.
  9. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß die akustischen Sensoren M1 und M2 in einem kleinen räumlichen Abstand voneinander angeordnet sind.
  10. Vorrichtung nach Anspruch 9, dadurch gekennzeichnet, daß der räumliche Abstand kleiner als 1 m ist.
  11. Vorrichtung nach Anspruch 9 oder 10, dadurch gekennzeichnet, daß die akustischen Sensoren M1 und M2 in einem Fahrzeug angeordnet sind.
  12. Vorrichtung nach Anspruch 11, dadurch gekennzeichnet, die akustischen Sensoren M1 und M2 an einem inneren Fahrzeugrückspiegel des Fahrzeugs angeordnet sind.
DE2003112065 2003-03-18 2003-03-18 Verfahren und Vorrichtung zum Entmischen akustischer Signale Expired - Fee Related DE10312065B4 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE2003112065 DE10312065B4 (de) 2003-03-18 2003-03-18 Verfahren und Vorrichtung zum Entmischen akustischer Signale
PCT/DE2004/000450 WO2004083884A2 (de) 2003-03-18 2004-03-08 Verfahren und vorrichtung zum entmischen akustischer signale

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2003112065 DE10312065B4 (de) 2003-03-18 2003-03-18 Verfahren und Vorrichtung zum Entmischen akustischer Signale

Publications (2)

Publication Number Publication Date
DE10312065A1 true DE10312065A1 (de) 2004-10-21
DE10312065B4 DE10312065B4 (de) 2005-10-13

Family

ID=33015910

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2003112065 Expired - Fee Related DE10312065B4 (de) 2003-03-18 2003-03-18 Verfahren und Vorrichtung zum Entmischen akustischer Signale

Country Status (2)

Country Link
DE (1) DE10312065B4 (de)
WO (1) WO2004083884A2 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8046219B2 (en) * 2007-10-18 2011-10-25 Motorola Mobility, Inc. Robust two microphone noise suppression system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5353376A (en) * 1992-03-20 1994-10-04 Texas Instruments Incorporated System and method for improved speech acquisition for hands-free voice telecommunication in a noisy environment
WO2002061732A1 (en) * 2001-01-30 2002-08-08 Thomson Licensing S.A. Geometric source separation signal processing technique
DE69803933T2 (de) * 1997-08-20 2002-10-10 Phonak Ag Staefa Verfahren zur elektronischen strahlformung von akustischen signalen und akustisches sensorgerät
WO2003015464A2 (en) * 2001-08-08 2003-02-20 Dspfactory Ltd Directional audio signal processing using an oversampled filterbank

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5353376A (en) * 1992-03-20 1994-10-04 Texas Instruments Incorporated System and method for improved speech acquisition for hands-free voice telecommunication in a noisy environment
DE69803933T2 (de) * 1997-08-20 2002-10-10 Phonak Ag Staefa Verfahren zur elektronischen strahlformung von akustischen signalen und akustisches sensorgerät
WO2002061732A1 (en) * 2001-01-30 2002-08-08 Thomson Licensing S.A. Geometric source separation signal processing technique
WO2003015464A2 (en) * 2001-08-08 2003-02-20 Dspfactory Ltd Directional audio signal processing using an oversampled filterbank

Also Published As

Publication number Publication date
WO2004083884A3 (de) 2005-01-27
WO2004083884A2 (de) 2004-09-30
DE10312065B4 (de) 2005-10-13

Similar Documents

Publication Publication Date Title
DE102004005998B3 (de) Verfahren und Vorrichtung zur Separierung von Schallsignalen
DE102014201228B4 (de) System und Verfahren zur aktiven Lärmkontrolle
DE102013022403B3 (de) Sensorsystem zur akustischen Vermessung der Eigenschaften einer Übertragungsstrecke eines Messsystems zwischen Lautsprecher und Mikrofon
DE112016006218B4 (de) Schallsignal-Verbesserungsvorrichtung
DE112017007800T5 (de) Störgeräuscheliminierungseinrichtung und Störgeräuscheliminierungsverfahren
DE102011012573B4 (de) Sprachbedienvorrichtung für Kraftfahrzeuge und Verfahren zur Auswahl eines Mikrofons für den Betrieb einer Sprachbedienvorrichtung
EP1771034A2 (de) Mikrofonkalibrierung bei einem RGSC-Beamformer
EP1386307B1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
EP3375204B1 (de) Audiosignalverarbeitung in einem fahrzeug
DE102014002899A1 (de) Verfahren, Vorrichtung und Herstellung zur Zwei-Mikrofon-Array-Sprachverbesserung für eine Kraftfahrzeugumgebung
EP1655998A2 (de) Verfahren zur Erzeugung von Stereosignalen für getrennte Quellen und entsprechendes Akustiksystem
DE102014017293A1 (de) Verfahren zur Verzerrungskompensation im Hörfrequenzbereich und damit zu verwendendes Verfahren zur Schätzung akustischer Kanäle
DE102010028845A1 (de) Verfahren und Vorrichtung zur Aufpralldetektion in Fahrzeugen
DE10312065B4 (de) Verfahren und Vorrichtung zum Entmischen akustischer Signale
AT514412A1 (de) Verfahren zur Erhöhung der Sprachverständlichkeit
DE10035222A1 (de) Verfahren zur aktustischen Ortung von Personen in einem Detektionsraum
DE102010044742A1 (de) Verfahren und Vorrichrung zur Bestimmung einer aus dem Doppler-Effekt resultierenden Doppler-Frequenzverschiebung
DE102009039889B4 (de) Vorrichtung und Verfahren zum Erfassen von Sprache in einem Kraftfahrzeug
DE102017212980A1 (de) Verfahren zur Kompensation von Störgeräuschen bei einer Freisprecheinrichtung in einem Kraftfahrzeug und Freisprecheinrichtung
DE19748839C1 (de) Verfahren zur Geräuschanalyse
DE102018215411B3 (de) Verfahren zum gleichzeitigen Betreiben einer Lautsprecheranordnung in einer Lautsprecherfunktion und in einer Mikrofonfunktion sowie Lautsprecheranordnung
DE10341191B4 (de) Verfahren und Computerprogramm zum Modellieren eines Störimpulses auf einem Kfz-Bordnetz
DE102019005149B4 (de) Klassifizierung von Audiodaten
DE102014019108B4 (de) Verfahren zum Betreiben einer Lautsprechereinrichtung und Kraftfahrzeug mit einer Lautsprechereinrichtung
DE102022205942A1 (de) Verfahren zum Bestimmen von Positionen von Mikrofonen in einer Mikrofon-Anordnung für die Lokalisierung akustischer Signalquellen und Verfahren zum Bestimmen einer Fahrzeug bezogenen Übertragungsfunktion für eine Mikrofon-Anordnung des Fahrzeuges für die Lokalisierung akustischer Signalquellen

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee