-
GEBIET
-
Die vorliegende Erfindung betrifft im Allgemeinen das Verarbeiten eines Tonsignals und im Besonderen das Verarbeiten eines Tonsignals in einer Frequenzdomäne.
-
HINTERGRUND
-
Ein Mikrofon-Array, das eine Vielzahl von Mikrofonen enthält, kann eine Tonquellenrichtverstärkung eines empfangenen Tonsignals durch das Verarbeiten von empfangenen Tonsignalen vorsehen, in die jeweilige empfangene Töne durch die Mikrofone konvertiert werden.
-
Zum Verbessern eines S/R-(Signal-Rausch)-Verhältnisses eines ausgegebenen Tonsignals verarbeitet eine Mikrofon-Array-Vorrichtung Tonsignale von ihren Mikrofonen, um unerwünschtes Rauschen zu unterdrücken, das in Tönen enthalten ist, die aus anderen Richtungen als einer Zieltonquellenrichtung oder aus einer Unterdrückungsrichtung ankommen.
-
Eine bekannte Mikrofon-Array-Vorrichtung enthält eine Schätzeinheit zum Schätzen eines durch ein virtuelles Mikrofon zu empfangenden Tonsignals in einer Zeitdomäne auf der Basis von Tonsignalen, die durch eine Vielzahl von realen Mikrofonen empfangen werden, wobei angenommen wird, dass eines oder mehrere virtuelle Mikrofone außer der Vielzahl von realen Mikrofonen vorgesehen sind. So wird ein Array, das wenige reale Mikrofone enthält, verwendet, um Charakteristiken vorzusehen, die denen eines Arrays mit vielen realen Mikrofonen äquivalent sind.
-
Eine bekannte Rauscheliminierungsvorrichtung enthält einen Frequenzanalysierer zum Berechnen eines Frequenzspektrums eines eingegebenen Tonsignals, eine Rauschleistungsspektrum-Schätzeinheit zum Schätzen einer Rauschkomponente, die in dem eingegebenen Tonsignal enthalten ist, einen Subtrahierer zum Subtrahieren des Rauschleistungsspektrums von dem eingegebenen Leistungsspektrum und einen Frequenzsynthetisierer zum Wiederherstellen eines Tonsignals in einer Zeitdomäne von einem Phasenspektrum von dem eingegebenen Tonsignal und dem Leistungsspektrum von dem Subtrahierer. Die Rauschleistungsspektrum-Schätzeinheit extrahiert, als Rauschleistungsspektrum, ein Leistungsspektrum mit niedrigen Leistungspegeln über jeweilige Frequenzen während einer gegebenen Zeitperiode, so dass das Rauschleistungsspektrum geschätzt wird, ohne ein Rauschintervall zu detektieren.
-
Eine bekannte Mikrofon-Array-Vorrichtung, die eine begrenzte Anzahl von Mikrofonen enthält, verarbeitet empfangene Tonsignale in einer Zeitdomäne, um eine Tonunterdrückungsrichtung zu definieren, die zu einer Ankunftsrichtung einer Zieltonquelle entgegengesetzt ist, und verzögert besondere Abtastwerte der empfangenen Tonsignale bezüglich anderer Abtastwerte der empfangenen Tonsignale und subtrahiert die verzögerten Abtastwerte von den anderen Abtastwerten. Diese Verarbeitung mag ein Rauschen in der Tonunterdrückungsrichtung ausreichend unterdrücken. Sie kann jedoch ein Hintergrundrauschen, wie etwa ein Rauschen, das im Inneren eines fahrenden Autos oder in einer überfüllten Stadt empfangen wird, in einer Ankunftsrichtung des Hintergrundrauschens auf Grund irgendeiner Abweichung der Ankunftsrichtung des Hintergrundrauschens von der Tonunterdrückungsrichtung nicht ausreichend unterdrücken. Eine erhöhte Anzahl der Mikrofone mag eine verbesserte Rauschunterdrückung vorsehen, kann aber zur Zunahme der Kosten und der Größe von solch einem Mikrofon-Array führen. Eine bekannte Rauschschätztechnik in der Zeitdomäne kann bei verschiedenen Tonquellen, die in jeweiligen verschiedenen Richtungen gleichzeitig auftreten, nur eine niedrige Schätzgenauigkeit vorsehen.
-
Radke, Richard; Rickard, Scott: Audio Interpolation for Virtual Audio Synthesis; AES 22nd International Conference an Virtual, Synthetic and Entertainment Audio, Juni 2002; offenbart eine Audio-Interpolation mit zwei beabstandeten realen Mikrophonen unter Verwendung einer Fourier-Transformation und einer Abschätzung von Weglängen zur Synthetisierung von Tonsignalen, die von einem virtuellen Mikrophon an irgend einem Punkt auf der Linie gehört werden würde, die die zwei realen Mikrophone verbindet.
-
Der Erfinder hat erkannt, dass eine Vorrichtung, die eine begrenzte Anzahl von Tonsignaleingabeelementen hat, dafür ausgelegt sein könnte, ein virtuelles Spektralsignal in der Frequenzdomäne eines virtuellen Tonsignals zu erzeugen, von dem angenommen wird, dass es von einem virtuellen Tonsignaleingabeelement empfangen wird, das sich von realen Tonsignaleingabeelementen unterscheidet, und das virtuelle Spektralsignal zusammen mit einem Spektralsignal in der Frequenzdomäne eines Tonsignals von dem realen Tonsignaleingabeelement zu verarbeiten, so dass ein Rauschen in einem ausgegebenen Tonsignal genauer und ausreichender unterdrückt werden kann.
-
Es ist wünschenswert, ein virtuelles Spektrum eines virtuellen Tonsignals gemäß Tonsignalen von einer begrenzten Anzahl von Tonsignaleingabeelementen zu erzeugen.
-
Es ist wünschenswert, Tonsignale von einer begrenzten Anzahl von Tonsignaleingabeelementen zu verarbeiten, um ein Tonsignal mit relativ reduziertem Rauschen zu erzeugen.
-
ZUSAMMENFASSUNG
-
Gemäß einem Aspekt der Ausführungsform enthält eine Signalverarbeitungsvorrichtung zwei Tonsignaleingabeelemente, einen Orthogonaltransformierer zum orthogonalen Transformieren von wenigstens zwei Tonsignalen in einer Zeitdomäne, die von den zwei jeweiligen Tonsignaleingabeelementen empfangen werden, in zwei jeweilige Spektralsignale in einer Frequenzdomäne, einen Phasendifferenzbestimmer zum Bestimmen einer Phasendifferenz zwischen den zwei Spektralsignalen in der Frequenzdomäne und einen Generator eines virtuellen Spektrums zum Erzeugen eines virtuellen Spektralsignals in der Frequenzdomäne gemäß der Phasendifferenz und wenigstens einem von den zwei Spektralsignalen.
-
Das Ziel und die Vorteile der Erfindung werden mittels der Elemente und Kombinationen realisiert und erreicht, die in den Ansprüchen besonders angeführt sind.
-
Es versteht sich, dass sowohl die obige allgemeine Beschreibung als auch die folgende eingehende Beschreibung als Beispiel und als Erläuterung dient und die Erfindung, wie sie beansprucht wird, nicht beschränkt.
-
KURZE BESCHREIBUNG DER ZEICHNUNGEN
-
1 zeigt ein Beispiel für die Anordnung eines Arrays von realen Mikrofonen und virtuellen Mikrofonen als Tonempfangselemente oder Tonsignaleingabeelemente zur Verwendung in Ausführungsformen der vorliegenden Erfindung;
-
2 zeigt ein Beispiel für eine schematische Konfiguration der Mikrofon-Array-Vorrichtung, die die realen Mikrofone von 1 enthält, gemäß einer Ausführungsform der vorliegenden Erfindung;
-
3A zeigt ein Beispiel für eine schematische Konfiguration des digitalen Signalprozessors von 2, der die digitalen Tonsignale in der Zeitdomäne verarbeitet, um dadurch virtuelle komplexe Spektren in der Frequenzdomäne der virtuellen Tonsignale der virtuellen Mikrofone von 1 zu erzeugen;
-
3B zeigt ein Beispiel für ein optionales zusätzliches Element für den digitalen Signalprozessor, wodurch die virtuellen Tonsignale in der Zeitdomäne der virtuellen Mikrofone tatsächlich gemäß den virtuellen komplexen Spektren in der Frequenzdomäne erzeugt werden können;
-
4A und 4B zeigen ein Beispiel für eine schematische Konfiguration einer Mikrofon-Array-Vorrichtung mit dem Array von Mikrofonen wie in der Anordnung von 1, die die Generatoreinheit des virtuellen Signalspektrums (VSSG) von 3A enthält und ein Rauschen relativ reduzieren kann;
-
5 zeigt ein Beispiel für eine schematische Konfiguration einer Filtereinheit als Abwandlung der Filtereinheit von 4B und als Alternative zu ihr;
-
6 zeigt ein Beispiel für eine schematische Konfiguration einer Filtereinheit für die Zieltonsignalverstärkung als Abwandlung der Filtereinheit von 4B;
-
7 zeigt ein Beispiel für eine schematische Konfiguration einer Filtereinheit für die Zieltonsignalverstärkung als Abwandlung der Filtereinheit von 5 oder der Filtereinheit von 6; und
-
8 ist ein Beispiel für einen Operationsablaufplan zum Erzeugen eines virtuellen komplexen Spektrums, der durch den digitalen Signalprozessor von 3A gemäß einem Programm ausgeführt wird, das in einem Speicher gespeichert ist.
-
BESCHREIBUNG VON AUSFÜHRUNGSFORMEN
-
Nichtbeschränkende bevorzugte Ausführungsformen der vorliegenden Erfindung werden unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben. Durch die gesamten Zeichnungen hindurch bezeichnen ähnliche Symbole und Zahlen ähnliche Dinge und Funktionen.
-
1 zeigt ein Beispiel für die Anordnung eines Arrays von realen Mikrofonen MIC1 und MIC2 und virtuellen Mikrofonen MIC0 und MIC3 als Tonempfangselemente oder Tonsignaleingabeelemente zur Verwendung in Ausführungsformen der vorliegenden Erfindung. Die Anzahl der realen Mikrofone kann drei oder mehr betragen. Die Anzahl der virtuellen Mikrofone kann auch drei oder mehr betragen.
-
Im Allgemeinen kann die Anzahl n von realen und virtuellen Mikrofonen MIC0 bis MIC(n – 1) in einem Array im Wesentlichen auf einer hypothetischen geraden Linie in bekannten gleichen Intervallen oder mit Abständen d zwischen ihnen angeordnet werden, wobei die Suffixe 0, 1, ..., n – 1 der Bezugszeichen ”MIC” Ordnungszahlen der jeweiligen Mikrofone angeben. Als Beispiel können vier Mikrofone MIC0 bis MIC3 auf einer hypothetischen geraden Linie in gleichen Intervallen oder mit Abständen d zwischen ihnen angeordnet werden. Alternativ dazu brauchen die Abstände d zwischen den benachbarten Mikrofonen MIC0 bis MIC(n – 1) untereinander nicht gleich zu sein. Das heißt, wie unten beschrieben, dass die Abstände bekannte verschiedene Abstände d1, d2, d3, ... sein können, so dass die Abstände so festgelegt werden, um dem Abtasttheorem oder dem Nyquist-Theorem zu entsprechen.
-
Um die Ebene-Wellen-Approximation richtig anzuwenden, wird angenommen, dass eine Zieltonquelle SS an einer Position in einer Entfernung der mehr als zehnfachen Distanz d(10 × d) von dem Array der Mikrofone MIC0 bis MIC3 angeordnet ist. In 1 wird angenommen, dass die Zieltonquelle SS links von dem Mikrofon MIC0 auf der geraden Linie angeordnet ist. Es wird angenommen, dass die Richtung zu der Zieltonquelle SS als Tonempfangsrichtung oder Zieltonquellenrichtung für das Array der Mikrofone MIC0 bis MIC3 definiert ist. Im Allgemeinen kann die Zieltonquelle SS der Mund einer Sprecherperson sein, und daher kann die Zieltonquellenrichtung eine Richtung sein, die ungefähr zu dem Mund führt, oder in einem Winkelzentrum eines Winkelbereichs liegen, der die Mundrichtung einschließt. Im Allgemeinen kann eine Richtung, die zu der Tonempfangsrichtung entgegengesetzt ist, d. h. eine Richtung der Rotation der Tonempfangsrichtung um einen Winkel +π, als primäre Rauschunterdrückungsrichtung verwendet werden, während eine andere Unterdrückungsrichtung, die im Winkel von der primären Unterdrückungsrichtung abweicht, als sekundäre Rauschunterdrückungsrichtung verwendet werden kann. Die sekundäre Rauschunterdrückungsrichtung kann für jede Frequenz f eines Bereiches von Tonsignalfrequenzen f bestimmt werden.
-
Es ist wünschenswert, dass die Distanz d zwischen den benachbarten Mikrofonen MIC0 bis MIC(n – 1) der Bedingung d < c/fs entspricht, um dem Abtasttheorem zu genügen, wobei d die Distanz zwischen den Mikrofonen darstellt, c eine Schallgeschwindigkeit darstellt und fs eine Abtastrate darstellt. In 1 wird die Richtcharakteristik oder das Muster des Richtverhaltens (z. B. herzförmig) des Arrays der Mikrofone MIC0 bis MIC3 durch eine geschlossene Kurve der gestrichelten Linie dargestellt. Die realen oder virtuellen Tonsignale, die von dem Array der Mikrofone MIC0 bis MIC3 zu empfangen sind, können in Abhängigkeit von einem Einfallswinkel θ (zwischen –π/2 und +π/2) des ankommenden Tons bezüglich der geraden Linie, auf der das Array der Mikrofone MIC0 bis MIC3 angeordnet ist, verarbeitet werden, aber unabhängig von der radialen Einfallsrichtung (zwischen 0 und 2π) auf einer Ebene, die zu der geraden Linie senkrecht ist.
-
Nur die realen Mikrofone MIC1 und MIC2 sind tatsächlich vorgesehen. Dann können virtuelle Tonsignale, von denen angenommen wird, dass sie durch die virtuellen Mikrofone MIC0 und MIC3 an ihren jeweiligen virtuellen Positionen erzeugt werden und von ihnen empfangen werden, von den realen Tonsignalen geschätzt oder abgeleitet werden, die von den realen Mikrofonen MIC1 und MIC2 empfangen werden.
-
Der sich von der Zieltonquelle SS ausbreitende Ton wird durch die rechten Mikrofone MIC1 bis MIC3 mit einer Zeitverzögerung von τ = d/c bezüglich der jeweiligen linken Nachbarmikrofone MIC0 bis MIC2 detektiert, die der Zieltonquelle SS relativ näher sind. Andererseits wird ein Rauschen N1 aus der primären Unterdrückungsrichtung mit einer Zeitverzögerung von τ = d/c durch die linken Mikrofone MIC0 bis MIC2 bezüglich der jeweiligen rechten Nachbarmikrofone MIC1 bis MIC3 detektiert, die einer Quelle des Rauschens N1 relativ näher sind. Ein Rauschen N2 aus der sekundären Unterdrückungsrichtung wird durch die linken Mikrofone MIC0 bis MIC2 mit einer Zeitverzögerung von τ = d·sinθ/c bezüglich der jeweiligen rechten Nachbarmikrofone MIC1 bis MIC3 detektiert, die einer Quelle des Rauschens N2 relativ näher sind, wobei der Winkel θ die Ankunftsrichtung eines Rauschens N2 in der sekundären Unterdrückungsrichtung darstellt. In 1 stellt die Strichpunktlinie eine Wellenfront des ankommenden Rauschens N2 dar. Die Ankunftsrichtung des Rauschens N1 im Winkel θ = +π/2 entspricht der Richtung zum Unterdrücken des Tonsignals.
-
Das Rauschen N1 aus der primären Unterdrückungsrichtung (θ = +π/2) kann unterdrückt werden, indem jedes der Tonsignale IN0(t) bis IN2(t) der linken Mikrofone MIC0 bis MIC2 mit einer Verzögerung τ = d/c von jedem jeweiligen der Tonsignale IN1(t) bis IN3(t) der rechten Nachbarmikrofone MIC1 bis MIC3 subtrahiert wird. Jedoch kann das Rauschen N2, das aus einer Winkelrichtung θ kommt (–π/2 ≤ θ ≤ +π/2), die von der Unterdrückungsrichtung abweicht, nicht unterdrückt werden.
-
Der Erfinder hat erkannt, dass die Fourier-Transformation oder Orthogonaltransformation verwendet werden kann, um die Tonsignale in der Zeitdomäne von den realen Mikrofonen MIC1 und MIC2 in jeweilige komplexe Spektren in der Frequenzdomäne orthogonal zu transformieren, die weiterverarbeitet werden können, um ein komplexes Spektrum eines virtuellen Tonsignals in der Frequenzdomäne zu erzeugen, von dem angenommen wird, das es durch die virtuellen Mikrofone MIC0 oder MIC3 an ihren virtuellen Positionen erzeugt wird. Der Erfinder hat auch erkannt, dass eines der Spektren der Tonsignale von zwei benachbarten der Mikrofone MIC0 bis MIC3 in der Phase mit dem anderen Spektrum auf Frequenz-zu-Frequenz-Basis synchronisiert oder ausgerichtet werden kann und dann eine Differenz zwischen dem einen Spektrum und dem anderen Spektrum bestimmt werden kann, um eine Rauschkomponente, die aus einer anderen Richtung als der Tonquellenrichtung kommt, ausreichend zu unterdrücken.
-
2 zeigt ein Beispiel für eine schematische Konfiguration der Mikrofon-Array-Vorrichtung 10, die die realen Mikrofone MIC1 und MIC2 von 1 enthält, gemäß einer Ausführungsform der vorliegenden Erfindung. Die Mikrofon-Array-Vorrichtung 10 enthält die Mikrofone MIC1 und MIC2, Verstärker (AMPs) 122 und 124, Tiefpassfilter (LPFs) 142 und 144, einen digitalen Signalprozessor (DSP) 200 und einen Speicher 202. Die Mikrofon-Array-Vorrichtung 10 kann eine Informationsvorrichtung sein, wie beispielsweise eine in ein Fahrzeug montierte Vorrichtung oder eine Autonavigationsvorrichtung mit Spracherkennungsfunktion, oder ein Telefon mit Freisprecheinrichtung oder ein Mobiltelefon.
-
Analoge Tonsignale ina1 und ina2, in die jeweilige Töne konvertiert werden, die durch die jeweiligen realen Mikrofone MIC1 und MIC2 empfangen werden, werden für die jeweiligen Verstärker (AMPs) 122 und 124 vorgesehen und durch die Verstärker 122 und 124 verstärkt. Die ausgegebenen verstärkten Tonsignale INa1 und INa2 von den Verstärkern 122 und 124 sind mit jeweiligen Eingängen der jeweiligen Tiefpassfilter 142 und 144, die eine Grenzfrequenz fc (z. B. 3,9 kHz) haben, zur Tiefpassfilterung gekoppelt.
-
Die ausgegebenen gefilterten Tonsignale INp1 und INp2 von den Tiefpassfiltern 142 und 144 sind mit jeweiligen Eingängen von jeweiligen Analog-Digital-(A/D)-Konvertern 162 und 164 gekoppelt, die eine Abtastrate fs (fs > 2fc) (z. B. 8 kHz) haben, und werden in jeweilige digitale Tonsignale IN1(t) und IN2(t) konvertiert. Die ausgegebenen digitalen Tonsignale IN1(t) und IN2(t) in der Zeitdomäne von den Analog-Digital-Konvertern 162 und 164 sind mit jeweiligen Tonsignaleingangsanschlüssen it1 und it2 des digitalen Signalprozessors 200 gekoppelt.
-
Der digitale Signalprozessor 200, der einen Speicher 202 wie etwa einen RAM verwendet, transformiert die ausgegebenen digitalen Tonsignale IN1(t) und IN2(t) in der Zeitdomäne orthogonal in jeweilige Tonsignale in der Frequenzdomäne. Der digitale Signalprozessor 200 verarbeitet dann die Signale in der Frequenzdomäne durch Unterdrücken des Rauschens N1 oder N2 in dem Signal oder Verstärken des Tons von der Zieltonquelle SS und transformiert das verarbeitete Signal in der Frequenzdomäne umgekehrt und orthogonal in ein resultierendes digitales Tonsignal INdd(t) in der Zeitdomäne.
-
Das ausgegebene digitale Tonsignal INdd(t) wird zum Beispiel zur Spracherkennung oder zur telefonischen Sprachkommunikation durch ein Mobiltelefon verwendet. Das ausgegebene digitale Tonsignal INdd(t) ist für eine nachfolgende Nutzungsanwendung 400 vorgesehen. Dann wird das ausgegebene digitale Tonsignal INdd(t) zum Beispiel durch einen Digital-Analog-(D/A)-Konverter 404 in ein analoges Tonsignal konvertiert, und das analoge Tonsignal wird dann durch ein Tiefpassfilter 406 einer Tiefpassfilterung unterzogen, um dadurch ein gefiltertes analoges Tonsignal hervorzubringen. Alternativ dazu kann das ausgegebene digitale Tonsignal INdd(t) zum Beispiel in einem Speicher 414 gespeichert werden und dann bei der Spracherkennung durch eine Spracherkennungsvorrichtung 416 verwendet werden. Solch eine Spracherkennungsvorrichtung 416 kann auf einem Prozessor als Hardware implementiert sein oder kann auf einem Prozessor als Software implementiert sein, die gemäß einem Programm arbeitet, das in dem Speicher 414 gespeichert ist, der zum Beispiel einen ROM und einen RAM enthält.
-
Der digitale Signalprozessor 200 kann eine Signalverarbeitungsschaltungsanordnung sein, die als Hardware implementiert ist. Alternativ dazu kann die Funktion des digitalen Signalprozessors 200 als Software auf dem digitalen Signalprozessor 200 implementiert sein, der gemäß einem Programm arbeitet, das in dem Speicher 202 gespeichert ist, der zum Beispiel einen ROM und einen RAM enthält.
-
3A zeigt ein Beispiel für eine schematische Konfiguration des digitalen Signalprozessors (DSP) 200 von 2, der die konvertierten digitalen Tonsignale in der Zeitdomäne verarbeitet, die von den analogen Tonsignalen von den realen Mikrofonen MIC1 und MIC2 von 1 abgeleitet sind, um dadurch virtuelle komplexe Spektren in der Frequenzdomäne der virtuellen Tonsignale der virtuellen Mikrofone MIC0 und MIC3 von 1 zu erzeugen.
-
Der digitale Signalprozessor 200 enthält schnelle Fourier-Transformierer (FFTs) 212 und 214, die jeweilige Eingänge haben, die mit jeweiligen Ausgängen der Analog-Digital-Konverter 162 und 164 gekoppelt sind, und eine Generatoreinheit eines virtuellen Signalspektrums (VSSG) 220. Die Generatoreinheit des virtuellen Signalspektrums 220 enthält eine Phasendifferenz-Generatoreinheit 222 zum Erzeugen einer Phasendifferenz zwischen jeweiligen komplexen Spektralkomponenten bei jeder Frequenz f und enthält eine Schätzeinheit des virtuellen Signalspektrums 224 zum Erzeugen eines komplexen Spektrums in der Frequenzdomäne eines virtuellen Tonsignals. In dieser Ausführungsform wird die schnelle Fourier-Transformation zum orthogonalen Transformieren der digitalen Tonsignale von der Zeitdomäne in die Frequenzdomäne verwendet. Alternativ dazu kann eine andere Transformationsfunktion für die orthogonale Transformation eingesetzt werden, wie etwa die diskrete Cosinustransformation, die Wavelet-Transformation oder dergleichen.
-
Eine Gruppe der Elemente MIC1, 122, 142 und 162, die das digitale Tonsignal IN0(t) hervorbringen, kann als reale Mikrofoneinheit für das Mikrofon MIC1 angesehen werden. Eine Gruppe der Elemente MIC2, 124, 144 und 164, die das digitale Tonsignal IN1(t) hervorbringen, kann als reale Mikrofoneinheit für das Mikrofon MIC1 angesehen werden. Eine virtuelle Mikrofoneinheit, die ein digitales Tonsignal IN0(t) hervorbringt, kann für das virtuelle Mikrofon MIC0 angenommen werden. Ähnlich kann eine virtuelle Mikrofoneinheit, die ein digitales Tonsignal IN3(t) hervorbringt, für das virtuelle Mikrofon MIC3 angenommen werden. In 3A ist jede der realen und virtuellen Mikrofoneinheiten von einem gestrichelten Rechteck umgeben.
-
Die digitalen Tonsignale IN1(t) und IN2(t) in der Zeitdomäne von den Analog-Digital-Konvertern 162 und 164 sind für die jeweiligen Eingänge der jeweiligen schnellen Fourier-Transformierer (FFTs) 212 und 214 vorgesehen. Der schnelle Fourier-Transformierer 212 multipliziert das digitale Tonsignal in jedem Intervall einer Sequenz von Signalintervallen des digitalen Tonsignals IN1(t) mit einer Überlappungsfensterfunktion (engl.: overlapped window function), um dadurch eine Sequenz von resultierenden Produkten hervorzubringen, auf bekannte Weise. Ähnlich multipliziert der schnelle Fourier-Transformierer 214 das digitale Tonsignal in jedem Intervall einer Sequenz von Signalintervallen des jeweiligen digitalen Tonsignals IN2(t) mit der Überlappungsfensterfunktion, um dadurch eine Sequenz von resultierenden Produkten hervorzubringen. Jeder der schnellen Fourier-Transformierer 212 und 214 führt dann eine Fourier-Transformation an jeder der jeweiligen Sequenzen von resultierenden Produkten auf bekannte Weise aus, um eine entsprechende Sequenz eines komplexen Tonspektrums IN1(f) oder IN2(f) in der Frequenzdomäne zu erzeugen. Die komplexen Spektren IN1(f) und IN2(f) können dargestellt werden als IN1(f) = A1ej(2πft+ϕ1(f)) und IN2(f) = A2ej(2πft+ϕ2(f)), wobei f eine Komponententonfrequenz darstellt, A1 und A2 jeweilige Amplituden sind, j die imaginäre Einheit darstellt und ϕ1(f) und ϕ2(f) jeweilige verzögerte Phasen als Funktionen der Frequenz f darstellen. Die Überlappungsfensterfunktion kann zum Beispiel die Hamming-Fensterfunktion, die Hanning-Fensterfunktion, die Blackman-Fensterfunktion oder die Gaußsche Drei-Sigma-Fensterfunktion sein.
-
Die Phasendifferenz-Generatoreinheit 222 bestimmt oder berechnet eine Phasendifferenz DIFF(f) (rad) zwischen den Phasenspektralkomponenten gemäß der folgenden komplexen Formel, wobei die Phasendifferenz berücksichtigt wird, um eine Richtung einer Tonquelle bei jeder Tonfrequenz f an den Positionen der zwei jeweiligen benachbarten Mikrofone MIC1 und MIC2 anzugeben, die durch eine Distanz d getrennt sind. DIFF(f) = tan–1(IN2(f)/IN1(f))
= tan–1((A2ej(2πft+ϕ2(f))/A1ej(2πft+ϕ1(f)))
= tan–1((A2(A1)ej(ϕ2-ϕ1))
= tan–1(sin(ϕ2 – ϕ1)/cos(ϕ2 – ϕ1))
= ϕ2 – ϕ1, wobei als Approximation angenommen wird, dass ein Rauschen bei einer besonderen Tonfrequenz f durch eine einzelne oder eine gewichtete zentrale Tonquelle allein erzeugt wird. Ferner kann dann, falls angenommen werden kann, dass die Amplituden A1 und A2 der jeweiligen Tonsignale der jeweiligen Mikrofone MIC1 und MIC2 einander ungefähr gleich sind (|IN1(f)| = |IN2(f)|), ein Wert des Bruchs A2/A1 approximiert werden, um eins (1) zu sein.
-
Die Phasendifferenz-Generatoreinheit 222 liefert an die Schätzeinheit des virtuellen Signalspektrums 224 den Wert der Phasendifferenz DIFF(f) zwischen den zwei spektralen Phasenkomponenten bei jeder Frequenz f der zwei jeweiligen benachbarten komplexen spektralen Tonsignale IN1(f) und IN2(f).
-
Die Schätzeinheit des virtuellen Signalspektrums 224 schätzt, dass ein virtuelles Rauschen, von dem angenommen wird, dass es durch das virtuelle Mikrofon MIC0 an seiner virtuellen Position und in der Richtung θ (–π/2 ≤ θ ≤ +π/2) empfangen wird, die eine andere als die Zieltonquellenrichtung ist, und in dem virtuellen Tonsignal bei einer besonderen Tonfrequenz f erscheint, das durch das virtuelle Mikrofon MIC0 zu erzeugen ist, als Rauschen in dem Tonsignal des Mikrofons MIC1 definiert werden kann, das an dem virtuellen Mikrofon MIC0 an seiner virtuellen Position mit einer Zeitverzögerung mit der Phasendifferenz DIFF(f) ankommt. Die Schätzeinheit des virtuellen Signalspektrums 224 schätzt auch, dass ein virtuelles Rauschen, von dem angenommen wird, dass es durch das virtuelle Mikrofon MIC3 an seiner virtuellen Position und in der Richtung θ (–π/2 ≤ θ ≤ +π/2) empfangen wird und in dem virtuellen Tonsignal bei einer besonderen Tonfrequenz f erscheint, das durch das virtuelle Mikrofon MIC3 zu erzeugen ist, als Rauschen in dem Tonsignal des Mikrofons MIC2 definiert werden kann, das an dem virtuellen Mikrofon MIC3 an seiner virtuellen Position mit einem zeitlichen Vorsprung mit der Phasendifferenz DIFF(f) angekommen ist.
-
Somit bestimmt oder berechnet die Schätzeinheit des virtuellen Signalspektrums 224 virtuelle komplexe Spektren IN0(f) und IN3(f) in der Frequenzdomäne der jeweiligen digitalen virtuellen Tonsignale IN0(t) und IN3(t), von denen angenommen wird, dass sie von den jeweiligen virtuellen Mikrofonen MIC0 und MIC3 an ihren jeweiligen virtuellen Positionen empfangen werden, unter der Annahme, dass die virtuellen Mikrofone MIC0 und MIC3 an verschiedenen oder entgegengesetzten äußeren Positionen mit einer Distanz d von den jeweiligen realen Mikrofonen MIC1 und MIC2 auf einer geraden Linie angeordnet sind, die durch die Positionen der Mikrofone MIC1 und MIC2 verläuft.
-
Das virtuelle komplexe Spektrum IN0(f) in der Frequenzdomäne des virtuellen Tonsignals IN0(t), von dem angenommen wird, dass es von dem virtuellen Mikrofon MIC0 (n = 0 < 1) an seiner virtuellen Position empfangen wird, wird durch die folgende komplexe Formel ausgedrückt, die als Referenz das nächstliegende reale Mikrofon MIC1 für die Spektralkomponente bei jeder Frequenz f verwendet: IN0(f) = IN1(f)·exp(–jDIFF(f))
-
Als Alternative kann das virtuelle komplexe Spektrum IN0(f) durch die folgende komplexe Formel ausgedrückt werden: IN0(f) = IN1'(f)·exp(–jDIFF(f)), wobei die Amplitude von IN1'(f) der Durchschnitt der Amplituden der komplexen Spektren IN1(f) und IN2(f) ist, d. h.: |IN1'(f)| = (|IN1(f)| + |IN2(f)|)/2.
-
Das virtuelle komplexe Spektrum IN0(f) kann auch durch die folgende komplexe Formel ausgedrückt werden: IN0(f) = IN1(f) × {(|IN1(f)| + |IN2(f)|)/2|IN1(f)|} × exp(–jDIFF(f)).
-
In 1 kann, falls angenommen wird, dass das virtuelle Mikrofon MIC0 an einer verschiedenen Position angeordnet ist, die von dem Mikrofon MIC1 um eine Distanz d' (≠ d) nach links versetzt ist, die Phasendifferenz DIFF(f) in der oben angegebenen Formel ersetzt werden durch DIFF(f) × (d'/d).
-
Andererseits wird das virtuelle komplexe Spektrum IN3(f) in der Frequenzdomäne des virtuellen Tonsignals IN3(t), von dem angenommen wird, dass es von dem virtuellen Mikrofon MIC3 (n = 3 > 2) an seiner virtuellen Position empfangen wird, durch die folgende komplexe Formel ausgedrückt, die als Referenz das nächstliegende reale Mikrofon MIC2 für die Spektralkomponente bei jeder Frequenz f verwendet: IN3(f) = IN2(f)·exp(jDIFF(f))
-
Alternativ dazu kann das virtuelle komplexe Spektrum IN3(f) durch die folgende komplexe Formel ausgedrückt werden: IN3(f) = IN2'(f)·exp(jDIFF(f)), wobei die Amplitude von IN2'(f) der Durchschnitt der Amplituden der komplexen Spektren IN1(f) und IN2(f) ist, d. h.: |IN2'(f)| = (|IN1(f)| + |IN2(f)|)/2.
-
Das virtuelle komplexe Spektrum IN3(f) kann auch durch die folgende komplexe Formel ausgedrückt werden: IN3(f) = IN2(f) × {(|IN1(f)| + |IN2(f)|)/2|IN2(f)|} × exp(jDIFF(f)).
-
In 1 kann, falls angenommen wird, dass das virtuelle Mikrofon MIC3 an einer verschiedenen Position angeordnet ist, die von dem Mikrofon MIC2 um eine Distanz d' (≠ d) nach rechts versetzt ist, die Phasendifferenz DIFF(f) in der oben angegebenen Formel ersetzt werden durch DIFF(f) × (d'/d).
-
Somit erzeugt die Schätzeinheit des virtuellen Signalspektrums 224 geschätzte virtuelle komplexe Spektren IN0(f) und IN3(f) in der Frequenzdomäne der virtuellen Tonsignale IN0(t) und IN3(t), von denen angenommen wird, dass sie von den virtuellen Mikrofonen MIC0 und MIC3 an ihren virtuellen Positionen empfangen werden. Die Schätzeinheit des virtuellen Signalspektrums 224 kann eines oder beide der virtuellen komplexen Spektren IN0(f) und IN3(f) erzeugen.
-
Die Bestimmung des geschätzten virtuellen komplexen Spektrums IN0(f) oder IN3(f) für das virtuelle Mikrofon MIC0 oder MIC3, wie oben beschrieben, kann in die Bestimmung eines geschätzten virtuellen komplexen Spektrums für ein beliebiges virtuelles Mikrofon MICn verallgemeinert werden, wie unten beschrieben.
-
Das virtuelle komplexe Spektrum INn(f) für das virtuelle Mikrofon MICn, das in einer Entfernung eines ganzzahligen Vielfachen einer Distanz d von dem realen Mikrofon MIC1 oder MIC2 angeordnet ist, wird durch die folgende komplexe Formel für die Spektralkomponente bei jeder Frequenz f, wobei n eine ganze Zahl angibt, die n < 1 oder n > 2 erfüllt, in der Frequenzdomäne des virtuellen Tonsignals erhalten, von dem angenommen wird, dass es durch das virtuelle Mikrofon MICn (n = 0, –1, –2, ... oder n = 3, 4, 5, ...) an seiner virtuellen Position empfangen wird.
-
Bei n < 1 unter Verwendung des komplexen Spektrums IN1(f) des Mikrofons MIC1 als Referenz: INn(f) = IN1(f)·exp(–j(1 – n)DIFF(f))
-
Bei n > 2 unter Verwendung des komplexen Spektrums IN2(f) des Mikrofons MIC2 als Referenz: INn(f) = IN2(f)·exp(j(n – 2)DIFF(f))
-
Die Schätzeinheit des virtuellen Signalspektrums 224 kann geschätzte virtuelle komplexe Spektren INn(f) in der Frequenzdomäne der virtuellen Tonsignale INn(t) erzeugen, von denen angenommen wird, dass sie von den virtuellen Mikrofonen MICn (n = –1, –2, –3, ...; n = 4, 5, 6, ...) an ihren virtuellen Positionen empfangen werden.
-
3B zeigt ein Beispiel für ein optionales, zusätzliches Element in dem digitalen Signalprozessor 200 zum tatsächlichen Erzeugen der virtuellen Tonsignale IN0(t) und IN3(t) in der Zeitdomäne, von denen angenommen wird, dass sie von den virtuellen Mikrofonen MIC0 und MIC3 empfangen werden, gemäß den virtuellen komplexen Spektren IN0(f) und IN3(f) in der Frequenzdomäne.
-
Der digitale Signalprozessor 200 enthält ferner einen inversen schnellen Fourier-Transformierer (IFFT) 382. Der inverse schnelle Fourier-Transformierer 382 empfängt das virtuelle Spektrum IN0(f) oder IN3(f) von der Schätzeinheit des virtuellen Signalspektrums 224 und führt dann eine inverse Fourier-Transformation an dem empfangenen virtuellen komplexen Spektrum gemäß dem Überlappungsaddierverfahren (engl.: overlapped-add method) aus, um ein virtuelles Tonsignal IN0(t) oder IN3(t) in der Zeitdomäne zu erzeugen, von dem angenommen wird, dass es von dem virtuellen Mikrofon MIC0 oder MIC3 an seiner virtuellen Position empfangen wird.
-
So kann zum Beispiel das virtuelle Tonsignal IN0(t) oder IN3(t) in der Zeitdomäne unter Verwendung einer Messvorrichtung oder dergleichen überwacht werden. Das digitale virtuelle Tonsignal IN0(t) oder IN3(t) kann durch einen Digital-Analog-Konverter weiterverarbeitet und durch ein Tiefpassfilter gefiltert werden, um dadurch einen Ton des virtuellen Tonsignals hervorzubringen, der durch einen Lautsprecher emittiert werden kann, so dass er gehört werden kann.
-
4A und 4B zeigen ein Beispiel für eine schematische Konfiguration der Mikrofon-Array-Vorrichtung 10 mit dem Array der Mikrofone MIC0 bis MIC3 wie in der Anordnung von 1. Die Mikrofon-Array-Vorrichtung 10 von 4A und 4B enthält die Generatoreinheit des virtuellen Signalspektrums (VSSG) 220 von 3A und kann ein Rauschen durch Rauschunterdrückung oder durch Zieltonsignalverstärkung oder -hervorhebung relativ reduzieren.
-
Die Elemente 122 bis 164 und 212 bis 220 von 4A sind denen von 3A ähnlich. In der Mikrofon-Array-Vorrichtung 10 von 4A und 4B enthält der digitale Signalprozessor 200 die schnellen Fourier-Transformierer (FFTs) 212 und 214, eine Generatoreinheit des virtuellen Signalspektrums 220, eine Filtereinheit 300 zum Filtern komplexer Spektren, d. h. Leistungsspektren und Phasenspektren, in der Frequenzdomäne und einen inversen schnellen Fourier-Transformierer (IFFT) 382. Der Ausgang des inversen schnellen Fourier-Transformierers 382 ist mit dem Eingang einer Nutzungsanwendung 400 gekoppelt, die als nachfolgendes Element vorgesehen ist.
-
Die Filtereinheit 300 enthält Synchronisiereinheiten 312, 322 und 332 und Subtrahierer 314, 324 und 334 als Kombinierer.
-
Der digitale Signalprozessor 200 verwendet, zur Rauschunterdrückung oder zur Zieltonsignalverstärkung, entweder (a) eine Spektrenkombination der komplexen Spektren IN0(f), IN1(f) und IN2(f) oder (b) eine Spektrenkombination der komplexen Spektren IN1(f), IN2(f) und IN3(f). Alternativ dazu kann der digitale Signalprozessor 200 eine Spektrenkombination von vier oder mehr komplexen Spektren verwenden, wie etwa die komplexen Spektren IN0(f), IN1(f), IN2(f) und IN3(f), obwohl die Anzahl von Stufen des Synchronisierens und Kombinierens (Subtraktion oder Addition) und damit die Signalverarbeitungslast zunehmen kann.
-
Bei jeder der Spektrenkombinationen (a) und (b) sehen die schnellen Fourier-Transformierer 212 und 214 die komplexen Spektren IN1(f) und IN2(f) für die Filtereinheit 300 von 4B vor. Bei der Spektrenkombination (a) sieht die Generatoreinheit des virtuellen Signalspektrums 220 ferner das virtuelle komplexe Spektrum IN0(f) für die Filtereinheit 300 vor. Alternativ dazu sieht bei der Kombination (b) die Generatoreinheit des virtuellen Signalspektrums 220 ferner das virtuelle komplexe Spektrum IN3(f) für die Filtereinheit 300 vor.
-
In 4B wird bei der Spektrenkombination (a) der Suffixparameter i = 0 für die Filtereinheit 300 festgelegt. Bei der Kombination (b) wird der Suffixparameter i = 1 für die Filtereinheit 300 festgelegt.
-
In der Filtereinheit 300 synchronisiert die Synchronisiereinheit 312 das komplexe Spektrum INi(f) mit dem komplexen Spektrum IN(i + 1)(f), um ein komplexes Spektrum INsi(f) zu erzeugen, gemäß einer besonderen Phasendifferenz, wie unten beschrieben. Der Subtrahierer 314 subtrahiert das komplexe Spektrum IN(i + 1)(f) von dem synchronisierten komplexen Spektrum INsi(f), um dadurch ein komplexes Differenzspektrum INdi(f) zu erzeugen. Daher kann eine Rauschspektralkomponente, die von einem Rauschen N1 in der primären Unterdrückungsrichtung abgeleitet wird oder ausgeht, das durch das Mikrofon MICi an seiner Position real oder virtuell empfangen wird, in dem komplexen Differenzspektrum INdi(f) unterdrückt werden.
-
Andererseits synchronisiert die Synchronisiereinheit 322 das komplexe Spektrum IN(i + 1)(f) mit dem komplexen Spektrum IN(i + 2)(f), um ein synchronisiertes komplexes Spektrum INs(i + 1)(f) zu erzeugen, gemäß der besonderen Phasendifferenz, wie unten beschrieben. Der Subtrahierer 324 subtrahiert das komplexe Spektrum IN(i + 2)(f) von dem synchronisierten komplexen Spektrum INs(i + 1)(f), um dadurch ein komplexes Differenzspektrum INd(i + 1)(f) zu erzeugen. Daher kann eine Rauschspektralkomponente, die von einem Rauschen N1 in der primären Unterdrückungsrichtung abgeleitet wird oder ausgeht, das durch das Mikrofon MIC(i + 1) an seiner Position empfangen wird, in dem komplexen Differenzspektrum INd(i + 1)(f) unterdrückt werden.
-
Ferner synchronisiert die Synchronisiereinheit 332 das komplexe Spektrum INdi(f) mit dem komplexen Spektrum INd(i + 1)(f), um ein synchronisiertes komplexes Spektrum INdsi(f) zu erzeugen, gemäß einer besonderen Phasendifferenz, wie unten beschrieben. Der Subtrahierer 334 subtrahiert das komplexe Spektrum INd(i + 1)(f) von dem synchronisierten komplexen Spektrum INdsi(f), um dadurch ein komplexes Differenzspektrum INddi(f) zu erzeugen. Daher kann eine Rauschspektralkomponente, die von einem Rauschen N2 in der sekundären Unterdrückungsrichtung abgeleitet wird oder ausgeht, das durch das Mikrofon MICi an seiner Position real oder virtuell empfangen wird, in dem komplexen Differenzspektrum INddi(f) unterdrückt werden.
-
Somit synchronisiert bei der Spektrenkombination (a) für i = 0 die Synchronisiereinheit 312 das virtuelle komplexe Spektrum IN0(f) mit dem komplexen Spektrum IN1(f), um ein synchronisiertes virtuelles komplexes Spektrum INs0(f) zu erzeugen. Dann subtrahiert der Subtrahierer 314 das komplexe Spektrum IN1(f) von dem synchronisierten virtuellen komplexen Spektrum INs0(f), um dadurch ein virtuelles komplexes Differenzspektrum INd0(f) zu erzeugen. Somit kann eine Rauschkomponente, die von einem Rauschen N1 in der primären Unterdrückungsrichtung ausgeht, das durch das virtuelle Mikrofon MIC0 an seiner Position virtuell empfangen wird, unterdrückt werden.
-
Die Synchronisiereinheit 322 synchronisiert das komplexe Spektrum IN1(f) mit dem komplexen Spektrum IN2(f), um ein synchronisiertes komplexes Spektrum INs1(f) zu erzeugen. Der Subtrahierer 324 subtrahiert das komplexe Spektrum IN2(f) von dem synchronisierten komplexen Spektrum INs1(f), um dadurch ein komplexes Differenzspektrum INd1(f) zu erzeugen. Somit kann eine Rauschkomponente, die von einem Rauschen N1 in der primären Unterdrückungsrichtung ausgeht, das durch das Mikrofon MIC1 an seiner Position empfangen wird, unterdrückt werden.
-
Ferner synchronisiert die Synchronisiereinheit 332 das virtuelle komplexe Spektrum INd0(f) mit dem komplexen Spektrum INd1(f), um ein synchronisiertes virtuelles komplexes Spektrum INds0(f) zu erzeugen. Der Subtrahierer 334 subtrahiert das komplexe Spektrum INd1(f) von dem synchronisierten virtuellen komplexen Spektrum INds0(f), um dadurch ein virtuelles komplexes Differenzspektrum INdd0(f) zu erzeugen. Somit kann eine Rauschkomponente, die von einem Rauschen N2 in der sekundären Unterdrückungsrichtung ausgeht, das durch das Mikrofon MIC0 an seiner Position virtuell empfangen wird, unterdrückt werden.
-
Andererseits synchronisiert bei der Spektrenkombination (b) für i = 0 die Synchronisiereinheit 312 das komplexe Spektrum IN1(f) mit dem komplexen Spektrum IN2(f), um ein synchronisiertes komplexes Spektrum INs1(f) zu erzeugen. Dann subtrahiert der Subtrahierer 314 das komplexe Spektrum IN2(f) von dem synchronisierten komplexen Spektrum INs1(f), um dadurch ein komplexes Differenzspektrum INd1(f) zu erzeugen. Somit kann eine Rauschkomponente, die von einem Rauschen N1 in der primären Unterdrückungsrichtung ausgeht, das durch das Mikrofon MIC0 an seiner Position empfangen wird, unterdrückt werden.
-
Die Synchronisiereinheit 322 synchronisiert das komplexe Spektrum IN2(f) mit dem virtuellen komplexen Spektrum IN3(f), um ein synchronisiertes komplexes Spektrum INs2(f) zu erzeugen. Der Subtrahierer 324 subtrahiert das virtuelle komplexe Spektrum IN3(f) von dem synchronisierten komplexen Spektrum INs2(f), um dadurch ein komplexes Differenzspektrum INd2(f) zu erzeugen. Somit kann eine Rauschkomponente, die von einem Rauschen N1 in der primären Unterdrückungsrichtung ausgeht, das durch das Mikrofon MIC2 an seiner Position empfangen wird, unterdrückt werden.
-
Ferner synchronisiert die Synchronisiereinheit 332 das komplexe Spektrum INd1(f) mit dem komplexen Spektrum INd2(f), um ein synchronisiertes komplexes Spektrum INds1(f) zu erzeugen. Der Subtrahierer 334 subtrahiert das komplexe Spektrum INd2(f) von dem synchronisierten komplexen Spektrum INds1(f), um dadurch ein komplexes Differenzspektrum INdd1(f) zu erzeugen. Somit kann eine Rauschkomponente, die von einem Rauschen N2 in der sekundären Unterdrückungsrichtung ausgeht, das durch das Mikrofon MIC1 an seiner Position empfangen wird, unterdrückt werden.
-
Jede der Synchronisiereinheiten 312, 322 und 332 multipliziert das eingegebene komplexe Spektrum INi(f), IN(i + 1)(f) oder INdi(f) mit einer führenden oder voreilenden Phase exp(–j2πf × θ/(π × fs/2)), um die Phase des eingegebenen komplexen Spektrums zur Synchronisation zu verschieben, wobei in 1 der Winkel θ die Einfallswinkelrichtung θ einer Rauschkomponente bei der Frequenz f angibt, die zu unterdrücken ist. Der Winkel θ kann zum Beispiel bestimmt werden, um ein Winkel +π/2 in der primären Unterdrückungsrichtung und ein Winkel +π/4 in der sekundären Unterdrückungsrichtung zu sein. Bei der Distanz d' ≠ d wird die Phasendifferenz mit einem Faktor von d'/d multipliziert.
-
Der Erläuterung halber wird angenommen, dass die Distanz d zwischen benachbarten Mikrofonen unter den realen und virtuellen Mikrofonen MIC0, MIC1, MIC2 und MIC3 nicht kleiner als der Quotient c/fs (d ≥ c/fs) ist, d. h., die Bedingung von d < c/fs wird nicht erfüllt, wobei d eine Distanz darstellt, c eine Schallgeschwindigkeit darstellt und fs eine Abtastrate ist. In diesem Fall kann die Generatoreinheit des virtuellen Signalspektrums 220 oder die Phasendifferenz-Generatoreinheit 222 der Generatoreinheit des virtuellen Signalspektrums 220 die virtuelle komplexe Spektralkomponente IN0(f) und/oder IN3(f) nur für die Frequenzen f (d. h. f < c/2d) erzeugen, die niedriger als die kritische Frequenz f = c/2d sind, innerhalb eines Frequenzbereichs, der die Bedingung von d < c/2fc und fs > 2fc erfüllt, wobei d eine Distanz angibt, c eine Schallgeschwindigkeit angibt, 2fc das Zweifache einer oberen Grenze oder Grenzfrequenz eines Frequenzbandes der Tiefpassfilter 142 und 144 angibt und fs eine Abtastrate darstellt.
-
Die Filtereinheit 300 kombiniert die komplexen Spektren IN1(f) und IN2(f) (f < fc) mit den komplexen Spektren IN0(f) und/oder IN3(f) (f < c/2d) innerhalb des besonderen Frequenzbereiches (f < fc). Wenn die Bedingung d ≥ c/fs erfüllt ist, d. h., die Bedingung von d < c/fs wird nicht erfüllt, verarbeitet die Filtereinheit 300 die komplexen Spektren bei der Frequenz f in dem höheren Frequenzbereich c/2d < f < fc nicht.
-
Die Filtereinheit 300 (der Subtrahierer 334) sieht das erzeugte komplexe Spektrum INddi(f) für den inversen schnellen Fourier-Transformierer 382 vor. Der inverse schnelle Fourier-Transformierer 382 multipliziert die Spektralkomponente INddi(f) in der Frequenzdomäne mit der inversen Überlappungsfensterfunktion (z. B. dem inversen Hamming-Fenster) gemäß dem Überlappungsaddierverfahren, um eine inverse schnelle Fourier-Transformation an dem Produkt in das digitale Tonsignal INddi(t) in der Zeitdomäne in dem besonderen Frequenzbereich (f < fc) auszuführen. Dann wird das invers transformierte digitale Tonsignal INddi(t) für eine Nutzungsanwendung 400 vorgesehen, die jener von 2 ähnlich ist.
-
5 zeigt ein Beispiel für eine schematische Konfiguration einer Filtereinheit 302 als Abwandlung der Filtereinheit 300 von 4B und als Alternative zu ihr.
-
In dem Filter 302 synchronisiert die Synchronisiereinheit 312 das komplexe Spektrum IN(i + 1)(f) mit dem komplexen Spektrum INi(f), um ein synchronisiertes komplexes Spektrum INs(i + 1)(f) zu erzeugen. Der Subtrahierer 314 subtrahiert das synchronisierte komplexe Spektrum INs(i + 1)(f) von dem komplexen Spektrum INi(f), um dadurch ein komplexes Differenzspektrum INdi(f) zu erzeugen.
-
Die Synchronisiereinheit 322 synchronisiert das komplexe Spektrum IN(i + 2)(f) mit dem komplexen Spektrum IN(i + 1)(f), um ein synchronisiertes komplexes Spektrum INs(i + 2)(f) zu erzeugen. Der Subtrahierer 324 subtrahiert das synchronisierte virtuelle komplexe Spektrum INs(i + 2)(f) von dem komplexen Spektrum IN(i + 1)(f), um dadurch ein komplexes Differenzspektrum INd(i + 1)(f) zu erzeugen.
-
Ferner synchronisiert die Synchronisiereinheit 332 das komplexe Spektrum INd(i + 1)(f) mit dem komplexen Spektrum INdi(f), um ein synchronisiertes komplexes Spektrum INds(i + 1)(f) zu erzeugen. Der Subtrahierer 334 subtrahiert das synchronisierte komplexe Spektrum INds(i + 1)(f) von dem komplexen Spektrum INdi(f), um dadurch ein komplexes Differenzspektrum INddi(f) zu erzeugen.
-
Jede der Synchronisiereinheiten 312, 322 und 332 multipliziert das eingegebene komplexe Spektrum IN(i + 1)(f), IN(i + 2)(f) oder INd(i + 1) mit einer verzögerten Phase exp(j2πf × θ/(π × fs/2)), um die Phase des eingegebenen komplexen Spektrums zur Synchronisation zu verschieben, wobei in 1 der Winkel θ die Einfallswinkelrichtung θ einer Rauschkomponente bei der Frequenz f angibt, die zu unterdrücken ist. Bei der Distanz d' ≠ d wird die Phasendifferenz mit einem Faktor von d'/d multipliziert.
-
Als Alternative kann das Filtern zur Rauschunterdrückung auch in der Zeitdomäne ausgeführt werden, wobei die virtuellen Tonsignale IN0(t) und/oder IN3(t) in der Zeitdomäne von 3B verwendet werden, von denen angenommen wird, dass sie von den virtuellen Mikrofonen MIC0 und MIC3 an ihren Positionen empfangen werden.
-
Als Beispiel kann das Tonsignal IN1(t) in der Zeitdomäne, das von dem Mikrofon MIC1 von 2 an seiner Position empfangen wird, um eine Phasendifferenz τ bezüglich des virtuellen Tonsignals IN0(t) in der Zeitdomäne verschoben werden, von dem angenommen wird, dass es von dem virtuellen Mikrofon MIC0 von 3B an seiner virtuellen Position empfangen wird, um dadurch ein verzögertes Tonsignal IN1(t + τ) zu erzeugen. Die Phasendifferenz τ kann eine besondere Phasendifferenz sein, oder es kann τ = DIFF(f) sein. Dann kann das verzögerte Tonsignal IN1(t + τ) von dem virtuellen Tonsignal IN0(t) in der Zeitdomäne subtrahiert werden, um dadurch ein Tonsignal INd0(t) mit dem unterdrückten Rauschen zu erzeugen.
-
Das virtuelle Tonsignal IN2(t) in der Zeitdomäne, das von dem Mikrofon MIC2 an seiner Position empfangen wird, kann durch eine Phasendifferenz τ bezüglich des Tonsignals IN1(t) in der Zeitdomäne verzögert sein, das von dem Mikrofon MIC1 von 2 an seiner Position empfangen wird, um dadurch ein verzögertes Tonsignal IN2(t + τ) zu erzeugen. Dann kann das verzögerte Tonsignal IN2(t + τ) von dem Tonsignal IN1(t) in der Zeitdomäne subtrahiert werden, um dadurch ein Tonsignal INd1(t) mit dem unterdrückten Rauschen zu erzeugen.
-
Ferner kann das Tonsignal INd1(t) in der Zeitdomäne durch eine Phasendifferenz τ bezüglich des Tonsignals INd0(t) in der Zeitdomäne verzögert sein, um dadurch ein verzögertes Tonsignal INd0(t + τ) zu erzeugen. Die Phasendifferenz kann τ = DIFF(f) sein. Die Phasendifferenz τ kann eine besondere Phasendifferenz sein, oder es kann τ = DIFF(f) sein. Dann kann das verzögerte Tonsignal INd1(t + τ) von dem virtuellen Tonsignal INd0(t) in der Zeitdomäne subtrahiert werden, um dadurch ein virtuelles Tonsignal INdd0(t) mit dem noch mehr unterdrückten Rauschen zu erzeugen. In diesem Fall kann jedoch die Verarbeitungslast der inversen schnellen Fourier-Transformation zunehmen.
-
Als anderes Beispiel kann das virtuelle Tonsignal IN3(t) in der Zeitdomäne, von dem angenommen wird, dass es von dem virtuellen Mikrofon MIC3 von 3B an seiner virtuellen Position empfangen wird, um eine Phasendifferenz τ bezüglich des Tonsignals IN2(t) in der Zeitdomäne verzögert sein, das von dem virtuellen Mikrofon MIC2 von 2 an seiner Position empfangen wird, um dadurch ein verzögertes Tonsignal IN3(t + τ) zu erzeugen. Dann kann das verzögerte virtuelle Tonsignal IN3(t + τ) von dem Tonsignal IN2(t) in der Zeitdomäne subtrahiert werden, um dadurch ein Tonsignal INd2(t) mit dem unterdrückten Rauschen zu erzeugen.
-
Ferner kann das obenerwähnte Tonsignal INd2(t) in der Zeitdomäne um eine Phasendifferenz τ bezüglich des Tonsignals INd1(t) in der Zeitdomäne verzögert sein, um dadurch ein verzögertes Tonsignal INd2(t + τ) zu erzeugen. Dann kann das verzögerte Tonsignal INd2(t + τ) von dem Tonsignal INd1(t) in der Zeitdomäne subtrahiert werden, um dadurch ein Tonsignal INdd1(t) mit dem noch mehr unterdrückten Rauschen zu erzeugen.
-
Als Alternative kann in 4A eines von den Mikrofonen MIC0 und MIC3 ein reales Mikrofon sein, während das andere ein virtuelles Mikrofon sein kann. Das heißt, das eine der Mikrofone MIC0 und MIc3 kann mit einem Verstärker, einem Tiefpassfilter, einem D/A-Konverter und einem schnellen Fourier-Transformierer gekoppelt sein, ähnlich wie die Elemente 122 bis 214 für das Mikrofon MIC1 oder MIC2, und kann auch mit der Filtereinheit 300 gekoppelt sein. In diesem Fall können beide der komplexen Differenzspektren INdd0(f) und INdd1(f) in der Frequenzdomäne erzeugt werden. Zur Unterdrückung eines Rauschens in einer dritten Unterdrückungsrichtung kann eines der komplexen Spektren INdd0(f) und INdd1(f) mit dem anderen synchronisiert werden. Dann kann das synchronisierte komplexe Spektrum von dem anderen komplexen Spektrum subtrahiert werden oder mit diesem kombiniert werden, um dadurch ein weiteres kombiniertes komplexes Spektrum INddd0(f) mit dem noch mehr unterdrückten Rauschen zu erzeugen.
-
6 zeigt ein Beispiel für eine schematische Konfiguration einer Filtereinheit 304 für die Zieltonsignalverstärkung als Abwandlung der Filtereinheit 300 von 4B.
-
Die Filtereinheit 304 enthält Synchronisiereinheiten 313, 323 und 333 und Addierer 316, 326 und 336 als Kombinierer.
-
Die Synchronisiereinheit 313 synchronisiert das komplexe Spektrum INi(f) mit dem komplexen Spektrum IN(i + 1)(f), um ein synchronisiertes komplexes Spektrum INsi(f) zu erzeugen. Der Addierer 316 addiert das komplexe Spektrum IN(i + 1)(f) zu dem synchronisierten komplexen Spektrum INsi(f), um dadurch ein komplexes Summenspektrum INai(f) zu erzeugen. Somit kann die Zieltonspektralkomponente, die von der Zieltonquelle SS abgeleitet ist oder ausgeht, die durch das Mikrofon MICi an seiner Position empfangen wird, in dem komplexen Summenspektrum INai(f) verstärkt werden.
-
Die Synchronisiereinheit 323 synchronisiert das komplexe Spektrum IN(i + 1)(f) mit dem komplexen Spektrum IN(i + 2)(f), um ein synchronisiertes komplexes Spektrum INs(i + 1)(f) zu erzeugen. Der Addierer 326 addiert das komplexe Spektrum IN(i + 2)(f) zu dem synchronisierten komplexen Spektrum INs(i + 1)(f), um dadurch ein komplexes Summenspektrum INa(i + 1)(f) zu erzeugen. Somit kann die Zieltonspektralkomponente, die von der Zieltonquelle SS abgeleitet ist oder ausgeht, die durch das abgeleitete oder Mikrofon MIC(i + 1) an seiner Position empfangen wird, in dem komplexen Summenspektrum INa(i + 1)(f) verstärkt werden.
-
Ferner synchronisiert die Synchronisiereinheit 333 das komplexe Spektrum INai(f) mit dem komplexen Spektrum INa(i + 1)(f), um ein synchronisiertes komplexes Spektrum INasi(f) zu erzeugen. Der Addierer 336 addiert das komplexe Spektrum INa(i + 1)(f) zu dem synchronisierten komplexen Spektrum INasi(f), um dadurch ein komplexes Summenspektrum INaai(f) zu erzeugen. Somit kann die Zieltonspektralkomponente, die von der Zieltonquelle SS abgeleitet ist oder ausgeht, die durch das Mikrofon MICi an seiner Position empfangen wird, in dem komplexen Summenspektrum INaai(f) verstärkt werden.
-
Jede der Synchronisiereinheiten 313, 323 und 333 multipliziert das eingegebene komplexe Spektrum INi(f), IN(i + 1)(f) oder INai(f) mit einer verzögerten Phase exp(j2πf × θ/(π × fs/2)), um die Phase des eingegebenen komplexen Spektrums zur Synchronisation zu verschieben, wobei der Winkel θ die Winkelrichtung θ = –π/2 der Zieltonspektralkomponente bei der Frequenz f angibt, die zu verstärken ist und von der Zieltonquelle SS in 1 ausgeht.
-
7 zeigt ein Beispiel für eine schematische Konfiguration einer Filtereinheit 306 für die Zieltonsignalverstärkung als Abwandlung der Filtereinheit 302 von 5 oder der Filtereinheit 304 von 6.
-
Die Synchronisiereinheit 313 synchronisiert das komplexe Spektrum IN(i + 1)(f) mit dem komplexen Spektrum INi(f), um ein synchronisiertes komplexes Spektrum INs(i + 1((f) zu erzeugen. Der Addierer 316 addiert das synchronisierte komplexe Spektrum INs(i + 1)(f) zu dem komplexen Spektrum INi(f), um dadurch ein komplexes Summenspektrum INai(f) zu erzeugen.
-
Die Synchronisiereinheit 323 synchronisiert das komplexe Spektrum IN(i + 2)(f) mit dem virtuellen komplexen Spektrum IN(i + 1)(f), um ein synchronisiertes komplexes Spektrum INs(i + 2)(f) zu erzeugen. Der Addierer 326 addiert das synchronisierte komplexe Spektrum INs(i + 2)(f) zu dem komplexen Spektrum IN(i + 1)(f), um dadurch ein komplexes Summenspektrum INa(i + 1)(f) zu erzeugen.
-
Die Synchronisiereinheit 333 synchronisiert das komplexe Spektrum INa(i + 1)(f) mit dem komplexen Spektrum INai(f), um ein synchronisiertes komplexes Spektrum INas(i + 1)(f) zu erzeugen. Der Addierer 336 addiert das synchronisierte komplexe Spektrum INas(i + 1)(f) zu dem komplexen Spektrum INai(f), um dadurch ein komplexes Summenspektrum INaai(f) zu erzeugen.
-
Jede der Synchronisiereinheiten 313, 323 und 333 multipliziert das eingegebene komplexe Spektrum IN(i + 1)(f), IN(i + 2)(f) oder INa(i + 1)(f) mit einer führenden Phase exp(–j2πf × θ/(π × fs/2)), um die Phase des eingegebenen komplexen Spektrums zur Synchronisation zu verschieben, wobei der Winkel θ die Winkelrichtung θ = –π/2 der Zieltonspektralkomponente bei der Frequenz f angibt, die von der Zieltonquelle SS in 1 ausgeht und zu verstärken ist.
-
Unter Einsatz der Filtereinheit 302 oder 304 von 6 oder 7 anstelle der Filtereinheit 300 von 4B kann die Zieltonspektralkomponente verstärkt werden, die von der Zieltonquelle SS ausgeht. Somit kann eine Rauschkomponente, die eine andere als die Zieltonkomponente ist, die von der Zieltonquelle SS ausgeht, relativ reduziert werden.
-
Alternativ dazu können die virtuellen Tonsignale IN0(t) und IN3(t) in der Zeitdomäne von 3B, von denen angenommen wird, dass sie von den virtuellen Mikrofonen MIC0 und MIC3 empfangen werden, verwendet werden, um den Filterungsprozess zur Verstärkung der Zieltonkomponente, die von der Zieltonquelle SS ausgeht, in der Zeitdomäne auf ähnliche Weise wie bei der oben beschriebenen Rauschunterdrückung auszuführen.
-
Die Elemente 212, 214 und 220 bis 224 von 3A, die Elemente 212 bis 220, 300 bis 344 und 382 von 4A, 4B und 5 sowie die Elemente 302 bis 336 von 6 und 7 können als Fließpläne angesehen werden, die durch den digitalen Signalprozessor 200 ausgeführt werden, der als integrierte Schaltung implementiert ist oder gemäß einem implementierten Programm arbeitet.
-
8 ist ein Beispiel für einen Operationsablaufplan zum Erzeugen eines virtuellen komplexen Spektrums, der durch den digitalen Signalprozessor 200 von 3A gemäß einem in dem Speicher 202 gespeicherten Programm ausgeführt wird. Somit kann dieser Operationsablaufplan die Funktion vorsehen, die durch die Elemente 212, 214 und 220 von 3A vorgesehen wird.
-
Unter Bezugnahme auf 3A und 8 empfängt der digitale Signalprozessor 200 (die schnellen Fourier-Transformierer 212 und 214) bei Operation 502 die zwei digitalen Tonsignale IN1(t) und IN2(t) in der Zeitdomäne, die durch die jeweiligen Analog-Digital-Konverter 162 und 164 vorgesehen werden.
-
Bei Operation 504 multipliziert der digitale Signalprozessor 200 (jeder der schnellen Fourier-Transformierer 212 und 214) jedes der zwei digitalen Tonsignale IN1(t) und IN2(t) mit einer Überlappungsfensterfunktion.
-
Bei Operation 506 führt der digitale Signalprozessor 200 (die schnellen Fourier-Transformierer 212 und 214) die schnelle Fourier-Transformation an den digitalen Tonsignalen IN1(t) und IN2(t) aus, um komplexe Spektren IN1(f) und IN2(f) in der Frequenzdomäne zu erzeugen.
-
Bei Operation 508 bestimmt oder berechnet der digitale Signalprozessor 200 (die Phasendifferenz-Generatoreinheit 222 der Generatoreinheit des virtuellen Signalspektrums 220) die Phasendifferenz DIFF(f) = tan–1(IN2(f)/IN1(f)) zwischen den komplexen Spektren IN1(f) und IN2(f).
-
Bei Operation 510 schätzt der digitale Signalprozessor 200 (die Schätzeinheit des virtuellen Signalspektrums 224 der Generatoreinheit des virtuellen Signalspektrums 220) die virtuellen komplexen Spektren IN0(f) und IN3(f) in der Frequenzdomäne der virtuellen Tonsignale, die von den virtuellen Mikrofonen MIC0 und MIC3 an ihren virtuellen Positionen empfangen werden, gemäß der Phasendifferenz DIFF(f).
-
Bei n < 1 bestimmt oder berechnet der digitale Signalprozessor 200 unter Bezugnahme auf das komplexe Spektrum IN1(f) des Mikrofons MIC1 ein virtuelles komplexes Spektrum INn(f) = IN1(f)·exp(–j(1 – n)DIFF(f)), das als Ausgabe vorgesehen wird.
-
Bei n > 2 bestimmt oder berechnet der digitale Signalprozessor 200 unter Bezugnahme auf das komplexe Spektrum IN2(f) des Mikrofons MIC2 ein virtuelles komplexes Spektrum INn(f) = IN2(f)·exp(j(n – 2)DIFF(f)), das als Ausgabe vorgesehen wird.
-
Dann kehrt die Prozedur zu Operation 502 zurück. Die Operationen 502 bis 510 werden so oft wie gewünscht zum Verarbeiten des empfangenen Tonsignals über eine gewünschte Zeitperiode hinweg wiederholt.
-
Gemäß den Ausführungsformen, wie sie oben beschrieben sind, wird eine begrenzte Anzahl von Mikrofonen MIC1 und MIC2 verwendet, um ein Tonsignal mit relativ reduziertem Rauschen hervorzubringen, und die Tonsignale von der begrenzten Anzahl von Mikrofonen werden in der Frequenzdomäne verarbeitet, um ein Tonsignal mit relativ reduziertem Rauschen hervorzubringen. Die Verarbeitung von Tonsignalen in der Frequenzdomäne kann eine genauere detektierte Phasendifferenz als die Verarbeitung solcher Tonsignale in der Zeitdomäne vorsehen und kann daher ein Tonsignal mit reduziertem Rauschen mit hoher Qualität hervorbringen.
-
Gemäß den Ausführungsformen kann ein virtuelles Spektrum eines virtuellen Tonsignals gemäß Tonsignalen von einer begrenzten Anzahl von Tonsignaleingabeelementen erzeugt werden, und Tonsignale von einer begrenzten Anzahl von Tonsignaleingabeelementen können verarbeitet werden, um ein Tonsignal mit relativ reduziertem Rauschen zu erzeugen.
-
Alle Beispiele und die bedingte Sprache, die hierin verwendet wurden, dienen pädagogischen Zwecken, um dem Leser beim Verstehen der Erfindung und der Konzepte, die durch die Erfinder zur Förderung der Technik beigesteuert wurden, zu helfen, und sind so aufzufassen, dass sie auf solche speziell angeführten Beispiele und Bedingungen nicht beschränkt sind und dass auch die Anordnung solcher Beispiele in der Beschreibung sich nicht auf eine Darstellung der Überlegenheit und Minderwertigkeit der Erfindung bezieht. Obwohl die Ausführungsformen der vorliegenden Erfindung eingehend beschrieben worden sind, sei erwähnt, dass die verschiedensten Veränderungen, Substitutionen und Abänderungen an ihr vorgenommen werden könnten, ohne von Grundgedanken und Umfang der Erfindung abzuweichen.