DE102010055476B4

DE102010055476B4 - Signalverarbeitungsgerät, Mikrofonarrayvorrichtung und Speichermedium, das ein Signalverarbeitungsprogramm speichert

Info

Publication number: DE102010055476B4
Application number: DE102010055476.6A
Authority: DE
Inventors: Naoshi Matsuo
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-12-28
Filing date: 2010-12-22
Publication date: 2014-01-02
Anticipated expiration: 2030-12-23
Also published as: US20110158426A1; JP2011139378A; JP5493850B2; DE102010055476A1

Abstract

Signalverarbeitungsgerät mit: wenigstens zwei Toneingabeeinheiten; einem Orthogonal-Transformierer, um zwei Tonsignale, von Tonsignalen in einer Zeitdomäne, die von den wenigstens zwei Toneingabeeinheiten eingegeben werden, in jeweilige Spektralsignale in einer Frequenzdomäne zu transformieren; einem Phasendifferenzberechner, um eine Phasendifferenz zwischen den Spektralsignalen in der Frequenzdomäne zu berechnen; einem Bereichsbestimmer, – um einen Koeffizienten als Funktion der Frequenz zu bestimmen, wobei der Koeffizient von einer Frequenz in der Phasendifferenz abhängt, und – um auf Pro-Frequenz-Basis einen Unterdrückungsbereich der Frequenz durch einen Gradienten einer Phasendifferenz zu bestimmen, wobei der Unterdrückungsbereich eine Phase betrifft und von dem Koeffizienten abhängt, und wobei der Gradient durch einen Koeffizienten einer Frequenzvariablen f der linearen Funktion der Frequenz repräsentiert wird; und einem Filter zur Phasenverschiebung einer Komponente eines ersten der Spektralsignale auf Pro-Frequenz-Basis, um ein phasenverschobenes Spektralsignal zu erzeugen, wenn die Phasendifferenz bei jeder Frequenz in den Unterdrückungsbereich fällt, wobei das phasenverschobene Spektralsignal und ein zweites der Spektralsignale synthetisiert werden, um ein gefiltertes Spektralsignal zu erzeugen.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNGEN
Diese Anmeldung basiert auf der früheren japanischen Patentanmeldung Nr. 2009-298951 , eingereicht am 28. Dezember 2009, und beansprucht deren Priorität.
GEBIET
Verschiedene, hierin beschriebene Ausführungsformen betreffen einen Geräuschunterdrückungsprozess eines Tonsignals und ein Gerät zum Implementieren desselben.
HINTERGRUND
In einer Konfiguration mit einem Mikrofonarray, das wenigstens zwei Mikrofone enthält, verarbeitet das Mikrofonarray ein Tonsignal, das empfangen und konvertiert wird, wodurch ein Tonempfangsbereich in einer Tonquellenrichtung auf einen Zielton festgelegt wird oder dessen Richtwirkung gesteuert wird. Das Mikrofonarray führt somit einen Geräuschunterdrückungsprozess oder einen Zieltonhervorhebungsprozess aus.
In einer typischen Mikrofonarrayvorrichtung wird ihr Signal-Rausch-Verhältnis (S/N-Verhältnis) vergrößert, indem ihre Richtwirkung als Reaktion auf eine Zeitdifferenz zwischen empfangenen Signalen von einer Vielzahl von Mikrofonen gesteuert wird, und wird ein Subtraktionsprozess oder ein Additionsprozess ausgeführt. Ein ungewolltes Geräusch in einem Ton, das aus einer anderen Richtung als aus einer Tonempfangsrichtung eines Zieltons ankommt oder aus einer Unterdrückungsrichtung ankommt, wird so unterdrückt. Der Zielton unter den Tönen, der aus derselben Richtung wie der Tonempfangsrichtung des Zieltons ankommt oder aus einer Hervorhebungsrichtung ankommt, wird so hervorgehoben.
Gemäß der Technik, die in der japanischen offengelegten Patenveröffentlichung Nr. 11-298988 diskutiert wird, ist in einer typischen Vorrichtung eine Vielzahl von Mikrofonen, die eine ebene Schallwelle empfangen, in regelmäßigem Abstand in einer Linie angeordnet. Die typische Vorrichtung steuert die Richtcharakteristiken der Mikrofone, die in einer Spracherkennungsvorrichtung angeordnet sind, die in einem Autonavigationssystem verwendet wird, das in ein Fahrzeug montiert ist. Wenn die Stimme eines Sprechers eine Stelle erreicht, wo die Mikrofone angeordnet sind, wird die Stimme in einer Kugelschallwelle fast zu einer ebenen Schallwelle. Daher wird angenommen, dass die Stimme eine ebene Schallwelle ist. Eine Mikrofonschaltung verarbeitet Ausgangssignale von einer Vielzahl von Mikrofonen. Die Mikrofonschaltung steuert die Richtwirkung der Mikrofone gemäß einer Differenz der Phase der ebenen Schallwelle, die den Mikrofonen eingegeben wird, derart, dass eine Verstärkung der Mikrofonschaltungen eine Spitze in der Richtung des Sprechers erreicht und die Verstärkung in einer Ankunftsrichtung von Geräusch verringert wird.
Gemäß der Technik, die in der japanischen offengelegten Patentveröffentlichung Nr. 2003-337164 offenbart ist, enthält eine Vielzahl von Objektpositionsfixiergeräten der verwandten Technik eine akustische Messvorrichtung, die ein Phasendifferenzspektrum von akustischen Zwei-Kanal-Signalen bestimmt, die von zwei Mikrofonen erhalten werden, die mit einem spezifischen Abstand voneinander angeordnet sind, und einen Vorverstärker. Das Positionsfixiergerät enthält eine arithmetische Verarbeitungsvorrichtung. Die arithmetische Verarbeitungsvorrichtung berechnet alle Tonquellenrichtungen, die von dem Phasendifferenzspektrum beachtenswert sind, das durch die akustische Messvorrichtung bestimmt wird. Die arithmetische Verarbeitungseinheit bestimmt Frequenzcharakteristiken der beachteten Tonquellenrichtung und extrahiert eine lineare Komponente parallel zu einer Frequenzachse von den Frequenzcharakteristiken der beachteten Tonquellenrichtung. Eine Vielzahl von Tonquellenrichtungen kann frei von der Distanz zwischen der Tonquelle und den Mikrofonen in einer Umgebung mit realem Echoeffekt zuverlässig identifiziert werden, ohne im Voraus das Übertragungsverhalten im Raum messen zu müssen.
Die japanische offengelegte Patentveröffentlichung Nr. 2006-254226 diskutiert ein Schallsignalverarbeitungsgerät der verwandten Technik. In dem Schallsignalverarbeitungsgerät werden zwei Einheiten von Mikrofonamplitudendaten, die durch eine Schallsignaleingabeeinheit eingegeben werden, durch einen Frequenzzerleger analysiert, und ein Generator zweidimensionaler Daten bestimmt eine Phasendifferenz zwischen den zwei Einheiten von Amplitudendaten auf Pro-Frequenz-Basis. Die zweidimensionalen Koordinatenwerte werden auf die Phasendifferenz auf Pro-Frequenz-Basis bei der Generierung zweidimensionaler Daten übertragen. Ein Ziehdetektor analysiert die generierten zweidimensionalen Daten auf einer XY-Ebene, um ein Ziehen zu detektieren. Ein Tonquelleninformationsgenerator verarbeitet die Informationen über das detektierte Ziehen und generiert Tonquelleninformationen. Die Tonquelleninformationen enthalten die Anzahl von Tonquellen als Generatoren von Schallsignalen, einen Raum, wo sich jede Tonquelle befindet, eine Zeitperiode, während der der Ton, der durch jede Tonquelle emittiert wird, präsent ist, eine Komponentenstruktur jeder Tonquelle, getrennte Töne von jeder Tonquelle und den symbolischen Inhalt jedes Tons. Gemäß dieser Technik werden Beschränkungen bezüglich der Tonquelle gelockert, und es können Tonquellen in einer Anzahl verarbeitet werden, die größer als die Anzahl von Mikrofonen ist.
Aus der EP 0 802 699 A2 ist bekannt, dass durch Steuern einer Phasenspektrumdifferenz ein Mikrophonintervall pseudoerweitert und die Richtungscharakteristik gesteuert werden.
Die US 2001/0031053 A1 offenbart das Berechnen eines Signalspektrums von zwei Mikrophonen und dann das Annehmen des Spektrums an einer virtuellen Position durch Interpolieren.
In der US 5539859 A ist das Detektieren der Richtung, aus der ein Ton kommt, anhand der Phasendifferenz zwischen zwei Mikrophonen offenbart. Wenn sich die detektierte Richtung von einem Quellensignal unterscheidet, erneuert die entsprechende Vorrichtung das Geräuschleistungsspektrum und unterdrückt das Geräusch durch Subtraktion mit dem Geräuschleistungsspektrum.
ZUSAMMENFASSUNG
Gemäß einem Aspekt der Erfindung sind ein Signalverarbeitungsgerät und -verfahren vorgesehen. Das Signalverarbeitungsgerät enthält: zwei Toneingabeeinheiten, einen Orthogonal-Transformierer, um zwei Tonsignale, die von den zwei Toneingabeeinheiten eingegeben werden, in jeweilige Spektralsignale in einer Frequenzdomäne zu transformieren, einen Phasendifferenzberechner, um eine Phasendifferenz zwischen den Spektralsignalen in der Frequenzdomäne zu berechnen, einen Bereichsbestimmer, um einen Koeffizienten als Antwort auf eine Frequenz der Phasendifferenz als Funktion der Frequenz zu bestimmen und einen Unterdrückungsbereich bezüglich einer Phase auf Pro-Frequenz-Basis der Frequenz als Antwort auf den Koeffizienten zu bestimmen, und ein Filter zur Phasenverschiebung einer Komponente von einem der Spektralsignale auf Pro-Frequenz-Basis, um ein phasenverschobenes Spektralsignal zu erzeugen, wenn die Phasendifferenz bei jeder Frequenz in den Unterdrückungsbereich fällt, wobei das phasenverschobene Spektralsignal und die anderen der Spektralsignale synthetisiert werden, um ein gefiltertes Spektralsignal zu erzeugen. Die Ziele und Vorteile der Erfindung werden durch die Elemente und Kombinationen realisiert und erreicht, die in den Ansprüchen besonders dargestellt sind.
Es versteht sich, dass sowohl die obige allgemeine Beschreibung als auch die folgende eingehende Beschreibung beispielhaft und erläuternd sind und die Erfindung, wie sie beansprucht wird, nicht beschränken.
Zusätzliche Aspekte und/oder Vorteile werden zum Teil in der nun folgenden Beschreibung dargestellt und sind zum Teil aus der Beschreibung ersichtlich oder können durch die Umsetzung der Erfindung in die Praxis herausgefunden werden.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Diese und/oder andere Aspekte und Vorteile sind aus der folgenden Beschreibung der Ausführungsformen in Verbindung mit den beiliegenden Zeichnungen ersichtlich und leichter verständlich, in denen:
1 eine Anordnung eines Arrays von wenigstens zwei Mikrofonen als Toneingabeeinheit oder Tonsignaleingabeeinheit gemäß einer Ausführungsform zeigt;
2 eine allgemeine Struktur einer Mikrofonarrayvorrichtung einer Ausführungsform zeigt;
3A einen ersten Abschnitt einer allgemeinen Funktionsstruktur einer Mikrofonarrayvorrichtung zeigt;
3B einen zweiten Abschnitt einer allgemeinen Funktionsstruktur einer Mikrofonarrayvorrichtung zeigt;
3C ein Leistungsspektrum in einem Tonsignalsegment einer Zieltonquelle und ein Leistungsspektrum in einem Geräuschsegment zeigt;
4 eine Beziehung einer Phasendifferenz einer Phasenspektralkomponente, die auf Pro-Frequenz-Basis durch einen Phasendifferenzberechner berechnet wird, eines Tonempfangsbereiches, eines Unterdrückungsbereiches und eines Umstellbereiches in einem Anfangsfestlegungszustand zeigt;
5A einen Festlegungszustand eines Tonempfangsbereiches, eines Umstellbereiches und eines Unterdrückungsbereiches als Antwort auf einen statistischen Mittelwert des Gradienten D(f) von Phasendifferenzen in einem Zustand des begrenzten Tonempfangsbereiches zeigt;
5B einen Festlegungszustand eines begrenzten Tonempfangsbereiches, eines Umstellbereiches und eines Unterdrückungsbereiches als Antwort auf einen anderen Gradienten in dem Zustand des begrenzten Tonempfangsbereiches zeigt;
5C einen Festlegungszustand eines begrenzten Tonempfangsbereiches, eines Umstellbereiches und eines Unterdrückungsbereiches als Antwort auf einen anderen Gradienten in dem Zustand des begrenzten Tonempfangsbereiches zeigt;
5D einen Festlegungszustand eines begrenzten Tonempfangsbereiches, eines Umstellbereiches und eines Unterdrückungsbereiches als Antwort auf einen anderen Gradienten in dem Zustand des begrenzten Tonempfangsbereiches zeigt;
5E einen Festlegungszustand eines begrenzten Tonempfangsbereiches, eines Umstellbereiches und eines Unterdrückungsbereiches als Antwort auf einen anderen Gradienten in dem Zustand des begrenzten Tonempfangsbereiches zeigt;
6A eine Beziehung einer Phasendifferenz einer Phasenspektralkomponente bezüglich der Frequenz zeigt, die eine Beziehung eines Tonempfangsbereiches, eines Unterdrückungsbereiches und eines Umstellbereiches bei einem spezifischen Gradienten einer Phasendifferenz in dem Zustand des begrenzten Tonempfangsbereiches enthält;
6B eine Beziehung der Phasendifferenz der Phasenspektralkomponente bezüglich der Frequenz zeigt, die eine Beziehung eines Tonempfangsbereiches, eines Unterdrückungsbereiches und eines Umstellbereiches bei einem anderen spezifischen Gradienten einer Phasendifferenz in dem Zustand des begrenzten Tonempfangsbereiches enthält;
6C eine Beziehung einer Phasendifferenz einer Phasenspektralkomponente bezüglich der Frequenz zeigt, die eine Beziehung eines Tonempfangsbereiches, eines Unterdrückungsbereiches und eines Umstellbereiches bei einem anderen spezifischen Gradienten einer Phasendifferenz in dem Zustand des begrenzten Tonempfangsbereiches enthält;
6D eine Beziehung einer Phasendifferenz einer Phasenspektralkomponente bezüglich der Frequenz zeigt, die eine Beziehung eines Tonempfangsbereiches, eines Unterdrückungsbereiches und eines Umstellbereiches bei einem anderen spezifischen Gradienten einer Phasendifferenz in dem Zustand des begrenzten Tonempfangsbereiches enthält;
6E eine Beziehung der Phasendifferenz der Phasenspektralkomponente bezüglich der Frequenz zeigt, die eine Beziehung eines Tonempfangsbereiches, eines Unterdrückungsbereiches und eines Umstellbereiches bei einem anderen spezifischen Gradienten der Phasendifferenz in dem Zustand des begrenzten Tonempfangsbereiches enthält;
7 ein Flussdiagramm eines Erzeugungsprozesses eines komplexen Vektors ist, der durch einen digitalen Signalprozessor (DSP) von 3A und 3B ausgeführt wird;
8A einen ersten Abschnitt einer allgemeinen Funktionsstruktur einer Mikrofonarrayvorrichtung zeigt;
8B einen zweiten Abschnitt einer allgemeinen Funktionsstruktur einer Mikrofonarrayvorrichtung zeigt;
9 ein Flussdiagramm eines Erzeugungsprozesses eines komplexen Vektors ist, der durch einen digitalen Signalprozessor von 8A und 8B ausgeführt wird; und
10A und 10B einen Festlegungszustand eines maximalen Tonempfangsbereiches zeigt, der als Antwort auf Daten eines Sensors oder manuell eingegebene Daten festgelegt wird.
BESCHREIBUNG VON AUSFÜHRUNGSFORMEN
Jetzt wird eingehend Bezug auf die Ausführungsformen genommen, für die Beispiele in den beiliegende Zeichnungen gezeigt sind, in denen sich gleiche Bezugszeichen durchgängig auf die gleichen Elemente beziehen. Die Ausführungsformen sind unten beschrieben, um die vorliegende Erfindung unter Bezugnahme auf die Figuren zu erläutern.
Bei einem Tonsignalverarbeitungsprozess, der auf einer Vielzahl von Toneingabeeinheiten basiert, wird jedes Tonsignal in einer Zeitdomäne verarbeitet. Zum Beispiel wird ein Verzögerungs- und Subtraktionsprozess an Abtastwerten jedes Tonsignals ausgeführt, um eine Unterdrückungsrichtung zu bilden, die zu einer Tonempfangsrichtung eines Zieltons entgegengesetzt ist. Durch dieses Verfahren wird ein Geräusch, das aus der Unterdrückungsrichtung ankommt, ausreichend unterdrückt. Ein Hintergrundgeräusch, wie etwa ein Fahrgeräusch in einem Auto oder ein Geräusch in einer bevölkerten Straße, kommt typischerweise aus einer Vielzahl von Richtungen an. Solch ein Hintergrundgeräusch kommt aus einer Vielzahl von Richtungen bezüglich der Unterdrückungsrichtung an, und die Ankunftsrichtung selbst verändert sich mit der Zeit. Eine Tonquellenrichtung kann sich auch in Abhängigkeit von einer Differenz von Charakteristiken zwischen Toneingabeeinheiten verändern. In solch einem Fall ist es schwierig, das Geräusch ausreichend zu unterdrücken.
Die obige allgemeine Diskussion der Signalverarbeitung und die nun folgende eingehende Diskussion der Signalverarbeitung sind vorgesehen, um typische Beispiele zu erläutern, und sollen den Umfang der Erfindung nicht begrenzen.
Die Ausführungsformen sind unter Bezugnahme auf die Zeichnungen beschrieben. In den Zeichnungen sind gleiche Elemente mit gleichen Bezugszeichen bezeichnet.
1 zeigt ein Array von wenigstens zwei Mikrofonen MIC1 und MIC2 als Toneingabeeinheit oder Tonsignaleingabeeinheit in einer Ausführungsform.
Eine Vielzahl von Mikrofonen, in diesem Fall zwei Mikrofone MIC1 und MIC2, ist typischerweise angeordnet, um mit einer dazwischenliegenden bekannten linearen Distanz d voneinander beabstandet zu sein. Zum Beispiel ist das Mikrofon MIC1 von dem Mikrofon MIC2 mit einer linearen Distanz von d beabstandet. Der Abstand zwischen einer Vielzahl von Mikrofonen ist untereinander nicht unbedingt gleich. Solange das Abtasttheorem erfüllt ist, ist jede bekannte Distanz akzeptabel.
Gemäß einer Ausführungsform werden die Mikrofone MIC1 und MIC2 von einer Vielzahl von Mikrofonen verwendet.
Unter Bezugnahme auf 1 bezieht sich ein Winkel auf die Mitte eines Liniensegmentes, das die zwei Mikrofone verbindet. Wie in 1 gezeigt, ist eine Hauptzieltonquelle SS auf einer sich verlängernden Linie, welche die Mikrofone MIC1 und MIC2 verbindet, und links vom Mikrofon MIC1 platziert. Die Richtung zur Zieltonquelle SS (–π/2) ist eine Haupttonempfangsrichtung oder eine Zielrichtung des Mikrofonarrays der Mikrofone MIC1 und MIC2. Zum Beispiel ist die Tonquelle SS als Tonempfangsziel der Mund eines Sprechers, und die Tonempfangsrichtung ist die Richtung zum Mund des Sprechers. Ein Winkelbereich eines Tonempfangswinkels kann ein Tonempfangswinkelbereich Rs = Rsmax sein. Rsmax stellt einen maximalen Tonempfangswinkelbereich Rs in einem Anfangsfestlegungszustand dar.
Eine Richtung, die zu der Tonempfangsrichtung entgegengesetzt ist (+π/2), wird als Hauptunterdrückungsrichtung von Geräusch bezeichnet. Ein Winkelbereich des Hauptunterdrückungswinkels in der Hauptunterdrückungsrichtung kann ein Unterdrückungswinkelbereich Rn = Rnmin von Geräusch sein. Rnmin stellt einen minimalen Unterdrückungswinkelbereich Rn im Anfangsfestlegungszustand dar.
Ein Umstellwinkelbereich Rt = Rti ist auf beiden Seiten des Tonempfangswinkelbereiches Rs = Rsmax im Anfangsfestlegungszustand definiert, um einen Geräuschunterdrückungsbetrag einhergehend mit einer dem Unterdrückungswinkelbereich Rn nahekommenden Winkelposition allmählich zu vergrößern. Rti stellt den Umstellwinkelbereich Rt im Anfangsfestlegungszustand dar. Ein minimaler Unterdrückungswinkelbereich Rn = Rnmin, als verbleibender Winkelbereich, ist neben den Umstellwinkelbereichen Rti angeordnet. Eine Winkelgrenze zwischen dem Umstellwinkelbereich Rt und dem Unterdrückungswinkelbereich Rn wird durch θta dargestellt, und eine Winkelgrenze zwischen dem Tonempfangswinkelbereich Rs und dem Umstellwinkelbereich Rt wird durch θtb dargestellt. Der Tonempfangswinkelbereich Rs (nachfolgend einfach als Empfangsbereich bezeichnet), der Umstellwinkelbereich Rt (nachfolgend als Umstellbereich bezeichnet) und der Unterdrückungswinkelbereich Rn (nachfolgend als Unterdrückungsbereich bezeichnet) können auf Pro-Frequenz-f-Basis bestimmt werden.
In einer Ausführungsform ist der Abstand d zwischen den Mikrofonen MIC1 und MIC2 festgelegt, um die Bedingung Distanz d < Schallgeschwindigkeit c/Abtastfrequenz fs zu erfüllen, um dadurch das Abtasttheorem oder Nyquist-Theorem zu erfüllen. Unter Bezugnahme auf 1 stellt ein gestricheltes geschlossenes Muster Richtcharakteristiken oder ein Richtmuster des Mikrofonarrays von MIC1 und MIC2 dar (eine Nieren-Richtcharakteristik in einer einzelnen Richtung). Ein eingegebenes Tonsignal, das durch das Mikrofonarray von MIC1 und MIC2 empfangen und konvertiert wird, hängt von einem Einfallswinkel θ (= –π/2 bis +π/2) eines Tons bezüglich einer Linie ab, die durch das Mikrofonarray von MIC1 und MIC2 verläuft, hängt aber nicht von einem Einfallswinkel (0 bis 2π) in einer radialen Richtung um die Linie in einer zu der Linie vertikalen Ebene ab. Wie in 1 gezeigt, ist eine Einheitskugel, die den Tonempfangsbereich Rs, den Umstellbereich Rt und den Unterdrückungsbereich Rn enthält, bezüglich der Linie, die durch die Mikrofone MIC1 und MIC2 verläuft, rotationssymmetrisch.
Das Mikrofon MIC2 auf der rechten Seite in 1 detektiert Ton oder Sprache von der Zieltonquelle SS mit einer Verzögerungszeit τ = d/c später als das Mikrofon MIC1. Das Mikrofon MIC1 auf der linken Seite in 1 detektiert Geräusch N1 in der Hauptunterdrückungsrichtung mit der Verzögerungszeit τ = d/c später als das Mikrofon MIC2. Das Geräusch N2, das innerhalb des Unterdrückungsbereiches Rn der Hauptunterdrückungsrichtung abseits ausgerichtet ist, wird durch das Mikrofon MIC1 auf der linken Seite mit einer Verzögerungszeit τ = d·sinθ/c später als durch das Mikrofon MIC2 auf der rechten Seite detektiert. Der Winkel θ ist eine Ankunftsrichtung des Geräusches N2, die auch als Unterdrückungsrichtung angesehen wird. Wie in 1 gezeigt, stellt eine Strich-Punkt-Linie eine Wellenfront des Geräusches N2 dar. Die Ankunftsrichtung des Geräusches N1 mit θ = +π/2 ist die Hauptunterdrückungsrichtung des Eingangssignals.
In einem Mikrofonarray wird das Geräusch N1 in der Hauptunterdrückungsrichtung (θ = +π/2) unterdrückt, indem ein Eingangssignal IN2(t) an dem rechten Mikrofon MIC2, das die Verzögerungszeit von τ = d/c hat, von einem Eingangssignal IN1(t) an dem linken Mikrofon MIC1 subtrahiert wird. Bei solch einem Mikrofonarray gibt es Schwierigkeiten beim ausreichenden Unterdrücken des Geräuschs N2, das aus einer Richtung (0 < θ ≤ +π/2) abseits der Hauptunterdrückungsrichtung ankommt.
Der Erfinder hat herausgefunden, dass das Geräusch N2 in dem Unterdrückungsbereich Rn des Tonsignals durch Phasensynchronisierung eines Spektrums von Eingangstonsignalen zweier Mikrofone mit dem anderen Spektrum auf Pro-Frequenz-Basis gemäß einer Phasendifferenz zwischen den zwei Eingangstonsignalen und durch Bestimmen einer Differenz zwischen den zwei Spektren ausreichend unterdrückt wird.
Eine Zieltonquelle SS', die sich von der Zieltonquelle SS unterscheidet, kann an einer Position bei einem verschiedenen Winkel erscheinen, wie zum Beispiel in einer Richtung (θ = 0), die zu der Linie vertikal ist, die durch die Mikrofone MIC1 und MIC2 verläuft. Dies bedeutet, dass der Mund des Sprechers dort erscheint oder sich dorthin bewegt. Der begrenzte Tonempfangsbereich Rs = Rsp wird in einer Ausführungsform auf einen Winkelbereich eingestellt oder abgewandelt, der in Richtung der Zieltonquelle SS' zentriert ist. Rsp ist der begrenzte Tonempfangsbereich.
Der Tonempfangsbereich und der Grad der Geräuschunterdrückung befinden sich in einer Abwägungsbeziehung.
Um ein Tonsignal zu erfassen, dessen Geräuschpegel reduziert wird, wird der Tonempfangsbereich Rs = Rsp in einer Ausführungsform mit seinem Winkelbereich auf einen zweckmäßigen Winkelbereich begrenzt. Der Erfinder hat herausgefunden, dass das Geräusch im Unterdrückungsbereich Rn ausreichend unterdrückt wird, falls der Tonempfangsbereich Rs = Rsp, der auf eine spezifische Richtung begrenzt wird, als Antwort auf das Auftreten einer Tonquelle in der spezifischen Richtung bestimmt wird.
2 zeigt diagrammatisch eine Mikrofonarrayvorrichtung 100 einer Ausführungsform, die die Mikrofone MIC1 und MIC2 von 1 enthält.
Die Mikrofonarrayvorrichtung 100 enthält ein Mikrofon MIC1-101, ein Mikrofon MIC2-102, Verstärker (AMP) 122 und 124, Tiefpassfilter (LPF) 142 und 144, Analog-Digital-Konverter (A/D) 162 und 164, einen digitalen Signalprozessor (DSP) 200 und einen Speicher 202, der einen Speicher mit wahlfreiem Zugriff (RAM) umfasst. Die Mikrofonarrayvorrichtung 100 kann eine von Informationsvorrichtungen sein, die eine fahrzeugseitige (on-board) Vorrichtung oder eine Autonavigationsvorrichtung mit Spracherkennungsfunktion, Freisprechtelefon und Mobiltelefon enthalten.
Das Mikrofon MIC1-101 führt sein Ausgangssignal ina1 dem Verstärker 122 zu. Das Mikrofon MIC2-102 führt sein Ausgangssignal ina2 dem Verstärker 124 zu. Der Verstärker 122 führt sein Ausgangssignal INa1 dem Tiefpassfilter (LPF) 142 zu. Der Verstärker 124 führt sein Ausgangssignal INa2 dem Tiefpassfilter 144 zu. Das Tiefpassfilter 142 führt sein Ausgangssignal INp1 dem Analog-Digital-Konverter 162 zu. Das Tiefpassfilter 144 führt sein Ausgangssignal INp2 dem Analog-Digital-Konverter 164 zu. Der Analog-Digital-Konverter 162 führt sein Ausgangssignal IN1(t) dem digitalen Signalprozessor 200 zu. Der Analog-Digital-Konverter 164 führt sein Ausgangssignal IN2(t) dem digitalen Signalprozessor 200 zu.
Die Mikrofonarrayvorrichtung 100 kann mit einem Sensor (einem Sprecherrichtungsdetektionssensor) 192 und einem Richtungsbestimmer 194 verbunden sein oder kann den Sensor 192 und den Richtungsbestimmer 194 enthalten. Ein Prozessor 10 und ein Speicher 12 können in einer Vorrichtung mit einer Anwendung 400 enthalten sein oder können in einem anderen Informationsverarbeitungsgerät enthalten sein. Während die Mikrofonarrayvorrichtung 100 in 2 mit zwei Mikrofonen gezeigt ist, ist die vorliegende Erfindung auf keine besondere Anzahl von Mikrofonen begrenzt.
Der Sprecherrichtungsdetektionssensor 192 kann eine Digitalkamera, ein Ultraschallsensor oder ein Infrarotsensor sein. Der Richtungsbestimmer 194 kann an den Prozessor 10 montiert sein, der gemäß einem Richtungsbestimmungsprogramm arbeitet, das in dem Speicher 12 gespeichert ist.
Das analoge Eingangssignal ina1, in das das Mikrofon MIC1-101 einen Ton konvertiert hat, wird dem Verstärker 122 zugeführt und dann durch den Verstärker 122 verstärkt. Das analoge Eingangssignal ina2, in das das Mikrofon MIC2-102 einen Ton konvertiert hat, wird dem Verstärker 124 zugeführt und dann durch den Verstärker 124 verstärkt. Das analoge Tonsignal INa1 als Ausgabe des Verstärkers 122 wird einem Eingang des Tiefpassfilters 142 zugeführt und dann der Tiefpassfilterung zum späteren Abtasten unterzogen. Das analoge Tonsignal INa2 als Ausgabe des Verstärkers 124 wird einem Eingang des Tiefpassfilters 144 zugeführt und dann der Tiefpassfilterung zum späteren Abtasten unterzogen. Hier werden nur die Tiefpassfilter verwendet. Als Alternative kann ein Bandpassfilter für das Tiefpassfilter eingesetzt werden. Ferner kann das Bandpassfilter zusammen mit einem Hochpassfilter verwendet werden. Die Grenzfrequenz fc der Tiefpassfilter 142 und 144 kann zum Beispiel 3,9 kHz betragen.
Das analoge Signal INp1, das durch das Tiefpassfilter 142 ausgegeben wird, wird einem Eingang des Analog-Digital-Konverters 162 zugeführt und in ein digitales Eingangssignal konvertiert. Das analoge Signal INp2, das durch das Tiefpassfilter 144 ausgegeben wird, wird einem Eingang des Analog-Digital-Konverters 164 zugeführt und in ein digitales Eingangssignal konvertiert. Das digitale Eingangssignal IN1(t) in der Zeitdomäne, das durch den Analog-Digital-Konverter 162 ausgegeben wird, wird einem Tonsignaleingangsanschluss oder einer Tonsignaleingabeeinheit it1 des digitalen Signalprozessors 200 zugeführt. Das digitale Eingangssignal IN2(t) in der Zeitdomäne, das durch den Analog-Digital-Konverter 164 ausgegeben wird, wird einem Tonsignaleingangsanschluss oder einer Tonsignaleingabeeinheit it2 des digitalen Signalprozessors 200 zugeführt. Eine Abtastfrequenz fs der Analog-Digital-Konverter 162 und 164 kann 8 kHz betragen (fs > 2fc).
Zusammen mit dem Speicher 202 konvertiert der digitale Signalprozessor 200 das digitale Eingangssignal IN1(t) in der Zeitdomäne in ein digitales Eingangssignal in der Frequenzdomäne oder ein komplexes Spektrum IN1(f) durch Fourier-Transformation. Der digitale Signalprozessor 200 konvertiert das digitale Eingangssignal IN2(t) in der Zeitdomäne in ein digitales Eingangssignal in der Frequenzdomäne oder ein komplexes Spektrum IN2(f) durch Fourier-Transformation. Der digitale Signalprozessor 200 verarbeitet das digitale Eingangssignal IN1(f) weiter, um das Geräusch N1 im Geräuschunterdrückungsbereich Rn zu unterdrücken. Der digitale Signalprozessor 200 verarbeitet das digitale Eingangssignal IN2(f) weiter, um das Geräusch N2 im Geräuschunterdrückungsbereich Rn zu unterdrücken. Der digitale Signalprozessor 200 unterzieht das verarbeitete digitale Eingangssignal INd(f) in der Frequenzdomäne einer inversen Konvertierung in ein digitales Tonsignal INd(t) in der Zeitdomäne durch inverse Fourier-Transformation, wodurch ein digitales Tonsignal INd(t) mit unterdrücktem Geräusch erzeugt wird.
Der digitale Signalprozessor 200 legt einen maximalen Tonempfangsbereich Rs = Rsmax, einen Umstellbereich Rt = Rti und einen minimalen Unterdrückungsbereich Rn = Rnmin fest. Der digitale Signalprozessor 200 verarbeitet dann die komplexen Spektren IN1(f) und IN2(f) aller Frequenzen f oder einer Frequenz f innerhalb einer besonderen Bandbreite, wodurch eine Richtung θss der Zieltonquelle SS oder SS' in dem Tonempfangsbereich Rsmax bestimmt wird, oder eine Phasendifferenz DIFF(f), welche die Richtung θss darstellt. Der digitale Signalprozessor 200 bestimmt oder beachtet dann einen Koeffizienten D(f) einer Frequenz f der Phasendifferenz DIFF(f) (= D(f) × f) als lineare Funktion der Frequenz. Die Frequenz f in der besonderen Bandbreite kann innerhalb eines Frequenzbandes liegen, das eine Frequenz enthält, die eine maximale Leistung hat, oder eine Frequenz, die ein relativ hohes S/N-Verhältnis hat, zum Beispiel innerhalb eines Bereiches von f = 0,5 bis 1,5 kHz nahe f = 1 kHz.
Der digitale Signalprozessor 200 bestimmt den begrenzten Tonempfangsbereich Rs = Rsp gemäß der bestimmten Richtung θss oder dem Koeffizienten D(f) und legt den Umstellbereich Rt, der an Rsp angrenzt, und den verbleibenden Unterdrückungsbereich Rn fest. Der digitale Signalprozessor 200 verarbeitet die komplexen Spektren IN1(f) und IN2(f) auf Pro-Frequenz-f-Basis, unterdrückt die Geräusche N1 und N2 im Unterdrückungsbereich Rn und Umstellbereich Rt und erzeugt ein verarbeitetes digitales Eingangssignal INd(f). Die Richtwirkung der Mikrofonarrayvorrichtung 100 wird bezüglich der Zieltonquelle relativ hervorgehoben.
Die Mikrofonarrayvorrichtung 100 ist auf ein Informationsverarbeitungsgerät wie etwa eine Autonavigationsvorrichtung mit Spracherkennungsfunktion und andere ähnliche Geräte anwendbar. Voreingestellt können in der Mikrofonarrayvorrichtung 100 die Ankunftsrichtung θss der Hauptzieltonquelle SS und die Ankunftsrichtung der Stimme eines Fahrers sowie ein maximaler Tonempfangsbereich Rsmax der Stimme des Fahrers sein.
Der digitale Signalprozessor 200 kann mit dem Richtungsbestimmer 194 oder dem Prozessor 10 verbunden sein, wie zuvor beschrieben. In solch einem Fall empfängt der digitale Signalprozessor 200 von dem Richtungsbestimmer 194 oder von der Mikrofonarrayvorrichtung 100 Informationen, die eine Richtung θd zum Sprecher oder einen maximalen Tonempfangsbereich Rsmax darstellen. Als Antwort auf die Informationen, die die Richtung θd zum Sprecher oder den maximalen Tonempfangsbereich Rsmax darstellen, legt der digitale Signalprozessor 200 den maximalen Tonempfangsbereich Rs = Rsmax, den Umstellbereich Rt = Rti und den minimalen Unterdrückungsbereich Rn = Rnmin im Anfangsfestlegungszustand fest.
Der Richtungsbestimmer 194 oder der Prozessor 10 kann die Informationen erzeugen, die den maximalen Tonempfangsbereich Rsmax darstellen, indem ein Festlegungssignal verarbeitet wird, das durch manuelle Eingabe durch einen Nutzer eingegeben wird. Der Richtungsbestimmer 194 oder der Prozessor 10 kann die Anwesenheit des Sprechers als Antwort auf Daten oder Bilddaten detektieren oder erkennen, die durch den Sprecherrichtungsdetektionssensor 192 detektiert werden, und dann die Richtung θd zu dem Sprecher bestimmen und die Informationen erzeugen, die den maximalen Tonempfangsbereich Rsmax darstellen.
Das digitale Tonsignal INd(t), das durch den digitalen Signalprozessor 200 ausgegeben wird, kann bei der Spracherkennung oder der Kommunikation zwischen Mobiltelefonen verwendet werden. Das digitale Tonsignal INd(t) kann der Anwendung 400 zugeführt werden. Ein Digital-Analog-Konverter 404 konvertiert das digitale Tonsignal INd(t) in ein analoges Signal, und ein Tiefpassfilter 406 filtert das analoge Signal. So wird ein gefiltertes analoges Signal erzeugt. Bei der Anwendung 400 wird das digitale Tonsignal INd(t) in einem Speicher 414 gespeichert und dann durch einen Spracherkenner 416 bei der Spracherkennung verwendet. Der Spracherkenner 416 kann ein Prozessor sein, der als Hardware-Element implementiert ist, oder ein Prozessor, der gemäß einem Software-Programm arbeitet, das in dem Speicher 414 gespeichert ist, der einen ROM oder einen RAM enthält.
Der digitale Signalprozessor 200 kann eine Signalverarbeitungsschaltung sein, die als Hardware-Element implementiert ist, oder eine Signalverarbeitungsschaltung, die gemäß einem Software-Programm arbeitet, das in dem Speicher 202 gespeichert ist, der einen ROM oder einen RAM enthält.
Wie in 1 gezeigt, kann die Mikrofonarrayvorrichtung 100 einen begrenzten Winkelbereich, der in der Richtung θss (= –π/2) zu der Zieltonquelle SS zentriert ist, als Tonempfangsbereich oder Nichtunterdrückungsbereich Rs = Rsp festlegen. Die Mikrofonarrayvorrichtung 100 kann einen Winkelbereich, der in der Hauptunterdrückungsrichtung θ = +π/2 zentriert ist, als Unterdrückungsbereich Rn festlegen. In einer alternativen Ausführungsform können die Richtung θss der Zieltonquelle SS und die Hauptunterdrückungsrichtung θ, die in 1 gezeigt sind, positionell seitenverkehrt sein. In solch einem Fall sind auch die Mikrofone MIC1 und MIC2 positionell seitenverkehrt.
Der Synchronisationskoeffizientengenerator 220, der in 3 gezeigt ist, legt einen maximalen Tonempfangsbereich (Rsmax) auf –π/2 ≤ θ ≤ ± θ als maximalen Tonempfangsbereich Rs, einen Umstellbereich (Rti) auf ±0 < θ ≤ +π/6 als Umstellbereich Rt und einen minimalen Unterdrückungsbereich (Rnmin) auf +π/6 < θ ≤ +π/2 als minimalen Unterdrückungsbereich Rn fest.
Falls die Richtung θss der Zieltonquelle SS nahe einer Richtung θ = –π/2 als statistischer Mittelwert oder geglätteter Wert bei der Frequenz f erscheint, kann der Tonempfangsbereich Rs auf einen begrenzten Winkelbereich Rsp wie beispielsweise –π/2 ≤ 0 ≤ –π/4 festgelegt werden. Die Geräusche N1 und N2 werden so ausreichend unterdrückt. Falls die Richtung θss der Zieltonquelle SS' nahe einer Richtung θ = ±0 als statistischer Mittelwert bei der Frequenz f erscheint, kann der Tonempfangsbereich Rs auf einen begrenzten Winkelbereich Rsp wie beispielsweise –π/9 ≤ θ ≤ +π/9 festgelegt werden. Die Geräusche N1 und N2 werden ausreichend unterdrückt.
3A und 3B zeigen eine allgemeine Funktionsstruktur der Mikrofonarrayvorrichtung 100, die Geräusch reduziert, indem Geräusch mit dem Array der Mikrofone MIC1 und MIC2 von 1 unterdrückt wird.
Der digitale Signalprozessor 200 enthält einen schnellen Fourier-Transformierer (FFT) 212, dessen Eingang mit einem Ausgang des Analog-Digital-Konverters 162 verbunden ist, und einen schnellen Fourier-Transformierer 214, dessen Eingang mit einem Ausgang des Analog-Digital-Konverters 164 verbunden ist. Der digitale Signalprozessor 200 enthält ferner einen Bereichsbestimmer 218, einen Synchronisationskoeffizientengenerator 220 und ein Filter 300. Es kann auch davon ausgegangen werden, dass der Bereichsbestimmer 218 eine Funktion als Tonempfangsbereichsbestimmer oder Unterdrückungsbereichsbestimmer hat. Gemäß einer Ausführungsform wird die schnelle Fourier-Transformation zur Frequenztransformation oder orthogonalen Transformation verwendet. Als Alternative kann eine andere Funktion zur Frequenztransformation verwendet werden, wie etwa die diskrete Kosinustransformation oder Wavelet-Transformation.
Der schnelle Fourier-Transformierer 212 liefert ein Ausgangssignal IN1(f). Der schnelle Fourier-Transformierer 214 liefert ein Ausgangssignal IN2(f). Der Bereichsbestimmer 218 liefert Ausgangssignale D(f) und Rs an einen Synchronisationskoeffizientenberechner 224. Ein Phasendifferenzberechner 222 liefert ein Ausgangssignal DIFF(f). Der Synchronisationskoeffizientenberechner 224 liefert ein Ausgangssignal C(f) an einen Synchronisierer 332. Der Synchronisierer 332 liefert ein Ausgangssignal INs2(f) an einen Subtrahierer 334. Der Subtrahierer 334 liefert ein Ausgangssignal INd(f). Ein inverser schneller Fourier-Transformierer 382 liefert ein Ausgangssignal INd(t). In dem Phasendifferenzberechner 222 und dem Synchronisationskoeffizientenberechner 224 gilt zum Beispiel eine Bedingung f < fc oder f < c/2d.
Der Synchronisationskoeffizientengenerator 220 enthält den Phasendifferenzberechner 222. Der Phasendifferenzberechner 222 berechnet eine Phasendifferenz DIFF(f) zwischen komplexen Spektren jeder Frequenz f (0 < f < fs/2) in einer Frequenzbandbreite wie beispielsweise einer Hörfrequenzbandbreite. Der Synchronisationskoeffizientengenerator 220 enthält ferner den Synchronisationskoeffizientenberechner 224. Das Filter 300 enthält den Synchronisierer 332 und den Subtrahierer 334. Optional kann das Filter 300 auch einen Verstärker (AMP) 336 enthalten. Der Subtrahierer 334 kann durch eine Ersatzschaltung ersetzt werden, die einen Vorzeicheninverter enthält, der einen Eingangswert invertiert, sowie einen Addierer, der mit dem Vorzeicheninverter verbunden ist. In einer alternativen Ausführungsform kann der Bereichsbestimmer 218 in dem Synchronisationskoeffizientengenerator 220 oder dem Synchronisationskoeffizientenberechner 224 enthalten sein.
Der Bereichsbestimmer 218 hat Eingänge, die mit den Ausgängen der zwei schnellen Fourier-Transformierer 212 und 214 und dem Ausgang des Phasendifferenzberechners 222 verbunden sind. Die Phasendifferenz DIFF(f) wird durch eine lineare Funktion DIFF(f) = D(f) × f der Frequenz f dargestellt. D(f) ist hier ein Koeffizient einer Frequenzvariablen f der linearen Funktion der Frequenz und stellt einen Gradienten oder eine Proportionalkonstante dar. Der Synchronisationskoeffizientengenerator 220 erzeugt die Phasendifferenz DIFF(f) des maximalen Tonempfangsbereiches Rsmax im Anfangsfestlegungszustand (4) und führt die Phasendifferenz DIFF(f) dann dem Bereichsbestimmer 218 zu. Als Reaktion auf die eingegebenen komplexen Spektren IN1(f) und IN2(f) erzeugt der Bereichsbestimmer 218, bei der Phasendifferenz DIFF(f), die von dem Synchronisationskoeffizientengenerator 220 eingegeben wird, den Gradienten D(f), der ein statistischer Mittelwert oder ein Durchschnittswert bezüglich der Frequenz f ist. Der Gradient D(f) wird durch die folgende Gleichung dargestellt: D(f) = Σf × DIFF(f)/Σf²
Die Bandbreite der Frequenz f kann 0,3–3,9 kHz betragen. Der Bereichsbestimmer 218 kann den Tonempfangsbereich Rs, den Unterdrückungsbereich Rn und den Umstellbereich Rt als Reaktion auf den Gradienten D(f) bestimmen.
Der Bereichsbestimmer 218 kann die Phasendifferenz DIFF(f) und den Gradienten D(f) bei einer Frequenz f bestimmen, wo ein Abschnitt von jedem der komplexen Spektren IN1(f) und IN2(f) eine Leistungsspektralkomponente hat, die höher als eine Leistungsspektralkomponente N vom beachteten Geräusch N ist. Das Leistungsspektrum bezieht sich auf das Quadrat des Absolutwertes einer Amplitude eines komplexen Spektrums bei verschiedenen Frequenzen oder die Leistung eines komplexen Spektrums bei verschiedenen Frequenzen. Der Bereichsbestimmer 218 kann die Geräuschleistung bei jeder Frequenz f in dem Leistungsspektrum, das ein Muster der Stille darstellt, als Reaktion auf die eingegebenen komplexen Spektren IN1(f) und IN2(f) bestimmen. Der Bereichsbestimmer 218 kann so die resultierende Geräuschleistung als stetige Geräuschleistung N beachten.
3C zeigt eine Beziehung zwischen einem Leistungsspektrum in einem Tonsignalsegment einer Zieltonquelle und einem Leistungsspektrum eines Geräuschsegmentes. Das Leistungsspektrum eines Tonsignals oder eines Sprachsignals einer Zieltonquelle ist in der Verteilung relativ regelmäßig, aber nicht gleichförmig. Andererseits ist das Leistungsspektrum im stetigen Geräuschsegment relativ unregelmäßig, aber in der Verteilung über den gesamten Frequenzbereich hinweg im Allgemeinen regelmäßig. Die Tonsignale der Zieltonquellen SS und SS' und das stetige Geräusch N können auf der Basis solch einer Verteilungsdifferenz identifiziert werden. Charakteristiken von Tonhöhen (Harmonischen), die für eine Stimme einzigartig sind, oder eine Formant-Verteilung der Stimme können identifiziert werden, um die Tonsignale der Zieltonquellen SS und SS' und das stetige Geräusch N zu identifizieren.
Die Leistung P1 des komplexen Spektrums IN1(f) und die Leistung P2 des komplexen Spektrums IN2(f) erfüllen typischerweise P1 ≥ P2 + ΔP (ΔP ist eine Fehlertoleranz, die durch einen Konstruktionsingenieur bestimmt wird) bezüglich der Phasendifferenz DIFF(f) in dem maximalen Tonempfangsbereich Rsmax. Denn eine der Zieltonquellen SS und SS' ist dem Mikrofon MIC1 näher als dem Mikrofon MIC2 oder ist im Wesentlichen im gleichen Abstand von den Mikrofonen MIC1 und MIC2 angeordnet. Die Phasendifferenz DIFF(f), die P1 ≥ P2 + ΔP nicht erfüllt, kann bestimmt werden und dann ausgeschlossen werden, zusätzlich zu der oder anstelle der Bestimmung der beachteten Geräuschleistung N.
Eine passende Phasendifferenz DIFF(f) des Tonsignals der Zieltonquellen SS und SS' in dem maximalen Tonempfangsbereich Rsmax und der Gradient D(f) der Phasendifferenz DIFF(f) werden durch die Bestimmung der beachteten Geräuschleistung N und/oder durch den Vergleich der komplexen Spektren IN1(f) und IN2(f) bestimmt. Die Phasendifferenz, die aus den Geräuschen N1 und N2 resultiert, wird somit weitestmöglich ausgeschlossen.
Der Phasendifferenzberechner 222 bestimmt die Phasendifferenz DIFF(f) zwischen den komplexen Spektren IN1(f) und IN2(f) aller Frequenzen f oder der Frequenz f innerhalb einer besonderen Bandbreite von den schnellen Fourier-Transformierern 212 und 214, wie weiter unten beschrieben. In einer alternativen Ausführungsform kann der Bereichsbestimmer 218 in derselben Weise wie der Synchronisationskoeffizientenberechner 220 arbeiten und somit die Phasendifferenz DIFF(f) zwischen den komplexen Spektren IN1(f) und IN2(f) aller Frequenzen f oder der Frequenz f innerhalb einer besonderen Bandbreite von den schnellen Fourier-Transformierern 212 und 214 bestimmen.
Der Gradient D(f) entspricht einer Winkelrichtung θ (= θss) einer dominanten oder zentralen Tonquelle, wie etwa der Zieltonquelle SS oder SS'. Die Beziehung zwischen dem Gradienten D(f) und der Winkelrichtung θ wird dargestellt durch D(f) = (4/fs) × θ oder θ = (fs/4) × D(f).
Der Bereichsbestimmer 218 führt dem Synchronisationskoeffizientenberechner 224 Daten zu, die den Gradienten D(f) darstellen, und/oder Phasendifferenzdaten (Grenzkoeffizienten a, a', b und b' in 6A–6E), die den begrenzten Tonempfangsbereich Rs = Rsp entsprechend dem Gradienten D(f) darstellen. Der Synchronisationskoeffizientenberechner 224 kann den Tonempfangsbereich Rs = Rsp, den Unterdrückungsbereich Rn und den Umstellbereich Rt gemäß dem Gradienten D(f) bestimmen.
4 zeigt eine Beziehung der Phasendifferenz DIFF(f) für die Phasenspektralkomponente jeder Frequenz f, die durch den Phasendifferenzberechner 222 gemäß der Anordnung der Mikrofone MIC1 und MIC2 von 1 berechnet wird, des maximalen Tonempfangsbereiches Rs = Rsmax, des Umstellbereiches Rt = Rti und des Unterdrückungsbereiches Rn = Rnmin im Anfangsfestlegungszustand.
Die Phasendifferenz DIFF(f) fällt in einen Bereich von -2π/fs < DIFF(f) < +2π/fs, und die Frequenz f ist eine Funktion, die dargestellt wird durch –(2π/fs)f ≤ DIFF(f) ≤ + (2π/fs). Falls der maximale Tonempfangsbereich Rsmax im Anfangsfestlegungszustand –π/2 ≤ θ ≤ ±0 ist, fällt der Gradient D(f) in einen Bereich von –(2π/fs) ≤ D(f) ≤ ±0. Falls die Winkelrichtung θss der Zieltonquelle SS bei allen Frequenzen f θss = –π/2 ist, ist der Gradient D(f) = –π/(fs/2) = –2π/fs. Ist die Winkelrichtung der Zieltonquelle SS bei allen Frequenzen f θss = 0, ist der Gradient D(f) = 0.
5A zeigt einen Festlegungszustand des begrenzten Tonempfangsbereiches Rs = Rsp, des Umstellbereiches Rt und des Unterdrückungsbereiches Rn als Antwort auf den statistischen Mittelwert oder den geglätteten Wert des Gradienten D(f) = –2π/fs der Phasendifferenz DIFF(f) in einem begrenzten Zustand des Tonempfangsbereiches.
5B zeigt einen Festlegungszustand des begrenzten Tonempfangsbereiches Rs = Rsp, des Umstellbereiches Rt und des Unterdrückungsbereiches Rn bei einem anderen Gradienten D(f) = 0 in dem begrenzten Zustand des Tonempfangsbereiches.
5C zeigt einen Festlegungszustand des begrenzten Tonempfangsbereiches Rs = Rsp, des Umstellbereiches Rt und des Unterdrückungsbereiches Rn bei einem anderen Gradienten D(f), der in einen Bereich von (4θt + 2θs – 2π)/fs < D(f) < 0 fällt, in dem begrenzten Zustand des Tonempfangsbereiches.
5D zeigt einen Festlegungszustand des begrenzten Tonempfangsbereiches Rs = Rsp, des Umstellbereiches Rt und des Unterdrückungsbereiches Rn bei einem anderen Gradienten D(f), der in einen Bereich von 2(θs – π)/fs < D(f) < (4θt + 2θs – 2π)/fs fällt, in dem begrenzten Zustand des Tonempfangsbereiches.
5E zeigt einen Festlegungszustand des begrenzten Tonempfangsbereiches Rs = Rsp, des Umstellbereiches Rt und des Unterdrückungsbereiches Rn bei einem anderen Gradienten D(f), der in einen Bereich von –2π/fs < D(f) < 2(θs – π)/fs fällt, in dem begrenzten Zustand des Tonempfangsbereiches. In 5A, 5B, 5C, 5D und 5E (5A–5E) stellen θs und θs' Winkelbereiche des Tonempfangs dar, stellen θt und θt' Winkelbereiche der Umstellung dar und stellen θn und θn' Winkelbereiche der Tonunterdrückung dar.
Falls der Gradient D(f) in dem Anfangsfestlegungszustand D(f) = –2π/fs ist, wie in 5A gezeigt, legt der Synchronisationskoeffizientenberechner 224 den begrenzten Tonempfangsbereich Rs(θ) = Rsp auf ein Minimum –π/2 ≤ θ ≤ θb = θs/2 – π/2 fest. Der Synchronisationskoeffizientenberechner 224 legt dann den Umstellbereich Rt(θ) auf θb = θs/2 – π/2 < θ ≤ θa = θs/2 + θt – π/2 fest. Der Synchronisationskoeffizientenberechner 224 legt dann den Unterdrückungsbereich Rn(θ) (= Rnmax) auf den verbleibenden θa = θs/2 + θt – π/2 < θ ≤ +π/2 fest. Der Winkel θs des Tonempfangsbereiches Rs kann ein Wert sein, der in einen Bereich von θs = π/3 bis π/6 fällt. Dann kann der Winkel θt des Umstellbereiches Rt ein Wert sein, der in einen Bereich von θt = π/6 bis π/12 fällt.
Falls der Gradient D(f) in dem Anfangsfestlegungszustand D(f) = 0 ist, wie in 5B gezeigt, legt der Synchronisationskoeffizientenberechner 224 den begrenzten Tonempfangsbereich Rs(θ) = Rsp auf θb' = –θs/2 ≤ θ ≤ θb = +θs/2 fest. Der Synchronisationskoeffizientenberechner 224 legt dann den Umstellbereich Rt(θ) auf θb = θs/2 < θ ≤ θa = θs/2 + θt und θa' = –θs/2 – θt < θ ≤ θb' = –θs/2 fest. Der Synchronisationskoeffizientenberechner 224 legt dann den Unterdrückungsbereich Rn(θ) auf den verbleibenden θa = θs/2 + θt < θ ≤ +π/2 und –π/2 ≤ θ < θa'= –θs/2 – θt fest.
Falls der Gradient D(f) in dem Anfangsfestlegungszustand in einen Bereich von (4θt + 2θs – 2π)/fs ≤ D(f) < 0 fällt, wie in 5C gezeigt, legt der Synchronisationskoeffizientenberechner 224 den begrenzten Tonempfangsbereich Rs(θ) = Rsp auf θb' ≤ θ ≤ θb fest. Der Synchronisationskoeffizientenberechner 224 legt dann den Umstellbereich Rt(θ) auf θb < θ ≤ θa und θa' < θ ≤ θb' fest. Der Synchronisationskoeffizientenberechner 224 legt dann den Unterdrückungsbereich Rn(θ) auf den verbleibenden θa < θ ≤ +π/2 und –π/2 ≤ θ < θa' fest.
Falls der Gradient D(f) in dem Anfangsfestlegungszustand in einen Bereich von 2(θs – π)/fs ≤ D(f) < (4θt + 2θs – 2π)/fs fällt, wie in 5D gezeigt, legt der Synchronisationskoeffizientenberechner 224 den begrenzten Tonempfangsbereich Rs(θ) = Rsp auf θb' ≤ θ ≤ θb fest. Der Synchronisationskoeffizientenberechner 224 legt dann den Umstellbereich Rt(θ) auf θb < θ ≤ θa und –π/2 ≤ θ < θb' fest. Der Synchronisationskoeffizientenberechner 224 legt dann den Unterdrückungsbereich Rn(θ) auf den verbleibenden θa < θ ≤ +π/2 und –π/2 ≤ θ < θa' fest.
Falls der Gradient D(f) in dem Anfangsfestlegungszustand in einen Bereich von –2π/fs < D(f) < 2(θs – π)/fs fällt, wie in 5E gezeigt, legt der Synchronisationskoeffizientenberechner 224 den begrenzten Tonempfangsbereich Rs(θ) = Rsp auf –π/2 ≤ θ ≤ θb fest. Der Synchronisationskoeffizientenberechner 224 legt dann den Umstellbereich Rt(θ) auf θb < θ ≤ θa fest. Der Synchronisationskoeffizientenberechner 224 legt dann den Unterdrückungsbereich Rn(θ) auf den verbleibenden θa < θ ≤ +π/2 fest.
In einer Ausführungsform werden der Tonempfangsbereich Rs, der Unterdrückungsbereich Rn und der Umstellbereich Rt so gesteuert, wie in 5A–5E gezeigt, dass der Geräuschunterdrückungsbetrag bezüglich des Tons der Zieltonquelle im Allgemeinen und im Wesentlichen konstant ist, ungeachtet der Winkelrichtung θss der Zieltonquelle.
Der Winkel θs des begrenzten Tonempfangsbereiches Rs kann bezüglich einer beliebigen zentralen Winkelrichtung θss variabel festgelegt werden, so dass die Summe von Raumwinkeln des begrenzten Tonempfangsbereiches Rs = Rsp (ein gesamtes belegtes Oberflächengebiet der Einheitskugel) wie in 5A–5E im Wesentlichen konstant ist. Ähnlich kann der Winkel θn des Unterdrückungsbereiches Rn bezüglich einer beliebigen Grenzwinkelrichtung θa und θa' variabel festgelegt werden, so dass die Summe von Raumwinkeln des Unterdrückungsbereiches Rn im Wesentlichen konstant ist. Ähnlich kann der Winkel θt des Umstellbereiches Rt bezüglich Grenzwinkelrichtungen θa, θa', θb und θb' variabel festgelegt werden, so dass die Summe von Geräuschleistungskomponenten im Wesentlichen konstant ist. Im Allgemeinen kann der Winkel θt des Umstellbereiches Rt bezüglich Grenzwinkelrichtungen θa, θa', θb und θb' variabel festgelegt werden, so dass die Summe von Raumwinkeln des Umstellbereiches Rt im Wesentlichen konstant ist. Der Winkel θs kann variabel festgelegt werden, so dass die Größe (Breite) des Winkels θs des Tonempfangsbereiches Rs allmählich abnimmt, während die Winkelrichtung θss von –π/2 auf 0 zunimmt. Der Winkel θn kann variabel festgelegt werden, so dass die Größe (Breite) des Winkels θn des Unterdrückungsbereiches Rn allmählich abnimmt, während die Winkelrichtung θss von –π/2 auf 0 zunimmt. Die Winkel θs, θn und θt können als Reaktion auf die Winkelrichtung θss bestimmt werden, die auf Messwerten basiert.
Der Winkel θs des begrenzten Tonempfangsbereiches Rs kann bezüglich einer beliebigen zentralen Winkelrichtung θss variabel festgelegt werden, so dass die Summe von Raumwinkeln des begrenzten Tonempfangsbereiches Rs im Wesentlichen konstant ist. In solch einem Fall kann der Fall von 5E in 5A dargestellt werden. In 5A ist die Winkelrichtung θss der Zieltonquelle SS auf einen Bereich von –π/2 ≤ θss ≤ (θs – π)/2 anwendbar.
Anstelle des Synchronisationskoeffizientenberechners 224 kann der Bereichsbestimmer 218 den Tonempfangsbereich Rs, den Umstellbereich Rt und den Unterdrückungsbereich Rn festlegen, die in 5A–5E für den Synchronisationskoeffizientenberechner 224 gezeigt sind.
Nun wird die Operation des digitalen Signalprozessors 200 spezieller beschrieben.
Das digitale Eingangssignal IN1(t) in der Zeitdomäne von dem Analog-Digital-Konverter 162 wird dem schnellen Fourier-Transformierer 212 zugeführt. Das digitale Eingangssignal IN2(t) in der Zeitdomäne von dem Analog-Digital-Konverter 164 wird dem schnellen Fourier-Transformierer 214 zugeführt. Bei einer bekannten Technik multipliziert der schnelle Fourier-Transformierer 212 das digitale Eingangssignal IN1(t) in jedem Signalsegment mit einer Überlappungsfensterfunktion und führt an dem resultierenden Produkt eine Fourier-Transformation oder orthogonale Transformation aus, um ein komplexes Spektrum IN1(f) in der Frequenzdomäne zu erzeugen. Bei der bekannten Technik multipliziert der schnelle Fourier-Transformierer 214 das digitale Eingangssignal IN2(t) in jedem Signalsegment mit einer Überlappungsfensterfunktion und führt an dem resultierenden Produkt eine Fourier-Transformation oder orthogonale Transformation aus, um ein komplexes Spektrum IN2(f) in der Frequenzdomäne zu erzeugen. IN1(f) = A₁e^{j(2πft+ϕ1(f))} und IN2(f) = A₂e^{j(2πft+ϕ2(f))}, wobei f die Frequenz darstellt, A₁ und A₂ Amplituden darstellen, j eine imaginäre Einheitszahl darstellt und ϕ1(f) und ϕ2(f) Phasenverzögerungen darstellen. Die Überlappungsfensterfunktionen enthalten eine Hamming-Fensterfunktion, Hanning-Fensterfunktion, Blackman-Fensterfunktion, Gaußsche 3-Sigma Fensterfunktion und Dreieckfensterfunktion.
Der Phasendifferenzberechner 222 bestimmt die Phasendifferenz DIFF(f) (Radiant) der Phasenspektralkomponente, die die Tonquellenrichtung angibt, auf Pro-Frequenz-f-Basis (0 < f < fs/2) zwischen den zwei benachbarten Mikrofonen MIC1 und MIC2, die mit der Distanz d beabstandet sind, mit der folgenden Gleichung: DIFF(f) = tan^–1(J{IN2(f)/IN1(f)}/R{IN2(f)/IN1(f)})
Hier wird angenommen, dass eine einzelne Tonquelle einer einzelnen Frequenz f entspricht. J{x} stellt einen imaginären Teil einer komplexen Zahl x dar, und R{x} stellt einen reellen Teil der komplexen Zahl x dar.
Die Phasendifferenz DIFF(f) wird in der verzögerten Phase (ϕ1(f), ϕ2(f)) der digitalen Eingangssignale IN1(t) und IN2(t) wie folgt ausgedrückt: DIFF(f) = tan^–1(J{A₂e^{j(2πft+ϕ2(f))}/A₁e^{j(2πft+ϕ1(f))}}/R{A₂e^{j(2πft+ϕ2(f))}/A₁e^{j(2πft+ϕ1(f))}} = tan^–1(J{(A₂/A₁)e^{j(ϕ2(f)-ϕ1(f))}}/R{(A₂/A₁)e^{j(ϕ2(f)-ϕ1(f))} = tan^–1(J{e^{j(ϕ2(f)-ϕ1(f))}}/R{e^{j(ϕ2(f)-ϕ1(f))} = tan^–1(sin(ϕ2(f) – ϕ1(f))/cos(ϕ2(f) – ϕ1(f))) = tan^–1(tan(ϕ2(f) – ϕ1(f))) = ϕ2(f) – ϕ1(f) wobei das Eingangssignal IN1(t) von dem Mikrofon MIC1 als Vergleichsreferenz von den Eingangssignalen IN1(t) und IN2(t) dient. Falls das Eingangssignal IN2(t) von dem Mikrofon MIC2 als Vergleichsreferenz dient, werden die Eingangssignale IN1(t) und IN2(t) einfach gegeneinander ausgetauscht.
Der Phasendifferenzberechner 222 kann dem Synchronisationskoeffizientenberechner 224 den Wert der Phasendifferenz DIFF(f) der Phasenspektralkomponente auf Pro-Frequenz-f-Basis zwischen den zwei benachbarten Eingangssignalen IN1(f) und IN2(f) zuführen. Der Phasendifferenzberechner 222 kann den Wert der Phasendifferenz DIFF(f) auch dem Bereichsbestimmer 218 zuführen.
6A, 6B, 6C, 6D und 6E (6A–6E) zeigen Beziehungen der Phasendifferenz DIFF(f) einer Phasenspektralkomponente jeder Frequenz f bezüglich verschiedener Gradienten D(f), des begrenzten Tonempfangsbereiches Rs = Rsp, des Umstellbereiches Rt und des Unterdrückungsbereiches Rn in dem begrenzten Tonempfangszustand. Die Phasendifferenzen DIFF(f) von 6A–6E entsprechen jeweilig den Winkelrichtungen θ von 5A–5E.
Unter Bezugnahme auf 6A–6E stellen lineare Funktionen af und a'f Grenzlinien der Phasendifferenz DIFF(f) entsprechend den Winkelgrenzlinien θa bzw. θa' zwischen dem Unterdrückungsbereich Rn und dem Umstellbereich Rt dar. Die Frequenz f fällt in einen Bereich von 0 < f < fs/2. Durch a und a' werden Koeffizienten der Frequenz f dargestellt. Lineare Funktionen bf und b'f stellen Grenzlinien der Phasendifferenz DIFF(f) entsprechend den Winkelgrenzlinien θb bzw. θb' zwischen dem Tonempfangsbereich Rs = Rsp und dem Umstellbereich Rt dar. Durch b und b' werden Koeffizienten der Frequenz f dargestellt. Hier erfüllen a, a', b und b' die Beziehung von a > b und b' < a'.
Falls D(f) = –2π/fs ist, wie in 6A, wird der Tonempfangsbereich Rs(DIFF(f)) = Rsp auf –2πf/fs ≤ DIFF(f) ≤ bf = 2(θs – π)f/fs festgelegt. Der Umstellbereich Rt(DIFF(f)) wird auf bf = 2(θs – π)f/fs < θ ≤ af = (2θs + 4θt – 2π)f/fs festgelegt. Der Unterdrückungsbereich Rn(DIFF(f)) wird auf af = (2θs + 4θt – 2π)f/fs < DIFF(f) ≤ +2πf/fs festgelegt.
Falls D(f) = 0 ist, wie in 6B, wird der Tonempfangsbereich Rs(DIFF(f)) = Rsp auf b'f = –2θsf/fs ≤ DIFF(f) ≤ bf = +2θsf/fs festgelegt. Der Umstellbereich Rt(DIFF(f)) wird auf bf = 2θsf/fs < DIFF(f) ≤ af = (2θs + 4θt)f/fs und a'f = (–2θs – 4θt)f/fs < DIFF(f) ≤ b'f = –2θsf/fs festgelegt. Der Unterdrückungsbereich Rn(DIFF(f)) wird auf af = (2θs + 4θt)f/fs < DIFF(f) ≤ +2πf/fs und –2πf/fs ≤ DIFF(f) < a'f = (–2θs – 4θt)f/fs festgelegt.
Falls der Gradient D(f) in einen Bereich von (4θt + 2θs – 2π)/fs ≤ D(f) < 0 fällt, wie in 6C, wird der Tonempfangsbereich Rs(DIFF(f)) = Rsp auf b'f = (D(f) – 2θs/fs)f ≤ DIFF(f) ≤ bf = (D(f) + 2θs/fs)f festgelegt. Der Umstellbereich Rt(DIFF(f)) wird auf bf < DIFF(f) ≤ af = (D(f) + (2θs + 4θt)/fs)f und a'f = (D(f) – (2θs + 4θs)/fs)f < DIFF(f) ≤ b'f festgelegt. Der Unterdrückungsbereich Rn(DIFF(f)) wird auf af < DIFF(f) ≤ 2πf/fs und –2πf/fs ≤ DIFF(f) < a'f =(–2θs – 4θt)f/fs festgelegt.
Falls der Gradient D(f) in einen Bereich von 2(θt – π)/fs ≤ D(f) < (4θt + 2θs – 2π)/fs fällt, wie in 6D, wird der Tonempfangsbereich Rs(DIFF(f)) = Rsp auf b'f = ≤ DIFF(f) ≤ bf festgelegt. Der Umstellbereich Rt(DIFF(f)) wird auf bf < DIFF(f) ≤ af und –2πf/fs ≤ DIFF(f) ≤ b'f festgelegt. Der Unterdrückungsbereich Rn(DIFF(f)) wird auf af < DIFF(f) ≤ +2πf/fs festgelegt.
Falls der Gradient D(f) in einen Bereich von –2π/fs < D(f) < 2(θs – π)/fs fällt, wie in 6E, wird der Tonempfangsbereich Rs(DIFF(f)) = Rsp auf –2πf/fs ≤ DIFF(f) ≤ bf festgelegt. Der Umstellbereich Rt(DIFF(f)) wird auf bf < DIFF(f) ≤ af festgelegt. Der Unterdrückungsbereich Rn(DIFF(f)) wird auf af < DIFF(f) ≤ +2πf/fs festgelegt. Der Winkel θs des begrenzten Tonempfangsbereiches Rs kann bezüglich einer beliebigen zentralen Winkelrichtung θss variabel festgelegt werden, so dass die Summe von Raumwinkeln des begrenzten Tonempfangsbereiches Rsp im Wesentlichen konstant ist. In solch einem Fall kann der Fall von 6E in 6A dargestellt werden. 6A ist auf den Gradienten D(f) anwendbar, der in einen Bereich von –2π/fs ≤ DIFF(f) < 2(θs – π)/fs fällt.
Falls die Phasendifferenz DIFF(f) in den Bereich entsprechend dem Unterdrückungsbereich Rn in 6A–6E fällt, führt der Synchronisationskoeffizientenberechner 224 einen Geräuschunterdrückungsprozess an den digitalen Eingangssignalen IN1(f) und IN2(f) aus. Falls die Phasendifferenz DIFF(f) in den Bereich entsprechend dem Umstellbereich Rt fällt, führt der Synchronisationskoeffizientenberechner 224 an den digitalen Eingangssignalen IN1(f) und IN2(f) den Geräuschunterdrückungsprozess auf einem Niveau aus, das als Antwort auf die Frequenz f und die Phasendifferenz DIFF(f) herabgesetzt ist. Falls die Phasendifferenz DIFF(f) in den Bereich entsprechend dem Tonempfangsbereich Rs = Rsp fällt, führt der Synchronisationskoeffizientenberechner 224 keinen Geräuschunterdrückungsprozess an den digitalen Eingangssignalen IN1(f) und IN2(f) aus.
Der Synchronisationskoeffizientenberechner 224 beachtet, dass das Geräusch in dem Eingangssignal bei der Frequenz f, das am Mikrofon MIC1 in dem Winkel θ innerhalb des Unterdrückungsbereiches Rn angekommen ist, dasselbe ist wie das Geräusch in dem Eingangssignal am Mikrofon MIC2, jedoch mit einer Verzögerung der Phasendifferenz DIFF(f) angekommen ist. Der Winkel θ innerhalb des Unterdrückungsbereiches Rn kann –π/12 < θ ≤ +π/2, +π/9 < θ ≤ +π/2, +2π/9 < θ ≤ +π/2 und –π/2 ≤ θ < –2π/9 sein. Falls der Winkel θ innerhalb des Unterdrückungsbereiches Rn negativ ist und zum Beispiel innerhalb von –π/2 ≤ θ < –2π liegt, hat die Phasendifferenz DIFF(f) ein negatives Vorzeichen, welches den Phasenvorlauf darstellt. Bei dem Winkel θ innerhalb des Umstellbereiches Rt an der Position des Mikrofons MIC1 verändert der Synchronisationskoeffizientenberechner 224 das Niveau des Geräuschunterdrückungsprozesses in dem Tonempfangsbereich Rs und das Niveau des Geräuschunterdrückungsprozesses in dem Unterdrückungsbereich Rn allmählich, oder er schaltet das Niveau des Geräuschunterdrückungsprozesses zwischen dem Tonempfangsbereich Rs und dem Unterdrückungsbereich Rn um.
In dem Anfangsfestlegungszustand berechnet der Synchronisationskoeffizientenberechner 224 einen Synchronisationskoeffizienten C(f) in einem Bereich eines Satzes von Phasendifferenzsätzen (Rs = Rsmax, Rt und Rn) gemäß der Phasendifferenz DIFF(f) der Phasenspektralkomponente bei jeder Frequenz f, wie in einer Gleichung weiter unten beschrieben. Der Synchronisationskoeffizientenberechner 224 berechnet einen Synchronisationskoeffizienten C(f) in einem Bereich eines Satzes von Phasendifferenzsätzen (Rs = Rsmax, Rt und Rn), die als Antwort auf den Gradienten D(f) in dem begrenzten Zustand des Tonempfangsbereiches in 6A–6E bestimmt wurden, gemäß der Phasendifferenz DIFF(f) der Phasenspektralkomponente bei jeder Frequenz f, wie in einer Gleichung weiter unten beschrieben.

(a) Der Synchronisationskoeffizientenberechner 224 berechnet sukzessive den Synchronisationskoeffizienten C(f) von jedem Zeitanalyserahmen (Fenster) i bei der schnellen Fourier-Transformation. Hier stellt i eine chronologische Ordnungszahl eines Analyserahmens dar (0, 1, 2, ...). Falls die Phasendifferenz DIFF(f) der Wert einer Phasendifferenz als Antwort auf den Winkel θ innerhalb des Unterdrückungsbereiches Rn ist (zum Beispiel –π/12 < θ ≤ +π/2, +π/9 < θ ≤ +π/2 oder +2π/9 < θ ≤ +π/2), wird der Synchronisationskoeffizient C(f,i) = Cn(f,i) bei einer Anfangsordnungszahl i = 0 wie folgt berechnet: C(f,0) = Cn(f,0) = IN1(f,0)/IN2(f,0), und bei einer Ordnungszahl i > 0: C(f,i) = Cn(f,i) = αC(f,i – 1) + (1 – α)IN1(f,i)/IN2(f,i)
IN1(f,i)/IN2(f,i) stellt ein Verhältnis des komplexen Spektrums des Eingangssignals am Mikrofon MIC1 zu dem komplexen Spektrum des Eingangssignals am Mikrofon MIC2 dar, d. h. ein Amplitudenverhältnis und eine Phasendifferenz der Eingangssignale. Mit anderen Worten: IN1(f,i)/IN2(f,i) stellt einen Kehrwert eines Verhältnisses des komplexen Spektrums des Eingangssignals am Mikrofon MIC2 zu dem komplexen Spektrum des Eingangssignals am Mikrofon MIC1 dar. α stellt hier ein Additionsverhältnis oder ein Kombinationsverhältnis einer Phasenverzögerung eines vorhergehenden Analyserahmens zur Synchronisation dar und fällt in einen Bereich von 0 ≤ α < 1, und (1 – α) stellt ein Kombinationsverhältnis einer Phasenverzögerung eines gegenwärtigen Analyserahmens dar, um zur Synchronisation addiert zu werden. Der gegenwärtige Synchronisationskoeffizient C(f,i) wird durch Addieren des Synchronisationskoeffizienten des vorhergehenden Analyserahmens und des Verhältnisses des komplexen Spektrums des Eingangssignals am Mikrofon MIC1 zu dem komplexen Spektrum des Eingangssignals am Mikrofon MIC2 in einem Verhältnis von α:(1 – α) bestimmt.
(b) Falls die Phasendifferenz DIFF(f) der Wert einer Phasendifferenz als Antwort auf den Winkel θ innerhalb des Tonempfangsbereiches Rs ist (zum Beispiel –π/2 ≤ θ ±0, –π/2 ≤ θ ≤ –π/4 oder –π/9 ≤ θ ≤ +π/9), wird der Synchronisationskoeffizient C(f) = Cs(f) wie folgt berechnet: C(f) = Cs(f) = exp(–j2πf/fs) oder C(f) = Cs(f) = 0 (falls die Synchronisationssubtraktion nicht ausgeführt wird)

Falls die Phasendifferenz DIFF(f) der Wert einer Phasendifferenz als Antwort auf den Winkel θ innerhalb des Umstellbereiches Rt ist (zum Beispiel 0 < θ ≤ +π/6, –π/4 < θ ≤ –π/12 oder –π/18 ≤ θ ≤ +π/9 und –π/2 ≤ θ ≤ –π/6), wird der Synchronisationskoeffizient C(f) = Ct(f) als gewichtetes Mittel von Cs(f) und Cn(f) wie folgt berechnet: C(f) = Ct(f) = Cs(f) × (θ – θb)/(θa – θb) + Cn(f) × (θa – θ)/(θa – θb) wobei θa einen Winkel der Grenze zwischen dem Umstellbereich Rt und dem Unterdrückungsbereich Rn darstellt und θb einen Winkel der Grenze zwischen dem Umstellbereich Rt und dem Tonempfangsbereich Rs darstellt.
Der Phasendifferenzberechner 222 erzeugt den Synchronisationskoeffizienten C(f) als Reaktion auf die komplexen Spektren IN1(f) und IN2(f) und führt dann die komplexen Spektren IN1(f) und IN2(f) und den Synchronisationskoeffizienten C(f) dem Filter 300 zu.
Der Synchronisierer 332 in dem Filter 300 synchronisiert das komplexe Spektrum IN2(f) mit dem komplexen Spektrum IN1(f), wie in 3B gezeigt, wodurch ein synchronisiertes Spektrum INs2(f) erhalten wird. INs2(f) = C(f) × IN2(f)
Der Subtrahierer 334 subtrahiert das komplexe Spektrum INs2(f), das mit einem Koeffizienten γ(f) multipliziert wurde, von dem komplexen Spektrum IN1(f) gemäß der folgenden Gleichung, wodurch ein digitales komplexes Spektrum, dessen Geräusch unterdrückt ist, oder ein komplexes Spektrum Ind(f) erzeugt wird: INd(f) = IN1(f) – γ(f) × INs2(f) wobei der Koeffizient γ(f) ein Wert ist, der innerhalb eines Bereiches von 0 ≤ γ(f) ≤ 1 voreingestellt ist. Der Koeffizient γ(f) ist eine Funktion der Frequenz f und ist ein Koeffizient, der den Grad der Subtraktion des Spektrums INs2(f) in Abhängigkeit von dem Synchronisationskoeffizienten einstellt. Zum Beispiel wird die Verzerrung eines Tonsignals eines Tons, der in den Tonempfangsbereich Rs gelangt, gesteuert, während ein Geräusch, das in den Unterdrückungsbereich Rn gelangt, unterdrückt wird. Der Koeffizient γ(f) kann festgelegt werden, um bei der Ankunftsrichtung eines Tons, die durch die Phasendifferenz DIFF(f) dargestellt wird, im Unterdrückungsbereich Rn größer als im Tonempfangsbereich Rs zu sein.
Der Verstärker 336 im Anschluss an den Subtrahierer 334 unterzieht das digitale Tonsignal INd(t) einer Verstärkungsregelung, so dass der Leistungspegel des digitalen Tonsignals INd(t) im Sprachsegment im Wesentlichen konstant ist.
Der digitale Signalprozessor 200 enthält den inversen schnellen Fourier-Transformierer (IFFT) 382. Der inverse schnelle Fourier-Transformierer 382 empfängt das komplexe Spektrum INd(f) von dem Synchronisationskoeffizientenberechner 224 und unterzieht das komplexe Spektrum INd(f) für die überlappende Addition einer inversen Fourier-Transformation und erzeugt so ein digitales Tonsignal INd(t) in der Zeitdomäne an der Position des Mikrofons MIC1.
Die Ausgabe des inversen schnellen Fourier-Transformierers 382 wird einem Eingang der Anwendung 400 in einer nachfolgenden Stufe desselben zugeführt.
Die Ausgabe als digitales Tonsignal INd(t) wird bei der Spracherkennung und der Kommunikation eines Funktelefons verwendet. Das digitale Tonsignal INd(t) wird der Anwendung 400 zugeführt. Bei der Anwendung 400 konvertiert der Digital-Analog-Konverter 404 das digitale Tonsignal INd(t) durch Digital-Analog-Konvertierung in ein analoges Signal. Das Tiefpassfilter 406 führt dann an dem analogen Signal eine Tiefpassfilterung aus. Alternativ wird das digitale Tonsignal INd(t) in dem Speicher 414 gespeichert und dann durch den Spracherkenner 416 zur Spracherkennung verwendet.
Die Elemente 212, 214, 218, 220–224, 300–334 und 382, die in 3A und 3B gezeigt sind, können eine integrierte Schaltung darstellen oder können ein Flussdiagramm eines Software-Programms darstellen, das durch den digitalen Signalprozessor 200 ausgeführt wird.
7 ist ein Flussdiagramm eines Erzeugungsprozesses eines komplexen Spektrums, der durch den digitalen Signalprozessor 200 von 3A und 3B gemäß einem in dem Speicher 202 gespeicherten Programm ausgeführt wird. Dieses Flussdiagramm stellt die Funktion dar, die durch die Elemente 212, 214, 218, 220, 300 und 382 ausgeführt wird, die in 3A und 3B gezeigt sind.
Unter Bezugnahme auf 3A, 3B und 7 erfassen die schnellen Fourier-Transformierer 212 und 214 in dem digitalen Signalprozessor 200 bei Operation 502 jeweilig die zwei digitalen Eingangssignale IN1(t) und IN2(t) in der Zeitdomäne, die durch die Analog-Digital-Konverter 162 und 164 zugeführt werden.
Bei Operation 504 multiplizieren die schnellen Fourier-Transformierer 212 und 214 in dem digitalen Signalprozessor 200 jeweilig die zwei digitalen Eingangssignale IN1(t) und IN2(t) mit einer Überlappungsfensterfunktion.
Bei Operation 506 führen die Fourier-Transformierer 212 und 214 an den digitalen Eingangssignalen IN1(t) und IN2(t) eine Fourier-Transformation aus, wodurch die komplexen Spektren IN1(f) und IN2(f) in der Frequenzdomäne erzeugt werden.
Bei Operation 508 berechnet der Phasendifferenzberechner 222 des Synchronisationskoeffizientengenerators 220 in dem digitalen Signalprozessor 200 die Phasendifferenz zwischen den Spektren IN1(f) und IN2(f):tan^–1(J{In2(f)/In1(f)}/R{IN2(f)/IN1(f)}).
Bei Operation 510 erzeugt der Bereichsbestimmer 218 in dem digitalen Signalprozessor 200 den Wert des Gradienten D(f) = Σf × DIFF(f)Σf² für alle Frequenzen f oder die Frequenz f innerhalb einer besonderen Bandbreite als Reaktion auf die Phasendifferenz DIFF(f). Der Synchronisationskoeffizientenberechner 224 in dem digitalen Signalprozessor 200 legt den begrenzten Tonempfangsbereich Rs = Rsp, den Unterdrückungsbereich Rn und den Umstellbereich Rt auf Pro-Frequenz-f-Basis gemäß den Daten, die den Gradienten D(f) darstellen, oder den Phasendifferenzdaten (a, a', b und b') des Tonempfangsbereiches Rs = Rsp als Antwort auf den Gradienten D(f) (6A–6E) fest.
Bei Operation 514 berechnet der Synchronisationskoeffizientenberechner 224 in dem digitalen Signalprozessor 200 als Reaktion auf die Phasendifferenz DIFF(f) das Verhältnis C(f) des komplexen Spektrums des Eingangssignals am Mikrofon MIC1 zu dem komplexen Spektrum des Eingangssignals am Mikrofon MIC2, das oben beschrieben ist, gemäß den folgenden Gleichungen.

(a) Der Synchronisationskoeffizientenberechner 224 berechnet den Synchronisationskoeffizienten C(f,i) = Cn(f,i) = αC(f,i – 1) + (1 – α)IN1(f,i)/IN2(f,i), falls die Phasendifferenz DIFF(f) einen Wert entsprechend dem Winkel θ innerhalb des Unterdrückungsbereiches Rn hat. (b) Der Synchronisationskoeffizientenberechner 224 berechnet den Synchronisationskoeffizienten C(f) = Cs(f) = exp(–j2πf/fs) oder C(f) = Cs(f)= 0, falls die Phasendifferenz DIFF(f) einen Wert entsprechend dem Winkel θ innerhalb des Tonempfangsbereiches Rs hat. (c) Der Synchronisationskoeffizientenberechner 224 berechnet den Synchronisationskoeffizienten C(f) = Ct(f) als gewichteten Mittelwert von Cs(f) und Cn(f).

Bei Operation 516 berechnet der Synchronisierer 332 in dem digitalen Signalprozessor 200 die Gleichung INs2(f) = C(f)IN2(f), wodurch das komplexe Spektrum IN2(f) mit dem komplexen Spektrum IN1(f) synchronisiert wird. Der Synchronisierer 332 erzeugt so das synchronisierte Spektrum INs2(f).
Bei Operation 518 subtrahiert der Subtrahierer 334 in dem digitalen Signalprozessor 200 das Produkt des komplexen Spektrums INs2(f) und des Koeffizienten γ(f) von dem komplexen Spektrum IN1(f) (INd(f) = IN1(f) – γ(f) × IN2(f)). Daraus resultiert das komplexe Spektrum INd(f), dessen Geräusch unterdrückt ist.
Bei Operation 522 empfängt der inverse schnelle Fourier-Transformierer 382 in dem digitalen Signalprozessor 200 das komplexe Spektrum INd(f) von dem Synchronisationskoeffizientenberechner 224 und unterzieht das komplexe Spektrum INd(f) für die überlappende Addition der inversen Fourier-Transformation. Der inverse schnelle Fourier-Transformierer 382 erzeugt somit das Tonsignal INd(t) in der Zeitdomäne an der Position des Mikrofons MIC1.
Die Verarbeitung kehrt zur Operation 502 zurück. Während einer spezifischen Zeitperiode werden die Operationen 502–522 wiederholt, um Eingaben zu verarbeiten, die während einer spezifischen Zeitdauer eingegeben werden sind.
Falls eine gewünschte Zieltonquelle SS oder SS' in einer besonderen Richtung θss erscheint, legt die Mikrofonarrayvorrichtung 100 den Tonempfangsbereich Rsp als begrenzten Tonempfangsbereich Rs fest und unterdrückt so das Geräusch ausreichend. Die Verarbeitung der Eingangssignale von den zwei Mikrofonen ist auf eine Kombination zweier beliebiger Mikrofone von einer Vielzahl von Mikrofonen anwendbar (1)
Die Mikrofonarrayvorrichtung 100 unterdrückt somit das Geräusch durch Festlegen des begrenzten Tonempfangsbereiches Rsp als Reaktion auf die Winkelrichtung der Zieltonquelle, wie oben beschrieben. Die Mikrofonarrayvorrichtung 100 kann daher mehr Geräusch als das Verfahren unterdrücken, bei dem der maximale Tonempfangsbereich Rsmax, um das Geräusch zu unterdrücken, ungeachtet der Winkelrichtung der Zieltonquellen SS und SS' reduziert wird. Zum Beispiel kann eine Unterdrückungsverstärkung von etwa 2 bis 3 dB erreicht werden, indem der Raumwinkel des maximalen Tonempfangsbereiches Rsmax auf den Tonempfangsbereich Rsp reduziert wird, der in der Richtung θss einer Zieltonquelle zentriert ist und auf die Hälfte des Raumwinkels des maximalen Tonempfangsbereiches Rsmax begrenzt ist.
8A und 8B zeigen eine andere allgemeine Funktionsstruktur der Mikrofonarrayvorrichtung 100, die das Geräusch reduziert, indem das Geräusch in dem Array der Mikrofone MIC1 und MIC2 von 1 unterdrückt wird.
Der digitale Signalprozessor 200 enthält schnelle Fourier-Transformierer 212 und 214, einen zweiten Bereichsbestimmer 219, den Synchronisationskoeffizientengenerator 220 und das Filter 302. Der zweite Bereichsbestimmer 219 kann auch als Unterdrückungsbereichsbestimmer oder als Zieltonquellenrichtungsbestimmer fungieren. Unter Bezugnahme auf 8A und 8B wurden der Bereichsbestimmer 218 und das Filter 300 in 3A und 3B durch den zweiten Bereichsbestimmer 219 bzw. das Filter 302 ersetzt. D(f) und Rs seien Signale, die von dem zweiten Bereichsbestimmer 219 an den Synchronisationskoeffizientenberechner 224 ausgegeben werden.
Der Synchronisationskoeffizientengenerator 220 enthält dieselben Elemente wie jene, die in 3A und 3B gezeigt sind. In einer alternativen Ausführungsform kann der zweite Bereichsbestimmer 219 in dem Synchronisationskoeffizientengenerator 220 enthalten sein. Das Filter 302 enthält den Synchronisierer 332 und den Subtrahierer 334. Optional kann das Filter 302 den Speicher 338 und den Verstärker 336 enthalten. Der Speicher 338 kann mit dem Subtrahierer 334, dem inversen schnellen Fourier-Transformierer 382 und dem zweiten Bereichsbestimmer 219 verbunden sein. Der Verstärker 336 kann mit dem Subtrahierer 334 und dem inversen schnellen Fourier-Transformierer 382 verbunden sein. Optional kann der Verstärker 336 mit dem Speicher 338 verbunden sein. Als Antwort auf eine Aufforderung von dem zweiten Bereichsbestimmer 219 kann der Speicher 338 die Daten des komplexen Spektrums INd(f) von dem Subtrahierer 334 temporär speichern und das komplexe Spektrum INd(f) dem zweiten Bereichsbestimmer 219 und dem inversen schnellen Fourier-Transformierer 382 zuführen.
Der zweite Bereichsbestimmer 219 hat einen Eingang, der mit einem Ausgang von wenigstens einem der schnellen Fourier-Transformierer 212 und 214 verbunden ist. Der zweite Bereichsbestimmer 219 kann Eingänge haben, die mit den Ausgängen der schnellen Fourier-Transformierer 212 und 214 und des Phasendifferenzberechners 222 verbunden sind.
Der zweite Bereichsbestimmer 219 bestimmt eine Vielzahl von Interim-Bereichen von D(f), wie etwa D(f) = –2π/fs, D(f) = 0, –2π/fs < D(f) < 0, ungeachtet der Phasendifferenz DIFF(f) von dem Phasendifferenzberechner 222. Für D(f) eines Bereiches von –2π/fs < D(f) < 0 kann D(f) = –π/4, –π/2fs, –3π/4fs und –π/fs sein. Der zweite Bereichsbestimmer 219 führt dem Synchronisationskoeffizientenberechner 224 als Antwort auf den Gradienten D(f) die Daten zu, die den Interim-Gradienten D(f) darstellen, oder die Phasendifferenzdaten (a, a', b und b'), die den Tonempfangsbereich Rs darstellen. Als Reaktion auf den Interim-Gradienten D(f) oder den Tonempfangsbereich Rs als Antwort auf den Gradienten D(f) legt der zweite Bereichsbestimmer 219 oder der Synchronisationskoeffizientenberechner 224 eine Vielzahl von q Sätzen von begrenzten Interim-Tonempfangsbereichen Rs, Umstellbereichen Rt und Unterdrückungsbereichen Rn für alle Frequenzen f oder die Frequenz f innerhalb der besonderen Bandbreite fest.
Als Reaktion auf die Phasendifferenz DIFF(f) der Phasenspektralkomponente einer jeden von allen Frequenzen f oder der Frequenz f innerhalb der besonderen Bandbreite berechnet der Synchronisationskoeffizientenberechner 224 den Synchronisationskoeffizienten C(f) bezüglich des begrenzten Interim-Tonempfangsbereiches Rsp, des Unterdrückungsbereiches Rn und des Umstellbereiches Rt jedes Satzes.
Als Antwort auf den Synchronisationskoeffizienten C(f) erzeugt das Filter 302 die Daten der geräuschunterdrückten komplexen Spektren INd(f)q für alle Frequenzen f oder die Frequenz f innerhalb der besonderen Bandbreite bezüglich der Interim-Sätze q (Rsp, Rt, Rn), die den begrenzten Interim-Tonempfangsbereich Rsp enthalten. Das Filter 302 führt dann die Daten der komplexen Spektren INd(f)q dem zweiten Bereichsbestimmer 219 zu. Die Daten der komplexen Spektren INd(f)q werden in dem Speicher 338 temporär gespeichert.
Der zweite Bereichsbestimmer 219 bestimmt die Gesamtleistung der komplexen Spektren INd(f)q für alle Frequenzen f oder die Frequenz f innerhalb der besonderen Bandbreite bezüglich der Interim-Sätze q (Rsp, Rt, Rn), die den begrenzten Interim-Tonempfangsbereich Rsp enthalten. Der zweite Bereichsbestimmer 219 selektiert Identifikationsinformationen der komplexen Spektren INd(f)q, die die maximale Gesamtleistung angeben, und führt die Identifikationsinformationen dem Speicher 338 in dem Filter 302 zu. Der Speicher 338 führt die entsprechenden komplexen Spektren INd(f)q dem inversen schnellen Fourier-Transformierer 382 zu. In einer alternativen Ausführungsform kann die Summe von S/N-Verhältnissen anstelle der Gesamtleistung verwendet werden.
Optional kann der zweite Bereichsbestimmer 219 bei jeder Frequenz f die Gesamtleistung eines Abschnittes der komplexen Spektren INd(f)q mit einer Leistungsspektralkomponente bestimmen, die höher als eine Leistungsspektralkomponente N des beachteten Geräuschs N ist. Bei diesem Prozess kann der zweite Bereichsbestimmer 219 die Geräuschleistung bei jeder Frequenz f in dem Leistungsspektrum mit einem Muster der Stille in den komplexen Spektren INd(f)q bestimmen, und danach beachtet er die Geräuschleistung als stetige Geräuschleistung N.
Zusätzlich oder als Alternative zu der Bestimmung auf der Basis der beachteten Geräuschleistung N kann der zweite Bereichsbestimmer 219 bestimmen, ob die Leistung P1 des komplexen Spektrums IN1(f) und die Leistung P2 des komplexen Spektrums IN2(f) eine allgemeine Beziehung von P1 ≥ P2 + ΔP erfüllen (ΔP ist eine Fehlertoleranz, die durch den Konstruktionsingenieur bestimmt wird). Die Phasendifferenz DIFF(f), die P1 ≥ P2 + ΔP nicht erfüllt, kann von der Gesamtleistung ausgeschlossen werden.
Die Bestimmung auf der Basis der beachteten Geräuschleistung N und/oder der Vergleich der Leistung der komplexen Spektren IN1(f) und IN2(f) führen zu der Gesamtleistung des Tonsignals von hauptsächlich der Zieltonquelle SS oder dem Gesamt-S/N-Verhältnis. Die Leistung von den Geräuschen N1 und N2 wird somit weitestmöglich ausgeschlossen.
Der zweite Bereichsbestimmer 219 kann den Gradienten D(f)q oder den Tonempfangsbereich Rspq (6A–6E) mit einer begrenzten Phasendifferenz entsprechend einem komplexen Spektrum INd(f)q, das die maximale Gesamtleistung angibt, selektieren oder bestimmen.
Als Antwort auf den Gradienten D(f)q oder die Phasendifferenzdaten (a, a', b und b') des begrenzten Tonempfangsbereiches Rspq bestimmt oder selektiert der Synchronisationskoeffizientengenerator 220 den Synchronisationskoeffizienten C(f) auf Pro-Frequenz-f-Basis aller Frequenzen. Als Antwort auf den Synchronisationskoeffizienten C(f) erzeugt oder bestimmt das Filter 302 das komplexe Spektrum INd(f), dessen Geräusch unterdrückt ist, auf Pro-Frequenz-f-Basis aller Frequenzen bezüglich der Sätze q (Rs, Rt, Rn), die den begrenzten Tonempfangsbereich Rspq enthalten. Das Filter 302 führt dann das komplexe Spektrum INd(f) dem inversen schnellen Fourier-Transformierer 382 zu.
In einer alternativen Ausführungsform kann der zweite Bereichsbestimmer 219 dem Filter 302 die komplexen Spektren INd(f)q mit maximaler Gesamtleistung zuführen, und der Speicher 338 kann dem inversen schnellen Fourier-Transformierer 382 die entsprechenden komplexen Spektren INd(f)q aller Frequenzen f zuführen.
9 ist ein Flussdiagramm, das einen Erzeugungsprozess eines komplexen Spektrums zeigt, den der digitale Signalprozessor 200 von 8A und 8B gemäß einem in dem Speicher 202 gespeicherten Programm ausführt. Der Prozess, der durch das Flussdiagramm dargestellt wird, entspricht der Funktion, die durch Elemente 212, 214, 219, 220, 302 und 382 von 8A und 8B auszuführen ist.
Unter Bezugnahme auf 9 sind Operationen 502, 504, 506 und 508 (502–508) mit denen identisch, die in 7 gezeigt sind. Jedoch wurden in 8A und 8B der Bereichsbestimmer 218 und das Filter 300 in 3A und 3B durch den zweiten Bereichsbestimmer 219 bzw. das Filter 302 ersetzt.
Bei Operation 512 bestimmt der zweite Bereichsbestimmer 219 in dem digitalen Signalprozessor 200 eine Vielzahl von verschiedenen Interim-Gradienten D(f) ungeachtet der Phasendifferenz DIFF(f). Als Antwort auf die Daten, die den Interim-Gradienten D(f) darstellen, oder die Phasendifferenzdaten, die den Tonempfangsbereich Rs als Antwort auf den Gradienten D(f) darstellen, legt der Synchronisationskoeffizientenberechner 224 den begrenzten Interim-Tonempfangsbereich Rs = Rsp, den Unterdrückungsbereich Rn und den Umstellbereich Rt bei allen Frequenzen f oder der Frequenz f innerhalb der besonderen Bandbreite fest (6A–6E).
Die Operationen 514–518 sind mit denen von 7 identisch. Die Operationen 514–518 werden bei allen Frequenzen f oder der Frequenz f innerhalb der besonderen Bandbreite bezüglich aller von der Vielzahl von q Sätzen (Rs = Rsp, Rt, Rn) ausgeführt, die den begrenzten Interim-Tonempfangsbereich Rs = Rsp enthalten.
Bei Operation 518 erzeugt der Subtrahierer 334 des Filters 302 in dem digitalen Signalprozessor 200 das komplexe Spektrum INd(f), dessen Geräusch unterdrückt wird, und speichert dann das komplexe Spektrum INd(f) in dem Speicher 338.
Bei Operation 520 selektiert der zweite Bereichsbestimmer 219 in dem digitalen Signalprozessor 200 das komplexe Spektrum INd(f)q mit maximaler Gesamtleistung, oder den entsprechenden Gradienten D(f)q, oder die Phasendifferenzdaten, die den begrenzten Tonempfangsbereich Rspq angeben. Der Synchronisationskoeffizientenberechner 224 und das Filter 302 in dem digitalen Signalprozessor 200 erzeugen neue komplexe Spektren INd(f)q für alle Frequenzen f durch Wiederholung der Operationen 514 bis 520, wie durch eine gestrichelte Pfeillinie gekennzeichnet. Die neu erzeugten komplexen Spektren INd(f)q werden dem inversen schnellen Fourier-Transformierer 382 zugeführt. In einer alternativen Ausführungsform kann der Speicher 338 des Filters 302 in dem digitalen Signalprozessor 200 dem inversen schnellen Fourier-Transformierer 382 die komplexen Spektren INd(f)q aller Frequenzen f zuführen.
Die Operation 522 ist mit der Operation 522 in 7 identisch.
Das komplexe Spektrum INd(f) wird somit für eine Vielzahl von begrenzten Interim-Tonempfangsbereichen Rsp bestimmt. Dieser Prozess erübrigt den Prozess zum Bestimmen des Koeffizienten D(f) der Phasendifferenz DIFF(f), die die Richtung θss der Zieltonquellen SS und SS' in 3A und 3B darstellt.
In einer Ausführungsform kann nach der Selektion oder Bestimmung des Gradienten D(f)q wie in 8A und 8B der zweite Bereichsbestimmer 219 den Gradienten D(f) wieder gemäß dem Tonempfangsbereich Rspq der selektierten Phasendifferenz und der Phasendifferenz DIFF(f) entsprechend dem komplexen Spektrum INd(f) unter Verwendung der oben beschriebenen Gleichung D(f) = Σf × ΔDIFF(f)Σf² bestimmen. In diesem Fall führt der zweite Bereichsbestimmer 219 dem Synchronisationskoeffizientengenerator 220 oder dem Filter 302 die Daten des selektierten Gradienten D(f)q oder die Phasendifferenzdaten des entsprechenden begrenzten Tonempfangsbereiches Rspq zu.
10A und 10B zeigen einen Festlegungszustand eines maximalen Tonempfangsbereiches Rsmax, der als Reaktion und in Bezug auf Daten von dem Sensor 192 oder manuell eingegebene Daten festgelegt wurde. Der Sensor 192 detektiert eine Position vom oder die Winkelrichtung θd zum Körper eines Sprechers. Als Reaktion auf die detektierte Position oder die Winkelrichtung θd bestimmt der Richtungsbestimmer 194 den maximalen Tonempfangsbereich Rsmax, der den Körper des Sprechers abdeckt. Die Phasendifferenzdaten, die den maximalen Tonempfangsbereich Rsmax darstellen, werden dem Synchronisationskoeffizientenberechner 224 im Synchronisationskoeffizientengenerator 220 zugeführt. Als Reaktion auf den maximalen Tonempfangsbereich Rsmax legt der Synchronisationskoeffizientenberechner 224 den maximalen Tonempfangsbereich Rsmax, den Unterdrückungsbereich Rn und den Umstellbereich Rt fest, wie zuvor diskutiert.
Wie in 10A gezeigt, befindet sich das Gesicht des Sprechers links vom Sensor 192. Der Sensor 192 detektiert den Winkel θd = θ1 = –π/4 der Gesichtsregion A des Sprechers als Winkelposition des maximalen Tonempfangsbereiches Rsmax. Auf der Basis der detektierten Daten θd = θ1 legt der Richtungsbestimmer 194 den Winkelbereich des maximalen Tonempfangsbereiches Rsmax auf einen Winkelbereich von –π/2 ≤ θ ± 0 fest, um die gesamte Gesichtsregion A zu enthalten.
Wie in 10B gezeigt, ist das Gesicht des Sprechers unter oder vor dem Sensor 192 angeordnet. Der Sensor 192 detektiert die zentrale Position θd der Gesichtsregion A des Sprechers in dem Winkel θd = θ2 = ±0 als Winkelposition in dem maximalen Tonempfangsbereich Rsmax. Auf der Basis der detektierten Daten θd = θ2 legt der Richtungsbestimmer 194 den Winkelbereich des maximalen Tonempfangsbereiches Rsmax auf einen Winkelbereich von –π/2 ≤ θd ≤ +π/12 fest, um die gesamte Gesichtsregion A zu enthalten.
Falls der Sensor 192 eine Digitalkamera ist, erkennt der Richtungsbestimmer 194 Bilddaten, die von der Digitalkamera erfasst werden, durch Bilddatenerkennung und bestimmt die Gesichtsregion A und die zentrale Position θd der Gesichtsregion A. Der Richtungsbestimmer 194 bestimmt den maximalen Tonempfangsbereich Rsmax als Reaktion auf die Gesichtsregion A und die zentrale Position θd der Gesichtsregion A.
Der Richtungsbestimmer 194 kann den maximalen Tonempfangsbereich Rsmax gemäß der Position des Gesichtes oder des Körpers des Sprechers, die durch den Sensor 192 detektiert wird, variabel festlegen. In einer alternativen Ausführungsform kann der Richtungsbestimmer 194 den maximalen Tonempfangsbereich Rsmax als Reaktion auf manuelle Eingabe variabel festlegen. Durch das variable Festlegen des maximalen Tonempfangsbereiches Rsmax kann der maximale Tonempfangsbereich Rsmax so weit wie möglich eingeengt werden, und ein ungewolltes Geräusch jeder Frequenz wird in einem Unterdrückungsbereich Rn weitestgehend unterdrückt.
Hauptsächlich sind die Mikrofone MIC1 und MIC2 von 1 diskutiert worden. Falls die Hauptzieltonquelle SS auf der rechten Seite in einer zu der Anordnung von 1 entgegengesetzten Anordnung platziert ist, kann der in 3A und 3B oder 8A und 8B gezeigte digitale Signalprozessor 200 denselben Prozess wie oben beschrieben mit den in der Position seitenverkehrten Mikrofonen MIC1 und MIC2 ausführen. Alternativ können die Prozesse, die an den zwei Tonsignalen IN1(t) und IN2(t) von den Mikrofonen MIC1 und MIC2 ausgeführt werden, bei dem digitalen Signalprozessor 200, der in 3A und 3B oder 8A und 8B gezeigt ist, umgekehrt sein.
Ein computerimplementiertes Verfahren zur Signalverarbeitung enthält das Bestimmen eines maximalen Tonbereiches zum Verarbeiten wenigstens zweier Tonsignale von separaten Quellen auf der Basis der Detektion einer Position eines Beteiligten und zum Verarbeiten der zwei Tonsignale bezüglich des bestimmten maximalen Tonbereiches.
In einer alternativen Ausführungsform kann ein Synchronisationsadditionsprozess zur Tonsignalhervorhebung anstelle der Synchronisationssubtraktion bezüglich der Geräuschunterdrückung ausgeführt werden. Bei dem Synchronisationsadditionsprozess kann die Synchronisationsaddition ausgeführt werden, falls die Tonempfangsrichtung innerhalb des Tonempfangsbereiches liegt, und die Synchronisationsaddition kann nicht ausgeführt werden oder das Additionsverhältnis des zusätzlichen Signals kann selbst bei ausgeführter Synchronisation reduziert werden, falls die Tonempfangsrichtung innerhalb des Unterdrückungsbereiches liegt.
Alle Beispiele und Ausdrücke bei oben beschriebenen Bedingungen sollen den Lesern dabei helfen, die Erfindung oder das Konzept der Erfindung, zu dem der Erfinder beigetragen hat, zu verstehen. Die Beispiele und die Ausdrücke können ohne jegliche Beschränkung interpretiert werden. Die Konfiguration der Beispiele in der Beschreibung bezieht sich nicht auf die Qualität der Erfindung. Die Ausführungsformen der Erfindung sind eingehend diskutiert worden und können modifiziert, ausgetauscht und verändert werden, ohne vom Umfang und Grundgedanken der Erfindung abzuweichen.
Die Ausführungsformen können mit Rechner-Hardware (Rechenmaschine) und/oder Software implementiert werden, wie etwa (bei einem nichtbegrenzenden Beispiel) einem beliebigen Computer, der Daten speichern, aufrufen, verarbeiten und/oder ausgeben kann und/oder mit anderen Computern kommunizieren kann. Die hervorgebrachten Resultate können an einer Anzeige der Rechner-Hardware angezeigt werden. Ein Programm/eine Software, die die Ausführungsformen implementieren, können auf computerlesbaren Medien aufgezeichnet sein, die computerlesbare Aufzeichnungsmedien umfassen. Das Programm/die Software, die die Ausführungsformen implementieren, können auch über Übertragungskommunikationsmedien übertragen werden. Beispiele für die computerlesbaren Aufzeichnungsmedien enthalten eine magnetische Aufzeichnungsvorrichtung, eine optische Platte, eine magneto-optische Platte und/oder einen Halbleiterspeicher (zum Beispiel RAM, ROM, etc.). Beispiele für die magnetische Aufzeichnungsvorrichtung enthalten eine Festplattenvorrichtung (HDD), eine flexible Platte (FD) und ein Magnetband (MT). Beispiele für die optische Platte enthalten eine DVD (digitale Mehrzweckplatte), eine DVD-RAM, eine CD-ROM (Kompaktplatten-Nur-Lese-Speicher) und eine CD-R (beschreibbar)/RW. Ein Beispiel für Kommunikationsmedien enthält ein Trägerwellensignal. Die oben beschriebenen Medien können nichttransitorische Medien sein.
Ferner können gemäß einem Aspekt der Ausführungsformen beliebige Kombinationen der beschriebenen Merkmale, Funktionen und/oder Operationen vorgesehen werden.
Alle Beispiele und die bedingte Sprache, die hierin verwendet werden, sollen pädagogischen Zwecken dienen, um den Leser beim Verstehen der Prinzipien der Erfindung und der durch den Erfinder beigesteuerten Konzepte zum Fördern der Technik zu unterstützen, und sind so aufzufassen, dass sie nicht auf solche speziell angeführten Beispiele und Bedingungen beschränkt sind, noch soll sich die Anordnung solcher Beispiele in der Beschreibung auf eine Darstellung der Überlegenheit und Unterlegenheit der Erfindung beziehen. Obwohl die Ausführungsform(en) der vorliegenden Erfindung(en) eingehend beschrieben worden ist (sind), versteht sich, dass an ihr die verschiedensten Veränderungen, Substitutionen und Abänderungen vorgenommen werden könnten, ohne vom Grundgedanken und Umfang der Erfindung abzuweichen, welcher Umfang in den Ansprüchen und deren Äquivalenten definiert ist.

Claims

Signalverarbeitungsgerät mit: wenigstens zwei Toneingabeeinheiten; einem Orthogonal-Transformierer, um zwei Tonsignale, von Tonsignalen in einer Zeitdomäne, die von den wenigstens zwei Toneingabeeinheiten eingegeben werden, in jeweilige Spektralsignale in einer Frequenzdomäne zu transformieren; einem Phasendifferenzberechner, um eine Phasendifferenz zwischen den Spektralsignalen in der Frequenzdomäne zu berechnen; einem Bereichsbestimmer, – um einen Koeffizienten als Funktion der Frequenz zu bestimmen, wobei der Koeffizient von einer Frequenz in der Phasendifferenz abhängt, und – um auf Pro-Frequenz-Basis einen Unterdrückungsbereich der Frequenz durch einen Gradienten einer Phasendifferenz zu bestimmen, wobei der Unterdrückungsbereich eine Phase betrifft und von dem Koeffizienten abhängt, und wobei der Gradient durch einen Koeffizienten einer Frequenzvariablen f der linearen Funktion der Frequenz repräsentiert wird; und einem Filter zur Phasenverschiebung einer Komponente eines ersten der Spektralsignale auf Pro-Frequenz-Basis, um ein phasenverschobenes Spektralsignal zu erzeugen, wenn die Phasendifferenz bei jeder Frequenz in den Unterdrückungsbereich fällt, wobei das phasenverschobene Spektralsignal und ein zweites der Spektralsignale synthetisiert werden, um ein gefiltertes Spektralsignal zu erzeugen.
Signalverarbeitungsgerät nach Anspruch 1, bei dem der Bereichsbestimmer den Unterdrückungsbereich auf der Basis des Koeffizienten der Phasendifferenz bestimmt und bei dem die Bestimmung der Phasendifferenz innerhalb eines Empfangsbereiches bezüglich der Phase bei jeder Frequenz vor der Bestimmung des Unterdrückungsbereiches liegt.
Signalverarbeitungsgerät nach Anspruch 1, bei dem der Bereichsbestimmer auf der Basis des Koeffizienten einen schmaleren als einen ersten Empfangsbereich auf der Basis des Koeffizienten der Phasendifferenz bestimmt, so dass ein Geräuschunterdrückungsbetrag konstant wird, und bei dem die Bestimmung der Phasendifferenz innerhalb des ersten Empfangsbereiches bezüglich der Phase bei jeder Frequenz vor der Bestimmung des Unterdrückungsbereiches liegt.
Signalverarbeitungsgerät nach Anspruch 1, bei dem der Bereichsbestimmer ein Geräuschspektrum der zwei Spektralsignale abschätzt und den Koeffizienten der Phasendifferenz bezüglich der Frequenz der zwei Spektralsignale mit einer Leistung bestimmt, die höher als eine Leistung des beachteten Geräuschspektrums ist.
Signalverarbeitungsgerät nach Anspruch 1, bei dem der Bereichsbestimmer als statistischen Mittelwert den Koeffizienten der Phasendifferenz bestimmt, indem eine Vielzahl von Phasendifferenzen für verschiedene Frequenzen statistisch verarbeitet wird.
Signalverarbeitungsgerät nach Anspruch 1, bei dem der Bereichsbestimmer versuchsweise wenigstens erste und zweite Unterdrückungsbereiche jeweilig entsprechend wenigstens ersten und zweiten Koeffizienten als Koeffizienten bestimmt, eine erste Leistung eines ersten gefilterten Spektralsignals als gefiltertes Spektralsignal bestimmt, wenn die Phasendifferenz bei einer spezifischen Frequenz in den ersten Unterdrückungsbereich fällt, und eine zweite Leistung eines zweiten gefilterten Spektralsignals als gefiltertes Spektralsignal bestimmt, wenn die Phasendifferenz bei der spezifischen Frequenz in den zweiten Unterdrückungsbereich fällt, und die erste Leistung mit der zweiten Leistung vergleicht und den ersten Unterdrückungsbereich oder den zweiten Unterdrückungsbereich jeweilig entsprechend der ersten Leistung oder der zweiten Leistung selektiert, je nachdem, welche höher ist, und bei dem das Filter das gefilterte Spektralsignal erzeugt, wobei die Phasendifferenz in den selektierten Unterdrückungsbereich fällt.
Mikrofonarrayvorrichtung mit: wenigstens zwei Mikrofonen; einem Orthogonal-Transformierer, um zwei Tonsignale, von den Tonsignalen in einer Zeitdomäne, die von den wenigstens zwei Mikrofonen eingegeben werden, in jeweilige Spektralsignale in einer Frequenzdomäne zu transformieren; einem Phasendifferenzberechner, um eine Phasendifferenz zwischen den Spektralsignalen in der Frequenzdomäne zu berechnen; einem Bereichsbestimmer, – um einen Koeffizienten als Funktion der Frequenz zu bestimmen, wobei der Koeffizient von einer Frequenz in der Phasendifferenz abhängt, und – um auf Pro-Frequenz-Basis einen Unterdrückungsbereich der Frequenz durch einen Gradienten einer Phasendifferenz zu bestimmen, wobei der Unterdrückungsbereich eine Phase betrifft und von dem Koeffizienten abhängt, und wobei der Gradient durch einen Koeffizienten einer Frequenzvariablen f der linearen Funktion der Frequenz repräsentiert wird; einem Filter zur Phasenverschiebung einer Komponente eines ersten der Spektralsignale auf Pro-Frequenz-Basis, um ein phasenverschobenes Spektralsignal zu erzeugen, wenn die Phasendifferenz bei jeder Frequenz in den Unterdrückungsbereich fällt, wobei das phasenverschobene Spektralsignal und ein zweites der Spektralsignale synthetisiert werden, um ein gefiltertes Spektralsignal zu erzeugen; und einem Invers-Orthogonal-Transformierer, um das gefilterte Spektralsignal invers in ein Tonsignal in der Zeitdomäne zu transformieren.
Nichttransitorisches computerlesbares Medium zum Aufzeichnen eines Signalverarbeitungsprogramms, durch das ein Computer eine Operation ausführen kann, umfassend: Transformieren zweier Tonsignale, von Tonsignalen in einer Zeitdomäne, die von wenigstens zwei Toneingabeeinheiten eingegeben werden, in jeweilige Spektralsignale in einer Frequenzdomäne; Berechnen einer Phasendifferenz zwischen den Spektralsignalen in der Frequenzdomäne; Bestimmen eines Unterdrückungsbereiches bezüglich der Frequenz einer Phase auf Pro-Frequenz-Basis durch einen Gradienten einer Phasendifferenz zu bestimmen, wobei der Unterdrückungsbereich eine Phase betrifft und von dem Koeffizienten abhängt, und wobei der Gradient durch einen Koeffizienten einer Frequenzvariablen f der linearen Funktion der Frequenz repräsentiert wird, in Abhängigkeit von einem Koeffizienten als Funktion der Frequenz, wobei der Koeffizient von der Frequenz der Phasendifferenz abhängt; Phasenverschiebung einer Komponente eines ersten der Spektralsignale auf Pro-Frequenz-Basis, um ein phasenverschobenes Spektralsignal zu erzeugen, wenn die Phasendifferenz bei jeder Frequenz in den Unterdrückungsbereich fällt, wobei das phasenverschobene Spektralsignal und ein zweites der Spektralsignale synthetisiert werden, um ein gefiltertes Spektralsignal zu erzeugen.
Computerlesbares Medium nach Anspruch 8, bei dem beim Bestimmen des Unterdrückungsbereiches der Unterdrückungsbereich auf der Basis des Koeffizienten der Phasendifferenz bestimmt wird, und bei dem die Bestimmung der Phasendifferenz innerhalb eines Empfangsbereiches bezüglich der Phase bei jeder Frequenz vor der Bestimmung des Unterdrückungsbereiches liegt.
Computerlesbares Medium nach Anspruch 8, bei dem das Bestimmen des Unterdrückungsbereiches auf der Basis des Koeffizienten und eines schmaleren als eines ersten Empfangsbereiches auf der Basis des Koeffizienten der Phasendifferenz erfolgt, so dass ein Geräuschunterdrückungsbetrag konstant wird, und bei dem die Bestimmung der Phasendifferenz innerhalb des ersten Empfangsbereiches bezüglich der Phase bei jeder Frequenz vor der Bestimmung des Unterdrückungsbereiches liegt.
Computerlesbares Medium nach Anspruch 8, bei dem beim Bestimmen ein Geräuschspektrum der Spektralsignale abgeschätzt wird und der Koeffizient der Phasendifferenz bezüglich der Frequenz der Spektralsignale mit einer Leistung bestimmt wird, die höher als eine Leistung des beachteten Geräuschspektrums ist.
Computerlesbares Medium nach Anspruch 8, bei dem beim Bestimmen der Koeffizient der Phasendifferenz als statistischer Mittelwert bestimmt wird, indem eine Vielzahl von Phasendifferenzen für verschiedene Frequenzen verarbeitet wird.
Computerlesbares Medium nach Anspruch 8, bei dem beim Bestimmen versuchsweise wenigstens erste und zweite Unterdrückungsbereiche jeweilig entsprechend wenigstens ersten und zweiten Koeffizienten als Koeffizienten bestimmt werden, eine erste Leistung eines ersten gefilterten Spektralsignals als gefiltertes Spektralsignal bestimmt wird, wenn die Phasendifferenz bei einer spezifischen Frequenz in den ersten Unterdrückungsbereich fällt, und eine zweite Leistung eines zweiten gefilterten Spektralsignals als gefiltertes Spektralsignal bestimmt wird, wenn die Phasendifferenz bei der spezifischen Frequenz in den zweiten Unterdrückungsbereich fällt, und die erste Leistung mit der zweiten Leistung verglichen wird und der erste Unterdrückungsbereich oder der zweite Unterdrückungsbereich jeweilig entsprechend der ersten Leistung oder der zweiten Leistung selektiert wird, je nachdem, welche höher ist, und bei dem das Filter das gefilterte Spektralsignal erzeugt, wobei die Phasendifferenz in den selektierten Unterdrückungsbereich fällt.