DE102009052539B4

DE102009052539B4 - Signalverarbeitungseinheit und Signalverarbeitungsverfahren

Info

Publication number: DE102009052539B4
Application number: DE102009052539.4A
Authority: DE
Inventors: Naoshi Matsuo
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-11-21
Filing date: 2009-11-11
Publication date: 2014-01-02
Anticipated expiration: 2029-11-12
Also published as: US20100128895A1; JP2010124370A; US8565445B2; DE102009052539A1

Abstract

Signalverarbeitungseinheit mit: einem Orthogonaltransformierungsteil (212, 214), der wenigstens zwei Toneingangsteile enthält, die Eingangstonsignale (entsprechend Eingangssignalen IN1(t) und IN2(t)) auf einer Zeitachse empfangen, welcher Orthogonaltransformierungsteil (212, 214) zwei der Eingangstonsignale (entsprechend Eingangssignalen IN1(t) und IN2(t)) in jeweilige Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) auf einer Frequenzachse transformiert; einem Phasendifferenzberechnungsteil (222), der eine Phasendifferenz (DIFF(f)) zwischen den zwei Spektralsignalen (entsprechend komplexen Spektren IN1(f) und IN2(f)) auf der Frequenzachse erhält, bei der die Phasendifferenz eine Ankunftsrichtung des Tons an den zwei Toneingangsteilen angibt, die die Eingangstonsignale (entsprechend Eingangssignalen IN1(t) und IN2(t)) empfangen; einem Synchronisationskoeffizientenberechnungsteil (224), der einen Synchronisationskoeffizienten (C(f)), der einen Betrag der Phasenverschiebung jeder Komponente eines ersten (entsprechend einem komplexen Spektrum IN2(f)) der beiden Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) bei jeder Frequenz anzeigt, in Abhängigkeit davon berechnet, ob die Phasendifferenz (DIFF(f)) entweder einer Richtung, aus der ein gewünschtes Signal kommt, oder einer Richtung entspricht, aus der Rauschen kommt; und einem Filterteil (300), der jede Komponente des ersten (entsprechend einem komplexen Spektrum IN2(f)) der zwei Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) auf der Basis des Synchronisationskoeffizienten (C(f)) synchronisiert, um ein synchronisiertes Spektralsignal (entsprechend einem synchronisierten Spektrum INs2(f)) zu berechnen, und das in Phase gebrachte Spektralsignal (entsprechend einem synchronisierten Spektrum INs2(f)) und ein zweites (entsprechend einem komplexen Spektrum IN1(f)) der zwei Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) zu einem kombiniert, um ein gefiltertes Spektralsignal (entsprechend einem rauschunterdrückten Spektrum INd(f)) zu berechnen.

Description

HINTERGRUND
1. Gebiet
Die hierin diskutierten Ausführungsformen sind auf die Verarbeitung von Tonsignalen gerichtet.
2. Beschreibung der verwandten Technik
Ein Mikrofon-Array enthält ein Array von mehreren Mikrofonen und kann einem Tonsignal eine Richtwirkung verleihen, indem das Tonsignal, das durch Empfangen und Konvertieren des Tons erhalten wird, verarbeitet wird.
In einem Mikrofon-Array-System können Tonsignale, die von mehreren Mikrofonen stammen, so verarbeitet werden, dass unerwünschte Geräusche in Schallwellen, die aus Richtungen kommen, die sich von der Richtung unterscheiden, in der ein gewünschtes Signal empfangen wird, oder die aus der Unterdrückungsrichtung kommen, unterdrückt werden, um das SNR (Signal-Rausch-Verhältnis) zu verbessern. (Siehe den Auszug aus Druckschriften über ein Mikrofon-Array: Journal of the Acoustical Society of Japan, Bd. 51, Nr. 5: ”A small special feature – microphone array –”, S. 384–414 (1995).)
Typischerweise enthält ein Rauschkomponentenunterdrückungssystem, wie es in der japanischen offengelegten Patentveröffentlichung Nr. 2001-100800 offenbart ist, ein erstes Mittel zum Detektieren des Tons an mehreren Positionen, um ein Eingangssignal an jeder verschiedenen Tonempfangsposition zu erhalten, zum Analysieren der Frequenz des Eingangssignals und zum Erhalten von Frequenzkomponenten für verschiedene Kanäle, ein erstes Strahlenformer-Verarbeitungsmittel zum Unterdrücken der Geräusche, die aus der Richtung eines Sprechers kommen, und zum Erhalten von gewünschten Tonkomponenten durch einen Filterungsprozess unter Verwendung von Filterungskoeffizienten, die für Frequenzkomponenten der verschiedenartigen Kanäle außerhalb der gewünschten Richtung niedrigere Empfindlichkeiten vorsehen, ein zweites Strahlenformer-Verarbeitungsmittel zum Unterdrücken von Sprache des Sprechers und zum Erhalten von Rauschkomponenten durch einen Filterungsprozess, der für Frequenzkomponenten der Kanäle, die durch das erste Mittel außerhalb der gewünschten Richtung erhalten werden, niedrigere Empfindlichkeiten vorsieht, ein Schätzmittel zum Schätzen der Richtung des Rauschens von Filterkoeffizienten des ersten Strahlenformer-Verarbeitungsmittels und Schätzen der Richtung von gewollter Sprache von den Filterkoeffizienten des zweiten Strahlenformer-Verarbeitungsmittels, ein Modifizierungsmittel zum Modifizieren der Ankunftsrichtung der gewollten Sprache, um in das erste Strahlenformer-Verarbeitungsmittel zu gelangen, gemäß der Richtung von gewollter Sprache, die durch das Schätzmittel geschätzt wird, und zum Modifizieren der Ankunftsrichtung des Rauschens, um in das zweite Strahlenformer-Verarbeitungsmittel zu gelangen, gemäß der Richtung des Rauschens, die durch das Schätzmittel geschätzt wird, ein Subtraktionsmittel zum Ausführen einer Spektralsubtraktionsoperation auf der Basis der Ausgaben von den ersten und zweiten Strahlenformer-Verarbeitungsmitteln, ein Mittel zum Erhalten eines Richtwirkungsindex entsprechend den Zeitdifferenzen zwischen ankommenden Tönen und Amplitudendifferenzen von der Ausgabe von dem ersten Mittel und ein Steuermittel zum Steuern der Spektralsubtraktionsoperation auf der Basis des Richtwirkungsindex und der Richtung der gewollten Sprache, die durch das erste Mittel erhalten wird.
Typischerweise enthält ein Kollektor für gerichteten Ton, wie er in der japanischen offengelegten Patentveröffentlichung Nr. 2007-318528 offenbart ist, Toneingänge von Tonquellen, die in mehreren Richtungen existieren, die akzeptiert werden und in Signale auf der Frequenzachse konvertiert werden. Eine Unterdrückungsfunktion zum Unterdrücken des konvertierten Signals auf der Frequenzachse wird berechnet. Die berechnete Unterdrückungsfunktion wird mit der Amplitudenkomponente des Originalsignals auf der Frequenzachse multipliziert, wodurch das konvertierte Signal auf der Frequenzachse korrigiert wird. Phasenkomponenten von konvertierten Signalen auf jeder Frequenzachse werden bei jeder individuellen Frequenz berechnet. Auf diese Weise werden die Differenzen zwischen den Phasenkomponenten berechnet. Ein Wahrscheinlichkeitswert, der die Wahrscheinlichkeit angibt, mit der eine Tonquelle in einer gegebenen Richtung existiert, wird auf der Basis der berechneten Differenzen berechnet. Auf der Basis des berechneten Wahrscheinlichkeitswertes wird eine Unterdrückungsfunktion zum Unterdrücken von Toneingängen von anderen Tonquellen als den Tonquellen, die in der gegebenen Richtung liegen, berechnet.
Aus der EP 0 802 699 A2 ist bekannt, dass durch Steuern einer Phasenspektrumdifferenz ein Mikrophonintervall pseudoerweitert und die Richtungscharakteristik gesteuert werden.
ZUSAMMENFASSUNG
Ein Aspekt der hierin diskutierten Ausführungsformen ist das Vorsehen einer Signalverarbeitungseinheit. Die Signalverarbeitungseinheit enthält einen Orthogonaltransformierungsteil, der wenigstens zwei Toneingangsteile enthält, die Eingangstonsignale auf einer Zeitachse empfangen, welcher Orthogonaltransformierungsteil zwei der Eingangstonsignale in jeweilige Spektralsignale auf einer Frequenzachse transformiert; einen Phasendifferenzberechnungsteil, der eine Phasendifferenz zwischen den zwei Spektralsignalen auf der Frequenzachse erhält; und einen Filterteil, der dann, wenn die Phasendifferenz innerhalb eines gegebenen Bereiches liegt, jede Komponente eines ersten der zwei Spektralsignale auf der Basis der Phasendifferenz bei jeder Frequenz in Phase bringt, um ein in Phase gebrachtes Spektralsignal zu berechnen, und das in Phase gebrachte Spektralsignal und ein zweites der zwei Spektralsignale kombiniert, um ein gefiltertes Spektralsignal zu berechnen.
Diese zusammen mit anderen Aspekten und Vorteilen, die anschließend klar werden, liegen in den Einzelheiten der Konstruktion und Operation, wie nachstehend umfassender beschrieben und beansprucht, wobei Bezug auf die beiliegenden Zeichnungen genommen wird, die einen Teil hiervon bilden und in denen gleiche Bezugszeichen sich durchgängig auf gleiche Teile beziehen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 zeigt ein beispielhaftes Array von Mikrofonen, das wenigstens zwei Mikrofone enthält, welches Array von Mikrofonen in einer beispielhaften Ausführungsform in Toneingangsteilen enthalten ist;
2 zeigt ein beispielhaftes Mikrofon-Array-System, das beispielhafte Mikrofone enthält, die in 1 gezeigt sind;
3A und 3B zeigen ein beispielhaftes Mikrofon-Array-System, welches System das Rauschen auf relative Weise durch Rauschunterdrückung reduzieren kann;
4 zeigt eine beispielhafte Phasendifferenz zwischen Phasenspektralkomponenten bei jeder Frequenz, welche Phasenspektralkomponenten durch einen Phasendifferenzberechnungsteil berechnet werden;
5 zeigt beispielhafte Verarbeitungsoperationen, die durch einen digitalen Signalprozessor (DSP) gemäß einem in einem Speicher gespeicherten Programm ausgeführt werden, um komplexe Spektren zu berechnen; und
6A und 6B zeigen, wie ein Tonempfangsbereich, ein Unterdrückungsbereich und Übergangsbereiche auf der Basis von Sensordaten oder eingetasteten Daten in einer beispielhaften Ausführungsform festgelegt werden können.
BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
In einem Sprachprozessor, der mehrere Toneingangsteile enthält, können Tonsignale in der Zeitdomäne so verarbeitet werden, dass eine Unterdrückungsrichtung in einer Richtung festgelegt werden kann, die der Empfangsrichtung des gewünschten Tons gegenüberliegt, und Muster der Tonsignale werden verzögert und Subtraktionen zwischen ihnen werden ausgeführt. Bei diesen Verarbeitungsoperationen kann das Rauschen, das aus der Unterdrückungsrichtung kommt, ausreichend unterdrückt werden. Wenn es jedoch mehrere Ankunftsrichtungen des Hintergrundrauschens gibt, wie etwa beim Geräusch in einem Fahrzeug, das vom Betrieb eines Fahrzeugs stammt, und dem Geräusch, das aus einer Menschenmenge kommt, können Hintergrundgeräusche aus mehreren Unterdrückungsrichtungen ankommen. Deshalb ist es schwierig, die Geräusche ausreichend zu unterdrücken. Falls die Anzahl der Toneingangsteile andererseits zunimmt, werden zwar die Rauschunterdrückungsmöglichkeiten verbessert, aber die Kosten werden erhöht. Ferner nimmt die Größe der Toneingangsteile zu.
In dem Fall, wenn Tonsignale, die Signale von Tonquellen enthalten, die in mehreren Richtungen liegen, und Rauschen hineingelangen, braucht nicht unbedingt eine große Anzahl von Mikrofonen installiert zu werden. Tonsignale, die von Tonquellen emittiert werden, die in gegebenen Richtungen liegen, können unter Verwendung des Rauschkomponentenunterdrückers, der eine einfache Struktur hat, hervorgehoben werden, und das Umgebungsrauschen kann unterdrückt werden.
Ein Wahrscheinlichkeitswert, der die Wahrscheinlichkeit angibt, mit der eine Tonquelle in einer gegebenen Richtung vorhanden ist, wird berechnet, und eine Unterdrückungsfunktion zum Unterdrücken der Eingabe von Ton, der von anderen Tonquellen als den Tonquellen stammt, die in der gegebenen Richtung liegen, kann auf der Basis des berechneten Wahrscheinlichkeitswertes berechnet werden.
Das Rauschen in einer Vorrichtung, die mehrere Toneingangsteile enthält, kann genauer und effektiver unterdrückt werden, indem zwei Tonsignale in der Frequenzdomäne gemäß den Richtungen von Quellen des Tons, der an den Toneingangsteilen ankommt, synchronisiert werden und eine Subtraktion ausgeführt wird.
Gemäß einer beispielhaften Ausführungsform kann ein Tonsignal produziert werden, in dem das Verhältnis des Rauschens zum Signal durch Verarbeiten des Tonsignals in der Frequenzdomäne reduziert worden ist.
Gemäß einer beispielhaften Ausführungsform enthält eine Signalverarbeitungseinheit Toneingangsteile, die einen Orthogonaltransformierungsteil, einen Phasendifferenzberechnungsteil und einen Filterteil haben. Der Orthogonaltransformierungsteil selektiert zwei Tonsignale von Tonsignalen, die von den Toneingangsteilen hineingelangt sind, wobei die hineingelangten Tonsignale Signale auf der Zeitachse sind, und transformiert die selektierten zwei Tonsignale in Spektralsignale auf der Frequenzachse. Der Phasendifferenzberechnungsteil erhält die Phasendifferenz zwischen den zwei Spektralsignalen, die durch das Transformieren erhalten wurden. Wenn die Phasendifferenz innerhalb eines gegebenen Bereiches liegt, bringt der Filterteil jede Komponente einer ersten Spektralkomponente der zwei Spektralsignale bei jeder Frequenz in Phase, um ein in Phase gebrachtes Spektralsignal zu berechnen, und kombiniert das in Phase gebrachte Spektralsignal und ein zweites Spektralsignal der zwei Spektralsignale, um ein gefiltertes Spektralsignal zu berechnen.
Gemäß einer beispielhaften Ausführungsform werden auch ein Verfahren und ein computerlesbares Aufzeichnungsmedium offenbart, das ein Computerprogramm zur Ausführung der oben beschriebenen Signalverarbeitungseinheit speichert.
Gemäß einer beispielhaften Ausführungsform kann ein Tonsignal, in dem das Verhältnis des Rauschens zum Ton auf relative Weise reduziert worden ist, berechnet werden.
1 zeigt ein beispielhaftes Array von wenigstens zwei Mikrofonen MIC1, MIC2 usw., die in mehreren Toneingangsteilen enthalten sind.
Im Allgemeinen sind die mehreren Mikrofone (wie MIC1 und MIC2) des Arrays mit einer bekannten Distanz d auf einer geraden Linie voneinander beabstandet. Das MIC1 und das MIC2, die wenigstens zwei der mehreren Mikrofone sind, die miteinander benachbart sind, können mit einem Abstand d auf der geraden Linie angeordnet sein. Die Mikrofone brauchen nicht gleichmäßig voneinander beabstandet zu sein. Solange das Abtasttheorem erfüllt ist, können sie mit bekannten ungleichmäßigen Distanzen voneinander beabstandet sein.
Es wird eine beispielhafte Ausführungsform beschrieben, in der zwei Mikrofone MIC1 und MIC2 von den mehreren Mikrofonen verwendet werden.
1 zeigt eine gewünschte Signalquelle SS auf einer geraden Linie, die durch die Mikrofone MIC1 und MIC2 und auf der linken Seite von 1 verläuft. Die gewünschte Signalquelle SS kann in der Tonempfangsrichtung für das Array der Mikrofone MIC1 und MIC2 oder in der gewünschten Richtung existieren. Die Tonquelle SS, von der Ton empfangen werden soll, kann der Mund des Sprechers sein. Die Richtung des Tonempfangs kann so definiert sein, um die Richtung des Mundes des Sprechers zu sein. Ein gegebener Winkelbereich um die Winkelrichtung, entlang derer der Ton empfangen wird, kann als Winkelbereich des Tonempfangs definiert sein. Die Richtung (+π), die der Richtung des Tonempfangs gegenüberliegt, kann als Hauptunterdrückungsrichtung des Rauschens angenommen werden. Der gegebene Winkelbereich um die Winkelrichtung der Hauptunterdrückung kann als Winkelbereich der Rauschunterdrückung angenommen werden. Der Winkelbereich der Rauschunterdrückung kann bei jeder verschiedenen Frequenz f bestimmt werden.
Eine Distanz d zwischen den Mikrofonen MIC1 und MIC2 kann so festgelegt werden, um die Beziehung in Gleichung (1) zu erfüllen: Distanz d < Schallgeschwindigkeit c/Abtastfrequenz fs (1), so dass dem Abtasttheorem oder Nyquist-Theorem entsprochen wird.
In 1 ist die Richtcharakteristik oder das Richtmuster des Arrays der Mikrofone MIC1 und MIC2 durch eine geschlossene gestrichelte Linie (wie etwa eine Kardioide) abgebildet. Ein Eingangssignal des Tons, der durch das Array der Mikrofone MIC1 und MIC2 empfangen und verarbeitet wird, hängt von dem Einfallswinkel θ (= –π/2 bis +π/2) von Schallwellen bezüglich der geraden Linie ab, auf der das Array der Mikrofone MIC1 und MIC2 angeordnet ist. Das Eingangssignal hängt jedoch nicht von der Einfallsrichtung (0 bis 2π) in einer radialen Richtung auf einer Ebene senkrecht zu der geraden Linie ab.
Der Ton von der gewünschten Signalquelle SS kann durch das rechte Mikrofon MIC2 mit einer Zeitverzögerung von T = d/c bezüglich des linken Mikrofons MIC1 detektiert werden. Andererseits kann das Rauschen 1, das aus der Hauptunterdrückungsrichtung kommt, durch das linke Mikrofon MIC1 mit einer Zeitverzögerung von T = d/c bezüglich des rechten Mikrofons MIC2 detektiert werden. Das Rauschen 2, das aus einer Unterdrückungsrichtung innerhalb des Unterdrückungsbereiches kommt, die von der Hauptunterdrückungsrichtung verschoben ist, kann durch das linke Mikrofon MIC1 mit einer Zeitverzögerung von T = d·sinθ/c bezüglich des rechten Mikrofons MIC2 detektiert werden. Der Winkel θ definiert die Richtung, aus der das Rauschen 2 in der angenommenen Unterdrückungsrichtung ankommt. In 1 kennzeichnet die Strichpunktlinie die Wellenfront des Rauschens 2. In dem Fall, wenn θ = +π/2 ist, ist die Ankunftsrichtung des Rauschens 1 die Unterdrückungsrichtung des Eingangssignals.
Das Rauschen 1 (θ = +π/2), das aus der Hauptunterdrückungsrichtung kommt, kann unterdrückt werden, indem das Eingangssignal IN2(t) für das rechte Mikrofon MIC2 von dem Eingangssignal IN1(t) für das linke Mikrofon MIC1, das mit dem Mikrofon MIC2 benachbart ist, subtrahiert wird, wobei das Eingangssignal IN2(t) um T = d/c bezüglich des Eingangssignals IN1(t) verzögert ist. Es kann jedoch schwierig sein, das Rauschen 2 zu unterdrücken, das aus den Winkelrichtungen (0 < θ < +π/2) kommt, die von der Hauptunterdrückungsrichtung abweichen.
Das Rauschen, das aus Richtungen im Unterdrückungsbereich kommt, kann durch Phasensynchronisation eines der Spektren von Eingangssignalen für die Mikrofone MIC1 und MIC2 mit den anderen Spektren gemäß der Phasendifferenz zwischen den zwei Eingangssignalen bei jeder Frequenz und Ermitteln der Differenz zwischen den zwei Spektren ausreichend unterdrückt werden.
2 zeigt ein Mikrofon-Array-System 100 mit den in 1 gezeigten Mikrofonen MIC1 und MIC2 gemäß einer Ausführungsform. Das Mikrofon-Array-System 100 hat die Mikrofone MIC1 und MIC2, die Verstärker (AMPs) 122, 124, die Tiefpassfilter (LPFs) 142, 144, einen digitalen Signalprozessor (DSP) 200 und einen Speicher 202 (der einen RAM enthält). Das Mikrofon-Array-System 100 kann zum Beispiel eine fahrzeuginterne Anordnung mit Spracherkennungsfunktion, ein Autonavigationssystem oder ein Gerät der Nachrichtentechnik (wie etwa ein Freisprechtelefon oder Funktelefon) sein.
Optional kann das Mikrofon-Array-System 100 mit einem Sensor 192 zum Detektieren der Richtung eines Sprechers und mit einem Richtungsbestimmungsteil 194 gekoppelt sein. Alternativ dazu kann das Array-System 100 diese Komponenten 192 und 194 enthalten. Ein Prozessor 10 und ein Speicher 12 können in einer Vorrichtung, die eine Applikationshardwareanordnung 400 enthält, oder in einem separaten Informationsprozessor enthalten sein.
Der Sensor 192 zur Detektion der Richtung des Sprechers kann zum Beispiel eine Digitalkamera, ein Ultraschallsensor oder ein Infrarotsensor sein. Der Richtungsbestimmungsteil 194 kann auch auf dem Prozessor 10 installiert sein und gemäß einem Programm zum Bestimmen der Richtung arbeiten, wobei das Programm in dem Speicher 12 gespeichert ist.
Analoge Eingangssignale, in die der Ton durch die Mikrofone MIC1 und MIC2 konvertiert wurde, werden den Verstärkern 122 bzw. 124 zugeführt und verstärkt. Die Ausgänge der Verstärker 122 und 124 sind mit den Eingängen der Tiefpassfilter 142 bzw. 144 gekoppelt, die eine Grenzfrequenz fc von zum Beispiel 3,9 kHz haben, so dass nur Niederfrequenzkomponenten durchgelassen werden. Bei diesem Beispiel werden nur die Tiefpassfilter verwendet. An deren Stelle können Bandpassfilter verwendet werden. Alternativ dazu können Hochpassfilter in Kombination verwendet werden.
Die Ausgänge der Tiefpassfilter 142 und 144 sind mit den Eingängen von Analog/Digital-Konvertern 162 bzw. 164 gekoppelt, die eine Abtastfrequenz fs (fs > 2fc) von zum Beispiel 8 kHz haben. Die Ausgangssignale von den Filtern 142 und 144 werden in digitale Eingangssignale konvertiert. Die digitalen Eingangssignale IN1(t) und IN2(t) in der Zeitdomäne von den Konvertern 162 bzw. 164 sind mit Eingängen des digitalen Signalprozessors (DSP) 200 gekoppelt.
Der digitale Signalprozessor 200 konvertiert die digitalen Zeitdomänensignale IN1(t) und IN2(t) unter Verwendung des Speichers 202 in Frequenzdomänensignale, verarbeitet die Signale, um das Rauschen zu unterdrücken, das aus dem Unterdrückungswinkelbereich kommt, und berechnet ein verarbeitetes digitales Ausgangssignal INd(t) in der Zeitdomäne.
Der digitale Signalprozessor 200 kann mit dem Richtungsbestimmungsteil 194 oder mit dem Prozessor 10 gekoppelt sein. In diesem Fall unterdrückt der Prozessor 200 Rauschen, das aus der Unterdrückungsrichtung kommt, innerhalb des Unterdrückungsbereiches auf der gegenüberliegenden Seite des Tonempfangsbereiches als Antwort auf Informationen, die von dem Richtungsbestimmungsteil 194 oder dem Prozessor 10 geliefert werden, welche Informationen den Tonempfangsbereich angeben.
Der Richtungsbestimmungsteil 194 oder der Prozessor 10 kann die Informationen berechnen, die den Tonempfangsbereich angeben, indem ein Einstellsignal verarbeitet wird, das durch den Nutzer eingetastet wird. Der Richtungsbestimmungsteil 194 oder der Prozessor 10 kann die Präsenz eines Sprechers auf der Basis von Daten detektieren oder erkennen (die Detektionsdaten oder Bilddaten sein können), die durch den Sensor 192 detektiert werden, kann die Richtung bestimmen, in der sich der Sprecher befindet, und kann die Informationen berechnen, die den Tonempfangsbereich angeben.
Das digitale Ausgangssignal INd(t) kann zum Beispiel zur Spracherkennung oder für Gespräche unter Verwendung von Funktelefonen verwendet werden. Das digitale Ausgangssignal INd(t) wird der folgenden Applikationshardwareanordnung 400 zugeführt, wo das digitale Signal zum Beispiel durch einen Digital/Analog-Konverter (D/A-Konverter) 404 in analoge Form konvertiert wird und durch ein Tiefpassfilter (LPF) 406 geführt wird, um nur Niederfrequenzkomponenten durchzulassen. Somit wird ein analoges Signal berechnet oder in dem Speicher 414 gespeichert und in einem Spracherkennungsteil 416 zur Spracherkennung verwendet. Der Spracherkennungsteil 416 kann entweder ein als Hardwareanordnung installierter Prozessor oder ein Softwareverarbeitungsmodul sein, der gemäß einem Programm betrieben wird, das zum Beispiel in dem Speicher 414 gespeichert ist, der einen ROM und einen RAM enthält.
Der digitale Signalprozessor 200 kann entweder eine Signalverarbeitungsschaltung sein, die als Hardwareanordnung installiert ist, oder eine Signalverarbeitungsschaltung, die gemäß einem Softwareprogramm betrieben wird, das zum Beispiel in dem Speicher 202 gespeichert ist, der einen ROM und einen RAM enthält.
In 1 kann das Mikrofon-Array-System 100 einen Winkelbereich um die Richtung θ (= –π/2) der gewünschten Signalquelle (z. B. –π/2 ≤ θ < 0) als Tonempfangsbereich festlegen. Das System kann einen Winkelbereich um die Hauptunterdrückungsrichtung θ = +π/2 (z. B. +π/6 < θ ≤ +π/2) als Unterdrückungsbereich festlegen. Ferner kann das Mikrofon-Array-System 100 Winkelbereiche zwischen dem Tonempfangsbereich und dem Unterdrückungsbereich (z. B. 0 ≤ θ ≤ +π/6) als Übergangsbereiche festlegen.
3A und 3B zeigen ein Mikrofon-Array-System 100, das ein Rauschen auf relative Weise durch Rauschunterdrückung unter Verwendung der Anordnung des Arrays der Mikrofone MIC1 und MIC2 reduzieren kann.
Der digitale Signalprozessor 200 enthält Anordnungen für die schnelle Fourier-Transformation (FFT) 212 und 214, deren Eingänge mit den Ausgängen der Analog/Digital-Konverter (A/D-Konverter) 162 bzw. 164 gekoppelt sind, einen Synchronisationskoeffizientenerzeugungsteil 220 und einen Filterteil 300. In dieser Ausführungsform kann eine schnelle Fourier-Transformation für die Frequenzkonvertierung oder die orthogonale Transformation eingesetzt werden. Andere Funktionen, mit denen eine Frequenzkonvertierung möglich ist, wie etwa die diskrete Cosinustransformation oder Wavelet-Transformation, können auch verwendet werden.
Der Synchronisationskoeffizientenerzeugungsteil 220 enthält einen Phasendifferenzberechnungsteil 222 zum Berechnen der Phasendifferenz zwischen komplexen Spektren bei jeder Frequenz f und einen Synchronisationskoeffizientenberechnungsteil 224. Der Filterteil 300 enthält einen Synchronisationsteil 332 und einen Subtraktionsteil 334.
Die digitalen Zeitdomäneneingangssignale IN1(t) und IN2(t) von den Analog/Digital-Konvertern 162 und 164 werden den Eingängen der Anordnungen für die schnelle Fourier-Transformation (FFT) 212 bzw. 214 zugeführt. Die FFT-Anordnungen 212 und 214 haben eine bekannte Konstruktion und berechnen komplexe Spektren IN1(f) bzw. IN2(f) in der Frequenzdomäne durch Multiplizieren jedes Signalintervalls der digitalen Eingangssignale IN1(t) und IN2(t) mit einer Überlappungsfensterfunktion und Fourier-Transformation oder orthogonale Transformation der Produkte in Gleichung (2): N1(f) = A₁e^{j(2πft+φ1(f))} (f) = A₂e^{j(2πft+φ2(f))} (2) wobei f eine Frequenz ist. A₁ und A₂ sind Amplituden. j ist die imaginäre Einheit. φ1(f) und φ2(f) sind Verzögerungsphasen, die Funktionen der Frequenz f sind. Als Überlappungsfensterfunktion kann zum Beispiel eine Hamming-Fensterfunktion, Hanning-Fensterfunktion, Blackman-Fensterfunktion, eine Gaußsche Drei-Sigma-Fensterfunktion oder Dreieckfensterfunktion verwendet werden.
Der Phasendifferenzberechnungsteil 222 erhält die Phasendifferenz DIFF(f) (in rad) zwischen den Phasenspektralkomponenten, die die Richtung einer Tonquelle angibt, bei jeder Frequenz f der zwei benachbarten Mikrofone MIC1 und MIC2, die durch eine Distanz d voneinander beabstandet sind, unter Verwendung der folgenden Gleichung (3): DIFF(f) = tan^–1(IN2(f)/IN1(f)) = tan^–1((A₂e^{j(2πft+φ2(f))}/A₁e^{j(2πft+φ1(f))}) = tan^–1((A₂/(A₁)e^{j(φ2(f)-φ1(f))})
Eine Approximation kann vorgenommen werden, wenn nur eine Rauschquelle (oder Tonquelle) mit einer gewissen Frequenz f vorhanden ist. Wenn eine Approximation vorgenommen wird, wobei die Amplituden A₁ und A₂ der Eingangssignale für die Mikrofone MIC1 bzw. MIC2 gleich sind, ist es möglich, eine Gleichheit einzuführen, die gegeben ist durch (|IN1(f)| = |IN2(f)|). Es ist auch möglich, den Wert von A2/A1 durch Eins zu approximieren.
4 zeigt die Phasendifferenz DIFF(f) (–π ≤ DIFF(f) ≤ π) zwischen Phasenspektralkomponenten bei jeder Frequenz, die durch die Anordnung des Mikrofon-Arrays von 1 mit MIC1 und MIC2 induziert wird. Die Spektralkomponenten sind durch den Phasendifferenzberechnungsteil 222 berechnet worden.
Der Phasendifferenzberechnungsteil 222 führt den Wert der Phasendifferenz DIFF(f) der Phasenspektralkomponente bei jeder Frequenz f zwischen den zwei benachbarten Eingangssignalen IN1(f) und IN2(f) dem Synchronisationskoeffizientenberechnungsteil 224 zu.
Der Synchronisationskoeffizientenberechnungsteil 224 schätzt ein, dass bei der gewissen Frequenz f das Rauschen in dem Eingangssignal an der Position des Mikrofons MIC2 innerhalb des Unterdrückungsbereiches θ (z. B. +π/6 < θ ≤ +π/2) mit einer Verzögerung der Phasendifferenz DIFF(f) bezüglich desselben Rauschens in dem Eingangssignal für das Mikrofon MIC1 angekommen ist. In jedem Übergangsbereich θ (z. B. 0 ≤ θ ≤ +π/6) werden an der Position des Mikrofons MIC1 durch den Synchronisationskoeffizientenberechnungsteil 224 das Verfahren zum Verarbeiten in dem Tonempfangsbereich und der Rauschunterdrückungspegel in dem Unterdrückungsbereich allmählich verändert oder umgeschaltet.
Der Synchronisationskoeffizientenberechnungsteil 224 berechnet einen Synchronisationskoeffizienten C(f) gemäß der folgenden Formel auf der Basis der Phasendifferenz DIFF(f) zwischen den Phasenspektralkomponenten bei jeder Frequenz f.
Der Synchronisationskoeffizientenberechnungsteil 224 berechnet sukzessive Synchronisationskoeffizienten C(f) für jeden zeitlichen Analyserahmen (Fenster) i bei der schnellen Fourier-Transformation, wobei i (0, 1, 2, ...) eine Zahl ist, die eine zeitliche Ordnung jedes Analyserahmens angibt. Wenn die Phasendifferenz DIFF(f) einen Wert hat, der innerhalb eines Unterdrückungsbereiches liegt (z. B. +π/6 < θ ≤ +π/2), ist der Synchronisationskoeffizient C(f, i) = Cn(f, i). Wenn die anfängliche zeitliche Ordnung i = 0 ist, ist C(f, 0) = Cn(f, 0) = IN1(f, 0)/IN2(f, 0)
Wenn die zeitliche Ordnung i > 0 ist, ist C(f, i) = Cn(f, i) = αC(f, i – 1) + (1 – α)IN1(f, i)/IN2(f, i)
IN1(f, i)/IN2(f, i) ist das Verhältnis des komplexen Spektrums des Eingangssignals für das Mikrofon MIC1 zum komplexen Spektrum des Eingangssignals für das Mikrofon MIC2, d. h., es stellt das Amplitudenverhältnis und die Phasendifferenz dar. IN1(f, i)/IN2(f, i) kann den Kehrwert des Verhältnisses des komplexen Spektrums des Eingangssignals für das Mikrofon MIC2 zum komplexen Spektrum des Eingangssignals für das Mikrofon MIC1 verkörpern. α gibt das Verhältnis der Addition oder das Verhältnis der Kombination des Betrags der Verzögerungsphasenverschiebung des vorherigen Analyserahmens zur Synchronisation an und ist eine Konstante, die in dem Bereich von 0 ≤ α < 1 liegt. 1 – α gibt das Verhältnis der Kombination des Betrags der Verzögerungsphasenverschiebung des gegenwärtigen Analyserahmens an, das zur Synchronisation addiert wird. Der Synchronisationskoeffizient C(f, i) wird durch Addieren des Synchronisationskoeffizienten des vorherigen Analyserahmens und des Verhältnisses des komplexen Spektrums des Eingangssignals für das Mikrofon MIC1 zu dem komplexen Spektrum des Eingangssignals für das Mikrofon MIC2 für den gegenwärtigen Analyserahmen mit einem Verhältnis von α: (1 – α) erhalten.
Wenn die Phasendifferenz DIFF(f) einen Wert hat, der innerhalb des Tonempfangsbereiches liegt (z. B. –π/2 ≤ θ < 0), hat der Synchronisationskoeffizient die Beziehung:
C(f) = Cs(f)
C(f) = Cs(f) = exp(–j2πf/fs) oder
C(f) = Cs(f) = 0 (falls die synchronisierte Subtraktion nicht angewendet wird).
Wenn die Phasendifferenz DIFF(f) einen Wert hat, der einen Winkel θ (z. B. 0 ≤ θ ≤ +π/6) innerhalb eines Übergangsbereiches angibt, ist der Synchronisationskoeffizient C(f) (= Ct(f)) das gewichtete Mittel von Cs(f) von (a) und Cn(f) gemäß dem Winkel θ.
Das heißt: C(f) = Ct(f) = Cs(f) × (θ – θtmin)/(θtmax – θtmin) + Cn(f) × (θtmax – θ)/(θtmax – θtmin) wobei θtmax den Winkel der Grenze zwischen jedem Übergangsbereich und dem Unterdrückungsbereich angibt und θtmin den Winkel der Grenze zwischen jedem Übergangsbereich und dem Tonempfangsbereich angibt.
Auf diese Weise berechnet der Phasendifferenzberechnungsteil 222 den Synchronisationskoeffizienten C(f) gemäß den komplexen Spektren IN1(f) und IN2(f) und führt die komplexen Spektren IN1(f), IN2(f) und den Synchronisationskoeffizienten C(f) dem Filterteil 300 zu.
In dem Filterteil 300 führt der Synchronisationsabschnitt 332 eine Multiplikation aus, die durch die folgende Formel gegeben ist, um das komplexe Spektrum IN2(f) mit dem komplexen Spektrum IN1(f) zu synchronisieren, wobei ein synchronisiertes Spektrum INs2(f) wie in Gleichung (4) erzeugt wird: INs2(f) = C(f) × IN2 (f) (4)
Der Subtraktionsteil 334 berechnet ein komplexes Spektrum mit unterdrücktem Rauschen INd(f) durch Subtrahieren des komplexen Spektrums INs2(f), das mit einem Koeffizienten β(f) multipliziert wird, von dem komplexen Spektrum IN1(f) gemäß der folgenden Formel (5): INd(f) = IN1(f) – β(f) × INs2(f) (5) wobei der Koeffizient β(f) ein voreingestellter Wert ist, der innerhalb eines Bereiches liegt, der durch 0 ≤ β(f) ≤ 1 gegeben ist. Der Koeffizient β(f) ist eine Funktion der Frequenz f und wird verwendet, um den Grad einzustellen, auf den der Synchronisationskoeffizient reduziert wird. Der Koeffizient β(f) kann zum Beispiel so festgelegt werden, dass die Richtung, aus der der Ton innerhalb des Unterdrückungsbereiches ankommt, wie durch die Phasendifferenz DIFF(f) angegeben, größer als die Richtung ist, aus der der Ton innerhalb des Tonempfangsbereiches ankommt, um zum Beispiel das Rauschen weitgehend zu unterdrücken, das ein Ton ist, der aus dem Unterdrückungsbereich kommt, während die Erzeugung der Verzerrung eines Signals, das aus dem Tonempfangsbereich ankommt, unterdrückt wird.
Der digitale Signalprozessor 200 enthält ferner eine Anordnung für die inverse schnelle Fourier-Transformation (IFFT) 382, die das Spektrum INd(f) von dem Synchronisationskoeffizientenberechnungsteil 224 empfängt und eine inverse Fourier-Transformation und überlappende Addition mit dem Spektrum ausführt, wodurch ein Zeitdomänenausgangssignal INd(t) an der Position des Mikrofons MIC1 erzeugt wird.
Der Ausgang der IFFT-Anordnung 382 kann mit dem Eingang der folgenden Applikationshardwareanordnung 400 gekoppelt sein.
Das digitale Ausgangssignal INd(t) kann zum Beispiel zur Spracherkennung oder für Gespräche unter Verwendung von Funktelefonen verwendet werden. Das digitale Ausgangssignal INd(t) wird der folgenden Applikationshardwareanordnung 400 zugeführt, wo das digitale Signal zum Beispiel durch den Digital/Analog-Konverter 404 in analoge Form konvertiert wird und durch das Tiefpassfilter 406 geführt wird, um nur Niederfrequenzkomponenten durchzulassen. So wird ein analoges Signal berechnet oder in dem Speicher 414 gespeichert und in einem Spracherkennungsteil 416 zur Spracherkennung verwendet.
Die Komponenten 212, 214, 220–224, 300–334 und 382, die in 3A und 3B gezeigt sind, können in einer integrierten Schaltung inkorporiert sein oder durch Programmblöcke ersetzt werden, die durch den digitalen Signalprozessor (DSP) 200 ausgeführt werden, für den ein Programm geladen ist.
5 zeigt Operationen, die durch einen in 3A gezeigten digitalen Signalprozessor (DSP) 200 gemäß einem Programm ausgeführt werden, das in dem Speicher 202 gespeichert ist, um komplexe Spektren zu berechnen. Deshalb zeigt 5 Operationen, die zum Beispiel durch Komponenten 212, 214, 220, 300 und 382 ausgeführt werden, die in 3A gezeigt sind.
Unter Bezugnahme auf 3A und 5 akzeptiert der digitale Signalprozessor 200 (die Teile für die schnelle Fourier-Transformation 212 und 214) die zwei digitalen Eingangssignale IN1(t) und IN2(t) in der Zeitdomäne, die von den Analog/Digital-Konvertern 162 bzw. 164 zugeführt werden, bei Operation S502.
Bei Operation S504 multipliziert der digitale Signalprozessor 200 (die FFT-Teile 212 und 214) die zwei digitalen Eingangssignale IN1(t) und IN2(t) mit einer Überlappungsfensterfunktion.
Bei Operation S506 führt der digitale Signalprozessor 200 (die FFT-Teile 212 und 214) die Fourier-Transformation an den digitalen Eingangssignalen IN1(t) und IN2(t) aus, um komplexe Spektren IN1(f) und IN2(f) in der Frequenzdomäne zu berechnen.
Bei Operation S508 berechnet der digitale Signalprozessor 200 (der Phasendifferenzberechnungsteil 222 des Synchronisationskoeffizientenerzeugungsteils 220) die Phasendifferenz DIFF(f) zwischen den Spektren IN1(f) und IN2(f), d. h.: DIFF(f) = tan^–1(IN2(f)/(IN1/f)).
Bei Operation S510 berechnet der digitale Signalprozessor 200 (der Synchronisationskoeffizientenberechnungsteil 224 des Synchronisationskoeffizientenerzeugungsteils 220) das Verhältnis C(f) des komplexen Spektrums des Eingangssignals für das Mikrofon MIC1 zu dem komplexen Spektrum des Eingangssignals für das Mikrofon MIC2 auf der Basis der Phasendifferenz DIFF(f) gemäß Folgendem:

(a) Wenn die Phasendifferenz DIFF(f) einen Wert hat, der innerhalb des Unterdrückungswinkelbereiches liegt, kann der Synchronisationskoeffizient C(f, i) gegeben sein durch: C(f, i) = Cn(f, i) = αC(f, i – 1) + (1 – α)IN1(f, i)/IN2(f, i).
(b) Wenn die Phasendifferenz DIFF(f) einen Wert hat, der innerhalb des Tonempfangsbereiches liegt, kann der Synchronisationskoeffizient C(f) gegeben sein durch: C(f) = Cs(f) = exp(–j2πf/fs) oder C(f) = Cs(f) = 0.
(c) Wenn die Phasendifferenz DIFF(f) einen Wert hat, der innerhalb eines Übergangswinkelbereiches liegt, ist der Synchronisationskoeffizient C(f) (= Ct(f)) das gewichtete Mittel von Cs(f) und Cn(f).

Bei Operation S514 führt der digitale Signalprozessor 200 (der Synchronisationsteil 332 des Filterteils 300) eine Berechnung aus, die durch die Formel INs2(f) = C(f)IN2(f) gegeben ist, um das komplexe Spektrum IN2(f) mit dem komplexen Spektrum IN1(f) zu synchronisieren und das synchronisierte Spektrum INs2(f) zu berechnen.
Bei Operation S516 subtrahiert der digitale Signalprozessor 200 (der Subtraktionsteil 334 des Filterteils 300) das komplexe Spektrum INs2(f), das mit dem Koeffizienten β(f) multipliziert wird, von dem komplexen Spektrum IN1(f) (d. h.: INd(f) = IN1(f) – β(f) × INs2(f)), wodurch ein komplexes Spektrum mit unterdrücktem Rauschen INd(f) berechnet wird.
Bei Operation S518 akzeptiert der digitale Signalprozessor 200 (der Teil für die inverse schnelle Fourier-Transformation (IFFT) 382) das Spektrum INd(f) von dem Synchronisationskoeffizientenberechnungsteil 224, führt die inverse Fourier-Transformation an dem Spektrum aus, führt dessen überlappende Addition aus und berechnet ein Ausgangssignal INd(t) in der Zeitdomäne an der Position des Mikrofons MIC1.
Die Programmsteuerung kann zu Operation S502 zurückkehren. Die Operationen S502 bis S518 können während einer gegebenen Periode wiederholt werden, um Eingänge zu verarbeiten, die in einem gegebenen Zeitintervall erfolgen.
Gemäß einer beispielhaften Ausführungsform kann das Rauschen in Eingangssignalen auf relative Weise reduziert werden, indem Eingangssignale für die Mikrofone MIC1 und MIC2 in der Frequenzdomäne verarbeitet werden. Die Phasendifferenz kann durch das Verarbeiten von Eingangssignalen in der Frequenzdomäne mit höherer Genauigkeit als durch das Verarbeiten der Eingangssignale in der Zeitdomäne detektiert werden, wie zuvor beschrieben. Demzufolge kann Sprache mit reduziertem Rauschen und daher mit einer höheren Qualität berechnet werden. Das oben beschriebene Verfahren zum Verarbeiten von Eingangssignalen von den zwei Mikrofonen kann auf eine Kombination von zwei beliebigen Mikrofonen von mehreren Mikrofonen angewendet werden (siehe zum Beispiel 1).
Gemäß einer beispielhaften Ausführungsform würde in dem Fall, wenn aufgezeichnete Sprachdaten, die ein Hintergrundrauschen enthalten, verarbeitet werden, eine Unterdrückungsverstärkung von etwa 6 dB im Vergleich zu einer Unterdrückungsverstärkung von etwa 3 dB erhalten werden, die durch das herkömmliche Verfahren erreicht wird.
6A und 6B zeigen eine beispielhafte Möglichkeit der Festlegung eines Tonempfangsbereiches, eines Unterdrückungsbereiches und von Übergangsbereichen auf der Basis von Daten, die von dem Sensor 192 stammen, oder von eingetasteten Daten. Der Sensor 192 detektiert die Position des Körpers des Sprechers. Der Richtungsbestimmungsteil 194 kann den Tonempfangsbereich so festlegen, um den Körper des Sprechers gemäß der detektierten Position abzudecken. Der Richtungsbestimmungsteil 194 kann die Übergangsbereiche und den Unterdrückungsbereich gemäß dem Tonempfangsbereich festlegen. Informationen über die Festlegung werden dem Synchronisationskoeffizientenberechnungsteil 224 des Synchronisationskoeffizientenerzeugungsteils 220 zugeführt. Der Synchronisationskoeffizientenberechnungsteil 224 kann den Synchronisationskoeffizienten gemäß dem Tonempfangsbereich, dem Unterdrückungsbereich und den Übergangsbereichen, die festgelegt wurden, berechnen.
In 6A kann das Gesicht des Sprechers auf der linken Seite des Sensors 192 angeordnet sein. Der Sensor 192 detektiert die zentrale Position θ der Gesichtsregion A des Sprechers. Die zentrale Position wird zum Beispiel durch eine Winkelposition θ (= θ1 = –π/4) innerhalb des Tonempfangsbereiches dargestellt. In diesem Fall kann der Richtungsbestimmungsteil 194 den Winkelbereich für den empfangenen Ton auf der Basis der Daten (θ = θ1), die durch die Detektion erhalten werden, so festlegen, dass der Winkelbereich die gesamte Gesichtsregion A abdeckt und dass der Winkelbereich schmaler als der Winkel π ist. Der Richtungsbestimmungsteil 194 kann den gesamten Winkelbereich von jedem der Übergangsbereiche, die an den Tonempfangsbereich angrenzen, zum Beispiel auf einen gegebenen Winkel π/4 festlegen. Der Richtungsbestimmungsabschnitt 194 kann den gesamten Unterdrückungsbereich, der auf der gegenüberliegenden Seite des Tonempfangsbereiches angeordnet ist, auf den verbleibenden Winkel festlegen.
In 6B kann das Gesicht des Sprechers unter dem Sensor 192 oder auf dessen Vorderseite angeordnet sein. Der Sensor 192 detektiert die zentrale Position θ der Gesichtsregion A des Sprechers. Die zentrale Position wird zum Beispiel durch eine Winkelposition θ (= θ2 = 0) innerhalb des Tonempfangsbereiches dargestellt. In diesem Fall kann der Richtungsbestimmungsteil 194 den Winkelbereich für den empfangenen Ton auf der Basis der Daten (θ = θ2), die durch die Detektion erhalten werden, so festlegen, dass der Winkelbereich die gesamte Gesichtsregion A abdeckt und dass der Winkelbereich schmaler als der Winkel n ist. Der Richtungsbestimmungsteil 194 kann den gesamten Winkelbereich von jedem der Übergangsbereiche, die an den Tonempfangsbereich angrenzen, zum Beispiel auf einen gegebenen Winkel π/4 festlegen. Der Richtungsbestimmungsteil 194 kann den gesamten Unterdrückungsbereich, der auf der gegenüberliegenden Seite des Tonempfangsbereiches angeordnet ist, auf den verbleibenden Winkel festlegen. Anstelle der Position des Gesichtes kann die Position des Körpers des Sprechers detektiert werden.
Wenn der Sensor 192 eine Digitalkamera ist, erkennt der Richtungsbestimmungsteil 194 Bilddaten, die von der Digitalkamera akzeptiert werden, durch eine Bilderkennungstechnik und beurteilt die Gesichtsregion A und ihre zentrale Position θ. Der Richtungsbestimmungsteil 194 kann den Tonempfangsbereich, die Übergangsbereiche und den Unterdrückungsbereich auf der Basis der Gesichtsregion A und ihrer zentralen Position θ festlegen.
Auf diese Weise kann der Richtungsbestimmungsteil 194 den Tonempfangsbereich, den Unterdrückungsbereich und die Übergangsbereiche gemäß der Position des Gesichtes oder des Körpers des Sprechers, die durch den Sensor 192 detektiert wurde, variabel festlegen. Alternativ dazu kann der Richtungsbestimmungsteil 194 den Tonempfangsbereich, den Unterdrückungsbereich und die Übergangsbereiche als Antwort auf manuelle Tasteneingaben variabel festlegen. Durch derartiges variables Festlegen des Tonempfangsbereiches und des Unterdrückungsbereiches kann der Tonempfangsbereich so schmal wie möglich gemacht werden. Demzufolge kann ein unerwünschtes Rauschen bei jeder Frequenz in dem Unterdrückungsbereich, der so weit wie möglich gemacht wird, unterdrückt werden.
Die Ausführungsformen können mit Rechenhardware (Rechenvorrichtung) und/oder Software implementiert werden, wie etwa (bei einem nichtbeschränkenden Beispiel) mit einem Computer, der Daten speichern, heraussuchen, verarbeiten und/oder ausgeben kann und/oder mit anderen Computern kommunizieren kann. Die erzeugten Resultate können an einem Display der Rechenhardware angezeigt werden. Ein Programm/eine Software, die die Ausführungsformen implementieren, können auf computerlesbaren Medien aufgezeichnet sein, die computerlesbare Aufzeichnungsmedien umfassen. Das Programm/die Software, die die Ausführungsformen implementieren, können auch über Übertragungskommunikationsmedien übertragen werden. Beispiele für die computerlesbaren Aufzeichnungsmedien enthalten eine Magnetaufzeichnungsvorrichtung, eine optische Platte, eine magneto-optische Platte und/oder einen Halbleiterspeicher (zum Beispiel einen RAM, ROM, etc.). Beispiele für die Magnetaufzeichnungsvorrichtung enthalten eine Festplattenanordnung (HDD), eine flexible Platte (FD) und ein Magnetband (MT). Beispiele für die optische Platte enthalten eine DVD (digitale Mehrzweckplatte), eine DVD-RAM, eine CD-ROM (Kompaktplatten-Nur-Lese-Speicher) und eine CD-R (beschreibbar)/RW. Ein Beispiel für Kommunikationsmedien enthält ein Trägerwellensignal.
Ferner können gemäß einem Aspekt der Ausführungsformen beliebige Kombinationen der beschriebenen Merkmale, Funktionen und/oder Operationen vorgesehen werden.
Die vielen Merkmale und Vorteile der Ausführungsformen sind aus der eingehenden Beschreibung ersichtlich, und somit sollen durch die beigefügten Ansprüche all jene Merkmale und Vorteile der Ausführungsformen abgedeckt werden, die in deren Grundgedanken und Umfang fallen. Da die Fachwelt ferner ohne weiteres auf zahlreiche Abwandlungen und Veränderungen kommen wird, sollen die erfinderischen Ausführungsformen nicht auf die gezeigte und beschriebene exakte Konstruktion und Operation beschränkt sein, und somit können alle geeigneten Abwandlungen und Äquivalente als in deren Umfang fallend interpretiert werden.

Claims

Signalverarbeitungseinheit mit: einem Orthogonaltransformierungsteil (212, 214), der wenigstens zwei Toneingangsteile enthält, die Eingangstonsignale (entsprechend Eingangssignalen IN1(t) und IN2(t)) auf einer Zeitachse empfangen, welcher Orthogonaltransformierungsteil (212, 214) zwei der Eingangstonsignale (entsprechend Eingangssignalen IN1(t) und IN2(t)) in jeweilige Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) auf einer Frequenzachse transformiert; einem Phasendifferenzberechnungsteil (222), der eine Phasendifferenz (DIFF(f)) zwischen den zwei Spektralsignalen (entsprechend komplexen Spektren IN1(f) und IN2(f)) auf der Frequenzachse erhält, bei der die Phasendifferenz eine Ankunftsrichtung des Tons an den zwei Toneingangsteilen angibt, die die Eingangstonsignale (entsprechend Eingangssignalen IN1(t) und IN2(t)) empfangen; einem Synchronisationskoeffizientenberechnungsteil (224), der einen Synchronisationskoeffizienten (C(f)), der einen Betrag der Phasenverschiebung jeder Komponente eines ersten (entsprechend einem komplexen Spektrum IN2(f)) der beiden Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) bei jeder Frequenz anzeigt, in Abhängigkeit davon berechnet, ob die Phasendifferenz (DIFF(f)) entweder einer Richtung, aus der ein gewünschtes Signal kommt, oder einer Richtung entspricht, aus der Rauschen kommt; und einem Filterteil (300), der jede Komponente des ersten (entsprechend einem komplexen Spektrum IN2(f)) der zwei Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) auf der Basis des Synchronisationskoeffizienten (C(f)) synchronisiert, um ein synchronisiertes Spektralsignal (entsprechend einem synchronisierten Spektrum INs2(f)) zu berechnen, und das in Phase gebrachte Spektralsignal (entsprechend einem synchronisierten Spektrum INs2(f)) und ein zweites (entsprechend einem komplexen Spektrum IN1(f)) der zwei Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) zu einem kombiniert, um ein gefiltertes Spektralsignal (entsprechend einem rauschunterdrückten Spektrum INd(f)) zu berechnen.
Signalverarbeitungseinheit nach Anspruch 1, bei der dann, wenn die Phasendifferenz der Richtung entspricht, aus der das Rauschen kommt, der Synchronisationskoeffizientenberechnungsteil (224) den Synchronisationskoeffizienten (C(f)) auf der Basis eines Verhältnisses zwischen den zwei Spektralsignalen (entsprechend komplexen Spektren IN1(f) und IN2(f)) bei jedem Zeitrahmen bei jeder Frequenz berechnet.
Signalverarbeitungseinheit nach Anspruch 1, bei der dann, wenn die Phasendifferenz der Richtung entspricht, aus der das gewünschte Signal kommt, der Synchronisationskoeffizientenberechnungsteil (224) den Synchronisationskoeffizienten (C(f)) zu einem konstanten Wert macht, oder zu einer Funktion, die die Phasendifferenz proportional zu einer Frequenz angibt.
Signalverarbeitungseinheit nach einem der Ansprüche 1 bis 3, bei der der Filterteil (300) das gegebene Verhältnis in Abhängigkeit davon berechnet, ob die Phasendifferenz der Richtung entspricht, aus der das gewünschte Signal kommt, oder der Richtung, aus der das Rauschen kommt, und das gefilterte Spektralsignal (entsprechend einem rauschunterdrückten Spektrum INd(f)) durch Subtrahieren des gegebenen Verhältnisses des in Phase gebrachten Spektralsignals (entsprechend einem synchronisierten Spektrum INs2(f)) von dem zweiten Spektralsignal (entsprechend einem komplexen Spektrum IN1(f)) der zwei Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) berechnet.
Signalverarbeitungseinheit nach einem der Ansprüche 1 bis 3, bei der der Synchronisationskoeffizientenberechnungsteil (224) einen Bereich von Richtungen, aus dem das gewünschte Signal kommt, auf der Basis von Informationen festlegt, die eine Richtung eines Sprechers angeben, wobei der Bereich von Richtungen den gegebenen Bereich hinsichtlich der Phasendifferenz angibt.
Signalverarbeitungsverfahren zum Bewirken, dass ein Computer als Signalverarbeitungseinheit fungiert, durch welches Signalverarbeitungsverfahren der Computer ausführt: Transformieren von zweien der Tonsignale (entsprechend Eingangssignalen IN1(t) und IN2(t)), die von den wenigstens zwei Toneingangsteilen auf einer Zeitachse eingegeben werden, in jeweilige Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) auf einer Frequenzachse durch einen Orthogonaltransformierungsteil (212, 214), der wenigstens zwei Toneingangsteile des Computers enthält, wobei die Phasendifferenz eine Ankunftsrichtung des Tons an den zwei Toneingangsteilen angibt, die die Eingangstonsignale (entsprechend Eingangssignalen IN1(t) und IN2(t)) empfangen; Berechnen einer Phasendifferenz zwischen den transformierten zwei Spektralsignalen (entsprechend komplexen Spektren IN1(f) und IN2(f)) auf der Frequenzachse durch den Computer; Berechnen eines Synchronisationskoeffizienten (C(f)), der einen Betrag der Phasenverschiebung jeder Komponente eines ersten (entsprechend einem komplexen Spektrum IN2(f)) der beiden Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) bei jeder Frequenz anzeigt, in Abhängigkeit davon, ob die Phasendifferenz einer Richtung, aus der ein gewünschtes Signal kommt, oder einer Richtung entspricht, aus der Rauschen kommt; und Synchronisieren jeder Komponente des ersten Spektralsignals (entsprechend einem komplexen Spektrum IN2(f)) der zwei Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) bei jeder Frequenz, Berechnen eines synchronisierten Spektralsignals (entsprechend einem synchronisierten Spektrum INs2(f)), Zusammensetzen des synchronisierten Spektralsignals (entsprechend einem synchronisierten Spektrum INs2(f)) und eines zweiten Spektralsignals (entsprechend einem komplexen Spektrum IN1(f)) der zwei Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) und Berechnen eines gefilterten Spektralsignals (entsprechend einem rauschunterdrückten Spektrum INd(f)) durch den Computer.