DE102010023615A1

DE102010023615A1 - Signalverarbeitungsvorrichtung und Signalverarbeitungsverfahren

Info

Publication number: DE102010023615A1
Application number: DE102010023615A
Authority: DE
Inventors: Naoshi Kawasaki-shi Matsuo
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-06-23
Filing date: 2010-06-14
Publication date: 2011-01-05
Anticipated expiration: 2030-06-15
Also published as: JP2011007861A; US20100322437A1; JP5272920B2; DE102010023615B4; US8638952B2

Abstract

Es ist eine Signalverarbeitungsvorrichtung zum Unterdrücken von Geräusch vorgesehen, die einen ersten Rechner enthält, um eine Phasendifferenz zwischen zwei Spektralsignalen in einer Frequenzdomäne zu erhalten, die von Tonsignalen transformiert wurden, die durch wenigstens zwei Mikrofone empfangen wurden, um eine Tonquelle durch die Phasendifferenz zu schätzen, einen zweiten Rechner, um einen Wert zu erhalten, der eine Zielsignalwahrscheinlichkeit darstellt, und einen Tonunterdrückungsphasendifferenzbereich bei jeder Frequenz, bei der ein Tonsignal unterdrückt wird, auf der Basis der Zielsignalwahrscheinlichkeit zu bestimmen, sowie ein Filter. Das Filter erzeugt ein synchronisiertes Spektralsignal, indem jede Frequenzkomponente von einem der zwei Spektralsignale mit jeder Frequenzkomponente von dem anderen der zwei Spektralsignale bei jeder Frequenz synchronisiert wird, wenn die Phasendifferenz innerhalb des Tonunterdrückungsphasendifferenzbereichs liegt, und erzeugt ein gefiltertes Spektralsignal.

Description

GEBIET
Die hierin diskutierten Ausführungsformen betreffen die Geräuschunterdrückungsverarbeitung, die an einem Tonsignal ausgeführt wird, und im Besonderen die Geräuschunterdrückungsverarbeitung, die an einem Frequenzdomänentonsignal ausgeführt wird.
HINTERGRUND
Mikrofonarrays, die wenigstens zwei Mikrofone enthalten, empfangen den Ton, konvertieren den Ton in Tonsignale und verarbeiten die Tonsignale, um einen Tonempfangsbereich in einer Richtung einer Quelle des Zieltons festzulegen oder die Richtwirkung zu steuern. Als Resultat kann solch ein Mikrofonarray eine Geräuschunterdrückung oder Zieltonhervorhebung ausführen.
Um ein S/R-(Signal-Rausch)-Verhältnis zu verbessern, steuern Mikrofonarrayvorrichtungen, die offenbart sind in "Microphone Array", The Journal of the Acoustical Society of Japan, Bd. 51, Nr. 5, S. 384–414, 1995, die Richtwirkung und führen eine Subtraktionsverarbeitung oder Additionsverarbeitung auf der Basis der Zeitdifferenz zwischen Signalen aus, die durch eine Vielzahl von Mikrofonen empfangen werden. Als Resultat ist es möglich, ein unnötiges Geräusch, das in einer Schallwelle enthalten ist, die aus einer Tonunterdrückungsrichtung gesendet wird, oder aus einer Richtung, die sich von einer Zieltonempfangsrichtung unterscheidet, zu unterdrücken und den Zielton hervorzuheben, der in einer Schallwelle enthalten ist, die aus einer Tonhervorhebungsrichtung oder der Zieltonempfangsrichtung gesendet wird.
In einer Spracherkennungsvorrichtung, die in der japanischen offengelegten Patentveröffentlichung Nr. 58-181099 offenbart ist, enthält eine Konvertierungseinheit wenigstens zwei Spracheingabeeinheiten zum Konvertieren von Ton in ein elektrisches Signal, nämlich eine erste Spracheingabeeinheit und eine zweite Spracheingabeeinheit. Die ersten und zweiten Spracheingabeeinheiten sind in vorbestimmten Abständen in der Nähe eines Sprechers getrennt angeordnet. Ein erstes Filter extrahiert ein Sprachsignal, das eine vorbestimmte Frequenzbandkomponente hat, aus einem Spracheingabesignal, das von der ersten Spracheingabeeinheit ausgegeben wird. Ein zweites Filter extrahiert ein Sprachsignal, das eine vorbestimmte Frequenzbandkomponente hat, aus einem Spracheingabesignal, das von der zweiten Spracheingabeeinheit ausgegeben wird. Eine Korrelationsberechnungseinheit berechnet die Korrelation zwischen den durch die ersten und zweiten Filter extrahierten Sprachsignalen. Eine Sprachbestimmungseinheit bestimmt auf der Basis eines Resultats der Berechnung, die durch die Korrelationsberechnungseinheit ausgeführt wird, ob ein Sprachsignal, das von der Konvertierungseinheit ausgegeben wird, ein Signal ist, das auf dem Ton basiert, der von dem Sprecher ausgegeben wird, oder ein Signal ist, das auf Geräusch basiert.
In einer Vorrichtung, die offenbart ist in der japanischen offengelegten Patentveröffentlichung Nr. 11-298988 zum Steuern einer Richtwirkungscharakteristik eines Mikrofons, das in einer Spracherkennungsvorrichtung angeordnet ist, die in einem Fahrzeug verwendet wird, ist eine Vielzahl von Mikrofonen zum Empfangen einer ebenen Schallwelle in einer Linie in regelmäßigen Abständen angeordnet. Eine Mikrofonschaltung verarbeitet Signale, die von diesen Mikrofonen ausgegeben werden, und steuert die Richtwirkungscharakteristiken dieser Mikrofone auf der Basis der Differenz zwischen den Phasen von ebenen Schallwellen, die diesen Mikrofonen eingegeben werden, so dass eine Empfindlichkeit eine Spitze in einer Richtung eines Sprechers und eine Einsattlung in einer Geräuschankunftsrichtung hat.
In einer Zoom-Mikrofonvorrichtung, die in dem japanischen Patent Nr. 4138290 offenbart ist, konvertiert eine Tonaufnahmeeinheit eine Schallwelle in ein Sprachsignal. Eine Zoom-Steuereinheit gibt ein Zoom-Positionssignal entsprechend einer Zoom-Position aus. Eine Richtwirkungssteuereinheit verändert die Richtwirkungscharakteristik der Zoom-Mikrofonvorrichtung auf der Basis des Zoom-Positionssignals. Eine Schätzeinheit schätzt die Frequenzkomponente des Hintergrundgeräuschs, das in dem durch die Tonaufnahmeeinheit konvertierten Sprachsignal enthalten ist. Auf der Basis eines Resultats der durch die Schätzeinheit ausgeführten Schätzung stellt eine Geräuschunterdrückungseinheit den Unterdrückungsbetrag gemäß dem Zoom-Positionssignal ein und unterdrückt das Hintergrundgeräusch. Bei Teleskopbetrieb verändert die Richtwirkungssteuereinheit die Richtwirkungscharakteristik so, dass der Zielton hervorgehoben wird und der Unterdrückungsbetrag des in einem Sprachsignal enthaltenen Hintergrundgeräuschs größer als jener bei Weitwinkelbetrieb ist.
Eine Tonsignalverarbeitungsvorrichtung, die eine Vielzahl von Toneingabeeinheiten enthält, verarbeitet jedes Tonsignal in der Zeitdomäne und führt eine Abtastverzögerungsverarbeitung und Subtraktionsverarbeitung an dem Tonsignal aus, um eine Richtung, die zu einer Zieltonempfangsrichtung entgegengesetzt ist, als Unterdrückungsrichtung festzulegen. Als Resultat ist es möglich, ein Geräusch, das aus der Unterdrückungsrichtung gesendet wird, ausreichend zu unterdrücken. Wenn es sich beispielsweise jedoch um eine Vielzahl von Ankunftsrichtungen von Hintergrundgeräusch handelt, wie etwa beim Fahrgeräusch in einem Auto oder beim Geräusch in einer Menschenmenge, kommt das Hintergrundgeräusch von einer Vielzahl von Positionen in einer Tonunterdrückungsrichtung, variieren diese Positionen mit der Zeit und variiert eine Tonquellenrichtung gemäß der Differenz zwischen den Charakteristiken der Toneingabeeinheiten. Daher ist es unmöglich, das Geräusch ausreichend zu unterdrücken.
ZUSAMMENFASSUNG
Daher ist es eine Aufgabe unter einem Aspekt der Erfindung, eine Signalverarbeitungsvorrichtung und ein Signalverarbeitungsverfahren vorzusehen, um das Geräusch zu reduzieren, das aus einer Vielzahl von Richtungen gesendet wird, und ein Signal zu erzeugen.
Gemäß einem Aspekt der Erfindung enthält eine Signalverarbeitungsvorrichtung zum Unterdrücken eines Geräuschs unter Verwendung zweier Spektralsignale in einer Frequenzdomäne, die von Tonsignalen transformiert wurden, die durch wenigstens zwei Mikrofone empfangen wurden, einen ersten Rechner, um eine Phasendifferenz zwischen den zwei Spektralsignalen zu erhalten und eine Tonquellenrichtung durch die Phasendifferenz zu schätzen, einen zweiten Rechner, um einen Wert zu erhalten, der eine Zielsignalwahrscheinlichkeit darstellt, und einen Tonunterdrückungsphasendifferenzbereich, in dem ein Tonsignal unterdrückt wird, auf der Basis der Zielsignalwahrscheinlichkeit zu bestimmen, sowie ein Filter. Das Filter erzeugt ein synchronisiertes Spektralsignal durch Synchronisieren jeder Frequenzkomponente von einem der Spektralsignale mit jeder Frequenzkomponente von dem anderen der Spektralsignale für jede Frequenz, wenn die Phasendifferenz innerhalb des Tonunterdrückungsphasendifferenzbereichs liegt, und erzeugt ein gefiltertes Spektralsignal durch Subtrahieren des synchronisierten Spektralsignals von dem anderen der Spektralsignale oder Addieren des synchronisierten Spektralsignals zu dem anderen der Spektralsignale.
Es versteht sich, dass sowohl die obige allgemeine Beschreibung als auch die folgende eingehende Beschreibung beispielhaft und erläuternd sind und die Erfindung, wie sie beansprucht wird, nicht beschränken.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Diagramm, das die Anordnung eines Arrays von wenigstens zwei Mikrofonen, die Toneingabeeinheiten sind, gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
2 ist ein schematisches Diagramm, das eine Konfiguration einer Mikrofonarrayvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung zeigt, welche die in 1 gezeigten Mikrofone enthält;
3A und 3B sind schematische Diagramme, die eine Konfiguration der Mikrofonarrayvorrichtung zeigen, mit der das Geräusch relativ reduziert werden kann, indem das Geräusch mit der Anordnung des Arrays der Mikrofone, das in 1 gezeigt ist, unterdrückt wird;
4A ist ein Diagramm, das einen beispielhaften Festlegungszustand eines Tonempfangsbereichs, eines Unterdrückungsbereichs und eines Umstellbereichs zeigt, wenn eine Zieltonwahrscheinlichkeit die höchste ist;
4B ist ein Diagramm, das einen beispielhaften Festlegungszustand eines Tonempfangsbereichs, eines Unterdrückungsbereichs und eines Umstellbereichs zeigt, wenn eine Zieltonwahrscheinlichkeit die niedrigste ist;
5 ist ein Diagramm, das einen beispielhaften Fall zeigt, bei dem der Wert einer Zieltonwahrscheinlichkeit gemäß dem Pegel eines digitalen Eingangssignals bestimmt wird;
6A bis 6C sind Diagramme, die die Beziehungen zwischen einer Phasendifferenz für jede Frequenz zwischen Phasenspektralkomponenten, die durch einen Phasendifferenzberechner berechnet wird, und jeweils einem Tonempfangsbereich, einem Unterdrückungsbereich und einem Umstellbereich zeigen, die bei verschiedenen Zieltonwahrscheinlichkeiten erhalten werden, wenn Mikrofone so wie in 1 angeordnet sind;
7 ist ein Flussdiagramm, das einen Erzeugungsprozess eines komplexen Spektrums zeigt, der durch einen digitalen Signalprozessor (DSP), der in 3A gezeigt ist, gemäß einem in einem Speicher gespeicherten Programm ausgeführt wird;
8A und 8B sind Diagramme, die die Zustände der Festlegung eines Tonempfangsbereichs, eines Unterdrückungsbereichs und eines Umstellbereichs zeigen, die auf der Basis von Daten, die durch einen Sensor erhalten werden, oder von manuell eingegebenen Daten ausgeführt wird;
9 ist ein Flussdiagramm, das einen anderen Erzeugungsprozess eines komplexen Spektrums zeigt, der durch den in 3A gezeigten digitalen Signalprozessor gemäß einem in einem Speicher gespeicherten Programm ausgeführt wird; und
10 ist ein Diagramm, das einen anderen beispielhaften Fall zeigt, bei dem der Wert einer Zieltonwahrscheinlichkeit gemäß dem Pegel eines digitalen Eingangssignals bestimmt wird.
BESCHREIBUNG VON AUSFÜHRUNGSFORMEN
Es versteht sich, dass sowohl die obige allgemeine Beschreibung als auch die folgende eingehende Beschreibung beispielhaft und erläuternd sind und die Erfindung nicht beschränken. Eine Ausführungsform der vorliegenden Erfindung wird unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben. In den Zeichnungen sind gleiche oder entsprechende Teile mit gleichen oder entsprechenden Bezugszeichen versehen.
1 ist ein Diagramm, das die Anordnung eines Arrays von wenigstens zwei Mikrofonen MIC1 und MIC2, die Toneingabeeinheiten sind, gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
Eine Vielzahl von Mikrofonen, die die Mikrofone MIC1 und MIC2 enthalten, ist im Allgemeinen in einer vorbestimmten Distanz d in einer geraden Linie getrennt voneinander angeordnet. Bei diesem Beispiel sind wenigstens zwei benachbarte Mikrofone, nämlich die Mikrofone MIC1 und MIC2, mit der Distanz d in einer geraden Linie getrennt voneinander angeordnet. Unter der Bedingung, dass das Abtasttheorem erfüllt wird, wie später beschrieben, darf die Distanz zwischen benachbarten Mikrofonen variieren. In einer Ausführungsform der vorliegenden Erfindung wird der beispielhafte Fall beschrieben, bei dem zwei Mikrofone, nämlich die Mikrofone MIC1 und MIC2, verwendet werden.
Unter Bezugnahme auf 1 liegt eine Zieltonquelle SS auf einer Linie, die die Mikrofone MIC1 und MIC2 miteinander verbindet. Die Zieltonquelle SS befindet sich auf der Seite des Mikrofons MIC1. Eine Richtung auf der Seite der Zieltonquelle SS ist eine Tonempfangsrichtung oder eine Zielrichtung des Arrays der Mikrofone MIC1 und MIC2. Die Zieltonquelle SS, von der der zu empfangende Ton ausgegeben wird, ist typischerweise der Mund eines Sprechers, und eine Tonempfangsrichtung ist eine Richtung auf der Seite des Mundes des Sprechers. Ein gewisser Winkelbereich in einer Tonempfangswinkelrichtung kann als Tonempfangswinkelbereich Rs festgelegt werden. Eine Richtung, die der Tonempfangsrichtung gegenüberliegt, wie in 1 gezeigt, kann als Hauptunterdrückungsrichtung von Geräusch festgelegt werden, und ein gewisser Winkelbereich in einer Hauptunterdrückungswinkelrichtung kann als Unterdrückungswinkelbereich Rn von Geräusch festgelegt werden. Der Unterdrückungswinkelbereich Rn von Geräusch kann für jede Frequenz f festgelegt werden.
Die Distanz d zwischen den Mikrofonen MIC1 und MIC2 sollte das Abtasttheorem oder das Nyquist-Theorem erfüllen, das heißt die Bedingung, dass die Distanz d < c/fs ist, wobei c eine Schallgeschwindigkeit ist und fs eine Abtastfrequenz ist. Unter Bezugnahme auf 1 ist die Richtwirkungscharakteristik oder das Richtwirkungsmuster (zum Beispiel eine Nieren-Richtcharakteristik) des Arrays der Mikrofone MIC1 und MIC2 durch eine geschlossene gestrichelte Kurve dargestellt. Ein Eingangstonsignal, das durch das Array der Mikrofone MIC1 und MIC2 empfangen und verarbeitet wird, hängt von einem Schallwelleneinfallswinkel θ in einem Bereich von –π/2 bis +π/2 in Bezug auf die gerade Linie ab, auf der die Mikrofone MIC1 und MIC2 angeordnet sind, und hängt nicht von einer Einfallsrichtung, in einem Bereich von 0 bis 2π, in der Richtung des Radius einer Ebene ab, die zu der geraden Linie, auf der die Mikrofone MIC1 und MIC2 angeordnet sind, senkrecht ist.
Nachdem eine Verzögerungszeit τ = d/c seit der Detektion des Tons oder der Sprache der Zieltonquelle SS, die durch das Mikrofon MIC1 auf der linken Seite erfolgt, abgelaufen ist, detektiert das Mikrofon MIC2 auf der rechten Seite den Ton oder die Sprache der Zieltonquelle SS. Andererseits erfolgt nach Ablauf der Verzögerungszeit τ = d/c seit der Detektion eines Geräuschs N1 aus der Hauptunterdrückungsrichtung, die durch das Mikrofon MIC2 auf der rechten Seite erfolgt, die Detektion des Geräuschs N1 durch das Mikrofon MIC1 auf der linken Seite. Nachdem eine Verzögerungszeit τ = (d × sinθ)/c seit der Detektion eines Geräuschs N2 aus einer verschiedenen Unterdrückungsrichtung in dem Unterdrückungswinkelbereich Rn abgelaufen ist, die durch das Mikrofon MIC2 auf der rechten Seite erfolgt, detektiert das Mikrofon MIC1 auf der linken Seite das Geräusch N2. Ein Winkel θ stellt eine angenommene Ankunftsrichtung des Geräuschs N2 in der Unterdrückungsrichtung dar. Unter Bezugnahme auf 1 stellt eine Strichpunktlinie die Wellenfront des Geräuschs N2 dar. Die Ankunftsrichtung des Geräuschs N1 im Falle von θ = +π/2 ist die Hauptunterdrückungsrichtung eines Eingangssignals.
In einem gewissen Mikrofonarray ist es möglich, das Geräusch N1, das aus der Hauptunterdrückungsrichtung (θ = +π/2) gesendet wird, zu unterdrücken, indem ein Eingangssignal IN2(t), das durch das Mikrofon MIC2 auf der rechten Seite empfangen wird, von einem Eingangssignal IN1(t), das durch das Mikrofon MIC1 auf der linken Seite empfangen wird, subtrahiert wird. Nachdem die Verzögerungszeit τ = d/c seit der Eingabe des Eingangssignals IN1(t) in das Mikrofon MIC1 abgelaufen ist, wird hier das Eingangssignal IN2(t) dem Mikrofon MIC2 eingegeben. In solch einem Mikrofonarray ist es jedoch unmöglich, das Geräusch N2, das aus einer Winkelrichtung (0 < θ < +π/2) gesendet wird, die sich von der Hauptunterdrückungsrichtung unterscheidet, ausreichend zu unterdrücken.
Der Erfinder hat erkannt, dass es möglich ist, das Geräusch N2, das in einem Tonsignal enthalten ist, das aus einer Richtung in dem Unterdrückungswinkelbereich Rn gesendet wird, ausreichend zu unterdrücken, indem die Phase von einem der Spektren der Eingangstonsignale der Mikrofone MIC1 und MIC2 mit der Phase von dem anderen der Spektren für jede Frequenz gemäß der Phasendifferenz zwischen den zwei Eingangstonsignalen synchronisiert wird und die Differenz zwischen einem der Spektren und dem anderen der Spektren berechnet wird. Ferner hat der Erfinder erkannt, dass es möglich ist, die Verzerrung eines Tonsignals mit unterdrücktem Geräusch zu reduzieren, indem die Zieltonsignalwahrscheinlichkeit eines Eingangstonsignals für jede Frequenz bestimmt wird und der Unterdrückungswinkelbereich Rn auf der Basis eines Resultats der Bestimmung verändert wird.
2 ist ein schematisches Diagramm, das eine Konfiguration einer Mikrofonarrayvorrichtung 100 gemäß einer Ausführungsform der vorliegenden Erfindung zeigt, die die Mikrofone MIC1 und MIC2 enthält, die in 1 gezeigt sind. Die Mikrofonarrayvorrichtung 100 enthält die Mikrofone MIC1 und MIC2, Verstärker 122 und 124, Tiefpassfilter (LPFs) 142 und 144, Analog-Digital-Konverter 162 und 164, einen digitalen Signalprozessor (DSP) 200 und einen Speicher 202, der zum Beispiel einen RAM enthält. Die Mikrofonarrayvorrichtung 100 kann eine Informationsvorrichtung sein, wie etwa eine Vorrichtung an Bord eines Fahrzeugs mit Spracherkennungsfunktion, eine Autonavigationsvorrichtung, ein Freisprechtelefon oder ein Mobiltelefon.
Die Mikrofonarrayvorrichtung 100 kann mit einem Sprecherrichtungsdetektionssensor 192 und einem Richtungsbestimmer 194 verbunden sein oder die Funktionen dieser Komponenten haben. Ein Prozessor 10 und ein Speicher 12 können in einer einzelnen Vorrichtung, die eine Nutzungsanwendung 400 enthält, oder in einer anderen Informationsverarbeitungsvorrichtung enthalten sein. Der Sprecherrichtungsdetektionssensor 192 kann zum Beispiel eine Digitalkamera, ein Ultraschallsensor oder ein Infrarotsensor sein. Der Richtungsbestimmer 194 kann in dem Prozessor 10 enthalten sein, der gemäß einem in dem Speicher 12 gespeicherten Richtungsbestimmungsprogramm arbeitet.
Die Mikrofone MIC1 und MIC2 konvertieren Schallwellen in analoge Eingangssignale INa1 bzw. INa2. Die analogen Eingangssignale INa1 und INa2 werden durch die Verstärker 122 bzw. 124 verstärkt. Die verstärkten analogen Eingangssignale INa1 und INa2 werden von den Verstärkern 122 und 124 ausgegeben und dann den Tiefpassfiltern 142 bzw. 144 zugeführt, die eine Grenzfrequenz fc (zum Beispiel 3,9 kHz) haben und in denen eine Tiefpassfilterung für die Abtastung, die in nachfolgenden Stufen auszuführen ist, ausgeführt wird. Obwohl nur Tiefpassfilter verwendet werden, können Bandpassfilter oder Tiefpassfilter in Kombination mit Hochpassfiltern verwendet werden.
Analoge Signale INp1 und INp2, die durch das Filtern erhalten und von den Tiefpassfiltern 142 und 144 ausgegeben werden, werden in den Analog-Digital-Konvertern 162 bzw. 164 mit der Abtastfrequenz fs (zum Beispiel 8 kHz) (fs > 2fc) dann in digitale Eingangssignale IN1(t) und IN2(t) konvertiert. Die digitalen Zeitdomäneneingangssignale IN1(t) und IN2(t), die von den Analog-Digital-Konvertern 162 bzw. 164 ausgegeben werden, werden dann dem digitalen Signalprozessor 200 eingegeben.
Der digitale Signalprozessor 200 konvertiert die digitalen Zeitdomäneneingangssignale IN1(t) und IN2(t) in digitale Frequenzdomäneneingangssignale oder komplexe Spektren IN1(f) und IN2(f), indem zum Beispiel die Fourier-Transformation unter Verwendung des Speichers 202 ausgeführt wird. Ferner verarbeitet der digitale Signalprozessor 200 die digitalen Eingangssignale IN1(f) und IN2(f), um die Geräusche N1 und N2 zu unterdrücken, die aus Richtungen in dem Geräuschunterdrückungswinkelbereich Rn gesendet werden, der nachfolgend einfach als Unterdrückungsbereich Rn bezeichnet wird. Des Weiteren konvertiert der digitale Signalprozessor 200 ein verarbeitetes digitales Frequenzdomäneneingangssignal INd(f), in dem Geräusche N1 und N2 unterdrückt worden sind, in ein digitales Zeitdomänentonsignal INd(t), indem zum Beispiel die inverse Fourier-Transformation ausgeführt wird, und gibt das digitale Tonsignal INd(t) aus, das der Geräuschunterdrückung unterzogen worden ist.
In dieser Ausführungsform kann die Mikrofonarrayvorrichtung 100 auf eine Informationsvorrichtung wie etwa eine Autonavigationsvorrichtung angewendet werden, die eine Spracherkennungsfunktion hat. Daher kann ein Ankunftsrichtungsbereich der Stimme eines Fahrers, die die Zieltonquelle SS ist, oder ein minimaler Tonempfangsbereich für die Mikrofonarrayvorrichtung 100 im Voraus bestimmt werden. Wenn die Stimme aus einer Richtung nahe dem Stimmenankunftsrichtungsbereich gesendet wird, kann bestimmt werden, dass eine Zieltonsignalwahrscheinlichkeit hoch ist.
Wenn bestimmt wird, dass die Zieltonsignalwahrscheinlichkeit D(f) des digitalen Eingangssignals IN1(f) oder IN2(f) hoch ist, legt der digitale Signalprozessor 200 einen breiten Tonempfangswinkelbereich Rs oder einen breiten Nichtunterdrückungswinkelbereich, die nachfolgend einfach als Tonempfangsbereich bzw. als Nichtunterdrückungsbereich bezeichnet sind, und einen schmalen Unterdrückungsbereich Rn fest. Die Zieltonsignalwahrscheinlichkeit kann zum Beispiel eine Zielsprachsignalwahrscheinlichkeit sein. Eine Geräuschwahrscheinlichkeit ist ein Antonym für eine Zieltonwahrscheinlichkeit. Die Zieltonsignalwahrscheinlichkeit wird nachfolgend einfach als Zieltonwahrscheinlichkeit bezeichnet. Auf der Basis des festgelegten Tonempfangsbereichs Rs und des festgelegten Unterdrückungsbereichs Rn verarbeitet der digitale Signalprozessor 200 das digitale Eingangssignal IN1(f) sowie IN2(f). Als Resultat wird das digitale Tonsignal INd(t) erzeugt, das in einem schmalen Bereich moderat einer Geräuschunterdrückung unterzogen worden ist.
Wenn andererseits bestimmt wird, dass die Zieltonwahrscheinlichkeit D(f) des digitalen Eingangssignals IN1(f) oder IN2(f) niedrig ist oder die Geräuschwahrscheinlichkeit des digitalen Eingangssignals IN1(f) oder IN2(f) hoch ist, legt der digitale Signalprozessor 200 einen schmalen Tonempfangsbereich Rs und einen breiten Unterdrückungsbereich Rn fest. Auf der Basis des festgelegten Tonempfangsbereichs Rs und des festgelegten Unterdrückungsbereichs Rn verarbeitet der digitale Signalprozessor 200 das digitale Eingangssignal IN1(f) sowie IN2(f). Als Resultat wird das digitale Tonsignal INd(t) erzeugt, das in einem breiten Bereich ausreichend einer Geräuschunterdrückung unterzogen worden ist.
Im Allgemeinen hat das digitale Eingangssignal IN1(f) der Zieltonquelle SS, das den Ton enthält, wie zum Beispiel eine menschliche Stimme, einen Absolutwert, der größer als ein durchschnittlicher Absolutwert AV{|IN1(f)|} einer gesamten oder breiteren Periode der digitalen Eingangssignale IN1(f) ist, oder eine Amplitude, die größer als ein durchschnittlicher Amplitudenwert AV{|IN1(f)|} der gesamten oder breiteren Periode der digitalen Eingangssignale IN1(f) ist, und das digitale Eingangssignal IN1(f), das dem Geräusch N1 oder N2 entspricht, hat einen Absolutwert, der kleiner als der durchschnittliche Absolutwert AV{|IN1(f)|} der digitalen Eingangssignale IN1(f) ist, oder eine Amplitude, die kleiner als der durchschnittliche Amplitudenwert AV{|IN1(f)|} der digitalen Eingangssignale IN1(f) ist.
Unmittelbar nach Beginn der Geräuschunterdrückung sollte der durchschnittliche Absolutwert AV{|IN1(f)|} der digitalen Eingangssignale IN1(f) oder der durchschnittliche Amplitudenwert AV{|IN1(f)|} der digitalen Eingangssignale IN1(f) nicht verwendet werden, da eine Tonsignalempfangsperiode kurz ist. In diesem Fall kann anstelle des durchschnittlichen Wertes ein gewisser Anfangswert verwendet werden. Wenn solch ein Anfangswert nicht festgelegt wird, wird die Geräuschunterdrückung möglicherweise instabil ausgeführt, bis ein angemessener durchschnittlicher Wert berechnet ist, und es kann einige Zeit in Anspruch nehmen, bis eine stabile Geräuschunterdrückung erreicht wird.
Wenn das digitale Eingangssignal IN1(f) einen Absolutwert hat, der größer als der durchschnittliche Absolutwert AV{|IN1(f)|} der digitalen Eingangssignale IN1(f) ist, oder eine Amplitude, die größer als der durchschnittliche Amplitudenwert AV{|IN1(f)|} der digitalen Eingangssignale IN1(f) ist, kann daher geschätzt werden, dass die Zieltonwahrscheinlichkeit D(f) des digitalen Eingangssignals IN1(f) hoch ist. Wenn das digitale Eingangssignal IN1(f) andererseits einen Absolutwert hat, der kleiner als der durchschnittliche Absolutwert AV{|IN1(f)|} der digitalen Eingangssignale IN1(f) ist, oder eine Amplitude, die kleiner als der durchschnittliche Amplitudenwert AV{|IN1(f)|} der digitalen Eingangssignale IN1(f) ist, kann geschätzt werden, dass die Zieltonwahrscheinlichkeit D(f) des digitalen Eingangssignals IN1(f) niedrig ist und die Geräuschwahrscheinlichkeit des digitalen Eingangssignals IN1(f) hoch ist. Die Zieltonwahrscheinlichkeit D(f) kann zum Beispiel 0 ≤ D(f) ≤ 1 sein. Wenn in diesem Fall D(f) ≥ 0,5 ist, ist die Zieltonwahrscheinlichkeit des digitalen Eingangssignals IN1(f) hoch. Wenn D(f) < 0,5 ist, ist die Zieltonwahrscheinlichkeit des digitalen Eingangssignals IN1(f) niedrig und ist die Geräuschwahrscheinlichkeit des digitalen Eingangssignals IN1(f) hoch. Die Bestimmung der Zieltonwahrscheinlichkeit D(f) soll mit dem Absolutwert oder der Amplitude eines digitalen Eingangssignals nicht beschränkt werden. Jeder Wert, der den Absolutwert oder die Amplitude eines digitalen Eingangssignals darstellt, wie zum Beispiel das Quadrat des Absolutwertes eines digitalen Eingangssignals, das Quadrat der Amplitude eines digitalen Eingangssignals oder die Potenz eines digitalen Eingangssignals, kann verwendet werden.
Der digitale Signalprozessor 200 kann, wie zuvor beschrieben, mit dem Richtungsbestimmer 194 oder dem Prozessor 10 verbunden sein. In diesem Fall legt der digitale Signalprozessor 200 den Tonempfangsbereich Rs, den Unterdrückungsbereich Rn und einen Umstellbereich Rt auf der Basis von Informationen fest, die den minimalen Tonempfangsbereich Rsmin darstellen und von dem Richtungsbestimmer 194 oder dem Prozessor 10 gesendet werden, und unterdrückt die Geräusche N1 und N2, die aus der Unterdrückungsrichtung gesendet werden, in dem Unterdrückungsbereich Rn und dem Umstellbereich Rt. Der minimale Tonempfangsbereich Rsmin stellt den minimalen Wert des Tonempfangsbereichs Rs dar, in dem der Ton als der Ton der Zieltonquelle SS verarbeitet wird. Die Informationen, die den minimalen Tonempfangsbereich Rsmin darstellen, können zum Beispiel der minimale Wert θtb_min einer Winkelgrenze θtb zwischen dem Tonempfangsbereich Rs und dem Unterdrückungsbereich Rn sein.
Der Richtungsbestimmer 194 oder der Prozessor 10 kann Informationen erzeugen, die den minimalen Tonempfangsbereich Rsmin darstellen, indem ein Festlegungssignal verarbeitet wird, das durch einen Nutzer manuell eingegeben wurde. Auf der Basis von Detektionsdaten oder Bilddaten, die durch den Sprecherrichtungsdetektionssensor 192 erhalten werden, kann der Richtungsbestimmer 194 oder der Prozessor 10 ferner die Anwesenheit eines Sprechers detektieren oder erkennen, eine Richtung bestimmen, in der sich der Sprecher befindet, und Informationen erzeugen, die den minimalen Tonempfangsbereich Rsmin darstellen.
Das ausgegebene digitale Tonsignal INd(t) wird zum Beispiel zur Spracherkennung oder Mobiltelefonkommunikation verwendet. Das digitale Tonsignal INd(t) wird der Nutzungsanwendung 400 in der nachfolgenden Stufe zugeführt, einer Digital-Analog-Konvertierung in einem Digital-Analog-Konverter 404 unterzogen und dann einer Tiefpassfilterung in einem Tiefpassfilter 406 unterzogen, so dass ein analoges Signal erzeugt wird. Als Alternative wird das digitale Tonsignal INd(t) in einem Speicher 414 gespeichert und zur Spracherkennung in einem Spracherkenner 416 verwendet. Der Spracherkenner 416 kann ein Prozessor sein, der als Teil der Hardware installiert ist, oder ein Prozessor, der als Teil der Software installiert ist, um gemäß einem Programm zu arbeiten, das in dem Speicher 414 gespeichert ist, der zum Beispiel einen ROM und einen RAM enthält. Der digitale Signalprozessor 200 kann eine Signalverarbeitungsschaltung sein, die als Teil der Hardware installiert ist, oder eine Signalverarbeitungsschaltung, die als Teil der Software installiert ist, um gemäß einem Programm zu arbeiten, das in dem Speicher 202 gespeichert ist, der zum Beispiel einen ROM und einen RAM enthält.
Unter Bezugnahme auf 1 legt die Mikrofonarrayvorrichtung 100 einen Winkelbereich in der Richtung θ(= –π/2) der Zieltonquelle SS, wie zum Beispiel einen Winkelbereich von –π/2 ≤ θ < –π/12, als Tonempfangsbereich Rs oder Nichtunterdrückungsbereich Rs fest. Ferner kann die Mikrofonarrayvorrichtung 100 einen Winkelbereich in der Hauptunterdrückungsrichtung θ = +π/2, wie zum Beispiel einen Winkelbereich von +π/12 < θ ≤ +π/2, als Unterdrückungsbereich Rn festlegen. Weiterhin kann die Mikrofonarrayvorrichtung 100 einen Winkelbereich zwischen dem Tonempfangsbereich Rs und dem Unterdrückungsbereich Rn, wie zum Beispiel einen Winkelbereich von –π/12 ≤ θ ≤ +π/12, als Umstell-(Umschalt-)-Winkelbereich Rt festlegen (der nachfolgend einfach als Umstellbereich Rt bezeichnet ist).
3A und 3B sind schematische Diagramme, die eine Konfiguration der Mikrofonarrayvorrichtung 100 zeigen, mit der Geräusch relativ reduziert werden kann, indem das Geräusch mit der Anordnung des Arrays der Mikrofone MIC1 und MIC2, die in 1 gezeigt sind, unterdrückt wird. Der digitale Signalprozessor 200 enthält einen schnellen Fourier-Transformierer 212, der mit dem Ausgangsanschluss des Analog-Digital-Konverters 162 verbunden ist, einen schnellen Fourier-Transformierer 214, der mit dem Ausgangsanschluss des Analog-Digital-Konverters 164 verbunden ist, einen Zieltonwahrscheinlichkeitsbestimmer 218, einen Synchronisationskoeffizientengenerator 220 und ein Filter 300. In dieser Ausführungsform wird die schnelle Fourier-Transformation zur Frequenzkonvertierung oder Orthogonaltransformation ausgeführt. Jedoch kann auch eine andere Funktion zum Einsatz kommen, die zur Frequenzkonvertierung verwendet werden kann (zum Beispiel die diskrete Kosinustransformation, die Wavelet-Transformation oder dergleichen).
Der Synchronisationskoeffizientengenerator 220 enthält einen Phasendifferenzberechner 222 zum Berechnen der Phasendifferenz zwischen komplexen Spektren jeder Frequenz f (0 < f < fs/2) in einem gewissen Frequenzband, wie zum Beispiel einem Hörfrequenzband, und einen Synchronisationskoeffizientenberechner 224. Das Filter 300 enthält einen Synchronisierer 332 und einen Subtrahierer 334. Anstelle des Subtrahierers 334 können ein Vorzeicheninverter zum Invertieren eines Eingangswertes und ein Addierer, der mit dem Vorzeicheninverter verbunden ist, als Ersatzschaltung verwendet werden. Der Zieltonwahrscheinlichkeitsbestimmer 218 kann in dem Synchronisationskoeffizientengenerator 220 enthalten sein.
Der Zieltonwahrscheinlichkeitsbestimmer 218, der mit dem Ausgangsanschluss des schnellen Fourier-Transformierers 212 verbunden ist, erzeugt die Zieltonwahrscheinlichkeit D(f) auf der Basis des Absolutwertes oder der Amplitude des komplexen Spektrums IN1(f), das von dem schnellen Fourier-Transformierer 212 gesendet wurde, und führt die Zieltonwahrscheinlichkeit D(f) dem Synchronisationskoeffizientengenerator 220 zu. Die Zieltonwahrscheinlichkeit D(f) ist ein Wert, der 0 ≤ D(f) ≤ 1 erfüllt. Wenn die Zieltonwahrscheinlichkeit D(f) des komplexen Spektrums IN1(f) die höchste ist, ist der Wert der Zieltonwahrscheinlichkeit D(f) gleich eins. Wenn die Zieltonwahrscheinlichkeit D(f) des komplexen Spektrums IN1(f) die niedrigste ist oder die Geräuschwahrscheinlichkeit des komplexen Spektrums IN1(f) die höchste ist, ist der Wert der Zieltonwahrscheinlichkeit D(f) gleich null.
4A ist ein Diagramm, das einen beispielhaften Festlegungszustand des Tonempfangsbereichs Rs, des Unterdrückungsbereichs Rn und des Umstellbereichs Rt zeigt, wenn die Zieltonwahrscheinlichkeit D(f) die höchste ist. 4B ist ein Diagramm, das einen beispielhaften Festlegungszustand des Tonempfangsbereichs Rs, des Unterdrückungsbereichs Rn und des Umstellbereichs Rt zeigt, wenn die Zieltonwahrscheinlichkeit D(f) die niedrigste ist.
Wenn die Zieltonwahrscheinlichkeit D(f) die höchste (= 1) ist, stellt der Synchronisationskoeffizientenberechner 224 den Tonempfangsbereich Rs auf den maximalen Tonempfangsbereich Rsmax, den Unterdrückungsbereich Rn auf den minimalen Unterdrückungsbereich Rnmin und den Umstellbereich Rt zwischen dem maximalen Tonempfangsbereich Rsmax und dem minimalen Unterdrückungsbereich Rnmin so wie in 4A ein, um einen Synchronisationskoeffizienten zu berechnen, der später zu beschreiben ist. Der maximale Tonempfangsbereich Rsmax wird im Bereich des Winkels θ festgelegt, der zum Beispiel –π/2 ≤ θ < 0 erfüllt. Der minimale Unterdrückungsbereich Rnmin wird im Bereich des Winkels θ festgelegt, der zum Beispiel +π/6 < θ ≤ +π/2 erfüllt. Der Umstellbereich Rt wird im Bereich des Winkels θ festgelegt, der zum Beispiel 0 ≤ θ ≤ +π/6 erfüllt.
Wenn die Zieltonwahrscheinlichkeit D(f) die niedrigste (= 0) ist, stellt der Synchronisationskoeffizientenberechner 224 den Tonempfangsbereich Rs auf den minimalen Tonempfangsbereich Rsmin, den Unterdrückungsbereich Rn auf den maximalen Unterdrückungsbereich Rnmax und den Umstellbereich Rt zwischen dem minimalen Tonempfangsbereich Rsmin und dem maximalen Unterdrückungsbereich Rnmax so wie in 4B ein. Der minimale Tonempfangsbereich Rsmin wird im Bereich des Winkels θ festgelegt, der zum Beispiel –π/2 ≤ θ ≤ –π/6 erfüllt. Der maximale Unterdrückungsbereich Rnmax wird im Bereich des Winkels θ festgelegt, der zum Beispiel 0 < θ ≤ +π/2 erfüllt. Der Umstellbereich Rt wird im Bereich des Winkels θ festgelegt, der zum Beispiel –π/6 ≤ θ ≤ 0 erfüllt.
Wenn die Zieltonwahrscheinlichkeit D(f) ein Wert zwischen dem maximalen Wert und dem minimalen Wert ist (0 < D(f) < 1), wie in 1 gezeigt, stellt der Synchronisationskoeffizientenberechner 224 den Tonempfangsbereich Rs und den Unterdrückungsbereich Rn auf der Basis des Wertes der Zieltonwahrscheinlichkeit D(f) und den Umstellbereich Rt zwischen dem Tonempfangsbereich Rs und dem Unterdrückungsbereich Rn ein. Je größer in diesem Fall der Wert der Zieltonwahrscheinlichkeit D(f) ist, desto größer ist der Tonempfangsbereich Rs im Verhältnis zu D(f) und desto kleiner ist der Unterdrückungsbereich Rn. Wenn die Zieltonwahrscheinlichkeit D(f) zum Beispiel 0,5 ist, wird der Tonempfangsbereich Rs im Bereich des Winkels θ festgelegt, der zum Beispiel –π/2 ≤ θ < –π/12 erfüllt, wird der Unterdrückungsbereich Rn im Bereich des Winkels θ festgelegt, der zum Beispiel +π/12 < θ ≤ +π/2 erfüllt, und wird der Umstellbereich Rt im Bereich des Winkels θ festgelegt, der zum Beispiel –π/12 ≤ θ ≤ +π/12 erfüllt.
Der Zieltonwahrscheinlichkeitsbestimmer 218 kann zeitliche Durchschnittswerte AV{|IN1(f)|} von Absolutwerten |IN1(f, i)| von komplexen Spektren IN1(f) für jeden zeitlichen Analyserahmen (Fenster) i bei der schnellen Fourier-Transformation sequentiell berechnen, wobei i die zeitliche laufende Nummer (0, 1, 2, ...) eines Analyserahmens darstellt. Wenn die laufende Nummer i eine anfängliche laufende Nummer i = 0 ist, ist AV{|IN1(f, i)|} = |IN1(f, i)|. Wenn die laufende Nummer i > 0 ist, ist AV{|IN1(f, i)|) = βAV{|IN1(f, i – 1)|} + (1 – β)|IN1(f, i)|. β zur Berechnung des Durchschnittswertes AV{|IN1(f)|} ist ein Wert, der ein Gewichtsverhältnis des Durchschnittswertes AV{|IN1(f, i – 1)|} des letzten Analyserahmens und des Durchschnittswertes AV{|IN1(f, i)|} eines gegenwärtigen Analyserahmens darstellt, und wird im Voraus so festgelegt, dass 0 ≤ β < 1 erfüllt ist. Für die ersten paar laufenden Nummern i = 0 bis m (m ist eine ganze Zahl größer gleich eins) kann ein Festwert INc = AV{|IN1(f, i)|} verwendet werden. Der Festwert INc kann empirisch bestimmt werden.
Der Zieltonwahrscheinlichkeitsbestimmer 218 berechnet einen relativen Pegel γ zu einem Durchschnittswert, indem der Absolutwert des komplexen Spektrums IN1(f) durch den zeitlichen Durchschnittswert der Absolutwerte dividiert wird, wie durch die folgende Gleichung dargestellt: γ = |IN1(f, i)|/AV{|IN1(f, i)|).
Der Zieltonwahrscheinlichkeitsbestimmer 218 bestimmt die Zieltonwahrscheinlichkeit D(f) des komplexen Spektrums IN1(f) gemäß dem relativen Pegel γ. Als Alternative kann anstelle des Absolutwertes |IN1(f, i)| des komplexen Spektrums IN1(f) das Quadrat des Absolutwertes, also |IN1(f, i)|², verwendet werden.
5 ist ein Diagramm, das einen beispielhaften Fall zeigt, bei dem der Wert der Zieltonwahrscheinlichkeit D(f) gemäß dem relativen Pegel γ eines digitalen Eingangssignals bestimmt wird. Wenn der relative Pegel γ des Absolutwertes des komplexen Spektrums IN1(f) zum Beispiel kleiner gleich einem gewissen Schwellenwert γ1 (zum Beispiel γ1 = 0,7) ist, legt der Zieltonwahrscheinlichkeitsbestimmer 218 die Zieltonwahrscheinlichkeit D(f) auf null fest. Wenn der relative Pegel γ des Absolutwertes des komplexen Spektrums IN1(f) zum Beispiel größer gleich einem anderen Schwellenwert γ2 (> γ1) ist (zum Beispiel ist γ2 = 1,4), legt der Zieltonwahrscheinlichkeitsbestimmer 218 die Zieltonwahrscheinlichkeit D(f) auf eins fest. Wenn der relative Pegel γ des Absolutwertes des komplexen Spektrums IN1(f) zum Beispiel ein Wert zwischen den zwei Schwellenwerten γ1 und γ2 ist (γ1 < γ < γ2), legt der Zieltonwahrscheinlichkeitsbestimmer 218 die Zieltonwahrscheinlichkeit D(f) durch proportionale Verteilung auf (γ – γ1)/(γ2 – γ1) fest. Die Beziehung zwischen dem relativen Pegel γ und der Zieltonwahrscheinlichkeit D(f) ist nicht auf die beschränkt, die in 5 gezeigt ist, und sie kann die Beziehung sein, in der die Zieltonwahrscheinlichkeit D(f) gemäß dem Anstieg des relativen Pegels γ monoton ansteigt, wie zum Beispiel eine Sigmoidfunktion.
10 ist ein Diagramm, das einen anderen beispielhaften Fall zeigt, bei dem der Wert der Zieltonwahrscheinlichkeit D(f) gemäß dem relativen Pegel γ eines digitalen Eingangssignals bestimmt wird. Unter Bezugnahme auf 10 wird der Wert der Zieltonwahrscheinlichkeit D(f) auf der Basis einer Phasenspektraldifferenz DIFF(f) bestimmt, die eine Tonquellenrichtung darstellt. Hier ist die Zieltonwahrscheinlichkeit D(f) umso höher, je näher die Phasenspektraldifferenz DIFF(f), die eine Tonquellenrichtung darstellt, einer Sprecherrichtung ist, die zum Beispiel bei einer Autonavigationsanwendung prognostiziert ist. Schwellenwerte σ1 bis σ4 werden auf der Basis einer prognostizierten Sprecherrichtung festgelegt. Wenn eine Zieltonquelle auf der Linie liegt, die Mikrofone verbindet, wie in 1gezeigt, werden zum Beispiel σ1 = –0,2fπ/(fs/2), σ2 = –0,4fπ/(fs/2), σ3 = 0,2fπ(fs/2) und σ4 = 0,4fπ(fs/2) festgelegt.
Unter Bezugnahme auf 1, 4A und 4B legt dann, wenn die Zieltonwahrscheinlichkeit D(f), die von dem Zieltonwahrscheinlichkeitsbestimmer 218 ausgegeben wird, 0 < D(f) < 1 ist, der Synchronisationskoeffizientenberechner 224 den Tonempfangsbereich Rs, den Unterdrückungsbereich Rn und den Umstellbereich Rt so wie in 1 fest. Wenn die Zieltonwahrscheinlichkeit D(f), die von dem Zieltonwahrscheinlichkeitsbestimmer 218 ausgegeben wird, D(f) = 1 ist, legt der Synchronisationskoeffizientenberechner 224 den maximalen Tonempfangsbereich Rsmax, den minimalen Unterdrückungsbereich Rnmin und den Umstellbereich Rt wie in 4A fest. Wenn die Zieltonwahrscheinlichkeit D(f), die von dem Zieltonwahrscheinlichkeitsbestimmer 218 ausgegeben wird, D(f) = 0 ist, legt der Synchronisationskoeffizientenberechner 224 den minimalen Tonempfangsbereich Rsmin, den maximalen Unterdrückungsbereich Rnmax und den Umstellbereich Rt wie in 4B fest.
Eine Winkelgrenze θta zwischen dem Umstellbereich Rt und dem Unterdrückungsbereich Rn ist ein Wert, der θta_min ≤ θta ≤ θta_max erfüllt. Hier ist θta_min der minimale Wert von θta und beträgt zum Beispiel null Radiant. θta_max ist der maximale Wert von θta und beträgt zum Beispiel +π/6. Die Winkelgrenze θta wird für die Zieltonwahrscheinlichkeit D(f) durch proportionale Verteilung wie folgt dargestellt: θta = θta_min + (θta_max – θta_min)D(f).
Eine Winkelgrenze θtb zwischen dem Umstellbereich Rt und dem Tonempfangsbereich Rs ist ein Wert, der θta > θtb und θtb_min ≤ θtb ≤ θtb_max erfüllt. Hier ist θtb_min der minimale Wert von θtb und beträgt zum Beispiel –π/6. θtb_max ist der maximale Wert von θtb und beträgt zum Beispiel null Radiant. Die Winkelgrenze θtb wird für die Zieltonwahrscheinlichkeit D(f) durch proportionale Verteilung wie folgt dargestellt: θtb = θtb_min + (θtb_max – θtb_min)D(f).
Die digitalen Zeitdomäneneingangssignale IN1(t) und IN2(t), die von den Analog-Digital-Konvertern 162 und 164 ausgegeben werden, werden den schnellen Fourier-Transformierern 212 bzw. 214 zugeführt. Die schnellen Fourier-Transformierer 212 und 214 führen die Fourier-Transformation oder Orthogonaltransformation am Produkt aus dem Signalabschnitt des digitalen Eingangssignals IN1(t) und einer Überlappungsfensterfunktion und dem Produkt aus dem Signalabschnitt des digitalen Eingangssignals IN2(t) und einer Überlappungsfensterfunktion aus, wodurch die komplexen Frequenzdomänenspektren IN1(f) bzw. IN2(f) erzeugt werden. Hier ist das komplexe Frequenzdomänenspektrum IN1(f) = A₁e^{j(2πft+ϕ1(f))} und ist das komplexe Frequenzdomänenspektrum IN2(f) = A₂e^{j(2πft+ϕ2(f))}, wobei f eine Frequenz darstellt, A₁ und A₂ eine Amplitude darstellen, j eine imaginäre Einheit darstellt und ϕ1(f) und ϕ2(f) eine Phasenverzögerung darstellen, die eine Funktion für die Frequenz f ist. Als Überlappungsfensterfunktion kann zum Beispiel eine Hamming-Fensterfunktion, eine Hanning-Fensterfunktion, eine Blackman-Fensterfunktion, eine Gaußsche Drei-Sigma-Fensterfunktion oder eine Dreieckfensterfunktion verwendet werden.
Der Phasendifferenzberechner 222 berechnet wie folgt eine Phasendifferenz DIFF(f) in Radiant für jede Frequenz f (0 < f < fs/2) zwischen Phasenspektralkomponenten der zwei benachbarten Mikrofone MIC1 und MIC2, die mit der Distanz d voneinander beabstandet sind. Die Phasendifferenz DIFF(f) stellt eine Tonquellenrichtung für jede der Frequenzen dar. Die Phasendifferenz DIFF(f) wird in der folgenden Gleichung unter der Annahme ausgedrückt, dass nur eine Tonquelle entsprechend einer spezifischen Frequenz vorhanden ist: DIFF(f) = tan^–1(J{IN2(f)/IN1(f)}/R{IN2(f)/IN1(f)}), wobei J{x} die imaginäre Komponente einer komplexen Zahl x darstellt und R{x} die reale Komponente der komplexen Zahl x darstellt. Wenn die Phasendifferenz DIFF(f) mit den Phasenverzögerungen (ϕ1(f) und ϕ2(f)) der digitalen Eingangssignale IN1(t) und IN2(t) dargestellt wird, wird die folgende Gleichung erhalten. DIFF(f) = tan^–1(J{(A₂e^{j(2πft+ϕ2(f)}/A₁e^{j(2πft+ϕ1(f)}}/R{A₂e^{j(2πft+ϕ2(f))}/A₁e^{j(2πft+ϕ1(f))}}). = tan^–1(J{(A₂/A₁)e^{j(ϕ2(f)-ϕ1(f))}}/R{(A₂/A₁)e^{j(ϕ2(f)-ϕ1(f))}}) = tan^–1(J{e^{j(ϕ2(f)-ϕ1(f)))}}/R{e^{j(ϕ2(f)-ϕ1(f)))}}) = tan^–1(sin(ϕ2(f) – ϕ1(f))/cos(ϕ2(f) – ϕ1(f))) = tan^–1(tan(ϕ2(f) – ϕ1(f)) = ϕ2(f) – ϕ1(f))
Der Phasendifferenzberechner 222 führt dem Synchronisationskoeffizientenberechner 224 die Phasendifferenz DIFF(f) für jede Frequenz f zwischen Phasenspektralkomponenten der zwei benachbarten Eingangssignale IN1(f) und IN2(f) zu.
6A bis 6C sind Diagramme, die die Beziehungen zeigen zwischen der für jede Frequenz f durch den Phasendifferenzberechner 222 berechneten Phasendifferenz DIFF(f) und jeweils dem Tonempfangsbereich Rs, dem Unterdrückungsbereich Rn und dem Umstellbereich Rt, die bei verschiedenen Zieltonwahrscheinlichkeiten D(f) erhalten werden, wenn die Mikrofone MIC1 und MIC2 so wie in 1 angeordnet sind.
Unter Bezugnahme auf 6A bis 6C stellt eine lineare Funktion af eine Grenze der Phasendifferenz DIFF(f) dar, die der Winkelgrenze θta zwischen dem Unterdrückungsbereich Rn und dem Umstellbereich Rt entspricht. Hier ist die Frequenz f ein Wert, der 0 < f < fs/2 erfüllt, stellt a den Koeffizienten der Frequenz f dar und hat der Koeffizient a einen Wert zwischen dem minimalen Wert a_min und dem maximalen Wert a_max, das heißt, –2π/fs < a_min ≤ a ≤ a_max < +2π/fs. Eine lineare Funktion bf stellt eine Grenze der Phasendifferenz DIFF(f) dar, die der Winkelgrenze θtb zwischen dem Tonempfangsbereich Rs und dem Umstellbereich Rt entspricht. Hier stellt b den Koeffizienten der Frequenz f dar und ist der Koeffizient b ein Wert zwischen dem minimalen Wert b_min und dem maximalen Wert b_max, das heißt, –2π/fs < b_min ≤ b ≤ b_max < +2π/fs. Die Beziehung zwischen den Koeffizienten a und b lautet a > b.
Eine Funktion a_maxf, die in 6A gezeigt ist, entspricht der Winkelgrenze θta_max, die in 4A gezeigt ist. Eine Funktion a_minf, die in 6C gezeigt ist, entspricht der Winkelgrenze θta_min, die in 4B gezeigt ist. Eine Funktion b_maxf, die in 6A gezeigt ist, entspricht der Winkelgrenze θtb_max, die in 4A gezeigt ist. Eine Funktion b_minf, die in 6C gezeigt ist, entspricht der Winkelgrenze θtb_min, die in 4B gezeigt ist.
Unter Bezugnahme auf 6A entspricht dann, wenn die Zieltonwahrscheinlichkeit D(f) die höchste, nämlich D(f) = 1 ist, der maximale Tonempfangsbereich Rsmax dem maximalen Phasendifferenzbereich von –2πf/fs ≤ DIFF(f) < b_maxf. In diesem Fall entspricht der minimale Unterdrückungsbereich Rnmin dem minimalen Phasendifferenzbereich von a_maxf < DIFF(f) ≤ +2πf/fs, und der Umstellbereich Rt entspricht dem Phasendifferenzbereich von b_maxf ≤ DIFF(f) ≤ a_maxf. Zum Beispiel ist der maximale Wert des Koeffizienten a a_max = +2π/3fs, und der maximale Wert des Koeffizienten b ist b_max = 0.
Unter Bezugnahme auf 6C entspricht dann, wenn die Zieltonwahrscheinlichkeit D(f) die niedrigste, nämlich D(f) = 0 ist, der minimale Tonempfangsbereich Rsmin dem minimalen Phasendifferenzbereich von –2πf/fs ≤ DIFF(f) < b_minf. In diesem Fall entspricht der maximale Unterdrückungsbereich Rnmax dem maximalen Phasendifferenzbereich von a_minf < DIFF(f) ≤ +2πf/fs, und der Umstellbereich Rt entspricht dem Phasendifferenzbereich von b_minf ≤ DIFF(f) ≤ a_minf. Zum Beispiel ist der minimale Wert des Koeffizienten a a_min = 0 und ist der minimale Wert des Koeffizienten b b_min = –2π/3fs.
Unter Bezugnahme auf 6B entspricht dann, wenn die Zieltonwahrscheinlichkeit D(f) ein Wert zwischen dem maximalen Wert und dem minimalen Wert ist, nämlich 0 < D(f) < 1, der Tonempfangsbereich Rs dem Zwischenphasendifferenzbereich von –2πf/fs ≤ DIFF(f) < bf. In diesem Fall entspricht der Unterdrückungsbereich Rn dem Zwischenphasendifferenzbereich von af < DIFF(f) ≤ +2πf/fs, und der Umstellbereich Rt entspricht dem Phasendifferenzbereich von bf ≤ DIFF(f) ≤ af.
Der Koeffizient a der Frequenz f wird für die Zieltonwahrscheinlichkeit D(f) durch proportionale Verteilung wie folgt dargestellt: a = a_min + (a_max – a_min)D(f).
Der Koeffizient b der Frequenz f wird für die Zieltonwahrscheinlichkeit D(f) durch proportionale Verteilung wie folgt dargestellt: b = b_min + (b_max – b_min)D(f)
Unter Bezugnahme auf 6A bis 6C führt dann, wenn die Phasendifferenz DIFF(f) in einem Bereich liegt, der dem Unterdrückungsbereich Rn entspricht, der Synchronisationskoeffizientenberechner 224 eine Geräuschunterdrückungsverarbeitung an den digitalen Eingangssignalen IN1(f) und IN2(f) aus. Wenn die Phasendifferenz DIFF(f) in einem Bereich liegt, der dem Umstellbereich Rt entspricht, führt der Synchronisationskoeffizientenberechner 224 eine Geräuschunterdrückungsverarbeitung an den digitalen Eingangssignalen IN1(f) und IN2(f) gemäß der Frequenz f und der Phasendifferenz DIFF(f) aus. Wenn die Phasendifferenz DIFF(f) in einem Bereich liegt, der dem Tonempfangsbereich Rs entspricht, führt der Synchronisationskoeffizientenberechner 224 keine Geräuschunterdrückungsverarbeitung an den digitalen Eingangssignalen IN1(f) und IN2(f) aus.
Der Synchronisationskoeffizientenberechner 224 berechnet, dass ein Geräusch, das aus der Richtung des Winkels θ, wie zum Beispiel +π/12 < θ ≤ +π/2, in dem Unterdrückungsbereich Rn gesendet wird, das Mikrofon MIC2 früher erreicht und das Mikrofon MIC1 mit einer Verzögerungszeit entsprechend der Phasendifferenz DIFF(f) bei einer spezifischen Frequenz f später erreicht. Ferner schaltet der Synchronisationskoeffizientenberechner 224 allmählich zwischen der Verarbeitung in dem Tonempfangsbereich Rs und der Geräuschunterdrückungsverarbeitung in dem Unterdrückungsbereich Rn in dem Bereich des Winkels θ, wie zum Beispiel –π/12 ≤ θ ≤ +π/12, in dem Umstellbereich Rt an der Position des Mikrofons MIC1 um.
Der Synchronisationskoeffizientenberechner 224 berechnet einen Synchronisationskoeffizienten C(f) auf der Basis der Phasendifferenz DIFF(f) für jede Frequenz f zwischen Phasenspektralkomponenten unter Verwendung der folgenden Gleichungen.

(a) Der Synchronisationskoeffizientenberechner 224 berechnet sequentiell die Synchronisationskoeffizienten C(f) für zeitliche Analyserahmen (Fenster) i bei der schnellen Fourier-Transformation. Hier stellt i die zeitliche laufende Nummer 0, 1, 2, ... eines Analyserahmens dar. Ein Synchronisationskoeffizient C(f, i) = Cn(f, i) wird, wenn die Phasendifferenz DIFF(f) ein Wert ist, der dem Winkel θ entspricht, wie zum Beispiel +π/12 < θ ≤ +π/2, in dem Unterdrückungsbereich Rn wie folgt berechnet: C(f, 0) = Cn(f, 0) = IN1(f, 0)/IN2(f, 0), wobei i = 0 ist, und C(f, i) = Cn(f, i) = αC(f, i – 1) + (1 – α)IN1(f, i)/IN2(f, i), wobei i > 0 ist.

Hier stellt INI(f, i)/IN2(f, i) das Verhältnis des komplexen Spektrums eines Signals, das dem Mikrofon MIC1 eingegeben wird, zum komplexen Spektrum eines Signals dar, das dem Mikrofon MIC2 eingegeben wird, das heißt, es stellt ein Amplitudenverhältnis und eine Phasendifferenz dar. IN1(f, i)/IN2(f, i) kann als Umkehrung des Verhältnisses des komplexen Spektrums eines Signals, das dem Mikrofon MIC2 eingegeben wird, zum komplexen Spektrum eines Signals, das dem Mikrofon MIC1 eingegeben wird, betrachtet werden. Ferner stellt α das Synchronisationsadditionsverhältnis oder Synchronisationssyntheseverhältnis des Betrages der Phasenverzögerung des letzten Analyserahmens dar und ist eine Konstante, die 0 ≤ α < 1 erfüllt, und 1 – α stellt das Synchronisationsadditionsverhältnis oder Synchronisationssyntheseverhältnis des Betrages der Phasenverzögerung eines gegenwärtigen Analyserahmens dar. Ein gegenwärtiger Synchronisationskoeffizient C(f, i) wird erhalten, indem der Synchronisationskoeffizient des letzten Analyserahmens und das Verhältnis des komplexen Spektrums eines Signals, das dem Mikrofon MIC1 eingegeben wird, zum komplexen Spektrum eines Signals, das dem Mikrofon MIC2 eingegeben wird, in dem gegenwärtigen Analyserahmen in einem Verhältnis von α:(1 – α) addiert wird.

(b) Wenn die Phasendifferenz DIFF(f) ein Wert ist, der dem Winkel θ, wie zum Beispiel –π/2 ≤ θ < –π/12, in dem Tonempfangsbereich Rs entspricht, wird ein Synchronisationskoeffizient C(f) = Cs(f) wie folgt berechnet: C(f) = Cs(f) = exp(–j2πf/fs) oder C(f) = Cs(f) = 0 (wenn keine Synchronisationsubtraktion ausgeführt wird).
(c) Wenn die Phasendifferenz DIFF(f) ein Wert ist, der dem Winkel θ, wie zum Beispiel –π/12 ≤ θ ≤ +π/12, in dem Umstellbereich Rt entspricht, wird ein Synchronisationskoeffizient C(f) = Ct(f) erhalten, indem der gewichtete Durchschnitt von Cs(f) und Cn(f), der in (a) beschrieben ist, gemäß dem Winkel θ wie folgt berechnet wird: C(f) = Ct(f) = Cs(f) × (θ – θtb)/(θta – θtb) + Cn(f) × (θta – θ)/(θta – θtb).

Hier stellt θta den Winkel der Grenze zwischen dem Umstellbereich Rt und dem Unterdrückungsbereich Rn dar, und θtb stellt den Winkel der Grenze zwischen dem Umstellbereich Rt und dem Tonempfangsbereich Rs dar.
So erzeugt der Synchronisationskoeffizientengenerator 220 den Synchronisationskoeffizienten C(f) gemäß den komplexen Spektren IN1(f) und IN2(f) und führt die komplexen Spektren IN1(f) und IN2(f) und den Synchronisationskoeffizienten C(f) dem Filter 300 zu.
Unter Bezugnahme auf 3B synchronisiert der Synchronisierer 332, der in dem Filter 300 enthalten ist, das komplexe Spektrum IN2(f) mit dem komplexen Spektrum IN1(f) durch Ausführung der folgenden Gleichung, um ein synchronisiertes Spektrum INs2(f) zu erzeugen: INs2(f) = C(f) × IN2(f).
Der Subtrahierer 334 subtrahiert das Produkt aus einem Koeffizienten δ(f) und dem komplexen Spektrum INs2(f) von dem komplexen Spektrum IN1(f), um ein komplexes Spektrum INd(f) mit unterdrücktem Geräusch zu erzeugen, unter Verwendung der folgenden Gleichung: INd(f) = IN1(f) – δ(f) × INs2(f).
Hier wird der Koeffizient δ(f) im Voraus festgelegt, und er ist ein Wert, der 0 ≤ δ(f) ≤ 1 erfüllt. Der Koeffizient δ(f) ist eine Funktion der Frequenz f und wird verwendet, um den Subtraktionsgrad des Spektrums INs2(f) einzustellen, der von einem Synchronisationskoeffizienten abhängt. Um zum Beispiel das Auftreten einer Verzerrung eines Tonsignals zu verhindern, das einen Ton darstellt, der aus dem Tonempfangsbereich Rs gesendet wird, und das Geräusch signifikant zu unterdrücken, das einen Ton darstellt, der aus dem Unterdrückungsbereich Rn gesendet wird, kann der Koeffizient δ(f) so festgelegt werden, dass eine Tonankunftsrichtung, die durch die Phasendifferenz DIFF(f) dargestellt wird, im Unterdrückungsbereich Rn einen Wert hat, der größer als jener im Tonempfangsbereich Rs ist.
Der digitale Signalprozessor 200 enthält ferner einen inversen schnellen Fourier-Transformierer (IFFT) 382. Der inverse schnelle Fourier-Transformierer 382 empfängt das Spektrum INd(f) von dem Subtrahierer 334 und führt eine inverse Fourier-Transformation und überlappende Addition an dem Spektrum INd(f) aus, wodurch das digitale Zeitdomänentonsignal INd(t) an der Position des Mikrofons MIC1 erzeugt wird.
Die Ausgabe des inversen schnellen Fourier-Transformierers 382 wird der Nutzungsanwendung 400 in der nachfolgenden Stufe eingegeben.
Das ausgegebene digitale Tonsignal INd(t) wird zum Beispiel zur Spracherkennung oder Mobiltelefonkommunikation verwendet. Das digitale Tonsignal INd(t), das der Nutzungsanwendung 400 in der nachfolgenden Stufe zugeführt wird, wird einer Digital-Analog-Konvertierung im Digital-Analog-Konverter 404 und einer Tiefpassfilterung im Tiefpassfilter 406 unterzogen, so dass ein analoges Signal erzeugt wird. Alternativ dazu wird das digitale Tonsignal INd(t) in dem Speicher 414 gespeichert und zur Spracherkennung in dem Spracherkenner 416 verwendet.
Die Komponenten 212, 214, 218, 220 bis 224, 300 bis 334 und 382, die in 3A und 3B gezeigt sind, können als integrierte Schaltung installiert sein oder können durch den digitalen Signalprozessor 200 verarbeitet werden, der ein Programm ausführen kann, das den Funktionen dieser Komponenten entspricht.
7 ist ein Flussdiagramm, das einen Erzeugungsprozess eines komplexen Spektrums zeigt, der durch den in 3A und 3B gezeigten digitalen Signalprozessor 200 gemäß einem Programm ausgeführt wird, das in dem Speicher 202 gespeichert ist. Der Erzeugungsprozess des komplexen Spektrums entspricht Funktionen, die durch die Komponenten 212, 214, 218, 220, 300 und 382, die in 3A und 3B gezeigt sind, erreicht werden.
Unter Bezugnahme auf 3A, 3B und 7 empfängt der digitale Signalprozessor 200 (die schnellen Fourier-Transformierer 212 und 214) bei S502 die zwei digitalen Zeitdomäneneingangssignale IN1(t) und IN2(t) von den Analog-Digital-Konvertern 162 bzw. 164.
Bei S504 multipliziert der digitale Signalprozessor 200 (die schnellen Fourier-Transformierer 212 und 214) jedes der zwei digitalen Eingangssignale IN1(t) und IN2(t) mit einer Überlappungsfensterfunktion.
Bei S506 führt der digitale Signalprozessor 200 (die schnellen Fourier-Transformierer 212 und 214) die Fourier-Transformation an den digitalen Eingangssignalen IN1(t) und IN2(t) aus, um die komplexen Frequenzdomänenspektren IN1(f) und IN2(f) von den digitalen Eingangssignalen IN1(t) bzw. IN2(t) zu erzeugen.
Bei S508 berechnet der digitale Signalprozessor 200 (der Phasendifferenzberechner 222, der in dem Synchronisationskoeffizientengenerator 220 enthalten ist) die Phasendifferenz DIFF(f) zwischen den komplexen Spektren IN1(f) und IN2(f) wie folgt DIFF(f) = tan^–1(J{IN2(f)/IN1(f)}/R{IN2(f)/IN1(f)}).
Bei S509 erzeugt der digitale Signalprozessor 200 (der Zieltonwahrscheinlichkeitsbestimmer 218) die Zieltonwahrscheinlichkeit D(f) (0 ≤ D(f) ≤ 1) auf der Basis des Absolutwertes oder der Amplitude des komplexen Spektrums IN1(f), das von dem schnellen Fourier-Transformierer 212 gesendet wird, und führt die Zieltonwahrscheinlichkeit D(f) dem Synchronisationskoeffizientengenerator 220 zu. Der digitale Signalprozessor 200 (der Synchronisationskoeffizientenberechner 224, der in dem Synchronisationskoeffizientengenerator 220 enthalten ist) legt für jede Frequenz f den Tonempfangsbereich Rs (–2πf/fs ≤ DIFF(f) < bf), den Unterdrückungsbereich Rn (af < DIFF(f) ≤ +2πf/fs) und den Umstellbereich Rt (bf ≤ DIFF(f) ≤ af) auf der Basis der Zieltonwahrscheinlichkeit D(f) und von Informationen fest, die den minimalen Tonempfangsbereich Rsmin darstellen.
Bei S510 berechnet der digitale Signalprozessor 200 (der Synchronisationskoeffizientenberechner 224, der in dem Synchronisationskoeffizientengenerator 220 enthalten ist) das Verhältnis C(f) des komplexen Spektrums eines Signals, das dem Mikrofon MIC1 eingegeben wird, zum komplexen Spektrum eines Signals, das dem Mikrofon MIC2 eingegeben wird, auf der Basis der Phasendifferenz DIFF(f), wie zuvor beschrieben, unter Verwendung der folgenden Gleichung.

(a) Wenn die Phasendifferenz DIFF(f) ein Wert ist, der einem Winkel θ im Unterdrückungsbereich Rn entspricht, wird der Synchronisationskoeffizient C(f) wie folgt berechnet: C(f, i) = Cn(f, i) = αC(f, i – 1) + (1 – α)IN1(f, i)/IN2(f, i).
(b) Wenn die Phasendifferenz DIFF(f) ein Wert ist, der einem Winkel θ im Tonempfangsbereich Rs entspricht, wird der Synchronisationskoeffizient C(f) wie folgt berechnet: C(f) = Cs(f) = exp(–j2πf/fs) oder C(f) = Cs(f) = 0.
(c) Wenn die Phasendifferenz DIFF(f) ein Wert ist, der einem Winkel θ im Umstellbereich Rt entspricht, wird der Synchronisationskoeffizient C(f) wie folgt berechnet: C(f) = Ct(f) = gewichteter Durchschnitt von Cs(f) und Cn(f).

Bei S514 synchronisiert der digitale Signalprozessor 200 (der Synchronisierer 332, der in dem Filter 300 enthalten ist) das komplexe Spektrum IN2(f) mit dem komplexen Spektrum IN1(f) und erzeugt das synchronisierte Spektrum INs2(f) wie folgt: INs2(f) = C(f)IN2(f).
Bei S516 subtrahiert der digitale Signalprozessor 200 (der Subtrahierer 334, der in dem Filter 300 enthalten ist) das Produkt aus dem Koeffizienten δ(f) und dem komplexen Spektrum INs2(f) von dem komplexen Spektrum IN1(f) (INd(f) = IN1(f) – δ(f) × INs2(f)) und erzeugt das komplexe Spektrum INd(f) mit unterdrücktem Geräusch.
Bei S518 empfängt der digitale Signalprozessor 200 (der inverse schnelle Fourier-Transformierer 382) das komplexe Spektrum INd(f) von dem Subtrahierer 334, führt die inverse Fourier-Transformation und Überlappungsaddition an dem komplexen Spektrum INd(f) aus und erzeugt das digitale Zeitdomänentonsignal INd(t) an der Position des Mikrofons MIC1.
Anschließend kehrt der Prozess zu S502 zurück. Der Prozess von S502 bis S518 wird während einer gewissen Zeitperiode wiederholt, die zum Verarbeiten von Eingangsdaten benötigt wird.
Somit ist es gemäß der oben beschriebenen Ausführungsform möglich, Signale, die den Mikrofonen MIC1 und MIC2 eingegeben werden, in der Frequenzdomäne zu verarbeiten und das in diesen Eingangssignalen enthaltene Geräusch relativ zu reduzieren. Im Vergleich zu einem Fall, bei dem Eingangssignale in einer Zeitdomäne verarbeitet werden, ist es im oben beschriebenen Fall, wo Eingangssignale in einer Frequenzdomäne verarbeitet werden, möglich, eine Phasendifferenz genauer zu detektieren und ein Tonsignal mit reduziertem Geräusch mit höherer Qualität zu erzeugen. Ferner ist es möglich, ein Tonsignal mit ausreichend unterdrücktem Geräusch unter Verwendung von Signalen zu erzeugen, die von einer kleinen Anzahl von Mikrofonen empfangen werden. Die oben beschriebene Verarbeitung, die an Signalen ausgeführt wird, die von zwei Mikrofonen empfangen werden, kann auf jede beliebige Kombination von zwei Mikrofonen angewendet werden, die in einer Vielzahl von Mikrofonen enthalten sind (1).
Wenn gewisse aufgezeichnete Tondaten, die ein Hintergrundgeräusch enthalten, verarbeitet werden, wird gewöhnlich eine Unterdrückungsverstärkung von etwa 3 dB erhalten. Gemäß der oben beschriebenen Ausführungsform ist es möglich, eine Unterdrückungsverstärkung von etwa 10 dB oder mehr zu erhalten.
8A und 8B sind Diagramme, die die Zustände der Festlegung des minimalen Tonempfangsbereichs Rsmin zeigen, die auf der Basis von Daten ausgeführt wird, die durch den Sprecherrichtungsdetektionssensor 192 erhalten werden, oder von Daten, die manuell eingegeben werden. Der Sprecherrichtungsdetektionssensor 192 detektiert die Position des Körpers eines Sprechers. Der Richtungsbestimmer 194 legt den minimalen Tonempfangsbereich Rsmin auf der Basis der detektierten Position fest, so dass der minimale Tonempfangsbereich Rsmin den Körper des Sprechers bedeckt. Festlegungsinformationen werden dem Synchronisationskoeffizientenberechner 224 zugeführt, der in dem Synchronisationskoeffizientengenerator 220 enthalten ist. Der Synchronisationskoeffizientenberechner 224 legt den Tonempfangsbereich Rs, den Unterdrückungsbereich Rn und den Umstellbereich Rt auf der Basis des minimalen Tonempfangsbereichs Rsmin und der Zieltonwahrscheinlichkeit D(f) fest und berechnet einen Synchronisationskoeffizienten, wie zuvor beschrieben.
Unter Bezugnahme auf 8A befindet sich das Gesicht eines Sprechers auf der linken Seite des Sprecherrichtungsdetektionssensors 192. Zum Beispiel detektiert der Sprecherrichtungsdetektionssensor 192 eine zentrale Position θ einer Gesichtsfläche A des Sprechers in einem Winkel θ = θ1 = –π/4 als Winkelposition in dem minimalen Tonempfangsbereich Rsmin. In diesem Fall legt der Richtungsbestimmer 194 den Winkelbereich des minimalen Tonempfangsbereichs Rsmin schmaler als einen Winkel π auf der Basis der Detektionsdaten von θ = θ1 fest, so dass der minimale Tonempfangsbereich Rsmin die gesamte Gesichtsfläche A bedeckt.
Unter Bezugnahme auf 8B befindet sich das Gesicht eines Sprechers auf der unteren oder vorderen Seite des Sprecherrichtungsdetektionssensors 192. Der Sprecherrichtungsdetektionssensor 192 detektiert zum Beispiel die zentrale Position θ der Gesichtsfläche A des Sprechers bei einem Winkel θ = θ2 = 0 als Winkelposition in dem minimalen Tonempfangsbereich Rsmin. In diesem Fall legt der Richtungsbestimmer 194 den Winkelbereich des minimalen Tonempfangsbereichs Rsmin schmaler als den Winkel π auf der Basis der Detektionsdaten von θ = θ2 fest, so dass der minimale Tonempfangsbereich Rsmin die gesamte Gesichtsfläche A bedeckt. Anstelle der Position des Gesichts kann die Position des Körpers eines Sprechers detektiert werden.
Wenn der Sprecherrichtungsdetektionssensor 192 eine Digitalkamera ist, erkennt der Richtungsbestimmer 194 Bilddaten, die durch die Digitalkamera erhalten werden, bestimmt die Gesichtsfläche A und die zentrale Position θ der Gesichtsfläche A und legt den minimalen Tonempfangsbereich Rsmin auf der Basis der Gesichtsfläche A und der zentralen Position θ der Gesichtsfläche A fest.
Somit kann der Richtungsbestimmer 194 den minimalen Tonempfangsbereich Rsmin auf der Basis der Position des Gesichts oder des Körpers eines Sprechers, die durch den Sprecherrichtungsdetektionssensor 192 detektiert wird, variabel festlegen. Alternativ dazu kann der Richtungsbestimmer 194 den minimalen Tonempfangsbereich Rsmin auf der Basis von manuell eingegebenen Daten variabel festlegen. Durch das variable Festlegen des minimalen Tonempfangsbereichs Rsmin ist es möglich, den minimalen Tonempfangsbereich Rsmin zu minimieren und ein unnötiges Geräusch bei jeder Frequenz in dem breiten Unterdrückungsbereich Rn zu unterdrücken.
Unter erneuter Bezugnahme auf 1, 4A und 4B kann dann, wenn die Zieltonwahrscheinlichkeit D(f), die von dem Zieltonwahrscheinlichkeitsbestimmer 218 gesendet wird, D(f) ≥ 0,5 ist, der Synchronisationskoeffizientenberechner 224die Winkelgrenze des Tonempfangsbereichs Rs = Rsmax, die in 4A gezeigt ist, auf θtb = +π/2 festlegen, das heißt, er kann den gesamten Winkelbereich als Tonempfangsbereich festlegen. Das heißt, wenn die Zieltonwahrscheinlichkeit D(f) ≥ 0,5 ist, brauchen kein Tonempfangsbereich und kein Unterdrückungsbereich festgelegt zu werden, und der gesendete Ton kann als Zieltonsignal verarbeitet werden. Wenn die Zieltonwahrscheinlichkeit D(f), die von dem Zieltonwahrscheinlichkeitsbestimmer 218 gesendet wird, D(f) < 0,5 ist, kann der Synchronisationskoeffizientenberechner 224 die Winkelgrenze des Unterdrückungsbereichs Rn = Rnmax, die in 4B gezeigt ist, auf θta_min = –π/2 festlegen, das heißt, er kann den gesamten Winkelbereich als Unterdrückungsbereich festlegen. Das heißt, wenn die Zieltonwahrscheinlichkeit D(f) < 0,5 ist, brauchen kein Tonempfangsbereich und kein Unterdrückungsbereich festgelegt zu werden, und der gesendete Ton kann als Geräuschtonsignal verarbeitet werden.
9 ist ein Flussdiagramm, das einen anderen Erzeugungsprozess eines komplexen Spektrums zeigt, der durch den digitalen Signalprozessor 200, der in 3A gezeigt ist, gemäß einem in dem Speicher 202 gespeicherten Programm ausgeführt wird.
Der Prozess von S502 bis S508 ist unter Bezugnahme auf 7 bereits beschrieben worden.
Bei S529 erzeugt der digitale Signalprozessor 200 (der Zieltonwahrscheinlichkeitsbestimmer 218) die Zieltonwahrscheinlichkeit D(f) (0 ≤ D(f) ≤ 1) auf der Basis des Absolutwertes oder der Amplitude des komplexen Spektrums IN1(f), das von dem schnellen Fourier-Transformierer 212 gesendet wird, und führt die Zieltonwahrscheinlichkeit D(f) dem Synchronisationskoeffizientengenerator 220 zu. Der digitale Signalprozessor 200 (der Synchronisationskoeffizientenberechner 224, der in dem Synchronisationskoeffizientengenerator 220 enthalten ist) bestimmt für jede Frequenz f gemäß dem Wert der Zieltonwahrscheinlichkeit D(f), ob der gesendete Ton als Zieltonsignal oder als Geräuschsignal verarbeitet wird.
Bei S530 berechnet der digitale Signalprozessor 200 (der Synchronisationskoeffizientenberechner 224, der in dem Synchronisationskoeffizientengenerator 220 enthalten ist) das Verhältnis C(f) des komplexen Spektrums eines Signals, das dem Mikrofon MIC1 eingegeben wird, zum komplexen Spektrum eines Signals, das dem Mikrofon MIC2 eingegeben wird, auf der Basis der Phasendifferenz DIFF(f) unter Verwendung der folgenden Gleichung, wie zuvor beschrieben.

(a) Wenn die Zieltonwahrscheinlichkeit D(f) < 0,5 ist, wird der Synchronisationskoeffizient C(f) wie folgt berechnet: C(f, i) = Cn(f, i) = αC(f, i – 1) + (1 – α)IN1(f, i)/IN2(f, i).
(b) Wenn die Zieltonwahrscheinlichkeit D(f)≥ 0,5 ist, wird der Synchronisationskoeffizient C(f) wie folgt berechnet: C(f) = Cs(f) = exp(–j2πf/fs) oder C(f) = Cs(f) = 0.

Der Prozess von S514 bis S518 ist unter Bezugnahme auf 7 bereits beschrieben worden.
Durch Bestimmen eines Synchronisationskoeffizienten lediglich auf der Basis der Zieltonwahrscheinlichkeit D(f), ohne einen Tonempfangsbereich und einen Unterdrückungsbereich einzustellen oder festzulegen, ist es möglich, die Erzeugung eines Synchronisationskoeffizienten zu vereinfachen.
Als anderes Verfahren zum Bestimmen der Zieltonwahrscheinlichkeit D(f) kann der Zieltonwahrscheinlichkeitsbestimmer 218 die Phasendifferenz DIFF(f) von dem Phasendifferenzberechner 222 empfangen und Informationen, die den minimalen Tonempfangsbereich Rsmin darstellen, von dem Richtungsbestimmer 194 oder dem Prozessor 10 empfangen (siehe die in 3A gezeigten gestrichelten Pfeile). Wenn die Phasendifferenz DIFF(f), die durch den Phasendifferenzberechner 222 berechnet wird, in dem minimalen Tonempfangsbereich Rsmin liegt, der in 6C gezeigt ist und vom Richtungsbestimmer 194 empfangen wird, kann der Zieltonwahrscheinlichkeitsbestimmer 218 bestimmen, dass die Zieltonwahrscheinlichkeit D(f) hoch ist und D(f) = 1 ist. Wenn andererseits die Phasendifferenz DIFF(f) in dem maximalen Unterdrückungsbereich Rnmax oder dem Umstellbereich Rt liegt, die in 6C gezeigt sind, kann der Zieltonwahrscheinlichkeitsbestimmer 218 bestimmen, dass die Zieltonwahrscheinlichkeit D(f) niedrig ist und D(f) = 0 ist. Bei dem in 7 gezeigten Schritt S509 oder dem in 9 gezeigten Schritt S529 kann das oben beschriebene Verfahren zum Bestimmen der Zieltonwahrscheinlichkeit D(f) verwendet werden. In diesem Fall führt der digitale Signalprozessor 200 auch die in 7 gezeigten Schritte S510 bis S518 oder die in 9 gezeigten Schritte S530 und S514 bis S518 aus.
Anstelle der zur Geräuschunterdrückung ausgeführten Synchronisationssubtraktion kann eine Synchronisationsaddition zur Hervorhebung eines Tonsignals ausgeführt werden. Wenn in diesem Fall eine Tonempfangsrichtung in einem Tonempfangsbereich liegt, wird die Synchronisationsaddition ausgeführt. Wenn eine Tonempfangsrichtung in einem Unterdrückungsbereich liegt, wird die Synchronisationsaddition nicht ausgeführt und wird das Additionsverhältnis eines Additionssignals reduziert.
Alle Beispiele und die bedingte Sprache, die hierin verwendet werden, sollen pädagogischen Zwecken dienen, um den Leser beim Verstehen der Erfindung und der durch den Erfinder beigesteuerten Begriffe zum Fördern der Technik zu unterstützen, und sind so aufzufassen, dass sie nicht auf solche speziell angeführten Beispiele und Bedingungen beschränkt sind, noch soll sich die Anordnung solcher Beispiele in der Beschreibung auf eine Darstellung der Überlegenheit und Unterlegenheit der Erfindung beziehen. Obwohl die Ausführungsformen der vorliegenden Erfindungen eingehend beschrieben worden sind, versteht sich, dass an ihr die verschiedensten Veränderungen, Substitutionen und Abänderungen vorgenommen werden könnten, ohne vom Grundgedanken und Umfang der Erfindung abzuweichen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

- JP 58-181099 [0004]
- JP 11-298988 [0005]
- JP 4138290 [0006]

Zitierte Nicht-Patentliteratur

- ”Microphone Array”, The Journal of the Acoustical Society of Japan, Bd. 51, Nr. 5, S. 384–414, 1995 [0003]

Claims

Signalverarbeitungsvorrichtung zum Unterdrücken von Geräusch, die umfasst: einen ersten Rechner, um eine Phasendifferenz zwischen zwei Spektralsignalen in einer Frequenzdomäne, die von Tonsignalen transformiert wurden, die durch wenigstens zwei Mikrofone empfangen wurden, für jede Frequenz zu erhalten; einen zweiten Rechner, um einen Wert zu erhalten, der eine Zielsignalwahrscheinlichkeit darstellt, die von einem Wert der Frequenzkomponente von einem der zwei Spektralsignale abhängt, und bei jeder Frequenzkomponente des Spektralsignals auf der Basis des Wertes, der die Zielsignalwahrscheinlichkeit darstellt, zu bestimmen, ob sie Geräusch enthält; und ein Filter, um ein synchronisiertes Spektralsignal zu erzeugen, indem jede der Frequenzkomponenten von einem der zwei Spektralsignale mit jeder der Frequenzkomponenten von dem anderen der zwei Spektralsignale durch Phasenverschiebung auf der Basis der durch den ersten Rechner erhaltenen Phasendifferenz synchronisiert wird, wenn der zweite Rechner bestimmt, dass die Frequenzkomponente von einem der Spektralsignale das Geräusch enthält, und ein gefiltertes Spektralsignal zu erzeugen, indem das synchronisierte Spektralsignal von dem anderen der zwei Spektralsignale subtrahiert wird oder das synchronisierte Spektralsignal zu dem anderen der zwei Spektralsignale addiert wird.
Signalverarbeitungsvorrichtung zum Unterdrücken von Geräusch, die umfasst: einen ersten Rechner, um eine Phasendifferenz zwischen zwei Spektralsignalen in einer Frequenzdomäne, die von Tonsignalen transformiert wurden, die durch wenigstens zwei Mikrofone empfangen wurden, zu erhalten und eine Tonquelle durch die Phasendifferenz zu schätzen; einen zweiten Rechner, um einen Wert zu erhalten, der eine Zielsignalwahrscheinlichkeit darstellt, und einen Tonunterdrückungsphasendifferenzbereich bei jeder Frequenz, in dem ein Tonsignal unterdrückt wird, auf der Basis der Zielsignalwahrscheinlichkeit zu bestimmen; und ein Filter, um ein synchronisiertes Spektralsignal zu erzeugen, indem jede Frequenzkomponente von einem der zwei Spektralsignale mit jeder Frequenzkomponente von dem anderen der zwei Spektralsignale bei jeder Frequenz synchronisiert wird, wenn die Phasendifferenz innerhalb des Tonunterdrückungsphasendifferenzbereichs liegt, und ein gefiltertes Spektralsignal zu erzeugen, indem das synchronisierte Spektralsignal von dem anderen der zwei Spektralsignale subtrahiert wird oder das synchronisierte Spektralsignal zu dem anderen der zwei Spektralsignale addiert wird.
Signalverarbeitungsvorrichtung nach Anspruch 2, bei der der zweite Rechner den Phasendifferenzbereich gemäß einem Anstieg des Wertes, der die Zieltonwahrscheinlichkeit darstellt, schmaler und einen Tonempfangsphasendifferenzbereich, in dem das Geräusch nicht unterdrückt wird, breiter festlegt.
Signalverarbeitungsvorrichtung nach Anspruch 2, ferner mit einem Bestimmer, um den Wert, der die Zielsignalwahrscheinlichkeit darstellt, auf der Basis eines Absolutwertes einer Amplitude von einem der zwei Spektralsignale oder eines Quadrats des Absolutwertes zu bestimmen.
Signalverarbeitungsvorrichtung nach Anspruch 2, ferner mit einem Bestimmer, um den Wert, der die Zielsignalwahrscheinlichkeit darstellt, auf der Basis eines Verhältnisses eines gegenwärtigen Absolutwertes einer Amplitude von einem der zwei Spektralsignale oder eines Quadrats des gegenwärtigen Absolutwertes zu einem zeitlichen Durchschnittswert eines Absolutwertes der Amplitude oder eines Quadrats des Absolutwertes zu bestimmen.
Signalverarbeitungsvorrichtung nach Anspruch 2, ferner mit einem Synchronisationskoeffizientengenerator, um Sprecherrichtungsinformationen zu empfangen und den Tonunterdrückungsphasendifferenzbereich auf der Basis der Sprecherrichtungsinformationen festzulegen, welche Sprecherrichtungsinformationen Informationen über eine Richtung hin zu dem Sprecher entsprechen.
Signalverarbeitungsvorrichtung nach Anspruch 2, bei der das Filter das gefilterte Spektralsignal erzeugt, indem ein Produkt aus einem Einstellkoeffizienten und dem synchronisierten Spektralsignal von dem anderen der zwei Spektralsignale subtrahiert wird, welcher Einstellkoeffizient gemäß der Phasendifferenz bestimmt wird, die innerhalb des Tonunterdrückungsphasendifferenzbereichs liegt oder nicht, wobei der Einstellkoeffizient einen Grad einer Subtraktion gemäß der Frequenz einstellt.
Signalverarbeitungsvorrichtung nach Anspruch 2, ferner mit einem Orthogonaltransformierer, um wenigstens zwei Tonsignale in einer Zeitdomäne in die zwei Spektralsignale in einer Frequenzdomäne zu transformieren, bei der die Phasendifferenz einer Tonankunftsrichtung an einer Anordnung der Mikrofone entspricht, die Zielsignalwahrscheinlichkeit eine Zieltonsignalwahrscheinlichkeit ist und der zweite Rechner jeden Synchronisationskoeffizienten, der jedem Phasenverschiebungsbetrag zugeordnet ist, zum Synchronisieren jeder Frequenzkomponente von einem der zwei Spektralsignale mit jeder Frequenzkomponente von dem anderen der zwei Spektralsignale für jede Frequenz berechnet.
Signalverarbeitungsvorrichtung nach Anspruch 7, bei der der zweite Rechner den Synchronisationskoeffizienten für jeden Zeitrahmen auf der Basis eines Verhältnisses der beiden Spektralsignale für jede Frequenz berechnet, wenn die Phasendifferenz innerhalb des Tonunterdrückungsphasendifferenzbereichs liegt.
Signalverarbeitungsvorrichtung nach Anspruch 3, ferner mit einem Bestimmer, um den Wert, der die Zielsignalwahrscheinlichkeit darstellt, auf der Basis eines Absolutwertes einer Amplitude von einem der zwei Spektralsignale oder eines Quadrats des Absolutwertes zu bestimmen.
Signalverarbeitungsvorrichtung nach Anspruch 3, ferner mit einem Bestimmer, um den Wert, der die Zielsignalwahrscheinlichkeit darstellt, auf der Basis eines Verhältnisses eines gegenwärtigen Absolutwertes einer Amplitude von einem der zwei Spektralsignale oder eines Quadrats des gegenwärtigen Absolutwertes zu einem zeitlichen Durchschnittswert eines Absolutwertes der Amplitude oder eines Quadrats des Absolutwertes zu bestimmen.
Signalverarbeitungsvorrichtung nach Anspruch 3, ferner mit einem Synchronisationskoeffizientengenerator, um Sprecherrichtungsinformationen zu empfangen und den Tonunterdrückungsphasendifferenzbereich auf der Basis der Sprecherrichtungsinformationen festzulegen, welche Sprecherrichtungsinformationen Informationen über eine Richtung hin zu dem Sprecher entsprechen.
Signalverarbeitungsvorrichtung nach Anspruch 3, bei der das Filter das gefilterte Spektralsignal erzeugt, indem ein Produkt aus einem Einstellkoeffizienten und dem synchronisierten Spektralsignal von dem anderen der zwei Spektralsignale subtrahiert wird, welcher Einstellkoeffizient gemäß der Phasendifferenz bestimmt wird, die innerhalb des Tonunterdrückungsphasendifferenzbereichs liegt oder nicht, wobei der Einstellkoeffizient einen Grad einer Subtraktion gemäß der Frequenz einstellt.
Signalverarbeitungsvorrichtung nach Anspruch 3, ferner mit einem Orthogonaltransformierer, um wenigstens zwei Tonsignale in einer Zeitdomäne in die zwei Spektralsignale in einer Frequenzdomäne zu transformieren, bei der die Phasendifferenz einer Tonankunftsrichtung an einer Anordnung der Mikrofone entspricht, die Zielsignalwahrscheinlichkeit eine Zieltonsignalwahrscheinlichkeit ist und der zweite Rechner jeden Synchronisationskoeffizienten, der jedem Phasenverschiebungsbetrag zugeordnet ist, zum Synchronisieren jeder Frequenzkomponente von einem der zwei Spektralsignale mit jeder Frequenzkomponente von dem anderen der zwei Spektralsignale bei jeder Frequenz berechnet.
Signalverarbeitungsverfahren für eine Vorrichtung zum Unterdrückung von Geräusch unter Verwendung zweier Spektralsignale in einer Frequenzdomäne, die von Tonsignalen transformiert wurden, die durch wenigstens zwei Mikrofone empfangen wurden, mit: Erhalten einer Phasendifferenz zwischen den zwei Spektralsignalen für jede Frequenz; Erhalten eines Wertes, für jede Frequenz des Spektralsignals, der eine Zielsignalwahrscheinlichkeit darstellt, die von einem Wert der Frequenzkomponente des Spektralsignals abhängt, und Bestimmen, bei jeder Frequenzkomponente des Spektralsignals, ob sie Geräusch enthält, auf der Basis des Wertes, der die Zielsignalwahrscheinlichkeit darstellt; und Erzeugen eines synchronisierten Spektralsignals durch Synchronisieren jeder der Frequenzkomponenten von einem der Spektralsignale mit jeder der Frequenzkomponenten von dem anderen der Spektralsignale durch Phasenverschiebung auf der Basis der Phasendifferenz, die durch den ersten Rechner erhalten wird, wenn die Frequenzkomponente von einem der Spektralsignale das Geräusch enthält, und Erzeugen eines gefilterten Spektralsignals durch Subtrahieren des synchronisierten Spektralsignals von dem anderen der Spektralsignale oder Addieren des synchronisierten Spektralsignals zu dem anderen der Spektralsignale.