-
GEBIET
-
Die
hierin diskutierten Ausführungsformen betreffen die Geräuschunterdrückungsverarbeitung, die
an einem Tonsignal ausgeführt wird, und im Besonderen die
Geräuschunterdrückungsverarbeitung, die an einem
Frequenzdomänentonsignal ausgeführt wird.
-
HINTERGRUND
-
Mikrofonarrays,
die wenigstens zwei Mikrofone enthalten, empfangen den Ton, konvertieren den
Ton in Tonsignale und verarbeiten die Tonsignale, um einen Tonempfangsbereich
in einer Richtung einer Quelle des Zieltons festzulegen oder die
Richtwirkung zu steuern. Als Resultat kann solch ein Mikrofonarray
eine Geräuschunterdrückung oder Zieltonhervorhebung
ausführen.
-
Um
ein S/R-(Signal-Rausch)-Verhältnis zu verbessern, steuern
Mikrofonarrayvorrichtungen, die offenbart sind in "Microphone
Array", The Journal of the Acoustical Society of Japan,
Bd. 51, Nr. 5, S. 384–414, 1995, die Richtwirkung
und führen eine Subtraktionsverarbeitung oder Additionsverarbeitung auf
der Basis der Zeitdifferenz zwischen Signalen aus, die durch eine
Vielzahl von Mikrofonen empfangen werden. Als Resultat ist es möglich,
ein unnötiges Geräusch, das in einer Schallwelle
enthalten ist, die aus einer Tonunterdrückungsrichtung
gesendet wird, oder aus einer Richtung, die sich von einer Zieltonempfangsrichtung
unterscheidet, zu unterdrücken und den Zielton hervorzuheben,
der in einer Schallwelle enthalten ist, die aus einer Tonhervorhebungsrichtung
oder der Zieltonempfangsrichtung gesendet wird.
-
In
einer Spracherkennungsvorrichtung, die in der
japanischen offengelegten Patentveröffentlichung
Nr. 58-181099 offenbart ist, enthält eine Konvertierungseinheit
wenigstens zwei Spracheingabeeinheiten zum Konvertieren von Ton
in ein elektrisches Signal, nämlich eine erste Spracheingabeeinheit
und eine zweite Spracheingabeeinheit. Die ersten und zweiten Spracheingabeeinheiten
sind in vorbestimmten Abständen in der Nähe eines
Sprechers getrennt angeordnet. Ein erstes Filter extrahiert ein Sprachsignal,
das eine vorbestimmte Frequenzbandkomponente hat, aus einem Spracheingabesignal, das
von der ersten Spracheingabeeinheit ausgegeben wird. Ein zweites
Filter extrahiert ein Sprachsignal, das eine vorbestimmte Frequenzbandkomponente
hat, aus einem Spracheingabesignal, das von der zweiten Spracheingabeeinheit
ausgegeben wird. Eine Korrelationsberechnungseinheit berechnet die Korrelation
zwischen den durch die ersten und zweiten Filter extrahierten Sprachsignalen.
Eine Sprachbestimmungseinheit bestimmt auf der Basis eines Resultats
der Berechnung, die durch die Korrelationsberechnungseinheit ausgeführt
wird, ob ein Sprachsignal, das von der Konvertierungseinheit ausgegeben
wird, ein Signal ist, das auf dem Ton basiert, der von dem Sprecher
ausgegeben wird, oder ein Signal ist, das auf Geräusch
basiert.
-
In
einer Vorrichtung, die offenbart ist in der
japanischen offengelegten Patentveröffentlichung
Nr. 11-298988 zum Steuern einer Richtwirkungscharakteristik
eines Mikrofons, das in einer Spracherkennungsvorrichtung angeordnet
ist, die in einem Fahrzeug verwendet wird, ist eine Vielzahl von
Mikrofonen zum Empfangen einer ebenen Schallwelle in einer Linie
in regelmäßigen Abständen angeordnet. Eine
Mikrofonschaltung verarbeitet Signale, die von diesen Mikrofonen
ausgegeben werden, und steuert die Richtwirkungscharakteristiken
dieser Mikrofone auf der Basis der Differenz zwischen den Phasen
von ebenen Schallwellen, die diesen Mikrofonen eingegeben werden,
so dass eine Empfindlichkeit eine Spitze in einer Richtung eines
Sprechers und eine Einsattlung in einer Geräuschankunftsrichtung
hat.
-
In
einer Zoom-Mikrofonvorrichtung, die in dem
japanischen Patent Nr. 4138290 offenbart
ist, konvertiert eine Tonaufnahmeeinheit eine Schallwelle in ein
Sprachsignal. Eine Zoom-Steuereinheit gibt ein Zoom-Positionssignal
entsprechend einer Zoom-Position aus. Eine Richtwirkungssteuereinheit verändert
die Richtwirkungscharakteristik der Zoom-Mikrofonvorrichtung auf
der Basis des Zoom-Positionssignals. Eine Schätzeinheit
schätzt die Frequenzkomponente des Hintergrundgeräuschs,
das in dem durch die Tonaufnahmeeinheit konvertierten Sprachsignal
enthalten ist. Auf der Basis eines Resultats der durch die Schätzeinheit
ausgeführten Schätzung stellt eine Geräuschunterdrückungseinheit
den Unterdrückungsbetrag gemäß dem Zoom-Positionssignal
ein und unterdrückt das Hintergrundgeräusch. Bei
Teleskopbetrieb verändert die Richtwirkungssteuereinheit
die Richtwirkungscharakteristik so, dass der Zielton hervorgehoben wird
und der Unterdrückungsbetrag des in einem Sprachsignal
enthaltenen Hintergrundgeräuschs größer
als jener bei Weitwinkelbetrieb ist.
-
Eine
Tonsignalverarbeitungsvorrichtung, die eine Vielzahl von Toneingabeeinheiten
enthält, verarbeitet jedes Tonsignal in der Zeitdomäne
und führt eine Abtastverzögerungsverarbeitung
und Subtraktionsverarbeitung an dem Tonsignal aus, um eine Richtung,
die zu einer Zieltonempfangsrichtung entgegengesetzt ist, als Unterdrückungsrichtung
festzulegen. Als Resultat ist es möglich, ein Geräusch,
das aus der Unterdrückungsrichtung gesendet wird, ausreichend
zu unterdrücken. Wenn es sich beispielsweise jedoch um
eine Vielzahl von Ankunftsrichtungen von Hintergrundgeräusch
handelt, wie etwa beim Fahrgeräusch in einem Auto oder
beim Geräusch in einer Menschenmenge, kommt das Hintergrundgeräusch
von einer Vielzahl von Positionen in einer Tonunterdrückungsrichtung,
variieren diese Positionen mit der Zeit und variiert eine Tonquellenrichtung
gemäß der Differenz zwischen den Charakteristiken
der Toneingabeeinheiten. Daher ist es unmöglich, das Geräusch
ausreichend zu unterdrücken.
-
ZUSAMMENFASSUNG
-
Daher
ist es eine Aufgabe unter einem Aspekt der Erfindung, eine Signalverarbeitungsvorrichtung
und ein Signalverarbeitungsverfahren vorzusehen, um das Geräusch
zu reduzieren, das aus einer Vielzahl von Richtungen gesendet wird,
und ein Signal zu erzeugen.
-
Gemäß einem
Aspekt der Erfindung enthält eine Signalverarbeitungsvorrichtung
zum Unterdrücken eines Geräuschs unter Verwendung
zweier Spektralsignale in einer Frequenzdomäne, die von Tonsignalen
transformiert wurden, die durch wenigstens zwei Mikrofone empfangen
wurden, einen ersten Rechner, um eine Phasendifferenz zwischen den zwei
Spektralsignalen zu erhalten und eine Tonquellenrichtung durch die
Phasendifferenz zu schätzen, einen zweiten Rechner, um
einen Wert zu erhalten, der eine Zielsignalwahrscheinlichkeit darstellt,
und einen Tonunterdrückungsphasendifferenzbereich, in dem
ein Tonsignal unterdrückt wird, auf der Basis der Zielsignalwahrscheinlichkeit
zu bestimmen, sowie ein Filter. Das Filter erzeugt ein synchronisiertes Spektralsignal
durch Synchronisieren jeder Frequenzkomponente von einem der Spektralsignale
mit jeder Frequenzkomponente von dem anderen der Spektralsignale
für jede Frequenz, wenn die Phasendifferenz innerhalb des
Tonunterdrückungsphasendifferenzbereichs liegt, und erzeugt
ein gefiltertes Spektralsignal durch Subtrahieren des synchronisierten
Spektralsignals von dem anderen der Spektralsignale oder Addieren
des synchronisierten Spektralsignals zu dem anderen der Spektralsignale.
-
Es
versteht sich, dass sowohl die obige allgemeine Beschreibung als
auch die folgende eingehende Beschreibung beispielhaft und erläuternd
sind und die Erfindung, wie sie beansprucht wird, nicht beschränken.
-
KURZE BESCHREIBUNG DER ZEICHNUNGEN
-
1 ist
ein Diagramm, das die Anordnung eines Arrays von wenigstens zwei
Mikrofonen, die Toneingabeeinheiten sind, gemäß einer
Ausführungsform der vorliegenden Erfindung zeigt;
-
2 ist
ein schematisches Diagramm, das eine Konfiguration einer Mikrofonarrayvorrichtung gemäß einer
Ausführungsform der vorliegenden Erfindung zeigt, welche
die in 1 gezeigten Mikrofone enthält;
-
3A und 3B sind
schematische Diagramme, die eine Konfiguration der Mikrofonarrayvorrichtung
zeigen, mit der das Geräusch relativ reduziert werden kann,
indem das Geräusch mit der Anordnung des Arrays der Mikrofone,
das in 1 gezeigt ist, unterdrückt wird;
-
4A ist
ein Diagramm, das einen beispielhaften Festlegungszustand eines
Tonempfangsbereichs, eines Unterdrückungsbereichs und eines
Umstellbereichs zeigt, wenn eine Zieltonwahrscheinlichkeit die höchste
ist;
-
4B ist
ein Diagramm, das einen beispielhaften Festlegungszustand eines
Tonempfangsbereichs, eines Unterdrückungsbereichs und eines
Umstellbereichs zeigt, wenn eine Zieltonwahrscheinlichkeit die niedrigste
ist;
-
5 ist
ein Diagramm, das einen beispielhaften Fall zeigt, bei dem der Wert
einer Zieltonwahrscheinlichkeit gemäß dem Pegel
eines digitalen Eingangssignals bestimmt wird;
-
6A bis 6C sind
Diagramme, die die Beziehungen zwischen einer Phasendifferenz für jede
Frequenz zwischen Phasenspektralkomponenten, die durch einen Phasendifferenzberechner
berechnet wird, und jeweils einem Tonempfangsbereich, einem Unterdrückungsbereich
und einem Umstellbereich zeigen, die bei verschiedenen Zieltonwahrscheinlichkeiten
erhalten werden, wenn Mikrofone so wie in 1 angeordnet
sind;
-
7 ist
ein Flussdiagramm, das einen Erzeugungsprozess eines komplexen Spektrums
zeigt, der durch einen digitalen Signalprozessor (DSP), der in 3A gezeigt
ist, gemäß einem in einem Speicher gespeicherten
Programm ausgeführt wird;
-
8A und 8B sind
Diagramme, die die Zustände der Festlegung eines Tonempfangsbereichs,
eines Unterdrückungsbereichs und eines Umstellbereichs
zeigen, die auf der Basis von Daten, die durch einen Sensor erhalten
werden, oder von manuell eingegebenen Daten ausgeführt
wird;
-
9 ist
ein Flussdiagramm, das einen anderen Erzeugungsprozess eines komplexen
Spektrums zeigt, der durch den in 3A gezeigten
digitalen Signalprozessor gemäß einem in einem
Speicher gespeicherten Programm ausgeführt wird; und
-
10 ist
ein Diagramm, das einen anderen beispielhaften Fall zeigt, bei dem
der Wert einer Zieltonwahrscheinlichkeit gemäß dem
Pegel eines digitalen Eingangssignals bestimmt wird.
-
BESCHREIBUNG VON AUSFÜHRUNGSFORMEN
-
Es
versteht sich, dass sowohl die obige allgemeine Beschreibung als
auch die folgende eingehende Beschreibung beispielhaft und erläuternd
sind und die Erfindung nicht beschränken. Eine Ausführungsform
der vorliegenden Erfindung wird unter Bezugnahme auf die beiliegenden
Zeichnungen beschrieben. In den Zeichnungen sind gleiche oder entsprechende
Teile mit gleichen oder entsprechenden Bezugszeichen versehen.
-
1 ist
ein Diagramm, das die Anordnung eines Arrays von wenigstens zwei
Mikrofonen MIC1 und MIC2, die Toneingabeeinheiten sind, gemäß einer
Ausführungsform der vorliegenden Erfindung zeigt.
-
Eine
Vielzahl von Mikrofonen, die die Mikrofone MIC1 und MIC2 enthalten,
ist im Allgemeinen in einer vorbestimmten Distanz d in einer geraden
Linie getrennt voneinander angeordnet. Bei diesem Beispiel sind
wenigstens zwei benachbarte Mikrofone, nämlich die Mikrofone
MIC1 und MIC2, mit der Distanz d in einer geraden Linie getrennt
voneinander angeordnet. Unter der Bedingung, dass das Abtasttheorem
erfüllt wird, wie später beschrieben, darf die Distanz zwischen
benachbarten Mikrofonen variieren. In einer Ausführungsform
der vorliegenden Erfindung wird der beispielhafte Fall beschrieben,
bei dem zwei Mikrofone, nämlich die Mikrofone MIC1 und MIC2,
verwendet werden.
-
Unter
Bezugnahme auf 1 liegt eine Zieltonquelle SS
auf einer Linie, die die Mikrofone MIC1 und MIC2 miteinander verbindet.
Die Zieltonquelle SS befindet sich auf der Seite des Mikrofons MIC1. Eine
Richtung auf der Seite der Zieltonquelle SS ist eine Tonempfangsrichtung
oder eine Zielrichtung des Arrays der Mikrofone MIC1 und MIC2. Die
Zieltonquelle SS, von der der zu empfangende Ton ausgegeben wird,
ist typischerweise der Mund eines Sprechers, und eine Tonempfangsrichtung
ist eine Richtung auf der Seite des Mundes des Sprechers. Ein gewisser
Winkelbereich in einer Tonempfangswinkelrichtung kann als Tonempfangswinkelbereich
Rs festgelegt werden. Eine Richtung, die der Tonempfangsrichtung
gegenüberliegt, wie in 1 gezeigt, kann
als Hauptunterdrückungsrichtung von Geräusch festgelegt
werden, und ein gewisser Winkelbereich in einer Hauptunterdrückungswinkelrichtung kann
als Unterdrückungswinkelbereich Rn von Geräusch
festgelegt werden. Der Unterdrückungswinkelbereich Rn von
Geräusch kann für jede Frequenz f festgelegt werden.
-
Die
Distanz d zwischen den Mikrofonen MIC1 und MIC2 sollte das Abtasttheorem
oder das Nyquist-Theorem erfüllen, das heißt die
Bedingung, dass die Distanz d < c/fs
ist, wobei c eine Schallgeschwindigkeit ist und fs eine Abtastfrequenz
ist. Unter Bezugnahme auf 1 ist die
Richtwirkungscharakteristik oder das Richtwirkungsmuster (zum Beispiel eine
Nieren-Richtcharakteristik) des Arrays der Mikrofone MIC1 und MIC2
durch eine geschlossene gestrichelte Kurve dargestellt. Ein Eingangstonsignal, das
durch das Array der Mikrofone MIC1 und MIC2 empfangen und verarbeitet
wird, hängt von einem Schallwelleneinfallswinkel θ in
einem Bereich von –π/2 bis +π/2 in Bezug
auf die gerade Linie ab, auf der die Mikrofone MIC1 und MIC2 angeordnet
sind, und hängt nicht von einer Einfallsrichtung, in einem Bereich
von 0 bis 2π, in der Richtung des Radius einer Ebene ab,
die zu der geraden Linie, auf der die Mikrofone MIC1 und MIC2 angeordnet
sind, senkrecht ist.
-
Nachdem
eine Verzögerungszeit τ = d/c seit der Detektion
des Tons oder der Sprache der Zieltonquelle SS, die durch das Mikrofon
MIC1 auf der linken Seite erfolgt, abgelaufen ist, detektiert das
Mikrofon MIC2 auf der rechten Seite den Ton oder die Sprache der
Zieltonquelle SS. Andererseits erfolgt nach Ablauf der Verzögerungszeit τ =
d/c seit der Detektion eines Geräuschs N1 aus der Hauptunterdrückungsrichtung,
die durch das Mikrofon MIC2 auf der rechten Seite erfolgt, die Detektion
des Geräuschs N1 durch das Mikrofon MIC1 auf der linken
Seite. Nachdem eine Verzögerungszeit τ = (d × sinθ)/c
seit der Detektion eines Geräuschs N2 aus einer verschiedenen
Unterdrückungsrichtung in dem Unterdrückungswinkelbereich
Rn abgelaufen ist, die durch das Mikrofon MIC2 auf der rechten Seite
erfolgt, detektiert das Mikrofon MIC1 auf der linken Seite das Geräusch
N2. Ein Winkel θ stellt eine angenommene Ankunftsrichtung
des Geräuschs N2 in der Unterdrückungsrichtung
dar. Unter Bezugnahme auf 1 stellt
eine Strichpunktlinie die Wellenfront des Geräuschs N2
dar. Die Ankunftsrichtung des Geräuschs N1 im Falle von θ =
+π/2 ist die Hauptunterdrückungsrichtung eines
Eingangssignals.
-
In
einem gewissen Mikrofonarray ist es möglich, das Geräusch
N1, das aus der Hauptunterdrückungsrichtung (θ =
+π/2) gesendet wird, zu unterdrücken, indem ein
Eingangssignal IN2(t), das durch das Mikrofon MIC2 auf der rechten
Seite empfangen wird, von einem Eingangssignal IN1(t), das durch
das Mikrofon MIC1 auf der linken Seite empfangen wird, subtrahiert
wird. Nachdem die Verzögerungszeit τ = d/c seit
der Eingabe des Eingangssignals IN1(t) in das Mikrofon MIC1 abgelaufen
ist, wird hier das Eingangssignal IN2(t) dem Mikrofon MIC2 eingegeben. In
solch einem Mikrofonarray ist es jedoch unmöglich, das
Geräusch N2, das aus einer Winkelrichtung (0 < θ < +π/2)
gesendet wird, die sich von der Hauptunterdrückungsrichtung
unterscheidet, ausreichend zu unterdrücken.
-
Der
Erfinder hat erkannt, dass es möglich ist, das Geräusch
N2, das in einem Tonsignal enthalten ist, das aus einer Richtung
in dem Unterdrückungswinkelbereich Rn gesendet wird, ausreichend
zu unterdrücken, indem die Phase von einem der Spektren der
Eingangstonsignale der Mikrofone MIC1 und MIC2 mit der Phase von
dem anderen der Spektren für jede Frequenz gemäß der
Phasendifferenz zwischen den zwei Eingangstonsignalen synchronisiert wird
und die Differenz zwischen einem der Spektren und dem anderen der
Spektren berechnet wird. Ferner hat der Erfinder erkannt, dass es
möglich ist, die Verzerrung eines Tonsignals mit unterdrücktem
Geräusch zu reduzieren, indem die Zieltonsignalwahrscheinlichkeit
eines Eingangstonsignals für jede Frequenz bestimmt wird
und der Unterdrückungswinkelbereich Rn auf der Basis eines
Resultats der Bestimmung verändert wird.
-
2 ist
ein schematisches Diagramm, das eine Konfiguration einer Mikrofonarrayvorrichtung 100 gemäß einer
Ausführungsform der vorliegenden Erfindung zeigt, die die
Mikrofone MIC1 und MIC2 enthält, die in 1 gezeigt
sind. Die Mikrofonarrayvorrichtung 100 enthält
die Mikrofone MIC1 und MIC2, Verstärker 122 und 124,
Tiefpassfilter (LPFs) 142 und 144, Analog-Digital-Konverter 162 und 164, einen
digitalen Signalprozessor (DSP) 200 und einen Speicher 202,
der zum Beispiel einen RAM enthält. Die Mikrofonarrayvorrichtung 100 kann
eine Informationsvorrichtung sein, wie etwa eine Vorrichtung an Bord
eines Fahrzeugs mit Spracherkennungsfunktion, eine Autonavigationsvorrichtung,
ein Freisprechtelefon oder ein Mobiltelefon.
-
Die
Mikrofonarrayvorrichtung 100 kann mit einem Sprecherrichtungsdetektionssensor 192 und einem
Richtungsbestimmer 194 verbunden sein oder die Funktionen
dieser Komponenten haben. Ein Prozessor 10 und ein Speicher 12 können
in einer einzelnen Vorrichtung, die eine Nutzungsanwendung 400 enthält,
oder in einer anderen Informationsverarbeitungsvorrichtung enthalten
sein. Der Sprecherrichtungsdetektionssensor 192 kann zum
Beispiel eine Digitalkamera, ein Ultraschallsensor oder ein Infrarotsensor
sein. Der Richtungsbestimmer 194 kann in dem Prozessor 10 enthalten
sein, der gemäß einem in dem Speicher 12 gespeicherten
Richtungsbestimmungsprogramm arbeitet.
-
Die
Mikrofone MIC1 und MIC2 konvertieren Schallwellen in analoge Eingangssignale
INa1 bzw. INa2. Die analogen Eingangssignale INa1 und INa2 werden
durch die Verstärker 122 bzw. 124 verstärkt. Die
verstärkten analogen Eingangssignale INa1 und INa2 werden
von den Verstärkern 122 und 124 ausgegeben
und dann den Tiefpassfiltern 142 bzw. 144 zugeführt,
die eine Grenzfrequenz fc (zum Beispiel 3,9 kHz) haben und in denen
eine Tiefpassfilterung für die Abtastung, die in nachfolgenden
Stufen auszuführen ist, ausgeführt wird. Obwohl
nur Tiefpassfilter verwendet werden, können Bandpassfilter
oder Tiefpassfilter in Kombination mit Hochpassfiltern verwendet
werden.
-
Analoge
Signale INp1 und INp2, die durch das Filtern erhalten und von den
Tiefpassfiltern 142 und 144 ausgegeben werden,
werden in den Analog-Digital-Konvertern 162 bzw. 164 mit
der Abtastfrequenz fs (zum Beispiel 8 kHz) (fs > 2fc) dann in digitale Eingangssignale
IN1(t) und IN2(t) konvertiert. Die digitalen Zeitdomäneneingangssignale
IN1(t) und IN2(t), die von den Analog-Digital-Konvertern 162 bzw. 164 ausgegeben
werden, werden dann dem digitalen Signalprozessor 200 eingegeben.
-
Der
digitale Signalprozessor 200 konvertiert die digitalen
Zeitdomäneneingangssignale IN1(t) und IN2(t) in digitale
Frequenzdomäneneingangssignale oder komplexe Spektren IN1(f)
und IN2(f), indem zum Beispiel die Fourier-Transformation unter
Verwendung des Speichers 202 ausgeführt wird.
Ferner verarbeitet der digitale Signalprozessor 200 die
digitalen Eingangssignale IN1(f) und IN2(f), um die Geräusche
N1 und N2 zu unterdrücken, die aus Richtungen in dem Geräuschunterdrückungswinkelbereich
Rn gesendet werden, der nachfolgend einfach als Unterdrückungsbereich
Rn bezeichnet wird. Des Weiteren konvertiert der digitale Signalprozessor 200 ein
verarbeitetes digitales Frequenzdomäneneingangssignal INd(f),
in dem Geräusche N1 und N2 unterdrückt worden
sind, in ein digitales Zeitdomänentonsignal INd(t), indem
zum Beispiel die inverse Fourier-Transformation ausgeführt
wird, und gibt das digitale Tonsignal INd(t) aus, das der Geräuschunterdrückung
unterzogen worden ist.
-
In
dieser Ausführungsform kann die Mikrofonarrayvorrichtung 100 auf
eine Informationsvorrichtung wie etwa eine Autonavigationsvorrichtung
angewendet werden, die eine Spracherkennungsfunktion hat. Daher
kann ein Ankunftsrichtungsbereich der Stimme eines Fahrers, die
die Zieltonquelle SS ist, oder ein minimaler Tonempfangsbereich
für die Mikrofonarrayvorrichtung 100 im Voraus
bestimmt werden. Wenn die Stimme aus einer Richtung nahe dem Stimmenankunftsrichtungsbereich
gesendet wird, kann bestimmt werden, dass eine Zieltonsignalwahrscheinlichkeit
hoch ist.
-
Wenn
bestimmt wird, dass die Zieltonsignalwahrscheinlichkeit D(f) des
digitalen Eingangssignals IN1(f) oder IN2(f) hoch ist, legt der
digitale Signalprozessor 200 einen breiten Tonempfangswinkelbereich Rs
oder einen breiten Nichtunterdrückungswinkelbereich, die
nachfolgend einfach als Tonempfangsbereich bzw. als Nichtunterdrückungsbereich
bezeichnet sind, und einen schmalen Unterdrückungsbereich
Rn fest. Die Zieltonsignalwahrscheinlichkeit kann zum Beispiel eine
Zielsprachsignalwahrscheinlichkeit sein. Eine Geräuschwahrscheinlichkeit
ist ein Antonym für eine Zieltonwahrscheinlichkeit. Die
Zieltonsignalwahrscheinlichkeit wird nachfolgend einfach als Zieltonwahrscheinlichkeit
bezeichnet. Auf der Basis des festgelegten Tonempfangsbereichs Rs
und des festgelegten Unterdrückungsbereichs Rn verarbeitet
der digitale Signalprozessor 200 das digitale Eingangssignal
IN1(f) sowie IN2(f). Als Resultat wird das digitale Tonsignal INd(t)
erzeugt, das in einem schmalen Bereich moderat einer Geräuschunterdrückung
unterzogen worden ist.
-
Wenn
andererseits bestimmt wird, dass die Zieltonwahrscheinlichkeit D(f)
des digitalen Eingangssignals IN1(f) oder IN2(f) niedrig ist oder
die Geräuschwahrscheinlichkeit des digitalen Eingangssignals
IN1(f) oder IN2(f) hoch ist, legt der digitale Signalprozessor 200 einen
schmalen Tonempfangsbereich Rs und einen breiten Unterdrückungsbereich Rn
fest. Auf der Basis des festgelegten Tonempfangsbereichs Rs und
des festgelegten Unterdrückungsbereichs Rn verarbeitet
der digitale Signalprozessor 200 das digitale Eingangssignal
IN1(f) sowie IN2(f). Als Resultat wird das digitale Tonsignal INd(t) erzeugt,
das in einem breiten Bereich ausreichend einer Geräuschunterdrückung
unterzogen worden ist.
-
Im
Allgemeinen hat das digitale Eingangssignal IN1(f) der Zieltonquelle
SS, das den Ton enthält, wie zum Beispiel eine menschliche
Stimme, einen Absolutwert, der größer als ein
durchschnittlicher Absolutwert AV{|IN1(f)|} einer gesamten oder
breiteren Periode der digitalen Eingangssignale IN1(f) ist, oder eine
Amplitude, die größer als ein durchschnittlicher Amplitudenwert
AV{|IN1(f)|} der gesamten oder breiteren Periode der digitalen Eingangssignale
IN1(f) ist, und das digitale Eingangssignal IN1(f), das dem Geräusch
N1 oder N2 entspricht, hat einen Absolutwert, der kleiner als der
durchschnittliche Absolutwert AV{|IN1(f)|} der digitalen Eingangssignale
IN1(f) ist, oder eine Amplitude, die kleiner als der durchschnittliche
Amplitudenwert AV{|IN1(f)|} der digitalen Eingangssignale IN1(f)
ist.
-
Unmittelbar
nach Beginn der Geräuschunterdrückung sollte der
durchschnittliche Absolutwert AV{|IN1(f)|} der digitalen Eingangssignale
IN1(f) oder der durchschnittliche Amplitudenwert AV{|IN1(f)|} der digitalen
Eingangssignale IN1(f) nicht verwendet werden, da eine Tonsignalempfangsperiode
kurz ist. In diesem Fall kann anstelle des durchschnittlichen Wertes
ein gewisser Anfangswert verwendet werden. Wenn solch ein Anfangswert
nicht festgelegt wird, wird die Geräuschunterdrückung
möglicherweise instabil ausgeführt, bis ein angemessener
durchschnittlicher Wert berechnet ist, und es kann einige Zeit in
Anspruch nehmen, bis eine stabile Geräuschunterdrückung
erreicht wird.
-
Wenn
das digitale Eingangssignal IN1(f) einen Absolutwert hat, der größer
als der durchschnittliche Absolutwert AV{|IN1(f)|} der digitalen
Eingangssignale IN1(f) ist, oder eine Amplitude, die größer
als der durchschnittliche Amplitudenwert AV{|IN1(f)|} der digitalen
Eingangssignale IN1(f) ist, kann daher geschätzt werden,
dass die Zieltonwahrscheinlichkeit D(f) des digitalen Eingangssignals
IN1(f) hoch ist. Wenn das digitale Eingangssignal IN1(f) andererseits einen
Absolutwert hat, der kleiner als der durchschnittliche Absolutwert
AV{|IN1(f)|} der digitalen Eingangssignale IN1(f) ist, oder eine
Amplitude, die kleiner als der durchschnittliche Amplitudenwert AV{|IN1(f)|}
der digitalen Eingangssignale IN1(f) ist, kann geschätzt
werden, dass die Zieltonwahrscheinlichkeit D(f) des digitalen Eingangssignals
IN1(f) niedrig ist und die Geräuschwahrscheinlichkeit des digitalen
Eingangssignals IN1(f) hoch ist. Die Zieltonwahrscheinlichkeit D(f)
kann zum Beispiel 0 ≤ D(f) ≤ 1 sein. Wenn in diesem
Fall D(f) ≥ 0,5 ist, ist die Zieltonwahrscheinlichkeit
des digitalen Eingangssignals IN1(f) hoch. Wenn D(f) < 0,5 ist, ist die
Zieltonwahrscheinlichkeit des digitalen Eingangssignals IN1(f) niedrig
und ist die Geräuschwahrscheinlichkeit des digitalen Eingangssignals
IN1(f) hoch. Die Bestimmung der Zieltonwahrscheinlichkeit D(f) soll
mit dem Absolutwert oder der Amplitude eines digitalen Eingangssignals
nicht beschränkt werden. Jeder Wert, der den Absolutwert
oder die Amplitude eines digitalen Eingangssignals darstellt, wie
zum Beispiel das Quadrat des Absolutwertes eines digitalen Eingangssignals,
das Quadrat der Amplitude eines digitalen Eingangssignals oder die
Potenz eines digitalen Eingangssignals, kann verwendet werden.
-
Der
digitale Signalprozessor 200 kann, wie zuvor beschrieben,
mit dem Richtungsbestimmer 194 oder dem Prozessor 10 verbunden
sein. In diesem Fall legt der digitale Signalprozessor 200 den Tonempfangsbereich
Rs, den Unterdrückungsbereich Rn und einen Umstellbereich
Rt auf der Basis von Informationen fest, die den minimalen Tonempfangsbereich
Rsmin darstellen und von dem Richtungsbestimmer 194 oder
dem Prozessor 10 gesendet werden, und unterdrückt
die Geräusche N1 und N2, die aus der Unterdrückungsrichtung
gesendet werden, in dem Unterdrückungsbereich Rn und dem Umstellbereich
Rt. Der minimale Tonempfangsbereich Rsmin stellt den minimalen Wert
des Tonempfangsbereichs Rs dar, in dem der Ton als der Ton der Zieltonquelle
SS verarbeitet wird. Die Informationen, die den minimalen Tonempfangsbereich
Rsmin darstellen, können zum Beispiel der minimale Wert θtbmin einer Winkelgrenze θtb zwischen
dem Tonempfangsbereich Rs und dem Unterdrückungsbereich
Rn sein.
-
Der
Richtungsbestimmer 194 oder der Prozessor 10 kann
Informationen erzeugen, die den minimalen Tonempfangsbereich Rsmin
darstellen, indem ein Festlegungssignal verarbeitet wird, das durch
einen Nutzer manuell eingegeben wurde. Auf der Basis von Detektionsdaten
oder Bilddaten, die durch den Sprecherrichtungsdetektionssensor 192 erhalten werden,
kann der Richtungsbestimmer 194 oder der Prozessor 10 ferner
die Anwesenheit eines Sprechers detektieren oder erkennen, eine
Richtung bestimmen, in der sich der Sprecher befindet, und Informationen
erzeugen, die den minimalen Tonempfangsbereich Rsmin darstellen.
-
Das
ausgegebene digitale Tonsignal INd(t) wird zum Beispiel zur Spracherkennung
oder Mobiltelefonkommunikation verwendet. Das digitale Tonsignal
INd(t) wird der Nutzungsanwendung 400 in der nachfolgenden
Stufe zugeführt, einer Digital-Analog-Konvertierung in
einem Digital-Analog-Konverter 404 unterzogen und dann
einer Tiefpassfilterung in einem Tiefpassfilter 406 unterzogen,
so dass ein analoges Signal erzeugt wird. Als Alternative wird das
digitale Tonsignal INd(t) in einem Speicher 414 gespeichert
und zur Spracherkennung in einem Spracherkenner 416 verwendet.
Der Spracherkenner 416 kann ein Prozessor sein, der als
Teil der Hardware installiert ist, oder ein Prozessor, der als Teil
der Software installiert ist, um gemäß einem Programm zu
arbeiten, das in dem Speicher 414 gespeichert ist, der
zum Beispiel einen ROM und einen RAM enthält. Der digitale
Signalprozessor 200 kann eine Signalverarbeitungsschaltung
sein, die als Teil der Hardware installiert ist, oder eine Signalverarbeitungsschaltung,
die als Teil der Software installiert ist, um gemäß einem
Programm zu arbeiten, das in dem Speicher 202 gespeichert
ist, der zum Beispiel einen ROM und einen RAM enthält.
-
Unter
Bezugnahme auf 1 legt die Mikrofonarrayvorrichtung 100 einen
Winkelbereich in der Richtung θ(= –π/2)
der Zieltonquelle SS, wie zum Beispiel einen Winkelbereich von –π/2 ≤ θ < –π/12, als
Tonempfangsbereich Rs oder Nichtunterdrückungsbereich Rs
fest. Ferner kann die Mikrofonarrayvorrichtung 100 einen
Winkelbereich in der Hauptunterdrückungsrichtung θ =
+π/2, wie zum Beispiel einen Winkelbereich von +π/12 < θ ≤ +π/2,
als Unterdrückungsbereich Rn festlegen. Weiterhin kann
die Mikrofonarrayvorrichtung 100 einen Winkelbereich zwischen
dem Tonempfangsbereich Rs und dem Unterdrückungsbereich
Rn, wie zum Beispiel einen Winkelbereich von –π/12 ≤ θ ≤ +π/12,
als Umstell-(Umschalt-)-Winkelbereich Rt festlegen (der nachfolgend
einfach als Umstellbereich Rt bezeichnet ist).
-
3A und 3B sind
schematische Diagramme, die eine Konfiguration der Mikrofonarrayvorrichtung 100 zeigen,
mit der Geräusch relativ reduziert werden kann, indem das
Geräusch mit der Anordnung des Arrays der Mikrofone MIC1
und MIC2, die in 1 gezeigt sind, unterdrückt
wird. Der digitale Signalprozessor 200 enthält
einen schnellen Fourier-Transformierer 212, der mit dem
Ausgangsanschluss des Analog-Digital-Konverters 162 verbunden
ist, einen schnellen Fourier-Transformierer 214, der mit
dem Ausgangsanschluss des Analog-Digital-Konverters 164 verbunden
ist, einen Zieltonwahrscheinlichkeitsbestimmer 218, einen
Synchronisationskoeffizientengenerator 220 und ein Filter 300. In
dieser Ausführungsform wird die schnelle Fourier-Transformation
zur Frequenzkonvertierung oder Orthogonaltransformation ausgeführt.
Jedoch kann auch eine andere Funktion zum Einsatz kommen, die zur
Frequenzkonvertierung verwendet werden kann (zum Beispiel die diskrete
Kosinustransformation, die Wavelet-Transformation oder dergleichen).
-
Der
Synchronisationskoeffizientengenerator 220 enthält
einen Phasendifferenzberechner 222 zum Berechnen der Phasendifferenz
zwischen komplexen Spektren jeder Frequenz f (0 < f < fs/2)
in einem gewissen Frequenzband, wie zum Beispiel einem Hörfrequenzband,
und einen Synchronisationskoeffizientenberechner 224. Das
Filter 300 enthält einen Synchronisierer 332 und
einen Subtrahierer 334. Anstelle des Subtrahierers 334 können
ein Vorzeicheninverter zum Invertieren eines Eingangswertes und
ein Addierer, der mit dem Vorzeicheninverter verbunden ist, als
Ersatzschaltung verwendet werden. Der Zieltonwahrscheinlichkeitsbestimmer 218 kann in
dem Synchronisationskoeffizientengenerator 220 enthalten
sein.
-
Der
Zieltonwahrscheinlichkeitsbestimmer 218, der mit dem Ausgangsanschluss
des schnellen Fourier-Transformierers 212 verbunden ist,
erzeugt die Zieltonwahrscheinlichkeit D(f) auf der Basis des Absolutwertes
oder der Amplitude des komplexen Spektrums IN1(f), das von dem schnellen
Fourier-Transformierer 212 gesendet wurde, und führt die
Zieltonwahrscheinlichkeit D(f) dem Synchronisationskoeffizientengenerator 220 zu.
Die Zieltonwahrscheinlichkeit D(f) ist ein Wert, der 0 ≤ D(f) ≤ 1
erfüllt. Wenn die Zieltonwahrscheinlichkeit D(f) des komplexen
Spektrums IN1(f) die höchste ist, ist der Wert der Zieltonwahrscheinlichkeit
D(f) gleich eins. Wenn die Zieltonwahrscheinlichkeit D(f) des komplexen
Spektrums IN1(f) die niedrigste ist oder die Geräuschwahrscheinlichkeit
des komplexen Spektrums IN1(f) die höchste ist, ist der
Wert der Zieltonwahrscheinlichkeit D(f) gleich null.
-
4A ist
ein Diagramm, das einen beispielhaften Festlegungszustand des Tonempfangsbereichs
Rs, des Unterdrückungsbereichs Rn und des Umstellbereichs
Rt zeigt, wenn die Zieltonwahrscheinlichkeit D(f) die höchste
ist. 4B ist ein Diagramm, das einen beispielhaften
Festlegungszustand des Tonempfangsbereichs Rs, des Unterdrückungsbereichs
Rn und des Umstellbereichs Rt zeigt, wenn die Zieltonwahrscheinlichkeit
D(f) die niedrigste ist.
-
Wenn
die Zieltonwahrscheinlichkeit D(f) die höchste (= 1) ist,
stellt der Synchronisationskoeffizientenberechner 224 den
Tonempfangsbereich Rs auf den maximalen Tonempfangsbereich Rsmax, den
Unterdrückungsbereich Rn auf den minimalen Unterdrückungsbereich
Rnmin und den Umstellbereich Rt zwischen dem maximalen Tonempfangsbereich
Rsmax und dem minimalen Unterdrückungsbereich Rnmin so
wie in 4A ein, um einen Synchronisationskoeffizienten
zu berechnen, der später zu beschreiben ist. Der maximale
Tonempfangsbereich Rsmax wird im Bereich des Winkels θ festgelegt,
der zum Beispiel –π/2 ≤ θ < 0 erfüllt.
Der minimale Unterdrückungsbereich Rnmin wird im Bereich
des Winkels θ festgelegt, der zum Beispiel +π/6 < θ ≤ +π/2
erfüllt. Der Umstellbereich Rt wird im Bereich des Winkels θ festgelegt,
der zum Beispiel 0 ≤ θ ≤ +π/6
erfüllt.
-
Wenn
die Zieltonwahrscheinlichkeit D(f) die niedrigste (= 0) ist, stellt
der Synchronisationskoeffizientenberechner 224 den Tonempfangsbereich
Rs auf den minimalen Tonempfangsbereich Rsmin, den Unterdrückungsbereich
Rn auf den maximalen Unterdrückungsbereich Rnmax und den
Umstellbereich Rt zwischen dem minimalen Tonempfangsbereich Rsmin
und dem maximalen Unterdrückungsbereich Rnmax so wie in 4B ein.
Der minimale Tonempfangsbereich Rsmin wird im Bereich des Winkels θ festgelegt,
der zum Beispiel –π/2 ≤ θ ≤ –π/6
erfüllt. Der maximale Unterdrückungsbereich Rnmax
wird im Bereich des Winkels θ festgelegt, der zum Beispiel 0 < θ ≤ +π/2
erfüllt. Der Umstellbereich Rt wird im Bereich des Winkels θ festgelegt,
der zum Beispiel –π/6 ≤ θ ≤ 0
erfüllt.
-
Wenn
die Zieltonwahrscheinlichkeit D(f) ein Wert zwischen dem maximalen
Wert und dem minimalen Wert ist (0 < D(f) < 1), wie in 1 gezeigt, stellt
der Synchronisationskoeffizientenberechner 224 den Tonempfangsbereich
Rs und den Unterdrückungsbereich Rn auf der Basis des Wertes
der Zieltonwahrscheinlichkeit D(f) und den Umstellbereich Rt zwischen
dem Tonempfangsbereich Rs und dem Unterdrückungsbereich
Rn ein. Je größer in diesem Fall der Wert der
Zieltonwahrscheinlichkeit D(f) ist, desto größer
ist der Tonempfangsbereich Rs im Verhältnis zu D(f) und
desto kleiner ist der Unterdrückungsbereich Rn. Wenn die
Zieltonwahrscheinlichkeit D(f) zum Beispiel 0,5 ist, wird der Tonempfangsbereich Rs
im Bereich des Winkels θ festgelegt, der zum Beispiel –π/2 ≤ θ < –π/12
erfüllt, wird der Unterdrückungsbereich Rn im
Bereich des Winkels θ festgelegt, der zum Beispiel +π/12 < θ ≤ +π/2
erfüllt, und wird der Umstellbereich Rt im Bereich des
Winkels θ festgelegt, der zum Beispiel –π/12 ≤ θ ≤ +π/12
erfüllt.
-
Der
Zieltonwahrscheinlichkeitsbestimmer 218 kann zeitliche
Durchschnittswerte AV{|IN1(f)|} von Absolutwerten |IN1(f, i)| von
komplexen Spektren IN1(f) für jeden zeitlichen Analyserahmen
(Fenster) i bei der schnellen Fourier-Transformation sequentiell berechnen,
wobei i die zeitliche laufende Nummer (0, 1, 2, ...) eines Analyserahmens
darstellt. Wenn die laufende Nummer i eine anfängliche
laufende Nummer i = 0 ist, ist AV{|IN1(f, i)|} = |IN1(f, i)|. Wenn
die laufende Nummer i > 0
ist, ist AV{|IN1(f, i)|) = βAV{|IN1(f, i – 1)|}
+ (1 – β)|IN1(f, i)|. β zur Berechnung
des Durchschnittswertes AV{|IN1(f)|} ist ein Wert, der ein Gewichtsverhältnis
des Durchschnittswertes AV{|IN1(f, i – 1)|} des letzten
Analyserahmens und des Durchschnittswertes AV{|IN1(f, i)|} eines
gegenwärtigen Analyserahmens darstellt, und wird im Voraus
so festgelegt, dass 0 ≤ β < 1 erfüllt ist. Für
die ersten paar laufenden Nummern i = 0 bis m (m ist eine ganze
Zahl größer gleich eins) kann ein Festwert INc
= AV{|IN1(f, i)|} verwendet werden. Der Festwert INc kann empirisch
bestimmt werden.
-
Der
Zieltonwahrscheinlichkeitsbestimmer 218 berechnet einen
relativen Pegel γ zu einem Durchschnittswert, indem der
Absolutwert des komplexen Spektrums IN1(f) durch den zeitlichen
Durchschnittswert der Absolutwerte dividiert wird, wie durch die
folgende Gleichung dargestellt: γ =
|IN1(f, i)|/AV{|IN1(f, i)|).
-
Der
Zieltonwahrscheinlichkeitsbestimmer 218 bestimmt die Zieltonwahrscheinlichkeit
D(f) des komplexen Spektrums IN1(f) gemäß dem
relativen Pegel γ. Als Alternative kann anstelle des Absolutwertes
|IN1(f, i)| des komplexen Spektrums IN1(f) das Quadrat des Absolutwertes,
also |IN1(f, i)|2, verwendet werden.
-
5 ist
ein Diagramm, das einen beispielhaften Fall zeigt, bei dem der Wert
der Zieltonwahrscheinlichkeit D(f) gemäß dem relativen
Pegel γ eines digitalen Eingangssignals bestimmt wird.
Wenn der relative Pegel γ des Absolutwertes des komplexen
Spektrums IN1(f) zum Beispiel kleiner gleich einem gewissen Schwellenwert γ1
(zum Beispiel γ1 = 0,7) ist, legt der Zieltonwahrscheinlichkeitsbestimmer 218 die
Zieltonwahrscheinlichkeit D(f) auf null fest. Wenn der relative
Pegel γ des Absolutwertes des komplexen Spektrums IN1(f)
zum Beispiel größer gleich einem anderen Schwellenwert γ2
(> γ1) ist (zum
Beispiel ist γ2 = 1,4), legt der Zieltonwahrscheinlichkeitsbestimmer 218 die
Zieltonwahrscheinlichkeit D(f) auf eins fest. Wenn der relative
Pegel γ des Absolutwertes des komplexen Spektrums IN1(f) zum
Beispiel ein Wert zwischen den zwei Schwellenwerten γ1
und γ2 ist (γ1 < γ < γ2), legt
der Zieltonwahrscheinlichkeitsbestimmer 218 die Zieltonwahrscheinlichkeit
D(f) durch proportionale Verteilung auf (γ – γ1)/(γ2 – γ1)
fest. Die Beziehung zwischen dem relativen Pegel γ und
der Zieltonwahrscheinlichkeit D(f) ist nicht auf die beschränkt,
die in 5 gezeigt ist, und sie kann die Beziehung sein,
in der die Zieltonwahrscheinlichkeit D(f) gemäß dem
Anstieg des relativen Pegels γ monoton ansteigt, wie zum
Beispiel eine Sigmoidfunktion.
-
10 ist
ein Diagramm, das einen anderen beispielhaften Fall zeigt, bei dem
der Wert der Zieltonwahrscheinlichkeit D(f) gemäß dem
relativen Pegel γ eines digitalen Eingangssignals bestimmt
wird. Unter Bezugnahme auf 10 wird
der Wert der Zieltonwahrscheinlichkeit D(f) auf der Basis einer Phasenspektraldifferenz
DIFF(f) bestimmt, die eine Tonquellenrichtung darstellt. Hier ist
die Zieltonwahrscheinlichkeit D(f) umso höher, je näher
die Phasenspektraldifferenz DIFF(f), die eine Tonquellenrichtung darstellt,
einer Sprecherrichtung ist, die zum Beispiel bei einer Autonavigationsanwendung
prognostiziert ist. Schwellenwerte σ1 bis σ4 werden
auf der Basis einer prognostizierten Sprecherrichtung festgelegt. Wenn
eine Zieltonquelle auf der Linie liegt, die Mikrofone verbindet,
wie in 1gezeigt, werden zum Beispiel σ1 = –0,2fπ/(fs/2), σ2
= –0,4fπ/(fs/2), σ3 = 0,2fπ(fs/2)
und σ4 = 0,4fπ(fs/2) festgelegt.
-
Unter
Bezugnahme auf 1, 4A und 4B legt
dann, wenn die Zieltonwahrscheinlichkeit D(f), die von dem Zieltonwahrscheinlichkeitsbestimmer 218 ausgegeben
wird, 0 < D(f) < 1 ist, der Synchronisationskoeffizientenberechner 224 den Tonempfangsbereich
Rs, den Unterdrückungsbereich Rn und den Umstellbereich
Rt so wie in 1 fest. Wenn die Zieltonwahrscheinlichkeit
D(f), die von dem Zieltonwahrscheinlichkeitsbestimmer 218 ausgegeben
wird, D(f) = 1 ist, legt der Synchronisationskoeffizientenberechner 224 den
maximalen Tonempfangsbereich Rsmax, den minimalen Unterdrückungsbereich
Rnmin und den Umstellbereich Rt wie in 4A fest.
Wenn die Zieltonwahrscheinlichkeit D(f), die von dem Zieltonwahrscheinlichkeitsbestimmer 218 ausgegeben
wird, D(f) = 0 ist, legt der Synchronisationskoeffizientenberechner 224 den
minimalen Tonempfangsbereich Rsmin, den maximalen Unterdrückungsbereich
Rnmax und den Umstellbereich Rt wie in 4B fest.
-
Eine
Winkelgrenze θta zwischen dem Umstellbereich Rt und dem
Unterdrückungsbereich Rn ist ein Wert, der θtamin ≤ θta ≤ θtamax erfüllt. Hier ist θtamin der minimale Wert von θta und
beträgt zum Beispiel null Radiant. θtamax ist der maximale Wert von θta
und beträgt zum Beispiel +π/6. Die Winkelgrenze θta
wird für die Zieltonwahrscheinlichkeit D(f) durch proportionale
Verteilung wie folgt dargestellt: θta
= θtamin + (θtamax – θtamin)D(f).
-
Eine
Winkelgrenze θtb zwischen dem Umstellbereich Rt und dem
Tonempfangsbereich Rs ist ein Wert, der θta > θtb und θtbmin ≤ θtb ≤ θtbmax erfüllt. Hier ist θtbmin der minimale Wert von θtb und
beträgt zum Beispiel –π/6. θtbmax ist der maximale Wert von θtb
und beträgt zum Beispiel null Radiant. Die Winkelgrenze θtb
wird für die Zieltonwahrscheinlichkeit D(f) durch proportionale
Verteilung wie folgt dargestellt: θtb
= θtbmin + (θtbmax – θtbmin)D(f).
-
Die
digitalen Zeitdomäneneingangssignale IN1(t) und IN2(t),
die von den Analog-Digital-Konvertern 162 und 164 ausgegeben
werden, werden den schnellen Fourier-Transformierern 212 bzw. 214 zugeführt.
Die schnellen Fourier-Transformierer 212 und 214 führen
die Fourier-Transformation oder Orthogonaltransformation am Produkt
aus dem Signalabschnitt des digitalen Eingangssignals IN1(t) und
einer Überlappungsfensterfunktion und dem Produkt aus dem
Signalabschnitt des digitalen Eingangssignals IN2(t) und einer Überlappungsfensterfunktion aus,
wodurch die komplexen Frequenzdomänenspektren IN1(f) bzw.
IN2(f) erzeugt werden. Hier ist das komplexe Frequenzdomänenspektrum
IN1(f) = A1ej(2πft+ϕ1(f)) und
ist das komplexe Frequenzdomänenspektrum IN2(f) = A2ej(2πft+ϕ2(f)),
wobei f eine Frequenz darstellt, A1 und
A2 eine Amplitude darstellen, j eine imaginäre
Einheit darstellt und ϕ1(f) und ϕ2(f) eine Phasenverzögerung
darstellen, die eine Funktion für die Frequenz f ist. Als Überlappungsfensterfunktion kann
zum Beispiel eine Hamming-Fensterfunktion, eine Hanning-Fensterfunktion,
eine Blackman-Fensterfunktion, eine Gaußsche Drei-Sigma-Fensterfunktion
oder eine Dreieckfensterfunktion verwendet werden.
-
Der
Phasendifferenzberechner 222 berechnet wie folgt eine Phasendifferenz
DIFF(f) in Radiant für jede Frequenz f (0 < f < fs/2) zwischen
Phasenspektralkomponenten der zwei benachbarten Mikrofone MIC1 und
MIC2, die mit der Distanz d voneinander beabstandet sind. Die Phasendifferenz
DIFF(f) stellt eine Tonquellenrichtung für jede der Frequenzen
dar. Die Phasendifferenz DIFF(f) wird in der folgenden Gleichung
unter der Annahme ausgedrückt, dass nur eine Tonquelle
entsprechend einer spezifischen Frequenz vorhanden ist: DIFF(f) = tan–1(J{IN2(f)/IN1(f)}/R{IN2(f)/IN1(f)}), wobei
J{x} die imaginäre Komponente einer komplexen Zahl x darstellt
und R{x} die reale Komponente der komplexen Zahl x darstellt. Wenn
die Phasendifferenz DIFF(f) mit den Phasenverzögerungen
(ϕ1(f) und ϕ2(f)) der digitalen Eingangssignale
IN1(t) und IN2(t) dargestellt wird, wird die folgende Gleichung erhalten. DIFF(f) = tan–1(J{(A2ej(2πft+ϕ2(f)/A1ej(2πft+ϕ1(f)}/R{A2ej(2πft+ϕ2(f))/A1ej(2πft+ϕ1(f))}). =
tan–1(J{(A2/A1)ej(ϕ2(f)-ϕ1(f))}/R{(A2/A1)ej(ϕ2(f)-ϕ1(f))}) =
tan–1(J{ej(ϕ2(f)-ϕ1(f)))}/R{ej(ϕ2(f)-ϕ1(f)))}) =
tan–1(sin(ϕ2(f) – ϕ1(f))/cos(ϕ2(f) – ϕ1(f))) =
tan–1(tan(ϕ2(f) – ϕ1(f)) = ϕ2(f) – ϕ1(f))
-
Der
Phasendifferenzberechner 222 führt dem Synchronisationskoeffizientenberechner 224 die
Phasendifferenz DIFF(f) für jede Frequenz f zwischen Phasenspektralkomponenten
der zwei benachbarten Eingangssignale IN1(f) und IN2(f) zu.
-
6A bis 6C sind
Diagramme, die die Beziehungen zeigen zwischen der für
jede Frequenz f durch den Phasendifferenzberechner 222 berechneten
Phasendifferenz DIFF(f) und jeweils dem Tonempfangsbereich Rs, dem
Unterdrückungsbereich Rn und dem Umstellbereich Rt, die
bei verschiedenen Zieltonwahrscheinlichkeiten D(f) erhalten werden,
wenn die Mikrofone MIC1 und MIC2 so wie in 1 angeordnet
sind.
-
Unter
Bezugnahme auf 6A bis 6C stellt
eine lineare Funktion af eine Grenze der Phasendifferenz DIFF(f)
dar, die der Winkelgrenze θta zwischen dem Unterdrückungsbereich
Rn und dem Umstellbereich Rt entspricht. Hier ist die Frequenz f ein
Wert, der 0 < f < fs/2 erfüllt,
stellt a den Koeffizienten der Frequenz f dar und hat der Koeffizient
a einen Wert zwischen dem minimalen Wert amin und
dem maximalen Wert amax, das heißt, –2π/fs < amin ≤ a ≤ amax < +2π/fs.
Eine lineare Funktion bf stellt eine Grenze der Phasendifferenz
DIFF(f) dar, die der Winkelgrenze θtb zwischen dem Tonempfangsbereich Rs
und dem Umstellbereich Rt entspricht. Hier stellt b den Koeffizienten
der Frequenz f dar und ist der Koeffizient b ein Wert zwischen dem
minimalen Wert bmin und dem maximalen Wert
bmax, das heißt, –2π/fs < bmin ≤ b ≤ bmax < +2π/fs.
Die Beziehung zwischen den Koeffizienten a und b lautet a > b.
-
Eine
Funktion amaxf, die in 6A gezeigt
ist, entspricht der Winkelgrenze θtamax,
die in 4A gezeigt ist. Eine Funktion
aminf, die in 6C gezeigt
ist, entspricht der Winkelgrenze θtamin,
die in 4B gezeigt ist. Eine Funktion
bmaxf, die in 6A gezeigt ist,
entspricht der Winkelgrenze θtbmax,
die in 4A gezeigt ist. Eine Funktion
bminf, die in 6C gezeigt ist,
entspricht der Winkelgrenze θtbmin,
die in 4B gezeigt ist.
-
Unter
Bezugnahme auf 6A entspricht dann, wenn die
Zieltonwahrscheinlichkeit D(f) die höchste, nämlich
D(f) = 1 ist, der maximale Tonempfangsbereich Rsmax dem maximalen
Phasendifferenzbereich von –2πf/fs ≤ DIFF(f) < bmaxf.
In diesem Fall entspricht der minimale Unterdrückungsbereich Rnmin
dem minimalen Phasendifferenzbereich von amaxf < DIFF(f) ≤ +2πf/fs,
und der Umstellbereich Rt entspricht dem Phasendifferenzbereich
von bmaxf ≤ DIFF(f) ≤ amaxf. Zum Beispiel ist der maximale Wert des
Koeffizienten a amax = +2π/3fs,
und der maximale Wert des Koeffizienten b ist bmax =
0.
-
Unter
Bezugnahme auf 6C entspricht dann, wenn die
Zieltonwahrscheinlichkeit D(f) die niedrigste, nämlich
D(f) = 0 ist, der minimale Tonempfangsbereich Rsmin dem minimalen
Phasendifferenzbereich von –2πf/fs ≤ DIFF(f) < bminf.
In diesem Fall entspricht der maximale Unterdrückungsbereich Rnmax
dem maximalen Phasendifferenzbereich von aminf < DIFF(f) ≤ +2πf/fs,
und der Umstellbereich Rt entspricht dem Phasendifferenzbereich
von bminf ≤ DIFF(f) ≤ aminf. Zum Beispiel ist der minimale Wert des
Koeffizienten a amin = 0 und ist der minimale
Wert des Koeffizienten b bmin = –2π/3fs.
-
Unter
Bezugnahme auf 6B entspricht dann, wenn die
Zieltonwahrscheinlichkeit D(f) ein Wert zwischen dem maximalen Wert
und dem minimalen Wert ist, nämlich 0 < D(f) < 1, der Tonempfangsbereich Rs dem Zwischenphasendifferenzbereich
von –2πf/fs ≤ DIFF(f) < bf. In diesem Fall
entspricht der Unterdrückungsbereich Rn dem Zwischenphasendifferenzbereich
von af < DIFF(f) ≤ +2πf/fs,
und der Umstellbereich Rt entspricht dem Phasendifferenzbereich
von bf ≤ DIFF(f) ≤ af.
-
Der
Koeffizient a der Frequenz f wird für die Zieltonwahrscheinlichkeit
D(f) durch proportionale Verteilung wie folgt dargestellt: a = amin + (amax – amin)D(f).
-
Der
Koeffizient b der Frequenz f wird für die Zieltonwahrscheinlichkeit
D(f) durch proportionale Verteilung wie folgt dargestellt: b = bmin + (bmax – bmin)D(f)
-
Unter
Bezugnahme auf 6A bis 6C führt
dann, wenn die Phasendifferenz DIFF(f) in einem Bereich liegt, der
dem Unterdrückungsbereich Rn entspricht, der Synchronisationskoeffizientenberechner 224 eine
Geräuschunterdrückungsverarbeitung an den digitalen
Eingangssignalen IN1(f) und IN2(f) aus. Wenn die Phasendifferenz
DIFF(f) in einem Bereich liegt, der dem Umstellbereich Rt entspricht,
führt der Synchronisationskoeffizientenberechner 224 eine
Geräuschunterdrückungsverarbeitung an den digitalen
Eingangssignalen IN1(f) und IN2(f) gemäß der Frequenz
f und der Phasendifferenz DIFF(f) aus. Wenn die Phasendifferenz
DIFF(f) in einem Bereich liegt, der dem Tonempfangsbereich Rs entspricht,
führt der Synchronisationskoeffizientenberechner 224 keine
Geräuschunterdrückungsverarbeitung an den digitalen
Eingangssignalen IN1(f) und IN2(f) aus.
-
Der
Synchronisationskoeffizientenberechner 224 berechnet, dass
ein Geräusch, das aus der Richtung des Winkels θ,
wie zum Beispiel +π/12 < θ ≤ +π/2,
in dem Unterdrückungsbereich Rn gesendet wird, das Mikrofon
MIC2 früher erreicht und das Mikrofon MIC1 mit einer Verzögerungszeit
entsprechend der Phasendifferenz DIFF(f) bei einer spezifischen
Frequenz f später erreicht. Ferner schaltet der Synchronisationskoeffizientenberechner 224 allmählich
zwischen der Verarbeitung in dem Tonempfangsbereich Rs und der Geräuschunterdrückungsverarbeitung
in dem Unterdrückungsbereich Rn in dem Bereich des Winkels θ,
wie zum Beispiel –π/12 ≤ θ ≤ +π/12,
in dem Umstellbereich Rt an der Position des Mikrofons MIC1 um.
-
Der
Synchronisationskoeffizientenberechner 224 berechnet einen
Synchronisationskoeffizienten C(f) auf der Basis der Phasendifferenz
DIFF(f) für jede Frequenz f zwischen Phasenspektralkomponenten
unter Verwendung der folgenden Gleichungen.
- (a)
Der Synchronisationskoeffizientenberechner 224 berechnet
sequentiell die Synchronisationskoeffizienten C(f) für
zeitliche Analyserahmen (Fenster) i bei der schnellen Fourier-Transformation.
Hier stellt i die zeitliche laufende Nummer 0, 1, 2, ... eines Analyserahmens
dar. Ein Synchronisationskoeffizient C(f, i) = Cn(f, i) wird, wenn
die Phasendifferenz DIFF(f) ein Wert ist, der dem Winkel θ entspricht,
wie zum Beispiel +π/12 < θ ≤ +π/2,
in dem Unterdrückungsbereich Rn wie folgt berechnet: C(f, 0) = Cn(f, 0) = IN1(f, 0)/IN2(f, 0), wobei
i = 0 ist, und C(f, i) = Cn(f, i) = αC(f,
i – 1) + (1 – α)IN1(f, i)/IN2(f, i), wobei
i > 0 ist.
-
Hier
stellt INI(f, i)/IN2(f, i) das Verhältnis des komplexen
Spektrums eines Signals, das dem Mikrofon MIC1 eingegeben wird,
zum komplexen Spektrum eines Signals dar, das dem Mikrofon MIC2
eingegeben wird, das heißt, es stellt ein Amplitudenverhältnis
und eine Phasendifferenz dar. IN1(f, i)/IN2(f, i) kann als Umkehrung
des Verhältnisses des komplexen Spektrums eines Signals,
das dem Mikrofon MIC2 eingegeben wird, zum komplexen Spektrum eines
Signals, das dem Mikrofon MIC1 eingegeben wird, betrachtet werden.
Ferner stellt α das Synchronisationsadditionsverhältnis
oder Synchronisationssyntheseverhältnis des Betrages der
Phasenverzögerung des letzten Analyserahmens dar und ist
eine Konstante, die 0 ≤ α < 1 erfüllt, und 1 – α stellt
das Synchronisationsadditionsverhältnis oder Synchronisationssyntheseverhältnis
des Betrages der Phasenverzögerung eines gegenwärtigen
Analyserahmens dar. Ein gegenwärtiger Synchronisationskoeffizient C(f,
i) wird erhalten, indem der Synchronisationskoeffizient des letzten
Analyserahmens und das Verhältnis des komplexen Spektrums
eines Signals, das dem Mikrofon MIC1 eingegeben wird, zum komplexen
Spektrum eines Signals, das dem Mikrofon MIC2 eingegeben wird, in
dem gegenwärtigen Analyserahmen in einem Verhältnis
von α:(1 – α) addiert wird.
- (b) Wenn die Phasendifferenz DIFF(f) ein Wert ist, der dem Winkel θ,
wie zum Beispiel –π/2 ≤ θ < –π/12,
in dem Tonempfangsbereich Rs entspricht, wird ein Synchronisationskoeffizient
C(f) = Cs(f) wie folgt berechnet:
C(f) = Cs(f) = exp(–j2πf/fs)
oder
C(f) = Cs(f) = 0 (wenn keine Synchronisationsubtraktion
ausgeführt wird).
- (c) Wenn die Phasendifferenz DIFF(f) ein Wert ist, der dem Winkel θ,
wie zum Beispiel –π/12 ≤ θ ≤ +π/12,
in dem Umstellbereich Rt entspricht, wird ein Synchronisationskoeffizient
C(f) = Ct(f) erhalten, indem der gewichtete Durchschnitt von Cs(f) und
Cn(f), der in (a) beschrieben ist, gemäß dem Winkel θ wie
folgt berechnet wird: C(f) = Ct(f) = Cs(f) × (θ – θtb)/(θta – θtb)
+ Cn(f) × (θta – θ)/(θta – θtb).
-
Hier
stellt θta den Winkel der Grenze zwischen dem Umstellbereich
Rt und dem Unterdrückungsbereich Rn dar, und θtb
stellt den Winkel der Grenze zwischen dem Umstellbereich Rt und
dem Tonempfangsbereich Rs dar.
-
So
erzeugt der Synchronisationskoeffizientengenerator 220 den
Synchronisationskoeffizienten C(f) gemäß den komplexen
Spektren IN1(f) und IN2(f) und führt die komplexen Spektren
IN1(f) und IN2(f) und den Synchronisationskoeffizienten C(f) dem
Filter 300 zu.
-
Unter
Bezugnahme auf 3B synchronisiert der Synchronisierer 332,
der in dem Filter 300 enthalten ist, das komplexe Spektrum
IN2(f) mit dem komplexen Spektrum IN1(f) durch Ausführung
der folgenden Gleichung, um ein synchronisiertes Spektrum INs2(f)
zu erzeugen: INs2(f) = C(f) × IN2(f).
-
Der
Subtrahierer 334 subtrahiert das Produkt aus einem Koeffizienten δ(f)
und dem komplexen Spektrum INs2(f) von dem komplexen Spektrum IN1(f),
um ein komplexes Spektrum INd(f) mit unterdrücktem Geräusch
zu erzeugen, unter Verwendung der folgenden Gleichung: INd(f) = IN1(f) – δ(f) × INs2(f).
-
Hier
wird der Koeffizient δ(f) im Voraus festgelegt, und er
ist ein Wert, der 0 ≤ δ(f) ≤ 1 erfüllt.
Der Koeffizient δ(f) ist eine Funktion der Frequenz f und wird
verwendet, um den Subtraktionsgrad des Spektrums INs2(f) einzustellen,
der von einem Synchronisationskoeffizienten abhängt. Um
zum Beispiel das Auftreten einer Verzerrung eines Tonsignals zu
verhindern, das einen Ton darstellt, der aus dem Tonempfangsbereich
Rs gesendet wird, und das Geräusch signifikant zu unterdrücken,
das einen Ton darstellt, der aus dem Unterdrückungsbereich
Rn gesendet wird, kann der Koeffizient δ(f) so festgelegt werden,
dass eine Tonankunftsrichtung, die durch die Phasendifferenz DIFF(f)
dargestellt wird, im Unterdrückungsbereich Rn einen Wert
hat, der größer als jener im Tonempfangsbereich
Rs ist.
-
Der
digitale Signalprozessor 200 enthält ferner einen
inversen schnellen Fourier-Transformierer (IFFT) 382. Der
inverse schnelle Fourier-Transformierer 382 empfängt
das Spektrum INd(f) von dem Subtrahierer 334 und führt
eine inverse Fourier-Transformation und überlappende Addition
an dem Spektrum INd(f) aus, wodurch das digitale Zeitdomänentonsignal
INd(t) an der Position des Mikrofons MIC1 erzeugt wird.
-
Die
Ausgabe des inversen schnellen Fourier-Transformierers 382 wird
der Nutzungsanwendung 400 in der nachfolgenden Stufe eingegeben.
-
Das
ausgegebene digitale Tonsignal INd(t) wird zum Beispiel zur Spracherkennung
oder Mobiltelefonkommunikation verwendet. Das digitale Tonsignal
INd(t), das der Nutzungsanwendung 400 in der nachfolgenden
Stufe zugeführt wird, wird einer Digital-Analog-Konvertierung
im Digital-Analog-Konverter 404 und einer Tiefpassfilterung
im Tiefpassfilter 406 unterzogen, so dass ein analoges
Signal erzeugt wird. Alternativ dazu wird das digitale Tonsignal
INd(t) in dem Speicher 414 gespeichert und zur Spracherkennung
in dem Spracherkenner 416 verwendet.
-
Die
Komponenten 212, 214, 218, 220 bis 224, 300 bis 334 und 382,
die in 3A und 3B gezeigt
sind, können als integrierte Schaltung installiert sein
oder können durch den digitalen Signalprozessor 200 verarbeitet
werden, der ein Programm ausführen kann, das den Funktionen
dieser Komponenten entspricht.
-
7 ist
ein Flussdiagramm, das einen Erzeugungsprozess eines komplexen Spektrums
zeigt, der durch den in 3A und 3B gezeigten
digitalen Signalprozessor 200 gemäß einem
Programm ausgeführt wird, das in dem Speicher 202 gespeichert
ist. Der Erzeugungsprozess des komplexen Spektrums entspricht Funktionen,
die durch die Komponenten 212, 214, 218, 220, 300 und 382,
die in 3A und 3B gezeigt
sind, erreicht werden.
-
Unter
Bezugnahme auf 3A, 3B und 7 empfängt
der digitale Signalprozessor 200 (die schnellen Fourier-Transformierer 212 und 214)
bei S502 die zwei digitalen Zeitdomäneneingangssignale
IN1(t) und IN2(t) von den Analog-Digital-Konvertern 162 bzw. 164.
-
Bei
S504 multipliziert der digitale Signalprozessor 200 (die
schnellen Fourier-Transformierer 212 und 214)
jedes der zwei digitalen Eingangssignale IN1(t) und IN2(t) mit einer Überlappungsfensterfunktion.
-
Bei
S506 führt der digitale Signalprozessor 200 (die
schnellen Fourier-Transformierer 212 und 214)
die Fourier-Transformation an den digitalen Eingangssignalen IN1(t)
und IN2(t) aus, um die komplexen Frequenzdomänenspektren
IN1(f) und IN2(f) von den digitalen Eingangssignalen IN1(t) bzw.
IN2(t) zu erzeugen.
-
Bei
S508 berechnet der digitale Signalprozessor 200 (der Phasendifferenzberechner 222,
der in dem Synchronisationskoeffizientengenerator 220 enthalten
ist) die Phasendifferenz DIFF(f) zwischen den komplexen Spektren
IN1(f) und IN2(f) wie folgt DIFF(f) = tan–1(J{IN2(f)/IN1(f)}/R{IN2(f)/IN1(f)}).
-
Bei
S509 erzeugt der digitale Signalprozessor 200 (der Zieltonwahrscheinlichkeitsbestimmer 218)
die Zieltonwahrscheinlichkeit D(f) (0 ≤ D(f) ≤ 1) auf
der Basis des Absolutwertes oder der Amplitude des komplexen Spektrums
IN1(f), das von dem schnellen Fourier-Transformierer 212 gesendet
wird, und führt die Zieltonwahrscheinlichkeit D(f) dem
Synchronisationskoeffizientengenerator 220 zu. Der digitale
Signalprozessor 200 (der Synchronisationskoeffizientenberechner 224,
der in dem Synchronisationskoeffizientengenerator 220 enthalten
ist) legt für jede Frequenz f den Tonempfangsbereich Rs
(–2πf/fs ≤ DIFF(f) < bf), den Unterdrückungsbereich
Rn (af < DIFF(f) ≤ +2πf/fs)
und den Umstellbereich Rt (bf ≤ DIFF(f) ≤ af)
auf der Basis der Zieltonwahrscheinlichkeit D(f) und von Informationen
fest, die den minimalen Tonempfangsbereich Rsmin darstellen.
-
Bei
S510 berechnet der digitale Signalprozessor 200 (der Synchronisationskoeffizientenberechner 224,
der in dem Synchronisationskoeffizientengenerator 220 enthalten
ist) das Verhältnis C(f) des komplexen Spektrums eines
Signals, das dem Mikrofon MIC1 eingegeben wird, zum komplexen Spektrum
eines Signals, das dem Mikrofon MIC2 eingegeben wird, auf der Basis
der Phasendifferenz DIFF(f), wie zuvor beschrieben, unter Verwendung der
folgenden Gleichung.
- (a) Wenn die Phasendifferenz
DIFF(f) ein Wert ist, der einem Winkel θ im Unterdrückungsbereich
Rn entspricht, wird der Synchronisationskoeffizient C(f) wie folgt
berechnet: C(f, i) = Cn(f, i) = αC(f,
i – 1) + (1 – α)IN1(f, i)/IN2(f, i).
- (b) Wenn die Phasendifferenz DIFF(f) ein Wert ist, der einem
Winkel θ im Tonempfangsbereich Rs entspricht, wird der
Synchronisationskoeffizient C(f) wie folgt berechnet: C(f)
= Cs(f) = exp(–j2πf/fs) oder C(f) = Cs(f) = 0.
- (c) Wenn die Phasendifferenz DIFF(f) ein Wert ist, der einem
Winkel θ im Umstellbereich Rt entspricht, wird der Synchronisationskoeffizient
C(f) wie folgt berechnet: C(f) = Ct(f) = gewichteter
Durchschnitt von Cs(f) und Cn(f).
-
Bei
S514 synchronisiert der digitale Signalprozessor 200 (der
Synchronisierer 332, der in dem Filter 300 enthalten
ist) das komplexe Spektrum IN2(f) mit dem komplexen Spektrum IN1(f)
und erzeugt das synchronisierte Spektrum INs2(f) wie folgt: INs2(f)
= C(f)IN2(f).
-
Bei
S516 subtrahiert der digitale Signalprozessor 200 (der
Subtrahierer 334, der in dem Filter 300 enthalten
ist) das Produkt aus dem Koeffizienten δ(f) und dem komplexen
Spektrum INs2(f) von dem komplexen Spektrum IN1(f) (INd(f) = IN1(f) – δ(f) × INs2(f))
und erzeugt das komplexe Spektrum INd(f) mit unterdrücktem
Geräusch.
-
Bei
S518 empfängt der digitale Signalprozessor 200 (der
inverse schnelle Fourier-Transformierer 382) das komplexe
Spektrum INd(f) von dem Subtrahierer 334, führt
die inverse Fourier-Transformation und Überlappungsaddition
an dem komplexen Spektrum INd(f) aus und erzeugt das digitale Zeitdomänentonsignal
INd(t) an der Position des Mikrofons MIC1.
-
Anschließend
kehrt der Prozess zu S502 zurück. Der Prozess von S502
bis S518 wird während einer gewissen Zeitperiode wiederholt,
die zum Verarbeiten von Eingangsdaten benötigt wird.
-
Somit
ist es gemäß der oben beschriebenen Ausführungsform
möglich, Signale, die den Mikrofonen MIC1 und MIC2 eingegeben
werden, in der Frequenzdomäne zu verarbeiten und das in
diesen Eingangssignalen enthaltene Geräusch relativ zu
reduzieren. Im Vergleich zu einem Fall, bei dem Eingangssignale
in einer Zeitdomäne verarbeitet werden, ist es im oben
beschriebenen Fall, wo Eingangssignale in einer Frequenzdomäne
verarbeitet werden, möglich, eine Phasendifferenz genauer
zu detektieren und ein Tonsignal mit reduziertem Geräusch
mit höherer Qualität zu erzeugen. Ferner ist es
möglich, ein Tonsignal mit ausreichend unterdrücktem
Geräusch unter Verwendung von Signalen zu erzeugen, die
von einer kleinen Anzahl von Mikrofonen empfangen werden. Die oben
beschriebene Verarbeitung, die an Signalen ausgeführt wird,
die von zwei Mikrofonen empfangen werden, kann auf jede beliebige
Kombination von zwei Mikrofonen angewendet werden, die in einer
Vielzahl von Mikrofonen enthalten sind (1).
-
Wenn
gewisse aufgezeichnete Tondaten, die ein Hintergrundgeräusch
enthalten, verarbeitet werden, wird gewöhnlich eine Unterdrückungsverstärkung
von etwa 3 dB erhalten. Gemäß der oben beschriebenen
Ausführungsform ist es möglich, eine Unterdrückungsverstärkung
von etwa 10 dB oder mehr zu erhalten.
-
8A und 8B sind
Diagramme, die die Zustände der Festlegung des minimalen
Tonempfangsbereichs Rsmin zeigen, die auf der Basis von Daten ausgeführt
wird, die durch den Sprecherrichtungsdetektionssensor 192 erhalten
werden, oder von Daten, die manuell eingegeben werden. Der Sprecherrichtungsdetektionssensor 192 detektiert die
Position des Körpers eines Sprechers. Der Richtungsbestimmer 194 legt
den minimalen Tonempfangsbereich Rsmin auf der Basis der detektierten Position
fest, so dass der minimale Tonempfangsbereich Rsmin den Körper
des Sprechers bedeckt. Festlegungsinformationen werden dem Synchronisationskoeffizientenberechner 224 zugeführt,
der in dem Synchronisationskoeffizientengenerator 220 enthalten
ist. Der Synchronisationskoeffizientenberechner 224 legt
den Tonempfangsbereich Rs, den Unterdrückungsbereich Rn
und den Umstellbereich Rt auf der Basis des minimalen Tonempfangsbereichs
Rsmin und der Zieltonwahrscheinlichkeit D(f) fest und berechnet
einen Synchronisationskoeffizienten, wie zuvor beschrieben.
-
Unter
Bezugnahme auf 8A befindet sich das Gesicht
eines Sprechers auf der linken Seite des Sprecherrichtungsdetektionssensors 192.
Zum Beispiel detektiert der Sprecherrichtungsdetektionssensor 192 eine
zentrale Position θ einer Gesichtsfläche A des
Sprechers in einem Winkel θ = θ1 = –π/4
als Winkelposition in dem minimalen Tonempfangsbereich Rsmin. In
diesem Fall legt der Richtungsbestimmer 194 den Winkelbereich
des minimalen Tonempfangsbereichs Rsmin schmaler als einen Winkel π auf
der Basis der Detektionsdaten von θ = θ1 fest,
so dass der minimale Tonempfangsbereich Rsmin die gesamte Gesichtsfläche
A bedeckt.
-
Unter
Bezugnahme auf 8B befindet sich das Gesicht
eines Sprechers auf der unteren oder vorderen Seite des Sprecherrichtungsdetektionssensors 192.
Der Sprecherrichtungsdetektionssensor 192 detektiert zum
Beispiel die zentrale Position θ der Gesichtsfläche
A des Sprechers bei einem Winkel θ = θ2 = 0 als
Winkelposition in dem minimalen Tonempfangsbereich Rsmin. In diesem
Fall legt der Richtungsbestimmer 194 den Winkelbereich
des minimalen Tonempfangsbereichs Rsmin schmaler als den Winkel π auf
der Basis der Detektionsdaten von θ = θ2 fest,
so dass der minimale Tonempfangsbereich Rsmin die gesamte Gesichtsfläche
A bedeckt. Anstelle der Position des Gesichts kann die Position des
Körpers eines Sprechers detektiert werden.
-
Wenn
der Sprecherrichtungsdetektionssensor 192 eine Digitalkamera
ist, erkennt der Richtungsbestimmer 194 Bilddaten, die
durch die Digitalkamera erhalten werden, bestimmt die Gesichtsfläche
A und die zentrale Position θ der Gesichtsfläche A
und legt den minimalen Tonempfangsbereich Rsmin auf der Basis der
Gesichtsfläche A und der zentralen Position θ der
Gesichtsfläche A fest.
-
Somit
kann der Richtungsbestimmer 194 den minimalen Tonempfangsbereich
Rsmin auf der Basis der Position des Gesichts oder des Körpers
eines Sprechers, die durch den Sprecherrichtungsdetektionssensor 192 detektiert
wird, variabel festlegen. Alternativ dazu kann der Richtungsbestimmer 194 den
minimalen Tonempfangsbereich Rsmin auf der Basis von manuell eingegebenen
Daten variabel festlegen. Durch das variable Festlegen des minimalen
Tonempfangsbereichs Rsmin ist es möglich, den minimalen
Tonempfangsbereich Rsmin zu minimieren und ein unnötiges
Geräusch bei jeder Frequenz in dem breiten Unterdrückungsbereich
Rn zu unterdrücken.
-
Unter
erneuter Bezugnahme auf 1, 4A und 4B kann
dann, wenn die Zieltonwahrscheinlichkeit D(f), die von dem Zieltonwahrscheinlichkeitsbestimmer 218 gesendet
wird, D(f) ≥ 0,5 ist, der Synchronisationskoeffizientenberechner 224die
Winkelgrenze des Tonempfangsbereichs Rs = Rsmax, die in 4A gezeigt
ist, auf θtb = +π/2 festlegen, das heißt,
er kann den gesamten Winkelbereich als Tonempfangsbereich festlegen.
Das heißt, wenn die Zieltonwahrscheinlichkeit D(f) ≥ 0,5 ist,
brauchen kein Tonempfangsbereich und kein Unterdrückungsbereich
festgelegt zu werden, und der gesendete Ton kann als Zieltonsignal
verarbeitet werden. Wenn die Zieltonwahrscheinlichkeit D(f), die von
dem Zieltonwahrscheinlichkeitsbestimmer 218 gesendet wird,
D(f) < 0,5 ist,
kann der Synchronisationskoeffizientenberechner 224 die
Winkelgrenze des Unterdrückungsbereichs Rn = Rnmax, die
in 4B gezeigt ist, auf θtamin = –π/2
festlegen, das heißt, er kann den gesamten Winkelbereich
als Unterdrückungsbereich festlegen. Das heißt,
wenn die Zieltonwahrscheinlichkeit D(f) < 0,5 ist, brauchen kein Tonempfangsbereich
und kein Unterdrückungsbereich festgelegt zu werden, und
der gesendete Ton kann als Geräuschtonsignal verarbeitet
werden.
-
9 ist
ein Flussdiagramm, das einen anderen Erzeugungsprozess eines komplexen
Spektrums zeigt, der durch den digitalen Signalprozessor 200,
der in 3A gezeigt ist, gemäß einem
in dem Speicher 202 gespeicherten Programm ausgeführt wird.
-
Der
Prozess von S502 bis S508 ist unter Bezugnahme auf 7 bereits
beschrieben worden.
-
Bei
S529 erzeugt der digitale Signalprozessor 200 (der Zieltonwahrscheinlichkeitsbestimmer 218)
die Zieltonwahrscheinlichkeit D(f) (0 ≤ D(f) ≤ 1) auf
der Basis des Absolutwertes oder der Amplitude des komplexen Spektrums
IN1(f), das von dem schnellen Fourier-Transformierer 212 gesendet
wird, und führt die Zieltonwahrscheinlichkeit D(f) dem
Synchronisationskoeffizientengenerator 220 zu. Der digitale
Signalprozessor 200 (der Synchronisationskoeffizientenberechner 224,
der in dem Synchronisationskoeffizientengenerator 220 enthalten
ist) bestimmt für jede Frequenz f gemäß dem
Wert der Zieltonwahrscheinlichkeit D(f), ob der gesendete Ton als Zieltonsignal
oder als Geräuschsignal verarbeitet wird.
-
Bei
S530 berechnet der digitale Signalprozessor 200 (der Synchronisationskoeffizientenberechner 224,
der in dem Synchronisationskoeffizientengenerator 220 enthalten
ist) das Verhältnis C(f) des komplexen Spektrums eines
Signals, das dem Mikrofon MIC1 eingegeben wird, zum komplexen Spektrum
eines Signals, das dem Mikrofon MIC2 eingegeben wird, auf der Basis
der Phasendifferenz DIFF(f) unter Verwendung der folgenden Gleichung, wie
zuvor beschrieben.
- (a) Wenn die Zieltonwahrscheinlichkeit
D(f) < 0,5 ist,
wird der Synchronisationskoeffizient C(f) wie folgt berechnet: C(f, i) = Cn(f, i) = αC(f, i – 1)
+ (1 – α)IN1(f, i)/IN2(f, i).
- (b) Wenn die Zieltonwahrscheinlichkeit D(f)≥ 0,5 ist,
wird der Synchronisationskoeffizient C(f) wie folgt berechnet: C(f) = Cs(f) = exp(–j2πf/fs)
oder C(f) = Cs(f) = 0.
-
Der
Prozess von S514 bis S518 ist unter Bezugnahme auf 7 bereits
beschrieben worden.
-
Durch
Bestimmen eines Synchronisationskoeffizienten lediglich auf der
Basis der Zieltonwahrscheinlichkeit D(f), ohne einen Tonempfangsbereich und
einen Unterdrückungsbereich einzustellen oder festzulegen,
ist es möglich, die Erzeugung eines Synchronisationskoeffizienten
zu vereinfachen.
-
Als
anderes Verfahren zum Bestimmen der Zieltonwahrscheinlichkeit D(f)
kann der Zieltonwahrscheinlichkeitsbestimmer 218 die Phasendifferenz DIFF(f)
von dem Phasendifferenzberechner 222 empfangen und Informationen,
die den minimalen Tonempfangsbereich Rsmin darstellen, von dem Richtungsbestimmer 194 oder
dem Prozessor 10 empfangen (siehe die in 3A gezeigten
gestrichelten Pfeile). Wenn die Phasendifferenz DIFF(f), die durch
den Phasendifferenzberechner 222 berechnet wird, in dem
minimalen Tonempfangsbereich Rsmin liegt, der in 6C gezeigt
ist und vom Richtungsbestimmer 194 empfangen wird, kann
der Zieltonwahrscheinlichkeitsbestimmer 218 bestimmen, dass
die Zieltonwahrscheinlichkeit D(f) hoch ist und D(f) = 1 ist. Wenn
andererseits die Phasendifferenz DIFF(f) in dem maximalen Unterdrückungsbereich Rnmax
oder dem Umstellbereich Rt liegt, die in 6C gezeigt
sind, kann der Zieltonwahrscheinlichkeitsbestimmer 218 bestimmen,
dass die Zieltonwahrscheinlichkeit D(f) niedrig ist und D(f) = 0
ist. Bei dem in 7 gezeigten Schritt S509 oder
dem in 9 gezeigten Schritt S529 kann das oben beschriebene
Verfahren zum Bestimmen der Zieltonwahrscheinlichkeit D(f) verwendet
werden. In diesem Fall führt der digitale Signalprozessor 200 auch
die in 7 gezeigten Schritte S510 bis S518 oder die in 9 gezeigten
Schritte S530 und S514 bis S518 aus.
-
Anstelle
der zur Geräuschunterdrückung ausgeführten
Synchronisationssubtraktion kann eine Synchronisationsaddition zur
Hervorhebung eines Tonsignals ausgeführt werden. Wenn in
diesem Fall eine Tonempfangsrichtung in einem Tonempfangsbereich
liegt, wird die Synchronisationsaddition ausgeführt. Wenn
eine Tonempfangsrichtung in einem Unterdrückungsbereich
liegt, wird die Synchronisationsaddition nicht ausgeführt
und wird das Additionsverhältnis eines Additionssignals
reduziert.
-
Alle
Beispiele und die bedingte Sprache, die hierin verwendet werden,
sollen pädagogischen Zwecken dienen, um den Leser beim
Verstehen der Erfindung und der durch den Erfinder beigesteuerten Begriffe
zum Fördern der Technik zu unterstützen, und sind
so aufzufassen, dass sie nicht auf solche speziell angeführten
Beispiele und Bedingungen beschränkt sind, noch soll sich
die Anordnung solcher Beispiele in der Beschreibung auf eine Darstellung der Überlegenheit
und Unterlegenheit der Erfindung beziehen. Obwohl die Ausführungsformen
der vorliegenden Erfindungen eingehend beschrieben worden sind,
versteht sich, dass an ihr die verschiedensten Veränderungen,
Substitutionen und Abänderungen vorgenommen werden könnten,
ohne vom Grundgedanken und Umfang der Erfindung abzuweichen.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste
der vom Anmelder aufgeführten Dokumente wurde automatisiert
erzeugt und ist ausschließlich zur besseren Information
des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen
Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt
keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- - JP 58-181099 [0004]
- - JP 11-298988 [0005]
- - JP 4138290 [0006]
-
Zitierte Nicht-Patentliteratur
-
- - ”Microphone
Array”, The Journal of the Acoustical Society of Japan,
Bd. 51, Nr. 5, S. 384–414, 1995 [0003]