DE102009052539B4 - Signalverarbeitungseinheit und Signalverarbeitungsverfahren - Google Patents

Signalverarbeitungseinheit und Signalverarbeitungsverfahren Download PDF

Info

Publication number
DE102009052539B4
DE102009052539B4 DE102009052539.4A DE102009052539A DE102009052539B4 DE 102009052539 B4 DE102009052539 B4 DE 102009052539B4 DE 102009052539 A DE102009052539 A DE 102009052539A DE 102009052539 B4 DE102009052539 B4 DE 102009052539B4
Authority
DE
Germany
Prior art keywords
signals
spectral
complex
spectrum
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE102009052539.4A
Other languages
English (en)
Other versions
DE102009052539A1 (de
Inventor
Naoshi Matsuo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of DE102009052539A1 publication Critical patent/DE102009052539A1/de
Application granted granted Critical
Publication of DE102009052539B4 publication Critical patent/DE102009052539B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

Signalverarbeitungseinheit mit: einem Orthogonaltransformierungsteil (212, 214), der wenigstens zwei Toneingangsteile enthält, die Eingangstonsignale (entsprechend Eingangssignalen IN1(t) und IN2(t)) auf einer Zeitachse empfangen, welcher Orthogonaltransformierungsteil (212, 214) zwei der Eingangstonsignale (entsprechend Eingangssignalen IN1(t) und IN2(t)) in jeweilige Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) auf einer Frequenzachse transformiert; einem Phasendifferenzberechnungsteil (222), der eine Phasendifferenz (DIFF(f)) zwischen den zwei Spektralsignalen (entsprechend komplexen Spektren IN1(f) und IN2(f)) auf der Frequenzachse erhält, bei der die Phasendifferenz eine Ankunftsrichtung des Tons an den zwei Toneingangsteilen angibt, die die Eingangstonsignale (entsprechend Eingangssignalen IN1(t) und IN2(t)) empfangen; einem Synchronisationskoeffizientenberechnungsteil (224), der einen Synchronisationskoeffizienten (C(f)), der einen Betrag der Phasenverschiebung jeder Komponente eines ersten (entsprechend einem komplexen Spektrum IN2(f)) der beiden Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) bei jeder Frequenz anzeigt, in Abhängigkeit davon berechnet, ob die Phasendifferenz (DIFF(f)) entweder einer Richtung, aus der ein gewünschtes Signal kommt, oder einer Richtung entspricht, aus der Rauschen kommt; und einem Filterteil (300), der jede Komponente des ersten (entsprechend einem komplexen Spektrum IN2(f)) der zwei Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) auf der Basis des Synchronisationskoeffizienten (C(f)) synchronisiert, um ein synchronisiertes Spektralsignal (entsprechend einem synchronisierten Spektrum INs2(f)) zu berechnen, und das in Phase gebrachte Spektralsignal (entsprechend einem synchronisierten Spektrum INs2(f)) und ein zweites (entsprechend einem komplexen Spektrum IN1(f)) der zwei Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) zu einem kombiniert, um ein gefiltertes Spektralsignal (entsprechend einem rauschunterdrückten Spektrum INd(f)) zu berechnen.

Description

  • HINTERGRUND
  • 1. Gebiet
  • Die hierin diskutierten Ausführungsformen sind auf die Verarbeitung von Tonsignalen gerichtet.
  • 2. Beschreibung der verwandten Technik
  • Ein Mikrofon-Array enthält ein Array von mehreren Mikrofonen und kann einem Tonsignal eine Richtwirkung verleihen, indem das Tonsignal, das durch Empfangen und Konvertieren des Tons erhalten wird, verarbeitet wird.
  • In einem Mikrofon-Array-System können Tonsignale, die von mehreren Mikrofonen stammen, so verarbeitet werden, dass unerwünschte Geräusche in Schallwellen, die aus Richtungen kommen, die sich von der Richtung unterscheiden, in der ein gewünschtes Signal empfangen wird, oder die aus der Unterdrückungsrichtung kommen, unterdrückt werden, um das SNR (Signal-Rausch-Verhältnis) zu verbessern. (Siehe den Auszug aus Druckschriften über ein Mikrofon-Array: Journal of the Acoustical Society of Japan, Bd. 51, Nr. 5: ”A small special feature – microphone array –”, S. 384–414 (1995).)
  • Typischerweise enthält ein Rauschkomponentenunterdrückungssystem, wie es in der japanischen offengelegten Patentveröffentlichung Nr. 2001-100800 offenbart ist, ein erstes Mittel zum Detektieren des Tons an mehreren Positionen, um ein Eingangssignal an jeder verschiedenen Tonempfangsposition zu erhalten, zum Analysieren der Frequenz des Eingangssignals und zum Erhalten von Frequenzkomponenten für verschiedene Kanäle, ein erstes Strahlenformer-Verarbeitungsmittel zum Unterdrücken der Geräusche, die aus der Richtung eines Sprechers kommen, und zum Erhalten von gewünschten Tonkomponenten durch einen Filterungsprozess unter Verwendung von Filterungskoeffizienten, die für Frequenzkomponenten der verschiedenartigen Kanäle außerhalb der gewünschten Richtung niedrigere Empfindlichkeiten vorsehen, ein zweites Strahlenformer-Verarbeitungsmittel zum Unterdrücken von Sprache des Sprechers und zum Erhalten von Rauschkomponenten durch einen Filterungsprozess, der für Frequenzkomponenten der Kanäle, die durch das erste Mittel außerhalb der gewünschten Richtung erhalten werden, niedrigere Empfindlichkeiten vorsieht, ein Schätzmittel zum Schätzen der Richtung des Rauschens von Filterkoeffizienten des ersten Strahlenformer-Verarbeitungsmittels und Schätzen der Richtung von gewollter Sprache von den Filterkoeffizienten des zweiten Strahlenformer-Verarbeitungsmittels, ein Modifizierungsmittel zum Modifizieren der Ankunftsrichtung der gewollten Sprache, um in das erste Strahlenformer-Verarbeitungsmittel zu gelangen, gemäß der Richtung von gewollter Sprache, die durch das Schätzmittel geschätzt wird, und zum Modifizieren der Ankunftsrichtung des Rauschens, um in das zweite Strahlenformer-Verarbeitungsmittel zu gelangen, gemäß der Richtung des Rauschens, die durch das Schätzmittel geschätzt wird, ein Subtraktionsmittel zum Ausführen einer Spektralsubtraktionsoperation auf der Basis der Ausgaben von den ersten und zweiten Strahlenformer-Verarbeitungsmitteln, ein Mittel zum Erhalten eines Richtwirkungsindex entsprechend den Zeitdifferenzen zwischen ankommenden Tönen und Amplitudendifferenzen von der Ausgabe von dem ersten Mittel und ein Steuermittel zum Steuern der Spektralsubtraktionsoperation auf der Basis des Richtwirkungsindex und der Richtung der gewollten Sprache, die durch das erste Mittel erhalten wird.
  • Typischerweise enthält ein Kollektor für gerichteten Ton, wie er in der japanischen offengelegten Patentveröffentlichung Nr. 2007-318528 offenbart ist, Toneingänge von Tonquellen, die in mehreren Richtungen existieren, die akzeptiert werden und in Signale auf der Frequenzachse konvertiert werden. Eine Unterdrückungsfunktion zum Unterdrücken des konvertierten Signals auf der Frequenzachse wird berechnet. Die berechnete Unterdrückungsfunktion wird mit der Amplitudenkomponente des Originalsignals auf der Frequenzachse multipliziert, wodurch das konvertierte Signal auf der Frequenzachse korrigiert wird. Phasenkomponenten von konvertierten Signalen auf jeder Frequenzachse werden bei jeder individuellen Frequenz berechnet. Auf diese Weise werden die Differenzen zwischen den Phasenkomponenten berechnet. Ein Wahrscheinlichkeitswert, der die Wahrscheinlichkeit angibt, mit der eine Tonquelle in einer gegebenen Richtung existiert, wird auf der Basis der berechneten Differenzen berechnet. Auf der Basis des berechneten Wahrscheinlichkeitswertes wird eine Unterdrückungsfunktion zum Unterdrücken von Toneingängen von anderen Tonquellen als den Tonquellen, die in der gegebenen Richtung liegen, berechnet.
  • Aus der EP 0 802 699 A2 ist bekannt, dass durch Steuern einer Phasenspektrumdifferenz ein Mikrophonintervall pseudoerweitert und die Richtungscharakteristik gesteuert werden.
  • ZUSAMMENFASSUNG
  • Ein Aspekt der hierin diskutierten Ausführungsformen ist das Vorsehen einer Signalverarbeitungseinheit. Die Signalverarbeitungseinheit enthält einen Orthogonaltransformierungsteil, der wenigstens zwei Toneingangsteile enthält, die Eingangstonsignale auf einer Zeitachse empfangen, welcher Orthogonaltransformierungsteil zwei der Eingangstonsignale in jeweilige Spektralsignale auf einer Frequenzachse transformiert; einen Phasendifferenzberechnungsteil, der eine Phasendifferenz zwischen den zwei Spektralsignalen auf der Frequenzachse erhält; und einen Filterteil, der dann, wenn die Phasendifferenz innerhalb eines gegebenen Bereiches liegt, jede Komponente eines ersten der zwei Spektralsignale auf der Basis der Phasendifferenz bei jeder Frequenz in Phase bringt, um ein in Phase gebrachtes Spektralsignal zu berechnen, und das in Phase gebrachte Spektralsignal und ein zweites der zwei Spektralsignale kombiniert, um ein gefiltertes Spektralsignal zu berechnen.
  • Diese zusammen mit anderen Aspekten und Vorteilen, die anschließend klar werden, liegen in den Einzelheiten der Konstruktion und Operation, wie nachstehend umfassender beschrieben und beansprucht, wobei Bezug auf die beiliegenden Zeichnungen genommen wird, die einen Teil hiervon bilden und in denen gleiche Bezugszeichen sich durchgängig auf gleiche Teile beziehen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 zeigt ein beispielhaftes Array von Mikrofonen, das wenigstens zwei Mikrofone enthält, welches Array von Mikrofonen in einer beispielhaften Ausführungsform in Toneingangsteilen enthalten ist;
  • 2 zeigt ein beispielhaftes Mikrofon-Array-System, das beispielhafte Mikrofone enthält, die in 1 gezeigt sind;
  • 3A und 3B zeigen ein beispielhaftes Mikrofon-Array-System, welches System das Rauschen auf relative Weise durch Rauschunterdrückung reduzieren kann;
  • 4 zeigt eine beispielhafte Phasendifferenz zwischen Phasenspektralkomponenten bei jeder Frequenz, welche Phasenspektralkomponenten durch einen Phasendifferenzberechnungsteil berechnet werden;
  • 5 zeigt beispielhafte Verarbeitungsoperationen, die durch einen digitalen Signalprozessor (DSP) gemäß einem in einem Speicher gespeicherten Programm ausgeführt werden, um komplexe Spektren zu berechnen; und
  • 6A und 6B zeigen, wie ein Tonempfangsbereich, ein Unterdrückungsbereich und Übergangsbereiche auf der Basis von Sensordaten oder eingetasteten Daten in einer beispielhaften Ausführungsform festgelegt werden können.
  • BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
  • In einem Sprachprozessor, der mehrere Toneingangsteile enthält, können Tonsignale in der Zeitdomäne so verarbeitet werden, dass eine Unterdrückungsrichtung in einer Richtung festgelegt werden kann, die der Empfangsrichtung des gewünschten Tons gegenüberliegt, und Muster der Tonsignale werden verzögert und Subtraktionen zwischen ihnen werden ausgeführt. Bei diesen Verarbeitungsoperationen kann das Rauschen, das aus der Unterdrückungsrichtung kommt, ausreichend unterdrückt werden. Wenn es jedoch mehrere Ankunftsrichtungen des Hintergrundrauschens gibt, wie etwa beim Geräusch in einem Fahrzeug, das vom Betrieb eines Fahrzeugs stammt, und dem Geräusch, das aus einer Menschenmenge kommt, können Hintergrundgeräusche aus mehreren Unterdrückungsrichtungen ankommen. Deshalb ist es schwierig, die Geräusche ausreichend zu unterdrücken. Falls die Anzahl der Toneingangsteile andererseits zunimmt, werden zwar die Rauschunterdrückungsmöglichkeiten verbessert, aber die Kosten werden erhöht. Ferner nimmt die Größe der Toneingangsteile zu.
  • In dem Fall, wenn Tonsignale, die Signale von Tonquellen enthalten, die in mehreren Richtungen liegen, und Rauschen hineingelangen, braucht nicht unbedingt eine große Anzahl von Mikrofonen installiert zu werden. Tonsignale, die von Tonquellen emittiert werden, die in gegebenen Richtungen liegen, können unter Verwendung des Rauschkomponentenunterdrückers, der eine einfache Struktur hat, hervorgehoben werden, und das Umgebungsrauschen kann unterdrückt werden.
  • Ein Wahrscheinlichkeitswert, der die Wahrscheinlichkeit angibt, mit der eine Tonquelle in einer gegebenen Richtung vorhanden ist, wird berechnet, und eine Unterdrückungsfunktion zum Unterdrücken der Eingabe von Ton, der von anderen Tonquellen als den Tonquellen stammt, die in der gegebenen Richtung liegen, kann auf der Basis des berechneten Wahrscheinlichkeitswertes berechnet werden.
  • Das Rauschen in einer Vorrichtung, die mehrere Toneingangsteile enthält, kann genauer und effektiver unterdrückt werden, indem zwei Tonsignale in der Frequenzdomäne gemäß den Richtungen von Quellen des Tons, der an den Toneingangsteilen ankommt, synchronisiert werden und eine Subtraktion ausgeführt wird.
  • Gemäß einer beispielhaften Ausführungsform kann ein Tonsignal produziert werden, in dem das Verhältnis des Rauschens zum Signal durch Verarbeiten des Tonsignals in der Frequenzdomäne reduziert worden ist.
  • Gemäß einer beispielhaften Ausführungsform enthält eine Signalverarbeitungseinheit Toneingangsteile, die einen Orthogonaltransformierungsteil, einen Phasendifferenzberechnungsteil und einen Filterteil haben. Der Orthogonaltransformierungsteil selektiert zwei Tonsignale von Tonsignalen, die von den Toneingangsteilen hineingelangt sind, wobei die hineingelangten Tonsignale Signale auf der Zeitachse sind, und transformiert die selektierten zwei Tonsignale in Spektralsignale auf der Frequenzachse. Der Phasendifferenzberechnungsteil erhält die Phasendifferenz zwischen den zwei Spektralsignalen, die durch das Transformieren erhalten wurden. Wenn die Phasendifferenz innerhalb eines gegebenen Bereiches liegt, bringt der Filterteil jede Komponente einer ersten Spektralkomponente der zwei Spektralsignale bei jeder Frequenz in Phase, um ein in Phase gebrachtes Spektralsignal zu berechnen, und kombiniert das in Phase gebrachte Spektralsignal und ein zweites Spektralsignal der zwei Spektralsignale, um ein gefiltertes Spektralsignal zu berechnen.
  • Gemäß einer beispielhaften Ausführungsform werden auch ein Verfahren und ein computerlesbares Aufzeichnungsmedium offenbart, das ein Computerprogramm zur Ausführung der oben beschriebenen Signalverarbeitungseinheit speichert.
  • Gemäß einer beispielhaften Ausführungsform kann ein Tonsignal, in dem das Verhältnis des Rauschens zum Ton auf relative Weise reduziert worden ist, berechnet werden.
  • 1 zeigt ein beispielhaftes Array von wenigstens zwei Mikrofonen MIC1, MIC2 usw., die in mehreren Toneingangsteilen enthalten sind.
  • Im Allgemeinen sind die mehreren Mikrofone (wie MIC1 und MIC2) des Arrays mit einer bekannten Distanz d auf einer geraden Linie voneinander beabstandet. Das MIC1 und das MIC2, die wenigstens zwei der mehreren Mikrofone sind, die miteinander benachbart sind, können mit einem Abstand d auf der geraden Linie angeordnet sein. Die Mikrofone brauchen nicht gleichmäßig voneinander beabstandet zu sein. Solange das Abtasttheorem erfüllt ist, können sie mit bekannten ungleichmäßigen Distanzen voneinander beabstandet sein.
  • Es wird eine beispielhafte Ausführungsform beschrieben, in der zwei Mikrofone MIC1 und MIC2 von den mehreren Mikrofonen verwendet werden.
  • 1 zeigt eine gewünschte Signalquelle SS auf einer geraden Linie, die durch die Mikrofone MIC1 und MIC2 und auf der linken Seite von 1 verläuft. Die gewünschte Signalquelle SS kann in der Tonempfangsrichtung für das Array der Mikrofone MIC1 und MIC2 oder in der gewünschten Richtung existieren. Die Tonquelle SS, von der Ton empfangen werden soll, kann der Mund des Sprechers sein. Die Richtung des Tonempfangs kann so definiert sein, um die Richtung des Mundes des Sprechers zu sein. Ein gegebener Winkelbereich um die Winkelrichtung, entlang derer der Ton empfangen wird, kann als Winkelbereich des Tonempfangs definiert sein. Die Richtung (+π), die der Richtung des Tonempfangs gegenüberliegt, kann als Hauptunterdrückungsrichtung des Rauschens angenommen werden. Der gegebene Winkelbereich um die Winkelrichtung der Hauptunterdrückung kann als Winkelbereich der Rauschunterdrückung angenommen werden. Der Winkelbereich der Rauschunterdrückung kann bei jeder verschiedenen Frequenz f bestimmt werden.
  • Eine Distanz d zwischen den Mikrofonen MIC1 und MIC2 kann so festgelegt werden, um die Beziehung in Gleichung (1) zu erfüllen: Distanz d < Schallgeschwindigkeit c/Abtastfrequenz fs (1), so dass dem Abtasttheorem oder Nyquist-Theorem entsprochen wird.
  • In 1 ist die Richtcharakteristik oder das Richtmuster des Arrays der Mikrofone MIC1 und MIC2 durch eine geschlossene gestrichelte Linie (wie etwa eine Kardioide) abgebildet. Ein Eingangssignal des Tons, der durch das Array der Mikrofone MIC1 und MIC2 empfangen und verarbeitet wird, hängt von dem Einfallswinkel θ (= –π/2 bis +π/2) von Schallwellen bezüglich der geraden Linie ab, auf der das Array der Mikrofone MIC1 und MIC2 angeordnet ist. Das Eingangssignal hängt jedoch nicht von der Einfallsrichtung (0 bis 2π) in einer radialen Richtung auf einer Ebene senkrecht zu der geraden Linie ab.
  • Der Ton von der gewünschten Signalquelle SS kann durch das rechte Mikrofon MIC2 mit einer Zeitverzögerung von T = d/c bezüglich des linken Mikrofons MIC1 detektiert werden. Andererseits kann das Rauschen 1, das aus der Hauptunterdrückungsrichtung kommt, durch das linke Mikrofon MIC1 mit einer Zeitverzögerung von T = d/c bezüglich des rechten Mikrofons MIC2 detektiert werden. Das Rauschen 2, das aus einer Unterdrückungsrichtung innerhalb des Unterdrückungsbereiches kommt, die von der Hauptunterdrückungsrichtung verschoben ist, kann durch das linke Mikrofon MIC1 mit einer Zeitverzögerung von T = d·sinθ/c bezüglich des rechten Mikrofons MIC2 detektiert werden. Der Winkel θ definiert die Richtung, aus der das Rauschen 2 in der angenommenen Unterdrückungsrichtung ankommt. In 1 kennzeichnet die Strichpunktlinie die Wellenfront des Rauschens 2. In dem Fall, wenn θ = +π/2 ist, ist die Ankunftsrichtung des Rauschens 1 die Unterdrückungsrichtung des Eingangssignals.
  • Das Rauschen 1 (θ = +π/2), das aus der Hauptunterdrückungsrichtung kommt, kann unterdrückt werden, indem das Eingangssignal IN2(t) für das rechte Mikrofon MIC2 von dem Eingangssignal IN1(t) für das linke Mikrofon MIC1, das mit dem Mikrofon MIC2 benachbart ist, subtrahiert wird, wobei das Eingangssignal IN2(t) um T = d/c bezüglich des Eingangssignals IN1(t) verzögert ist. Es kann jedoch schwierig sein, das Rauschen 2 zu unterdrücken, das aus den Winkelrichtungen (0 < θ < +π/2) kommt, die von der Hauptunterdrückungsrichtung abweichen.
  • Das Rauschen, das aus Richtungen im Unterdrückungsbereich kommt, kann durch Phasensynchronisation eines der Spektren von Eingangssignalen für die Mikrofone MIC1 und MIC2 mit den anderen Spektren gemäß der Phasendifferenz zwischen den zwei Eingangssignalen bei jeder Frequenz und Ermitteln der Differenz zwischen den zwei Spektren ausreichend unterdrückt werden.
  • 2 zeigt ein Mikrofon-Array-System 100 mit den in 1 gezeigten Mikrofonen MIC1 und MIC2 gemäß einer Ausführungsform. Das Mikrofon-Array-System 100 hat die Mikrofone MIC1 und MIC2, die Verstärker (AMPs) 122, 124, die Tiefpassfilter (LPFs) 142, 144, einen digitalen Signalprozessor (DSP) 200 und einen Speicher 202 (der einen RAM enthält). Das Mikrofon-Array-System 100 kann zum Beispiel eine fahrzeuginterne Anordnung mit Spracherkennungsfunktion, ein Autonavigationssystem oder ein Gerät der Nachrichtentechnik (wie etwa ein Freisprechtelefon oder Funktelefon) sein.
  • Optional kann das Mikrofon-Array-System 100 mit einem Sensor 192 zum Detektieren der Richtung eines Sprechers und mit einem Richtungsbestimmungsteil 194 gekoppelt sein. Alternativ dazu kann das Array-System 100 diese Komponenten 192 und 194 enthalten. Ein Prozessor 10 und ein Speicher 12 können in einer Vorrichtung, die eine Applikationshardwareanordnung 400 enthält, oder in einem separaten Informationsprozessor enthalten sein.
  • Der Sensor 192 zur Detektion der Richtung des Sprechers kann zum Beispiel eine Digitalkamera, ein Ultraschallsensor oder ein Infrarotsensor sein. Der Richtungsbestimmungsteil 194 kann auch auf dem Prozessor 10 installiert sein und gemäß einem Programm zum Bestimmen der Richtung arbeiten, wobei das Programm in dem Speicher 12 gespeichert ist.
  • Analoge Eingangssignale, in die der Ton durch die Mikrofone MIC1 und MIC2 konvertiert wurde, werden den Verstärkern 122 bzw. 124 zugeführt und verstärkt. Die Ausgänge der Verstärker 122 und 124 sind mit den Eingängen der Tiefpassfilter 142 bzw. 144 gekoppelt, die eine Grenzfrequenz fc von zum Beispiel 3,9 kHz haben, so dass nur Niederfrequenzkomponenten durchgelassen werden. Bei diesem Beispiel werden nur die Tiefpassfilter verwendet. An deren Stelle können Bandpassfilter verwendet werden. Alternativ dazu können Hochpassfilter in Kombination verwendet werden.
  • Die Ausgänge der Tiefpassfilter 142 und 144 sind mit den Eingängen von Analog/Digital-Konvertern 162 bzw. 164 gekoppelt, die eine Abtastfrequenz fs (fs > 2fc) von zum Beispiel 8 kHz haben. Die Ausgangssignale von den Filtern 142 und 144 werden in digitale Eingangssignale konvertiert. Die digitalen Eingangssignale IN1(t) und IN2(t) in der Zeitdomäne von den Konvertern 162 bzw. 164 sind mit Eingängen des digitalen Signalprozessors (DSP) 200 gekoppelt.
  • Der digitale Signalprozessor 200 konvertiert die digitalen Zeitdomänensignale IN1(t) und IN2(t) unter Verwendung des Speichers 202 in Frequenzdomänensignale, verarbeitet die Signale, um das Rauschen zu unterdrücken, das aus dem Unterdrückungswinkelbereich kommt, und berechnet ein verarbeitetes digitales Ausgangssignal INd(t) in der Zeitdomäne.
  • Der digitale Signalprozessor 200 kann mit dem Richtungsbestimmungsteil 194 oder mit dem Prozessor 10 gekoppelt sein. In diesem Fall unterdrückt der Prozessor 200 Rauschen, das aus der Unterdrückungsrichtung kommt, innerhalb des Unterdrückungsbereiches auf der gegenüberliegenden Seite des Tonempfangsbereiches als Antwort auf Informationen, die von dem Richtungsbestimmungsteil 194 oder dem Prozessor 10 geliefert werden, welche Informationen den Tonempfangsbereich angeben.
  • Der Richtungsbestimmungsteil 194 oder der Prozessor 10 kann die Informationen berechnen, die den Tonempfangsbereich angeben, indem ein Einstellsignal verarbeitet wird, das durch den Nutzer eingetastet wird. Der Richtungsbestimmungsteil 194 oder der Prozessor 10 kann die Präsenz eines Sprechers auf der Basis von Daten detektieren oder erkennen (die Detektionsdaten oder Bilddaten sein können), die durch den Sensor 192 detektiert werden, kann die Richtung bestimmen, in der sich der Sprecher befindet, und kann die Informationen berechnen, die den Tonempfangsbereich angeben.
  • Das digitale Ausgangssignal INd(t) kann zum Beispiel zur Spracherkennung oder für Gespräche unter Verwendung von Funktelefonen verwendet werden. Das digitale Ausgangssignal INd(t) wird der folgenden Applikationshardwareanordnung 400 zugeführt, wo das digitale Signal zum Beispiel durch einen Digital/Analog-Konverter (D/A-Konverter) 404 in analoge Form konvertiert wird und durch ein Tiefpassfilter (LPF) 406 geführt wird, um nur Niederfrequenzkomponenten durchzulassen. Somit wird ein analoges Signal berechnet oder in dem Speicher 414 gespeichert und in einem Spracherkennungsteil 416 zur Spracherkennung verwendet. Der Spracherkennungsteil 416 kann entweder ein als Hardwareanordnung installierter Prozessor oder ein Softwareverarbeitungsmodul sein, der gemäß einem Programm betrieben wird, das zum Beispiel in dem Speicher 414 gespeichert ist, der einen ROM und einen RAM enthält.
  • Der digitale Signalprozessor 200 kann entweder eine Signalverarbeitungsschaltung sein, die als Hardwareanordnung installiert ist, oder eine Signalverarbeitungsschaltung, die gemäß einem Softwareprogramm betrieben wird, das zum Beispiel in dem Speicher 202 gespeichert ist, der einen ROM und einen RAM enthält.
  • In 1 kann das Mikrofon-Array-System 100 einen Winkelbereich um die Richtung θ (= –π/2) der gewünschten Signalquelle (z. B. –π/2 ≤ θ < 0) als Tonempfangsbereich festlegen. Das System kann einen Winkelbereich um die Hauptunterdrückungsrichtung θ = +π/2 (z. B. +π/6 < θ ≤ +π/2) als Unterdrückungsbereich festlegen. Ferner kann das Mikrofon-Array-System 100 Winkelbereiche zwischen dem Tonempfangsbereich und dem Unterdrückungsbereich (z. B. 0 ≤ θ ≤ +π/6) als Übergangsbereiche festlegen.
  • 3A und 3B zeigen ein Mikrofon-Array-System 100, das ein Rauschen auf relative Weise durch Rauschunterdrückung unter Verwendung der Anordnung des Arrays der Mikrofone MIC1 und MIC2 reduzieren kann.
  • Der digitale Signalprozessor 200 enthält Anordnungen für die schnelle Fourier-Transformation (FFT) 212 und 214, deren Eingänge mit den Ausgängen der Analog/Digital-Konverter (A/D-Konverter) 162 bzw. 164 gekoppelt sind, einen Synchronisationskoeffizientenerzeugungsteil 220 und einen Filterteil 300. In dieser Ausführungsform kann eine schnelle Fourier-Transformation für die Frequenzkonvertierung oder die orthogonale Transformation eingesetzt werden. Andere Funktionen, mit denen eine Frequenzkonvertierung möglich ist, wie etwa die diskrete Cosinustransformation oder Wavelet-Transformation, können auch verwendet werden.
  • Der Synchronisationskoeffizientenerzeugungsteil 220 enthält einen Phasendifferenzberechnungsteil 222 zum Berechnen der Phasendifferenz zwischen komplexen Spektren bei jeder Frequenz f und einen Synchronisationskoeffizientenberechnungsteil 224. Der Filterteil 300 enthält einen Synchronisationsteil 332 und einen Subtraktionsteil 334.
  • Die digitalen Zeitdomäneneingangssignale IN1(t) und IN2(t) von den Analog/Digital-Konvertern 162 und 164 werden den Eingängen der Anordnungen für die schnelle Fourier-Transformation (FFT) 212 bzw. 214 zugeführt. Die FFT-Anordnungen 212 und 214 haben eine bekannte Konstruktion und berechnen komplexe Spektren IN1(f) bzw. IN2(f) in der Frequenzdomäne durch Multiplizieren jedes Signalintervalls der digitalen Eingangssignale IN1(t) und IN2(t) mit einer Überlappungsfensterfunktion und Fourier-Transformation oder orthogonale Transformation der Produkte in Gleichung (2): N1(f) = A1ej(2πft+φ1(f)) (f) = A2ej(2πft+φ2(f)) (2) wobei f eine Frequenz ist. A1 und A2 sind Amplituden. j ist die imaginäre Einheit. φ1(f) und φ2(f) sind Verzögerungsphasen, die Funktionen der Frequenz f sind. Als Überlappungsfensterfunktion kann zum Beispiel eine Hamming-Fensterfunktion, Hanning-Fensterfunktion, Blackman-Fensterfunktion, eine Gaußsche Drei-Sigma-Fensterfunktion oder Dreieckfensterfunktion verwendet werden.
  • Der Phasendifferenzberechnungsteil 222 erhält die Phasendifferenz DIFF(f) (in rad) zwischen den Phasenspektralkomponenten, die die Richtung einer Tonquelle angibt, bei jeder Frequenz f der zwei benachbarten Mikrofone MIC1 und MIC2, die durch eine Distanz d voneinander beabstandet sind, unter Verwendung der folgenden Gleichung (3): DIFF(f) = tan–1(IN2(f)/IN1(f)) = tan–1((A2ej(2πft+φ2(f))/A1ej(2πft+φ1(f))) = tan–1((A2/(A1)ej(φ2(f)-φ1(f)))
  • Eine Approximation kann vorgenommen werden, wenn nur eine Rauschquelle (oder Tonquelle) mit einer gewissen Frequenz f vorhanden ist. Wenn eine Approximation vorgenommen wird, wobei die Amplituden A1 und A2 der Eingangssignale für die Mikrofone MIC1 bzw. MIC2 gleich sind, ist es möglich, eine Gleichheit einzuführen, die gegeben ist durch (|IN1(f)| = |IN2(f)|). Es ist auch möglich, den Wert von A2/A1 durch Eins zu approximieren.
  • 4 zeigt die Phasendifferenz DIFF(f) (–π ≤ DIFF(f) ≤ π) zwischen Phasenspektralkomponenten bei jeder Frequenz, die durch die Anordnung des Mikrofon-Arrays von 1 mit MIC1 und MIC2 induziert wird. Die Spektralkomponenten sind durch den Phasendifferenzberechnungsteil 222 berechnet worden.
  • Der Phasendifferenzberechnungsteil 222 führt den Wert der Phasendifferenz DIFF(f) der Phasenspektralkomponente bei jeder Frequenz f zwischen den zwei benachbarten Eingangssignalen IN1(f) und IN2(f) dem Synchronisationskoeffizientenberechnungsteil 224 zu.
  • Der Synchronisationskoeffizientenberechnungsteil 224 schätzt ein, dass bei der gewissen Frequenz f das Rauschen in dem Eingangssignal an der Position des Mikrofons MIC2 innerhalb des Unterdrückungsbereiches θ (z. B. +π/6 < θ ≤ +π/2) mit einer Verzögerung der Phasendifferenz DIFF(f) bezüglich desselben Rauschens in dem Eingangssignal für das Mikrofon MIC1 angekommen ist. In jedem Übergangsbereich θ (z. B. 0 ≤ θ ≤ +π/6) werden an der Position des Mikrofons MIC1 durch den Synchronisationskoeffizientenberechnungsteil 224 das Verfahren zum Verarbeiten in dem Tonempfangsbereich und der Rauschunterdrückungspegel in dem Unterdrückungsbereich allmählich verändert oder umgeschaltet.
  • Der Synchronisationskoeffizientenberechnungsteil 224 berechnet einen Synchronisationskoeffizienten C(f) gemäß der folgenden Formel auf der Basis der Phasendifferenz DIFF(f) zwischen den Phasenspektralkomponenten bei jeder Frequenz f.
  • Der Synchronisationskoeffizientenberechnungsteil 224 berechnet sukzessive Synchronisationskoeffizienten C(f) für jeden zeitlichen Analyserahmen (Fenster) i bei der schnellen Fourier-Transformation, wobei i (0, 1, 2, ...) eine Zahl ist, die eine zeitliche Ordnung jedes Analyserahmens angibt. Wenn die Phasendifferenz DIFF(f) einen Wert hat, der innerhalb eines Unterdrückungsbereiches liegt (z. B. +π/6 < θ ≤ +π/2), ist der Synchronisationskoeffizient C(f, i) = Cn(f, i). Wenn die anfängliche zeitliche Ordnung i = 0 ist, ist C(f, 0) = Cn(f, 0) = IN1(f, 0)/IN2(f, 0)
  • Wenn die zeitliche Ordnung i > 0 ist, ist C(f, i) = Cn(f, i) = αC(f, i – 1) + (1 – α)IN1(f, i)/IN2(f, i)
  • IN1(f, i)/IN2(f, i) ist das Verhältnis des komplexen Spektrums des Eingangssignals für das Mikrofon MIC1 zum komplexen Spektrum des Eingangssignals für das Mikrofon MIC2, d. h., es stellt das Amplitudenverhältnis und die Phasendifferenz dar. IN1(f, i)/IN2(f, i) kann den Kehrwert des Verhältnisses des komplexen Spektrums des Eingangssignals für das Mikrofon MIC2 zum komplexen Spektrum des Eingangssignals für das Mikrofon MIC1 verkörpern. α gibt das Verhältnis der Addition oder das Verhältnis der Kombination des Betrags der Verzögerungsphasenverschiebung des vorherigen Analyserahmens zur Synchronisation an und ist eine Konstante, die in dem Bereich von 0 ≤ α < 1 liegt. 1 – α gibt das Verhältnis der Kombination des Betrags der Verzögerungsphasenverschiebung des gegenwärtigen Analyserahmens an, das zur Synchronisation addiert wird. Der Synchronisationskoeffizient C(f, i) wird durch Addieren des Synchronisationskoeffizienten des vorherigen Analyserahmens und des Verhältnisses des komplexen Spektrums des Eingangssignals für das Mikrofon MIC1 zu dem komplexen Spektrum des Eingangssignals für das Mikrofon MIC2 für den gegenwärtigen Analyserahmen mit einem Verhältnis von α: (1 – α) erhalten.
  • Wenn die Phasendifferenz DIFF(f) einen Wert hat, der innerhalb des Tonempfangsbereiches liegt (z. B. –π/2 ≤ θ < 0), hat der Synchronisationskoeffizient die Beziehung:
    C(f) = Cs(f)
    C(f) = Cs(f) = exp(–j2πf/fs) oder
    C(f) = Cs(f) = 0 (falls die synchronisierte Subtraktion nicht angewendet wird).
  • Wenn die Phasendifferenz DIFF(f) einen Wert hat, der einen Winkel θ (z. B. 0 ≤ θ ≤ +π/6) innerhalb eines Übergangsbereiches angibt, ist der Synchronisationskoeffizient C(f) (= Ct(f)) das gewichtete Mittel von Cs(f) von (a) und Cn(f) gemäß dem Winkel θ.
  • Das heißt: C(f) = Ct(f) = Cs(f) × (θ – θtmin)/(θtmax – θtmin) + Cn(f) × (θtmax – θ)/(θtmax – θtmin) wobei θtmax den Winkel der Grenze zwischen jedem Übergangsbereich und dem Unterdrückungsbereich angibt und θtmin den Winkel der Grenze zwischen jedem Übergangsbereich und dem Tonempfangsbereich angibt.
  • Auf diese Weise berechnet der Phasendifferenzberechnungsteil 222 den Synchronisationskoeffizienten C(f) gemäß den komplexen Spektren IN1(f) und IN2(f) und führt die komplexen Spektren IN1(f), IN2(f) und den Synchronisationskoeffizienten C(f) dem Filterteil 300 zu.
  • In dem Filterteil 300 führt der Synchronisationsabschnitt 332 eine Multiplikation aus, die durch die folgende Formel gegeben ist, um das komplexe Spektrum IN2(f) mit dem komplexen Spektrum IN1(f) zu synchronisieren, wobei ein synchronisiertes Spektrum INs2(f) wie in Gleichung (4) erzeugt wird: INs2(f) = C(f) × IN2 (f) (4)
  • Der Subtraktionsteil 334 berechnet ein komplexes Spektrum mit unterdrücktem Rauschen INd(f) durch Subtrahieren des komplexen Spektrums INs2(f), das mit einem Koeffizienten β(f) multipliziert wird, von dem komplexen Spektrum IN1(f) gemäß der folgenden Formel (5): INd(f) = IN1(f) – β(f) × INs2(f) (5) wobei der Koeffizient β(f) ein voreingestellter Wert ist, der innerhalb eines Bereiches liegt, der durch 0 ≤ β(f) ≤ 1 gegeben ist. Der Koeffizient β(f) ist eine Funktion der Frequenz f und wird verwendet, um den Grad einzustellen, auf den der Synchronisationskoeffizient reduziert wird. Der Koeffizient β(f) kann zum Beispiel so festgelegt werden, dass die Richtung, aus der der Ton innerhalb des Unterdrückungsbereiches ankommt, wie durch die Phasendifferenz DIFF(f) angegeben, größer als die Richtung ist, aus der der Ton innerhalb des Tonempfangsbereiches ankommt, um zum Beispiel das Rauschen weitgehend zu unterdrücken, das ein Ton ist, der aus dem Unterdrückungsbereich kommt, während die Erzeugung der Verzerrung eines Signals, das aus dem Tonempfangsbereich ankommt, unterdrückt wird.
  • Der digitale Signalprozessor 200 enthält ferner eine Anordnung für die inverse schnelle Fourier-Transformation (IFFT) 382, die das Spektrum INd(f) von dem Synchronisationskoeffizientenberechnungsteil 224 empfängt und eine inverse Fourier-Transformation und überlappende Addition mit dem Spektrum ausführt, wodurch ein Zeitdomänenausgangssignal INd(t) an der Position des Mikrofons MIC1 erzeugt wird.
  • Der Ausgang der IFFT-Anordnung 382 kann mit dem Eingang der folgenden Applikationshardwareanordnung 400 gekoppelt sein.
  • Das digitale Ausgangssignal INd(t) kann zum Beispiel zur Spracherkennung oder für Gespräche unter Verwendung von Funktelefonen verwendet werden. Das digitale Ausgangssignal INd(t) wird der folgenden Applikationshardwareanordnung 400 zugeführt, wo das digitale Signal zum Beispiel durch den Digital/Analog-Konverter 404 in analoge Form konvertiert wird und durch das Tiefpassfilter 406 geführt wird, um nur Niederfrequenzkomponenten durchzulassen. So wird ein analoges Signal berechnet oder in dem Speicher 414 gespeichert und in einem Spracherkennungsteil 416 zur Spracherkennung verwendet.
  • Die Komponenten 212, 214, 220224, 300334 und 382, die in 3A und 3B gezeigt sind, können in einer integrierten Schaltung inkorporiert sein oder durch Programmblöcke ersetzt werden, die durch den digitalen Signalprozessor (DSP) 200 ausgeführt werden, für den ein Programm geladen ist.
  • 5 zeigt Operationen, die durch einen in 3A gezeigten digitalen Signalprozessor (DSP) 200 gemäß einem Programm ausgeführt werden, das in dem Speicher 202 gespeichert ist, um komplexe Spektren zu berechnen. Deshalb zeigt 5 Operationen, die zum Beispiel durch Komponenten 212, 214, 220, 300 und 382 ausgeführt werden, die in 3A gezeigt sind.
  • Unter Bezugnahme auf 3A und 5 akzeptiert der digitale Signalprozessor 200 (die Teile für die schnelle Fourier-Transformation 212 und 214) die zwei digitalen Eingangssignale IN1(t) und IN2(t) in der Zeitdomäne, die von den Analog/Digital-Konvertern 162 bzw. 164 zugeführt werden, bei Operation S502.
  • Bei Operation S504 multipliziert der digitale Signalprozessor 200 (die FFT-Teile 212 und 214) die zwei digitalen Eingangssignale IN1(t) und IN2(t) mit einer Überlappungsfensterfunktion.
  • Bei Operation S506 führt der digitale Signalprozessor 200 (die FFT-Teile 212 und 214) die Fourier-Transformation an den digitalen Eingangssignalen IN1(t) und IN2(t) aus, um komplexe Spektren IN1(f) und IN2(f) in der Frequenzdomäne zu berechnen.
  • Bei Operation S508 berechnet der digitale Signalprozessor 200 (der Phasendifferenzberechnungsteil 222 des Synchronisationskoeffizientenerzeugungsteils 220) die Phasendifferenz DIFF(f) zwischen den Spektren IN1(f) und IN2(f), d. h.: DIFF(f) = tan–1(IN2(f)/(IN1/f)).
  • Bei Operation S510 berechnet der digitale Signalprozessor 200 (der Synchronisationskoeffizientenberechnungsteil 224 des Synchronisationskoeffizientenerzeugungsteils 220) das Verhältnis C(f) des komplexen Spektrums des Eingangssignals für das Mikrofon MIC1 zu dem komplexen Spektrum des Eingangssignals für das Mikrofon MIC2 auf der Basis der Phasendifferenz DIFF(f) gemäß Folgendem:
    • (a) Wenn die Phasendifferenz DIFF(f) einen Wert hat, der innerhalb des Unterdrückungswinkelbereiches liegt, kann der Synchronisationskoeffizient C(f, i) gegeben sein durch: C(f, i) = Cn(f, i) = αC(f, i – 1) + (1 – α)IN1(f, i)/IN2(f, i).
    • (b) Wenn die Phasendifferenz DIFF(f) einen Wert hat, der innerhalb des Tonempfangsbereiches liegt, kann der Synchronisationskoeffizient C(f) gegeben sein durch: C(f) = Cs(f) = exp(–j2πf/fs) oder C(f) = Cs(f) = 0.
    • (c) Wenn die Phasendifferenz DIFF(f) einen Wert hat, der innerhalb eines Übergangswinkelbereiches liegt, ist der Synchronisationskoeffizient C(f) (= Ct(f)) das gewichtete Mittel von Cs(f) und Cn(f).
  • Bei Operation S514 führt der digitale Signalprozessor 200 (der Synchronisationsteil 332 des Filterteils 300) eine Berechnung aus, die durch die Formel INs2(f) = C(f)IN2(f) gegeben ist, um das komplexe Spektrum IN2(f) mit dem komplexen Spektrum IN1(f) zu synchronisieren und das synchronisierte Spektrum INs2(f) zu berechnen.
  • Bei Operation S516 subtrahiert der digitale Signalprozessor 200 (der Subtraktionsteil 334 des Filterteils 300) das komplexe Spektrum INs2(f), das mit dem Koeffizienten β(f) multipliziert wird, von dem komplexen Spektrum IN1(f) (d. h.: INd(f) = IN1(f) – β(f) × INs2(f)), wodurch ein komplexes Spektrum mit unterdrücktem Rauschen INd(f) berechnet wird.
  • Bei Operation S518 akzeptiert der digitale Signalprozessor 200 (der Teil für die inverse schnelle Fourier-Transformation (IFFT) 382) das Spektrum INd(f) von dem Synchronisationskoeffizientenberechnungsteil 224, führt die inverse Fourier-Transformation an dem Spektrum aus, führt dessen überlappende Addition aus und berechnet ein Ausgangssignal INd(t) in der Zeitdomäne an der Position des Mikrofons MIC1.
  • Die Programmsteuerung kann zu Operation S502 zurückkehren. Die Operationen S502 bis S518 können während einer gegebenen Periode wiederholt werden, um Eingänge zu verarbeiten, die in einem gegebenen Zeitintervall erfolgen.
  • Gemäß einer beispielhaften Ausführungsform kann das Rauschen in Eingangssignalen auf relative Weise reduziert werden, indem Eingangssignale für die Mikrofone MIC1 und MIC2 in der Frequenzdomäne verarbeitet werden. Die Phasendifferenz kann durch das Verarbeiten von Eingangssignalen in der Frequenzdomäne mit höherer Genauigkeit als durch das Verarbeiten der Eingangssignale in der Zeitdomäne detektiert werden, wie zuvor beschrieben. Demzufolge kann Sprache mit reduziertem Rauschen und daher mit einer höheren Qualität berechnet werden. Das oben beschriebene Verfahren zum Verarbeiten von Eingangssignalen von den zwei Mikrofonen kann auf eine Kombination von zwei beliebigen Mikrofonen von mehreren Mikrofonen angewendet werden (siehe zum Beispiel 1).
  • Gemäß einer beispielhaften Ausführungsform würde in dem Fall, wenn aufgezeichnete Sprachdaten, die ein Hintergrundrauschen enthalten, verarbeitet werden, eine Unterdrückungsverstärkung von etwa 6 dB im Vergleich zu einer Unterdrückungsverstärkung von etwa 3 dB erhalten werden, die durch das herkömmliche Verfahren erreicht wird.
  • 6A und 6B zeigen eine beispielhafte Möglichkeit der Festlegung eines Tonempfangsbereiches, eines Unterdrückungsbereiches und von Übergangsbereichen auf der Basis von Daten, die von dem Sensor 192 stammen, oder von eingetasteten Daten. Der Sensor 192 detektiert die Position des Körpers des Sprechers. Der Richtungsbestimmungsteil 194 kann den Tonempfangsbereich so festlegen, um den Körper des Sprechers gemäß der detektierten Position abzudecken. Der Richtungsbestimmungsteil 194 kann die Übergangsbereiche und den Unterdrückungsbereich gemäß dem Tonempfangsbereich festlegen. Informationen über die Festlegung werden dem Synchronisationskoeffizientenberechnungsteil 224 des Synchronisationskoeffizientenerzeugungsteils 220 zugeführt. Der Synchronisationskoeffizientenberechnungsteil 224 kann den Synchronisationskoeffizienten gemäß dem Tonempfangsbereich, dem Unterdrückungsbereich und den Übergangsbereichen, die festgelegt wurden, berechnen.
  • In 6A kann das Gesicht des Sprechers auf der linken Seite des Sensors 192 angeordnet sein. Der Sensor 192 detektiert die zentrale Position θ der Gesichtsregion A des Sprechers. Die zentrale Position wird zum Beispiel durch eine Winkelposition θ (= θ1 = –π/4) innerhalb des Tonempfangsbereiches dargestellt. In diesem Fall kann der Richtungsbestimmungsteil 194 den Winkelbereich für den empfangenen Ton auf der Basis der Daten (θ = θ1), die durch die Detektion erhalten werden, so festlegen, dass der Winkelbereich die gesamte Gesichtsregion A abdeckt und dass der Winkelbereich schmaler als der Winkel π ist. Der Richtungsbestimmungsteil 194 kann den gesamten Winkelbereich von jedem der Übergangsbereiche, die an den Tonempfangsbereich angrenzen, zum Beispiel auf einen gegebenen Winkel π/4 festlegen. Der Richtungsbestimmungsabschnitt 194 kann den gesamten Unterdrückungsbereich, der auf der gegenüberliegenden Seite des Tonempfangsbereiches angeordnet ist, auf den verbleibenden Winkel festlegen.
  • In 6B kann das Gesicht des Sprechers unter dem Sensor 192 oder auf dessen Vorderseite angeordnet sein. Der Sensor 192 detektiert die zentrale Position θ der Gesichtsregion A des Sprechers. Die zentrale Position wird zum Beispiel durch eine Winkelposition θ (= θ2 = 0) innerhalb des Tonempfangsbereiches dargestellt. In diesem Fall kann der Richtungsbestimmungsteil 194 den Winkelbereich für den empfangenen Ton auf der Basis der Daten (θ = θ2), die durch die Detektion erhalten werden, so festlegen, dass der Winkelbereich die gesamte Gesichtsregion A abdeckt und dass der Winkelbereich schmaler als der Winkel n ist. Der Richtungsbestimmungsteil 194 kann den gesamten Winkelbereich von jedem der Übergangsbereiche, die an den Tonempfangsbereich angrenzen, zum Beispiel auf einen gegebenen Winkel π/4 festlegen. Der Richtungsbestimmungsteil 194 kann den gesamten Unterdrückungsbereich, der auf der gegenüberliegenden Seite des Tonempfangsbereiches angeordnet ist, auf den verbleibenden Winkel festlegen. Anstelle der Position des Gesichtes kann die Position des Körpers des Sprechers detektiert werden.
  • Wenn der Sensor 192 eine Digitalkamera ist, erkennt der Richtungsbestimmungsteil 194 Bilddaten, die von der Digitalkamera akzeptiert werden, durch eine Bilderkennungstechnik und beurteilt die Gesichtsregion A und ihre zentrale Position θ. Der Richtungsbestimmungsteil 194 kann den Tonempfangsbereich, die Übergangsbereiche und den Unterdrückungsbereich auf der Basis der Gesichtsregion A und ihrer zentralen Position θ festlegen.
  • Auf diese Weise kann der Richtungsbestimmungsteil 194 den Tonempfangsbereich, den Unterdrückungsbereich und die Übergangsbereiche gemäß der Position des Gesichtes oder des Körpers des Sprechers, die durch den Sensor 192 detektiert wurde, variabel festlegen. Alternativ dazu kann der Richtungsbestimmungsteil 194 den Tonempfangsbereich, den Unterdrückungsbereich und die Übergangsbereiche als Antwort auf manuelle Tasteneingaben variabel festlegen. Durch derartiges variables Festlegen des Tonempfangsbereiches und des Unterdrückungsbereiches kann der Tonempfangsbereich so schmal wie möglich gemacht werden. Demzufolge kann ein unerwünschtes Rauschen bei jeder Frequenz in dem Unterdrückungsbereich, der so weit wie möglich gemacht wird, unterdrückt werden.
  • Die Ausführungsformen können mit Rechenhardware (Rechenvorrichtung) und/oder Software implementiert werden, wie etwa (bei einem nichtbeschränkenden Beispiel) mit einem Computer, der Daten speichern, heraussuchen, verarbeiten und/oder ausgeben kann und/oder mit anderen Computern kommunizieren kann. Die erzeugten Resultate können an einem Display der Rechenhardware angezeigt werden. Ein Programm/eine Software, die die Ausführungsformen implementieren, können auf computerlesbaren Medien aufgezeichnet sein, die computerlesbare Aufzeichnungsmedien umfassen. Das Programm/die Software, die die Ausführungsformen implementieren, können auch über Übertragungskommunikationsmedien übertragen werden. Beispiele für die computerlesbaren Aufzeichnungsmedien enthalten eine Magnetaufzeichnungsvorrichtung, eine optische Platte, eine magneto-optische Platte und/oder einen Halbleiterspeicher (zum Beispiel einen RAM, ROM, etc.). Beispiele für die Magnetaufzeichnungsvorrichtung enthalten eine Festplattenanordnung (HDD), eine flexible Platte (FD) und ein Magnetband (MT). Beispiele für die optische Platte enthalten eine DVD (digitale Mehrzweckplatte), eine DVD-RAM, eine CD-ROM (Kompaktplatten-Nur-Lese-Speicher) und eine CD-R (beschreibbar)/RW. Ein Beispiel für Kommunikationsmedien enthält ein Trägerwellensignal.
  • Ferner können gemäß einem Aspekt der Ausführungsformen beliebige Kombinationen der beschriebenen Merkmale, Funktionen und/oder Operationen vorgesehen werden.
  • Die vielen Merkmale und Vorteile der Ausführungsformen sind aus der eingehenden Beschreibung ersichtlich, und somit sollen durch die beigefügten Ansprüche all jene Merkmale und Vorteile der Ausführungsformen abgedeckt werden, die in deren Grundgedanken und Umfang fallen. Da die Fachwelt ferner ohne weiteres auf zahlreiche Abwandlungen und Veränderungen kommen wird, sollen die erfinderischen Ausführungsformen nicht auf die gezeigte und beschriebene exakte Konstruktion und Operation beschränkt sein, und somit können alle geeigneten Abwandlungen und Äquivalente als in deren Umfang fallend interpretiert werden.

Claims (6)

  1. Signalverarbeitungseinheit mit: einem Orthogonaltransformierungsteil (212, 214), der wenigstens zwei Toneingangsteile enthält, die Eingangstonsignale (entsprechend Eingangssignalen IN1(t) und IN2(t)) auf einer Zeitachse empfangen, welcher Orthogonaltransformierungsteil (212, 214) zwei der Eingangstonsignale (entsprechend Eingangssignalen IN1(t) und IN2(t)) in jeweilige Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) auf einer Frequenzachse transformiert; einem Phasendifferenzberechnungsteil (222), der eine Phasendifferenz (DIFF(f)) zwischen den zwei Spektralsignalen (entsprechend komplexen Spektren IN1(f) und IN2(f)) auf der Frequenzachse erhält, bei der die Phasendifferenz eine Ankunftsrichtung des Tons an den zwei Toneingangsteilen angibt, die die Eingangstonsignale (entsprechend Eingangssignalen IN1(t) und IN2(t)) empfangen; einem Synchronisationskoeffizientenberechnungsteil (224), der einen Synchronisationskoeffizienten (C(f)), der einen Betrag der Phasenverschiebung jeder Komponente eines ersten (entsprechend einem komplexen Spektrum IN2(f)) der beiden Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) bei jeder Frequenz anzeigt, in Abhängigkeit davon berechnet, ob die Phasendifferenz (DIFF(f)) entweder einer Richtung, aus der ein gewünschtes Signal kommt, oder einer Richtung entspricht, aus der Rauschen kommt; und einem Filterteil (300), der jede Komponente des ersten (entsprechend einem komplexen Spektrum IN2(f)) der zwei Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) auf der Basis des Synchronisationskoeffizienten (C(f)) synchronisiert, um ein synchronisiertes Spektralsignal (entsprechend einem synchronisierten Spektrum INs2(f)) zu berechnen, und das in Phase gebrachte Spektralsignal (entsprechend einem synchronisierten Spektrum INs2(f)) und ein zweites (entsprechend einem komplexen Spektrum IN1(f)) der zwei Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) zu einem kombiniert, um ein gefiltertes Spektralsignal (entsprechend einem rauschunterdrückten Spektrum INd(f)) zu berechnen.
  2. Signalverarbeitungseinheit nach Anspruch 1, bei der dann, wenn die Phasendifferenz der Richtung entspricht, aus der das Rauschen kommt, der Synchronisationskoeffizientenberechnungsteil (224) den Synchronisationskoeffizienten (C(f)) auf der Basis eines Verhältnisses zwischen den zwei Spektralsignalen (entsprechend komplexen Spektren IN1(f) und IN2(f)) bei jedem Zeitrahmen bei jeder Frequenz berechnet.
  3. Signalverarbeitungseinheit nach Anspruch 1, bei der dann, wenn die Phasendifferenz der Richtung entspricht, aus der das gewünschte Signal kommt, der Synchronisationskoeffizientenberechnungsteil (224) den Synchronisationskoeffizienten (C(f)) zu einem konstanten Wert macht, oder zu einer Funktion, die die Phasendifferenz proportional zu einer Frequenz angibt.
  4. Signalverarbeitungseinheit nach einem der Ansprüche 1 bis 3, bei der der Filterteil (300) das gegebene Verhältnis in Abhängigkeit davon berechnet, ob die Phasendifferenz der Richtung entspricht, aus der das gewünschte Signal kommt, oder der Richtung, aus der das Rauschen kommt, und das gefilterte Spektralsignal (entsprechend einem rauschunterdrückten Spektrum INd(f)) durch Subtrahieren des gegebenen Verhältnisses des in Phase gebrachten Spektralsignals (entsprechend einem synchronisierten Spektrum INs2(f)) von dem zweiten Spektralsignal (entsprechend einem komplexen Spektrum IN1(f)) der zwei Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) berechnet.
  5. Signalverarbeitungseinheit nach einem der Ansprüche 1 bis 3, bei der der Synchronisationskoeffizientenberechnungsteil (224) einen Bereich von Richtungen, aus dem das gewünschte Signal kommt, auf der Basis von Informationen festlegt, die eine Richtung eines Sprechers angeben, wobei der Bereich von Richtungen den gegebenen Bereich hinsichtlich der Phasendifferenz angibt.
  6. Signalverarbeitungsverfahren zum Bewirken, dass ein Computer als Signalverarbeitungseinheit fungiert, durch welches Signalverarbeitungsverfahren der Computer ausführt: Transformieren von zweien der Tonsignale (entsprechend Eingangssignalen IN1(t) und IN2(t)), die von den wenigstens zwei Toneingangsteilen auf einer Zeitachse eingegeben werden, in jeweilige Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) auf einer Frequenzachse durch einen Orthogonaltransformierungsteil (212, 214), der wenigstens zwei Toneingangsteile des Computers enthält, wobei die Phasendifferenz eine Ankunftsrichtung des Tons an den zwei Toneingangsteilen angibt, die die Eingangstonsignale (entsprechend Eingangssignalen IN1(t) und IN2(t)) empfangen; Berechnen einer Phasendifferenz zwischen den transformierten zwei Spektralsignalen (entsprechend komplexen Spektren IN1(f) und IN2(f)) auf der Frequenzachse durch den Computer; Berechnen eines Synchronisationskoeffizienten (C(f)), der einen Betrag der Phasenverschiebung jeder Komponente eines ersten (entsprechend einem komplexen Spektrum IN2(f)) der beiden Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) bei jeder Frequenz anzeigt, in Abhängigkeit davon, ob die Phasendifferenz einer Richtung, aus der ein gewünschtes Signal kommt, oder einer Richtung entspricht, aus der Rauschen kommt; und Synchronisieren jeder Komponente des ersten Spektralsignals (entsprechend einem komplexen Spektrum IN2(f)) der zwei Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) bei jeder Frequenz, Berechnen eines synchronisierten Spektralsignals (entsprechend einem synchronisierten Spektrum INs2(f)), Zusammensetzen des synchronisierten Spektralsignals (entsprechend einem synchronisierten Spektrum INs2(f)) und eines zweiten Spektralsignals (entsprechend einem komplexen Spektrum IN1(f)) der zwei Spektralsignale (entsprechend komplexen Spektren IN1(f) und IN2(f)) und Berechnen eines gefilterten Spektralsignals (entsprechend einem rauschunterdrückten Spektrum INd(f)) durch den Computer.
DE102009052539.4A 2008-11-21 2009-11-11 Signalverarbeitungseinheit und Signalverarbeitungsverfahren Expired - Fee Related DE102009052539B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008297815A JP2010124370A (ja) 2008-11-21 2008-11-21 信号処理装置、信号処理方法、および信号処理プログラム
JP2008-297815 2008-11-21

Publications (2)

Publication Number Publication Date
DE102009052539A1 DE102009052539A1 (de) 2010-07-01
DE102009052539B4 true DE102009052539B4 (de) 2014-01-02

Family

ID=42196290

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102009052539.4A Expired - Fee Related DE102009052539B4 (de) 2008-11-21 2009-11-11 Signalverarbeitungseinheit und Signalverarbeitungsverfahren

Country Status (3)

Country Link
US (1) US8565445B2 (de)
JP (1) JP2010124370A (de)
DE (1) DE102009052539B4 (de)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5493850B2 (ja) * 2009-12-28 2014-05-14 富士通株式会社 信号処理装置、マイクロホン・アレイ装置、信号処理方法、および信号処理プログラム
JP5672770B2 (ja) 2010-05-19 2015-02-18 富士通株式会社 マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム
JP5668553B2 (ja) 2011-03-18 2015-02-12 富士通株式会社 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
JP5810903B2 (ja) * 2011-12-27 2015-11-11 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
US9183829B2 (en) * 2012-12-21 2015-11-10 Intel Corporation Integrated accoustic phase array
US9769552B2 (en) * 2014-08-19 2017-09-19 Apple Inc. Method and apparatus for estimating talker distance
CN109391926B (zh) * 2018-01-10 2021-11-19 展讯通信(上海)有限公司 无线音频设备的数据处理方法及无线音频设备
US11276388B2 (en) * 2020-03-31 2022-03-15 Nuvoton Technology Corporation Beamforming system based on delay distribution model using high frequency phase difference

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0802699A2 (de) * 1997-07-16 1997-10-22 Phonak Ag Verfahren zum Elektronischerweitern des Abstands zwischen zwei akustischen/elektrischen Wandlern und einem Hörhilfegerät

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766029B1 (en) * 1997-07-16 2004-07-20 Phonak Ag Method for electronically selecting the dependency of an output signal from the spatial angle of acoustic signal impingement and hearing aid apparatus
JP3484112B2 (ja) * 1999-09-27 2004-01-06 株式会社東芝 雑音成分抑圧処理装置および雑音成分抑圧処理方法
JP2005229420A (ja) * 2004-02-13 2005-08-25 Toshiba Corp 音声入力装置
JP2007028391A (ja) * 2005-07-20 2007-02-01 Sanyo Electric Co Ltd マイクロホンアレー装置
US20070047743A1 (en) * 2005-08-26 2007-03-01 Step Communications Corporation, A Nevada Corporation Method and apparatus for improving noise discrimination using enhanced phase difference value
JP4825552B2 (ja) * 2006-03-13 2011-11-30 国立大学法人 奈良先端科学技術大学院大学 音声認識装置、周波数スペクトル取得装置および音声認識方法
JP4912036B2 (ja) * 2006-05-26 2012-04-04 富士通株式会社 指向性集音装置、指向性集音方法、及びコンピュータプログラム
JP4757786B2 (ja) * 2006-12-07 2011-08-24 Necアクセステクニカ株式会社 音源方向推定装置、音源方向推定方法、及びロボット装置
JP4854533B2 (ja) 2007-01-30 2012-01-18 富士通株式会社 音響判定方法、音響判定装置及びコンピュータプログラム
JP4403429B2 (ja) 2007-03-08 2010-01-27 ソニー株式会社 信号処理装置、信号処理方法、プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0802699A2 (de) * 1997-07-16 1997-10-22 Phonak Ag Verfahren zum Elektronischerweitern des Abstands zwischen zwei akustischen/elektrischen Wandlern und einem Hörhilfegerät

Also Published As

Publication number Publication date
US20100128895A1 (en) 2010-05-27
JP2010124370A (ja) 2010-06-03
US8565445B2 (en) 2013-10-22
DE102009052539A1 (de) 2010-07-01

Similar Documents

Publication Publication Date Title
DE102009052539B4 (de) Signalverarbeitungseinheit und Signalverarbeitungsverfahren
DE102010055476B4 (de) Signalverarbeitungsgerät, Mikrofonarrayvorrichtung und Speichermedium, das ein Signalverarbeitungsprogramm speichert
US10972837B2 (en) Robust estimation of sound source localization
DE102010023615B4 (de) Signalverarbeitungsvorrichtung und Signalverarbeitungsverfahren
US10827263B2 (en) Adaptive beamforming
DE102011108234B4 (de) Mikrofonarrayvorrichtung
US8654990B2 (en) Multiple microphone based directional sound filter
JP4162604B2 (ja) 雑音抑圧装置及び雑音抑圧方法
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE102009034264B4 (de) Vorrichtung zum Verarbeiten eines Tonsignals und Verfahren zum Verarbeiten eines Tonsignals
EP3189521B1 (de) Verfahren und vorrichtung zur erweiterung von schallquellen
KR101782050B1 (ko) 비등간격으로 배치된 마이크로폰을 이용한 음질 향상 장치 및 방법
DE602005005186T2 (de) Verfahren und system zur schallquellen-trennung
US9232309B2 (en) Microphone array processing system
DE112011105791B4 (de) Störungsunterdrückungsvorrichtung
US20020013695A1 (en) Method for noise suppression in an adaptive beamformer
Grimm et al. Wind noise reduction for a closely spaced microphone array in a car environment
JP2019068133A (ja) 収音装置、プログラム及び方法
DE112007003603T5 (de) Tonempfangsanordnung, Richtcharakteristik-Ableitungsverfahren, Richtcharakteristik-Ableitungsvorrichtung und Computerprogramm
DE102019105458B4 (de) System und Verfahren zur Zeitverzögerungsschätzung
JP6725014B1 (ja) 収音装置、収音プログラム及び収音方法
Jinzai et al. Wavelength proportional arrangement of virtual microphones based on interpolation/extrapolation for underdetermined speech enhancement
JP6669219B2 (ja) 収音装置、プログラム及び方法
US20240171907A1 (en) Audio processing
Grimm et al. Microphone Diversity based Wind Noise Reduction in a Car Environment using MEMS Arrays

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
R016 Response to examination communication
8128 New person/name/address of the agent

Representative=s name: SEEGER SEEGER LINDNER PARTNERSCHAFT PATENTANWAELTE

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R020 Patent grant now final

Effective date: 20141003

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee