DE102018109247A1

DE102018109247A1 - Verfahren zur genauen Berechnung der Ankunftsrichtung von Schall an einer Mikrofon-Anordnung

Info

Publication number: DE102018109247A1
Application number: DE102018109247.4A
Authority: DE
Inventors: Ryo Tanaka
Original assignee: Revolabs Inc
Current assignee: Yamaha Unified Comunications Inc
Priority date: 2017-06-12
Filing date: 2018-04-18
Publication date: 2018-12-13
Also published as: US20180359563A1; US10334360B2; US10524049B2; US20190268695A1; JP2019004465A; CN109068235A; JP7214379B2

Abstract

Eine Signalverarbeitungseinheit berechnet eine erste Ankunftszeitdifferenz von Schall von einer Schallquelle zu einem ersten und einem zweiten Mikrofon mit einer Mikrofon-Anordnung, und berechnet eine zweite Ankunftszeitdifferenz, die die Differenz zwischen der ersten Ankunftszeitdifferenz und einer tatsächlichen Ankunftszeit darstellt, und bestimmt die Position der Schallquelle, basierend auf der Summe der ersten Ankunftszeitdifferenz und der zweiten Ankunftszeitdifferenz.

Description

Gebiet
Eine Ausführungsform der vorliegenden Erfindung bezieht sich auf eine Schallsammelvorrichtung zum Erfassen des Schalls einer Schallquelle unter Verwendung eines Mikrofons und auf ein Schallsammelverfahren.
Beschreibung der einschlägigen Technik
Schallsammelvorrichtungen können die Ankunftsrichtung einer Schallquelle schätzen, um die Empfindlichkeit einer Mikrofon-Anordnung in Richtung der Schallquelle zu verbessern. Um die Ankunftsrichtung der Schallquelle zu finden, findet die Schallsammelvorrichtung die Korrelation zwischen den gesammelten Schallsignalen einer Vielzahl an Mikrofonen. Die Schallsammelvorrichtung schätzt die Ankunftsrichtung durch Berechnen der Ankunftszeit des Schalls von der Schallquelle zu der Vielzahl von Mikrofonen. Die Ankunftszeitdifferenz wird z.B. über eine Kreuzkorrelationsfunktion ermittelt. Die Schallsammelvorrichtung findet die Kreuzkorrelationsfunktion der gesammelten Schallsignale der Vielzahl an Mikrofonen und findet eine Probennummer, wenn die Kreuzkorrelationsfunktion eine Spitze anzeigt. Diese Probennummer entspricht der Ankunftszeit des Schalls von der Schallquelle zu den mehreren Mikrofonen. Die Ankunftszeitdifferenz wird durch Multiplizieren mit der Schallgeschwindigkeit in eine Entfernung umgewandelt. Daher kann die Schallsammelvorrichtung die Ankunftsrichtung mit Hilfe einer trigonometrischen Funktion schätzen, die auf dem Abstand zwischen der Vielzahl von Mikrofonen und einer gefundenen Entfernung basiert, indem sie die Schallgeschwindigkeit mit der Ankunftszeitdifferenz multipliziert wird.
Wenn jedoch die Ankunftszeitdifferenz unter Verwendung einer Kreuzkorrelationsfunktion im Zeitbereich gefunden wird, kann keine Zeitdifferenz von einer Probe oder weniger gefunden werden. Daher hängt die Schätzgenauigkeit der Ankunftsrichtung von der Abtastfrequenz und dem Abstand zwischen den mehreren Mikrofonen ab.
ZUSAMMENFASSUNG
Die Schallsammelvorrichtung ist mit einer Vielzahl von Mikrofonen (d. h. Mikrofon-Array) und einer Signalverarbeitungseinheit versehen. Die Signalverarbeitungseinheit berechnet eine Gesamt- oder tatsächliche Zeitdifferenz des Eintreffens von Schall zwischen Mikrofonen in einem Array, indem sie eine berechnete erste Ankunftszeitdifferenz zu einer berechneten zweiten Ankunftszeit addiert. Die erste Ankunftszeitdifferenz basiert auf der Ankunftszeitdifferenz des Schalls von einer Schallquelle zu der Vielzahl von Mikrofonen mit einer Genauigkeit zu einer Zwischenabtastzeit, und berechnet eine zweite Ankunftszeitdifferenz, die die Differenz ist zwischen der ersten Ankunftszeitdifferenz und der tatsächlichen Ankunftszeitdifferenz. Er schätzt die Position der Schallquelle auf der dritten oder tatsächlichen Ankunftszeit ab.
Figurenliste
Die vorliegende Erfindung kann am besten durch Lesen der Beschreibung unter Bezugnahme auf die folgenden Figuren verstanden werden:

1 ist eine externe perspektivische Ansicht, die eine Konfiguration einer Schallabgabe-/-sammelvorrichtung 10 zeigt.
2 ist ein Blockdiagramm, das die Schallabgabe-/-sammelvorrichtung 10 illustriert.
3 ist ein Funktionsblockschaltbild, das eine Konfiguration einer Signalverarbeitungseinheit 15 zeigt.
4 ist ein Funktionsblockdiagramm, das eine Konfiguration einer Stimmaktivitätserfassungseinheit (VAD) 50 darstellt.
5 ist ein Funktionsblockschaltbild, das die Konfiguration einer Ankunftsrichtungseinheit (DOA) 60 veranschaulicht.
6 ist ein Flussdiagramm, das die Funktionsweise der Ankunftsrichtungseinheit (DOA) 60 zeigt.
7 ist ein Diagramm, das die Phase eines Weißungskreuzspektrums R (ω) darstellt.
8 ist ein Diagramm, das die Phase eines Weißungskreuzspektrums darstellt R'(ω).
9 ist ein Diagramm, das eine Beziehung zwischen der Ankunftsrichtung und der Verschiebung von Schall aufgrund des Mikrofons darstellt.
10 ist ein Blockschaltbild zur Veranschaulichung des Aufbaus einer Strahlformungseinheit (BF) 20.
11 ist ein Flussdiagramm, das den Betrieb der Schallabgabe-/-sammelvorrichtung 10 darstellt.

DETAILLIERTE BESCHREIBUNG
1 ist eine perspektivische Ansicht, die schematisch die Schallabgabe-/-sammelvorrichtung 10 darstellt. 1 zeigt die Hauptkonfiguration von ausgesendetem Schall und gesammeltem Schall und veranschaulicht keine anderen Konfigurationen.
Die Schallabgabe-/-sammelvorrichtung 10 ist mit einem rechteckigen Parallel-Rohrgehäuse 1, einer Mikrofon-Anordnung mit einem Mikrofon 11, einem Mikrofon 12 und einem Mikrofon 13, einem Lautsprecher 70L und einem Lautsprecher 70R versehen. Die Vielzahl von Mikrofonen ist als eine Anordnung angeordnet; das Mikrofon 11, das Mikrofon 12 und das Mikrofon 13 sind in einer Linie auf einer Seitenfläche des Gehäuses 1 angeordnet. Der Lautsprecher 70L und der Lautsprecher 70R sind als ein Paar an den Außenseiten des Mikrofons 11, des Mikrofons 12 und des Mikrofons 13 angeordnet, wobei dazwischen das Mikrofon 11, das Mikrofon 12 und das Mikrofon 13 angeordnet sind.
In diesem Beispiel gibt es drei Mikrofone, aber die Schallabgabe-/-sammelvorrichtung 10 kann so lange arbeiten, wie zumindest zwei oder mehr Mikrofone installiert sind. Außerdem ist die Anzahl der Lautsprecher nicht auf zwei begrenzt, und die Schallabgabe-/-sammelvorrichtung 10 kann so lange betrieben werden, wie zumindest ein oder mehrere Lautsprecher installiert sind. Weiterhin kann der Lautsprecher 70L oder der Lautsprecher 70R als separate Konfiguration vom Gehäuse 1 geliefert werden.
2 ist ein Blockdiagramm der Schallabgabe- / Sammelvorrichtung 10, die in Bezug auf 1 gezeigt wird. Wie in 2 dargestellt, ist die Schallabgabe-/-sammelvorrichtung 10 mit dem Mikrofon 11, dem Mikrofon 12, dem Mikrofon 13, dem Lautsprecher 70L, dem Lautsprecher 70R, der Signalverarbeitungseinheit 15, einem Speicher 150 und einer Schnittstelle (I/F) 19 ausgestattet. Ein gesammelter Schall, der eine durch das Mikrofon 11, das Mikrofon 12 und das Mikrofon 13 erfasste Stimme ist, wird in der Signalverarbeitungseinheit 15 signalverarbeitet und in die I/F 19 eingegeben. Die I/F 19 ist beispielsweise eine Kommunikations-I/F und überträgt das gesammelte Schallsignal an eine externe Vorrichtung (ferne Stelle). Alternativ empfängt die I/F 19 ein von einem externen Gerät ausgegebenes Schallsignal. Der Speicher 150 speichert das gesammelte Schallsignal des Mikrofons 11, des Mikrofons 12 und des Mikrofons 13 als aufgezeichnete Schalldaten. Die Signalverarbeitungseinheit 15 arbeitet mit dem Schall, der durch das Mikrofon 11, das Mikrofon 12 und das Mikrofon 13 erfasst wird, wie nachstehend ausführlich beschrieben wird. Weiterhin verarbeitet die Signalverarbeitungseinheit 15 das vom I/F 19 ausgegebene Schallsignal. Der Lautsprecher 70L oder der Lautsprecher 70R geben das Signal ab, das in der Signalverarbeitungseinheit 15 verarbeitet wurde.
Es sei angemerkt, dass die Funktionen der Signalverarbeitungseinheit 15 auch in einer allgemeinen Informationsverarbeitungsvorrichtung wie etwa einem Personal Computer realisiert werden können. In diesem Fall realisiert die Informationsverarbeitungsvorrichtung die Funktionen der Signalverarbeitungseinheit 15 durch Auslesen und Ausführen eines im Speicher 150 gespeicherten Programms 151 oder eines auf einem Aufzeichnungsträger wie einem Flash-Speicher gespeicherten Programms.
3 ist ein Funktionsblockschaltbild der Signalverarbeitungseinheit 15. Wie in 3 dargestellt, ist die Schallabgabe-/-sammelvorrichtung 10 mit dem Mikrofon 11, dem Mikrofon 12, dem Mikrofon 13, dem Lautsprecher 70L, dem Lautsprecher 70R, der Signalverarbeitungseinheit 15 und der Schnittstelle (I/F) 19 versehen. Die Signalverarbeitungseinheit 15 ist mit ersten Echokompensatoren 31, 32 und 33, einer Strahlformungseinheit (BF) 20, einem zweiten Echokompensator 40, einer Stimmaktivitätserfassungseinheit (VAD) 50 und einer Ankunftsrichtungseinheit (DOA) 60 ausgestattet.
Der erste Echokompensator 31 ist auf der Rückseite des Mikrofons 11 installiert, der erste Echokompensator 32 ist auf der Rückseite des Mikrofons 12 installiert, und der erste Echokompensator 33 ist auf der Rückseite des Mikrofons 13 installiert. Der erste Echokompensator 31, der erste Echokompensator 32 und der erste Echokompensator 33 führen die Echounterdrückung an den gesammelten Schallsignalen der vorderen Mikrofone durch. Dadurch entfernen der erste Echokompensator 31, der erste Echokompensator 32 und der erste Echokompensator 33 Echos, die durch den Lautsprecher 70L und den Lautsprecher 70R an jedem Mikrofon verursacht werden.
Die Echokompensation durch den ersten Echokompensator 31, den ersten Echokompensator 32 und den ersten Echokompensator 33 besteht aus einem FIR-Filterverfahren und einem Subtraktionsverfahren. Die Echokompensation gibt ein von dem Lautsprecher 70L und dem Lautsprecher 70R (emittiertes Schallsignal) emittiertes Signal ein, das von der Schnittstelle (I/F) 19 in die Signalverarbeitungseinheit 15 eingegeben wurde, schätzt die Echokomponente unter Verwendung des FIR-Filters und subtrahiert jede geschätzte Echokomponente von dem gesammelten Schallsignaleingang an den ersten Echokompensator 31, den ersten Echokompensator 32 und den ersten Echokompensator 33.
Die Stimmaktivitätserfassungseinheit (VAD) 50 ist auf der Rückseite des ersten Echokompensators 32 installiert. Mit anderen Worten, die Stimmaktivitätserfassungseinheit (VAD) 50 bestimmt, ob das gesammelte Schallsignal, das in dem in der Mitte befindlichen Mikrofon 12 gesammelt wird, eine Stimme ist. Wenn in der Stimmaktivitätserfassungseinheit (VAD) 50 bestimmt wird, dass der Schall eine menschliche Stimme ist, wird eine Stimm-Markierung in die Richtung der Ankunftsrichtungseinheit (DOA) 60 eingegeben. Die Stimmaktivitätserfassungseinheit (VAD) 50 wird im Folgenden detailliert beschrieben. Beachten Sie, dass die VAD 50 nicht nur auf der Rückseite des ersten Echokompensators 32, sondern auch auf der Rückseite des ersten Echokompensators 32 oder des ersten Echokompensators 33 installiert werden kann.
Die Ankunftsrichtungseinheit (DOA) 60 ist auf der Rückseite des ersten Echokompensators 31 und des ersten Echokompensators 33 installiert. Die Ankunftsrichtungseinheit (DOA) 60 detektiert die Ankunftsrichtung einer Stimme. Die Ankunftsrichtungseinheit (DOA) 60 erfasst die Ankunftsrichtung (θ) des gesammelten Schallsignals, das in dem Mikrofon 11 und dem Mikrofon 13 gesammelt ist, nachdem die Stimm-Markierung eingegeben wurde. Die Ankunftsrichtung (θ) wird später detailliert beschrieben. Um die Erkennung nur dann durchzuführen, wenn die Stimm-Markierung in Richtung der Ankunftsrichtungseinheit (DOA) 60 eingegeben wurde, ändert sich der Wert der Ankunftsrichtung (θ) auch dann nicht, wenn ein anderes Rauschen als das einer menschlichen Stimme auftritt. Die in der Richtung der Ankunftsrichtungseinheit (DOA) 60 erfasste Ankunftsrichtung (θ) wird in die Strahlformungseinheit (BF) 20 eingegeben. Die Richtung der Ankunftsrichtungseinheit (DOA) 60 wird im Folgenden detailliert beschrieben.
Die Strahlformungseinheit BF 20 führt einen Strahlformungsprozess durch, der auf der Einfallsrichtung des Schalls (θ) basiert. Dieser Strahlformungsprozess ermöglicht es, den Schall in Ankunftsrichtung (θ) zu fokussieren. Da Rauschen, das von anderen Richtungen als der Ankunftsrichtung (θ) ankommt, minimiert werden kann, ist es daher möglich, selektiv eine Stimme in der Ankunftsrichtung (θ) zu sammeln. Die Strahlformungseinheit (BF) 20 wird im Folgenden detailliert beschrieben.
Der zweite Echokompensator 40 führt eine Frequenzspektrum-Amplitudenmultiplikation des Signals durch, das den Strahlformungsprozess im BF 20 durchlaufen hat. Daher kann der zweite Echokompensator 40 die restliche Echo-Komponente entfernen, die durch die Subtraktion Verfahren allein nicht entfernt werden konnte. Das Frequenzspektrum-Amplitudenmultiplikationsverfahren kann ein beliebiger Prozess sein, verwendet aber z.B. mindestens eine oder alle spektralen Verstärkungen, eine spektrale Subtraktion und einen Echokompensator in einem Frequenzbereich. Da die verbleibende Echokomponente Hintergrundrauschen darstellt, beispielsweise in einem Raum, handelt es sich hier um eine Fehlerkomponente, die durch einen Schätzfehler der Echokomponente verursacht wird, der in dem ersten Echokompensator auftritt, wobei Oszillationsgeräusche des Gehäuses auftreten, wenn der Schallabgabepegel der Lautsprecher 70 ein bestimmtes Niveau oder dergleichen, erreicht. Der zweite Echokompensator 40 schätzt das Spektrum der verbleibenden Echokomponente, basierend auf dem Spektrum der im Subtraktionsprozess im ersten Echokompensator geschätzten Echokomponente und dem Spektrum des Eingangssignals, und entfernt das geschätzte Spektrum der verbleibenden Echokomponente aus dem Eingangssignal.
Auf diese Weise entfernt die Signalverarbeitungseinheit 15 der vorliegenden Ausführung auch eine verbleibende Echokomponente, die durch den Subtraktionsprozess nicht entfernt werden konnte. Selbst wenn der Frequenzspektrum-Amplitudenmultiplikationsvorgang an der Vorderseite ausgeführt wird, geht jedoch die Information des gesammelten Schallsignalpegels verloren, wodurch ein Strahlformungsprozess durch den BF 20 erschwert wird. Selbst wenn der Frequenzspektrum-Amplitudenmultiplikationsvorgang auf der Vorderseite ausgeführt wird, gehen ferner die Information des harmonischen Leistungsspektrums, die Leistungsspektrum-Änderungsrate, die Leistungsspektrum-Flachheit, die Formant-Intensität, die Intensität der Harmonischen, die Leistung, die Leistungsdifferenz erster Ordnung, die Leistungsdifferenz zweiter Ordnung , der Cepstrum-Koeffizient, die Differenz erster Ordnung des Cepstrum-Koeffizienten und die Differenz zweiter Ordnung des unten beschriebenen Cepstrum-Koeffizienten verloren, wodurch die Berechnung einer Kreuzkorrelationsfunktion oder dergleichen in der Stimmaktivitätserfassungseinheit (VAD) 50 erschwert wird. Dann entfernt die Signalverarbeitungseinheit 15 der vorliegenden Ausführungsform zuerst die Echokomponente unter Verwendung des Subtraktionsprozesses, führt den Strahlformungsprozess durch den BF20, die Stimmbestimmung durch die Stimmaktivitätserfassungseinheit (VAD) 50 und den Erfassungsprozess von der Ankunftsrichtung in der Richtung der Ankunftsrichtungseinheit (DOA) 60 und führt den Frequenzspektrum-Amplitudenmultiplikationsvorgang an dem Signal aus, das der Strahlbildung unterzogen wurde.
Als nächstes werden die Funktionen der Stimmaktivitätserfassungseinheit (VAD) 50 im Detail unter Verwendung von 4 beschrieben. Die VAD 50 führt eine Analyse verschiedener Stimmmerkmale in dem Stimmsignal unter Verwendung eines neuronalen Netzes 57 durch. Die Stimmaktivitätserfassungseinheit (VAD) 50 gibt eine Stimm-Markierung aus, wenn als ein Ergebnis der Analyse bestimmt wird, dass ein gesammeltes Schallsignal eine menschliche Stimme ist.
Im Folgenden werden als Beispiele für verschiedene Stimmmerkmale angegeben: Nulldurchgangsrate 41, harmonisches Leistungsspektrum 42, Leistungsspektrum-Ratenänderung 43, Leistungsspektrum-Planheit 44, Formant Intensität 45, Intensität der Harmonischen 46, Leistung 47, Differenz der Leistung erster Ordnung 48, Differenz der Leistung zweiter Ordnung 49, Cepstrum-Koeffizienten 51, Differenz erster Ordnung des Cepstrum-Koeffizienten 52 und Differenz zweiter Ordnung des Cepstrum-Koeffizienten 53.
Die Nulldurchgangsrate 41 berechnet die Auftrittshäufigkeit eines Punktes, der für ein Stimmsignal in der Zeitdomäne Null kreuzt. Der Nulldurchgang entspricht der Schallhöhe, die die Grundfrequenz der Stimme ist. Das harmonische Leistungsspektrum 42 zeigt an, welchen Grad an Leistung die Frequenzkomponente jeder Harmonischen aufweist, die in dem Stimmsignal enthalten ist. Die Leistungsspektrum-Änderungsrate 43 zeigt die Änderungsrate der Leistung zu der Frequenzkomponente des Audiosignals an. Die Leistungsspektrums-Flachheit 44 zeigt den Grad des Anschwellens der Frequenzkomponente des Audiosignals an. Die Formant-Intensität 45 gibt die Intensität der im Audiosignal enthaltenen Formant-Komponente an. Die Intensität der Harmonischen 46 gibt die Intensität der Frequenzkomponente jeder im Audiosignal enthaltenen Oberwelle an. Die Leistung 47 ist die Leistung des Audiosignals. Die Differenz der Leistung erster Ordnung 48 ist die Differenz zur vorherigen Leistung 47. Die Differenz der Leistung zweiter Ordnung 49 ist die Differenz zur vorherigen Differenz der Leistung 48 erster Ordnung. Der Cepstrum-Koeffizient 51 ist der Logarithmus der diskreten Cosinus-transformierten Amplitude des Audiosignals. Eine Differenz erster Ordnung des Cepstrum-Koeffizienten 52 ist die Differenz von dem vorherigen Cepstrum-Koeffizienten 51. Eine Differenz zweiter Ordnung des Cepstrum-Koeffizienten 53ist die Differenz zur vorherigen Differenz erster Ordnung 52 des Cepstrum-Koeffizienten.
Man beachte, dass ein Stimmsignal, das eine hohe Frequenz betont, verwendet werden kann, wenn der Cepstrum-Koeffizient 51 unter Verwendung eines Vorverzerrungsfilters gefunden wird, und eine diskrete kosinus-transformierte Amplitude des durch eine Mel-Filterbank komprimierten Stimmsignals verwendet werden kann.
Weiterhin ist zu beachten, dass die Stimmfunktionen nicht auf die oben beschriebenen Parameter beschränkt sind. und dass jeder Parameter, der eine menschliche Stimme von anderen Geräuschen unterscheiden kann, verwendet werden kann.
Das neuronale Netz 57 ist eine Methode zur Ableitung von Ergebnissen aus einem Beurteilungsbeispiel einer Person. Jeder Neuronen-Koeffizient wird auf einen Eingabewert gesetzt, um sich dem von einer Person abgeleiteten Beurteilungsergebnis zu nähern.
Das neuronale Netz 57 gibt basierend auf einem Eingabewert einen vorbestimmten Wert durch Eingabe des Wertes verschiedener Stimmmerkmale aus (Nulldurchgangsrate 41, harmonisches Leistungsspektrum 42, Leistungsspektrums-Änderungsrate 43, Leistungsspektrums-Flachheit 44, Formanten-Intensität 45, Intensität der Harmonischen 46, Leistung 47, Leistungsdifferenz erster Ordnung 48, Leistungsdifferenz zweiter Ordnung 49, Cepstrum-Koeffizient 51, Differenz erster Ordnung des Cepstrum-Koeffizienten 52 oder Differenz zweiter Ordnung des Cepstrum-Koeffizienten 53) in jedem Neuron. Das neuronale Netz 57 gibt jeweils einen ersten Parameterwert aus, der eine menschliche Stimme ist, und einen zweiten Parameterwert, der in den letzten beiden Neuronen keine menschliche Stimme ist. Schließlich bestimmt das neuronale Netz 57, dass es sich um eine menschliche Stimme handelt, wenn, die Differenz zwischen dem ersten Parameterwert und dem zweiten Parameterwert einen vorbestimmten Schwellenwert überschreitet. Damit kann das neuronale Netz 57 anhand des Beurteilungsbeispiels einer Person feststellen, ob es sich bei dem Stimmsignal um eine menschliche Stimme handelt.
5 ist ein Funktionsblockdiagramm, das die Konfiguration der Ankunftsrichtungseinheit (DOA-Einheit) 60 darstellt, und 6 ist ein Flussdiagramm, das den Betrieb der Erfassungseinheit 60 für die Ankunftsrichtung (DOA) veranschaulicht. Wendet man sich zuerst der DOA-Einheit 60 in 5 zu, so ist diese Einheit mit diskreten Fourier-Transformationen DFT 61A und DFT 61B, einer Kreuzkorrelationsfunktions-Berechnungseinheit 62, einer Phasenrotationseinheit 63, einer inversen diskreten Fourier-Transformation (IDFT) 64, Probennummer-Berechnungseinheit 65, Zeitverschiebungs-Berechnungseinheit 66, einen Addierer 67 und eine Ankunftswinkelberechnungseinheit 68 versehen.
Die DFT 61A und DFT 61B empfangen jeweils das gesammelte Schallsignal des Mikrofons 11 X1 (t) und das gesammelte Schallsignal des Mikrofons 13 X2 (t). Es sei angemerkt, dass AEC31 und AEC33 in 4 weggelassen wurde, aber das gesammelte Schallsignal des Mikrofons 11X1 (t) und 13X2 (t) stellt gesammelte Schallsignale dar, nachdem eine Echokompensation ausgeführt wurde. Man beachte, dass in diesem Beispiel die DOA 60 die gesammelten Schallsignale des Mikrofons 11 und 13 verwendet, aber die gesammelten Schallsignale anderer Mikrofone können ebenfalls verwendet werden. Da die Ankunftsrichtung der Schallquelle jedoch anhand der Entfernung zwischen den Mikrofonen geschätzt wird, ist die Genauigkeit umso höher, je größer der Abstand zwischen den Mikrofonen ist. Aus diesem Grund ist es wünschenswert, dass die gesammelten Schallsignale des Mikrofons 11 und 13 verwendet werden, da sie am weitesten voneinander entfernt sind. Die DFT61A und die DFT61B führen die Fourier-Transformation an dem gesammelten Schallsignal X1 (t) und X2 (t) durch und transformieren sie in das Signal X1 (ω) und X2 (ω) der Frequenzdomäne, wie in 5 und bei S21 in 6 veranschaulicht.
Die Kreuzkorrelationsfunktions-Berechnungseinheit 62 in 5 berechnet das Weißungskreuzspektrum R (ω) der gesammelten und transformierten Schallsignale X1 (t) und X2 (t) gemäß der nachstehenden Formel 1 (S22). Eine vorbestimmte Zeitkonstante wird an das Weißungskreuzspektrum R (ω) angelegt. $R (ω) = a \cdot R (ω) + (1 - a) \cdot \frac{c o n j (X 1 (ω)) \cdot X 2 (ω)}{| c o n j (X 1 (ω)) \cdot X 2 (ω) |}$
Das berechnete Weißungskreuzspektrum R (ω) wird in die Phasenrotationseinheit 63 und den IDFT 64 eingegeben. Die IDFT 64 führt eine inverse Transformation auf dem Weißungskreuzspektrum R (ω) durch, was zu einer Weißungs-Kreuzkorrelationsfunktion r (t) führt (6, S23).
Die Probennummer-Berechnungseinheit 65 findet den Peak-Position-Index der Weißungs-Kreuzkorrelationsfunktion r (t) (6, S24). Die Probennummer, die der Position der Spitze entspricht, repräsentiert die Ankunftszeitdifferenz zwischen dem Mikrofon 11 und dem Mikrofon 13. Die Probennummer-Berechnungseinheit 65 findet die Ankunftszeitdifferenz (erste Ankunftszeitdifferenz, τ_i ) des Schalls von der Schallquelle zum Mikrofon 11 und 13 durch Dividieren des Spitzenpositionsindex durch die Abtastfrequenz, wie in der nachstehenden Formel 2 (6, S25) verdeutlicht. Diese erste Ankunftszeitdifferenz wird als ein ganzzahliger Wert von einem oder mehreren Abtastzeiten ausgedrückt. Wenn beispielsweise eine Abtastrate 48 kHz beträgt, beträgt die Zeit von einem Abtastwert zum nächsten (Zwischenabtastzeit) ungefähr 20,8 Mikrosekunden, und wenn die Abtastwertberechnungseinheit bestimmt, dass der Schall an einem zweiten Mikrophon ankommt, nachdem er an einem ersten Mikrofon angekommen ist, beträgt diese Verzögerung mindestens 20,8 Mikrosekunden. $τ_{i} = \frac{P E A K_I N D E X (r (t))}{f s}$
Es ist anzumerken, dass die Probennummer-Berechnungseinheit 65 die Kreuzkorrelationsfunktion des gesammelten Schallsignals des Mikrofons 11 X1 (t) und 13 X2 (t) im Zeitbereich finden kann, oder die Weißungs-Kreuzkorrelationsfunktion, und die erste Ankunftszeitdifferenz berechnet wird. Ferner kann die Probennummer-Berechnungseinheit 65 den Zeitpunkt finden, zu dem sowohl das gesammelte Schallsignal X1 (t) als auch X2 (t) ihren Spitzenpegel haben (wenn der größte Wert der Amplitude gegeben ist), und die erste Ankunftszeitdifferenz aus der Differenz in dieser Spitzenpegelzeit berechnen, aber diese Zeit ist nicht genauer als eine Abtastzeit.
Da diese erste Ankunftszeitdifferenz, τ_i , einer Stichprobe eine Zeitdifferenz ist, die der Zeit entspricht, in die Kreuzkorrelationsfunktion oder die Aufhellungskreuzkorrelationsfunktion eine Spitze zeigt, kann keine Genauigkeit erzielt werden, die gleich oder größer als die Abtastfrequenz ist (d.h. 20,8 Mikrosekunden). Daher berechnet die DOA 60 der vorliegenden Ausführung eine zweite, gebrochene Ankunftszeitdifferenz, die eine Ankunftszeitdifferenz einer Probe ist, indem sie das Weißungskreuzspektrum R (ω) basierend auf der ersten Ankunftszeitdifferenz korrigiert und das korrigierte Weißungskreuzspektrum R' (ω) analysiert. Diese zweite Ankunftszeitdifferenz ist ein gebrochener Wert, der kleiner als eine Abtastzeit ist.
Mit anderen Worten, die Phasenrotationseinheit 63 dreht zuerst die Phase des Weißungskreuzspektrums R (ω) unter Verwendung der ersten Ankunftszeitdifferenz τ_l wie in der nachstehenden Formel 3 dargestellt (S26). $R' (ω) = e^{- i ω \cdot (- τ i)} \cdot R (ω)$
Das Weißungskreuzspektrum R (ω) ist eine Winkelfrequenzfunktion, und 7 zeigt die graphische Darstellung von R(ω) gegen die Winkelfrequenz für eine Audiosignalprobe. Die DOA 118 berechnet die Steigung dieser Phasenwerte, die der Ankunftszeitdifferenz des Audiosignals entspricht. Dieser Zeitdifferenz wird als eine ganze Zahl von Audio-Samples ausgedrückt. Da jedoch die Phasenwerte im Winkelfrequenzbereich nicht glatt sind (wie in 7 dargestellt), ist eine genaue Berechnung der Steigung daraus eine Herausforderung. Um dies zu lösen, wird das Weißungskreuzspektrum R (ω) in den Zeitbereich transformiert. Durch die Berechnung der Probennummer, die dem Peak des transformierten Weißungskreuzspektrums entspricht, erhält man die erste Ankunftszeitdifferenz τi (Offset). Die Phasenrotationseinheit 463 dreht die Phase des ursprünglichen Weißungskreuzspektrums R (ω) unter Verwendung dieses neu erhaltenen Zeitversatzes τi. Anschließend erhält die Zeitverschiebungs-Berechnungseinheit 66 aus der Steigung dieses gedrehten Weißungskreuzspektrums R'(ω) unter Verwendung einer Anpassung der kleinsten Quadrate (wie unten in den Formeln 4 und 5 gezeigt) eine Teilprobenverzögerung τf, und diese Teilprobenverzögerung τf wird hier als zweite Ankunftszeitdifferenz bezeichnet. $α (ω) = {tan}^{- 1} \frac{i m g (R' (ω))}{r e a l (R' (ω))}$
$τ_{f} = - \frac{\sum α (ω) \cdot ω}{\sum ω^{2}}$
Da die Genauigkeit in der Hochfrequenzdomäne abnimmt, wenn der Schall eine Stimme ist, ist es ferner wünschenswert, mindestens einen Teil der Hochfrequenzkomponente aus der Probe des akustischen Signals entfernen (d. h. Frequenzen über 2 kHz können entfernt werden).
Nach dem Berechnen der ersten und zweiten Zeitdifferenz der Ankunftszeiten berechnet der Addierer 67 eine tatsächliche oder dritte Ankunftszeitdifferenz τ (Gesamtzeitdifferenz der Ankunft) durch Addieren der ersten Ankunftszeitdifferenz τf und der zweiten Zeitdifferenz der Ankunftszeit τf, wie in (S28) 6 gezeigt.
Schließlich findet die Ankunftswinkelberechnungseinheit 68 die Ankunftsrichtung der Stimme (θ) anhand der dritten Ankunftszeitdifferenz τ (S29).
Wie in 9 dargestellt, ist die Ankunftsrichtung der Stimme θ als Winkelverschiebung gegenüber der vorderen Richtung des Gehäuses (Richtung senkrecht zur Oberfläche, auf der das Mikrofon 11 und das Mikrofon 13 ausgerichtet sind) dargestellt. Wenn die Entfernung zwischen Mikrofon 11 und das Mikrofon 13 L1 und die Geschwindigkeit des Schalls C ist, wird die Ankunftsrichtung der Stimme θ in der untenstehenden Formel 6 ausgedrückt durch: Abstand L2 entspricht der dritten Ankunftszeitdifferenz τ zwischen Mikrofonen = C•τ. $θ = {sin}^{- 1} \frac{C \cdot τ}{L 1}$
Beachten Sie, dass die Ankunftswinkelberechnungseinheit 68 und die Kreuzkorrelationsfunktions-Berechnungseinheit 62 jeweils die Ankunftsrichtung der Stimme θ und das Weißungskreuzspektrum R(ω) erneuert, wenn die Stimm-Markierung von der Stimmaktivitätserfassungseinheit (VAD) 50 eingegeben wird. Die Ankunftswinkelberechnungseinheit 68 und die Kreuzkorrelationsfunktions-Berechnungseinheit 62 halten die vorhergehende Ankunftsrichtung (θ) und das Weißungskreuzspektrum R (ω) aufrecht, ohne die Ankunftsrichtung der Stimme θ und des Weißungskreuzspektrums R zu erneuern (ω) wenn die Stimm-Markierung nicht von der Stimmaktivitätserfassungseinheit (VAD) 50 eingegeben wird. Zusätzlich werden die Prozesse der Kreuzkorrelationsfunktions-Berechnungseinheit 62, der Phasenrotationseinheit 63, der IDFT 64, der Probennummer-Berechnungseinheit 65, der Zeitverschiebungs-Berechnungseinheit 66, des Addierers 67 und der Ankunftswinkelberechnungseinheit 68 weggelassen, wenn die Stimm-Markierung nicht eingegeben wird. Dadurch können unnötige Prozesse vermieden werden, und es wird keine Sensibilität für andere Schallquellen als eine menschliche Stimme gegeben.
Die Ankunftswinkelberechnungseinheit 68 gibt die berechnete Ankunftsrichtung θ an die Strahlformungseinheit (BF) 20 aus.
10 ist ein Blockschaltbild zur Veranschaulichung des Aufbaus einer Strahlformungseinheit (BF) 20. Die BF 20 hat eine Vielzahl von adaptiven Filtern, die darin installiert sind, und führt einen Strahlformungsprozess durch, indem eingegebene Stimmsignale gefiltert werden. Beispielsweise werden die adaptiven Filter durch einen FIR-Filter konfiguriert. Drei FIR-Filter, nämlich ein FIR-Filter 21, ein FIR-Filter 22 und ein FIR-Filter 23, sind für jedes Mikrofon in 10 abgebildet.
Bei Eingabe der Ankunftsrichtung der Stimme (θ) aus der Ankunftswinkelberechnungseinheit 68 erneuert eine Strahlkoeffizienten-Erneuerungseinheit 25 den Koeffizienten der FIR-Filter. Zum Beispiel erneuert die Strahlkoeffizienten-Erneuerungseinheit 25 den Koeffizienten der FIR-Filter unter Verwendung eines geeigneten Algorithmus, basierend auf dem eingegebenen Stimmsignal, so dass ein Ausgangssignal unter einschränkenden Bedingungen minimal ist, weswegen die Verstärkung bei dem Fokuswinkel, basierend auf der erneuerten Ankunftsrichtung (θ) 1,0, ist. Da Rauschen, das von anderen Richtungen als der Ankunftsrichtung (θ) ankommt, minimiert werden kann, ist es daher möglich, Stimmen selektiv in der Ankunftsrichtung (θ) zu sammeln.
Der BF 20 wiederholt Prozesse, wie oben beschrieben, und gibt ein der Ankunftsrichtung entsprechendes Stimmsignal aus (θ). Dadurch kann die Signalverarbeitungseinheit 15 immer Schall mit der Richtung, die eine menschliche Stimme aufweist, als die Ankunftsrichtung (θ) mit hoher Empfindlichkeit sammeln. Da eine menschliche Stimme nachverfolgt werden kann, kann die Signalverarbeitungseinheit 15 auf diese Weise die Verschlechterung der Klangqualität einer menschlichen Stimme durch Rauschen unterdrücken.
11 ist ein Flussdiagramm, das den Betrieb der Schallabgabe-/-sammelvorrichtung 10 darstellt. Zuerst sammelt die Schallabgabe-/-sammelvorrichtung 10 Schall im Mikrofon 11, Mikrofon 12 und Mikrofon 13 (S11). Die im Mikrofon 11, im Mikrofon 12 und im Mikrofon 13 gesammelte Stimme wird als Stimmsignal an die Signalverarbeitungseinheit 15 gesendet.
Als nächstes führen der erste Echokompensator 31, der erste Echokompensator 32 und der erste Echokompensator 33 einen ersten Echokompensationsprozess aus (s12). Der erste Echokompensationsprozess stellt, wie oben beschrieben, einen Subtraktionsprozess dar. Es ist ein Prozess, bei dem die Echokomponente aus dem gesammelten Schallsignal entfernt wird, das in den ersten Echokompensator 31, den ersten Echokompensator 32 und den ersten Echokompensator 33 eingegeben wird.
Nach dem ersten Echokompensationsprozess führt die Stimmaktivitätserfassungseinheit (VAD) 50 eine Analyse verschiedener Stimmmerkmale in dem Stimmsignal unter Verwendung eines neuronalen Netzes 57 durch (s13). Wenn die Stimmaktivitätserfassungseinheit (VAD) 50 als Ergebnis der Analyse bestimmt, dass das gesammelte Schallsignal eine Stimme ist (s13: Ja), gibt die Stimmaktivitätserfassungseinheit (VAD) 50 eine Stimm-Markierung an die Ankunftsrichtungseinheit (DOA) 60 aus. Wenn die Stimmaktivitätserfassungseinheit (VAD) 50 bestimmt, dass es keine menschliche Stimme gibt (s13: Nein), gibt die Stimmaktivitätserfassungseinheit (VAD) 50 keine Stimm-Markierung an die Richtung der Ankunftsrichtungseinheit (DOA) 60 aus. Daher wird die Ankunftsrichtung (θ) bei der vorhergehenden Ankunftsrichtung (θ) (S104) beibehalten. Da die Erfassung der Ankunftsrichtung (θ) in der Richtung der Ankunftsrichtungseinheit (DOA) 60 weggelassen wird, wenn keine Stimm-Markierungs-Eingabe vorliegt, ist es möglich, unnötige Prozesse wegzulassen, und Klangquellen wird keine Empfindlichkeit gegeben anders als eine menschliche Stimme, und anderen Schallquellen als einer menschlichen Stimme wird keine Empfindlichkeit verliehen.
Als nächstes, wenn die Stimm-Markierung an die Richtung der Ankunftsrichtungseinheit (DOA) 60 ausgegeben wird, detektiert die Richtung der Ankunftsrichtungseinheit (DOA) 60 die Ankunftsrichtung (θ) (s14). Die ermittelte Ankunftsrichtung (θ) wird in den BF 20 eingegeben.
Die Strahlformungseinheit (BF) 20 bildet eine Richtwirkung (s15). Die Strahlformungseinheit (BF) 20 stellt den Filterkoeffizienten des eingegebenen Stimmsignals basierend auf der Ankunftsrichtung (θ) ein. Der BF 20 führt einen Prozess mit dem eingestellten Filter zur Strahlformung aus. Demgemäß kann der BF 20 selektiv Stimmen in der Ankunftsrichtung (θ) durch Ausgeben eines Stimmsignals entsprechend der Ankunftsrichtung (θ) sammeln.
Anschließend führt der zweite Echokompensator 40 einen zweiten nichtlinearen Echokompensationsvorgang durch (S16). Der zweite Echokompensator 40 führt eine Frequenzspektrum-Amplitudenmultiplikation des Signals durch, das den Strahlformungsprozess im BF 20 durchlaufen hat. Daher kann der zweite Echokompensator 40 eine verbleibende Echokomponente entfernen, die in dem ersten Echo-Kompensationsprozess nicht entfernt werden konnte. Das Stimmsignal mit der entfernten Echokomponente wird von dem zweiten Echokompensator 40 über die Schnittstelle (I/F) 19 an eine externe Vorrichtung ausgegeben.
Der Lautsprecher 70 emittiert Schall basierend auf dem Stimmsignal, das von der externen Vorrichtung über die Schnittstelle (I/F) 19 und die Signalverarbeitungseinheit 15 eingegeben wird (s17).
Es sei angemerkt, dass in der vorliegenden Ausführungsform ein Beispiel der Schallabgabe-/-sammelvorrichtung 10 als eine Schallabgabe-/-sammelvorrichtung 10 mit den Funktionen sowohl des Aussendens von Schall als auch des Sammelns von Schall gegeben wurde, aber die vorliegende Erfindung ist nicht auf dieses Beispiel beschränkt. Es kann z.B. eine Schallsammelvorrichtung mit der Funktion des Schallsammelns sein.
Gegenstand der vorliegenden Erfindung ist es, die Richtung, aus der ein Schall mit hoher Genauigkeit eintrifft, mit einer Vielzahl von Mikrofonen zu erfassen. Die Vorrichtung der vorliegenden Ausführungsform ist nicht notwendigerweise auf ein Beispiel beschränkt, das für eine Telekonferenz verwendet wird, bei der Stimmen gesammelt werden, und ein Signal der gesammelten Stimmen an eine andere Vorrichtung ausgegeben wird.
Schließlich sollte berücksichtigt werden, dass die Beschreibung der vorliegenden Ausführungsvariante in jeder Hinsicht beispielhaft ist und die vorliegende Erfindung nicht einschränkt. Der Umfang der vorliegenden Erfindung wird nicht durch die oben beschriebene Ausführungsvariante gezeigt, sondern durch den Umfang der Ansprüche. Darüber hinaus umfasst der Anwendungsbereich der vorliegenden Erfindung Bereiche, die dem Anwendungsbereich der Ansprüche entsprechen.

Claims

Schallsammelvorrichtung, umfassend: eine Vielzahl von Mikrofonen, und eine Signalverarbeitungseinheit, die eine erste Ankunftszeitdifferenz basierend auf einer Ankunftszeitdifferenz eines Schalls von einer Schallquelle zu der Vielzahl von Mikrofonen berechnet, die eine zweite Ankunftszeitdifferenz basierend auf einer Differenz zwischen der ersten Ankunftszeitdifferenz und der Ankunftszeitdifferenz berechnet, und die Position der Schallquelle, basierend auf der ersten Ankunftszeitdifferenz und der zweiten Ankunftszeitdifferenz schätzt.
Schallsammelvorrichtung nach Anspruch 1, wobei die erste Ankunftszeitdifferenz auf der Grundlage der Kreuzkorrelation eines von den mehreren Mikrofonen gesammelten Schallsignals berechnet wird.
Schallsammelvorrichtung nach Anspruch 1 oder 2, wobei die zweite Ankunftszeitdifferenz kleiner ist als die erste Ankunftszeitdifferenz.
Schallsammelvorrichtung nach einem der vorhergehenden Ansprüche, wobei die Signalverarbeitungseinheit eine dritte Ankunftszeitdifferenz, basierend auf der ersten Ankunftszeitdifferenz und der zweiten Ankunftszeitdifferenz findet und die Position der Schallquelle basierend auf der dritten Ankunftszeitdifferenz schätzt.
Schallsammelvorrichtung nach einem der vorhergehenden Ansprüche, wobei die Signalverarbeitungseinheit ein Kreuzspektrum des gesammelten Schallsignals der Vielzahl von Mikrofonen berechnet, ein korrigiertes Kreuzspektrum berechnet, in dem eine Phase des Kreuzspektrums gedreht wird, basierend auf der ersten Ankunftszeitdifferenz, und die zweite Ankunftszeitdifferenz basierend auf dem phasengedrehten Kreuzspektrum berechnet.
Schallsammelvorrichtung nach Anspruch 5, wobei die Signalverarbeitungseinheit die erste Ankunftszeitdifferenz aus einer Zeitdifferenz berechnet, wenn die Kreuzkorrelation maximal ist.
Schallsammelvorrichtung nach Anspruch 5 oder 6, wobei die Signalverarbeitungseinheit einen Grad der Änderung einer Phase zu einem Betrag einer Frequenzänderung basierend auf dem korrigierten Kreuzspektrum berechnet und die zweite Ankunftszeitdifferenz berechnet. Dies stellt eine Ankunftszeitdifferenz in einer Probe der Schallquelle, basierend auf dem Grad der Veränderung, dar.
Schallsammelvorrichtung nach einem der vorhergehenden Ansprüche, ferner mit einer Strahlformungseinheit, die auf der Grundlage der Position der Schallquelle Richtwirkung bildet.
Schallsammelvorrichtung nach Anspruch 7 oder 8, wobei die Signalverarbeitungseinheit den Änderungsgrad einer Spitze unter Verwendung einer kollinearen Näherung berechnet.
Die Schallsammelvorrichtung nach einem der Ansprüche 7 bis 9, wobei die Signalverarbeitungseinheit die Hochfrequenz-Komponente entfernt und den Veränderungsgrad berechnet.
Verfahren zum Sammeln von Schall, umfassend: Berechnen einer ersten Ankunftszeitdifferenz, basierend auf einer Ankunftszeitdifferenz eines Schalls von einer Schallquelle zu einer Vielzahl von Mikrofonen; einer zweiten Ankunftszeitdifferenz, basierend auf der Differenz zwischen der ersten Ankunftszeitdifferenz und der Ankunftszeitdifferenz, und Schätzen einer Position der Schallquelle basierend auf der ersten Ankunftszeitdifferenz und der zweiten Ankunftszeitdifferenz.
Schallsammelvorrichtung nach Anspruch 11, wobei die erste Ankunftszeitdifferenz auf der Grundlage der Kreuzkorrelation eines von den mehreren Mikrofonen gesammelten Schallsignals berechnet wird.
Schallsammelvorrichtung nach Anspruch 11 oder 12, wobei die zweite Ankunftszeitdifferenz kleiner ist als die erste Ankunftszeitdifferenz.
Schallsammelverfahren nach Anspruch 11 nach einem der vorhergehenden Ansprüche, wobei die Signalverarbeitungseinheit eine dritte Ankunftszeitdifferenz basierend auf der ersten Ankunftszeitdifferenz und der zweiten Ankunftszeitdifferenz findet und die Position von der Schallquelle basierend auf der dritten Ankunftszeitdifferenz schätzt.
Schallsammelvorrichtung nach einem der vorhergehenden Ansprüche, ferner mit einer Strahlformungseinheit, die auf der Grundlage der Position der Schallquelle Richtwirkung bildet.
Eine Methode zur Berechnung der Schallankunftsrichtung auf Mikrofone in einer Mikrofon-Anordnung, die Folgendes umfasst: Berechnen eines ersten Ankunftszeitdifferenzwerts von Schall von einer Schallquelle zu einem ersten und einem zweiten einer Vielzahl von Mikrofonen, die die Mikrofon-Anordnung umfassen, wobei die erste Ankunftszeitdifferenz ein ganzzahliges Vielfaches eines Schallsignals ist, und Berechnen eines zweiten Ankunftszeitdifferenzwerts des Schalls von der Schallquelle zu einem ersten und einem zweiten von einer Vielzahl von Mikrofonen, wobei die zweite Ankunftszeitdifferenz ein Bruchwert ist, der eine Differenz zwischen der ersten Ankunftszeitdifferenz und einer tatsächlichen Ankunftszeitdifferenz des Schalls darstellt; der ersten und der zweiten Ankunftszeitdifferenz, um einen Wert der tatsächlichen Ankunftszeit des Schalls zu bestimmen und Bestimmen der Ankunftsrichtung des Schalls in Bezug auf das erste und das zweite Mikrophon in der Mikrofon-Anordnung, basierend auf dem Wert der tatsächlichen Ankunftszeitdifferenz des Schalls zwischen dem ersten und dem zweiten der Vielzahl von Mikrofonen.
Verfahren nach Anspruch 16, wobei der erste Ankunftszeitdifferenz basierend auf der Kreuzkorrelation eines gesammelten Schallsignals der Vielzahl von Mikrofonen berechnet wird.
Verfahren nach Anspruch 16 oder 17, wobei die zweite Ankunftszeitdifferenz kleiner ist als die erste Ankunftszeitdifferenz.
Verfahren nach einem der Ansprüche 16 bis 18, wobei die Signalverarbeitungseinheit eine dritte Ankunftszeitdifferenz basierend auf der ersten Ankunftszeitdifferenz und der zweiten Ankunftszeitdifferenz ermittelt und die Position der Schallquelle schätzt, basierend auf dem dritten Ankunftszeitdifferenz.
Verfahren nach einem der Ansprüche 16 bis 19, wobei die Richtwirkung basierend auf der Position der Schallquelle gebildet wird.