DE19540795A1

DE19540795A1 - Verfahren zur Sprecherlokalisierung mit Hilfe eines Mikrofonarrays

Info

Publication number: DE19540795A1
Application number: DE1995140795
Authority: DE
Inventors: Rainer Dr Ing Zelinski
Original assignee: Deutsche Telekom AG
Current assignee: Deutsche Telekom AG
Priority date: 1995-11-02
Filing date: 1995-11-02
Publication date: 1997-05-07
Anticipated expiration: 2015-11-03
Also published as: DE19540795C2

Description

Die Erfindung bezieht sich auf ein Verfahren zur Sprecher lokalisierung mit Hilfe eines Mikrofonarrays der im Ober begriff des Patentanspruch 1 näher definierten Art. Ein derartiges Verfahren ist z. B. von W. Kellermann: "A self steering digital microphone array", Int. Conf. Acoust., Speech and Signal Proc. ICASSP′91, Toronto, 1991, S. 3581-3584 beschrieben.

Beim Freisprechen in geräuschbelasteter Umgebung bietet der Einsatz eines Mikrofonarrays eine wirkungsvolle Möglichkeit zur Reduktion des aufgenommenen Geräuschsignales, das dem gewünschten Sprachsignal überlagert ist. Voraussetzung für eine optimale Funktion des Mikrofonarrays ist jedoch, daß die Hauptkeule im Richtdiagramm des Arrays möglichst genau auf die Position des Sprechers ausgerichtet ist.

Zur Sprecherlokalisierung für den Einsatz von Mikrofonar rays sind eine Reihe von Verfahren in der Literatur be schrieben und zum Teil auch realisiert worden. Die meisten dieser Verfahren beruhen auf einer Kreuzkorrelationsanalyse von jeweils einem Paar von Mikrofonsignalen. Aus der zeitlichen Lage des Maximums der Kreuzkorrelation kann auf den Zeitversatz des Sprachsignals im Signalpaar geschlossen werden. Eine Fortführung der Kreuzkorrelationsanalyse für andere Signalpaare mit anschließender Auswertung ermöglicht dann einen Rückschluß auf die mutmaßliche Sprecherposition. Der erforderliche Rechenaufwand ist nicht sehr hoch, nach teilig ist jedoch die erhöhte Fehleranfälligkeit bei ungün stigen SNR-Werten.

Eine wesentlich robustere Schätzung der Sprecherposition ist möglich, wenn nicht einzelne Signalpaare, sondern die Kombination aller Mikrofonsignale aus dem Mikrofonarray gleichzeitig ausgewertet wird. Dazu gibt es einen Vorschlag in der Dissertation "Geräuschreduktion bei Sprach übertragung mit Hilfe von Mikrofonarraysystemen" /S. Gierl, Universität Karlsruhe, 1990, der dort als "Fehlerfunk tionsmethode" beschrieben wird. Von großem Nachteil ist jedoch der dazu erforderliche extrem hohe Rechenaufwand, der eine Echtzeitrealisierung mit heute verfügbarer Tech nologie nicht gestattet.

Ein anderes Konzept zur Schätzung der Sprecherposition, das ebenfalls auf einer gleichzeitigen Auswertung aller Mikro fonkanäle beruht, ist bereits mit heutiger Technologie in Echtzeit realisierbar. Hierbei wird der dreidimensionale Raum, der die zulässigen Sprecherpositionen beschreibt, in endlich viele Sektoren unterteilt. Für jeden Sektor ist ein Satz von Parameterwerten zur Richtungssteuerung des Mikro fonarrays abgespeichert, der dem räumlichen Zentrum des jeweiligen Sektors zugeordnet ist. Zur Durchführung der Sprecherlokalisierung werden alle Sektoren abgeprüft und das jeweilige Array-Ausgangssignal wird analysiert. Entschieden wird für denjenigen Sektor, für den sich die größte Plausibilität aufgrund eines ausgewählten Kriteriums ergibt. Hierzu gibt es verschiedene Vorschläge, z. B. die Suche nach der maximalen Signalamplitude unter Einhaltung weiterer Randbedingungen (J. L. Flanagan et al.: Computer steered microphne arrays for sound transduction in large rooms. J. Acoust. Soc. Am., Vol. 78, Nov. 1985, S. 1508-1518) oder gar der Einsatz von Verfahren der Mustererken nung (W. Kellermann: A self-steering digital microphone array. Int. Conf. Acoust., Speech and Signal Proc. ICASSP′91, Toronto, 1991, S. 3581-3584). Diese Auswerte verfahren sind jedoch primär für Fernfeldbedingungen optimiert, also bei größerem Abstand zwischen Sprecher und Mikrofonarray. Weiterhin sind gewisse Kenntnisse über die Statistik von Sprach- und Störsignal erforderlich, um zu vermeiden, daß eine Störquelle als vermeintliches Sprach signal detektiert wird.

Aufgabe der Erfindung ist es, ein Verfahren zu schaffen, das eine Sprecherlokalisierung im Nahfeld, auch bei starken Störschallquellen in der Umgebung des Sprechers, mit gerin gem Zeit- und Rechenaufwand ermöglicht.

Die Erfindung löst diese Aufgabe mit dem im Kennzeichen des Patentanspruch 1 aufgeführten Verfahren.

Mit den in den Kennzeichen der Unteransprüche 2 bis 5 angeführten vorteilhaften Weiterbildungen des Verfahrens wird die Sicherheit gegenüber Fehleinstellungen und Stör beeinflussungen weiter erhöht.

Die Erfindung wird nachfolgend anhand von Ausführungsbei spielen näher erläutert. In den zugehörigen Zeichnungen zeigen die:

Fig. 1 ein vereinfachtes Gesamtblockbild,

Fig. 2 das Blockbild zur Kohärenzmaß-Bestimmung,

Fig. 3 die Details zur Grobsuche,

Fig. 4 die Details zur Feinsuche und

Fig. 5 die Details zur Nah-/Fern-Prüfung.

Im Gegensatz zu den oben beschriebenen Verfahren unter An nahme von Fernfeldbedingungen ist das in dieser Erfindung beschriebene Verfahren zur Sprecherlokalisierung für das Freisprechen im Nahfeld optimiert, also für Abstände zwischen Sprecher und Mikrofonarray etwa im Bereich von 0,3 . . . 0,8 m. Basis ist zunächst wieder die Unterteilung des Sprecherraumes in endlich viele Sektoren. Die Auswertung der Array-Ausgangssignale erfolgt jedoch nach einem neuen, bisher noch nicht vorgeschlagenen Verfahren.

Beim Freisprechen im Nahfeld kann ausgenutzt werden, daß der Direktschall des Sprachsignals vom gewünschten Sprecher dominiert gegenüber Sprach-Schallanteilen (und auch Stör schallanteilen) infolge von Reflexionen an den Raumbegren zungsflächen. Wird also bei der Sprecherlokalisierung ge rade der "richtige" Raumsektor abgeprüft, so weisen die laufzeit- bzw. phasenkorrigierten Mikrofonsignale unmit telbar vor Bildung des Array-Summensignals bezüglich des Sprachsignals alle die gleiche Phasenlage auf ("kohärenter Schalleinfall"). Bei der Auswertung der Arraysignale wird nun ein Kohärenzmaß bestimmt, das um so größer ist, je ge ringer die Phasenunterschiede der korrigierten Mikrofonsi gnale sind. Bei der Sprecherlokalisierung wird dann für denjenigen Sektor entschieden, bei dem sich das größte Ko härenzmaß einstellt.

Der wesentliche Vorteil des hier beschriebenen Verfahrens besteht darin, daß eine Kenntnis über die Statistik von Sprach- und Störsignal nicht erforderlich ist. Das Verfah ren arbeitet wirkungsvoll für beliebige Sprecher und auch für beliebige störende Geräuschquellen in der Umgebung des Sprechers. Die Geräuschquellen dürfen dabei auch aus Sprachsignalen bestehen. Das gewünschte Sprachsignal bzw. die da zugehörige Sprecherposition wird allein auf Grund der Kohärenzeigenschaften im Nahfeld bestimmt.

Bei dem in der Erfindung beschriebenen Verfahren erfolgt die Analyse der Signale des Mikrofonarrays im Frequenzbe reich. Durch eine automatische Steuerung wird gewährlei stet, daß nur solche Frequenzbänder zur Bestimmung des Ko härenzmaßes berücksichtigt werden, die am wenigsten gestört sind, also die größten Kohärenzbeiträge beisteuern. Der Vorteil dieser Vorgehensweise besteht darin, daß eine si chere Sprecherlokalisierung auch noch bei sehr starken Umgebungsgeräuschen möglich ist.

Zu der vorliegenden Erfindung wird eine Schaltungsanordnung beschrieben, die eine ausreichend genaue Lokalisierung des Sprechers auch bei sehr ungünstigen Signal-zu-Rausch-Ab ständen (SNR) ermöglicht, ohne Kenntnisse über die Stati stik von Sprach- bzw. Geräuschsignal vorauszusetzen.

Im vereinfachten Gesamtblockbild (Fig. I) der Schaltungsan ordnung besteht das Mikrofonarray aus K Mikrofonen 1₁ . . . 1 _K. Jedes der Mikrofonsignale 2₁ . . . 2 _K wird einer eigenen Ana lyse-Filterbank zugeführt. Die Analyse-Filterbänke 3₁ . . . 3 _K führen jeweils eine Transformation des Zeitsignals in den Frequenzbereich durch und liefern K Frequenzbereichsignale 4₁ . . . 4 _K. Die Analyse-Filterbank realisiert eine Frequenz bandzerlegung des Gesamtbandes in L Teilbänder. Dann be steht jedes der Signale 4₁ . . . 4_K aus L Komponenten, die den komplexen Fourier-Koeffizienten F₁ . . . F_L bei einer Spektral analyse entsprechen. Die Berechnung der Signale 4₁ . . . 4 _K wird zeitperiodisch wiederholt und die Signalwerte über N Zeitperioden werden im Datenpuffer 5 zwischengespeichert. Der Datenpuffer 5 enthält also die komplexen Frequenzbe reichs-Signalwerte geordnet über N Zeitpunkte, L Frequenz bänder und K Mikrofonkanäle.

Zur Reduktion des Gesamt-Rechenaufwandes wird die Suche nach dem zu bestimmenden Sektor, in dem der Sprecher sich am wahrscheinlichsten aufhält, zweistufig durchgeführt: Zu nächst wird nur die ungefähre Position ermittelt, wobei ein grobes Sektorraster mit relativ wenigen Sektoren (Anzahl SG) zugrunde gelegt wird ("Grobsuche"). Anschließend wird ein wesentlich feiner abgestuftes Sektorraster um die in der ersten Stufe ermittelte Position herumgelegt mit SF Feinsektoren ("Feinsuche").

Die Grobsuche erfolgt mittels der Schaltungsanordnung 16, in welche die komplexen Fourier-Koeffizienten 6 eingespeist werden. Im Parameterspeicher 13 befinden sich die komplexen Array-Koeffizienten A_Grob, die den möglichen Sprecherposi tionen im Grob-Sektorraster zugeordnet sind. Für jeden der SG Grobsektoren und jedes der L Teilbänder ist ein eigener Satz von komplexen Array-Koeffizienten A₁ . . . A_K festgelegt, der jeweils über die Leitung 7 in die Stufe 16 eingespeist wird. Die Phasenwinkel der Array-Koeffizienten sind so be rechnet, daß nach Durchführung des Laufzeitausgleichs in der Stufe 16 die Signalphasen in den Kanälen 1 . . . K pro Teilband untereinander gleich sind, wenn der Sprecher sich tatsächlich in der zugrunde gelegten Sektor-Position auf halten würde.

Die getroffene Vorentscheidung über einen Sektor im Grob raster wird über den Eingang 10 der Schaltungsanordnung 17 (Feinsuche) zugeführt. Im Parameterspeicher 14 befinden sich die komplexen Array-Koeffizienten A_Fein, die den mög lichen Sprecherpositionen im Fein-Sektorraster zugeordnet sind. Jedem der SG Grobsektoren ist ein Satz von SF Fein sektoren zugeordnet (die Feinsektoren bilden eine Unter teilung des betreffenden Grobsektors), wobei zu jedem Fein sektor die komplexen Array-Koeffizienten für K Kanäle und L Teilbänder gespeichert sind. Aus den Array-Koeffizienten 8, die nach dem gleichen Kriterium wie bei der Grobsuche be rechnet wurden, und den Fourier-Koeffizienten 6 wird in der Stufe 17 der optimale Sektor im Feinraster - also die mut maßliche Sprecherposition - ermittelt. Die getroffene Ent scheidung 11 wird der Schaltungsanordnung 18 (Nah-/Fern- Prüfung) zugeführt.

In der Stufe "Nah-/Fern-Prüfung" wird überprüft, ob die geortete Schallquelle sich tatsächlich im Nahfeldbereich befindet. Dadurch kann verhindert werden, daß das Mikro fonarray auf eine energiereiche Störquelle (z. B. ein lauter Sprecher im Hintergrund) ausgerichtet wird, die jedoch - aufgrund ihres größeren Abstandes zum Mikrofon array - von vornherein als zulässige Sprachquelle ausge schlossen werden kann. Die Array-Koeffizienten A_{Fein_Fern} im Datenspeicher 15 sind für Fernfeldbedingungen berechnet. Jedem Sektor im Feinraster ist hierbei ein Sektor mit den gleichen Einfallswinkeln zum Mikrofonarray zugeordnet, je doch mit dem Abstand zwischen Schallquelle und Mikrofonar ray gegen Unendlich. Die Fourier-Koeffizienten 6 und die Array-Koeffizienten 9 werden der Stufe 18 zugeführt. Hier wird überprüft, ob für den aus der Stufe 17 bestimmten Feinraster-Sektor eine Nahfeld- oder Fernfeld-Situation vorliegt. Ist eine Fernfeld-Situation wahrscheinlicher, so wird die aus der Feinsuche getroffene Entscheidung 11 nicht akzeptiert. Ist jedoch die Nahfeld-Situation wahrscheinli cher, so wird als Ergebnis 12 der Sprecherortung der Index des entschiedenen Sektors im Feinrastermaß ausgegeben.

Die Sektorentscheidung in den Stufen 16, 17 und 18 beruht jeweils auf der Bestimmung eines Kohärenzmaßes. Entschieden wird für denjenigen Sektor, für den das Kohärenzmaß am größten ist.

Die in Fig. 2 dargestellte Schaltungsanordnung zur Kohärenz maß-Bestimmung (Stufe KOMB) führt eine Auswertung pro Teil band und pro Sektor durch und kommt in den Stufen 16, 17 und 18 zur Anwendung.

Die komplexen Fourier-Koeffizienten 26 (F₁ . . . F_K) gelangen über einen Datenpuffer 21 und einen Schalter 23 zur Be tragsbildung in die Stufe 29 mit anschließender Summation über K Kanäle 31 und darauffolgender Quadrierung 33. Das Ergebnis 34 wird in einem Datenspeicher 35 zwischen gespeichert und kann bei Bedarf als Signalwert 36 ausge geben und über den Schalter 37 weiterverarbeitet werden.

Diese Vorgehensweise erspart Rechenaufwand, da die Fourier- Koeffizienten 26 zwar vom Teilband, nicht aber vom Sektor abhängen, also nur einmal mit Gültigkeit für alle Sektoren ausgewertet werden.

Die komplexen Array-Koeffizienten 27 (A₁ . . . A_K) gelangen über einen Datenpuffer 22 und einen Schalter 24 als Signal 40 in die Multiplizierstufe 41, in der pro Kanal eine Mul tiplikation mit den entsprechenden Fourier-Koeffizienten 28 erfolgt. Das Ergebnis 42 wird in der Stufe 43 über alle Ka näle summiert und von dem Ausgangssignal 44 wird in 45 das Betragsquadrat gebildet. Das Ergebnis 46 wird zusammen mit dem Signal 38 aus der Verarbeitung der Fourier-Koeffizien ten der Divisionsstufe 39 zugeführt. Das Ergebnis 47 ist der Kohärenzwert

der einen Wert zwischen 0 und 1 annimmt, sofern die Array- Koeffizienten A₁ . . . A_K auf den Betrag Eins normiert sind. Je geringer der Abstand zwischen dem geprüften Sektor und der tatsächlichen Sprecherposition ist, um so größer wird der Kohärenzwert KOW. In der Stufe 48 erfolgt eine zeitli che Mitteilung von KOW durch Summation über N aufeinander folgende Zeitpunkte. Der gemittelte Wert 49 wird anschlie ßend mit dem vom Teilband abhängigen Gewichtsfaktor 50 ge wichtet. Diese Gewichtung ermöglicht es, weniger zuverläs sige Kohärenzwerte abzuschwächen, z. B. solche für tiefe Frequenzen, bei denen der Abstand zwischen zwei Mikrofonen erheblich kleiner als die Wellenlänge ist. Als Ergebnis wird das Signal 51 ausgegeben, das als Kohärenzmaß KOM be zeichnet wird und das pro Teilband und pro Sektor ermittelt wird.

Fig. 3 zeigt die Details zur Grobsuche in der Stufe 16. Aus den Fourier-Koeffizienten 6 und den Array-Koeffizienten 7 wird in der Stufe 60 (KOMB nach Fig. 2) das Kohärenzmaß KOM berechnet und als Signal 62 ausgegeben. Das Maß KOM wird für alle L Teilbänder jeweils pro zu prüfenden Sektor aus gegeben; die Reihenfolge zur Bearbeitung der Koeffizienten wird in der Stufe 61 über die Leitungen 63₁ und 63₂ und die Schalter 64 und 71 gesteuert. In der Stufe 66 werden die M größten Werte von KOM aus den Kohärenzmaßen 65₁ . . . 65₂ für den zu prüfenden Sektor bestimmt. Die Indices 67 der dazu gehörigen M Teilbänder werden im Datenspeicher 670 zwi schengespeichert.

In der Stufe 69 werden die ermittelten M größten Werte von KOM, 68₁ . . . 68 _M, summiert und der Summenwert 70 wird über den Schalter 71 der Stufe 73 zugeführt. Die so beschriebene Signalauswertung wird entsprechend für alle SG Grobsektoren ausgeführt, so daß an der Stufe 73 die Eingangssignale 72₁ . . . 72 _SG anliegen. In 73 wird der größte aus den SG Wer ten bestimmt und als Signal 77 der Vergleichsschaltung 79 zugeführt. Der dazugehörige Index des Grobsektors 74 ge langt zum Schalter 75 und zum Datenspeicher 670. Ist das Kohärenzmaß _G auf Leitung 77 größer als ein vorzuge bender Schwellwert 78, so wird das Ergebnis der Sektorsuche im Grobraster akzeptiert und mit dem Schalter 75 als Signal 76 (Index des entschiedenen Grobsektors) ausgegeben. Gleichzeitig werden aus dem Datenspeicher 670 diejenigen Indices der M Teilbänder ausgelesen und als Signal 671 ausgegeben, die dem entschiedenen Grobsektor 76 über die Verbindung 67 zugeordnet wurden.

Fig. 4 zeigt die Details zur Feinsuche in der Stufe 17. Aus den Fourier-Koeffizienten 6 und den Array-Koeffizienten 8 wird in der Stufe 80 (KOMB nach Fig. 2) das Kohärenzmaß KOM berechnet und als Signal 82 ausgegeben. Das Maß KOM wird nur für die durch 671 festgelegten M Teilbänder berechnet.

Diese Berechnung erfolgt für alle zu prüfenden Feinsekto ren.

Durch Einspeisen von 671 und 76 in die Stufe 81 wird die Auswahl der dazugehörigen Teilmenge der Daten gesteuert. Die Reihenfolge zur Bearbeitung der Koeffizienten wird über die Ausgangssignale 83₁ und 83₂ und die Schalter 84 und 88 gesteuert. Die Summation der M Kohärenzmaße 85₁ . . . 85 _M in der Stufe 86 führt auf den Summenwert 87, der über den Schalter 88 der Stufe 90 zugeführt wird. Diese Signalaus wertung wird entsprechend für alle SF Feinsektoren ausge führt, so daß an der Stufe 90 die Eingangssignale 89₁ . . . 89 _SF anliegen. In 90 wird der größte aus den SF Werten bestimmt und als Kohärenzmaß 92 _F) ausgegeben. Der dazugehö rige Index dieses Feinsektors erscheint als Signal 91 am Ausgang der Stufe zur Feinsuche.

Fig. 5 zeigt die Details zur Nah-/Fern-Prüfung in der Stufe 18. Aus den Fourier-Koeffizienten 6 und den Array-Koeffi zienten 9 wird in der Stufe 100 (KOMB nach Fig. 2) das Ko härenzmaß KOM berechnet und als Signal 102 ausgegeben. Das Maß KOM wird nur für die durch 671 festgelegten M Teilbän der berechnet; diese Berechnung erfolgt nur für den Sektor, der durch den Index 91 festgelegt ist. Durch Einspeisen von 671 und 91 in die Stufe 101 wird die Auswahl der dazugehörigen Teilmenge der Daten gesteuert und der über 103 kontrollierte Schalter 104 betätigt. Die Summation der M Kohärenzmaße 105₁ . . . 105 _M und der Stufe 106 führt auf den Summenwert 107, der das Kohärenzmaß _FF für das Feinra ster-Fernfeld repräsentiert. Die Signale 107 und 92 (letz terer repräsentiert das Kohärenzmaß _F für das Feinra ster-Nahfeld) werden in die Vergleichsschaltung 108 einge speist. Ist _F größer als _FF, so wird die Feinsek tor-Entscheidung akzeptiert und über den Schalter 110 als Ergebnis 12 (Index des entschiedenen Feinsektors) ange geben.

Claims

1. Verfahren zur Sprecherlokalisierung mit Hilfe eines Mikrofonarrays, bei dem alle Mikrofonsignaie des Arrays gleichzeitig ausgewertet werden und der Sprecherraum in endlich viele Sektoren aufgeteilt und der zutreffende Sektor nach Kriterien der Plausibilität ausgewählt wird, dadurch gekennzeichnet, daß die laufzeit- bzw. phasenkorrigierten einzelnen Mikrofonsignale vor der Bildung des Array-Summensignals miteinander auf Kohärenz der Phasenlage geprüft werden und danach der Sektor mit maximaler Kohärenz ausgewählt wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß während der Prüfung auf Kohärenz der Phasenlage vari ierende Frequenzbandbeschneidungen vorgenommen werden, wobei die Frequenzbandbeschneidung ebenfalls nach dem Kriterium der maximalen Kohärenz durchgeführt wird.

3. Verfahren nach Anspruch 1 und 2, dadurch gekennzeichnet, daß die Prüfung auf Kohärenz der Phasenlage in eine Grobsuche mit geringer Unterteilung in wenige Sektoren und eine anschließende Feinsuche mit stärkerer Unter teilung der bei der Grobsuche ermittelten Sektoren mit zulässigen Sprecherpositionen im Nahbereich des Arrays aufgeteilt wird.

4. Verfahren nach Anspruch 1 bis 3, dadurch gekennzeichnet, daß für die Prüfung der Zulässigkeit des Sektors der Sprecherposition ein zusätzlicher Kohärenzvergleich mit einer Schallquellenposition durchgeführt wird, die den gleichen Raumwinkel zum Mikrofonarray gemäß dem Ergeb nis der Grob- und Feinsuche aufweist, jedoch dem Fern bereich des Arrays zugehört.

5. Verfahren nach Anspruch 1 bis 4, dadurch gekennzeichnet, daß während der Prüfung auf Kohärenz der Phasenlage eine Vielzahl von Daten komplexer Frequenzbereichs-Si gnalwerte gebildet, gespeichert und mit ebenfalls ge speicherten komplexen Koeffizienten zur Phasenkorrektur bewertet werden, die der jeweiligen zu prüfenden Spre cherposition zugeordnet sind.