DE102009039889B4

DE102009039889B4 - Vorrichtung und Verfahren zum Erfassen von Sprache in einem Kraftfahrzeug

Info

Publication number: DE102009039889B4
Application number: DE102009039889.9A
Authority: DE
Inventors: Georg Eisner; Tim Fingscheidt; Huajun Yu; Simon Bork
Original assignee: Volkswagen AG
Current assignee: Volkswagen AG
Priority date: 2009-09-03
Filing date: 2009-09-03
Publication date: 2021-10-07
Anticipated expiration: 2029-09-04
Also published as: DE102009039889A1

Abstract

Vorrichtung zum Erfassen von Sprache in einem Kraftfahrzeug umfassendeine Mikrofonanordnung (50) undeine Auswerteeinheit (60) zum Aufbereiten eines Sprachsignals (s), wobei die Mikrofonanordnung (50) mehrere Mikrofone (5, 5a) umfasst, die in oder an einer füreine Anordnung in einer Mittelkonsole oder einem Armaturenbrett vorgesehene oder dort angeordnete Multifunktionsanzeige- und Bedieneinheit (1) angeordnet sind, und die Auswerteeinheit (60) eine Richtungsselektionseinheit für eine richtungsselektive Auswertung von Mikrofonsignalen (y'i) der mehreren Mikrofone (5, 5a) und Zusammenfassen zu dem Sprachsignal (s) umfasst, wobei die Richtungsselektionseinheiteinen Beamformer (11) umfasst, wobei der Beamformer (11) als Delay-and-Sum-Beamformer ausgebildet ist, und wobei das Ausgangssignal (SBF) des Beamformers (11) über ein Postfilter (14) geführt ist,dadurch gekennzeichnet, dassdas ungefilterte (SBF) und das gefilterte (SPF) Ausgangssignal des Beamformers (11) frequenzabhängig gewichtet werden und zusammengefasst werden.

Description

Vorrichtung und Verfahren zum Erfassen von Sprache in einem Kraftfahrzeug
Die Erfindung betrifft eine Spracherfassungsvorrichtung für ein Kraftfahrzeug.
Aus dem Stand der Technik ist es bekannt, in Kraftfahrzeugen Bedienvorrichtungen zu verwenden, welche eine Benutzerschnittstelle aufweisen, die zumindest u.a. über menschliche Sprache gesteuert werden kann. Solche Bedienvorrichtungen umfassen eine Spracherfassungsvorrichtung, mit der akustische Signale erfasst werden und für eine spätere Auswertung, beispielsweise eine Spracherkennung, aufbereitet werden.
Soll nur die Sprache eines Nutzers im Kraftfahrzeug ausgewertet werden bzw. die Sprache eines Nutzers, der auf einem vorgegebenen Sitzplatz des Autos sitzt, so ist es vorteilhaft, in der Dachkonsole oder an einem Holm nahe des entsprechenden Sitzplatzes ein Mikrofon zur Erfassung der Sprache anzuordnen. Hiermit lassen sich Sprachsignale mit guter Qualität erfassen, die später eine zuverlässige Spracherkennung zulassen.
Soll die Sprache von mehreren Nutzern, beispielsweise einem Fahrer und einem Beifahrer, ausgewertet werden, so dass diese beide die Bedienvorrichtung steuern können, so hat es sich als vorteilhaft erwiesen, im Dachbereich bzw. im Bereich eines an der Frontscheibe oder dem Dachbereich angeordneten Rückspiegel ein Mikrofon zur Erfassung der Sprache anzuordnen. Bei einer solchen Anordnung lassen sich Sprachsignale erfassen und ohne einen größeren Aufwand aufbereiten, so dass diese für eine Sprachanalyse geeignet sind.
Ferner sind aus dem Stand der Technik Systeme bekannt, bei denen mehrere Mikrofone voneinander beabstandet angeordnet werden. Beispielsweise sind Ausführungsformen bekannt, bei denen an einem Rückspiegel mehrere voneinander beabstandete Mikrofone angeordnet sind. Gemeinsam mit einer Auswerteeinrichtung ist es dann möglich, über ein so genanntes Beamforming Sprache aus bestimmten Raumbereichen selektiv zu erfassen, nämlich den Kopfbereichen eines Fahrerplatzes und/oder eines Beifahrerplatzes. Bei der bekannten Vorrichtung sind beispielsweise vier Mikrofone in etwa entlang einer Längsachse des Rückspiegels angeordnet.
Aus der DE 103 39 973 A1 ist ein intelligentes akustisches Mikrofon-Frontend mit Spracherkenner-Feedback bekannt. Hierbei wird zur Regelung des Spracherkennungssystems eine richtungsselektive Mikrofonanordnung durch eine Optimierungseinheit in ihrer Empfangscharakteristik gesteuert. Die hiermit empfangenen Sprachsignale werden sodann zumindest zeitweise in einem Spracherkenner parallel verarbeitet. Auf Grundlage der von dem Spracherkenner gelieferten Ergebnisse wird sodann über die Optimierungseinheit die Empfangscharakteristik der Mikrofonanordnung so gesteuert, dass die Erkennungsleistung des nachgeordneten Spracherkenners optimiert wird. Zur Optimierung ist u.a. vorgeschlagen, mehreren der Einzelmikrofone der Mikrofonanordnung Einheiten zur Geräuschreduktion nachzuschalten.
Aus der US 2008 / 0 107 280 A1 ist System zum Verbessern einer Kommunikation in einem verrauschten Umfeld bekannt. Aus J. Meyer et al., „Multi-channel speech enhancement in a car environment using Wiener filtering and spectral subtraction", IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP-97), 1997, ist ferner ein Verfahren zur Sprachverbesserung für Telefonsysteme in Kraftfahrzeugen bekannt. Ein weiteres Verfahren, das ein Mikrofonarray verwendet ist aus Jen-Tzung Chien et al., „Car Speech Enhancement Using a Microphone Array", Int. J. of Speech Technology 8, 79-91, 2005, bekannt. In der DE 199 22 731 A1 ist ein Armaturenbrett mit integriertem Richtmikrofon beschrieben. Aus der US 6 587 824 B1 ist weiter eine sprecherabhängige Anpassung für ein Spracherkennungssystem in einem Kraftfahrzeug bekannt.
Da ein Einbau von Elektronik in den Rückspiegel eine Vergrößerung gegenüber einem reinen Rückspiegel erfordert und zusätzlich eine Verkabelung der Mikrofone im Kraftfahrzeug sehr aufwendig ist, ist es wünschenswert, die Spracherfassung im Kraftfahrzeug zu verbessern.
Der Erfindung liegt somit die Aufgabe zugrunde, eine verbesserte Spracherfassungsvorrichtung für ein Kraftfahrzeug zu schaffen, welche eine hohe Sprachsignalqualität liefert und einen verringerten Einbauaufwand gegenüber den bekannten Erfassungsvorrichtungen benötigt.
Die Erfindung wird durch eine Vorrichtung mit den Merkmalen des Patentanspruchs 1 sowie ein Verfahren mit den Merkmalen des Patentanspruchs 3 gelöst. Vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Unteransprüchen.
Um den Einbauaufwand zu verringern, wird vorgeschlagen, die Mikrofone einer Mikrofonanordnung in oder an einer für eine Anordnung in einer Mittelkonsole oder einem Armaturenbrett vorgesehene und/oder dort angeordnete Multifunktionsanzeige- und Bedieneinheit anzuordnen. Insbesondere wird eine Vorrichtung zum Erfassen von Sprache in einem Kraftfahrzeug vorgeschlagen, welche umfasst: eine Mikrofonanordnung und eine Auswerteeinheit zum Aufbereiten, wobei die Auswerteeinheit eine Richtungsselektionseinheit für eine richtungsselektive Auswertung von Mikrofonsignalen der mehreren Mikrofone und Zusammenfassen zu dem Sprachsignal umfasst, wobei erfindungsgemäß vorgesehen ist, dass die mehreren Mikrofone in oder an einer für eine Anordnung in der Mittelkonsole oder einem Armaturenbrett vorgesehene oder dort angeordnete Multifunktionsanzeigen und Bedieneinheit angeordnet sind. Sprache wird in einem Kraftfahrzeug gemäß der Erfindung somit mit einer Mikrofonanordnung mit mehreren Mikrofonen in Form von Mikrofonsignalen erfasst und die erfassten Mikrofonsignale aufbereitet, indem eine richtungsselektive Auswertung der Mikrofonsignale in Form eines Beamformings ausgeführt wird und hierbei ein hochqualitatives Sprachsignal erzeugt wird. Erfindungsgemäß ist vorgesehen, dass die Sprache mittels mehrerer Mikrofone erfasst wird, die an oder in einer Mittelkonsole oder einem Armaturenbrett angeordneten Multifunktionsanzeige- und Bedieneinheit angeordnet sind. Durch die vorteilhafte Anordnung der Mikrofone in der Multifunktionsanzeige- und Bedieneinheit wird ein Verkabelungsaufwand drastisch reduziert. Ein damit einhergehender Nachteil, dass insbesondere niederfrequente Störquellen nahe der Mikrofonanordnung vorhanden sind, beispielsweise Lüftungsauslässe oder Ähnliches, wird erfindungsgemäß durch die richtungsselektive Auswertung in Form eines Beamformings reduziert und/oder kompensiert.
Eine besonders gute Richtungsselektion im Kraftfahrzeug zwischen Fahrer und Beifahrer ist möglich, wenn die mehreren Mikrofone als lineares Array entlang einer Richtung der Multifunktionsanzeige- und Bedieneinheit angeordnet sind, die in einem Einbauzustand in der Multifunktionsanzeige- und Bedieneinheit horizontal ausgerichtet ist.
Der Verkabelungsaufwand wird noch weiter deutlich reduziert, wenn die Auswerteeinheit in die Multifunktionsanzeige- und Bedieneinheit integriert ist.
Erfindungsgemäß ist der Beamformer als Delay-and-Sum-Beamformer ausgebildet. Dies bedeutet, dass die einzelnen Mikrofonsignale zeitlich gegeneinander verzögert und anschließend addiert werden, um das Sprachsignal aufzubereiten. Besonders bevorzugt wird ein solches Delay-and-Sum-Beamforming im Frequenzbereich ausgeführt.
Da im besonders tiefen Frequenzbereich Sprache in der Regel keine auswertbare Information aufweist, jedoch die Störgeräusche im Kraftfahrzeug gerade im niederfrequenten Bereich besonders stark sind, ist es vorteilhaft, wenn die Mikrofonsignale zunächst über ein Hochpassfilter geführt werden, das die sehr tieffrequenten Signale ausfiltert. Somit werden die Mikrofonsignale vor dem Zuführen zu der Richtungsselektionseinheit bzw. vor dem Ausführen der richtungsselektiven Auswertung jeweils über ein Hochpassfilter geführt und gefiltert. Zwischen der Richtungsselektionseinheit und den Mikrofonen sind somit jeweils Hochpassfilter angeordnet. Die Hochpassfilter können im Zeit- oder Frequenzbereich realisiert sein.
Eine weitere Verbesserung des aufbereiteten Sprachsignals erreicht man, wenn das Ausgangssignal des Beamformers über eine Nachbearbeitungseinheit geführt ist, die das Ausgangssignal des Beamformers abhängig von einer spektralen Verteilung der erfassten Sprache nachbearbeitet. Hierdurch wird erreicht, dass eine Filterung in den Frequenzbereichen besonders groß ist, in denen die Störgeräusche im Kraftfahrzeug besonders dominant sind. Eine Filterung ist hingegen schwächer in den Bereichen, in denen hauptsächlich Sprachinformationen im Frequenzbereich der erfassten Mikrofonsignale vorhanden ist.
Bei einer erfindungsgemäßen Ausführungsform der Erfindung umfasst die Nachbearbeitungseinheit ein als Wiener-Filter ausgebildetes Postfilter, dem als Eingangssignal das Ausgangssignal des Delay-and-Sum-Beamformers zugeführt ist.
Eine besonders gute Filterung erreicht man mit einer Ausführungsform, bei der die Nachbearbeitungseinheit ausgebildet ist, die spektralen Leistungsdichten adaptiv angepasst an die empfangenen verzögerten Mikrofonsignale zu berechnen. Diese gehen in die Schätzung oder Berechnung des Postfilters ein. Bei der adaptiven Berechnung der spektralen Leistungsdichten wird vorzugsweise das zu einem vorangehenden Zeitpunkt ermittelte Postfilter verwendet.
Bei einer erfindungsgemäßen Ausführungsform der Erfindung ist vorgesehen, dass die Auswerteeinheit eine Mischeinheit umfasst, die ausgebildet ist, das durch die Nachbearbeitungseinheit gefilterte Ausgangssignal des Beamformers mit dem Ausgangssignals des Beamformers additiv frequenzabhängig gewichtet zu mischen. Dieser Mischung liegt die Erkenntnis zugrunde, dass der Delay-and-Sum-Beamformer bei hohen Frequenzen ordentlich funktioniert, bei tiefen Frequenzen jedoch weitgehend ohne Effekt bleibt, das Postfilter jedoch vornehmlich bei tiefen Frequenzen einen Gewinn bringt, bei hohen jedoch eher Artefakte ins Sprachsignal hinein bringt.
Besonders vorteilhaft lässt sich sowohl das Beamforming als auch eine Nachfilterung im Frequenzraum ausführen. Bei einer bevorzugten Ausführungsform werden daher die Mikrofonsignale, gegebenenfalls bereits hochpassgefilterte Mikrofonsignale, jeweils einer Fast-Fourier-Transformationseinheit zugeführt. Entsprechend wird das nachgefilterte Ausgangssignal oder das Ausgangssignal des Beamformers über eine Rücktransformationseinheit, die eine überlappende Fenster verwendende inverse Fast-Fourier-Ttransformation ausführt, in den Ortszeitbereich zurück transformiert.
Das erfindungsgemäße Verfahren weist dieselben Vorteile wie die entsprechenden Merkmale der Erfassungsvorrichtung auf.
Nachfolgend wird die Erfindung anhand eines bevorzugten Ausführungsbeispiels näher erläutert. Hierbei zeigen:

1 eine beispielhafte Multifunktionsanzeige- und Bedienvorrichtung mit darin angeordneten Mikrofonen;
2 ein schematisches Blockschaltbild einer Spracherfassungsvorrichtung mit einer Nachbearbeitungseinheit, die die spektrale Leistungsdichte adaptiv berechnet;
3 eine weitere Ausführungsform einer Spracherfassungsvorrichtung, bei der eine frequenzabhängige Mischung des Beamformerausgangssignals mit dem nachbearbeiteten Beamformerausgangssignal vorgenommen wird; und
4 eine schematische Darstellung zur Erläuterung des frequenzabhängigen Mischens des Ausgangssignals der Beamformereinheit mit dem durch die Nachbearbeitungseinheit gefilterten Ausgangssignal des Beamformers.

In 1 ist eine Multifunktionsanzeige- und Bedienvorrichtung 1 schematisch dargestellt. Diese umfasst beispielsweise eine zentrale Anzeigevorrichtung 2, die vorzugsweise als Touchscreen ausgebildet ist. Benachbart zu der Anzeigevorrichtung 2 sind weitere Bedienelemente 3 angeordnet, die beispielsweise als Tipptasten oder Drehdruckschalter ausgebildet sein können. Bei einer bevorzugten Ausführungsform sind entlang eines Rahmens 4 zueinander beabstandet mehrere Mikrofone 5 in Form eines linearen Arrays angeordnet. Andere Anordnungen sind in anderen Ausführungsformen möglich. Vorzugsweise sind die Mikrofone 5 zueinander jeweils gleich beabstandet, d.h. äquidistant angeordnet. Die Anordnung der Mikrofone 5 ist für eine Selektion von Sprache nur eines Fahrers oder alternativ eines Beifahrers geeignet, wenn die Multifunktionsanzeige- und Bedienvorrichtung 1 in eine Mittelkonsole des Kraftfahrzeugs zwischen dem Fahrer und dem Beifahrer oder in das Armaturenbrett entsprechend zwischen dem Fahrer und dem Beifahrer eingebaut wird, so dass die Mikrofone 5 parallel zu einer Horizontalen ausgerichtet sind. Bei entsprechend doppelter Auswertung können auch die Sprache des Fahrers und die Sprache des Beifahrers selektiert werden.
Bei einer alternativen Ausführungsform können Mikrofone 5a so angeordnet sein, dass diese im Wesentlichen entlang einer Vertikalen im eingebauten Zustand angeordnet sind. Eine solche Anordnung ist geeignet, wenn beispielsweise keine Fahrer/Beifahrerselektion der Sprache aber die Sprachselektion angepasst an die Körperhöhe des Fahrers/Beifahrers erfolgen soll. Zu erkennen ist, dass die Anordnung der vertikal zueinander beabstandeten Mikrofone 5a nicht äquidistant vorgenommen ist. Die entsprechenden Abstände werden bei der richtungsselektiven Auswertung später berücksichtigt.
Die Auswerteeinheit, die die Mikrofonsignale auswertet, ist vorzugsweise im Inneren der Multifunktionsanzeige- und Bedienvorrichtung integriert. In diese kann ebenfalls nachgelagerte Auswerteelektronik zur Spracherkennung integriert sein, so dass die für die Steuerung der Multifunktionsanzeige- und Bedienvorrichtung benötigten Signale direkt in dieser erfasst und erzeugt werden.
In 2 ist eine schematische Darstellung einer Vorrichtung 6 zum Erfassen von Sprache, welche kurz auch als Spracherfassungsvorrichtung bezeichnet wird, dargestellt. Die Vorrichtung 6 umfasst mehrere Mikrofone 5 einer Mikrofonanordnung 50 und eine Auswerteeinheit 60. Gleiche technische Merkmale sind in allen Figuren mit denselben Bezugszeichen versehen. Die Mikrofonanordnung 50 ist als lineares Array ausgebildet, welches in einer Multifunktionsanzeige- und Bedienvorrichtung ähnlich zu der nach 1 angeordnet sind, welche selbst wiederum in einer Mittelkonsole oder einem Armaturenbrett eines Kraftfahrzeugs so angeordnet ist, dass die Mikrofone 5 der Mikrofonanordnung so vorzugsweise horizontal ausgerichtet sind. Die Mikrofone 5 erfassen Mikrofonsignale y'₁-y'₄.
Die Mikrofonsignale werden zunächst jeweils einer schnellen Fouriertransformation (Fast Fourier Transformation-FFT) unterzogen. Dieses erfolgt in FFT-Einheiten 7.Die einzelnen Mikrofonsignale werden anschließend vorzugsweise jeweils über ein Hochpassfilter 8 geführt. Diese Hochpassfilter 8 sind vorzugsweise so ausgebildet, dass sie sämtliche Frequenzen unterhalb von 80 Hz aus den Mikrofonsignalen herausfiltern. Hierdurch werden die in diesem Frequenzbereich dominierende Störgeräusche eliminiert.
Bei einigen Ausführungsformen werden der Transformationsschritt und das Filtern vertauscht, so dass das Filter im Zeitbereich ausgebildet ist.
Die fouriertransformierten und bei dieser Ausführungsform zusätzlich gefilterten Mikrofonsignale werden mit Y'₁-Y'₄ bezeichnet. Anschließend werden diese fouriertransformierten Mikrofonsignale Y'_i jeweils entsprechend der geometrischen Anordnung und des Raumbereichs, aus dem Sprache selektiert werden soll, einer zeitlichen Verzögerung unterzogen, welches in den Beamformingeinheiten 9 erfolgt. Die zeitliche Verzögerung wird im Frequenzbereich durch eine entsprechende Änderung der Phase bewirkt. Die zeitverzögerten Mikrofonsignale im Frequenzraum werden mit den Y₁-Y₄ bezeichnet. Diese werden zum einen einem Addierer 10 zugeführt, der ein Ausgangssignal des Beamformers S_BF liefert. Die Beamformereinheiten 9 und der Addierer 10 bilden zusammen einen Beamformer 11 im Frequenzbereich.
Das Ausgangssignal des Beamformers S_BF wird einer Nachbearbeitungseinheit 12 zugeführt. Dieser werden ebenfalls die verzögerten Mikrofonsignale Y₁-Y₄ zugeführt. Anhand dieser verzögerten Mikrofonsignale Y₁-Y₄ wird eine Filterschätzung in einer Filterschätzeinheit 13 ausgeführt, die verwendet wird, um ein als Wiener-Filter ausgebildetes Postfilter 14 zu ermitteln. Das Ausgangssignal des Beamformers S_BF wird mittels des Wiener-Filters (Postfilters14), das von der spektralen Leistungsdichte der erfassten Mikrofonsignale abhängig ist, nachgefiltert, so dass man das nachgefilterte Signal S_PF erhält. Entscheidend ist hierbei, dass die Signale nach einer Zusammenfassung in dem Delay-and-Sum-Beamformer 11 nachgefiltert werden. Das nachgefilterte Signal S_PF wird in einer Rücktransformationseinheit 15, die eine inverse Fast-Fourier-Transformation mit überlappenden Fenstern und Addition (Overlap-Add) ausführt, in den Zeitbereich zurücktransformiert, so dass man das aufbereitete Sprachsignal s erhält.
Im Folgenden soll kurz die mathematische Berechnung des Sprachsignals erläutert werden. Es wird davon ausgegangen, dass sich die Mikrofonsignale Y'₁ aus einem Sprachanteil S_i und einem Geräuschanteil N_izusammensetzen. Das Apostroph soll jeweils andeuten, dass die Signale aufgrund der Laufzeit zu dem Mikrofon das entsprechende Sprachsignal zu unterschiedlichen Zeiten darstellen. Signale sind jeweils um T_i -T verzögert und mit einer Frequenz $f_{s} = \frac{1}{T}$
abgetastet.
Verwendet man eine Fast-Fourier-Transformation einer Länge K auf einen Vektor der Mikrofonsignale an, so erhält man für einen Rahmenindex I und einen Frequenzkanal (bin) k $Y' (l, k) = S' (l, k) + N' (l, k) .$
Nimmt man an, dass D (k) den Propagationsvektor für die Verzögerung des gewünschten Sprachsignals angibt, welcher von der Geometrie abhängig ist, so lässt sich dieser schreiben als $D (k) = {(exp \frac{- j 2 π k τ_{1}}{c} \dots exp \frac{- j 2 π k τ_{M}}{c})}^{T},$
wobei c die Schallgeschwindigkeit angibt. Die Filterkoeffizienten des Beamformers W_MVDR lassen sich gemäß folgender Formel angeben, $W_{MVDR} (l, k) = \frac{Φ_{NN}^{- 1} (l, k) D (k)}{D^{h} (k) Φ_{NN}^{- 1} (l, k) D (k)},$
wobei Φ_NN (I, k) eine normierte m×m-Matrix der spektralen Leistungsdichte des Geräuschsignals darstellt. Das Ausgangssignal des Beamformers lässt sich somit folgendermaßen mathematisch beschreiben $S_{BF} (l, k) = W_{MVDR}^{H} (l, k) \cdot Y' (l, k) .$
Da die Richtungsselektivität eines Delay-and-Sum-Beamformers im niederen Frequenzbereich begrenzt ist und in dem Kraftfahrzeug die Hintergrundgeräusche in diesem Frequenzbereich besonders laut sind, wird zur Nachfilterung ein Vielkanal-Wiener-Filter eingesetzt. Ein Wiener-Filter ist definiert durch folgende Gleichung: $H_{PF} (l, k) = \frac{ϕ_{S S} (l, k)}{ϕ_{S S} (l, k) + ϕ_{N N} (l, k)}$
wobei Φ_SS (l, k) und Φ_NN (I, k) die spektralen Leistungsdichten jeweils des reinen Sprachsignals und des Geräuschsignals sind. Das Signal, welches man im Frequenzbereich nach der Nachfilterung erhält, ist durch folgende Formel angegeben: $\hat{S} (l, k) = H_{PF} (l, k) \cdot W_{MVDR}^{H} (l, k) \cdot Y' (l, k) .$
Für das Wiener-Filter wird vorzugsweise eine von McCowan et. al. „Microphone Array PostFilter based on Noise Field Coherence", IEEE Transactions on Speech and Audio Processing, Vol ,11, Nr. 6, Seiten 709-716, Nov. 2003, abgeleitete Formulierung benutzt: $H_{MC} (l, k) = \frac{\frac{2}{M (M - 1)} \sum_{i = 1}^{M - 1} \sum_{j = i}^{M} {\hat{ϕ}}_{S S}^{(i j)} (l, k)}{\frac{1}{M} \sum_{i = 1}^{M} {\hat{ϕ}}_{Y_{i} Y_{i}} (l, k)},$
wobei die spektrale Leistungsdichte des reinen Sprachsignals geschätzt wird durch: ${\hat{ϕ}}_{S S}^{(i j)} (l, k) = \frac{Re {{\hat{ϕ}}_{Y_{i} Y_{j}} (l, k)} - Re {Γ_{i j} (k)} β_{i j} (l, k)}{1 - Re {Γ_{i j} (k)}}$
Re{} gibt den Realteil an. Hierbei ist Γ_ij (k) gegeben durch: $Γ_{i j} (k) = sinc (\frac{2 π k d_{i j}}{c}) .$
welche eine Geräuschkohärenzmatrix für ein diffuses Geräuschfeld angibt und d_ij einen Abstand zwischen den Mikrofonen i und j angibt. Die spektrale Leistungsdichte kann anhand der zeitverzögerten Mikrofonsignale rekursiv ermittelt werden gemäß folgenden Gleichungen: ${\hat{ϕ}}_{Y_{i} Y_{i}} (l, k) = α {\hat{ϕ}}_{Y_{i} Y_{i}} (l - 1, k) + (1 - α) Y_{i}^{*} (l, k) Y_{i} (l, k) \in ℝ$
${\hat{ϕ}}_{Y_{i} Y_{j}} (l, k) = α {\hat{ϕ}}_{Y_{i} Y_{j}} (l - 1, k) + (1 - α) Y_{i}^{*} (l, k) Y_{j} (l, k) \in ℂ,$
wobei der ()* den komplexkonjugierten Operator kennzeichnet. α ist ein Glättungsfaktor.
Um der Theorie genüge zu tun und in der Praxis gute Ergebnisse zu erzielen, ist es notwendig zu erzwingen, dass die spektralen Leistungsdichten des reinen Sprachsignals reale Zahlen sind. Ferner erhält man bessere Ergebnisse, wenn man keine negativen spektralen Leistungsdichten zulässt, sondern diese gleich Null setzt, sofern diese negativ werden. Der Faktor β (I, k) ist gegeben durch: $B_{i j} (l, k) = \frac{1}{2} [{\hat{ϕ}}_{Y_{i} Y_{i}} (l, k) + {\hat{ϕ}}_{Y_{j} Y_{j}} (l, k)] .$
Die besten Ergebnisse bei der Nachfilterung erreicht man dann, wenn man den Glättungsfaktor α zur Berechnung der spektralen Leistungsdichte der gemessenen Signale gemäß folgender Formel adaptiv schätzt: $α (l, k) = α_{1} - α_{2} \cdot \frac{SNR (l, k)}{1 + SNR (l, k)}$
wobei SNR das Signal-zu-Rauschleistungsverhältnis am Beamformerausgang angibt. Die Werte a₁ und a₂ sind Konstanten. Da sich das Signal-zu-Rauschleistungsverhältnis von Transformationsrahmen zu Transformationsrahmen nur unwesentlich ändert, gilt folgende Abschätzung: $\frac{SNR (l, k)}{1 + SNR (l, k)} ≅ H_{MC} (l - 1, k),$
welches für den Glättungsfaktor zu folgender Formel führt: $α (l, k) = α_{1} - α_{2} \cdot H_{MC} (l - 1, k) .$
Als optimal für die Konstanten α₁ und α₂ haben sich die Werte α₁ = 0,8 und α₂ = 0,5 erwiesen. Der Glättungsfaktor wird somit anhand des Postfilters zu einem vorausgehenden Zeitpunkt ermittelt.
In 3 ist eine weitere Ausführungsform einer Erfassungsvorrichtung 1 ähnlich zu der nach 2 dargestellt, wobei jedoch die spektrale Verteilung des Sprachsignals bei der Nachbearbeitung anders berücksichtigt wird. Bis zur Nachbearbeitungseinheit sind die beiden Ausführungsformen identisch. In der Nachbearbeitungseinheit wird bei der Ausführungsform nach 3 das Postfilter 14 in der Postfilterschätzungseinheit 13 ohneeine adaptive Anpassung des Glättungsfaktors α ermittelt.
Zusätzlich umfasst die Nachbearbeitungseinheit 12 eine Mischereinheit 16. Diese mischt das Ausgangssignal des Beamformers S_BF mit dem Ausgangssignal des Postfilters S_PF jeweils frequenzabhängig. Dieses ist exemplarisch in 4 dargestellt. Dort sind die Wichtungsfaktoren α_DS , mit der das Beamformerausgangssignal gewichtet wird, und α_PF , mit dem das gefilterte Beamformersignal S_BF gewichtet werden, jeweils gegen die Frequenz bzw. die Frequenzkanalzahl aufgetragen. Dies bedeutet, dass im niederfrequenten Frequenzbereich das nachgefilterte Signal S_PF mit einem Anteil von 80 % und das ungefilterte Ausgangssignal S_BF des Beamformers mit einem Anteil von 20 % in die additive Mischung eingehen. Ab einer Grenzfrequenz 17, welche beispielsweise bei 2 kHz festgelegt ist, wird der Wichtungsfaktor α_DS linear bis zur Maximalfrequenz auf den Wert Eins erhöht und entsprechend der Wichtungsfaktor α_PF linear auf Null abgesenkt, wobei jeweils gilt:

α_DS + α_PF = 1.Hierdurch wird berücksichtigt, dass die Störgeräusche insbesondere im niederfrequenten Bereich stark sind, so dass hier eine Filterung vorteilhaft ist. Im hohen Frequenzbereich hingegen können Verzerrungen, die durch die Nachfilterung erzeugt werden können, minimiert werden, da das Ausgangssignal des Beamformers bereits nahezu geräuschfrei ist.

Bei der im Zusammenhang mit den 3 und 4 beschriebenen Ausführungsform kann die Postfilterschätzung bei einer Ausführungsform auch mit einem adaptiv angepassten Glättungsfaktor wie bei der Ausführungsform nach 2 ausgeführt werden.
Bezugszeichenliste

1: Multifunktionsanzeige- und Bedienvorrichtung
2: Anzeigevorrichtung
3: Bedienelemente
4: Rahmen
5, 5a: Mikrofone
6: Vorrichtung zum Erfassen von Sprache
7: FFT-Einheit
8: Hochpassfilter
9: Beamformereinheit
10: Addierer
11: Beamformer
12: Nachbearbeitungseinheit
13: Filterschätzeinheit
14: Postfilter
15: Rücktransformationseinheit
16: Mischer
17: Grenzfrequenz
50: Mikrofonanordnung
60: Auswerteeinheit
y'i: Mikrofonsignal
Y'i: transformiertes Mikrofonsignal
Yi: zeitverzögertes Mikrofonsignal
SBF: Beamformerausgangssignal
SPF: nachgefiltertes Signal
s: Sprachsignal im Ortszeitraum
α: Glättungsfaktor
αDS: Gewichtungsfaktor für das Ausgangssignal des Delay-and-Sum-Beamformers
αPF: Gewichtungsfaktor für das gefilterte Ausgangssignal des Delay-and-Sum-Beamformers

Claims

Vorrichtung zum Erfassen von Sprache in einem Kraftfahrzeug umfassend eine Mikrofonanordnung (50) und eine Auswerteeinheit (60) zum Aufbereiten eines Sprachsignals (s), wobei die Mikrofonanordnung (50) mehrere Mikrofone (5, 5a) umfasst, die in oder an einer für eine Anordnung in einer Mittelkonsole oder einem Armaturenbrett vorgesehene oder dort angeordnete Multifunktionsanzeige- und Bedieneinheit (1) angeordnet sind, und die Auswerteeinheit (60) eine Richtungsselektionseinheit für eine richtungsselektive Auswertung von Mikrofonsignalen (y'_i) der mehreren Mikrofone (5, 5a) und Zusammenfassen zu dem Sprachsignal (s) umfasst, wobei die Richtungsselektionseinheit einen Beamformer (11) umfasst, wobei der Beamformer (11) als Delay-and-Sum-Beamformer ausgebildet ist, und wobei das Ausgangssignal (S_BF) des Beamformers (11) über ein Postfilter (14) geführt ist, dadurch gekennzeichnet, dass das ungefilterte (S_BF) und das gefilterte (S_PF) Ausgangssignal des Beamformers (11) frequenzabhängig gewichtet werden und zusammengefasst werden.
Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass das Postfilter (14) adaptiv ausgeführt ist.
Verfahren zum Erfassen von Sprache in einem Kraftfahrzeug umfassend die Schritte: Erfassen der Sprache mit einer Mikrofonanordnung (50), Aufbereiten der erfassten Sprache und Erzeugen eines Sprachsignals (s), wobei die Sprache mittels mehrer Mikrofone (5, 5a) erfasst wird, die an oder in einer Mittelkonsole oder einem Armaturenbrett angeordneten Multifunktionsanzeige- und Bedieneinheit (1) angeordnet sind, die erfasste Sprache in Form von Mikrofonsignalen (y'_i) bereitstellen und eine richtungsselektive Auswertung der Mikrofonsignale (y'_i) und Zusammenfassung zu dem Sprachsignal (s) erfolgt, wobei die richtungsselektive Auswertung in Form eines Delay-and-Sum-Beamformings ausgeführt wird und das Ausgangssignal des Beamformings (S_BF) mit einem Postfilter (14) nachgefiltert wird, dadurch gekennzeichnet, dass das ungefilterte (S_BF) und das gefilterte (S_PF) Ausgangssignal des Beamformers (11) frequenzabhängig gewichtet werden und zusammengefasst werden.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Mikrofonsignale (y'_i) mittels einer Fast-Fourier-Transformation in den Frequenzbereich transformiert werden, die Aufbereitung im Frequenzbereich vorgenommen wird und eine Rücktransformation zum erhalten des Sprachsignals (s) ausgeführt wird.
Verfahren nach einem der Ansprüche 3 oder 4, dadurch gekennzeichnet, dass die Mikrofonsignale (y'_i) jeweils mit einem Hochpass gefiltert werden.
Verfahren nach einem der Ansprüche 3 bis 5, dadurch gekennzeichnet, dass das Postfilter (14) anhand der zeitverzögerten Mikrofonsignale (Y_i), die im Delay-and-Sum-Beamforming anfallen geschätzt wird.
Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass das Postfilter adaptiv geschätzt wird, indem in die Postfilterschätzung eingehende spektrale Leistungsdichten mit einem adaptiven Glättungsfaktor (α) rekursiv errechnet werden, wobei der Glättungsfaktor aus dem zu einem vorangehenden Zeitpunkt ermittelten Postfilter abgeleitet ist.
Verfahren nach einem der Ansprüche 4 bis 7, dadurch gekennzeichnet, dass die Rücktransformation mit einer inversen Fast-Fourier-Tansformation ausgeführt wird, die überlappende Fenster nutzt.