DE102014203914B4

DE102014203914B4 - Positionsgerichtetes akustisches Array und Beamforming-Verfahren

Info

Publication number: DE102014203914B4
Application number: DE102014203914.2A
Authority: DE
Inventors: Eli Tzirkel-Hancock; Igal Bilik; Moshe Laifenfeld
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2013-06-14
Filing date: 2014-03-04
Publication date: 2018-08-16
Anticipated expiration: 2034-03-05
Also published as: US9747917B2; CN104244143A; US20140372129A1; DE102014203914A8; DE102014203914A1; CN104244143B

Abstract

Adaptives Beamforming-Verfahren zum Empfangen erwünschter Töne, wobei das Verfahren Folgendes aufweist:
Bestimmen einer Insassenposition eines sprechenden Insassen (110) innerhalb eines definierten Raumes (106);
Empfangen von Schall aus dem Inneren des definierten Raumes (106) mit einer Vielzahl von Mikrofonen (112);
Erzeugen einer Vielzahl von Audiosignalen, die dem empfangenen Schall entsprechen, an jedem Mikrofon (112) der Vielzahl von Mikrofonen (112);
Anwenden eines Beamformers (500) auf die Audiosignale, um einen Mikrofonstrahl in Richtung der bestimmten Insassenposition zu richten und ein Beamformer-Ausgangssignal zu erzeugen;
Anwenden einer blockierenden Matrix (502) auf alle Audiosignale, um andere Positionen auszuschließen, die nicht mit dem sprechenden Insassen (110) assoziiert werden, und um eine Vielzahl von Ausgangssignalen der blockierenden Matrix (502) zu erzeugen, die jedem Signal der Audiosignale entsprechen;
Anwenden eines adaptiven Geräuschunterdrückungsprozesses (504) auf die Ausgangssignale der blockierenden Matrix (502), um ein Ausgangssignal der adaptiven Geräuschunterdrückung zu erzeugen; und
Summieren des Beamformer-Ausgangssignals und des Ausgangssignals der adaptiven Geräuschunterdrückung, um ein Ausgangssignal des sprechenden Insassen (110) zu erzeugen.

Description

TECHNISCHES GEBIET
Das technische Gebiet betrifft im Allgemeinen akustische Arrays und Beamforming-Verfahren (zu Deutsch: Stahlformungs- bzw. Strahlbündelungsverfahren) und insbesondere Beamforming-Systeme und Beamforming-Verfahren zum Verbessern der Sprache mit einem akustischen Array.
HINTERGRUND
Moderne Fahrzeuge, wie beispielsweise Kraftfahrzeuge, verwenden oft Spracherkennungsprozesse, um akustische Eingaben und Befehle von einem Fahrer oder von anderen Insassen anzunehmen. Beispielsweise kann eine Person akustische Befehle verwenden, um Unterhaltungsoptionen auszuwählen oder an einem Mobiltelefongespräch teilzunehmen.
Die Spracherkennungsleistung in Fahrzeugen kann durch ein Geräusch oder andere Störungen nachteilig beeinträchtigt werden. Beispielsweise können ein Motorgeräusch, Fahrbahngeräusch, Windgeräusch und/oder Unterhaltungsvorrichtungen ein Geräusch erzeugen, das die Fähigkeit eines Spracherkennungssystems, die akustische(n) Eingabe und Befehle des Sprechers richtig zu interpretieren, beeinträchtigt. Zwar haben einige Techniken beim Stand der Technik versucht solche Störungen zu verringern, aber dieselben sind normalerweise nicht ausreichend robust, um sich an schnelle Änderungen der akustischen Bedingungen anzupassen, wie z.B. die Geräusche, die in Kraftfahrzeugen gewöhnlich auftreten.
Folglich wird erwünscht Systeme und Techniken zum Begrenzen der Wirkungen eines unerwünschten Geräusches und unterwünschter Störungen in einem Audiosignal zu liefern. Ferner werden andere erwünschte Merkmale und Charakteristiken der vorliegenden Erfindung anhand der folgenden detaillierten Beschreibung und den beiliegenden Ansprüchen in Verbindung mit den beiliegenden Zeichnungen und dem vorangehenden technischen Gebiet und Hintergrund offensichtlich werden.
In der US 2012/0114138 A1 ist ein adaptives Beamforming-Verfahren und eine entsprechende Vorrichtung zum Empfangen erwünschter Töne beschrieben. Insbesondere wird dort angegeben, dass die Insassenposition eines sprechenden Insassen innerhalb eines definierten Raumes bestimmt wird, aus dem Inneren des definierten Raumes mit einer Vielzahl von Mikrofonen Schall empfangen wird und ein Beamformer auf die Audiosignal angewendet wird, um einen Mikrofonstrahl in Richtung der bestimmten Insassenposition zu richten und ein Beamformer-Ausgangssignal zu erzeugen.
Weitere Beamforming-Verfahren und Vorrichtungen sind in der US 8,150,688 B2 , der WO 2004/010 414 Alder US 5,008,946 , der US 2003/0036835 A1 und der US 2009/0022330 A1 beschrieben.
ZUSAMMENFASSUNG
Vor diesem Hintergrund ist es eine Aufgabe der vorliegenden Erfindung, ein Beamforming-Verfahren zum Empfangen selektiver Audiosignale anzugeben, bei welchem erwünschte Audiosignale durchgelassen werden und andere Audiosignale nicht durchgelassen oder blockiert werden.
Erfindungsgemäß wird diese Aufgabe durch ein Verfahren mit den Merkmalen des Patentanspruchs 1, durch ein System mit den Merkmalen des Patentanspruchs 7 und durch ein Fahrzeug mit den Merkmalen des Patentanspruchs 8 gelöst.
Figurenliste
Die beispielhaften Ausführungsformen werden nachstehend in Verbindung mit den folgenden Figuren der Zeichnung beschrieben werden, in denen ähnliche Nummern ähnliche Elemente bezeichnen und in denen:

1 ein Blockdiagramm eines Fahrzeugs mit einem Audiosystem nach einer beispielhaften Ausführungsform ist;
2 ein Blockdiagramm eines Positionssensors des Audiosystems nach einer ersten beispielhaften Ausführungsform ist;
3 ein Blockdiagramm des Positionssensors des Audiosystems nach einer zweiten beispielhaften Ausführungsform ist;
4 ein Blockdiagramm des Positionssensors des Audiosystems nach einer dritten beispielhaften Ausführungsform ist; und
5 ein Blockdiagramm eines Prozessors des Audiosystems nach einer beispielhaften Ausführungsform ist.

DETAILLIERTE BESCHREIBUNG
In Bezug auf die Figuren, in denen ähnliche Nummern ähnliche Teile überall in den verschiedenen Ansichten angeben, ist hierin ein Fahrzeug 100 mit einem Audiosystem 102 zum Empfangen erwünschter Töne gezeigt. Bei den hierin gezeigten beispielhaften Ausführungsformen ist das Fahrzeug 100 ein Kraftfahrzeug (nicht separat nummeriert) und das Audiosystem 102 mit einem Spracherkennungssystem 104 zum Bestimmen der Worte gekoppelt, die gesprochen werden. Das Audiosystem 102 und/oder Spracherkennungssystem 104, die hierin beschrieben sind, können jedoch bei anderen Arten von Fahrzeugen 100 oder bei Nicht-Kfz-Anwendungen implementiert und/oder verwendet werden. Beispielsweise können andere Fahrzeuge 100 ein Luftfahrzeug (nicht gezeigt) enthalten, sind aber nicht darauf beschränkt. Nicht-Kfz-Anwendungen enthalten Büros in Fabrikumgebungen (nicht gezeigt), sind aber nicht darauf beschränkt. Ferner kann anstelle des Spracherkennungssystems 104 oder zusätzlich zu demselben das Audiosystem 102 mit einem Telefoniesystem 105 gekoppelt sein. Das Telefoniesystem 105 kann verwendet werden, um Telekommunikation mit z.B. einem zellularen Telefonnetz (nicht gezeigt) durchzuführen. Jemandem mit technischen Fähigkeiten werden auch andere Systeme bekannt sein, die mit dem Audiosystem 102 gekoppelt sein können.
In Bezug auf 1 definiert das Fahrzeug 100 der beispielhaften Ausführungsformen einen definierten Raum 106. Bei den beispielhaften Ausführungsformen ist der definierte Raum 106 insbesondere ein Fahrgastraum (nicht separat nummeriert) des Fahrzeugs 100. Der Fahrgastraum bringt eine oder mehrere Personen, d.h. Insassen des Fahrzeugs 100, z.B. einen Fahrer und Fahrgast (Fahrgäste), unter.
Das Audiosystem 102 enthält einen Positionssensor 108. Der Positionssensor 108 ist zum Bestimmen einer Insassenposition eines Insassen 110 innerhalb des definierten Raumes 106 konfiguriert. Bei den beispielhaften Ausführungsformen ist der Positionssensor 108 zum Bestimmen der Position jedes Insassen 110 konfiguriert. D.h., der Positionssensor 108 ist zum Bestimmen einer Vielzahl von Insassenpositionen einer Vielzahl von Insassen 110 konfiguriert. Folglich kann der Positionssensor 108 auch die Anzahl von Insassen 110 bestimmen. Beispielsweise kann der Positionssensor 108 verwendet werden, um die Position jedes Insassen einer Vielzahl von Insassen 110 zu bestimmen. Der Positionssensor 108 kann jedoch konfiguriert sein, um nur die Position von einem Insassen 110 zu bestimmen, beispielsweise ein Fahrer (nicht separat nummeriert) des Fahrzeugs 100. Zur Lesbarkeit kann sich die Beschreibung nachstehend auf einen einzigen Insassen 110 beziehen. Dies sollte jedoch keineswegs als beschränkend gelesen werden, da der Positionssensor 108 der beispielhaften Ausführungsformen konfiguriert sein kann, um eine Position einer Vielzahl von Insassen 110 abzutasten.
Der Positionssensor 108 kann zum wiederholten und/oder kontinuierlichen Bestimmen der Position des/der Insassen 110 zu jeder Zeit, zu der das Audiosystem 102 in Betrieb ist, konfiguriert sein. An sich kann die Position jedes Insassen 110 aktualisiert werden, da der Insasse 110 die Position innerhalb des definierten Raumes 106 verändert.
Genauer ist der Positionssensor 108 zum Abtasten der Position des Kopfes des Insassen 110 vorgesehen. Noch genauer ist der Positionssensor 108 zum Abtasten der Position des Mundes des Insassen 110 konfiguriert. An sich kann die Insassenposition, wie nachstehend verwendet, als die Position des Mundes des Insassen 110 des Fahrzeugs 100 betrachtet werden.
Zudem, und wie nachstehend detaillierter beschrieben, ist der Positionssensor 108 von zumindest einer der beispielhaften Ausführungsformen, die nachstehend beschrieben sind, auch zum Bestimmen vorgesehen, welcher der Insassen 110 spricht. Mit anderen Worten kann der Positionssensor 108 zum Bestimmen konfiguriert sein, welcher Insasse 110 redet. Noch anders ausgedrückt, kann der Positionssensor 108 konfiguriert sein, um zu bestimmen, ob sich die Lippen/der Mund jedes Insassen 110 bewegen/bewegt.
Bei einer ersten beispielhaften Ausführungsform verwendet der Positionssensor 108 Schallwellen in einem Ultraschallbereich, um die Position des Insassen 110 des Fahrzeugs 100 zu bestimmen. An sich liegen die Schallwellen in diesem Bereich außerhalb dem des üblichen menschlichen Gehörs und werden daher die Insassen nicht ablenken und sollten keine Bedenken bezüglich der Privatsphäre (privacy concerns) darstellen. Folglich kann der Positionssensor 108 als ein Ultraschallpositionssensor (nicht separat nummeriert) bezeichnet werden.
Nun in Bezug auf 2 enthält der Positionssensor 108 der ersten beispielhaften Ausführungsform einen Signalgenerator 200. Der Signalgenerator 200 kann zum Erzeugen eines Dauerstrichsignals (CW-Signals; engl. continuous wave signal) mit einer hohen Spannung und/oder einer Vielzahl von Impulsen mit einer hohen Spannung vorgesehen sein. Andere Arten von Signalen können alternativ durch den Signalgenerator 200 erzeugt werden, wie von jemandem mit technischen Fähigkeiten eingesehen wird. Eine Vielzahl von Ultraschallsendern 202 ist mit dem Signalgenerator 200 elektrisch gekoppelt. Die Ultraschallsender 202, häufig als Übertragungswandler bezeichnet, erzeugen Schallwellen in dem Ultraschallbereich. Die durch die Ultraschallsender 202 erzeugten Schallwellen entsprechen dem Signal, das durch den Signalgenerator 200 erzeugt wird, und können gebeamformt werden, um sich in einer bestimmten Richtung auszubreiten, oder omnidirektional sein. Insbesondere weisen die Schallwellen in der ersten beispielhaften Ausführungsform eine Mittenfrequenz von ca. 100 Kilohertz („kHz“) und eine effektive Bandbreite von ca. 25 kHz auf. Natürlich werden andere geeignete Frequenzen für die Schallwellen in dem Ultraschallbereich von jemandem mit technischen Fähigkeiten realisiert werden.
Die Schallwellen werden an in dem definierten Raum 106 angeordneten Objekten einschließlich des Insassen 110 reflektiert. Der Positionssensor 108 der beispielhaften Ausführungsformen enthält ferner eine Vielzahl von Ultraschallempfängern 204 zum Empfangen dieser reflektierten Schallwellen. Insbesondere werden bei den beispielhaften Ausführungsformen ca. 16 Ultraschallempfänger 204 verwendet, um die reflektierten Schallwellen zu empfangen; jedoch könnte eine andere Anzahl von Ultraschallempfängern 204 eingesetzt werden. Die Ultraschallempfänger 204, gewöhnlich als Wandlerempfänger bezeichnet, erzeugen eine Vielzahl von empfangenen Signalen, die den empfangenen reflektierten Schallwellen entsprechen.
Zwar kann die obige Beschreibung der Ultraschallsender 202 und Ultraschallempfänger 204 separate Vorrichtungen implizieren, aber die Ultraschallsender 202 und Ultraschallempfänger 204 können in einem oder mehreren Transceivern (nicht gezeigt) kombiniert sein, wie von jemandem mit technischen Fähigkeiten eingesehen wird.
Mit fortgesetztem Bezug auf 2 enthält der Positionssensor 108 auch eine Verarbeitungseinheit 206, die mit den Ultraschallempfängern 204 in Verbindung steht. Die Verarbeitungseinheit 206 empfängt die empfangenen Signale von den Ultraschallempfängern 204 und ist zum Bestimmen der Position des Insassen 110 des Fahrzeugs 100 sowie der Anzahl von Insassen 110 konfiguriert. Genauer ist die Verarbeitungseinheit 206 in der ersten beispielhaften Ausführungsform vorgesehen, um die Position des Mundes der Insassen 110 des Fahrzeugs 100 zu bestimmen.
Die Verarbeitungseinheit 206 kann konfiguriert sein, um die reflektierten Signale, die durch die Ultraschallempfänger 204 empfangen werden, zu konditionieren, zu filtern, zu demodulieren und/oder abzutasten, um ein verarbeitetes Signal zu erzeugen. Insbesondere enthält die Verarbeitungseinheit 206 der ersten beispielhaften Ausführungsform einen Konditionierungsschaltkreis 208, der mit den Ultraschallempfängern 204 gekoppelt ist, einen A/D-Wandler („ADC“; engl. analog-to-digital converter) 210, der mit dem Konditionierungsschaltkreis 208 gekoppelt ist, und einen Mikroprozessor 212, der mit dem ADC 210 gekoppelt ist. Die spezifischen Entwurfsparameter der Verarbeitungseinheit 206 können variieren, wie von jemandem mit technischen Fähigkeiten realisiert wird.
Der Mikroprozessor 212 kann zum Identifizieren einer Bewegung des Mundes des Insassen 110 verwendet werden, die angeben kann, dass der Insasse 110 spricht. D.h., der Mikroprozessor 212 ist vorgesehen, um zu bestimmen, dass ein Insasse 110 spricht, und um die Position dieses Insassen 110 zu bestimmen. Insbesondere kann das verarbeitete Signal weiter verarbeitet werden, um nach räumlich-zeitlichen und Geschwindigkeits-(dopplerbasierten) Unterscheidungsmerkmalen, die eine Mundbewegung angeben, und folglich nach einem Hinweis zu suchen, dass der Insasse 110 spricht. Beispielsweise kann eine Lippenbewegung von 10 cm/Sekunde eine Dopplerverschiebung von ca. 300 Hz für eine Ultraschallwelle erzeugen, die auf 100 kHz mittig eingestellt ist. Diese relativ hohen Geschwindigkeiten im Vergleich zu Kopfbewegungen können eine Sprachaktivität angeben.
Die Verarbeitungseinheit 206 kann auch mit dem Signalgenerator 200 in Verbindung stehen. Genauer kann der Mikroprozessor 212 mit dem Signalgenerator 200 in Verbindung stehen, um den Betrieb des Signalgenerators 200 zu steuern. Noch genauer kann der Signalgenerator 200 gesteuert werden, um eine Abtastung des Bildfeldes des Positionssensors durchzuführen, die pulsierende Übertragung zeitlich festzulegen und die Übertragung zu den Empfängern 204 zu synchronisieren.
Bei einer zweiten beispielhaften Ausführungsform verwendet der Positionssensor 108 Radiofrequenzwellen („RF“-Wellen) in einem RF-Bereich, um die Position des Insassen 110 des Fahrzeugs 100 zu bestimmen. Mit anderen Worten kann der Positionssensor 108 Radar zum Bestimmen der Position des Insassen 110 verwenden. Solche RF-Wellen sind weder sichtbar noch hörbar und werden daher die Insassen nicht ablenken und sollten keine Bedenken bezüglich der Privatsphäre darstellen. Folglich kann der Positionssensor 108 als RF-Positionssensor (nicht separat nummeriert) oder als Radar-Positionssensor bezeichnet werden.
Nun in Bezug auf 3 enthält der Positionssensor 108 der zweiten beispielhaften Ausführungsform den Signalgenerator 200. Eine Vielzahl von RF-Sendern 302 ist mit dem Signalgenerator 200 elektrisch gekoppelt. Die RF-Sender 302, gewöhnlich als Sender bezeichnet, erzeugen die RF-Wellen. Die durch die RF-Sender 302 erzeugten RF-Wellen entsprechen dem Signal, das durch den Signalgenerator 200 erzeugt wird. Der Positionssensor 108 der zweiten beispielhaften Ausführungsform kann ein linear frequenzmoduliertes („LFM“) CW-Signal oder ein Ultrabreitband- („UWB“-; engl. ultra-wideband) Impulssignal verwenden. Solche Signale mit einer Bandbreite von ca. 4 Gigahertz („GHz“) mit einer Übertragungsleistung in der Größenordnung von Milliwatt („mW“) wären fähig eine Auflösung von ca. 4 Zentimetern („cm“) zu erzielen. Natürlich werden andere geeignete Konfigurationen von jemandem mit technischen Fähigkeiten realisiert.
Die RF-Wellen werden an in dem definierten Raum 106 angeordneten Objekten einschließlich des Insassen 110 reflektiert. Der Positionssensor 108 der zweiten beispielhaften Ausführungsform enthält ferner eine Vielzahl von RF-Empfängern 304 zum Empfangen dieser reflektierten RF-Wellen. Die RF-Empfänger 304, gewöhnlich als Wandlerempfänger bezeichnet, erzeugen eine Vielzahl von empfangenen Signalen, die den empfangenen reflektierten RF-Wellen entsprechen.
Zwar kann die obige Beschreibung der RF-Sender 302 und RF-Empfänger 304 separate Vorrichtungen implizieren, aber die RF-Sender 302 und RF-Empfänger 304 können in einen oder mehrere Transceiver (nicht gezeigt) kombiniert werden, wie von jemandem mit technischen Fähigkeiten eingesehen wird.
Mit fortgesetztem Bezug auf 3 enthält der Positionssensor 108 auch die Verarbeitungseinheit 206, die mit den RF-Empfängern 304 elektrisch gekoppelt ist. Die Verarbeitungseinheit 206 empfängt die empfangenen Signale von den Ultraschallempfängern 204 und ist zum Bestimmen der Position des Insassen 110 des Fahrzeugs 100 sowie der Anzahl von Insassen 110 konfiguriert. Genauer ist die Verarbeitungseinheit 206 in der zweiten beispielhaften Ausführungsform konfiguriert, um die Position des Mundes der Insassen 110 zu bestimmen. Die Verarbeitungseinheit 206 der veranschaulichten Ausführungsform enthält den Konditionierungsschaltkreis 208, der mit den RF-Empfängern 204 gekoppelt ist, den ADC 210, der mit dem Konditionierungsschaltkreis 208 gekoppelt ist, und den Mikroprozessor 212, der mit dem ADC 210 gekoppelt ist. Die spezifischen Entwurfsparameter der Verarbeitungseinheit 206 können jedoch variieren, wie von jemandem mit technischen Fähigkeiten realisiert wird.
Wie bei der ersten beispielhaften Ausführungsform kann die Verarbeitungseinheit 206 der zweiten beispielhaften Ausführungsform auch mit dem Signalgenerator 200 in Verbindung stehen. Genauer kann der Mikroprozessor 212 mit dem Signalgenerator 200 in Verbindung stehen, um den Betrieb des Signalgenerators 200 zu steuern. Noch genauer kann der Signalgenerator 200 gesteuert werden, um eine Abtastung des Bildfeldes des Positionssensors durchzuführen, die pulsierende Übertragung zeitlich festzulegen und die Übertragung zu den Empfängern 304 zu synchronisieren.
Bei einer anderen beispielhaften Ausführungsform (nicht gezeigt) verwendet der Positionssensor 108 Infrarotwellen, um die Position des Insassen des Fahrzeugs zu bestimmen. Beispielsweise kann der Positionssensor 108 eine Kamera (nicht gezeigt) mit einer Infrarotlichtquelle (nicht gezeigt) enthalten.
In einer dritten beispielhaften Ausführungsform kann der Positionssensor 108, wie in 4 gezeigt, einen oder mehrere Sitzsensoren 400 enthalten. Der/die Sitzsensor(en) 400 können in Sitzen (nicht gezeigt) des Fahrzeugs 100 angeordnet sein, um die Anwesenheit des Insassen 110 zu erfassen. In der dritten beispielhaften Ausführungsform können die Sitzsensoren 400 Druckänderungen messen, die auftreten, wenn sich ein Insasse 110 auf einen der Sitze setzt. Andere Techniken zum Implementieren der Sitzsensoren 400 können jedoch von jemandem mit technischen Fähigkeiten realisiert werden.
Der/die Sitzsensor(en) 400 können auch in Übereinstimmung mit den Ultraschall-, Radar- oder Kamerakonfigurationen verwendet werden, die oben beschrieben wurden. An sich können der/die Sitzsensor(en) 400 in Bereichen des Fahrzeugs 100 verwendet werden, die von den Radar- oder Kamerakonfigurationen verdeckt sind, oder um eine Verifizierung der Positionen bereitzustellen, die durch die Radar- oder Kamerakonfigurationen erzeugt werden. Ferner kann das Audiosystem 102 dieser dritten beispielhaften Ausführungsform auch anthropometrische Daten in Übereinstimmung mit den Sitzsensoren 400 verwenden, um die Kopf- und/oder Mundposition des Insassen 110 zu bestimmen. Beispielsweise kann das System 102 Zugriff auf Höhen- bzw. Größeninformationen des Insassen 110, insbesondere des Fahrers, haben. Das System 102 dieser Ausführungsform ist konfiguriert, um mit diesen Größeninformationen kombiniert mit den Drucksensordaten, die die Anwesenheit des Insassen 110 angeben, und/oder Sitzpositionsdaten die Position des Mundes des Insassen 110 zu berechnen.
Die Verarbeitungseinheit 206 der beispielhaften Ausführungsformen ist ferner konfiguriert, um verschiedene Daten zu übertragen, die die Anzahl von Insassen in dem definierten Raum und die Positionen der Insassen (d.h. die Insassenpositionen) enthalten und enthalten, welcher Insasse spricht, aber nicht darauf beschränkt sind.
Wieder in Bezug auf 1 enthält das Audiosystem 100 ferner eine Vielzahl von Mikrofonen 112. Jedes Mikrofon 112 ist zum Empfangen von Schall aus dem Inneren des definierten Raumes konfiguriert. Die Mikrofone können angrenzend aneinander in einer geometrischen Art und Weise, z.B. in einem Mikrofonarray, positioniert sein. Bei anderen Ausführungsformen (nicht gezeigt) können die Mikrofone 112 jedoch nicht geometrisch verteilt sein.
Das Audiosystem 100 enthält auch einen Prozessor 114. Der Prozessor 114 kann einen Mikroprozessor, einen Mikrocontroller, eine anwendungsspezifische integrierte Schaltung und/oder eine andere geeignete Vorrichtung aufweisen, die zum Durchführen von Berechnungen und/oder Ausführen von Programmen oder anderen Befehlen fähig ist. Der Prozessor 114 steht mit dem Positionssensor 108 und den Mikrofonen 112 in Verbindung. An sich ist der Prozessor 114 zum Empfangen der Insassenposition und von anderen Daten von dem Positionssensor 108 sowie zum Empfangen der Audiosignale von den Mikrofonen 112 konfiguriert.
Nun in Bezug auf 5 ist der Prozessor 114 zum Anwenden eines Beamformers 500 auf die Audiosignale konfiguriert, die von den Mikrofonen 112 empfangen werden. Wie von jemandem mit technischen Fähigkeiten eingesehen wird, ist Beamforming eine räumliche Signalfilterungstechnik, die die Direktionalität von Signalen durch Modifizieren der Phase und Amplitude der empfangenen Signale an jedem Mikrofon 112 des Arrays steuern kann. Der Beamformer 500 der beispielhaften Ausführungsform ist als Software in dem Prozessor 114 implementiert und keine separate Hardwarekomponente. Der Beamformer 500 erzeugt ein Beamformer-Ausgangssignal.
Insbesondere richtet der Beamformer 500 des Audiosystems 100 einen Mikrofonstrahl in Richtung der Insassenposition. D.h., der Prozessor 114 verwendet die Insassenpositionsdaten in den Beamforming-Prozessen. Genauer verwendet der Prozessor 114 der beispielhaften Ausführungsformen die Positionsdaten des sprechenden Insassen, d.h. den Ort des Mundes des Insassen, der spricht, beim Richten bzw. Lenken des Mikrofonstrahls. Bei den beispielhaften Ausführungsformen ist der Beamformer 500 ein fester Beamformer, der den Strahl lediglich basierend auf den Positionsdaten formt, die durch den Positionssensor 108 bereitgestellt werden. Natürlich können die Positionsdaten fortlaufend aktualisiert werden, wie oben beschrieben wurde. An sich kann der Beamformer die Richtung des Mikrofonstrahls ändern, da sich der Mund des sprechenden Insassen bewegt. Zudem kann der Beamformer 500 in anderen Ausführungsformen ein adaptiver Beamformer sein, der den Mikrofonstrahl nicht nur basierend auf den Positionsdaten sondern auch den Audiosignalen selbst lenkt. Einfach gesagt, wird der adaptive Beamformer 500 verwendet, um das empfangende Sprachsignal aus der erwünschten Richtung zu verbessern und Geräusche und Interferenzen, d.h. ungewollte Signale, aus anderen Richtungen abzuschwächen oder zu minimieren.
Der Prozessor 114 der beispielhaften Ausführungsformen ist auch konfiguriert, um eine blockierende Matrix 502 auf alle Audiosignale anzuwenden. Die blockierende Matrix 502 ist ein räumliches Sperrfilter, das einen Zielort ausschließt und die anderen Orte durchlässt. An sich blockiert die blockierende Matrix 502 Audiosignale von der Position des sprechenden Insassen. Die blockierende Matrix 502 erzeugt eine Vielzahl von Ausgangssignalen der blockierenden Matrix, die jeweils einem der Audiosignale entsprechen, die durch die Mikrofone 112 bereitgestellt werden.
Der Prozessor 114 der beispielhaften Ausführungsformen ist ferner zum Anwenden eines adaptiven Geräuschunterdrückers 504, beispielsweise ein Generalized Sidelobe Canceller (zu Deutsch etwa: „Verallgemeinerter Nebenkeulenunterdrücker“), vorgesehen, wie von jemandem mit technischen Fähigkeiten eingesehen wird. Der Prozessor 114 der beispielhaften Ausführungsform ist zum Summieren des Beamformer-Ausgangssignals und des Ausgangssignals der adaptiven Geräuschunterdrückung vorgesehen, um ein Ausgangssignal des sprechenden Insassen zu erzeugen. Das Ausgangssignal des sprechenden Insassen repräsentiert das durch den sprechenden Insassen durchgeführte Sprechen. Das Ausgangssignal des sprechenden Insassen kann dann zu dem Spracherkennungssystem 104 übertragen werden. Der adaptive Geräuschunterdrücker 504 minimiert die Varianz des Ausgangssignals des sprechenden Insassen des Prozessors 114.
Wie zuvor erwähnt, kann der Mikroprozessor 212 zum Identifizieren der Bewegung des Mundes des Insassen verwendet werden. Die akkurate Erfassung des Vorhandenseins von Sprache ermöglicht die akkurate Berechnung der relativen Übertragungsfunktionen zwischen Mikrofonsignalen und daher akkuratere Komponenten, die durch den Beamformer 500 und die blockierende Matrix 502 produziert werden. Die relativen Übertragungsfunktionen können durch Korrelieren der Mikrofonsignale berechnet werden, wenn der Benutzer spricht. Die robuste Spracherkennung durch den Positionssensor zum verbesserten Beamforming kann mit den zuvor beschriebenen Ausführungsformen implementiert werden.
WEITERE AUSFÜHRUNGSFORMEN

1. Adaptives Beamforming-Verfahren zum Empfangen erwünschter Töne, wobei das Verfahren Folgendes aufweist:
- Bestimmen einer Insassenposition eines sprechenden Insassen innerhalb eines definierten Raumes;
- Empfangen von Schall aus dem Inneren des definierten Raumes mit einer Vielzahl von Mikrofonen;
- Erzeugen einer Vielzahl von Audiosignalen, die dem empfangenen Schall entsprechen, an jedem Mikrofon der Vielzahl von Mikrofonen; und
- Anwenden eines Beamformers auf die Audiosignale, um einen Mikrofonstrahl in Richtung der bestimmten Insassenposition zu richten und ein Beamformer-Ausgangssignal zu erzeugen.
2. Verfahren nach der Ausführungsform 1, ferner aufweisend:
- Anwenden einer blockierenden Matrix auf alle Audiosignale, um andere Positionen auszuschließen, die nicht mit dem sprechenden Insassen assoziiert werden, und um eine Vielzahl von Ausgangssignalen der blockierenden Matrix zu erzeugen, die jedem Signal der Audiosignale entsprechen;
- Anwenden eines adaptiven Geräuschunterdrückungsprozesses auf die Ausgangssignale der blockierenden Matrix, um ein Ausgangssignal der adaptiven Geräuschunterdrückung zu erzeugen; und
- Summieren des Beamformer-Ausgangssignals und des Ausgangssignals der adaptiven Geräuschunterdrückung, um ein Ausgangssignal des sprechenden Insassen zu erzeugen.
3. Verfahren nach der Ausführungsform 1, ferner mit dem Senden des Ausgangssignals des sprechenden Insassen zu einem Spracherkennungssystem.
4. Verfahren nach der Ausführungsform 1, ferner mit dem Senden des Ausgangssignals des sprechenden Insassen zu einem Telefoniesystem.
5. Verfahren nach der Ausführungsform 1, wobei das Bestimmen einer Insassenposition Folgendes aufweist:
- Übertragen von Wellen in zumindest einem Ultraschallbereich und/oder einem Radiofrequenzbereich (RF-Bereich) mit einer Vielzahl von Sendern;
- Empfangen von reflektierten Wellen; und
- Analysieren von Signalen, die den übertragenen und reflektierten Wellen entsprechen, um die Insassenposition zu bestimmen.
6. Verfahren nach der Ausführungsform 1, ferner mit dem Bestimmen, dass ein Insasse spricht.
7. Verfahren nach der Ausführungsform 6, wobei das Bestimmen, dass ein Insasse spricht, das Identifizieren einer Bewegung eines Mundes des sprechenden Insassen durch Suchen nach Unterscheidungsmerkmalen in räumlich-zeitlichen Merkmalen und/oder Geschwindigkeitsmerkmalen von Signalen aufweist, die den reflektierten Wellen entsprechen.
8. Verfahren nach der Ausführungsform 1, wobei das Bestimmen einer Insassenposition das Analysieren von Sitzsensordaten von zumindest einem Sitzsensor umfasst.
9. System zum Empfangen erwünschter Töne, wobei das System Folgendes aufweist:
- einen Positionssensor, der zum Bestimmen einer Insassenposition eines sprechenden Insassen innerhalb eines definierten Raumes und Übertragen der Position des sprechenden Insassen konfiguriert ist;
- eine Vielzahl von Mikrofonen, die zum Empfangen von Schall aus dem Inneren des definierten Raumes und Übertragen von Audiosignalen konfiguriert sind, die dem empfangenen Schall entsprechen; und
- einen Prozessor, der mit dem Positionssensor und den Mikrofonen in Verbindung steht und zum Empfangen der Position des sprechenden Insassen und der Audiosignale, Anwenden eines Beamformers auf die Audiosignale, um einen Mikrofonstrahl in Richtung der bestimmten Insassenposition zu richten, und Erzeugen eines Beamformer-Ausgangssignals vorgesehen ist.
10. System nach der Ausführungsform 9, wobei der Prozessor auch zum Anwenden einer blockierenden Matrix auf alle Audiosignale, um andere Positionen auszuschließen, die nicht mit dem sprechenden Insassen assoziiert werden, um eine Vielzahl von Ausgangssignalen der blockierenden Matrix zu erzeugen, die jedem Signal der Audiosignale entsprechen, Anwenden eines adaptiven Geräuschunterdrückungsprozesses auf die Ausgangssignale der blockierenden Matrix, um ein Ausgangssignal der adaptiven Geräuschunterdrückung zu erzeugen, und Summieren des Beamformer-Ausgangssignals und des Ausgangssignals der adaptiven Geräuschunterdrückung, um ein Ausgangssignal eines sprechenden Insassen zu erzeugen, vorgesehen ist.
11. System nach der Ausführungsform 9, wobei der Positionssensor Folgendes aufweist:
- einen Signalgenerator;
- eine Vielzahl von Ultraschallsendern, die mit dem Signalgenerator elektrisch gekoppelt sind und zum Erzeugen von Schallwellen im Ultraschallbereich konfiguriert sind;
- eine Vielzahl von Ultraschallempfängern zum Empfangen von reflektierten Schallwellen in dem Ultraschallbereich und Erzeugen einer Vielzahl von empfangenen Signalen, die den empfangenen reflektierten Schallwellen entsprechen; und
- eine Verarbeitungseinheit, die mit den Ultraschallempfängern und dem Prozessor elektrisch gekoppelt ist und zum Empfangen der empfangenen Signale, Bestimmen der Insassenposition und Versorgen des Prozessors mit der Insassenposition konfiguriert ist.
12. System nach der Ausführungsform 11, wobei der Positionssensor zum Identifizieren einer Bewegung eines Mundes des sprechenden Insassen durch Suchen nach Unterscheidungsmerkmalen in räumlich-zeitlichen Merkmalen und/oder Geschwindigkeitsmerkmalen von Signalen, die den reflektierten Schallwellen entsprechen, konfiguriert ist.
13. System nach der Ausführungsform 9, wobei der Positionssensor Folgendes aufweist:
- einen Signalgenerator;
- eine Vielzahl von RF-Sendern, die mit dem Signalgenerator elektrisch gekoppelt sind, zum Erzeugen von RF-Wellen in dem RF-Bereich;
- eine Vielzahl von RF-Empfängern zum Empfangen von reflektierten RF-Wellen in dem RF-Bereich und Erzeugen einer Vielzahl von empfangenen Signalen, die den empfangenen, reflektierten RF-Wellen entsprechen; und
- eine Verarbeitungseinheit, die mit den RF-Empfängern und dem Prozessor elektrisch gekoppelt ist und zum Empfangen der empfangenen Signale, Bestimmen der Insassenposition und Versorgen des Prozessors mit der Insassenposition konfiguriert ist.
14. System nach der Ausführungsform 13, wobei der Positionssensor zum Identifizieren einer Bewegung eines Mundes des sprechenden Insassen durch Suchen nach Unterscheidungsmerkmalen in räumlich-zeitlichen Merkmalen und/oder Geschwindigkeitsmerkmalen von Signalen, die den reflektierten RF-Wellen entsprechen, konfiguriert ist.
15. System nach der Ausführungsform 9, wobei der Positionssensor eine Kamera aufweist.
16. Fahrzeug, aufweisend:
- einen Fahrgastraum;
- ein Audiosystem mit Folgendem:
  - einem Positionssensor, der zum Bestimmen einer Insassenposition eines sprechenden Insassen innerhalb des Fahrgastraumes und Übertragen der Position des sprechenden Insassen konfiguriert ist;
  - einer Vielzahl von Mikrofonen, die zum Empfangen von Schall aus dem Inneren des definierten Raumes und Übertragen von Audiosignalen, die dem empfangenen Schall entsprechen, konfiguriert sind;
  - einem Prozessor, der mit dem Positionssensor und den Mikrofonen in Verbindung steht und zum Empfangen der Position des sprechenden Insassen und der Audiosignale, Anwenden eines Beamformers auf die Audiosignale, um einen Mikrofonstrahl in Richtung der Insassenposition zu richten, und Erzeugen eines Beamformer-Ausgangssignals, Anwenden einer blockierenden Matrix auf alle Audiosignale, um andere Positionen auszuschließen, die nicht mit dem sprechenden Insassen assoziiert werden, um eine Vielzahl von Ausgangssignalen der blockierenden Matrix zu erzeugen, die allen Audiosignalen entsprechen, Anwenden eines adaptiven Geräuschunterdrückungsprozesses auf die Ausgangssignale der blockierenden Matrix, um ein Ausgangssignal der adaptiven Geräuschunterdrückung zu erzeugen, und Summieren des Beamformer-Ausgangssignals und Ausgangssignals der adaptiven Geräuschunterdrückung, um ein Ausgangssignal des sprechenden Insassen zu erzeugen, konfiguriert ist; und
zumindest ein Spracherkennungssystem und/oder Telefoniesystem in Verbindung mit dem Audiosystem zum Empfangen des Ausgangssignals des sprechenden Insassen.
17. System nach der Ausführungsform 16, wobei der Positionssensor Folgendes aufweist:
- einen Signalgenerator;
- eine Vielzahl von Ultraschallsendern, die mit dem Signalgenerator elektrisch gekoppelt sind und zum Erzeugen von Schallwellen in dem Ultraschallbereich vorgesehen sind;
- eine Vielzahl von Ultraschallempfängern zum Empfangen von reflektierten Schallwellen in dem Ultraschallbereich und Erzeugen einer Vielzahl von empfangenen Signalen, die den empfangenen reflektierten Schallwellen entsprechen; und
- eine Verarbeitungseinheit, die mit den Ultraschallempfängern und dem Prozessor elektrisch gekoppelt ist und zum Empfangen der empfangenen Signale, Bestimmen der Insassenposition und Versorgen des Prozessors mit der Insassenposition konfiguriert ist.
18. System nach der Ausführungsform 17, wobei der Positionssensor zum Identifizieren einer Bewegung eines Mundes des sprechenden Insassen durch Suchen nach Unterscheidungsmerkmalen in räumlich-zeitlichen Merkmalen und/oder Geschwindigkeitsmerkmalen von Signalen, die den reflektierten Schallwellen entsprechen, konfiguriert ist.
19. System nach der Ausführungsform 16, wobei der Positionssensor Folgendes aufweist:
- einen Signalgenerator;
- eine Vielzahl von RF-Sendern, die mit dem Signalgenerator elektrisch gekoppelt sind, zum Erzeugen von RF-Wellen in dem RF-Bereich;
- eine Vielzahl von RF-Empfängern zum Empfangen von reflektierten RF-Wellen in dem RF-Bereich und Erzeugen einer Vielzahl von empfangenen Signalen, die den empfangenen reflektierten RF-Wellen entsprechen; und
- eine Verarbeitungseinheit, die mit den RF-Empfängern und dem Prozessor elektrisch gekoppelt ist und zum Empfangen der empfangenen Signale, Bestimmen der Insassenposition und Versorgen des Prozessors mit der Insassenposition vorgesehen ist.
20. System nach der Ausführungsform 19, wobei der Positionssensor zum Identifizieren einer Bewegung eines Mundes des sprechenden Insassen durch Suchen nach Unterscheidungsmerkmalen in räumlich-zeitlichen Merkmalen und/oder Geschwindigkeitsmerkmalen von Signalen, die den reflektierten RF-Wellen entsprechen, konfiguriert ist.

Claims

Adaptives Beamforming-Verfahren zum Empfangen erwünschter Töne, wobei das Verfahren Folgendes aufweist: Bestimmen einer Insassenposition eines sprechenden Insassen (110) innerhalb eines definierten Raumes (106); Empfangen von Schall aus dem Inneren des definierten Raumes (106) mit einer Vielzahl von Mikrofonen (112); Erzeugen einer Vielzahl von Audiosignalen, die dem empfangenen Schall entsprechen, an jedem Mikrofon (112) der Vielzahl von Mikrofonen (112); Anwenden eines Beamformers (500) auf die Audiosignale, um einen Mikrofonstrahl in Richtung der bestimmten Insassenposition zu richten und ein Beamformer-Ausgangssignal zu erzeugen; Anwenden einer blockierenden Matrix (502) auf alle Audiosignale, um andere Positionen auszuschließen, die nicht mit dem sprechenden Insassen (110) assoziiert werden, und um eine Vielzahl von Ausgangssignalen der blockierenden Matrix (502) zu erzeugen, die jedem Signal der Audiosignale entsprechen; Anwenden eines adaptiven Geräuschunterdrückungsprozesses (504) auf die Ausgangssignale der blockierenden Matrix (502), um ein Ausgangssignal der adaptiven Geräuschunterdrückung zu erzeugen; und Summieren des Beamformer-Ausgangssignals und des Ausgangssignals der adaptiven Geräuschunterdrückung, um ein Ausgangssignal des sprechenden Insassen (110) zu erzeugen.
Verfahren nach Anspruch 1, ferner mit dem Senden des Ausgangssignals des sprechenden Insassen zu einem Spracherkennungssystem (104) und/oder zu einem Telefoniesystem (105).
Verfahren nach einem der vorangehenden Ansprüche, wobei das Bestimmen einer Insassenposition Folgendes aufweist: Übertragen von Wellen in zumindest einem Ultraschallbereich und/oder einem Radiofrequenzbereich (RF-Bereich) mit einer Vielzahl von Sendern (202, 302); Empfangen von reflektierten Wellen; und Analysieren von Signalen, die den übertragenen und reflektierten Wellen entsprechen, um die Insassenposition zu bestimmen.
Verfahren nach einem der vorangehenden Ansprüche, ferner mit dem Bestimmen, dass ein Insasse (110) spricht.
Verfahren nach Anspruch 4, wobei das Bestimmen, dass ein Insasse (110) spricht, das Identifizieren einer Bewegung eines Mundes des sprechenden Insassen (110) durch Suchen nach Unterscheidungsmerkmalen in räumlich-zeitlichen Merkmalen und/oder Geschwindigkeitsmerkmalen von Signalen aufweist, die den reflektierten Wellen entsprechen.
Verfahren nach Anspruch 1, wobei das Bestimmen einer Insassenposition das Analysieren von Sitzsensordaten von zumindest einem Sitzsensor (400) umfasst.
System zum Empfangen erwünschter Töne, wobei das System Folgendes aufweist: einen Positionssensor (108), der zum Bestimmen einer Insassenposition eines sprechenden Insassen (110) innerhalb eines definierten Raumes (106) und Übertragen der Position des sprechenden Insassen (110) konfiguriert ist; eine Vielzahl von Mikrofonen (112), die zum Empfangen von Schall aus dem Inneren des definierten Raumes (106) und Übertragen von Audiosignalen konfiguriert sind, die dem empfangenen Schall entsprechen; einen Prozessor (114, 212), der mit dem Positionssensor (108) und den Mikrofonen (112) in Verbindung steht und zum Empfangen der Position des sprechenden Insassen (110) und der Audiosignale, Anwenden eines Beamformers auf die Audiosignale, um einen Mikrofonstrahl in Richtung der bestimmten Insassenposition zu richten, und Erzeugen eines Beamformer-Ausgangssignals vorgesehen ist,wobei der Prozessor (114, 212) auch zum Anwenden einer blockierenden Matrix (502) auf alle Audiosignale, um andere Positionen auszuschließen, die nicht mit dem sprechenden Insassen (110) assoziiert werden, um eine Vielzahl von Ausgangssignalen der blockierenden Matrix (502) zu erzeugen, die jedem Signal der Audiosignale entsprechen, Anwenden eines adaptiven Geräuschunterdrückungsprozesses auf die Ausgangssignale der blockierenden Matrix (502), um ein Ausgangssignal der adaptiven Geräuschunterdrückung zu erzeugen, und Summieren des Beamformer-Ausgangssignals und des Ausgangssignals der adaptiven Geräuschunterdrückung, um ein Ausgangssignal eines sprechenden Insassen zu erzeugen, vorgesehen ist.
Fahrzeug (100), aufweisend: einen Fahrgastraum (106); ein Audiosystem (102) mit Folgendem: einem Positionssensor (108), der zum Bestimmen einer Insassenposition eines sprechenden Insassen (110) innerhalb des Fahrgastraumes (106) und Übertragen der Position des sprechenden Insassen (110) konfiguriert ist; einer Vielzahl von Mikrofonen (112), die zum Empfangen von Schall aus dem Inneren des Fahrgastraumes (106) und Übertragen von Audiosignalen, die dem empfangenen Schall entsprechen, konfiguriert sind; einem Prozessor (114, 212), der mit dem Positionssensor (108) und den Mikrofonen (112) in Verbindung steht und zum Empfangen der Position des sprechenden Insassen (110) und der Audiosignale, Anwenden eines Beamformers (500) auf die Audiosignale, um einen Mikrofonstrahl in Richtung der Insassenposition zu richten, und Erzeugen eines Beamformer-Ausgangssignals, Anwenden einer blockierenden Matrix (502) auf alle Audiosignale, um andere Positionen auszuschließen, die nicht mit dem sprechenden Insassen (110) assoziiert werden, um eine Vielzahl von Ausgangssignalen der blockierenden Matrix (502) zu erzeugen, die allen Audiosignalen entsprechen, Anwenden eines adaptiven Geräuschunterdrückungsprozesses (504) auf die Ausgangssignale der blockierenden Matrix (502), um ein Ausgangssignal der adaptiven Geräuschunterdrückung zu erzeugen, und Summieren des Beamformer-Ausgangssignals und Ausgangssignals der adaptiven Geräuschunterdrückung, um ein Ausgangssignal des sprechenden Insassen (110) zu erzeugen, konfiguriert ist; und zumindest ein Spracherkennungssystem (104) und/oder Telefoniesystem (105) in Verbindung mit dem Audiosystem (102) zum Empfangen des Ausgangssignals des sprechenden Insassen (110) .