-
Die vorliegende Erfindung betrifft eine Mikrofoneinrichtung.
-
Moderne Desktop-Computer oder Laptops weisen typischerweise eine Webcam sowie ein Mikrofon auf, um einen Videochat oder eine Videokonferenz beispielsweise über Skype zu ermöglichen. Die hierbei verwendeten Mikrofone weisen aber typischerweise keine Richtwirkung auf, so dass es vorkommen kann, dass der Signal-Rausch-Abstand schlecht ist und die übertragene Audioqualität gering ist.
-
US 6,731,334 zeigt ein System mit einem Mikrofonarray (einer Vielzahl von Mikrofonen), welches die Position eines Sprechers anhand der aufgezeichneten Audiosignale bestimmt und dann eine Kamera auf die Position des Sprechers ausrichtet.
-
US 6,009,210 zeigt ein Face-Tracking-System, welches dazu geeignet ist, ein Gesicht in einem Kamerafeld zu erkennen und eine optische, virtuelle Umgebung entsprechend nachzuführen.
-
Es ist eine Aufgabe der vorliegenden Erfindung, eine Mikrofoneinrichtung vorzusehen, welche über einen verbesserten Signal-Rausch-Abstand verfügt und die Richtwirkung der Mikrofoneinheit auf die Position mindestens einer Person im Raum anpassen kann.
-
Diese Aufgabe wird durch eine Mikrofoneinrichtung gemäß Anspruch 1 gelöst.
-
Somit wird eine Mikrofoneinrichtung mit mindestens einer Kamera mit einem Sichtfeld zum Erfassen von Bilddaten, mindestens einer Mikrofoneinheit mit einstellbarer Richtwirkung und einer Steuereinheit zum Einstellen der Richtwirkung der Mikrofoneinheit vorgesehen. Das Einstellen der Richtwirkung der mindestens einen Mikrofoneinheit basiert auf ermittelten Positionsinformationen mindestens eines Anwenders in dem Sichtfeld der Kamera. Die Kamera und/oder die Steuereinheit ist dazu ausgestaltet, aus den von der Kamera erfassten Bilddaten Positionsinformationen mindestens eines Anwenders zu ermitteln.
-
Gemäß einem Aspekt der vorliegenden Erfindung werden die Positionsinformationen des mindestens einen Anwenders basierend auf einer Gesichtserkennung aus den erfassten Bilddaten der Kamera ermittelt. Die Gesichtserkennung ist eine einfache Art und Weise, zunächst einen Anwender in einem Sichtfeld der Kamera zu erfassen und dann eine Bewegung des Anwenders nachzuvollziehen.
-
Gemäß einem Aspekt der vorliegenden Erfindung ist die Steuereinheit dazu ausgestaltet, eine Bündelung der Richtwirkung der Mikrofoneinheit entsprechend der Größe eines erfassten Bildausschnittes basierend auf der Gesichtserkennung zu steuern.
-
Gemäß einem weiteren Aspekt der vorliegenden Erfindung ist die Steuereinheit dazu ausgestaltet, die Richtwirkung der Mikrofoneinheit derart zu steuern, dass mehr als eine Hauptrichtung der Richtwirkung vorhanden ist, wenn die Kamera mehr als einen Anwender in dem Sichtfeld erfasst.
-
Gemäß einem weiteren Aspekt der vorliegenden Erfindung ist die Steuereinheit dazu ausgestaltet, das Audiosignal in Abhängigkeit der erfassten Audio- und/oder Videosignale stumm zu schalten.
-
Die Erfindung betrifft ebenfalls ein Verfahren zum Steuern einer Mikrofoneinrichtung, die eine Kamera mit einem Sichtfeld zum Erfassen von Bilddaten und eine Mikrofoneinheit mit einer einstellbaren Richtwirkung aufweist. Aus den von der Kamera erfassten Bilddaten werden Positionsinformationen mindestens eines Anwenders ermittelt und die Richtwirkung der Mikrofoneinheit wird basierend auf diesen ermittelten Positionsinformationen durchgeführt.
-
Die Erfindung betrifft den Gedanken, eine Mikrofoneinrichtung mit einer Kamera und einer Mikrofoneinheit (Mikrofonarray) vorzusehen, wobei die Mikrofoneinheit dazu ausgestaltet ist, die Richtwirkung der Mikrofoneinheit zu adaptieren. Die Adaption der Richtwirkung der Mikrofoneinheit basiert auf Positionsinformationen eines Sprechers in einem Raum, welche basierend auf den Ausgangssignalen der Kamera ermittelt wurden.
-
Die Ermittlung der Position eines Sprechers kann beispielsweise in einer Steuereinheit erfolgen, welche mit der Kamera und dem Mikrofonarray verbunden ist.
-
Weitere Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
-
Vorteile und Ausführungsbeispiele der Erfindung werden nachstehend unter Bezugnahme auf die Zeichnung näher erläutert.
-
1 zeigt eine schematische Darstellung einer Mikrofoneinrichtung gemäß einem ersten Ausführungsbeispiel,
-
2A–2C zeigen verschiedene schematische Darstellungen einer Ausrichtung der Mikrofoneinrichtung gemäß dem ersten Ausführungsbeispiel,
-
3 zeigt eine schematische Darstellung einer Mikrofoneinrichtung gemäß einem zweiten Ausführungsbeispiel, und
-
4 zeigt eine schematische Darstellung einer Mikrofoneinrichtung gemäß einem dritten Ausführungsbeispiel.
-
1 zeigt eine schematische Darstellung einer Mikrofoneinrichtung gemäß einem ersten Ausführungsbeispiel. Die Mikrofoneinrichtung gemäß dem ersten Ausführungsbeispiel weist mindestens eine Kamera K zum Aufzeichnen von Bilddaten, mindestens eine Mikrofoneinheit (Mikrofonarray) M mit einer Mehrzahl von Mikrofonen zum Aufzeichnen von Audiosignalen und eine Steuer- und/oder Auswerteeinheit A zum Auswerten der Ausgangssignale der Kamera K und zum Einstellen bzw. Adaptieren der Richtwirkung der Mikrofoneinheit M auf. Die Kamera K kann ein Sichtfeld oder eine Abbildungsgröße B aufweisen, wobei der Benutzer innerhalb des Sichtfeldes B beispielsweise anhand von Gesichtsmerkmalen erkannt wird. Diese Erkennung der Gesichtsmerkmale kann in der Kamera K oder in der Steuereinheit A erfolgen. Die Kamera K (oder die Auswerteeinheit A) ermittelt basierend auf den Gesichtsmerkmalen einen Bildausschnitt B', welcher kleiner ist als die Abbildungsgröße bzw. das Sichtfeld B. Des Weiteren wird die Position des Bildausschnittes B' (von der Kamera K oder der Steuereinheit A) erfasst (d. h. die X- und Y-Koordinaten werden erfasst). Ferner kann eine Bilddiagonale Z des Bildausschnittes B' ermittelt werden. Der Parameter Z kann auch mit der Entfernung des Benutzers zu der Kamera K korrespondieren.
-
Die Kamera K kann optional ein Kamerakontrollsignal KC an die Auswerteeinheit A ausgeben. Das Kamerakontrollsignal KC kann die Parameter X, Y und Z beinhalten. Die Auswerteeinheit A empfängt das Kamerakontrollsignal KC und basierend auf den dort enthaltenen Positionsinformationen wird ein Steuersignal CS an das Mikrofonarray M ausgegeben. Alternativ dazu kann die Steuereinheit die Parameter X, Y und Z aus dem Kamerasignal ermitteln.
-
Die Mikrofoneinheit (Mikrofonarray) M kann ein Mikrofonkontrollsignal MS an die Auswerteeinheit A ausgeben.
-
Des Weiteren kann die Kamera K ein Videosignal VS ausgeben und die Mikrofoneinheit M kann (optional über die Auswerteeinheit) ein erfasstes Audiosignal ausgeben.
-
Die Auswerteeinheit A gibt ein Auswertesignal CS an die Mikrofoneinheit M aus. Basierend auf diesem Auswertesignal CS kann die Richtwirkung der Mikrofoneinheit eingestellt werden. Die Auswerteeinheit A wird die in dem Kamerakontrollsignal KC enthaltenen Positionsinformationen bei der Bestimmung des Auswertesignals CS berücksichtigen, um die Richtwirkung der Mikrofoneinheit M derart zu adaptieren oder zu steuern, dass die Richtwirkung an die durch die Kamera K ermittelte Position eines Nutzers angepasst ist. Dies ist insbesondere vorteilhaft, weil somit sichergestellt werden kann, dass der Signal-Rausch-Abstand des erfassten Audiosignals optimiert werden kann. Ferner kann optional ein Öffnungswinkel der Mikrofonkeule der Mikrofoneinheit an die Bilddiagonale des Bildausschnittes B' angepasst werden.
-
Das Videosignal VS der Kamera und das Audiosignal AS der Mikrofoneinheit M stellen die Ausgangssignale der Mikrofoneinheit dar.
-
Diese Signale können dann in einer nachfolgenden Signalverarbeitung weiterverarbeitet werden. Die nachfolgenden Signalverarbeitungen können dabei Telekommunikationseinrichtungen oder Erfassungseinrichtungen darstellen.
-
2A bis 2C zeigen verschiedene schematische Darstellungen einer Ausrichtung der Mikrofoneinrichtung gemäß dem ersten Ausführungsbeispiel. In den 2A bis 2C sind verschiedene mögliche Positionen eines Anwenders der Mikrofoneinrichtung gezeigt. Zunächst ist jeweils die Abbildungsgröße (Sichtfeld) B der Kamera und schematisch die Mikrofoneinheit M sowie die Richtwirkung D der Mikrofoneinheit M gezeigt. Während in 2A der Anwender sich in der linken oberen Ecke des Sichtfeldes B der Kamera K befindet, ist der Anwender in 2B im Wesentlichen in der Mitte. In 2A und 2B ist dann auch zu sehen, wie sich die Richtwirkung der Mikrofoneinheit ändert.
-
2C zeigt einen Fall, bei dem sich der Anwender in der rechten unteren Ecke befindet und weiter entfernt bezüglich der Kamera K ist. Auch hierbei ändert sich die Richtwirkung D der Mikrofoneinheit M.
-
Die Kamera K gemäß der Erfindung und/oder die Steuereinheit und/oder Auswerteeinheit A kann über eine Face Tracking-Funktion verfügen. Das übertragene Bild kann beispielsweise einen Ausschnitt des erfassten Bildes darstellen. Die Größe und Position des übertragenen Bildausschnitts wird durch Erkennung von Gesichtsmerkmalen eines Benutzers errechnet. Bewegt sich der Sprecher relativ zur Kamera, so ändert sich der benutzte Bildausschnitt und die Kamera führt nach, obwohl sie ortsfest ist. Durch diese Face Tracking-Funktion kann ebenfalls eine Zoom-Einstellung der Kamera durch die Gesichtserkennung gesteuert werden.
-
Obwohl gemäß dem ersten Ausführungsbeispiel sich lediglich eine Person in der Abbildungsgröße B der Kamera befindet, kann die Erfindung auch dann eingesetzt werden, wenn sich mehrere Personen innerhalb der Abbildungsgröße der Kamera befinden.
-
Gemäß der Erfindung kann die Auswerteeinheit/Steuereinheit A sowohl das Kamerakontrollsignal KC als auch das Mikrofonsignal MS auswerten. Wenn die Kamera K keinen Anwender innerhalb des Erfassungsbereichs der Kamera detektiert, dann kann das Ausgangssignal der Mikrofoneinheit gemutet werden, d. h. das Audiosignal wird nicht weitergegeben. Das Muten des Audiokanals kann auch dann erfolgen, wenn sowohl die Kamera keinen Sprecher erkennt als auch die Mikrofoneinheit M kein Audiosignal erfasst.
-
Gemäß einem Aspekt der Erfindung kann das durch die Mikrofoneinheit M erfasste Audiosignal erst nach einem festen Zeitintervall (beispielsweise 3 Sekunden) einen Sprecher erkennen. Somit kann vermieden werden, dass ein Audiosignal AS ausgegeben wird, wenn sich lediglich eine Person kurzzeitig in dem Sichtfeld der Kamera K befindet und erkannt wird.
-
Gemäß einem weiteren Aspekt der vorliegenden Erfindung kann der Audiokanal nicht sofort, sondern nach einem vorgegebenen Zeitintervall gemutet werden, sofern die Kamera K keinen Sprecher in ihrem Sichtfeld erkennt.
-
Die Auswerteeinheit/Steuereinheit A kann dazu ausgestaltet sein, in Abhängigkeit der Positionsinformationen des Anwenders sowie der Entfernung des Anwenders zur Kamera nicht nur die Richtwirkung der Mikrofoneinheit M, sondern auch die Verstärkung des Audiosignals zu steuern.
-
Ferner kann eine Klanganpassung des Mikrofonsignals in Abhängigkeit der Entfernung eines Sprechers von der Mikrofoneinheit M (welches durch die Kamera K erfasst wird) ermittelt werden. Somit kann beispielsweise ein Nahbesprechungseffekt vermieden werden.
-
Gemäß einem weiteren Aspekt der Erfindung kann das Mikrofonsignal zunächst aufgezeichnet und zwischengespeichert werden, bevor es an die nachfolgende Signalverarbeitung ausgegeben wird. Dies erfolgt wenn die Kamera einen Sprecher bzw. eine Person erfasst. Wird dann danach ebenfalls ein Audiosignal durch die Mikrofoneinheit M aufgezeichnet bzw. erfasst, so wird zunächst das Audiosignal aus dem Speicher wiedergegeben. Als Startzeitpunkt kann dabei ein Zeitpunkt kurz vor dem Erkennungszeitpunkt des Mikrofons verwendet werden. Diese Verzögerung zwischen Videosignal und Audiosignal kann im weiteren Verlauf verkleinert werden, bis die Verzögerung minimiert ist. Typischerweise lässt sich diese Verzögerung innerhalb von ein bis zwei Sekunden aufholen. Somit kann ein Verschlucken von Satzanfängen vermieden werden, wie es aus Anwendungen mit einer reinen Audiosteuerung bekannt ist.
-
Gemäß der Erfindung kann die Mikrofoneinrichtung eine Kamera und beispielsweise ein zweidimensionales Mikrofonarray (z. B. 9 MEMS Mikrofon) aufweisen. Die Kameraeinrichtung weist ferner die Auswerteeinheit/Steuereinheit A auf. Die Mikrofoneinrichtung kann beispielsweise bei Telepresence-Anwendungen (beispielsweise Home Office unterwegs) verwendet werden. Die Mikrofoneinrichtung gemäß der Erfindung kann ebenfalls beispielsweise bei IP-Telefonie verwendet werden. Die Mikrofoneinrichtung gemäß der Erfindung kann auch dann verwendet werden, wenn das durch die Kamera aufgezeichnete Videosignal nicht mit übertragen wird, d. h. die Kamera dient lediglich dazu, die Position des Anwenders zu erfassen, damit die Richtwirkung des Mikrofonarrays entsprechend angepasst werden kann.
-
3 zeigt eine schematische Darstellung einer Mikrofoneinrichtung gemäß einem zweiten Ausführungsbeispiel. Gemäß dem zweiten Ausführungsbeispiel kann eine erfindungsgemäße Mikrofoneinrichtung MA auf einem Konferenztisch KT platziert werden. Um den Konferenztisch herum kann eine Mehrzahl von Anwendern bzw. Teilnehmern T vorhanden sein. Die Mikrofoneinrichtung gemäß dem zweiten Ausführungsbeispiel kann auf der Mikrofoneinrichtung gemäß dem ersten Ausführungsbeispiel basieren, d. h. sie kann eine Kamera K, eine Mikrofoneinheit M (beispielsweise ein Mikrofonarray mit einer Mehrzahl von Mikrofonen) sowie eine Steuereinheit A aufweisen. Gemäß dem zweiten Ausführungsbeispiel können mehrere Kameras K vorgesehen sein, um beispielsweise ein 360° Sichtfeld abdecken zu können. Alternativ dazu kann eine oder mehrere der Kameras schwenkbar ausgestaltet sein.
-
Die Mikrofoneinrichtung gemäß dem zweiten Ausführungsbeispiel kann über eine oder mehrere Mikrofoneinheiten verfügen. Mittels der mindestens einen Kamera K kann (wie gemäß dem ersten Ausführungsbeispiel beschrieben) eine Positionsbestimmung mindestens einer der Teilnehmer erfolgen. Dies kann beispielsweise durch eine Gesichtserkennung sowie eine anschließende Positionsberechnung erfolgen. Ein Erfassungsbereich E der Mikrofoneinrichtung MA ist vorzugsweise so ausgestaltet, dass er den Bereich um den Konferenztisch KT abdeckt.
-
4 zeigt eine schematische Darstellung einer Mikrofoneinrichtung gemäß einem dritten Ausführungsbeispiel. Hierbei kann die Mikrofoneinrichtung gemäß dem dritten Ausführungsbeispiel auf der Mikrofoneinrichtung gemäß dem zweiten Ausführungsbeispiel beruhen.
-
Gemäß dem dritten Ausführungsbeispiel sind zwei Mikrofoneinrichtungen MA1, MA2 beispielsweise auf einem Konferenztisch KT platziert und sind dazu ausgestaltet, mindestens einen Teilnehmer T mittels der durch die Kamera durchgeführten Gesichtserkennung und der anschließenden Bestimmung der Position zu erfassen und die Richtwirkung der mindestens einen Mikrofoneinheit auf die erfassten Positionsinformationen auszurichten. Die mindestens zwei Mikrofoneinrichtungen MA1, MA2 können direkt oder indirekt, d. h. über die Steuereinheit A, miteinander kommunizieren. Die erste Mikrofoneinheit MA1 weist einen ersten Erfassungsbereich E1 und die zweite Mikrofoneinrichtung MA2 weist einen zweiten Erfassungsbereich E2 auf. Wenn der Anwender bzw. Teilnehmer T sowohl in dem ersten als auch in dem zweiten Erfassungsbereich vorhanden ist, dann können die Mikrofoneinrichtungen MA1, MA2 und/oder die Steuereinheit A anhand der erfassten Positionsinformationen bestimmen, welche der beiden Mikrofoneinrichtungen MA1, MA2 die Richtwirkung der Mikrofoneinheiten derart ändert, dass die Audiosignale bzw. Sprachsignale des Anwenders erfasst werden. Alternativ dazu können auch beide Mikrofoneinrichtungen MA1, MA2 dazu verwendet werden, die Audiosignale oder Spachsignale des Anwenders zu erfassen. Anschließend kann die Steuereinheit A dann das beste Audiosignal der beiden Mikrofoneinrichtungen MA1, MA2 auswählen. Alternativ dazu können die beiden erfassten Audiosignale bzw. Sprachsignale überlagert werden, um eine bessere Audioqualität zu erlangen.
-
Gemäß der Erfindung kann die Kamera K und/oder die Steuereinheit A dazu ausgestaltet sein, Metainformationen über den Anwender zu erzeugen und weiterzuleiten. Diese Metainformationen können beispielsweise die Identität der Person darstellen. Die Identität der Person kann beispielsweise durch eine Gesichtserkennung und einen Vergleich mit bekannten Gesichtern in einer Datenbank ermittelt werden. Alternativ dazu können optische Codes wie beispielsweise Namensschilder, Barcodes, ein QR-Code oder dergleichen ausgewählt werden, um die durch die Kamera erfassten Personen zu identifizieren.
-
Gemäß der Erfindung kann ein erfasstes Audiosignal bzw. Sprachsignal dann ausgegeben werden (un-mute), wenn ein autorisierter Sprecher erkannt wird. Hierbei können beispielsweise der Name des Sprechers sowie weitere Informationen zu dem Sprecher als Metadaten erzeugt und in dem Signal gespeichert werden. Optional kann das erfasste Audiosignal personenspezifisch bearbeitet werden, beispielsweise können die Klangeinstellungen personenspezifisch erfolgen.
-
Gemäß dem zweiten oder dritten Ausführungsbeispiel kann die Kamera über eine Panoramaoptik oder eine rotierende Linse verfügen. Des Weiteren können mehrere Kameras zu einem Kameraarray zusammengeschaltet werden, um einen möglichst großen Abschnitt um die Mikrofoneinrichtung herum abdecken zu können. Diese Abdeckung kann vorzugsweise 360° aufweisen.
-
Gemäß dem zweiten und dritten Ausführungsbeispiel werden, wenn mehr als ein Teilnehmer T erfasst wird, die Anzahl der Mikrofonbeams B entsprechend erzeugt, d. h. es sind mindestens so viele Mikrofonbeams vorhanden wie Teilnehmer. Ein Mikrofonbeam B stellt dabei eine Hauptrichtung der Richtwirkung mindestens einer der Mikrofoneinheiten dar. Vorzugsweise sind diese Mikrofonbeams B auf einen der Teilnehmer und insbesondere auf den oder die Sprecher ausgerichtet. Optional kann die Richtwirkung bzw. der Audiobeam B nachgeführt werden und zwar dann, wenn sich der Sprecher bewegt. Die Mikrofonsignale der Mikrofoneinheit können in Abhängigkeit der Anzahl der erzeugten Mikrofonbeams zusammen gemischt werden.
-
Gemäß einem weiteren Ausführungsbeispiel, welches auf dem ersten, zweiten oder dritten Ausführungsbeispiel basiert, werden die von der Mikrofoneinheit erfassten Audiosignale (d. h. die über die Mikrofonbeams erfassten Audiosignale) nur dann an eine nachgehende Auswerte- bzw. Steuereinheit weitergeleitet, wenn auch ein Nutzsignal (ein Audiosignal bzw. Sprachsignal eines Sprechers) erfasst wird. Gemäß einem weiteren Ausführungsbeispiel der Erfindung können die Winkelinformationen der jeweiligen Mikrofonbeams als Metainformationen in das Signal eingebettet werden.
-
Optional kann jeder Teilnehmer T und Sprecher, welcher einem der Mikrofonbeams B zugeordnet ist, über die Gesichtserkennung oder dergleichen erkannt werden und eine entsprechende Identität kann dem Gesicht zugeordnet werden.
-
Basierend auf diesen personenbezogenen Informationen kann beispielsweise während einer Telefonkonferenz erfasst werden, wer an der Besprechung teilnimmt und/oder wer gerade spricht.
-
Gemäß einem weiteren Aspekt der vorliegenden Erfindung können bei einer mehrkanaligen räumlichen Wiedergabe des durch die Mikrofoneinrichtungen MA erfassten Audiosignals die Winkelinformationen der generierten Mikrofonbeams für eine mehrkanalige verwendet werden.
-
Gemäß dem dritten Ausführungsbeispiel von 4 können die erfindungsgemäßen Mikrofoneinrichtungen MA1, MA2 entweder eigenständig oder mittels der Steuereinheit A erfassen, ob eine andere Mikrofoneinrichtung sich in der Nähe befindet. Wenn erfasst worden ist, dass eine andere Mikrofoneinrichtung sich in der Nähe befindet, dann kann eine Kommunikation zwischen den Mikrofoneinrichtungen oder über die Steuereinheit erfolgen.
-
Eine Erkennung einer benachbarten Mikrofoneinrichtung kann beispielsweise über ein optisches Merkmal wie beispielsweise ein Label oder einen optischen Code erfolgen. Anhand der Winkelinformationen und eines Autofocussignals kann eine Positionierung vorgenommen werden.
-
Gemäß einem Aspekt der vorliegenden Erfindung kann eine Umgebung beispielsweise einer Telefonkonferenzanlage mit einer gegebenen Anzahl von Gesprächsteilnehmern durch die Mikrofoneinrichtungen M1, M2 untereinander aufgeteilt werden. Hierbei kann die zentrale Steuereinheit A dazu dienen, Informationen über die erkannten Sprecher an die angeschlossenen Mikrofoneinrichtungen weiterzuleiten. Wenn beispielsweise ein Anwender D von mehreren Mikrofoneinrichtungen MA1, MA2 erkannt wird, dann kann die Steuereinheit A entscheiden, welches der beiden Signale verwendet wird, Alternativ dazu können beide Signale zusammengefügt werden, um ein entsprechendes Audiosignal zu erzeugen mit guter Qualität.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- US 6731334 [0003]
- US 6009210 [0004]