-
Die
Erfindung geht von einem Verfahren zur Steuerung der Empfindlichkeit
eines Mikrofons nach der Gattung des Hauptanspruchs aus.
-
Aus
der deutschen Patentanmeldung mit dem Aktenzeichen 197 41 596 A1
ist ein Verfahren bekannt, bei dem eine adaptive Nachführung der Empfangsempfindlichkeit
in Abhängigkeit
des Ortes der Nutzschallquelle erfolgt. Die Steuerung der Empfindlichkeit
wird dabei durch Auswertung von empfangenen akustischen Signalen
durchgeführt.
-
Aus
der
US 4,807,051 ist
ein Gerät
zur Aufnahme von Schallwellen bekannt, das ein Mikrofon zur Aufnahme
der Schallwellen umfasst, sowie Mittel zur Erzeugung von Informationen über eine
Objektentfernung. Das Gerät
ist dazu ausgebildet, die Empfindlichkeit des Mikrofons auf der
Grundlage der erzeugten Daten über
die Objektentfernung einzustellen.
-
Bei
der
US 4,807,051 wird
der Abstand durch Fokuseinstellung des Objektivs ermittelt. Außerdem werden
zwei Mikrofone verwendet und zwar eines, welches nach vorne ausgerichtet
ist für
den Schall vom Objekt, und ein anderes für eine seitliche Schallaufnahme.
-
Aufgabe
der Erfindung ist es, die Steuerung der Empfindlichkeit mindestens
eines Mikrofons, wobei Videodaten einer Schallquelle, insbesondere
einer Sprachquelle, von einer Kamera aufgezeichnet werden, weiterzuentwickeln.
-
Vorteile der
Erfindung
-
Das
erfindungsgemäße Verfahren
zur Steuerung der Empfindlichkeit mindestens eines Mikrofons mit
den gegenständlichen
Merkmalen des Hauptanspruchs hat den Vorteil, dass Videodaten einer Schallquelle,
insbesondere einer Sprachquelle, von einer Kamera aufgezeichnet
werden, wobei die Kamera in einer vorgegebenen Position relativ
zum mindestens einen Mikrofon angeordnet ist, dass in Abhängigkeit
der aufgezeichneten Videodaten eine Position der Schallquelle relativ zum
mindestens einen Mikrofon ermittelt wird und daß die Empfindlichkeit des mindestens
einen Mikrofons in Abhängigkeit
der ermittelten Position eingestellt wird. Auf diese Weise kann
eine besonders genaue Anpassung der Empfindlichkeit des mindestens
einen Mikrofons an die Position der Schallquelle bewirkt werden,
die vor allem dann keinen wesentlichen Zusatzaufwand erfordert,
wenn die Kamera die Kamera einer Bildtelefonanlage und somit sowieso
vorhanden ist. Die Funktionalität
der Kamera wird dadurch erhöht.
Das mindestens eine Mikrofon kann dabei ebenfalls das Mikrofon der
Bildtelefonanlage sein. Während
einer Videokonferenz fällt
es den Gesprächspartnern
nicht immer leicht, geradeaus in die Kamera zu blicken, um auch
genau in das mindestens eine Mikrofon der Bildtelefonanlage zu sprechen.
Wenn die Gesprächspartner
bei der Videokonferenz beispielsweise an einem Personal Computer
arbeiten oder in Unterlagen lesen, so ist ihre eigentliche Sprechrichtung
oft eine andere als die direkte Linie zu den Mikrofonen. Dabei werden
Nebengeräusche
aus der Umgebung mitübertragen.
Durch das erfindungsgemäße Verfahren gemäß Anspruch
1 kann die Empfindlichkeit des mindestens einen Mikrofons an die
wirkliche Sprech- oder Schallrichtung angepaßt werden, nachdem diese durch
Auswertung der Videodaten und/oder der Fokuseinstellung des Objektivs
bestimmt worden ist, wobei auch die Nebengeräusche aus der Umgebung zumindest
teilweise unterdrückt
werden können.
-
Durch
die in den Unteransprüchen
aufgeführten
Maßnahmen
sind vorteilhafte Weiterbildungen und Verbesserungen des im Hauptanspruch
angegebenen Verfahrens möglich.
-
Besonders
vorteilhaft ist es, daß die
Empfindlichkeit des mindestens einen Mikrofons so eingestellt wird,
daß ein
mit einem ersten vorgegebenen Pegel von der Schallquelle in Richtung
zum mindestens einen Mikrofon abgegebenes akusti sches Signal vom
mindestens einen Mikrofon mit einem zweiten vorgegebenen Pegel empfangen
wird. Auf diese Weise wird gewährleistet,
daß unabhängig von
der Entfernung der Schallquelle zum mindestens einen Mikrofon die
akustischen Signale der Schallquelle im wesentlichen mit gleichem
Volumen vom mindestens einen Mikrofon empfangen werden. Somit ist
beispielsweise das Volumen bei einer Sprachwiedergabe an einem Empfänger der
Bildtelefonanlage im wesentlichen konstant, unabhängig davon,
in welcher Position sich der Gesprächspartner als Schallquelle vor
der Kamera befindet und in welche Richtung er spricht.
-
Ein
weiterer Vorteil besteht darin, daß der zweite vorgegebene Pegel
in Abhängigkeit
einer Referenzposition der Schallquelle relativ zum mindestens einen
Mikrofon festgelegt wird. Auf diese Weise kann die Empfindlichkeit
des mindestens einen Mikrofons ausgehend von der Referenzposition
der Schallquelle an den zweiten vorgegebenen Pegel angepaßt werden,
unabhängig
davon, wo sich die Schallquelle befindet, indem die Position der
Schallquelle relativ zu ihrer Referenzposition ermittelt und die
Empfindlichkeit entsprechend gesteuert wird.
-
Eine
besonders einfache Maßnahme
zur Ermittlung der Position der Schallquelle relativ zum mindestens
einen Mikrofon besteht darin, daß ein Abstand der Schallquelle
vom mindestens einen Mikrofon in Abhängigkeit der Fokuseinstellung
des Objektivs ermittelt wird. Diese Maßnahme erfordert ein Minimum
an Aufwand.
-
Eine
genauere Positionsermittlung der Schallquelle kann dadurch erfolgen,
daß die
Position der Schallquelle an Hand der aufgezeichneten Videodaten
durch Verfolgung mindestens eines vorgegebenen Bildausschnittes
der Schallquelle in aufeinanderfolgenden Bildern ermittelt wird.
Durch Verfol gung nur eines Bildausschnittes kann Speicherplatz bei der
Auswertung der Videodaten eingespart und die Geschwindigkeit der
Auswertung erhöht
werden.
-
Besonders
vorteilhaft ist es, daß eine Richtcharakteristik
des mindestens einen Mikrofons an die ermittelte Position der Schallquelle
angepaßt wird.
Auf diese Weise kann der Empfang von Störgeräuschen aus der Umgebung am
Mikrofon erheblich unterdrückt
werden.
-
Besonders
vorteilhaft ist es, daß akustische Signale
der Schallquelle von zwei Mikrofonen empfangen werden, daß bei einer
Bewegung der Schallquelle, bei der ein Abstand der Schallquelle
zu einem ersten Mikrofon verringert und zu einem zweiten Mikrofon
vergrößert wird,
die Empfindlichkeit des zweiten Mikrofons verringert und die Empfindlichkeit
des ersten Mikrofons so eingestellt wird, daß ein mit dem ersten vorgegebenen
Pegel von der Schallquelle in Richtung zum ersten Mikrofon abgegebenes
akustisches Signal vom ersten Mikrofon im wesentlichen mit dem zweiten
vorgegebenen Pegel empfangen wird. Auf diese Weise ist ebenfalls
eine erhebliche Unterdrückung
von Störgeräuschen aus
der Umgebung beim Empfang des akustischen Signals an den beiden
Mikrofonen möglich,
da sich durch die unterschiedliche Einstellung der Empfindlichkeiten
der beiden Mikrofone ebenfalls eine an die ermittelte Position der
Schallquelle angepaßte
Richtcharakteristik ergibt. Es wird außerdem bewirkt, daß unabhängig von
der Position der Schallquelle die akustischen Signale mit im wesentlichen
konstantem Volumen an den Mikrofonen empfangen werden, so daß insbesondere
das Volumen bei der Sprachwiedergabe am Empfänger der Bildtelefonanlage
im wesentlichen konstant ist.
-
Zeichnung
-
Ein
Ausführungsbeispiel
ist in der Zeichnung dargestellt und in der nachfolgenden Beschreibung näher erläutert. Es
zeigen 1 eine Anordnung
mit einer Schallquelle, einem Mikrofon und einer Kamera, 2 ein Blockschaltbild für die Anordnung
gemäß 1, 3 eine Bildauswertung, 4 ein Mikrofon mit Richtcharakteristik, 5 einen Ablaufplan für das erfindungsgemäße Verfahren, 6 eine Anordnung aus einer
Schallquelle, zwei Mikrofonen und einer Kamera und 7 ein Blockschaltbild für die Anordnung
gemäß 6.
-
Beschreibung
des Ausführungsbeispiels
-
In 1 kennzeichnet 10 eine
als Sprachquelle ausgebildete Schallquelle in Form eines menschlichen
Sprachorgans, wobei in 1 ein Kopf 40 eines
Benutzers einer Bildtelefonanlage 90 dargestellt ist. Die
Bildtelefonanlage 90 umfaßt eine Kamera 15 und
ein erstes Mikrofon 1. Die Kamera 15 ist in einer
vorgegebenen Position relativ zum ersten Mikrofon 1 angeordnet
und weist einen ersten Abstand 80 zum ersten Mikrofon 1 auf.
Der Kopf 40 des Benutzers wird von einem Objektiv 20 der
Kamera 15 aufgenommen, wobei Videodaten vom Kopf 40 mit der
Sprachquelle 10 von der Kamera 15 aufgezeichnet
werden. Von der Sprachquelle 10 werden Sprachsignale in
Form von Schallwellen 95 in Richtung zum ersten Mikrofon 1 abgegeben.
Umgekehrt weist das erste Mikrofon 1 eine erste Richtcharakteristik 30 auf,
die in Richtung zu der Schallwelle 95 ausgerichtet ist.
-
In 2 ist ein Blockschaltbild
der Anordnung gemäß 1 dargestellt, wobei gleiche
Bezugszeichen gleiche Elemente kennzeichnen. An die Kamera 15 ist
einerseits über
eine Bildverarbeitungseinheit 45 und andererseits über eine Fokuseinheit 50 eine
Steuerung 55 angeschlossen. Die Steuerung 55 steuert
ein erstes Pegeleinstellglied 60 an, daß den Pegel eines am ersten
Mikrofon 1 empfangenen akustischen Signals einstellt und
einem ersten Audioausgang 70 zuführt.
-
An
Hand von 5 wird der
Ablauf des erfindungsgemäßen Verfahrens
beschrieben. In einem ersten Schritt 100 wird bei einer
Aktivierung der Bildtelefonanlage 90 eine Referenzposition
des Kopfes 40 mit der Sprachquelle 10 in einem überwachten Bildbereich 120 vom
Objektiv 20 der Kamera 15 erfaßt. Der Benutzer der Bildtelefonanlage 90 stellt
daraufhin einen zweiten vorgegebenen Pegel als Lautstärkepegel
für diese
Referenzposition der Sprachquelle 10 an der Steuerung 55 beispielsweise
mittels einer in 2 nicht
dargestellten Eingabeeinheit ein. Über den ersten Abstand 80 ist
somit der zweite vorgegebene Pegel in Abhängigkeit der Referenzposition
der Sprachquelle 10 relativ zum ersten Mikrofon 1 festgelegt.
-
Während die
Bildtelefonanlage 90 aktiv ist, werden Videodaten der Sprachquelle 10 von
der Kamera 15 vorzugsweise digital aufgezeichnet, wobei bei
einem zweiten Schritt 105 die Position der Sprachquelle 10 an
Hand der aufgezeichneten Videodaten durch Verfolgung mindestens
eines vorgegebenen Bildausschnittes 25 der Sprachquelle 10 in aufeinanderfolgenden
Bildern ermittelt wird. Dieser Vorgang ist in 3 dargestellt. 3a) zeigt den Kopf 40 im Bildbereich 120 in
einer Referenzposition, wobei als Bildausschnitt 25 beispielsweise
der Mund des Kopfes 40 als Ort der Sprachquelle 10 vorgegeben
wird. Gemäß 3b) bewegt sich der Kopf 40 mit
dem vorgegebenen Bildausschnitt 25 im Bildbereich 120 aus
einer ersten Position, die durch ununterbrochene Liniendarstellung
gekennzeichnet ist, in Pfeilrichtung zu einer zweiten Position,
die durch gestrichelte Linienführung
in 3b) gekennzeichnet ist.
Die Verfolgung des Bildausschnittes 25 erfolgt dabei mittels
der Bildverarbeitungseinheit 45. Weiterhin kann beim zweiten
Schritt 105 durch die Bildverarbeitungseinheit 45 der
aktuelle relative Abstand der Sprachquelle 10 von der Kamera 15 bzw.
vom ersten Mikrofon 1 bezüglich der bei Schritt 100 erfaßten Referenzposition
ermittelt werden, indem die Bildverarbeitungseinheit 45 die
Größe, beispielsweise
die Fläche
oder den Umfang, des Bildausschnittes 25 in der aktuellen
Position der Sprachquelle 10 ermittelt und mit der Größe des Bildausschnittes 25 in
der Referenzposition vergleicht. Die Berechnung des relativen Abstands
kann dabei auch durch Vergleich der Größe des Kopfes 40 bzw.
eines anderen charakteristischen Bildausschnittes der Sprachquelle 10 im Bildbereich 120 in
der aktuellen Position mit der Größe des Kopfes 40 in
der Referenzposition erfolgen. Alternativ oder zusätzlich kann
der relative Abstand der Sprachquelle 10 von der Kamera 15 bzw.
vom ersten Mikrofon 1 bezüglich der Referenzposition
der Sprachquelle 10 bei einem dritten Schritt 110 in
der Fokuseinheit 50 durch Vergleich der Fokuseinstellung
des Objektivs 20 zur Fokussierung des Bildausschnittes 25 in
der aktuellen Position mit der Fokuseinstellung des Objektivs 20 zur
Fokussierung des Bildausschnitts 25 in der Referenzposition
ermittelt werden. Die Größe des Bildausschnittes 25 oder
des Kopfes 40 in der Referenzposition und/oder die Fokuseinstellung
des Objektivs 20 zur Fokussierung des Bildausschnittes 25 in
der Referenzposition können
in Datenform in einem in 2 nicht
dargestellten Speicher der Bildtelefonanlage 90 abgelegt
sein.
-
Bei
einem vierten Schritt 115 wird dann von der Steuerung 55 die
Empfindlichkeit des ersten Mikrofons 1 in Abhängigkeit
der ermittelten aktuellen Position des Bildausschnittes 25 bezüglich der
Referenzposition des Bildausschnittes 25 am ersten Pegeleinstellglied 60 eingestellt,
wobei die im zweiten Schritt 105 und/oder im dritten Schritt 110 ermittelten Ergebnisse
verwendet werden. Die Empfindlichkeit des ersten Mikrofons 1 wird
dabei im vierten Schritt 115 von der Steuerung 55 am
ersten Pegeleinstellglied 60 so eingestellt, daß ein mit
einem ersten vorgegebenen Pegel von der Sprachquelle 10 in
Richtung zum ersten Mikrofon 1 abgegebenes akustisches
Signal vom ersten Mikrofon 1 mit dem zweiten vorgegebenen
Pegel empfangen wird. Somit kann unabhängig vom Abstand der Sprachquelle 10 zum ersten
Mikrofon 1 am ersten Audioausgang 70 ein Sprachsignal
mit gleichmäßigem Volumen
an eine in 2 nicht dargestellte
Sprachwiedergabeeinheit abgegeben werden, an der die Sprachsignale
mit im wesentlichen konstantem Volumen wiedergegeben werden können. Falls
sich die Lage des Bildausschnittes 25 gemäß 3b) innerhalb des Bildbereichs 120 verändert, so
kann die Steuerung 55 im vierten Schritt die Empfindlichkeit
des ersten Mikrofons 1 auch durch Änderung der ersten Richtcharakteristik 30 mittels
des ersten Pegeleinstellgliedes 60 steuern. In 4 ist eine entsprechende Änderung der
ersten Richtcharakteristik 30 des ersten Mikrofons 1 für eine Verschiebung
des Kopfes 40 mit dem Bildausschnitt 25 dargestellt.
Die erste Richtcharakteristik 30 bildet dabei eine Keule,
die in Richtung zur Sprachquelle 10 ausgerichtet ist und
deshalb entsprechend der Bewegung der Sprachquelle 10 gedreht
wird.
-
Durch
Anpassung der ersten Richtcharakteristik 30 des ersten
Mikrofons 1 an die jeweilige Position der Sprachquelle 10 können störende Nebengeräusche aus
der Umgebung der Sprachquelle 10 erheblich unterdrückt werden.
-
Eine
Veränderung
der Richtcharakteristik kann auch dadurch erreicht werden, daß mehrere
Mikrofone verwendet werden. 6 zeigt
dazu als Beispiel die Bildtelefonanlage 90 mit dem ersten
Mikrofon 1 und einem zweiten Mikrofon 5, wobei
die beiden Mikrofone 1, 5 in einer vorgegebenen
Position relativ zur Kamera 15 angeordnet sind. In 6 kennzeichnen gleiche Bezugszeichen
gleiche Elemente. So ist das erste Mikrofon 1 wieder fest
im ersten Abstand 80 von der Kamera 15 angeordnet.
Das zweite Mikrofon 5 ist fest in einem zweiten Abstand 85 von
der Kamera 15 angeordnet. Das erste Mikrofon 1 weist
die erste Richtcharakteristik 30 auf und das zweite Mikrofon 5 weist
eine zweite Richtcharakteristik 35 auf.
-
In 7 ist ein Blockschaltbild
für die
Anordnung gemäß 6 dargestellt. Auch in 7 kennzeichnen gleiche Bezugszeichen
gleiche Elemente. Dabei entspricht das Blockschaltbild in 7 dem Blockschaltbild gemäß 2, wobei das Blockschaltbild
gemäß 7 zusätzlich die Ansteuerung eines
zweiten Pegeleinstellgliedes 65 zur Steuerung der Empfindlichkeit
des zweiten Mikrofons 5 und zur Einstellung eines entsprechenden
Lautstärkepegels an
einem zweiten Audioausgang 75 vorsieht. Außerdem ist
die Fokuseinheit 50 in 7 gestrichelt
eingetragen, da sie, wie beschrieben, optional vorgesehen sein kann.
-
Die
Steuerung der Mikrofonempfindlichkeit erfolgt gemäß den beschriebenen
vier Schritten 100, 105, 110, 115.
Der Unterschied der in 7 dargestellten
Ausführungsform
im Vergleich zur Ausführungsform
nach 2 besteht darin,
daß akustische Signale
der Sprachquelle 10 nun von den beiden Mikrofonen 1, 5 empfangen
werden, so daß bei
einer Bewegung der Sprachquelle 10, bei der ein Abstand der
Sprachquelle 10 zum ersten Mikrofon 1 verringert und
zum zweiten Mikrofon 5 vergrößert wird, die Empfindlichkeit
des zweiten Mi krofons 5 im vierten Schritt 115 verringert
und die Empfindlichkeit des ersten Mikrofons 1 so eingestellt
wird, daß ein
mit dem ersten vorgegebenen Pegel von der Sprachquelle 10 in
Richtung zum ersten Mikrofon 1 abgegebenes akustisches
Signal vom ersten Mikrofon 1 im wesentlichen mit dem zweiten
vorgegebenen Pegel empfangen wird. Somit ergibt sich bei Einstellung
unterschiedlicher Mikrofonempfindlichkeiten am ersten Pegeleinstellglied 60 und
am zweiten Pegeleinstellglied 65 durch die Steuerung 55 eine
gemeinsame überlagerte
Richtcharakteristik, die ähnlich
der in 4 gezeigten Richtcharakteristik
ist, so daß die überlagerte
Richtcharakteristik der beiden Mikrofone 1, 5 an
die jeweils ermittelte Position der Sprachquelle 10 angepaßt wird
und entsprechende störende
Nebengeräusche
aus der Umgebung der Sprachquelle 10 erheblich unterdrückt werden
können,
ohne daß die
beiden Mikrofone 1, 5 Richtmikrofone sein müssen. Außerdem wird
durch die gemäß 7 beschriebene Anordnung
gewährleistet,
daß das überlagerte
Ausgangssignal an den beiden Audioausgängen 70, 75 eine
Sprachwiedergabe mit im wesentlichen konstantem Volumen ermöglicht,
unabhängig von
der Position, insbesondere dem Abstand der Sprachquelle 10 zu
den beiden Mikrofonen 1, 5. Dazu kann es erforderlich
sein, daß die
Empfindlichkeit des ersten Mikrofons 1 bei Bewegung der Sprachquelle 10 in
Richtung zum ersten Mikrofon 1 durch entsprechende Einstellung
des ersten Pegeleinstellgliedes 60 reduziert werden muß.
-
Je
mehr Mikrofone an der Bildtelefonanlage 90 zur Aufnahme
der akustischen Signale von der Sprachquelle 10 vorgesehen
sind, desto differenziertere und an die jeweilige Position der Sprachquelle 10 stärker angepaßte überlagerte
Richtcha rakteristiken der verwendeten Mikrofone lassen sich realisieren,
so daß störende Nebengeräusche aus
der Umgebung der Sprachquelle 10 immer besser unterdrückt werden
und eine Sprachwiedergabe durch Überlagerung
der zugehörigen
Audioausgänge
der verwendeten Mikrofone mit immer gleichmäßigerem Volumen unabhängig von
der jeweiligen Position der Sprachquelle 10 ermöglicht wird.
-
Eine
Weiterverarbeitung der an den Audioausgängen anliegenden Audiosignale
kann analog oder digital erfolgen. Als Kamera 15 kann eine
digitale Kamera verwendet werden, es können jedoch auch andere Kameras
verwendet werden, die eine entsprechende Bildverarbeitung in der
Bildverarbeitungseinheit 45 ermöglichen, wobei von einer analog ausgebildeten
Kamera 15 aufgezeichnete analoge Videodaten vor ihrer Weiterverarbeitung
in der Bildverarbeitungseinheit 45 beispielsweise durch
einen Analog-/Digitalwandler digitalisiert werden können.
-
Voraussetzung
für eine
Ermittlung der jeweils aktuellen Position der Sprachquelle 10 vor
allem bei einer raschen Bewegung der Sprachquelle 10 ist
die Festlegung eines ausreichend großen Bildbereiches 120 und
eine Positionierung der Kamera 15 so, daß die Sprachquelle 10 in
ihrer Referenzposition möglichst
in der Mitte des Bildbereichs 120 angeordnet ist. Im einfachsten
Fall bleibt der überwachte
Bildbereich 120 konstant.
-
Die
Audiosignale am ersten Audioausgang 70 gemäß 2 bzw. die überlagerten
Audiosignale der beiden Audioausgänge 70, 75 gemäß 7 können entweder einer Sprachwiedergabeeinheit,
beispielsweise einem Lautsprecher, der Bildtelefonanlage 90 zur
akustischen Wiedergabe oder einem Telekommunikationsnetz zur Übertragung
an einen weiteren Teilnehmer des Telekommunikationsnetzes zugeführt werden.
-
Das
beschriebene Verfahren ist nicht auf die Anwendung bei einer Bildtelefonanlage
beschränkt, sondern überall dort
einsetzbar, wo die Empfindlichkeit mindestens eines Mikrofons in
Abhängigkeit
der Position einer Schallquelle eingestellt werden soll.