Stand der Technik
Die Erfindung geht von einem Verfahren zur Steuerung der
Empfindlichkeit eines Mikrofons nach der Gattung des
Hauptanspruchs aus.
Aus der deutschen Patentanmeldung mit dem Aktenzeichen 197
41 596 ist ein Verfahren bekannt, bei dem eine adaptive
Nachführung der Empfangsempfindlichkeit in Abhängigkeit des
Ortes der Nutzschallquelle erfolgt. Die Steuerung der Empfindlichkeit
wird dabei durch Auswertung von empfangenen
akustischen Signalen durchgeführt.
Vorteile der Erfindung
Das erfindungsgemäße Verfahren zur Steuerung der Empfindlichkeit
mindestens eines Mikrofons mit den Merkmalen des
Hauptanspruchs hat demgegenüber den Vorteil, daß Videodaten
einer Schallquelle, insbesondere einer Sprachquelle, von einer
Kamera aufgezeichnet werden, wobei die Kamera in einer
vorgegebenen Position relativ zum mindestens einen Mikrofon
angeordnet ist, daß in Abhängigkeit der aufgezeichneten Videodaten
und/oder einer Fokuseinstellung eines Objektivs der
Kamera eine Position der Schallquelle relativ zum mindestens
einen Mikrofon ermittelt wird und daß die Empfindlichkeit
des mindestens einen Mikrofons in Abhängigkeit der ermittelten
Position eingestellt wird. Auf diese Weise kann
eine besonders genaue Anpassung der Empfindlichkeit des mindestens
einen Mikrofons an die Position der Schallquelle bewirkt
werden, die vor allem dann keinen wesentlichen Zusatzaufwand
erfordert, wenn die Kamera die Kamera einer
Bildtelefonanlage und somit sowieso vorhanden ist. Die Funktionalität
der Kamera wird dadurch erhöht. Das mindestens
eine Mikrofon kann dabei ebenfalls das Mikrofon der Bildtelefonanlage
sein. Während einer Videokonferenz fällt es den
Gesprächspartnern nicht immer leicht, geradeaus in die Kamera
zu blicken, um auch genau in das mindestens eine Mikrofon
der Bildtelefonanlage zu sprechen. Wenn die Gesprächspartner
bei der Videokonferenz beispielsweise an einem Personal
Computer arbeiten oder in Unterlagen lesen, so ist
ihre eigentliche Sprechrichtung oft eine andere als die direkte
Linie zu den Mikrofonen. Dabei werden Nebengeräusche
aus der Umgebung mitübertragen. Durch das erfindungsgemäße
Verfahren gemäß Anspruch 1 kann die Empfindlichkeit des mindestens
einen Mikrofons an die wirkliche Sprech- oder
Schallrichtung angepaßt werden, nachdem diese durch Auswertung
der Videodaten und/oder der Fokuseinstellung des Objektivs
bestimmt worden ist, wobei auch die Nebengeräusche aus
der Umgebung zumindest teilweise unterdrückt werden können.
Durch die in den Unteransprüchen aufgeführten Maßnahmen sind
vorteilhafte Weiterbildungen und Verbesserungen des im
Hauptanspruch angegebenen Verfahrens möglich.
Besonders vorteilhaft ist es, daß die Empfindlichkeit des
mindestens einen Mikrofons so eingestellt wird, daß ein mit
einem ersten vorgegebenen Pegel von der Schallquelle in
Richtung zum mindestens einen Mikrofon abgegebenes akustisches
Signal vom mindestens einen Mikrofon mit einem zweiten
vorgegebenen Pegel empfangen wird. Auf diese Weise wird gewährleistet,
daß unabhängig von der Entfernung der Schallquelle
zum mindestens einen Mikrofon die akustischen Signale
der Schallquelle im wesentlichen mit gleichem Volumen vom
mindestens einen Mikrofon empfangen werden. Somit ist beispielsweise
das Volumen bei einer Sprachwiedergabe an einem
Empfänger der Bildtelefonanlage im wesentlichen konstant,
unabhängig davon, in welcher Position sich der Gesprächspartner
als Schallquelle vor der Kamera befindet und in welche
Richtung er spricht.
Ein weiterer Vorteil besteht darin, daß der zweite vorgegebene
Pegel in Abhängigkeit einer Referenzposition der
Schallquelle relativ zum mindestens einen Mikrofon festgelegt
wird. Auf diese Weise kann die Empfindlichkeit des
mindestens einen Mikrofons ausgehend von der Referenzposition
der Schallquelle an den zweiten vorgegebenen Pegel angepaßt
werden, unabhängig davon, wo sich die Schallquelle
befindet, indem die Position der Schallquelle relativ zu
ihrer Referenzposition ermittelt und die Empfindlichkeit
entsprechend gesteuert wird.
Eine besonders einfache Maßnahme zur Ermittlung der Position
der Schallquelle relativ zum mindestens einen Mikrofon besteht
darin, daß ein Abstand der Schallquelle vom mindestens
einen Mikrofon in Abhängigkeit der Fokuseinstellung des Objektivs
ermittelt wird. Diese Maßnahme erfordert ein Minimum
an Aufwand.
Eine genauere Positionsermittlung der Schallquelle kann dadurch
erfolgen, daß die Position der Schallquelle an Hand
der aufgezeichneten Videodaten durch Verfolgung mindestens
eines vorgegebenen Bildausschnittes der Schallquelle in aufeinanderfolgenden
Bildern ermittelt wird. Durch Verfolgung
nur eines Bildausschnittes kann Speicherplatz bei der Auswertung
der Videodaten eingespart und die Geschwindigkeit
der Auswertung erhöht werden.
Besonders vorteilhaft ist es, daß eine Richtcharakteristik
des mindestens einen Mikrofons an die ermittelte Position
der Schallquelle angepaßt wird. Auf diese Weise kann der
Empfang von Störgeräuschen aus der Umgebung am Mikrofon erheblich
unterdrückt werden.
Besonders vorteilhaft ist es, daß akustische Signale der
Schallquelle von zwei Mikrofonen empfangen werden, daß bei
einer Bewegung der Schallquelle, bei der ein Abstand der
Schallquelle zu einem ersten Mikrofon verringert und zu einem
zweiten Mikrofon vergrößert wird, die Empfindlichkeit
des zweiten Mikrofons verringert und die Empfindlichkeit des
ersten Mikrofons so eingestellt wird, daß ein mit dem ersten
vorgegebenen Pegel von der Schallquelle in Richtung zum ersten
Mikrofon abgegebenes akustisches Signal vom ersten Mikrofon
im wesentlichen mit dem zweiten vorgegebenen Pegel
empfangen wird. Auf diese Weise ist ebenfalls eine erhebliche
Unterdrückung von Störgeräuschen aus der Umgebung beim
Empfang des akustischen Signals an den beiden Mikrofonen
möglich, da sich durch die unterschiedliche Einstellung der
Empfindlichkeiten der beiden Mikrofone ebenfalls eine an die
ermittelte Position der Schallquelle angepaßte
Richtcharakteristik ergibt. Es wird außerdem bewirkt, daß
unabhängig von der Position der Schallquelle die akustischen
Signale mit im wesentlichen konstantem Volumen an den
Mikrofonen empfangen werden, so daß insbesondere das Volumen
bei der Sprachwiedergabe am Empfänger der Bildtelefonanlage
im wesentlichen konstant ist.
Zeichnung
Ein Ausführungsbeispiel ist in der Zeichnung dargestellt und
in der nachfolgenden Beschreibung näher erläutert. Es zeigen
Figur 1 eine Anordnung mit einer Schallquelle, einem
Mikrofon und einer Kamera, Figur 2 ein Blockschaltbild für
die Anordnung gemäß Figur 1, Figur 3 eine Bildauswertung,
Figur 4 ein Mikrofon mit Richtcharakteristik, Figur 5 einen
Ablaufplan für das erfindungsgemäße Verfahren, Figur 6 eine
Anordnung aus einer Schallquelle, zwei Mikrofonen und einer
Kamera und Figur 7 ein Blockschaltbild für die Anordnung
gemäß Figur 6.
Beschreibung des Ausführungsbeispiels
In Figur 1 kennzeichnet 10 eine als Sprachquelle ausgebildete
Schallquelle in Form eines menschlichen Sprachorgans,
wobei in Figur 1 ein Kopf 40 eines Benutzers einer Bildtelefonanlage
90 dargestellt ist. Die Bildtelefonanlage 90
umfaßt eine Kamera 15 und ein erstes Mikrofon 1. Die Kamera
15 ist in einer vorgegebenen Position relativ zum ersten
Mikrofon 1 angeordnet und weist einen ersten Abstand 80 zum
ersten Mikrofon 1 auf. Der Kopf 40 des Benutzers wird von
einem Objektiv 20 der Kamera 15 aufgenommen, wobei
Videodaten vom Kopf 40 mit der Sprachquelle 10 von der Kamera
15 aufgezeichnet werden. Von der Sprachquelle 10 werden
Sprachsignale in Form von Schallwellen 95 in Richtung zum
ersten Mikrofon 1 abgegeben. Umgekehrt weist das erste
Mikrofon 1 eine erste Richtcharakteristik 30 auf, die in
Richtung zu der Schallwelle 95 ausgerichtet ist.
In Figur 2 ist ein Blockschaltbild der Anordnung gemäß Figur
1 dargestellt, wobei gleiche Bezugszeichen gleiche Elemente
kennzeichnen. An die Kamera 15 ist einerseits über eine
Bildverarbeitungseinheit 45 und andererseits über eine Fokuseinheit
50 eine Steuerung 55 angeschlossen. Die Steuerung
55 steuert ein erstes Pegeleinstellglied 60 an, daß den Pegel
eines am ersten Mikrofon 1 empfangenen akustischen Signals
einstellt und einem ersten Audioausgang 70 zuführt.
An Hand von Figur 5 wird der Ablauf des erfindungsgemäßen
Verfahrens beschrieben. In einem ersten Schritt 100 wird bei
einer Aktivierung der Bildtelefonanlage 90 eine Referenzposition
des Kopfes 40 mit der Sprachquelle 10 in einem überwachten
Bildbereich 120 vom Objektiv 20 der Kamera 15 erfaßt.
Der Benutzer der Bildtelefonanlage 90 stellt daraufhin
einen zweiten vorgegebenen Pegel als Lautstärkepegel für
diese Referenzposition der Sprachquelle 10 an der Steuerung
55 beispielsweise mittels einer in Figur 2 nicht
dargestellten Eingabeeinheit ein. Über den ersten Abstand 80
ist somit der zweite vorgegebene Pegel in Abhängigkeit der
Referenzposition der Sprachquelle 10 relativ zum ersten
Mikrofon 1 festgelegt.
Während die Bildtelefonanlage 90 aktiv ist, werden Videodaten
der Sprachquelle 10 von der Kamera 15 vorzugsweise digital
aufgezeichnet, wobei bei einem zweiten Schritt 105 die
Position der Sprachquelle 10 an Hand der aufgezeichneten Videodaten
durch Verfolgung mindestens eines vorgegebenen
Bildausschnittes 25 der Sprachqelle 10 in aufeinanderfolgenden
Bildern ermittelt wird. Dieser Vorgang ist in Figur 3
dargestellt. Figur 3a) zeigt den Kopf 40 im Bildbereich 120
in einer Referenzposition, wobei als Bildausschnitt 25
beispielsweise der Mund des Kopfes 40 als Ort der
Sprachquelle 10 vorgegeben wird. Gemäß Figur bewegt sich
der Kopf 40 mit dem vorgegebenen Bildausschnitt 25 im
Bildbereich 120 aus einer ersten Position, die durch ununterbrochene
Liniendarstellung gekennzeichnet ist, in Pfeilrichtung
zu einer zweiten Position, die durch gestrichelte
Linienführung in Figur 3b) gekennzeichnet ist. Die Verfolgung
des Bildausschnittes 25 erfolgt dabei mittels der
Bildverarbeitungseinheit 45. Weiterhin kann beim zweiten
Schritt 105 durch die Bildverarbeitungseinheit 45 der aktuelle
relative Abstand der Sprachquelle 10 von der Kamera
15 bzw. vom ersten Mikrofon 1 bezüglich der bei Schritt 100
erfaßten Referenzposition ermittelt werden, indem die Bildverarbeitungseinheit
45 die Größe, beispielsweise die Fläche
oder den Umfang, des Bildausschnittes 25 in der aktuellen
Position der Sprachquelle 10 ermittelt und mit der Größe des
Bildausschnittes 25 in der Referenzposition vergleicht. Die
Berechnung des relativen Abstands kann dabei auch durch
Vergleich der Größe des Kopfes 40 bzw. eines anderen charakteristischen
Bildausschnittes der Sprachquelle 10 im
Bildbereich 120 in der aktuellen Position mit der Größe des
Kopfes 40 in der Referenzposition erfolgen. Alternativ oder
zusätzlich kann der relative Abstand der Sprachquelle 10 von
der Kamera 15 bzw. vom ersten Mikrofon 1 bezüglich der
Referenzposition der Sprachquelle 10 bei einem dritten
Schritt 110 in der Fokuseinheit 50 durch Vergleich der
Fokuseinstellung des Objektivs 20 zur Fokussierung des
Bildausschnittes 25 in der aktuellen Position mit der
Fokuseinstellung des Objektivs 20 zur Fokussierung des
Bildausschnitts 25 in der Referenzposition ermittelt werden.
Die Größe des Bildausschnittes 25 oder des Kopfes 40 in der
Referenzposition und/oder die Fokuseinstellung des Objektivs
20 zur Fokussierung des Bildausschnittes 25 in der
Referenzposition können in Datenform in einem in Figur 2
nicht dargestellten Speicher der Bildtelefonanlage 90
abgelegt sein.
Bei einem vierten Schritt 115 wird dann von der Steuerung 55
die Empfindlichkeit des ersten Mikrofons 1 in Abhängigkeit
der ermittelten aktuellen Position des Bildausschnittes 25
bezüglich der Referenzposition des Bildausschnittes 25 am
ersten Pegeleinstellglied 60 eingestellt, wobei die im zweiten
Schritt 105 und/oder im dritten Schritt 110 ermittelten
Ergebnisse verwendet werden. Die Empfindlichkeit des ersten
Mikrofons 1 wird dabei im vierten Schritt 115 von der Steuerung
55 am ersten Pegeleinstellglied 60 so eingestellt, daß
ein mit einem ersten vorgegebenen Pegel von der Sprachquelle
10 in Richtung zum ersten Mikrofon 1 abgegebenes akustisches
Signal vom ersten Mikrofon 1 mit dem zweiten vorgegebenen
Pegel empfangen wird. Somit kann unabhängig vom Abstand der
Sprachquelle 10 zum ersten Mikrofon 1 am ersten Audioausgang
70 ein Sprachsignal mit gleichmäßigem Volumen an eine in
Figur 2 nicht dargestellte Sprachwiedergabeeinheit abgegeben
werden, an der die Sprachsignale mit im wesentlichen konstantem
Volumen wiedergegeben werden können. Falls sich die
Lage des Bildausschnittes 25 gemäß Figur 3b) innerhalb des
Bildbereichs 120 verändert, so kann die Steuerung 55 im
vierten Schritt die Empfindlichkeit des ersten Mikrofons 1
auch durch Änderung der ersten Richtcharakteristik 30
mittels des ersten Pegeleinstellgliedes 60 steuern. In Figur
4 ist eine entsprechende Änderung der ersten
Richtcharakteristik 30 des ersten Mikrofons 1 für eine
Verschiebung des Kopfes 40 mit dem Bildausschnitt 25
dargestellt. Die erste Richtcharakteristik 30 bildet dabei
eine Keule, die in Richtung zur Sprachquelle 10 ausgerichtet
ist und deshalb entsprechend der Bewegung der Sprachquelle
10 gedreht wird.
Durch Anpassung der ersten Richtcharakteristik 30 des ersten
Mikrofons 1 an die jeweilige Position der Sprachquelle 10
können störende Nebengeräusche aus der Umgebung der Sprachquelle
10 erheblich unterdrückt werden.
Eine Veränderung der Richtcharakteristik kann auch dadurch
erreicht werden, daß mehrere Mikrofone verwendet werden.
Figur 6 zeigt dazu als Beispiel die Bildtelefonanlage 90 mit
dem ersten Mikrofon 1 und einem zweiten Mikrofon 5, wobei
die beiden Mikrofone 1, 5 in einer vorgegebenen Position relativ
zur Kamera 15 angeordnet sind. In Figur 6 kennzeichnen
gleiche Bezugszeichen gleiche Elemente. So ist das erste Mikrofon
1 wieder fest im ersten Abstand 80 von der Kamera 15
angeordnet. Das zweite Mikrofon 5 ist fest in einem zweiten
Abstand 85 von der Kamera 15 angeordnet. Das erste Mikrofon
1 weist die erste Richtcharakteristik 30 auf und das zweite
Mikrofon 5 weist eine zweite Richtcharakteristik 35 auf.
In Figur 7 ist ein Blockschaltbild für die Anordnung gemäß
Figur 6 dargestellt. Auch in Figur 7 kennzeichnen gleiche
Bezugszeichen gleiche Elemente. Dabei entspricht das
Blockschaltbild in Figur 7 dem Blockschaltbild gemäß Figur
2, wobei das Blockschaltbild gemäß Figur 7 zusätzlich die
Ansteuerung eines zweiten Pegeleinstellgliedes 65 zur
Steuerung der Empfindlichkeit des zweiten Mikrofons 5 und
zur Einstellung eines entsprechenden Lautstärkepegels an
einem zweiten Audioausgang 75 vorsieht. Außerdem ist die
Fokuseinheit 50 in Figur 7 gestrichelt eingetragen, da sie
wie beschrieben optional vorgesehen sein kann.
Die Steuerung der Mikrofonempfindlichkeit erfolgt gemäß den
beschriebenen vier Schritten 100, 105, 110, 115. Der Unterschied
der in Figur 7 dargestellten Ausführungsform im Vergleich
zur Ausführungsform nach Figur 2 besteht darin, daß
akustische Signale der Sprachquelle 10 nun von den beiden
Mikrofonen 1, 5 empfangen werden, so daß bei einer Bewegung
der Sprachquelle 10, bei der ein Abstand der Sprachquelle 10
zum ersten Mikrofon 1 verringert und zum zweiten Mikrofon 5
vergrößert wird, die Empfindlichkeit des zweiten Mikrofons 5
im vierten Schritt 115 verringert und die Empfindlichkeit
des ersten Mikrofons 1 so eingestellt wird, daß ein mit dem
ersten vorgegebenen Pegel von der Sprachquelle 10 in Richtung
zum ersten Mikrofon 1 abgegebenes akustisches Signal
vom ersten Mikrofon 1 im wesentlichen mit dem zweiten
vorgegebenen Pegel empfangen wird. Somit ergibt sich bei
Einstellung unterschiedlicher Mikrofonempfindlichkeiten am
ersten Pegeleinstellglied 60 und am zweiten
Pegeleinstellglied 65 durch die Steuerung 55 eine gemeinsame
überlagerte Richtcharakteristik, die ähnlich der in Figur 4
gezeigten Richtcharakteristik ist, so daß die überlagerte
Richtcharakteristik der beiden Mikrofone 1, 5 an die jeweils
ermittelte Position der Sprachquelle 10 angepaßt wird und
entsprechende störende Nebengeräusche aus der Umgebung der
Sprachquelle 10 erheblich unterdrückt werden können, ohne
daß die beiden Mikrofone 1, 5 Richtsmikrofone sein müssen.
Außerdem wird durch die gemäß Figur 7 beschriebene Anordnung
gewährleistet, daß das überlagerte Ausgangssignal an den
beiden Audioausgängen 70, 75 eine Sprachwiedergabe mit im
wesentlichen konstantem Volumen ermöglicht, unabhängig von
der Position, insbesondere dem Abstand der Sprachquelle 10
zu den beiden Mikrofonen 1, 5. Dazu kann es erforderlich
sein, daß die Empfindlichkeit des ersten Mikrofons 1 bei
Bewegung der Sprachquelle 10 in Richtung zum ersten Mikrofon
1 durch entsprechende Einstellung des ersten Pegeleinstellgliedes
60 reduziert werden muß.
Je mehr Mikrofone an der Bildtelefonanlage 90 zur Aufnahme
der akustischen Signale von der Sprachquelle 10 vorgesehen
sind, desto differenziertere und an die jeweilige Position
der Sprachquelle 10 stärker angepaßte überlagerte Richtcharakteristiken
der verwendeten Mikrofone lassen sich realisieren,
so daß störende Nebengeräusche aus der Umgebung der
Sprachquelle 10 immer besser unterdrückt werden und eine
Sprachwiedergabe durch Überlagerung der zugehörigen Audioausgänge
der verwendeten Mikrofone mit immer gleichmäßigerem
Volumen unabhängig von der jeweiligen Position der Sprachquelle
10 ermöglicht wird.
Eine Weiterverarbeitung der an den Audioausgängen anliegenden
Audiosignale kann analog oder digital erfolgen. Als Kamera
15 kann eine digitale Kamera verwendet werden, es können
jedoch auch andere Kameras verwendet werden, die eine
entsprechende Bildverarbeitung in der Bildverarbeitungseinheit
45 ermöglichen, wobei von einer analog ausgebildeten
Kamera 15 aufgezeichnete analoge Videodaten vor ihrer Weiterverarbeitung
in der Bildverarbeitungseinheit 45 beispielsweise
durch einen Analog-/Digitalwandler digitalisiert
werden können.
Voraussetzung für eine Ermittlung der jeweils aktuellen Position
der Sprachquelle 10 vor allem bei einer raschen Bewegung
der Sprachquelle 10 ist die Festlegung eines ausreichend
großen Bildbereiches 120 und eine Positionierung der
Kamera 15 so, daß die Sprachquelle 10 in ihrer Referenzposition
möglichst in der Mitte des Bildbereichs 120 angeordnet
ist. Im einfachsten Fall bleibt der überwachte Bildbereich
120 konstant.
Die Audiosignale am ersten Audioausgang 70 gemäß Figur 2
bzw. die überlagerten Audiosignale der beiden Audioausgänge
70, 75 gemäß Figur 7 können entweder einer
Sprachwiedergabeeinheit, beispielsweise einem Lautsprecher,
der Bildtelefonanlage 90 zur akustischen Wiedergabe oder
einem Telekommunikationsnetz zur Übertragung an einen
weiteren Teilnehmer des Telekommunikationsnetzes zugeführt
werden.
Das beschriebene Verfahren ist nicht auf die Anwendung bei
einer Bildtelefonanlage beschränkt, sondern überall dort
einsetzbar, wo die Empfindlichkeit mindestens eines Mikrofons
in Abhängigkeit der Position einer Schallquelle
eingestellt werden soll.