DE102004040023A1

DE102004040023A1 - Verfahren zum Nachführen eines Objekts, Vorrichtung zum nachgeführten Anzeigen eines Objekts, Anordnung zum nachgeführten Anzeigen eines Objekts, Computerlesbares Speichermedium und Programm-Element

Info

Publication number: DE102004040023A1
Application number: DE102004040023A
Authority: DE
Inventors: Axel Dr. Steinhage
Original assignee: Infineon Technologies AG
Current assignee: Intel Deutschland GmbH
Priority date: 2004-08-18
Filing date: 2004-08-18
Publication date: 2006-03-09
Anticipated expiration: 2024-08-19
Also published as: DE102004040023B4

Abstract

Die Erfindung betrifft ein Verfahren zum Nachführen eines Objekts in einer Mehrzahl von sequentiell aufgenommenen Bildern, wobei jedes der Bilder von einer Bildaufnahmeeinrichtung in einem für alle Bilder vorgegebenen Bereich aufgenommen wird, bei dem ein Objekt in einem ersten Bild von einer Mehrzahl von sequentiell aufgenommenen Bildern identifiziert wird, ein das Objekt enthaltender erster Teilbereich innerhalb des ersten Bildes ermittelt wird, das Objekt in einem zweiten Bild der Mehrzahl von sequentiell aufgenommenen Bildern identifiziert wird, ein das Objekt enthaltender zweiter Teilbereich innerhalb des zweiten Bildes ermittelt wird und der erste Teilbereich und der zweite Teilbereich zum nachgeführten Anzeigen des Objekts innerhalb des vorgegebenen Bereichs bereitgestellt wird.

Description

Die Erfindung betrifft ein Verfahren zum Nachführen eines Objekts, eine Vorrichtung zum nachgeführten Anzeigen eines Objekts, eine Anordnung zum nachgeführten Anzeigen eines Objekts, ein Computerlesbares Speichermedium und ein Programm-Element.
Für viele Anwendungsfälle ist es erforderlich, aus einem Videostrom ein menschliches Gesicht zu extrahieren und das extrahierte Gesicht auszugeben. Beispiele sind die Verfolgung eines Kopfes eines Vortragenden, die Extraktion von Gesichtern aus Videos von Überwachungskameras oder Videokonferenz-Applikationen.
Aus [2],[3], [4] sind Gesichtsverfolgungsalgorithmen bekannt.

Aus dem Stand der Technik sind ferner Gesichtsverfolgungs-Anwendungen bekannt, die in Echtzeit ein Gesicht verfolgen.

Zum Beispiel ist bekannt, dass eine Kamera manuell dem Gesicht einer sich bewegenden Person nachgeführt werden kann. Allerdings erfordert dies in der Regel die Anwesenheit einer die Kamera führenden Person und verursacht somit hohe Personalkosten.

Ferner ist aus [5] ein sogenanntes „active vision"-System bekannt. Ein solches „active vision"-System führt auf der Basis eines Objektverfolgungsalgorithmus einen Kamerakopf mechanisch nach, der zu diesem Zweck mit einer Schwenk/Kipp-Motorisierung ausgestattet sein muss. Der Nachteil dieses Verfahrens ist das Erfordernis teurer Komponenten, wie zum Beispiel ein Motor, eine Aufhängung, ein Motorsteuerung und eine Stromversorgung.

Ferner ist bekannt, ein System aus mehreren fixierten Kameras zu bilden, zwischen denen basierend auf einer jeweiligen Sprecherposition umgeschaltet wird. Dieses zum Beispiel aus [6] bekannte Verfahren ist aufwändig und teuer.

Aus dem Stand der Technik sind Gesichtsverfolgungs-Anwendungen bekannt, die in zuvor abgespeicherten Videodaten ein Gesicht verfolgen.

Für eine solche „offline" Extraktion von Bildausschnitten aus abgespeicherten Videos ist eine kostenintensive manuelle Nachbearbeitung oder ein aufwendiger Bildverarbeitungsalgorithmus (siehe zum Beispiel [2], [3], [4]) erforderlich.

Unter Benutzung einer Freisprecheinrichtung eines modernen Mobiltelefons kann sich ein Gesprächsteilnehmer während des Telefonats frei im Raum bewegen. Mit in gegenwärtigen Mobiltelefonen eingebauten Kameras ist eine mobile Videotelefonie möglich. Bewegt sich der Gesprächsteilnehmer während des Videotelefonats frei im Raum, nimmt der für den anderen Gesprächsteilnehmer interessante Teil des Videobildes, zum Beispiel das Gesicht des Gesprächspartners, häufig nur einen kleinen Teil des Videobildes ein. Auf den durch die kleine Bauform der Mobiltelefone bedingten miniaturisierten Bildschirmen lässt sich dann das Gesicht des Sprechers oft nur sehr schwer erkennen.

Bei von einer Bildaufnahmeeinrichtung aufgenommenen Bildern stellt ein Bereich von Interesse („region of interest") oft nur einen kleinen Ausschnitt des gesamten aufgenommenen Bildes dar, so dass bei einer ablaufenden Videosequenz der interessante Bereich und dessen zeitlicher Verlauf häufig nur schwer sichtbar sind.

Der Erfindung liegt das Problem zugrunde, ein Objekt von Interesse in einer Mehrzahl von sequentiell aufgenommenen Bildern für einen Benutzer besser erkennbar darstellen zu können.

Das Problem wird durch ein Verfahren zum Nachführen eines Objekts, durch eine Vorrichtung zum nachgeführten Anzeigen eines Objekts, durch eine Anordnung zum nachgeführten Anzeigen eines Objekts, durch ein Computerlesbares Speichermedium und durch ein Programm-Element mit den Merkmalen gemäß den unabhängigen Patentansprüchen gelöst.

Bei dem erfindungsgemäßen Verfahren zum Nachführen eines Objekts in einer Mehrzahl von sequentiell aufgenommenen Bildern, wobei jedes der Bilder von einer Bildaufnahmeinrichtung in einem für alle Bilder vorgegebenen Bereich aufgenommen wird, wird ein Objekt in einem ersten Bild von einer Mehrzahl von sequentiell aufgenommenen Bildern identifiziert. Ein das Objekt enthaltender erster Teilbereich des ersten Bildes wird ermittelt. Das Objekt wird in einem zweiten Bild der Mehrzahl von sequentiell aufgenommenen Bildern identifiziert. Ein das Objekt enthaltender zweiter Teilbereich innerhalb des zweiten Bildes wird ermittelt. Der erste Teilbereich und der zweite Teilbereich werden zum nachgeführten Anzeigen des Objekts innerhalb des vorgegebenen Bereichs bereitgestellt.

Bei der erfindungsgemäßen Vorrichtung zum nachgeführten Anzeigen eines Objekts in einer Mehrzahl von sequentiell aufgenommenen Bildern, wobei jedes der Bilder von einer Bildaufnahmeinrichtung in einem für alle Bilder vorgegebenen Bereich aufgenommen ist, werden eine Bildaufnahmeeinrichtung zum sequentiellen Aufnehmen einer Mehrzahl von Bildern und ein Prozessor bereitgestellt, dem die Mehrzahl von sequentiell aufgenommenen Bildern zuführbar ist, und der zum Durchführen der oben beschriebenen Verfahrensschritte eingerichtet ist.

Ferner ist eine Anordnung zum nachgeführten Anzeigen eines Objekts in einer Mehrzahl von sequentiell aufgenommenen Bildern geschaffen, wobei jedes der Bilder von einer Bildaufnahmeinrichtung in einem für alle Bilder vorgegebenen Bereich aufgenommen wird, mit einer Vorrichtung mit den oben beschriebenen Merkmalen und mit einer Anzeigeeinrichtung, welcher der erste Teilbereich und der zweite Teilbereich bereitstellbar ist, und die zum nachgeführten Anzeigen des Objekts mittels sequentiellen Anzeigens des ersten Teilbereichs und des zweiten Teilbereichs innerhalb des vorgegebenen Bereichs eingerichtet ist.

Darüber hinaus ist ein Computerlesbares Speichermedium bereitgestellt, in dem ein Programm zum Nachführen eines Objekts in einer Mehrzahl von sequentiell aufgenommenen Bildern gespeichert ist, wobei jedes der Bilder von einer Bildaufnahmeinrichtung in einem für alle Bilder vorgegebenen Bereich aufgenommen ist, das, wenn es von einem Prozessor ausgeführt wird, die oben beschriebenen Verfahrensschritte durchführt.

Ferner ist ein Programm-Element zum Nachführen eines Objekts in einer Mehrzahl von sequentiell aufgenommenen Bildern geschaffen, wobei jedes der Bilder von einer Bildaufnahmeinrichtung in einem für alle Bilder vorgegebenen Bereich aufgenommen ist, das, wenn es von einem Prozessor ausgeführt wird, die oben beschriebenen Verfahrensschritte aufweist.

Die Erfindung kann sowohl mittels eines Computerprogramms, das heißt einer Software, als auch mittels einer oder mehrerer spezieller elektrischer Schaltungen, das heißt in Hardware, oder in beliebig hybrider Form, das heißt mittels Softwarekomponenten und Hardwarekomponenten, realisiert werden.

Eine Grundidee der Erfindung ist darin zu sehen, bei einer Abfolge von zeitlich aufeinander folgenden Bildern, vorzugsweise in Echtzeit, aus jedem der Bilder ein Objekt von Interesse, das in einem Teilbereich der Bilder enthalten ist, herauszuschneiden und die herausgeschnitten Teilbereiche zum nachgeführten Anzeigen des Objekts bereitzustellen. Somit wird ein Teilbereich innerhalb von jedem der Bilder ermittelt, welcher das Objekt von Interesse, zum Beispiel ein menschliches Gesicht, enthält. Die so ermittelten Teilbereiche der Bilder werden dann zum nachgeführten Anzeigen des Objekts bereitgestellt (zum Beispiel zum Übermitteln an eine bzw. zur Darstellung auf einer Anzeigeeinrichtung, oder zur Archivierung). Das heißt, dass eine Sequenz von Teilbildern bereitgestellt wird, von denen jedes das Objekt und ggf. einen Umgebungsbereich davon enthält. Auf diese Weise wird mit Mitteln der Bildverarbeitung ein nachgeführtes Anzeigen eines interessierenden Abschnitts eines Bilds zeitaufgelöst ermöglicht, das heißt es wird aus einem großen Bild ein kleines Bild herausgeschnitten, und es werden diese kleinen Bilder so aneinander gereiht, dass sich für einen Beobachter anschaulich eine Art Film ergibt, der nur den interessierenden Bereich enthält, wobei nicht interessierende andere Bildbereiche in diesem Film nicht zu sehen sind. Dies hat den Vorteil, dass nur ein Teilbereich von Interesse, nicht ein gesamtes Bild, an eine Anzeigeeinrichtung zu übermitteln ist, was zu einer erheblichen Reduktion der Menge von zu übertragenden Daten führt. Der interessierende Bereich ist auf einer Anzeige vergrößert darstellbar, was zu einer besseren Erkennbarkeit des Objekts von Interesse führt.

Bei der Erfindung wird somit die Kamera nicht nachgeführt, das heißt bei einer Bewegung des Objekts wird die Kamera nicht bewegt, sondern sie bleibt starr und nimmt bei allen Bildern der Sequenz denselben Abschnitt einer Szenerie auf. Statt die Kamera bei einer Bewegung des Objekts nachzuführen, wird erfindungsgemäß eine nachgeführte Anzeige eines Objekts dadurch realisiert, dass ein fester Bildabschnitt einer Szenerie derart bearbeitet wird, dass ein das Objekt enthaltender Teilbereich des Bildabschnitts ermittelt und dargestellt wird. Es wird der Teilbereich innerhalb des konstanten Bildabschnitts nachgeführt, nicht die Bildaufnahmeeinrichtung.

Eine wichtige Anwendung der Erfindung ist die Gesichtsextraktion aus einem Bild und die Nachführung eines das Gesicht enthaltenden Bildausschnitts in Echtzeit zur Sprecherverfolgung bei Vorträgen und Präsentationen. Ein anderes wichtiges Einsatzgebiet der Erfindung ist eine Kamera-basierte Sprechverfolgung für Freisprech-Videotelephonie auf mobilen Endgeräten.

Ein Aspekt der vorliegenden Erfindung kann darin gesehen werden, in einem beliebigen Bild, zum Beispiel einem Videostrom, der aus einem Computer-File oder auch direkt von einer Videokamera kommen kann, ein Objekt, zum Beispiel ein menschliches Gesicht, vorzugsweise in Echtzeit zu finden und den Bildausschnitt mit dem Gesicht im Zentrum als Videostrom auszugeben. Dieser Ausgabe-Datenstrom kann dann direkt auf einem Bildschirm oder einem Videoprojektor ausgegeben werden und/oder als Videofile gespeichert werden. Somit bezieht sich ein Aspekt der vorliegenden Erfindung auf die Anwendung der Gesichtsverfolgung, nämlich die Verfolgung und Extraktion des Gesichts eines sich frei im Raum beweglichen Sprechers aus Videos bei Vorträgen und Präsentationen in Echtzeit.

Somit ist eine kostengünstige und universale Lösung geschaffen, die aus Material jeder beliebigen Videoquelle ("online" oder "offline") in Echtzeit auf Standard-Hardware Gesichter extrahiert und zum nachgeführten Anzeigen bereitstellt. Anschaulich macht sich die vorliegende Erfindung zu Nutze, dass Kameras auch im Low-Cost-Segment sehr hohe Auflösungen von zum Beispiel mehr als 600 × 800 Pixel aufweisen. Für viele Anwendungen ist so eine hohe Auflösung gar nicht erforderlich, oder es wird die erreichbare Auflösung durch andere Umstände limitiert. So werden zum Beispiel Online-Videokonferenzen aufgrund von Bandbreite-Limitierungen mit niedriger Auflösung übertragen oder es kommen nur kleine Bildschirme (zum Beispiel in einem Mobiltelefon) zum Einsatz. Eine wichtige Idee der Erfindung in diesem Zusammenhang ist, den Bildausschnitt, der das Gesicht des Sprechers enthält, in einem hochaufgelösten Ursprungsvideo automatisch zu finden, zu verfolgen und zur Übermittlung, Darstellung bzw. Archivierung zur Verfügung zu stellen.

Mittels automatischen Nachführens des Bildausschnitts vor dem statischen Hintergrund (d.h. des Bildbereichs konstanter Größe) ergibt sich für den Betrachter der Eindruck, dass das Gesicht mit einer beweglichen Kamera verfolgt wird, anschaulich kann von einem virtuellen Kameramann gesprochen werden.

Die Erfindung stellt ein Bildverarbeitungsverfahren zur Verfügung, dass unter anderem die folgenden Vorteile aufweist. Menschliche Gesichter können aufgrund ihrer charakteristischen Farbverteilung und Form als Objekt in den Bildern gefunden werden und gemeinsam mit einem Umgebungsbereich als zum Beispiel rechteckige Teilbereiche dargestellt werden. Ferner ist das erfindungsgemäße Verfahren extrem schnell, kann in Echtzeit arbeiten und stellt nur geringe Anforderungen an die Rechenleistung und die Videoqualität. Bei extremen Beleuchtungsverhältnissen können kleine Parameteranpassungen vorteilhaft sein, im Allgemeinen kann das erfindungsgemäße Verfahren für die unterschiedlichen Videoquellen jedoch ohne benutzerdefinierte Anpassung verwendet werden. Die Erfindung kann standardisiert als DirectShow^TM-Filter formuliert werden, und das Verfahren kann zum Beispiel in beliebige Windows^TM-Videoanwendungen integriert werden und ist mit jeder Art von Videoeingabekanälen und Videoausgabekanälen kompatibel.

Insbesondere aufgrund der niedrigen Anforderungen an Rechenleistung und Kameraqualität kann das Verfahren der Erfindung auf vielen verschiedenen Hardware-Plattformen und Software-Plattformen implementiert werden. Zum Beispiel ist eine Implementierung als Windows^TM-DirectShow^TM-Filter (zur Sprechverfolgung in Vorträgen, zur Nachbearbeitung von Videos) und auch eine Implementierung in MATLABT^TM möglich, siehe [1].

Ein wichtiger Aspekt der Erfindung ist das Bereitstellen eines schnellen Verfahrens zum Lokalisieren von gesichtsförmigen hautfarbenen Bereichen in Videobildern. Dazu können zunächst Videodaten von einem RGB-Format (R = Red, G = Green, B = Blue) in ein HSV-Format (H = Farbwinkel, S = Sättigung, V = Intensität) konvertiert werden. Da subjektiv wahrgenommene Unterschiede in der menschlichen Hautfarbe im Wesentlichen durch die unterschiedlichen Farbsättigungen bedingt sind, der Farbwinkel für verschiedene Hauttypen (schwarze, rote, gelbe oder weiße Haut) aber nur marginal variiert, kann der H-Wert zur Charakterisierung der Hautfarbe im Bild vorteilhaft verwendet werden.

Nachfolgend kann das Bild binarisiert werden, das heißt dass zum Beispiel die Bildpunkte, die in einem Intervall σ um einen charakteristischen Hautfarbenwinkel Ω liegen, auf die maximale Intensität I_max gesetzt werden können, alle anderen auf den Wert "0". Außerdem können alle Pixel ebenfalls auf den Wert "0" gesetzt werden, die hinsichtlich Farbsättigung S und/oder Intensität V außerhalb eines vorgegebenen Bereichs [S_min, S_max] bzw. [V_min, V_max] liegen. Dies verhindert, dass Bildpunkte mit hohem Rauschanteil fälschlicherweise als hautfarben klassifiziert werden.

Befindet sich das Gesicht einer Person in dem Bild, so definiert das Gesicht unter normalen Umständen den größten zusammenhängenden hautfarbenen Bildbereich. Dieser Bereich hat in der Regel die Form eines Ovals, dessen längere Achse vertikal orientiert ist. Um die Position des Mittelpunktes dieses Bereichs zu finden, kann das binarisierte Bild mit einem homogenen Rechteckfilter zweidimensional gefaltet werden. Der Ort mit der maximalen Filterantwort kann dann als Mittelpunkt des Gesichts definiert werden.

Dieses Verfahren ist besonders schnell, kann allerdings unter ungünstigen Umständen manchmal zu einer Fehlerklassifikation oder Störung im Bild bzw. zu Sprüngen in der Gesichtspositionsschätzung führen. Um die Robustheit des Systems zu erhöhen, kann die Positionsschätzung noch über ein dynamisches System zeitlich tiefpassgefiltert werden.

Schließlich kann ein Bildausschnitt von vorzugsweise wählbarer und konstanter Größe um die gefundene Gesichtsposition herum aus dem Ursprungsvideo ausgeschnitten und auf die ursprüngliche Bildgröße vergrößert ausgegeben werden. Dieser Schritt gemeinsam mit der dynamischen Verschiebung des Bildausschnitts erzielt den Effekt eines Hineinzoomens auf das Gesicht im Video und somit dafür, dass das Datenformat des Ausgabevideos das gleiche wie das des Eingabevideos ist. Auf diese Weise kann die Gesichtsextraktion und Gesichtsverfolgung als Filter in bestehenden Videoverarbeitungsketten implementiert werden.

Im Weiteren wird ein anderes Anwendungsgebiet der vorliegenden Erfindung beschrieben, nämlich die Kamerabasierte Sprecherverfolgung für Freisprech-Videotelephonie auf mobilen Endgeräten (zum Beispiel ein Mobiltelefon).

Die in Mobiltelefonen eingebauten Kameras (häufig aus dem Low-Cost-Segment) haben oft eine Auflösung, die weit über die darstellbare Display-Auflösung hinausgeht. Mit dem erfindungsgemäßen Verfahren kann eine solche Anzeige verwendet werden, um aus einem aufgenommenen Videobild senderseitig nur den Teil mit dem Gesicht des Sprechers herauszuschneiden und diesen Bildteil der Gegenstelle zu übertragen. Die vorliegende Erfindung ermöglicht dies, indem das erfindungsgemäße Verfahren in einem mobilen Endgerät implementiert wird.

Dadurch kann unter Verwendung eines Mobiltelefons mit eingebauter Kamera eine mobile Videotelephonie-Anwendung bereitgestellt werden, so dass eine Sprecherverfolgung beim Freisprechen während eines Videotelefonats geschaffen ist.

Mittels des erfindungsgemäßen Verfahrens ist es möglich, auch mit der beschränkten Rechenleistung eines mobilen Endgeräts das Gesicht eines Gesprächsteilnehmers in einem durch die Gerätekamera aufgenommenen Video in Echtzeit zu verfolgen und den entsprechenden Bildausschnitt auf dem Display der Gegenstelle darzustellen. Da die Auflösung der Displays von Mobiltelefonen meist klein im Vergleich zu jener des mit der Gerätekamera aufgenommenen Ursprungsvideos ist, ergibt sich für die Übertragung des Bildes im Rahmen der Videotelefonie eine Reduzierung der benötigten Bandbreite. Es wird der für das Gespräch wichtige Bildteil, der das Gesicht des Gesprächspartners enthält, in voller Auflösung übermittelt. Auf diese Weise können die Vorzüge des Freisprechens auch für die mobile Bildtelefonie genutzt werden.

Ein wichtiger Anwendungsaspekt der Erfindung besteht somit in der Implementierung der schnellen Methode zur Gesichtsverfolgung auf einem mobilen Endgerät zur Realisierung einer Freisprecheinrichtung für Videotelefonie.

Bei dem Verfahren zur Gesichtsverfolgung können auf einem hochaufgelösten Videobild nach Umwandlung von einem RGB-Format in ein HSV-Farbmodell diejenigen Bildpunkte extrahiert werden, deren Farbwinkel im Bereich der menschlichen Hautfarbe liegt. Danach kann mittels eines einfachen Rechteckfilters die Position des größten zusammenhängenden hautfarbenen Bildbereichs ermittelt werden. In den durch die Erfindung abgedeckten Anwendungsfällen ist dieser Ort identisch mit der Position des Gesichts des Sprechers. Mittels eines Tiefpassfilters werden Störungen in der Positionsschätzung herausgefiltert. Der Bildausschnitt mit dem Gesicht des Sprechers wird über das ursprüngliche Videobild nachgeführt, wodurch sich der Eindruck einer aktiven Kameranachführung ergibt, man könnte von einem virtuellen Kameramann sprechen.

Somit besteht ein Aspekt der Erfindung in der Anwendung von Kameras in mobilen Endgeräten zur Erfassung und Verfolgung eines sich im Raum bewegenden Sprechers bei einer Videotelephonie-Anwendung. Insbesondere die Reduzierung des Bildinhalts auf das Gesicht zur Datenreduktion ist hierbei vorteilhaft.

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.

Im Weiteren werden Ausgestaltungen des erfindungsgemäßen Verfahrens beschrieben, die auch für die Vorrichtung, die Anordnung, das Programm-Element und das Computerlesbare Speichermedium gelten.

Der erste Teilbereich kann eine echte Teilmenge der Daten des ersten Bildes sein, und der zweite Teilbereich kann eine echte Teilmenge von Daten des zweiten Bildes sein. Gemäß dieser Ausgestaltung wird durch das Nachführen des Objekts die zur verarbeitende bzw. zu übertragende Datenmenge reduziert, was zu einer schnelleren Verarbeitung führt, vorzugsweise in Echtzeit.

Bei dem Verfahren kann von dem ersten Bild nur der erste Teilbereich angezeigt werden, so dass die Auflösung des ersten Teilbereichs geringer ist als die Auflösung des ersten Bildes, und bei dem zweiten Bild kann nur der zweite Teilbereich angezeigt werden, so dass die Auflösung des zweiten Teilbereichs geringer ist als die Auflösung des zweiten Bildes. Somit ist eine Anzeigeeinrichtung mit geringer Auflösung ausreichend, um die erfindungsgemäß bereitgestellten Teilbereiche anzuzeigen.

Der erste Teilbereich kann vergrößert angezeigt werden, und nachfolgend kann der zweite Teilbereich vergrößert angezeigt werden, so dass die Auflösung des ersten Teilbereichs gleich der Auflösung des zweiten Teilbereichs ist. Damit kann eine sukzessive Folge von Datenpaketen mit jeweils gleicher Größe bereitgestellt werden, die ohne weitere Anpassung direkt auf einer Anzeigeeinrichtung angezeigt werden kann.

Als Objekt kann ein menschliches Gesicht identifiziert werden. Alternativ kann auch jedes andere Objekt nachgeführt dargestellt werden, das sich aufgrund gegenüber der Umgebung unterschiedlicher Bildparameter von der Umgebung abhebt, zum Beispiel ein einfarbiger Fußball bei einer Fußballübertragung im Fernsehen.

Das Objekt kann basierend auf einer Farbcharakteristik und/oder einer Formcharakteristik identifiziert werden. Zum Beispiel weist ein menschliches Gesicht gegenüber vielen Hintergründen eine charakteristische Farbe auf, die zum Identifizieren des Objektes verwendet werden kann. Ein Fußball unterscheidet sich ebenfalls farblich von einem typischen Hintergrund, zum Beispiel von einem grünen Rasen. Ein Fußball ist rund, ein Gesicht ist häufig oval, so dass auch solche Formcharakteristika zur Identifizierung der Objekte mit verbesserter Zuverlässigkeit verwendet werden können.

Bei dem Identifizieren des Objekts kann das jeweilige Bild binarisiert werden. Zum Beispiel kann hierfür jedem Bildpixel ein logischer Wert "0" oder "1" zugeordnet werden. Ein komplexes grauabgestuftes oder farbabgestuftes Bild kann dadurch anschaulich in ein Schwarz-Weiß-Raster umgewandelt werden.

Bei dem Identifizieren des Objekts kann das zweidimensionale Bild mit einem homogenen Rechteckfilter zweidimensional gefaltet werden. Anders ausgedrückt wird eine aufwendige zweidimensionale Filterung auf zwei eindimensionale Filterungen zurückgeführt, das heißt auf eine horizontale und auf eine vertikale Filterung, was eine besonders schnelle Bildverarbeitung ermöglicht.

Bei dem Identifizieren des Objekts kann das jeweilige Bild einer Tiefpassfilterung unterzogen werden, um ein Springen des Bildausschnitts zu vermeiden und um eine bessere und homogenere bzw. gleichmäßigere Darstellung des Bildes zu ermöglichen.

Als Teilbereiche kann ein das Objekt vollständig enthaltender rechteckförmiger Ausschnitt des Bildes ermittelt werden. Die Rechteckseiten können benutzerdefiniert angepasst werden, zugeschnitten auf die Bedürfnisse des Einzelfalls.

Zum Bereitstellen eines Teilbereichs zum nachgeführten Anzeigen des Objekts kann der Teilbereich auf die Größe des Bildes hochskaliert werden.

Im Weiteren werden Ausgestaltungen der erfindungsgemäßen Vorrichtung beschrieben, die auch für das Verfahren, die Anordnung, das Computerlesbare Speichermedium und das Programm-Element gelten.

Die Bildaufnahmerichtung kann unbeweglich an der Vorrichtung befestigt vorgesehen werden. Indem die Bildaufnahmeeinrichtung statisch, das heißt starr bzw. mechanisch und somit immobil vorgesehen wird, ist eine komplizierte Dreh- bzw. Translationsbewegung der Kamera zum Aufnehmen von Bildern entbehrlich, so dass mit einer unbeweglich angeordneten Kamera ein nachgeführtes Anzeigen des Objekts ermöglicht ist.

Die Vorrichtung kann genau eine Bildaufnahmeeinrichtung, das heißt eine einzige Bildaufnahmeeinrichtung, aufweisen. Das Verwenden einer Mehrzahl von Kameras, die jeweils ein eigenes Bild aufnehmen, und von denen dann ein passendes Bild ausgewählt wird, ist dadurch erfindungsgemäß entbehrlich, da aus einem großen Bild ein Teilbereich von Interesse ausgewählt wird.

Die Vorrichtung kann als Computer ausgeführt sein, wobei die Bildaufnahmeeinrichtung eine an dem Computer angebrachte Kamera sein kann. Insbesondere kann der Computer ein portabler Computer, zum Beispiel ein Laptop oder ein Pocket PC sein. Ein solcher Computer kann bequem zu einem Vortrag mitgenommen werden, wo dann mittels des auf dem Computer gespeicherten Programms zum Durchführen des erfindungsgemäßen Verfahrens eine nachgeführte Sprecherverfolgung in Echtzeit ermöglicht ist. Die nachgeführte Bilderfolge kann zum Beispiel unter Verwendung eines Projektionsgeräts auf eine Leinwand produziert werden oder kann auf einer Anzeigeeinrichtung (zum Beispiel auf einer LCD oder auf einer Kathodenstrahlröhre) angezeigt werden.

Die Vorrichtung kann als Mobiltelefon ausgeführt sein, wobei die Bildaufnahmeeinrichtung eine in dem Mobiltelefon integrierte Kamera sein kann. Im Rahmen der Videotelefonie kann ein erster Benutzer ein Mobiltelefon mit einer Kamera verwenden, wobei die Kamera in dem Mobiltelefon ein Bild des ersten Benutzers aufnimmt. Noch in dem ersten Mobiltelefon kann eine Bildverarbeitung gemäß der Erfindung erfolgen, so dass das Gesicht des ersten Benutzers aufweisende Teilbereiche des Bilds an ein zweites Mobiltelefon übermittelt werden können, das von einem zweiten Benutzer verwendet wird. Diesen mengenmäßig reduzierten Daten können dann auf einer Bildanzeige des zweiten Telefons angezeigt werden, um dem zweiten Benutzer den zeitlichen Verlauf des Gesichts des ersten Benutzers zugänglich zu machen. Auf diese Weise kann mit einer geringen Menge zu übertragender Daten eine Videotelephonie-Anwendung realisiert werden.

Im Weiteren werden Ausgestaltungen der erfindungsgemäßen Anordnung beschrieben. Diese gelten auch für das Verfahren, für die Vorrichtung, für das Computerlesbare Speichermedium und für das Programm-Element.

Die Anzeigeeinrichtung kann ein Mobiltelefon, ein Computer oder eine Projektionseinrichtung sein. Anders ausgedrückt können die übertragenen Daten auf der Anzeige eines Mobiltelefons, auf einem Computerbildschirm oder auf einer Leinwand einer Projektionseinrichtung dargestellt werden.

Somit kann die erfindungsgemäße Anordnung als Videotelefonie-Anordnung oder zum Verfolgen eines Vortragenden während eines Vortrags eingerichtet sein.

Ausführungsbeispiele der Erfindung sind in den Figuren dargestellt und werden im Weiteren näher erläutert.
Es zeigen:
1 eine Bilderfolge, die den schematischen Ablauf eines Verfahrens gemäß. einem Ausführungsbeispiel der Erfindung zeigt,
1A Verknüpfungsvorschriften zum Konvertieren eines Datensatzes in einem RGB-Format in ein HSV-Format im Rahmen des Verfahrens gemäß dem Ausführungsbeispiel der Erfindung,
1B C-Programmcode zum Realisieren eines Teilschritts im Rahmen des Verfahrens gemäß dem Ausführungsbeispiel der Erfindung,
2 eine Darstellung, die das Filtern im Rahmen des Verfahrens gemäß dem Ausführungsbeispiel der Erfindung zeigt,
3 eine Bildschirmanzeige, die eine Implementierung des erfindungsgemäßen Verfahrens in einer Microsoft^TM-DirectShow^TM-Applikation zeigt,
4A bis 4D Bilder eines Systems, in dem ein Verfahren gemäß einem anderen Ausführungsbeispiel der Erfindung implementiert ist.
Gleiche oder ähnliche Komponenten in unterschiedlichen Figuren sind mit gleichen Bezugsziffern versehen.
Die Darstellungen in den Figuren sind schematisch und nicht maßstäblich.
Im Weiteren wird bezugnehmend auf 1 eine Schemabildfolge 100 beschrieben, anhand welcher ein Verfahren zum Nachführen eines Gesichts in einer Mehrzahl von sequentiell aufgenommenen Bildern gemäß einem Ausführungsbeispiel der Erfindung beschrieben wird.
In 1 ist ein Eingangsvideobild 101 gezeigt, das einen Sprecher 102 mit einem Gesicht 103 während eines Vortrags zeigt.
Ferner ist in 1 eine erste Zwischenstufe 110 gezeigt, die aus dem Eingangsvideobild 101 mittels einer Konvertierung von einem RGB-Format in ein HSV-Format erhalten wird.
In dem RGB-Bildformat (R = Rot, G = Grün, B = Blau) wird die Intensität der Grundfarben Rot, Grün und Blau durch die drei Werte r, g und b bezeichnet, die für jeden Bildpunkt jeweils durch ein Byte im Bereich [0,255] repräsentiert werden. Für eine schnelle Konvertierung wird erfindungsgemäß ein aus [2] bekannter RGB-zu-HSV-Umwandlungsalgorithmus verbessert implementiert.
Gemäß dem HSV-Format bezeichnet H den Farbwinkel, S die Farbsättigung und V die Intensität.
1A zeigt für unterschiedliche Beziehungen zwischen den Werten r, g und b, wie die Werte H, S und V aus r, g und b generiert werden.
Durch die in 1A gezeigten, aufgrund der Fallunterscheidungen sehr effizient implementierbaren Gleichungen, werden aus r, g, und b der Farbwinkel H, die Sättigung S und die Intensität V jeweils im Intervall [0,255] berechnet.
Um in die in 1 gezeigte zweite Zwischenstufe 120 zu erhalten, werden die gemäß der ersten Zwischenstufe 110 in einen Farbwinkel H (0 bis 255) umgewandelten Daten binarisiert.
Im Rahmen dieser Binarisierung werden Bildpunkte als hautfarben definiert, welche den folgenden Bedingungen genügen:
In Gleichung (1) ist H_S der charakteristische Farbwinkel der Haut, der bei der hier benutzten Metrik bei H_S = 128 liegt. Der Farbwinkelbereich ± σ liegt in fast allen Anwendungsfällen bei σ ≈ 20. Die Mindestfarbsättigung, die ein Bildpunkt haben muss, um als hautfarben charakterisiert zu werden, wird vorzugsweise zu S_m ≈ 50 gewählt. Um zu dunkle und zu helle Bildpunkte nicht fälschlicherweise als hautfarben zu klassifizieren, werden die Grenzwerte V₁ ≈ 0 und V_h ≈ 250 gesetzt.
Alle Bildpunkte, die außerhalb dieser Wertbereiche liegen, werden für die folgende Verarbeitung ignoriert. Hautfarbene Bildpunkte erhalten den logischen Wert "1", nicht hautfarbene Bildpunkte erhalten den Wert "0". Daraus ergibt sich das in 1 als zweite Zwischenstufe 120 gezeigte binäre Bild, das in 1 in einer Darstellung als Grauwertbild gezeigt ist.
Um die in 1 gezeigte dritte Zwischenstufe 130 zu erhalten, wird das hautfarbene Bild gemäß der zweiten Zwischenstufe 120 einer zweidimensionalen Faltung mit einem Rechteckfilter unterzogen.
Zur Beschleunigung der zweidimensionalen Filterung können im Rahmen einer Rechteckfilterung folgende Vereinfachungen angewendet werden:

a) Das binarisierte hautfarbene Bild wird bei seiner Erzeugung mit einem Rand von Filterhöhe versehen, der mit Nullen gefüllt wird, sogenanntes "Zero Padding". Hierbei kann bei der Filterung die Abfrage von Randüberschreitungen vermieden werden, siehe auch 2.
b) Es kommt ein homogener Filter zum Einsatz, wodurch die zweidimensionale Filterung in zwei eindimensionale Filterungen entkoppelt werden kann.
c) Die Filtermaske wird als konstant (Wert "1") angenommen. Auf diese Weise brauchen zur Ermittlung der Korrelation nur die Ränder des Filters berücksichtigt zu werden, siehe 2.
d) Zur Filterung werden Bildzeilen bzw. Bildspalten einfach aneinander gehängt, wodurch der Zeilen- bzw. Spaltensprung nicht berücksichtigt zu werden braucht. Das implementierte Filterverfahren wird im Weiteren bezugnehmend auf 2 näher erläutert.

2 zeigt ein Filterschema 200, mit dem ein hautfarbenes Bild mit Nullrand 201 gefiltert wird. Das Hautfarbenbild 201 enthält einen Zentralbereich 208, der von einem Zero-Padding-Bereich 202 umgeben ist. Über das Hautfarbenbild 201 wird ein Rechteckfilter 203 gelegt, mit dem eine vertikale Filterung gemäß den Bildspalten (erste Bildspalte 204, zweite Bildspalte 205, usw.) sowie eine horizontale Filterung gemäß den Bildzeilen (ersten Bildzeile 206, zweite Bildzeile 207, etc.) durchgeführt wird. Somit wird bei dem Filterverfahren ein Zero-Padding und eine Filterentkopplung implementiert.
Die beschriebenen Vereinfachungen führen die Filterung auf ein Problem erster Ordnung zurück, im Gegensatz zu einer im Allgemeinen zweidimensionalen Filterung der Ordnung zwei, die wesentlich aufwändiger ist.
Die Filterung erfolgt in zwei Durchgängen. Zunächst werden alle Bildzeilen 206, 207, usw. aneinander gehängt von einer Zeile des Filters durchlaufen. Dabei wird jeweils das Skalarprodukt aus Filterzeile und überstrichenen Bildpunkten gebildet. Das Skalarprodukt kann dabei inkrementell ermittelt werden, indem der nachfolgende Wert des Skalarprodukts sich aus dem vorhergehenden durch Addition des ersten und Subtraktion des letzten Filterelements ergibt, siehe 2. Die sich ergebende Reihe von Skalarprodukten wird dann in Spalten angeordnet, die von einer vertikalen Filterspalte durchlaufen werden (siehe Bildspalten 204, 205, usw.). Auch in diesem Fall wird das Skalarprodukt inkrementell gebildet. Simultan wird dabei der Ort R = (R_Spalte, R_Zeile) = argmax(M) des maximalen Skalarprodukts M(Spalte, Zeile), also die maximale Filterantwort, ermittelt. Durch die beschriebene Vereinfachung kann dieses Verfahren sehr effizient implementiert werden, was anhand des in 1B gezeigten C-Codes ersichtlich wird.
Aus 1B sind zwei schnelle Schleifen erkennbar, für die horizontale und für die vertikale Filterung. Die Pointer filtImg, corrImg und skinImg zeigen auf Speicherbereiche für die gefilterten bzw. das mit Zero-Padding der Breite maxfilt erweiterte Hautfarbenbild. Die horizontale Dimension des Hautfarbenbildes ist cxImage, und die Anzahl seiner Bildpunkte ist numPixels. Mit maxfilt ist das Maximum der Filterdimensionen filtx und filty bezeichnet. In maxCorr steht am Ende die maximale Filterantwort, die beim Bildpunkt masPixel aufgetreten ist. Die Nummer dieses Pixels kann einfach in eine Zeilen/Spaltenkoordinate umgerechnet werden.
In 1 ist eine vierte Zwischenstufe 140 beschrieben, die nach dem Ermitteln einer Position mit einer maximalen Filterantwort 141 (anschaulich das Zentrum des Gesichts des Vortragenden) erhalten wird.
Im Weiteren wird beschrieben, wie aus dem Bild gemäß der vierten Zwischenstufe 140 ein Ausgabevideobild 150 erhalten wird, das aus der vierten Zwischenstufe 140 mittels Stabilisierens, Ausschneidens, Vergrößerns bzw. Tiefpassfilterns gebildet wird. Zum Tiefpassfiltern wird die Position R der maximalen Filterantwort zur Stabilisierung durch ein dynamisches System in zeitlicher Hinsicht einer Tiefpassfilterung unterzogen:
Dadurch wird erreicht, dass der Ort P dem Ort der maximalen Filterantwort R folgt, solange die maximale Filterantwort M größer als eine vorgegebene Schwelle M_min ist. Auf diese Weise werden kurzfristige Störungen bei der Gesichtsfindung herausgefiltert, die nur wenige Bilder betreffen. Außerdem verhindert die Schwelle für die maximale Filterantwort ein unruhiges Springen des Bildes, falls sich im Bereich der Kamera kein zusammenhängender Hautfarbenbereich in ausreichender Größe befindet.
Mittels eines Zoom-Verfahrens (anschaulich eine Fokussierung bzw. Größenanpassung) wird an einer Position P ein Rechteck aus dem ursprünglichen Videobild 101 ausgeschnitten, dessen vertikale bzw. horizontale Dimension je nach gewählter Zoomstufe Z zum Beispiel der Hälfte bzw. einem Viertel derer des ursprünglichen Videos entspricht. Dieser Bildausschnitt wird dann wieder auf die ursprüngliche Position hochskaliert, indem jeder Bildpunkt vier Mal bzw. sechzehn Mal vervielfältigt wird.
Im Weiteren werden einige konkrete Realisierungen bzw. Implementierungen der Erfindung beschrieben.
Das System der Erfindung ist als MATLAB^TM-Programm realisiert. Mit Hilfe eines VMF-Plugins ("Vision For MATLAB"), siehe [1], ist das beschriebene Gesichtsverfolgungsverfahren implementiert und ist ein Gesamtsystem zur Mensch-Maschine-Interaktion mittels natürlicher Kommunikationskanäle integriert.
Bezugnehmend auf 3 wird eine Implementierung der Erfindung als Microsoft^TM-DirectShow^TM-Ausführungsbeispiel beschrieben.
Die Erfindung ist im Rahmen eines DirectShow^TM-Filters realisiert. Auf der Basis des Microsoft^TM-DirectShow^TM-Konzepts ist das beschriebene Verfahren in einen Filter implementiert. Mit Hilfe dieses Filters ist es möglich, sowohl aus Life-Videoquellen (Kameras, Streaming-Videos, TV-Capture-Devices) als auch aus gespeicherten Videos Gesichter zu verfolgen.
Ein Screenshot 300 aus 3 zeigt die Einbindung des Gesichtsverfolgungs-Filters ("Skin Tracker Filter") in eine Video-Verarbeitungskette in dem Windows^TM Programm mit der Bezeichnung "GraphEdit^TM". Der Filter verfolgt in Echtzeit das Gesicht einer Person in einer Filmszene. In dem Screenshot 300 ist ein Ursprungsbild 301 und ein Teilbild 302 gezeigt. Das Teilbild 302 stellt einen Ausschnitt des Ursprungsbildes 301 vergrößert dar. Gemäß 3 wird somit ein Gesichtsverfolgungsfilter ("Skin Tracker Filter") im Microsoft^TM-DirectShow^TM-Programm GraphEdit^TM verwendet. Hier wird ein 320 × 240 DivX^TM encodierter TV-Mitschnitt als Videoquelle benutzt.
Durch Austausch des Videofiles gegen eine Life-Videoquelle, zum Beispiel eine Webcam, kann auch eine Echtzeit- Gesichtsverfolgung bei Präsentationen oder Vorträgen realisiert werden. Diese Anwendung ist zum Beispiel im Rahmen einer PowerPoint^TM-Präsentation realisiert.
Eine andere Anwendungsmöglichkeit ist im Bereich von Fahrerassistenzsystemen realisiert. Hier kann das Gesicht eines Autofahrers mit einem Life-Video verfolgt werden. Somit kann der Gesichtsverfolgungsfilter auch als Vorstufe für weitere Bildverarbeitungsverfahren eingesetzt werden, die auf dem Gesicht operieren sollen (zum Beispiel Blickrichtungsschätzung, etc.).
Im Weiteren wird bezugnehmend auf 4A bis 4D eine Anwendung eines Verfahrens zum Nachführen eines Objekts in einer Mehrzahl von sequentiell aufgenommenen Bildern zum Einsatz im Rahmen einer Videotelephonie-Anwendung beschrieben.
In 4A ist ein erster Screenshot 400 eines Pocket PCs gezeigt. In 4B ist ein zweiter Screenshot 410 von einer Gegenstelle gezeigt. 4C zeigt eine Anordnung 421 aus einem Notebook 421 und einem Pocket PC 422. In 4D ist eine vergrößerte Darstellung 430 des Pocket PCs 422 gezeigt.
Die Sprecherverfolgung für die Videotelefonie gemäß 4A bis 4D ist auf einem Pocket PC 422 (FujitsuSiemens^TM PocketLoox 600, 400MHz Xscale, Betriebssystem PPC2002) implementiert. Als Videoquelle sind eine als CF-Karte einsteckbare Kamera (Pretec^TM-PocketCam, 1.3 MPixel) und die dazugehörigen Softwaretreiber verwendet.
4A bis 4D zeigen den verwendeten Aufbau. Der Pocket PC 422 steht in einer Docking Station. Eine Videotelephonie- Situation wird realistisch durch eine Verbindung der Docking Station mit dem Notebook-PC 421 simuliert. Auf den PC 421 wird der Bildschirm des Pocket PCs 422 dargestellt, so wie ihn eine mobile Gegenstelle während eines Videotelefonats sehen würde. Der PC 421 dient dabei lediglich zur Darstellung des Bildschirminhalts, alle zur Gesichtsverfolgung notwendigen Berechnungen werden auf dem Pocket PC 422 in Echtzeit durchgeführt.
Bewegt sich nun ein Gesprächspartner im Raum vor der Kamera, wird dessen Gesichtsposition aus dem Videoeingang ermittelt und auf dem Bildschirm dargestellt. Zur Verdeutlichung werden in der Abbildung von 4A bis 4D sowohl das volle Kamerabild als auch der nachgeführte Bildausschnitt gezeigt. In einer anderen Videotelephonie-Anwendung kann nur der konkrete Bildausschnitt aus dem Gesicht des Sprechers mit niedriger Bandbreite übertragen werden.
Im konkreten Beispiel wird die ursprüngliche Bildgröße von 320 × 240 Pixel auf ein Teilbild von 80 × 60 Pixel reduziert, welches für die Videotelephonie-Anwendung wesentliche Informationen (Gesicht des Sprechers) enthält. Dadurch ergibt sich eine Reduktion der zu übertragenen Daten von 16:1. Natürlich ist es auch möglich, im Empfängergerät das Teilbild hoch zu skalieren, um einen künstlichen Zoomeffekt zu erzielen.
In diesem Dokument sind folgende Veröffentlichungen zitiert:

[1] Vision for MATLAB, http://www2.cmp.uea.ac.uk/fuzz/vfm/default.html
[2] Bradski, GR "Computer Vision Face Tracking For Use in a Perceptual User Interface", Intel Technology Journal, Q2, 1998
[3] Fritze, F "BuFaLo Face-Tracking DirectShow Filter", http://www.geocities.com/fritzfra2001/
[4] Frischholz, R "Face Detection", http://home.tonline.de/home/Robert.Frischholz/face.htm
[5] Yeasin, M, Kuniyoshi, Y "Detecting and Tracking Human Face and Eye Using Space-Varying Sensor and an Active Vision Head", IEEE Computer Vision and Pattern Recognition", (CVPR'00)-Volume 2, Juni 2000
[6] Dockstader, SL, Tekalp, AM "Multiple Camera Fusion for Multi-Object Tracking", IEEE Workshop on Multi-Object Tracking (WOMOT'01), Juli/August 2001

100: Schemabildfolge
101: Eingangsvideobild
102: Sprecher
103: Gesicht
110: erste Zwischenstufe
120: zweite Zwischenstufe
130: dritte Zwischenstufe
140: vierte Zwischenstufe
141: Position mit maximaler Filterantwort
150: Ausgabevideobild
200: Filterschema
201: Hautfarbenbild mit Nullrand
202: Zero-Padding-Bereich
203: Rechteckfilter
204: erste Bildspalte
205: zweite Bildspalte
206: erste Bildzeile
207: zweite Bildzeile
208: Zentralbereich
300: Screenshot
301: Ursprungsbild
302: Teilbild
400: erster Screenshot
410: zweiter Screenshot
420: Anordnung
421: Notebook
422: Pocket PC
430: vergrößerte Darstellung

Claims

Verfahren zum Nachführen eines Objekts in einer Mehrzahl von sequentiell aufgenommenen Bildern, wobei jedes der Bilder von einer Bildaufnahmeinrichtung in einem für alle Bilder vorgegebenen Bereich aufgenommen wird, bei dem • ein Objekt in einem ersten Bild von einer Mehrzahl von sequentiell aufgenommenen Bildern identifiziert wird; • ein das Objekt enthaltender erster Teilbereich innerhalb des ersten Bildes ermittelt wird; • das Objekt in einem zweiten Bild der Mehrzahl von sequentiell aufgenommenen Bildern identifiziert wird; • ein das Objekt enthaltender zweiter Teilbereich innerhalb des zweiten Bildes ermittelt wird; • der erste Teilbereich und der zweite Teilbereich zum nachgeführten Anzeigen des Objekts innerhalb des vorgegebenen Bereichs bereitgestellt wird.
Verfahren nach Anspruch 1, bei dem der erste Teilbereich eine echte Teilmenge der Daten des ersten Bildes ist und bei dem der zweite Teilbereich eine echte Teilmenge der Daten des zweiten Bildes ist.
Verfahren nach Anspruch 1 oder 2, bei dem von dem ersten Bild nur der erste Teilbereich angezeigt wird, so dass die Auflösung des ersten Teilbereichs geringer ist als die Auflösung des ersten Bildes, und bei dem von dem zweiten Bild nur der zweite Teilbereich angezeigt wird, so dass die Auflösung des zweiten Teilbereichs geringer ist als die Auflösung des zweiten Bildes.
Verfahren nach einem der Ansprüche 1 bis 3, bei dem der erste Teilbereich vergrößert angezeigt wird und bei dem nachfolgend der zweite Teilbereich vergrößert angezeigt wird, so dass die Auflösung des ersten Teilbereichs gleich der Auflösung des zweiten Teilbereichs ist.
Verfahren nach einem der Ansprüche 1 bis 4, bei dem als Objekt ein menschliches Gesicht identifiziert wird.
Verfahren nach einem der Ansprüche 1 bis 5, bei dem das Objekt basierend auf einer Farbcharakteristik und/oder einer Formcharakteristik identifiziert wird.
Verfahren nach einem der Ansprüche 1 bis 6, bei dem das Objekt basierend auf einer Farbwinkelcharakteristik identifiziert wird.
Verfahren nach einem der Ansprüche 1 bis 7, bei dem bei dem Identifizieren des Objekts das jeweilige Bild binarisiert wird.
Verfahren nach einem der Ansprüche 1 bis 8, bei dem bei dem Identifizieren des Objekts das jeweilige Bild mit einem homogenen Rechteckfilter zweidimensional gefaltet wird.
Verfahren nach einem der Ansprüche 1 bis 9, bei dem bei dem Identifizieren des Objekts das jeweilige Bild einer Tiefpassfilterung unterzogen wird.
Verfahren nach einem der Ansprüche 1 bis 10, bei dem als Teilbereich ein das Objekt vollständig enthaltender rechteckförmiger Ausschnitt des Bildes ermittelt wird.
Verfahren nach einem der Ansprüche 1 bis 11, bei dem zum Bereitstellen eines Teilbereichs zum nachgeführten Anzeigen des Objekts der Teilbereich auf die Größe des Bildes hochskaliert wird.
Vorrichtung zum nachgeführten Anzeigen eines Objekts in einer Mehrzahl von sequentiell aufgenommenen Bildern, wobei jedes der Bilder von einer Bildaufnahmeinrichtung in einem für alle Bilder vorgegebenen Bereich aufgenommen ist, • mit einer Bildaufnahmeeinrichtung zum sequentiellen Aufnehmen einer Mehrzahl von Bildern; • mit einem Prozessor, dem die Mehrzahl von sequentiell aufgenommenen Bildern zuführbar ist, und der derart eingerichtet ist, dass folgende Verfahrensschritte durchführbar sind: – Identifizieren eines Objekt in einem ersten Bild der Mehrzahl von sequentiell aufgenommenen Bildern; – Ermitteln eines das Objekt enthaltenden ersten Teilbereichs innerhalb des ersten Bildes; – Identifizieren des Objekts in einem zweiten Bild der Mehrzahl von sequentiell aufgenommenen Bildern; – Ermitteln eines das Objekt enthaltenden zweiten Teilbereichs innerhalb des zweiten Bildes; – Bereitstellen des ersten Teilbereichs und des zweiten Teilbereichs zum nachgeführten Anzeigen des Objekts innerhalb des vorgegebenen Bereichs.
Vorrichtung nach Anspruch 13, bei der die Bildaufnahmeeinrichtung unbeweglich an der Vorrichtung befestigt vorgesehen ist.
Vorrichtung nach Anspruch 13 oder 14, die genau eine Bildaufnahmeeinrichtung aufweist.
Vorrichtung nach einem der Ansprüche 13 bis 15, die als Computer ausgeführt ist, wobei die Bilaufnahmeeinrichtung eine an dem Computer angebrachte Kamera ist.
Vorrichtung nach Anspruch 16, bei welcher der Computer ein portabler Computer ist.
Vorrichtung nach einem der Ansprüche 13 bis 15, die als Mobiltelefon ausgeführt ist, wobei die Bilaufnahmeeinrichtung eine in dem Mobiltelefon integrierte Kamera ist.
Anordnung zum nachgeführten Anzeigen eines Objekts in einer Mehrzahl von sequentiell aufgenommenen Bildern, • mit einer Vorrichtung nach einem der Ansprüche 13 bis 18; • mit einer Anzeigeeinrichtung, welcher der erste Teilbereich und der zweite Teilbereich bereitstellbar ist, und die zum nachgeführten Anzeigen des Objekts mittels sequentiellen Anzeigens des ersten Teilbereichs und des zweiten Teilbereichs innerhalb des vorgegebenen Bereichs eingerichtet ist.
Anordnung nach Anspruch 19, bei der die Anzeigeeinrichtung • ein Mobiltelefon; • ein Computer; oder • eine Projektionseinrichtung ist.
Anordnung nach Anspruch 19 oder 20, eingerichtet als Videotelefonie-Anordnung.
Anordnung nach Anspruch 19 oder 20, eingerichtet zum Verfolgen eines Vortragenden während eines Vortrags.
Computerlesbares Speichermedium, in dem ein Programm zum Nachführen eines Objekts in einer Mehrzahl von sequentiell aufgenommenen Bildern gespeichert ist, wobei jedes der Bilder von einer Bildaufnahmeinrichtung in einem für alle Bilder vorgegebenen Bereich aufgenommen ist, das, wenn es von einem Prozessor ausgeführt wird, folgende Verfahrensschritte aufweist: • Identifizieren eines Objekt in einem ersten Bild der Mehrzahl von sequentiell aufgenommenen Bildern; • Ermitteln eines das Objekt enthaltenden ersten Teilbereichs innerhalb des ersten Bildes; • Identifizieren des Objekts in einem zweiten Bild der Mehrzahl von sequentiell aufgenommenen Bildern; • Ermitteln eines das Objekt enthaltenden zweiten Teilbereichs innerhalb des zweiten Bildes; • Bereitstellen des ersten Teilbereichs und des zweiten Teilbereichs zum nachgeführten Anzeigen des Objekts innerhalb des vorgegebenen Bereichs.
Programm=Element zum Nachführen eines Objekts in einer Mehrzahl von sequentiell aufgenommenen Bildern, wobei jedes der Bilder von einer Bildaufnahmeinrichtung in einem für alle Bilder vorgegebenen Bereich aufgenommen ist, das, wenn es von einem Prozessor ausgeführt wird, folgende Verfahrensschritte aufweist: • Identifizieren eines Objekt in einem ersten Bild der Mehrzahl von sequentiell aufgenommenen Bildern; • Ermitteln eines das Objekt enthaltenden ersten Teilbereichs innerhalb des ersten Bildes; • Identifizieren des Objekts in einem zweiten Bild der Mehrzahl von sequentiell aufgenommenen Bildern; • Ermitteln eines das Objekt enthaltenden zweiten Teilbereichs innerhalb des zweiten Bildes; • Bereitstellen des ersten Teilbereichs und des zweiten Teilbereichs zum nachgeführten Anzeigen des Objekts innerhalb des vorgegebenen Bereichs.