DE102004040023B4 - Verfahren, Vorrichtung, Anordnung, Computerlesbares Speichermedium und Programm-Element zum nachgeführten Anzeigen eines menschlichen Gesichts - Google Patents

Verfahren, Vorrichtung, Anordnung, Computerlesbares Speichermedium und Programm-Element zum nachgeführten Anzeigen eines menschlichen Gesichts Download PDF

Info

Publication number
DE102004040023B4
DE102004040023B4 DE102004040023.7A DE102004040023A DE102004040023B4 DE 102004040023 B4 DE102004040023 B4 DE 102004040023B4 DE 102004040023 A DE102004040023 A DE 102004040023A DE 102004040023 B4 DE102004040023 B4 DE 102004040023B4
Authority
DE
Germany
Prior art keywords
image
human face
images
tracking
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE102004040023.7A
Other languages
English (en)
Other versions
DE102004040023A1 (de
Inventor
Dr. Steinhage Axel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Deutschland GmbH
Original Assignee
Intel Deutschland GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Deutschland GmbH filed Critical Intel Deutschland GmbH
Priority to DE102004040023.7A priority Critical patent/DE102004040023B4/de
Publication of DE102004040023A1 publication Critical patent/DE102004040023A1/de
Application granted granted Critical
Publication of DE102004040023B4 publication Critical patent/DE102004040023B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

Verfahren zum Nachführen eines menschlichen Gesichts in einer Mehrzahl von sequentiell aufgenommenen Bildern, wobei jedes der Bilder von einer Bildaufnahmeinrichtung mit einem für alle Bilder vorgegebenen, konstanten Bildbereich aufgenommen wird, bei dem ein menschliches Gesicht in einem ersten Bild von einer Mehrzahl von sequentiell aufgenommenen Bildern identifiziert wird; ein das menschliche Gesicht enthaltender erster Teilbereich innerhalb des ersten Bildes ermittelt wird, wobei als Teilbereich ein das menschliche Gesicht vollständig enthaltender rechteckförmiger Ausschnitt des Bildes ermittelt wird; ein das menschliche Gesicht enthaltender zweiter Teilbereich innerhalb eines zweiten Bildes der Mehrzahl von sequentiell aufgenommenen Bildern basierend auf einer Farbwinkelcharakteristik identifiziert wird, wobei bei dem Identifizieren des menschlichen Gesichts das jeweilige Bild zunächst binarisiert und dann mit einem homogenen Rechteckfilter zweidimensional gefaltet wird, wodurch eine Position mit einer maximalen Filterantwort ermittelt wird, und dann die Position mit der maximalen Filterantwort in zeitlicher Hinsicht einer Tiefpassfilterung unterzogen wird; und von dem ersten Bild nur der erste Teilbereich und von dem zweiten Bild nur der zweite Teilbereich zum nachgeführten Anzeigen des menschlichen Gesichts an eine Anzeigeeinrichtung bereitgestellt werden.

Description

  • Die Erfindung betrifft ein Verfahren, eine Vorrichtung, eine Anordnung, ein Computerlesbares Speichermedium und ein Programm-Element zum nachgeführten Anzeigen eines menschlichen Gesichts.
  • Für viele Anwendungsfälle ist es erforderlich, aus einem Videostrom ein menschliches Gesicht zu extrahieren und das extrahierte Gesicht auszugeben. Beispiele sind die Verfolgung eines Kopfes eines Vortragenden, die Extraktion von Gesichtern aus Videos von Überwachungskameras oder Videokonferenz-Applikationen.
  • Aus [2], [3], [4] sind Gesichtsverfolgungsalgorithmen bekannt.
  • Aus dem Stand der Technik, z. B. [8], sind ferner Gesichtsverfolgungs-Anwendungen bekannt, die in Echtzeit ein Gesicht verfolgen.
  • Zum Beispiel ist bekannt, dass eine Kamera manuell dem Gesicht einer sich bewegenden Person nachgeführt werden kann. Allerdings erfordert dies in der Regel die Anwesenheit einer die Kamera führenden Person und verursacht somit hohe Personalkosten. Ferner sind aus [5] und [7] sogenannte „active vision”-Systeme bekannt. Ein solches „active vision”-System führt auf der Basis eines Objektverfolgungsalgorithmus einen Kamerakopf mechanisch nach, der zu diesem Zweck mit einer Schwenk/Kipp-Motorisierung ausgestattet sein muss. Der Nachteil dieses Verfahrens ist das Erfordernis teurer Komponenten, wie zum Beispiel ein Motor, eine Aufhängung, ein Motorsteuerung und eine Stromversorgung.
  • Ferner ist bekannt, ein System aus mehreren fixierten Kameras zu bilden, zwischen denen basierend auf einer jeweiligen Sprecherposition umgeschaltet wird. Dieses zum Beispiel aus [6] bekannte Verfahren ist aufwändig und teuer.
  • Aus dem Stand der Technik sind Gesichtsverfolgungs-Anwendungen bekannt, die in zuvor abgespeicherten Videodaten ein Gesicht verfolgen.
  • Für eine solche „offline” Extraktion von Bildausschnitten aus abgespeicherten Videos ist eine kostenintensive manuelle Nachbearbeitung oder ein aufwendiger Bildverarbeitungsalgorithmus (siehe zum Beispiel [2], [3], [4]) erforderlich.
  • [9] zeigt ein Echtzeitverfahren zu Gesichtsbereich-Verfolgung in Bildaufnahmen und ein Verfahren zur Gesichtserkennung für ein Überwachungssystem.
  • [10] zeigt ein Verfahren zur Aufnahme interessierender Bereiche von beweglichen oder wechselnden Objekten, beispielsweise Personen, bei dem mit einem aus einem Bildsensor ausgelesenes Bild ein interessierender Bereich des Objekts für das Ausgabeformat bildfüllend verfolgt wird.
  • [11] zeigt ein Verfahren zum automatischen Lokalisieren von Gesichtern in digitalen Videoströmen, insbesondere ein Verfahren zum Nachführen eines menschlichen Gesichts in einer Mehrzahl von sequentiell aufgenommenen Bildern, das Bildausschnitte eines größeren Eingabebildes nacheinander untersucht.
  • [12] zeigt eine Gesichtserkennungsvorrichtung zum Erzeugen eines Ausgangssignals, das repräsentativ dafür ist, wie wahrscheinlich es ist, dass eine Testbereich eines Bildes ein Gesicht enthält.
  • [13] und [14] zeigen eine Vielzahl von Verfahren zum Erkennen und Verfolgen von Gesichtern in Bildersequenzen.
  • Unter Benutzung einer Freisprecheinrichtung eines modernen Mobiltelefons kann sich ein Gesprächsteilnehmer während des Telefonats frei im Raum bewegen. Mit in gegenwärtigen Mobiltelefonen eingebauten Kameras ist eine mobile Videotelefonie möglich. Bewegt sich der Gesprächsteilnehmer während des Videotelefonats frei im Raum, nimmt der für den anderen Gesprächsteilnehmer interessante Teil des Videobildes, zum Beispiel das Gesicht des Gesprächspartners, häufig nur einen kleinen Teil des Videobildes ein. Auf den durch die kleine Bauform der Mobiltelefone bedingten miniaturisierten Bildschirmen lässt sich dann das Gesicht des Sprechers oft nur sehr schwer erkennen.
  • Bei von einer Bildaufnahmeeinrichtung aufgenommenen Bildern stellt ein Bereich von Interesse („region of interest”) oft nur einen kleinen Ausschnitt des gesamten aufgenommenen Bildes dar, so dass bei einer ablaufenden Videosequenz der interessante Bereich und dessen zeitlicher Verlauf häufig nur schwer sichtbar sind.
  • Der Erfindung liegt das Problem zugrunde, ein menschliches Gesicht in einer Mehrzahl von sequentiell aufgenommenen Bildern für einen Benutzer besser erkennbar darstellen zu können.
  • Das Problem wird durch die Merkmale des Anspruchs 1 und die Gegenstände der nebengeordneten Ansprüche gelöst.
  • Eine Grundidee der Erfindung ist dann zu sehen, bei einer Abfolge von zeitlich aufeinander folgenden Bildern, vorzugsweise in Echtzeit, aus jedem der Bilder ein Objekt, insbesondere ein menschliches Gesicht, von Interesse, das in einem Teilbereich der Bilder enthalten ist, herauszuschneiden und die herausgeschnitten Teilbereiche zum nachgeführten Anzeigen des Objekts bereitzustellen. Somit wird ein Teilbereich innerhalb von jedem der Bilder ermittelt, welcher das Objekt von Interesse, zum Beispiel ein menschliches Gesicht, enthält. Die so ermittelten Teilbereiche der Bilder werden dann zum nachgeführten Anzeigen des Objekts bereitgestellt (zum Beispiel zum Übermitteln an eine bzw. zur Darstellung auf einer Anzeigeeinrichtung, oder zur Archivierung). Das heißt, dass eine Sequenz von Teilbildern bereitgestellt wird, von denen jedes das Objekt und ggf. einen Umgebungsbereich davon enthält. Auf diese Weise wird mit Mitteln der Bildverarbeitung ein nachgefuhrtes Anzeigen eines interessierenden Abschnitts eines Bilds zeitaufgelöst ermoglicht, das heißt es wird aus einem großen Bild ein kleines Bild herausgeschnitten, und es werden diese kleinen Bilder so aneinander gereiht, dass sich für einen Beobachter anschaulich eine Art Film ergibt, der nur den interessierenden Bereich enthalt, wobei nicht interessierende andere Bildbereiche in diesem Film nicht zu sehen sind. Dies hat den Vorteil, dass nur ein Teilbereich von Interesse, nicht ein gesamtes Bild, an eine Anzeigeeinrichtung zu übermitteln ist, was zu einer erheblichen Reduktion der Menge von zu übertragenden Daten führt. Der interessierende Bereich ist auf einer Anzeige vergrößert darstellbar, was zu einer besseren Erkennbarkeit des Objekts von Interesse führt.
  • Bei der Erfindung wird somit die Kamera nicht nachgeführt, das heißt bei einer Bewegung des Objekts wird die Kamera nicht bewegt, sondern sie bleibt starr und nimmt bei allen Bildern der Sequenz denselben Abschnitt einer Szenerie auf. Statt die Kamera bei einer Bewegung des Objekts nachzuführen, wird eine nachgeführte Anzeige eines Objekts dadurch realisiert, dass ein fester Bildabschnitt einer Szenerie derart bearbeitet wird, dass ein das Objekt enthaltender Teilbereich des Bildabschnitts ermittelt und dargestellt wird. Es wird der Teilbereich innerhalb des konstanten Bildabschnitts nachgeführt, nicht die Bildaufnahmeeinrichtung.
  • Eine wichtige Anwendung der Erfindung ist die Gesichtsextraktion aus einem Bild und die Nachführung eines das Gesicht enthaltenden Bildausschnitts in Echtzeit zur Sprecherverfolgung bei Vorträgen und Präsentationen. Ein anderes wichtiges Einsatzgebiet der Erfindung ist eine Kamera-basierte Sprechverfolgung für Freisprech-Videotelephonie auf mobilen Endgeräten.
  • Ein Aspekt der vorliegenden Erfindung kann darin gesehen werden, in einem beliebigen Bild, zum Beispiel einem Videostrom, der aus einem Computer-File oder auch direkt von einer Videokamera kommen kann, ein Objekt, zum Beispiel ein menschliches Gesicht, vorzugsweise in Echtzeit zu finden und den Bildausschnitt mit dem Gesicht im Zentrum als Videostrom auszugeben. Dieser Ausgabe-Datenstrom kann dann direkt auf einem Bildschirm oder einem Videoprojektor ausgegeben werden und/oder als Videofile gespeichert werden. Somit bezieht sich ein Aspekt der vorliegenden Erfindung auf die Anwendung der Gesichtsverfolgung, nämlich die Verfolgung und Extraktion des Gesichts eines sich frei im Raum beweglichen Sprechers aus Videos bei Vorträgen und Präsentationen in Echtzeit.
  • Somit ist eine kostengünstige und universale Lösung geschaffen, die aus Material jeder beliebigen Videoquelle (”online” oder ”offline”) in Echtzeit auf Standard-Hardware Gesichter extrahiert und zum nachgeführten Anzeigen bereitstellt. Anschaulich macht sich die vorliegende Erfindung zu Nutze, dass Kameras auch im Low-Cost-Segment sehr hohe Auflosungen von zum Beispiel mehr als 600×800 Pixel aufweisen. Für viele Anwendungen ist so eine hohe Auflösung gar nicht erforderlich, oder es wird die erreichbare Auflösung durch andere Umstände limitiert. So werden zum Beispiel Online-Videokonferenzen aufgrund von Bandbreite-Limitierungen mit niedriger Auflösung übertragen oder es kommen nur kleine Bildschirme (zum Beispiel in einem Mobiltelefon) zum Einsatz. Eine wichtige Idee der Erfindung in diesem Zusammenhang ist, den Bildausschnitt, der das Gesicht des Sprechers enthält, in einem hochaufgelösten Ursprungsvideo automatisch zu finden, zu verfolgen und zur Ubermittlung, Darstellung bzw. Archivierung zur Verfugung zu stellen.
  • Mittels automatischen Nachführens des Bildausschnitts vor dem statischen Hintergrund (d. h. des Bildbereichs konstanter Große) ergibt sich fur den Betrachter der Eindruck, dass das Gesicht mit einer beweglichen Kamera verfolgt wird, anschaulich kann von einem virtuellen Kameramann gesprochen werden.
  • Die Erfindung stellt ein Bildverarbeitungsverfahren zur Verfügung, dass unter anderem die folgenden Vorteile aufweist. Menschliche Gesichter können aufgrund ihrer charakteristischen Farbverteilung und Form als Objekt in den Bildern gefunden werden und gemeinsam mit einem Umgebungsbereich als zum Beispiel rechteckige Teilbereiche dargestellt werden. Ferner ist das erfindungsgemäße Verfahren extrem schnell, kann in Echtzeit arbeiten und stellt nur geringe Anforderungen an die Rechenleistung und die Videoqualität. Bei extremen Beleuchtungsverhaltnissen können kleine Parameteranpassungen vorteilhaft sein, im Allgemeinen kann das erfindungsgemaße Verfahren für die unterschiedlichen Videoquellen jedoch ohne benutzerdefinierte Anpassung verwendet werden. Die Erfindung kann standardisiert als DirectShowTM-Filter formuliert werden, und das Verfahren kann zum Beispiel in beliebige Windows-Videoanwendungen integriert werden und ist mit jeder Art von Videoeingabekanälen und Videoausgabekanälen kompatibel.
  • Insbesondere aufgrund der niedrigen Anforderungen an Rechenleistung und Kameraqualität kann das Verfahren der Erfindung auf vielen verschiedenen Hardware-Plattformen und Software-Plattformen implementiert werden. Zum Beispiel ist eine Implementierung als WindowsTM-DirectShowTM-Filter (zur Sprechverfolgung in Vorträgen, zur Nachbearbeitung von Videos) und auch eine Implementierung in MATLABTTM möglich, siehe [1].
  • Ein wichtiger Aspekt der Erfindung ist das Bereitstellen eines schnellen Verfahrens zum Lokalisieren von gesichtsförmigen hautfarbenen Bereichen in Videobildern. Dazu werden zunächst Videodaten von einem RGB-Format (R = Red, G = Green, B = Blue) in ein HSV-Format (H = Farbwinkel, S = Sättigung, V = Intensität) konvertiert. Da subjektiv wahrgenommene Unterschiede in der menschlichen Hautfarbe im Wesentlichen durch die unterschiedlichen Farbsättigungen bedingt sind, der Farbwinkel für verschiedene Hauttypen (schwarze, rote, gelbe oder weiße Haut) aber nur marginal variiert, wird der H-Wert zur Charakterisierung der Hautfarbe im Bild vorteilhaft verwendet.
  • Nachfolgend wird das Bild binarisiert, das heißt dass zum Beispiel die Bildpunkte, die in einem Intervall a um einen charakteristischen Hautfarbenwinkel O liegen, auf die maximale Intensität Imax gesetzt werden können, alle anderen auf den Wert ”0”. Außerdem können alle Pixel ebenfalls auf den Wert ”0” gesetzt werden, die hinsichtlich Farbsättigung S und/oder Intensität V außerhalb eines vorgegebenen Bereichs [Smin Smax] bzw. [Vmin, Vmax] liegen. Dies verhindert, dass Bildpunkte mit hohem Rauschanteil fälschlicherweise als hautfarben klassifiziert werden.
  • Befindet sich das Gesicht einer Person in dem Bild, so definiert das Gesicht unter normalen Umständen den größten zusammenhängenden hautfarbenen Bildbereich. Dieser Bereich hat in der Regel die Form eines Ovals, dessen längere Achse vertikal orientiert ist. Um die Position des Mittelpunktes dieses Bereichs zu finden, wird das binarisierte Bild mit einem homogenen Rechteckfilter zweidimensional gefaltet. Der Ort mit der maximalen Filterantwort wird dann als Mittelpunkt des Gesichts definiert.
  • Dieses Verfahren ist besonders schnell, kann allerdings unter ungünstigen Umständen manchmal zu einer Fehlerklassifikation oder Störung im Bild bzw. zu Sprüngen in der Gesichtspositionsschätzung führen. Um die Robustheit des Systems zu erhöhen, wird die Positionsschätzung noch über ein dynamisches System zeitlich tiefpassgefiltert.
  • Schließlich kann ein Bildausschnitt von vorzugsweise wählbarer und konstanter Größe um die gefundene Gesichtsposition herum aus dem Ursprungsvideo ausgeschnitten und auf die ursprüngliche Bildgröße vergrößert ausgegeben werden. Dieser Schritt gemeinsam mit der dynamischen Verschiebung des Bildausschnitts erzielt den Effekt eines Hineinzoomens auf das Gesicht im Video und somit dafür, dass das Datenformat des Ausgabevideos das gleiche wie das des Eingabevideos ist. Auf diese Weise kann die Gesichtsextraktion und Gesichtsverfolgung als Filter in bestehenden Videoverarbeitungsketten implementiert werden.
  • Im Weiteren wird ein anderes Anwendungsgebiet der vorliegenden Erfindung beschrieben, nämlich die Kamerabasierte Sprecherverfolgung für Freisprech-Videotelephonie auf mobilen Endgeräten (zum Beispiel ein Mobiltelefon).
  • Die in Mobiltelefonen eingebauten Kameras (häufig aus dem Low-Cost-Segment) haben oft eine Auflösung, die weit über die darstellbare Display-Auflösung hinausgeht. Mit dem erfindungsgemäßen Verfahren kann eine solche Anzeige verwendet werden, um aus einem aufgenommenen Videobild senderseitig nur den Teil mit dem Gesicht des Sprechers herauszuschneiden und diesen Bildteil der Gegenstelle zu übertragen. Die vorliegende Erfindung ermöglicht dies, indem das erfindungsgemäße Verfahren in einem mobilen Endgerät implementiert wird.
  • Dadurch kann unter Verwendung eines Mobiltelefons mit eingebauter Kamera eine mobile Videotelephonie-Anwendung bereitgestellt werden, so dass eine Sprecherverfolgung beim Freisprechen während eines Videotelefonats geschaffen ist.
  • Mittels des erfindungsgemäßen Verfahrens ist es möglich, auch mit der beschrankten Rechenleistung eines mobilen Endgeräts das Gesicht eines Gesprächsteilnehmers in einem durch die Gerätekamera aufgenommenen Video in Echtzeit zu verfolgen und den entsprechenden Bildausschnitt auf dem Display der Gegenstelle darzustellen. Da die Auflösung der Displays von Mobiltelefonen meist klein im Vergleich zu jener des mit der Gerätekamera aufgenommenen Ursprungsvideos ist, ergibt sich für die Übertragung des Bildes im Rahmen der Videotelefonie eine Reduzierung der benötigten Bandbreite. Es wird der für das Gespräch wichtige Bildteil, der das Gesicht des Gesprachspartners enthält, in voller Auflösung übermittelt. Auf diese Weise können die Vorzüge des Freisprechens auch für die mobile Bildtelefonie genutzt werden.
  • Ein wichtiger Anwendungsaspekt der Erfindung besteht somit in der Implementierung der schnellen Methode zur Gesichtsverfolgung auf einem mobilen Endgerät zur Realisierung einer Freisprecheinrichtung für Videotelefonie.
  • Bei dem Verfahren zur Gesichtsverfolgung können auf einem hochaufgelösten Videobild nach Umwandlung von einem RGB-Format in ein HSV-Farbmodell diejenigen Bildpunkte extrahiert werden, deren Farbwinkel im Bereich der menschlichen Hautfarbe liegt. Danach kann mittels eines einfachen Rechteckfilters die Position des größten zusammenhängenden hautfarbenen Bildbereichs ermittelt werden. In den durch die Erfindung abgedeckten Anwendungsfällen ist dieser Ort identisch mit der Position des Gesichts des Sprechers. Mittels eines Tiefpassfilters werden Störungen in der Positionsschätzung herausgefiltert. Der Bildausschnitt mit dem Gesicht des Sprechers wird über das ursprüngliche Videobild nachgeführt, wodurch sich der Eindruck einer aktiven Kameranachführung ergibt, man könnte von einem virtuellen Kameramann sprechen.
  • Somit besteht ein Aspekt der Erfindung in der Anwendung von Kameras in mobilen Endgeräten zur Erfassung und Verfolgung eines sich im Raum bewegenden Sprechers bei einer Videotelephonie-Anwendung. Insbesondere die Reduzierung des Bildinhalts auf das Gesicht zur Datenreduktion ist hierbei vorteilhaft.
  • Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
  • Im Weiteren werden Ausgestaltungen des erfindungsgemäßen Verfahrens beschrieben, die auch für die Vorrichtung, die Anordnung, das Programm-Element und das Computerlesbare Speichermedium gelten.
  • Der erste Teilbereich kann eine echte Teilmenge der Daten des ersten Bildes sein, und der zweite Teilbereich kann eine echte Teilmenge von Daten des zweiten Bildes sein. Gemaß dieser Ausgestaltung wird durch das Nachführen des Objekts die zur verarbeitende bzw. zu übertragende Datenmenge reduziert, was zu einer schnelleren Verarbeitung fuhrt, vorzugsweise in Echtzeit.
  • Bei dem Verfahren kann von dem ersten Bild nur der erste Teilbereich angezeigt werden, so dass die Auflösung des ersten Teilbereichs geringer ist als die Auflösung des ersten Bildes, und bei dem zweiten Bild kann nur der zweite Teilbereich angezeigt werden, so dass die Auflösung des zweiten Teilbereichs geringer ist als die Auflösung des zweiten Bildes. Somit ist eine Anzeigeeinrichtung mit geringer Auflösung ausreichend, um die erfindungsgemäß bereitgestellten Teilbereiche anzuzeigen.
  • Der erste Teilbereich kann vergrößert angezeigt werden, und nachfolgend kann der zweite Teilbereich vergrößert angezeigt werden, so dass die Auflösung des ersten Teilbereichs gleich der Auflösung des zweiten Teilbereichs ist. Damit kann eine sukzessive Folge von Datenpaketen mit jeweils gleicher Größe bereitgestellt werden, die ohne weitere Anpassung direkt auf einer Anzeigeeinrichtung angezeigt werden kann.
  • Als Objekt kann ein menschliches Gesicht identifiziert werden. Alternativ kann auch jedes andere Objekt nachgeführt dargestellt werden, das sich aufgrund gegenüber der Umgebung unterschiedlicher Bildparameter von der Umgebung abhebt, zum Beispiel ein einfarbiger Fußball bei einer Fußballübertragung im Fernsehen.
  • Das Objekt kann basierend auf einer Farbcharakteristik und/oder einer Formcharakteristik identifiziert werden. Zum Beispiel weist ein menschliches Gesicht gegenüber vielen Hintergründen eine charakteristische Farbe auf, die zum Identifizieren des Objektes verwendet werden kann. Ein Fußball unterscheidet sich ebenfalls farblich von einem typischen Hintergrund, zum Beispiel von einem grünen Rasen. Ein Fußball ist rund, ein Gesicht ist häufig oval, so dass auch solche Formcharakteristika zur Identifizierung der Objekte mit verbesserter Zuverlässigkeit verwendet werden können.
  • Bei dem Identifizieren des Objekts kann das jeweilige Bild binarisiert werden. Zum Beispiel kann hierfür jedem Bildpixel ein logischer Wert ”0” oder ”1” zugeordnet werden. Ein komplexes grauabgestuftes oder farbabgestuftes Bild kann dadurch anschaulich in ein Schwarz-Weiß-Raster umgewandelt werden.
  • Bei dem Identifizieren des Objekts kann das zweidimensionale Bild mit einem homogenen Rechteckfilter zweidimensional gefaltet werden. Anders ausgedrückt wird eine aufwendige zweidimensionale Filterung auf zwei eindimensionale Filterungen zuruckgeführt, das heißt auf eine horizontale und auf eine vertikale Filterung, was eine besonders schnelle Bildverarbeitung ermöglicht.
  • Bei dem Identifizieren des Objekts kann das jeweilige Bild einer Tiefpassfilterung unterzogen werden, um ein Springen des Bildausschnitts zu vermeiden und um eine bessere und homogenere bzw. gleichmäßigere Darstellung des Bildes zu ermöglichen.
  • Als Teilbereiche kann ein das Objekt vollständig enthaltender rechteckförmiger Ausschnitt des Bildes ermittelt werden. Die Rechteckseiten können benutzerdefiniert angepasst werden, zugeschnitten auf die Bedürfnisse des Einzelfalls.
  • Zum Bereitstellen eines Teilbereichs zum nachgefuhrten Anzeigen des Objekts kann der Teilbereich auf die Größe des Bildes hochskaliert werden.
  • Im Weiteren werden Ausgestaltungen der erfindungsgemäßen Vorrichtung beschrieben, die auch für das Verfahren, die Anordnung, das Computerlesbare Speichermedium und das Programm-Element gelten.
  • Die Bildaufnahmerichtung kann unbeweglich an der Vorrichtung befestigt vorgesehen werden. Indem die Bildaufnahmeeinrichtung statisch, das heißt starr bzw. mechanisch und somit immobil vorgesehen wird, ist eine komplizierte Dreh- bzw. Translationsbewegung der Kamera zum Aufnehmen von Bildern entbehrlich, so dass mit einer unbeweglich angeordneten Kamera ein nachgeführtes Anzeigen des Objekts ermöglicht ist.
  • Die Vorrichtung kann genau eine Bildaufnahmeeinrichtung, das heißt eine einzige Bildaufnahmeeinrichtung, aufweisen. Das Verwenden einer Mehrzahl von Kameras, die jeweils ein eigenes Bild aufnehmen, und von denen dann ein passendes Bild ausgewählt wird, ist dadurch erfindungsgemaß entbehrlich, da aus einem großen Bild ein Teilbereich von Interesse ausgewählt wird.
  • Die Vorrichtung kann als Computer ausgeführt sein, wobei die Bildaufnahmeeinrichtung eine an dem Computer angebrachte Kamera sein kann. Insbesondere kann der Computer ein portabler Computer, zum Beispiel ein Laptop oder ein Pocket PC sein. Ein solcher Computer kann bequem zu einem Vortrag mitgenommen werden, wo dann mittels des auf dem Computer gespeicherten Programms zum Durchführen des erfindungsgemäßen Verfahrens eine nachgeführte Sprecherverfolgung in Echtzeit ermöglicht ist. Die nachgeführte Bilderfolge kann zum Beispiel unter Verwendung eines Projektionsgeräts auf eine Leinwand produziert werden oder kann auf einer Anzeigeeinrichtung (zum Beispiel auf einer LCD oder auf einer Kathodenstrahlröhre) angezeigt werden.
  • Die Vorrichtung kann als Mobiltelefon ausgeführt sein, wobei die Bildaufnahmeeinrichtung eine in dem Mobiltelefon integrierte Kamera sein kann. Im Rahmen der Videotelefonie kann ein erster Benutzer ein Mobiltelefon mit einer Kamera verwenden, wobei die Kamera in dem Mobiltelefon ein Bild des ersten Benutzers aufnimmt. Noch in dem ersten Mobiltelefon kann eine Bildverarbeitung gemäß der Erfindung erfolgen, so dass das Gesicht des ersten Benutzers aufweisende Teilbereiche des Bilds an ein zweites Mobiltelefon übermittelt werden können, das von einem zweiten Benutzer verwendet wird. Diesen mengenmäßig reduzierten Daten können dann auf einer Bildanzeige des zweiten Telefons angezeigt werden, um dem zweiten Benutzer den zeitlichen Verlauf des Gesichts des ersten Benutzers zugänglich zu machen. Auf diese Weise kann mit einer geringen Menge zu übertragender Daten eine Videotelephonie-Anwendung realisiert werden.
  • Im Weiteren werden Ausgestaltungen der erfindungsgemaßen Anordnung beschrieben. Diese gelten auch für das Verfahren, für die Vorrichtung, für das Computerlesbare Speichermedium und für das Programm-Element.
  • Die Anzeigeeinrichtung kann ein Mobiltelefon, ein Computer oder eine Projektionseinrichtung sein. Anders ausgedrückt können die übertragenen Daten auf der Anzeige eines Mobiltelefons, auf einem Computerbildschirm oder auf einer Leinwand einer Projektionseinrichtung dargestellt werden.
  • Somit kann die erfindungsgemäße Anordnung als Videotelefonie-Anordnung oder zum Verfolgen eines Vortragenden während eines Vortrags eingerichtet sein.
  • Ausführungsbeispiele der Erfindung sind in den Figuren dargestellt und werden im Weiteren näher erläutert.
  • Es zeigen:
  • 1 eine Bilderfolge, die den schematischen Ablauf eines Verfahrens gemäß einem Ausführungsbeispiel der Erfindung zeigt,
  • 1A Verknüpfungsvorschriften zum Konvertieren eines Datensatzes in einem RGB-Format in ein HSV-Format im Rahmen des Verfahrens gemäß dem Ausführungsbeispiel der Erfindung,
  • 1B C-Programmcode zum Realisieren eines Teilschritts im Rahmen des Verfahrens gemäß dem Ausführungsbeispiel der Erfindung,
  • 2 eine Darstellung, die das Filtern im Rahmen des Verfahrens gemäß dem Ausführungsbeispiel der Erfindung zeigt,
  • 3 eine Bildschirmanzeige, die eine Implementierung des erfindungsgemäßen Verfahrens in einer MicrosoftTM-DirectShowTM-Applikation zeigt,
  • 4A bis 4D Bilder eines Systems, in dem ein Verfahren gemäß einem anderen Ausführungsbeispiel der Erfindung implementiert ist.
  • Gleiche oder ähnliche Komponenten in unterschiedlichen Figuren sind mit gleichen Bezugsziffern versehen.
  • Die Darstellungen in den Figuren sind schematisch und nicht maßstäblich.
  • Im Weiteren wird bezugnehmend auf 1 eine Schemabildfolge 100 beschrieben, anhand welcher ein Verfahren zum Nachführen eines Gesichts in einer Mehrzahl von sequentiell aufgenommenen Bildern gemaß einem Ausführungsbeispiel der Erfindung beschrieben wird.
  • In 1 ist ein Eingangsvideobild 101 gezeigt, das einen Sprecher 102 mit einem Gesicht 103 während eines Vortrags zeigt.
  • Ferner ist in 1 eine erste Zwischenstufe 110 gezeigt, die aus dem Eingangsvideobild 101 mittels einer Konvertierung von einem RGB-Format in ein HSV-Format erhalten wird.
  • In dem RGB-Bildformat (R = Rot, G = Grün, B = Blau) wird die Intensitat der Grundfarben Rot, Grün und Blau durch die drei Werte r, g und b bezeichnet, die für jeden Bildpunkt jeweils durch ein Byte im Bereich [0,255] repräsentiert werden. Für eine schnelle Konvertierung wird ein aus [2] bekannter RGB-zu-HSV-Umwandlungsalgorithmus verbessert implementiert.
  • Gemäß dem HSV-Format bezeichnet H den Farbwinkel, S die Farbsättigung und V die Intensität.
  • 1A zeigt für unterschiedliche Beziehungen zwischen den Werten r, g und b, wie die Werte H, S und V aus r, g und b generiert werden.
  • Durch die in 1A gezeigten, aufgrund der Fallunterscheidungen sehr effizient implementierbaren Gleichungen, werden aus r, g, und b der Farbwinkel H, die Sättigung S und die Intensität V jeweils im Intervall [0,255] berechnet.
  • Um in die in 1 gezeigte zweite Zwischenstufe 120 zu erhalten, werden die gemäß der ersten Zwischenstufe 110 in einen Farbwinkel H (0 bis 255) umgewandelten Daten binarisiert.
  • Im Rahmen dieser Binarisierung werden Bildpunkte als hautfarben definiert, welche den folgenden Bedingungen genugen:
    Figure DE102004040023B4_0002
  • In Gleichung (1) ist H der charakteristische Farbwinkel der Haut, der bei der hier benutzten Metrik bei Hs = 128 liegt. Der Farbwinkelbereich ±σ liegt in fast allen Anwendungsfällen bei σ ≈ 20. Die Mindestfarbsättigung, die ein Bildpunkt haben muss, um als hautfarben charakterisiert zu werden, wird vorzugsweise zu Sm ≈ 50 gewählt. Um zu dunkle und zu helle Bildpunkte nicht fälschlicherweise als hautfarben zu klassifizieren, werden die Grenzwerte Vl ≈ 0 und Vh ≈ 250 gesetzt.
  • Alle Bildpunkte, die außerhalb dieser Wertbereiche liegen, werden für die folgende Verarbeitung ignoriert. Hautfarbene Bildpunkte erhalten den logischen Wert ”1”, nicht hautfarbene Bildpunkte erhalten den Wert ”0”. Daraus ergibt sich das in 1 als zweite Zwischenstufe 120 gezeigte binäre Bild, das in 1 in einer Darstellung als Grauwertbild gezeigt ist.
  • Um die in 1 gezeigte dritte Zwischenstufe 130 zu erhalten, wird das hautfarbene Bild gemäß der zweiten Zwischenstufe 120 einer zweidimensionalen Faltung mit einem Rechteckfilter unterzogen.
  • Zur Beschleunigung der zweidimensionalen Filterung können im Rahmen einer Rechteckfilterung folgende Vereinfachungen angewendet werden:
    • a) Das binarisierte hautfarbene Bild wird bei seiner Erzeugung mit einem Rand von Filterhöhe versehen, der mit Nullen gefüllt wird, sogenanntes ”Zero Padding”. Hierbei kann bei der Filterung die Abfrage von Randüberschreitungen vermieden werden, siehe auch 2.
    • b) Es kommt ein homogener Filter zum Einsatz, wodurch die zweidimensionale Filterung in zwei eindimensionale Filterungen entkoppelt werden kann.
    • c) Die Filtermaske wird als konstant (Wert ”1”) angenommen. Auf diese Weise brauchen zur Ermittlung der Korrelation nur die Ränder des Filters berücksichtigt zu werden, siehe 2.
    • d) Zur Filterung werden Bildzeilen bzw. Bildspalten einfach aneinander gehängt, wodurch der Zeilen- bzw. Spaltensprung nicht berücksichtigt zu werden braucht.
  • Das implementierte Filterverfahren wird im Weiteren bezugnehmend auf 2 näher erläutert.
  • 2 zeigt ein Filterschema 200, mit dem ein hautfarbenes Bild mit Nullrand 201 gefiltert wird. Das Hautfarbenbild 201 enthält einen Zentralbereich 208, der von einem Zero-Padding-Bereich 202 umgeben ist. Über das Hautfarbenbild 201 wird ein Rechteckfilter 203 gelegt, mit dem eine vertikale Filterung gemäß den Bildspalten (erste Bildspalte 204, zweite Bildspalte 205, usw.) sowie eine horizontale Filterung gemäß den Bildzeilen (ersten Bildzeile 206, zweite Bildzeile 207, etc.) durchgeführt wird. Somit wird bei dem Filterverfahren ein Zero-Padding und eine Filterentkopplung implementiert.
  • Die beschriebenen Vereinfachungen führen die Filterung auf ein Problem erster Ordnung zurück, im Gegensatz zu einer im Allgemeinen zweidimensionalen Filterung der Ordnung zwei, die wesentlich aufwändiger ist.
  • Die Filterung erfolgt in zwei Durchgängen. Zunächst werden alle Bildzeilen 206, 207, usw. aneinander gehängt von einer Zeile des Filters durchlaufen. Dabei wird jeweils das Skalarprodukt aus Filterzeile und überstrichenen Bildpunkten gebildet. Das Skalarprodukt kann dabei inkrementell ermittelt werden, indem der nachfolgende Wert des Skalarprodukts sich aus dem vorhergehenden durch Addition des ersten und Subtraktion des letzten Filterelements ergibt, siehe 2. Die sich ergebende Reihe von Skalarprodukten wird dann in Spalten angeordnet, die von einer vertikalen Filterspalte durchlaufen werden (siehe Bildspalten 204, 205, usw.). Auch in diesem Fall wird das Skalarprodukt inkrementell gebildet. Simultan wird dabei der Ort R = (RSpalte, RZeile) = argmax(M) des maximalen Skalarprodukts M(Spalte, Zeile), also die maximale Filterantwort, ermittelt. Durch die beschriebene Vereinfachung kann dieses Verfahren sehr effizient implementiert werden, was anhand des in 1B gezeigten C-Codes ersichtlich wird.
  • Aus 1B sind zwei schnelle Schleifen erkennbar, für die horizontale und für die vertikale Filterung. Die Pointer filtImg, corrImg und skinImg zeigen auf Speicherbereiche für die gefilterten bzw. das mit Zero-Padding der Breite maxfilt erweiterte Hautfarbenbild. Die horizontale Dimension des Hautfarbenbildes ist cxImage, und die Anzahl seiner Bildpunkte ist numPixels. Mit maxfilt ist das Maximum der Filterdimensionen filtx und filty bezeichnet. In maxCorr steht am Ende die maximale Filterantwort, die beim Bildpunkt masPixel aufgetreten ist. Die Nummer dieses Pixels kann einfach in eine Zeilen/Spaltenkoordinate umgerechnet werden.
  • In 1 ist eine vierte Zwischenstufe 140 beschrieben, die nach dem Ermitteln einer Position mit einer maximalen Filterantwort 141 (anschaulich das Zentrum des Gesichts des Vortragenden) erhalten wird.
  • Im Weiteren wird beschrieben, wie aus dem Bild gemäß der vierten Zwischenstufe 140 ein Ausgabevideobild 150 erhalten wird, das aus der vierten Zwischenstufe 140 mittels Stabilisierens, Ausschneidens, Vergrößerns bzw. Tiefpassfilterns gebildet wird. Zum Tiefpassfiltern wird die Position R der maximalen Filterantwort zur Stabilisierung durch ein dynamisches System in zeitlicher Hinsicht einer Tiefpassfilterung unterzogen:
    Figure DE102004040023B4_0003
  • Dadurch wird erreicht, dass der Ort P dem Ort der maximalen Filterantwort R folgt, solange die maximale Filterantwort M größer als eine vorgegebene Schwelle Mmin ist. Auf diese Weise werden kurzfristige Störungen bei der Gesichtsfindung herausgefiltert, die nur wenige Bilder betreffen. Außerdem verhindert die Schwelle für die maximale Filterantwort ein unruhiges Springen des Bildes, falls sich im Bereich der Kamera kein zusammenhängender Hautfarbenbereich in ausreichender Größe befindet.
  • Mittels eines Zoom-Verfahrens (anschaulich eine Fokussierung bzw. Größenanpassung) wird an einer Position P ein Rechteck aus dem ursprünglichen Videobild 101 ausgeschnitten, dessen vertikale bzw. horizontale Dimension je nach gewählter Zoomstufe Z zum Beispiel der Hälfte bzw. einem Viertel derer des ursprünglichen Videos entspricht. Dieser Bildausschnitt wird dann wieder auf die ursprüngliche Position hochskaliert, indem jeder Bildpunkt vier Mal bzw. sechzehn Mal vervielfältigt wird.
  • Im Weiteren werden einige konkrete Realisierungen bzw. Implementierungen der Erfindung beschrieben.
  • Das System der Erfindung ist als MATLABTM-Programm realisiert. Mit Hilfe eines VMF-Plugins (”Vision For MATLAB”), siehe [1], ist das beschriebene Gesichtsverfolgungsverfahren implementiert und ist ein Gesamtsystem zur Mensch-Maschine-Interaktion mittels natürlicher Kommunikationskanäle integriert.
  • Bezugnehmend auf 3 wird eine Implementierung der Erfindung als MicrosoftTM-DirectShowTM-Ausführungsbeispiel beschrieben.
  • Die Erfindung ist im Rahmen eines DirectShowTM-Filters realisiert. Auf der Basis des MicrosoftTM-DirectShowTM-Konzepts ist das beschriebene Verfahren in einen Filter implementiert. Mit Hilfe dieses Filters ist es möglich, sowohl aus Life-Videoquellen (Kameras, Streaming-Videos, TV-Capture-Devices) als auch aus gespeicherten Videos Gesichter zu verfolgen.
  • Ein Screenshot 300 aus 3 zeigt die Einbindung des Gesichtsverfolgungs-Filters (”Skin Tracker Filter”) in eine Video-Verarbeitungskette in dem WindowsTM Programm mit der Bezeichnung ”GraphEditTM”. Der Filter verfolgt in Echtzeit das Gesicht einer Person in einer Filmszene. In dem Screenshot 300 ist ein Ursprungsbild 301 und ein Teilbild 302 gezeigt. Das Teilbild 302 stellt einen Ausschnitt des Ursprungsbildes 301 vergrößert dar. Gemäß 3 wird somit ein Gesichtsverfolgungsfilter (”Skin Tracker Filter”) im MicrosoftTM-DirectShowTM-Programm GraphEditTM verwendet. Hier wird ein 320×240DivXTM encodierter TV-Mitschnitt als Videoquelle benutzt.
  • Durch Austausch des Videofiles gegen eine Life-Videoquelle, zum Beispiel eine Webcam, kann auch eine Echtzeit-Gesichtsverfolgung bei Präsentationen oder Vorträgen realisiert werden. Diese Anwendung ist zum Beispiel im Rahmen einer PowerPointTM-Prasentation realisiert.
  • Eine andere Anwendungsmöglichkeit ist im Bereich von Fahrerassistenzsystemen realisiert. Hier kann das Gesicht eines Autofahrers mit einem Life-Video verfolgt werden. Somit kann der Gesichtsverfolgungsfilter auch als Vorstufe für weitere Bildverarbeitungsverfahren eingesetzt werden, die auf dem Gesicht operieren sollen (zum Beispiel Blickrichtungsschätzung, etc.).
  • Im Weiteren wird bezugnehmend auf 4A bis 4D eine Anwendung eines Verfahrens zum Nachführen eines Objekts in einer Mehrzahl von sequentiell aufgenommenen Bildern zum Einsatz im Rahmen einer Videotelephonie-Anwendung beschrieben.
  • In 4A ist ein erster Screenshot 400 eines Pocket PCs gezeigt. In 4B ist ein zweiter Screenshot 410 von einer Gegenstelle gezeigt. 4C zeigt eine Anordnung 421 aus einem Notebook 421 und einem Pocket PC 422. In 4D ist eine vergrößerte Darstellung 430 des Pocket PCs 422 gezeigt.
  • Die Sprecherverfolgung für die Videotelefonie gemäß 4A bis 4D ist auf einem Pocket PC 422 (FujitsuSiemensTM PocketLoox 600, 400 MHz Xscale, Betriebssystem PPC2002) implementiert. Als Videoquelle sind eine als CF-Karte einsteckbare Kamera (PretecTM-PocketCam, 1.3 MPixel) und die dazugehörigen Softwaretreiber verwendet.
  • 4A bis 4D zeigen den verwendeten Aufbau. Der Pocket PC 422 steht in einer Docking Station. Eine Videotelephonie-Situation wird realistisch durch eine Verbindung der Docking Station mit dem Notebook-PC 421 simuliert. Auf den PC 421 wird der Bildschirm des Pocket PCs 422 dargestellt, so wie ihn eine mobile Gegenstelle während eines Videotelefonats sehen wurde. Der PC 421 dient dabei lediglich zur Darstellung des Bildschirminhalts, alle zur Gesichtsverfolgung notwendigen Berechnungen werden auf dem Pocket PC 422 in Echtzeit durchgeführt.
  • Bewegt sich nun ein Gesprächspartner im Raum vor der Kamera, wird dessen Gesichtsposition aus dem Videoeingang ermittelt und auf dem Bildschirm dargestellt. Zur Verdeutlichung werden in der Abbildung von 4A bis 4D sowohl das volle Kamerabild als auch der nachgeführte Bildausschnitt gezeigt. In einer anderen Videotelephonie-Anwendung kann nur der konkrete Bildausschnitt aus dem Gesicht des Sprechers mit niedriger Bandbreite übertragen werden.
  • Im konkreten Beispiel wird die ursprüngliche Bildgroße von 320×240 Pixel auf ein Teilbild von 80×60 Pixel reduziert, welches für die Videotelephonie-Anwendung wesentliche Informationen (Gesicht des Sprechers) enthält. Dadurch ergibt sich eine Reduktion der zu übertragenen Daten von 16:1. Natürlich ist es auch möglich, im Empfängergerät das Teilbild hoch zu skalieren, um einen künstlichen Zoomeffekt zu erzielen.
  • In diesem Dokument sind folgende Veröffentlichungen zitiert:
    • [1] Vision for MATLAB, http://www2.cmp.uea.ac.uk/-fuzz/vfm/default.html
    • [2] Bradski, GR ”Computer Vision Face Tracking For Use in a Perceptual User Interface”, Intel Technology Journal, Q2, 1998
    • [3] Fritze, F ”BuFaLo Face-Tracking DirectShow Filter”, http://www.geocities.com/fritzfra2001/
    • [4] Frischholz, R ”Face Detection”, http://home.tonline.de/home/Robert. Frischholz/face. htm
    • [5] Yeasin, M, Kuniyoshi, Y ”Detecting and Tracking Human Face and Eye Using Space-Varying Sensor and an Active Vision Head”, IEEE Computer Vision and Pattern Recognition, (CVPR'00)-Volume 2, Juni 2000
    • [6] Dockstader, SL, Tekalp, AM ”Multiple Camera Fusion for Multi-Object Tracking”, IEEE Workshop an Multi-Object Tracking (WOMOT'01, Juli/August 2001
    • [7] JP 10-188145 A
    • [8] Comaniciu, D.; Ramesh, V. ”Robust detection and tracking of human faces with an active camera” Visual Surveillance, 2000. Proceedings. Third IEEE 30 International Workshop an 1. July 2000, p. 11–18
    • [9] Kim, Y.-0., Paik, J., Jingu Heo, Koschan, A., Abidi, B., Abidi, M.: Automatic face region tracking for highly accurate face recognition in unconstrained environments. In: Proc. IEEE Conference an Advanced Video and Signal Based Surveillance, 21–22 July 2003, 29–36.
    • [10] DE 10 2004 015 806 A1
    • [11] Tim Braun: Automatische Lokalisierung von Gesichtern in digitalen Videoströmen. In: Diplomarbeit, Darmstadt, im Oktober 2003, Technische Universität Darmstadt,, Oktober 2003, 1–103.
    • [12] WO 2004/051553 A2
    • [13] SANTANA, M. F. C.: On Real-Time Face Detection in Video Streams. An Opportunistic Approach. PhD Thesis, Universidad de las Palmas de Gran Canaria, Departamento de Informàtica y Sistemas, Dec. 2002.
    • [14] HERODOTOU, N. [et al.]: Automatic location and tracking of the facial region in color video sequences. In: Signal Processing: Image Communication 14.5 (1999): pp. 359–388.

Claims (18)

  1. Verfahren zum Nachführen eines menschlichen Gesichts in einer Mehrzahl von sequentiell aufgenommenen Bildern, wobei jedes der Bilder von einer Bildaufnahmeinrichtung mit einem für alle Bilder vorgegebenen, konstanten Bildbereich aufgenommen wird, bei dem ein menschliches Gesicht in einem ersten Bild von einer Mehrzahl von sequentiell aufgenommenen Bildern identifiziert wird; ein das menschliche Gesicht enthaltender erster Teilbereich innerhalb des ersten Bildes ermittelt wird, wobei als Teilbereich ein das menschliche Gesicht vollständig enthaltender rechteckförmiger Ausschnitt des Bildes ermittelt wird; ein das menschliche Gesicht enthaltender zweiter Teilbereich innerhalb eines zweiten Bildes der Mehrzahl von sequentiell aufgenommenen Bildern basierend auf einer Farbwinkelcharakteristik identifiziert wird, wobei bei dem Identifizieren des menschlichen Gesichts das jeweilige Bild zunächst binarisiert und dann mit einem homogenen Rechteckfilter zweidimensional gefaltet wird, wodurch eine Position mit einer maximalen Filterantwort ermittelt wird, und dann die Position mit der maximalen Filterantwort in zeitlicher Hinsicht einer Tiefpassfilterung unterzogen wird; und von dem ersten Bild nur der erste Teilbereich und von dem zweiten Bild nur der zweite Teilbereich zum nachgeführten Anzeigen des menschlichen Gesichts an eine Anzeigeeinrichtung bereitgestellt werden.
  2. Verfahren nach Anspruch 1, bei dem der erste Teilbereich eine echte Teilmenge der Daten des ersten Bildes ist und bei dem der zweite Teilbereich eine echte Teilmenge der Daten des zweiten Bildes ist.
  3. Verfahren nach Anspruch 1 oder 2, bei dem von dem ersten Bild nur der erste Teilbereich angezeigt wird, so dass die Auflösung des ersten Teilbereichs geringer ist als die Auflösung des ersten Bildes, und bei dem von dem zweiten Bild nur der zweite Teilbereich angezeigt wird, so dass die Auflösung des zweiten Teilbereichs geringer ist als die Auflösung des zweiten Bildes.
  4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem der erste Teilbereich vergrößert angezeigt wird und bei dem nachfolgend der zweite Teilbereich vergrößert angezeigt wird, so dass die Auflösung des ersten Teilbereichs gleich der Auflösung des zweiten Teilbereichs ist.
  5. Verfahren nach einem der Ansprüche 1 bis 4, bei dem das menschliche Gesicht basierend auf einer Farbcharakteristik und/oder einer Formcharakteristik identifiziert wird.
  6. Verfahren nach einem der Ansprüche 1 bis 5, bei dem zum Bereitstellen eines Teilbereichs zum nachgeführten Anzeigen des menschlichen Gesichts der Teilbereich auf die Größe des Bildes höchskaliert wird.
  7. Vorrichtung zum nachgeführten Anzeigen eines menschlichen Gesichts in einer Mehrzahl von sequentiell aufgenommenen Bildern, wobei jedes der Bilder von einer Bildaufnahmeinrichtung mit einem für alle Bilder vorgegebenen, konstanten Bildbereich aufgenommen ist, mit einer Bildaufnahmeeinrichtung zum sequentiellen Aufnehmen einer Mehrzahl von Bildern; mit einem Prozessor, dem die Mehrzahl von sequentiell aufgenommenen Bildern zuführbar ist, und der derart eingerichtet ist, dass die Verfahrensschritte des Verfahrens nach einem der vorstehenden Ansprüche durchführbar sind.
  8. Vorrichtung nach Anspruch 7, bei der die Bildaufnahmeeinrichtung unbeweglich an der Vorrichtung befestigt vorgesehen ist.
  9. Vorrichtung nach Anspruch 7 oder 8, die genau eine Bildaufnahmeeinrichtung aufweist.
  10. Vorrichtung nach einem der Ansprüche 7 bis 9, die als Computer ausgeführt ist, wobei die Eilaufnahmeeinrichtung eine an dem Computer angebrachte Kamera ist.
  11. Vorrichtung nach Anspruch 10, bei welcher der Computer ein portabler Computer ist.
  12. Vorrichtung nach einem der Ansprüche 7 bis 9, die als Mobiltelefon ausgeführt ist, wobei die Bildaufnahmeeinrichtung eine in dem Mobiltelefon integrierte Kamera ist.
  13. Anordnung zum nachgeführten Anzeigen eines menschlichen Gesichts in einer Mehrzahl von sequentiell aufgenommenen Bildern, mit einer Vorrichtung nach einem der Ansprüche 7 bis 12; mit einer Anzeigeeinrichtung, wobei der erste Teilbereich und der zweite Teilbereich der Anzeigeeinrichtung der Anordnung bereitstellbar ist, und wobei die Anzeigeeinrichtung der Anordnung zum nachgeführten Anzeigen des Objekts mittels sequentiellen Anzeigens des ersten Teilbereichs und des zweiten Teilbereichs eingerichtet ist.
  14. Anordnung nach Anspruch 13, bei der die Anzeigeeinrichtung der Anordnung ein Mobiltelefon; ein Computer; oder eine Projektionseinrichtung ist.
  15. Anordnung nach Anspruch 13 oder 14, eingerichtet als Videotelefonie-Anordnung.
  16. Anordnung nach Anspruch 13 oder 14, eingerichtet zum Verfolgen eines vortragenden während eines Vortrags.
  17. Computerlesbares Speichermedium, in dem ein Programm zum Nachführen eines menschlichen Gesichts in einer Mehrzahl von sequentiell aufgenommenen Bildern gespeichert ist, wobei jedes der Bilder von einer Bildaufnahmeinrichtung mit einem für alle Bilder vorgegebenen, konstanten Bildbereich aufgenommen ist, wobei das Programm, wenn es von einem Prozessor ausgeführt wird, die Verfahrensschritte des Verfahrens nach einem der Ansprüche 1 bis 6 durchführt.
  18. Programm-Element zum Nachführen eines menschlichen Gesichts in einer Mehrzahl von sequentiell aufgenommenen Bildern, wobei jedes der Bilder von einer Bildaufnahmeinrichtung mit einem für alle Bilder vorgegebenen, konstanten Bildbereich aufgenommen ist, wobei das Programm-Element, wenn es von einem Prozessor ausgeführt wird, die Verfahrensschritte des Verfahrens nach einem der Ansprüche 1 bis 6 durchführt.
DE102004040023.7A 2004-08-18 2004-08-18 Verfahren, Vorrichtung, Anordnung, Computerlesbares Speichermedium und Programm-Element zum nachgeführten Anzeigen eines menschlichen Gesichts Expired - Fee Related DE102004040023B4 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102004040023.7A DE102004040023B4 (de) 2004-08-18 2004-08-18 Verfahren, Vorrichtung, Anordnung, Computerlesbares Speichermedium und Programm-Element zum nachgeführten Anzeigen eines menschlichen Gesichts

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102004040023.7A DE102004040023B4 (de) 2004-08-18 2004-08-18 Verfahren, Vorrichtung, Anordnung, Computerlesbares Speichermedium und Programm-Element zum nachgeführten Anzeigen eines menschlichen Gesichts

Publications (2)

Publication Number Publication Date
DE102004040023A1 DE102004040023A1 (de) 2006-03-09
DE102004040023B4 true DE102004040023B4 (de) 2017-12-28

Family

ID=35852247

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102004040023.7A Expired - Fee Related DE102004040023B4 (de) 2004-08-18 2004-08-18 Verfahren, Vorrichtung, Anordnung, Computerlesbares Speichermedium und Programm-Element zum nachgeführten Anzeigen eines menschlichen Gesichts

Country Status (1)

Country Link
DE (1) DE102004040023B4 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NO332170B1 (no) * 2009-10-14 2012-07-16 Cisco Systems Int Sarl Anordning og fremgangsmate for kamerakontroll
DE102012217148A1 (de) * 2012-09-24 2014-03-27 Robert Bosch Gmbh Clienteinrichtung zur Darstellung von Kamerabildern einer steuerbaren Kamera, Verfahren, Computerprogramm sowie Überwachungssystem mit der Clienteinrichtung

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10188145A (ja) * 1996-12-20 1998-07-21 Shigeki Kobayashi 自動ズーム監視装置
WO2004051553A2 (en) * 2002-11-29 2004-06-17 Sony United Kingdom Limited Face detection
DE102004015806A1 (de) * 2004-03-29 2005-10-27 Smiths Heimann Biometrics Gmbh Verfahren und Anordnung zur Aufnahme interessierender Bereiche von beweglichen Objekten

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10188145A (ja) * 1996-12-20 1998-07-21 Shigeki Kobayashi 自動ズーム監視装置
WO2004051553A2 (en) * 2002-11-29 2004-06-17 Sony United Kingdom Limited Face detection
DE102004015806A1 (de) * 2004-03-29 2005-10-27 Smiths Heimann Biometrics Gmbh Verfahren und Anordnung zur Aufnahme interessierender Bereiche von beweglichen Objekten

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Comaniciu, D., Ramesh, V.: Robust detection and tracking of human faces with an active camera. In: Visual Surveillance, 2000. Proceedigs. Third IEEE International Workshop, 1 July 2000, 11-18. *
HERODOTOU, N. [et al.]: Automatic location and tracking of the facial region in color video sequences. In: Signal Processing: Image Communication 14.5 (1999): pp. 359-388. *
Kim, Y.-O., Paik, J., Jingu Heo, Koschan, A., Abidi, B., Abidi, M.: Automatic face region tracking for highly accurate face recognition in unconstrained environments. In: Proc. IEEE Conference on Advanced Video and Signal Based Surveillance, 21-22 July 2003, 29-36. *
SANTANA, M.F.C.: On Real-Time Face Detection in Video Streams. An Opportunistic Approach. PhD Thesis, Universidad de las Palmas de Gran Canaria, Departamento de Informática y Sistemas, Dec. 2002. *
Tim Braun: Automatische Lokalisierung von Gesichtern in digitalen Videoströmen. In: Diplomarbeit, Darmstadt, im Oktober 2003, Technische Universität Darmstadt,, Oktober 2003, 1-103. *

Also Published As

Publication number Publication date
DE102004040023A1 (de) 2006-03-09

Similar Documents

Publication Publication Date Title
DE102016115292B4 (de) Verfahren und Vorrichtung zur automatischen Belichtungswerterfassung für High Dynamic Range Imaging
DE69938173T2 (de) Automatische voreingestellte teilnehmerpositionsbestimmung für videokonferenzsysteme
US7911513B2 (en) Simulating short depth of field to maximize privacy in videotelephony
DE102020123304A1 (de) Tiefes lernen für engmaschige semantische segmentierung in video mit automatisierter interaktivität und verbesserter zeitlicher kohärenz
DE69837233T2 (de) Verfahren und Gerät zur Bestimmung der Augenposition in einem Bild
DE69930986T2 (de) Hochauflösende Kamera
DE112020003794T5 (de) Tiefenbewusste Fotobearbeitung
DE112006001017B4 (de) Verfahren und Vorrichtung zum Eingliedern von Irisfarbe in eine Rotes-Auge-Korrektur
DE112018007721T5 (de) Aufnehmen und modifizieren von 3D-Gesichtern unter Verwendung neuronaler Bild-und Zeitverfolgungsnetze
DE602005004299T2 (de) Digitales bilderfassungssystem mit mitteln zur bestimmung der kamerabewegungsunschärfefunktion
DE102020129800A1 (de) Interaktive segmentierung mit hoher wiedergabetreue für videodaten mit tief faltenden tessellationen und kontextsensitiven skip-verbindungen
DE69909635T2 (de) Gerät und verfahren zur elektronischen bildverbesserung
DE112013004507T5 (de) Bildverarbeitungsvorrichtung, Bilderfassungsvorrichtung, Bildverarbeitungsverfahren, Programm und Aufzeichnungsmedium
DE112019007677T5 (de) Posenvorhersageverfahren, Modelltrainingsverfahren und Vorrichtung
DE112013004435T5 (de) Bildverarbeitungsvorrichtung, Bildaufnahmevorrichtung, Bildverarbeitungsverfahren, Programm und Aufzeichnungsmedium
CN105141841B (zh) 摄像设备及其方法
DE69732089T2 (de) Vorrichtung und verfahren zur zeitlichen und räumlichen integration und verwaltung einer vielzahl von videos sowie speichermedium zur speicherung eines programms dafür
DE112016002252T5 (de) Automatische erkennung von panoramagesten
DE102008051913A1 (de) Hochgeschwindigkeits-Fotovorrichtung, Verfahren zum Steuern einer Hochgeschwindigkeits-Fotovorrichtung und Computerprogramm
DE102013201980B4 (de) Verfahren zur Fokuseinstellung und entsprechendes Bilderfassungsgerät
DE102013017099A1 (de) Auf interpolation inverser brennpunktstatistiken basierende tiefenschätzung
DE102015110026B4 (de) Bildverarbeitungsvorrichtung, zugehöriges steuerverfahren und speichermedium
DE102021119882A1 (de) Videohintergrundschätzung unter verwendung von räumlich-zeitlichen modellen
DE102005060374A1 (de) Digitales Bild-Zoom-System
DE112017004394T5 (de) Gestenbeurteilungseinrichtung, Gestenbedienungseinrichtung und Gestenbeurteilungsverfahren

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
R016 Response to examination communication
R016 Response to examination communication
R016 Response to examination communication
R081 Change of applicant/patentee

Owner name: INTEL MOBILE COMMUNICATIONS GMBH, DE

Free format text: FORMER OWNER: INFINEON TECHNOLOGIES AG, 81669 MUENCHEN, DE

Effective date: 20130207

Owner name: INTEL DEUTSCHLAND GMBH, DE

Free format text: FORMER OWNER: INFINEON TECHNOLOGIES AG, 81669 MUENCHEN, DE

Effective date: 20130207

R082 Change of representative

Representative=s name: VIERING, JENTSCHURA & PARTNER PATENT- UND RECH, DE

Effective date: 20130207

Representative=s name: VIERING, JENTSCHURA & PARTNER, DE

Effective date: 20130207

Representative=s name: VIERING, JENTSCHURA & PARTNER MBB PATENT- UND , DE

Effective date: 20130207

R081 Change of applicant/patentee

Owner name: INTEL DEUTSCHLAND GMBH, DE

Free format text: FORMER OWNER: INTEL MOBILE COMMUNICATIONS GMBH, 85579 NEUBIBERG, DE

R082 Change of representative

Representative=s name: VIERING, JENTSCHURA & PARTNER MBB PATENT- UND , DE

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R130 Divisional application to

Ref document number: 102004064323

Country of ref document: DE

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee