DE10321498A1 - Verfahren zum Übertragen von Bilddaten - Google Patents

Verfahren zum Übertragen von Bilddaten Download PDF

Info

Publication number
DE10321498A1
DE10321498A1 DE2003121498 DE10321498A DE10321498A1 DE 10321498 A1 DE10321498 A1 DE 10321498A1 DE 2003121498 DE2003121498 DE 2003121498 DE 10321498 A DE10321498 A DE 10321498A DE 10321498 A1 DE10321498 A1 DE 10321498A1
Authority
DE
Germany
Prior art keywords
image
segment
communication device
face
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE2003121498
Other languages
English (en)
Inventor
Jesús Fernando Guitarte Perez
Carlos Lucas Verdoy
Klaus Lukas
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gigaset Communications GmbH
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE2003121498 priority Critical patent/DE10321498A1/de
Publication of DE10321498A1 publication Critical patent/DE10321498A1/de
Ceased legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • H04W28/18Negotiating wireless communication parameters
    • H04W28/22Negotiating communication rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00281Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a telecommunication apparatus, e.g. a switched network of teleprinters for the distribution of text-based information, a selective call terminal
    • H04N1/00307Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a telecommunication apparatus, e.g. a switched network of teleprinters for the distribution of text-based information, a selective call terminal with a mobile telephone apparatus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0084Digital still camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Image Processing (AREA)

Abstract

Offenbart ist ein Verfahren zum Übertragen von Bilddaten von einem ersten Kommunikationsgerät (MFG21) zu einem zweiten Kommunikationsgerät (MFG22) in einem Kommuniktionsnetz (KN). Zunächst wird dabei ein erstes Bild einer Szene in dem ersten Kommunikationsgerät bereitgestellt. Anschließend wird die Position eines Gesichts in dem ersten Bild bestimmt (AWER2). Das Gesicht wird dann in ein Gesichtsrahmenobjekt einbeschrieben (EBER2), das beispielsweise die Form eines Rechtecks aufweisen kann. Ferner wird der Bildbereich, der von dem Gesichtsrahmenobjekt umfasst wird, ausgeschnitten (ASER2), um so ein zweites Bild zu erhalten. Dieses zweite Bild wird dann kodiert (KDER2) und es wird das kodierte zweite Bild zu dem zweiten Kommunikationsgerät übertragen (FM21). Dort kann das zweite Bild dekodiert (DK22) und beispielsweise auf einer Anzeigeeinrichtung (DSP) des zweiten Kommunikationsgeräts angezeigt werden. Auf diese Weise wird nur der wesentliche Bildinhalt eines ersten erfassten Bildes, nämlich ein Gesicht einer Person bzw. eines Kommunikationsteilnehmers, kodiert und zu einem zweiten Kommunikationsteilnehmer übertragen.

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zum Übertragen von Bilddaten, insbesondere von Daten eines Bild, das ein menschliches Gesicht aufweist, sowie eine Datenverarbeitungsanordnung zum Ausführen des Verfahrens.
  • An mobile Endgeräte, insbesondere Mobiltelefone, mit Multimedia- bzw. Video-Funktionalität sind zwei wesentliche Herausforderungen gestellt. Zum einen ist eine niedrige Datenübertragungsrate (beispielsweise im Bereich von 50 Kbps (Kilobits Per Second) zur Übertragung von Videoinhalten verfügbar. Dies macht eine sehr starke Datenkompression der zu übertragenden Videodaten erforderlich, was jedoch Kodierungsartefakte ("coding artefacts"), wie "Blockbildungsartefakte" als Folge einer blockorientierten Kodierung gemäß einem H.263- oder MPEG4 (Motion Picture Experts Group 4)-Standard, mit sich bringt. Diese Artefakte verringern die Videoqualität einer Videoübertragung eines Teilnehmers beispielsweise einer Videotelefonie-Anwendung, wodurch die Akzeptanz mobiler Video-Anwendungen verringert wird.
  • Andererseits wird die Integration qualitativ hochwertiger Video-Anwendungen ein wichtiger Schritt zur Stärkung der Wettbewerbsposition auf dem Markt für Hersteller mobiler Endgeräte, wie Mobiltelefone, sein.
  • Somit ist es die Aufgabe der vorliegenden Erfindung, eine Möglichkeit zur Videoübertragung, insbesondere zwischen mobilen Endgeräten, zu schaffen, die eine gute Qualität bei der Übertragung der wesentlichen Bildbestandteile gewährleistet.
  • Diese Aufgabe wird durch ein Verfahren zum Umwandeln eines Bildformats gemäß Anspruch 1, durch ein Computerprogramm für eine Datenverarbeitungsanordnung gemäß Anspruch 20 sowie durch eine Kommunikationsanordnung gemäß Anspruch 21 gelöst. Vorteilhafte Ausgestaltungen sind Gegenstand der Unteransprüche.
  • Ein Verfahren zum Übertragen von Bilddaten von einem ersten Kommunikationsgerät zu einem zweiten Kommunikationsgerät in einem Kommunikationsnetz hat dabei folgende Schritte. Das Kommunikationsnetz kann dabei ein Kommunikationsnetz mit feststehenden Sende-/Empfangseinrichtungen, wie Basisstationen, und einem diese verbindenden Kernnetz sein, oder kann lediglich ein zwischen zwei Kommunikationsgeräten etabliertes Netz sein. Zunächst wird ein erstes Bilds einer Szene in dem ersten Kommunikationsgerät bereitgestellt. Dies kann beispielsweise dadurch geschehen, dass das erste Bild von einer mit dem ersten Kommunikationsgerät verbundenen bzw. in diesem integrierten Kamera aufgenommen worden ist. Anschließend wird die Position eines Gesichts in dem ersten Bild bestimmt. Das Gesicht wird dann in ein Gesichtsrahmenobjekt einbeschrieben, das beispielsweise die Form eines Rechtecks aufweisen kann. Ferner wird der Bildbereich, der von dem Gesichtsrahmenobjekt umfasst wird, ausgeschnitten, um so ein zweites Bild zu erhalten. Diese zweite Bild wird dann kodiert und es wird das kodierte zweite Bild zu dem zweiten Kommunikationsgerät übertragen. Dort kann das zweite Bild dekodiert und beispielsweise auf einer Anzeigeeinrichtung des zweiten Kommunikationsgeräts angezeigt werden. Auf diese Weise wird nur der wesentliche Bildinhalt eines ersten erfassten Bildes, nämlich ein Gesicht einer Person bzw. eines Kommunikationsteilnehmers, kodiert und zu einem zweiten Kommunikationsteilnehmer übertragen. Dies spart zum einen Rechenleistung beim Kodieren und Dekodieren, und bringt somit eine verlängerte Standzeit der Kommunikationsgeräte. Ferner kann die gesamte Rechenleistung für die relevanten Teile eines Bildes eingesetzt werden, wodurch die Kodierungsqualität erhöht und das Auftreten von Artefakten verringert wird.
  • Neben der Möglichkeit, nur die relevanten Teile (das Gesicht eines Teilnehmers) eines Bildes zu übertragen, besteht ferner die Möglichkeit das gesamte erste Bild, d.h. eine Person mit Hintergrund an einen zweiten Kommunikationsteilnehmer zu übertragen. Dabei kann ferner das erste Bild kodiert und dieses kodierte Bild zu dem zweiten Kommunikationsgerät übertragen werden, wobei in dem zweiten Kommunikationsgerät das übertragene zweite Bild an der Position in das erste Bild eingefügt wird, an der es in dem ersten Kommunikationsgerät aus dem ersten Bild ausgeschnitten worden ist. Um jedoch wieder die Bildqualität in den wesentlichen Bereichen des Bilds (d.h. im Bereich des Gesichts einer Person) zu erhöhen, ist es vorteilhaft, das zweite Bild mit einer höheren Rate zu kodieren und zu dem zweiten Kommunikationsgerät zu übertragen als das erste Bild. Anders ausgedrückt soll das erste Bild in größeren zeitlichen Abständen wiederholt kodiert und zu dem zweiten Kommunikationsgerät gesendet werden als das zweite Bild, d.h. während beispielsweise das zweite Bild 15 mal pro Sekunde kodiert und übertragen wird, wird das erste Bild nur 1 mal pro Sekunde kodiert und übertragen (was in Kauf genommen werden kann da sich der Hintergrund, der auf dem ersten Bild zu sehen ist, nur geringfügig mit der Zeit ändert).
  • Anstelle der Möglichkeit, einen "reellen" Hintergrund in der Form des ersten Bildes, wie gerade beschrieben, zu übertragen, besteht ferner die Möglichkeit, einen "künstlichen" Hintergrund, wie einen beliebig ausgestalteten (künstlichen) Rahmen (nach einem Kodiervorgang) von dem ersten an das zweite Kommunikationsgerät zu übertragen. Dieser wird vom zweiten Kommunikationsgerät dekodiert und mit dem eigentlichen Bild eines Gesichts zusammengeführt, so dass das eigentliche Bild mit dem Gesicht innerhalb des Rahmens angeordnet ist. Da dieser künstliche Rahmen sich nicht mit der Zeit ändert, ist es ausreichend diesen nur einmal, beispielsweise zu Beginn einer Bild- bzw. Videoübertragung zu übertragen. Soll sich das Aussehen des Rahmens jedoch mehrmals während der Bild- bzw. Videoübertragung ändern, so kann das erste Kommunikationsgerät bei einer (vom Benutzer des ersten Kommunikationsgerät gewünschten Änderung) einen neuen Rahmen zum zweiten Kommunikationsgerät senden. Wie gerade erwähnt, kann der Benutzer des ersten Kommunikationsgerät das Aussehen des Rahmens einstellen, beispielsweise durch Auswahl aus einer vom Kommunikationsgerät bereitgestellten Liste. Einmalige oder seltene Übertragung des Rahmens (im Gegensatz zu der häufigen Übertragung des ein Gesicht enthaltenen Bildes) verringert somit die Ressourcen bei der Kodierung des Hintergrundbildes und stellt dem Benutzer des ersten Kommunikationsgeräts eine Möglichkeit bereit, auf die Darstellung der Bilddaten auf dem zweiten Kommunikationsgerät Einfluss zu nehmen.
  • Es ist ferner denkbar, nicht nur ein Gesicht in dem ersten Bild zu erkennen, sondern auch mehrere. Dabei wird dann, wenn ein derartiges Verfahren angewendet werden soll, jedes der Gesichter in ein jeweiliges Gesichtsrahmenobjekt einbeschrieben, als zweite Bilder ausgeschnitten, kodiert und zu einem zweiten Kommunikationsgerät übertragen. Dort können die (zweiten) Bilder entweder direkt nebeneinander zusammengesetzt werden, in einem von dem zweiten Kommunikationsgerät bereitgestellten Standard-Hintergrundbild oder in eine von dem ersten Kommunikationsgerät übermittelten künstlichen Rahmen (für eine Mehrzahl von Gesichter) eingefügt werden, oder aber, gemäß obiger Ausgestaltung an entsprechender Position in das erste übertragene Bild eingesetzt werden.
  • Gemäß einer vorteilhaften Ausgestaltung wird das übertragene (dekodierte) zweite Bild im zweiten Kommunikationsgerät mit einem vom zweiten Kommunikationsgerät bereitgestellten sichtbaren Rahmen umgeben, der beliebige Formen und Farben aufweisen kann, und im Rahmen einer "Fun"-Anwendung benutzerdefiniert einstellbar ist. Das bedeutet bei dieser Ausgestaltung kann der Benutzer des zweiten Kommunikationsgeräts das Aussehen des als Hintergrund zu verwenden Rahmens bestimmen bzw. einstellen.
  • Das erste und/oder das zweite Kommunikationsgerät kann dabei als ein tragbares Kommunikationsgerät, wie ein Mobilfunkgerät oder ein Mobiltelefon oder ein tragbarer Computer mit Funkmodul, ausgebildet sein.
  • Ein Verfahren zum Analysieren einer Szene (einer Anordnung von Sachen bzw. Gegenständen und evtl. von Lebewesen, insbesondere Menschen), von der ein Bild erfasst worden ist, um das Vorhandensein und die Position eines Gesichts zu bestimmen, umfasst zunächst ein Festlegen von Segmenten in dem erfassten Bild, die helligkeitsspezifische Merkmale aufweisen. Wie es unten näher erläutert werden wird, können die helligkeitsspezifischen Merkmale beispielsweise Hell-Dunkel-Übergänge und/oder Dunkel-Hell-Übergänge umfassen. Anschließend wird eine positionsmäßige Beziehung der festgelegten Segmente zueinander überprüft, wobei ein Vorhandensein eines (menschlichen) Gesichts, insbesondere an einer bestimmten Position in dem erfassten Bild, abgeleitet wird, wenn eine Auswahl von festgelegten Segmenten eine bestimmte positionsmäßige Beziehung aufweist. Das bedeutet, durch das gerade beschriebene Verfahren kann nur durch Analyse bestimmter Bereiche des erfassten Bildes, nämlich der Segmente mit helligkeitsspezifischen Merkmalen, genauer gesagt durch Überprüfen der positionsmäßigen Beziehung der festgelegten Segmente auf das Vorhandensein eines Gesichts, insbesondere menschlichen Gesichts, geschlossen werden. Somit wird zur Durchführung des Verfahrens nur eine geringe Rechenleistung benötigt, wodurch eine Ressourcenverringerung bzw. Ressourcenoptimierung einer Datenverarbeitungsanordnung zum Durchführen des Verfahrens ermöglicht wird.
  • Gemäß einer vorteilhaften Ausgestaltung handelt es sich bei dem erfassten Bild um ein von einer elektronischen Kamera erfassten Bild, das elektronisch verarbeitbar ist. Insbesondere ist das erfasste Bild aus einzelnen Bildpunkten zusammengesetzt, welchen jeweilige Graustufenwerte zugeordnet sind.
  • Gemäß einer weiteren vorteilhaften Ausgestaltung werden Segmente in dem erfassten Bild festgelegt, bei denen die helligkeitsspezifischen Merkmale scharfe bzw. abrupte Helligkeitsübergänge, beispielsweise von Dunkel nach Hell oder von Hell nach Dunkel aufweisen. Derartige (scharfe) Helligkeitsübergänge finden sich beispielsweise in einem Gesicht eines Menschen, insbesondere beim Übergang von der Stirn zu den Augenbrauen oder (bei Menschen mit heller Haarfarbe) beim Übergang von der Stirn in den Schatten der Augenhöhlen. Derartige (scharfe) Helligkeitsübergänge finden sich jedoch auch beim Übergang von dem Oberlippenbereich bzw. Lippenbereich zur Mundöffnung oder von der Mundöffnung zum Lippenbereich der Unterlippe bzw. zum Unterlippenbereich. Ein weiterer Helligkeitsübergang stellt sich zwischen der Unterlippe und dem Kinnbereich, genauer gesagt als Schattenbereich (je nach Lichtverhältnis bzw. Lichteinfall) basierend auf einer leichten Vorwölbung der Unterlippe, ein. Wie es unten ausführlicher erläutert werden wird, ist es möglich, anhand dieser Helligkeitsübergänge bzw. anhand der positionsmäßigen Beziehung einer Auswahl der Helligkeitsübergänge auf das Vorhandensein eines menschlichen Gesichts bzw. insbesondere auf die Position einer Mundpartie zu schließen.
  • Gemäß einer vorteilhaften Ausgestaltung umfasst der Schritt des Festlegens von Segmenten in dem erfassten Bild eine Bearbeitung des Bilds mittels eines Gradientenfilters, insbesondere eines horizontalen Gradientenfilters, um insbesondere horizontale (scharfe) Helligkeitsübergänge, wie die an den Augenbrauen, an den Augen, oder an dem Mund sichtbar zu machen. Durch die Bearbeitung mittels des Gradientenfilters wird ein erstes bearbeitetes Bild erzeugt, bei dem am Ort eines Helligkeitsübergangs im erfassten Bild entsprechende Bildpunkte im ersten bearbeiteten Bild mit einem Graustufenwert vorgesehen werden, die von der Schärfe des Helligkeitsübergangs im erfassten Bild abhängen. Das bedeutet, bei einem Helligkeitsübergang innerhalb weniger Bildpunkte von einem niedrigen Helligkeitswert (niedriger Graustufenwert) zu einem hohen Helligkeitswert (hoher Graustufenwert) wird in dem ersten bearbeiteten Bild eine entsprechende Information eingetragen. Wird davon ausgegangen, dass das erste bearbeitete Bild in Form eines Graustufenbildes dargestellt wird, so können beispielsweise bei Verwendung eines positiven horizontalen Gradientenfilters, der von oben nach unten auf das erfasste Bild angewendet wird, Bereiche des Bilds, in denen keine Helligkeitsübergänge vorhanden sind, in mittleren Graustufenwerten dargestellt werden, während Hell-Dunkel-Übergänge (von oben nach unten) je nach Schärfe der Übergänge einen dementsprechend höheren Grauwert als den mittleren Grauwert erhalten und Dunkel-Hell-Übergänge (von oben nach unten) einen entsprechend niedrigeren Grauwert in Abhängigkeit der Schärfe des jeweiligen Übergangs erhalten.
  • Gemäß einer weiteren vorteilhaften Ausgestaltung kann der Schritt des Festlegen von Segmenten in dem erfassten Bild eine Binärisierungsbearbeitung des ersten bearbeiteten Bildes umfassen. Hierbei kann ein zweites bearbeitetes Bild erzeugt werden, bei den entsprechenden Bildpunkten, deren Graustufenwert einen ersten vorbestimmten Schwellenwert (welcher in Abhängigkeit der Helligkeit des erfassten Bildes gewählt wird) übersteigt, ein binärer "1"-Wert zugeordnet wird, während den übrigen Bildpunkten ein binärer "0"-Wert zugeordnet wird. Anders ausgedrückt, kann den Bildpunkten, deren Graustufenwert den vorbestimmten ersten Schwellenwert übersteigt, der Wert "weiß" zugeordnet werden, während den übrigen Bildpunkten der Wert "schwarz" zugeordnet wird. Somit sind in dem zweiten bearbeiteten Bild nur noch Helligkeitsübergänge mit einer bestimmten ausgeprägten Schärfe zu erkennen.
  • Zusammenhängende Bildpunkte, denen ein Weiß-Wert zugeordnet ist, können als eine Einheit von Bildpunkten gesehen werden, die zur folgenden Auswertung in eine geometrische Form, wie beispielsweise ein Rechteck, eingeschrieben werden. Diese geometrische Form kann dann als ein festgelegtes Segment definiert werden. Da es notwendig ist, aus der in dem erfassten Bild erfassten Szene biometrische Merkmale, insbesondere ein Gesicht eines Menschen betreffend, herauszufiltern bzw. zu extrahieren, um auf das Vorhandensein eines menschlichen Gesichts schließen zu können, ist es vorteilhaft, bestimmte Bereiche bzw. Strukturen in dem erfassten Bild, die beispielsweise auf Grund ihrer Größe oder Form keine biometrischen Merkmale bezüglich eines Gesichts aufweisen, zu verwerfen. Gemäß einer vorteilhaften Ausgestaltung werden dabei bestimmte Bereiche des zweiten bearbeiteten Bildes mit zusammenhängenden Bildpunkten auf Grund von vorbestimmten Parameteren bezüglich Größe und/oder Form der Bereich oder der diese einbeschreibenden geometrischen Form verworfen und insbesondere werden die den Bereichen zugeordneten Bildpunkte auf einen Schwarz-Wert gesetzt. Ein Kriterium bezüglich der Form von Bereichen zusammenhängender Bildpunkte mit einem Weiß-Wert kann beispielsweise sein, dass die Höhe dieses Bereichs bzw. dieser Struktur einen zu großen Wert im Gegensatz zur Breite der Struktur aufweist. Das bedeutet, das Verhältnis aus Höhe zu Breite ist zu groß. Eine derartige Festlegung wird deutlich, wenn – wie oben bereits erwähnt – Segmente anhand helligkeitsspezifischer Merkmale von horizontal verlaufenden Augenbrauen oder horizontal verlaufender Lippen- bzw. Mundpartien festgelegt werden. Das bedeutet wiederum, dass das zuvor erfasste Bild mit einer großen Anzahl von Bildpunkten auf nur noch eine geringe Anzahl von festgelegten Segmenten zurückgeführt wird, aus deren positionsmäßiger Beziehung zueinander nun das Vorhandensein eines Gesichts abgeleitet werden kann.
  • Gemäß einer vorteilhaften Ausgestaltung wird dabei in dem Schritt des Überprüfen der positionsmäßigen Beziehung in einem ersten Untersuchungsschritt (entsprechend einem ersten Lippendetektionsmechanismus) jedes der festgelegten Segmente dahingehend untersucht, ob zu einem zu untersuchenden Segment ein zweites festgelegtes Segment existiert, das auf einer horizontalen Linie bzw. einer im Wesentlichen horizontal verlaufenden Linie zu dem gerade untersuchten festgelegten Segment liegt. Ausgehend von einem erfassten Bild, bestehend aus einer Mehrzahl von Bildpunkten muss das zweite Segment nicht unbedingt auf einer der von dem zu untersuchenden Segment umfassten wagrechten Linie an Bildpunkten liegen, es kann auch um einen vorbestimmten kleinen Betrag an Bildpunkten höher oder tiefer bezüglich der wagrechten oder horizontalen Line liegen. Wird ein zweites festgelegtes horizontales Segmente gefunden, so wird nach einem dritten festgelegten Segment gesucht, das sich unterhalb des untersuchten und des zweiten festgelegten Segments befindet und für das gilt, dass ein Abstand von dem untersuchten zu dem zweiten festgelegten Segment und ein Abstand einer Verbindungsstrecke zwischen dem untersuchten und dem zweiten festgelegten Segment zu dem dritten festgelegten Segment ein erstes vorbestimmtes Verhältnis aufweist. Insbesondere kann eine Normale zu der Verbindungsstrecke zwischen dem untersuchten und dem zweiten festgelegten Segment definiert werden, wobei der Abstand von dem dritten Segment (entlang der Normalen) zu der Verbindungsstrecke zwischen dem untersuchten und dem zweiten festgelegten Segment in das erste vorbestimmte Verhältnis eingeht. Der Abstand zwischen den untersuchten und dem zweiten Segment kann derart definiert werden, dass der Abstand von einem jeweiligen Mittelpunkt der festgelegten Segmente verwendet wird. Insbesondere bei der Verwendung von Segmenten mit der geometrischen Form eines Rechtecks kann ein Mittelpunkt leicht bestimmt werden. Durch den gerade beschriebenen ersten Untersuchungsschritt kann somit auf das Vorhandensein eines Gesichts geschlossen werden, indem die positionsmäßige Beziehung zwischen drei festgelegten Segmenten ermittelt wird. Hierbei wird davon ausgegangen, dass das untersuchte und das zweite festgelegte Segment einen jeweiligen Augenbrauenabschnitt im Gesicht eines Menschen darstellt, der normalerweise einen markanten bzw. scharfen Hell-Dunkel-Helligkeitsübergang von oben nach unten aufweist und somit im zweiten bearbeiteten Bild gut erkennbar ist. Das dritte festgelegte Segment stellt ein Segment einer Mundpartie bzw. den zwischen Oberlippe und Unterlippe Schatten bildenden Grenzbereich dar. Es hat sich erwiesen, dass zur Bestimmung eines menschlichen Gesichts das erste vorbestimmte Verhältnis zwischen Abstand von untersuchten und zweiten festgelegten Segmenten zu dem Abstand der Verbindungsstrecke der beiden Segmente zu dem dritten festgelegten Segment mit einem Wert von 1:1 bis 1:1,7, insbesondere von 1:1,2 bis 1:1,5 vorteilhaft ist. Neben der Möglichkeit, Augenbrauen als markante Segmente mit helligkeitsspezifischen Merkmalen zu verwenden, ist es auch möglich, an Stelle der Augenbrauen Schatten bildende Bereiche der Augenhöhlen bzw. die Augen oder die Iris selbst zu verwenden.
  • Gemäß einer weiteren vorteilhaften Ausgestaltung wird in dem Schritt des Überprüfens der positionsmäßigen Beziehung in einem zweiten Untersuchungsschritt (entsprechend einem zweiten Lippendetektionsmechanismus) jedes der festgelegten Segmente dahingehend untersucht, ob zu diesem Segment ein viertes festgelegtes Segment existiert, das sich unterhalb, insbesondere entlang einer Vertikalen, dem untersuchten festgelegten Segment befindet und für das gilt, dass die horizontale Länge des untersuchten festgelegten Segments und der Abstand des vierten festgelegten Segments zum untersuchen festgelegten Segments ein zweites vorbestimmtes Verhältnis aufweisen. Dieser zweite Untersuchungsschritt geht dabei davon aus, dass insbesondere bei Personen, die eine Brille oder Sonnenbrille tragen, die einzelnen Augenbrauen nicht erkennbar sind, sondern dass auf Grund der starken Konturen der Brillen lediglich ein Segment bzw, eine Struktur erkennbar ist, die geometrisch der Länge der beiden Augenbrauen zusammen entspricht. Somit steht auch die Länge dieses die beiden Augenbrauen umfassenden Segments wieder in einem bestimmten Verhältnis zur Entfernung des Mundes im Gesicht des Benutzers. Werden somit zwei festgelegte Segmente erkannt, bei denen die Länge des ersten Segments zum Abstand des zweiten Segments ein zweites vorbestimmtes Verhältnis aufweist, so kann auch gemäß dem zweiten Untersuchungsschritt auf das Vorhandensein eines menschlichen Gesichts geschlossen werden. Als gültiger Bereich für das zweite vorbestimmte Verhältnis kann wieder ein Wert von 1:1 bis 1:1,7, aber insbesondere von 1:1,2 bis 1:1,5 angenommen werden.
  • Gemäß einer vorteilhaften Ausgestaltung wird in dem Schritt des Überprüfens der positionsmäßigen Beziehung zunächst der erste Untersuchungsschritt durchgeführt, um insbesondere nach Gesichtern von Menschen zu suchen, die keine Brillenträger sind. Zeigt der erste Untersuchungsschritt kein Ergebnis, bei dem zu den jeweiligen untersuchten Segmenten kein zweites und drittes Segment gefunden worden ist, so wird im Folgenden der zweite Untersuchungsschritt durchgeführt. Es ist jedoch auch möglich, zunächst den zweiten und dann den ersten Untersuchungsschritt durchzuführen.
  • Bei dem bisher beschriebenen Verfahren bzw. den vorteilhaften Ausgestaltungen hiervon wird insbesondere in dem ersten Untersuchungsschritt die positionsmäßige Beziehung dreier festgelegter Segmente zueinander bzw. ein erstes vorbestimmtes Verhältnis der Abstände der Segmente zueinander und wird bei dem zweiten Untersuchungsschritt die positionsmäßige Beziehung von (zwei) Segmenten in Abhängigkeit der Größe und/oder Form, insbesondere der (horizontalen) Länge, des ersten Segments als Kriterium zum Ableiten eines Vorhandenseins eines Gesichts in dem erfassten Bild einer Szene verwendet werden. Zur Verbesserung des Verfahrens, d. h. zur Erhöhung der Wahrscheinlichkeit, dass es sich tatsächlich um ein Gesicht handelt, kann gemäß einer weiteren vorteilhaften Ausgestaltung in einem weiteren Verfahrensschritt ein Extrahieren biometrischer Merkmale bezüglich der Mundpartie oder Lippenpartie aus einem Analysebereich um ein gefundenes drittes oder viertes festgelegtes Segment durchgeführt werden. Das bedeutet, es sollen in diesem zusätzlichen Schritt weitere Untersuchungen durchgeführt werden, ob das einen Mundbereich repräsentierende dritte oder vierte festgelegte Segment tatsächlich einen Mundbereich bzw. eine Mundpartie repräsentiert. Dabei können in dem erfassten Bild in einem Bereich, der sich an der Position des dritten oder des vierten festgelegten Segments be findet und das jeweilige Segment umfasst, Hell-Dunkel- und Dunkel-Hell-Helligkeitsübergänge bestimmt werden, um das Vorhandensein einer Oberlippe und Unterlippe einer Mundpartie abzuleiten. Vorteilhafter Weise wird dabei der Analysebereich des erfassten Bildes, der Bereich mit der vermuteten Mundpartie, einer Bearbeitung mit einem horizontal orientierten Gradientenfilter unterzogen, um ein drittes bearbeitetes Bild zu erhalten. Das dritte bearbeitete Bild, von oben nach unten betrachtet, kann dann entsprechend dem ersten bearbeiteten Bild eine scharfen Hell-Dunkel-Übergang vom Oberlippenbereich zum "Zwischenlippenbereich" bzw. zum Mundöffnungsbereich darstellen, wobei anhand dieses Übergangs auf die Form der Oberlippe geschlossen werden kann. Diese ermittelte Form kann einem ersten Prüfschritt unterzogen werden, der anhand der Form der Oberlippenlinie feststellen soll, ob es sich tatsächlich um eine Oberlippe oder irgendeine andere Struktur handelt. Weist die Oberlippe für sie spezifische geometrische Eigenschaften auf, wie beispielsweise eine bestimmte (horizontale) Länge oder eine bzw. mehrere spezifische Krümmungen, so kann zunächst auf das tatsächliche Vorhandensein einer Mundpartie und somit auch auf das Vorhandensein eines Gesichts eines Menschen geschlossen werden. Somit kann das oben beschriebene Verfahren einschließlich dessen vorteilhafter Ausgestaltungen, bei dem bzw. denen anhand der positionsmäßigen Beziehung verschiedener festgelegter Segmente auf das Vorhandensein eines Gesichts geschlossen wird, durch eine Merkmalsextraktion, in diesem Fall der Extraktion geometrischer Eigenschaften der Oberlippe in dem ersten Prüfschritt, verbessert werden. Das bedeutet, dass nach diesem ersten Abschnitt der Merkmalsextraktion im Rahmen des ersten Prüfschritts schon die Wahrscheinlichkeit erhöht werden kann, dass es sich bei dem dritten oder vierten festgelegten Segment bzw. bei dem Analysebereich um einen Bildbereich handelt, in dem sich eine Mundpartie eines Gesichts befindet.
  • Erfüllen die bestimmten geometrischen Eigenschaften (beispielsweise bezüglich Länge bzw. Krümmung) die für eine Ober lippe spezifischen Kriterien, so kann die Merkmalsextraktion in einen zweiten Extraktionsabschnitt bzw. einen zweiten Prüfschritt übergehen, in dem nun eine Unterlippe bzw. Unterlippenlinie extrahiert werden soll. Eine Unterlippe kann beispielsweise mittels eines vertikalen Such-Algorithmus erkannt bzw. extrahiert werden, bei dem im Analysebereich zunächst die Graustufenwerte der Oberlippe ermittelt werden und dann entsprechende Graustufenwerte in einem Abschnitt gesucht werden, der sich in vertikaler Richtung unterhalb dem Bereich der Oberlippe befindet. Auf diese Weise ist es möglich, sehr helle Bereiche, wie beispielsweise die Zähne, sowie sehr dunkle Bereiche, wie beispielsweise den Rachenbereich, zu überspringen und einen bezüglich der Helligkeit der Oberlippe als Unterlippe zu identifizieren. Eine weitere Möglichkeit, die Unterlippe zu extrahieren, beruht auf der Tatsache, dass bei entsprechend großer Wahl des Analysebereichs, bei der ein Teil des Kinnbereichs mit enthalten ist, insbesondere in dem dritten bearbeiteten Bild von unten nach oben betrachtet, ein dunkler Bereich (Schattenbereich) unterhalb der Unterlippe erkennbar ist, der darauf beruht, dass die Unterlippe normaler Weise bezüglich des Gesichts um einen kleinen Betrag nach vorne gekrümmt ist. Somit kann gemäß diesem Verfahren anhand des untersten und markantesten Helligkeitsübergangs von Dunkel nach Hell von unten nach oben betrachtet, auf die Unterlippe bzw. Unterlippenlinie geschlossen werden.
  • Sind nun Oberlippe und Unterlippe identifiziert, so ist es nun möglich, Viseme bzw. Mundmerkmale zu extrahieren, indem die geometrischen Eigenschaften der Oberlippe und Unterlippe getrennt untersucht werden. Weisen Oberlippe und Unterlippe beispielsweise eine geringe horizontale Länge, jedoch eine starke Krümmung auf (die Oberlippe ist stark nach oben gekrümmt und die Unterlippe ist stark nach unten gekrümmt), so kann beispielsweise auf eine Mundpartie geschlossen werden, die gerade ein "O" artikuliert. Weist hingegen die Oberlippe und die Unterlippe eine relativ große horizontale Länge und nahezu keine Krümmung auf, so kann beispielsweise auf die Artikulation des Buchstaben "M" geschlossen werden.
  • Es kann somit zusammenfassend gesagt werden, dass ein Verfahren gemäß der vorliegenden Erfindung es zunächst erlaubt, anhand eines erfassten Bildes in einem Durchlauf helligkeitsspezifische Segmente festzulegen, um bei der Überprüfung derer positionsmäßigen Beziehung auf das Vorhandensein eines (menschlichen) Gesichts zu schließen. Es ist dabei möglich, bei Vorhandensein entsprechender Bedingungen bezüglich der positionsmäßigen Beziehung, wie sie beispielsweise in dem ersten und zweiten vorbestimmten Verhältnis in dem ersten und zweiten Untersuchungsschritt in dem Schritt des Überprüfens der positionsmäßigen Beziehung festgelegt sind, einen Steuervorgang in einer Datenverarbeitungsanordnung auszulösen. Beispielsweise ist es möglich, dass erst beim Erkennen eines Gesichts eines Benutzers eine Anzeige der Datenverarbeitungsanordnung aktiviert wird, ein (akustisches) Spracherkennungsverfahren aktiviert wird, Lautsprecher bzw. Mikrofon aktiviert wird, usw. Auf diese Weise ist es möglich, Energie bzw. Leistung für Komponenten der Datenverarbeitungsanordnung einzusparen, die nicht benötigt werden, wenn der Benutzer gerade nicht in der Position ist, um die Datenverarbeitungsanordnung zu bedienen. Es ist jedoch auch möglich, einen Steuervorgang in einer Datenverarbeitungsanordnung erst dann auszulösen, wenn die "verbesserte" Überprüfung des Vorhandenseins eines Gesichts mittels der Merkmalsextraktion, insbesondere dem ersten Prüfschritt, durchgeführt worden ist. Eine weitere Differenzierung beim Auslösen eines bestimmten Steuervorgangs kann vorgenommen werden, wenn nicht nur das Vorhandensein einer Oberlippe bzw. Unterlippe in dem erfassten Bild bzw. dem Analysebereich festgestellt wird, sondern wenn die geometrischen Eigenschaften der Unterlippe bzw. Oberlippe erfasst werden. Somit kann, wie in dem oben erwähnten Beispiel, bei Erkennen einer Mundpartie, die beispielsweise den Buchstaben "O" artikuliert, beispielsweise ein erster bestimmter Steuer vorgang ausgelöst werden, während bei Erkennen des Buchstabens "M" ein zweiter bestimmter Steuervorgang ausgelöst wird.
  • Durch Erfassen des Mundbereichs eines Gesichts über einen längeren Zeitraum bzw. über mehrere erfasste Bilder hinweg ist es auch möglich, die zeitliche Veränderung von Mundmerkmalen zu ermitteln und bei Erkennen einer bestimmten zeitlichen Abfolge von Mundmerkmalen ein bestimmtes Signal auszugeben bzw. einen bestimmten Steuervorgang auszulösen.
  • Soll nun über einen längeren Zeitraum hinweg ein Gesicht eines Menschen, insbesondere die Mundpartie, erfasst werden, um daraus Viseme zu extrahieren bzw. abzuleiten, so muss nicht bei jedem neuen erfassten Bild ein oben erwähntes Verfahren durchgeführt werden, bei dem anhand der Überprüfung einer positionsmäßigen Beziehung von festgelegten Segmenten in dem erfassten Bild auf die Mundpartie geschlossen werden kann, es kann zur Verringerung der Rechenleistung folgendes Verfahren durchgeführt werden. Wird von einer Szene ein erstes Bild aufgenommen, und in diesem die Position der Mundpartie eines Gesichts bestimmt, so kann bei einem folgenden erfassten Bild, das im Bruchteil einer Sekunde später von der Szene erfasst wird, davon ausgegangen werden, dass sich die Position der in dem ersten erfassten Bild gefundenen Mundpartie nicht sehr wesentlich verschoben hat. Eine derartige Annahme kann beispielsweise bei einer Bilderfassungsrate von 10 Bildern (Frames) pro Sekunde oder mehr, insbesondere 15 Bilder pro Sekunde, und insbesondere für eine Szene angenommen werden, bei der der Benutzer sich in einer im Wesentlichen ortsfesten Position befindet, wie beispielsweise ein Fahrer in einem Auto. Gemäß einer vorteilhaften Ausgestaltung wird somit in dem zweiten erfassten Bild lediglich ein Bereich bzw. Analysebereich an der Position des Analysebereichs des ersten Bilds untersucht, d. h. es wird eine Merkmalsextraktion einschließlich des ersten Prüfschritts und eventuell des zweiten Prüfschritts durchgeführt, um zum Einen eine Plausibilitätsprüfung durchzuführen, ob in dem neuen Analysebereich eine Mund partie eines Gesichts enthalten ist, und wenn dies zutrifft, welches Visem bzw. Mundmerkmal gebildet von der Ober- und Unterlippe in dem neuen Analysebereich vorhanden ist. Gemäß einer weiteren vorteilhaften Ausgestaltung kann zur Berücksichtigung einer zumindest geringen Bewegung des Gesichts in der Szene ein gegenüber dem im ersten Bild um einen bestimmten Faktor vergrößerter Analysebereich im zweiten erfassten Bild verwendet werden. Vorteilhafter Weise wird der erweiterte Analysebereich an einer Position im zweiten erfassten Bild angeordnet, so dass er konzentrisch gegenüber dem Analysebereich im ersten erfassten Bild ist. Beispielsweise kann der erweiterte Analysebereich um einen Faktor 1,1 bis 1,2, d.h. 10% bis 20%, größer sein als der Analysebereich im ersten erfassten Bild.
  • Wurde in dem neuen erweiterten Analysebereich des zweiten erfassten Bildes eine Mundpartie bzw. Ober- und Unterlippe in einem bestimmten Abschnitt dieses Analysebereichs erkannt, so kann der erweiterte Analysebereich wieder auf die Größe des ursprünglichen Analysebereichs verringert werden, wobei er derart positionsmäßig angeordnet wird, dass er wieder die Mundpartie des Gesichts einschließt. Das bedeutet, verändert sich die Position der Mundpartie von dem ersten erfassten Bild zu dem zweiten erfassten Bild, so wird in dem zweiten erfassten Bild zunächst ein etwas größerer Bereich analysiert, und dann die Größe des Analysebereichs verringert und mit der Bewegung der Mundpartie bezüglich der Position mit verschoben. Somit kann von Bild zu Bild ein Analysebereich mit der Bewegung der Mundpartie eines erfassten Gesichts mit bewegt bzw. mit verschoben werden und das Verfahren bleibt an seinem Ziel, der Mundpartie, fixiert.
  • Da bei einem Lippenverfolgungsmechanismus der oben dargestellten Art es nicht mehr notwendig ist, das ganze Gesicht eines Benutzers zu erfassen, kann gemäß einer vorteilhaften Ausgestaltung während der Lippenverfolgung lediglich ein Bild des (ursprünglichen) Analysebereichs bzw. ein Bild des um ei nen bestimmten Faktor erweiterten neuen Analysebereichs des vorliegenden (zweiten) erfassten Bildes erfasst und analysiert werden. Dazu kann der Analysebereich gesondert fokussiert werden. Eine Datenverarbeitungsanordnung bzw. ein optischer Sensor kann dabei eine Autofocussierungseinrichtung sowie evtl. eine Bewegungs- oder Nachführeinrichtung für den Sensor aufweisen. Derartige Einrichtungen erlauben dann dem (neuen) Analysebereich stets mit einer guten bzw. bestmöglichen Auflösung zu erfassen, um Merkmale bzw. Viseme mit hoher Qualität abzuleiten.
  • Zusammenfassend bringt dieser Lippen-Verfolgungsmechanismus, bei dem lediglich ein Ausschnitt eines erfassten Bildes, nämlich der im letzten erfassten Bild ermittelte Analysebereich, analysiert wird, den Vorteil, dass Rechenleistung eingespart werden kann, die benötigt werden würde, wenn jedes Mal das gesamte erfasste Bild analysiert werden müsste.
  • Gemäß einem weiteren Aspekt der Erfindung wird eine Anordnung, insbesondere eine Datenverarbeitungsanordnung, geschaffen, die derart eingerichtet ist, ein oben dargestelltes Verfahren bzw. vorteilhafte Ausgestaltungen hiervon auszuführen. Eine derartige Anordnung hat dabei einen optischen Sensor, wie eine Kamera, zum Aufnehmen bzw. Erfassen eines Bildes einer Szene. Als optischer Sensor bzw. Kamera kann dabei eine CCD(Charged Coupled Device: Ladungsgekoppelte Vorrichtung)-Kamera verwendet werden. Die Anordnung umfasst ferner eine Auswerteeinrichtung mit einem optischen Auswerteabschnitt zum Analysieren der in dem erfassten Bild dargestellten Szene gemäß einem oben dargestellten Verfahren bzw. Ausgestaltungen hiervon. Es ist dabei nicht notwendig, dass der optische Sensor in der Anordnung integriert ist, er kann auch als externe Komponente bzw. Erweiterungskomponente mit der Anordnung verbunden sein. Die Anordnung bzw. Datenverarbeitungsanordnung kann als stationärer Computer, tragbarer Computer, insbesondere PDA(Personal Digital Assistant: Persönlicher digitaler Assistent), als Mobilfunkgerät bzw. Mobiltelefon, bzw. reali siert sein. Aufgrund des geringen Ressourcenbedarfs (bezüglich Rechenleistung oder Speicherbedarfs) des oben dargestellten Verfahrens, das in der Auswerteeinrichtung, genauer gesagt im optischen Auswerteabschnitt durchzuführen ist, eignet sich das dargestellte erfindungsgemäße Verfahren zur Verwendung in tragbaren bzw. mobilen Datenverarbeitungsanordnungn, wie PDAs oder Mobilfunkgeräten bzw. Mobiltelefonen.
  • Gemäß einem weiteren Aspekt wird ein Programmprodukt für eine Datenverarbeitungsanordnung geschaffen, das Softwarcode-Abschnitte enthält, mit denen das oben dargestellte Verfahren bzw. vorteilhafte Ausgestaltungen hiervon auf der Datenverarbeitungsanordnung ausgeführt werden kann. Das Programmprodukt lässt sich durch geeignete Implementierung des Verfahrens bzw. der vorteilhaften Ausgestaltung davon in einer Programmiersprache und Übersetzung in für die Datenverarbeitungsanordnung, insbesondere dessen Auswerteeinrichtung, ausführbaren Code ausführen. Die Softwarecode-Abschnitte werden dazu gespeichert. Dabei wird unter einem Programmprodukt das Programm als handelsbares Produkt verstanden. Es kann in beliebiger Form vorliegen, z. B. auf Papier, einem computerlesbaren Datenträger oder über ein Netz verteilt.
  • Gemäß einem weiteren Aspekt der Erfindung kann das oben dargestellte Verfahren bzw. vorteilhafte Ausgestaltungen hiervon in einem Verfahren zur Spracherkennung, insbesondere zur akustischen Spracherkennung, integriert sein. Gemäß einem derartigen Verfahren wird ein akustisches Sprachsignal aufgenommen und werden Phonem-Merkmale aus dem Sprachsignal ermittelt. Eine derartige Ermittlung kann mittels HMM (Hidden Markov Modellen) oder ANN (Artificial Neural Networks) erfolgen. Ferner wird eine Szene mit einem Gesicht, dem Gesicht der das akustische Sprachsignal abgebenden Person, aufgenommen und aus dem Gesicht bzw. dessen Mundpartie Visem-Merkmale extrahiert. Anschließend werden anhand einer Kombination der Phonem-Merkmale und Visem-Merkmale unter eventueller Einbeziehung einer Gewichtungs- und Entscheidungsfunktion Sprachmerk male abgeleitet. Zum Durchführen eines derartigen Verfahrens kann die oben erwähnte Anordnung bzw. Datenverarbeitungsanordnung gemäß einem Aspekt der Erfindung ferner einen akustischen Sensor, wie ein Mikrofon, zum Aufnehmen eines akustischen Sprachsignals aufweisen, wobei die Auswerteeinrichtung ferner eine mit dem optischen Auswerteabschnitt und dem akustischen Sensor verbundenen Spracherkennungsabschnitt zur Spracherkennung umfasst.
  • Neben der Möglichkeit, das oben dargestellte Verfahren zur (Mundbereichs-)Visem-Erkennung in einem integrierten Spracherkennungsverfahren zu verwenden, ist es auch möglich, das Verfahren in anderen Anwendungen zum Einsatz zu bringen. Wie bereits erwähnt, kann das Verfahren dafür verwendet werden, bei Vorliegen bestimmter Viseme bzw. Visem-Merkmale bestimmte Steuervorgänge auszulösen. Ferner kann bei Erkennen eines Gesichts eines Benutzers einer Datenverarbeitungsanordnung, insbesondere eines Mobilfunkgeräts, eine sogenannte Push-totalk-Funktion realisiert werden, bei dem ein Benutzer des Mobilfunkgeräts ähnlich dem Drücken einer Push-to-talk-Taste bei einem Funkgerät lediglich das Mobilfunkgerät anschauen muss, um eine Sprachübertragung zu einem anderen Mobilfunkteilnehmer zu starten. Es ist auch denkbar, die Gesichtserkennung bzw. die Positionserkennung eines Gesichts bzw. einer Mundpartie in einem erfassten Bild für Spielanwendungen zu nutzen. Dabei kann ein Benutzer durch Verändern der Position seines Gesichts bzw. seiner Mundpartie gegenüber einem optischen Sensor, wie einer Kamera, beispielsweise ein Zeigeelement auf einer auf einer Anzeige dargestellten Benutzeroberfläche einer Datenverarbeitungsanordnung bewegen und anschließend durch Einstellen bestimmter Viseme der Mundpartie bestimmte Ereignisse, insbesondere am Ort des Zeigeelements auf der Benutzeroberfläche auslösen.
  • Wie es aus obiger Beschreibung der Analyse eines Bildes einer Szene zum Auffinden eines Gesichts zu ersehen ist, ist für das Verfahren lediglich ein Graustufenbild mit bestimmten Helligkeitswerten bzw. Luminanzwerten erforderlich. Jedoch ist das Verfahren nicht auf ein Graustufenbild beschränkt, sondern ist vielmehr auch in der Lage, ein Farbbild (beispielsweise von einer Farbkamera erfasst) zu verarbeiten. Wesentlich hierbei ist, dass wiederum die Luminanzwerte des Farbbildes bzw. der Bildpunkt untersucht und verarbeitet werden (wie beispielsweise bei der Verarbeitung des Bildes mittels des Gradientenfilters, usw.).
  • Die Verwendung eines Farbbildes bietet dabei noch weitere Vorteile. Nach Erfassen des Bildes durch eine Kamera bzw. vor der Verarbeitung durch den Gradientenfilter, wie oben erläutert, ist es möglich, in einem ersten vorbereitenden Schritt eine Farbklassifikation des Bildes vorzunehmen. Das bedeutet, das Bild wird nach Farbwerten untersucht, wobei diejenigen Bildbereiche markiert werden, die Farbwerte in einem bestimmten Farbbereich aufweisen, der den Farbwerten menschlicher Haut entspricht. Diese Bildbereiche (es kann auch lediglich ein Bildbereich sein) werden nun verwendet, um die eigentliche Untersuchung nach gesichtsspezifischen Merkmalen durchzuführen (beginnend mit der Verarbeitung durch den Gradientenfilter, usw.). Dazu können die diese Bereiche in Untersuchungsrahmen einbeschrieben werden, die vorteilhafterweise eine rechteckige Form aufweisen, wobei in den Untersuchungsrahmen die Untersuchung nach gesichtsspezifischen Merkmalen durchgeführt wird. Dieses Vorgehen hat dabei mehrere Vorteile. Zum einen wird die Sicherheit bzw. Wahrscheinlichkeit, mit der ein Gesicht und nicht ein in den Helligkeitsmerkmalen ähnliches Gebilde in der Szene gefunden wird größer, da ja die Farbklassifikation ein weiteres charakteristisches Unterscheidungsmerkmal (für ein Gesicht gegenüber anderen Objekten in der Szene) bietet. Zum anderen wird dann durch das eigentliche Untersuchen bzw. Verarbeiten nur der Untersuchungsrahmen, die im allgemeinen eine wesentlich geringere Größe als das gesamte erfasste Bild aufweisen, der Verarbeitungs- bzw. Rechenaufwand, insbesondere bei der Gradientenfilterung, wesentlich verringert.
  • Bevorzugte Ausführungsformen der Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen näher erläutert. Es zeigen:
  • 1 die wesentlichen Komponenten eines Kommunikationssystems bzw. einer Kommunikationsanordnung zum Übertragen eines Bildes von einem ersten Kommunikationsgerät zu einem zweiten Kommunikationsgerät gemäß einer bevorzugten Ausführungsform;
  • 2 eine schematische Anordnung der wesentlichen Komponenten zur Analyse einer Szene bzw. eines Gesichts;
  • 3 eine schematische Anordnung der Verfahrensschritte gemäß einem primären Lippendetektionsmechanismus zum Auffinden einer Mundpartie in einem Bild einer Szene;
  • 4 Bilder einer Szene vom Erfassen der Szene bzw. nach zwei bestimmten Verarbeitungsschritten;
  • 5 ein erfasstes Bild einer Szene mit einem markierten Segment eines Mundbereichs;
  • 6 eine vergrößerte Ansicht des in 5 dargestellten Mundbereichs mit markierten Oberlippen- und Unterlippenlinien;
  • 7 ein Bild einer weiteren erfassten Szene bzw. ein Bild der Szene nach einer Mehrzahl von Verarbeitungsschritten zum Darstellen eines sekundären Lippendetektionsmechanismus; und
  • 8 ein Bild einer erfassten Szene mit markiertem Analysebereich sowie einem erweiterten Analysebe reich bzw. eine vergrößerte Darstellung des erweiterten Analysebereichs;
  • 9 Bilder einer Szene, in denen das Extrahieren des Gesichts einer Person veranschaulicht ist.
  • Es sei dabei zunächst auf 2 verwiesen, in der eine schematische Darstellung der Komponenten bzw. Mechanismen zum Erfassen und Analysieren einer Szene dargestellt sind. Wie es in 2 zu erkennen ist, ist dabei eine Kamera K als optischer Sensor vorgesehen, die in der Lage ist, eine Szene (eine reelle Umgebung mit bestimmten Sachen und/oder Personen) zu erfassen. Die Kamera kann dabei beispielsweise als eine CCD-Kamera ausgebildet sein. Die Kamera K ist mit einem optischen Auswerteabschnitt OAA verbunden, in dem verschiedene Mechanismen bzw. Verfahren zur Analyse der von der Kamera erfassten Szene ablaufen können. Der optische Auswerteabschnitt OAA ist dabei in der Lage, einen ersten oder primären Lippendetektionsmechanismus PLD zum Auffinden eines Gesichts bzw. einer Mundpartie in dem erfassten Bild der Szene durchzuführen. Entsprechend kann der optische Auswerteabschnitt einen alternativen oder zusätzlichen zweiten bzw. sekundären Lippendetektionsmechanismus SLD zum Auffinden eines Gesichts bzw. einer Mundpartie durchführen. Nach gefundener Position der Mundpartie eines Gesichts gemäß dem primären oder sekundären Lippendetektionsmechanismus kann mittels einer Merkmalsextraktion ME zum Einen eine verbesserte Plausibilitätsüberprüfung durchgeführt werden, ob es sich tatsächlich um eine gefundene Mundpartie handelt und es können Mundmerkmale bzw. Viseme des Mundes anhand geometrischer Eigenschaften der Ober- und Unterlippe abgeleitet werden. Die in einem ersten erfassten Bild oder Rahmen (Frame) gefundene Mundpartie bzw. deren Position kann dann in folgenden erfassten Bildern der Szene mittels einem Lippen-Tracking-Mechanismus bzw. Lippenverfolgungsmechanismus LVM weiterverfolgt werden, um nicht nur einzelne Mundmerkmale der erfassten Mundpartie für sich alleine, sondern auch eine zeitliche Änderungen der Mundmerkmale zu verfolgen. Die aus den Mechanismen PLD, SLD und ME gewonnenen Ergebnisse, nämlich dass in dem Bild einer erfassten Szene ein Gesicht einer Person bzw. eine Mundpartie vorhanden ist, können in eine Steuereinrichtung SE weitergeleitet werden. Mittels der ermittelten Ergebnisse bzw. Information, nämlich dass ein Gesicht oder eine Mundpartie in dem von der Kamera K erfassten Bild vorhanden ist, ist es möglich, bestimmte Steuervorgänge beispielsweise in einer Datenverarbeitungsanordnung bzw. einer Datenverarbeitungsanordnung auszulösen. So kann beispielsweise bei Erkennen eines Gesichts einer Person bzw. eines Benutzers in einer als Mobilfunkgerät ausgeführten Datenverarbeitungsanordnung beispielsweise ein Lautsprecher bzw. ein Mikrofon eingeschaltet werden, um eine Sprachsteuerung des Geräts zu ermöglichen. Es ist jedoch auch möglich, wie es unten ausführlicher beschrieben wird, die bei der Merkmalsextraktion extrahierten Viseme oder Mundmerkmale für eine differenziertere Steuerung einer Datenverarbeitungsanordnung zu verwenden, oder als zusätzliche bzw. unterstützende Merkmale im Rahmen einer akustischen Spracherkennung zu verwenden. In diesem Fall können die Viseme einem akustischen Auswerteabschnitt zum Durchführen einer akustischen Spracherkennung zugeführt werden, wobei der akustische Auswerteabschnitt AAA zum Erfassen eines akustischen Sprachsignals eines Benutzers mit einem Mikrofon MIK als akustischem Sensor verbunden ist. Die Komponenten OAA, SE und AAA können als Teil einer Auswerteeinheit angesehen werden.
  • Für den Fall der im folgenden erläuterten bevorzugten Ausführungsform sind die in 2 dargestellten Komponenten in einer Datenverarbeitungsanordnung in Form eines Mobiltelefons (es sind natürlich auch andere Realisierungen einer Datenverarbeitungsanordnung möglich, in denen die in 2 dargestellten Komponenten vorgesehen werden können) angeordnet, wobei die Kamera K entweder fest im Mobiltelefon integriert sein kann oder als auswechselbare Peripheriekomponente vorgesehen sein kann. Gerade in zumeist kleinen mobilen Geräten wie den Mobiltelefonen, ist es wichtig, dass Anwendungen, wie die im Folgenden beschriebenen Analyse einer Szene, ressourcensparende Algorithmen aufweist, die hinsichtlich des Speicherbedarfs, so wie der Rechenzeit bzw. Rechenleistung minimiert sind, um die Ressourcen der Geräte möglichst auszunutzen, ohne aber einen zusätzlichen Prozessor- oder Speicherausbau notwendig zu machen.
  • Im Folgenden sollen nun die in dem optischen Auswerteabschnitt OAA durchführbaren Mechanismen bzw. einzelnen Verfahren ausführlich dargestellt werden.
  • Primärer Lippendetektionsmechanismus
  • Es sei nun auf 3 verwiesen, in der eine schematisch Darstellung der Komponenten bzw. einzelnen Verfahrensschritte zum Realisieren des primären Lippendetektionsmechanismus gezeigt sind. Ein von der Kamera K erfasstes Bild einer Szene wird zunächst einer optionalen Bildkontrastverbesserung BKV durch einen histogramm-basierten Graustufenausgleich (Histogram Equalization) BKV der einzelnen Bildpunkte des erfassten Bild zugeführt wird. Das so mit dem Kontrast verbesserte erfasste Bild wird dann einer Bearbeitung durch einen horizontal orientierten positiven Gradientenfilter GF zugeführt, mittels der helligkeitsspezifische horizontale Konturen, d.h. markante bzw. scharfe Hell-Dunkel-Übergänge oder Dunkel-Hell-Übergänge extrahiert werden können. Das so erhaltene erste bearbeitete Bild wird einem Segmentationsalgorithmus SA zugeführt, in dem allen Bildpunkten mit einem Grauwert über einen bestimmten Schwellenwert der Graustufenwert "weiß" zugeordnet wird, während den übrigen Bildpunkten der Graustufenwert "schwarz" zugeordnet wird. Auf diese Weise können beispielsweise nur bestimmte scharfe horizontale Hell-Dunkel-Übergänge sichtbar gemacht werden. In einem derartigen erhaltenen zweiten bearbeiteten Bild können die nun verbliebenen "weißen" Bereiche bezüglich ihrer Fläche, Position oder Geometrie untersucht werden. Die in dem Segmentationsalgorithmus SA festgelegten Segmente können dann einen ersten Untersuchungsschritt US1 unterzogen werden, indem anhand der positionsmäßigen Beziehung entsprechender festgelegter Segmente bzw. anhand der positionsmäßigen Beziehung und der Form oder Ausdehnung der Segmente unter Einbeziehung biogeometrischer Kriterien für ein Gesicht auf das Vorhandensein eines Gesichts und auf die Position des Gesichts bzw. der entsprechenden Mundpartie geschlossen werden kann.
  • Ein derart beschriebener primärer Lippendetektionsmechanismus soll nun anhand der 4A bis 4C ausführlich dargestellt werden. Dabei ist zunächst in 4A das von der Kamera erfasste Bild (einer Person in einem Fahrzeug) dargestellt, das als Graustufenbild vorliegt, d. h. das Bild besteht aus einzelnen Bildpunkten, denen ein jeweiliger bestimmter Graustufenwert zugeordnet ist. Das optional einer Bildkontrastverbesserung BKV (vgl. 3) unterzogene erfasste Bild wird dann einer Bearbeitung durch einen horizontal orientierten positiven Gradientenfilter unterzogen, um horizontale Strukturen, d. h. markante Helligkeitsübergänge, zu ermitteln. Ein derart (erstes) bearbeitetes Bild ist in 4B zu sehen, bei dem Hell-Dunkel-Übergänge von oben nach unten betrachtet, ausgehend von einem mittleren Graustufenwert, entsprechend der Schärfe des Übergangs zu einem erhöhten Graustufenwert (in Richtung "weiß") übergehen, während Dunkel-Hell-Helligkeitsübergänge von oben nach unten betrachtet, ausgehend von einem mittleren Graustufenwert in einen geringeren Graustufenwert (in Richtung "schwarz") übergehen. Durch Anwenden einer Schwellwertbildung (wobei der Schwellwert in Abhängigkeit der Helligkeit des erfassten Bildes gewählt wird, beispielsweise anhand einer Histogrammdarstellung der Graustufenwerte der einzelnen Bildpunkte in dem erfassten Bild) werden Bildpunkten, deren Graustufenwert über dem helligkeitsabhängigen Schwellwert liegt, der Wert "weiß" zugeordnet, während den anderen Bildpunkten der Wert "schwarz" zugeordnet wird. Auf diese Weise können in einem (zweiten) bear beiteten Bild eine Großzahl für die Analyse der Szene unwichtiger Details entfernt werden. In dem Segmentationsalgorithmus SA können ferner nun erhaltene weiße Bereiche entfernt werden, deren Größe oder Form nicht bestimmten Kriterien, insbesondere biogeometrischen Kriterien bezüglich eines Gesichts entsprechen. Nach Verwerfen dieser zu kleinen bzw. zu großen weißen Bereiche oder in der Form nicht relevanten Bereiche und durch Zuordnen des Werts "schwarz" den entsprechenden Bildpunkten werden die eigentlichen für die spätere Untersuchung relevanten Segmente festgelegt. Zur besseren Analyse werden diese Segmente in Rechtecke einbeschrieben, wie es in 4C zu erkennen ist. In dem ersten Untersuchungsschritt US1 werden nun die festgelegten noch verbliebenen Segmente der Reihe nach auf ihre geometrische bzw. positionsmäßige Beziehung zueinander untersucht. Die Untersuchung basiert darauf, dass zu zwei horizontal zueinander angeordneten Segmenten, die die Augenbrauen (vgl. die Augenbrauenbereiche ABB in 4A, 4B) oder Brillenkonturen in einem Gesicht eines Menschen darstellen können, ein drittes unterhalb diesen ersten beiden Segmenten liegendes Segment gesucht wird, das einem möglichen Mundsegment (vgl. den Mundbereich MB in 4A, 4B) basierend auf dem Helligkeitsübergang von dem Oberlippenbereich in den Zwischenlippenbereich) entspricht. Sind dabei ein erstes und ein zweites horizontal zueinander liegendes Segment gefunden, wie die Segmente S1 und S2, so wird deren Abstand zueinander, in diesem Fall der Abstand b, ausgehend von den jeweiligen Mittelpunkten der Segmente bestimmt. Anschließend wird unterhalb der beiden Segmente S1 und S2 ein drittes Segment gesucht, dessen Abstand, der Abstand a, zu den ersten beiden Segmenten bzw. einer Verbindungslinie hiervon in einem ersten biogeometrischen Verhältnis bezüglich eines menschlichen Gesichts stehen. Ein derartiges Verhältnis von a zu b kann einen Wert zwischen 1,0:1 bis 1,7:1, jedoch insbesondere einen Wert von 1,2:1 bis 1,5:1 aufweisen. Je nach Verwendung des Gültigkeitsbereichs für das erste Verhältnis von a zu b, könnten in 4C das Segment S3 und S4 als mögliches drittes Segment (potenzielles Mundsegment) in Frage kommen. Gemäß einer vorteilhaften Ausgestaltung kann daher in diesem Fall noch nach einem vierten relevanten Segment gesucht werden, das sich unmittelbar unterhalb des dritten Segments befindet. Basierend auf der Tatsache, dass im Normalfall die Unterlippe eines Mundsegments leicht nach vorne bezüglich des Gesichts gekrümmt ist und somit unterhalb der Unterlippe ein Schattenbereich entsteht (vgl. dazu auch den in 8B dargestellten erweiterten Analysebereich, in dem dieser Schattenbereich ULB sich unmittelbar unterhalb des dunklen Zwischenlippenbereichs ZLB befindet), kann dieser Schattenbereich bei einer Art Plausibilitätsprüfung als viertes Segment, das sich unmittelbar unterhalb des dritten Segments befinden muss, dienen. Auf Grund dieser Überprüfung kann dann das Segment S4 als potenzielles Mundsegment identifiziert werden, wobei das Segment S5 den Schatten unterhalb der Unterlippe darstellt. Nun wird ein Bereich in dem erfassten Bild von 4A gespeichert, der den als potenzielles Mundsegment identifizierten Bereich (Segment S4) in Größe und Position entspricht. Dieser Bereich, der später als Analysebereich bezeichnet wird, wird für die folgende Merkmalsextraktion verwendet.
  • Es sei bemerkt, dass der gesamte Vorgang des primären Lippendetektionsmechanismus, wie er gerade beschrieben worden ist, in einem einzigen Durchgang durchgeführt werden kann, wobei am Ende des Durchgangs das ursprünglich erfasste Bild verworfen werden kann und nur noch die gespeicherten Bildpunktdaten des Analysebereich benötigt werden. Wie es ferner zu erkennen ist, werden innerhalb dieses einzigen Durchlaufs die Bilddaten des erfassten Bildes mit sehr einfachen Algorithmen erheblich verringert, was der Anforderung nach Minimierung des Speicherbedarfs, Rechenzeit und Durchlaufzeit Rechnung trägt.
  • Merkmalsextraktion
  • Die nun folgende Merkmalsextraktion dient zum Einen der Plausibilitätsprüfung, ob in dem gefundenen Analysebereich wirk lich eine Mundpartie bzw. Lippen vorliegen, und dient ferner dazu, anhand der gefundenen Mundpartie Merkmale bzw. Merkmalsvektoren für eine nachfolgende Visem-Suche zu gewinnen. Zunächst sei auf 5 verwiesen, in der nochmals die von der Kamera K in 3 erfasste Szene entsprechend 4A dargestellt ist, wobei der nun im Folgenden zu analysierende Bereich AB der Mundpartie, der während der Durchführung des ersten Lippendetektionsmechanismus gespeichert wurde, markiert ist. Dieser Bereich ist vergrößert in 6 dargestellt. Entsprechend der in 3 dargestellten Bearbeitung mit einem horizontal orientierten Gradientenfilter wird nun auch der in 6 vergrößert dargestellte Analysebereich AB einer Bearbeitung mit einem horizontal orientierten positiven Gradientenfilter unterzogen. Es sei bemerkt, dass vor der Bearbeitung mit dem Gradientenfilter wieder eine Bildkontrastverbesserung entsprechend der Bildkontrastverbesserung BKV in 3 durchgeführt werden kann. Durch die Bearbeitung mit dem horizontal orientierten positiven Gradientenfilter entsteht nun ein drittes bearbeitetes Bild, bei dem (horizontale) Hell-Dunkel-Übergänge, insbesondere von dem Oberlippenbereich in den Zwischenlippenbereich, oder anders ausgedrückt von dem Bereich der Oberlippe zu dem Bereich unterhalb der Oberlippe extrahiert werden. Auf diese Weise ist es möglich, einzelne Segmente der Oberlippe zu gewinnen, welche miteinander verbunden werden können und geglättet werden können. Die nun gefundene bzw. geglättete Oberlippenlinie kann nun bezüglich ihrer geometrischen Eigenschaften (Länge, Krümmung usw.) bewertet werden, d. h. ob sie biogeometrischen Merkmalen einer tatsächlichen Oberlippe bzw. Oberlippenlinie entspricht. Es ist nun möglich, dass sich in dem Analysebereich AB mehrere Hell-Dunkel-Übergänge befinden, die eine Oberlippenlinie darstellen können. Wird eine erste Oberlippenlinie bzw. eine Kombination mehrere als Oberlippenlinie identifizierter Segmente, wie gerade beschrieben, negativ bewertet, wird ein weiterer Hell-Dunkel-Übergang bzw. ein weiterer Abschnitt aus mehreren Hell-Dunkel-Übergängen, die zu einer Oberlippenlinie zusammensetzbar sind, auf das Vorhandensein bestimmter geo metrischer Eigenschaften entsprechend einer tatsächlichen Oberlippe untersucht. In Versuchen hat sich gezeigt, dass eine Wiederholung der Untersuchung mit einem drittwahrscheinlichst möglichen Hell-Dunkel-Übergangsbereich zwar möglich ist, aber meist nicht erfolgreich, weshalb gemäß dieser Ausgestaltung der Merkmalsextraktion zu dem unten näher erläuterten sekundären Lippendetektionsmechanismus zum Auffinden der Position eines Gesichts bzw. einer Mundpartie übergegangen wird.
  • Wird eine gefundene Oberlippenlinie als positiv (entsprechend einer tatsächlichen Oberlippe bzw. Oberlippenlinie) bewertet, wird ein zweiter Prüfschritt bzw. Extraktionsschritt durchgeführt, bei dem die Unterlippe oder Unterlippenlinie identifiziert werden soll. Da das genaue Extrahieren der Unterlippe auf Grund generell schwächerer Konturierung der Unterlippe mittels einem Filter, wie dem oben beschriebenen Gradientenfilter, schwierig ist, wird in diesem Fall ein vertikaler Suchalgorithmus angewandt, der ausgehend von der relativ gut erkennbaren Oberlippe bzw. Oberlippenlinie, welche durch die oberen weißen Quadrate OL in 6 dargestellt ist, den ersten farbähnlichen bzw. graustufenähnlichen Bildpunktwert entlang der Vertikalen nach unten sucht. Damit ist es möglich, helle Bereiche, wie beispielsweise die Zähne, sowie auch dunkle Bereiche, wie beispielsweise der Rachenbereich, zu überspringen und einen möglichst nahen Unterlippenbereich, der in 6 durch die Linie aus weißen Quadraten UL gebildet wird, zu identifizieren. Die entsprechenden gefundenen Ober- und Unterlippenlinien OL und UL können dann bezüglich ihrer geometrischen Eigenschaften (Länge und Krümmung) untersucht werden, so dass aus den gefundenen geometrischen Eigenschaften mögliche Mundmerkmale oder Viseme, beispielsweise mittels HMM-Technologien abgeleitet werden kann.
  • Sekundärere Lippendetektionsmechanismus
  • Wie oben bezüglich der Merkmalsextraktion erwähnt worden ist, ist es möglich, dass nach Durchführen des primären Lippende tektionsmechanismus und nach einer Plausibilitätsprüfung in einem ersten Prüfschritt der Merkmalsextraktion der durch den primären Lippendetektionsmechanismus gefundene Analysebereich keine tatsächliche Mundpartie aufweisen kann. In diesem Fall wird der sekundäre Lippendetektionsmechanismus eingesetzt, um einen Analysebereich für eine Mundpartie zu finden. Es sei dabei erwähnt, dass der sekundäre Lippendetektionsmechanismus bereits algorithmisch beim Durchlauf des primären Lippendetektionsmechanismus berücksichtigt werden kann, d. h. nach Erfassen des ersten Bildes der Szene. Es ist jedoch auch möglich, dass der zweite Lippendetektionsmechanismus aber erst in einem zweiten Durchlauf bezüglich eines zweiten erfassten Bildes der Szene durchgeführt werden kann. Wird der sekundäre Lippendetektionsmechanismus bereits beim Durchlaufen des primären Lippendetektionsmechanismus durchgeführt, so können die damit identifizierten bzw. festgelegten Segmente dann erst beim Aufruf des sekundären Lippendetektionsmechanismus ausgewertet werden.
  • Der Grund für das Fehlschlagen des primären Lippendetektionsmechanismus kann darin liegen, dass bei stark konturierten Brillen, Sonnenbrillen oder durchgängigen Augenbrauen keine zwei getrennten Augenbrauensegmente für die gesichtsgeometrische Beurteilung zur Verfügung stehen, weshalb in diesem Fall ein anderer Detektionsmechanismus zu verwenden ist. Bei dem zweiten Lippendetektionsmechanismus werden dabei zunächst die gleichen Bearbeitungsschritte, wie die in 3 erläuterten Schritte BKV, GF und SA durchgeführt. An Stelle des ersten Untersuchungsschritts US1 wird jedoch hier ein zweiter Untersuchungsschritt US2 verwendet, bei dem zum Finden der Lippen innerhalb des von der Kamera K erfassten Bildes wieder die Gesichtsgeometrie genutzt wird, wobei hier an Stelle des ersten und des zweiten Segments ein Segment gesucht wird, das geometrisch der Länge der beiden Augenbrauen zusammen entsprechen kann.
  • Ausgehend von einem in 7A gezeigten einem Bild einer Szene, die das Gesicht eines Benutzers (einer Person in einem Fahrzeug) aufweist, welcher eine stark konturierte Brille aufweist, soll hier das Gesicht bzw. die Mundpartie dieses Gesichts ermittelt werden. Nach Durchführen der in 3 erläuterten Bearbeitungsschritte BKV, GF, SA bzgl. des erfaßten Bildes von 7A, wird ein in 7B gezeigtes (zweites) bearbeitetes Bild (entsprechend 4C) erhalten, in dem nur noch markante Hell-Dunkel-Übergänge bestimmter relevanter Größe und Form vorhanden sind. Zunächst wird von jedem dieser vorhandenen Segmente die horizontale Länge b' bestimmt, wie es bei dem Segment S6 dargestellt ist. Nun wird zu jedem Segment, hier beispielhaft an dem Segment S6 gezeigt, ein sich unterhalb befindliches Segment gesucht, das von diesem einen bestimmten Abstand a' aufweist, wobei das Verhältnis a' zu b' ein zweites biogeometrisches Verhältnis bezüglich eines Gesichts aufweisen muss. Dieses zweite Verhältnis von a zu b liegt dabei im Bereich von 1:1 bis 1,7:1, insbesondere jedoch zwischen 1,2:1 bis 1,5:1. Wie es in 7B zu sehen ist, wird zu dem Segment S6 ein weiteres Segment S7 gefunden, durch das die Bedingungen des zweiten Verhältnisses erfüllbar sind. Sind mehrere Segmente vorhanden, durch die das zweite Verhältnis erfüllbar ist, so ist es möglich, für diese Mehrzahl von Segmenten weitere Prüfkriterien zu finden. Beispielsweise kann die Länge des weiteren unterhalb des die Augenbrauen darstellenden Segments überprüft werden, die innerhalb vorbestimmter Parameter zu liegen hat. Ist die Länge des weiteren Segments beispielsweise zu groß (z.B größer als die Länge b), so kann dieses nicht als ein potenzielles Mundsegment identifiziert werden.
  • Ist nun mittels dem sekundären Lippendetektionsmechanismus zu einem ersten den Augenbrauen entsprechenden Segment ein zweites der Mundpartie entsprechendes Segment gefunden worden, so kann dieser gefundene Bereich bezüglich Position und Größe in dem erfassten Bild als Analysebereich gespeichert werden und der oben dargestellten Merkmalsextraktion zugeführt werden.
  • Lippenverfolgungsmechanismus
  • Ist einmal die Position eines Analysebereichs in einem erfassten Bild gefunden, so ist es nicht nötig, in einem folgenden erfassten Bild jedes Mal den primären bzw. sekundären Lippendetektionsmechanismus durchzuführen, sondern es ist möglich, ausgehend von der Position des gefundenen Analysebereichs mit der Mundpartie auf die Position eines Analysebereichs mit einer Mundpartie in dem folgenden zweiten erfassten Bild zu schließen. Dies spart zum Einen Rechenleistung als auch Energie bzw. Strom einer Stromversorgungsquelle, in diesem Fall eines Mobiltelefons. Ausgehend von einer Bilderfassungsrate von 15 Bildern pro Sekunden kann angenommen werden, dass insbesondere in Situationen, in denen sich eine Person in einer Umgebung bzw. Szene quasi nicht bewegt, wie beispielsweise ein Fahrer in einem Auto, sich die Position des gefundenen Analysebereichs mit der Mundpartie nicht wesentlich von einem zum anderen erfassten Bild verändert. Anders ausgedrückt, basiert der Lippenverfolgungsmechanismus darauf, dass der in einem ersten erfassten Bild gefundene Analysebereich mit der Mundpartie bei einer erfolgreichen Merkmalsextraktion als Referenzkoordinaten für das nächste erfasste Bild dient. Um jedoch geringe Abweichungen bezüglich der Position des Analysebereichs auszugleichen, wird gemäß einer vorteilhaften Ausgestaltung im zweiten erfassten Bild, wie es beispielsweise in 8A gezeigt ist, ein bezüglich des ursprünglichen Analysebereichs AB um einen bestimmten Faktor (hier Faktor 1,1) erweiterter Analysebereich EAB, der insbesondere konzentrisch zum ursprünglichen Analysebereich ist, zunächst verwendet, um eine Merkmalsextraktion durchzuführen. Wird aus der Merkmalsextraktion, insbesondere dem ersten Prüfschritt mit der Plausibilitätsprüfung ein negatives Ergebnis erhalten, so müssen der primäre bzw. sekundäre Lippendetektionsmechanismus in einem folgenden erfassten Bild wieder verwendet werden, um die Position eines Analysebereichs mit Mundpartie zu bestimmen. Ist jedoch der erste Prüfschritt einer Merkmalsextraktion in dem erweiterten Analysebereich EAB, wie er in 8A gegenüber dem ursprünglichen Analysebereich AB dargestellt ist, positiv, so können in einem zweiten Prüfschritt bzw. der eigentlichen Merkmalsextraktion in dem erweiterten Analysebereich EAB, wie er beispielsweise in 8B gezeigt ist, Mundmerkmale bzw. Viseme extrahiert werden, wie es oben beschrieben worden ist. Nach erfolgreicher Merkmalsextraktion kann dann der erweiterte Analysebereich auf die Größe des ursprünglichen Analysebereichs verringert werden, jedoch an eine Position, die der tatsächlichen Position der Mundpartie in diesem zweiten analysierten erfassten Bild entspricht. Diese Position kann dann in einem dritten erfassten Bild wieder als Referenzkoordinate dienen usw.
  • Zusammenfassend kann also festgestellt werden, dass die in dem optischen Auswerteabschnitt OAA durchgeführten Verfahren zur Analyse einer Szene bzw. zum Auffinden, Verfolgen und Analysieren einer Mundpartie, insbesondere für Datenverarbeitungsanordnung mit eingeschränkten Ressourcen vorteilhaft ist. Durch den Einsatz von gesichtsgeometrischen Segmentierungsverfahren kann das visuelle oder optische Datenvolumen zur Weiterverarbeitung sehr schnell auf kleine Segmentmengen reduziert werden. Eingebaute Plausibilitäts- bzw. Robustheitsprüfung (bei der Merkmalsextraktion) erlauben dabei auch ein hohes Maß an Zuverlässigkeit und verhindern eine Fehldetektion. Die ressourcenoptimierte Lippenverfolgung erlaubt bei geringen Bewegungen eine in einer Szene vorhandenen Person die Verfolgung der Lippenbereiche über viele erfasste Bilder, ohne erneutes Durchführen von Lippendetektionsmechanismen.
  • Übertragen von Bilddaten
  • Es sei nun auf 1 verwiesen, in der die wesentlichen Komponenten einer Kommunikationsanordnung zum Übertragen eines Bildes einer Szene mit einem Kopf bzw. Gesicht einer Per son von einem ersten Kommunikationsgerät MFG21 in Form eines Mobiltelefons an ein zweites Kommunikationsgerät MFG22 in Form eines Mobiltelefons dargestellt sind.
  • Im Beispiel hier wird ein Bild einer Szene von einer Kamera K des ersten Mobiltelefons MFG21 erfasst und zu einer Auswerteeinrichtung AWER2 geleitet, in der das Vorhandenseins und die Position eines Gesichts in dem ersten Bild bestimmt wird. Die Auswerteeinrichtung AWER2 kann dabei einen optischen Auswerteabschnitt OAA (vgl. 2) aufweisen, der wiederum einen bezüglich 3 erläuterten primären PLD oder sekundären SLD Lippendetektionsmechanismus (OAA, SE, AAA) umfassen kann, um das Vorhandensein und die Position eines Gesichts in dem Bild einer Szene bestimmt. Anschließend wird in einer Einbeschreibungseinrichtung EBER2, die Teil der Auswerteeinrichtung AWER2 ist, das Gesichts in ein Gesichtsrahmenobjekt (vgl. hierzu auch die Beschreibung der 9), das beispielsweise eine rechteckige Form haben kann, einbeschrieben. Schließlich wird durch eine Ausschneideeinrichtung ASER2 der Bildbereich, der von dem Gesichtsrahmenobjekt umfasst wird, ausgeschnitten, um so ein zweites Bild zu erhalten. Dieses zweite Bild wird dann von einer Kodiereinrichtung KDER2 kodiert, um die Bilddaten zu komprimieren. Dabei kann die Kodiereinrichtung KDER2 beispielsweise nach einem H.263-, MPEG4- oder H.26L-Standard arbeiten. Das kodierte zweite Bild bzw. deren Bilddaten wird nun über ein Funkmodul FM21, das mit einer Antenne ANT21 verbunden ist, über eine erste Funkstrecke (angedeutet durch einen ersten "Zick-Zack"-Pfeil) zu einem Kommunikationsnetz KN übertragen, das die Bilddaten über eine zweite Funkstrecke (angedeutet durch einen zweiten "Zick-Zack"-Pfeil) weiter zu dem zweiten Mobiltelefon MFG22 überträgt. Dort werden die Daten über eine Antenne ANT22 von einem Funkmodul FM22 empfangen und zu einer Dekodiereinrichtung DKER2 geleitet. Die Dekodiereinrichtung DKER2 dekodiert die Daten des zweiten Bildes und leitet das zweite (dekodierte) Bild an eine Anzeigeeinrichtung DSP, auf der nun das Bild des Benutzers des ersten Mobiltelefons MFG21 angezeigt werden kann.
  • Gemäß einer vorteilhaften Ausgestaltung kann in der Dekodiereinrichtung DKER2 ein Objekt, wie beispielsweise einen Rahmen, in das zweite Bild eingefügt werden (es sind jedoch beliebige Objekte denkbar). Dieses Einfügen von Objekten bzw. ob und welches Objekt eingefügt werden soll, kann beispielsweise von dem Benutzer des zweiten Mobiltelefons MFG22 selbst am Mobiltelefon eingestellt werden. Sowohl das Kommunikationsnetz KN als auch die Mobiltelefone MFG21, MFG22 können beispielsweise gemäß einem GSM (Global System for Mobile Communications)-, UMTS (Universal Mobile Telecommunications System)-, oder WLAN (wireless LAN: drahtloses lokales Netz)-Standard arbeiten. Es ist auch denkbar, dass beispielsweise die erste Funkstrecke gemäß einem ersten Mobilfunk-Standard und die zweite Funkstrecke gemäß einem zweiten Mobilfunk-Standard aufgebaut wird.
  • Anhand der 9A bis 9C soll nun die Funktionsweise der gerade erläuterten Datenverarbeitungsanordnung bildhaft dargestellt werden. Wie es in 9A zu sehen ist, ist in einem ersten von einer Kamera erfassten Bild BI1 einer Szene ein Gesicht GES vorhanden. Mittels der Auswerteeinrichtung AWER2 (vgl. 1) wurde die Position des Gesichts GES in dem Bild bestimmt. Anschließend wurde durch die Einbeschreibungseinrichtung das Gesicht GES in ein Gesichtsrahmenobjekt GRO, hier in Form eines Rechtecks, einbeschrieben. Nun wird der von dem Gesichtsrahmenobjekt GRO umfasste Bereich des ersten Bildes BI1 von der Ausschneideeinrichtung ausgeschnitten, so dass ein zweites Bild BI2 entsteht (vgl. 9B). Nachdem dieses Bild dann kodiert und zu einem weiteren Kommunikationsgerät bzw. Mobiltelefon übertragen worden ist, kann das weitere Mobiltelefon bzw. eine in diesem vorgesehene Einrichtung, wie die Dekodiereinrichtung zum dekodieren der übertragenen Bilddaten, ein zusätzliches Objekt, wie einen Rahmen RAH in das Bild einfügen, wie es in 9C gezeigt ist, um schließlich ein Bild BI2'' zu erhalten. Dieser "künstliche" Rahmen RAH kann dabei direkt vom zweiten Kommunikationsgerät bereitgestellt werden, oder aber zuvor von dem ersten Kommunikationsgerät übermittelt worden sein.
  • Der Vorteil des beschriebenen Verfahrens liegt nun darin, dass der wesentliche Bildbestandteil, d.h. das Gesicht des Benutzers des ersten Mobiltelefons aus dem ersten Bild herausextrahiert wird, so dass dadurch der Ressourcenaufwand beim kodieren und Übertragen eines Bildes zu einem zweiten Mobiltelefon minimiert wird.

Claims (22)

  1. Verfahren zum Übertragen von Bilddaten von einem ersten Kommunikationsgerät (MFG21) zu einem zweiten Kommunikationsgerät (MFG22) in einem Kommunikationsnetz (KN), wobei das Verfahren folgende Schritte aufweist: Bereitstellen eines ersten Bilds (BI1) einer Szene in dem ersten Kommunikationsgerät (MFG21); Bestimmen der Position eines Gesichts (GES) in dem ersten Bild; Einbeschreiben des Gesichts in ein Gesichtsrahmenobjekt (GRO); Ausschneiden des Bildbereichs, der von dem Gesichtsrahmenobjekt umfasst wird, um so ein zweites Bild (BI2) zu erhalten; Kodieren (KDER2) des zweiten Bildes und Übertragen des kodierten zweiten Bildes zu dem zweiten Kommunikationsgerät.
  2. Verfahren nach Anspruch 1, bei dem ferner das erste Bild kodiert und dieses kodierte Bild zu dem zweiten Kommunikationsgerät übertragen wird, wobei in dem zweiten Kommunikationsgerät das übertragene zweite Bild an der Position in das erste Bild eingefügt wird, an der es in dem ersten Kommunikationsgerät aus dem ersten Bild ausgeschnitten worden ist.
  3. Verfahren nach Anspruch 2, bei dem das zweite Bild mit einer höheren Rate kodiert und zu dem zweiten Kommunikationsgerät übertragen wird als das erste Bild.
  4. Verfahren nach Anspruch 1, bei dem in dem zweiten Kommunikationsgerät in das übertragene zweite Bild eine Objekt, insbesondere ein sichtbarer Rahmen (RAH) eingefügt wird.
  5. Verfahren nach einem der Ansprüche 1 bis 4, bei dem das erste Bild von einer Kamera (K) erfasst wird.
  6. Verfahren nach einem der Ansprüche 1 bis 5, bei dem der Schritt des Bestimmens der Position eines Gesichts in dem Bild folgende Schritte umfasst: – Festlegen von Segmenten (S1 – S7) in dem erfassten Bild, die helligkeitsspezifische Merkmale aufweisen; – Überprüfen einer positionsmäßigen Beziehung (a, b) der festgelegten Segmente zueinander; – Ableiten eines Vorhandenseins eines Gesichts an einer bestimmten Position in dem erfassten Bild, wenn eine Auswahl von festgelegten Segmenten (S1, S2, S4; S6, S7) eine bestimmte positionsmäßige Beziehung aufweist.
  7. Verfahren nach Anspruch 6, bei dem das erfasste Bild aus einzelnen Bildpunkten zusammengesetzt ist, welchen jeweilige Graustufenwerte zugeordnet sind.
  8. Verfahren nach Anspruch 6 oder 7, bei dem die helligkeitsspezifischen Merkmale scharfe Helligkeitsübergänge aufweisen.
  9. Verfahren nach Anspruch 8, bei dem der Schritt des Festlegens von Segmenten in dem erfassten Bild eine Bearbeitung (GF) des Bildes mittels eines Gradientenfilters, insbesondere eines positiven horizontalen Gradientenfilters, umfasst, um ein erstes bearbeitetes Bild zu erzeugen, bei dem am Ort eines Helligkeitsübergangs im erfassten Bild entsprechende Bildpunkte im ersten bearbeiteten Bild mit einem Graustufenwert vorgesehen werden, der von der Schärfe des Helligkeitsübergangs im erfassten Bild abhängt.
  10. Verfahren nach Anspruch 9, bei dem der Schritt des Festlegens von Segmenten in dem erfassten Bild eine Binärisierungsbearbeitung (SA) des ersten bearbeiteten Bildes umfasst, um daraus ein zweites bearbeitetes Bild zu erzeugen, bei dem entsprechenden Bildpunkten, deren Graustufenwert einen vorbestimmten Schwellenwert übersteigt, ein "weiß"-Wert zugeordnet wird, während den übrigen Bildpunkten ein "schwarz"-Wert zugeordnet wird.
  11. Verfahren nach Anspruch 10, bei dem der Schritt des Festlegens von Segmenten in dem erfassten Bild ein Einbeschreiben (SA) eines Bereichs des zweiten bearbeiteten Bilds mit zusammenhängenden Bildpunkten, denen ein "weiß"-Wert zugeordnet ist, in eine geometrische Form, insbesondere ein Rechteck, als festgelegtes Segment umfasst.
  12. Verfahren nach Anspruch 10 oder 11, bei dem bestimmte Bereiche des zweiten bearbeiteten Bilds mit zusammenhängenden "weißen" Bildpunkten auf Grund von bestimmten Parametern bezüglich Größe und/oder Form der Bereiche oder der diese einbeschreibenden geometrischen Form verworfen werden.
  13. Verfahren nach einem der Ansprüche 7 bis 12, bei dem in dem Schritt des Überprüfens der positionsmäßigen Beziehung in einem ersten Untersuchungsschritt jedes der festgelegten Segmente dahingehend untersucht wird, ob zu diesem ein zweites (S2) festgelegtes Segment existiert, das im Wesentlichen horizontal zu dem untersuchten festgelegten Segment (S1) liegt, wobei bei Vorhandensein des zweiten festgelegten Segments nach einem dritten festgelegten Segment (S4) gesucht wird, das sich unterhalb des untersuchten und des zweiten Segments befindet, und für das gilt, dass ein Abstand (b) von dem untersuchten zu dem zweiten festgelegten Segment, und ein Abstand (a) einer Verbindungsstrecke zwischen dem untersuchten und dem zweiten festgelegten Segment zu dem dritten festgelegten Segment ein erstes vorbestimmtes Verhältnis aufweist.
  14. Verfahren nach einem der Ansprüche 6 bis 13, bei dem in dem Schritt des Überprüfens der positionsmäßigen Beziehung in einem zweiten Untersuchungsschritt jedes der festgelegten Segmente dahingehend untersucht wird, ob zu diesem ein viertes festgelegtes Segment (S7) existiert, das sich unterhalb dem untersuchten festgelegten Segment (S6) befindet, und für das gilt, dass die horizontale Länge (b') des untersuchten festgelegten Segments und der Abstand (a') des vierten festgelegten Segments zum untersuchten festgelegten Segment ein zweites vorbestimmtes Verhältnis aufweisen.
  15. Verfahre nach Anspruch 13 oder 14, bei dem das erste/oder das zweite vorbestimmte Verhältnis einen Wert von 1:1 bis 1:1,7, insbesondere von 1:1,2 bis 1:1,5 aufweist.
  16. Verfahren nach einem der Ansprüche 13 bis 15, das ferner einen Schritt eines Extrahierens biometrischer Merkmale bezüglich einer Mundpartie aus einem Analysebereich um das gefundene dritte (S4) oder vierte (S7) festgelegte Segment umfasst.
  17. Verfahren nach Anspruch 16, bei dem in dem erfassten Bild in einem Analysebereich (AB), der sich an der Position des dritten oder vierten festgelegten Segments befindet, und der das jeweilige Segment umfasst, Hell-Dunkel- und/oder Dunkel-Hell-Helligkeitsübergänge bestimmt werden, um das Vorhandensein einer Oberlippe und Unterlippe einer Mundpartie abzuleiten.
  18. Verfahren nach Anspruch 16 oder 17, bei dem die als Oberlippe und Unterlippe erkannten Abschnitte bezüglich ihrer geometrischen Eigenschaften, insbesondere Länge und Krümmung, untersucht werden, um daraus Viseme abzuleiten.
  19. Verfahren nach einem der Ansprüche 16 bis 18, bei dem ein weiteres Bild der Szene erfasst wird, wobei am Ort des Analysebereichs (AB) ein um einen bestimmten Faktor erweiterter Analysebereich (EAB) festgelegt wird, aus dem wiederum biometrische Merkmale bezüglich einer Mundpartie extrahiert werden.
  20. Programmprodukt für eine Datenverarbeitungsanordnung, das Software-Code-Abschnitte enthält, mit denen ein Verfahren nach zumindest einem der Ansprüche 1 bis 19 auf einer Datenverarbeitungsanordnung ausgeführt werden kann.
  21. Kommunikationsanordnung zum Übertragen von Bilddaten mit folgenden Merkmalen: einem ersten Kommunikationsgerät (MFG21), das dafür ausgelegt ist, in einem ersten Bild einer Szene die Position eines Gesichts einer Person zu bestimmen, das Gesicht in ein Gesichtsrahmenobjekt einzubeschreiben, den Bildbereich, der von dem Gesichtsrahmenobjekt umfasst wird, auszuschneiden, um so ein zweites Bild zu erhalten, das zweite Bild zu kodieren und zu einem zweiten Kommunikationsgerät zu übertragen; ein zweites Kommunikationsgerät (MFG22), das dafür ausgelegt ist, das kodierte zweite Bild zu empfangen und zu dekodieren.
  22. Kommunikationsanordnung nach Anspruch 21, die ferner ein Kommunikationsnetz (KN) aufweist, das in Funkverbindung mit dem ersten und dem zweiten Kommunikationsgerät steht und dafür ausgelegt ist, das kodierte zweite Bild von dem ersten Kommunikationsgerät zu dem zweiten Kommunikationsgerät zu übertragen.
DE2003121498 2003-05-13 2003-05-13 Verfahren zum Übertragen von Bilddaten Ceased DE10321498A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE2003121498 DE10321498A1 (de) 2003-05-13 2003-05-13 Verfahren zum Übertragen von Bilddaten

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2003121498 DE10321498A1 (de) 2003-05-13 2003-05-13 Verfahren zum Übertragen von Bilddaten

Publications (1)

Publication Number Publication Date
DE10321498A1 true DE10321498A1 (de) 2004-12-02

Family

ID=33394539

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2003121498 Ceased DE10321498A1 (de) 2003-05-13 2003-05-13 Verfahren zum Übertragen von Bilddaten

Country Status (1)

Country Link
DE (1) DE10321498A1 (de)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0635981A1 (de) * 1993-07-19 1995-01-25 Sharp Kabushiki Kaisha Verfahren und Vorrichtung zum Herausziehen bestimmter Gebiete
EP0684736A2 (de) * 1994-05-27 1995-11-29 AT&T Corp. Modellunterstützte Bildfolgekodierung mit geringer Bitrate
US5596362A (en) * 1994-04-06 1997-01-21 Lucent Technologies Inc. Low bit rate audio-visual communication having improved face and lip region detection
US5631975A (en) * 1992-04-14 1997-05-20 Koninkl Philips Electronics Nv Image segmentation device
EP1146743A1 (de) * 1999-12-23 2001-10-17 Mitsubishi Electric Information Technology Centre Europe B.V. Verfahren und Vorrichtung zur Übertragung eines Videobildes
EP1158786A2 (de) * 2000-05-24 2001-11-28 Sony Corporation Übertragung des interessanten Bereichs eines Bildes
US20020113862A1 (en) * 2000-11-10 2002-08-22 Center Julian L. Videoconferencing method with tracking of face and dynamic bandwidth allocation
WO2002102084A1 (en) * 2001-06-12 2002-12-19 Koninklijke Philips Electronics N.V. Video communication system using model-based coding and prioritization techniques

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5631975A (en) * 1992-04-14 1997-05-20 Koninkl Philips Electronics Nv Image segmentation device
EP0635981A1 (de) * 1993-07-19 1995-01-25 Sharp Kabushiki Kaisha Verfahren und Vorrichtung zum Herausziehen bestimmter Gebiete
US5596362A (en) * 1994-04-06 1997-01-21 Lucent Technologies Inc. Low bit rate audio-visual communication having improved face and lip region detection
EP0684736A2 (de) * 1994-05-27 1995-11-29 AT&T Corp. Modellunterstützte Bildfolgekodierung mit geringer Bitrate
EP1146743A1 (de) * 1999-12-23 2001-10-17 Mitsubishi Electric Information Technology Centre Europe B.V. Verfahren und Vorrichtung zur Übertragung eines Videobildes
EP1158786A2 (de) * 2000-05-24 2001-11-28 Sony Corporation Übertragung des interessanten Bereichs eines Bildes
US20020113862A1 (en) * 2000-11-10 2002-08-22 Center Julian L. Videoconferencing method with tracking of face and dynamic bandwidth allocation
WO2002102084A1 (en) * 2001-06-12 2002-12-19 Koninklijke Philips Electronics N.V. Video communication system using model-based coding and prioritization techniques

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
BRUNELLI,R.,et.al.: Face Recognition: Features versus Templates. In: IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.15,Nr.10,Okt.1993,S.1042-1052 *
BRUNELLI,R.,et.al.: Face Recognition: Features versus Templates. In: IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.15,Nr.10,Okt.1993,S.1042-1052;
FRAGA BOBIS,C.,et.al.: Face Recognition Using Binary Threshol- ding for Features Extraction. In: International Conference on Image Analysis and Processing,1999,Proceedings,S.1077-1080 *
FRAGA BOBIS,C.,et.al.: Face Recognition Using Binary Threshol- ding for Features Extraction. In: International Conference on Image Analysis and Processing,1999,Proceedings,S.1077-1080;
HARA,F.,et.al.: Automatic Feature Extraction of Facial Organs and Contour. In: 6th IEEE International Workshop on Robot and Human Communication. IEEE, 1997,Proceedings,S.386-391 *
HARA,F.,et.al.: Automatic Feature Extraction of Facial Organs and Contour. In: 6th IEEE International Workshop on Robot and Human Communication. IEEE, 1997,Proceedings,S.386-391;
KOBAYASHI,H.,et.al.: Real-Time Recognigion of Six Basic Facial Expressions. In: 4th IEEE International Workshop on Robot and Human Communication, IEEE, 1995, Proceedings, S.179-186 *
KOBAYASHI,H.,et.al.: Real-Time Recognigion of Six Basic Facial Expressions. In: 4th IEEE International Workshop on Robot and Human Communication, IEEE, 1995, Proceedings, S.179-186;
Proceedings,Vol2,S.1251-1254;
VEZJAK,M.,et.al.: System for Description and Identification of Individuals. In: 6th Mediterranean Electrotechnical Conference, 1991, *

Similar Documents

Publication Publication Date Title
EP1119822B1 (de) Verfahren und system zur personenerkennung mit modellbasierter gesichtsfindung
DE69837233T2 (de) Verfahren und Gerät zur Bestimmung der Augenposition in einem Bild
DE112013001461B4 (de) Modifizieren des Aussehens eines Teilnehmers während einer Videokonferenz
DE69628282T2 (de) Verfahren zur kompression mehrerer videobilder
DE69938173T2 (de) Automatische voreingestellte teilnehmerpositionsbestimmung für videokonferenzsysteme
DE60108373T2 (de) Verfahren zur Detektion von Emotionen in Sprachsignalen unter Verwendung von Sprecheridentifikation
EP1413972A1 (de) Prüfung von Bildaufnahmen von Personen
DE602004002837T2 (de) Objekterkennung
EP1288858A1 (de) Verfahren zum automatischen Erkennen von rote-Augen-Defekten in fotographischen Bilddaten
EP1293933A1 (de) Verfahren zum automatischen Erkennen von rote-Augen-Defekten in fotografischen Bilddaten
DE19634768A1 (de) Vorrichtung und Verfahren zur Erfassung eines Gesichts in einem Videobild
DE102013213153A1 (de) Bildübermittlungsvorrichtung, Bildübermittlungsverfahren, Bildübermittlungsprogramm, Bilderkennungs- und authentifizierungssystem und Bildempfangsvorrichtung
CN110889334A (zh) 人员闯入识别方法及装置
DE102016122649B3 (de) Biometrisches Verfahren
DE112020006846T5 (de) Aufzugvorrichtung und Aufzugregelvorrichtung
DE112008000020T5 (de) Vorrichtung und Programm zur Korrektur der Irisfarbe
DE212020000467U1 (de) Vorrichtung, um ein Video mit einer computermodifizierten Abbildung eines erwünschten Gesichts einer Person bereitzustellen
DE102005014772A1 (de) Verfahren zur Darstellung eines einem Kommunikationsteilnehmer zugeordneten Bildes an einem Kommunikationsendgerät
DE10313019B4 (de) Einhandbedienung von Endgeräten per Gestikerkennung
AT509032B1 (de) Verfahren und system zur videoqualitätsschätzung
DE10221391B4 (de) Verfahren zum Analysieren einer Szene
DE102007010662A1 (de) Verfahren und Videokommunikationssystem zur Gestik-basierten Echtzeit-Steuerung eines Avatars
DE10321498A1 (de) Verfahren zum Übertragen von Bilddaten
DE10321501A1 (de) Verfahren zum Einfügen eines Informationsfelds in ein Bild
DE10321499A1 (de) Verfahren zum Umwandeln eines Bilds einer Szene

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8110 Request for examination paragraph 44
8127 New person/name/address of the applicant

Owner name: GIGASET COMMUNICATIONS GMBH, 81379 MUENCHEN, DE

R016 Response to examination communication
R016 Response to examination communication
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final
R003 Refusal decision now final

Effective date: 20140731