-
Die
vorliegende Erfindung betrifft ein Verfahren zum Umwandeln eines
Bilds einer Szene, insbesondere in eines Bild, das ein menschliches
Gesicht aufweist, sowie eine Datenverarbeitungsanordnung zum Ausführen des
Verfahrens.
-
In
mobilen Endgeräten
mit Multimedia-Funktionalität
sind herkömmlicherweise
Kameras vorgesehen, die Bilder erfassen bzw. bereitstellen, welche ein
Bildformat aufweisen, das größer als
ein Bildformat ist, das zum Kodieren bzw. Verschlüsseln oder zum
Anzeigen auf einem Display verwendet wird. Somit muss ein Herunterskalieren
des Bildes, d.h. ein Verringern der Größe bzw. Auflösung des
Bildes durchgeführt
werden (beispielsweise von einem VGA(Video Graphics Array)/CIF(Common
Intermediate Format)-Format zu einem QCIF(Quarter Common Intermediate
Format)-Format). Dies verursacht jedoch oft einen Qualitätsverlust,
der von dem Herunterskalierungsalgorithmus abhängt, welcher natürlich die
begrenzte Leistungsfähigkeit
kleiner mobiler Endgeräte
berücksichtigt.
-
Auf
der anderen Seite ist in einem Bild das Gesicht einer Person, insbesondere
bei Bild- bzw. Videoübertragungsverfahren
mit Bezug auf den MMS (Multimedia Messaging Service)-Dienst oder einer Videotelefonie-Anwendung
in Kommunikationssystemen bzw. Mobilfunkkommunikationssystemen,
das wesentliche Objekt. Ist die Entfernung von der Person zur Kamera
oder beispielsweise einem eine Kamera aufweisenden Mobiltelefon
jedoch groß,
so wird das Gesicht der Person relativ klein im Bild erscheinen
und schlecht sichtbar sein. Dieser Effekt verstärkt sich weiter, wenn, wie
oben bereits erwähnt, ein
Bild zur Übertragung
an weitere Mobiltelefone oder zur Anzeige auf einem (den Abmessungen
eines Mobiltelefons entsprechend kleinen) Display herunterskaliert
wird.
-
Somit
ist es die Aufgabe der vorliegenden Erfindung eine Möglichkeit
zu schaffen, ein Herunterskalieren eines Bildes einer Szene durchzuführen, bei
dem die wesentlichen Bildbestandteile bestmöglich sichtbar bleiben.
-
Diese
Aufgabe wird durch ein Verfahren zum Umwandeln eines Bildformats
gemäß Anspruch
1, durch ein Computerprogramm für
eine Datenverarbeitungsanordnung gemäß Anspruch 20 sowie durch eine
Datenverarbeitungsanordnung gemäß Anspruch
21 gelöst.
Vorteilhafte Ausgestaltungen sind Gegenstand der Unteransprüche.
-
Ein
Verfahren zum Umwandeln eines ersten Bilds einer Szene in ein zweites
Bild mit einer geringeren Größe umfasst
dabei folgende Schritte. Zunächst
wird die Position eines Gesichts in dem ersten Bild mit der ersten
Größe, das
beispielsweise von einer Kamera erfasst worden ist, bestimmt. Anschließend wird
das Gesicht in ein Gesichtsrahmenobjekt, das der Größe des zweiten
Bilds entspricht, einbeschrieben. Der Bildbereich, der von dem Gesichtsrahmenobjekt
umfasst wird, wird dann ausgeschnitten, um so das zweite Bild mit
der gewünschten
zweiten Größe zu erhalten.
Somit ist es auf einfache Weise möglich, ein automatisches Herunterskalieren
eines Bildes bei gleichzeitigem Zoomen auf den wesentlich Bildbestandteil,
nämlich
das Gesicht einer Person, zu bewirken. Das wiederum bedeutet, dass der
wesentliche Bildbestandteil trotz des Herunterskalierens gut erkennbar
bleibt.
-
Gemäß einer
vorteilhaften Ausgestaltung wird in dem Fall, dass die Größe des Gesichts
größer als
die Größe des zweiten
Bilds ist, das Gesicht in ein zweites Gesichtsrahmenobjekt (dessen
Größe größer als
die des zweiten Bildes bzw. des ersten Gesichtsrahmenobjekt ist)
einbeschrieben und der von dem zweiten Gesichtsrahmenobjekt umfasste
Bildbereich des ersten Bilds auf die Größe des zweiten Bildes herunterskaliert,
um so das zweite Gesichtsrahmenobjekt in das erste Gesichtsrahmenobjekt
mit der gewünschten
Größe des zweiten
Bilds umzu wandeln. Somit ist es auch noch möglich, bei einem beträchtlichen
Unterschied in der Größe des ersten
(erfassten) Bildes und des (gewünschten)
zweiten Bildes ein Herunterskalieren zu erreichen, wobei das Gesicht
in der Szene größt möglichst
noch in dem zweiten Bild vorgesehen ist.
-
Neben
der Möglichkeit,
die Bildgröße umzuwandeln
besteht ferner die Möglichkeit
das Format, d.h. das geometrische Längen-Breiten-Verhältnis und/oder die Auflösung, bei
der Umwandlung vom ersten in das zweite Bild umzuwandeln. Beispielsweise
kann das erste Bild ein CIF- oder VGA-Format und das zweite Bild
ein QCIF-Format aufweisen.
-
Ein
Verfahren zum Analysieren einer Szene (einer Anordnung von Sachen
bzw. Gegenständen und
evtl. von Lebewesen, insbesondere Menschen), von der ein Bild erfasst
worden ist, um das Vorhandensein und die Position eines Gesichts
zu bestimmen, umfasst zunächst
ein Festlegen von Segmenten in dem erfassten Bild, die helligkeitsspezifische Merkmale
aufweisen. Wie es unten näher
erläutert werden
wird, können
die helligkeitsspezifischen Merkmale beispielsweise Hell-Dunkel-Übergänge und/oder Dunkel-Hell-Übergänge umfassen.
Anschließend
wird eine positionsmäßige Beziehung
der festgelegten Segmente zueinander überprüft, wobei ein Vorhandensein
eines (menschlichen) Gesichts, insbesondere an einer bestimmten
Position in dem erfassten Bild, abgeleitet wird, wenn eine Auswahl von
festgelegten Segmenten eine bestimmte positionsmäßige Beziehung aufweist. Das
bedeutet, durch das gerade beschriebene Verfahren kann nur durch Analyse
bestimmter Bereiche des erfassten Bildes, nämlich der Segmente mit helligkeitsspezifischen Merkmalen,
genauer gesagt durch Überprüfen der positionsmäßigen Beziehung
der festgelegten Segmente auf das Vorhandensein eines Gesichts,
insbesondere menschlichen Gesichts, geschlossen werden. Somit wird
zur Durchführung
des Verfahrens nur eine geringe Rechenleistung benötigt, wodurch
eine Ressourcenverringerung bzw. Ressourcenoptimierung einer Datenverarbeitungsanordnung
zum Durchführen
des Verfahrens ermöglicht
wird.
-
Gemäß einer
vorteilhaften Ausgestaltung handelt es sich bei dem erfassten Bild
um ein von einer elektronischen Kamera erfassten Bild, das elektronisch
verarbeitbar ist. Insbesondere ist das erfasste Bild aus einzelnen
Bildpunkten zusammengesetzt, welchen jeweilige Graustufenwerte zugeordnet
sind.
-
Gemäß einer
weiteren vorteilhaften Ausgestaltung werden Segmente in dem erfassten
Bild festgelegt, bei denen die helligkeitsspezifischen Merkmale
scharfe bzw. abrupte Helligkeitsübergänge, beispielsweise
von Dunkel nach Hell oder von Hell nach Dunkel aufweisen. Derartige
(scharfe) Helligkeitsübergänge finden
sich beispielsweise in einem Gesicht eines Menschen, insbesondere
beim Übergang von
der Stirn zu den Augenbrauen oder (bei Menschen mit heller Haarfarbe)
beim Übergang
von der Stirn in den Schatten der Augenhöhlen. Derartige (scharfe) Helligkeitsübergänge finden
sich jedoch auch beim Übergang
von dem Oberlippenbereich bzw. Lippenbereich zur Mundöffnung oder
von der Mundöffnung
zum Lippenbereich der Unterlippe bzw. zum Unterlippenbereich. Ein
weiterer Helligkeitsübergang
stellt sich zwischen der Unterlippe und dem Kinnbereich, genauer
gesagt als Schattenbereich (je nach Lichtverhältnis bzw. Lichteinfall) basierend
auf einer leichten Vorwölbung
der Unterlippe, ein. Wie es unten ausführlicher erläutert werden
wird, ist es möglich,
anhand dieser Helligkeitsübergänge bzw.
anhand der positionsmäßigen Beziehung
einer Auswahl der Helligkeitsübergänge auf
das Vorhandensein eines menschlichen Gesichts bzw. insbesondere
auf die Position einer Mundpartie zu schließen.
-
Gemäß einer
vorteilhaften Ausgestaltung umfasst der Schritt des Festlegens von
Segmenten in dem erfassten Bild eine Bearbeitung des Bilds mittels eines
Gradientenfilters, insbesondere eines horizontalen Gradientenfilters,
um insbesondere horizontale (scharfe) Helligkeitsübergänge, wie
die an den Augenbrauen, an den Augen, oder an dem Mund sichtbar
zu machen. Durch die Bearbeitung mittels des Gradientenfilters wird
ein erstes bearbeitetes Bild erzeugt, bei dem am Ort eines Helligkeitsübergangs
im erfassten Bild entsprechende Bildpunkte im ersten bearbeiteten
Bild mit einem Graustufenwert vorgesehen werden, die von der Schärfe des
Helligkeitsübergangs
im erfassten Bild abhängen.
Das bedeutet, bei einem Helligkeitsübergang innerhalb weniger Bildpunkte
von einem niedrigen Helligkeitswert (niedriger Graustufenwert) zu
einem hohen Helligkeitswert (hoher Graustufenwert) wird in dem ersten
bearbeiteten Bild eine entsprechende Information eingetragen. Wird
davon ausgegangen, dass das erste bearbeitete Bild in Form eines
Graustufenbildes dargestellt wird, so können beispielsweise bei Verwendung
eines positiven horizontalen Gradientenfilters, der von oben nach
unten auf das erfasste Bild angewendet wird, Bereiche des Bilds,
in denen keine Helligkeitsübergänge vorhanden
sind, in mittleren Graustufenwerten dargestellt werden, während Hell-Dunkel-Übergänge (von oben nach unten) je
nach Schärfe
der Übergänge einen
dementsprechend höheren Grauwert
als den mittleren Grauwert erhalten und Dunkel-Hell-Übergänge (von
oben nach unten) einen entsprechend niedrigeren Grauwert in Abhängigkeit der
Schärfe
des jeweiligen Übergangs
erhalten.
-
Gemäß einer
weiteren vorteilhaften Ausgestaltung kann der Schritt des Festlegen
von Segmenten in dem erfassten Bild eine Binärisierungsbearbeitung des ersten
bearbeiteten Bildes umfassen. Hierbei kann ein zweites bearbeitetes
Bild erzeugt werden, bei den entsprechenden Bildpunkten, deren Graustufenwert
einen ersten vorbestimmten Schwellenwert (welcher in Abhängigkeit
der Helligkeit des erfassten Bildes gewählt wird) übersteigt, ein binärer "1"-Wert zugeordnet wird, während den übrigen Bildpunkten
ein binärer "0"-Wert zugeordnet wird. Anders ausgedrückt, kann
den Bildpunkten, deren Graustufenwert den vorbestimmten ersten Schwellenwert übersteigt,
der Wert "weiß" zugeordnet werden,
während
den übrigen
Bildpunkten der Wert "schwarz" zugeordnet wird.
Somit sind in dem zweiten be arbeiteten Bild nur noch Helligkeitsübergänge mit
einer bestimmten ausgeprägten
Schärfe
zu erkennen.
-
Zusammenhängende Bildpunkte,
denen ein Weiß-Wert
zugeordnet ist, können
als eine Einheit von Bildpunkten gesehen werden, die zur folgenden Auswertung
in eine geometrische Form, wie beispielsweise ein Rechteck, eingeschrieben
werden. Diese geometrische Form kann dann als ein festgelegtes Segment
definiert werden. Da es notwendig ist, aus der in dem erfassten
Bild erfassten Szene biometrische Merkmale, insbesondere ein Gesicht
eines Menschen betreffend, herauszufiltern bzw. zu extrahieren,
um auf das Vorhandensein eines menschlichen Gesichts schließen zu können, ist
es vorteilhaft, bestimmte Bereiche bzw. Strukturen in dem erfassten
Bild, die beispielsweise auf Grund ihrer Größe oder Form keine biometrischen
Merkmale bezüglich
eines Gesichts aufweisen, zu verwerfen. Gemäß einer vorteilhaften Ausgestaltung
werden dabei bestimmte Bereiche des zweiten bearbeiteten Bildes mit
zusammenhängenden
Bildpunkten auf Grund von vorbestimmten Parameteren bezüglich Größe und/oder
Form der Bereich oder der diese einbeschreibenden geometrischen
Form verworfen und insbesondere werden die den Bereichen zugeordneten
Bildpunkte auf einen Schwarz-Wert gesetzt. Ein Kriterium bezüglich der
Form von Bereichen zusammenhängender
Bildpunkte mit einem Weiß-Wert kann
beispielsweise sein, dass die Höhe
dieses Bereichs bzw. dieser Struktur einen zu großen Wert
im Gegensatz zur Breite der Struktur aufweist. Das bedeutet, das
Verhältnis
aus Höhe
zu Breite ist zu groß. Eine
derartige Festlegung wird deutlich, wenn – wie oben bereits erwähnt – Segmente
anhand helligkeitsspezifischer Merkmale von horizontal verlaufenden Augenbrauen
oder horizontal verlaufender Lippen- bzw. Mundpartien festgelegt
werden. Das bedeutet wiederum, dass das zuvor erfasste Bild mit
einer großen
Anzahl von Bildpunkten auf nur noch eine geringe Anzahl von festgelegten
Segmenten zurückgeführt wird,
aus deren positionsmäßiger Beziehung zueinander
nun das Vorhandensein eines Gesichts abgeleitet werden kann.
-
Gemäß einer
vorteilhaften Ausgestaltung wird dabei in dem Schritt des Überprüfen der
positionsmäßigen Beziehung
in einem ersten Untersuchungsschritt (entsprechend einem ersten
Lippendetektionsmechanismus) jedes der festgelegten Segmente dahingehend
untersucht, ob zu einem zu untersuchenden Segment ein zweites festgelegtes Segment
existiert, das auf einer horizontalen Linie bzw. einer im Wesentlichen
horizontal verlaufenden Linie zu dem gerade untersuchten festgelegten
Segment liegt. Ausgehend von einem erfassten Bild, bestehend aus
einer Mehrzahl von Bildpunkten muss das zweite Segment nicht unbedingt
auf einer der von dem zu untersuchenden Segment umfassten wagrechten
Linie an Bildpunkten liegen, es kann auch um einen vorbestimmten
kleinen Betrag an Bildpunkten höher
oder tiefer bezüglich
der wagrechten oder horizontalen Line liegen. Wird ein zweites festgelegtes
horizontales Segmente gefunden, so wird nach einem dritten festgelegten
Segment gesucht, das sich unterhalb des untersuchten und des zweiten festgelegten
Segments befindet und für
das gilt, dass ein Abstand von dem untersuchten zu dem zweiten festgelegten
Segment und ein Abstand einer Verbindungsstrecke zwischen dem untersuchten
und dem zweiten festgelegten Segment zu dem dritten festgelegten
Segment ein erstes vorbestimmtes Verhältnis aufweist. Insbesondere
kann eine Normale zu der Verbindungsstrecke zwischen dem untersuchten
und dem zweiten festgelegten Segment definiert werden, wobei der
Abstand von dem dritten Segment (entlang der Normalen) zu der Verbindungsstrecke
zwischen dem untersuchten und dem zweiten festgelegten Segment in
das erste vorbestimmte Verhältnis
eingeht. Der Abstand zwischen den untersuchten und dem zweiten Segment
kann derart definiert werden, dass der Abstand von einem jeweiligen
Mittelpunkt der festgelegten Segmente verwendet wird. Insbesondere
bei der Verwendung von Segmenten mit der geometrischen Form eines
Rechtecks kann ein Mittelpunkt leicht bestimmt werden. Durch den
gerade beschriebenen ersten Untersuchungsschritt kann somit auf
das Vorhandensein eines Gesichts geschlossen werden, indem die positionsmäßige Beziehung zwischen
drei festgelegten Segmenten ermittelt wird. Hierbei wird davon ausgegangen,
dass das untersuchte und das zweite festgelegte Segment einen jeweiligen
Augenbrauenabschnitt im Gesicht eines Menschen darstellt, der normalerweise
einen markanten bzw. scharfen Hell-Dunkel-Helligkeitsübergang von oben nach unten
aufweist und somit im zweiten bearbeiteten Bild gut erkennbar ist.
Das dritte festgelegte Segment stellt ein Segment einer Mundpartie
bzw. den zwischen Oberlippe und Unterlippe Schatten bildenden Grenzbereich
dar. Es hat sich erwiesen, dass zur Bestimmung eines menschlichen Gesichts
das erste vorbestimmte Verhältnis
zwischen Abstand von untersuchten und zweiten festgelegten Segmenten
zu dem Abstand der Verbindungsstrecke der beiden Segmente zu dem
dritten festgelegten Segment mit einem Wert von 1:1 bis 1:1,7, insbesondere
von 1:1,2 bis 1:1,5 vorteilhaft ist. Neben der Möglichkeit, Augenbrauen als
markante Segmente mit helligkeitsspezifischen Merkmalen zu verwenden,
ist es auch möglich,
an Stelle der Augenbrauen Schatten bildende Bereiche der Augenhöhlen bzw.
die Augen oder die Iris selbst zu verwenden.
-
Gemäß einer
weiteren vorteilhaften Ausgestaltung wird in dem Schritt des Überprüfens der
positionsmäßigen Beziehung
in einem zweiten Untersuchungsschritt (entsprechend einem zweiten
Lippendetektionsmechanismus) jedes der festgelegten Segmente dahingehend
untersucht, ob zu diesem Segment ein viertes festgelegtes Segment
existiert, das sich unterhalb, insbesondere entlang einer Vertikalen,
dem untersuchten festgelegten Segment befindet und für das gilt,
dass die horizontale Länge
des untersuchten festgelegten Segments und der Abstand des vierten
festgelegten Segments zum untersuchen festgelegten Segments ein
zweites vorbestimmtes Verhältnis
aufweisen. Dieser zweite Untersuchungsschritt geht dabei davon aus,
dass insbesondere bei Personen, die eine Brille oder Sonnenbrille
tragen, die einzelnen Augenbrauen nicht erkennbar sind, sondern
dass auf Grund der starken Konturen der Brillen lediglich ein Segment
bzw. eine Struktur erkennbar ist, die geometrisch der Länge der beiden
Augenbrauen zusammen ent spricht. Somit steht auch die Länge dieses
die beiden Augenbrauen umfassenden Segments wieder in einem bestimmten Verhältnis zur
Entfernung des Mundes im Gesicht des Benutzers. Werden somit zwei
festgelegte Segmente erkannt, bei denen die Länge des ersten Segments zum
Abstand des zweiten Segments ein zweites vorbestimmtes Verhältnis aufweist,
so kann auch gemäß dem zweiten
Untersuchungsschritt auf das Vorhandensein eines menschlichen Gesichts
geschlossen werden. Als gültiger
Bereich für
das zweite vorbestimmte Verhältnis
kann wieder ein Wert von 1:1 bis 1:1,7, aber insbesondere von 1:1,2
bis 1:1,5 angenommen werden.
-
Gemäß einer
vorteilhaften Ausgestaltung wird in dem Schritt des Überprüfens der
positionsmäßigen Beziehung
zunächst
der erste Untersuchungsschritt durchgeführt, um insbesondere nach Gesichtern
von Menschen zu suchen, die keine Brillenträger sind. Zeigt der erste Untersuchungsschritt
kein Ergebnis, bei dem zu den jeweiligen untersuchten Segmenten
kein zweites und drittes Segment gefunden worden ist, so wird im
Folgenden der zweite Untersuchungsschritt durchgeführt. Es
ist jedoch auch möglich,
zunächst
den zweiten und dann den ersten Untersuchungsschritt durchzuführen.
-
Bei
dem bisher beschriebenen Verfahren bzw. den vorteilhaften Ausgestaltungen
hiervon wird insbesondere in dem ersten Untersuchungsschritt die
positionsmäßige Beziehung
dreier festgelegter Segmente zueinander bzw. ein erstes vorbestimmtes Verhältnis der
Abstände
der Segmente zueinander und wird bei dem zweiten Untersuchungsschritt
die positionsmäßige Beziehung
von (zwei) Segmenten in Abhängigkeit
der Größe und/oder
Form, insbesondere der (horizontalen) Länge, des ersten Segments als Kriterium
zum Ableiten eines Vorhandenseins eines Gesichts in dem erfassten
Bild einer Szene verwendet werden. Zur Verbesserung des Verfahrens,
d. h. zur Erhöhung
der Wahrscheinlichkeit, dass es sich tatsächlich um ein Gesicht handelt,
kann gemäß einer
weiteren vorteilhaften Ausgestaltung in einem weiteren Verfahrensschritt
ein Extrahieren biometri scher Merkmale bezüglich der Mundpartie oder Lippenpartie
aus einem Analysebereich um ein gefundenes drittes oder viertes
festgelegtes Segment durchgeführt
werden. Das bedeutet, es sollen in diesem zusätzlichen Schritt weitere Untersuchungen durchgeführt werden,
ob das einen Mundbereich repräsentierende
dritte oder vierte festgelegte Segment tatsächlich einen Mundbereich bzw.
eine Mundpartie repräsentiert.
Dabei können
in dem erfassten Bild in einem Bereich, der sich an der Position
des dritten oder des vierten festgelegten Segments befindet und
das jeweilige Segment umfasst, Hell-Dunkel- und Dunkel-Hell-Helligkeitsübergänge bestimmt
werden, um das Vorhandensein einer Oberlippe und Unterlippe einer
Mundpartie abzuleiten. Vorteilhafter Weise wird dabei der Analysebereich
des erfassten Bildes, der Bereich mit der vermuteten Mundpartie, einer
Bearbeitung mit einem horizontal orientierten Gradientenfilter unterzogen,
um ein drittes bearbeitetes Bild zu erhalten. Das dritte bearbeitete
Bild, von oben nach unten betrachtet, kann dann entsprechend dem
ersten bearbeiteten Bild eine scharfen Hell-Dunkel-Übergang
vom Oberlippenbereich zum "Zwischenlippenbereich" bzw. zum Mundöffnungsbereich
darstellen, wobei anhand dieses Übergangs
auf die Form der Oberlippe geschlossen werden kann. Diese ermittelte
Form kann einem ersten Prüfschritt unterzogen
werden, der anhand der Form der Oberlippenlinie feststellen soll,
ob es sich tatsächlich
um eine Oberlippe oder irgendeine andere Struktur handelt. Weist
die Oberlippe für
sie spezifische geometrische Eigenschaften auf, wie beispielsweise
eine bestimmte (horizontale) Länge
oder eine bzw. mehrere spezifische Krümmungen, so kann zunächst auf
das tatsächliche
Vorhandensein einer Mundpartie und somit auch auf das Vorhandensein
eines Gesichts eines Menschen geschlossen werden. Somit kann das oben
beschriebene Verfahren einschließlich dessen vorteilhafter
Ausgestaltungen, bei dem bzw. denen anhand der positionsmäßigen Beziehung
verschiedener festgelegter Segmente auf das Vorhandensein eines
Gesichts geschlossen wird, durch eine Merkmalsextraktion, in diesem
Fall der Extraktion geometrischer Eigenschaften der Oberlippe in
dem ersten Prüfschritt,
verbessert werden. Das bedeutet, dass nach diesem ersten Abschnitt
der Merkmalsextraktion im Rahmen des ersten Prüfschritts schon die Wahrscheinlichkeit
erhöht
werden kann, dass es sich bei dem dritten oder vierten festgelegten
Segment bzw. bei dem Analysebereich um einen Bildbereich handelt,
in dem sich eine Mundpartie eines Gesichts befindet.
-
Erfüllen die
bestimmten geometrischen Eigenschaften (beispielsweise bezüglich Länge bzw. Krümmung) die
für eine
Oberlippe spezifischen Kriterien, so kann die Merkmalsextraktion
in einen zweiten Extraktionsabschnitt bzw. einen zweiten Prüfschritt übergehen,
in dem nun eine Unterlippe bzw. Unterlippenlinie extrahiert werden
soll. Eine Unterlippe kann beispielsweise mittels eines vertikalen
Such-Algorithmus erkannt bzw. extrahiert werden, bei dem im Analysebereich
zunächst
die Graustufenwerte der Oberlippe ermittelt werden und dann entsprechende Graustufenwerte
in einem Abschnitt gesucht werden, der sich in vertikaler Richtung
unterhalb dem Bereich der Oberlippe befindet. Auf diese Weise ist
es möglich,
sehr helle Bereiche, wie beispielsweise die Zähne, sowie sehr dunkle Bereiche,
wie beispielsweise den Rachenbereich, zu überspringen und einen bezüglich der
Helligkeit der Oberlippe als Unterlippe zu identifizieren. Eine
weitere Möglichkeit,
die Unterlippe zu extrahieren, beruht auf der Tatsache, dass bei entsprechend
großer
Wahl des Analysebereichs, bei der ein Teil des Kinnbereichs mit
enthalten ist, insbesondere in dem dritten bearbeiteten Bild von
unten nach oben betrachtet, ein dunkler Bereich (Schattenbereich)
unterhalb der Unterlippe erkennbar ist, der darauf beruht, dass
die Unterlippe normaler Weise bezüglich des Gesichts um einen
kleinen Betrag nach vorne gekrümmt
ist. Somit kann gemäß diesem Verfahren
anhand des untersten und markantesten Helligkeitsübergangs
von Dunkel nach Hell von unten nach oben betrachtet, auf die Unterlippe
bzw. Unterlippenlinie geschlossen werden.
-
Sind
nun Oberlippe und Unterlippe identifiziert, so ist es nun möglich, Viseme
bzw. Mundmerkmale zu extrahieren, indem die geometrischen Eigenschaften
der Oberlippe und Unterlippe getrennt untersucht werden. Weisen
Oberlippe und Unterlippe beispielsweise eine geringe horizontale
Länge,
jedoch eine starke Krümmung
auf (die Oberlippe ist stark nach oben gekrümmt und die Unterlippe ist stark
nach unten gekrümmt),
so kann beispielsweise auf eine Mundpartie geschlossen werden, die
gerade ein "0" artikuliert. Weist
hingegen die Oberlippe und die Unterlippe eine relativ große horizontale
Länge und
nahezu keine Krümmung
auf, so kann beispielsweise auf die Artikulation des Buchstaben "M" geschlossen werden.
-
Es
kann somit zusammenfassend gesagt werden, dass ein Verfahren gemäß der vorliegenden Erfindung
es zunächst
erlaubt, anhand eines erfassten Bildes in einem Durchlauf helligkeitsspezifische Segmente
festzulegen, um bei der Überprüfung derer
positionsmäßigen Beziehung
auf das Vorhandensein eines (menschlichen) Gesichts zu schließen. Es
ist dabei möglich,
bei Vorhandensein entsprechender Bedingungen bezüglich der positionsmäßigen Beziehung,
wie sie beispielsweise in dem ersten und zweiten vorbestimmten Verhältnis in
dem ersten und zweiten Untersuchungsschritt in dem Schritt des Überprüfens der
positionsmäßigen Beziehung
festgelegt sind, einen Steuervorgang in einer Datenverarbeitungsanordnung
auszulösen.
Beispielsweise ist es möglich,
dass erst beim Erkennen eines Gesichts eines Benutzers eine Anzeige
der Datenverarbeitungsanordnung aktiviert wird, ein (akustisches) Spracherkennungsverfahren
aktiviert wird, Lautsprecher bzw. Mikrofon aktiviert wird, usw.
Auf diese Weise ist es möglich,
Energie bzw. Leistung für
Komponenten der Datenverarbeitungsanordnung einzusparen, die nicht
benötigt
werden, wenn der Benutzer gerade nicht in der Position ist, um die
Datenverarbeitungsanordnung zu bedienen. Es ist jedoch auch möglich, einen
Steuervorgang in einer Datenverarbeitungsanordnung erst dann auszulösen, wenn
die "verbesserte" Überprüfung des Vorhandenseins eines
Gesichts mittels der Merkmalsextraktion, insbesondere dem ersten
Prüfschritt,
durchgeführt
worden ist. Eine weitere Differenzierung beim Auslösen eines bestimmten
Steuervorgangs kann vorgenommen werden, wenn nicht nur, das Vorhandensein
einer Oberlippe bzw. Unterlippe in dem erfassten Bild bzw. dem Analysebereich
festgestellt wird, sondern wenn die geometrischen Eigenschaften
der Unterlippe bzw. Oberlippe erfasst werden. Somit kann, wie in dem
oben erwähnten
Beispiel, bei Erkennen einer Mundpartie, die beispielsweise den
Buchstaben "0" artikuliert, beispielsweise
ein erster bestimmter Steuervorgang ausgelöst werden, während bei
Erkennen des Buchstabens "M" ein zweiter bestimmter
Steuervorgang ausgelöst
wird.
-
Durch
Erfassen des Mundbereichs eines Gesichts über einen längeren Zeitraum bzw. über mehrere
erfasste Bilder hinweg ist es auch möglich, die zeitliche Veränderung
von Mundmerkmalen zu ermitteln und bei Erkennen einer bestimmten
zeitlichen Abfolge von Mundmerkmalen ein bestimmtes Signal auszugeben
bzw. einen bestimmten Steuervorgang auszulösen.
-
Soll
nun über
einen längeren
Zeitraum hinweg ein Gesicht eines Menschen, insbesondere die Mundpartie,
erfasst werden, um daraus Viseme zu extrahieren bzw. abzuleiten,
so muss nicht bei jedem neuen erfassten Bild ein oben erwähntes Verfahren durchgeführt werden,
bei dem anhand der Überprüfung einer
positionsmäßigen Beziehung
von festgelegten Segmenten in dem erfassten Bild auf die Mundpartie
geschlossen werden kann, es kann zur Verringerung der Rechenleistung
folgendes Verfahren durchgeführt
werden. Wird von einer Szene ein erstes Bild aufgenommen, und in
diesem die Position der Mundpartie eines Gesichts bestimmt, so kann
bei einem folgenden erfassten Bild, das im Bruchteil einer Sekunde
später
von der Szene erfasst wird, davon ausgegangen werden, dass sich
die Position der in dem ersten erfassten Bild gefundenen Mundpartie nicht
sehr wesentlich verschoben hat. Eine derartige Annahme kann beispielsweise
bei einer Bilderfassungsrate von 10 Bildern (Frames) pro Sekunde
oder mehr, insbesondere 15 Bilder pro Sekunde, und insbesondere
für eine
Szene angenommen werden, bei der der Benutzer sich in einer im Wesentlichen
ortsfesten Position befindet, wie beispielsweise ein Fahrer in einem
Au to. Gemäß einer
vorteilhaften Ausgestaltung wird somit in dem zweiten erfassten
Bild lediglich ein Bereich bzw. Analysebereich an der Position des
Analysebereichs des ersten Bilds untersucht, d. h. es wird eine
Merkmalsextraktion einschließlich
des ersten Prüfschritts
und eventuell des zweiten Prüfschritts
durchgeführt,
um zum Einen eine Plausibilitätsprüfung durchzuführen, ob
in dem neuen Analysebereich eine Mundpartie eines Gesichts enthalten
ist, und wenn dies zutrifft, welches Visem bzw. Mundmerkmal gebildet
von der Ober- und Unterlippe in dem neuen Analysebereich vorhanden
ist. Gemäß einer
weiteren vorteilhaften Ausgestaltung kann zur Berücksichtigung
einer zumindest geringen Bewegung des Gesichts in der Szene ein gegenüber dem
im ersten Bild um einen bestimmten Faktor vergrößerter Analysebereich im zweiten
erfassten Bild verwendet werden. Vorteilhafter Weise wird der erweiterte
Analysebereich an einer Position im zweiten erfassten Bild angeordnet,
so dass er konzentrisch gegenüber
dem Analysebereich im ersten erfassten Bild ist. Beispielsweise
kann der erweiterte Analysebereich um einen Faktor 1,1 bis 1,2,
d.h. 10 % bis 20 %, größer sein
als der Analysebereich im ersten erfassten Bild.
-
Wurde
in dem neuen erweiterten Analysebereich des zweiten erfassten Bildes
eine Mundpartie bzw. Ober- und Unterlippe in einem bestimmten Abschnitt
dieses Analysebereichs erkannt, so kann der erweiterte Analysebereich
wieder auf die Größe des ursprünglichen
Analysebereichs verringert werden, wobei er derart positionsmäßig angeordnet
wird, dass er wieder die Mundpartie des Gesichts einschließt. Das
bedeutet, verändert
sich die Position der Mundpartie von dem ersten erfassten Bild zu
dem zweiten erfassten Bild, so wird in dem zweiten erfassten Bild
zunächst
ein etwas größerer Bereich
analysiert, und dann die Größe des Analysebereichs
verringert und mit der Bewegung der Mundpartie bezüglich der
Position mit verschoben. Somit kann von Bild zu Bild ein Analysebereich
mit der Bewegung der Mundpartie eines erfassten Gesichts mit bewegt
bzw. mit verschoben werden und das Verfahren bleibt an seinem Ziel,
der Mundpartie, fixiert.
-
Da
bei einem Lippenverfolgungsmechanismus der oben dargestellten Art
es nicht mehr notwendig ist, das ganze Gesicht eines Benutzers zu
erfassen, kann gemäß einer
vorteilhaften Ausgestaltung während
der Lippenverfolgung lediglich ein Bild des (ursprünglichen)
Analysebereichs bzw. ein Bild des um einen bestimmten Faktor erweiterten
neuen Analysebereichs des vorliegenden (zweiten) erfassten Bildes
erfasst und analysiert werden. Dazu kann der Analysebereich gesondert
fokussiert werden. Eine Datenverarbeitungsanordnung bzw. ein optischer Sensor
kann dabei eine Autofocussierungseinrichtung sowie evtl. eine Bewegungs-
oder Nachführeinrichtung
für den
Sensor aufweisen. Derartige Einrichtungen erlauben dann dem (neuen)
Analysebereich stets mit einer guten bzw. bestmöglichen Auflösung zu
erfassen, um Merkmale bzw. Viseme mit hoher Qualität abzuleiten.
-
Zusammenfassend
bringt dieser Lippen-Verfolgungsmechanismus, bei dem lediglich ein
Ausschnitt eines erfassten Bildes, nämlich der im letzten erfassten
Bild ermittelte Analysebereich, analysiert wird, den Vorteil, dass
Rechenleistung eingespart werden kann, die benötigt werden würde, wenn
jedes Mal das gesamte erfasste Bild analysiert werden müsste.
-
Gemäß einem
weiteren Aspekt der Erfindung wird eine Anordnung, insbesondere
eine Datenverarbeitungsanordnung, geschaffen, die derart eingerichtet
ist, ein oben dargestelltes Verfahren bzw. vorteilhafte Ausgestaltungen
hiervon auszuführen.
Eine derartige Anordnung hat dabei einen optischen Sensor, wie eine
Kamera, zum Aufnehmen bzw. Erfassen eines Bildes einer Szene. Als
optischer Sensor bzw. Kamera kann dabei eine CCD (Charged Coupled
Device: Ladungsgekoppelte Vorrichtung)-Kamera verwendet werden. Die Anordnung umfasst
ferner eine Auswerteeinrichtung mit einem optischen Auswerteabschnitt
zum Analysieren der in dem erfassten Bild dargestellten Szene ge mäß einem
oben dargestellten Verfahren bzw. Ausgestaltungen hiervon. Es ist
dabei nicht notwendig, dass der optische Sensor in der Anordnung
integriert ist, er kann auch als externe Komponente bzw. Erweiterungskomponente
mit der Anordnung verbunden sein. Die Anordnung bzw. Datenverarbeitungsanordnung
kann als stationärer
Computer, tragbarer Computer, insbesondere PDA(Personal Digital
Assistant: Persönlicher
digitaler Assistent), als Mobilfunkgerät bzw. Mobiltelefon, bzw. realisiert
sein. Aufgrund des geringen Ressourcenbedarfs (bezüglich Rechenleistung
oder Speicherbedarfs) des oben dargestellten Verfahrens, das in
der Auswerteeinrichtung, genauer gesagt im optischen Auswerteabschnitt
durchzuführen
ist, eignet sich das dargestellte erfindungsgemäße Verfahren zur Verwendung
in tragbaren bzw. mobilen Datenverarbeitungsanordnungn, wie PDAs oder
Mobilfunkgeräten
bzw. Mobiltelefonen.
-
Gemäß einem
weiteren Aspekt wird ein Programmprodukt für eine Datenverarbeitungsanordnung
geschaffen, das Softwarcode-Abschnitte
enthält,
mit denen das oben dargestellte Verfahren bzw. vorteilhafte Ausgestaltungen
hiervon auf der Datenverarbeitungsanordnung ausgeführt werden
kann. Das. Programmprodukt lässt
sich durch geeignete Implementierung des Verfahrens bzw. der vorteilhaften
Ausgestaltung davon in einer Programmiersprache und Obersetzung
in für
die Datenverarbeitungsanordnung, insbesondere dessen Auswerteeinrichtung,
ausführbaren
Code ausführen.
Die Softwarecode-Abschnitte werden dazu gespeichert. Dabei wird
unter einem Programmprodukt das Programm als handelsbares Produkt
verstanden. Es kann in beliebiger Form vorliegen, z. B. auf Papier,
einem computerlesbaren Datenträger
oder über
ein Netz verteilt.
-
Gemäß einem
weiteren Aspekt der Erfindung kann das oben dargestellte Verfahren
bzw. vorteilhafte Ausgestaltungen hiervon in einem Verfahren zur
Spracherkennung, insbesondere zur akustischen Spracherkennung, integriert
sein. Gemäß einem
derartigen Verfahren wird ein akustisches Sprachsignal aufgenommen
und werden Phonem-Merkmale aus dem Sprachsignal ermit telt. Eine
derartige Ermittlung kann mittels HMM (Hidden Markov Modellen) oder ANN
(Artificial Neural Networks) erfolgen. Ferner wird eine Szene mit
einem Gesicht, dem Gesicht der das akustische Sprachsignal abgebenden
Person, aufgenommen und aus dem Gesicht bzw. dessen Mundpartie Visem-Merkmale
extrahiert. Anschließend
werden anhand einer Kombination der Phonem-Merkmale und Visem-Merkmale
unter eventueller Einbeziehung einer Gewichtungs- und Entscheidungsfunktion
Sprachmerkmale abgeleitet. Zum Durchführen eines derartigen Verfahrens
kann die oben erwähnte
Anordnung bzw. Datenverarbeitungsanordnung gemäß einem Aspekt der Erfindung
ferner einen akustischen Sensor, wie ein Mikrofon, zum Aufnehmen
eines akustischen Sprachsignals aufweisen, wobei die Auswerteeinrichtung
ferner eine mit dem optischen Auswerteabschnitt und dem akustischen
Sensor verbundenen Spracherkennungsabschnitt zur Spracherkennung
umfasst.
-
Neben
der Möglichkeit,
das oben dargestellte Verfahren zur (Mundbereichs-)Visem-Erkennung in
einem integrierten Spracherkennungsverfahren zu verwenden, ist es
auch möglich,
das Verfahren in anderen Anwendungen zum Einsatz zu bringen. Wie bereits
erwähnt,
kann das Verfahren dafür
verwendet werden, bei Vorliegen bestimmter Viseme bzw. Visem-Merkmale
bestimmte Steuervorgänge
auszulösen.
Ferner kann bei Erkennen eines Gesichts eines Benutzers einer Datenverarbeitungsanordnung,
insbesondere eines Mobilfunkgeräts,
eine sogenannte Push-to-talk-Funktion
realisiert werden, bei dem ein Benutzer des Mobilfunkgeräts ähnlich dem
Drücken einer
Push-to-talk-Taste bei einem Funkgerät lediglich das Mobilfunkgerät anschauen
muss, um eine Sprachübertragung
zu einem anderen Mobilfunkteilnehmer zu starten. Es ist auch denkbar,
die Gesichtserkennung bzw. die Positionserkennung eines Gesichts
bzw. einer Mundpartie in einem erfassten Bild für Spielanwendungen zu nutzen.
Dabei kann ein Benutzer durch Verändern der Position seines Gesichts bzw.
seiner Mundpartie gegenüber
einem optischen Sensor, wie einer Kamera, beispielsweise ein Zeigeelement
auf einer auf einer Anzeige dargestellten Benutzerober fläche einer
Datenverarbeitungsanordnung bewegen und anschließend durch Einstellen bestimmter
Viseme der Mundpartie bestimmte Ereignisse, insbesondere am Ort
des Zeigeelements auf der Benutzeroberfläche auslösen.
-
Wie
es aus obiger Beschreibung der Analyse eines Bildes einer Szene
zum Auffinden eines Gesichts zu ersehen ist, ist für das Verfahren
lediglich ein Graustufenbild mit bestimmten Helligkeitswerten bzw.
Luminanzwerten erforderlich. Jedoch ist das Verfahren nicht auf
ein Graustufenbild beschränkt, sondern
ist vielmehr auch in der Lage, ein Farbbild (beispielsweise von
einer Farbkamera erfasst) zu verarbeiten. Wesentlich hierbei ist,
dass wiederum die Luminanzwerte des Farbbildes bzw. der Bildpunkt untersucht
und verarbeitet werden (wie beispielsweise bei der Verarbeitung
des Bildes mittels des Gradientenfilters, usw.).
-
Die
Verwendung eines Farbbildes bietet dabei noch weitere Vorteile.
Nach Erfassen des Bildes durch eine Kamera bzw. vor der Verarbeitung
durch den Gradientenfilter, wie oben erläutert, ist es möglich, in
einem ersten vorbereitenden Schritt eine Farbklassifikation des
Bildes vorzunehmen. Das bedeutet, das Bild wird nach Farbwerten
untersucht, wobei diejenigen Bildbereiche markiert werden, die Farbwerte
in einem bestimmten Farbbereich aufweisen, der den Farbwerten menschlicher
Haut entspricht. Diese Bildbereiche (es kann auch lediglich ein
Bildbereich sein) werden nun verwendet, um die eigentliche Untersuchung
nach gesichtsspezifischen Merkmalen durchzuführen (beginnend mit der Verarbeitung
durch den Gradientenfilter, usw.). Dazu können die diese Bereiche in
Untersuchungsrahmen einbeschrieben werden, die vorteilhafterweise
eine rechteckige Form aufweisen, wobei in den Untersuchungsrahmen
die Untersuchung nach gesichtsspezifischen Merkmalen durchgeführt wird.
Dieses Vorgehen hat dabei mehrere Vorteile. Zum einen wird die Sicherheit
bzw. Wahrscheinlichkeit, mit der ein Gesicht und nicht ein in den
Helligkeitsmerkmalen ähnliches
Gebilde in der Szene gefunden wird größer, da ja die Farbklassifikation
ein weiteres charakteristisches Unterscheidungsmerkmal (für ein Gesicht
gegenüber
anderen Objekten in der Szene) bietet. Zum anderen wird dann durch
das eigentliche Untersuchen bzw. Verarbeiten nur der Untersuchungsrahmen,
die im allgemeinen eine wesentlich geringere Größe als das gesamte erfasste
Bild aufweisen, der Verarbeitungs- bzw. Rechenaufwand, insbesondere bei
der Gradientenfilterung, wesentlich verringert.
-
Bevorzugte
Ausführungsformen
der Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden
Zeichnungen näher
erläutert.
Es zeigen:
-
1 die wesentlichen Komponenten
einer Datenverarbeitungsanordnung zum Umwandeln des Bilds einer
Szene gemäß einer
bevorzugten Ausführungsform;
-
2 eine schematische Anordnung
der wesentlichen Komponenten zur Analyse einer Szene bzw. eines
Gesichts;
-
3 eine schematische Anordnung
der Verfahrensschritte gemäß einem
primären
Lippendetektionsmechanismus zum Auffinden einer Mundpartie in einem
Bild einer Szene;
-
4 Bilder einer Szene vom
Erfassen der Szene bzw. nach zwei bestimmten Verarbeitungsschritten;
-
5 ein erfasstes Bild einer
Szene mit einem markierten Segment eines Mundbereichs;
-
6 eine vergrößerte Ansicht
des in 5 dargestellten
Mundbereichs mit markierten Oberlippen- und Unterlippenlinien;
-
7 ein Bild einer weiteren
erfassten Szene bzw. ein Bild der Szene nach einer Mehrzahl von Verarbeitungsschritten
zum Darstellen eines sekundären
Lippendetektionsmechanismus; und
-
8 ein Bild einer erfassten
Szene mit markiertem Analysebereich sowie einem erweiterten Analysebereich
bzw. eine vergrößerte Darstellung des
erweiterten Analysebereichs;
-
9 Bilder einer Szene, in
denen das Extrahieren des Gesichts einer Person bzw. das Umwandeln
eines ersten Bildes in ein zweites veranschaulicht ist.
-
Es
sei dabei zunächst
auf 2 verwiesen, in
der eine schematische Darstellung der Komponenten bzw. Mechanismen
zum Erfassen und Analysieren einer Szene dargestellt sind. Wie es
in 2 zu erkennen ist,
ist dabei eine Kamera K als optischer Sensor vorgesehen, die in
der Lage ist, eine Szene (eine reelle Umgebung mit bestimmten Sachen und/oder
Personen) zu erfassen. Die Kamera kann dabei beispielsweise als
eine CCD-Kamera ausgebildet sein. Die Kamera K ist mit einem optischen
Auswerteabschnitt OAA verbunden, in dem verschiedene Mechanismen
bzw. Verfahren zur Analyse der von der Kamera erfassten Szene ablaufen
können.
Der optische Auswerteabschnitt OAA ist dabei in der Lage, einen
ersten oder primären
Lippendetektionsmechanismus PLD zum Auffinden eines Gesichts bzw. einer
Mundpartie in dem erfassten Bild der Szene durchzuführen. Entsprechend
kann der optische Auswerteabschnitt einen alternativen oder zusätzlichen
zweiten bzw. sekundären
Lippendetektionsmechanismus SLD zum Auffinden eines Gesichts bzw. einer
Mundpartie durchführen.
Nach gefundener Position der Mundpartie eines Gesichts gemäß dem primären oder
sekundären
Lippendetektionsmechanismus kann mittels einer Merkmalsextraktion
ME zum Einen eine verbesserte Plausibilitätsüberprüfung durchgeführt werden,
ob es sich tatsächlich
um eine gefundene Mundpartie handelt und es können Mundmerkmale bzw. Viseme
des Mundes anhand geometrischer Eigenschaften der Ober- und Unterlippe
abgeleitet werden. Die in einem ersten erfassten Bild oder Rahmen
(Frame) gefundene Mundpartie bzw. deren Position kann dann in folgenden
erfassten Bildern der Szene mittels einem Lippen-Tracking-Mechanismus
bzw. Lippenverfolgungsmechanismus LVM weiterverfolgt werden, um
nicht nur einzelne Mundmerkmale der erfassten Mundpartie für sich alleine,
sondern auch eine zeitliche Änderungen
der Mundmerkmale zu verfolgen. Die aus den Mechanismen PLD, SLD
und ME gewonnenen Ergebnisse, nämlich
dass in dem Bild einer erfassten Szene ein Gesicht einer Person
bzw. eine Mundpartie vorhanden ist, können in eine Steuereinrichtung
SE weitergeleitet werden. Mittels der ermittelten Ergebnisse bzw.
Information, nämlich
dass ein Gesicht oder eine Mundpartie in dem von der Kamera K erfassten
Bild vorhanden ist, ist es möglich,
bestimmte Steuervorgänge
beispielsweise in einer Datenverarbeitungsanordnung bzw. einer Datenverarbeitungsanordnung auszulösen. So
kann beispielsweise bei Erkennen eines Gesichts einer Person bzw.
eines Benutzers in einer als Mobilfunkgerät ausgeführten Datenverarbeitungsanordnung
beispielsweise ein Lautsprecher bzw. ein Mikrofon eingeschaltet
werden, um eine Sprachsteuerung des Geräts zu ermöglichen. Es ist jedoch auch
möglich,
wie es unten ausführlicher
beschrieben wird, die bei der Merkmalsextraktion extrahierten Viseme
oder Mundmerkmale für
eine differenziertere Steuerung einer Datenverarbeitungsanordnung
zu verwenden, oder als zusätzliche
bzw. unterstützende
Merkmale im Rahmen einer akustischen Spracherkennung zu verwenden.
In diesem Fall können
die Viseme einem akustischen Auswerteabschnitt zum Durchführen einer
akustischen Spracherkennung zugeführt werden, wobei der akustische Auswerteabschnitt
AAA zum Erfassen eines akustischen Sprachsignals eines Benutzers
mit einem Mikrofon MIK als akustischem Sensor verbunden ist. Die
Komponenten OAA, SE und AAA können
als Teil einer Auswerteeinheit angesehen werden.
-
Für den Fall
der im folgenden erläuterten
bevorzugten Ausführungsform
sind die in 2 dargestellten
Komponenten in einer Datenverarbeitungsanordnung in Form eines Mobiltelefons
(es sind natürlich
auch andere Realisierungen einer Datenverarbeitungsanordnung möglich, in
denen die in 2 dargestellten
Komponenten vorgesehen werden können)
angeordnet, wobei die Kamera K entweder fest im Mobiltelefon integriert
sein kann oder als auswechselbare Peripheriekomponente vorgesehen sein
kann. Gerade in zumeist kleinen mobilen Geräten wie den Mobiltelefonen,
ist es wichtig, dass Anwendungen, wie die im Folgenden beschriebenen Analyse
einer Szene, ressourcensparende Algorithmen aufweist, die hinsichtlich
des Speicherbedarfs, so wie der Rechenzeit bzw. Rechenleistung minimiert sind,
um die Ressourcen der Geräte
möglichst
auszunutzen, ohne aber einen zusätzlichen
Prozessor- oder Speicherausbau notwendig zu machen.
-
Im
Folgenden sollen nun die in dem optischen Auswerteabschnitt OAA
durchführbaren
Mechanismen bzw. einzelnen Verfahren ausführlich dargestellt werden.
-
Primärer Lippendetektionsmechanismus
-
Es
sei nun auf 3 verwiesen,
in der eine schematisch Darstellung der Komponenten bzw. einzelnen
Verfahrensschritte zum Realisieren des primären Lippendetektionsmechanismus
gezeigt sind. Ein von der Kamera K erfasstes Bild einer Szene wird zunächst einer
optionalen Bildkontrastverbesserung BKV durch einen histogramm-basierten
Graustufenausgleich (Histogram Equalization) BKV der einzelnen Bildpunkte
des erfassten Bild zugeführt
wird. Das so mit dem Kontrast verbesserte erfasste Bild wird dann
einer Bearbeitung durch einen horizontal orientierten positiven
Gradientenfilter GF zugeführt,
mittels der helligkeitsspezifische horizontale Konturen, d.h. markante
bzw, scharfe Hell-Dunkel-Übergänge oder Dunkel-Hell-Übergänge extrahiert
werden können.
Das so erhaltene erste bearbeitete Bild wird einem Segmentationsalgorithmus
SA zugeführt,
in dem allen Bildpunkten mit einem Grauwert über einen bestimmten Schwellenwert
der Graustufenwert "weiß" zugeordnet wird,
während
den übrigen
Bildpunkten der Graustufenwert "schwarz" zugeordnet wird.
Auf diese Weise können
beispielsweise nur bestimmte scharfe horizontale Hell-Dunkel-Übergänge sichtbar
gemacht werden. In einem derartigen erhaltenen zweiten bearbeiteten
Bild können
die nun verbliebenen "weißen" Bereiche bezüglich ihrer
Fläche, Position
oder Geometrie untersucht werden. Die in dem Segmentationsalgorithmus
SA festgelegten Segmente können
dann einen ersten Untersuchungsschritt US1 unterzogen werden, indem
anhand der positionsmäßigen Beziehung
entsprechender festgelegter Segmente bzw. anhand der positionsmäßigen Beziehung
und der Form oder Ausdehnung der Segmente unter Einbeziehung biogeometrischer
Kriterien für
ein Gesicht auf das Vorhandensein eines Gesichts und auf die Position
des Gesichts bzw. der entsprechenden Mundpartie geschlossen werden
kann.
-
Ein
derart beschriebener primärer
Lippendetektionsmechanismus soll nun anhand der 4A bis 4C ausführlich dargestellt
werden. Dabei ist zunächst
in 4A das von der Kamera
erfasste Bild (einer Person in einem Fahrzeug) dargestellt, das
als Graustufenbild vorliegt, d. h. das Bild besteht aus einzelnen
Bildpunkten, denen ein jeweiliger bestimmter Graustufenwert zugeordnet
ist. Das optional einer Bildkontrastverbesserung BKV (vgl. 3) unterzogene erfasste
Bild wird dann einer Bearbeitung durch einen horizontal orientierten
positiven Gradientenfilter unterzogen, um horizontale Strukturen,
d. h. markante Helligkeitsübergänge, zu
ermitteln. Ein derart (erstes) bearbeitetes Bild ist in 4B zu sehen, bei dem Hell-Dunkel-Übergänge von
oben nach unten betrachtet, ausgehend von einem mittleren Graustufenwert,
entsprechend der Schärfe
des Übergangs zu
einem erhöhten
Graustufenwert (in Richtung "weiß") übergehen,
während
Dunkel-Hell-Helligkeitsübergänge von
oben nach unten betrachtet, ausge hend von einem mittleren Graustufenwert
in einen geringeren Graustufenwert (in Richtung "schwarz") übergehen.
Durch Anwenden einer Schwellwertbildung (wobei der Schwellwert in
Abhängigkeit
der Helligkeit des erfassten Bildes gewählt wird, beispielsweise anhand
einer Histogrammdarstellung der Graustufenwerte der einzelnen Bildpunkte
in dem erfassten Bild) werden Bildpunkten, deren Graustufenwert über dem
helligkeitsabhängigen
Schwellwert liegt, der Wert "weiß" zugeordnet, während den
anderen Bildpunkten der Wert "schwarz" zugeordnet wird.
Auf diese Weise können
in einem (zweiten) bearbeiteten Bild eine Großzahl für die Analyse der Szene unwichtiger
Details entfernt werden. In dem Segmentationsalgorithmus SA können ferner
nun erhaltene weiße
Bereiche entfernt werden, deren Größe oder Form nicht bestimmten
Kriterien, insbesondere biogeometrischen Kriterien bezüglich eines
Gesichts entsprechen. Nach Verwerfen dieser zu kleinen bzw. zu großen weißen Bereiche
oder in der Form nicht relevanten Bereiche und durch Zuordnen des
Werts "schwarz" den entsprechenden
Bildpunkten werden die eigentlichen für die spätere Untersuchung relevanten
Segmente festgelegt. Zur besseren Analyse werden diese Segmente
in Rechtecke einbeschrieben, wie es in 4C zu erkennen ist. In dem ersten Untersuchungsschritt
US1 werden nun die festgelegten noch verbliebenen Segmente der Reihe
nach auf ihre geometrische bzw. positionsmäßige Beziehung zueinander untersucht.
Die Untersuchung basiert darauf, dass zu zwei horizontal zueinander
angeordneten Segmenten, die die Augenbrauen (vgl. die Augenbrauenbereiche
ABB in 4A, 4B) oder Brillenkonturen
in einem Gesicht eines Menschen darstellen können, ein drittes unterhalb
diesen ersten beiden Segmenten liegendes Segment gesucht wird, das
einem möglichen
Mundsegment (vgl. den Mundbereich MB in 4A, 4B)
basierend auf dem Helligkeitsübergang
von dem Oberlippenbereich in den Zwischenlippenbereich) entspricht.
Sind dabei ein erstes und ein zweites horizontal zueinander liegendes
Segment gefunden, wie die Segmente S1 und S2, so wird deren Abstand
zueinander, in diesem Fall der Abstand b, ausgehend von den jeweiligen
Mittelpunk ten der Segmente bestimmt. Anschließend wird unterhalb der beiden
Segmente S1 und S2 ein drittes Segment gesucht, dessen Abstand,
der Abstand a, zu den ersten beiden Segmenten bzw. einer Verbindungslinie
hiervon in einem ersten biogeometrischen Verhältnis bezüglich eines menschlichen Gesichts
stehen. Ein derartiges Verhältnis
von a zu b kann einen Wert zwischen 1,0:1 bis 1,7:1, jedoch insbesondere
einen Wert von 1,2:1 bis 1,5:1 aufweisen. Je nach Verwendung des
Gültigkeitsbereichs
für das erste
Verhältnis
von a zu b, könnten
in 4C das Segment S3
und S4 als mögliches
drittes Segment (potenzielles Mundsegment) in Frage kommen. Gemäß einer
vorteilhaften Ausgestaltung kann daher in diesem Fall noch nach
einem vierten relevanten Segment gesucht werden, das sich unmittelbar
unterhalb des dritten Segments befindet. Basierend auf der Tatsache,
dass im Normalfall die Unterlippe eines Mundsegments leicht nach
vorne bezüglich
des Gesichts gekrümmt
ist und somit unterhalb der Unterlippe ein Schattenbereich entsteht
(vgl. dazu auch den in 8B dargestellten
erweiterten Analysebereich, in dem dieser Schattenbereich ULB sich
unmittelbar unterhalb des dunklen Zwischenlippenbereichs ZLB befindet),
kann dieser Schattenbereich bei einer Art Plausibilitätsprüfung als
viertes Segment, das sich unmittelbar unterhalb des dritten Segments
befinden muss, dienen. Auf Grund dieser Überprüfung kann dann das Segment
S4 als potenzielles Mundsegment identifiziert werden, wobei das
Segment S5 den Schatten unterhalb der Unterlippe darstellt. Nun
wird ein Bereich in dem erfassten Bild von 4A gespeichert, der den als potenzielles
Mundsegment identifizierten Bereich (Segment S4) in Größe und Position entspricht.
Dieser Bereich, der später
als Analysebereich bezeichnet wird, wird für die folgende Merkmalsextraktion
verwendet.
-
Es
sei bemerkt, dass der gesamte Vorgang des primären Lippendetektionsmechanismus,
wie er gerade beschrieben worden ist, in einem einzigen Durchgang
durchgeführt
werden kann, wobei am Ende des Durchgangs das ursprünglich erfasste
Bild verworfen werden kann und nur noch die gespeicherten Bildpunktdaten des
Analysebereich benötigt
werden. Wie es ferner zu erkennen ist, werden innerhalb dieses einzigen
Durchlaufs die Bilddaten des erfassten Bildes mit sehr einfachen
Algorithmen erheblich verringert, was der Anforderung nach Minimierung des
Speicherbedarfs, Rechenzeit und Durchlaufzeit Rechnung trägt.
-
Merkmalsextraktion
-
Die
nun folgende Merkmalsextraktion dient zum Einen der Plausibilitätsprüfung, ob
in dem gefundenen Analysebereich wirklich eine Mundpartie bzw. Lippen
vorliegen, und dient ferner dazu, anhand der gefundenen Mundpartie
Merkmale bzw. Merkmalsvektoren für
eine nachfolgende Visem-Suche zu gewinnen. Zunächst sei auf 5 verwiesen, in der nochmals die von
der Kamera K in 3 erfasste Szene
entsprechend 4A dargestellt
ist, wobei der nun im Folgenden zu analysierende Bereich AB der
Mundpartie, der während
der Durchführung
des ersten Lippendetektionsmechanismus gespeichert wurde, markiert
ist. Dieser Bereich ist vergrößert in 6 dargestellt. Entsprechend
der in 3 dargestellten
Bearbeitung mit einem horizontal orientierten Gradientenfilter wird
nun auch der in 6 vergrößert dargestellte
Analysebereich AB einer Bearbeitung mit einem horizontal orientierten
positiven Gradientenfilter unterzogen. Es sei bemerkt, dass vor
der Bearbeitung mit dem Gradientenfilter wieder eine Bildkontrastverbesserung
entsprechend der Bildkontrastverbesserung BKV in 3 durchgeführt werden kann. Durch die
Bearbeitung mit dem horizontal orientierten positiven Gradientenfilter
entsteht nun ein drittes bearbeitetes Bild, bei dem (horizontale) Hell-Dunkel-Obergänge, insbesondere
von dem Oberlippenbereich in den Zwischenlippenbereich, oder anders
ausgedrückt
von dem Bereich der Oberlippe zu dem Bereich unterhalb der Oberlippe
extrahiert werden. Auf diese Weise ist es möglich, einzelne Segmente der
Oberlippe zu gewinnen, welche miteinander verbunden werden können und
geglättet werden
können.
Die nun gefundene bzw. geglättete Oberlippenlinie
kann nun bezüglich
ihrer geometrischen Eigenschaften (Länge, Krümmung usw.) bewertet werden,
d. h. ob sie biogeometrischen Merkmalen einer tatsächlichen
Oberlippe bzw. Oberlippenlinie entspricht. Es ist nun möglich, dass
sich in dem Analysebereich AB mehrere Hell-Dunkel-Übergänge befinden,
die eine Oberlippenlinie darstellen können. Wird eine erste Oberlippenlinie
bzw. eine Kombination mehrere als Oberlippenlinie identifizierter
Segmente, wie gerade beschrieben, negativ bewertet, wird ein weiterer
Hell-Dunkel-Übergang
bzw. ein weiterer Abschnitt aus mehreren Hell-Dunkel-Übergängen, die
zu einer Oberlippenlinie zusammensetzbar sind, auf das Vorhandensein
bestimmter geometrischer Eigenschaften entsprechend einer tatsächlichen
Oberlippe untersucht. In Versuchen hat sich gezeigt, dass eine Wiederholung
der Untersuchung mit einem drittwahrscheinlichst möglichen Hell-Dunkel-Übergangsbereich
zwar möglich
ist, aber meist nicht erfolgreich, weshalb gemäß dieser Ausgestaltung der
Merkmalsextraktion zu dem unten näher erläuterten sekundären Lippendetektionsmechanismus
zum Auffinden der Position eines Gesichts bzw. einer Mundpartie übergegangen
wird.
-
Wird
eine gefundene Oberlippenlinie als positiv (entsprechend einer tatsächlichen
Oberlippe bzw. Oberlippenlinie) bewertet, wird ein zweiter Prüfschritt
bzw. Extraktionsschritt durchgeführt,
bei dem die Unterlippe oder Unterlippenlinie identifiziert werden
soll. Da das genaue Extrahieren der Unterlippe auf Grund generell
schwächerer
Konturierung der Unterlippe mittels einem Filter, wie dem oben beschriebenen
Gradientenfilter, schwierig ist, wird in diesem Fall ein vertikaler
Suchalgorithmus angewandt, der ausgehend von der relativ gut erkennbaren
Oberlippe bzw. Oberlippenlinie, welche durch die oberen weißen Quadrate
OL in 6 dargestellt
ist, den ersten farbähnlichen
bzw. graustufenähnlichen Bildpunktwert
entlang der Vertikalen nach unten sucht. Damit ist es möglich, helle
Bereiche, wie beispielsweise die Zähne, sowie auch dunkle Bereiche, wie
beispielsweise der Rachenbereich, zu überspringen und einen möglichst
nahen Unterlippenbereich, der in 6 durch
die Linie aus weißen
Quadraten UL gebildet wird, zu identifizieren. Die entsprechenden
gefundenen Ober- und Unterlippenlinien OL und UL können dann
bezüglich
ihrer geometrischen Eigenschaften (Länge und Krümmung) untersucht werden, so
dass aus den gefundenen geometrischen Eigenschaften mögliche Mundmerkmale
oder Viseme, beispielsweise mittels HMM-Technologien abgeleitet werden
kann.
-
Sekundärere Lippendetektionsmechanismus
-
Wie
oben bezüglich
der Merkmalsextraktion erwähnt
worden ist, ist es möglich,
dass nach Durchführen
des primären
Lippendetektionsmechanismus und nach einer Plausibilitätsprüfung in
einem ersten Prüfschritt
der Merkmalsextraktion der durch den primären Lippendetektionsmechanismus
gefundene Analysebereich keine tatsächliche Mundpartie aufweisen
kann. In diesem Fall wird der sekundäre Lippendetektionsmechanismus
eingesetzt, um einen Analysebereich für eine Mundpartie zu finden.
Es sei dabei erwähnt,
dass der sekundäre
Lippendetektionsmechanismus bereits algorithmisch beim Durchlauf
des primären
Lippendetektionsmechanismus berücksichtigt
werden kann, d. h. nach Erfassen des ersten Bildes der Szene. Es
ist jedoch auch möglich, dass
der zweite Lippendetektionsmechanismus aber erst in einem zweiten
Durchlauf bezüglich
eines zweiten erfassten Bildes der Szene durchgeführt werden kann.
Wird der sekundäre
Lippendetektionsmechanismus bereits beim Durchlaufen des primären Lippendetektionsmechanismus
durchgeführt,
so können die
damit identifizierten bzw. festgelegten Segmente dann erst beim
Aufruf des sekundären
Lippendetektionsmechanismus ausgewertet werden.
-
Der
Grund für
das Fehlschlagen des primären
Lippendetektionsmechanismus kann darin liegen, dass bei stark konturierten
Brillen, Sonnenbrillen oder durchgängigen Augenbrauen keine zwei
getrennten Augenbrauensegmente für
die gesichtsgeometrische Beurteilung zur Verfügung stehen, weshalb in diesem
Fall ein anderer Detektionsmechanismus zu verwenden ist. Bei dem
zweiten Lippendetektionsmechanismus werden dabei zunächst die
gleichen Bearbeitungsschritte, wie die in 3 erläuterten Schritte
BKV, GF und SA durchgeführt.
An Stelle des ersten Untersuchungsschritts US1 wird jedoch hier
ein zweiter Untersuchungsschritt US2 verwendet, bei dem zum Finden
der Lippen innerhalb des von der Kamera K erfassten Bildes wieder
die Gesichtsgeometrie genutzt wird, wobei hier an Stelle des ersten
und des zweiten Segments ein Segment gesucht wird, das geometrisch
der Länge
der beiden Augenbrauen zusammen entsprechen kann.
-
Ausgehend
von einem in 7A gezeigten einem
Bild einer Szene, die das Gesicht eines Benutzers (einer Person
in einem Fahrzeug) aufweist, welcher eine stark konturierte Brille
aufweist, soll hier das Gesicht bzw. die Mundpartie dieses Gesichts
ermittelt werden. Nach Durchführen
der in 3 erläuterten
Bearbeitungsschritte BKV, GF, SA bzgl. des erfaßten Bildes von 7A, wird ein in 7B gezeigtes (zweites) bearbeitetes
Bild (entsprechend 4C)
erhalten, in dem nur noch markante Hell-Dunkel-Übergänge bestimmter relevanter Größe und Form
vorhanden sind. Zunächst
wird von jedem dieser vorhandenen Segmente die horizontale Länge b' bestimmt, wie es
bei dem Segment S6 dargestellt ist. Nun wird zu jedem Segment, hier
beispielhaft an dem Segment S6 gezeigt, ein sich unterhalb befindliches
Segment gesucht, das von diesem einen bestimmten Abstand a' aufweist, wobei
das Verhältnis
a' zu b' ein zweites biogeometrisches
Verhältnis bezüglich eines
Gesichts aufweisen muss. Dieses zweite Verhältnis von a zu b liegt dabei
im Bereich von 1:1 bis 1,7:1, insbesondere jedoch zwischen 1,2:1
bis 1,5:1. Wie es in 7B zu
sehen ist, wird zu dem Segment S6 ein weiteres Segment S7 gefunden,
durch das die Bedingungen des zweiten Verhältnisses erfüllbar sind.
Sind mehrere Segmente vorhanden, durch die das zweite Verhältnis erfüllbar ist, so
ist es möglich,
für diese
Mehrzahl von Segmenten weitere Prüfkriterien zu finden. Beispielsweise
kann die Länge
des weiteren unterhalb des die Augenbrauen darstellenden Segments überprüft werden, die
innerhalb vorbestimmter Parameter zu liegen hat. Ist die Länge des
weiteren Segments beispielsweise zu groß (z.B grö ßer als die Länge b),
so kann dieses nicht als ein potenzielles Mundsegment identifiziert werden.
-
Ist
nun mittels dem sekundären
Lippendetektionsmechanismus zu einem ersten den Augenbrauen entsprechenden
Segment ein zweites der Mundpartie entsprechendes Segment gefunden
worden, so kann dieser gefundene Bereich bezüglich Position und Größe in dem
erfassten Bild als Analysebereich gespeichert werden und der oben
dargestellten Merkmalsextraktion zugeführt werden.
-
Lippenverfolgungsmechanismus
-
Ist
einmal die Position eines Analysebereichs in einem erfassten Bild
gefunden, so ist es nicht nötig,
in einem folgenden erfassten Bild jedes Mal den primären bzw.
sekundären
Lippendetektionsmechanismus durchzuführen, sondern es ist möglich, ausgehend
von der Position des gefundenen Analysebereichs mit der Mundpartie
auf die Position eines Analysebereichs mit einer Mundpartie in dem
folgenden zweiten erfassten Bild zu schließen. Dies spart zum Einen Rechenleistung
als auch Energie bzw. Strom einer Stromversorgungsquelle, in diesem
Fall eines Mobiltelefons. Ausgehend von einer Bilderfassungsrate
von 15 Bildern pro Sekunden kann angenommen werden, dass insbesondere
in Situationen, in denen sich eine Person in einer Umgebung bzw.
Szene quasi nicht bewegt, wie beispielsweise ein Fahrer in einem
Auto, sich die Position des gefundenen Analysebereichs mit der Mundpartie nicht
wesentlich von einem zum anderen erfassten Bild verändert. Anders
ausgedrückt,
basiert der Lippenverfolgungsmechanismus darauf, dass der in einem
ersten erfassten Bild gefundene Analysebereich mit der Mundpartie
bei einer erfolgreichen Merkmalsextraktion als Referenzkoordinaten
für das
nächste erfasste
Bild dient. Um jedoch geringe Abweichungen bezüglich der Position des Analysebereichs
auszugleichen, wird gemäß einer
vorteilhaften Ausgestaltung im zweiten erfassten Bild, wie es beispielsweise
in 8A gezeigt ist, ein
bezüglich
des ursprünglichen
Analysebereichs AB um einen bestimmten Faktor (hier Faktor 1,1)
erweiterter Analysebereich EAB, der insbesondere konzentrisch zum ursprünglichen
Analysebereich ist, zunächst
verwendet, um eine Merkmalsextraktion durchzuführen. Wird aus der Merkmalsextraktion,
insbesondere dem ersten Prüfschritt
mit der Plausibilitätsprüfung ein
negatives Ergebnis erhalten, so müssen der primäre bzw.
sekundäre
Lippendetektionsmechanismus in einem folgenden erfassten Bild wieder
verwendet werden, um die Position eines Analysebereichs mit Mundpartie
zu bestimmen. Ist jedoch der erste Prüfschritt einer Merkmalsextraktion
in dem erweiterten Analysebereich EAB, wie er in 8A gegenüber dem ursprünglichen
Analysebereich AB dargestellt ist, positiv, so können in einem zweiten Prüfschritt bzw.
der eigentlichen Merkmalsextraktion in dem erweiterten Analysebereich
EAB, wie er beispielsweise in 8B gezeigt
ist, Mundmerkmale bzw. Viseme extrahiert werden, wie es oben beschrieben
worden ist. Nach erfolgreicher Merkmalsextraktion kann dann der
erweiterte Analysebereich auf die Größe des ursprünglichen
Analysebereichs verringert werden, jedoch an eine Position, die
der tatsächlichen Position
der Mundpartie in diesem zweiten analysierten erfassten Bild entspricht.
Diese Position kann dann in einem dritten erfassten Bild wieder
als Referenzkoordinate dienen usw.
-
Zusammenfassend
kann also festgestellt werden, dass die in dem optischen Auswerteabschnitt
OAA durchgeführten
Verfahren zur Analyse einer Szene bzw. zum Auffinden, Verfolgen
und Analysieren einer Mundpartie, insbesondere für Datenverarbeitungsanordnung
mit eingeschränkten
Ressourcen vorteilhaft ist. Durch den Einsatz von gesichtsgeometrischen
Segmentierungsverfahren kann das visuelle oder optische Datenvolumen
zur Weiterverarbeitung sehr schnell auf kleine Segmentmengen reduziert
werden. Eingebaute Plausibilitäts-
bzw. Robustheitsprüfung
(bei der Merkmalsextraktion) erlauben dabei auch ein hohes Maß an Zuverlässigkeit und
verhindern eine Fehldetektion. Die ressourcenoptimierte Lippenverfolgung
erlaubt bei geringen Bewegungen eine in einer Szene vorhandenen
Per son die Verfolgung der Lippenbereiche über viele erfasste Bilder,
ohne erneutes Durchführen
von Lippendetektionsmechanismen.
-
Umwandeln
eines Bildes bezüglich
der Größe
-
Es
sei nun auf 1 verwiesen,
in der die wesentlichen Komponenten einer Datenverarbeitungsanordnung
zum Verarbeiten eines Bildes bzw. zum Umwandeln eines ersten Bilds
einer Szene in ein zweites Bild mit einer geringeren Größe dargestellt
sind. Diese Komponenten können
beispielsweise in einer Datenverarbeitungsanordnung in Form eines
Mobiltelefons MFG3 vorgesehen sein.
-
Im
Beispiel hier wird ein erstes Bild einer Szene mit einer ersten
Größe von einer
Kamera K des Mobiltelefons MFG3 erfasst und zu einer Auswerteeinrichtung
AWER1 geleitet, in der das Vorhandenseins und die Position eines
Gesichts in dem ersten Bild bestimmt wird. Die Auswerteeinrichtung AWER1
kann dabei einen optischen Auswerteabschnitt OAA (vgl. 2) aufweisen, der wiederum
einen bezüglich 3 erläuterten primären PLD
oder sekundären
SLD Lippendetektionsmechanismus (OAA, SE, AAA) umfassen kann, um
das Vorhandensein und die Position eines Gesichts GES in dem ersten
Bild einer Szene bestimmt. Anschließend wird in einer Einbeschreibungseinrichtung
EBER1, die Teil der Auswerteeinrichtung AWER1 ist, das Gesichts
GES in ein Gesichtsrahmenobjekt GRO (vgl. hierzu auch die Beschreibung
der 9), das beispielsweise
eine rechteckige Form haben kann, einbeschrieben. Das Gesichtsrahmenobjekt
hat dabei die Form und Größe eines
gewünschten
zweiten Bildes. Schließlich
wird durch eine Ausschneideeinrichtung ASER1 der Bildbereich, der
von dem Gesichtsrahmenobjekt umfasst wird, ausgeschnitten, um so das
zweite Bild in dem gewünschten
Format bzw. der gewünschten
Größe zu erhalten.
Dieses zweite Bild kann dann in einem Display bzw. einer Anzeigeeinrichtung
DSP des Mobiltelefons MFG3 angezeigt werden oder kann von einem
Video Encoder kodiert (beispielsweise gemäß einem der Standards H.263, MPEG4)
und zu einem weiteren Mobiltelefon über ein Kommunikationsnetz
beispielsweise im Rahmen einer Videotelefonie-Anwendung oder im
Rahmen eines MMS-Dienstes übertragen
werden.
-
Anhand
der 9A bis 9C soll nun die Funktionsweise
der gerade erläuterten
Datenverarbeitungsanordnung bildhaft dargestellt werden. Wie es in 9A zu sehen ist, ist in
einem ersten von einer Kamera erfassten Bild BI1 einer Szene ein
Gesicht GES vorhanden. Dieses erste Bild hat beispielsweise ein
CIF- oder VGA-Format. Mittels der Auswerteeinrichtung AWER1 (vgl. 1) wurde die Position des Gesichts
GES in dem Bild bestimmt. Anschließend wurde durch die Einbeschreibungseinrichtung
das Gesicht GES in ein Gesichtsrahmenobjekt GRO, hier in Form eines
Rechtecks (genauer eines Quadrats), einbeschrieben, das die Form
und Größe eines
gewünschten
zweiten Bilds hat. Nun wird der von dem Gesichtsrahmenobjekt GRO
umfasste Bereich des ersten Bildes BI1 von der Ausschneideeinrichtung ausgeschnitten,
so dass ein zweites Bild BI2, beispielsweise im CIF-Format, entsteht
(vgl. 9B), das die gewünschte Größe und das
gewünschte
Format aufweist. Der Vorteil dieses Verfahrens bei der Umwandlung
bzw. dem Herunterskalieren eines Bildes besteht darin, dass das
Gesicht GES einer Person in voller Größe erhalten bleibt und somit
der Bildinhalt auf den wesentlichsten Bestandteil reduziert ist.
-
Wird
das Bild BI1 hingegen auf herkömmliche
Weise herunterskaliert, wie es beispielsweise in 9C mit Bezug auf Bild BI2', das beispielsweise ebenso
im CIF-Format vorliegt, gezeigt ist, so würde das Gesicht GES stark in
der Größe reduziert
und somit nur noch schwer erkennbar sein. Insbesondere bei einer
Videotelefonie-Anwendung wäre
ein derartiges Bild BI2' wenig
vorteilhaft, da ja ein Gesprächsteilnehmer
gut sichtbar sein soll, wie es in Bild 9B der Fall ist.