DE112018003790T5 - Verfahren und System zur Einschätzung einer Kopfhaltung - Google Patents

Verfahren und System zur Einschätzung einer Kopfhaltung Download PDF

Info

Publication number
DE112018003790T5
DE112018003790T5 DE112018003790.8T DE112018003790T DE112018003790T5 DE 112018003790 T5 DE112018003790 T5 DE 112018003790T5 DE 112018003790 T DE112018003790 T DE 112018003790T DE 112018003790 T5 DE112018003790 T5 DE 112018003790T5
Authority
DE
Germany
Prior art keywords
head
updated
coordinates
posture
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112018003790.8T
Other languages
English (en)
Inventor
Bruno Mirbach
Frederic Garcia Becerro
Jilliam Maria Diaz Barros
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IEE International Electronics and Engineering SA
Original Assignee
IEE International Electronics and Engineering SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IEE International Electronics and Engineering SA filed Critical IEE International Electronics and Engineering SA
Publication of DE112018003790T5 publication Critical patent/DE112018003790T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur Einschätzung einer Kopfhaltung unter Verwendung einer monokularen Kamera (2). Um Mittel zur zuverlässigen und robusten Einschätzung einer Kopfhaltung in Echtzeit zur Verfügung zu stellen, sieht die Erfindung vor, dass das Verfahren umfasst: - Bereitstellen eines Ausgangsbildrahmens (I), der von der Kamera (2) aufgezeichnet wurde und einen Kopf (10) zeigt; und - Ausführen mindestens einer Haltungsaktualisierungsschleife mit den folgenden Schritten: - Identifizieren und Auswählen von mehreren hervorstechenden Punkten (S) des Kopfes (10) mit 2D-Koordinaten (p) in dem Anfangsbildrahmen (I) innerhalb eines Bereichs von Interesse (30); - Bestimmen von 3D-Koordinaten (P) für die ausgewählten hervorstechenden Punkte (S) unter Verwendung eines geometrischen Kopfmodells (20) des Kopfes (10) entsprechend einer Kopfhaltung; - Bereitstellen eines aktualisierten Bildrahmens (I), der von der Kamera (2) aufgezeichnet wurde und den Kopf (10) zeigt; - Identifizieren, innerhalb des aktualisierten Bildrahmens (I), mindestens einiger zuvor ausgewählter hervorstechender Punkte (S) mit aktualisierten 2D-Koordinaten (q); - Aktualisieren der Kopfhaltung durch Bestimmen aktualisierter 3D-Koordinaten (P) entsprechend den aktualisierten 2D-Koordinaten (q) unter Verwendung eines Perspektive-n-Punkt-Verfahrens; und Verwenden des aktualisierten Bildrahmens (I) als Anfangsbildrahmen (I) für die nächste Haltungsaktualisierungsschleife.

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft ein Verfahren und ein System zur Einschätzung einer Kopfhaltung.
  • Hintergrund der Erfindung
  • Die Einschätzung der Kopfhaltung (Head Pose Estimation, HPE) wird für verschiedene Arten von Anwendungen benötigt. Abgesehen von der Bestimmung der Kopfhaltung selbst ist die HPE oft zur Gesichtserkennung, der Erkennung eines Gesichtsausdrucks, eines Blicks oder dergleichen notwendig. Viele dieser Anwendungen sind sicherheitsrelevant, z. B. wenn die Kopfhaltung eines Fahrers erkannt wird, um zu bestimmen, ob er müde oder abgelenkt ist. Das Erkennen und Überwachen der Haltung des Kopfes eines Menschen basierend auf Kamerabildern ist jedoch eine Herausforderung. Dies gilt insbesondere, falls ein monokulares Kamerasystem verwendet wird. Im Allgemeinen kann die Kopfhaltung durch 6 Freiheitsgrade (Degrees of Freedom, DOF), nämlich 3 für die Translation und 3 für die Drehung, gekennzeichnet werden. Bei den meisten Anwendungen müssen diese 6 DOF in Echtzeit bestimmt oder geschätzt werden. Einige der Probleme im Zusammenhang mit der Einschätzung der Kopfhaltung bestehen darin, dass der menschliche Kopf geometrisch ziemlich komplex ist, sich einzelne Köpfe erheblich (in ihrer Größe, den Proportionen, der Farbe usw.) unterscheiden und die Beleuchtung einen wesentlichen Einfluss auf die Erscheinung des Kopfes haben kann.
  • Im Allgemeinen basieren HPE-Ansätze, die für monokulare Kamerasysteme gedacht sind, auf geometrischen Kopfmodellen und der Verfolgung von Merkmalspunkten auf dem Kopfmodell in dem Bild. Merkmalspunkte können Kennungsmarken im Gesicht (z. B. Augen, Nase oder Mund) oder zufällige Punkte im Gesicht der Person sein. Somit beruhen diese Ansätze entweder auf einer genauen Erkennung von Kennungsmarken im Gesicht oder einer Rahmen-zu-Rahmen-Gesichtserkennung. Der größte Nachteil dieser Verfahren besteht darin, dass sie bei großen Drehwinkeln des Kopfes versagen können, wenn Kennungsmarken im Gesicht der Kamera gegenüber verdeckt werden. Verfahren, die auf dem Verfolgen von zufälligen Merkmalen auf der Gesichtsoberfläche basieren, können stärkere Drehungen bewältigen, aber das Verfolgen dieser Merkmale ist oft instabil, z. B. auf Grund einer geringen Textur oder einer variierenden Beleuchtung. Außerdem ist die Gesichtserkennung bei großen Drehwinkeln auch weniger zuverlässig als bei einer Ansicht von vorne. Obwohl es mehrere Ansätze gab, diese Nachteile anzugehen, bleibt das grundsätzliche Problem bisher ungelöst, nämlich, dass eine Rahmen-zu-Rahmen-Erkennung des Gesichts oder der Kennungsmarken im Gesicht erforderlich ist.
  • Aufgabe der Erfindung
  • Eine Aufgabe der vorliegenden Erfindung besteht darin, Mittel zur zuverlässigen und robusten Einschätzung der Kopfhaltung in Echtzeit zur Verfügung zu stellen. Die Aufgabe wird durch ein Verfahren gemäß Anspruch 1 und ein System gemäß Anspruch 14 gelöst.
  • Allgemeine Beschreibung der Erfindung
  • Die vorliegende Erfindung stellt ein Verfahren zur Einschätzung einer Kopfhaltung unter Verwendung einer monokularen Kamera zur Verfügung. Im Zusammenhang mit dieser Erfindung werden „Einschätzung“ der Kopfhaltung und „Bestimmen“ der Kopfhaltung synonym verwendet. Es versteht sich, dass, immer wenn eine Kopfhaltung allein basierend auf Bildern bestimmt wird, es Raum für Ungenauigkeit gibt, wodurch es sich dabei um eine Einschätzung der Kopfhaltung handelt. Das Verfahren verwendet eine monokulare Kamera, was bedeutet, dass jeweils nur Bilder von einem einzelnen Beobachtungspunkt verfügbar sind. Es ist jedoch denkbar, dass die monokulare Kamera selbst ihre Position und/oder Ausrichtung ändert, während das Verfahren ausgeführt wird. „Kopf“ bezieht sich in diesem Zusammenhang meist auf den Kopf eines Menschen, obwohl es denkbar ist, das Verfahren auf die HPE des Kopfes eines Tieres anzuwenden.
  • In einem ersten Schritt wird ein Anfangsbildrahmen, der von der Kamera aufgezeichnet wird, bereitgestellt, wobei der Anfangsbildrahmen einen Kopf zeigt. Es versteht sich, dass der Bildrahmen normalerweise als eine Sequenz von (digitalen) Daten, die Pixel darstellen, bereitgestellt wird. Der Anfangsbildrahmen stellt alles im Gesichtsfeld der Kamera dar, und ein Teil des Anfangsbildrahmens ist ein Bild eines Kopfes. Normalerweise sollte der Anfangsbildrahmen den gesamten Kopf zeigen, obwohl das erfindungsgemäße Verfahren auch funktioniert, falls die Person der Kamera z. B. so nahe ist, dass nur ein Teil des Kopfes (z. B. 80 %) sichtbar ist. Im Allgemeinen kann der Anfangsbildrahmen monochrom oder mehrfarbig sein.
  • Nachdem der Anfangsbildrahmen bereitgestellt worden ist, kann eine anfängliche Kopfhaltung erhalten werden. Diese anfängliche Kopfhaltung kann anhand des Anfangsbildrahmens basierend auf einem vordefinierten geometrischen Kopfmodell bestimmt werden, wie nachstehend beschrieben wird. Alternativ könnte das Verfahren eine extern bestimmte anfängliche Kopfhaltung verwenden, die wie später beschrieben bereitzustellen ist. Anschließend wird mindestens eine Haltungseinschätzungsschleife ausgeführt. Es ist jedoch anzumerken, dass die Haltungseinschätzungsschleife nicht sofort anschließend ausgeführt werden muss. Falls zum Beispiel die Kamera eine Reihe von Bildrahmen z. B. mit 50 Rahmen pro Sekunde oder 100 Rahmen pro Sekunde aufzeichnet, muss die Haltungseinschätzungsschleife nicht für den Bildrahmen ausgeführt werden, der dem Anfangsbildrahmen folgt. Es ist vielmehr möglich, dass mehrere Rahmen oder sogar mehrere zehn Rahmen seit dem Anfangsbildrahmen vergangen sind. Jede Haltungseinschätzungsschleife umfasst die folgenden Schritte, die nicht unbedingt in der Reihenfolge, in der sie erwähnt werden, ausgeführt werden müssen.
  • In einem Schritt werden mehrere hervorstechende Punkte des Kopfes mit 2D-Koordinaten in dem Anfangsbildrahmen innerhalb eines Bereichs von Interesse identifiziert und ausgewählt. Hervorstechende Punkte (oder hervorstechende Merkmale) sind Punkte, die in gewisser Weise deutlich von ihrer Umgebung unterscheidbar sind, und zwar meistens auf Grund eines deutlichen Kontrastes der Farbe oder Helligkeit. Meistens sind sie Teil eines strukturierten Bereichs. Beispiele für hervorstechende Punkte sind Augen- oder Mundwinkel, Merkmale eines Ohrs, Muttermale, Piercings oder dergleichen. Um diese hervorstechenden Punkte zu erkennen, können auf dem Fachgebiet bekannte Algorithmen verwendet werden, z. B. Harris-Corner-Erkennung, SIFT, SURF oder FAST. Mehrere solcher hervorstechender Punkte werden identifiziert und ausgewählt. Dies umfasst die Möglichkeit, dass einige hervorstechende Punkte identifiziert, jedoch nicht ausgewählt werden (d. h. verworfen werden), zum Beispiel da sie als für die folgenden Schritte des Verfahrens weniger geeignet angesehen werden. Der Bereich von Interesse ist der Teil des Anfangsbildrahmens, der als den Kopf oder zumindest einen Teil des Kopfes zeigend angesehen wird. Mit anderen Worten ist die Identifizierung und Auswahl von hervorstechenden Punkten auf diesen Bereich von Interesse beschränkt. Der Zeitintervall zwischen dem Aufzeichnen des Anfangsbildrahmens und dem Auswählen der mehreren hervorstechenden Punkte kann kurz oder lang sein. Für Echtzeit-Anwendungen ist es jedoch meistens wünschenswert, dass der Zeitintervall kurz ist, z. B. weniger als 10 ms. Im Allgemeinen ist die Identifizierung der hervorstechenden Punkte nicht auf das Gesicht der Person beschränkt. Wenn zum Beispiel der Kopf gedreht wird, umfasst der Bereich von Interesse, zumindest in einer Schleife, einen Bereich des Kopfes ohne Gesicht. In diesem Fall befindet sich, zumindest in einer Schleife, mindestens ein ausgewählter hervorstechender Punkt in einem Bereich des Kopfes ohne Gesicht. Ein solcher hervorstechender Punkt kann z. B. ein Merkmal eines Ohrs, eines Ohrrings oder dergleichen sein. Nicht auf das Erkennen von Gesichtsmerkmalen beschränkt zu sein, stellt einen großen Vorteil des erfindungsgemäßen Verfahrens dar, was eine Rahmen-zu-Rahmen-Erkennung des Gesichts überflüssig macht.
  • Nachdem die hervorstechenden Punkte ausgewählt worden sind, werden entsprechende 3D-Koordinaten unter Verwendung eines geometrischen Kopfmodells des Kopfes entsprechend einer Kopfhaltung bestimmt. Es versteht sich, dass die 3D-Koordinaten, die bestimmt werden, die 3D-Koordinaten der hervorstechenden Punkte des geometrischen 3D-Kopfmodells der aktuellen Kopfhaltung sind. Mit anderen Worten werden, ausgehend von den 2D-Koordinaten (im Anfangsbildrahmen) der hervorstechenden Punkte, 3D-Koordinaten im 3D-Raum (oder in der „realen Welt“) bestimmt (oder geschätzt). Natürlich wären die 3D-Koordinaten ohne zusätzliche Informationen mehrdeutig. Um diese Mehrdeutigkeit zu beheben, wird ein geometrisches Kopfmodell verwendet, welches die Größe und Form des Kopfes (normalerweise auf vereinfachte Weise) definiert, und eine Kopfhaltung wird angenommen, die 6 DOF des Kopfes definiert, d. h. seine Position und Ausrichtung. Der Fachmann wird erkennen, dass das geometrische Kopfmodell für alle Haltungen gleich ist, nicht jedoch seine Konfiguration (Ausrichtung + Position). Es versteht sich ferner, dass die (anfängliche) Kopfhaltung auf irgendeine Weise vorbestimmt werden muss. Während es denkbar ist, die Position des Kopfes z. B. durch Annahme einer Durchschnittsgröße und in Beziehung setzen dieser mit der Größe des Anfangsbilds ungefähr zu bestimmen, ist es eher schwierig, die Ausrichtung einzuschätzen. Eine Möglichkeit besteht darin, die 3D-Gesichtsmerkmale eines anfänglichen Kopfmodells zu betrachten. Unter Verwendung eines Perspektive-n-Punkt-Verfahrens wird die Kopfhaltung, die diese 3D-Gesichtsmerkmale mit ihren in dem Bild erkannten entsprechenden 2D-Gesichtsmerkmalen in Beziehung setzt, eingeschätzt. Diese Initialisierung erfordert jedoch die Erkennung einer ausreichenden Zahl von 2D-Gesichtsmerkmalen in dem Bild, was nicht immer garantiert werden kann. Um dieses Problem zu lösen, kann eine Person gebeten werden, direkt in die Kamera zu schauen (oder eine andere, gut definierte Position einzunehmen), wenn der Anfangsbildrahmen aufgezeichnet wird. Alternativ könnte ein Verfahren verwendet werden, das bestimmt, in welchen Rahmen die Person geradeaus in die Kamera schaut, und dieser Rahmen könnte als Anfangsbildrahmen verwendet werden. Wenn dieser Schritt abgeschlossen ist, werden die hervorstechenden Punkte 3D-Koordinaten zugeordnet, die sich an dem Kopf befinden, wie durch das (normalerweise vereinfachte) geometrische Kopfmodell dargestellt wird.
  • In einem weiteren Schritt wird ein von der Kamera aufgezeichneter aktualisierter Bildrahmen, der den Kopf zeigt, bereitgestellt. Dieser aktualisierte Bildrahmen wurde nach dem Anfangsbildrahmen aufgezeichnet, aber wie vorstehend erwähnt, muss es sich dabei nicht um den folgenden Rahmen handeln. Im Gegensatz zu auf dem Fachgebiet bekannten Verfahren arbeitet das erfindungsgemäße Verfahren selbst dann zufriedenstellend, wenn mehrere Bildrahmen von dem Anfangsbildrahmen bis zum aktualisierten Bildrahmen vergangen sind. Dies impliziert natürlich die Möglichkeit, dass sich der aktualisierte Bildrahmen erheblich von dem Anfangsbildrahmen unterscheidet und dass sich die Haltung des Kopfes wesentlich geändert haben kann.
  • Nachdem der aktualisierte Bildrahmen bereitgestellt worden ist, werden zumindest einige zuvor ausgewählte hervorstechende Punkte mit aktualisierten 2D-Koordinaten innerhalb des aktualisierten Bildrahmens identifiziert. Die hervorstechenden Punkte können z. B. von dem Anfangsbildrahmen zum aktualisierten Bildrahmen verfolgt werden. Es sind jedoch auch andere Verfahren zur Merkmalsregistrierung möglich. Eine Möglichkeit wäre, hervorstechende Punkte in dem aktualisierten Bildrahmen zu bestimmen und die bestimmten hervorstechenden Punkte in dem aktualisierten Bildrahmen auf hervorstechende Punkte in dem Anfangsbildrahmen in Register zu bringen. Die Identifizierung der hervorstechenden Punkte mit aktualisierten 2D-Koordinaten kann bevor oder nachdem die 3D-Koordinaten bestimmt worden sind oder gleichzeitig, d. h. parallel, erfolgen. Normalerweise unterscheiden sich, da sich die Kopfhaltung zwischen dem Anfangsbildrahmen und dem aktualisierten Bildrahmen geändert hat, die aktualisierten 2D-Koordinaten von den anfänglich identifizierten 2D-Koordinaten. Es ist auch möglich, dass einige der zuvor ausgewählten hervorstechenden Punkte in dem aktualisierten Bildrahmen nicht sichtbar sind, normalerweise, da die Person ihren Kopf gedreht hat, sodass einige hervorstechende Punkte nicht mehr zur Kamera weisen oder da einige hervorstechende Punkte von einem Objekt zwischen der Kamera und dem Kopf verdeckt werden. Wenn jedoch zuvor genügend hervorstechende Punkte ausgewählt worden sind, sollte immer noch eine ausreichende Anzahl sichtbar sein. Diese hervorstechenden Punkte werden zusammen mit ihren aktualisierten 2D-Koordinaten identifiziert.
  • Sobald die hervorstechenden Punkte identifiziert wurden und die aktualisierten 2D-Koordinaten bekannt sind, wird die Kopfhaltung durch Bestimmen von aktualisierten 3D-Koordinaten entsprechend den aktualisierten 2D-Koordinaten unter Verwendung eines Perspektive-n-Punkt-Verfahrens aktualisiert. Im Allgemeinen ist der Perspektive-n-Punkt das Problem des Einschätzens der Haltung einer kalibrierten Kamera, wenn ein Satz von n 3D-Punkten in der Welt und ihre entsprechenden 2D-Projektionen in dem Bild gegeben sind. Dies ist jedoch äquivalent zur Haltung des Kopfes, die in Bezug auf die Kamera unbekannt ist, wenn n hervorstechende Punkte des Kopfes mit 3D-Koordinaten gegeben sind. Natürlich basiert das Verfahren auf der Annahme, dass sich die Positionen der hervorstechenden Punkte in Bezug auf das geometrische Kopfmodell nicht wesentlich ändern. Obwohl der Kopf mit seinen hervorstechenden Punkten nicht vollkommen starr ist und sich die relativen Positionen der hervorstechenden Punkte in einem gewissen Maß ändern können (z. B. auf Grund von Änderungen des Gesichtsausdrucks), ist es im Allgemeinen immer noch möglich, das Problem des Perspektive-n-Punkts zu lösen, während Änderungen der relativen Positionen zu gewissen Diskrepanzen führen können, die minimiert werden können, um die wahrscheinlichste Kopfhaltung zu bestimmen. Der große Vorteil des Einsetzens eines Perspektive-n-Punkt-Verfahrens, um die aktualisierten 3D-Koordinaten und somit die aktualisierte Kopfhaltung zu bestimmen, liegt darin, dass dieses Verfahren auch dann funktioniert, wenn größere Änderungen zwischen dem Anfangsbildrahmen und dem aktualisierten Bildrahmen auftreten. Es ist nicht notwendig, eine Rahmen-zu-Rahmen-Verfolgung des Kopfes oder der hervorstechenden Punkte auszuführen. Solange eine ausreichende Anzahl von zuvor ausgewählten hervorstechenden Punkten in dem aktualisierten Bildrahmen identifiziert werden kann, kann die Kopfhaltung stets aktualisiert werden.
  • Falls mehr als eine Haltungsaktualisierungsschleife ausgeführt wird, wird der aktualisierte Bildrahmen als der Anfangsbildrahmen für die nächste Schleife verwendet.
  • Während es möglich ist, dass die Parameter des geometrischen Kopfmodells und der Kopfhaltung extern bereitgestellt werden, z. B. durch eine manuelle oder sprachliche Eingabe, können einige von diesen unter Verwendung der Kamera bestimmt (oder geschätzt) werden. Zum Beispiel ist es möglich, dass vor dem Ausführen der mindestens einen Haltungsaktualisierungsschleife ein Abstand zwischen der Kamera und dem Kopf bestimmt wird. Der Abstand wird unter Verwendung eines von der Kamera aufgezeichneten Bildrahmens, z. B. des Anfangsbildrahmens, bestimmt. Falls zum Beispiel die Person zur Kamera weist, kann der Abstand zwischen den Zentren der Augen in dem Bildrahmen bestimmt werden. Wird dies mit der mittleren Pupillendistanz verglichen, die gemäß anthropometrischen Datenbanken bei Männern 64,7 mm und bei Frauen 62,3 mm entspricht, ist das Verhältnis dieser Abstände gleich dem Verhältnis einer Brennweite der Kamera und dem Abstand zwischen der Kamera und dem Kopf, oder vielmehr dem Abstand zwischen der Kamera und der Grundlinie der Augen. Falls die Abmessungen des Kopfes, oder vielmehr des geometrischen Kopfmodells, bekannt sind, ist es möglich, die 3D-Koordinaten des Zentrums des Kopfes zu bestimmen, wodurch 3 der 6 DOF der Kopfhaltung bekannt sind.
  • Es wird auch bevorzugt, dass vor dem Ausführen der mindestens einen Haltungsaktualisierungsschleife Abmessungen des Kopfmodells bestimmt werden. Wie dies ausgeführt wird, hängt natürlich von dem verwendeten Kopfmodell ab. Bei einem zylindrischen Kopfmodell kann eine Bounding Box des Kopfes innerhalb des Bildrahmens bestimmt werden, deren Höhe der Höhe des Zylinders entspricht, wenn angenommen wird, dass der Kopf nicht geneigt ist, z. B. wenn die Person zur Kamera weist. Die Breite der Bounding Box entspricht dem Durchmesser des Zylinders. Es versteht sich, dass, um die tatsächliche Höhe und den tatsächlichen Durchmesser (oder Radius) zu bestimmen, der Abstand zwischen der Kamera und dem Kopf auch bekannt sein muss.
  • Das Kopfmodell stellt normalerweise eine vereinfachte geometrische Form dar. Dies kann z. B. ein ellipsoides Kopfmodell (Ellipsoidal Head Model, EHM) oder sogar ein ebenes Kopfmodell (Plane Head Model, PHM) sein. Nach einer Ausführungsform ist das Kopfmodell ein zylindrisches Kopfmodell (Cylindrical Head Model, CHM).
  • Mit anderen Worten ist die Form des Kopfes einem Zylinder angenähert. Während dieses Modell einfach ist und eine leichte Identifizierung der sichtbaren Abschnitte der Oberfläche ermöglicht, ist es immer noch eine ausreichend gute Annäherung, um zuverlässige Ergebnisse zu ergeben. Es können jedoch auch andere, genauere Modelle vorteilhaft verwendet werden.
  • Normalerweise wird das Verfahren verwendet, um eine sich ändernde Kopfhaltung über einen gewissen Zeitraum zu überwachen. Somit wird bevorzugt, dass mehrere aufeinanderfolgende Haltungsaktualisierungsschleifen ausgeführt werden.
  • Es gibt verschiedene Optionen, wie zuvor ausgewählte hervorstechende Punkte identifiziert werden. Das allgemeine Problem kann als das Verfolgen der hervorstechenden Punkte vom Anfangsbildrahmen bis zum aktualisierten Bildrahmen angesehen werden. Es gibt mehrere Ansätze für ein solches optisches Verfolgungsproblem. Nach einer bevorzugten Ausführungsform werden zuvor ausgewählte hervorstechende Punkte unter Verwendung eines Lichtflusses identifiziert. Dies kann zum Beispiel unter Verwendung des Merkmals-Trackers Kanade-Lucas-Tomasi (KLT) ausgeführt werden, wie er in J. Y. Bouget, „Pyramidal implementation of the affine lucas kanade feature tracker description of the algorithm", Intel Corporation, 2001, Band 1, Nr. 2, S. 1-9 ff., offenbart ist. Es versteht sich natürlich, dass an Stelle des Verfolgens der hervorstechenden Punkte auch andere Merkmalsregistrierungsverfahren möglich sind. Eine Möglichkeit wäre, hervorstechende Punkte in dem aktualisierten Bildrahmen zu bestimmen und die bestimmten hervorstechenden Punkte in dem aktualisierten Bildrahmen auf hervorstechende Punkte in dem Anfangsbildrahmen in Register zu bringen.
  • Vorzugsweise werden die 3D-Koordinaten durch Projizieren von 2D-Koordinaten von einer Bildebene der Kamera auf eine sichtbare Kopfoberfläche bestimmt. Die Bildebene der Kamera kann der Position eines CCD-Elements oder dergleichen entsprechen. Dies kann als die physische Position der Bildrahmen angesehen werden. Angesichts der optischen Kennzeichen der Kamera ist es möglich, jeden Punkt auf der Bildebene auf ihren Ursprung zu projizieren oder durch Strahlung zu verfolgen („Ray-Tracing“), falls die Oberfläche des entsprechenden Objekts bekannt ist. In diesem Fall wird eine sichtbare Kopfoberfläche bereitgestellt und die 3D-Koordinaten entsprechen dem Schnittpunkt einer zurückverfolgten Strahlung bei dieser sichtbaren Kopfoberfläche. Die sichtbare Kopfoberfläche stellt die Teile des Kopfes dar, die als sichtbar angesehen werden. Es versteht sich, dass sich, abhängig von dem verwendeten Kopfmodell, die tatsächlich sichtbare Oberfläche des (realen) Kopfes mehr oder weniger unterscheiden kann.
  • Gemäß einer bevorzugten Ausführungsform wird die sichtbare Kopfoberfläche durch Bestimmen des Schnittpunktes einer Grenzebene mit einer Modellkopfoberfläche bestimmt. Die Modellkopfoberfläche ist eine Oberfläche des verwendeten geometrischen Kopfmodells. Bei einem CHM ist die Modellkopfoberfläche eine zylindrische Oberfläche. Die Grenzebene wird verwendet, um den Teil der Modellkopfoberfläche, der als unsichtbar (oder verdeckt) angesehen wird, von dem Teil, der als sichtbar angesehen wird, zu trennen. Die Genauigkeit der somit bestimmten sichtbaren Kopfoberfläche hängt teilweise von dem Kopfmodell ab, aber bei einem CHM ist das Ergebnis ausreichend, wenn die Position und Ausrichtung der Grenzebene angemessen bestimmt werden.
  • Vorzugsweise ist die Grenzebene parallel zu einer X-Achse der Kamera und einer Mittelachse des zylindrischen Kopfmodells. Hier ist die X-Achse eine horizontale Achse senkrecht zur optischen Achse. In dem entsprechenden Koordinatensystem entspricht die Z-Achse der optischen Achse und die Y-Achse der vertikalen Achse. Natürlich sind die jeweiligen Achsen innerhalb des Bezugssystems der Kamera horizontal/vertikal, und nicht unbedingt in Bezug auf die Richtung der Schwerkraft. Die Mittelachse des zylindrischen Kopfmodells verläuft durch die Zentren jeder Grundfläche des Zylinders. Mit anderen Worten ist dies die Symmetrieachse des Zylinders. Man kann auch sagen, dass sich der normale Vektor der Grenzebene aus dem Querprodukt der X-Achse und der Mittelachse ergibt. Der Schnittpunkt dieser Grenzebene und der (zylindrischen) Modellkopfoberfläche definiert die (dreidimensionalen) Kanten der sichtbaren Kopfoberfläche.
  • Es sei angemerkt, dass der Bereich von Interesse durch jedes geeignete Verfahren, das dem Fachmann bekannt ist, anhand des Bildrahmens bestimmt werden kann. Nach einer Ausführungsform wird der Bereich von Interesse durch Projizieren der sichtbaren Kopfoberfläche auf die Bildebene definiert. Der Schnittpunkt der Grenzebene und der (zylindrischen) Modellkopfoberfläche definiert die (dreidimensionalen) Kanten der sichtbaren Kopfoberfläche. Das Projizieren dieser Kanten auf die Bildebene der Kamera ergibt die entsprechenden 2D-Koordinaten in dem Bild. Diese entsprechen dem (aktuellen oder aktualisierten) Bereich von Interesse. Wenn z. B. der Kopf gedreht wird, umfasst der Bereich von Interesse, wie vorstehend erwähnt, zumindest in einer Schleife einen Bereich des Kopfes ohne Gesicht. In diesem Fall umfasst die sichtbare Kopfoberfläche, zumindest in einer Schleife, eine Kopfoberfläche ohne Gesicht.
  • Gemäß einer bevorzugten Ausführungsform werden die hervorstechenden Punkte basierend auf einem zugeordneten Gewicht ausgewählt, das von dem Abstand zu einem Rand des Bereichs von Interesse abhängt. Dies basiert auf der Annahme, dass hervorstechende Punkte, die nahe dem Rand des Bereichs von Interesse liegen, gegebenenfalls nicht zu dem tatsächlichen Kopf gehören können oder mit höherer Wahrscheinlichkeit verdeckt werden können, auch wenn sich die Kopfhaltung nur leicht ändert. Zum Beispiel könnte ein solcher hervorstechender Punkt zu dem Ohr der Person gehören und somit sichtbar sein, wenn die Person in die Kamera schaut, aber auch dann verdeckt werden, wenn die Person ihren Kopf nur leicht dreht. Daher könnten, falls genug hervorstechende Punkte weiter von dem Rand des Bereichs von Interesse erkannt werden, hervorstechende Punkte, die näher am Rand liegen, verworfen werden.
  • Auch kann das Perspektive-n-Punkt-Verfahren basierend auf dem Gewicht der hervorstechenden Punkte ausgeführt werden. Falls zum Beispiel das Ergebnis des Perspektive-n-Punkt-Verfahrens uneindeutig ist, könnten die hervorstechenden Punkte, die näher am Rand des Bereichs von Interesse erkannt worden sind, vollständig vernachlässigt werden, oder jegliche Unstimmigkeiten bei der Bestimmung der aktualisierten 3D-Koordinaten, die diesen hervorstechenden Punkten zugeordnet sind, könnten toleriert werden. Mit anderen Worten werden beim Bestimmen der aktualisierten Kopfhaltung die hervorstechenden Punkte, die weiter vom Rand entfernt sind, als zuverlässiger und mit größerem Gewicht behandelt. Dieser Ansatz kann auch als „Distanztransformation“ bezeichnet werden.
  • Falls mehrere aufeinanderfolgende Haltungsaktualisierungsschleifen ausgeführt werden, ist der anfänglich spezifizierte Bereich von Interesse normalerweise nach einiger Zeit nicht mehr geeignet. Dies würde zu Schwierigkeiten beim Aktualisieren der hervorstechenden Punkte führen, da die Erkennung in einem Bereich des Bildrahmens erfolgen würde, der nicht gut der Position des Kopfes entspricht. Es wird daher bevorzugt, dass in jeder Haltungsaktualisierungsschleife der Bereich von Interesse aktualisiert wird. Normalerweise wird das Aktualisieren des Bereichs von Interesse nach dem Aktualisieren der Kopfhaltung ausgeführt.
  • Die Erfindung stellt auch ein System zur Einschätzung einer Kopfhaltung zur Verfügung, aufweisend eine monokulare Kamera und eine Verarbeitungsvorrichtung, die dafür ausgelegt ist:
    • - einen Anfangsbildrahmen, der von der Kamera aufgezeichnet wurde und einen Kopf zeigt, zu empfangen; und
    • - mindestens eine Haltungsaktualisierungsschleife mit den folgenden Schritten auszuführen:
    • - Identifizieren und Auswählen von mehreren hervorstechenden Punkten des Kopfes mit 2D-Koordinaten in dem Anfangsbildrahmen innerhalb eines Bereichs von Interesse;
    • - Bestimmen von entsprechenden 3D-Koordinaten unter Verwendung eines geometrischen Kopfmodells des Kopfes entsprechend einer Kopfhaltung;
    • - Empfangen eines aktualisierten Bildrahmens, der von der Kamera aufgezeichnet wurde und den Kopf zeigt;
    • - Identifizieren, innerhalb des aktualisierten Bildrahmens, mindestens einiger zuvor ausgewählter hervorstechender Punkte mit aktualisierten 2D-Koordinaten;
    • - Aktualisieren der Kopfhaltung durch Bestimmen aktualisierter 3D-Koordinaten entsprechend den aktualisierten 2D-Koordinaten unter Verwendung eines Perspektive-n-Punkt-Verfahrens; und
    • - Verwenden des aktualisierten Bildrahmens als Anfangsbildrahmen für die nächste Haltungsaktualisierungsschleife.
  • Die Verarbeitungsvorrichtung kann mit der Kamera über eine drahtgebundene oder drahtlose Verbindung verbunden sein, um Bildrahmen von der Kamera zu empfangen und gegebenenfalls Befehle an die Kamera zu übertragen. Es versteht sich, dass normalerweise zumindest einige Funktionen der Verarbeitungsvorrichtung softwareimplementiert sind.
  • Andere Begriffe und Funktionen, die von der Verarbeitungsvorrichtung ausgeführt werden, wurden vorstehend mit Bezug auf das entsprechende Verfahren beschrieben und werden daher nicht erneut erläutert.
  • Bevorzugte Ausführungsformen des erfindungsgemäßen Systems entsprechen denjenigen des erfindungsgemäßen Verfahrens. Mit anderen Worten ist das System, oder normalerweise die Verarbeitungsvorrichtung des Systems, vorzugsweise dazu geeignet, die bevorzugten Ausführungsformen des erfindungsgemäßen Verfahrens auszuführen.
  • Figurenliste
  • Weitere Einzelheiten und Vorteile der vorliegenden Erfindung ergeben sich aus der folgenden ausführlichen Beschreibung von nicht einschränkenden Ausführungsformen mit Bezug auf die beigefügten Zeichnungen, wobei:
    • 1 eine schematische Darstellung eines erfindungsgemäßen Systems und eines Kopfes ist;
    • 2 ein Ablaufdiagramm ist, das eine Ausführungsform des erfindungsgemäßen Verfahrens veranschaulicht;
    • 3 einen ersten Initialisierungsschritt des Verfahrens aus 2 veranschaulicht;
    • 4 einen zweiten Initialisierungsschritt des Verfahrens aus 2 veranschaulicht; und
    • 5 eine Sequenz von Schritten des Verfahrens aus 2 veranschaulicht.
  • Beschreibung von bevorzugten Ausführungsformen
  • 1 zeigt schematisch ein System 1 zur Einschätzung einer Kopfhaltung gemäß der Erfindung und einen Kopf 10 einer Person. Das System 1 umfasst eine monokulare Kamera 2, die durch eine vertikale Y-Achse, eine horizontale Z-Achse, die der optischen Achse entspricht, und eine X-Achse, die senkrecht zur Zeichnungsebene aus 1 ist, gekennzeichnet sein kann. Die Kamera 2 ist (per Draht oder drahtlos) mit einer Verarbeitungsvorrichtung 3 verbunden, die Bildrahmen I0, In, In+1 empfangen kann, die von der Kamera 2 aufgezeichnet wurden. Die Kamera 2 ist zum Kopf 10 hin gerichtet. Das System 1 ist dafür ausgelegt, ein Verfahren zur Einschätzung einer Kopfhaltung auszuführen, was nun anhand der 2 bis 5 erklärt wird.
  • 2 ist ein Ablaufdiagramm, das eine Ausführungsform des erfindungsgemäßen Verfahrens veranschaulicht. Nach dem Start wird ein Anfangsbildrahmen I0 von der Kamera aufgezeichnet, wie in den 3 und 4 gezeigt ist. Die „physische Position“ jedes Bildrahmens entspricht einer Bildebene 2.1 der Kamera 2. Der Anfangsbildrahmen I0 wird der Verarbeitungsvorrichtung 3 bereitgestellt. In einem folgenden Schritt bestimmt die Verarbeitungsvorrichtung 3 einen Abstand Zeyes zwischen der Kamera und dem Kopf 10, oder vielmehr zwischen der Kamera und der Grundlinie der Augen, der (wie in 3 veranschaulicht ist) durch Z e y e s = f δ m δ p x
    Figure DE112018003790T5_0001
    gegeben ist, wobei f die Brennweite der Kamera in Pixeln ist, δpx der geschätzte Abstand zwischen den Zentren der Augen auf dem Bildrahmen I0 ist und δmm die mittlere Pupillendistanz ist, die gemäß anthropometrischen Datenbanken 64,7 mm bei Männern und 62,3 mm bei Frauen beträgt. Wie in den 3 bis 5 gezeigt ist, ist der reale Kopf 10 durch ein zylindrisches Kopfmodell (CHM) 20 angenähert. Während der Initialisierung wird angenommen, dass sich der Kopf 10 in einer vertikalen Position befindet und zur Kamera 2 weist, weshalb das CHM 20 auch aufrecht ist und seine Mittelachse 23 parallel zur Y-Achse der Kamera 2 liegt. Die Mittelachse 23 verläuft durch die Zentren CT, CB der oberen und unteren Grundflächen des CHM 20.
  • Zcam bezeichnet den Abstand zwischen dem Zentrum des CHM 20 und der Kamera 2 und ist gleich der Summe von Zeyes und dem Abstand Zhead vom Zentrum des Kopfes 10 zum Mittelpunkt zwischen der Grundlinie der Augen. Zcam ist durch Z h e a d = r 2 ( δ m m / 2 ) 2
    Figure DE112018003790T5_0002
    auf einen Radius r des CHM bezogen. Wie in 4 gezeigt ist, können die Abmessungen des CHM 20 durch eine Bounding Box in dem Bildrahmen bestimmt werden, der einen Bereich von Interesse 30 definiert. Die Höhe der Bounding Box entspricht der Höhe des CHM 20, während die Breite der Bounding Box dem Durchmesser des CHM 20 entspricht. Natürlich müssen die jeweiligen Größen in dem Bildrahmen I0 um einen Faktor von δ m m δ p x
    Figure DE112018003790T5_0003
    skaliert werden, um die tatsächlichen Größen im 3D- Raum zu erhalten. Mit den gegebenen 2D-Koordinaten {PTL, PTR, PBL, PBR} der oberen linken, oberen rechten, unteren linken und unteren rechten Ecke der Bounding Box berechnet die Verarbeitungsvorrichtung 3   r = 1 2 I p T R p T L I δ m m δ p x .
    Figure DE112018003790T5_0004
    In ähnlicher Weise wird die Höhe h des CHM 2 durch h = I p T R p B R I δ m m δ p x
    Figure DE112018003790T5_0005
    berechnet.
  • Wenn Zcam bestimmt (oder geschätzt) ist, können die Ecken der Bounding Box des Gesichts im 3D-Raum, d. h. {PTL, PTR, PBL, PBR}, und die Zentren CT, CB der oberen und unteren Grundlinie des CHM 20 durch Projizieren der entsprechenden 2D-Koordinaten in den 3D-Raum und durch Kombinieren von diesen mit den Informationen über Zcam bestimmt werden.
  • Die bisher beschriebenen Schritte können als Teil eines Initialisierungsprozesses angesehen werden. Sobald dies geschehen ist, fährt das Verfahren mit den Schritten fort, die sich auf die tatsächliche Einschätzung der Kopfhaltung beziehen, wie es nun anhand von 5 beschrieben wird. Die Schritte sind Teil einer Haltungsaktualisierungsschleife, die in der rechten Hälfte von 2 gezeigt ist.
  • Während 5 einen Anfangsbildrahmen In zeigt, der von der Kamera 2 aufgezeichnet wurde und der Verarbeitungsvorrichtung 3 zur Verfügung gestellt wird, kann dies identisch zum Bildrahmen I0 in den 3 und 4 sein. Gemäß einem Schritt des Verfahrens, der von der Verarbeitungsvorrichtung 3 ausgeführt wird, werden mehrere hervorstechende Punkte S innerhalb des Bereichs von Interesse 30 identifiziert und ausgewählt (angezeigt durch die Zahl 1 weiß auf schwarz in 5). Solche hervorstechenden Punkte S befinden sich in strukturierten Regionen des Anfangsbildrahmens In und können Augenwinkel, Mundwinkel, Nasenwinkel oder dergleichen sein. Um die hervorstechenden Punkte S zu identifizieren, kann ein geeigneter Algorithmus wie FAST verwendet werden. Die hervorstechenden Punkte S sind durch 2D-Koordinaten pi im Bildrahmen I0 dargestellt. Ein Gewicht, das von einem Abstand des hervorstechenden Punkts S von einem Rand 31 des Bereichs von Interesse 30 abhängt, wird jedem hervorstechenden Punkt S zugeordnet. Je näher der jeweilige hervorstechende Punkt S dem Rand 31 ist, desto geringer ist sein Gewicht. Es ist möglich, dass die hervorstechenden Punkte S mit dem geringsten Gewicht nicht ausgewählt werden, sondern als (ziemlich) unzuverlässig verworfen werden. Dies kann dazu dienen, die Gesamtleistung des Verfahrens zu verbessern. Es ist anzumerken, dass der Bereich von Interesse 30, abgesehen von einem Gesichtsbereich 32, mehrere Bereiche ohne Gesicht, z. B. einen Halsbereich 33, einen oberen Kopfbereich 34, einen seitlichen Kopfbereich 35 usw. umfasst.
  • Wenn die 2D-Koordinaten pi der ausgewählten hervorstechenden Punkte S bekannt sind, werden entsprechende 3D-Koordinaten Pi bestimmt (angezeigt durch die Zahl 3 weiß auf schwarz in 5). Dies wird durch Projizieren der 2D-Koordinaten auf eine sichtbare Kopfoberfläche 22 des CHM 20 erreicht. Die sichtbare Kopfoberfläche 22 ist der Teil einer Oberfläche 21 des CHM 20, der als für die Kamera 2 sichtbar angesehen wird. Mit der anfänglichen Kopfhaltung des CHM 20 beträgt die sichtbare Kopfoberfläche 22 eine Hälfte ihrer Seitenfläche. Die 3D-Koordinaten Pi können auch als Ergebnis eines Schnittpunktes zwischen einem Strahl 40, der in einem optischen Zentrum der Kamera 2 beginnt und durch den jeweiligen hervorstechenden Punkt S auf der Bildebene 2.1 hindurchgeht, und der sichtbaren Kopfoberfläche 22 des CHM 20 angesehen werden. Die Gleichung des Strahls 40 ist als P = C + kV definiert, wobei V ein Vektor parallel zu der Linie ist, die von dem optischen Zentrum C der Kamera durch P verläuft. Der skalare Parameter k wird durch Lösen der quadratischen Gleichung des geometrischen Modells berechnet.
  • In einem weiteren Schritt wird ein aktualisierter Bildrahmen In+i, der von der Kamera 2 aufgezeichnet wurde, der Verarbeitungsvorrichtung 3 bereitgestellt, und zumindest einige der zuvor ausgewählten hervorstechenden Punkte S werden innerhalb dieses aktualisierten Bildrahmens In+1 (angezeigt durch die Zahl 2 weiß auf schwarz in 5) zusammen mit aktualisierten 2D-Koordinaten qi identifiziert. Diese Identifizierung kann unter Verwendung eines Lichtflusses ausgeführt werden. Während die Bezugszeichen in 5 anzeigen, dass die Identifizierung innerhalb des aktualisierten Bildrahmens In+1 ausgeführt wird, bevor die 3D-Koordinaten Pi entsprechend dem Anfangsbildrahmen In bestimmt werden, kann die Sequenz dieser Schritte umgekehrt werden, wie in dem Ablaufdiagramm aus 2 angezeigt ist, oder sie können parallel ausgeführt werden.
  • In einem weiteren Schritt (durch die Zahl 4 weiß auf schwarz in 5 angezeigt) verwendet die Verarbeitungsvorrichtung 3 die aktualisierten 2D-Koordinaten qi und die 3D-Koordinaten Pi, um ein Perspektive-n-Punkt-Problem zu lösen und somit die Kopfhaltung zu aktualisieren. Die Kopfhaltung wird berechnet durch Berechnen der aktualisierten 3D-Koordinaten P'i, die sich aus einer Translation t und einer Drehung R ergeben, sodass P'i = R ▪ Pi + t , und durch Minimieren des Fehlers zwischen der erneuten Projektion der 3D-Merkmale auf die Bildebene und ihre jeweiligen erkannten 2D-Merkmale mittels eines iterativen Ansatzes. Bei der Definition des Fehlers ist es auch möglich, das Gewicht, das dem hervorstechenden Punkt S zugeordnet ist, zu berücksichtigen, sodass ein Fehler, der sich aus einem hervorstechenden Punkt S mit geringem Gewicht ergibt, weniger zum Gesamtfehler beiträgt. Das Anwenden der Translation t und der Drehung R auf die alte Kopfhaltung ergibt die aktualisierte Kopfhaltung (durch die Zahl 5 weiß auf schwarz in 5 angezeigt).
  • In einem weiteren Schritt wird der Bereich von Interesse 30 aktualisiert. Bei dieser Ausführungsform wird der Bereich von Interesse 30 durch die Projektion der sichtbaren Kopfoberfläche 22 des CHM 20 auf das Bild definiert. Die sichtbare Kopfoberfläche 22 wird wiederum durch den Schnittpunkt der Kopfoberfläche 21 mit einer Grenzebene 24 definiert. Die Grenzebene 24 hat einen normalen Vektor, der sich aus dem Querprodukt zwischen einem parallelen Vektor zur X-Achse der Kamera 2 und einem Vektor parallel zur Mittelachse 23 des CHM 20 ergibt. Mit anderen Worten ist die Grenzebene 24 parallel zur X-Achse und zur Mittelachse 24 (siehe die Zahl 6 weiß auf schwarz in 5). Die Ecken der sichtbaren Kopfoberfläche 22 des CHM 20 sind durch die weitesten Schnittpunkten zwischen der Modellkopffläche 21 und der Grenzebene 24 gegeben, während sich der neue Bereich von Interesse 30 aus dem Projizieren der sichtbaren Kopfoberfläche 22 auf die Bildebene 2.1 ergibt (durch die Zahl 7 weiß auf schwarz in 5 angezeigt).
  • Der aktualisierte Bereich von Interesse 30 umfasst wiederum Bereiche ohne Gesicht, wie den Halsbereich 33, den oberen Kopfbereich 34, den seitlichen Kopfbereich 35 usw. In der nächsten Schleife können hervorstechende Punkte von mindestens einem dieser Bereiche ohne Gesicht 33-35 ausgewählt werden. Zum Beispiel ist der seitliche Kopfbereich 35 nun näher am Zentrum des Bereichs von Interesse 30, was es wahrscheinlich macht, dass ein hervorstechender Punkt von diesem Bereich ausgewählt wird, z. B. ein Merkmal eines Ohrs.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • J. Y. Bouget, „Pyramidal implementation of the affine lucas kanade feature tracker description of the algorithm“, Intel Corporation, 2001, Band 1, Nr. 2, S. 1-9 ff. [0019]

Claims (15)

  1. Verfahren zur Einschätzung einer Kopfhaltung unter Verwendung einer monokularen Kamera (2), wobei das Verfahren umfasst: - Bereitstellen eines Anfangsbildrahmens (In), der von der Kamera (2) aufgezeichnet wurde und einen Kopf (10) zeigt; und - Ausführen mindestens einer Haltungseinschätzungsschleife mit den folgenden Schritten: - Identifizieren und Auswählen von mehreren hervorstechenden Punkten (S) des Kopfes (10) mit 2D-Koordinaten (pi) in dem Anfangsbildrahmen (In) innerhalb eines Bereichs von Interesse (30); - Verwenden eines geometrischen Kopfmodells (20) des Kopfes (10), Bestimmen von 3D-Koordinaten (Pi) für die ausgewählten hervorstechenden Punkte (S) entsprechend einer Kopfhaltung des geometrischen Kopfmodells (20); - Bereitstellen eines aktualisierten Bildrahmens (In+1), der von der Kamera (2) aufgezeichnet wurde und den Kopf (10) zeigt; - Identifizieren, innerhalb des aktualisierten Bildrahmens (In+1), mindestens einiger zuvor ausgewählter hervorstechender Punkte (S) mit aktualisierten 2D-Koordinaten (qi); - Aktualisieren der Kopfhaltung durch Bestimmen aktualisierter 3D-Koordinaten (Pi') entsprechend den aktualisierten 2D-Koordinaten (qi) unter Verwendung eines Perspektive-n-Punkt-Verfahrens; und - Verwenden des aktualisierten Bildrahmens (In+1) als Anfangsbildrahmen (In) für die nächste Haltungsaktualisierungsschleife.
  2. Verfahren nach Anspruch 1, wobei vor der Ausführung der mindestens einen Haltungsaktualisierungsschleife ein Abstand zwischen der Kamera (2) und dem Kopf (10) bestimmt wird.
  3. Verfahren nach Anspruch 1 oder 2, wobei vor der Ausführung der mindestens einen Haltungsaktualisierungsschleife Abmessungen des Kopfmodells (20) bestimmt werden.
  4. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Kopfmodell (20) ein zylindrisches Kopfmodell ist.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei mehrere aufeinanderfolgende Haltungsaktualisierungsschleifen ausgeführt werden.
  6. Verfahren nach einem der vorhergehenden Ansprüche, wobei zuvor ausgewählte hervorstechende Punkte (S) unter Verwendung eines Lichtflusses identifiziert werden.
  7. Verfahren nach einem der vorhergehenden Ansprüche, wobei die 3D-Koordinaten (Pi) durch Projizieren von 2D-Koordinaten (pi) von einer Bildebene (2.1) der Kamera (2) auf eine sichtbare Kopfoberfläche (22) bestimmt werden.
  8. Verfahren nach einem der vorhergehenden Ansprüche, wobei die sichtbare Kopfoberfläche (22) durch Bestimmen des Schnittpunktes einer Grenzebene (24) mit einer Modellkopfoberfläche (21) bestimmt wird.
  9. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Grenzebene (24) parallel zu einer X-Achse der Kamera (2) und einer Mittelachse (23) des zylindrischen Kopfmodells (20) ist.
  10. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Bereich von Interesse (30) durch Projizieren der sichtbaren Kopfoberfläche (22) auf die Bildebene (2.1) definiert wird.
  11. Verfahren nach einem der vorhergehenden Ansprüche, wobei die hervorstechenden Punkte (S) basierend auf einem zugeordneten Gewicht ausgewählt werden, das von dem Abstand zu einem Rand (31) des Bereichs von Interesse (30) abhängt.
  12. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Perspektive-n-Punkt-Verfahren basierend auf dem Gewicht der hervorstechenden Punkte (S) ausgeführt wird.
  13. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Bereich von Interesse (30) in jeder Haltungsaktualisierungsschleife aktualisiert wird.
  14. System (1) zur Einschätzung einer Kopfhaltung, aufweisend eine monokulare Kamera (2) und eine Verarbeitungsvorrichtung (3), die dafür ausgelegt ist - einen Anfangsbildrahmen (In), der von der Kamera (2) aufgezeichnet wurde und einen Kopf (10) zeigt, zu empfangen; und - mindestens eine Haltungsaktualisierungsschleife mit den folgenden Schritten auszuführen: - Identifizieren und Auswählen von mehreren hervorstechenden Punkten (S) des Kopfes (10) mit 2D-Koordinaten (pi) in dem Anfangsbildrahmen (In) innerhalb eines Bereichs von Interesse (30); - Bestimmen von 3D-Koordinaten (Pi) für die ausgewählten hervorstechenden Punkte (S) unter Verwendung eines geometrischen Kopfmodells (20) des Kopfes (10) entsprechend einer Kopfhaltung; - Empfangen eines aktualisierten Bildrahmens (In+1), der von der Kamera (2) aufgezeichnet wurde und den Kopf (10) zeigt; - Identifizieren, innerhalb des aktualisierten Bildrahmens (In+1), mindestens einiger zuvor ausgewählter hervorstechender Punkte (S) mit aktualisierten 2D-Koordinaten (qi); - Aktualisieren der Kopfhaltung durch Bestimmen aktualisierter 3D-Koordinaten (Pi') entsprechend den aktualisierten 2D-Koordinaten (qi) unter Verwendung eines Perspektive-n-Punkt-Verfahrens; und - Verwenden des aktualisierten Bildrahmens (In+1) als Anfangsbildrahmen (In) für die nächste Haltungsaktualisierungsschleife.
  15. System nach Anspruch 14, wobei das System (1) dazu geeignet ist, das Verfahren nach einem der Ansprüche 2 bis 13 auszuführen.
DE112018003790.8T 2017-07-25 2018-07-25 Verfahren und System zur Einschätzung einer Kopfhaltung Pending DE112018003790T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
LU100348 2017-07-25
LU100348A LU100348B1 (en) 2017-07-25 2017-07-25 Method and system for head pose estimation
PCT/EP2018/070205 WO2019020704A1 (en) 2017-07-25 2018-07-25 METHOD AND SYSTEM FOR ESTIMATING HEAD INSTALLATION

Publications (1)

Publication Number Publication Date
DE112018003790T5 true DE112018003790T5 (de) 2020-05-14

Family

ID=59812065

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112018003790.8T Pending DE112018003790T5 (de) 2017-07-25 2018-07-25 Verfahren und System zur Einschätzung einer Kopfhaltung

Country Status (5)

Country Link
US (1) US20210165999A1 (de)
CN (1) CN110998595A (de)
DE (1) DE112018003790T5 (de)
LU (1) LU100348B1 (de)
WO (1) WO2019020704A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3944806A1 (de) * 2020-07-29 2022-02-02 Carl Zeiss Vision International GmbH Verfahren zum bestimmen des nahpunkts, zum bestimmen der nahpunktdistanz, zum bestimmen eines sphärischen brechwertes sowie zum herstellen eines brillenglases sowie entsprechende mobile endgeräte und computerprogramme

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8781162B2 (en) * 2011-01-05 2014-07-15 Ailive Inc. Method and system for head tracking and pose estimation
US8339459B2 (en) * 2009-09-16 2012-12-25 Microsoft Corporation Multi-camera head pose tracking
US9437011B2 (en) * 2012-06-11 2016-09-06 Samsung Electronics Co., Ltd. Method and apparatus for estimating a pose of a head for a person
US9418480B2 (en) * 2012-10-02 2016-08-16 Augmented Reailty Lab LLC Systems and methods for 3D pose estimation
CN104217350B (zh) * 2014-06-17 2017-03-22 北京京东尚科信息技术有限公司 实现虚拟试戴的方法和装置
US10134177B2 (en) * 2015-01-15 2018-11-20 Samsung Electronics Co., Ltd. Method and apparatus for adjusting face pose
CN105205455B (zh) * 2015-08-31 2019-02-26 李岩 一种移动平台上人脸识别的活体检测方法及系统
CN105913417B (zh) * 2016-04-05 2018-09-28 天津大学 基于透视投影直线的几何约束位姿方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
J. Y. Bouget, „Pyramidal implementation of the affine lucas kanade feature tracker description of the algorithm", Intel Corporation, 2001, Band 1, Nr. 2, S. 1-9 ff.

Also Published As

Publication number Publication date
LU100348B1 (en) 2019-01-28
US20210165999A1 (en) 2021-06-03
CN110998595A (zh) 2020-04-10
WO2019020704A1 (en) 2019-01-31

Similar Documents

Publication Publication Date Title
EP3657236B1 (de) Verfahren, vorrichtung und computerprogramm zum virtuellen anpassen einer brillenfassung
DE112017002799B4 (de) Verfahren und system zum generieren multimodaler digitaler bilder
EP3642670B1 (de) Verfahren, vorrichtung und computerprogramm zum virtuellen anpassen einer brillenfassung
DE69833999T2 (de) Verfahren zur automatischen erkennung menschlicher augen in digitalbildern
DE112011101927B4 (de) Semantisches Parsen von Objekten in Videos
DE102018129600A1 (de) Verfahren und System zur virtuellen Anprobe einer Brille
DE69932619T2 (de) Verfahren und system zum aufnehmen und repräsentieren von dreidimensionaler geometrie, farbe und schatten von animierten objekten
DE112018000332T5 (de) Dichtes visuelles slam mit probabilistic-surfel-map
DE112016004437T5 (de) Head-Mounted-Display mit Gesichtsausdruck-Erkennungsfähigkeit
DE102016116818A1 (de) Verfahren und Vorrichtung zum Erfassen einer Fahrzeugkontur durch Punktwolkendaten
DE112019005672T5 (de) Erzeugung stellungsvarianter 3d-gesichtsattribute
DE112019000687T5 (de) Fotorealistische dreidimensionale texturierung unter verwendung kanonischer ansichten und eines zweistufigen ansatzes
DE112017001545T5 (de) Virtuelles überlagerungssystem und verfahren für verdeckte objekte
DE112013002200T5 (de) Automatische Anpassung von Bildern
DE102007045835A1 (de) Verfahren und Vorrichtung zum Darstellen eines virtuellen Objekts in einer realen Umgebung
DE102020118241A1 (de) Videotiefenschätzung auf der grundlage der temporalen aufmerksamkeit
DE102015000377A1 (de) Bereitstellen einer Zeichenhilfe unter Nutzung einer Merkmalserfassung und eines semantischen Kennzeichnens
DE112021000051T5 (de) Automatisch einstellbarer spiegel zur verwendung in fahrzeugen
DE112017007303B4 (de) Gesichtserkennungsvorrichtung
EP3931798A1 (de) Schätzung der bewegung einer bildposition
DE102006045828B4 (de) Verfahren und Vorrichtung zum Erkennen eines Gesichts sowie ein Gesichtserkennungsmodul
DE112018003790T5 (de) Verfahren und System zur Einschätzung einer Kopfhaltung
EP1425709A2 (de) Modellbasierte objektklassifikation und zielerkennung
DE60216766T2 (de) Verfahren zum automatischen verfolgen eines sich bewegenden körpers
DE102020126954A1 (de) System und Verfahren zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung

Legal Events

Date Code Title Description
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009000000

Ipc: G06V0010000000