AT528459A1 - Verfahren und Vorrichtung zur Schätzung der Positionen von menschlichen Schlüsselpunkten - Google Patents

Verfahren und Vorrichtung zur Schätzung der Positionen von menschlichen Schlüsselpunkten

Info

Publication number
AT528459A1
AT528459A1 ATA50546/2024A AT505462024A AT528459A1 AT 528459 A1 AT528459 A1 AT 528459A1 AT 505462024 A AT505462024 A AT 505462024A AT 528459 A1 AT528459 A1 AT 528459A1
Authority
AT
Austria
Prior art keywords
key points
image
dimensional
positions
processing unit
Prior art date
Application number
ATA50546/2024A
Other languages
English (en)
Inventor
Windbacher Dipl -Ing Fabian
Hödlmoser Dr Michael
Javin Dipl -Ing Marc
Spannocchi Benedikt
Stiedl Dipl -Ing Fabian
Nezveda Dipl -Ing Matej
Seitner Dr Florian
Original Assignee
Emotion3D Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Emotion3D Gmbh filed Critical Emotion3D Gmbh
Priority to ATA50546/2024A priority Critical patent/AT528459A1/de
Priority to PCT/AT2025/060264 priority patent/WO2026006864A1/de
Publication of AT528459A1 publication Critical patent/AT528459A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

Verfahren und Vorrichtung zur Schätzung der absoluten Positionen S1..N (abs) einer Zahl N von Schlüsselpunkten eines Menschen in einem dreidimensionalen Raum, umfassend die Schritte: Aufnahme, durch zumindest eine Bildaufnahmeeinheit (1), zumindest eines zweidimensionalen Bildes (2) des Raumes, Entgegennahme, durch eine Datenverarbeitungseinheit (3), des Bildes (1); Detektion, durch eine Bildverarbeitungseinheit (4), einer Zahl N von zweidimensionalen Schlüsselpunkten des Menschen im Bild (2), sowie Schätzung der dreidimensionalen relativen Positionen der detektierten Schlüsselpunkte S1..N (rel) sowie der geschätzten Distanzen d(rel).

Description

x bes AT 528 459 A1 2026-01-15
Ss N
Beschreibung
VERFAHREN UND VORRICHTUNG ZUR SCHÄTZUNG DER POSITIONEN VON MENSCHLICHEN SCHLÜSSELPUNKTEN
[0001] Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Schätzung der Positionen von menschlichen Schlüsselpunkten in einem dreidimensionalen Raum.
[0002] Aus dem Stand der Technik sind Verfahren zur Bestimmung der dreidimensionalen Positionen von Schlüsselpunkten des menschlichen Körpers, insbesondere den Positionen des Kopfes, der Augen, der Nase, der Ohren, des Brustbeins und verschiedener menschlicher Gelenke, beispielsweise Schultergelenke, Ellenbogengelenke, Kniegelenke, Handgelenke und Hüftgelenk, bekannt. Derartige Verfahren werden insbesondere in Fahrzeugen eingesetzt, um die Positionen und Körperstellungen der Fahrzeuginsassen zu detektieren.
[0003] Um die absoluten Positionen der Schlüsselpunkte, also die dreidimensionalen Positionen der Schlüsselpunkte im Koordinatensystem des Fahrzeugs zu bestimmen, werden in der Regel Bildaufnahmeeinheiten in Form von Tiefenkameras oder Time-of-Flight (ToF)-Kameras eingesetzt. Derartige Kameras messen mit dedizierten Sensoren für jeden Pixel den Abstand zur Kamera, die sogenannte Pixeltiefe. Da die absoluten Koordinaten der Kamera im Fahrzeug vorab kalibriert werden, können die absoluten Koordinaten der Schlüsselpunkte aus den gemessenen Pixeltiefen berechnet werden.
[0004] Bei der Anwendung von Tiefenkameras entsteht jedoch das Problem, dass gewisse Schlüsselpunkte des menschlichen Körpers häufig verdeckt sind, insbesondere in Fahrzeugen. Beispielsweise können die Pixeltiefen von Schlüsselpunkten, die durch Extremitäten des Körpers, Sitzgurte oder Kleidungsstücke verdeckt sind, durch die Tiefenkamera nicht korrekt gemessen werden.
[0005] Aufgabe der Erfindung ist es unter anderem, dieses Problem zu lösen und ein Verfahren sowie eine Vorrichtung zur Schätzung der Positionen von menschlichen Schlüsselpunkten bereitzustellen, welche die Positionen mit höherer Genauigkeit bereitstellt.
[0006] Diese und andere Aufgaben werden erfindungsgemäß mit einem Verfahren nach Anspruch 1 gelöst.
[0007] Ein erfindungsgemäßes Verfahren ist zur Schätzung der absoluten dreidimensionalen Positionen Sı1.n @?® einer Zahl N von Schlüsselpunkten eines Menschen in einem dreidimensionalen Raum ausgebildet. Es umfasst die nachfolgenden Schritte:
[0008] In einem ersten Schritt wird, durch eine Bildaufnahmeeinheit, zumindest ein zweidimensionales Bild des Raumes aufgenommen. Bei der Bildaufnahmeeinheit kann es sich um eine herkömmliche 2D-Kamera handeln. Das Bild wird in Folge von einer Datenverarbeitungseinheit entgegengenommen.
[0009] Die Datenverarbeitungseinheit kann als Mikrocontroller oder Mikrocomputer ausgebildet sein und eine zentrale Verarbeitungseinheit (CPU), einen flüchtigen Halbleiterspeicher (RAM), einen nichtflüchtigen Halbleiterspeicher (ROM, SSD-Festplatte), einen magnetischen Speicher (Festplatte) und/oder einen optischen Speicher (CD-ROM) sowie Schnittstelleneinheiten (Ethernet, USB) und dergleichen umfassen. Die Bestandteile derartiger Datenverarbeitungseinheiten sind dem Fachmann grundsätzlich bekannt.
[0010] Im nächsten Schritt erfolgt eine Detektion, durch eine Bildverarbeitungseinheit, der zweidimensionalen Positionen der Schlüsselpunkte des Menschen S1...N aus dem aufgenommenen zweidimensionalen Bild. Zu diesem Zweck können bekannte Algorithmen der Mustererkennung, insbesondere aus dem Bereich des maschinellen Lernens herangezogen werden. Insbesondere kann dazu ein neuronales Netz herangezogen werden, welche dazu trainiert wurden, die Schlüsselpositionen eines oder mehrerer Menschen aus 2D Bildern abzuschätzen.
[0011] Bei den Schlüsselpunkten kann es sich um vordefinierte Punkte des menschlichen Körpers handeln, insbesondere Handgelenke, Armgelenke, Ellbogengelenke, Schultergelenke, Knie-
x bes AT 528 459 A1 2026-01-15
Ss N
gelenke, Fußgelenke Hüftgelenken, sowie der Kopfmittelpunkt, das Brustbein, die Positionen der Augen, der Ohren, der Nase, und/oder des Mundes einer Person.
[0012] Nach oder gleichzeitig mit der Detektion der zweidimensionalen Schlüsselpunkte des Menschen im Bild erfolgt eine Schätzung der relativen dreidimensionalen Positionen S+1.n “® der detektierten Schlüsselpunkte. Diese Schätzung kann vorzugsweise ebenfalls durch ein neuronales Netz erfolgen, welches dazu trainiert wurde, aus den Bilddaten die 2-dimensionalen Koordinaten und die Tiefenvektoren, also die Abstände der Schlüsselpunkte von der Kamera, zu liefern. Die Schätzung umfasst die Bestimmung der relativen Abstände d“®) zwischen je zwei erkannten Schlüsselpunkten. Diese geschätzten Schlüsselpunkte befinden sich somit im Koordinatensystem der Kamera, die korrekte Skalierung ist aber noch nicht bekannt.
[0013] Vorzugsweise erfolgt sowohl die Detektion der zweidimensionalen Schlüsselpunkte, als auch die Schätzung der relativen dreidimensionalen Positionen der Schlüsselpunkte durch ein und dasselbe neuronale Netz, welches vorab eigens dazu trainiert wurde, aus einem zweidimensionalen Bild sowohl die zweidimensionalen Schlüsselpunkte eines Menschen zu extrahieren, als auch deren jeweilige Abstände von der Kamera im dreidimensionalen Raum zu schätzen.
[0014] Erfindungsgemäß kann zu diesem Zweck vorgesehen sein, dass als Trainingsdaten des neuronalen Netzes zweidimensionale Bilder von Menschen verwendet werden, deren Schlüsselpunkte annotiert und mit ihren 3D-Abständen zueinander versehen sind. Statt eines neuronalen Netzes kann aber auch jedes andere Verfahren aus dem Bereich des maschinellen Lernens und der künstlichen Intelligenz herangezogen werden.
rgebnis der Schätzung ist eine Liste von Relativpositionen der Schlüsselpunkte S+1.n“® [0015] Ergebnis der Schät ist eine List Relati iti der Schlüssel kte Sı1.nC®) = [xiC®, yıled, ze, wobeii= 1... N und N die Zahl der erkannten Schlüsselpunkte ist.
[0016] Die geschätzten 3D-Positionen der Schlüsselpunkte sind in ihren Relationen und 3D-Winkeln zueinander zwar korrekt, jedoch sind die absoluten 3D-Koordinaten der Schlüsselpunkte aus dieser Schätzung nicht ableitbar. So kann beispielsweise eine große Person, die weiter von der Kamera entfernt ist, auf dem 2D-Bild exakt gleich aussehen, wie eine kleine Person, die sich näher bei der Kamera befindet.
[0017] Zur Bestimmung absoluter 3D-Koordinaten der Schlüsselpunkte erfolgt im nächsten Schritt eine Abfrage einer Datenbank durch die Datenverarbeitungseinheit zur Auswahl von zumindest M = 3 Schlüsselpunkten S‘1.m aus den vorab im Bild detektierten Schlüsselpunkten. Ziel ist es dabei, jene Schlüsselpunkte auszuwählen, deren absoluter Abstand d@°® durchschnittlich in der Gesamtbevölkerung die niedrigste statische Varianz aufweist. Zu diesem Zweck sind in der Datenbank die durchschnittlichen Abstände einer Vielzahl von Kombinationen aus menschlichen Schlüsselpunkten hinterlegt, beispielsweise der durchschnittliche Abstand der Augen, der Ohren, oder der Abstand zwischen Kinn und Nase. Ferner verfügt die Datenbank über Informationen über die Varianz der jeweiligen Werte in der Bevölkerung, also Information darüber, wie sehr die jeweiligen Abstände typischerweise variieren.
[0018] Ergebnis der Abfrage ist die absolute Distanz d@P® zwischen jenen detektierten Schlüsselpunkten, dessen Varianz in der Datenbank am niedrigsten ist. Beispielsweise kann aus der Datenbank ein durchschnittlicher Augenabstand von d®®=7cm entnommen werden.
[0019] Vorzugsweise kann es sich bei den ausgewählten Schlüsselpunkten um Schlüsselpunkte aus dem Kopfbereich handeln, beispielsweise um die Positionen der Augen, der Nase, des Mundes und/oder der Ohren des Menschen, da Schlüsselpunkte aus dem Kopfbereich starr sind und in der Regel nur niedrige Varianz aufweisen.
[0020] Erfindungsgemäß kann vorgesehen sein, dass die Bildverarbeitungseinheit das Geschlecht und/oder das Alter des Menschen im Bild schätzt und dies bei der Auswahl der Schlüsselpunkte und/oder bei der Bestimmung des durchschnittlichen absoluten Abstands d@°® berücksichtigt.
[0021] Um auch das Geschlecht und/oder Alter der detektierten Person bei der Auswahl der Schlüsselpunkte heranzuziehen, können in der Datenbank die durchschnittlichen Werte der Ab-
x bes AT 528 459 A1 2026-01-15
Ss N
stände der Schlüsselpunkte und die Varianz dieser Werte für verschiedene Geschlechter und verschiedene Altersgruppen der Bevölkerung hinterlegt sein. Ergebnis der Datenbankabfrage ist die zusätzliche Information des wahrscheinlichsten dreidimensionalen absoluten Abstands d@® zweier im Bild detektierter Schlüsselpunkte.
[0022] In einem nächsten Schritt wird einer der ausgewählten Schlüsselpunkte S+4...m, etwa die Position der Nase, als Ursprungspunkt [0,0,0] herangezogen und die M ausgewählten Schlüsselpunkte werden so skaliert, dass die Abstände zwischen je zwei Punkten mit dem Wert von des übereinstimmen. Die neu skalierten und transformierten Schlüsselpunkte S‘;...m“® bilden ein Referenzmodell.
[0023] Auch das Referenzmodell befindet sich noch im relativen Koordinatensystem, die exakte Skalierung der Schlüsselpunkte 1...M ist aber bereits vorgenommen worden. Im nächsten Schritt werden die restlichen Schlüsselpunkte S+.. N“? auf die Schlüsselpunkte des Referenzmodells skaliert.
[0024] Im nächsten Schritt erfolgt die Berechnung, durch eine Positionsbestimmungseinheit, der Abstandsvektoren V1.m@°® der Bildaufnahmeeinheit von den ausgewählten Schlüsselpunkten.
[0025] Um die Abstandsvektoren V1..m@® berechnen zu können, werden die intrinsischen geometrischen Parameter der Bildaufnahmeeinheit herangezogen. Dabei kann es sich insbesondere um die Brennweite, den Bildhauptpunkt und die Verzerrungskoeffizienten einer Kamera handeln. Wenn beispielsweise bekannt ist, dass die Kamera eine Brennweite von 50mm hat, können aus dem Referenzmodell und den zweidimensionalen Schätzungen dieser Schlüsselpunkte die Vektoren V+1...m@®9 berechnet werden. Bekannte Programmbibliotheken wie OpenCV und Dliib verfügen über entsprechenden Routinen, wie in dem Internet-Beitrag
hitos /iearmopenev, comM/head-DOse-esiimalicn-uSsing-ODeNcv-and-dib/ beschrieben ist.
[0026] Im nächsten Schritt berechnet die Positionsbestimmungseinheit die absoluten dreidimensionalen Positionen der weiteren Schlüsselpunkte S1.n@® aus den relativen dreidimensionalen Positionen der Schlüsselpunkte S+4. N“? und den nun bekannten Vektoren V4...m@P® der Schlüsselpunkte von der Kamera. Nachdem alle Schlüsselpunkte S1.n“°® bereits korrekt skaliert und auch die 3D Winkel bekannt sind, müssen alle restlichen Schlüsselpunkte unter Verwendung der Vektoren V1...m@°® verschoben werden. Beispielsweise reicht hier eine Verschiebung aller Punkte um den Durchschnitt aller Vektoren VebS),
[0027] Als Ergebnis der Berechnung sind die absoluten dreidimensionalen Positionen der Schlüsselpunkte S+;.n @9 im Koordinatensystem des Fahrzeugs bekannt.
[0028] Sowohl die Bildverarbeitungseinheit, als auch die Positionsbestimmungseinheit können als separate Hardwareeinheiten, oder vorzugsweise als Softwaremodule im RAM oder ROM der Datenverarbeitungseinheit vorgesehen sein. Es kann aber auch vorgesehen sein, dass diese Einheiten extern vorgesehen sind, beispielsweise auf einem Server im Internet, an den die erforderlichen Daten übertragen werden.
[0029] Erfindungsgemäß kann vorgesehen sein, dass Positionen der geschätzten Schlüsselpunkte in ein topologisches dreidimensionales Datenmodell, insbesondere in einen Graphen übergeführt werden. Zur Erstellung des topologischen Datenmodells kann die bekannte dreidimensionale Physiologie des menschlichen Körpers herangezogen werden. So kann beispielsweise die erkannte Position eines Ellbogengelenks als Schlüsselpunkt in Form eines Knoten in einem Graphen mit den Positionen des Handgelenks und des Schultergelenks über Kanten verbunden sein.
[0030] Die Erfindung betrifft ferner ein computerlesbares Speichermedium, umfassend Anweisungen, die eine Datenverarbeitungseinheit zur Ausführung eines erfindungsgemäßen Verfahrens veranlassen.
[0031] Die Erfindung betrifft ferner eine Vorrichtung zur Schätzung der absoluten Positionen von menschlichen Schlüsselpunkten in einem dreidimensionalen Raum, die dazu ausgebildet ist, ein
x bes AT 528 459 A1 2026-01-15
Ss N
erfindungsgemäßes Verfahren auszuführen.
[0032] Die Erfindung betrifft ferner ein Fahrzeug, umfassend eine erfindungsgemäße Vorrichtung.
[0033] Weitere erfindungsgemäße Merkmale ergeben sich aus den Ansprüchen, den Ausführungsbeispielen und den Figuren.
[0034] Die Erfindung wird im Folgenden an Hand eines exemplarischen, nicht ausschließlichen Ausführungsbeispiels erläutert.
[0035] Fig. 1 zeigt ein schematisches Beispiel einer erfindungsgemäßen Vorrichtung;
[0036] Fig. 2a zeigt eine schematische Darstellung eines Graphen bei der Durchführung eines erfindungsgemäßen Verfahrens;
[0037] Fig. 20 zeigt eine schematische Darstellung der zweidimensionalen und absoluten dreidimensionalen Positionen der Schlüsselpunkte bei der Durchführung eines erfindungsgemäßen Verfahrens.
[0038] Fig. 1 zeigt ein schematisches Beispiel einer erfindungsgemäßen Vorrichtung zur Schätzung der absoluten Positionen von menschlichen Schlüsselpunkten S+ - Sn in einem dreidimensionalen Raum. Die Vorrichtung umfasst eine Bildaufnahmeeinheit 1, die zur Aufnahme eines zweidimensionalen Bildes 2 ausgebildet ist und intrinsische geometrische Parameter 7 bereitstellt, insbesondere die Brennweite des Bildes 2. Ferner umfasst die Vorrichtung eine Datenverarbeitungseinheit 3 mit einer Bildverarbeitungseinheit 4, einer Datenbank 5 und einer Positionsbestimmungseinheit 6.
[0039] Die Bildverarbeitungseinheit 4 umfasst ein neuronales Netz, welches dazu trainiert wurde, einerseits menschliche Schlüsselpunkte aus einem zweidimensionalen Bild zu extrahieren, und gleichzeitig deren relative dreidimensionale Positionen zu schätzen. Zum Training dieses Netzes wurden zweidimensionale Bilddaten von Menschen mit dreidimensional annotierten Schlüsselpunkten verwendet, d.h. die zum Training verwendeten Bilder enthalten Bilder von Menschen, deren Schlüsselpunkte mit dreidimensionalen relativen Koordinaten annotiert sind.
[0040] Zunächst wird die Bildverarbeitungseinheit 4 auf das Bild 2 angewandt, sodass in dem zweidimensionalen Bild 2 die Schlüsselpunkte des Menschen S+1 — Sn und deren dreidimensionale relative Positionen S1C°% - Syu®% im Bild 1 erhalten werden. Die Schlüsselpunkte liegen in Form von kartesischen Koordinaten xi®?, yıC®, zC®) vor und werden als Datenobjekt in Form eines Graphen gespeichert.
[0041] Fig. 2a zeigt eine schematische Darstellung der Graphen bei der Durchführung eines erfindungsgemäßen Verfahrens. Auf der linken Seite ist ein Graph dargestellt, der die zweidimensionalen Schlüsselpunkte S+1 — Sn des Menschen im Bild 2 zeigt.
[0042] Das neuronale Netz schätzt daraus relative dreidimensionale Koordinaten der Schlüsselpunkte S;C°®).- SyC®) wie im rechten Bild dargestellt. Da die Trainingsdaten für das neuronale Netzwerk als zweidimensionale Punkte in Kombination mit Tiefenwerten für diese Punkte hinterlegt sind, befinden sich auch die geschätzten Punkte im Kamerakoordinatensystem mit dem Kameraursprung als Koordinatenursprung.
[0043] In einem nächsten Schritt werden die resultierenden relativen Schlüsselpunkte in ein Einheitskoordinatensystem transformiert. Beispielsweise haben die Schlüsselpunkte des Kopfes die folgenden relativen Koordinaten, wobei die Nasenspitze als Ursprungspunkt definiert wird:
Schlüsselpunkt x eb yıle) zieh Se Linkes Auge -225.0 170.0 -135.0 Seh Rechtes Auge 225.0 150.0 -135.0 Steh Nasenspitze 0.0 0.0 0.0 Sa Brustbein 0.0 -250.0 0.0
x bes AT 528 459 A1 2026-01-15
Ss N
[0044] Die Koordinaten der weiteren Schlüsselpunkte werden relativ zum Ursprungspunkt, also der Nasenspitze, transformiert. Die in der Figur angedeuteten Abstände dj; bezeichnen die Distanzen zwischen den Schlüsselpunkten Si und S;.
[0045] Fig. 2b zeigt eine schematische Darstellung der zweidimensionalen und der dreidimensionalen Positionen der Schlüsselpunkte bei der Durchführung eines erfindungsgemäßen Verfahrens.
[0046] Durch die oben beschriebene Schätzung und Transformation sind die relativen dreidimensionalen Koordinaten S1"° - Sy der Schlüsselpunkte bekannt; es fehlt jedoch die Information über die absoluten Koordinaten der Schlüsselpunkte im dreidimensionalen Raum, d.h. deren Lage und Skalierung im Koordinatensystem der Kamera 1.
[0047] Um diese absoluten dreidimensionalen Koordinaten zu berechnen, wird eine Datenbank 5 herangezogen, in der die durchschnittlichen Abstände menschlicher Schlüsselpunkte und deren Varianz in der Gesamtbevölkerung gespeichert ist. Beispielsweise kann darin gespeichert sein, dass der Augenabstand bei männlichen Erwachsenen mit einer Wahrscheinlichkeit von 95% im Bereich von 7.0cm bis 7.2cm liegt. Sind nun aus der Schätzung die relativen dreidimensionalen Koordinaten der beiden Augen bekannt, so werden diese Koordinaten nun derart transformiert, dass ihr skalarer Abstand einen Wert von 7.1cm aufweist. Sind die Augen im Bild 2 nicht sichtbar, werden andere Schlüsselpunkte des Kopfes herangezogen, beispielsweise der Abstand zwischen der Nase und dem Kinn des Menschen. Es müssen zumindest M = 3 Punkte für den nächsten Schritt vorhanden sein.
[0048] Sind drei der detektierten Schlüsselpunkte korrekt skaliert, fehlt noch die Information über den Abstand und die Orientierung zur Bildaufnahmeeinheit 1. In Fig. 2b ist die, der Datenbank 5 entnommene Distanz d@9 zwischen den ausgewählten Schlüsselpunkten rechts dargestellt.
[0049] In einem nächsten Schritt werden die drei ausgewählten Schlüsselpunkte des Kopfbereichs in ein Referenzmodell transformiert, dessen Ursprungspunkt mit dem Kameraursprung übereinstimmt. Beispielsweise haben die Schlüsselpunkte des Kopfes die folgenden relativen Koordinaten, wobei die Nasenspitze als Ursprungspunkt definiert wird:
Schlüsselpunkt Xi Yyı Zi Sa Linkes Auge -22.5 17.0 -13.5 S‘„ weh Rechtes Auge 22.5 15.0 -13.5 S‘30eh Nasenspitze 0.0 0.0 0.0
[0050] Diese ausgewählten Punkte bilden ein korrekt skaliertes Referenzmodell, in dem die Abstände der Schlüsselpunkte den tatsächlichen durchschnittlichen Abständen entsprechen. Fig. 2bzeigt links das so errechnete Referenzmodell für drei beispielhafte Schlüsselpunkte S+1““°, S‘treh, SA
[0051] Im nächsten Schritt berechnet eine Positionsbestimmungseinheit 6 die absoluten Vektoren Vı@bs, \,@bsS, \/@ebs) der Bildaufnahmeeinheit 1 aus den geschätzten zweidimensionalen Schlüsselpunkten S+"®, SC, S;C®% und dem Referenzmodell, bestehend aus S‘,C®, S‘„C°), S‘30e) im Koordinatensystem der Bildaufnahmeeinheit. Zu diesem Zweck werden die Brennweite, der Bildhauptpunkt und die Verzerrungsparameter der Bildaufnahmeeinheit 1 als geometrische Parameter 7 herangezogen. In Kenntnis dieser Werte kann, wie in Fig. 2b dargestellt, eine Projektion der 2D-Punkte S+, S2z und S; auf die entsprechenden 3D-Punkte S,@9, S,@b9 und Se durchgeführt werden. In Folge sind die absoluten Koordinaten S1@S, S,@S) und Se der drei ausgewählten Punkte im Koordinatensystem der Bildaufnahmeeinheit 1, sowie die absoluten Vektoren \/@bs) der Kamera 1 zu diesen Schlüsselpunkten bekannt.
[0052] Die Positionsbestimmungseinheit 6 berechnet im nächsten Schritt die absoluten Koordinaten der verbleibenden Schlüsselpunkte im Koordinatensystem der Bildaufnahmeeinheit 1. Nachdem alle Schlüsselpunkte S1.n“°® bereits korrekt skaliert und auch die 3D Winkel bekannt
x bes AT 528 459 A1 2026-01-15
Ss N
sind, müssen alle restlichen Schlüsselpunkte unter Verwendung der Vektoren V@9 verschoben werden. Beispielsweise reicht hier eine Verschiebung aller Punkte um den Durchschnitt aller Vektoren V@ebs),
[0053] Die Erfindung beschränkt sich jedoch nicht auf dieses beschriebene Ausführungsbeispiel, sondern umfasst auch weitere Ausführungen der vorliegenden Erfindung im Rahmen der nachfolgenden Patentansprüche.
x bes AT 528 459 A1 2026-01-15
Ss N
Patentansprüche
1. Verfahren zur Schätzung der absoluten Positionen S+1.n @°% einer Zahl N von Schlüsselpunkten eines Menschen in einem dreidimensionalen Raum, umfassend die Schritte:
a. Aufnahme, durch zumindest eine Bildaufnahmeeinheit (1), zumindest eines zweidimensionalen Bildes (2) des Raumes,
b. Entgegennahme, durch eine Datenverarbeitungseinheit (3), des Bildes (1);
c. Detektion, durch eine Bildverarbeitungseinheit (4), einer Zahl N von zweidimensionalen Schlüsselpunkten des Menschen im Bild (2), sowie Schätzung der dreidimensionalen relativen Positionen der detektierten Schlüsselpunkte Sı1.n © sowie der geschätzten Distanzen de),
dadurch gekennzeichnet, dass die nachfolgenden Schritte ausgeführt werden:
d. Abfrage, durch die Datenverarbeitungseinheit (3), einer Datenbank (5) zur Auswahl von zumindest M = 3 detektierten Schlüsselpunkten S‘1.m und Bestimmung der durchschnittlichen Distanz d@S9 der ausgewählten Schlüsselpunkte,
e. Berechnung eines Referenzmodells unter Verwendung der durchschnittlichen Distanzen d@bS), umfassend die Schlüsselpunkte S‘1...m, und Skalierung der Schlüsselpunkte Sı.n C°% auf die Schlüsselpunkte des Referenzmodells,
f. Berechnung, durch eine Positionsbestimmungseinheit (6), der Abstandsvektoren V1.m@°® der Bildaufnahmeeinheit (1) aus den zweidimensionalen Schlüsselpunkten S‘1...m des Referenzmodells unter Berücksichtigung intrinsischer geometrischer Parameter (7) der Bildaufnahmeeinheit (1), insbesondere der Brennweite f und des Bildhauptpunktes, sowie
g. Berechnung, durch die Positionsbestimmungseinheit (6), der absoluten dreidimensionalen Positionen der Schlüsselpunkte S1..n © aus den relativen Positionen der Schlüsselpunkte S+1.n“°) und den Vektoren V1...m@PS)
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass es sich bei den Schlüsselpunkten um vordefinierte Punkte des menschlichen Körpers handelt, insbesondere Handgelenke, Armgelenke, Ellbogengelenke, Schultergelenke, Kniegelenke, FuRßgelenke, Hüftgelenke, sowie Kopfmittelpunkt, Brustbein, Augen, Ohren, Nase, und/oder Mund einer Person.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass zur Detektion der zweidimensionalen Schlüsselpunkten des Menschen im Bild (2) und zur Schätzung der dreidimensionalen relativen Positionen der detektierten Schlüsselpunkte S+1.n “° ein und dasselbe neuronale Netz eingesetzt wird.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass es sich bei den ausgewählten Schlüsselpunkten um jene Schlüsselpunkte handelt, deren durchschnittliche Abstände die geringste statistische Varianz aller im Bild (2) detektierten Schlüsselpunkte aufweist.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass es sich bei den ausgewählten Schlüsselpunkten um Schlüsselpunkte aus dem Kopfbereich des Menschen handelt, beispielsweise um die Positionen der Augen, der Nase, des Mundes und/oder der Ohren des Menschen.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die Bildverarbeitungseinheit das Geschlecht und/oder das Alter des Menschen im Bild schätzt und dies bei der Auswahl und/oder bei der Bestimmung des durchschnittlichen absoluten Abstands debs) zwischen den Schlüsselpunkten berücksichtigt
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass die Schlüsselpunkte von der Datenverarbeitungseinheit (3) in elektronisch lesbarer Form, beispielsweise in Form einer Tabelle oder eines Graphen, gespeichert werden.
8. Computerlesbares Speichermedium, umfassend Anweisungen, die eine Datenverarbeitungseinheit (3) zur Ausführung eines Verfahrens nach einem der Ansprüche 1 bis 7 veranlassen.
Ss N
9. Vorrichtung zur Schätzung der absoluten Positionen S+1.n @S einer Zahl N von Schlüsselpunkten eines Menschen in einem dreidimensionalen Raum, umfassend a. eine Bildaufnahmeeinheit (1), die zur Aufnahme zumindest eines zweidimensionalen Bildes (2) des Raumes ausgebildet ist, b. eine Datenverarbeitungseinheit (3) zur Entgegennahme des Bildes (2), c. eine Bildverarbeitungseinheit (4), i. die zur Detektion einer Zahl N von zweidimensionalen Schlüsselpunkten des Menschen im Bild (2), und il. zur Schätzung der relativen dreidimensionalen Positionen der detektierten Schlüsselpunkte S+1 n“°® sowie der geschätzten Distanzen d“® ausgebildet ist, dadurch gekennzeichnet, dass d. die Datenverarbeitungseinheit (3) zur Abfrage einer Datenbank (5) zur Auswahl von zumindest M = 3 detektierten Schlüsselpunkten und zur Bestimmung der durchschnittlichen Distanz d@°® der ausgewählten Schlüsselpunkte ausgebildet ist, wobei e. aus diesen durchschnittlichen Distanzen d®P% ein Referenzmodell, bestehend aus den Schlüsselpositionen S‘1...m erzeugt wird und f. eine Positionsbestimmungseinheit (6) vorgesehen ist, die zur Berechnung i. der absoluten Vektoren V1..m@® der Bildaufnahmeeinheit (1) aus den zweidimensionalen Schlüsselpunkten S‘1...m des Referenzmodells unter Berücksichtigung intrinsischer geometrischer Parameter (7) der Bildaufnahmeeinheit (1), insbesondere der Brennweite f und des Bildhauptpunktes, ausgebildet ist, und ii. der absoluten dreidimensionalen Positionen der Schlüsselpunkte S1.n @® aus den relativen Positionen der Schlüsselpunkte Sı.n °®% und den Werten von V1..m@9 ausgebildet ist.
10. Fahrzeug, umfassend eine Vorrichtung nach Anspruch 9.
Hierzu 1 Blatt Zeichnungen

Claims (8)

x bes AT 528 459 A1 2026-01-15 Ss N Neue Patentansprüche
1. Verfahren zur Schätzung der absoluten Positionen S+1.n @°% einer Zahl N von Schlüsselpunkten eines Menschen in einem dreidimensionalen Raum in einem Fahrzeug, umfassend die Schritte:
a. Aufnahme, durch zumindest eine Bildaufnahmeeinheit (1), zumindest eines zweidimensionalen Bildes (2) des Raumes,
b. Entgegennahme, durch eine Datenverarbeitungseinheit (3), des Bildes (1);
c. Detektion, durch eine Bildverarbeitungseinheit (4), einer Zahl N von zweidimensionalen Schlüsselpunkten des Menschen im Bild (2), sowie Schätzung der dreidimensionalen relativen Positionen der detektierten Schlüsselpunkte S+.n sowie der geschätzten Distanzen d(®),
dadurch gekennzeichnet, dass die nachfolgenden Schritte ausgeführt werden:
d. Abfrage, durch die Datenverarbeitungseinheit (3), einer Datenbank (5) zur Auswahl von zumindest M = 3 detektierten Schlüsselpunkten S‘1.m und Bestimmung der durchschnittlichen Distanz d@S9 der ausgewählten Schlüsselpunkte, wobei es sich bei den ausgewählten Schlüsselpunkten um jene Schlüsselpunkte handelt, deren durchschnittliche Abstände die geringste statistische Varianz aller im Bild (2) detektierten Schlüsselpunkte aufweist,
e. Berechnung eines Referenzmodells unter Verwendung der durchschnittlichen Distanzen d@bS), umfassend die Schlüsselpunkte S‘1...m, und Skalierung der Schlüsselpunkte Sı.n © auf die Schlüsselpunkte des Referenzmodells,
f. Berechnung, durch eine Positionsbestimmungseinheit (6), der Abstandsvektoren V1.m@°® der Bildaufnahmeeinheit (1) aus den zweidimensionalen Schlüsselpunkten S‘1...m des Referenzmodells unter Berücksichtigung intrinsischer geometrischer Parameter (7) der Bildaufnahmeeinheit (1), insbesondere der Brennweite f und des Bildhauptpunktes, sowie
g. Berechnung, durch die Positionsbestimmungseinheit (6), der absoluten dreidimensionalen Positionen der Schlüsselpunkte S+;.n 9 aus den relativen Positionen der Schlüsselpunkte S+1.n“°) und den Vektoren V1...m@PS)
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass es sich bei den Schlüsselpunkten um vordefinierte Punkte des menschlichen Körpers handelt, insbesondere Handgelenke, Armgelenke, Ellbogengelenke, Schultergelenke, Kniegelenke, FuRßgelenke, Hüftgelenke, sowie Kopfmittelpunkt, Brustbein, Augen, Ohren, Nase, und/oder Mund einer Person.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass zur Detektion der zweidimensionalen Schlüsselpunkten des Menschen im Bild (2) und zur Schätzung der dreidimensionalen relativen Positionen der detektierten Schlüsselpunkte S+4.n“° ein und dasselbe neuronale Netz eingesetzt wird.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass es sich bei den ausgewählten Schlüsselpunkten um Schlüsselpunkte aus dem Kopfbereich des Menschen handelt, beispielsweise um die Positionen der Augen, der Nase, des Mundes und/oder der Ohren des Menschen.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass die Bildverarbeitungseinheit das Geschlecht und/oder das Alter des Menschen im Bild schätzt und dies bei der Auswahl und/oder bei der Bestimmung des durchschnittlichen absoluten Abstands debs) zwischen den Schlüsselpunkten berücksichtigt
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die Schlüsselpunkte von der Datenverarbeitungseinheit (3) in elektronisch lesbarer Form, beispielsweise in Form einer Tabelle oder eines Graphen, gespeichert werden.
7. Computerlesbares Speichermedium, umfassend Anweisungen, die eine Datenverarbeitungseinheit (3) zur Ausführung eines Verfahrens nach einem der Ansprüche 1 bis 6 veranlassen.
ZULETZT VORGELEGTE ANSPRÜCHE
8. Fahrzeug, umfassend eine Vorrichtung zur Schätzung der absoluten Positionen Sı1.n @ einer Zahl N von Schlüsselpunkten eines Menschen in einem dreidimensionalen Raum in dem Fahrzeug, umfassend
a. eine Bildaufnahmeeinheit (1), die zur Aufnahme zumindest eines zweidimensionalen Bildes (2) des Raumes ausgebildet ist, b. eine Datenverarbeitungseinheit (3) zur Entgegennahme des Bildes (2), c. eine Bildverarbeitungseinheit (4), i. die zur Detektion einer Zahl N von zweidimensionalen Schlüsselpunkten des Menschen im Bild (2), und il. zur Schätzung der relativen dreidimensionalen Positionen der detektierten Schlüsselpunkte S+4.n“°® sowie der geschätzten Distanzen d“® ausgebildet ist, dadurch gekennzeichnet, dass d. die Datenverarbeitungseinheit (3) zur Abfrage einer Datenbank (5) zur Auswahl von zumindest M = 3 detektierten Schlüsselpunkten und zur Bestimmung der durchschnittlichen Distanz d@°® der ausgewählten Schlüsselpunkte ausgebildet ist, wobei e. es sich bei den ausgewählten Schlüsselpunkten um jene Schlüsselpunkte handelt, deren durchschnittliche Abstände die geringste statistische Varianz aller im Bild (2) detektierten Schlüsselpunkte aufweist, wobei f. aus diesen durchschnittlichen Distanzen d@°® ein Referenzmodell, bestehend aus den Schlüsselpositionen S‘1...m erzeugt wird und g. eine Positionsbestimmungseinheit (6) vorgesehen ist, die zur Berechnung i. der absoluten Vektoren V1..m@® der Bildaufnahmeeinheit (1) aus den zweidimensionalen Schlüsselpunkten S‘1...M des Referenzmodells unter Berücksichtigung intrinsischer geometrischer Parameter (7) der Bildaufnahmeeinheit (1), insbesondere der Brennweite f und des Bildhauptpunktes, ausgebildet ist, und ii. der absoluten dreidimensionalen Positionen der Schlüsselpunkte Sı1.n @® aus den relativen Positionen der Schlüsselpunkte S1.n“®% und den Werten von V1..m@9 ausgebildet ist.
ZULETZT VORGELEGTE ANSPRÜCHE
ATA50546/2024A 2024-07-03 2024-07-03 Verfahren und Vorrichtung zur Schätzung der Positionen von menschlichen Schlüsselpunkten AT528459A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
ATA50546/2024A AT528459A1 (de) 2024-07-03 2024-07-03 Verfahren und Vorrichtung zur Schätzung der Positionen von menschlichen Schlüsselpunkten
PCT/AT2025/060264 WO2026006864A1 (de) 2024-07-03 2025-06-27 Verfahren und vorrichtung zur schätzung der positionen von menschlichen schlüsselpunkten

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ATA50546/2024A AT528459A1 (de) 2024-07-03 2024-07-03 Verfahren und Vorrichtung zur Schätzung der Positionen von menschlichen Schlüsselpunkten

Publications (1)

Publication Number Publication Date
AT528459A1 true AT528459A1 (de) 2026-01-15

Family

ID=96356650

Family Applications (1)

Application Number Title Priority Date Filing Date
ATA50546/2024A AT528459A1 (de) 2024-07-03 2024-07-03 Verfahren und Vorrichtung zur Schätzung der Positionen von menschlichen Schlüsselpunkten

Country Status (2)

Country Link
AT (1) AT528459A1 (de)
WO (1) WO2026006864A1 (de)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7442494B2 (ja) * 2018-07-25 2024-03-04 ドルビー ラボラトリーズ ライセンシング コーポレイション 光学式捕捉によるパーソナライズされたhrtf
AT522797B1 (de) * 2020-03-02 2021-02-15 Emotion3D Gmbh Verfahren und Vorrichtung zur Einstellung oder Steuerung einer Fahrzeugkomponente
US20240290034A1 (en) * 2021-11-17 2024-08-29 Intel Corporation Method and system of multi-view image processing with accurate skeleton reconstruction
CN114910052B (zh) * 2022-05-27 2024-06-18 深圳市立体通技术有限公司 一种基于摄像头的测距方法、控制方法、装置和电子设备

Also Published As

Publication number Publication date
WO2026006864A1 (de) 2026-01-08

Similar Documents

Publication Publication Date Title
DE60023447T2 (de) Verfahren zur berechnung der lage und ausrichtung eines objektes im dreidimensionalen raum
DE102005028746B4 (de) Verfahren zum Ermitteln der Position und Orientierung eines Objekts, insbesondere eines Katheters, aus zweidimonsionalen Röntgenbildern
EP2584493B1 (de) Verfahren zur Unterscheidung zwischen einem realen Gesicht und einer zweidimensionalen Abbildung des Gesichts in einem biometrischen Erfassungsprozess
WO2021175517A1 (de) Verfahren und vorrichtung zur optischen sitzgurterkennung
DE112017007303B4 (de) Gesichtserkennungsvorrichtung
DE60217143T2 (de) Schätzung von kopfbewegung aus vier merkmalspunkten
DE112009003144T5 (de) Verfahren und Vorrichtung zum Feststellen eines Hindernisses in einem Bild
DE112004000393T5 (de) System und Verfahren zum Verfolgen einer globalen Form eines in Bewegung befindlichen Objekts
DE112019007390T5 (de) Verfahren, Vorrichtung und Computerprogramm zur Verfolgung von sich bewegenden Objekten
DE102020207975A1 (de) Verfahren und Vorrichtung zur Verminderung der durch das Sitz- und Bewegungsverhalten eines Nutzers verursachten gesundheitlichen Belastung
WO2020187394A1 (de) Verfahren zum trainieren eines autoencoders und zum klassifizieren von daten sowie autoencoder und computerprogramm hierzu
WO2022218795A1 (de) Verfahren zur kalibrierung von sensorinformationen eines fahrzeugs sowie fahrassistenzsystem
AT528459A1 (de) Verfahren und Vorrichtung zur Schätzung der Positionen von menschlichen Schlüsselpunkten
DE102019201583A1 (de) Benutzererkennungsvorrichtung zum Ermitteln einer Identität eines Benutzers
EP4681163A1 (de) Verfahren und vorrichtung zur schätzung der positionen von menschlichen schlüsselpunkten
EP1425709A2 (de) Modellbasierte objektklassifikation und zielerkennung
DE102020207695A1 (de) Tiefenschätzung aus Monokamerabildern mittels künstlicher Intelligenz
EP1756748B1 (de) Verfahren zur klassifizierung eines objekts mit einer stereokamera
AT524965B1 (de) Computerimplementiertes Verfahren zur Erstellung einer Aufmerksamkeitszone
WO2023179991A1 (de) Ermittlung der körperhaltung
DE102021109386B4 (de) Verfahren zur Korrektur von Tiefenbildern einer Lichtlaufzeitkamera
WO2026006865A1 (de) Verfahren und vorrichtung zur kalibrierung einer kamera in einem fahrzeug
DE102020120600A1 (de) Verfahren und vorrichtung zum automatischen schätzen eines körpergewichts einer person
DE102021113111A1 (de) Verfahren zur Kalibrierung von Sensorinformationen eines Fahrzeugs sowie Fahrassistenzsystem
DE10042387A1 (de) Verfahren zum Transformieren dreidimensionaler Objektpunkte in zweidimensionale Bildpunkte für Linear-Fächerstrahlsensor-Bilder