AT528459A1 - Verfahren und Vorrichtung zur Schätzung der Positionen von menschlichen Schlüsselpunkten - Google Patents
Verfahren und Vorrichtung zur Schätzung der Positionen von menschlichen SchlüsselpunktenInfo
- Publication number
- AT528459A1 AT528459A1 ATA50546/2024A AT505462024A AT528459A1 AT 528459 A1 AT528459 A1 AT 528459A1 AT 505462024 A AT505462024 A AT 505462024A AT 528459 A1 AT528459 A1 AT 528459A1
- Authority
- AT
- Austria
- Prior art keywords
- key points
- image
- dimensional
- positions
- processing unit
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
Verfahren und Vorrichtung zur Schätzung der absoluten Positionen S1..N (abs) einer Zahl N von Schlüsselpunkten eines Menschen in einem dreidimensionalen Raum, umfassend die Schritte: Aufnahme, durch zumindest eine Bildaufnahmeeinheit (1), zumindest eines zweidimensionalen Bildes (2) des Raumes, Entgegennahme, durch eine Datenverarbeitungseinheit (3), des Bildes (1); Detektion, durch eine Bildverarbeitungseinheit (4), einer Zahl N von zweidimensionalen Schlüsselpunkten des Menschen im Bild (2), sowie Schätzung der dreidimensionalen relativen Positionen der detektierten Schlüsselpunkte S1..N (rel) sowie der geschätzten Distanzen d(rel).
Description
x bes AT 528 459 A1 2026-01-15
Ss N
VERFAHREN UND VORRICHTUNG ZUR SCHÄTZUNG DER POSITIONEN VON MENSCHLICHEN SCHLÜSSELPUNKTEN
[0001] Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Schätzung der Positionen von menschlichen Schlüsselpunkten in einem dreidimensionalen Raum.
[0002] Aus dem Stand der Technik sind Verfahren zur Bestimmung der dreidimensionalen Positionen von Schlüsselpunkten des menschlichen Körpers, insbesondere den Positionen des Kopfes, der Augen, der Nase, der Ohren, des Brustbeins und verschiedener menschlicher Gelenke, beispielsweise Schultergelenke, Ellenbogengelenke, Kniegelenke, Handgelenke und Hüftgelenk, bekannt. Derartige Verfahren werden insbesondere in Fahrzeugen eingesetzt, um die Positionen und Körperstellungen der Fahrzeuginsassen zu detektieren.
[0003] Um die absoluten Positionen der Schlüsselpunkte, also die dreidimensionalen Positionen der Schlüsselpunkte im Koordinatensystem des Fahrzeugs zu bestimmen, werden in der Regel Bildaufnahmeeinheiten in Form von Tiefenkameras oder Time-of-Flight (ToF)-Kameras eingesetzt. Derartige Kameras messen mit dedizierten Sensoren für jeden Pixel den Abstand zur Kamera, die sogenannte Pixeltiefe. Da die absoluten Koordinaten der Kamera im Fahrzeug vorab kalibriert werden, können die absoluten Koordinaten der Schlüsselpunkte aus den gemessenen Pixeltiefen berechnet werden.
[0004] Bei der Anwendung von Tiefenkameras entsteht jedoch das Problem, dass gewisse Schlüsselpunkte des menschlichen Körpers häufig verdeckt sind, insbesondere in Fahrzeugen. Beispielsweise können die Pixeltiefen von Schlüsselpunkten, die durch Extremitäten des Körpers, Sitzgurte oder Kleidungsstücke verdeckt sind, durch die Tiefenkamera nicht korrekt gemessen werden.
[0005] Aufgabe der Erfindung ist es unter anderem, dieses Problem zu lösen und ein Verfahren sowie eine Vorrichtung zur Schätzung der Positionen von menschlichen Schlüsselpunkten bereitzustellen, welche die Positionen mit höherer Genauigkeit bereitstellt.
[0006] Diese und andere Aufgaben werden erfindungsgemäß mit einem Verfahren nach Anspruch 1 gelöst.
[0007] Ein erfindungsgemäßes Verfahren ist zur Schätzung der absoluten dreidimensionalen Positionen Sı1.n @?® einer Zahl N von Schlüsselpunkten eines Menschen in einem dreidimensionalen Raum ausgebildet. Es umfasst die nachfolgenden Schritte:
[0008] In einem ersten Schritt wird, durch eine Bildaufnahmeeinheit, zumindest ein zweidimensionales Bild des Raumes aufgenommen. Bei der Bildaufnahmeeinheit kann es sich um eine herkömmliche 2D-Kamera handeln. Das Bild wird in Folge von einer Datenverarbeitungseinheit entgegengenommen.
[0009] Die Datenverarbeitungseinheit kann als Mikrocontroller oder Mikrocomputer ausgebildet sein und eine zentrale Verarbeitungseinheit (CPU), einen flüchtigen Halbleiterspeicher (RAM), einen nichtflüchtigen Halbleiterspeicher (ROM, SSD-Festplatte), einen magnetischen Speicher (Festplatte) und/oder einen optischen Speicher (CD-ROM) sowie Schnittstelleneinheiten (Ethernet, USB) und dergleichen umfassen. Die Bestandteile derartiger Datenverarbeitungseinheiten sind dem Fachmann grundsätzlich bekannt.
[0010] Im nächsten Schritt erfolgt eine Detektion, durch eine Bildverarbeitungseinheit, der zweidimensionalen Positionen der Schlüsselpunkte des Menschen S1...N aus dem aufgenommenen zweidimensionalen Bild. Zu diesem Zweck können bekannte Algorithmen der Mustererkennung, insbesondere aus dem Bereich des maschinellen Lernens herangezogen werden. Insbesondere kann dazu ein neuronales Netz herangezogen werden, welche dazu trainiert wurden, die Schlüsselpositionen eines oder mehrerer Menschen aus 2D Bildern abzuschätzen.
[0011] Bei den Schlüsselpunkten kann es sich um vordefinierte Punkte des menschlichen Körpers handeln, insbesondere Handgelenke, Armgelenke, Ellbogengelenke, Schultergelenke, Knie-
x bes AT 528 459 A1 2026-01-15
Ss N
gelenke, Fußgelenke Hüftgelenken, sowie der Kopfmittelpunkt, das Brustbein, die Positionen der Augen, der Ohren, der Nase, und/oder des Mundes einer Person.
[0012] Nach oder gleichzeitig mit der Detektion der zweidimensionalen Schlüsselpunkte des Menschen im Bild erfolgt eine Schätzung der relativen dreidimensionalen Positionen S+1.n “® der detektierten Schlüsselpunkte. Diese Schätzung kann vorzugsweise ebenfalls durch ein neuronales Netz erfolgen, welches dazu trainiert wurde, aus den Bilddaten die 2-dimensionalen Koordinaten und die Tiefenvektoren, also die Abstände der Schlüsselpunkte von der Kamera, zu liefern. Die Schätzung umfasst die Bestimmung der relativen Abstände d“®) zwischen je zwei erkannten Schlüsselpunkten. Diese geschätzten Schlüsselpunkte befinden sich somit im Koordinatensystem der Kamera, die korrekte Skalierung ist aber noch nicht bekannt.
[0013] Vorzugsweise erfolgt sowohl die Detektion der zweidimensionalen Schlüsselpunkte, als auch die Schätzung der relativen dreidimensionalen Positionen der Schlüsselpunkte durch ein und dasselbe neuronale Netz, welches vorab eigens dazu trainiert wurde, aus einem zweidimensionalen Bild sowohl die zweidimensionalen Schlüsselpunkte eines Menschen zu extrahieren, als auch deren jeweilige Abstände von der Kamera im dreidimensionalen Raum zu schätzen.
[0014] Erfindungsgemäß kann zu diesem Zweck vorgesehen sein, dass als Trainingsdaten des neuronalen Netzes zweidimensionale Bilder von Menschen verwendet werden, deren Schlüsselpunkte annotiert und mit ihren 3D-Abständen zueinander versehen sind. Statt eines neuronalen Netzes kann aber auch jedes andere Verfahren aus dem Bereich des maschinellen Lernens und der künstlichen Intelligenz herangezogen werden.
rgebnis der Schätzung ist eine Liste von Relativpositionen der Schlüsselpunkte S+1.n“® [0015] Ergebnis der Schät ist eine List Relati iti der Schlüssel kte Sı1.nC®) = [xiC®, yıled, ze, wobeii= 1... N und N die Zahl der erkannten Schlüsselpunkte ist.
[0016] Die geschätzten 3D-Positionen der Schlüsselpunkte sind in ihren Relationen und 3D-Winkeln zueinander zwar korrekt, jedoch sind die absoluten 3D-Koordinaten der Schlüsselpunkte aus dieser Schätzung nicht ableitbar. So kann beispielsweise eine große Person, die weiter von der Kamera entfernt ist, auf dem 2D-Bild exakt gleich aussehen, wie eine kleine Person, die sich näher bei der Kamera befindet.
[0017] Zur Bestimmung absoluter 3D-Koordinaten der Schlüsselpunkte erfolgt im nächsten Schritt eine Abfrage einer Datenbank durch die Datenverarbeitungseinheit zur Auswahl von zumindest M = 3 Schlüsselpunkten S‘1.m aus den vorab im Bild detektierten Schlüsselpunkten. Ziel ist es dabei, jene Schlüsselpunkte auszuwählen, deren absoluter Abstand d@°® durchschnittlich in der Gesamtbevölkerung die niedrigste statische Varianz aufweist. Zu diesem Zweck sind in der Datenbank die durchschnittlichen Abstände einer Vielzahl von Kombinationen aus menschlichen Schlüsselpunkten hinterlegt, beispielsweise der durchschnittliche Abstand der Augen, der Ohren, oder der Abstand zwischen Kinn und Nase. Ferner verfügt die Datenbank über Informationen über die Varianz der jeweiligen Werte in der Bevölkerung, also Information darüber, wie sehr die jeweiligen Abstände typischerweise variieren.
[0018] Ergebnis der Abfrage ist die absolute Distanz d@P® zwischen jenen detektierten Schlüsselpunkten, dessen Varianz in der Datenbank am niedrigsten ist. Beispielsweise kann aus der Datenbank ein durchschnittlicher Augenabstand von d®®=7cm entnommen werden.
[0019] Vorzugsweise kann es sich bei den ausgewählten Schlüsselpunkten um Schlüsselpunkte aus dem Kopfbereich handeln, beispielsweise um die Positionen der Augen, der Nase, des Mundes und/oder der Ohren des Menschen, da Schlüsselpunkte aus dem Kopfbereich starr sind und in der Regel nur niedrige Varianz aufweisen.
[0020] Erfindungsgemäß kann vorgesehen sein, dass die Bildverarbeitungseinheit das Geschlecht und/oder das Alter des Menschen im Bild schätzt und dies bei der Auswahl der Schlüsselpunkte und/oder bei der Bestimmung des durchschnittlichen absoluten Abstands d@°® berücksichtigt.
[0021] Um auch das Geschlecht und/oder Alter der detektierten Person bei der Auswahl der Schlüsselpunkte heranzuziehen, können in der Datenbank die durchschnittlichen Werte der Ab-
x bes AT 528 459 A1 2026-01-15
Ss N
stände der Schlüsselpunkte und die Varianz dieser Werte für verschiedene Geschlechter und verschiedene Altersgruppen der Bevölkerung hinterlegt sein. Ergebnis der Datenbankabfrage ist die zusätzliche Information des wahrscheinlichsten dreidimensionalen absoluten Abstands d@® zweier im Bild detektierter Schlüsselpunkte.
[0022] In einem nächsten Schritt wird einer der ausgewählten Schlüsselpunkte S+4...m, etwa die Position der Nase, als Ursprungspunkt [0,0,0] herangezogen und die M ausgewählten Schlüsselpunkte werden so skaliert, dass die Abstände zwischen je zwei Punkten mit dem Wert von des übereinstimmen. Die neu skalierten und transformierten Schlüsselpunkte S‘;...m“® bilden ein Referenzmodell.
[0023] Auch das Referenzmodell befindet sich noch im relativen Koordinatensystem, die exakte Skalierung der Schlüsselpunkte 1...M ist aber bereits vorgenommen worden. Im nächsten Schritt werden die restlichen Schlüsselpunkte S+.. N“? auf die Schlüsselpunkte des Referenzmodells skaliert.
[0024] Im nächsten Schritt erfolgt die Berechnung, durch eine Positionsbestimmungseinheit, der Abstandsvektoren V1.m@°® der Bildaufnahmeeinheit von den ausgewählten Schlüsselpunkten.
[0025] Um die Abstandsvektoren V1..m@® berechnen zu können, werden die intrinsischen geometrischen Parameter der Bildaufnahmeeinheit herangezogen. Dabei kann es sich insbesondere um die Brennweite, den Bildhauptpunkt und die Verzerrungskoeffizienten einer Kamera handeln. Wenn beispielsweise bekannt ist, dass die Kamera eine Brennweite von 50mm hat, können aus dem Referenzmodell und den zweidimensionalen Schätzungen dieser Schlüsselpunkte die Vektoren V+1...m@®9 berechnet werden. Bekannte Programmbibliotheken wie OpenCV und Dliib verfügen über entsprechenden Routinen, wie in dem Internet-Beitrag
hitos /iearmopenev, comM/head-DOse-esiimalicn-uSsing-ODeNcv-and-dib/ beschrieben ist.
[0026] Im nächsten Schritt berechnet die Positionsbestimmungseinheit die absoluten dreidimensionalen Positionen der weiteren Schlüsselpunkte S1.n@® aus den relativen dreidimensionalen Positionen der Schlüsselpunkte S+4. N“? und den nun bekannten Vektoren V4...m@P® der Schlüsselpunkte von der Kamera. Nachdem alle Schlüsselpunkte S1.n“°® bereits korrekt skaliert und auch die 3D Winkel bekannt sind, müssen alle restlichen Schlüsselpunkte unter Verwendung der Vektoren V1...m@°® verschoben werden. Beispielsweise reicht hier eine Verschiebung aller Punkte um den Durchschnitt aller Vektoren VebS),
[0027] Als Ergebnis der Berechnung sind die absoluten dreidimensionalen Positionen der Schlüsselpunkte S+;.n @9 im Koordinatensystem des Fahrzeugs bekannt.
[0028] Sowohl die Bildverarbeitungseinheit, als auch die Positionsbestimmungseinheit können als separate Hardwareeinheiten, oder vorzugsweise als Softwaremodule im RAM oder ROM der Datenverarbeitungseinheit vorgesehen sein. Es kann aber auch vorgesehen sein, dass diese Einheiten extern vorgesehen sind, beispielsweise auf einem Server im Internet, an den die erforderlichen Daten übertragen werden.
[0029] Erfindungsgemäß kann vorgesehen sein, dass Positionen der geschätzten Schlüsselpunkte in ein topologisches dreidimensionales Datenmodell, insbesondere in einen Graphen übergeführt werden. Zur Erstellung des topologischen Datenmodells kann die bekannte dreidimensionale Physiologie des menschlichen Körpers herangezogen werden. So kann beispielsweise die erkannte Position eines Ellbogengelenks als Schlüsselpunkt in Form eines Knoten in einem Graphen mit den Positionen des Handgelenks und des Schultergelenks über Kanten verbunden sein.
[0030] Die Erfindung betrifft ferner ein computerlesbares Speichermedium, umfassend Anweisungen, die eine Datenverarbeitungseinheit zur Ausführung eines erfindungsgemäßen Verfahrens veranlassen.
[0031] Die Erfindung betrifft ferner eine Vorrichtung zur Schätzung der absoluten Positionen von menschlichen Schlüsselpunkten in einem dreidimensionalen Raum, die dazu ausgebildet ist, ein
x bes AT 528 459 A1 2026-01-15
Ss N
erfindungsgemäßes Verfahren auszuführen.
[0032] Die Erfindung betrifft ferner ein Fahrzeug, umfassend eine erfindungsgemäße Vorrichtung.
[0033] Weitere erfindungsgemäße Merkmale ergeben sich aus den Ansprüchen, den Ausführungsbeispielen und den Figuren.
[0034] Die Erfindung wird im Folgenden an Hand eines exemplarischen, nicht ausschließlichen Ausführungsbeispiels erläutert.
[0035] Fig. 1 zeigt ein schematisches Beispiel einer erfindungsgemäßen Vorrichtung;
[0036] Fig. 2a zeigt eine schematische Darstellung eines Graphen bei der Durchführung eines erfindungsgemäßen Verfahrens;
[0037] Fig. 20 zeigt eine schematische Darstellung der zweidimensionalen und absoluten dreidimensionalen Positionen der Schlüsselpunkte bei der Durchführung eines erfindungsgemäßen Verfahrens.
[0038] Fig. 1 zeigt ein schematisches Beispiel einer erfindungsgemäßen Vorrichtung zur Schätzung der absoluten Positionen von menschlichen Schlüsselpunkten S+ - Sn in einem dreidimensionalen Raum. Die Vorrichtung umfasst eine Bildaufnahmeeinheit 1, die zur Aufnahme eines zweidimensionalen Bildes 2 ausgebildet ist und intrinsische geometrische Parameter 7 bereitstellt, insbesondere die Brennweite des Bildes 2. Ferner umfasst die Vorrichtung eine Datenverarbeitungseinheit 3 mit einer Bildverarbeitungseinheit 4, einer Datenbank 5 und einer Positionsbestimmungseinheit 6.
[0039] Die Bildverarbeitungseinheit 4 umfasst ein neuronales Netz, welches dazu trainiert wurde, einerseits menschliche Schlüsselpunkte aus einem zweidimensionalen Bild zu extrahieren, und gleichzeitig deren relative dreidimensionale Positionen zu schätzen. Zum Training dieses Netzes wurden zweidimensionale Bilddaten von Menschen mit dreidimensional annotierten Schlüsselpunkten verwendet, d.h. die zum Training verwendeten Bilder enthalten Bilder von Menschen, deren Schlüsselpunkte mit dreidimensionalen relativen Koordinaten annotiert sind.
[0040] Zunächst wird die Bildverarbeitungseinheit 4 auf das Bild 2 angewandt, sodass in dem zweidimensionalen Bild 2 die Schlüsselpunkte des Menschen S+1 — Sn und deren dreidimensionale relative Positionen S1C°% - Syu®% im Bild 1 erhalten werden. Die Schlüsselpunkte liegen in Form von kartesischen Koordinaten xi®?, yıC®, zC®) vor und werden als Datenobjekt in Form eines Graphen gespeichert.
[0041] Fig. 2a zeigt eine schematische Darstellung der Graphen bei der Durchführung eines erfindungsgemäßen Verfahrens. Auf der linken Seite ist ein Graph dargestellt, der die zweidimensionalen Schlüsselpunkte S+1 — Sn des Menschen im Bild 2 zeigt.
[0042] Das neuronale Netz schätzt daraus relative dreidimensionale Koordinaten der Schlüsselpunkte S;C°®).- SyC®) wie im rechten Bild dargestellt. Da die Trainingsdaten für das neuronale Netzwerk als zweidimensionale Punkte in Kombination mit Tiefenwerten für diese Punkte hinterlegt sind, befinden sich auch die geschätzten Punkte im Kamerakoordinatensystem mit dem Kameraursprung als Koordinatenursprung.
[0043] In einem nächsten Schritt werden die resultierenden relativen Schlüsselpunkte in ein Einheitskoordinatensystem transformiert. Beispielsweise haben die Schlüsselpunkte des Kopfes die folgenden relativen Koordinaten, wobei die Nasenspitze als Ursprungspunkt definiert wird:
Schlüsselpunkt x eb yıle) zieh Se Linkes Auge -225.0 170.0 -135.0 Seh Rechtes Auge 225.0 150.0 -135.0 Steh Nasenspitze 0.0 0.0 0.0 Sa Brustbein 0.0 -250.0 0.0
x bes AT 528 459 A1 2026-01-15
Ss N
[0044] Die Koordinaten der weiteren Schlüsselpunkte werden relativ zum Ursprungspunkt, also der Nasenspitze, transformiert. Die in der Figur angedeuteten Abstände dj; bezeichnen die Distanzen zwischen den Schlüsselpunkten Si und S;.
[0045] Fig. 2b zeigt eine schematische Darstellung der zweidimensionalen und der dreidimensionalen Positionen der Schlüsselpunkte bei der Durchführung eines erfindungsgemäßen Verfahrens.
[0046] Durch die oben beschriebene Schätzung und Transformation sind die relativen dreidimensionalen Koordinaten S1"° - Sy der Schlüsselpunkte bekannt; es fehlt jedoch die Information über die absoluten Koordinaten der Schlüsselpunkte im dreidimensionalen Raum, d.h. deren Lage und Skalierung im Koordinatensystem der Kamera 1.
[0047] Um diese absoluten dreidimensionalen Koordinaten zu berechnen, wird eine Datenbank 5 herangezogen, in der die durchschnittlichen Abstände menschlicher Schlüsselpunkte und deren Varianz in der Gesamtbevölkerung gespeichert ist. Beispielsweise kann darin gespeichert sein, dass der Augenabstand bei männlichen Erwachsenen mit einer Wahrscheinlichkeit von 95% im Bereich von 7.0cm bis 7.2cm liegt. Sind nun aus der Schätzung die relativen dreidimensionalen Koordinaten der beiden Augen bekannt, so werden diese Koordinaten nun derart transformiert, dass ihr skalarer Abstand einen Wert von 7.1cm aufweist. Sind die Augen im Bild 2 nicht sichtbar, werden andere Schlüsselpunkte des Kopfes herangezogen, beispielsweise der Abstand zwischen der Nase und dem Kinn des Menschen. Es müssen zumindest M = 3 Punkte für den nächsten Schritt vorhanden sein.
[0048] Sind drei der detektierten Schlüsselpunkte korrekt skaliert, fehlt noch die Information über den Abstand und die Orientierung zur Bildaufnahmeeinheit 1. In Fig. 2b ist die, der Datenbank 5 entnommene Distanz d@9 zwischen den ausgewählten Schlüsselpunkten rechts dargestellt.
[0049] In einem nächsten Schritt werden die drei ausgewählten Schlüsselpunkte des Kopfbereichs in ein Referenzmodell transformiert, dessen Ursprungspunkt mit dem Kameraursprung übereinstimmt. Beispielsweise haben die Schlüsselpunkte des Kopfes die folgenden relativen Koordinaten, wobei die Nasenspitze als Ursprungspunkt definiert wird:
Schlüsselpunkt Xi Yyı Zi Sa Linkes Auge -22.5 17.0 -13.5 S‘„ weh Rechtes Auge 22.5 15.0 -13.5 S‘30eh Nasenspitze 0.0 0.0 0.0
[0050] Diese ausgewählten Punkte bilden ein korrekt skaliertes Referenzmodell, in dem die Abstände der Schlüsselpunkte den tatsächlichen durchschnittlichen Abständen entsprechen. Fig. 2bzeigt links das so errechnete Referenzmodell für drei beispielhafte Schlüsselpunkte S+1““°, S‘treh, SA
[0051] Im nächsten Schritt berechnet eine Positionsbestimmungseinheit 6 die absoluten Vektoren Vı@bs, \,@bsS, \/@ebs) der Bildaufnahmeeinheit 1 aus den geschätzten zweidimensionalen Schlüsselpunkten S+"®, SC, S;C®% und dem Referenzmodell, bestehend aus S‘,C®, S‘„C°), S‘30e) im Koordinatensystem der Bildaufnahmeeinheit. Zu diesem Zweck werden die Brennweite, der Bildhauptpunkt und die Verzerrungsparameter der Bildaufnahmeeinheit 1 als geometrische Parameter 7 herangezogen. In Kenntnis dieser Werte kann, wie in Fig. 2b dargestellt, eine Projektion der 2D-Punkte S+, S2z und S; auf die entsprechenden 3D-Punkte S,@9, S,@b9 und Se durchgeführt werden. In Folge sind die absoluten Koordinaten S1@S, S,@S) und Se der drei ausgewählten Punkte im Koordinatensystem der Bildaufnahmeeinheit 1, sowie die absoluten Vektoren \/@bs) der Kamera 1 zu diesen Schlüsselpunkten bekannt.
[0052] Die Positionsbestimmungseinheit 6 berechnet im nächsten Schritt die absoluten Koordinaten der verbleibenden Schlüsselpunkte im Koordinatensystem der Bildaufnahmeeinheit 1. Nachdem alle Schlüsselpunkte S1.n“°® bereits korrekt skaliert und auch die 3D Winkel bekannt
x bes AT 528 459 A1 2026-01-15
Ss N
sind, müssen alle restlichen Schlüsselpunkte unter Verwendung der Vektoren V@9 verschoben werden. Beispielsweise reicht hier eine Verschiebung aller Punkte um den Durchschnitt aller Vektoren V@ebs),
[0053] Die Erfindung beschränkt sich jedoch nicht auf dieses beschriebene Ausführungsbeispiel, sondern umfasst auch weitere Ausführungen der vorliegenden Erfindung im Rahmen der nachfolgenden Patentansprüche.
x bes AT 528 459 A1 2026-01-15
Ss N
Patentansprüche
1. Verfahren zur Schätzung der absoluten Positionen S+1.n @°% einer Zahl N von Schlüsselpunkten eines Menschen in einem dreidimensionalen Raum, umfassend die Schritte:
a. Aufnahme, durch zumindest eine Bildaufnahmeeinheit (1), zumindest eines zweidimensionalen Bildes (2) des Raumes,
b. Entgegennahme, durch eine Datenverarbeitungseinheit (3), des Bildes (1);
c. Detektion, durch eine Bildverarbeitungseinheit (4), einer Zahl N von zweidimensionalen Schlüsselpunkten des Menschen im Bild (2), sowie Schätzung der dreidimensionalen relativen Positionen der detektierten Schlüsselpunkte Sı1.n © sowie der geschätzten Distanzen de),
dadurch gekennzeichnet, dass die nachfolgenden Schritte ausgeführt werden:
d. Abfrage, durch die Datenverarbeitungseinheit (3), einer Datenbank (5) zur Auswahl von zumindest M = 3 detektierten Schlüsselpunkten S‘1.m und Bestimmung der durchschnittlichen Distanz d@S9 der ausgewählten Schlüsselpunkte,
e. Berechnung eines Referenzmodells unter Verwendung der durchschnittlichen Distanzen d@bS), umfassend die Schlüsselpunkte S‘1...m, und Skalierung der Schlüsselpunkte Sı.n C°% auf die Schlüsselpunkte des Referenzmodells,
f. Berechnung, durch eine Positionsbestimmungseinheit (6), der Abstandsvektoren V1.m@°® der Bildaufnahmeeinheit (1) aus den zweidimensionalen Schlüsselpunkten S‘1...m des Referenzmodells unter Berücksichtigung intrinsischer geometrischer Parameter (7) der Bildaufnahmeeinheit (1), insbesondere der Brennweite f und des Bildhauptpunktes, sowie
g. Berechnung, durch die Positionsbestimmungseinheit (6), der absoluten dreidimensionalen Positionen der Schlüsselpunkte S1..n © aus den relativen Positionen der Schlüsselpunkte S+1.n“°) und den Vektoren V1...m@PS)
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass es sich bei den Schlüsselpunkten um vordefinierte Punkte des menschlichen Körpers handelt, insbesondere Handgelenke, Armgelenke, Ellbogengelenke, Schultergelenke, Kniegelenke, FuRßgelenke, Hüftgelenke, sowie Kopfmittelpunkt, Brustbein, Augen, Ohren, Nase, und/oder Mund einer Person.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass zur Detektion der zweidimensionalen Schlüsselpunkten des Menschen im Bild (2) und zur Schätzung der dreidimensionalen relativen Positionen der detektierten Schlüsselpunkte S+1.n “° ein und dasselbe neuronale Netz eingesetzt wird.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass es sich bei den ausgewählten Schlüsselpunkten um jene Schlüsselpunkte handelt, deren durchschnittliche Abstände die geringste statistische Varianz aller im Bild (2) detektierten Schlüsselpunkte aufweist.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass es sich bei den ausgewählten Schlüsselpunkten um Schlüsselpunkte aus dem Kopfbereich des Menschen handelt, beispielsweise um die Positionen der Augen, der Nase, des Mundes und/oder der Ohren des Menschen.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die Bildverarbeitungseinheit das Geschlecht und/oder das Alter des Menschen im Bild schätzt und dies bei der Auswahl und/oder bei der Bestimmung des durchschnittlichen absoluten Abstands debs) zwischen den Schlüsselpunkten berücksichtigt
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass die Schlüsselpunkte von der Datenverarbeitungseinheit (3) in elektronisch lesbarer Form, beispielsweise in Form einer Tabelle oder eines Graphen, gespeichert werden.
8. Computerlesbares Speichermedium, umfassend Anweisungen, die eine Datenverarbeitungseinheit (3) zur Ausführung eines Verfahrens nach einem der Ansprüche 1 bis 7 veranlassen.
Ss N
9. Vorrichtung zur Schätzung der absoluten Positionen S+1.n @S einer Zahl N von Schlüsselpunkten eines Menschen in einem dreidimensionalen Raum, umfassend a. eine Bildaufnahmeeinheit (1), die zur Aufnahme zumindest eines zweidimensionalen Bildes (2) des Raumes ausgebildet ist, b. eine Datenverarbeitungseinheit (3) zur Entgegennahme des Bildes (2), c. eine Bildverarbeitungseinheit (4), i. die zur Detektion einer Zahl N von zweidimensionalen Schlüsselpunkten des Menschen im Bild (2), und il. zur Schätzung der relativen dreidimensionalen Positionen der detektierten Schlüsselpunkte S+1 n“°® sowie der geschätzten Distanzen d“® ausgebildet ist, dadurch gekennzeichnet, dass d. die Datenverarbeitungseinheit (3) zur Abfrage einer Datenbank (5) zur Auswahl von zumindest M = 3 detektierten Schlüsselpunkten und zur Bestimmung der durchschnittlichen Distanz d@°® der ausgewählten Schlüsselpunkte ausgebildet ist, wobei e. aus diesen durchschnittlichen Distanzen d®P% ein Referenzmodell, bestehend aus den Schlüsselpositionen S‘1...m erzeugt wird und f. eine Positionsbestimmungseinheit (6) vorgesehen ist, die zur Berechnung i. der absoluten Vektoren V1..m@® der Bildaufnahmeeinheit (1) aus den zweidimensionalen Schlüsselpunkten S‘1...m des Referenzmodells unter Berücksichtigung intrinsischer geometrischer Parameter (7) der Bildaufnahmeeinheit (1), insbesondere der Brennweite f und des Bildhauptpunktes, ausgebildet ist, und ii. der absoluten dreidimensionalen Positionen der Schlüsselpunkte S1.n @® aus den relativen Positionen der Schlüsselpunkte Sı.n °®% und den Werten von V1..m@9 ausgebildet ist.
10. Fahrzeug, umfassend eine Vorrichtung nach Anspruch 9.
Hierzu 1 Blatt Zeichnungen
Claims (8)
1. Verfahren zur Schätzung der absoluten Positionen S+1.n @°% einer Zahl N von Schlüsselpunkten eines Menschen in einem dreidimensionalen Raum in einem Fahrzeug, umfassend die Schritte:
a. Aufnahme, durch zumindest eine Bildaufnahmeeinheit (1), zumindest eines zweidimensionalen Bildes (2) des Raumes,
b. Entgegennahme, durch eine Datenverarbeitungseinheit (3), des Bildes (1);
c. Detektion, durch eine Bildverarbeitungseinheit (4), einer Zahl N von zweidimensionalen Schlüsselpunkten des Menschen im Bild (2), sowie Schätzung der dreidimensionalen relativen Positionen der detektierten Schlüsselpunkte S+.n sowie der geschätzten Distanzen d(®),
dadurch gekennzeichnet, dass die nachfolgenden Schritte ausgeführt werden:
d. Abfrage, durch die Datenverarbeitungseinheit (3), einer Datenbank (5) zur Auswahl von zumindest M = 3 detektierten Schlüsselpunkten S‘1.m und Bestimmung der durchschnittlichen Distanz d@S9 der ausgewählten Schlüsselpunkte, wobei es sich bei den ausgewählten Schlüsselpunkten um jene Schlüsselpunkte handelt, deren durchschnittliche Abstände die geringste statistische Varianz aller im Bild (2) detektierten Schlüsselpunkte aufweist,
e. Berechnung eines Referenzmodells unter Verwendung der durchschnittlichen Distanzen d@bS), umfassend die Schlüsselpunkte S‘1...m, und Skalierung der Schlüsselpunkte Sı.n © auf die Schlüsselpunkte des Referenzmodells,
f. Berechnung, durch eine Positionsbestimmungseinheit (6), der Abstandsvektoren V1.m@°® der Bildaufnahmeeinheit (1) aus den zweidimensionalen Schlüsselpunkten S‘1...m des Referenzmodells unter Berücksichtigung intrinsischer geometrischer Parameter (7) der Bildaufnahmeeinheit (1), insbesondere der Brennweite f und des Bildhauptpunktes, sowie
g. Berechnung, durch die Positionsbestimmungseinheit (6), der absoluten dreidimensionalen Positionen der Schlüsselpunkte S+;.n 9 aus den relativen Positionen der Schlüsselpunkte S+1.n“°) und den Vektoren V1...m@PS)
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass es sich bei den Schlüsselpunkten um vordefinierte Punkte des menschlichen Körpers handelt, insbesondere Handgelenke, Armgelenke, Ellbogengelenke, Schultergelenke, Kniegelenke, FuRßgelenke, Hüftgelenke, sowie Kopfmittelpunkt, Brustbein, Augen, Ohren, Nase, und/oder Mund einer Person.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass zur Detektion der zweidimensionalen Schlüsselpunkten des Menschen im Bild (2) und zur Schätzung der dreidimensionalen relativen Positionen der detektierten Schlüsselpunkte S+4.n“° ein und dasselbe neuronale Netz eingesetzt wird.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass es sich bei den ausgewählten Schlüsselpunkten um Schlüsselpunkte aus dem Kopfbereich des Menschen handelt, beispielsweise um die Positionen der Augen, der Nase, des Mundes und/oder der Ohren des Menschen.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass die Bildverarbeitungseinheit das Geschlecht und/oder das Alter des Menschen im Bild schätzt und dies bei der Auswahl und/oder bei der Bestimmung des durchschnittlichen absoluten Abstands debs) zwischen den Schlüsselpunkten berücksichtigt
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die Schlüsselpunkte von der Datenverarbeitungseinheit (3) in elektronisch lesbarer Form, beispielsweise in Form einer Tabelle oder eines Graphen, gespeichert werden.
7. Computerlesbares Speichermedium, umfassend Anweisungen, die eine Datenverarbeitungseinheit (3) zur Ausführung eines Verfahrens nach einem der Ansprüche 1 bis 6 veranlassen.
ZULETZT VORGELEGTE ANSPRÜCHE
8. Fahrzeug, umfassend eine Vorrichtung zur Schätzung der absoluten Positionen Sı1.n @ einer Zahl N von Schlüsselpunkten eines Menschen in einem dreidimensionalen Raum in dem Fahrzeug, umfassend
a. eine Bildaufnahmeeinheit (1), die zur Aufnahme zumindest eines zweidimensionalen Bildes (2) des Raumes ausgebildet ist, b. eine Datenverarbeitungseinheit (3) zur Entgegennahme des Bildes (2), c. eine Bildverarbeitungseinheit (4), i. die zur Detektion einer Zahl N von zweidimensionalen Schlüsselpunkten des Menschen im Bild (2), und il. zur Schätzung der relativen dreidimensionalen Positionen der detektierten Schlüsselpunkte S+4.n“°® sowie der geschätzten Distanzen d“® ausgebildet ist, dadurch gekennzeichnet, dass d. die Datenverarbeitungseinheit (3) zur Abfrage einer Datenbank (5) zur Auswahl von zumindest M = 3 detektierten Schlüsselpunkten und zur Bestimmung der durchschnittlichen Distanz d@°® der ausgewählten Schlüsselpunkte ausgebildet ist, wobei e. es sich bei den ausgewählten Schlüsselpunkten um jene Schlüsselpunkte handelt, deren durchschnittliche Abstände die geringste statistische Varianz aller im Bild (2) detektierten Schlüsselpunkte aufweist, wobei f. aus diesen durchschnittlichen Distanzen d@°® ein Referenzmodell, bestehend aus den Schlüsselpositionen S‘1...m erzeugt wird und g. eine Positionsbestimmungseinheit (6) vorgesehen ist, die zur Berechnung i. der absoluten Vektoren V1..m@® der Bildaufnahmeeinheit (1) aus den zweidimensionalen Schlüsselpunkten S‘1...M des Referenzmodells unter Berücksichtigung intrinsischer geometrischer Parameter (7) der Bildaufnahmeeinheit (1), insbesondere der Brennweite f und des Bildhauptpunktes, ausgebildet ist, und ii. der absoluten dreidimensionalen Positionen der Schlüsselpunkte Sı1.n @® aus den relativen Positionen der Schlüsselpunkte S1.n“®% und den Werten von V1..m@9 ausgebildet ist.
ZULETZT VORGELEGTE ANSPRÜCHE
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| ATA50546/2024A AT528459A1 (de) | 2024-07-03 | 2024-07-03 | Verfahren und Vorrichtung zur Schätzung der Positionen von menschlichen Schlüsselpunkten |
| PCT/AT2025/060264 WO2026006864A1 (de) | 2024-07-03 | 2025-06-27 | Verfahren und vorrichtung zur schätzung der positionen von menschlichen schlüsselpunkten |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| ATA50546/2024A AT528459A1 (de) | 2024-07-03 | 2024-07-03 | Verfahren und Vorrichtung zur Schätzung der Positionen von menschlichen Schlüsselpunkten |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| AT528459A1 true AT528459A1 (de) | 2026-01-15 |
Family
ID=96356650
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ATA50546/2024A AT528459A1 (de) | 2024-07-03 | 2024-07-03 | Verfahren und Vorrichtung zur Schätzung der Positionen von menschlichen Schlüsselpunkten |
Country Status (2)
| Country | Link |
|---|---|
| AT (1) | AT528459A1 (de) |
| WO (1) | WO2026006864A1 (de) |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7442494B2 (ja) * | 2018-07-25 | 2024-03-04 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 光学式捕捉によるパーソナライズされたhrtf |
| AT522797B1 (de) * | 2020-03-02 | 2021-02-15 | Emotion3D Gmbh | Verfahren und Vorrichtung zur Einstellung oder Steuerung einer Fahrzeugkomponente |
| US20240290034A1 (en) * | 2021-11-17 | 2024-08-29 | Intel Corporation | Method and system of multi-view image processing with accurate skeleton reconstruction |
| CN114910052B (zh) * | 2022-05-27 | 2024-06-18 | 深圳市立体通技术有限公司 | 一种基于摄像头的测距方法、控制方法、装置和电子设备 |
-
2024
- 2024-07-03 AT ATA50546/2024A patent/AT528459A1/de unknown
-
2025
- 2025-06-27 WO PCT/AT2025/060264 patent/WO2026006864A1/de active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| WO2026006864A1 (de) | 2026-01-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE60023447T2 (de) | Verfahren zur berechnung der lage und ausrichtung eines objektes im dreidimensionalen raum | |
| DE102005028746B4 (de) | Verfahren zum Ermitteln der Position und Orientierung eines Objekts, insbesondere eines Katheters, aus zweidimonsionalen Röntgenbildern | |
| EP2584493B1 (de) | Verfahren zur Unterscheidung zwischen einem realen Gesicht und einer zweidimensionalen Abbildung des Gesichts in einem biometrischen Erfassungsprozess | |
| WO2021175517A1 (de) | Verfahren und vorrichtung zur optischen sitzgurterkennung | |
| DE112017007303B4 (de) | Gesichtserkennungsvorrichtung | |
| DE60217143T2 (de) | Schätzung von kopfbewegung aus vier merkmalspunkten | |
| DE112009003144T5 (de) | Verfahren und Vorrichtung zum Feststellen eines Hindernisses in einem Bild | |
| DE112004000393T5 (de) | System und Verfahren zum Verfolgen einer globalen Form eines in Bewegung befindlichen Objekts | |
| DE112019007390T5 (de) | Verfahren, Vorrichtung und Computerprogramm zur Verfolgung von sich bewegenden Objekten | |
| DE102020207975A1 (de) | Verfahren und Vorrichtung zur Verminderung der durch das Sitz- und Bewegungsverhalten eines Nutzers verursachten gesundheitlichen Belastung | |
| WO2020187394A1 (de) | Verfahren zum trainieren eines autoencoders und zum klassifizieren von daten sowie autoencoder und computerprogramm hierzu | |
| WO2022218795A1 (de) | Verfahren zur kalibrierung von sensorinformationen eines fahrzeugs sowie fahrassistenzsystem | |
| AT528459A1 (de) | Verfahren und Vorrichtung zur Schätzung der Positionen von menschlichen Schlüsselpunkten | |
| DE102019201583A1 (de) | Benutzererkennungsvorrichtung zum Ermitteln einer Identität eines Benutzers | |
| EP4681163A1 (de) | Verfahren und vorrichtung zur schätzung der positionen von menschlichen schlüsselpunkten | |
| EP1425709A2 (de) | Modellbasierte objektklassifikation und zielerkennung | |
| DE102020207695A1 (de) | Tiefenschätzung aus Monokamerabildern mittels künstlicher Intelligenz | |
| EP1756748B1 (de) | Verfahren zur klassifizierung eines objekts mit einer stereokamera | |
| AT524965B1 (de) | Computerimplementiertes Verfahren zur Erstellung einer Aufmerksamkeitszone | |
| WO2023179991A1 (de) | Ermittlung der körperhaltung | |
| DE102021109386B4 (de) | Verfahren zur Korrektur von Tiefenbildern einer Lichtlaufzeitkamera | |
| WO2026006865A1 (de) | Verfahren und vorrichtung zur kalibrierung einer kamera in einem fahrzeug | |
| DE102020120600A1 (de) | Verfahren und vorrichtung zum automatischen schätzen eines körpergewichts einer person | |
| DE102021113111A1 (de) | Verfahren zur Kalibrierung von Sensorinformationen eines Fahrzeugs sowie Fahrassistenzsystem | |
| DE10042387A1 (de) | Verfahren zum Transformieren dreidimensionaler Objektpunkte in zweidimensionale Bildpunkte für Linear-Fächerstrahlsensor-Bilder |