DE112012001984B4

DE112012001984B4 - Integrieren von Video-Metadaten in 3D-Modelle

Info

Publication number: DE112012001984B4
Application number: DE112012001984.9T
Authority: DE
Inventors: Lisa M. Brown; Rogerio S. Feris; Sharathchandra Pankanti; Ankur Datta
Original assignee: International Business Machines Corp
Current assignee: Kyndryl Inc
Priority date: 2011-05-05
Filing date: 2012-05-02
Publication date: 2018-11-29
Anticipated expiration: 2032-05-03
Also published as: US20130241928A1; US9058669B2; CN103503468B; WO2012149655A1; US20140314277A1; DE112012001984T5; GB2503621B; US8630460B2; GB201318426D0; US20120281873A1; CN103503468A; US20140056476A1; US8457355B2; GB2503621A; US8811674B2

Abstract

Verfahren zum Darstellen von innerhalb von 2D-Videodaten verfolgten Objekten durch 3D-Modelle, wobei das Verfahren aufweist:Erkennen und Verfolgen einer Bewegung eines Objekts innerhalb eines Umgebungssichtfelds einer 2D-Dateneinspeisung (Feed) einer kalibrierten Videokamera, wobei die Kamera so kalibriert ist, dass sie innerhalb eines Kontextes einer räumlichen Höhe, Ausrichtung und Position eines 3D-Modells der Umgebung des Kamerasichtfelds platziert wird;Lokalisieren eines Zentroids des verfolgten Objekts;Ermitteln einer Schnittstelle des Zentroids mit einer Grundebene innerhalb des Umgebungssichtfelds;initialisieren eines gittergestützten 3D-Volumenmodells, das sich für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells der Umgebung eignet, durch Verwenden einer Rückprojektion eines entsprechenden 2D-Bildes des verfolgten Objekts als Funktion des Zentroids und der ermittelten Schnittstelle mit der Grundebene;Darstellen einer nichtlinearen Dynamik eines verfolgten Bewegungspfades des Objekts in den 2D-Bilddaten als Sammlung unterschiedlicher lokaler linearer Modelle;Projizieren einer Struktur des 2D-Objekts auf das 3D-Modell; undErweitern der 2D-Verfolgungen des Objekts um 3D-Bewegungen, um das 3D-Modell in dynamischem netzgittergestützten 3D zu betreiben, durch Lernen einer gewichteten Kombination der unterschiedlichen lokalen linearen Modelle, die einen Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung minimiert.

Description

HINTERGRUND
Die vorliegende Erfindung bezieht sich auf ein Bilden einer erweiterten virtuellen Umgebung (AVE, Augmented Virtual Environment), die zweidimensionale (2D-) Videodaten um ein dreidimensionales (3D-) Verständnis von in der Videodatenumgebung enthaltenen Objekten erweitert.
Verstehen und Ermitteln des Imports der diversen Objektbewegungen, z.B. eine Person, die sich einem Bereich nähert oder eine gewisse Handlung ausübt, die diese Person oder andere einem erhöhten Gefährdungsrisiko aussetzt, kann sich aus 2D-Videodatenströmen schwierig gestalten. Es ist eventuell erforderlich, dass menschliche Bearbeiter mehrere Monitore oder Anzeigefenster gleichzeitig auf Objektbewegungen prüfen und analysieren, und die 2D-Beschaffenheit der Videodaten kann eine Objekterkennung und -verfolgung durch das menschliche Auge schwierig machen, insbesondere in visuell ansprechenden oder unruhigen Umgebungen.
Objektverfolgung und -erkennung können verbessert werden, wenn 2D-Videodaten in einer erweiterten virtuellen Umgebung (AVE) bereitgestellt werden, die 3D-Szenemodelle von in den Videodaten vorhandenen Objekten erstellt, da ein Erkennen und Verfolgen von 3D-Objekten im Grunde für menschliche Beobachter intuitiver ist. Um 3D-Modelle in geeigneter Weise aufzubereiten, benötigen solche Systeme allerdings andere Dateneingaben, z.B. Daten aus anderen Kameras oder Einheiten wie Bereichs-, Bild- und/oder Objektverfolgungssensoren.
Aus dem Stand der Technik ist beispielsweise ein Verfahren bekannt zur Verfolgung mehrerer 3D-Objekte für Anwendungen aus dem Bereich der sogenannten erweiterten Realität (Park, Y.; Lepetit, V.; Woo, W.: Multiple 3D Object Tracking for Augmented Reality. In: IEEE/ACM International Symposium on Mixed and Augmented Reality ISMAR, S. 117-120, September 2008). Eine markerlose Verfolgung von Bewegungen in Echtzeit mithilfe verbundener kinematischer Ketten ( US 7,257,237 B1 ) ist gleichfalls bekannt. Die visuelle Verfolgung eine Ziels bei gleichzeitiger Anpassung eines Modells mit gerasterten Posen ist in US2011/0058709 A1 beschrieben. Speziell für Anwendungen in einer erweiterten virtuellen Umgebung (AVE) existieren Verfahren und Systeme zur Erzeugung eines 3D-Modells bei gleichzeitiger Verfolgung und Modellprojektion von Videodaten in Echtzeit ( US 7,583,275 B2 ).
Der Erfindung liegt die Aufgabe zugrunde, die vorhandenen Verfahren zur Erkennung und Verfolgung von 3D-Objekten in 2D-Videobildern zu verbessern.
KURZDARSTELLUNG
Bei einer Ausführungsform der vorliegenden Erfindung beinhaltet ein Verfahren zum Darstellen von innerhalb von 2D-Videodaten verfolgten Objekten durch 3D-Modelle Lokalisieren eines Zentroids eines erkannten Objekts und Verfolgen einer Bewegung innerhalb eines Umgebungssichtfelds eines 2D-Daten-Feed einer kalibrierten Videokamera. Die Kamera wird so kalibriert, dass sie innerhalb eines Kontextes einer räumlichen Höhe, Ausrichtung und Position eines 3D-Modells der Umgebung des Kamerasichtfelds platziert wird. Somit wird eine Schnittstelle des Zentroids mit einer Grundebene innerhalb des Umgebungssichtfelds ermittelt, und ein netzgittergestütztes 3D-Volumenmodell, das sich für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells der Umgebung eignet, wird unter Verwendung einer Rückprojektion eines entsprechenden 2D-Bildes des verfolgten Objekts als Funktion des Zentroids und der ermittelten Schnittstelle mit der Grundebene initialisiert. Die nichtlineare Dynamik eines verfolgten Bewegungspfades des Objekts in den 2D-Bilddaten wird als Sammlung unterschiedlicher lokaler linearer Modelle dargestellt. Eine Struktur des 2D-Objekts wird auf das 3D-Modell projiziert, und 2D-Verfolgungen des Objekts werden um 3D-Bewegungen erweitert, um das 3D-Modell in dynamischem netzgittergestütztem 3D zu betreiben, bei einem Aspekt durch Lernen einer gewichteten Kombination der unterschiedlichen lokalen linearen Modelle, die einen Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung minimiert.
Bei einer weiteren Ausführungsfom weist ein System eine Verarbeitungseinheit, einen computerlesbaren Speicher und eine computerlesbare Speichermediumeinheit mit darauf gespeicherten Programmanweisungen auf, die bei Ausführung die Verarbeitungseinheit veranlassen, ein Zentroid eines sich bewegenden Objekts, das innerhalb eines Umgebungssichtfelds eines 2D-Daten-Feed einer kalibrierten Videokamera erkannt und verfolgt wird, zu lokalisieren und eine Schnittstelle des Zentroids mit einer Grundebene innerhalb des Umgebungssichtfelds zu ermitteln, wobei die Kamera so kalibriert ist, dass sie innerhalb eines Kontextes von räumlicher Höhe, Ausrichtung und Position eines 3D-Modells der Umgebung des Kamerasichtfelds platziert wird. Die Verarbeitungseinheit wird durch die Programmanweisungen darüber hinaus veranlasst, ein netzgittergestütztes 3D-Volumenmodell, das sich für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells der Umgebung eignet, durch Verwenden einer Rückprojektion eines entsprechenden 2D-Bildes des verfolgten Objekts als Funktion des Zentroids und der ermittelten Schnittstelle mit der Grundebene zu initialisieren. Ferner wird die Verarbeitungseinheit durch die Programmanweisungen darüber hinaus veranlasst, eine nichtlineare Dynamik eines verfolgten Bewegungspfades des Objekts in den 2D-Bilddaten als Sammlung unterschiedlicher lokaler linearer Modelle darzustellen, eine Struktur des 2D-Objekts auf das 3D-Modell zu projizieren und 2D-Verfolgungen des Objekts um 3D-Bewegungen zu erweitern, um das 3D-Modell in dynamischem netzgittergestütztem 3D durch Lernen einer gewichteten Kombination der unterschiedlichen lokalen linearen Modelle zu betreiben, die einen Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung minimiert.
Bei einer weiteren Ausführungsform weist ein Herstellungsgegenstand eine computerlesbare Speichermediumeinheit mit einem darauf gespeicherten computerlesbaren Programmcode auf, wobei der computerlesbare Programmcode Anweisungen aufweist, die bei Ausführung durch einen Computerprozessor diesen veranlassen, ein Zentroid eines sich bewegenden Objekts, das innerhalb eines Umgebungssichtfelds eines 2D-Daten-Feed einer kalibrierten Videokamera erkannt und verfolgt wird, zu lokalisieren, wobei die Kamera so kalibriert ist, dass sie innerhalb eines Kontextes einer räumlichen Höhe, Ausrichtung und Position eines 3D-Modells der Umgebung des Kamerasichtfelds platziert wird. Die Anweisungen veranlassen den Computerprozessor darüber hinaus, eine Schnittstelle des Zentroids mit einer Grundebene innerhalb des Umgebungssichtfelds zu ermitteln und ein netzgittergestütztes 3D-Volumenmodell, das sich für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells der Umgebung eignet, durch Verwenden einer Rückprojektion eines entsprechenden 2D-Bildes des verfolgten Objekts als Funktion des Zentroids und der ermittelten Schnittstelle mit der Grundebene zu initialisieren. Die Anweisungen veranlassen den Computerprozessor ferner, eine nichtlineare Dynamik eines verfolgten Bewegungspfades des Objekts in den 2D-Bilddaten als Sammlung unterschiedlicher lokaler linearer Modelle darzustellen, deren Gesamtanzahl unter Verwendung einer Kreuzvalidierung optimiert wird; eine Struktur des 2D-Objekts auf das 3D-Modell zu projizieren und 2D-Verfolgungen des Objekts um 3D-Bewegungen zu erweitern, um das 3D-Modell in dynamischem gittergestütztem 3D durch Lernen einer gewichteten Kombination der unterschiedlichen lokalen linearen Modelle zu betreiben, die einen Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung minimiert.
Bei einer weiteren Ausführungsform beinhaltet ein Verfahren zum Bereitstellen eines Dienstes zum Darstellen von innerhalb von 2D-Videodaten verfolgten Objekten durch 3D-Modelle ein Bereitstellen einer Zentroid-Lokalisierungsfunktion, die ein Zentroid eines sich bewegenden Objekts, das innerhalb eines Umgebungssichtfelds eines 2D-Daten-Feed einer kalibrierten Videokamera erkannt und verfolgt wird, lokalisiert und darüber hinaus eine Schnittstelle des Zentroids mit der Grundebene innerhalb des Umgebungssichtfelds ermittelt, wobei die Kamera so kalibriert ist, dass sie innerhalb eines Kontextes von räumlicher Höhe, Ausrichtung und Position eines 3D-Modells der Umgebung des Kamerasichtfelds platziert wird. Das Verfahren stellt darüber hinaus ein 3D-Modellierungsprogramm bereit, das ein gittergestütztes 3D-Volumenmodell, das sich für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells der Umgebung eignet, durch Verwenden einer Rückprojektion eines entsprechenden 2D-Bildes des verfolgten Objekts als Funktion des Zentroids und der ermittelten Schnittstelle mit der Grundebene initialisiert, Das 3D-Modellierungsprogramm stellt darüber hinaus eine nichtlineare Dynamik eines verfolgten Bewegungspfades des Objekts in den 2D-Bilddaten als Sammlung unterschiedlicher lokaler linearer Modelle bereit, deren Gesamtanzahl unter Verwendung eines Kreuzvalidierungssystems optimiert wird, projiziert eine Struktur des 2D-Objekts auf das 3D-Modell und erweitert 2D-Verfolgungen des Objekts um 3D-Bewegungen, um das 3D-Modell in dynamischem netzgittergestütztem 3D durch Lernen einer gewichteten Kombination der unterschiedlichen lokalen linearen Modelle zu betreiben, die einen Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung minimiert.
Figurenliste
Diese und andere Merkmale dieser Erfindung gehen aus der folgenden ausführlichen Beschreibung der verschiedenen Aspekte der Erfindung in Verbindung mit den beiliegenden Zeichnungen besser hervor, in denen:

1 eine Ablaufplandarstellung einer Ausführungsform eines Verfahrens oder Systems zum Darstellen von Objekten, die innerhalb von 2D-Videodaten verfolgt werden, durch 3D-Modellierung gemäß der vorliegenden Erfindung ist.
2 eine schematische Darstellung einer Kamerakalibrierung gemäß Ausführungsformen der vorliegenden Erfindung ist.
3 eine schematische Darstellung eines Rückprojektions-Modellierungsverfahrens gemäß Ausführungsformen der vorliegenden Erfindung ist.
4 eine schematische Darstellung einer Umsetzung einer Ausführungsform der vorliegenden Erfindung ist.
5 eine Blockschaltbilddarstellung einer computergestützten Umsetzung einer Ausführungsform der vorliegenden Erfindung ist.
6 eine Blockschaubilddarstellung eines Gegenstands gemäß einer Ausführungsform der vorliegenden Erfindung ist.

Die Zeichnungen sind nicht notwendigerweise maßstabsgetreu. Die Zeichnungen sind lediglich schematische Darstellungen und sollen die spezifischen Parameter der Erfindung nicht wiedergeben. Die Zeichnungen sollen nur typische Ausführungsformen der Erfindung zeigen und sollten aus diesem Grund nicht als den Umfang der Erfindung einschränkend erachtet werden. In den Zeichnungen steht eine gleiche Nummerierung für gleiche Elemente.
AUSFÜHRLICHE BESCHREIBUNG
Wie der Fachmann verstehen wird, können Aspekte der vorliegenden Erfindung in Form eines Systems, eines Verfahrens oder eines Computerprogrammprodukts umgesetzt sein. Demgemäß können Aspekte der vorliegenden Erfindung die Form einer ausschließlich aus Hardware bestehenden Ausführungsform, einer ausschließlich aus Software bestehenden Ausführungsform (Firmware, residente Software, Mikrocode usw. mit eingeschlossen) oder einer Ausführungsform annehmen, die Software- und Hardware-Aspekte kombiniert, die hier allesamt allgemein als „Schaltung“, „Modul“ oder „System“ bezeichnet werden können. Ferner können Aspekte der vorliegenden Erfindung die Form eines Computerprogrammprodukts annehmen, das als ein oder mehrere computerlesbare Medien umgesetzt ist, die einen computerlesbaren Programmcode aufweisen.
Es kann eine beliebige Kombination aus einem oder mehreren computerlesbaren Medien verwendet werden. Das computerlesbare Medium kann ein computerlesbares Signalmedium oder ein computerlesbares Speichermedium sein. Ein computerlesbares Speichermedium kann beispielsweise ein/e elektronische/s, magnetische/s, optische/s, elektromagnetische/s, Infrarot- oder Halbleitersystem, -vorrichtung oder -einheit oder eine geeignete Kombination des Vorstehenden sein, ohne jedoch darauf beschränkt zu sein. Spezifischere Beispiele (nichterschöpfende Liste) für das computerlesbare Speichermedium sind unter anderem: eine elektrische Verbindung mit einem oder mehreren Leitungen, eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM, Random Access Memory), ein Nur-Lese-Speicher (ROM, Read Only Memory), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM (Erasable Programmable Read Only Memory) oder Flash-Speicher), ein Lichtwellenleiter, ein tragbarer Compact Disk-Nur-Lese-Speicher (CD-ROM, Compact Disc-Read Only Memory), eine optische Speichereinheit, eine magnetische Speichereinheit oder eine geeignete Kombination des Vorstehenden. Im Kontext dieses Dokuments kann ein computerlesbares Speichermedium jedes konkrete Medium sein, das ein Programm zur Verwendung durch ein/e Anweisungsausführungssystem, -vorrichtung oder -einheit oder in Verbindung damit enthalten oder speichern kann.
Ein computerlesbares Signalmedium kann ein weitergeleitetes Datensignal beinhalten, das einen computerlesbaren Programmcode aufweist, beispielsweise im Basisband oder als Teil einer Trägerwelle. Ein solches weitergeleitetes Signal kann eine Vielzahl von Formen annehmen, beispielsweise elektromagnetisch, optisch oder eine geeignete Kombination davon, ohne jedoch darauf beschränkt zu sein. Ein computerlesbares Signalmedium kann ein beliebiges computerlesbares Medium sein, bei dem es sich nicht um ein computerlesbares Speichermedium handelt und das ein Programm zur Verwendung durch ein/e Anweisungsausführungssystem, -vorrichtung oder -einheit oder in Verbindung damit übertragen, werterleiten oder transportieren kann.
Der auf einem computerlesbaren Medium gespeicherte Programmcode kann mithilfe eines geeigneten Mediums übertragen werden, beispielsweise drahtlos, kabelgebunden, über Lichtwellenleiterkabel, HF usw. oder eine Kombination des Vorstehenden, ohne jedoch darauf beschränkt zu sein.
Ein Computerprogrammcode zum Ausführen von Operationen für Aspekte der vorliegenden Erfindung kann in irgendeiner Kombination aus einer oder mehreren Programmiersprachen geschrieben sein, beispielsweise objektorientierte Programmiersprachen wie Java, Smalltalk, C++ oder dergleichen und herkömmliche prozedurale Programmiersprachen wie die „C“-Programmiersprache oder ähnliche Programmiersprachen. Der Programmcode kann zur Gänze auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder zur Gänze auf dem entfernt angeordneten Computer oder Server ausgeführt werden. Bei letzterem Szenario kann der entfernt angeordnete Computer über einen beliebigen Netzwerktyp, beispielsweise ein lokales Netz (LAN, Local Area Network) oder ein Weitverkehrsnetz (WAN, Wide Area Network), mit dem Computer des Benutzers verbunden sein oder die Verbindung zu einem externen Computer kann hergestellt werden (z.B. über einen Internet-Diensteanbieter über Internet).
Aspekte der vorliegenden Erfindung sind im Folgenden unter Bezugnahme auf die Ablaufplandarstellungen und/oder Blockschaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es sei verstanden, dass jeder Block der Ablaufplandarstellungen und/oder Blockschaubilder und Kombinationen von Blöcken in den Ablaufplandarstellungen und/oder Blockschaubildem durch Computerprogrammanweisungen umgesetzt werden können. Diese Computerprogrammanweisungen können für einen Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu schaffen, so dass die Anweisungen, die über den Prozessor des Computers oder der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführt werden, ein Mittel für das Umsetzen der in dem einen oder den mehreren Ablaufplan- und/oder Blockschaubildblöcken angegebenen Funktionen/Aktionen erstellen.
Diese Computerprogrammanweisungen können auch in einem computerlesbaren Medium gespeichert werden, das einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten anweisen kann, auf eine bestimmte Weise zu arbeiten, so dass die im computerlesbaren Medium gespeicherten Anweisungen einen Herstellungsgegenstand produzieren, der Anweisungen beinhaltet, die die in den einen oder mehreren Ablaufplan- und/oder Blockschaubildblöcken angegebene Funktion/Aktion umsetzen.
Die Computerprogrammanweisungen können auch in einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten geladen werden, um zu bewirken, dass eine Reihe von Betriebsschritten im Computer, auf der anderen programmierbaren Vorrichtung oder auf anderen Einheiten durchgeführt wird, um ein auf einem Computer ausgeführtes Verfahren zu erstellen, so dass die Anweisungen, die auf dem Computer oder auf der anderen programmierbaren Vorrichtung ausgeführt werden, Verfahren zum Umsetzen der in dem einen oder den mehreren Ablaufplan- und/oder Blockschaubildblöcken angegebenen Funktionen/Aktionen bereitstellen.
Es wird nun auf 1 Bezug genommen, in der eine Ausführungsform eines Verfahrens, eines Prozesses oder eines Systems zum Darstellen von Objekten, die innerhalb 2D-Videodaten verfolgt wurden, durch 3D-Modellierung gemäß der vorliegenden Erfindung gezeigt ist. Mehr im Detail wird bei 102 ein Objekt erkannt und dauerhaft innerhalb des Umgebungssichtfelds des 2D-Daten-Feed der kalibrierten Kamera verfolgt. Die Videokamera wird so kalibriert, dass extrinsische Kameraparameter gewonnen werden, die die Kamera innerhalb eines räumlichen Kontextes eines 3D-Modells der Umgebung deren Sichtfelds platzieren. Durch das Kalibrieren der Kamera werden die Höhe, die Ausrichtung und die Position der Kamera in der Weltebene unter Verwendung von standardmäßigen Kamerakalibrierungsverfahren festgelegt. Beispielsweise können unter Bezugnahme auf 2 die Höhe einer Kamera (h) von einer Grundebene und deren Ausrichtungswinkel (θ) relativ zur Grundebene im Hinblick auf die Koordinaten auf den x-, y- und z-Achsen in einer 3D-Darstellung der Umgebung deren Sichtfelds durch Verwenden eines Referenzobjekts 154 und dessen bekannten oder ermittelten Positionskoordinaten kalibriert werden. Die Kamerakalibrierung kann auch durch diverse Verfahren oder Systeme durchgeführt werden, z.B. durch Verwenden eines Schachbrettmusters, und andere Verfahren sind für den Fachmann ersichtlich.
Die Objekterkennung und -verfolgung bei 102 kann mithilfe diverser Objekterkennungsverfahren oder -systeme durchgeführt werden, z.B. durch Optischer-Fluss-Verfahren. Einige Ausführungsformen verwenden Detektoren, die in der Lage sind, unterschiedliche Objekte wie Menschen, Fahrzeuge, LKWs, Busse oder andere wie Flora und Fauna usw. zu erkennen und voneinander zu unterscheiden. Bewegungen der erkannten Objekte werden über das Sichtfeld der Kamera unter Verwendung eines auf dem Erscheinungsbild beruhenden Verfahrens verfolgt, das häufig über Funktionen in Bezug auf variierende Beleuchtungsbedingungen verfügt.
Bei 104 wird ein Zentroid des verfolgten Objekts einwandfrei lokalisiert, und die Schnittstelle des Zentroids mit einer Grundebene der Bilder wird ermittelt. Bei 106 wird ein netzgittergestütztes 3D-Volumenmodell, das sich für das verfolgte Objekt eignet, innerhalb des bei 102 ermittelten räumlichen Kontextes des 3D-Modells der Umgebung initialisiert. Das Initialisieren bei 106 weist ein Auffüllen des verfolgten Objekts mit dem netzgittergestützten 3D-Volumenmodell innerhalb des räumlichen Kontextes des 3D-Modells der Umgebung durch Verwenden einer Rückprojektion des entsprechenden 2D-Bildes des verfolgten Objekts als Funktion der bei 104 ermittelten Daten zum Zentroid und zur Schnittstelle mit der Grundebene auf. Die Rückprojektion wird durch ein Kalibrieren zwischen den Kamerabildern und dem 3D-Weltmodell erzielt. Beispielsweise unter Bezugnahme auf 3 kann man anhand der bekannten Position (P) 202 der kalibrierten Kamera eine Pixel-(x)-204-Bildposition der Füße 205 eines Objekts in Form einer Person 207 im 2D-Bild 206 der Umgebung deren Sichtfelds auf eine 3D-Position (X) 208 der Füße 209 eines 3D-Netzgittermodells 211 rückprojizieren, das zur Verwendung bei der Darstellung der Person 207 innerhalb eines 3D-Weltmodells 210 des Umgebungssichtfelds gemäß Gleichung [1] ausgewählt wird: $X = P^{- 1} x,$
wobei (P^-1) die Umkehr einer 3x4-Kameramatrix ist. Somit ermöglicht die Rückprojektion der Füße 205 einer Person 207 aus einem Bild, die Person in eine 3D-Position in der Welt zu platzieren und danach ein 3D-Modell 211 an diese 3D-Position zu setzen.
Bei 108 ist die nichtlineare Dynamik eines verfolgten Bewegungspfades des Objekts in den 2D-Bilddaten als Sammlung unterschiedlicher lokaler linearer Modelle dargestellt. Jedes lokale lineare Modell codiert die nichtlineare Dynamik in einer unmittelbaren Nachbarschaft. Beispielsweise kann der 2D-Objektpfad gemäß Gleichung [2] als lokale lineare Kombination mehrere Grundmodelle modelliert werden: $x^{t} = [c^{1}, c^{2}, \dots, c^{n}] {[m^{t}, m^{t}, \dots, m^{t}]}^{T},$
wobei (t) ein Zeitraum ist und die (c)s die Mischungskoeffizienten für jedes der unterschiedlichen lokalen Modelle (m) sind. Die Anzahl der für den Objektpfad verwendeten unterschiedlichen lokalen linearen Modelle wird mittels Kreuzvalidierungsverfahren und -systemen, z.B. mithilfe von Optimalitätskriterien wie Akaikes Informationskriterium (AIC, Akaike Information Criterion) oder Bayessche Informationskriterium (BIC, Bayesian Information Criterion), optimiert oder anderweitig ermittelt. Bei einem Aspekt kann das Optimieren einen Kompromiss zwischen der Anzahl der verwendeten lokalen linearen Modelle und deren jeweiliger Codierlänge bereitstellen.
Das Initialisieren des 3D-Modells bei 106 kann ein Erkennen eines Typs oder eines Verhaltens des erkannten Objekts und ein Auswählen eines geeigneten Modells, das der Dynamik des erkannten Objekttyps und/oder dem Verhalten entspricht, aus einer Vielzahl von Modellen aufweisen. Unter erneuter Bezugnahme auf 3 beispielsweise kann das Erkennen, dass das erkannte Objekt 207 eine Person ist, zur Auswahl eines 3D-Personenmodells 214 aus einer Vielzahl von anderen Objektmodellen wie Fahrzeuge, LKWs, Hunde usw. führen. Ein geeigneter Personenmodelltyp kann auch aus mehreren Personenmodellen ausgewählt werden, wobei das Auswählen eines Modells einer gehenden Person auf der Grundlage der Geschwindigkeit- und/oder Positionsdynamik des erkannten Objekts oder stattdessen einer laufenden Person auf der Grundlage einer schnelleren Bewegungsgeschwindigkeit erfolgt. Einige Ausführungsformen können Größe oder andere Attribute des erkannten Objekts unterscheiden, um zwischen unterschiedlichen Modellen auszuwählen, z.B. einem Auto-3D-Modell für ein Fahrzeugobjekt, das sich entlang einer Straße bewegend erkannt wurde und eine Dimension größer als ein Fahrradobjekt und kleiner als ein LKW-Objekt aufweist. Noch weitere Ausführungsformen können nur einen Objekttyp erwarten oder sich anderweitig auf diesen fokussieren und füllen jedes sich bewegende, erkannte Objekt innerhalb der 2D-Videodaten mit dem gleichen Modell oder Modelltyp auf. Wenn die einzigen sich bewegenden Objekte, die in einer 2D-Videoumgebung erwartet werden oder von Interesse sind, Personen sind (z.B. ein Treppenhaus einer Versammlungsstätte), kann somit jedes sich bewegende, erkannte Objekt mit einem Personenmodell aufgefüllt werden, wobei der Schritt des Unterscheidens des Objekts von anderen Objekttypen ausgelassen wird.
Bei 110 wird eine Struktur des 2D-Objekts auf das 3D-Modell projiziert, und 3D-Verfolgungen des Objekts werden um 3D-Bewegungen erweitert, um das 3D-Modell in dynamischem netzgittergestütztem 3D durch Lernen einer gewichteten Kombination der lokalen linearen Modelle zu betreiben, die den Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung minimiert. Bei einer Ausführungsform werden die Mischungskoeffizienten (mⁿ) der obigen Gleichung [2] unter Verwendung eines Ansatzes der kleinsten Quadrate aufgelöst, wobei entweder die 2D-Bewegung oder die 3D-Bewegung der Objekte anhand der Mischungskoeffizienten als eine Mischung aus 2D- oder 3D-Grundmodellen ausgedrückt werden kann und die Position des 3D-Modell in der Welt (X) gemäß Gleichung [3] als Funktion der Zeit (t) aktualisiert werden kann: $X^{t} = (c^{1} * m^{1}) + (c^{2} * m^{2}) + \dots + (c^{b} * m^{n})$
4 zeigt eine Umsetzung einer Ausführungsform der vorliegenden Erfindung. Eine oder mehrere Kameras 402 stellen Eingaben an ein Videoanalysesystem 404 bereit, das Bildinformationen in den Videoeingaben analysiert, um eine Objektbewegung innerhalb der Videobilder zu erkennen und nachzuverfolgen. Es ist klar, dass nicht mehr als eine Kamera 402 erforderlich ist, um die Ausführungsformen der vorliegenden Erfindung in die Praxis umzusetzen; die 3D-Modellierungsumgebungen können durch Kalibrieren von lediglich einer Kamera erzielt werden und erfordern nicht mehrere Kameras oder Daten aus anderen Sensoren wie Bereichs-, Bild- und/oder Objektverfolgungssensoren, wie es bei Systemen und Verfahren nach dem Stand der Technik für gewöhnlich notwendig ist. Ergebnisse 406 aus der Analytik, die eine mögliche Bewegung und Verfolgung eines Objekts von Interesse anzeigen, werden für eine Beurteilung 408 für eine Prüfung und letzte Ermittlung in Bezug darauf bereitgestellt, ob ein Gegenstand oder eine Bewegung von Interesse tatsächlich erkannt und verfolgt wurde, z.B. zur Darbietung an einen menschlichen Prüfer in einem Browser oder einer Fensteroberfläche oder Anzeige. Bei 410 werden 3D-Netzgittermodelle initialisiert und verwendet, um die verfolgten Objekte mit geeigneten 3D-Modellen aufzufüllen, z.B. mit einem 3D-Modell einer gehenden Person für eine auf einem Damm erkannte Objektperson oder einem Auto-3D-Modell für ein Fahrzeugobjekt, das sich entlang einer Straße bewegend erkannt wurde und eine Dimension größer als ein Fahrradobjekt und kleiner als ein LKW-Objekt aufweist, wie oben unter Bezugnahme auf die 1 bis 3 im Allgemeinen erörtert wurde. Somit erzeugt eine Echtzeit-3D-Projektion des Objekts aus dem Kamera-Feed in die 3D-Umgebung bei 412 eine AVE, die sowohl realistisch als auch immersiv ist, und zwar durch Verwenden der Bewegung des 2D-Objekts, um das volumengestützte 3D-Objektmodell zu betreiben, das mit der Struktur des darauf projizierten 2D-Objekts und innerhalb eines 3D-Kontexts wiedergegeben wird.
Das Erzielen einer immersiven und realistischen AVE unter Verwendung von 3D-Modellierung kann rechnerisch gesehen ein Problem darstellen, und Ausführungsformen der vorliegenden Erfindung können diverse Verfahren heranziehen, um ein Echtzeit-Feedback für AVE-Modelle bereitzustellen. Einige Ausführungsformen entkoppeln Komponenten des Verfahrens oder Systems von 1 in Offline- und Online-Prozesse. Beispielsweise können die lokalen linearen Modelle für das initialisierte 3D-Modell bei 108 in einer Offline-Stufe unter Verwendung von Lerndaten aus Bewegungserfassungseingaben gelernt werden, wodurch die Verarbeitungsleistung weiter gesteigert werden kann. Somit kann eine Objektmodellbibliothek während einer Offline-Phase bei 108 erstellt werden, die Beispiele für unterschiedliche plausible Dynamiken für das 3D-Modell speichert, und eine einfache Suche in der Bibliothek kann während der Laufzeit für ein passendes Dynamikmodell durchgeführt werden (z.B. ein generisches Fahrzeugmodell für ein verfolgtes Auto, ein generisches LKW-Modell für ein verfolgtes, als LKW bestimmtes ermitteltes Objekt usw.). Auf diese Weise werden hohe Rechenkosten in Zusammenhang mit dem Berechnen von sowohl der entsprechenden Dynamik als auch dem Betreiben des 3D-Modells gleichzeitig vermieden, da das Suchen der 3D-Modelldynamik bei 108 auf eine Bibliothekssuche verringert wird, wodurch lediglich die Strukturprojektion bei 110 und die Optimierung bei 112 übrigbleiben, um die entsprechende gewichtete Kombination der lokalen linearen Modelle zu ermitteln, die online bei 112 in Echtzeit zu berechnen ist. Die Optimierung bei 112 ist konvex und kann global aufgelöst und mithilfe einer Objektfunktion auf der Grundlage eines Verfahrens oder Systems zum Minimieren des Bildfehlers aufgrund einer erneuten Projektion schnell durchgeführt werden, wie für den Fachmann ersichtlich ist.
3D-Netzgitter-Grundmodelle, die sich für eine Verwendung bei Ausführungsformen der vorliegenden Erfindung eignen, werden aus Lerndaten durch diverse Verfahren und Systeme gelernt und konstruiert. Modelle können datengesteuert sein: beispielsweise kann eine Analyse der Hauptkomponente (PCA, Principal Component Analysis) anhand der in 2D gesammelten Verfolgungsdaten berechnet werden, um datengesteuerte Modelle zu ermitteln.
Die Grundmodelle können auch aus Bewegungserfassungsdaten gelernt werden: bei einem Beispiel werden Grundmodelle aus Objekten für gehende Personen durch Sammeln vieler Beispiele für gehbezogene Bewegungserfassungsdaten mehrerer Individuen gelernt. Die Procrustes-Ausrichtung wird verwendet, um Übersetzungs-, Dreh- und Maßstabunterschiede zwischen den unterschiedlichen Beispielen für gehbezogene Daten zu entfernen. Danach werden Gehfaktoren durch eine PCA-Berechnung gewonnen, wobei eine erste Hauptkomponente das Mittel (den Durchschnitt) der Daten darstellt und zweite und darauffolgende Komponenten variierende Differenzierungsmodi für die gehbezogenen Daten darstellen.
Wie für den Fachmann ersichtlich, können netz- oder drahtgittergestützte 3D-Geometriemodelle mithilfe einer Drahtgitterumwandlung von Voxel-Modellen von Objekten erstellt werden. Segmentierte Lerndatenobjekte können verwendet werden, um strukturierte Voxel-3D-Modelle mithilfe von Rekonstruktionsverfahren und -systemen zu erstellen, z.B. anhand von Space-Carving- und Voxel-Färbungsansätzen. Abgebildete Oberflächen können als lokal planar behandelt werden, wodurch Rückprojektionen von Bildern auf hypothetischen planaren Patches ermöglicht werden. Drahtgitterumwandlungen können mit einem Marching-Cubes-Algorithmus beginnen, gefolgt von Neighborhood-Smoothing erster Ordnung und einer Flächenprimitivenverringerung, um ein Drahtgittermodell mit niedriger Auflösung zu erhalten.
Ausführungsformen der vorliegenden Erfindung stellen somit eine verbesserte virtuelle Umgebung (AVE) bereit, die ein 3D-Modell einer Umgebung aufnimmt und es um ein 3D-Verständnis für Objekte (Personen oder Fahrzeuge usw.) erweitert, die innerhalb der Umgebung enthalten sind. Ein Endbenutzer des Systems oder Verfahrens kann somit ein vollständiges 3D-Verständnis für die Umgebung erhalten, die durch 2D-Videodaten überwacht oder anderweitig dargestellt wird, wodurch es dem Benutzer möglich wird, die Video-Feeds innerhalb eines räumlich-zeitlichen Kontextes einer solchen Umgebung zu setzen. Ausführungsformen nutzen Computer-Vision-Technologien, um das 3D-Modell einer Umgebung um 3D-Wiedergaben von Personen und Fahrzeugen usw. innerhalb dieser Umgebung zu erweitern, die sowohl räumlich als auch zeitlich genau sind, die eine Verringerung der kognitiven Belastung für menschliche Beobachter ermöglichen können und gleichzeitig die Visualisierungsqualität der gesammelten Informationen verbessern.
Es wird nun auf 5 Bezug genommen, in der eine computergestützte Umsetzung einer Ausführungsform der vorliegenden Erfindung einen Computer oder eine andere programmierbare Einheit 522 in Datenübertragung mit einer oder mehreren Kameras oder anderen Bildgebungseinheiten 506 (z.B. Videokameras oder Videoserver usw.) enthält. Anweisungen 542 befinden sich innerhalb des computerlesbaren Codes in einem computerlesbaren Speicher 516 oder in einem computerlesbaren Speichersystem 532, einer anderen Einheit 506 oder einem anderen computerlesbaren Speichermedium, auf das bzw. die von einer Verarbeitungseinheit (CPU) 538 über eine Computernetzwerkinfrastruktur 562 zugegriffen werden kann. Somit veranlassen die Anweisungen, wenn sie von der Verarbeitungseinheit (CPU) 538 ausgeführt werden, die Verarbeitungseinheit (CPU) 538 dazu, innerhalb von 2D-Videodaten verfolgte Objekte durch 3D-Modellierung darzustellen, wie oben in Bezug auf die 1 bis 4 beschrieben wurde.
Der Computer 522 weist diverse Komponenten auf, wobei einige davon innerhalb des Computers 522 dargestellt sind. Die Verarbeitungseinheit 538 tauscht Datenübertragung mit einer/m oder mehreren externen E/A-Einheiten/-Ressourcen 524, Speichersystemen 532 oder anderen Einheiten 520 aus. Die Verarbeitungseinheit 538 kann eine einzige Verarbeitungseinheit aufweisen oder kann auf eine oder mehrere Verarbeitungseinheiten an einem oder mehreren Standorten, z.B. auf einem Client und einem Server, verteilt sein. Gleichermaßen können der Speicher 516 und/oder das Speichersystem 532 eine beliebige Kombination diverser Typen von Datenspeicher- und/oder Datenübertragungsmedien aufweisen, die sich an einem oder mehreren physischen Standorten befinden. Darüber hinaus können die E/A-Schnittstellen 524 ein beliebiges System für den Austausch von Daten mit einem oder mehreren externen Servern und/oder Clients (nicht gezeigt) aufweisen. Außerdem ist klar, dass eine oder mehrere weitere Komponenten (z.B. Systemsoftware, mathematische Ko-Verarbeitungseinheit usw.) (nicht gezeigt) im Computer 522 enthalten sein können.
6 zeigt einen Gegenstand 601 (z.B. eine programmierbare Einheit, ein programmierbares System usw.) gemäß der vorliegenden Erfindung, die innerhalb von 2D-Videodaten verfolgte Objekte durch 3D-Modellierung darstellt, wie oben in Bezug auf die 1 bis 5 beschrieben wurde. Eine oder mehrere der Komponenten des Gegenstands 601 sind konkrete Einheiten, die spezifische Funktionen ausführen und beispielsweise die Verarbeitungseinheit 538, den computerlesbaren Speicher 506 und das computerlesbare Speichermedium 532 wie oben beschrieben aufweisen. Somit erkennt und verfolgt ein Object Detector / Tracker 602 wie unter Bezugnahme auf die 1 bis 5 und das zugehörige oben Beschreibungsmaterial dargestellt eine Bewegung eines Objekts innerhalb eines Umgebungssichtfelds eines 2D-Daten-Feed einer kalibrierten Videokamera, wobei die Kamera so kalibriert ist, dass sie innerhalb eines Kontextes einer räumlichen Höhe, Ausrichtung und Position eines 3D-Modells der Umgebung des Kamerasichtfelds platziert wird. Eine Zentroid-Lokalisierungsfunktion 604 lokalisiert ein Zentroid des verfolgten Objekts und ermittelt eine Schnittstelle mit einer Grundebene innerhalb des Umgebungssichtfelds. Ein 3D-Modellierungsprogramm 606 wählt ein geeignetes Modell aus einer 3D-Netzgitter-Modell-Bibliothek 608 aus, initialisiert das ausgewählte Modell innerhalb des räumlichen Kontextes des 3D-Modells durch Verwenden von Rückprojektion, projiziert eine Struktur des 2D-Objekts auf das 3D-Modell und ermittelt eine geeignete gewichtete Kombination der lokalen linearen Modelle, um das 3D-Modell in dynamischem netzgittergestütztem 3D zu betreiben, und minimiert Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung weiter.
Ausführungsformen der vorliegenden Erfindung können darüber hinaus Verfahrensschritte der Erfindung auf einer Abonnement-, Werbe- und/oder Gebühren-Grundlage durchführen. Das heißt, dass ein Diensteanbieter die Verwendung einzelner Matrizen einer Anordnung der gleichen Bildsensoren anbieten könnte, um eine Vielzahl unterschiedlicher Bilder in unterschiedlichen Blendenzahlen aus einer gemeinsamen Exposition zu erhalten, wie oben in Bezug auf die 1 bis 6 beschrieben. Somit kann der Diensteanbieter eine Computerinfrastruktur wie ein Netzwerkcomputersystem 522, eine Netzwerkumgebung 526 und/oder den Gegenstand 601 (oder Teile davon), die die Verfahrensschritte der Erfindung ausführen, für einen oder mehrere Kunden erstellen, warten und unterstützen usw. Als Gegenleistung kann der Diensteanbieter eine Bezahlung von dem/den Kunden unter einem Abonnement- und/oder Gebührenvertrag erhalten, und/oder der Diensteanbieter kann eine Bezahlung aus dem Verkauf von Werbeinhalten an einen oder mehrere Dritte erhalten. Dienste können eines oder mehrere des Folgenden aufweisen: (1) Installieren eines Programmcodes auf einer Datenverarbeitungseinheit wie den Computern/Einheiten 522/601 aus einer computerlesbaren Speichereinheit 516, 520 oder 506; (2) Hinzufügen einer oder mehrerer Datenverarbeitungseinheiten zu einer Computerinfrastruktur; und (3) Integrieren und/oder Modifizieren einer oder mehrerer bestehender Systeme der Computerinfrastruktur, damit die Computerinfrastruktur die Verfahrensschritte der Erfindung durchführen kann.
Die hier verwendete Terminologie dient lediglich zum Beschreiben bestimmter Ausführungsformen und soll die Erfindung nicht einschränken. Wie hier verwendet, sollen die Singularformen von Artikeln wie „ein“ und „der“ auch die Pluralformen mit einschließen, außer wenn der Kontext es eindeutig anders vorgibt. Es sei ferner verstanden, dass die Ausdrücke „aufweisen“ und/oder „aufweisend“, wie in dieser Schrift verwendet, das Vorhandensein von angegebenen Merkmalen, ganzen Zahlen, Schritten, Operationen, Elementen und/oder Komponenten festlegen, das Vorhandensein oder das Hinzufügen von einem/r oder mehreren anderen Merkmalen, ganzen Zahlen, Schritten, Operationen, Elementen, Komponenten und/oder Gruppen davon jedoch nicht ausschließen. Gewisse Beispiele und Elemente, die in der vorliegenden Schrift beschrieben sind, einschließlich der Ansprüche und der Figuren, können durch eindeutige Adjektive voneinander unterschieden oder anderweitig identifiziert werden (z.B. ein „erstes“ Element wird von einem weiteren „zweiten“ oder „dritten“ einer Vielzahl von Elementen unterschieden, ein „primäres“ von einem „sekundären“ oder „weiteren“ Element unterschieden usw.). Solche identifizierenden Adjektive werden im Allgemeinen verwendet, um Verwirrung oder Ungewissheit zu verringern und sind nicht dahingehend auszulegen, dass sie die Ansprüche in Bezug auf ein spezifisches dargestelltes Element oder eine spezifische dargestellte Ausführungsform einschränken oder einen Vorrang, eine Reihenfolge oder eine Reihung von Anspruchselementen, Einschränkungen oder Verfahrensschritt implizieren.
Die entsprechenden Strukturen, Materialien, Aktionen und sämtliche Mittel oder Schritt-plus-Funktion-Elemente in den folgenden Ansprüchen sollen jedwede Struktur, jedwedes Material oder jedwede Aktion für das Durchführen der Funktion in Kombination mit anderen beanspruchten Elementen wie spezifisch beansprucht beinhalten. Die Beschreibung der vorliegenden Erfindung wird zum Zwecke der Veranschaulichung und Beschreibung vorgelegt, soll jedoch nicht als ausschöpfend oder die Erfindung in der offenbarten Form einschränkend verstanden werden. Für den Fachmann sind viele Änderungen und Variationen ersichtlich, ohne sich vom Umfang und Geist der Erfindung zu entfernen. Die Ausführungsform wurde gewählt und beschrieben, um die Grundgedanken der Erfindung und die praktische Anwendung bestmöglich zu erläutern und um anderen Fachleuten zu ermöglichen, die Erfindung in verschiedenen Ausführungsformen mit verschiedenen Änderungen, wie sie sich für die bestimmte angedachte Verwendung eignen, zu verstehen.

Claims

Verfahren zum Darstellen von innerhalb von 2D-Videodaten verfolgten Objekten durch 3D-Modelle, wobei das Verfahren aufweist: Erkennen und Verfolgen einer Bewegung eines Objekts innerhalb eines Umgebungssichtfelds einer 2D-Dateneinspeisung (Feed) einer kalibrierten Videokamera, wobei die Kamera so kalibriert ist, dass sie innerhalb eines Kontextes einer räumlichen Höhe, Ausrichtung und Position eines 3D-Modells der Umgebung des Kamerasichtfelds platziert wird; Lokalisieren eines Zentroids des verfolgten Objekts; Ermitteln einer Schnittstelle des Zentroids mit einer Grundebene innerhalb des Umgebungssichtfelds; initialisieren eines gittergestützten 3D-Volumenmodells, das sich für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells der Umgebung eignet, durch Verwenden einer Rückprojektion eines entsprechenden 2D-Bildes des verfolgten Objekts als Funktion des Zentroids und der ermittelten Schnittstelle mit der Grundebene; Darstellen einer nichtlinearen Dynamik eines verfolgten Bewegungspfades des Objekts in den 2D-Bilddaten als Sammlung unterschiedlicher lokaler linearer Modelle; Projizieren einer Struktur des 2D-Objekts auf das 3D-Modell; und Erweitern der 2D-Verfolgungen des Objekts um 3D-Bewegungen, um das 3D-Modell in dynamischem netzgittergestützten 3D zu betreiben, durch Lernen einer gewichteten Kombination der unterschiedlichen lokalen linearen Modelle, die einen Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung minimiert.
Verfahren nach Anspruch 1, das ferner aufweist: Optimieren einer Gesamtanzahl der unterschiedlichen lokalen linearen Modelle unter Verwendung eines Kreuzvalidierungssystems.
Verfahren nach Anspruch 2, das ferner aufweist: Auflösen von Vermischungskoeffizienten für jedes der unterschiedlichen lokalen linearen Modelle unter Verwendung eines Ansatzes der kleinsten Quadrate; und Aktualisieren einer Position des 3D-Modells als Funktion der Zeit und der aufgelösten Vermischungskoeffizienten.
Verfahren nach Anspruch 3, das ferner aufweist: Lernen der unterschiedlichen lokalen linearen Modelle für das initialisierte 3D-Modell in einer Offline-Stufe unter Verwendung von Lerndaten aus Bewegungserfassungseingaben; Erstellen einer Bibliothek einer Vielzahl von 3D-Objektmodellen aus den gelernten lokalen linearen Modellen für das initialisierte 3D-Modell, wobei jedes der Vielzahl der 3D-Objektmodelle ein unterschiedliches Beispiel für eine plausible 3D-Modelldynamik bereitstellt; und wobei der Schritt des Initialisierens des netzgittergestützten 3D-Volumenmodells für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells ein Durchführen einer Suche in der erstellten Bibliothek nach einem passenden Dynamikmodell für das verfolgte 2D-Objekt aufweist.
Verfahren nach Anspruch 4, wobei der Schritt des Initialisierens des netzgittergestützten 3D-Volumenmodells für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells darüber hinaus aufweist: Erkennen eines Objekttyps oder -verhaltens des erkannten verfolgten 2D-Objekts; und Auswählen des 3D-Modells aus der Vielzahl von 3D-Objektmodellen in der Bibliothek als eine Dynamik aufweisend, die dem erkannten Objekttyp oder -verhalten entspricht.
Verfahren nach-Anspruch 4, wobei das Lernen der lokalen linearen Modelle für das initialisierte 3D-Modell in der Offline-Stufe unter Verwendung von Lerndaten aus Bilderfassungseingaben aufweist: Sammeln einer Vielzahl von unterschiedlichen gelernten Beispielen ähnlicher Objektbewegungen; Entfernen von Übersetzungs-, Dreh- und Maßstabunterschieden zwischen den unterschiedlichen gelernten Beispielen ähnlicher Objektbewegungen; und Gewinnen von Objektbewegungsfaktoren durch eine Analyse der Hauptkomponente, wobei eine erste Hauptkomponente ein Datenmittel darstellt und zweite oder darauffolgende Komponenten variierende Differenzierungsmodi für Objektbewegungsdaten darstellen.
Verfahren nach Anspruch 6, wobei es sich bei dem Schritt des Entfernens von Übersetzungs-, Dreh- und Maßstabunterschieden zwischen den unterschiedlichen gelernten Beispielen unterschiedlicher Objektbewegungen um eine Procrustes-Ausrichtung handelt.
System, das aufweist: eine Verarbeitungseinheit, einen computerlesbaren Speicher und ein computerlesbares Speichermedium; erste Programmanweisungen, um ein Zentroid eines sich bewegenden Objekts zu lokalisieren, das innerhalb eines Umgebungssichtfelds einer 2D-Dateneinspeisung (Feed) einer kalibrierten Videokamera erkannt und verfolgt wurde, und um eine Schnittstelle des Zentroids mit einer Grundebene innerhalb des Umgebungssichtfelds zu ermitteln, wobei die Kamera so kalibriert ist, dass sie innerhalb eines Kontextes einer räumlichen Höhe, Ausrichtung und Position eines 3D-Modells der Umgebung des Kamerasichtfelds platziert wird; zweite Programmanweisungen zum Initialisieren eines gittergestützten 3D-Volumenmodells, das sich für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells der Umgebung eignet, durch Verwenden einer Rückprojektion eines entsprechenden 2D Bildes des verfolgten Objekts als Funktion des Zentroids und der ermittelten Schnittstelle mit der Grundebene; dritte Programmanweisungen, um eine nichtlineare Dynamik eines verfolgten Bewegungspfades des Objekts in den 2D-Bilddaten als Sammlung unterschiedlicher lokaler linearer Modelle darzustellen, um eine Struktur des 2D-Objekts auf das 3D-Modell zu projizieren und 2D-Verfolgungen des Objekts um 3D-Bewegungen zu erweitern, um das 3D-Modell in dynamischem netzgittergestützten 3D zu betreiben, durch Lernen einer gewichteten Kombination der unterschiedlichen lokalen linearen Modelle, die einen Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung minimiert; und wobei die ersten, zweiten und dritten Programmanweisungen auf dem computerlesbaren Speichermedium zur Ausführung durch die Verarbeitungseinheit über den computerlesbaren Speicher gespeichert sind.
System nach Anspruch 8, wobei die dritten Programmanweisungen ferner vorgesehen sind, um eine Gesamtanzahl der unterschiedlichen lokalen linearen Modelle unter Verwendung eines Kreuzvalidierungssystems zu optimieren.
System nach Anspruch 9, wobei die dritten Programmanweisungen ferner vorgesehen sind, um: Vermischungskoeffizienten für jedes der unterschiedlichen lokalen linearen Modelle unter Verwendung eines Ansatzes der kleinsten Quadrate aufzulösen; und eine Position des 3D-Modells der Umgebung des Kamerasichtfelds als Funktion der Zeit und der aufgelösten Vermischungskoeffizienten auf 3D zu aktualisieren.
System nach Anspruch 10, das ferner vierte Programmanweisungen aufweist, die auf dem computerlesbaren Speichermedium zur Ausführung durch die Verarbeitungseinheit über den computerlesbaren Speicher gespeichert sind, um: die unterschiedlichen lokalen linearen Modelle für das initialisierte 3D-Modell unter Verwendung von Lerndaten aus Bewegungserfassungseingaben in einer Offline-Stufe aus einer Online-Stufe zu lernen, die zur Ausführung der ersten, zweiten und dritten Anweisungen verwendet werden; eine Bibliothek einer Vielzahl von 3D-Objektmodellen aus den gelernten lokalen linearen Modellen für das initialisierte 3D-Modell zu erstellen, wobei jedes der Vielzahl der 3D-Objektmodelle ein unterschiedliches Beispiel für eine plausible 3D-Modelldynamik bereitstellt; und wobei die zweiten Programmanweisungen ferner vorgesehen sind, um das netzgittergestützte 3D-Volumenmodell für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells mittels Durchführen einer Suche in der erstellten Bibliothek nach einem passenden Dynamikmodell für das verfolgte 2D-Objekt zu initialisieren.
System nach Anspruch 11, wobei die zweiten Programmanweisungen ferner vorgesehen sind, um das netzgittergestützte 3D-Volumenmodell für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells zu initialisieren durch: Erkennen eines Objekttyps oder -verhaltens des erkannten verfolgten 2D-Objekts; und Auswählen des 3D-Modells aus der Vielzahl von 3D-Objektmodellen in der Bibliothek als eine Dynamik aufweisend, die dem erkannten Objekttyp oder -verhalten entspricht.
System nach Anspruch 11, wobei die vierten Programmanweisungen ferner vorgesehen sind, um die lokalen linearen Modelle für das initialisierte 3D-Modell in der Offline-Stufe unter Verwendung von Lerndaten aus Bewegungserfassungseingaben zu lernen durch: Sammeln einer Vielzahl von unterschiedlichen gelernten Beispielen ähnlicher Objektbewegungen; Entfernen von Übersetzungs-, Dreh- und Maßstabunterschieden zwischen den unterschiedlichen gelernten Beispielen ähnlicher Objektbewegungen im Rahmen einer Procrustes-Ausrichtung; und Gewinnen von Objektbewegungsfaktoren durch eine Analyse der Hauptkomponente, wobei eine erste Hauptkomponente ein Datenmittel darstellt und zweite oder darauffolgende Komponenten variierende Differenzierungsmodi für Objektbewegungsdaten darstellen.
Herstellungsgegenstand, der aufweist: ein computerlesbares Speichermedium mit einem darauf gespeicherten computerlesbaren Programmcode, wobei der computerlesbare Programmcode Anweisungen aufweist, die bei Ausführung durch einen Computerprozessor den Computerprozessor verlassen zum: Lokalisieren eines Zentroids eines sich bewegenden Objekts, das innerhalb eines Umgebungssichtfelds einer 2D-Dateneinspeisung (Feed) einer kalibrierten Videokamera erkannt und verfolgt wurde, wobei die Kamera so kalibriert ist, dass sie innerhalb eines Kontextes einer räumlichen Höhe, Ausrichtung und Position eines 3D-Modells der Umgebung des Kamerasichtfelds platziert wird; Ermitteln einer Schnittstelle des Zentroids mit einer Grundebene innerhalb des Umgebungssichtfelds; Initialisieren eines gittergestützten 3D-Volumenmodells, das sich für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells der Umgebung eignet, durch Verwenden einer Rückprojektion eines entsprechenden 2D-Bildes des verfolgten Objekts als Funktion des Zentroids und der ermittelten Schnittstelle mit der Grundebene; Darstellen einer nichtlinearen Dynamik eines verfolgten Bewegungspfads des Objekts in den 2D-Bilddaten als Sammlung unterschiedlicher lokaler linearer Modelle, deren Gesamtanzahl unter Verwendung eines Kreuzvalidierungssystems optimiert wird; Projizieren einer Struktur des 2D-Objekts auf das 3D-Modell; und Erweitern der 2D-Verfolgungen des Objekts um 3D-Bewegungen, um das 3D-Modell in dynamischem netzgittergestütztem 3D zu betreiben, durch Lernen einer gewichteten Kombination der unterschiedlichen lokalen linearen Modelle, die einen Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung minimiert.
Herstellungsgegenstand nach Anspruch 14, wobei die Anweisungen bei Ausführung durch den Computerprozessor den Computerprozessor veranlassen zum: Auflösen von Vermischungskoeffizienten für jedes der unterschiedlichen lokalen linearen Modelle unter Verwendung eines Ansatzes der kleinsten Quadrate; und Aktualisieren einer Position des 3D-Modells der Umgebung des Kamerasichtfelds als Funktion der Zeit und der aufgelösten Vermischungskoeffizienten auf 3D.
Herstellungsgegenstand nach Anspruch 15, wobei die Anweisungen bei Ausführung durch den Computerprozessor den Computerprozessor ferner veranlassen zum: Lernen der unterschiedlichen lokalen linearen Modelle für das initialisierte 3D-Modell unter Verwendung von Lerndaten aus Bewegungserfassungseingaben in einer Offline-Stufe; Erstellen einer Bibliothek einer Vielzahl von 3D-Objektmodellen aus den gelernten lokalen linearen Modellen für das initialisierte 3D-Modell, wobei jedes der Vielzahl der 3D-Objektmodelle ein unterschiedliches Beispiel für eine plausible 3D-Modelldynamik bereitstellt; und Initialisieren des netzgittergestützten 3D Volumennmodells für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells mittels Durchführen einer Suche in der erstellten Bibliothek nach einem passenden Dynamikmodell für das verfolgte 2D-Objekt.
Herstellungsgegenstand nach Anspruch 16, wobei die Anweisungen bei Ausführung durch den Computerprozessor den Computerprozessor ferner veranlassen zum: Initialisieren des netzgittergestützten 3D-Volumenmodells für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells durch Erkennen eines Objekttyps oder -verhaltens des erkannten verfolgten 2D-Objekts und Auswählen des 3D-Modells aus der Vielzahl von 3D-Objektmodellen in der Bibliothek als eine Dynamik aufweisend, die dem erkannten Objekttyp oder -verhalten entspricht.
Herstellungsgegenstand nach Anspruch 16, wobei die Anweisungen bei Ausführung durch den Computerprozessor den Computerprozessor ferner veranlassen, die lokalen linearen Modelle für das initialisierte 3D-Modell in der Offline-Stufe unter Verwendung von Lerndaten aus Bewegungserfassungseingaben zu lernen durch: Sammeln einer Vielzahl von unterschiedlichen gelernten Beispielen ähnlicher Objektbewegungen; Entfernen von Übersetzungs-, Dreh- und Maßstabunterschieden zwischen den unterschiedlichen gelernten Beispielen ähnlicher Objektbewegungen im Rahmen einer Procrustes-Ausrichtung; und Gewinnen von Objektbewegungsfaktoren durch eine Analyse der Hauptkomponente, wobei eine erste Hauptkomponente ein Datenmittel darstellt und zweite oder darauffolgende Komponenten variierende Differenzierungsmodi für Objektbewegungsdaten darstellen.
Verfahren zum Bereitstellen eines Dienstes zum Darstellen von innerhalb von 2D-Videodaten verfolgten Objekten durch 3D-Modelle, wobei das Verfahren das Bereitstellen aufweist von: einer ersten Zentroid-Lokalisierungsfunktion, die ein Zentroid eines sich bewegenden Objekts lokalisiert, das innerhalb eines Umgebungssichtfelds einer 2D-Dateneinspeisung (Feed) einer kalibrierten Videokamera erkannt und verfolgt wurde, und ferner eine Schnittstelle des Zentroids mit einer Grundebene innerhalb des Umgebungssichtfelds ermittelt, wobei die Kamera so kalibriert ist, dass sie innerhalb eines Kontextes einer räumlichen Höhe, Ausrichtung und Position eines 3D-Modells der Umgebung des Kamerasichtfelds platziert wird; und einem 3D-Modellierungsprogramm, das ein gittergestütztes 3D-Volumenmodell initialisiert, das sich für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells der Umgebung eignet, durch Verwenden einer Rückprojektion eines entsprechenden 2D-Bildes des verfolgten Objekts als Funktion des Zentroids und der ermittelten Schnittstelle mit der Grundebene; eine nichtlineare Dynamik eines verfolgten Bewegungspfads des Objekts in den 2D-Bilddaten als Sammlung unterschiedlicher lokaler linearer Modelle darstellt, deren Gesamtanzahl unter Verwendung eines Kreuzvalidierungssystems optimiert wird; eine Struktur des 2D-Objekts auf das 3D-Modell projiziert und 2D-Verfolgungen des Objekts um 3D-Bewegungen erweitert, um das 3D-Modell in dynamischem netzgittergestützten 3D zu betreiben, durch Lernen einer gewichteten Kombination der unterschiedlichen lokalen linearen Modelle, die einen Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung minimiert.
Verfahren nach Anspruch 19, wobei das 3D-Modellierungsprogramm ferner: Vermischungskoeffizienten für jedes der unterschiedlichen lokalen linearen Modelle unter Verwendung eines Ansatzes der kleinsten Quadrate auflöst; und eine Position des 3D Modells der Umgebung des Kamerasichtfelds als Funktion der Zeit und der aufgelösten Vermischungskoeffizienten auf 3D aktualisiert.
Verfahren nach Anspruch 20, wobei das 3D-Modellierungsprogramm ferner: die unterschiedlichen lokalen linearen Modelle für das initialisierte 3D-Modell unter Verwendung von Lerndaten aus Bewegungserfassungseingaben in einer Offline-Stufe lernt; eine 3D-Netzgitter-Modell-Bibliothek einer Vielzahl von 3D-Objektmodellen aus den unterschiedlichen gelernten lokalen linearen Modellen für das initialisierte 3D-Modell erstellt, wobei jedes der Vielzahl der 3D-Objektmodelle ein unterschiedliches Beispiel für eine plausible 3D-Modelldynamik bereitstellt; und das netzgittergestützte 3D-Volumenmodell für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells ein Durchführen einer Suche in der erstellten 3D-Netzgitter-Modell-Bibliothek nach einem passenden Dynamikmodell für das verfolgte 2D-Objekt initialisiert.
Verfahren nach Anspruch 21, wobei das 3D-Modellierungsprogramm ferner das netzgittergestützte 3D-Volumenmodell für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells durch Erkennen eines Objekttyps oder -verhaltens des erkannten verfolgten 2D-Objekts initialisiert und das 3D-Modell aus der Vielzahl von 3D-Objektmodellen in der Bibliothek des 3D-Modellierungsprogramms als eine Dynamik aufweisend auswählt, die dem erkannten Objekttyp oder -verhalten entspricht.
Verfahren nach Anspruch 21, wobei das 3D-Modellierungsprogramm die lokalen linearen Modelle für das initialisierte 3D-Modell in der Offline-Stufe unter Verwendung von Lerndaten aus Bilderfassungseingaben lernt durch: Sammeln einer Vielzahl von unterschiedlichen gelernten Beispielen ähnlicher Objektbewegungen; Entfernen von Übersetzungs-, Dreh- und Maßstabunterschieden zwischen den unterschiedlichen gelernten Beispielen ähnlicher Objektbewegungen im Rahmen einer Procrustes-Ausrichtung; und Gewinnen von Objektbewegungsfaktoren durch eine Analyse der Hauptkomponente, wobei eine erste Hauptkomponente ein Datenmittel darstellt und zweite oder darauffolgende Komponenten variierende Differenzierungsmodi für Objektbewegungsdaten darstellen.