DE112012001984B4 - Integrieren von Video-Metadaten in 3D-Modelle - Google Patents

Integrieren von Video-Metadaten in 3D-Modelle Download PDF

Info

Publication number
DE112012001984B4
DE112012001984B4 DE112012001984.9T DE112012001984T DE112012001984B4 DE 112012001984 B4 DE112012001984 B4 DE 112012001984B4 DE 112012001984 T DE112012001984 T DE 112012001984T DE 112012001984 B4 DE112012001984 B4 DE 112012001984B4
Authority
DE
Germany
Prior art keywords
model
tracked
models
local linear
linear models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE112012001984.9T
Other languages
English (en)
Other versions
DE112012001984T5 (de
Inventor
Lisa M. Brown
Rogerio S. Feris
Sharathchandra Pankanti
Ankur Datta
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyndryl Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE112012001984T5 publication Critical patent/DE112012001984T5/de
Application granted granted Critical
Publication of DE112012001984B4 publication Critical patent/DE112012001984B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

Verfahren zum Darstellen von innerhalb von 2D-Videodaten verfolgten Objekten durch 3D-Modelle, wobei das Verfahren aufweist:Erkennen und Verfolgen einer Bewegung eines Objekts innerhalb eines Umgebungssichtfelds einer 2D-Dateneinspeisung (Feed) einer kalibrierten Videokamera, wobei die Kamera so kalibriert ist, dass sie innerhalb eines Kontextes einer räumlichen Höhe, Ausrichtung und Position eines 3D-Modells der Umgebung des Kamerasichtfelds platziert wird;Lokalisieren eines Zentroids des verfolgten Objekts;Ermitteln einer Schnittstelle des Zentroids mit einer Grundebene innerhalb des Umgebungssichtfelds;initialisieren eines gittergestützten 3D-Volumenmodells, das sich für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells der Umgebung eignet, durch Verwenden einer Rückprojektion eines entsprechenden 2D-Bildes des verfolgten Objekts als Funktion des Zentroids und der ermittelten Schnittstelle mit der Grundebene;Darstellen einer nichtlinearen Dynamik eines verfolgten Bewegungspfades des Objekts in den 2D-Bilddaten als Sammlung unterschiedlicher lokaler linearer Modelle;Projizieren einer Struktur des 2D-Objekts auf das 3D-Modell; undErweitern der 2D-Verfolgungen des Objekts um 3D-Bewegungen, um das 3D-Modell in dynamischem netzgittergestützten 3D zu betreiben, durch Lernen einer gewichteten Kombination der unterschiedlichen lokalen linearen Modelle, die einen Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung minimiert.

Description

  • HINTERGRUND
  • Die vorliegende Erfindung bezieht sich auf ein Bilden einer erweiterten virtuellen Umgebung (AVE, Augmented Virtual Environment), die zweidimensionale (2D-) Videodaten um ein dreidimensionales (3D-) Verständnis von in der Videodatenumgebung enthaltenen Objekten erweitert.
  • Verstehen und Ermitteln des Imports der diversen Objektbewegungen, z.B. eine Person, die sich einem Bereich nähert oder eine gewisse Handlung ausübt, die diese Person oder andere einem erhöhten Gefährdungsrisiko aussetzt, kann sich aus 2D-Videodatenströmen schwierig gestalten. Es ist eventuell erforderlich, dass menschliche Bearbeiter mehrere Monitore oder Anzeigefenster gleichzeitig auf Objektbewegungen prüfen und analysieren, und die 2D-Beschaffenheit der Videodaten kann eine Objekterkennung und -verfolgung durch das menschliche Auge schwierig machen, insbesondere in visuell ansprechenden oder unruhigen Umgebungen.
  • Objektverfolgung und -erkennung können verbessert werden, wenn 2D-Videodaten in einer erweiterten virtuellen Umgebung (AVE) bereitgestellt werden, die 3D-Szenemodelle von in den Videodaten vorhandenen Objekten erstellt, da ein Erkennen und Verfolgen von 3D-Objekten im Grunde für menschliche Beobachter intuitiver ist. Um 3D-Modelle in geeigneter Weise aufzubereiten, benötigen solche Systeme allerdings andere Dateneingaben, z.B. Daten aus anderen Kameras oder Einheiten wie Bereichs-, Bild- und/oder Objektverfolgungssensoren.
  • Aus dem Stand der Technik ist beispielsweise ein Verfahren bekannt zur Verfolgung mehrerer 3D-Objekte für Anwendungen aus dem Bereich der sogenannten erweiterten Realität (Park, Y.; Lepetit, V.; Woo, W.: Multiple 3D Object Tracking for Augmented Reality. In: IEEE/ACM International Symposium on Mixed and Augmented Reality ISMAR, S. 117-120, September 2008). Eine markerlose Verfolgung von Bewegungen in Echtzeit mithilfe verbundener kinematischer Ketten ( US 7,257,237 B1 ) ist gleichfalls bekannt. Die visuelle Verfolgung eine Ziels bei gleichzeitiger Anpassung eines Modells mit gerasterten Posen ist in US2011/0058709 A1 beschrieben. Speziell für Anwendungen in einer erweiterten virtuellen Umgebung (AVE) existieren Verfahren und Systeme zur Erzeugung eines 3D-Modells bei gleichzeitiger Verfolgung und Modellprojektion von Videodaten in Echtzeit ( US 7,583,275 B2 ).
  • Der Erfindung liegt die Aufgabe zugrunde, die vorhandenen Verfahren zur Erkennung und Verfolgung von 3D-Objekten in 2D-Videobildern zu verbessern.
  • KURZDARSTELLUNG
  • Bei einer Ausführungsform der vorliegenden Erfindung beinhaltet ein Verfahren zum Darstellen von innerhalb von 2D-Videodaten verfolgten Objekten durch 3D-Modelle Lokalisieren eines Zentroids eines erkannten Objekts und Verfolgen einer Bewegung innerhalb eines Umgebungssichtfelds eines 2D-Daten-Feed einer kalibrierten Videokamera. Die Kamera wird so kalibriert, dass sie innerhalb eines Kontextes einer räumlichen Höhe, Ausrichtung und Position eines 3D-Modells der Umgebung des Kamerasichtfelds platziert wird. Somit wird eine Schnittstelle des Zentroids mit einer Grundebene innerhalb des Umgebungssichtfelds ermittelt, und ein netzgittergestütztes 3D-Volumenmodell, das sich für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells der Umgebung eignet, wird unter Verwendung einer Rückprojektion eines entsprechenden 2D-Bildes des verfolgten Objekts als Funktion des Zentroids und der ermittelten Schnittstelle mit der Grundebene initialisiert. Die nichtlineare Dynamik eines verfolgten Bewegungspfades des Objekts in den 2D-Bilddaten wird als Sammlung unterschiedlicher lokaler linearer Modelle dargestellt. Eine Struktur des 2D-Objekts wird auf das 3D-Modell projiziert, und 2D-Verfolgungen des Objekts werden um 3D-Bewegungen erweitert, um das 3D-Modell in dynamischem netzgittergestütztem 3D zu betreiben, bei einem Aspekt durch Lernen einer gewichteten Kombination der unterschiedlichen lokalen linearen Modelle, die einen Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung minimiert.
  • Bei einer weiteren Ausführungsfom weist ein System eine Verarbeitungseinheit, einen computerlesbaren Speicher und eine computerlesbare Speichermediumeinheit mit darauf gespeicherten Programmanweisungen auf, die bei Ausführung die Verarbeitungseinheit veranlassen, ein Zentroid eines sich bewegenden Objekts, das innerhalb eines Umgebungssichtfelds eines 2D-Daten-Feed einer kalibrierten Videokamera erkannt und verfolgt wird, zu lokalisieren und eine Schnittstelle des Zentroids mit einer Grundebene innerhalb des Umgebungssichtfelds zu ermitteln, wobei die Kamera so kalibriert ist, dass sie innerhalb eines Kontextes von räumlicher Höhe, Ausrichtung und Position eines 3D-Modells der Umgebung des Kamerasichtfelds platziert wird. Die Verarbeitungseinheit wird durch die Programmanweisungen darüber hinaus veranlasst, ein netzgittergestütztes 3D-Volumenmodell, das sich für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells der Umgebung eignet, durch Verwenden einer Rückprojektion eines entsprechenden 2D-Bildes des verfolgten Objekts als Funktion des Zentroids und der ermittelten Schnittstelle mit der Grundebene zu initialisieren. Ferner wird die Verarbeitungseinheit durch die Programmanweisungen darüber hinaus veranlasst, eine nichtlineare Dynamik eines verfolgten Bewegungspfades des Objekts in den 2D-Bilddaten als Sammlung unterschiedlicher lokaler linearer Modelle darzustellen, eine Struktur des 2D-Objekts auf das 3D-Modell zu projizieren und 2D-Verfolgungen des Objekts um 3D-Bewegungen zu erweitern, um das 3D-Modell in dynamischem netzgittergestütztem 3D durch Lernen einer gewichteten Kombination der unterschiedlichen lokalen linearen Modelle zu betreiben, die einen Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung minimiert.
  • Bei einer weiteren Ausführungsform weist ein Herstellungsgegenstand eine computerlesbare Speichermediumeinheit mit einem darauf gespeicherten computerlesbaren Programmcode auf, wobei der computerlesbare Programmcode Anweisungen aufweist, die bei Ausführung durch einen Computerprozessor diesen veranlassen, ein Zentroid eines sich bewegenden Objekts, das innerhalb eines Umgebungssichtfelds eines 2D-Daten-Feed einer kalibrierten Videokamera erkannt und verfolgt wird, zu lokalisieren, wobei die Kamera so kalibriert ist, dass sie innerhalb eines Kontextes einer räumlichen Höhe, Ausrichtung und Position eines 3D-Modells der Umgebung des Kamerasichtfelds platziert wird. Die Anweisungen veranlassen den Computerprozessor darüber hinaus, eine Schnittstelle des Zentroids mit einer Grundebene innerhalb des Umgebungssichtfelds zu ermitteln und ein netzgittergestütztes 3D-Volumenmodell, das sich für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells der Umgebung eignet, durch Verwenden einer Rückprojektion eines entsprechenden 2D-Bildes des verfolgten Objekts als Funktion des Zentroids und der ermittelten Schnittstelle mit der Grundebene zu initialisieren. Die Anweisungen veranlassen den Computerprozessor ferner, eine nichtlineare Dynamik eines verfolgten Bewegungspfades des Objekts in den 2D-Bilddaten als Sammlung unterschiedlicher lokaler linearer Modelle darzustellen, deren Gesamtanzahl unter Verwendung einer Kreuzvalidierung optimiert wird; eine Struktur des 2D-Objekts auf das 3D-Modell zu projizieren und 2D-Verfolgungen des Objekts um 3D-Bewegungen zu erweitern, um das 3D-Modell in dynamischem gittergestütztem 3D durch Lernen einer gewichteten Kombination der unterschiedlichen lokalen linearen Modelle zu betreiben, die einen Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung minimiert.
  • Bei einer weiteren Ausführungsform beinhaltet ein Verfahren zum Bereitstellen eines Dienstes zum Darstellen von innerhalb von 2D-Videodaten verfolgten Objekten durch 3D-Modelle ein Bereitstellen einer Zentroid-Lokalisierungsfunktion, die ein Zentroid eines sich bewegenden Objekts, das innerhalb eines Umgebungssichtfelds eines 2D-Daten-Feed einer kalibrierten Videokamera erkannt und verfolgt wird, lokalisiert und darüber hinaus eine Schnittstelle des Zentroids mit der Grundebene innerhalb des Umgebungssichtfelds ermittelt, wobei die Kamera so kalibriert ist, dass sie innerhalb eines Kontextes von räumlicher Höhe, Ausrichtung und Position eines 3D-Modells der Umgebung des Kamerasichtfelds platziert wird. Das Verfahren stellt darüber hinaus ein 3D-Modellierungsprogramm bereit, das ein gittergestütztes 3D-Volumenmodell, das sich für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells der Umgebung eignet, durch Verwenden einer Rückprojektion eines entsprechenden 2D-Bildes des verfolgten Objekts als Funktion des Zentroids und der ermittelten Schnittstelle mit der Grundebene initialisiert, Das 3D-Modellierungsprogramm stellt darüber hinaus eine nichtlineare Dynamik eines verfolgten Bewegungspfades des Objekts in den 2D-Bilddaten als Sammlung unterschiedlicher lokaler linearer Modelle bereit, deren Gesamtanzahl unter Verwendung eines Kreuzvalidierungssystems optimiert wird, projiziert eine Struktur des 2D-Objekts auf das 3D-Modell und erweitert 2D-Verfolgungen des Objekts um 3D-Bewegungen, um das 3D-Modell in dynamischem netzgittergestütztem 3D durch Lernen einer gewichteten Kombination der unterschiedlichen lokalen linearen Modelle zu betreiben, die einen Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung minimiert.
  • Figurenliste
  • Diese und andere Merkmale dieser Erfindung gehen aus der folgenden ausführlichen Beschreibung der verschiedenen Aspekte der Erfindung in Verbindung mit den beiliegenden Zeichnungen besser hervor, in denen:
    • 1 eine Ablaufplandarstellung einer Ausführungsform eines Verfahrens oder Systems zum Darstellen von Objekten, die innerhalb von 2D-Videodaten verfolgt werden, durch 3D-Modellierung gemäß der vorliegenden Erfindung ist.
    • 2 eine schematische Darstellung einer Kamerakalibrierung gemäß Ausführungsformen der vorliegenden Erfindung ist.
    • 3 eine schematische Darstellung eines Rückprojektions-Modellierungsverfahrens gemäß Ausführungsformen der vorliegenden Erfindung ist.
    • 4 eine schematische Darstellung einer Umsetzung einer Ausführungsform der vorliegenden Erfindung ist.
    • 5 eine Blockschaltbilddarstellung einer computergestützten Umsetzung einer Ausführungsform der vorliegenden Erfindung ist.
    • 6 eine Blockschaubilddarstellung eines Gegenstands gemäß einer Ausführungsform der vorliegenden Erfindung ist.
  • Die Zeichnungen sind nicht notwendigerweise maßstabsgetreu. Die Zeichnungen sind lediglich schematische Darstellungen und sollen die spezifischen Parameter der Erfindung nicht wiedergeben. Die Zeichnungen sollen nur typische Ausführungsformen der Erfindung zeigen und sollten aus diesem Grund nicht als den Umfang der Erfindung einschränkend erachtet werden. In den Zeichnungen steht eine gleiche Nummerierung für gleiche Elemente.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Wie der Fachmann verstehen wird, können Aspekte der vorliegenden Erfindung in Form eines Systems, eines Verfahrens oder eines Computerprogrammprodukts umgesetzt sein. Demgemäß können Aspekte der vorliegenden Erfindung die Form einer ausschließlich aus Hardware bestehenden Ausführungsform, einer ausschließlich aus Software bestehenden Ausführungsform (Firmware, residente Software, Mikrocode usw. mit eingeschlossen) oder einer Ausführungsform annehmen, die Software- und Hardware-Aspekte kombiniert, die hier allesamt allgemein als „Schaltung“, „Modul“ oder „System“ bezeichnet werden können. Ferner können Aspekte der vorliegenden Erfindung die Form eines Computerprogrammprodukts annehmen, das als ein oder mehrere computerlesbare Medien umgesetzt ist, die einen computerlesbaren Programmcode aufweisen.
  • Es kann eine beliebige Kombination aus einem oder mehreren computerlesbaren Medien verwendet werden. Das computerlesbare Medium kann ein computerlesbares Signalmedium oder ein computerlesbares Speichermedium sein. Ein computerlesbares Speichermedium kann beispielsweise ein/e elektronische/s, magnetische/s, optische/s, elektromagnetische/s, Infrarot- oder Halbleitersystem, -vorrichtung oder -einheit oder eine geeignete Kombination des Vorstehenden sein, ohne jedoch darauf beschränkt zu sein. Spezifischere Beispiele (nichterschöpfende Liste) für das computerlesbare Speichermedium sind unter anderem: eine elektrische Verbindung mit einem oder mehreren Leitungen, eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM, Random Access Memory), ein Nur-Lese-Speicher (ROM, Read Only Memory), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM (Erasable Programmable Read Only Memory) oder Flash-Speicher), ein Lichtwellenleiter, ein tragbarer Compact Disk-Nur-Lese-Speicher (CD-ROM, Compact Disc-Read Only Memory), eine optische Speichereinheit, eine magnetische Speichereinheit oder eine geeignete Kombination des Vorstehenden. Im Kontext dieses Dokuments kann ein computerlesbares Speichermedium jedes konkrete Medium sein, das ein Programm zur Verwendung durch ein/e Anweisungsausführungssystem, -vorrichtung oder -einheit oder in Verbindung damit enthalten oder speichern kann.
  • Ein computerlesbares Signalmedium kann ein weitergeleitetes Datensignal beinhalten, das einen computerlesbaren Programmcode aufweist, beispielsweise im Basisband oder als Teil einer Trägerwelle. Ein solches weitergeleitetes Signal kann eine Vielzahl von Formen annehmen, beispielsweise elektromagnetisch, optisch oder eine geeignete Kombination davon, ohne jedoch darauf beschränkt zu sein. Ein computerlesbares Signalmedium kann ein beliebiges computerlesbares Medium sein, bei dem es sich nicht um ein computerlesbares Speichermedium handelt und das ein Programm zur Verwendung durch ein/e Anweisungsausführungssystem, -vorrichtung oder -einheit oder in Verbindung damit übertragen, werterleiten oder transportieren kann.
  • Der auf einem computerlesbaren Medium gespeicherte Programmcode kann mithilfe eines geeigneten Mediums übertragen werden, beispielsweise drahtlos, kabelgebunden, über Lichtwellenleiterkabel, HF usw. oder eine Kombination des Vorstehenden, ohne jedoch darauf beschränkt zu sein.
  • Ein Computerprogrammcode zum Ausführen von Operationen für Aspekte der vorliegenden Erfindung kann in irgendeiner Kombination aus einer oder mehreren Programmiersprachen geschrieben sein, beispielsweise objektorientierte Programmiersprachen wie Java, Smalltalk, C++ oder dergleichen und herkömmliche prozedurale Programmiersprachen wie die „C“-Programmiersprache oder ähnliche Programmiersprachen. Der Programmcode kann zur Gänze auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder zur Gänze auf dem entfernt angeordneten Computer oder Server ausgeführt werden. Bei letzterem Szenario kann der entfernt angeordnete Computer über einen beliebigen Netzwerktyp, beispielsweise ein lokales Netz (LAN, Local Area Network) oder ein Weitverkehrsnetz (WAN, Wide Area Network), mit dem Computer des Benutzers verbunden sein oder die Verbindung zu einem externen Computer kann hergestellt werden (z.B. über einen Internet-Diensteanbieter über Internet).
  • Aspekte der vorliegenden Erfindung sind im Folgenden unter Bezugnahme auf die Ablaufplandarstellungen und/oder Blockschaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es sei verstanden, dass jeder Block der Ablaufplandarstellungen und/oder Blockschaubilder und Kombinationen von Blöcken in den Ablaufplandarstellungen und/oder Blockschaubildem durch Computerprogrammanweisungen umgesetzt werden können. Diese Computerprogrammanweisungen können für einen Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu schaffen, so dass die Anweisungen, die über den Prozessor des Computers oder der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführt werden, ein Mittel für das Umsetzen der in dem einen oder den mehreren Ablaufplan- und/oder Blockschaubildblöcken angegebenen Funktionen/Aktionen erstellen.
  • Diese Computerprogrammanweisungen können auch in einem computerlesbaren Medium gespeichert werden, das einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten anweisen kann, auf eine bestimmte Weise zu arbeiten, so dass die im computerlesbaren Medium gespeicherten Anweisungen einen Herstellungsgegenstand produzieren, der Anweisungen beinhaltet, die die in den einen oder mehreren Ablaufplan- und/oder Blockschaubildblöcken angegebene Funktion/Aktion umsetzen.
  • Die Computerprogrammanweisungen können auch in einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten geladen werden, um zu bewirken, dass eine Reihe von Betriebsschritten im Computer, auf der anderen programmierbaren Vorrichtung oder auf anderen Einheiten durchgeführt wird, um ein auf einem Computer ausgeführtes Verfahren zu erstellen, so dass die Anweisungen, die auf dem Computer oder auf der anderen programmierbaren Vorrichtung ausgeführt werden, Verfahren zum Umsetzen der in dem einen oder den mehreren Ablaufplan- und/oder Blockschaubildblöcken angegebenen Funktionen/Aktionen bereitstellen.
  • Es wird nun auf 1 Bezug genommen, in der eine Ausführungsform eines Verfahrens, eines Prozesses oder eines Systems zum Darstellen von Objekten, die innerhalb 2D-Videodaten verfolgt wurden, durch 3D-Modellierung gemäß der vorliegenden Erfindung gezeigt ist. Mehr im Detail wird bei 102 ein Objekt erkannt und dauerhaft innerhalb des Umgebungssichtfelds des 2D-Daten-Feed der kalibrierten Kamera verfolgt. Die Videokamera wird so kalibriert, dass extrinsische Kameraparameter gewonnen werden, die die Kamera innerhalb eines räumlichen Kontextes eines 3D-Modells der Umgebung deren Sichtfelds platzieren. Durch das Kalibrieren der Kamera werden die Höhe, die Ausrichtung und die Position der Kamera in der Weltebene unter Verwendung von standardmäßigen Kamerakalibrierungsverfahren festgelegt. Beispielsweise können unter Bezugnahme auf 2 die Höhe einer Kamera (h) von einer Grundebene und deren Ausrichtungswinkel (θ) relativ zur Grundebene im Hinblick auf die Koordinaten auf den x-, y- und z-Achsen in einer 3D-Darstellung der Umgebung deren Sichtfelds durch Verwenden eines Referenzobjekts 154 und dessen bekannten oder ermittelten Positionskoordinaten kalibriert werden. Die Kamerakalibrierung kann auch durch diverse Verfahren oder Systeme durchgeführt werden, z.B. durch Verwenden eines Schachbrettmusters, und andere Verfahren sind für den Fachmann ersichtlich.
  • Die Objekterkennung und -verfolgung bei 102 kann mithilfe diverser Objekterkennungsverfahren oder -systeme durchgeführt werden, z.B. durch Optischer-Fluss-Verfahren. Einige Ausführungsformen verwenden Detektoren, die in der Lage sind, unterschiedliche Objekte wie Menschen, Fahrzeuge, LKWs, Busse oder andere wie Flora und Fauna usw. zu erkennen und voneinander zu unterscheiden. Bewegungen der erkannten Objekte werden über das Sichtfeld der Kamera unter Verwendung eines auf dem Erscheinungsbild beruhenden Verfahrens verfolgt, das häufig über Funktionen in Bezug auf variierende Beleuchtungsbedingungen verfügt.
  • Bei 104 wird ein Zentroid des verfolgten Objekts einwandfrei lokalisiert, und die Schnittstelle des Zentroids mit einer Grundebene der Bilder wird ermittelt. Bei 106 wird ein netzgittergestütztes 3D-Volumenmodell, das sich für das verfolgte Objekt eignet, innerhalb des bei 102 ermittelten räumlichen Kontextes des 3D-Modells der Umgebung initialisiert. Das Initialisieren bei 106 weist ein Auffüllen des verfolgten Objekts mit dem netzgittergestützten 3D-Volumenmodell innerhalb des räumlichen Kontextes des 3D-Modells der Umgebung durch Verwenden einer Rückprojektion des entsprechenden 2D-Bildes des verfolgten Objekts als Funktion der bei 104 ermittelten Daten zum Zentroid und zur Schnittstelle mit der Grundebene auf. Die Rückprojektion wird durch ein Kalibrieren zwischen den Kamerabildern und dem 3D-Weltmodell erzielt. Beispielsweise unter Bezugnahme auf 3 kann man anhand der bekannten Position (P) 202 der kalibrierten Kamera eine Pixel-(x)-204-Bildposition der Füße 205 eines Objekts in Form einer Person 207 im 2D-Bild 206 der Umgebung deren Sichtfelds auf eine 3D-Position (X) 208 der Füße 209 eines 3D-Netzgittermodells 211 rückprojizieren, das zur Verwendung bei der Darstellung der Person 207 innerhalb eines 3D-Weltmodells 210 des Umgebungssichtfelds gemäß Gleichung [1] ausgewählt wird: X = P 1 x ,
    Figure DE112012001984B4_0001
    wobei (P-1) die Umkehr einer 3x4-Kameramatrix ist. Somit ermöglicht die Rückprojektion der Füße 205 einer Person 207 aus einem Bild, die Person in eine 3D-Position in der Welt zu platzieren und danach ein 3D-Modell 211 an diese 3D-Position zu setzen.
  • Bei 108 ist die nichtlineare Dynamik eines verfolgten Bewegungspfades des Objekts in den 2D-Bilddaten als Sammlung unterschiedlicher lokaler linearer Modelle dargestellt. Jedes lokale lineare Modell codiert die nichtlineare Dynamik in einer unmittelbaren Nachbarschaft. Beispielsweise kann der 2D-Objektpfad gemäß Gleichung [2] als lokale lineare Kombination mehrere Grundmodelle modelliert werden: x t = [ c 1 , c 2 ,   ,   c n ] [ m t , m t ,   ,   m t ] T ,
    Figure DE112012001984B4_0002
    wobei (t) ein Zeitraum ist und die (c)s die Mischungskoeffizienten für jedes der unterschiedlichen lokalen Modelle (m) sind. Die Anzahl der für den Objektpfad verwendeten unterschiedlichen lokalen linearen Modelle wird mittels Kreuzvalidierungsverfahren und -systemen, z.B. mithilfe von Optimalitätskriterien wie Akaikes Informationskriterium (AIC, Akaike Information Criterion) oder Bayessche Informationskriterium (BIC, Bayesian Information Criterion), optimiert oder anderweitig ermittelt. Bei einem Aspekt kann das Optimieren einen Kompromiss zwischen der Anzahl der verwendeten lokalen linearen Modelle und deren jeweiliger Codierlänge bereitstellen.
  • Das Initialisieren des 3D-Modells bei 106 kann ein Erkennen eines Typs oder eines Verhaltens des erkannten Objekts und ein Auswählen eines geeigneten Modells, das der Dynamik des erkannten Objekttyps und/oder dem Verhalten entspricht, aus einer Vielzahl von Modellen aufweisen. Unter erneuter Bezugnahme auf 3 beispielsweise kann das Erkennen, dass das erkannte Objekt 207 eine Person ist, zur Auswahl eines 3D-Personenmodells 214 aus einer Vielzahl von anderen Objektmodellen wie Fahrzeuge, LKWs, Hunde usw. führen. Ein geeigneter Personenmodelltyp kann auch aus mehreren Personenmodellen ausgewählt werden, wobei das Auswählen eines Modells einer gehenden Person auf der Grundlage der Geschwindigkeit- und/oder Positionsdynamik des erkannten Objekts oder stattdessen einer laufenden Person auf der Grundlage einer schnelleren Bewegungsgeschwindigkeit erfolgt. Einige Ausführungsformen können Größe oder andere Attribute des erkannten Objekts unterscheiden, um zwischen unterschiedlichen Modellen auszuwählen, z.B. einem Auto-3D-Modell für ein Fahrzeugobjekt, das sich entlang einer Straße bewegend erkannt wurde und eine Dimension größer als ein Fahrradobjekt und kleiner als ein LKW-Objekt aufweist. Noch weitere Ausführungsformen können nur einen Objekttyp erwarten oder sich anderweitig auf diesen fokussieren und füllen jedes sich bewegende, erkannte Objekt innerhalb der 2D-Videodaten mit dem gleichen Modell oder Modelltyp auf. Wenn die einzigen sich bewegenden Objekte, die in einer 2D-Videoumgebung erwartet werden oder von Interesse sind, Personen sind (z.B. ein Treppenhaus einer Versammlungsstätte), kann somit jedes sich bewegende, erkannte Objekt mit einem Personenmodell aufgefüllt werden, wobei der Schritt des Unterscheidens des Objekts von anderen Objekttypen ausgelassen wird.
  • Bei 110 wird eine Struktur des 2D-Objekts auf das 3D-Modell projiziert, und 3D-Verfolgungen des Objekts werden um 3D-Bewegungen erweitert, um das 3D-Modell in dynamischem netzgittergestütztem 3D durch Lernen einer gewichteten Kombination der lokalen linearen Modelle zu betreiben, die den Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung minimiert. Bei einer Ausführungsform werden die Mischungskoeffizienten (mn) der obigen Gleichung [2] unter Verwendung eines Ansatzes der kleinsten Quadrate aufgelöst, wobei entweder die 2D-Bewegung oder die 3D-Bewegung der Objekte anhand der Mischungskoeffizienten als eine Mischung aus 2D- oder 3D-Grundmodellen ausgedrückt werden kann und die Position des 3D-Modell in der Welt (X) gemäß Gleichung [3] als Funktion der Zeit (t) aktualisiert werden kann: X t = ( c 1 * m 1 ) + ( c 2 * m 2 ) + + ( c b * m n )
    Figure DE112012001984B4_0003
  • 4 zeigt eine Umsetzung einer Ausführungsform der vorliegenden Erfindung. Eine oder mehrere Kameras 402 stellen Eingaben an ein Videoanalysesystem 404 bereit, das Bildinformationen in den Videoeingaben analysiert, um eine Objektbewegung innerhalb der Videobilder zu erkennen und nachzuverfolgen. Es ist klar, dass nicht mehr als eine Kamera 402 erforderlich ist, um die Ausführungsformen der vorliegenden Erfindung in die Praxis umzusetzen; die 3D-Modellierungsumgebungen können durch Kalibrieren von lediglich einer Kamera erzielt werden und erfordern nicht mehrere Kameras oder Daten aus anderen Sensoren wie Bereichs-, Bild- und/oder Objektverfolgungssensoren, wie es bei Systemen und Verfahren nach dem Stand der Technik für gewöhnlich notwendig ist. Ergebnisse 406 aus der Analytik, die eine mögliche Bewegung und Verfolgung eines Objekts von Interesse anzeigen, werden für eine Beurteilung 408 für eine Prüfung und letzte Ermittlung in Bezug darauf bereitgestellt, ob ein Gegenstand oder eine Bewegung von Interesse tatsächlich erkannt und verfolgt wurde, z.B. zur Darbietung an einen menschlichen Prüfer in einem Browser oder einer Fensteroberfläche oder Anzeige. Bei 410 werden 3D-Netzgittermodelle initialisiert und verwendet, um die verfolgten Objekte mit geeigneten 3D-Modellen aufzufüllen, z.B. mit einem 3D-Modell einer gehenden Person für eine auf einem Damm erkannte Objektperson oder einem Auto-3D-Modell für ein Fahrzeugobjekt, das sich entlang einer Straße bewegend erkannt wurde und eine Dimension größer als ein Fahrradobjekt und kleiner als ein LKW-Objekt aufweist, wie oben unter Bezugnahme auf die 1 bis 3 im Allgemeinen erörtert wurde. Somit erzeugt eine Echtzeit-3D-Projektion des Objekts aus dem Kamera-Feed in die 3D-Umgebung bei 412 eine AVE, die sowohl realistisch als auch immersiv ist, und zwar durch Verwenden der Bewegung des 2D-Objekts, um das volumengestützte 3D-Objektmodell zu betreiben, das mit der Struktur des darauf projizierten 2D-Objekts und innerhalb eines 3D-Kontexts wiedergegeben wird.
  • Das Erzielen einer immersiven und realistischen AVE unter Verwendung von 3D-Modellierung kann rechnerisch gesehen ein Problem darstellen, und Ausführungsformen der vorliegenden Erfindung können diverse Verfahren heranziehen, um ein Echtzeit-Feedback für AVE-Modelle bereitzustellen. Einige Ausführungsformen entkoppeln Komponenten des Verfahrens oder Systems von 1 in Offline- und Online-Prozesse. Beispielsweise können die lokalen linearen Modelle für das initialisierte 3D-Modell bei 108 in einer Offline-Stufe unter Verwendung von Lerndaten aus Bewegungserfassungseingaben gelernt werden, wodurch die Verarbeitungsleistung weiter gesteigert werden kann. Somit kann eine Objektmodellbibliothek während einer Offline-Phase bei 108 erstellt werden, die Beispiele für unterschiedliche plausible Dynamiken für das 3D-Modell speichert, und eine einfache Suche in der Bibliothek kann während der Laufzeit für ein passendes Dynamikmodell durchgeführt werden (z.B. ein generisches Fahrzeugmodell für ein verfolgtes Auto, ein generisches LKW-Modell für ein verfolgtes, als LKW bestimmtes ermitteltes Objekt usw.). Auf diese Weise werden hohe Rechenkosten in Zusammenhang mit dem Berechnen von sowohl der entsprechenden Dynamik als auch dem Betreiben des 3D-Modells gleichzeitig vermieden, da das Suchen der 3D-Modelldynamik bei 108 auf eine Bibliothekssuche verringert wird, wodurch lediglich die Strukturprojektion bei 110 und die Optimierung bei 112 übrigbleiben, um die entsprechende gewichtete Kombination der lokalen linearen Modelle zu ermitteln, die online bei 112 in Echtzeit zu berechnen ist. Die Optimierung bei 112 ist konvex und kann global aufgelöst und mithilfe einer Objektfunktion auf der Grundlage eines Verfahrens oder Systems zum Minimieren des Bildfehlers aufgrund einer erneuten Projektion schnell durchgeführt werden, wie für den Fachmann ersichtlich ist.
  • 3D-Netzgitter-Grundmodelle, die sich für eine Verwendung bei Ausführungsformen der vorliegenden Erfindung eignen, werden aus Lerndaten durch diverse Verfahren und Systeme gelernt und konstruiert. Modelle können datengesteuert sein: beispielsweise kann eine Analyse der Hauptkomponente (PCA, Principal Component Analysis) anhand der in 2D gesammelten Verfolgungsdaten berechnet werden, um datengesteuerte Modelle zu ermitteln.
  • Die Grundmodelle können auch aus Bewegungserfassungsdaten gelernt werden: bei einem Beispiel werden Grundmodelle aus Objekten für gehende Personen durch Sammeln vieler Beispiele für gehbezogene Bewegungserfassungsdaten mehrerer Individuen gelernt. Die Procrustes-Ausrichtung wird verwendet, um Übersetzungs-, Dreh- und Maßstabunterschiede zwischen den unterschiedlichen Beispielen für gehbezogene Daten zu entfernen. Danach werden Gehfaktoren durch eine PCA-Berechnung gewonnen, wobei eine erste Hauptkomponente das Mittel (den Durchschnitt) der Daten darstellt und zweite und darauffolgende Komponenten variierende Differenzierungsmodi für die gehbezogenen Daten darstellen.
  • Wie für den Fachmann ersichtlich, können netz- oder drahtgittergestützte 3D-Geometriemodelle mithilfe einer Drahtgitterumwandlung von Voxel-Modellen von Objekten erstellt werden. Segmentierte Lerndatenobjekte können verwendet werden, um strukturierte Voxel-3D-Modelle mithilfe von Rekonstruktionsverfahren und -systemen zu erstellen, z.B. anhand von Space-Carving- und Voxel-Färbungsansätzen. Abgebildete Oberflächen können als lokal planar behandelt werden, wodurch Rückprojektionen von Bildern auf hypothetischen planaren Patches ermöglicht werden. Drahtgitterumwandlungen können mit einem Marching-Cubes-Algorithmus beginnen, gefolgt von Neighborhood-Smoothing erster Ordnung und einer Flächenprimitivenverringerung, um ein Drahtgittermodell mit niedriger Auflösung zu erhalten.
  • Ausführungsformen der vorliegenden Erfindung stellen somit eine verbesserte virtuelle Umgebung (AVE) bereit, die ein 3D-Modell einer Umgebung aufnimmt und es um ein 3D-Verständnis für Objekte (Personen oder Fahrzeuge usw.) erweitert, die innerhalb der Umgebung enthalten sind. Ein Endbenutzer des Systems oder Verfahrens kann somit ein vollständiges 3D-Verständnis für die Umgebung erhalten, die durch 2D-Videodaten überwacht oder anderweitig dargestellt wird, wodurch es dem Benutzer möglich wird, die Video-Feeds innerhalb eines räumlich-zeitlichen Kontextes einer solchen Umgebung zu setzen. Ausführungsformen nutzen Computer-Vision-Technologien, um das 3D-Modell einer Umgebung um 3D-Wiedergaben von Personen und Fahrzeugen usw. innerhalb dieser Umgebung zu erweitern, die sowohl räumlich als auch zeitlich genau sind, die eine Verringerung der kognitiven Belastung für menschliche Beobachter ermöglichen können und gleichzeitig die Visualisierungsqualität der gesammelten Informationen verbessern.
  • Es wird nun auf 5 Bezug genommen, in der eine computergestützte Umsetzung einer Ausführungsform der vorliegenden Erfindung einen Computer oder eine andere programmierbare Einheit 522 in Datenübertragung mit einer oder mehreren Kameras oder anderen Bildgebungseinheiten 506 (z.B. Videokameras oder Videoserver usw.) enthält. Anweisungen 542 befinden sich innerhalb des computerlesbaren Codes in einem computerlesbaren Speicher 516 oder in einem computerlesbaren Speichersystem 532, einer anderen Einheit 506 oder einem anderen computerlesbaren Speichermedium, auf das bzw. die von einer Verarbeitungseinheit (CPU) 538 über eine Computernetzwerkinfrastruktur 562 zugegriffen werden kann. Somit veranlassen die Anweisungen, wenn sie von der Verarbeitungseinheit (CPU) 538 ausgeführt werden, die Verarbeitungseinheit (CPU) 538 dazu, innerhalb von 2D-Videodaten verfolgte Objekte durch 3D-Modellierung darzustellen, wie oben in Bezug auf die 1 bis 4 beschrieben wurde.
  • Der Computer 522 weist diverse Komponenten auf, wobei einige davon innerhalb des Computers 522 dargestellt sind. Die Verarbeitungseinheit 538 tauscht Datenübertragung mit einer/m oder mehreren externen E/A-Einheiten/-Ressourcen 524, Speichersystemen 532 oder anderen Einheiten 520 aus. Die Verarbeitungseinheit 538 kann eine einzige Verarbeitungseinheit aufweisen oder kann auf eine oder mehrere Verarbeitungseinheiten an einem oder mehreren Standorten, z.B. auf einem Client und einem Server, verteilt sein. Gleichermaßen können der Speicher 516 und/oder das Speichersystem 532 eine beliebige Kombination diverser Typen von Datenspeicher- und/oder Datenübertragungsmedien aufweisen, die sich an einem oder mehreren physischen Standorten befinden. Darüber hinaus können die E/A-Schnittstellen 524 ein beliebiges System für den Austausch von Daten mit einem oder mehreren externen Servern und/oder Clients (nicht gezeigt) aufweisen. Außerdem ist klar, dass eine oder mehrere weitere Komponenten (z.B. Systemsoftware, mathematische Ko-Verarbeitungseinheit usw.) (nicht gezeigt) im Computer 522 enthalten sein können.
  • 6 zeigt einen Gegenstand 601 (z.B. eine programmierbare Einheit, ein programmierbares System usw.) gemäß der vorliegenden Erfindung, die innerhalb von 2D-Videodaten verfolgte Objekte durch 3D-Modellierung darstellt, wie oben in Bezug auf die 1 bis 5 beschrieben wurde. Eine oder mehrere der Komponenten des Gegenstands 601 sind konkrete Einheiten, die spezifische Funktionen ausführen und beispielsweise die Verarbeitungseinheit 538, den computerlesbaren Speicher 506 und das computerlesbare Speichermedium 532 wie oben beschrieben aufweisen. Somit erkennt und verfolgt ein Object Detector / Tracker 602 wie unter Bezugnahme auf die 1 bis 5 und das zugehörige oben Beschreibungsmaterial dargestellt eine Bewegung eines Objekts innerhalb eines Umgebungssichtfelds eines 2D-Daten-Feed einer kalibrierten Videokamera, wobei die Kamera so kalibriert ist, dass sie innerhalb eines Kontextes einer räumlichen Höhe, Ausrichtung und Position eines 3D-Modells der Umgebung des Kamerasichtfelds platziert wird. Eine Zentroid-Lokalisierungsfunktion 604 lokalisiert ein Zentroid des verfolgten Objekts und ermittelt eine Schnittstelle mit einer Grundebene innerhalb des Umgebungssichtfelds. Ein 3D-Modellierungsprogramm 606 wählt ein geeignetes Modell aus einer 3D-Netzgitter-Modell-Bibliothek 608 aus, initialisiert das ausgewählte Modell innerhalb des räumlichen Kontextes des 3D-Modells durch Verwenden von Rückprojektion, projiziert eine Struktur des 2D-Objekts auf das 3D-Modell und ermittelt eine geeignete gewichtete Kombination der lokalen linearen Modelle, um das 3D-Modell in dynamischem netzgittergestütztem 3D zu betreiben, und minimiert Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung weiter.
  • Ausführungsformen der vorliegenden Erfindung können darüber hinaus Verfahrensschritte der Erfindung auf einer Abonnement-, Werbe- und/oder Gebühren-Grundlage durchführen. Das heißt, dass ein Diensteanbieter die Verwendung einzelner Matrizen einer Anordnung der gleichen Bildsensoren anbieten könnte, um eine Vielzahl unterschiedlicher Bilder in unterschiedlichen Blendenzahlen aus einer gemeinsamen Exposition zu erhalten, wie oben in Bezug auf die 1 bis 6 beschrieben. Somit kann der Diensteanbieter eine Computerinfrastruktur wie ein Netzwerkcomputersystem 522, eine Netzwerkumgebung 526 und/oder den Gegenstand 601 (oder Teile davon), die die Verfahrensschritte der Erfindung ausführen, für einen oder mehrere Kunden erstellen, warten und unterstützen usw. Als Gegenleistung kann der Diensteanbieter eine Bezahlung von dem/den Kunden unter einem Abonnement- und/oder Gebührenvertrag erhalten, und/oder der Diensteanbieter kann eine Bezahlung aus dem Verkauf von Werbeinhalten an einen oder mehrere Dritte erhalten. Dienste können eines oder mehrere des Folgenden aufweisen: (1) Installieren eines Programmcodes auf einer Datenverarbeitungseinheit wie den Computern/Einheiten 522/601 aus einer computerlesbaren Speichereinheit 516, 520 oder 506; (2) Hinzufügen einer oder mehrerer Datenverarbeitungseinheiten zu einer Computerinfrastruktur; und (3) Integrieren und/oder Modifizieren einer oder mehrerer bestehender Systeme der Computerinfrastruktur, damit die Computerinfrastruktur die Verfahrensschritte der Erfindung durchführen kann.
  • Die hier verwendete Terminologie dient lediglich zum Beschreiben bestimmter Ausführungsformen und soll die Erfindung nicht einschränken. Wie hier verwendet, sollen die Singularformen von Artikeln wie „ein“ und „der“ auch die Pluralformen mit einschließen, außer wenn der Kontext es eindeutig anders vorgibt. Es sei ferner verstanden, dass die Ausdrücke „aufweisen“ und/oder „aufweisend“, wie in dieser Schrift verwendet, das Vorhandensein von angegebenen Merkmalen, ganzen Zahlen, Schritten, Operationen, Elementen und/oder Komponenten festlegen, das Vorhandensein oder das Hinzufügen von einem/r oder mehreren anderen Merkmalen, ganzen Zahlen, Schritten, Operationen, Elementen, Komponenten und/oder Gruppen davon jedoch nicht ausschließen. Gewisse Beispiele und Elemente, die in der vorliegenden Schrift beschrieben sind, einschließlich der Ansprüche und der Figuren, können durch eindeutige Adjektive voneinander unterschieden oder anderweitig identifiziert werden (z.B. ein „erstes“ Element wird von einem weiteren „zweiten“ oder „dritten“ einer Vielzahl von Elementen unterschieden, ein „primäres“ von einem „sekundären“ oder „weiteren“ Element unterschieden usw.). Solche identifizierenden Adjektive werden im Allgemeinen verwendet, um Verwirrung oder Ungewissheit zu verringern und sind nicht dahingehend auszulegen, dass sie die Ansprüche in Bezug auf ein spezifisches dargestelltes Element oder eine spezifische dargestellte Ausführungsform einschränken oder einen Vorrang, eine Reihenfolge oder eine Reihung von Anspruchselementen, Einschränkungen oder Verfahrensschritt implizieren.
  • Die entsprechenden Strukturen, Materialien, Aktionen und sämtliche Mittel oder Schritt-plus-Funktion-Elemente in den folgenden Ansprüchen sollen jedwede Struktur, jedwedes Material oder jedwede Aktion für das Durchführen der Funktion in Kombination mit anderen beanspruchten Elementen wie spezifisch beansprucht beinhalten. Die Beschreibung der vorliegenden Erfindung wird zum Zwecke der Veranschaulichung und Beschreibung vorgelegt, soll jedoch nicht als ausschöpfend oder die Erfindung in der offenbarten Form einschränkend verstanden werden. Für den Fachmann sind viele Änderungen und Variationen ersichtlich, ohne sich vom Umfang und Geist der Erfindung zu entfernen. Die Ausführungsform wurde gewählt und beschrieben, um die Grundgedanken der Erfindung und die praktische Anwendung bestmöglich zu erläutern und um anderen Fachleuten zu ermöglichen, die Erfindung in verschiedenen Ausführungsformen mit verschiedenen Änderungen, wie sie sich für die bestimmte angedachte Verwendung eignen, zu verstehen.

Claims (23)

  1. Verfahren zum Darstellen von innerhalb von 2D-Videodaten verfolgten Objekten durch 3D-Modelle, wobei das Verfahren aufweist: Erkennen und Verfolgen einer Bewegung eines Objekts innerhalb eines Umgebungssichtfelds einer 2D-Dateneinspeisung (Feed) einer kalibrierten Videokamera, wobei die Kamera so kalibriert ist, dass sie innerhalb eines Kontextes einer räumlichen Höhe, Ausrichtung und Position eines 3D-Modells der Umgebung des Kamerasichtfelds platziert wird; Lokalisieren eines Zentroids des verfolgten Objekts; Ermitteln einer Schnittstelle des Zentroids mit einer Grundebene innerhalb des Umgebungssichtfelds; initialisieren eines gittergestützten 3D-Volumenmodells, das sich für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells der Umgebung eignet, durch Verwenden einer Rückprojektion eines entsprechenden 2D-Bildes des verfolgten Objekts als Funktion des Zentroids und der ermittelten Schnittstelle mit der Grundebene; Darstellen einer nichtlinearen Dynamik eines verfolgten Bewegungspfades des Objekts in den 2D-Bilddaten als Sammlung unterschiedlicher lokaler linearer Modelle; Projizieren einer Struktur des 2D-Objekts auf das 3D-Modell; und Erweitern der 2D-Verfolgungen des Objekts um 3D-Bewegungen, um das 3D-Modell in dynamischem netzgittergestützten 3D zu betreiben, durch Lernen einer gewichteten Kombination der unterschiedlichen lokalen linearen Modelle, die einen Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung minimiert.
  2. Verfahren nach Anspruch 1, das ferner aufweist: Optimieren einer Gesamtanzahl der unterschiedlichen lokalen linearen Modelle unter Verwendung eines Kreuzvalidierungssystems.
  3. Verfahren nach Anspruch 2, das ferner aufweist: Auflösen von Vermischungskoeffizienten für jedes der unterschiedlichen lokalen linearen Modelle unter Verwendung eines Ansatzes der kleinsten Quadrate; und Aktualisieren einer Position des 3D-Modells als Funktion der Zeit und der aufgelösten Vermischungskoeffizienten.
  4. Verfahren nach Anspruch 3, das ferner aufweist: Lernen der unterschiedlichen lokalen linearen Modelle für das initialisierte 3D-Modell in einer Offline-Stufe unter Verwendung von Lerndaten aus Bewegungserfassungseingaben; Erstellen einer Bibliothek einer Vielzahl von 3D-Objektmodellen aus den gelernten lokalen linearen Modellen für das initialisierte 3D-Modell, wobei jedes der Vielzahl der 3D-Objektmodelle ein unterschiedliches Beispiel für eine plausible 3D-Modelldynamik bereitstellt; und wobei der Schritt des Initialisierens des netzgittergestützten 3D-Volumenmodells für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells ein Durchführen einer Suche in der erstellten Bibliothek nach einem passenden Dynamikmodell für das verfolgte 2D-Objekt aufweist.
  5. Verfahren nach Anspruch 4, wobei der Schritt des Initialisierens des netzgittergestützten 3D-Volumenmodells für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells darüber hinaus aufweist: Erkennen eines Objekttyps oder -verhaltens des erkannten verfolgten 2D-Objekts; und Auswählen des 3D-Modells aus der Vielzahl von 3D-Objektmodellen in der Bibliothek als eine Dynamik aufweisend, die dem erkannten Objekttyp oder -verhalten entspricht.
  6. Verfahren nach-Anspruch 4, wobei das Lernen der lokalen linearen Modelle für das initialisierte 3D-Modell in der Offline-Stufe unter Verwendung von Lerndaten aus Bilderfassungseingaben aufweist: Sammeln einer Vielzahl von unterschiedlichen gelernten Beispielen ähnlicher Objektbewegungen; Entfernen von Übersetzungs-, Dreh- und Maßstabunterschieden zwischen den unterschiedlichen gelernten Beispielen ähnlicher Objektbewegungen; und Gewinnen von Objektbewegungsfaktoren durch eine Analyse der Hauptkomponente, wobei eine erste Hauptkomponente ein Datenmittel darstellt und zweite oder darauffolgende Komponenten variierende Differenzierungsmodi für Objektbewegungsdaten darstellen.
  7. Verfahren nach Anspruch 6, wobei es sich bei dem Schritt des Entfernens von Übersetzungs-, Dreh- und Maßstabunterschieden zwischen den unterschiedlichen gelernten Beispielen unterschiedlicher Objektbewegungen um eine Procrustes-Ausrichtung handelt.
  8. System, das aufweist: eine Verarbeitungseinheit, einen computerlesbaren Speicher und ein computerlesbares Speichermedium; erste Programmanweisungen, um ein Zentroid eines sich bewegenden Objekts zu lokalisieren, das innerhalb eines Umgebungssichtfelds einer 2D-Dateneinspeisung (Feed) einer kalibrierten Videokamera erkannt und verfolgt wurde, und um eine Schnittstelle des Zentroids mit einer Grundebene innerhalb des Umgebungssichtfelds zu ermitteln, wobei die Kamera so kalibriert ist, dass sie innerhalb eines Kontextes einer räumlichen Höhe, Ausrichtung und Position eines 3D-Modells der Umgebung des Kamerasichtfelds platziert wird; zweite Programmanweisungen zum Initialisieren eines gittergestützten 3D-Volumenmodells, das sich für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells der Umgebung eignet, durch Verwenden einer Rückprojektion eines entsprechenden 2D Bildes des verfolgten Objekts als Funktion des Zentroids und der ermittelten Schnittstelle mit der Grundebene; dritte Programmanweisungen, um eine nichtlineare Dynamik eines verfolgten Bewegungspfades des Objekts in den 2D-Bilddaten als Sammlung unterschiedlicher lokaler linearer Modelle darzustellen, um eine Struktur des 2D-Objekts auf das 3D-Modell zu projizieren und 2D-Verfolgungen des Objekts um 3D-Bewegungen zu erweitern, um das 3D-Modell in dynamischem netzgittergestützten 3D zu betreiben, durch Lernen einer gewichteten Kombination der unterschiedlichen lokalen linearen Modelle, die einen Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung minimiert; und wobei die ersten, zweiten und dritten Programmanweisungen auf dem computerlesbaren Speichermedium zur Ausführung durch die Verarbeitungseinheit über den computerlesbaren Speicher gespeichert sind.
  9. System nach Anspruch 8, wobei die dritten Programmanweisungen ferner vorgesehen sind, um eine Gesamtanzahl der unterschiedlichen lokalen linearen Modelle unter Verwendung eines Kreuzvalidierungssystems zu optimieren.
  10. System nach Anspruch 9, wobei die dritten Programmanweisungen ferner vorgesehen sind, um: Vermischungskoeffizienten für jedes der unterschiedlichen lokalen linearen Modelle unter Verwendung eines Ansatzes der kleinsten Quadrate aufzulösen; und eine Position des 3D-Modells der Umgebung des Kamerasichtfelds als Funktion der Zeit und der aufgelösten Vermischungskoeffizienten auf 3D zu aktualisieren.
  11. System nach Anspruch 10, das ferner vierte Programmanweisungen aufweist, die auf dem computerlesbaren Speichermedium zur Ausführung durch die Verarbeitungseinheit über den computerlesbaren Speicher gespeichert sind, um: die unterschiedlichen lokalen linearen Modelle für das initialisierte 3D-Modell unter Verwendung von Lerndaten aus Bewegungserfassungseingaben in einer Offline-Stufe aus einer Online-Stufe zu lernen, die zur Ausführung der ersten, zweiten und dritten Anweisungen verwendet werden; eine Bibliothek einer Vielzahl von 3D-Objektmodellen aus den gelernten lokalen linearen Modellen für das initialisierte 3D-Modell zu erstellen, wobei jedes der Vielzahl der 3D-Objektmodelle ein unterschiedliches Beispiel für eine plausible 3D-Modelldynamik bereitstellt; und wobei die zweiten Programmanweisungen ferner vorgesehen sind, um das netzgittergestützte 3D-Volumenmodell für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells mittels Durchführen einer Suche in der erstellten Bibliothek nach einem passenden Dynamikmodell für das verfolgte 2D-Objekt zu initialisieren.
  12. System nach Anspruch 11, wobei die zweiten Programmanweisungen ferner vorgesehen sind, um das netzgittergestützte 3D-Volumenmodell für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells zu initialisieren durch: Erkennen eines Objekttyps oder -verhaltens des erkannten verfolgten 2D-Objekts; und Auswählen des 3D-Modells aus der Vielzahl von 3D-Objektmodellen in der Bibliothek als eine Dynamik aufweisend, die dem erkannten Objekttyp oder -verhalten entspricht.
  13. System nach Anspruch 11, wobei die vierten Programmanweisungen ferner vorgesehen sind, um die lokalen linearen Modelle für das initialisierte 3D-Modell in der Offline-Stufe unter Verwendung von Lerndaten aus Bewegungserfassungseingaben zu lernen durch: Sammeln einer Vielzahl von unterschiedlichen gelernten Beispielen ähnlicher Objektbewegungen; Entfernen von Übersetzungs-, Dreh- und Maßstabunterschieden zwischen den unterschiedlichen gelernten Beispielen ähnlicher Objektbewegungen im Rahmen einer Procrustes-Ausrichtung; und Gewinnen von Objektbewegungsfaktoren durch eine Analyse der Hauptkomponente, wobei eine erste Hauptkomponente ein Datenmittel darstellt und zweite oder darauffolgende Komponenten variierende Differenzierungsmodi für Objektbewegungsdaten darstellen.
  14. Herstellungsgegenstand, der aufweist: ein computerlesbares Speichermedium mit einem darauf gespeicherten computerlesbaren Programmcode, wobei der computerlesbare Programmcode Anweisungen aufweist, die bei Ausführung durch einen Computerprozessor den Computerprozessor verlassen zum: Lokalisieren eines Zentroids eines sich bewegenden Objekts, das innerhalb eines Umgebungssichtfelds einer 2D-Dateneinspeisung (Feed) einer kalibrierten Videokamera erkannt und verfolgt wurde, wobei die Kamera so kalibriert ist, dass sie innerhalb eines Kontextes einer räumlichen Höhe, Ausrichtung und Position eines 3D-Modells der Umgebung des Kamerasichtfelds platziert wird; Ermitteln einer Schnittstelle des Zentroids mit einer Grundebene innerhalb des Umgebungssichtfelds; Initialisieren eines gittergestützten 3D-Volumenmodells, das sich für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells der Umgebung eignet, durch Verwenden einer Rückprojektion eines entsprechenden 2D-Bildes des verfolgten Objekts als Funktion des Zentroids und der ermittelten Schnittstelle mit der Grundebene; Darstellen einer nichtlinearen Dynamik eines verfolgten Bewegungspfads des Objekts in den 2D-Bilddaten als Sammlung unterschiedlicher lokaler linearer Modelle, deren Gesamtanzahl unter Verwendung eines Kreuzvalidierungssystems optimiert wird; Projizieren einer Struktur des 2D-Objekts auf das 3D-Modell; und Erweitern der 2D-Verfolgungen des Objekts um 3D-Bewegungen, um das 3D-Modell in dynamischem netzgittergestütztem 3D zu betreiben, durch Lernen einer gewichteten Kombination der unterschiedlichen lokalen linearen Modelle, die einen Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung minimiert.
  15. Herstellungsgegenstand nach Anspruch 14, wobei die Anweisungen bei Ausführung durch den Computerprozessor den Computerprozessor veranlassen zum: Auflösen von Vermischungskoeffizienten für jedes der unterschiedlichen lokalen linearen Modelle unter Verwendung eines Ansatzes der kleinsten Quadrate; und Aktualisieren einer Position des 3D-Modells der Umgebung des Kamerasichtfelds als Funktion der Zeit und der aufgelösten Vermischungskoeffizienten auf 3D.
  16. Herstellungsgegenstand nach Anspruch 15, wobei die Anweisungen bei Ausführung durch den Computerprozessor den Computerprozessor ferner veranlassen zum: Lernen der unterschiedlichen lokalen linearen Modelle für das initialisierte 3D-Modell unter Verwendung von Lerndaten aus Bewegungserfassungseingaben in einer Offline-Stufe; Erstellen einer Bibliothek einer Vielzahl von 3D-Objektmodellen aus den gelernten lokalen linearen Modellen für das initialisierte 3D-Modell, wobei jedes der Vielzahl der 3D-Objektmodelle ein unterschiedliches Beispiel für eine plausible 3D-Modelldynamik bereitstellt; und Initialisieren des netzgittergestützten 3D Volumennmodells für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells mittels Durchführen einer Suche in der erstellten Bibliothek nach einem passenden Dynamikmodell für das verfolgte 2D-Objekt.
  17. Herstellungsgegenstand nach Anspruch 16, wobei die Anweisungen bei Ausführung durch den Computerprozessor den Computerprozessor ferner veranlassen zum: Initialisieren des netzgittergestützten 3D-Volumenmodells für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells durch Erkennen eines Objekttyps oder -verhaltens des erkannten verfolgten 2D-Objekts und Auswählen des 3D-Modells aus der Vielzahl von 3D-Objektmodellen in der Bibliothek als eine Dynamik aufweisend, die dem erkannten Objekttyp oder -verhalten entspricht.
  18. Herstellungsgegenstand nach Anspruch 16, wobei die Anweisungen bei Ausführung durch den Computerprozessor den Computerprozessor ferner veranlassen, die lokalen linearen Modelle für das initialisierte 3D-Modell in der Offline-Stufe unter Verwendung von Lerndaten aus Bewegungserfassungseingaben zu lernen durch: Sammeln einer Vielzahl von unterschiedlichen gelernten Beispielen ähnlicher Objektbewegungen; Entfernen von Übersetzungs-, Dreh- und Maßstabunterschieden zwischen den unterschiedlichen gelernten Beispielen ähnlicher Objektbewegungen im Rahmen einer Procrustes-Ausrichtung; und Gewinnen von Objektbewegungsfaktoren durch eine Analyse der Hauptkomponente, wobei eine erste Hauptkomponente ein Datenmittel darstellt und zweite oder darauffolgende Komponenten variierende Differenzierungsmodi für Objektbewegungsdaten darstellen.
  19. Verfahren zum Bereitstellen eines Dienstes zum Darstellen von innerhalb von 2D-Videodaten verfolgten Objekten durch 3D-Modelle, wobei das Verfahren das Bereitstellen aufweist von: einer ersten Zentroid-Lokalisierungsfunktion, die ein Zentroid eines sich bewegenden Objekts lokalisiert, das innerhalb eines Umgebungssichtfelds einer 2D-Dateneinspeisung (Feed) einer kalibrierten Videokamera erkannt und verfolgt wurde, und ferner eine Schnittstelle des Zentroids mit einer Grundebene innerhalb des Umgebungssichtfelds ermittelt, wobei die Kamera so kalibriert ist, dass sie innerhalb eines Kontextes einer räumlichen Höhe, Ausrichtung und Position eines 3D-Modells der Umgebung des Kamerasichtfelds platziert wird; und einem 3D-Modellierungsprogramm, das ein gittergestütztes 3D-Volumenmodell initialisiert, das sich für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells der Umgebung eignet, durch Verwenden einer Rückprojektion eines entsprechenden 2D-Bildes des verfolgten Objekts als Funktion des Zentroids und der ermittelten Schnittstelle mit der Grundebene; eine nichtlineare Dynamik eines verfolgten Bewegungspfads des Objekts in den 2D-Bilddaten als Sammlung unterschiedlicher lokaler linearer Modelle darstellt, deren Gesamtanzahl unter Verwendung eines Kreuzvalidierungssystems optimiert wird; eine Struktur des 2D-Objekts auf das 3D-Modell projiziert und 2D-Verfolgungen des Objekts um 3D-Bewegungen erweitert, um das 3D-Modell in dynamischem netzgittergestützten 3D zu betreiben, durch Lernen einer gewichteten Kombination der unterschiedlichen lokalen linearen Modelle, die einen Bildfehler aufgrund einer erneuten Projektion in Bezug auf eine Modellbewegung minimiert.
  20. Verfahren nach Anspruch 19, wobei das 3D-Modellierungsprogramm ferner: Vermischungskoeffizienten für jedes der unterschiedlichen lokalen linearen Modelle unter Verwendung eines Ansatzes der kleinsten Quadrate auflöst; und eine Position des 3D Modells der Umgebung des Kamerasichtfelds als Funktion der Zeit und der aufgelösten Vermischungskoeffizienten auf 3D aktualisiert.
  21. Verfahren nach Anspruch 20, wobei das 3D-Modellierungsprogramm ferner: die unterschiedlichen lokalen linearen Modelle für das initialisierte 3D-Modell unter Verwendung von Lerndaten aus Bewegungserfassungseingaben in einer Offline-Stufe lernt; eine 3D-Netzgitter-Modell-Bibliothek einer Vielzahl von 3D-Objektmodellen aus den unterschiedlichen gelernten lokalen linearen Modellen für das initialisierte 3D-Modell erstellt, wobei jedes der Vielzahl der 3D-Objektmodelle ein unterschiedliches Beispiel für eine plausible 3D-Modelldynamik bereitstellt; und das netzgittergestützte 3D-Volumenmodell für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells ein Durchführen einer Suche in der erstellten 3D-Netzgitter-Modell-Bibliothek nach einem passenden Dynamikmodell für das verfolgte 2D-Objekt initialisiert.
  22. Verfahren nach Anspruch 21, wobei das 3D-Modellierungsprogramm ferner das netzgittergestützte 3D-Volumenmodell für das verfolgte Objekt innerhalb des räumlichen Kontextes des 3D-Modells durch Erkennen eines Objekttyps oder -verhaltens des erkannten verfolgten 2D-Objekts initialisiert und das 3D-Modell aus der Vielzahl von 3D-Objektmodellen in der Bibliothek des 3D-Modellierungsprogramms als eine Dynamik aufweisend auswählt, die dem erkannten Objekttyp oder -verhalten entspricht.
  23. Verfahren nach Anspruch 21, wobei das 3D-Modellierungsprogramm die lokalen linearen Modelle für das initialisierte 3D-Modell in der Offline-Stufe unter Verwendung von Lerndaten aus Bilderfassungseingaben lernt durch: Sammeln einer Vielzahl von unterschiedlichen gelernten Beispielen ähnlicher Objektbewegungen; Entfernen von Übersetzungs-, Dreh- und Maßstabunterschieden zwischen den unterschiedlichen gelernten Beispielen ähnlicher Objektbewegungen im Rahmen einer Procrustes-Ausrichtung; und Gewinnen von Objektbewegungsfaktoren durch eine Analyse der Hauptkomponente, wobei eine erste Hauptkomponente ein Datenmittel darstellt und zweite oder darauffolgende Komponenten variierende Differenzierungsmodi für Objektbewegungsdaten darstellen.
DE112012001984.9T 2011-05-05 2012-05-02 Integrieren von Video-Metadaten in 3D-Modelle Active DE112012001984B4 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US13/101,401 US8457355B2 (en) 2011-05-05 2011-05-05 Incorporating video meta-data in 3D models
USUS-13/101,401 2011-05-05
US13/101,401 2011-05-05
PCT/CA2012/050288 WO2012149655A1 (en) 2011-05-05 2012-05-02 Incorporating video meta-data in 3d models

Publications (2)

Publication Number Publication Date
DE112012001984T5 DE112012001984T5 (de) 2014-02-20
DE112012001984B4 true DE112012001984B4 (de) 2018-11-29

Family

ID=47090264

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112012001984.9T Active DE112012001984B4 (de) 2011-05-05 2012-05-02 Integrieren von Video-Metadaten in 3D-Modelle

Country Status (5)

Country Link
US (4) US8457355B2 (de)
CN (1) CN103503468B (de)
DE (1) DE112012001984B4 (de)
GB (1) GB2503621B (de)
WO (1) WO2012149655A1 (de)

Families Citing this family (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3117768B1 (de) 2006-05-19 2019-11-06 The Queen's Medical Center Bewegungsverfolgungssystem und -verfahren für adaptive echtzeitabbildung und -spektroskopie
US9305401B1 (en) * 2007-06-06 2016-04-05 Cognitech, Inc. Real-time 3-D video-security
US9224240B2 (en) * 2010-11-23 2015-12-29 Siemens Medical Solutions Usa, Inc. Depth-based information layering in medical diagnostic ultrasound
US8457355B2 (en) * 2011-05-05 2013-06-04 International Business Machines Corporation Incorporating video meta-data in 3D models
EP2747641A4 (de) 2011-08-26 2015-04-01 Kineticor Inc Verfahren, systeme und vorrichtungen zur scan-internen bewegungskorrektur
US9070019B2 (en) 2012-01-17 2015-06-30 Leap Motion, Inc. Systems and methods for capturing motion in three-dimensional space
US9679215B2 (en) 2012-01-17 2017-06-13 Leap Motion, Inc. Systems and methods for machine control
US8693731B2 (en) 2012-01-17 2014-04-08 Leap Motion, Inc. Enhanced contrast for object detection and characterization by optical imaging
US8638989B2 (en) 2012-01-17 2014-01-28 Leap Motion, Inc. Systems and methods for capturing motion in three-dimensional space
US9501152B2 (en) 2013-01-15 2016-11-22 Leap Motion, Inc. Free-space user interface and control using virtual constructs
US11493998B2 (en) 2012-01-17 2022-11-08 Ultrahaptics IP Two Limited Systems and methods for machine control
US10691219B2 (en) 2012-01-17 2020-06-23 Ultrahaptics IP Two Limited Systems and methods for machine control
US9317971B2 (en) * 2012-06-29 2016-04-19 Microsoft Technology Licensing, Llc Mechanism to give holographic objects saliency in multiple spaces
US9460200B2 (en) 2012-07-02 2016-10-04 International Business Machines Corporation Activity recommendation based on a context-based electronic files search
US9262499B2 (en) 2012-08-08 2016-02-16 International Business Machines Corporation Context-based graphical database
US8620958B1 (en) 2012-09-11 2013-12-31 International Business Machines Corporation Dimensionally constrained synthetic context objects database
US9619580B2 (en) 2012-09-11 2017-04-11 International Business Machines Corporation Generation of synthetic context objects
US9251237B2 (en) 2012-09-11 2016-02-02 International Business Machines Corporation User-specific synthetic context object matching
US9223846B2 (en) 2012-09-18 2015-12-29 International Business Machines Corporation Context-based navigation through a database
US9094670B1 (en) * 2012-09-25 2015-07-28 Amazon Technologies, Inc. Model generation and database
US9741138B2 (en) 2012-10-10 2017-08-22 International Business Machines Corporation Node cluster relationships in a graph database
US8931109B2 (en) 2012-11-19 2015-01-06 International Business Machines Corporation Context-based security screening for accessing data
US8983981B2 (en) 2013-01-02 2015-03-17 International Business Machines Corporation Conformed dimensional and context-based data gravity wells
US9229932B2 (en) 2013-01-02 2016-01-05 International Business Machines Corporation Conformed dimensional data gravity wells
US9459697B2 (en) 2013-01-15 2016-10-04 Leap Motion, Inc. Dynamic, free-space user interactions for machine control
US10327708B2 (en) 2013-01-24 2019-06-25 Kineticor, Inc. Systems, devices, and methods for tracking and compensating for patient motion during a medical imaging scan
US9717461B2 (en) 2013-01-24 2017-08-01 Kineticor, Inc. Systems, devices, and methods for tracking and compensating for patient motion during a medical imaging scan
US9305365B2 (en) 2013-01-24 2016-04-05 Kineticor, Inc. Systems, devices, and methods for tracking moving targets
CN103099623B (zh) * 2013-01-25 2014-11-05 中国科学院自动化研究所 一种人体运动学参数的提取方法
US9053102B2 (en) 2013-01-31 2015-06-09 International Business Machines Corporation Generation of synthetic context frameworks for dimensionally constrained hierarchical synthetic context-based objects
US9069752B2 (en) 2013-01-31 2015-06-30 International Business Machines Corporation Measuring and displaying facets in context-based conformed dimensional data gravity wells
US9782141B2 (en) 2013-02-01 2017-10-10 Kineticor, Inc. Motion tracking system for real time adaptive motion compensation in biomedical imaging
US9292506B2 (en) 2013-02-28 2016-03-22 International Business Machines Corporation Dynamic generation of demonstrative aids for a meeting
WO2014200589A2 (en) 2013-03-15 2014-12-18 Leap Motion, Inc. Determining positional information for an object in space
US9305391B2 (en) * 2013-03-15 2016-04-05 3D Systems, Inc. Apparatus and methods for detailing subdivision surfaces
US10152526B2 (en) 2013-04-11 2018-12-11 International Business Machines Corporation Generation of synthetic context objects using bounded context objects
US9916009B2 (en) 2013-04-26 2018-03-13 Leap Motion, Inc. Non-tactile interface systems and methods
US9195608B2 (en) 2013-05-17 2015-11-24 International Business Machines Corporation Stored data analysis
US9348794B2 (en) 2013-05-17 2016-05-24 International Business Machines Corporation Population of context-based data gravity wells
WO2015006790A1 (en) * 2013-07-18 2015-01-22 A.Tron3D Gmbh Method of capturing three-dimensional (3d) information on a structure
US10281987B1 (en) 2013-08-09 2019-05-07 Leap Motion, Inc. Systems and methods of free-space gestural interaction
US9721383B1 (en) 2013-08-29 2017-08-01 Leap Motion, Inc. Predictive information for free space gesture control and communication
US9632572B2 (en) 2013-10-03 2017-04-25 Leap Motion, Inc. Enhanced field of view to augment three-dimensional (3D) sensory space for free-space gesture interpretation
US8818081B1 (en) 2013-10-16 2014-08-26 Google Inc. 3D model updates using crowdsourced video
US9996638B1 (en) 2013-10-31 2018-06-12 Leap Motion, Inc. Predictive information for free space gesture control and communication
JP6324025B2 (ja) * 2013-11-05 2018-05-16 キヤノン株式会社 情報処理装置、情報処理方法
US9659403B1 (en) * 2014-01-06 2017-05-23 Leap Motion, Inc. Initializing orientation in space for predictive information for free space gesture control and communication
US10004462B2 (en) 2014-03-24 2018-06-26 Kineticor, Inc. Systems, methods, and devices for removing prospective motion correction from medical imaging scans
WO2016014718A1 (en) 2014-07-23 2016-01-28 Kineticor, Inc. Systems, devices, and methods for tracking and compensating for patient motion during a medical imaging scan
DE202014103729U1 (de) 2014-08-08 2014-09-09 Leap Motion, Inc. Augmented-Reality mit Bewegungserfassung
CN104301735B (zh) * 2014-10-31 2017-09-29 武汉大学 城市交通监控视频全局编码方法及系统
US20160342861A1 (en) * 2015-05-21 2016-11-24 Mitsubishi Electric Research Laboratories, Inc. Method for Training Classifiers to Detect Objects Represented in Images of Target Environments
EP3098735A1 (de) * 2015-05-28 2016-11-30 Dassault Systèmes Abfrage einer datenbank mit dickenkriterium
JP6820527B2 (ja) * 2015-06-25 2021-01-27 パナソニックIpマネジメント株式会社 映像同期装置及び映像同期方法
US9943247B2 (en) 2015-07-28 2018-04-17 The University Of Hawai'i Systems, devices, and methods for detecting false movements for motion correction during a medical imaging scan
WO2017040905A1 (en) * 2015-09-03 2017-03-09 Stc.Unm Accelerated precomputation of reduced deformable models
CN108697367A (zh) 2015-11-23 2018-10-23 凯内蒂科尓股份有限公司 用于在医学成像扫描期间跟踪并补偿患者运动的系统、装置和方法
WO2017123387A1 (en) * 2016-01-13 2017-07-20 Jingyi Yu Three-dimensional acquisition and rendering
US10049462B2 (en) * 2016-03-23 2018-08-14 Akcelita, LLC System and method for tracking and annotating multiple objects in a 3D model
US10360445B2 (en) * 2016-03-23 2019-07-23 Akcelita, LLC System and method for tracking persons using a volumetric representation
US10614578B2 (en) * 2016-03-23 2020-04-07 Akcelita, LLC System and method for tracking people, animals and objects using a volumetric representation and artificial intelligence
CN107292963B (zh) 2016-04-12 2020-01-17 杭州海康威视数字技术股份有限公司 一种三维模型的调整方法及装置
CN105976426B (zh) * 2016-04-27 2019-03-05 中国电子科技集团公司第二十八研究所 一种快速的三维地物模型构建方法
PL3497550T3 (pl) * 2016-08-12 2023-07-24 Packsize, Llc Systemy i sposoby automatycznego generowania metadanych dla dokumentów multimedialnych
US10290119B2 (en) * 2016-09-15 2019-05-14 Sportsmedia Technology Corporation Multi view camera registration
JP2018050119A (ja) * 2016-09-20 2018-03-29 国立大学法人 東京大学 作業車両の表示システム
EP3340084A1 (de) 2016-12-22 2018-06-27 Dassault Systèmes Replikaauswahl
US10586379B2 (en) 2017-03-08 2020-03-10 Ebay Inc. Integration of 3D models
US10841486B2 (en) * 2017-07-20 2020-11-17 Eclo, Inc. Augmented reality for three-dimensional model reconstruction
US20190057180A1 (en) * 2017-08-18 2019-02-21 International Business Machines Corporation System and method for design optimization using augmented reality
CN110019580B (zh) * 2017-08-25 2022-07-12 腾讯科技(深圳)有限公司 地图显示方法、装置、存储介质及终端
CN108537877A (zh) * 2018-03-07 2018-09-14 北京中科紫宸睿达科技有限公司 基于三维模型的可视化监测界面定制生成方法及装置
US11727656B2 (en) 2018-06-12 2023-08-15 Ebay Inc. Reconstruction of 3D model with immersive experience
US10747224B2 (en) 2018-06-19 2020-08-18 Toyota Research Institute, Inc. Debugging an autonomous driving machine learning model
JP6782283B2 (ja) * 2018-07-03 2020-11-11 矢崎総業株式会社 監視システム
US11367192B2 (en) * 2019-03-08 2022-06-21 Align Technology, Inc. Foreign object filtering for intraoral scanning
CN112243082B (zh) * 2019-07-17 2022-09-06 百度时代网络技术(北京)有限公司 一种跟踪拍摄方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7257237B1 (en) 2003-03-07 2007-08-14 Sandia Corporation Real time markerless motion tracking using linked kinematic chains
US7583275B2 (en) 2002-10-15 2009-09-01 University Of Southern California Modeling and video projection for augmented virtual environments
US20110058709A1 (en) 2009-01-30 2011-03-10 Microsoft Corporation Visual target tracking using model fitting and exemplar

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2911707B1 (fr) * 2007-01-22 2009-07-10 Total Immersion Sa Procede et dispositifs de realite augmentee utilisant un suivi automatique, en temps reel, d'objets geometriques planaires textures, sans marqueur, dans un flux video.
CA2717485A1 (en) * 2007-03-02 2008-09-12 Organic Motion System and method for tracking three dimensional objects
US8624962B2 (en) 2009-02-02 2014-01-07 Ydreams—Informatica, S.A. Ydreams Systems and methods for simulating three-dimensional virtual interactions from two-dimensional camera images
GB2467932A (en) * 2009-02-19 2010-08-25 Sony Corp Image processing device and method
US8457355B2 (en) * 2011-05-05 2013-06-04 International Business Machines Corporation Incorporating video meta-data in 3D models

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7583275B2 (en) 2002-10-15 2009-09-01 University Of Southern California Modeling and video projection for augmented virtual environments
US7257237B1 (en) 2003-03-07 2007-08-14 Sandia Corporation Real time markerless motion tracking using linked kinematic chains
US20110058709A1 (en) 2009-01-30 2011-03-10 Microsoft Corporation Visual target tracking using model fitting and exemplar

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Park, Y.; Lepetit, V.; Woo, W.: Multiple 3D Object Tracking for Augmented Reality. In: IEEE/ACM International Symposium on Mixed and Augmented Reality ISMAR, S. 117-120, September 2008
Park, Y.; Lepetit, V.; Woo, W.; Multiple 3D Object Tracking for Augmented Reality. In: IEEE/ACM International Symposium on Mixed and Augmented Reality ISMAR, pp.117-120, September 2008.

Also Published As

Publication number Publication date
US20130241928A1 (en) 2013-09-19
US9058669B2 (en) 2015-06-16
CN103503468B (zh) 2016-11-16
WO2012149655A1 (en) 2012-11-08
US20140314277A1 (en) 2014-10-23
DE112012001984T5 (de) 2014-02-20
GB2503621B (en) 2014-03-12
US8630460B2 (en) 2014-01-14
GB201318426D0 (en) 2013-12-04
US20120281873A1 (en) 2012-11-08
CN103503468A (zh) 2014-01-08
US20140056476A1 (en) 2014-02-27
US8457355B2 (en) 2013-06-04
GB2503621A (en) 2014-01-01
US8811674B2 (en) 2014-08-19

Similar Documents

Publication Publication Date Title
DE112012001984B4 (de) Integrieren von Video-Metadaten in 3D-Modelle
DE60036780T2 (de) Verfahren zum Vergleichen eines zweidimensionalen Bildes zu einem unter mehreren in einem Datenbank gespeicherten dreidimensionalen Kandidatmodellen
EP2297701B1 (de) Videoanalyse
DE112019005750T5 (de) Erlernen des Erzeugens synthetischer Datensätze zum Trainieren neuronalerNetze
DE112018000332T5 (de) Dichtes visuelles slam mit probabilistic-surfel-map
DE69823001T2 (de) Verfahren und Vorrichtung zur Rekonstruktion der dreidimensionalen Bewegung eines menschlichen Körpers aus Monokularbildsequenzen
DE112020005360T5 (de) Fein differenzierte optische erkennung in erweiterter realität
DE102017116952A1 (de) System und verfahren für verbessertes scoring von 3d-lagen und entfernen von störpunkten in 3d-bilddaten
DE102017010210A1 (de) Bild-Matting mittels tiefem Lernen
DE102017009910A1 (de) Bearbeiten von Digitalbildern unter Nutzung eines neuronalen Netzwerkes mit einer netzwerkinternen Erstellungsschicht
DE112016004534T5 (de) Nicht überwachtes Abgleichen in feinkörnigen Datensätzen zur Einzelansicht-Objektrekonstruktion
DE102015207676A1 (de) Verfahren und Vorrichtung zur Hinderniserkennung auf Basis einer monokularen Kamera
EP2284795A2 (de) Quantitative Analyse, Visualisierung und Bewegungskorrektur in dynamischen Prozessen
DE102018100192A1 (de) Erzeugen von Trainingsdaten zur automatischen Leckerkennung bei Fahrzeugen
DE112009001833T5 (de) 3D-Flugzeit-Kamerasystem und zugehöriges Positions-/Orientierungs-Kalibrationsverfahren
DE202016008004U1 (de) Automatische Verbindung von Bildern unter Verwendung visueller Eigenschaftsquerverweise auf zugehörige Anwendungen
DE102019104310A1 (de) System und Verfahren zur simultanen Betrachtung von Kanten und normalen bei Bildmerkmalen durch ein Sichtsystem
DE112014006670T5 (de) Anzeigegerät für ein informationsüberlagertes bild, anzeigeprogramm für ein informationsüberlagertes bild und verfahren für ein informationsüberlagertes bild
DE102012223047B4 (de) Mehrteil-Korrespondierer (corresponder) für mehrere Kameras
DE102020132238A1 (de) Verfahren, systeme, herstellungsgegenstände und einrichtungen zum weiterentwickeln von bildtiefenvertrauenskarten
EP2859531B1 (de) Verfahren zur bildbasierten veränderungserkennung
DE102019105293A1 (de) Schätzung der Bewegung einer Bildposition
Zhai et al. Image real-time augmented reality technology based on spatial color and depth consistency
DE102021201178A1 (de) Computerimplementiertes verfahren zum erzeugen von zuverlässigkeitsangaben für computervision
DE102020214596A1 (de) Verfahren zum Erzeugen von Trainingsdaten für ein Erkennungsmodell zum Erkennen von Objekten in Sensordaten einer Umfeldsensorik eines Fahrzeugs, Verfahren zum Erzeugen eines solchen Erkennungsmodells und Verfahren zum Ansteuern einer Aktorik eines Fahrzeugs

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: RICHARDT PATENTANWAELTE GBR, DE

Representative=s name: RICHARDT PATENTANWAELTE PART GMBB, DE

Representative=s name: RICHARDT PATENTANWAELTE PARTG MBB, DE

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R084 Declaration of willingness to licence
R020 Patent grant now final
R081 Change of applicant/patentee

Owner name: KYNDRYL, INC., NEW YORK, US

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINES CORPORATION, ARMONK, N.Y., US