DE102019202901A1

DE102019202901A1 - Fußgängerverfolgung unter Verwendung eines Tiefensensornetzwerks

Info

Publication number: DE102019202901A1
Application number: DE102019202901.9A
Authority: DE
Inventors: Yanzhi Chen; Hui Fang; Zhen Jia; Alan Matthew Finn; Arthur Hsu
Original assignee: Otis Elevator Co
Current assignee: Otis Elevator Co
Priority date: 2018-03-05
Filing date: 2019-03-04
Publication date: 2019-09-05
Also published as: CN110232701A; US20190273871A1

Abstract

Es wird ein Objektverfolgungssystem bereitgestellt und es beinhaltet einen Tiefensensor, der so eingesetzt ist, dass er mindestens ein nahezu kontinuierliches Sichtfeld (field of view - FOV) aufweist, und eine Steuerung, die an den Tiefensensor gekoppelt ist. Die Steuerung ist dazu konfiguriert, eine Ausgabe von dem Tiefensensor räumlich und zeitlich zu synchronisieren und jeweilige Bewegungen von jedem einzelnen Objekt innerhalb des nahezu kontinuierlichen FOV zu verfolgen, wenn sich jedes einzelne Objekt durch das nahezu kontinuierliche FOV bewegt.

Description

ALLGEMEINER STAND DER TECHNIK
Die folgende Beschreibung betrifft Fußgängerverfolgung und insbesondere ein Verfahren zur Fußgängerverfolgung unter Verwendung eines Netzwerks aus teilweise oder vollständig überlappten Tiefensensoren.
Fußgängerverfolgung spielt bei intelligenten Gebäudetechniken eine wichtige Rolle. Dazu gehören unter anderem Techniken für die Gebäudesicherheit und den Gebäudeschutz, Techniken zur Optimierung der zeitlichen Abstimmung von Aufzügen und Techniken zur Energiesteuerung in Gebäuden.
Die Leistung von Fußgängerverfolgungsverfahren wird üblicherweise durch zwei verwandte Probleme beeinflusst: eine Menge von Fußgängern führt typischerweise dazu, dass anvisierte Personen verdeckt werden, und die meisten Sensoren weisen ein begrenztes Sichtfeld (field of view - FOV) auf. Demnach können Systeme Schwierigkeiten dabei haben, mehrere sich bewegende Fußgänger genau über eine ausgedehnte Fläche zu verfolgen, wie zum Beispiel eine große Fläche eines Aufzugvorraums.
KURZE BESCHREIBUNG
Gemäß einem Aspekt der Offenbarung wird ein Objektverfolgungssystem bereitgestellt und es beinhaltet einen Tiefensensor, der so eingesetzt ist, dass er mindestens ein nahezu kontinuierliches Sichtfeld (FOV) aufweist, und eine Steuerung, die an den Tiefensensor gekoppelt ist. Die Steuerung ist dazu konfiguriert, eine Ausgabe von dem Tiefensensor räumlich und zeitlich zu synchronisieren und jeweilige Bewegungen von jedem einzelnen Objekt innerhalb des nahezu kontinuierlichen FOV zu verfolgen, wenn sich jedes einzelne Objekt durch das nahezu kontinuierliche FOV bewegt.
Gemäß zusätzlichen oder alternativen Ausführungsformen ist der Tiefensensor so eingesetzt, dass er ein kontinuierliches FOV aufweist.
Gemäß zusätzlichen oder alternativen Ausführungsformen wird die räumliche Synchronisierung anhand eines Vergleichs zwischen einer Ausgabe von dem Tiefensensor und einem Koordinatensystem, das für den Objektverfolgungsbereich und den Tiefensensor definiert ist, erlangt.
Gemäß zusätzlichen oder alternativen Ausführungsformen wird die zeitliche Synchronisierung durch eines oder mehrere von Bezugnahme auf eine Netzwerkzeit und Zeitstempeln der Ausgabe des Tiefensensors erlangt.
Gemäß einem anderen Aspekt der Offenbarung wird ein Objektverfolgungssystem bereitgestellt und es beinhaltet eine Struktur, die dazu ausgebildet ist, einen Objektverfolgungsbereich zu definieren, ein Netzwerk aus Tiefensensoren, das so in der gesamten Struktur eingesetzt ist, dass es mindestens ein nahezu kontinuierliches Sichtfeld (FOV) aufweist, das durch mindestens einen Abschnitt des Objektverfolgungsbereichs überlappt wird, und eine Steuerung, die an die Tiefensensoren gekoppelt ist. Die Steuerung ist dazu konfiguriert, eine Ausgabe von jedem der Tiefensensoren räumlich und zeitlich zu synchronisieren und jeweilige Bewegungen von jedem einzelnen Objekt innerhalb des nahezu kontinuierlichen FOV zu verfolgen, wenn sich jedes einzelne Objekt durch das nahezu kontinuierliche FOV bewegt.
Gemäß zusätzlichen oder alternativen Ausführungsformen beinhaltet der Objektverfolgungsbereich einen Aufzugvorraum.
Gemäß zusätzlichen oder alternativen Ausführungsformen beinhaltet der Objektverfolgungsbereich einen Fußgängerweg in einer Wohn-, Industrie-, Militär-, Gewerbe- oder Gemeindeimmobilie.
Gemäß zusätzlichen oder alternativen Ausführungsformen ist das Netzwerk aus Tiefensensoren so in der gesamten Struktur eingesetzt, dass es ein kontinuierliches überlapptes FOV aufweist.
Gemäß zusätzlichen oder alternativen Ausführungsformen wird die räumliche Synchronisierung anhand eines Vergleichs zwischen einer Ausgabe von jedem der Tiefensensoren und einem Koordinatensystem, das für den Objektverfolgungsbereich und jeden der Tiefensensoren definiert ist, erlangt.
Gemäß zusätzlichen oder alternativen Ausführungsformen wird die zeitliche Synchronisierung durch Bezugnahme auf eine Netzwerkzeit erlangt.
Gemäß zusätzlichen oder alternativen Ausführungsformen wird die zeitliche Synchronisierung anhand von Zeitstempeln der Ausgabe jedes der Tiefensensoren erlangt.
Gemäß noch einem anderen Aspekt der Offenbarung wird ein Objektverfolgungsverfahren bereitgestellt und es beinhaltet Einsetzen von Tiefensensoren, sodass sie mindestens ein nahezu kontinuierliches Sichtfeld (FOV) aufweisen, räumliches und zeitliches Synchronisieren der Tiefensensoren mit Weltkoordinaten und einer Bezugszeit, Erheben von Tiefenpunkten von jedem Tiefensensor, Umwandeln der Tiefenpunkte in Tiefenpunkte der Weltkoordinaten, Projizieren der Tiefenpunkte der Weltkoordinaten auf eine Ebene; und Ausführen von Datenzuordnung in Bezug auf die Projektion der Tiefenpunkte der Weltkoordinaten auf sequentielle Karten der Ebene während des Verlaufs der Bezugszeit zum Entfernen von Ausreißertracklets, die durch projizierte Tiefenpunkte auf einer relativ kleinen Anzahl der Karten ausgebildet sind, und zum Gruppieren von verbleibenden Tracklets, die durch projizierte Tiefenpunkte auf einer relativ großen Anzahl der Karten ausgebildet sind.
Gemäß zusätzlichen oder alternativen Ausführungsformen beinhaltet das Einsetzen, dass die Tiefensensoren in einem Netzwerk innerhalb einer Struktur eingesetzt werden, die dazu ausgebildet ist, einen Objektverfolgungsbereich zu definieren, sodass das nahezu kontinuierliche FOV mindestens einen Abschnitt des Objektverfolgungsbereichs überlappt.
Gemäß zusätzlichen oder alternativen Ausführungsformen beinhaltet das Einsetzen, dass die Tiefensensoren so eingesetzt werden, dass sie ein kontinuierliches FOV aufweisen.
Gemäß zusätzlichen oder alternativen Ausführungsformen beinhaltet das räumliche Synchronisieren der Tiefensensoren mit den Weltkoordinaten, dass jeder der Tiefensensoren auf die Weltkoordinaten kalibriert wird, und beinhaltet das zeitliche Synchronisieren der Tiefensensoren mit der Bezugszeit eines oder mehrere von Verknüpfen mit einer Netzwerkzeit und Zeitstempeln einer Ausgabe jedes der Tiefensensoren.
Gemäß zusätzlichen oder alternativen Ausführungsformen sind die relativ kleine und große Anzahl der Karten aktualisierbar.
Gemäß zusätzlichen oder alternativen Ausführungsformen beinhaltet das Verfahren ferner Ausführen einer Nächster-Nachbar-Suche zum Gruppieren der verbleibenden Tracklets.
Gemäß zusätzlichen oder alternativen Ausführungsformen beinhaltet das Umwandeln der Tiefenpunkte in die Tiefenpunkte der Weltkoordinaten, dass jeder der Tiefenpunkte in die Tiefenpunkte der Weltkoordinaten umgewandelt wird.
Gemäß zusätzlichen oder alternativen Ausführungsformen beinhaltet das Verfahren ferner Ausführen eines Formmodells zum Aggregieren mehrerer Punkte mit einer räumlichen Verteilung zur anschließenden Projektion oder zum Aggregieren mehrerer projizierter Punkte in einen Punkt zum anschließenden Verfolgen.
Diese und andere Vorteile und Merkmale werden aus der folgenden Beschreibung in Verbindung mit den Zeichnungen ersichtlicher.
Figurenliste
Der als die Offenbarung angesehene Gegenstand wird insbesondere in den Ansprüchen im abschließenden Teil der Beschreibung aufgezeigt und eindeutig beansprucht. Die vorhergehenden und andere Merkmale und Vorteile der Offenbarung erschließen sich aus der folgenden detaillierten Beschreibung in Verbindung mit den beigefügten Zeichnungen, in denen Folgendes gilt:

1 ist eine Veranschaulichung einer Sequenz eines Bilds, einer Tiefenkarte und Objektsegmentierung, die während Fußgängerdetektionsvorgängen auf Grundlage von Tiefeninformationen erzeugt werden;
2 ist eine schematische Draufsicht auf ein System, das ein Netzwerk aus Tiefensensoren beinhaltet, die in einer Struktur gemäß Ausführungsformen eingesetzt sind; und
3 ist ein schematisches Diagramm einer Steuerung des Systems aus 2 gemäß Ausführungsformen;
4 ist ein schematisches Diagramm einer Network-Time-Protocol-(NTP-)Serverbeziehung von (einer) Steuerung(en) gemäß Ausführungsformen;
5 ist ein Ablaufdiagramm, das ein Verfahren zur Fußgängerverfolgung gemäß Ausführungsformen veranschaulicht;
6 ist ein Ablaufdiagramm, das ein Verfahren zur Fußgängerverfolgung gemäß Ausführungsformen veranschaulicht;
7A ist eine graphische Darstellung einer Tiefensensorausgabe mit einer Draufsicht gemäß Ausführungsformen;
7B ist eine graphische Darstellung von einzeln verfolgten Objekten anhand der Tiefensensorausgabe gemäß Ausführungsformen;
7C ist eine graphische Darstellung von einzeln verfolgten Objekten anhand der Tiefensensorausgabe, wobei Ausreißertracklets entfernt sind, gemäß Ausführungsformen;
7D ist eine graphische Darstellung von einzeln verfolgten Objekten anhand der Tiefensensorausgabe, wobei verbleibende Tracklets gruppiert sind, gemäß Ausführungsformen;
8A ist eine graphische Darstellung eines Formmodells gemäß Ausführungsformen; und
8B ist eine graphische Darstellung eines Formmodells gemäß Ausführungsformen.

Diese und andere Vorteile und Merkmale werden aus der folgenden Beschreibung in Verbindung mit den Zeichnungen ersichtlicher.
DETAILLIERTE BESCHREIBUNG
Wie es nachstehend beschrieben ist, wird ein Fußgängerverfolgungssystem bereitgestellt, um mehrere sich bewegende Fußgänger genau über eine ausgedehnte Fläche hinweg zu verfolgen. Das Fußgängerverfolgungssystem beinhaltet mehrere Sensoren (z. B. 2D-, 3D- oder Tiefensensoren) mit einem nahezu kontinuierlichen Sichtfeld (FOV) oder in einer Ausführungsform mehrere sich räumlich überlappende Sensoren mit einem kontinuierlichen FOV. In jedem Fall weist jeder der mehreren Sensoren die Fähigkeit auf, auch dann zwischen mehreren sich bewegenden Objekten zu unterscheiden, wenn eine Anzahl dieser sich bewegenden Objekte verdeckt ist.
Unter Bezugnahme auf 1 stellt ein Tiefensensor im Gegensatz zu 2D-Überwachungskameras mit Rot, Grün und Blau (RGB) dreidimensionale (3D-) Informationen bereit, die den Abstand zwischen dem Objekt und dem Tiefensensor beinhalten. Zu verschiedenen 3D-Tiefenerfassungstechniken und -vorrichtungen, die verwendet werden können, gehören unter anderem eine Streifenlichtmessung, eine Phasenverschiebungsmessung, eine Laufzeitmessung, eine Stereotriangulationsvorrichtung, eine Lichtscheibentriangulationsvorrichtung, Lichtfeldkameras, Kameras mit codierter Apertur, Techniken zur computergestützten Bildgebung, simultane Lokalisierung und Kartenerstellung (simultaneous localization and mapping - SLAM), abbildendes Radar, abbildendes Sonar, Echoortung, Laserradar, Scanning Light Detection and Ranging (LIDAR), Flash-LIDAR oder eine Kombination, die mindestens eines der Vorhergehenden beinhaltet. Andere Techniken können aktiv (Senden und Empfangen eines Signals) oder passiv (nur Empfangen eines Signals) beinhalten und können in einem Band des elektromagnetischen oder akustischen Spektrums wie etwa Infrarot, Ultraschall usw. arbeiten. In verschiedenen Ausführungsformen kann ein 3D-Tiefensensor dazu betriebsfähig sein, 3D-informationen anhand einer Defokussierung, eines fokalen Bildstapels oder einer Struktur aus Bewegung zu erzeugen. Gleichermaßen stellen 2D-Tiefensensoren zweidimensionale Informationen bereit, die den Abstand zwischen dem Objekt und dem Tiefensensor beinhalten.
Es gibt sowohl qualitative als auch quantitative Unterschiede zwischen herkömmlicher 2D-Bildgebung im sichtbaren Spektrum und Tiefenerfassung. Bei der 2D-Bildgebung (äquivalent dazu 2D-Video, da 2D-Video aufeinanderfolgende 2D-Bilder beinhaltet) wird die reflektierte Farbe (Gemisch aus Wellenlängen) von dem ersten Objekt in jeder radialen Richtung von der Kamera aufgenommen. Das Bild ist dann eine 2D-Projektion der 3D-Welt, wobei jeder Bildpunkt das kombinierte Spektrum der Beleuchtungsquelle und des spektralen Reflexionsvermögens eines Objekts in der Szene (und womöglich des eigenen Emissionsvermögens des Objekts) ist. Bei der Tiefenerfassung gibt es keine Farbinformationen (Spektralinformationen). Stattdessen ist jeder „Bildpunkt“ der Abstand (Tiefe, Reichweite) zum ersten Objekt in jeder radialen Richtung von dem Tiefensensor. Die Daten aus der Tiefenerfassung werden typischerweise als Tiefenkarte oder Punktwolke bezeichnet.
Mitunter wird eine Tiefenkarte oder Punktwolke verwirrenderweise als Tiefenbild oder 3D-Bild bezeichnet, doch es handelt sich nicht um ein Bild in einer herkömmlichen Bedeutung des Worts. Im Allgemeinen kann ein 2D-Bild nicht in eine Tiefenkarte umgewandelt werden und eine Tiefenkarte nicht in ein 2D-Bild umgewandelt werden (eine künstliche Zuweisung von zusammenhängenden Farben oder Graustufen zu zusammenhängenden Tiefen ermöglicht es einer Person, eine Tiefenkarte in etwa ähnlich dazu, wie eine Person ein 2D-Bild wie in 1 sieht, grob zu interpretieren).
Wie in 1 gezeigt, überlappen sich die Standorte von zwei Fußgängern 1 und 2 derart, dass ein zweidimensionaler (2D-) Objektdetektionsalgorithmus sie nicht voneinander trennen kann (wie im ersten Bild in der Sequenz gezeigt). Da ihre Tiefenwerte jedoch ungleich sind (siehe z. B. die zweite Tiefenkarte in der Sequenz), folgt daraus, dass die Verwendung von Tiefeninformationen Tiefensensoren die Fähigkeit bereitstellt, die Objekte voneinander zu trennen und dadurch die voneinander getrennten Objekte, wie etwa die Fußgänger 1 und 2, mit relativ hoher Genauigkeit und Verdeckungstoleranz zu detektieren (wie im dritten und vierten Segmentierungsverarbeitungsergebnis in der Sequenz gezeigt).
Unter Bezugnahme auf 2 wird ein Objektverfolgungssystem 10 bereitgestellt. Das Objektverfolgungssystem 10 kann eine Struktur 11 beinhalten oder in dieser eingesetzt sein, die dazu ausgebildet ist, einen Objektverfolgungsbereich 12 zu definieren. Der Objektverfolgungsbereich 12 kann als Aufzugvorraum oder Fußgängerweg von oder in einer Wohn-, Industrie-, Militär-, Gewerbe- oder Gemeindeimmobilie oder einem beliebigen anderen definierten Bereich oder Raum bereitgestellt sein. Das Objektverfolgungssystem 10 kann ferner ein Netzwerk aus 3D-Tiefensensoren 14_1-n und eine Steuerung 20 beinhalten. Das Netzwerk aus 3D-Tiefensensoren 14_1-n ist so in der gesamten Struktur 11 eingesetzt, dass es mindestens ein nahezu kontinuierliches kombiniertes Sichtfeld (FOV) 15 aufweist, das aus den jeweiligen FOVs 15_1-n jedes der 3D-Tiefensensoren 14_1-n besteht und das durch mindestens einen Abschnitt des Objektverfolgungsbereichs 12 überlappt wird. Die Steuerung 20 ist an jeden der 3D-Tiefensensoren 14_1-n gekoppelt oder anderweitig in Signalkommunikation damit angeordnet (siehe 3).
Im hier verwendeten Sinne kann ein nahezu kontinuierliches kombiniertes FOV 15 dadurch gekennzeichnet sein, dass die jeweiligen FOVs 15_1-n jedes der 3D-Tiefensensoren 14_1-n erhebliche Abschnitte von benachbarten FOVs 15_1-n überlappen oder, insoweit derartige Überlappung nicht bereitgestellt oder möglich ist, wie im Fall einer Ecke oder einer verborgenen Fläche innerhalb des Objektverfolgungsbereichs 12, Leerräume zwischen benachbarten FOVs 15_1-n dazu konfiguriert sind, im Vergleich zu den Gesamtgrößen der FOVs 15_1-n relativ klein zu sein.
Wenngleich sich die in dieser Schrift bereitgestellte Beschreibung auf 3D-Tiefensensoren bezieht, versteht es sich, dass ebenso Ausführungsformen existieren, bei denen die Sensoren eine Mischung aus 2D- und/oder 3D-Tiefensensoren sind. Insbesondere im Fall von 2D-Tiefensensoren würden derartige Sensoren Tiefeninformationen hinsichtlich Abständen zwischen Objekten und den 2D-Tiefensensoren bereitstellen, doch es kann sein, dass sie keine zusätzlichen Einzelheiten hinsichtlich einer Form und Größe der Objekte bereitstellen. Die Bezugnahme auf 3D-Tiefensensoren erfolgt deshalb in dieser Schrift der Eindeutigkeit und Kürze halber und sollte nicht so interpretiert werden, dass der Umfang der Ansprüche oder der Anmeldung im Ganzen anderweitig eingeschränkt wird.
Gemäß Ausführungsformen kann jeder der 3D-Tiefensensoren 14_1-n einen Tiefensensor beinhalten oder als solcher bereitgestellt sein oder insbesondere als Kinect™- oder Astra™-Sensor.
Unter Bezugnahme auf 3 kann die Steuerung 20 eine Verarbeitungseinheit 301, eine Speichereinheit 302 und eine Netzwerkeinheit 303 beinhalten, die in Signalkommunikation mit mindestens den 3D-Tiefensensoren 14_1-n angeordnet sind. Die Speichereinheit 302 weist darauf gespeicherte ausführbare Anweisungen auf, die durch die Verarbeitungseinheit 301 lesbar und ausführbar sind. Wenn die ausführbaren Anweisungen durch die Verarbeitungseinheit 301 gelesen und ausgeführt werden, bewirken die ausführbaren Anweisungen, dass die Verarbeitungseinheit eine Ausgabe von jedem der 3D-Tiefensensoren 14_1-n räumlich und zeitlich synchronisiert, um einzelne Objekte innerhalb des nahezu kontinuierlichen kombinierten FOV 15 zu erfassen, zu verfolgen, zu beobachten oder zu identifizieren und jeweilige Bewegungen jedes der einzelnen Objekte zu verfolgen, wenn sich jedes der einzelnen Objekte durch das nahezu kontinuierliche kombinierte FOV 15 bewegt.
Es sollte an dieser Stelle angemerkt werden, dass die Verfolgung beim Segmentieren jedes der einzelnen Objekte Schwierigkeiten haben könnte. Demnach kann ein Verfolgungsalgorithmus Fähigkeiten zum Aufspalten und Zusammenführen von Spuren beinhalten oder aufweisen. Im hier verwendeten Sinne beziehen sich Fähigkeiten zum Aufspalten und Zusammenführen auf die Trennung einer Spur in mehr als eine Spur und das Zusammenführen einer oder mehrerer Spuren zu einer Spur.
Gemäß Ausführungsformen kann die räumliche Synchronisierung durch die Verarbeitungseinheit 301 anhand eines Vergleichs zwischen einer Ausgabe von jedem der 3D-Tiefensensoren 14_1-n mit einem Koordinatensystem, das für den Objektverfolgungsbereich 12 und für jeden der 3D-Tiefensensoren 14_1-n definiert ist, erlangt werden. Die zeitliche Synchronisierung kann durch die Verarbeitungseinheit 301 durch eines oder mehrere von Bezugnahme auf eine Netzwerkzeit und anhand von Zeitstempeln der Ausgabe jedes der 3D-Tiefensensoren 14_1-n erlangt werden.
Gemäß Ausführungsformen kann das Koordinatensystem als kartesisches Koordinatensystem bereitgestellt sein. Es versteht sich jedoch, dass dies nicht erforderlich ist und jedes andere Koordinatensystem verwendet werden kann, solange es im gesamten Objektverfolgungsbereich 12 einheitlich festgelegt werden kann.
Unter Bezugnahme auf 4 kann die Netzwerkzeit durch einen Network-Time-Protocol-(NTP-)Server 401 gehalten werden, der in Signalkommunikation mit der Steuerung 20 angeordnet ist, wobei es sich um ein(en) Einzelmerkmal/-server oder ein(en) Merkmal/Server, das bzw. der für einen oder mehrere der 3D-Tiefensensoren 14_1-n effektiv über mehrere einzelne Steuerungen 402 hinweg verteilt ist, handeln kann. Im letzteren Fall können die mehreren einzelnen Steuerungen 402 über ein Netzwerk wie etwa das Internet, ein lokales Netz oder ein beliebiges anderes bekanntes Netzwerk verknüpft sein und die 3D-Tiefensensoren 14_1-n können über USB-Verbindungen oder eine beliebige andere bekannte Verbindung verknüpft sein.
Gemäß Ausführungsformen können die zeitliche Synchronisierung und/oder die Bezugszeit zudem ein Zeitintervall zwischen der Erhebung von Drei-Koordinaten-Tiefenpunkten von jedem der 3D-Tiefensensoren 14_1-n berücksichtigen.
Obwohl vorstehend beschrieben ist, dass das Netzwerk aus 3D-Tiefensensoren 14_1-n so in der gesamten Struktur 11 eingesetzt ist, dass es mindestens das nahezu kontinuierliche kombinierte Sichtfeld (FOV) 15 aufweist, das aus den jeweiligen FOVs 15_1-n jedes der 3D-Tiefensensoren 14_1-n besteht, versteht es sich, dass das Netzwerk aus 3D-Tiefensensoren 14_1-n so in der gesamten Struktur 11 eingesetzt sein kann, dass es ein kontinuierliches kombiniertes Sichtfeld (FOV) 15 aufweist, das aus den jeweiligen FOVs 15_1-n jedes der 3D-Tiefensensoren 14_1-n besteht. Zu Zwecken der Eindeutigkeit und Kürze betrifft die folgende Beschreibung den Fall, in dem das Netzwerk aus 3D-Tiefensensoren 14_1-n so in der gesamten Struktur 11 eingesetzt ist, dass es das kontinuierliche kombinierte Sichtfeld (FOV) 15 aufweist.
Unter Bezugnahme auf 5 wird ein Objektverfolgungsverfahren bereitgestellt.
Wie in 5 gezeigt, beinhaltet das Objektverfolgungsverfahren zunächst Einsetzen von 3D-Tiefensensoren, sodass sie mindestens ein nahezu kontinuierliches kombiniertes FOV oder ein kontinuierliches kombiniertes FOV aufweisen (Block 501). Gemäß Ausführungsformen kann das Einsetzen der 3D-Tiefensensoren beinhalten, dass die 3D-Tiefensensoren in einem Netzwerk innerhalb einer Struktur eingesetzt werden, die dazu ausgebildet ist, einen Objektverfolgungsbereich zu definieren, sodass das nahezu kontinuierliche oder kontinuierliche kombinierte FOV mindestens einen Abschnitt des Obj ektverfolgungsbereichs überlappt.
In jedem Fall beinhaltet das Objektverfolgungsverfahren ferner räumliches und zeitliches Synchronisieren der 3D-Tiefensensoren mit Weltkoordinaten (oder einem Koordinatensystem) bzw. einer Bezugszeit (Block 502 und 503). Wie vorstehend erläutert, kann die räumliche Synchronisierung aus Block 502 anhand eines Vergleichs zwischen einer 3D-Tiefensensorausgabe und einem Koordinatensystem, das für den Obj ektverfolgungsbereich und jeden der 3D-Tiefensensoren definiert ist, erlangt werden. Die zeitliche Synchronisierung aus Block 503 kann, wie vorstehend erläutert, durch eines von Bezugnahme auf eine Netzwerkzeit und anhand von Zeitstempeln der Ausgabe der 3D-Tiefensensoren erlangt werden.
Somit kann gemäß Ausführungsformen das räumliche Synchronisieren der 3D-Tiefensensoren mit den Weltkoordinaten aus Block 502 beinhalten, dass jeder der 3D-Tiefensensoren auf die Weltkoordinaten kalibriert wird (Block 5021). Gleichermaßen kann das zeitliche Synchronisieren der 3D-Tiefensensoren mit der Bezugszeit aus Block 503 eines von Verknüpfen mit einer Netzwerkzeit (Block 5031) und Zeitstempeln der Ausgabe jedes der 3D-Tiefensensoren (Block 5032) beinhalten.
Das Verfahren kann dann Erheben von Drei-Koordinaten-Tiefenpunkten von jedem 3D-Tiefensensor (Block 504), Umwandeln von mindestens zwei der Drei-Koordinaten-Tiefenpunkte in Tiefenpunkte der Weltkoordinaten (Block 505) und Projizieren der Tiefenpunkte der Weltkoordinaten auf eine 2D-Ebene (Block 506) beinhalten. Die Erhebung von Drei-Koordinaten-Tiefenpunkten aus Block 504 kann in Bezug auf die Ausgabe der 3D-Tiefensensoren vorgenommen werden und eine Anzahl der erhobenen Drei-Koordinaten-Tiefenpunkte kann im Voraus oder während des Erhebungsprozesses selbst gemäß einer Analyse der Streubreite der Drei-Koordinaten-Tiefenpunkte festgelegt werden (d. h. eine geringe Streubreite kann weniger Punkte erfordern, wohingegen eine größere Streubreite eine größere Anzahl von Punkten erfordern könnte).
Die Umwandlung und Projektion aus Block 505 und 506 können in jeder beliebigen Reihenfolge ausgeführt werden.
Das Verfahren kann zudem Ausführen von Datenzuordnung (Block 507) beinhalten. Das Ausführen der Datenzuordnung aus Block 507 wird in Bezug auf die Projektion der Tiefenpunkte der Weltkoordinaten auf sequentielle Karten oder Rahmen der 2D-Ebene während des Verlaufs der Bezugszeit vorgenommen. Die Ausführung der Datenzuordnung dient somit dazu, Ausreißertracklets, die durch projizierte Tiefenpunkte auf einer relativ kleinen und aktualisierbaren Anzahl der Karten oder Rahmen ausgebildet sind, zu entfernen oder deren Entfernung zu erleichtern, und verbleibende Tracklets, die durch projizierte Tiefenpunkte auf einer relativ großen und aktualisierbaren Anzahl der Karten oder Rahmen ausgebildet sind, zu gruppieren. Gemäß Ausführungsformen sind die relativ kleine und große Anzahl der Karten oder Rahmen gemäß einer gewünschten Genauigkeit des Objektverfolgungsverfahrens, der verfügbaren Berechnungszeit und den Ressourcen und historischen Aufzeichnungen aktualisierbar.
Das Objektverfolgungsverfahren kann ferner Ausführen einer Nächster-Nachbar-Suche zum Gruppieren der verbleibenden Tracklets (Block 508) beinhalten. Dies kann zum Beispiel durch einen automatischen Prozess zur Bilderkennung auf einer Rechenvorrichtung erfolgen.
Unter Bezugnahme auf 6 wird ein Objektverfolgungsverfahren bereitgestellt.
Wie in 6 gezeigt, beinhaltet das Objektverfolgungsverfahren Einsetzen von 3D-Tiefensensoren, sodass sie mindestens ein nahezu kontinuierliches kombiniertes FOV oder ein kontinuierliches kombiniertes FOV aufweisen (Block 601). Gemäß Ausführungsformen kann das Einsetzen der 3D-Tiefensensoren beinhalten, dass die 3D-Tiefensensoren in einem Netzwerk innerhalb einer Struktur eingesetzt werden, die dazu ausgebildet ist, einen Objektverfolgungsbereich zu definieren, sodass das nahezu kontinuierliche oder kontinuierliche kombinierte FOV mindestens einen Abschnitt des Objektverfolgungsbereichs überlappt.
In jedem Fall beinhaltet das Objektverfolgungsverfahren ferner räumliches und zeitliches Synchronisieren der 3D-Tiefensensoren mit Weltkoordinaten (oder einem Koordinatensystem) bzw. einer Bezugszeit (Block 602 und 603). Wie vorstehend erläutert, kann die räumliche Synchronisierung aus Block 602 anhand eines Vergleichs zwischen einer 3D-Tiefensensorausgabe und einem Koordinatensystem, das für den Obj ektverfolgungsbereich und jeden der 3D-Tiefensensoren definiert ist, erlangt werden. Die zeitliche Synchronisierung aus Block 603 kann, wie vorstehend erläutert, durch eines von Bezugnahme auf eine Netzwerkzeit und anhand von Zeitstempeln der Ausgabe der 3D-Tiefensensoren erlangt werden.
Somit kann gemäß Ausführungsformen das räumliche Synchronisieren der 3D-Tiefensensoren mit den Weltkoordinaten aus Block 602 beinhalten, dass jeder der 3D-Tiefensensoren auf die Weltkoordinaten kalibriert wird (Block 6021). Gleichermaßen kann das zeitliche Synchronisieren der 3D-Tiefensensoren mit der Bezugszeit aus Block 603 eines von Verknüpfen mit einer Netzwerkzeit (Block 6031) und Zeitstempeln der Ausgabe jedes der 3D-Tiefensensoren (Block 6032) beinhalten.
Das Verfahren kann dann Erheben von Drei-Koordinaten-Tiefenpunkten von jedem 3D-Tiefensensor (Block 604), Umwandeln jedes der Drei-Koordinaten-Tiefenpunkte in Tiefenpunkte der Weltkoordinaten (Block 605) und Projizieren der Tiefenpunkte der Weltkoordinaten auf eine 2D-Ebene (Block 606) beinhalten. Die Erhebung von Drei-Koordinaten-Tiefenpunkten aus Block 604 kann in Bezug auf die Ausgabe der 3D-Tiefensensoren vorgenommen werden und eine Anzahl der erhobenen Drei-Koordinaten-Tiefenpunkte kann im Voraus oder während des Erhebungsprozesses selbst gemäß einer Analyse der Streubreite der Drei-Koordinaten-Tiefenpunkte festgelegt werden (d. h. eine geringe Streubreite kann weniger Punkte erfordern, wohingegen eine größere Streubreite eine größere Anzahl von Punkten erfordern könnte).
Die Umwandlung und Projektion aus Block 605 und 606 können in jeder beliebigen Reihenfolge ausgeführt werden.
Das Verfahren kann zudem Ausführen von Datenzuordnung (Block 607) beinhalten. Das Ausführen der Datenzuordnung aus Block 607 wird in Bezug auf die Projektion der Tiefenpunkte der Weltkoordinaten auf sequentielle Karten oder Rahmen der 2D-Ebene während des Verlaufs der Bezugszeit vorgenommen. Die Ausführung der Datenzuordnung dient somit dazu, Ausreißertracklets, die durch projizierte Tiefenpunkte auf einer relativ kleinen und aktualisierbaren Anzahl der Karten oder Rahmen ausgebildet sind, zu entfernen oder deren Entfernung zu erleichtern, und verbleibende Tracklets, die durch projizierte Tiefenpunkte auf einer relativ großen und aktualisierbaren Anzahl der Karten oder Rahmen ausgebildet sind, zu gruppieren. Gemäß Ausführungsformen sind die relativ kleine und große Anzahl der Karten oder Rahmen gemäß einer gewünschten Genauigkeit des Objektverfolgungsverfahrens, der verfügbaren Berechnungszeit und den Ressourcen und historischen Aufzeichnungen aktualisierbar.
Das Objektverfolgungsverfahren kann ferner Ausführen eines Formmodells zum Aggregieren mehrerer Punkte mit einer konkreten räumlichen Verteilung (das Modell) zur anschließenden Projektion auf die Weltkoordinatenebene und Verfolgung oder zum Aggregieren mehrerer projizierter Punkte in einen Punkt zum anschließenden Verfolgen (Block 608) beinhalten. Dies kann zum Beispiel durch einen automatischen Prozess zur Bilderkennung auf einer Rechenvorrichtung erfolgen.
Gemäß Ausführungsformen kann eine Aggregation von Punkten in einen Punkt, der ein Objekt darstellt, durch Verwendung eines Formmodells wie in Block 608 dadurch erreicht werden, dass Punkte zu Clustern zusammengefasst werden und die Punkte jedes Clusters an das Formmodell angepasst werden, indem die Summe der absoluten Abstände der Punkte zu dem Formmodell minimiert wird. Das Zusammenfassen zu Clustern kann durch K-Means, Erwartungsmaximierung (EM), Fuzzy C-Means, hierarchische Clusterverfahren, Gaußsche Mischverteilung und dergleichen erfolgen. Die zugeordnete Abstandsmetrik kann die Minkowski-Metrik mit p=1, 2 oder ∞ und dergleichen sein. Das Formmodell kann ein niederwertiges kinematisches Modell eines Menschen (Skelett), ein x-y-Schwerpunktmodell (vertikale Linie) und dergleichen sein. Einige Modelle können zusätzliche Parameter bei der Optimierung beinhalten, z. B. für Pose und Maßstab.
Unter Bezugnahme auf 7A-7D wird eine graphische Darstellung des Verfahrens aus 5 bereitgestellt.
Wie in 7A gezeigt, werden Tiefenpunkte von zwei unterschiedlichen, aber ähnlich geformten und bemessenen Objekten 701 und 702, die von mehreren 3D-Tiefensensoren als die Objekte 701 und 702 hergenommen werden und sich auf unterschiedlichen Spuren durch einen definierten Raum von einem Ausgangspunkt P um einen Endpunkt EP und zu dem Ausgangspunkt P zurück bewegen, auf eine 2D-Ebene projiziert, wie vorstehend beschrieben.
Wie in 7B gezeigt, werden die Objekte 701 und 702 durch jeden 3D-Tiefensensor einzeln verfolgt. Die einzelne Verfolgung durch 3D-Tiefensensoren kann in Abhängigkeit von mathematischen Annahmen durch lineare oder nichtlineare Techniken zur bayesschen Schätzung durchgeführt werden, die sowohl Kalman-Filter als auch Partikel-Filter beinhalten. Diese Verfolgung kann zu einer großen Anzahl von ersten Tracklets 701₁ für das Objekt 701 und einer großen Anzahl von zweiten Tracklets 702₂ für das Objekt 702 führen.
Von den ersten Tracklets 701₁ werden die Ausreißer der ersten Tracklets 701₁ , die als diejenigen ersten Tracklets 701₁ definiert sind, die durch Punkte erzeugt sind, die nur auf einer kleinen Anzahl von Karten oder Rahmen auftreten, wie in 7C (in Bezug auf 7B) gezeigt entfernt. Gleichermaßen werden von den zweiten Tracklets 701₂ die Ausreißer der zweiten Tracklets 701₂ , die als diejenigen zweiten Tracklets 701₂ definiert sind, die durch Punkte erzeugt sind, die nur auf einer kleinen Anzahl von Karten oder Rahmen auftreten, ebenfalls wie in 7C (in Bezug auf 7B) gezeigt entfernt.
Schließlich wird, wie in 7D gezeigt, Datenzuordnung ausgeführt, um die verbleibenden ersten Tracklets 701₁ durch eine Nächster-Nachbar-Suche zusammen zu gruppieren und die verbleibenden zweiten Tracklets 702₂ durch eine Nächster-Nachbar-Suche zusammen zu gruppieren. Für die Nächster-Nachbar-Suche kann der Abstand zwischen zwei Tracklets als der Frechet-Abstand definiert sein. Die daraus resultierenden Trajektorien aus 7D geben somit an, dass sich die zwei Objekte 701 und 702 (d. h. Fußgänger) wie vorstehend beschrieben in dem Tiefensensornetzwerk (d. h. dem kontinuierlichen kombinierten FOV 15 aus 2) bewegten, als die Daten aufgezeichnet wurden.
Im Fall eines nahezu kontinuierlichen FOV können Lücken zwischen Tracklets eines Objekts vorhanden sein, die Zeitpunkten entsprechen, zu denen es sich nicht innerhalb eines Tiefensensor-FOV befand. Die Trackletzuordnung über Lücken hinweg kann durch Netzwerkflussoptimierung unter Verwendung von metrischem Lernen und kohärenter Dynamik auf Grundlage von Positions- und zusätzlichen Parametern wie etwa Geschwindigkeit und Beschleunigung erzielt werden.
Für 8A sind Tiefensensordaten für das Objekt 801 von einem Tiefensensor und Tiefensensordaten für das Objekt 802 von einem anderen Tiefensensor einander infolge der Verwendung eines Formmodells zugeordnet. In diesem Fall kann ein vollständiges 3D-Formmodell einer Person eingesetzt werden, um die Tiefensensordaten zu aggregieren, wie an anderer Stelle in dieser Schrift beschrieben. Der daraus resultierende aggregierte Datenpunkt für den einen Tiefensensor kann als Teil eines Tracklets für den einen Tiefensensor auf die 2D-Ebene projiziert werden. Für 8B sind Tiefensensordaten für das Objekt 801 von einem Tiefensensor und Tiefensensordaten für das Objekt 802 von einem anderen Tiefensensor einander infolge der Verwendung eines Formmodells zugeordnet. In diesem Fall wurde ebenfalls ein vollständiges 3D-Formmodell einer Person eingesetzt, um die Tiefensensordaten zu aggregieren. Der daraus resultierende aggregierte Datenpunkt für den anderen Tiefensensor kann als Teil eines Tracklets für den anderen Tiefensensor auf die 2D-Ebene projiziert werden. Die Tracklets können wie an anderer Stelle in dieser Schrift beschrieben zugeordnet werden. In einer alternativen Ausführungsform können die Tiefensensordaten zuerst auf die 2D-Ebene projiziert werden und ein 2D-Formmodell eingesetzt werden, um die projizierten Tiefensensordaten in einen aggregierten Datenpunkt zu aggregieren, der Teil eines Tracklets ist.
Vorteile der in dieser Schrift beschriebenen Merkmale sind die genaue, großflächige Verfolgung von Fußgängern unter Verwendung von mehrfacher, simultaner Obj ektverfolgung über mehrere Tiefensensoren hinweg unter Einsatz von räumlicher und zeitlicher Einheitlichkeit und Verwendung von mehrperspektivischen Formmodellen für eine verbesserte Verfolgungsgenauigkeit.
Wenngleich die Offenbarung in Verbindung mit lediglich einer begrenzten Anzahl von Ausführungsformen ausführlich bereitgestellt ist, versteht es sich ohne Weiteres, dass die Offenbarung nicht auf derartige offenbarte Ausführungsformen beschränkt ist. Vielmehr kann die Offenbarung modifiziert werden, um eine beliebige Anzahl von Variationen, Abänderungen und Ersetzungen oder äquivalente Anordnungen einzubeziehen, die vorangehend nicht beschrieben worden sind, jedoch mit dem Geist und Umfang der Offenbarung in Einklang stehen. Zusätzlich sind zwar verschiedene Ausführungsformen der Offenbarung beschrieben worden, doch es versteht sich, dass die beispielhafte(n) Ausführungsform(en) lediglich einige der beschriebenen beispielhaften Aspekte beinhalten kann bzw. können. Dementsprechend ist die Offenbarung nicht als durch die vorhergehende Beschreibung begrenzt anzusehen, sondern sie ist lediglich durch den Umfang der beigefügten Ansprüche begrenzt.

Claims

Objektverfolgungssystem, umfassend: einen Tiefensensor, der so eingesetzt ist, dass er mindestens ein nahezu kontinuierliches Sichtfeld (field of view - FOV) aufweist; und eine Steuerung, die an den Tiefensensor gekoppelt ist und zu Folgendem konfiguriert ist: räumliches und zeitliches Synchronisieren einer Ausgabe von dem Tiefensensor und Verfolgen jeweiliger Bewegungen von einzelnen Objekt innerhalb des nahezu kontinuierlichen FOV, wenn sich jedes einzelne Objekt durch das nahezu kontinuierliche FOV bewegt.
Objektverfolgungssystem nach Anspruch 1, wobei der Tiefensensor so eingesetzt ist, dass er ein kontinuierliches FOV aufweist.
Objektverfolgungssystem nach Anspruch 1 oder 2, wobei die räumliche Synchronisierung anhand eines Vergleichs zwischen einer Ausgabe von dem Tiefensensor und einem Koordinatensystem, das für den Objektverfolgungsbereich und den Tiefensensor definiert ist, erlangt wird.
Objektverfolgungssystem nach Anspruch 1, 2 oder 3, wobei die zeitliche Synchronisierung durch eines oder mehrere von Bezugnahme auf eine Netzwerkzeit und Zeitstempeln der Ausgabe des Tiefensensors erlangt wird.
Objektverfolgungssystem, umfassend: eine Struktur, die dazu ausgebildet ist, einen Objektverfolgungsbereich zu definieren; ein Netzwerk aus Tiefensensoren, das so in der gesamten Struktur eingesetzt ist, dass es mindestens ein nahezu kontinuierliches Sichtfeld (FOV) aufweist, das durch mindestens einen Abschnitt des Objektverfolgungsbereichs überlappt wird; und eine Steuerung, die an die Tiefensensoren gekoppelt ist, wobei die Steuerung zu Folgendem konfiguriert ist: räumliches und zeitliches Synchronisieren einer Ausgabe von jedem der Tiefensensoren und Verfolgen jeweiliger Bewegungen von jedem einzelnen Objekt innerhalb des nahezu kontinuierlichen FOV, wenn sich jedes einzelne Objekt durch das nahezu kontinuierliche FOV bewegt.
Objektverfolgungssystem nach Anspruch 5, wobei der Objektverfolgungsbereich einen Aufzugvorraum umfasst.
Objektverfolgungssystem nach Anspruch 5, wobei der Objektverfolgungsbereich einen Fußgängerweg in einer Wohn-, Industrie-, Militär-, Gewerbe- oder Gemeindeimmobilie umfasst.
Objektverfolgungssystem nach Anspruch 5, 6 oder 7, wobei das Netzwerk aus Tiefensensoren so in der gesamten Struktur eingesetzt ist, dass es ein kontinuierliches FOV aufweist.
Objektverfolgungssystem nach Anspruch 5 bis 8, wobei die räumliche Synchronisierung anhand eines Vergleichs zwischen einer Ausgabe von jedem der Tiefensensoren und einem Koordinatensystem, das für den Objektverfolgungsbereich und jeden der Tiefensensoren definiert ist, erlangt wird.
Objektverfolgungssystem nach Anspruch 5 bis 9, wobei die zeitliche Synchronisierung durch Bezugnahme auf eine Netzwerkzeit erlangt wird.
Objektverfolgungssystem nach Anspruch 5 bis 9, wobei die zeitliche Synchronisierung anhand von Zeitstempeln der Ausgabe jedes der Tiefensensoren erlangt wird.
Objektverfolgungsverfahren, umfassend: Einsetzen von Tiefensensoren, sodass sie mindestens ein nahezu kontinuierliches Sichtfeld (FOV) aufweisen; räumliches und zeitliches Synchronisieren der Tiefensensoren mit Weltkoordinaten und einer Bezugszeit; Erheben von Tiefenpunkten von jedem Tiefensensor; Umwandeln der Tiefenpunkte in Tiefenpunkte der Weltkoordinaten; Projizieren der Tiefenpunkte der Weltkoordinaten auf eine Ebene; und Ausführen von Datenzuordnung in Bezug auf die Projektion der Tiefenpunkte der Weltkoordinaten auf sequentielle Karten der Ebene während des Verlaufs der Bezugszeit zum Entfernen von Ausreißertracklets, die durch projizierte Tiefenpunkte auf einer relativ kleinen Anzahl der Karten ausgebildet sind, und zum Gruppieren von verbleibenden Tracklets, die durch projizierte Tiefenpunkte auf einer relativ großen Anzahl der Karten ausgebildet sind.
Objektverfolgungsverfahren nach Anspruch 12, wobei das Einsetzen umfasst, dass die Tiefensensoren in einem Netzwerk innerhalb einer Struktur eingesetzt werden, die dazu ausgebildet ist, einen Objektverfolgungsbereich zu definieren, sodass das nahezu kontinuierliche FOV mindestens einen Abschnitt des Objektverfolgungsbereichs überlappt.
Objektverfolgungsverfahren nach Anspruch 12, wobei das Einsetzen umfasst, dass die Tiefensensoren so eingesetzt werden, dass sie ein kontinuierliches FOV aufweisen.
Objektverfolgungsverfahren nach Anspruch 12, 13 oder 14, wobei das räumliche Synchronisieren der Tiefensensoren mit den Weltkoordinaten umfasst, dass jeder der Tiefensensoren auf die Weltkoordinaten kalibriert wird.
Objektverfolgungsverfahren nach Anspruch 12, 13 oder 14, wobei das zeitliche Synchronisieren der Tiefensensoren mit der Bezugszeit eines oder mehrere von Verknüpfen mit einer Netzwerkzeit und Zeitstempeln einer Ausgabe jedes der Tiefensensoren umfasst.
Objektverfolgungsverfahren nach Anspruch 12 bis 16, wobei die relativ kleine und große Anzahl der Karten aktualisierbar sind.
Objektverfolgungsverfahren nach Anspruch 12 bis 17, ferner umfassend Ausführen einer Nächster-Nachbar-Suche zum Gruppieren der verbleibenden Tracklets.
Objektverfolgungsverfahren nach Anspruch 12 bis 18, wobei das Umwandeln der Tiefenpunkte in die Tiefenpunkte der Weltkoordinaten umfasst, dass jeder der Tiefenpunkte in die Tiefenpunkte der Weltkoordinaten umgewandelt wird.
Objektverfolgungsverfahren nach Anspruch 19, ferner umfassend Ausführen eines Formmodells zum Aggregieren mehrerer Punkte mit einer räumlichen Verteilung zur anschließenden Projektion oder zum Aggregieren mehrerer projizierter Punkte in einen Punkt zum anschließenden Verfolgen.