DE102022132217A1

DE102022132217A1 - Personenerkennung

Info

Publication number: DE102022132217A1
Application number: DE102022132217.3A
Authority: DE
Inventors: Christian Käsbohrer; Tobias Ruf; Carlo Cascio; Nicolas Seppich; David Ng; Jonas Guido Mayr; Benny Bühler; Gerhard Helfrich
Original assignee: Wanzl GmbH and Co KgaA
Current assignee: Wanzl GmbH and Co KgaA
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2024-06-06

Abstract

Verfahren zur Verfolgung von einer oder mehreren Personen in einem Raum mit den Schritten: Aufnehmen von Bilddaten mit Mehrfachansichten des Raums; Übertragen der Bilddaten an eine Informationsverarbeitungseinheit; Erstellen einer Vielzahl von zweidimensionalen Definitionsmengen aus den Bilddaten unter Verwendung eines neuronalen Netzwerks, insbesondere eines faltenden neuronalen Netzwerks, wobei die zweidimensionalen Definitionsmengen Schwerpunkte an Gelenkpositionen der einen oder der mehreren Personen aufweisen; Konstruieren eines aggregierten Merkmalsvolumens durch eine Rückprojektion der Vielzahl von zweidimensionalen Definitionsmengen auf einen 3D-Voxelraum; Extrahieren jeweils eines 3D-Modells für die eine oder die mehreren Personen aus dem aggregierten Merkmalsvolumen; sowie Verfolgen der einen oder mehreren Personen über die Zeit anhand einer definierten Untermenge des 3D-Modells für die eine oder die mehreren Personen.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Verfolgung von einer oder mehreren Personen in einem Raum sowie ein entsprechendes Informationsverarbeitungsgerät. Insbesondere sind das Verfahren und das Informationsverarbeitungsgerät für die Anwendung in einem Selbstbedienungseinkaufsladen vorgesehen.
Selbstbedienungseinkaufsläden sollen in der Zukunft an sieben Tagen in der Woche für 24 Stunden geöffnet sein, um Kunden den Einkauf zu ermöglichen. Die Kunden sollen hierbei einen normalen Einkauf tätigen können, allerdings ohne die Notwendigkeit mit Personal interagieren zu müssen. Zukünftige Selbstbedienungseinkaufsläden basieren daher auf einem im Wesentlichen personalfreien Ansatz, woraus sich neue Anforderungen an die Warenkorbpflege und den Bezahlvorgang ergeben.
Ein wesentlicher Aspekt spielt hierbei eine eindeutige und zuverlässige Erkennung und Verfolgung von Personen, die sich in der Einkaufsfläche aufhalten. Aus dem Stand der Technik sind hierzu verschiedene Ansätze bekannt, die mit Hilfe von künstlicher Intelligenz das Erkennen von mehreren Personen in einem Raum anhand von Bildaufnahmen ermöglichen. Die Grundlage hierfür bilden Verfahren des maschinellen Sehens zur Schätzung der Körperhaltung von Gelenkkörpern. Ein entsprechender Ansatz ist bspw. in dem Fachartikel „Multi-Stage HRNet: Multiple Stage High-Resolution Network for Human Pose Estimation" (https://arxiv.org/pdf/1910.05901.pdf) beschrieben.
Für den praktischen Einsatz der bekannten Technologien in einem Selbstbedienungseinkaufsladen besteht die Herausforderung darin, ein robustes Ende-zu-Ende-System anzugeben, welches auf die Bedingungen eines Selbstbedienungseinkaufsladen eingerichtet ist, sich kostengünstig realisieren lässt, eine Anpassung an unterschiedliche Szenarien ermöglicht sowie Möglichkeiten zur Skalierung aufweist. Es ist folglich eine Aufgabe der vorliegenden Erfindung, ein Verfahren sowie eine Vorrichtung anzugeben, mit denen sich die besagten Herausforderungen lösen lassen.
Gemäß einem Aspekt der vorliegenden Erfindung wird diese Aufgabe gelöst durch ein Verfahren zur Identifizierung und Verfolgung von einer oder mehreren Personen in einem Raum mit den Schritten:

- Aufnehmen von Bilddaten mit Mehrfachansichten des Raums;
- Erstellen einer Vielzahl von zweidimensionalen Definitionsmengen aus den Bilddaten unter Verwendung eines neuronalen Netzwerks, insbesondere eines faltenden neuronalen Netzwerks, wobei die zweidimensionalen Definitionsmengen Schwerpunkte an Gelenkpositionen der einen oder der mehreren Personen aufweisen;
- Konstruieren eines aggregierten Merkmalsvolumens durch eine Rückprojektion der Vielzahl von zweidimensionalen Definitionsmengen auf einen 3D-Voxelraum;
- Extrahieren jeweils eines 3D-Modells für die eine oder die mehreren Personen aus dem aggregierten Merkmalsvolumen; sowie
- Verfolgen der einen oder mehreren Personen über die Zeit anhand einer definierten Untermenge des 3D-Modells für die eine oder die mehreren Personen.

Gemäß einem weiteren Aspekt wird diese Aufgabe gelöst durch ein Informationsverarbeitungsgerät zur Verfolgung von einer oder mehreren Personen in einem Raum, wobei das Informationsverarbeitungsgerät dazu eingerichtet ist, Bilddaten mit Mehrfachansichten des Raums zu empfangen, aus den Bilddaten unter Verwendung eines neuronalen Netzwerks, insbesondere eines faltenden neuronalen Netzwerks, eine Vielzahl von zweidimensionalen Definitionsmengen zu erstellen, die Schwerpunkte an Gelenkpositionen der einen oder der mehreren Personen aufweisen, durch eine Rückprojektion der Vielzahl von zweidimensionalen Definitionsmengen auf einen 3D-Voxelraum ein aggregiertes Merkmalsvolumen zu konstruieren, aus dem aggregierten Merkmalsvolumen jeweils ein 3D-Modell für die eine oder die mehreren Personen zu extrahieren, sowie über die Zeit anhand einer definierten Untermenge des 3D-Modells die einen oder mehreren Personen in dem Raum zu verfolgen.
Es ist somit eine Idee der vorliegenden Erfindung, Verfolgung, einschließlich Identifizierung, von einer oder mehreren Personen in einem Raum durch Hintereinanderschalten mehrerer KI-Algorithmen zu realisieren, die als Eingabe Bilddaten mit Mehrfachansichten des Raums erwarten.
In einem ersten Schritt werden durch ein neuronales Netz aus den Bilddaten 2D-Posen erfasst, die in sogenannten Heatmaps (zweidimensionale Definitionsmengen) wiedergegeben werden. Anschließend wird ein aggregiertes Merkmalsvolumen durch eine Projektion der 2D-Posen-Heatmaps auf einen gemeinsamen diskretisierten 3D-Raum erstellt. Aus dem Merkmalsvolumen können dann, ebenfalls unter Anwendung eines neuronalen Netzwerks, 3D-Modelle der einzelnen sich im Raum aufhaltenden Personen generiert werden.
Das Verfolgen (Tracken) der Personen erfolgt schließlich anhand der 3D-Modelle, jedoch vorteilhaft nur anhand einer definierten Untermenge des jeweiligen 3D-Modells. Die Untermenge kann bspw. jeweils nur ein paar wenige Gelenkpunkte des 3D-Modells umfassen, wodurch die Anwendung eines Tracking-Algorithmus vereinfacht wird, gleichzeitig jedoch ein für ein Verkaufsraumszenario ausreichendes Ergebnis erzielt wird.
Der Zusammenschluss der KI-basierten 2D/3D-Posen-Erkennung mit einem dedizierten Tracking-Algorithmus führt somit zu einem für den Anwendungsfall der Personenerkennung in einer Einkaufsfläche effizienten Ende-zu-Ende-System, das als Eingabe auf einfache Bilderfassungsgeräte zurückgreifen kann, die bei vielen Verkaufsflächen ohnehin bereits vorhanden sind. Die eingangsgenannte Aufgabe ist durch die Bereitstellung eines entsprechenden Ende-zu-Ende-Systems vollständig gelöst.
In einer weiteren Ausgestaltung kann zur Verfolgung anhand der Untermenge ein k-nächste-Nachbarn-Algorithmus ausgeführt werden. Ein k-nächste-Nachbarn-Algorithmus ist ein Verfahren, bei dem eine Klassenzuordnung unter Berücksichtigung seiner k nächsten Nachbarn vorgenommen wird. In einer bevorzugten Ausgestaltung kann k den Wert 1 annehmen. Der Algorithmus ist besonders gut geeignet, aus der Untermenge der 3D-Modelldaten, die im Wesentlichen Raumkoordinaten darstellen, repräsentative Gruppen zu bilden, um ein effizientes Unterscheiden und Tracken von einzelnen Personen zu ermöglichen. Die Ausgestaltung trägt somit vorteilhaft zu einer weiteren Verbesserung des Trackings bei.
Ferner kann in einer weiteren Ausgestaltung ein prädikatives Schätzverfahren eingesetzt werde. Ein prädikatives Schätzverfahren kann eine Vorhersage über ein mögliches Fortschreiten einzelner Gelenkpunkte über die Zeit treffen und diese Vorhersage bei einer Gruppierung einfließen lassen, bspw. in Form einer Plausibilitätskontrolle. Durch die Vorhersage kann auch eine Fokussierung auf bestimmte Teilbereiche stattfinden, wodurch sich ein Rechenaufwand reduzieren lässt.
Insbesondere kann ein solches Schätzverfahren auf einem Kalman-Filter basieren, einem Schätzverfahren, das effektiv auch bei fehlerhaften Beobachtungen brauchbare Vorhersagen verschiedener Parameter treffen kann und hierzu bspw. bekannte Beziehungen zwischen einzelnen Systemgrößen einfließen lässt. Über einen Kalman-Filter können bspw. Bewegungsgleichungen in die Vorhersage einfließen oder anderweitig bekannte Systeminformation, wie bspw. das Wissen darüber, dass Personen in einem Verkaufsraum üblicherweise auf dem Boden laufen und bestimmte Gelenkpositionen daher in definierten Bereichen zu erwarten sind. Der Einsatz von Kalman-Filtern ermöglicht somit ein genaueres Tracking, das sich effizient umsetzen lässt, da die mathematische Struktur von Kalman-Filtern grundsätzlich den Einsatz in Echtzeitsystemen erlaubt.
In einer weiteren Ausgestaltung kann zur Verfolgung ferner ein Re-Identifizierungsalgorithmus ausgeführt werden, insbesondere ein Algorithmus, der auf Deep Learning basiert, wie ein DeepSORT-Algorithmus und/oder ein StrongSORT-Algorithmus. Re-Identifizierungsalgorithmen sind Algorithmen, die ein einmal erkanntes Objekt anhand bestimmter Merkmale kodieren, ähnlich einem Fingerabdruck, und das Objekt in einer veränderten Situation anhand der kodierten Merkmale wiedererkennen. SORT-(Simple Online and Realtime Tracking)-Algorithmen sind hierfür bekannte, einfache und effiziente Algorithmen, die mittels Kalman-Filterung Überlappungen bestimmen können. DeepSORT und StrongSORT erweitern diesen Ansatz durch die Nutzung neuronaler Netzwerke und Deep Learning, um noch präzisere Ergebnisse zu erzielen. Beide Verfahren sind besonders geeignet, um auf den Daten der Untermenge der 3D-Modelle effizientes und effektives Tracking zu ermöglichen.
In einer weiteren Ausgestaltung kann zur Verfolgung ergänzend das aggregierte Merkmalsvolumen ausgewertet werden. Das aggregierte Merkmalsvolumen enthält umfangreiche Informationen zur Erkennung von Personen im 3D-Raum einschließlich der kodierten Standortinformationen der Gelenkpositionen aus den 2D-Heatmaps. Dieses Wissen kann zusätzlich in die Tracking-Algorithmen einfließen und präziseres Tracking ermöglichen. Da das aggregierte Merkmalsvolumen grundsätzlich in dem beschriebenen Verfahren erzeugt wird, kann es ohne großen Aufwand zusätzlich zu den 3D-Modelldaten beim Tracking verwendet werden. Diese Ausgestaltung trägt somit ebenfalls vorteilhaft zu einem verbesserten Tracking bei.
In einer weiteren Ausgestaltung werden zur Aufnahme der Bilddaten eine Vielzahl von über den Raum verteilten Kameras eingesetzt, insbesondere 2D-Kameras. Die Bilddaten können somit von einfachen Videokameras, bspw. 2D-Videokameras bereitgestellt werden. Dies hat den Vorteil, dass für das beschriebene Verfahren auf bereits vorhandene Überwachungseinrichtungen in einem Verkaufsraum zurückgegriffen werden kann, die oftmals bereits einfache 2D-Kameras zur Überwachung aufweisen. Selbst wenn zur Verbesserung der Auswerteergebnisse weitere Kameras hinzugefügt werden müssen, kann dies auf einfache Weise in eine bestehende Struktur erfolgen, wodurch sich ein Installationsaufwand reduziert. Die Ausgestaltung trägt somit ebenfalls zu einer effizienten und kostengünstigen Realisierung bei.
Alternativ oder ergänzend können auch Spezialkameras, wie bspw. LiDAR-(Light detection and ranging)-Kameras oder ToF-(Time of Flight)-Kameras, eingesetzt werden, die neben 2D-Bilddaten auch 3D-Information einer aufgenommenen Szene bereitstellen.
Bevorzugt kann vor der Aufnahme der Bilddaten eine Kalibrierung der verteilten Kameras erfolgen. Mittels der Kalibrierung können zusätzliche Informationen über die Bilder und die Bildinhalte generiert werden, die bei der anschließenden Auswertung durch die Kl-Algorithmen vorteilhaft mit eingebracht werden können. Die Kalibrierung kann hierbei einmalig während der Installation des Systems oder aber kontinuierlich erfolgen, um Veränderungen an der Umgebung effektiv berücksichtigen zu können. Insbesondere kann die die Kalibrierung anhand von im Raum verteilten, insbesondere am Boden ausgelegten, Markern erfolgen. Diese lassen sich ohne großen Kostenaufwand auch bei vorhandenen Systemen ergänzen und können dazu beitragen, Positionsinformationen zuverlässiger zu ermitteln. Besonders bevorzugt können anhand von Bildern der verteilten Kameras sowie bekannten Positionen der Marker die Kamerapositionen der im Raum verteilten Kameras bestimmt werden.
In einer weiteren Ausgestaltung kann zur Extraktion der jeweiligen 3D-Modelle aus dem aggregierten Merkmalsvolumen ein weiteres neuronales Netzwerk angewandt werden. Bspw. kann das weitere neuronale Netzwerk zunächst Raumquader, insbesondere Raumquader mit festgelegter Größe und Orientierung, für die eine oder die mehreren Personen bestimmen. Ferner kann zur Extraktion der jeweiligen 3D-Modelle das aggregierte Merkmalsvolumen auf drei zueinander orthogonale 2D-Ebenen projektziert werden, um zunächst partielle Teilkoordinaten der Gelenkpositionen zu schätzen, die anschießend durch ein weiteres kleineres neuronales Netz zu 3D-Gelenkpositionen fusioniert werden. Diese Ausgestaltungen tragen dazu bei, aus dem aggregierten Merkmalsvolumen möglichst effizient 3D-Modelle der einzelnen Personen im Raum zu extrahieren, und verbessern so die Echtzeitfähigkeit des Gesamtsystems.
Es versteht sich, dass die voranstehend genannten und die nachstehend noch zu erläuternden Merkmale nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar sind, ohne den Rahmen der vorliegenden Erfindung zu verlassen.
Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden in der nachfolgenden Beschreibung näher erläutert.

1 zeigt in einer schematischen Ansicht ein Anwendungsszenario für ein Verfahren und eine Vorrichtung gemäß einem Ausführungsbespiel der vorliegenden Erfindung.
2 zeigt in einer schematischen Ansicht den modularen Aufbau eines Ausführungsbeispiel einer Verarbeitungspipeline.
3 zeigt ein 3D-Modell eines menschlichen Skeletts.

1 zeigt ein Beispiel für einen Verkaufsraum eines Selbstbedienungsladens mit einer quadratischen Grundfläche 12. Über einen Eingang 14 und einen Ausgang 16 können Kunden den Verkaufsraum 10 betreten und wieder verlassen. Einkaufswaren sind in Regalen 18 verstaut, die hier an den Wänden des Verkaufsraum 10 angeordnet sind. Ferner kann ein automatisches Kassensystem 19 (Self-Checkout) in dem Verkaufsraum 10 platziert sein, an dem Kunden Waren bezahlen können.
An der Decke des Verkaufsraums 10 sind eine Vielzahl von Kameras 20 angeordnet, die den Verkaufsraum aus verschiedenen Perspektiven aufnehmen. Die Kameras 20 können einfache Videokameras sein, die zweidimensionale Bilder kontinuierlich aufnehmen und in entsprechende elektrische Signale umwandeln. Die Kameras 20 können unterschiedliche Typen aufweisen und neben Standardkameras auch Kameras mit Weitwinkel- oder Fischaugenobjektiven umfassen. Bei den Kameras 20 kann es sich um bereits vorhandene Kameras, bspw. eines Überwachungssystems des Verkaufsraums, oder um dedizierte Kameras für die Personenerkennung und -verfolgung handeln. Denkbar ist auch, dass die vorhandenen und dedizierte Kameras in Kombination verwendet werden und gemeinsam das Verfahren zur Identifizierung und Verfolgung mit Bilddaten speisen. In der Praxis hat sich gezeigt, dass für eine Verkaufsfläche von 50m² mit 30 2D-Kameras ein zufriedenstellendes Ergebnis erreicht werden kann.
Neben den Kameras können in dem Verkaufsraum 10 auch eine Vielzahl von Markern 22 vorgesehen sein, die an definierten Orten in dem Verkaufsraum 10 in einem Erfassungsbereich der Vielzahl von Kameras platziert sind. Bei den Markern 22 kann es sich um einfache Kennzeichnungen handeln, die am Boden oder den Wänden befestigt sind und die von den Kameras „gesehen“ werden. Die Marker 22 können aktive oder passive Marker sein. Erstere können bspw. Leuchtmittel sein, die aktiv ein Lichtsignal im sichtbaren oder nicht-sichtbaren Bereich aussenden. Die Marker können an definierten Positionen oder in einem definierten Muster angeordnet sein. Durch Identifizieren der Marker 22 in den Bilddaten der Kameras 20 sowie durch das Wissen über die räumliche Anordnung der Marker 22 im Verkaufsraum 10 kann eine relative oder absolute Position der aufnehmenden Kameras durch eine geeignete Bildauswertung bestimmt werden. Dies hat unter anderem den Vorteil, dass die Kameras 20 nicht an festgelegten Positionen angeordnet sein müssen, sondern ihre Position nachträglich bestimmbar ist.
Die von den Kameras 20 aufgenommenen Bilddaten werden an ein Informationsverarbeitungsgerät 100 übertragen. Das Informationsverarbeitungsgerät kann ein dedizierte oder virtuelle Recheneinheit, ein zentraler Server oder eine Cloud-Anwendung sein. Das Informationsverarbeitungsgerät ist dazu eingerichtet, anhand der Bilddaten eine oder mehrere Personen in dem Verkaufsraum 10 zu identifizieren, von anderen zu unterscheiden und zu verfolgen. Identifizieren bedeutet hierbei, dass das Informationsverarbeitungsgerät 100 dazu eingerichtet ist, eine Person im Raum eine Kennung zuzuordnen. Voneinander zu unterscheiden, bedeutet insofern, dass die zugeordnete Kennung eindeutig ist. Mit Verfolgen (Tracking) ist hier gemeint, dass das Informationsverarbeitungsgerät 100 über die Zeit derselben Person kontinuierlich die gleiche Kennung zuordnet. Die hierfür erforderliche Datenverarbeitung wird nachfolgend noch näher anhand der 2 erläutert.
Das Informationsverarbeitungsgerät 100 kann die aus den Bilddaten ermittelten Daten bezüglich der Personen beispielsweise an das automatische Kassensystem 19 weiterleiten, sodass dieses einen Bezahlvorgang einem Benutzer zuordnen kann. Denkbar ist auch, dass das Informationsverarbeitungsgerät 100 die Daten für ein Warenverwaltungssystem zur Verfügung stellt, welches aufgrund dieser Informationen eine Warenentnahme einem Benutzer zuordnen kann. Grundsätzlich kann das Informationsverarbeitungsgerät 100 auch selbst dazu eingerichtet sein, diese weitergehenden Aufgaben der Anschlusssysteme selbst durchzuführen.
2 zeigt in einer schematischen Ansicht den modularen Aufbau einer Verarbeitungspipeline 110, wie sie von dem Informationsverarbeitungsgerät 100 ausgeführt werden kann.
Bei den einzelnen Modulen der Verarbeitungspipeline 110, wie sie in 2 dargestellt ist, kann es sich im Wesentlichen um Softwaremodule handeln, die jeweils eine bestimmte Aufgabe in der Datenverarbeitung übernehmen. Denkbar ist jedoch auch, dass einzelne Module durch dedizierte Hardware realisiert werden, um die Verarbeitungsgeschwindigkeit zu erhöhen. Ebenso können einige Module auch außerhalb des Informationsverarbeitungsgeräts 100 realisiert sein, beispielsweise als Cloud-Anwendung oder Dienst, der über ein Netzwerk mit dem Informationsverarbeitungsgerät 100 verbunden ist.
An den Eingang der Verarbeitungspipeline 110 sind die einzelnen Kameras 20 angeschlossen. Die Kameras 20 können kabelgebunden oder kabellos mit dem Informationsverarbeitungsgerät 100 verbunden sein, um die aufgenommenen Bilddaten kontinuierlich an die Verarbeitungspipeline 100 zu transferieren.
Ein erstes Modul 120 (Kalibrierungsmodul) der Verarbeitungspipeline 110 kann eingerichtet sein, einen Kalibrierungsvorgang durchzuführen. Hierbei können verschiedene Algorithmen die eingegangenen Bilddaten analysieren und mithilfe der aufgenommenen Marker 22 Informationen über die Position der einzelnen Kameras bereitstellen. Das erste Modul 120 kann diese Informationen an die nachfolgenden Module der Verarbeitungspipeline 110 weiterleiten. Ergänzend können dem ersten Modul 120 Informationen über die Markerpositionen bereitgestellt werden. Die Kalibrierung durch das erste Modul 120 kann einmalig bei der Installation des Systems erfolgen, woraufhin die Bilddaten anschließend direkt an die nachfolgenden Module der Verarbeitungspipeline 110 übertragen werden. Alternativ kann die Kalibrierung auch kontinuierlich erfolgen, um auf Änderungen im Systemaufbau unmittelbar reagieren zu können.
Ein zweites Modul 130 (Vorverarbeitungsmodul) kann eine Vorverarbeitung der Bilddaten vornehmen. Hierbei kann es sich beispielsweise um Bildverarbeitungsschritte handeln, die die Bilder der einzelnen Kameras 20 vereinheitlichen oder in anderer geeigneter Weise für die nachfolgende Auswertung aufbereiten. Unter anderem kann bei der Vorverarbeitung auch eine Skalierung der Bilddaten stattfinden, um die nachfolgende Auswertung aufgrund einer reduzierten Datenmenge zu beschleunigen.
Ein drittes, viertes und fünftes Modul bilden den Kern des Verfahrens zur Identifizierung und Verfolgung von mehreren Personen in dem Verkaufsraum und verarbeiten kontinuierlich die Bilddaten.
Das dritte Modul 140 (2D-Pose-Estimation-Modul) wendet ein neuronales Netzwerk, insbesondere ein faltendes neuronales Netzwerk (engl. Convolutional Neural Network (CNN)), um zu den Bilddaten Heatmaps (zweidimensionale Definitionsmengen) zu generieren, die Schwerpunkte hervorheben, an denen Gelenkspositionen von Menschen vermutet werden. Das neuronale Netzwerk kann beispielsweise das in dem eingangsgenannten Fachartikel „Multi-Stage HRNet: Multiple Stage High-Resolution Network for Human Pose Estimation"sogenannte" beschriebene HRNet sein, das auf diese Aufgabenstellung trainiert worden ist. Mit Gelenkspositionen sind hierbei im Wesentlichen Körperteile bezeichnet, die das trainierte neuronale Netzwerk aus der Vielzahl von eingegebenen Bildern erkennt. Das neuronale Netzwerk des dritten Moduls 140 kann vorab mit einem Satz Trainingsdaten trainiert sein, sich jedoch auch kontinuierlich anhand der zugeführten Bilddaten weiter trainieren.
Die im dritten Modul 140 erzeugten Heatmaps werden anschließend an das vierte Modul 150 (3D-Pose-Estimation-Modul) übergeben. Im vierten Modul 150 werden die zweidimensionalen Heatmaps der Vielzahl von Kameras auf einen dreidimensionalen Raum (3D-Voxelraum) projiziert. Hierbei wird ein aggregiertes, dreidimensionales Merkmalsvolumen erzeugt. Das Merkmalsvolumen enthält umfangreiche Informationen zur Erkennung von Personen im 3D-Raum einschließlich der kodierten Standortinformationen der Gelenkpositionen aus den 2D-Heatmaps.
Aus dem Merkmalsvolumen werden anschließend 3D-Modelle für einzelne Personen im Raum extrahiert. Hierbei können in einem ersten Teilschritt, ebenfalls unter Verwendung eines neuronalen Netzwerks, Raumquader bestimmt werden, innerhalb derer eine Person vermutet wird. Anschließend können die einzelnen Quader einer näheren Analyse unterzogen werden, um die 3D-Gelenkpositionen der erfassten Person zu bestimmen. Auch hierfür kann ein auf diese Aufgabe trainiertes neuronales Netzwerk verwendet werden.
Zur weiteren Vereinfachung kann zudem die Extraktion der 3D-Modelle dadurch vereinfacht werden, dass das aggregierte Merkmalsvolumen zunächst auf drei zueinander orthogonale 2D-Ebenen projiziert wird, um partielle Teilkoordinaten xy, xz, yz zu schätzen, um diese anschließend durch ein weiteres kleineres neuronales Netzwerk zu fusionieren, um die dreidimensionalen Gelenkspositionen xyz zu erhalten. Durch dieses Vorgehen kann der Rechenaufwand für die Extraktion der 3D-Modelle vorteilhaft reduziert werden.
Die 3D-Modelldaten werden kontinuierlich an ein fünftes Modul 160 (Trackingmodul) übergeben. Das fünfte Modul 160 ist dafür zuständig, die für die weitere Verarbeitung, beispielsweise durch das Kassensystem oder das Warenverwaltungssystem, benötigten Daten aus den kontinuierlich bereitgestellten 3D-Modellen zu extrahieren und bereitzustellen. Hierfür wendet das fünfte Modul 160 ein, vorzugsweise mehrschichtiges, Trackingverfahren an. Das Trackingverfahren ist dabei so eingerichtet, dass es vorteilhaft nur eine Untermenge des 3D Modells betrachtet, um die für die Anschlusssysteme notwendige Information zur Verfügung zu stellen.
Die Untermenge kann beispielsweise nur wenige Gelenkpositionen oder sogar nur eine Gelenkposition umfassen, die von dem Trackingverfahren fortlaufend verfolgt wird. In einer Ausgestaltung kann es beispielsweise ausreichend sein, lediglich die Gelenkposition der Hüfte zu verfolgen, da sich diese bei einem Einkaufsvorgang gewöhnlich in einer definierten Weise verändert im Gegensatz zu anderen Gelenkpositionen wie beispielsweise die der Arme und Beine. Es versteht sich, dass die Einschränkung auf die Hüfte nur exemplarisch zu verstehen ist und auch andere Untermengen gebildet werden können. Für das Verfahren wesentlich ist lediglich, dass sich auf eine bestimmte Untermenge eingeschränkt wird.
Auf die Untermenge kann im fünften Modul 160 bspw. ein k-nächste-Nachbarn-Algorithmus angewandt werden, der bei der Unterscheidung von Personen durch ein schnelles Clustering unterstützt. Ferner kann das Tracking durch Kalman-Filter flankiert werden, welche beim Tracking mögliche Veränderungen der 3D-Modelldaten prädiziert, sodass eine Berechnung auf einen vorhergesagten Bereich konzentriert werden kann. Schließlich ist es möglich, dass das fünfte Modul 160 zusätzlich zu den 3D-Modelldaten auf das mit umfangreichen Informationen angereicherte Merkmalsvolumen zurückgreift, um die Auswertung weiter zu verfeinern. Hierfür können ebenfalls wieder Kalman-Filter zum Einsatz kommen.
Am Ende der Verarbeitungspipeline 110 ist eine Ausgabe 170 vorgesehen, die die extrahierten Informationen an Anschlusssysteme ausgibt. Bei der Ausgabe kann es sich insbesondere um die kontinuierliche Ausgabe von Kennungen und Positionsdaten handeln, anhand derer die Anschlusssysteme mit den verschiedenen Personen im Verkaufsraum 10 „interagieren“ können. Beispielsweise ist es möglich, dass anhand dieser Informationen ein Warenverwaltungssystem festlegen kann, welche Waren eine Person aufgenommen hat, woraufhin ein Kassensystem dem Kunden eine entsprechende Rechnung stellen kann, wenn dieser einen Checkout-Bereich betritt oder den Laden verlässt. Es versteht sich, dass dieser Anwendungsfall nur exemplarisch zu verstehen ist und weitere Anwendungen möglich sind. Denkbar ist auch, dass neben der hier beschriebenen Ausgabe weitere Daten, die bspw. bei Zwischenschritten der Verarbeitungspipeline 110 generiert werden, ebenfalls an Anschlusssysteme weitergebenen werden.
3 zeigt in einer schematischen Darstellung ein 3D-Modell einer Person, wie es bei dem vorliegenden Verfahren zur Anwendung kommen kann. Das Modell besteht im Wesentlichen aus einer Vielzahl von Knoten, die Gelenkpunkte/Körperteile repräsentieren, sowie Kanten, die die Knoten in sinnvoller Weise verbinden. Die Knoten und Kanten stellen ein Skelett des menschlichen Körpers dar.
Im vorliegenden Beispiel umfasst das Modell 15 Knoten und 13 Kanten. Für jeden Knoten können die 3D-Modelldaten, die durch die Verarbeitungspipeline 110 kontinuierlich bestimmt werden, verschiedene Informationen, insbesondere Raumkoordinaten (3D-Gelenkpositionen), enthalten.
Das vereinfachte Tracking beruht nun darauf, nur bestimmte Gelenkpunkte der einzelnen 3D-Modelle über die Zeit zu verfolgen. Bevorzugt können das die hier schraffiert dargestellten Gelenkpunkte des unteren Torsos und der linken und rechten Hüfte sein, oder aber nur einzelne dieser Gelenkpunkte. Indem das Tracking auf diese Untermenge beschränkt wird, ist ein einfaches und gleichzeitig effektives Tracking in Echtzeit auch bei einer größeren Anzahl von Personen möglich. Das Tracking kann wie vorstehend beschrieben mehrschichtige erfolgen, sodass zusätzlich Informationen herangezogen werden können, falls das Tracking anhand der Untermenge beispielsweise eine definierte Fehlermenge überschreitet.
Es versteht sich, dass das Verfahren nicht auf das hier gezeigte 3D-Modell beschränkt ist und auch andere Repräsentationen des menschlichen Körpers verwendet werden können. Für eine effiziente und zuverlässige Erkennung hat sich jedoch die Verwendung eines 3D-Modells mit 13 bis 17 Gelenkpunkt als vorteilhaft herausgestellt.
Abschließend ist noch zu beachten, dass Elemente der offengelegten Geräte und Systeme durch entsprechende Hardware- und/oder Softwareelemente, z. B. geeignete Schaltungen, implementiert werden können. Eine Schaltung ist eine strukturelle Anordnung elektronischer Komponenten, einschließlich herkömmlicher Schaltungselemente, integrierter Schaltungen, einschließlich anwendungsspezifischer integrierter Schaltungen, integrierter Standardschaltungen, anwendungsspezifischer Standardprodukte und feldprogrammierbarer Gate-Arrays. Darüber hinaus umfasst eine Schaltung Zentraleinheiten, Grafikverarbeitungseinheiten und Mikroprozessoren, die entsprechend einem Softwarecode programmiert oder konfiguriert werden. Eine Schaltung umfasst keine reine Software, obwohl eine Schaltung die oben beschriebene Hardware umfasst, die Software ausführt.
Der Schutzbereich der vorliegenden Erfindung wird durch die nachfolgenden Ansprüche bestimmt und wird durch die in der Beschreibung erläuterten oder in den Figuren gezeigten Merkmale nicht beschränkt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

Multi-Stage HRNet: Multiple Stage High-Resolution Network for Human Pose Estimation“ (https://arxiv.org/pdf/1910.05901.pdf [0003]

Claims

Verfahren zur Verfolgung von einer oder mehreren Personen in einem Raum mit den Schritten: - Aufnehmen von Bilddaten mit Mehrfachansichten des Raums; - Erstellen einer Vielzahl von zweidimensionalen Definitionsmengen aus den Bilddaten unter Verwendung eines neuronalen Netzwerks, insbesondere eines faltenden neuronalen Netzwerks, wobei die zweidimensionalen Definitionsmengen Schwerpunkte an Gelenkpositionen der einen oder der mehreren Personen aufweisen; - Konstruieren eines aggregierten Merkmalsvolumens durch eine Rückprojektion der Vielzahl von zweidimensionalen Definitionsmengen auf einen 3D-Voxelraum; - Extrahieren jeweils eines 3D-Modells für die eine oder die mehreren Personen aus dem aggregierten Merkmalsvolumen; sowie - Verfolgen der einen oder mehreren Personen über die Zeit anhand einer definierten Untermenge des 3D-Modells für die eine oder die mehreren Personen.
Verfahren nach Anspruch 1, wobei zur Verfolgung anhand der Untermenge ein k-nächste-Nachbarn-Algorithmus ausgeführt wird.
Verfahren nach Anspruch 1 oder 2, wobei zur Verfolgung ferner ein prädiktives Schätzverfahren ausgeführt wird.
Verfahren nach Anspruch 3, wobei das prädikative Schätzverfahren auf einem Kalman-Filter basiert.
Verfahren nach einem der Ansprüche 1 bis 4, wobei zur Verfolgung ferner ein Re-Identifizierungsalgorithmus ausgeführt wird.
Verfahren nach einem der Ansprüche 1 bis 5, wobei zur Verfolgung ergänzend das aggregierte Merkmalsvolumen ausgewertet wird.
Verfahren nach einem der Ansprüche 1 bis 6, wobei zur Aufnahme der Bilddaten eine Vielzahl von über den Raum verteilten Kameras (20) eingesetzt werden.
Verfahren nach Anspruch 7, wobei die Kameras 2D-Kameras, 3D-Kameras oder eine Kombination hiervon aufweisen.
Verfahren nach Anspruch 7 oder 8, wobei vor der Aufnahme der Bilddaten eine Kalibrierung der verteilten Kameras (20) erfolgt.
Verfahren nach Anspruch 9, wobei die Kalibrierung anhand von im Raum verteilten, insbesondere am Boden ausgelegten, Markern (22) erfolgt.
Verfahren nach Anspruch 10, wobei zur Kalibrierung anhand von Bildern der verteilten Kameras (20) sowie bekannten Positionen der Marker (22) zumindest eine Kameraposition einer der im Raum verteilten Kameras (20) bestimmt wird.
Verfahren nach einem der Ansprüche 1 bis 11, wobei zur Extraktion der jeweiligen 3D-Modelle aus dem aggregierten Merkmalsvolumen ein weiteres neuronales Netzwerk angewandt wird.
Verfahren nach Anspruch 12, wobei das weitere neuronale Netzwerk zunächst Raumquader, insbesondere Raumquader mit festgelegter Größe und Orientierung, für die eine oder die mehreren Personen bestimmt.
Verfahren nach Anspruch 12 oder 13, wobei zur Extraktion der jeweiligen 3D-Modelle das aggregierte Merkmalsvolumen auf drei zueinander orthogonale 2D-Ebenen projektziert wird, um zunächst partielle Teilkoordinaten der Gelenkpositionen zu schätzen, die anschießend durch ein weiteres kleineres neuronales Netz zu 3D-Gelenkpositionen fusioniert werden.
Informationsverarbeitungsgerät zur Verfolgung von einer oder mehreren Personen in einem Raum, wobei das Informationsverarbeitungsgerät dazu eingerichtet ist, Bilddaten mit Mehrfachansichten des Raums zu empfangen, aus den Bilddaten unter Verwendung eines neuronalen Netzwerks, insbesondere eines faltenden neuronalen Netzwerks, eine Vielzahl von zweidimensionalen Definitionsmengen zu erstellen, die Schwerpunkte an Gelenkpositionen der einen oder der mehreren Personen aufweisen, durch eine Rückprojektion der Vielzahl von zweidimensionalen Definitionsmengen auf einen 3D-Voxelraum ein aggregiertes Merkmalsvolumen zu konstruieren, aus dem aggregierten Merkmalsvolumen jeweils ein 3D-Modell für die eine oder die mehreren Personen zu extrahieren, sowie über die Zeit anhand einer definierten Untermenge des 3D-Modells die einen oder mehreren Personen in dem Raum zu verfolgen.