DE202020004150U1

DE202020004150U1 - System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit

Info

Publication number: DE202020004150U1
Application number: DE202020004150.5U
Authority: DE
Original assignee: Ecosoph GmbH
Current assignee: Ecosoph GmbH
Priority date: 2020-10-02
Filing date: 2020-10-02
Publication date: 2020-10-30
Anticipated expiration: 2030-10-03

Abstract

Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit mit folgenden Merkmalen:
- Eine Tiefenkamera
- Einem Cloud-Dienst
- Einem Edge-Device
- Einer Anzeigeeinheit
- Einem portablen Gerät
- Externe Sensoren
- Effizienter Zählalgorithmus für Echtzeit-Detektion von Objekten

Description

Technisches Gebiet
Das vorliegende Gebrauchsmuster betrifft den Bereich der Detektion, dem ,Tracking' (zu Deutsch Verfolgen) und der Zählung von Menschen, Tieren und von Objekten.
In den meisten schematischen Ausführungen findet das Herzstück dieser Erfindung, die Detektion der Objekte, über Methoden ohne den Einsatz von Künstlicher Intelligenz (Kl), welche dem Bereich der „Computer Vision“ (zu Deutsch Computervision) zuzuordnen sind statt. Darüber hinaus wird auch eine Ausführung offenbart, in welcher die Detektion über eine Teildisziplin der Kl, dem „Deep Learning“, umgesetzt wird. Ein entscheidender Vorteil dieses Systems für den Endnutzer entsteht dadurch, dass die entwickelte Software so optimiert wurde, dass diese auf sogenannten Edge-Devices in Echtzeit läuft. Unter Echtzeit wird dabei eine Bildwiederholungsrate gemeint, welche es erlaubt, dass der Anwender zeitlich unmittelbar auf vom System angezeigte Änderungen reagieren kann. Unter unmittelbar versteht man generell Bildwiederholungsraten von 5-30 Frames per second (=FPS zu Deutsch Bilder pro Sekunde). Dieses Intervall ist allerdings nur als Orientierungshilfe zu sehen und hängt stark vom Anwendungsfall ab. Bei der Detektion von Personen reichen niedrige Bildwiederholungsraten von 5-10FPS, bei schnell bewegten Objekten wie Pakete oder Tiere muss die Rate deutlich höher sein.
Ein Edge-Device beschreibt eine Hardware-Komponente am Rand bzw. am Ende eines Netzwerks, welches Daten generiert, verarbeitet und über Netzwerkprotokolle wie MQTT (=Message Queuing Telemetry Transport) oder http (=Hypertext Transfer Protocol) einem Cloud-Dienst zur Verfügung stellt. Mögliche Anwendungen für Edge Devices liegen in der Datenaggregation im Bereich Umweltsensoren, Sensoren jeglicher Art, smarte Haushaltsgeräte wie Kühlschränke, Waschmaschinen oder Küchenhelfer, sowie Heizkörperthermostate oder Glühbirnen. Die bekanntesten Vertreter unter den Edge Devices sind Stand September 2020 der Raspberry Pi 4 (s. Raspberry Pi Foundation in England und Wales (Nummer: 1129409) sowie die dazugehörige registrierte Firma in England und Wales mit der Nummer 06758215), der NVIDIA Jetson Nano (s. NVIDIA Corporation mit Hauptsitz in Santa Clara, Kalifornien, USA), der ESP32 von Espressif Systems mit Hauptsitz in Shanghai, China oder das Development Board von Google (s. Alphabet Inc. mit Hauptsitz im Mountain View, Kalifornien, USA). Diese Edge Devices sind in der Lage ein sogenanntes Edge Computing durchzuführen, was ein beliebter Design-Ansatz bei Netzwerkarchitekturen rund um das Internet der Dinge ist.
Edge Computing ist eine dezentrale Auslegung der Netzwerkarchitektur. Beim Edge Computing werden IT-Ressourcen wie Speicherkapazität und Rechenleistung so nah wie möglich an den datengenerierenden Endgeräten eingesetzt. Am Beispiel der im weiteren Verlauf dieser Offenbarung vorgestellten Ausführung kann das Edge Computing wie folgt ausgeführt werden: Das Edge Device sammelt Tiefendaten unmittelbar an der Stelle bzw. in der Nähe des Installationsortes. Diese Daten werden vor Ort vom Edge Device ausgewertet, was folgende Vorteile mit sich bringt. Die Rechenleistung wird dezentral verteilt, sodass nicht mehr ein zentraler Rechner die gesamte Kapazität bereitstellen muss. Diese Architektur macht das Netzwerk insgesamt robuster und darüber hinaus auch skalierbarer, denn immer mehr Edge Devices können hinzugefügt werden, ohne dass die zentrale Rechenleistung im großen Maßstab ausgebaut werden muss. Darüber hinaus ist es derzeit für viele Anwendungen, welche die Bilderfassung einschließen, entweder aufgrund einer unzureichenden Mobilfunkanbindung noch nicht möglich oder nicht wirtschaftlich, große Datenmengen drahtlos zu übertragen.
Als Sensorik zur Erfassung der Objekte werden in der Ausführung eine oder mehrere Tiefenkameras verwendet, welche entweder mit oder ohne Infrarot (IR)-Projektor und entweder mit einer oder zwei Infrarotkameras ausgeführt werden können. Zu den prominentesten Vertretern von Tiefenkameras zählen die Produkte Kinect von Microsoft, Occipital, der X-tion Pro Live von Asus und die gesamte IntelRealsense-Serie, welche alle das Prinzip der Triangulation von Bilddaten zur Tiefenmessung verwenden, allerdings im Hinblick auf die Verwendung von Projektoren und der Anzahl der Infrarotkameras unterschiedlich ausgeführt sind.
Stand der Technik und Wissenschaft
Im Folgenden wird der Stand der Technik im Hinblick auf akademische Ergebnisse zusammengefasst. Hsieh et al. haben 2012 mit dem Titel „A Kinect-Based People-flow Counting System" publiziert. Bei dieser Arbeit wurde ein Kinect Sensor von Microsoft und für damalige Verhältnisse relativ starker Rechner (i3-370M 2.4GHz mit 2.4GB RAM) verwendet (Hsieh, Wang, Wu, Chang, & Kuo, 2012). Zhang et al. veröffentlichten ebenfalls im Jahr 2012 mit dem Titel „Water Filling: Unsupervised People Counting via Vertical Kinect Sensor Xucong‟ ihre Arbeit zur Personenzählung mit Hilfe eines Microsoft Kinect-Sensors. Dabei wurde ein neuartiger Ansatz zur Detektion der Personen vorgestellt. Der Ansatz beruht darauf, lokale Minima zu finden, was eine gewisse Analogie zum Wasserfluss in der Realität aufweist. Als PC wurde ein IntelCore2 E7500 CPU mit 4GB RAM verwendet (Zhang et al., 2012). Eine ähnliche Arbeit veröffentlichte Filip Malawski im Jahr 2014. In dieser Publikation wird eine Personenzählung für den öffentlichen Personennahverkehr vorgestellt (Malawski, 2014). Die Methode des „Water Filling“ zur Bestimmung der lokalen Minima der Tiefendaten, was wiederum mit hoher Wahrscheinlichkeit mit den Köpfen von Menschen assoziiert werden kann, fand in der wissenschaftlichen Community große Beliebtheit und wurde auch noch von weiteren Gruppen aufgegriffen (Coskun, Kara, Parlaktuna, Ozkan, & Parlaktuna, 2015; Iguernaissi, Merad, & Drap, 2018). Sinha et al. veröffentlichten im Jahr 2013 mit dem Titel „Pose Based Person Identification Using Kinect‟. Die Detektion der Personen fand nicht wie bei den meisten Publikationen „Über Kopf“ statt, sondern in der Ebene (bzw. von vorne oder seitlich). Zur Detektion wurde die für Menschen charakteristische Gangart herangezogen (Sinha & Chakravarty, 2013). Bondi et al. veröffentlichten im Jahr 2014 mit dem Titel „Real-time people counting from depth imagery of crowded environments‟. Wie in den bereits vorgestellten Veröffentlichungen wurde abermals die Microsoft Kinect verwendet. Darüber hinaus wurde ein Fokus auf die Hintergrund- und Vordergrunddetektion in dieser Arbeit gesetzt (Bondi, Seidenari, Bagdanov, & Del Bimbo, 2014). Jianzhong et al. haben im Jahr 2015 mit dem Titel „Passenger Counting Based on Kinect“ veröffentlicht und bei dieser Arbeit die Tiefendaten des Microsoft Kinect Sensors mit den RGB-Daten einer herkömmlichen Videokamera kombiniert. Laut Angaben der Wissenschaftler konnte die Erfolgsquote bei der Detektion durch Kombination der beiden Technologien erhöht werden (Jianzhong, Qiuyu, Sai, & Wenjun, 2015). Li et al. haben im Jahr 2016 zum ersten Mal eine Microsoft Kinect V2-Kamera mit einem NVIDIA Jetson TK1 als Prozessor kombiniert und Personen in Echtzeit mit einem Edge Device gezählt. Bei dieser Arbeit wurde wiederum auf die Water-filling-Methode zurückgegriffen und der Fokus mehr auf die Hardware gelegt (Li, Ren, Lyu, & Zhang, 2016). Akbar Yon Agusta et al. veröffentlichten im Jahr 2016 zum sogenannten ‚Field Seeding‘ Algorithmus zur Personendetektion. Der Titel der Arbeit lautete Field Seeding Algorithm for People Counting Using KINECT Depth Image. Im Gegensatz zur beliebten „Water Filling“ Methode wurde bei diesem Ansatz keine Funktion, welche randomisierte Werte generiert verwendet. Laut Autoren ließe sich dadurch die Wahrscheinlichkeit unerwartete Ergebnisse zu erhalten reduzieren (Akbar Yon Agusta, Mittrapiyanuruk, & Kaewtrakulpong, 2016). Kuo et al. veröffentlichten im Jahr 2016 mit dem Titel „People Counting Base on Head and Shoulder Information“. Verwendet wurde eine Microsoft Kinect V2. Die Neuheit lag darin, dass auch die Form der Schultern bei der Detektion von Menschen berücksichtigt wurde (Kuo, Fan, & Lai, 2016).
Im Folgenden wird der Stand der Technik im Hinblick auf Schutzrechtanmeldungen zusammengefasst. Das Patent US9740937B2 mit dem Titel „System and method for monitoring a retail environment using video content analysis with depth sensing“ bezieht sich auf ein System zur Personenzählung für den Einzelhandel mit Hilfe von Daten eines Tiefensensors. Ein Patent aus Taiwan TWI448990B, „Real-time people counting system using layer scanning method“, bezieht sich auf ein System zur Personenzählung, welches hierarchisch unterschiedliche Schichten abtastet und Objekte detektiert. Weitere relevante Schutzrechte sind im Folgenden aufgelistet: US7688349B2 (Titel: Method of detecting and tracking groups of people), Method and apparatus for surveillance), US10009579B2 (Titel: Method and system for counting people using depth sensor), US7466844B2 (Titel: Methods and apparatus to count people appearing in an image), US20160180195A1 (Titel: Augmenting Layer-Based Object Detection With Deep Convolutional Neural Networks). CN104751491B (Titel: A kind of crowd's tracking and people flow rate statistical method and device), US9117106B2 (Titel: Use of three-dimensional top-down views for business analytics), KR100519782B1 (Titel: Method and apparatus for detecting people using a stereo camera), CA2692424C (Titel: System and process for detecting, tracking and counting human objects of interest), US9740937B2 (Titel: System and method for monitoring a retail environment using video content analysis with depth sensing), US10510219B1 (Titel: Machine learning methods and systems for managing retail store processes involving cashier-less transactions).
Technisches Problem und Zielstellung
Bisherige Systeme zur Erkennung von Menschen erreichen hohe Genauigkeiten von 98% und mehr. Kommerzielle Lösungen mit Hilfe von Tiefendaten sind bereits im Einsatz. Ein Beispiel für Anwendungen ist etwa die Zählung von Personen in Einzelhandelsgeschäften. Allerdings sind diese Geräte aufgrund der verwendeten Hardware relativ teuer, was ein Grund dafür ist, dass viele Anwender im Einzelhandel vor einer Investition zurückscheuen. Etliche Systeme verwenden auch keine Tiefendaten, sondern RGB-Bilder, was bei den Verantwortlichen sofort Bedenken bzgl. der Datenschutzkonformität und den Gesetzen der jeweiligen Einsatzländer auslöst. Stand Herbst 2020, in dem dieses Schutzrecht verfasst wurde, ist die Gesetzeslage beim Datenschutz europaweit noch nicht einheitlich geregelt und zählt zu den viel diskutierten Themen. Deshalb ist es sinnvoll für die Personenzählung auf nicht personenbezogene Daten wie etwa Tiefendaten zurückzugreifen.
Ein wichtiger Einsatzbereich ist beispielsweise auch der Einzelhandel, etwa im Fall von Pandemien. Die Inhaber bzw. die Verantwortlichen der Einzelhandelsläden müssen gewährleisten können, dass sich in ihrem Geschäft nicht mehr Personen aufhalten als behördlich zugelassen. Bei Verstößen gegen diese Verordnungen drohen in Deutschland Geldstrafen bis hin zu vorübergehenden Schließungen des Geschäfts, was ein enormes wirtschaftliches Risiko darstellt. Darüber hinaus war zu beobachten, dass einige kommerziell verfügbare Geräte trotz 98% und mehr Zählgenauigkeit nicht verlässlich genug die aktuelle Personenzahl in Läden anzeigten. Das ist darauf zurückzuführen, dass diese Genauigkeit einfach noch nicht ausreichend war, was an folgendem praxisnahen Rechenbeispiel veranschaulicht wird.
Erfahrungsgemäß finden in den Einzelhandelsfilialen in München zwischen 2000 und 10000 Betretungen am Tag statt, wobei jede einzigartige Person, welche den Laden betritt zu mindestens zwei Betretungen führt, da die Person den Laden auch wieder verlässt. Unter einer Betretung wird verstanden, dass eine Person die Linie von Interesse (line of interest) passiert. Bei einer Zählgenauigkeit von 98%, was ein für viele Systeme realistischer Maßstab ist, kommt es demnach am Tag zu 40-200 Fehlzählungen. Es wird vorkommen, dass sich die Fehler zu einem gewissen Teil wieder canceln, aber selbst dann reichen bestehende Lösungen noch nicht aus, um eine akzeptable Abweichung der automatisch ermittelten Personenanzahl von der tatsächlichen Personenanzahl anzugeben. Als akzeptabel wird eine Abweichung von 5-10% angesehen. Bei einer Filiale mit einer Personenbeschränkung von 100 entspräche die maximale Abweichung also 10 Personen. Bei 40-200 Fehlzählungen pro Tag führt die Fehlerkumulation dazu, dass die Abweichung der angezeigten Personenanzahl von der tatsächlichen an irgendeiner Stelle während der Ladenöffnung (und bei Öffnungszeiten von durchschnittlich 9-13h) zu groß wird.
Um die Abweichung der vom System gemessenen Personenanzahl von der tatsächlichen so weit zu minimieren, dass die Lösung für den Endnutzer einen Mehrwert schafft (s. vorherigen Paragraphen), muss die Zählgenauigkeit erhöht werden. Darüber hinaus sind bestehende Systeme relativ teuer wegen der verwendeten Hardware. Neuste Hardwareentwicklungen von NVIDIA und Raspberry Pi zu Einplatinencomputer für unter 100EUR (netto) ermöglichen nun Echtzeitbilderfassung- und bearbeitung. Allerdings muss dafür auch eine effiziente Software entwickelt werden, da beliebte Einplatinencomputer wie der Raspberry Pi (4GB-Version) oder der NVIDIA Jetson Nano noch bei weitem keine Rechenleistung in nahezu unbeschränktem Maße zur Verfügung stellen. Ein weiteres Ziel dieser Erfindung ist also die Entwicklung einer effizienten Zählsoftware, welche in Echtzeit auf leistungslimitierten Edge Devices betrieben werden kann.
Offenbarung der Erfindung
Vor dem beschriebenen Hintergrund wird zur Abhilfe ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit vorgestellt. Vorteilhafte Ausgestaltungen ergeben sich aus den jeweiligen Unteransprüchen und der nachfolgenden Beschreibung.
Figurenliste

Figure 1. Schematische Darstellung eines günstigen Ausführungsbeispiels des Systems zur Detektion und Zählung von Menschen, Objekten und Tieren. Das System umfasst in diesem Beispiel eine oder mehrere Tiefenkameras, ein Edge Device, eine Anzeigeeinheit, einen Cloud-Dienst sowie ein portables Gerät.
Figure 2. Schematische Darstellung eines Edge Devices am Beispiel des Raspberry Pi4. Das Edge Device ist ein Einplatinencomputer und verfügt über einen Prozessor, einen Grafikprozessor, RAM, general purpose input/output (GPIO) pins, WiFi & Bluetooth, einen Audioausgang sowie weitere in der Abbildung genannte Funktionen.
Figure 3. Schematische Darstellung einer Tiefenkamera mit zwei Infrarotkameras (links und rechts), einem Projektor und einer RGB-Kamera.
Figure 4. Schematische Darstellung der unterschiedlichen Hardwareausführungen von Tiefenkameras.
Figure 5. Schematische Darstellung des Arbeitsablaufs der Zählung.
Figure 6. Schematische Darstellung der Aufbereitung bzw. der Vorbereitung der Daten der Tiefenkamera bzw. der Tiefenkameras.
Figure 7. Unterschiedliche Verarbeitungsschritte der Tiefenkamera: Rohdaten, aufbereitete Daten und die Daten nach allen Verarbeitungsschritten.
Figure 8. Schematische Darstellung der Funktionsweise des Schicht-Algorithmus zur Detektion von Objekten.
Figure 9. Schematischer Ablauf der Zählung von Objekten.

Eine günstige Ausführung dieser Erfindung ist in Figure 1 dargestellt. Es verfügt über folgende Komponenten:

- Eine oder mehrere Tiefenkameras (101), welche unter Verwendung von Infrarotlicht und Infrarotkameras das Tiefenprofil der Umgebung erfassen und über eine Datenschnittstelle weitergeben.
- Ein Edge Devices (103), welches die Daten der Tiefenkamera entweder drahtlos oder drahtgebunden empfängt und weiterverarbeitet. Dieses Gerät führt anhand der Bilddaten mit einem entsprechenden Algorithmus die Detektion, das Tracking der Objekte sowie das Zählen bei Überschreitung einer vordefinierten Linie aus.
- Das Edge Device kommuniziert über einen Cloud-Dienst (102) wie ohne Beschränkung Microsoft Azure oder Amazon AWS oder proprietäre Lösungen mit SQL und nicht SQL-Datenbanken sowie Servern. Die Kommunikation findet über gängige Netzwerkprotokolle wie http (HyperText Transfer Protocol) oder mqtt (Message Queuing Telemetry Transport) statt.
- Ein portables Gerät (108) wie ein Smartphone, Tablet oder eine Smartwatch aber auch fest installierte Systeme wie ein Desktop-PC mit Internetzugang können über eine API (Application-Programming-Interface) Einstellungen am Zähler vornehmen und die Daten in einem grafischen Interface einsehen. Mit dem portablen Gerät kann das Edge Device auch direkt über Funk gesteuert werden.
- Die Personen (105) werden im Sichtbereich der Tiefenkameras, dem Field of View (106) detektiert und beim Übertreten einer Zähllinie oder eines Zählbereichs (107) gezählt. Je nach Installationsort kann entweder eine Linie oder ein Bereich zur Zählung gewählt werden, um die Zählgenauigkeit zu erhöhen. An dieser Stelle sei darauf hingewiesen, dass das offenbarte System nicht nur Personen, sondern auch Objekte wie Autos (110) oder auch Tiere (111) detektieren und zählen kann.
- Über eine Display- bzw. Anzeigeeinheit (104) können Informationen zur aktuellen Personen- oder Objektanzahl ausgegeben werden. Die Übertragung der Daten vom Edge Device an die Anzeigeeinheit erfolgt entweder über gängige Videostandards wie VGA, HDMI, DVI oder Displayports. Die Ansteuerung des Displays kann auch drahtlos über das Internet erfolgen. Dazu wird an der Anzeigeeinheit ein weiteres Edge Device installiert. Die Anzeigeeinheit kann ohne Beschränkung als LCD (liquid crystal display)-Display, TFT (Thin-film transistor)-Display, OLED (organic light-emitting diode)-Display, Plasma-Display oder Projektor ausgeführt werden.

Das Herzstück unter den in Figure 1 abgebildeten Hardwarekomponenten ist das Edge Devices, welches schematisch in Figure 2 am Beispiel des Raspberry Pi4 illustriert ist. Der Raspberry Pi4 ist ein sogenannter Einplatinencomputer und verfügt über die gleiche bzw. ähnliche Funktionalität wie gängige Desktop-PCs. Zur Hardwareaustattung des Raspberry Pis zählen:

- Ein Leistungsstarker Prozessor (201) (1.5GHz 64-bit tquad-core Cortex A72)
- LPDDR4 SDRam mit unterschiedlichen Kapazitäten von 1, 2, 4 und 8GB (203)
- WiFi (2.4 & 5 GHz) im IEEE 802.11.b/g/n/ac-Standard sowie Bluetooth low energy (BLE) 5.0 (214)
- General purpose input output (GPIO) pins (202).
- Sowie etliche weitere Ein- und Ausgänge wie eine GB-Ethernet-Buchse (204), 2xUSB3.0-Anschlüsse (205), 2xUSB2.0-Anschlüsse (206), HDMI-Ausgange (209 und 210), Audio-Ausgang (207), CSI-Camera-Port (208), USB-C-Anschluss (211), DSI Display Port (213) und einem SD-Kartenhalter (212).

Die Verwendung von Edge Devices in dieser Erfindung hat entscheidende Vorteile und zwar: Zum einen sind leistungsstarke Modelle sind bereits (Stand Herbst 2020) für 40-100EUR netto erhältlich. Dadurch lassen sich die Kosten für das System und für den Endnutzer so drastisch senken, dass die Hemmschwelle für eine Kaufentscheidung stark herabgesetzt wird. Zum anderen sind die Edge Devices, welche als Einplatinencomputer ausgeführt werden, besonders platzsparend. Dadurch lassen sie sich problemlos nahezu überall einsetzen. Der Stromverbrauch ist auch sehr energiesparend, so verbraucht ein RaspberryPi unter Vollast nur ca. 1.5A @5V Betriebsspannung, was einer Leistungsentnahme von 7.5W entsprecht. An dieser Stelle sei darauf hingewiesen, dass die Stromaufnahme stark abhängig von den ausgeführten Programmen, einer eventuellen Übertaktung sowie Peripheriegeräten wie Kameras, USB-Lautsprecher oder sonstiges ist. Im Folgenden wird eine kurze Übersicht über die beliebtesten Einplatinencomputer gegeben. Der in diesem Gebrauchsmuster offenbarte Algorithmus läuft auf allen genannten Edge Devices flüssig und gewährleistet eine Personendetektion und Zählung in Echtzeit.

- Raspberry Pi 4 (4GB-Version) (Preis ca. 55EUR netto bei www.conrad.de, Stand 21.09.2020)
- NVIDIA Jetson Nano (Preis ca. 100EUR netto bei www.reichelt.de, Stand 21.09.2020)
- NVIDIA Jetson XAVIER (Preis ca. 419EUR netto bei www.antratek.de, Stand 21.09.2020)
- Google Coral Development Board (Preis ca. 120EUR netto bei www.mouser.de)

In allen Ausführungsbeispielen umfasst diese Erfindung mindestens eine Tiefenkamera. Eine Tiefenkamera ist in Figure 3 schematisch am Beispiel der IntelRealSense-Serie illustriert. Das skizzierte Modell ist ein sogenanntes aktives Stereogerät und verfügt über eine linke Infrarotkamera (302), eine rechte Infrarotkamera (303), einen Infrarotprojektor (304) sowie eine RGB-Kamera (301). Für Tiefenkameras gibt es wie in Figure 4 dargestellt verschiedene Ausführungen, welche wie folgt gruppiert werden können: 1) Strukturiertes Licht, 2) Aktiv Stereo und 3) Passiv Stereo.
Strukturiertes Licht (auch Structured Light genannt) projiziert ein bekanntes Infrarotmuster mit Hilfe eines Infrarotprojektors (402) auf das zu messende Objekt (403). Die Infrarotkamera (401) zeichnet das Muster auf dem Objekt auf. Mit der nachgeschalteten Recheneinheit kann das Muster am Messpunkt genau mit dem Projektormuster korreliert werden, sodass die Distanz zum Objekt trianguliert werden kann. Die Triangulation beschreibt eine Methode zur optischen Abstandsmessung durch Winkelmessung (406) innerhalb eines Dreiecks, wobei der Abstand zwischen zwei Punkten bekannt sein muss. In dem vorliegenden Beispiel ist der Bekannte Abstand der zwischen den beiden Infrarotkameras oder zwischen Infrarotkamera und Projektor (407). Durch diese Methode kann jeder Punkt am Objekt abgetastet werden, wie in Figure 4 exemplarisch and den beiden Punkten (404 & 405) skizziert wird. Die Verwendung von Tiefenkameras, welche mit strukturiertem Licht arbeiten, hat den entscheidenden Nachteil, dass man diese nur im Haus mit wenig Sonneneinstrahlung betreiben kann, weil sonst die Infrarotstruktur mit störenden Infrarotquellen überlagert wird und das Signal-zu-Rausch-Verhältnis dadurch so weit herabgesetzt wird, dass die Infrarotkamera das Infrarotmuster nicht mehr auflösen kann. Diesem Problem kann mit der Verwendung von Stereokameras Abhilfe geschaffen werden. Diese verfügen über eine linke (408) und eine rechte (410) Tiefenkamera. Diese Tiefenkameras können entweder passiv (ohne Infrarotprojektor) oder aktiv (mit Infrarotprojektor, 409) ausgeführt werden. Prinzipiell benötigt man keine externen Infrarotquellen für den Betrieb von Stereokameras, es kann sich allerdings als nützlich erweisen, falls am Einsatzort wenig Infrarotstrahlung an den zu messenden Objekten in Richtung Kameras reflektiert wird.
Der Arbeitsablauf des Systems ist in Figure 5 skizziert. Zu Beginn werden sowohl Tiefen- als auch gegebenenfalls RGB-Daten vom Sensor ausgelesen (501). Die RGB-Daten werden als diagnostische Maßnahme verwendet, während die Tiefendaten zur Vorverarbeitung gesendet werden, um mit diesen später die Detektion und das Nachverfolgen der Objekte zu erzielen (502). Die Vorverarbeitung entfernt Rauschen, wendet eine Hintergrundsubtraktion an, um das Bild zu reinigen, und trennt Objekte, sodass diese in der späteren Detektion nicht unerwünscht zusammengefasst werden. Die verarbeiteten Tiefendaten durchlaufen dann eine Funktion zum Erfassen der Konturen (503). Jede Kontur wird dann verarbeitet und entweder beibehalten oder entfernt, je nachdem, ob sie bestimmte Bedingungen wie eine Mindestfläche oder Maximalfläche, berechnet aus der Pixelanzahl, sowie ein Aspektverhältnis (= Verhältnis aus Länge zu Breite) usw. erfüllt. Dadurch wird verhindert, dass viel zu kleine oder große Objekte bzw. Objekte deren Form nicht in Frage kommen kann für Personen (oder Tiere) detektiert werden. Alle Daten mit Ausnahme der Konturen werden im Folgenden Schritt entfernt (504) einschließlich der Hintergrundsubtraktion (505), bevor mit der Anwendung des Schicht-Algorithmus begonnen wird (506), um die Anzahl der Personen im Messbereich zu detektieren, während alle anderen Objekte (Einkaufswägen, Taschen usw.) entfernt werden. Schließlich werden die im Ebenen-Algorithmus gefundenen Personen überprüft und zum Hinzufügen (508) oder Aktualisieren (507) von Objekten verwendet, bevor mit der Anwendung der Zählalgorithmen begonnen wird (509).
Die Vorverarbeitung der Tiefenkameradaten ist in Figure 6 skizziert und durchläuft eine Reihe von Schritten. Zunächst werden Daten, die zu niedrig sind, um für die zu detektierenden Objekte in Frage zu kommen abgeschnitten (601). Dadurch dass sich die Pixelanzahl durch diesen Schritt verändert, wird die Verarbeitungszeit reduziert und es kommt zu keinen Falschdetektionen in diesem Bereich. Als nächstes wird die Farbtiefe auf 8bit (maximal 256 Werte) herunterskaliert, was für den Algorithmus völlig ausreichend ist und die Prozessgeschwindigkeit ebenfalls erhöht (602). Ein besonders effizient entworfener Algorithmus ist enorm wichtig, da die Edge-Devices sehr begrenzte Rechenkapazitäten zur Verfügung stellen. Da Tiefenkameras inhärent Rauschanfällig sind und ein Problem mit Löchern (Bereiche, in denen die Tiefe „unbekannt“ ist und daher als Tiefe Null angezeigt wird haben können, wird damit begonnen, diese Bereiche aufzufüllen (603). Im nächsten Schritt werden die Daten invertiert. Eine Tiefenkamera gibt die Entfernung der Messpunkte von der Kamera an, allerdings ist es für Zähl- und Analysezwecke viel nützlicher, den invertierten Wert zu nutzen. Der Weichzeichner (604) unterstützt, das Rauschen zu reduzieren, Details zu verringern und trägt in hohem Maße dazu bei, die Kantenerkennung zu verbessern). Als nächstes wird die MOG-Hintergrundsubtraktion angewandt, um alle Hintergrundelemente zu entfernen, welche sich über einen definierten Zeitraum nicht bewegt haben (605). Schließlich wird ein Medianfilter verwendet, um das endgültige Bild zu verbessern und das durch die Hintergrundsubtraktion entstandene Rauschen zu reduzieren (606).
In Figure 7 sind die Daten nach den unterschiedlichen Prozessschritten abgebildet: 1) Rohdaten, 2) vorbereitete Daten, 3) vollständig ausgewertete Daten mit Objekterkennung. In den Rohdaten können sowohl schwarze Bereiche (Löcher) als auch Zufallsrauschen, ebenso wie andere Objekte, die Teil des Hintergrunds sind (701). Nach der anfänglichen Vorverarbeitung (702) ist der größte Teil des Hintergrunds entfernt, und die Löcher sind eliminiert. Es bleibt jedoch immer noch eine gewisse Menge an Rauschen als Ergebnis des starken Rauschens der Tiefenkamera und der Hintergrundsubtraktionsmethoden übrig. Schließlich wird in (703) das gesamte Rauschen entfernt, und der Schicht-Algorithmus angewandt, um den Kopf jeder Person zu erkennen, selbst wenn sie in nahe beieinanderliegenden Gruppen geht. Nicht-menschliche Objekte, welche die Kriterien zur Detektion nicht erfüllen wie Einkaufswägen, Einkaufstaschen, Container oder Pakete werden dabei nicht gezählt. Kriterien sind ohne Beschränkung eine Kombination aus Mindestfläche, Maximale Fläche, Aspektverhältnis sowie Krümmung. In der Abbildung ist eine Demonstration der Zählmethode (703) zu sehen, nachdem den Objekten des Ebenen-Algorithmus eine eindeutige ID zugewiesen wurde, die sie behalten, sowie ein Statuscode. Damit das Objekt gezählt oder nicht gezählt wird, muss es beide Zähllinien überqueren. Dies verbessert die Zuverlässigkeit und reduziert Fehler erheblich. Wenn Objekte im Bereich der Zähllinien stehen bleiben, kann es aufgrund der Verarbeitung und des Kamerarauschens vorkommen, dass das Objekt kurzzeitig flimmert, was zu Doppelzählungen oder Rückwärtszählungen führen kann.
Für den Schicht-Algorithmus werden in einem algorithmischen Verfahren mehrere Schichten betrachtet, dabei wird innerhalb des gesamten Erfassungsbereichs (802) von oben an der Tiefenkamera (801) nach unten vorgegangen, wie in Figure 8 illustriert. Jede Schicht wird auf beliebige Konturen gescannt und die erkannten Konturen daraufhin auf eine minimale Fläche geprüft. Zu kleine Konturen werden ignoriert. Wenn eine geeignete Kontur gefunden wird, wird zunächst geprüft, ob sie eine Schnittmenge mit einer vorhandenen „akzeptierten“ Kontur hat. Wenn dies der Fall ist, wird diese Kontur neben der akzeptierten Kontur als „übergeordnete“ Kontur gespeichert, aber für die Objekterkennung ignoriert. Wenn der Algorithmus schichtweise abläuft, isoliert er den kleinsten Teil der Person innerhalb der minimalen Flächenbegrenzung (das ist oft der Kopf), während der Rest des Körpers als „zugehörig“ zum Objekt gespeichert wird. Diese Funktionsweise soll exemplarisch an den in Figure 8 illustrierten Schichten, (803), (804) und (805) dargestellt werden. Eine Schicht umfasst in der Schemaskizze jeweils eine Fläche, welche nach unten von der gestrichelten Linien, an welche der Pfeil deutet, begrenzt wird und nach oben von der nächsten gestrichelten Linie begrenzt wird. Bei Schicht (803) werden die Konturen der Köpfe der Personen erfasst, allerdings unterschreitet die Konturfläche die Mindestfläche, sodass keine neuen Objekte durch den Algorithmus registriert werden. Bei Schicht 804 werden alle Personen, gekennzeichnet als (806), (807) und (808) erfasst. Der Algorithmus kann auch andere Objekte wie Handtaschen (809) oder Einkaufswägen (810) aufgrund einer Reihe von Kriterien erkennen, einschließlich, aber nicht beschränkt auf, das Aspektverhältnis der Konturen, die Verbindung zu akzeptierten Konturen und mehr. Der Algorithmus scannt von oben weiter nach unten, um Kinder und/oder nicht stehende Personen zu berücksichtigen. Schließlich wird nach Abschluss des Scans für jede Person ein Objekt mit ihrem Kopf, ihrer Position sowie der „Personen“-Kontur, die ihren gesamten Körper umfasst, zurückgegeben.
In Figure 9 ist ein Schema der Zählmethode zu sehen, nachdem den Objekten des Schicht-Algorithmus eine eindeutige ID zugewiesen wurde, die sie behalten, sowie einen Statuscode. Das Objekt kann sich entweder außen (909), innen (910) oder innerhalb der Zähllinien (902) befinden. Der Zählalgorithmus verfügt über mindestens eine Zähllinie bzw. Linie von Interesse. In einer günstigen Ausführung dieser Erfindung ist das System mit zwei Zähllinien (906 und 907) ausgeführt. Damit das Objekt gezählt oder nicht gezählt wird, muss es beide Zähllinien überqueren (903). Dies verbessert die Zuverlässigkeit und reduziert Fehler erheblich. Wenn Objekte im Bereich der Zähllinien stehen bleiben, kann es aufgrund der Verarbeitung und des Kamerarauschens vorkommen, dass das Objekt kurzzeitig flimmert, was zu Doppelzählungen oder Rückwärtszählungen führen kann. Bewegt sich das Objekt innerhalb der beiden Zähllinien wieder Richtung Ausgangspunkt, (909), findet keine Zählung statt. Analog zur Zählung von Objekten, die sich innerhalb des Messbereichs (908) von außen nach innen bewegen, können Objekte auch gezählt werden, die sich von innen nach außen bewegen (905).
In einer weiteren günstigen Ausführung dieser Erfindung wird die Detektion der Objekte mit Hilfe eines Deep-Learning-Ansatzes ausgeführt. Dabei kann auf bereits trainierte Modelle wie dem mobilenet-ssd zurückgegriffen werden. Dieser kann mit zusätzlichen Trainingsdaten, die der konkreten Anwendung entstammen, zusätzlich unterstützt werden.
An dieser Stelle wird explizit darauf hingewiesen, dass die Verwendung dieses Systems nicht auf Personen bzw. Kunden im Einzelhandel beschränkt ist, sondern auch für öffentliche Gebäude wie Bildungseinrichten, Schulen oder Ämter eingesetzt werden kann. In der Privatwirtschaft kann es zur Einhaltung der Zugangsbeschränkungen von Firmen verwendet wird. Darüber hinaus können mit diesem System nicht nur Menschen, sondern auch Tiere und Gegenstände erfasst werden.
Die beschriebenen und in den Figuren gezeigten Ausführungsbeispiele sind nur beispielhaft gewählt. Unterschiedliche Ausführungsbeispiele können vollständig oder in Bezug auf einzelne Merkmale miteinander kombiniert werden. Auch kann ein Ausführungsbeispiel durch Merkmale eines weiteren Ausführungsbeispielsergänzt werden.
Umfasst ein Ausführungsbeispiel eine „und/oder“-Verknüpfung zwischen einem ersten Merkmal undeinem zweiten Merkmal, so ist dies so zu lesen, dass das Ausführungsbeispiel gemäß einer Ausführungsformsowohl das erste Merkmal als auch das zweite Merkmal und gemäß einer weiteren Ausführungsform entwedernur das erste Merkmal oder nur das zweite Merkmal aufweist.
Anhang Beschreibung (Referenzen)

Akbar Yon Agusta, B., Mittrapiyanuruk, P., & Kaewtrakulpong, P. (2016). Field Seeding Algorithm for People Counting Using KINECT Depth Image. Indian Journal of Science and Technology, 9(48), 1-5. https://doi.org/10.17485/ijst/2016/v9i48/109311
Bondi, E., Seidenari, L., Bagdanov, A. D., & Del Bimbo, A. (2014). Real-time people counting from depth imagery of crowded environments. 11th IEEE International Conference on Advanced Video and Signal-Based Surveillance, AVSS 2014, 337-342. https://doi.org/10.1109/AVSS.2014.6918691
Coskun, A., Kara, A., Parlaktuna, M., Ozkan, M., & Parlaktuna, O. (2015). People counting system by using kinect sensor. INISTA 2015 - 2015 International Symposium on Innovations in Intelligent SysTems and Applications, Proceedings. https://doi.org/10.1109/INISTA.2015.7276740
Hsieh, C. T., Wang, H. C., Wu, Y. K., Chang, L. C., & Kuo, T. K. (2012). A Kinect-based people-flow counting system. ISPACS 2012 - IEEE International Symposium on Intelligent Signal Processing and Communications Systems, (Ispacs), 146-150. https://doi.org/10.1109/ISPACS.2012.6473470
Iguernaissi, R., Merad, D., & Drap, P. (2018). People counting based on kinect depth data. ICPRAM 2018 - Proceedings of the 7th International Conference on Pattern Recognition Applications and Methods, 2018-Janua(Icpram), 364-370. https://doi.org/10.5220/0006585703640370
Jianzhong, X., Qiuyu, Z., Sai, Y., & Wenjun, S. (2015). Passenger counting based on Kinect. ICALIP 2014 - 2014 International Conference on Audio, Language and Image Processing, Proceedings, 405-409. https://doi.org/10.1109/ICALIP.2014.7009825
Kuo, J. Y., Fan, G. D., & Lai, T. Y. (2016). People counting base on head and shoulder information. 2016 IEEE International Conference on Knowledge Engineering and Applications, ICKEA 2016, 52-55. https://doi.org/10.1109/ICKEA.2016.7802991
Li, G., Ren, P., Lyu, X., & Zhang, H. (2016). Real-time Top-view People Counting Based on A Kinect and NVIDIA Jetson TK1. https://doi.org/10.1109/ICDMW.2016.63
Malawski, F. (2014). Top-view people counting in public transportation using Kinect. Challenges of Modern Technology, 5(4), 17-20.
Sinha, A., & Chakravarty, K. (2013). Pose based person identification using kinect. Proceedings - 2013 IEEE International Conference on Systems, Man, and Cybernetics, SMC 2013, 497-503. https://doi.org/10.1109/SMC.2013.91
Zhang, X., Yan, J., Feng, S., Lei, Z., Yi, D., & Li, S. Z. (2012). Water filling: Unsupervised people counting via vertical kinect sensor. Proceedings - 2012 IEEE 9th International Conference on Advanced Video and Signal-Based Surveillance, AVSS 2012, 215-220. https://doi.org/10.1109/AVSS.2012.82

Bezugszeichenliste

101: Tiefenkamera
102: Cloud-Dienst
103: Edge Device
104: Anzeigeeinheit
105: Person
106: Field of View
107: Linie bzw. Bereich von Interesse
108: Smartphone Tablet oder sonstiges Eingabegerät
109: Externe Sensoren
110: Schema Auto
111: Schema Tier
201: Prozessor
202: General purpose input output (GPIO) pins
203: random-acess memory (RAM)
204: Gigabit Ethernet
205: USB 3.0
206: USB 2.0
207: Audio output
208: CSI camera port
209: HDMI-Ausgang 2
210: HDMI-Ausgang 1
211: USB-C Anschluss
212: SD-Kartenhalter
213: DSI Display Port
214: WiFi & Bluetooth Chip
301: RGB-Kamera
302: Linke Infrarotkamera
303: Rechte Infrarotkamera
304: Infrarotprojektor
401: Einzige Infrarotkamera
402: Infrarotprojektor
403: Objekt
404: Punkt 1 auf Objekt
405: Punkt 2 auf Objekt
406: Winkel zur Triangulation
407: Bekannter Abstand
408: Linke Infrarotkamera
409: Infrarotprojektor
410: Rechte Infrarotkamera
501: Aufzeichnung der Daten der Tiefenkamera bzw. Tiefenkameras
502: Tiefendaten werden vorbereitet
503: Konturen auf den Tiefendaten werden erfasst
504: Konturen werden verarbeitet
505: Hintergrund wird abgezogen
506: Schicht-Algorithmus wird angewandt
508: Neu Objekte werden erkannt
509: Alte Objekte werden verfolgt
509: Objekte werden gezählt
601: Subtraktion der minimalen Zählhöhe von den Tiefendaten
602: Konvertierung der Tiefendaten zu 8bit Graustufenskala (256 Werte)
603: Löcher in den Tiefendaten werden gefüllt und Rauschen wird reduziert
604: Gaußscher Weichzeichner wird angewandt
605: Hintergrund wird abgezogen
606: Medianfilter wird angewandt
701: Rohdaten der Tiefenkamera
702: Vorbereitete Daten
703: Daten, nachdem der Work flow aus Figure 5 angewandt wurde
901: Objekt steht außen
902: Objekt bewegt sich zwischen die beiden Zähllinien
903: Objekt bewegt sich nach innen
904: Objekt bewegt sich wieder zurück zwischen die Zähllinien
905: Objekt bewegt sich nach innen
906: Zähllinie 1
907: Zähllinie 2
908: Zählbereich
909: Objekt bewegt sich nicht nach innen, sondern wieder zurück

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 9740937 B2 [0007]
US 7688349 B2 [0007]
US 10009579 B2 [0007]
US 7466844 B2 [0007]
US 20160180195 A1 [0007]
CN 104751491 B [0007]
US 9117106 B2 [0007]
KR 100519782 B1 [0007]
CA 2692424 C [0007]
US 10510219 B1 [0007]

Zitierte Nicht-Patentliteratur

Hsieh et al. haben 2012 mit dem Titel „A Kinect-Based People-flow Counting System“ publiziert. Bei dieser Arbeit wurde ein Kinect Sensor von Microsoft und für damalige Verhältnisse relativ starker Rechner (i3-370M 2.4GHz mit 2.4GB RAM) verwendet (Hsieh, Wang, Wu, Chang, & Kuo, 2012) [0006]
Zhang et al. veröffentlichten ebenfalls im Jahr 2012 mit dem Titel „Water Filling: Unsupervised People Counting via Vertical Kinect Sensor Xucong‟ [0006]
Coskun, Kara, Parlaktuna, Ozkan, & Parlaktuna, 2015; Iguernaissi, Merad, & Drap, 2018 [0006]
Sinha et al. veröffentlichten im Jahr 2013 mit dem Titel „Pose Based Person Identification Using Kinect‟ [0006]
(Sinha & Chakravarty, 2013). Bondi et al. veröffentlichten im Jahr 2014 mit dem Titel „Real-time people counting from depth imagery of crowded environments‟ [0006]
(Jianzhong, Qiuyu, Sai, & Wenjun, 2015). Li et al. haben im Jahr 2016 [0006]
Yon Agusta, B., Mittrapiyanuruk, P., & Kaewtrakulpong, P. (2016). Field Seeding Algorithm for People Counting Using KINECT Depth Image. Indian Journal of Science and Technology, 9(48), 1-5. [0026]
E., Seidenari, L., Bagdanov, A. D., & Del Bimbo, A. (2014). Real-time people counting from depth imagery of crowded environments. 11th IEEE International Conference on Advanced Video and Signal-Based Surveillance, AVSS 2014, 337-342 [0026]
Coskun, A., Kara, A., Parlaktuna, M., Ozkan, M., & Parlaktuna, O. (2015). People counting system by using kinect sensor. INISTA 2015 - 2015 [0026]
Hsieh, C. T., Wang, H. C., Wu, Y. K., Chang, L. C., & Kuo, T. K. (2012). A Kinect-based people-flow counting system. ISPACS 2012 - IEEE International Symposium on Intelligent Signal Processing and Communications Systems, (Ispacs), 146-150 [0026]
Iguernaissi, R., Merad, D., & Drap, P. (2018). People counting based on kinect depth data. ICPRAM 2018 - Proceedings of the 7th International Conference on Pattern Recognition Applications and Methods, 2018-Janua(Icpram), 364-370 [0026]
Jianzhong, X., Qiuyu, Z., Sai, Y., & Wenjun, S. (2015). Passenger counting based on Kinect. ICALIP 2014 - 2014 International Conference on Audio, Language and Image Processing, Proceedings, 405-409 [0026]
Kuo, J. Y., Fan, G. D., & Lai, T. Y. (2016). People counting base on head and shoulder information. 2016 IEEE International Conference on Knowledge Engineering and Applications, ICKEA 2016, 52-55 [0026]
Li, G., Ren, P., Lyu, X., & Zhang, H. (2016). Real-time Top-view People Counting Based on A Kinect and NVIDIA Jetson TK1 [0026]
Malawski, F. (2014). Top-view people counting in public transportation using Kinect. Challenges of Modern Technology, 5(4), 17-20 [0026]
Sinha, A., & Chakravarty, K. (2013). Pose based person identification using kinect. Proceedings - 2013 IEEE International Conference on Systems, Man, and Cybernetics, SMC 2013, 497-503 [0026]
Zhang, X., Yan, J., Feng, S., Lei, Z., Yi, D., & Li, S. Z. (2012). Water filling: Unsupervised people counting via vertical kinect sensor. Proceedings - 2012 IEEE 9th International Conference on Advanced Video and Signal-Based Surveillance, AVSS 2012, 215-220 [0026]

Claims

Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit mit folgenden Merkmalen: - Eine Tiefenkamera - Einem Cloud-Dienst - Einem Edge-Device - Einer Anzeigeeinheit - Einem portablen Gerät - Externe Sensoren - Effizienter Zählalgorithmus für Echtzeit-Detektion von Objekten
Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit durch Anspruch 1 dadurch gekennzeichnet, dass mindestens eine Tiefenkamera verwendet wird und diese zusätzlich mit einer RGB-Kamera ausgestattet sein können.
Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit durch den vorherigen Anspruch dadurch gekennzeichnet, dass die Tiefenkamera unter Verwendung von strukturiertem Licht aus nur mit einer Infrarotkamera und einem Infrarotprojektor wie in Figure 4 skizziert ausgeführt werden kann.
Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit nach einem der beiden vorherigen Ansprüchen dadurch gekennzeichnet, dass die Tiefenkameras als aktiv Stereokameras mit jeweils zwei Infrarotkameras und einem Projektor oder als Passiv Stereokameras mit jeweils zwei Infrarotkameras und keinem Projektor ausgeführt werden können, wie in Figure 4 skizziert.
Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit nach Anspruch 1 dadurch gekennzeichnet, dass es mit einem Edge Device ausgeführt ist.
Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit nach dem vorherigen Anspruch dadurch gekennzeichnet, dass das Edge Device aus Kombinationen der folgenden Komponenten besteht: Prozessor, Grafikprozessor, Arbeitsspeicher, Datenspeicher, USB-Anschlüsse, Bluetooth, WiFi, Displayausgänge, Stereoausgänge, USB- und CSI-Kameraeingänge sowie general purpose input/output (GPIO) Pins mit Interrupt oder Analog-Digital-Wandler-Funktion.
Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit nach einem der beiden vorherigen Ansprüchen dadurch gekennzeichnet, dass das Edge Device bidirektional oder monodirektional mit folgenden Komponenten und deren Kombinationen kommunizieren kann: Tiefenkamera, mit Internetanbindung über Clouddienst, Anzeigeeinheit, externe Sensoren oder offline über Bluetooth oder einem anderen Drahtlosfunkstandard.
Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit nach dem vorherigen Anspruch dadurch gekennzeichnet, dass die Kommunikation ohne Internetverbindung mit einem lokalen Nutzer über folgende Funkstandards oder deren Kombination umgesetzt wird: WiFi, Bluetooth, LoRaWAN (Long Range Wide Area Network), Sigfox, GSM, LTE, LTE-M, 5G, Sigfox sowie Narrowband-loT.
Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit nach Anspruch 1 dadurch gekennzeichnet, dass Anweisungen für Kunden im Einzelhandel oder Statistiken und Informationen für den Anwendunger über eine Anzeigeeinheit ausgegeben werden können.
Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit nach dem vorherigen Anspruch dadurch gekennzeichnet, dass die Anzeigeeinheit aus mindestens einem LCD (liquid-crystal display), TFT (thin-film transistor)-Monitor, OLED (organic light-emitting diode)-Display, Lichtprojektor oder deren Kombinationen ausgeführt ist.
Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit nach Anspruch 1 dadurch gekennzeichnet, dass ein Cloud-Dienst als Schnittstelle zwischen portablem Gerät und Edge-Device eingesetzt wird.
Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit nach dem vorherigen Anspruch dadurch gekennzeichnet, dass das Edge-Device über Internetanbindung und Netzwerkprotokolle wie http oder mqtt mit dem Cloud-Dienst Daten bidirektional austauschen kann.
Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit nach einem der beiden vorherigen Ansprüchen dadurch gekennzeichnet, dass der Cloud-Dienst über folgende Funktionen sowie deren Kombinationen verfügt: Datenspeicherung in Datenbanken basierend auf SQL- und NoSQL- Architektur, Verarbeitung, Sortierung und Veränderung der Daten, Anwendung von Machine-Learning-Algorithmen auf die Datensätze.
Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit nach Anspruch 1 dadurch gekennzeichnet, dass Daten über ein portables Gerät ausgegeben und Befehle gesendet werden können.
Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit nach dem vorherigen Anspruch dadurch gekennzeichnet, dass das portable Gerät als Smartphone, Smartwatch, Tablet oder PersonalComputer (PC) ausgeführt ist.
Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit nach Anspruch 1 dadurch gekennzeichnet, dass es über externe Sensoren verfügt, welche bidirektional mit dem Edge Device kommunizieren.
Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit nach dem vorherigen Anspruch dadurch gekennzeichnet, dass folgende Sensoren und deren Kombinationen verwendet werden können: Temperatur, relative Feuchte, barometrischer Höhendruck, Helligkeit, Lautstarke, Schall-Frequenzspektrum, Kohlendioxid- und Sauerstoffkonzentration sowie Partikeldichte.
Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit nach Anspruch 1 dadurch gekennzeichnet, dass das Edge Device mit einer Tiefenkamera und einer Software bzw. einem Algorithmus zur Detektion von Objekten in Echtzeit betrieben wird.
Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit nach dem vorherigen Anspruch dadurch gekennzeichnet, dass der Algorithmus die Tiefendaten vorbearbeitet und in Schichten abtastet, um neue Objekte zu registrieren und bereits bekannte Objekte nachzuverfolgen.
Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit nach einem der vorherigen beiden Ansprüchen dadurch gekennzeichnet, dass der Algorithmus zwischen Erwachsenen und kleinen Kindern sowie für den Einzelhandel üblichen Objekten wie Einkaufswägen, Taschen, Containern, Rucksäcke und Pakete unterscheiden kann.
Ein System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit nach einem der vorherigen drei Ansprüchen dadurch gekennzeichnet, dass der Algorithmus eine Zählgenauigkeit von mindestens 99% aufweist und die Abweichung der aktuell angezeigten Personenzahl von der tatsächlich in einem zu überwachenden Bereich vorhandenen Personenzahl maximal 7% über einen Öffnungszeitraum von 13h und einer maximalen Objektfrequenz von 10.000 (ein- und ausgehend gezählt) im selbigen Zeitraum beträgt.