DE102022134728A1 - Verfahren zur Erfassung und anonymisierter Bewegungsinformationen und Datenverarbeitungsvorrichtung und Erfassungseinrichtung hierzu - Google Patents

Verfahren zur Erfassung und anonymisierter Bewegungsinformationen und Datenverarbeitungsvorrichtung und Erfassungseinrichtung hierzu Download PDF

Info

Publication number
DE102022134728A1
DE102022134728A1 DE102022134728.1A DE102022134728A DE102022134728A1 DE 102022134728 A1 DE102022134728 A1 DE 102022134728A1 DE 102022134728 A DE102022134728 A DE 102022134728A DE 102022134728 A1 DE102022134728 A1 DE 102022134728A1
Authority
DE
Germany
Prior art keywords
images
environmental
image
environmental images
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022134728.1A
Other languages
English (en)
Inventor
David Küstner
Daniel Erdelmeier
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Synergeticon GmbH
Original Assignee
Synergeticon GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Synergeticon GmbH filed Critical Synergeticon GmbH
Priority to DE102022134728.1A priority Critical patent/DE102022134728A1/de
Publication of DE102022134728A1 publication Critical patent/DE102022134728A1/de
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

Ein Verfahren zur Erfassung anonymisierter Bewegungsinformationen von Objekten aus Umgebungsbildern einer mit einer Kamera aufgenommenen Umgebung wird beschrieben. Das Verfahren hat die Schritte:- Erkennen von Bewegungen in einer Folge von Umgebungsbildungen einer Umgebung und- Erkennen von Personen anhand der erkannten Bewegungen und für Personen charakteristische Bildeigenschaften; sowie- Entfernen der aufgenommenen Darstellung der erkannten Personen in den Umgebungsbildern oder Ersetzen der erfassten Darstellungen der erkannten Personen in den Umgebungsbildern durch Annotationen.

Description

  • Die Erfindung betrifft ein Verfahren zur Erfassung anonymisierter Bewegungsinformationen von Objekten aus Umgebungsbildern einer mit einer Kamera aufgenommenen Umgebung.
  • Die Erfindung betrifft weiterhin eine Datenverarbeitungsvorrichtung und eine Erfassungseinrichtung hierzu.
  • WO 2020/223577 A1 beschreibt ein Verfahren zum bildunterstützten Fahrzeugmanagement durch Detektion der Bewegung eines Objektes an einer ersten Position, die mit einem graphischen Bereich verknüpft ist, unter Verwendung eines Bewegungssensors. In Abhängigkeit von der Bewegungsdetektion mit dem Bewegungssensor werden mit mindestens einer Kamera Bilddaten erfasst, die mit der ersten Position verknüpft sind. Dabei wird ein maschinenlernbares Rechenmodell genutzt, um fahrzeugspezifische Parameter zu bestimmen, die das Fahrzeug identifizieren.
  • WO 2016/174670 A1 offenbart ein Verfahren zum automatischen Detektieren und Abbilden von Interessenpunkten, wie etwa Parkplätzen, und dementsprechend Lokalisieren und Anweisen von Fahrern auf verfügbare Parkplätze, die so nahe wie möglich an gewünschten Interessenpunkten (POI = „Point Of Interest“) und Orten sind. Hierzu wird ein Parkraumdetektionsmodul verwendet, das Maschinenlern- und Computervisionstechniken zum Lernen der Oberfläche des Parkplatzes, der unbelegten Dauer eines Parkplatzes, der Belebungsdauer des Parkplatzes, und zur Detektion von als Parksucher vermuteter Fahrzeuge verwendet, um unabhängig vorherzusagen, in welchem verfügbaren Parkplatz geparkt werden kann und einen Besucher in Echtzeit zu einem Parkplatz zu navigieren, der mit großer Wahrscheinlichkeit bis zur Ankunft des Benutzers frei bleibt.
  • US 2019/0035143 A1 offenbart ein System mit einer Datenbank, die Daten von verschiedenen Bildquellen mit einer Vielzahl von Bildmeterdatentypen und -qualitäten sammelt und Bilder georeferenziert durch kontinuierliche Verbesserung von Kameralösungen für jedes erhaltene Datenobjekt verwaltet.
  • US 11,481,577 B2 offenbart ein System und ein Verfahren für die Qualitätssicherung des maschinellen Lernens (ML) durch Trainieren einer Vielzahl von Agenten-ML-Annotationsmodell-Softwareanwendungen. Jedes Agenten-ML-Annotationsmodell wird mit einer entsprechenden Teilmenge an kommentierten Rohdatenbildern trainiert, die Annotationen enthalten, die eine die erste Form umgebende Grenze bilden. Ein Basislinien-ML-Annotationsmodell wird mit allen Teilmengen von annotierten Rohdatenbildern trainiert. Vorhergesagte Basislinienmodellbilder werden mit den vorhergesagten Bildern jedes Agentenmodells verglichen, um die Agentenmodellqualität zu bestimmten und problematische Rohdatenbilder für Umtrainingszwecke zu identifizieren.
  • Ausgehend hiervon ist es Aufgabe der Erfindung, ein verbessertes Verfahren zur Erfassung anonymisierter Bewegungsinformationen von Objekten und eine Erfassungseinheit sowie eine Datenverarbeitungsvorrichtung hierzu zu schaffen.
  • Die Aufgabe wird mit dem Verfahren mit den Merkmalen des Anspruches 1 sowie mit der Datenverarbeitungsvorrichtung mit den Merkmalen des Anspruches 9 und die Erfassungseinheit mit den Merkmalen des Anspruches 10 gelöst.
  • Vorteilhafte Ausführungen sind in den Unteransprüchen beschrieben.
  • Zur Erfassung anonymisierter Bewegungsinformationen von Objekten aus Umgebungsbildern einer von einer Kamera aufgenommenen Umgebung wird ein Verfahren mit folgenden Schritten vorgeschlagen:
    1. a) Erkennen von Bewegungen in einer Folge von Umgebungsbildern einer Umgebung und
    2. b) Erkennen von Personen anhand der erkannten Bewegungen und für Personen charakteristische Bildeigenschaften; sowie
    3. c1) Entfernen der aufgenommenen Darstellungen der erkannten Personen in den Umgebungsbildern oder
    4. c2) Ersetzen der erfassten Darstellungen der erkannten Personen in den Umgebungsbildern durch unkenntliche Annotationen.
  • Damit kann vorzugsweise mit einem dezentralen Batch-Computer direkt nach dem Aufzeichnen eines Bildes oder einer Folge von Bildern (Videosequenz) ein anonymisierter Bilddatenstrom erzeugt werden. Dabei bleiben die Objekte in den Bildern erhalten und es werden lediglich die Personen entfernt oder durch Annotationen ersetzt.
  • Das Ersetzen der Personen durch Annotation hat den Vorteil, dass die Personen anhand der Annotationen bei der späteren Bildauswertung einfach und prozesssicher identifizierbar sind. Eine Identifizierung der Person ist hingegen durch die Vorverarbeitung nach dem Erkennen der Darstellung von Personen in dem aufgenommenen Bild nicht mehr möglich.
  • Es kann ein Entzerren der aufgenommenen Umgebungsbilder und Kalibrieren der entzerrten Umgebungsbilder vorgesehen sein. Mit einer solchen Rektifizierung lassen sich die aufgenommenen Kamerabilder an eine vorgegebene Perspektive anpassen, um bspw. eine Georeferenzierung vorzunehmen. Hierzu kann ein rektifiziertes Kamerabild z. B. an die Vogelperspektive oder ein 3D-Modell angepasst werden.
  • Es kann ein Kalibrieren der entzerrten Umgebungsbilder durch Analysieren von im entzerrten Umgebungsbild oder einem georeferenzierten Referenz-Umgebungsbild gleichermaßen vorhandenen Merkmale erfolgen. Hierzu können in den aufgenommenen Kamerabildern charakteristische Merkmale aus der Umgebung, wie insb. Fixpunkte, gesucht werden, die mit den entsprechenden Merkmalen in dem Referenz-Umgebungsbild in Übereinstimmung gebracht werden, um so die im aufgenommenen Kamerabild abgebildete Umgebung auf die im Referenz-Umgebungsbild definierten Georeferenzpunkte auszurichten.
  • Es kann en Rendern eines dreidimensionalen Umgebungsmodells und Kalibrieren der entzerrten Umgebungsbilder erfolgen. Hierzu kann ein Analysieren von Merkmalen erfolgen, die im entzerrten Umgebungsbild und dem gerenderten dreidimensionalen Umgebungsmodell gleichermaßen vorhanden sind.
  • Das Verfahren kann die weiteren Schritte haben von:
    • - Aufnehmen der Umgebungsbilder zusammen mit Ortspositionen, an denen die Bildaufnahme erfolgt ist;
    • - Kalibrieren der Umgebungsbilder anhand der Ortspositionen; und
    • - Approximieren der 3D-Position von Objekten in den Umgebungsbildern durch Abschätzen der Tiefe von Merkmalen in den Umgebungsbildern.
  • Auf diese Weise lassen sich insbesondere Umgebungsbilder nutzen, die von einer sich bewegenden Kameraplattform aufgenommen wurden, deren Geoposition sich während der Aufnahme von Bildsequenzen ändert. So kann eine Kamera an Kraftfahrzeuge, Motorräder, Lastkraftwagen und insb. Rollstühle, Roller (z. B. E-Scooter), Fahrräder, Fahrradhelme oder Accessoires von Fußgängern (z. B. Kleidung, Taschen, Brillen) angebracht werden, um während der Bewegung die Umgebung zu erfassen und anonymisiert auszuwerten.
  • Vorteilhaft ist ein Erzeugen von Bild-Annotationen für in den Umgebungsbildern erkannte Objekte und Personen durch Trainieren eines Annotationsmodells mit Umgebungsdaten ohne Annotation, aus denen 3D-Darstellungen erzeugt werden, mit denen Umgebungsbilder aus weiteren Perspektiven generiert und zum Trainieren des Annotationsmodells verwendet werden. Damit lassen sich aus zunächst nicht annotierten Umgebungsbildern in einem ersten Schritt Annotationen festlegen und durch die Generierung weiterer Perspektiven zusätzliche Umgebungsbilder mit nunmehr bekanntem annotierten Bildinhalt erzeugen, die für den automatischen rechnergestützten Trainingsprozess des Annotationsmodells genutzt werden.
  • Durch Approximieren des Hintergrundes in den Umgebungsbildern in den Bildbereichen, in denen erkannte Personen entfernt wurden, kann die Bildqualität der anonymisierten Umgebungsbilder verbessert werden..
  • Es kann eine Auswertung der anonymisierten Umgebungsbilder durch mindestens eines der aus der folgenden Gruppe ausgewählten Schritte erfolgen:
    • - Objekterkennung;
    • - Semantisches Segmentieren;
    • - Interpretieren von Szenen;
    • - Erkennen von Aktionen in den Umgebungsbildern;
    • - Bestimmen von Geschwindigkeiten von Objekten;
    • - Bestimmen der Auswahl von Objekten und Personen in Bildbereichen.
  • Die anonymisierten Umgebungsbilder können somit für unterschiedliche automatisierte rechnergestützte Bildverarbeitungsverfahren einzeln oder in Kombination genutzt werden. Diesbezüglich sind beispielsweise die Objekterkennung, semantische Segmentierung, Instanzen-Segmentierung, Klassifikation, Pose-Estimation, Geschwindigkeitsbestimmung, Kennzeichenerkennung und Objekt-Zählung zu nennen.
  • Das Ergebnis, d. h. das Endergebnis oder Zwischenergebnisse, kann mittels einer Anwendungsschnittstelle (API) weitergegeben und in einem Bildschirm bspw. auf einer grafischen Benutzeroberfläche (z. B. Dashboard) angezeigt werden.
  • Die Erfindung wird nachfolgend anhand der beigefügten Zeichnungen anhand von Ausführungsbeispielen näher erläutert. Es zeigen:
    • 1 - Blockdiagramm einer Erfassungseinheit mit Funktionsblöcken zur Durchführung des Erfassungsverfahrens;
    • 2 - Blockdiagramm einer Erfassungseinheit mit Kameras am bewegten Objekt;
    • 3 - Flussdiagramm eines Verfahrens zur automatischen Annotation.
  • 1 zeigt ein Blockdiagramm einer Erfassungseinheit mit Funktionsblöcken zur Durchführung des Erfassungsverfahrens. Hierbei werden rechnergestützte Verfahren der Bilderkennung und Geodatenverarbeitung genutzt. Mit Hilfe von Methoden der computergestützten Visualisierung können Echtzeit-Videos aus kommerziell verfügbaren Kameras in Kombination mit Geodaten verarbeitet werden. Für einen datenschutzkonformen Umgang mit personenspezifischen Daten können Personen mittels Personen- und Bewegungserkennung aus den Echtzeit-Kamerabildern entfernt werden. Dies lässt sich sowohl auf stationäre als auch auf bewegte Kameras anwenden.
  • 1 zeigt eine Erfassungseinheit mit stationären Kameras 1, wobei automatisch Verkehrskameras basierend auf georeferenzierten RGB-Luftbildaufnahmen oder fotorealistischen 3D-Stadtmodellen kalibriert werden. Damit ist es möglich die Ergebnisse einer Bilderkennung mit Geopositionsdaten (z. B. UTM-Koordinaten) zu verknüpfen. Auf das Ergebnis der Bilderkennung kann entweder direkt zugegriffen werden oder es kann für weitere Analysen wie Geschwindigkeitsbestimmung oder Verkehrsanalyse genutzt werden.
  • 2 zeigt eine Erfassungseinheit mit bewegter Kamera 1, die an einer mobilen Plattform 2, z. B. an einem Auto oder an einem Rollstuhl, befestigt werden kann. Dabei kann der Standort von Objekten basierend auf z. B. satellitengestützter Ortung 2 (z. B. GPS, GLONASS etc.) und einem Echtzeit-Video ermittelt werden. Durch einen modularen Aufbau ist es für den Benutzer möglich, den Bildverarbeitungs-Stack anzupassen, indem Module mittels einer grafischen Benutzeroberfläche ausgewählt und kombiniert werden können.
  • In den 1 und 2 ist die konzeptionelle Aufteilung in folgende Module dargestellt.
    1. 1. Kalibrierungs-Modul C-M
    2. 2. Auswerte-Modul (Inferenz-Maschine) I-M
    3. 3. Anwendungsschnittstelle (API) und Benutzerschnittstelle (Frontend) MMI
  • Die Aufgabe des Kalibrierungs-Moduls C-M ist die Ermittlung einer Abbildung von den RGB-Kamerabildern zu UTM-Koordinaten. Das Auswerte-Modul I-M nutzt sowohl die RGB-Bilder als auch die UTM-Koordinaten für Computer Vision und Geodaten-Analyse Methoden. Eine grafische Benutzeroberfläche und eine API werden bereitgestellt, um auf die Analyse-Ergebnisse zuzugreifen. Der gesamte Technologie-Stack ist auf eine modulare Art entwickelt, so dass der Benutzer einzelne Module mittels der grafischen Benutzeroberfläche auswählen und kombinieren kann.
  • Das Kalibrierungs-Modul C-M erhält ein RGB-Kamerabild von einer der Verkehrskameras 1 sowie eine RGB-Luftbildaufnahme oder ein fotorealistisches 3D-Stadtmodell 3D-M von dem Standort der Kamera 1. Das RGB-Kamerabild wird rektifiziert und ein Bild aus der Vogelperspektive wird mittels des 3D-Modells gerendert. Als nächstes wird ein Merkmal-Abgleich („Feature-Matching“) durchgeführt, um die Kamera-Kalibrierung zu ermitteln. Falls georeferenzierte Luftbildaufnahmen verfügbar sind, kann der Rendering Schritt übersprungen werden. Falls weder georeferenzierte Luftbildaufnahmen noch ein fotorealistisches 3D-Stadtmodell 3D-M verfügbar sind, kann eine Kalibrierung manuell mittels der grafischen Benutzeroberfläche durchgeführt werden.
  • Das Auswerte-Modul I-M erhält ein RGB-Kamerabild von einer der Verkehrskameras 1 sowie die dazugehörige Kalibrierung vom Kalibrierungs-Modul C-M. Für die Datenanalyse können verschiedene Auswerteeinheiten genutzt werden. Einige davon sind: Objekterkennung, semantische Segmentierung, Instanzen Segmentierung, Klassifikation, Pose-Estimation, Geschwindigkeitsbestimmung, Kennzeichenerkennung und Objekt-Zählung. Einige Module können sinnvoll kombiniert werden. So kann zum Beispiel die Objekterkennung als Eingabe für die Geschwindigkeitsbestimmung genutzt werden. Alle Module sowie deren Verbindungen können mittels der grafischen Benutzeroberfläche konfiguriert werden. Das Ergebnis des Auswerte-Moduls I-M sowie Zwischenergebnisse können mittels der Anwendungsschnittstelle API weitergegeben werden, sowie in einem grafischen Benutzeroberfläche (Dashboard) auf einem Bildschirm angezeigt werden.
  • 2 zeigt ein Beispiel, bei dem eine bewegte Kamera 1 genutzt wird, die auf einer mobilen Plattform 2 befestigt ist. Dann ist die in Verbindung mit 1 beschriebene Kalibrierung nicht mehr möglich. Stattdessen werden die intrinsischen und extrinsischen Eigenschaften der Kamera 1 a priori kalibriert. Um die 3D Position eines Objektes zu approximieren, wird dann eine Bild-Tiefenabschätzung („Depth-Estimation“) genutzt. Zusätzlich werden die GPS- und Kamerabild-Daten über mehrere Zeitschritte analysiert, um die Genauigkeit weiter zu verbessern.
  • Eine grafische Darstellung dieses Prozesses ist in 2 zu sehen. Durch den niedrigen Stromverbrauch der eingesetzten Edge-Devices 3 kann die Kamera 1 in vielen verschiedenen Umgebungen eingesetzt werden.
  • Außerdem können wegen der Modularität des Software-Stacks die meisten Technologien, die für den stationären Fall entwickelt wurden wiederverwendet werden.
  • Die Erzeugung der 3D-Darstellung wird anhand der nachfolgenden Erläuterung deutlicher verständlich.
  • Die Technik zur Erstellung der 3D-Darstellung kann in folgende Schritte unterteilt werden:
    1. 1. Aufzeichnung eines RGB-Kameravideos;
    2. 2. Segmentierung aller auf dem Video erkennbaren Personen;
    3. 3. Rekonstruktion auf Basis der Personensegmentierung;
    4. 4. Generierung der 3D-Darstellung auf Basis der anonymisierten Daten.
  • Im Folgenden werden die einzelnen Schritte im Detail beschrieben:
  • 1. Aufzeichnung eines RGB-Kameravideos
  • Als Bildquelle können RGB-Videos von handelsüblichen monokularen Kameras verwendet werden. Für einen besonders sensiblen Umgang mit personenbezogenen Daten werden die Schritte 1 und 2 auf einem Edge Device durchgeführt. Das Kamerabild vor der Anonymisierung wird dann bei der Erfassung der Daten anonymisiert und zu keinem Zeitpunkt gespeichert.
  • 2. Segmentierung aller auf dem Video erkennbaren Personen
  • Für die Segmentierung der Personen wird ein mehrstufiges Verfahren eingesetzt. Es basiert auf einem detaillierten Personendatensatz, der aus mehreren hunderttausend Bildern besteht, die bereits annotiert wurden.
  • Zunächst wird auf Basis dieses Datensatzes ein neuronales Netz trainiert, das jedem Pixel des Kamerabildes entweder eine „1“ (Person) oder eine „0“ (keine Person) zuordnet. Anschließend wird auf der Grundlage desselben Datensatzes ein zweites neuronales Netz trainiert, das lernt, wichtige Schlüsselpunkte der Personen zu erkennen. Beispiele für Schlüsselpunkte sind die Position des Ellenbogens oder des Handgelenks.
  • Um die Personen im Kamerabild in Echtzeit zu segmentieren, werden die beiden Netze parallel eingesetzt. Ein von uns entwickelter Algorithmus kombiniert dann die Ergebnisse der beiden Netze, wobei auch die zeitliche Entwicklung der Ergebnisse berücksichtigt wird. Damit ist es möglich, Personen auch dann zu anonymisieren, wenn sie von den neuronalen Netzen kurzzeitig nicht erkannt werden.
  • 3. Rekonstruktion auf Basis der Personenseqmentierunq
  • Um die 3D-Darstellung zu erstellen, muss definiert werden, wie die Bereiche, in denen sich Personen befinden, behandelt werden. Hierzu werden die Bereiche, in denen die Bildmaske „1“ anzeigt, durch eine Prognose des tatsächlichen Hintergrunds ersetzt. Das resultierende Video sieht so aus, als wären keine Personen darauf zu sehen.
  • Eine hierzu einsetzbare Technologie funktioniert folgendermaßen:
    • Zunächst wird ein generatives neuronales Netz auf der Grundlage eines vorhandenen Datensatzes von Bildern trainiert. Während des Trainings werden wiederholt zufällige Bereiche der Bilder entfernt. Das neuronale Netz lernt dann, die entfernten Bereiche so realistisch wie möglich zu ersetzen. In einem zweiten Schritt wird die Bewegung im Kamerabild ausgenutzt. Ein von uns entwickelter Algorithmus berücksichtigt diese und kann eine Person durch den Hintergrund ersetzen, wenn sie vorher sichtbar war. Ist dies nicht der Fall, wird das generative neuronale Netz zur Rekonstruktion des Hintergrunds verwendet.
  • 4. Generierung der 3D-Darstellung auf Basis der anonymisierten Daten
  • Im Gegensatz zu photogrammetrischen Modellen basiert die vorteilhaft eingesetzte 3D-Darstellung auf einem neuronalen Netz, das anhand der Position und Orientierung der Kamera trainiert wird. Diese werden mittels Struktur-aus-Bewegung („Structure-from-Motion“) ermittelt.
  • Da es sich bei der 3D-Darstellung um ein neuronales Netz handelt, ist das trainierte Modell in der Lage, neue Ansichten zu generieren, die bei der Erstellung nicht verwendet wurden. Es ist auch möglich, Ray-Tracing-Methoden zu verwenden, um unterschiedliche Lichtverhältnisse zu simulieren.
  • Die vorstehend beschriebene Technologie ist in der Lage, 3D-Darstellungen einer Stationsumgebung zu erstellen, die keine personenspezifischen Merkmale enthalten. Insbesondere werden die Daten bereits bei der Erhebung anonymisiert. Es werden ausschließlich RGB-Bilder von handelsüblichen monokularen Kameras verwendet. Die erzeugten 3D-Darstellungen werden dann zur automatischen Annotation der Kamerabilder verwendet.
  • Das Verfahren basiert auf der Generierung einer 3D-Darstellung verschiedener Stationen und ihrer Umgebung basiert. Personen werden bereits bei der Datenerfassung anonymisiert. Die gesamte 3D-Szene wird ohne menschliche Hilfe automatisch annotiert, was zum Trainieren von Deep-Learning-Modelle genutzt wird.
  • Damit kann eine Zustandsüberwachung in einer Stationsumgebung, bspw. einer Bahnhofsumgebung, auf der Grundlage des RGB-Videos handelsüblicher monokularer Kameras realisiert werden. Darüber hinaus kann das Verfahren beispielsweise auch als Navigationsassistenzsystem für Sehbehinderte und dergleichen genutzt werden.
  • Mit dem Verfahren werden anonyme 3D-Darstellungen der Stationsumgebung erzeugt und mit den beschriebenen Bildverarbeitungsmethoden weiterverarbeitet. Die 3D-Darstellung dient als Grundlage für die Zustandsüberwachung. Darüber hinaus erfolgt eine automatische Generierung von auto-annotierten Daten, die ohne vorherige menschliche Annotation zur Posenerkennung von Objekten, die von Interesse sind („Points of Interest“), unter Verwendung der generierten 3D-Darstellung verwendet werden. Letztere kann für die Navigation in der Nähe von Bahnhöfen verwendet werden.
  • 3 zeigt ein Verfahrensablauf für eine automatische Annotation.
  • Einige der eingesetzten rechnergestützten Lernmethoden („Machine-Learning“) für trainierbare automatische Bildauswerteeinheiten sind auf annotierte Daten angewiesen. Da die Beschaffung solcher Daten oft aufwändig und damit teuer ist, werden computergestützte Bildverarbeitungsverfahren genutzt, um so viel wie möglich von diesem Prozess zu automatisieren. Dies kann vollständig in einen Software-Stack integriert werden. Dabei können Online-Lernverfahren mit klassischen Computer Vision Methoden wie Bewegungserkennung, Farbsegmentierung oder Hintergrund-Subtraktion kombiniert werden, um so wenig manuelle Annotation wie möglich zu benötigen.
  • Der Trainingsvorgang für Methoden der künstlichen Intelligenz, wie bildgestützte trainierbare Entscheidungseinheiten (z. B. neuronale Netze) kann wie folgt ablaufen:
    • Zuerst liegen nur Bilder bzw. Videos ohne Annotationen vor. Dann wird ein initialer Datensatz an Annotationen erzeugt. Dies wird entweder mittels einer der erwähnten klassischen Methoden, mittels öffentlich verfügbarer Daten oder von Hand durchgeführt. Anschließend wird Data-Augmentation genutzt, um die Menge an benötigten Daten noch weiter zu reduzieren. Mit Hilfe des initialen Datensatzes wird ein erstes Modell trainiert und validiert, welches bereits von dem Auswerte-Modul I-M genutzt werden kann. Es können also kontinuierlich neue Annotationen erzeugt werden indem die Bilderkennung auf das Kamerabild einer Verkehrskamera 1 angewendet wird. Das Ergebnis kann anhand von Bildverarbeitungs-Parametern, wie einer Erkennungswahrscheinlichkeit („Detection-Confidence“), analysiert und zurück in das automatische Annotations-Modul gegeben. Zusammen mit (falls notwendig) Annotation von Ausreißern, können die neuen Daten genutzt werden, um das Modell zu verbessern.
  • Ergänzend zu der vorher beschriebenen Trainings-Methode kann eine automatische Annotation basierend auf einem 3D-Modell durchgeführt werden. Aufbauend auf 3D-Modellen, 3D Rekonstruktionen oder NeRFs (Neural Radiance Fields) können automatisch Trainingsdaten erzeugt werden. Hierbei wird eine 3D-Darstellung erzeugt, um Bilder aus neuen Perspektiven zu generieren. Da die Pose der 3D-Darstellung bekannt ist, können auch die Annotationen automatisch erzeugt werden. Zusätzlich können Ray-Tracing Methoden genutzt werden, um z. B. neue Lichtverhältnisse zu simulieren.
  • Die 3D-Darstellung einer Stationsumgebung kann verwendet werden, um die für die Erstellung verwendeten Videos automatisch zu kommentieren und die Position und Ausrichtung der Kamera in neuen Bildern in Echtzeit zu bestimmen. Sie kann auch verwendet werden, um das allgemeine Konzept der Station zu erlernen und uns mit Details wie der Anzahl der Sitze in der Station usw. zu versorgen, Aufgaben, die vorher nicht ohne einen umfassenden und zeitaufwändigen menschlichen Annotationsschritt möglich waren.
  • Zu diesem Zweck werden auf unüberwachte Weise die Schlüsselpunkte des Standorts in der 3D-Darstellung bestimmt. Dies basiert auf der 3D-Struktur des Objekts und ist daher in der 2D-Ansicht nicht möglich.
  • Wenn die 3D-Volumendichte δ ∈ ℝ+ ist, dann werden mehrere Kamerapositionen Cpos ∈ ℝ3 und Kamerarichtungen Cdir ∈ ℂ2 abgetastet, um eine 2D-Ansicht des Objekts zu erzeugen. Um die 3D-Schlüsselpunkte der Station, wie bspw. eines Bahnhofs, bestimmen können, werden diese auf die 2D-Abtastung übertragen.
  • Durch die Erzeugung vieler verschiedener Ansichten und die Simulation neuer Lichtverhältnisse können automatisch kommentierte Datensätze erzeugt werden. Auf der Grundlage dieses Datensatzes werden Modelle für die gewünschten Anwendungsfälle trainiert.
  • Eine Anwendung der 3D-Darstellung ist die Bestimmung der Kameraposition relativ zur Umgebung z. B. eines Busbahnhofs. Mit Hilfe des generierten auto-annotierten Datensatzes kann ein neuronales Netz trainiert werden, um die Odometrie der Kamera anhand der Schlüsselpunkte („Keypoints“) zu bestimmen. Dies kann dann für die Navigation in der Umgebung von Haltestellen genutzt werden.
  • Es erfolgt eine Erstellung dieser automatisch beschrifteten Datensätze mit dem Ziel, dass das tiefe neuronale Netz interne Details des Bahnhofs lernt. In diesem Anwendungsfall werden nach dem Zufallsprinzip einige Eckpunkte des Bahnhofs ausgewählt, die von dem neuronalen Netz vorhergesagt werden sollen. So kann das neuronale Netzwerk bei einer neuen und unbekannten Station Details wie die Anzahl der Sitzplätze für die jeweilige Station korrekt vorhersagen.
  • Automatische Anonymisierung:
  • Mit einem weiteren Modul kann eine automatische Anonymisierung von Personen vorgenommen werden. Mithilfe einer Personenerkennung und Bewegungserkennung können Personen aus dem Echtzeit-Kamerabild entfernt werden. Optional kann eine Approximation des Hintergrundes computergestützt automatisiert vorgenommen und auf die anonymisierten Bereiche angewendet werden. Im resultierenden Video ist die Anonymisierung (bis auf die Abwesenheit von Personen) dann kaum zu erkennen.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • WO 2020223577 A1 [0003]
    • WO 2016174670 A1 [0004]
    • US 20190035143 A1 [0005]
    • US 11481577 B2 [0006]

Claims (12)

  1. Verfahren zur Erfassung anonymisierter Bewegungsinformationen von Objekten aus Umgebungsbildern einer mit einer Kamera aufgenommenen Umgebung, gekennzeichnet durch - Erkennen von Bewegungen in einer Folge von Umgebungsbildungen einer Umgebung und - Erkennen von Personen anhand der erkannten Bewegungen und für Personen charakteristische Bildeigenschaften; sowie - Entfernen der aufgenommenen Darstellung der erkannten Personen in den Umgebungsbildern oder Ersetzen der erfassten Darstellungen der erkannten Personen in den Umgebungsbildern durch Annotationen.
  2. Verfahren nach Anspruch 1, gekennzeichnet durch Entzerren der aufgenommenen Umgebungsbilder und Kalibrieren der entzerrten Umgebungsbilder.
  3. Verfahren nach Anspruch 2, gekennzeichnet durch Kalibrieren der entzerrten Umgebungsbilder durch Analysieren von im entzerrten Umgebungsbild oder einem bioreferenzierten Referenz-Umgebungsbild gleichermaßen vorhandenen Merkmale.
  4. Verfahren nach Anspruch 2 oder 3, gekennzeichnet durch Rändern eines dreidimensionalen Umgebungsmodells und Kalibrieren der entzerrten Umgebungsbilder durch Analysieren von im entzerrten Umgebungsbild und dem geränderten dreidimensionalen Umgebungsmodell gleichermaßen vorhandenen Merkmalen.
  5. Verfahren nach einem der vorherigen Ansprüche, gekennzeichnet durch - Aufnehmen der Umgebungsbilder zusammen mit Ortspositionen, an denen die Bildaufnahme erfolgt ist; - Kalibrieren der Umgebungsbilder anhand der Ortspositionen; und - Approximieren der 3D-Position von Objekten in den Umgebungsbildern durch Abschätzen der Tiefe von Merkmalen in den Umgebungsbildern.
  6. Verfahren nach einem der vorherigen Ansprüche, gekennzeichnet durch Erzeugen von Bild-Annotationen für in den Umgebungsbildern erkannte Objekte und Personen durch Trainieren eines Annotationsmodells mit Umgebungsdaten ohne Annotation, aus denen 3D-Darstellungen erzeugt werden, mit denen Umgebungsbilder aus weiteren Perspektiven generiert und zum Trainieren des Annotationsmodells verwendet werden.
  7. Verfahren nach einem der vorherigen Ansprüche, gekennzeichnet durch Approximieren des Hintergrundes in den Umgebungsbildern in den Bildbereichen, in denen erkannte Personen entfernt wurden.
  8. Verfahren nach einem der vorherigen Ansprüche, gekennzeichnet durch Auswerten der anonymisierten Bewegungsbilder durch mindestens eines der aus der folgenden Gruppe ausgewählten Schritte: - Objekterkennung; - Semantisches Segmentieren; - Interpretieren von Szenen; - Erkennen von Aktionen in den Umgebungsbildern; - Bestimmen von Geschwindigkeiten von Objekten; - Bestimmen der Auswahl von Objekten und Personen in Bildbereichen.
  9. Bilddatenverarbeitungsvorrichtung, die Mittel zur Ausführung des Verfahrens nach einem der Ansprüche 1 bis 8 umfasst.
  10. Erfassungseinrichtung, die mit einer Vielzahl von Kameras und Umgebungsbildern einer jeweiligen Umgebung eingerichtet ist und eine Datenverarbeitungsvorrichtung nach Anspruch 9 aufweist.
  11. Computerprogramm, umfassend Befehle, die bei der Ausführung des Verfahrens durch einen Computer bewirken, dass der Computer das Verfahren nach einem der Ansprüche 1 bis 8 ausführt.
  12. Computerlesbares Medium, auf dem das Computerprogramm nach Anspruch 11 gespeichert ist.
DE102022134728.1A 2022-12-23 2022-12-23 Verfahren zur Erfassung und anonymisierter Bewegungsinformationen und Datenverarbeitungsvorrichtung und Erfassungseinrichtung hierzu Pending DE102022134728A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102022134728.1A DE102022134728A1 (de) 2022-12-23 2022-12-23 Verfahren zur Erfassung und anonymisierter Bewegungsinformationen und Datenverarbeitungsvorrichtung und Erfassungseinrichtung hierzu

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022134728.1A DE102022134728A1 (de) 2022-12-23 2022-12-23 Verfahren zur Erfassung und anonymisierter Bewegungsinformationen und Datenverarbeitungsvorrichtung und Erfassungseinrichtung hierzu

Publications (1)

Publication Number Publication Date
DE102022134728A1 true DE102022134728A1 (de) 2024-07-04

Family

ID=91471980

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022134728.1A Pending DE102022134728A1 (de) 2022-12-23 2022-12-23 Verfahren zur Erfassung und anonymisierter Bewegungsinformationen und Datenverarbeitungsvorrichtung und Erfassungseinrichtung hierzu

Country Status (1)

Country Link
DE (1) DE102022134728A1 (de)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007045835B4 (de) 2007-09-25 2012-12-20 Metaio Gmbh Verfahren und Vorrichtung zum Darstellen eines virtuellen Objekts in einer realen Umgebung
US20130038696A1 (en) 2011-08-10 2013-02-14 Yuanyuan Ding Ray Image Modeling for Fast Catadioptric Light Field Rendering
WO2016174670A1 (en) 2015-04-26 2016-11-03 Parkam (Israel) Ltd A method and system for automatically detecting and mapping points-of-interest and real-time navigation using the same
US20190035143A1 (en) 2013-06-12 2019-01-31 Hover Inc. Computer vision database platform for a three-dimensional mapping system
WO2020223577A1 (en) 2019-04-30 2020-11-05 Pied Parker, Inc. Image-based parking recognition and navigation
DE102020203473A1 (de) 2020-03-18 2021-09-23 Robert Bosch Gesellschaft mit beschränkter Haftung Anonymisierungseinrichtung, Überwachungsvorrichtung, Verfahren, Computerprogramm und Speichermedium
US11481577B2 (en) 2020-06-12 2022-10-25 Samasource Impact Sourcing, Inc. Machine learning (ML) quality assurance for data curation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007045835B4 (de) 2007-09-25 2012-12-20 Metaio Gmbh Verfahren und Vorrichtung zum Darstellen eines virtuellen Objekts in einer realen Umgebung
US20130038696A1 (en) 2011-08-10 2013-02-14 Yuanyuan Ding Ray Image Modeling for Fast Catadioptric Light Field Rendering
US20190035143A1 (en) 2013-06-12 2019-01-31 Hover Inc. Computer vision database platform for a three-dimensional mapping system
WO2016174670A1 (en) 2015-04-26 2016-11-03 Parkam (Israel) Ltd A method and system for automatically detecting and mapping points-of-interest and real-time navigation using the same
WO2020223577A1 (en) 2019-04-30 2020-11-05 Pied Parker, Inc. Image-based parking recognition and navigation
DE102020203473A1 (de) 2020-03-18 2021-09-23 Robert Bosch Gesellschaft mit beschränkter Haftung Anonymisierungseinrichtung, Überwachungsvorrichtung, Verfahren, Computerprogramm und Speichermedium
US11481577B2 (en) 2020-06-12 2022-10-25 Samasource Impact Sourcing, Inc. Machine learning (ML) quality assurance for data curation

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TIEU, N.-D. T., et al.: An approach for gait anonymization using deep learning. In: 2017 IEEE workshop on information forensics and security (WIFS). IEEE, 2017. S. 1-6. doi: 10.1109/WIFS.2017.8267657
WEXLER, Y., Shechtman, E., Irani, M.: Space-time completion of video. In: IEEE Transactions on pattern analysis and machine intelligence, 2007, 29. Jg., Nr. 3, S. 463-476. doi: 10.1109/TPAMI.2007.60
ZHU, Z., et al.: AR-mentor: Augmented reality based mentoring system. In: 2014 IEEE international symposium on mixed and augmented reality (ISMAR). IEEE, 2014. S. 17-22. doi: 10.1109/ISMAR.2014.6948404

Similar Documents

Publication Publication Date Title
DE112019001310T5 (de) Systeme und verfahren zum reduzieren der menge an datenspeicher beim maschinellen lernen
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
DE112018007287T5 (de) Fahrzeugsystem und -verfahren zum erfassen von objekten und einer objektentfernung
EP2584493B1 (de) Verfahren zur Unterscheidung zwischen einem realen Gesicht und einer zweidimensionalen Abbildung des Gesichts in einem biometrischen Erfassungsprozess
DE102017208718A1 (de) Verfahren zur Erkennung von Objekten in einem Bild einer Kamera
DE112016004534T5 (de) Nicht überwachtes Abgleichen in feinkörnigen Datensätzen zur Einzelansicht-Objektrekonstruktion
DE112009000949T5 (de) Detektion eines freien Fahrpfads für ein Fahrzeug
DE102014210820A1 (de) Verfahren zum Nachweis von großen und Passagierfahrzeugen von festen Kameras
DE112019001044T5 (de) Verfahren und vorrichtung für maschinelles lernen, programm, gelerntes modell und diskriminiervorrichtung
DE102021203020A1 (de) Generative-adversarial-network-modelle zur detektion kleiner strassenobjekte
DE102023102316A1 (de) System und verfahren zur robusten erzeugung von pseudo-labels für die halb-überwachte objekterkennung
DE102017124600A1 (de) Semantische Segmentierung eines Objekts in einem Bild
DE102019127283A1 (de) System und Verfahren zum Erfassen eines Objekts in einer dreidimensionalen Umgebung eines Trägerfahrzeugs
DE102018113621A1 (de) Verfahren zum Trainieren eines konvolutionellen neuronalen Netzwerks zum Verarbeiten von Bilddaten zur Anwendung in einem Fahrunterstützungssystem
DE102022134728A1 (de) Verfahren zur Erfassung und anonymisierter Bewegungsinformationen und Datenverarbeitungsvorrichtung und Erfassungseinrichtung hierzu
DE102019129029A1 (de) System und verfahren zur objektdetektion
DE102022214330A1 (de) Verfahren zur Erzeugung mindestens einer Ground Truth aus der Vogelperspektive
DE102020126954A1 (de) System und Verfahren zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung
DE102020126690A1 (de) Verfahren zum Bestimmen eines Bewegungsmodells eines Objekts in einer Umgebung eines Kraftfahrzeugs, Computerprogrammprodukt, computerlesbares Speichermedium sowie Assistenzsystem
EP3754544A1 (de) Erkennungssystem, arbeitsverfahren und trainingsverfahren
DE102019129101A1 (de) Verfahren und System zum Schätzen eines Begrenzungsrahmens, der ein Zielfahrzeug einschließt
DE102019210518A1 (de) Verfahren zum Erkennen eines Objektes in Sensordaten, Fahrerassistenzsystem sowie Computerprogramm
DE10136649B4 (de) Verfahren und Vorrichtung zur Objekterkennung von sich bewegenden Kraftfahrzeugen
DE102011075335A1 (de) Verfahren zur rechnergestützten Lageschätzung eines Objekts
DE102021206190A1 (de) Verfahren zur Erkennung von Objekten gesuchter Typen in Kamerabildern

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: MEISSNER BOLTE PATENTANWAELTE RECHTSANWAELTE P, DE

R016 Response to examination communication