DE112017007724T5 - System und Verfahren zur Verfolgung von Objekten in einer zeitlichen Sequenz von digitalen Bildern - Google Patents

System und Verfahren zur Verfolgung von Objekten in einer zeitlichen Sequenz von digitalen Bildern Download PDF

Info

Publication number
DE112017007724T5
DE112017007724T5 DE112017007724.9T DE112017007724T DE112017007724T5 DE 112017007724 T5 DE112017007724 T5 DE 112017007724T5 DE 112017007724 T DE112017007724 T DE 112017007724T DE 112017007724 T5 DE112017007724 T5 DE 112017007724T5
Authority
DE
Germany
Prior art keywords
nodes
type
pair
edge
edges
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112017007724.9T
Other languages
English (en)
Inventor
Daniel Olmeda Reino
Bernt Schiele
Björn Andres
Mykhaylo Andriluka
Siyu TANG
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Europe NV SA
Max Planck Gesellschaft zur Foerderung der Wissenschaften eV
Original Assignee
Toyota Motor Europe NV SA
Max Planck Gesellschaft zur Foerderung der Wissenschaften eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Europe NV SA, Max Planck Gesellschaft zur Foerderung der Wissenschaften eV filed Critical Toyota Motor Europe NV SA
Publication of DE112017007724T5 publication Critical patent/DE112017007724T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/7635Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks based on graphs, e.g. graph cuts or spectral clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Discrete Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

Die Erfindung betrifft ein System zur Verfolgung von Objekten in einer zeitlichen Sequenz von digitalen Bildern. Das System ist dazu eingerichtet, um: potentielle Objekte in den Bildern zu erfassen, wobei die erfassten potentiellen Objekte als Knoten angezeigt werden, Paare benachbarter Knoten derart zu identifizieren, dass für jedes Paar die Knoten des Paares potentiell ein identisches Objekt darstellen und ihre räumliche und/oder zeitliche Beziehung zueinander innerhalb eines vorbestimmten Bereichs liegt, jedes Paar benachbarter Knoten mit einer Kante eines ersten Typs zu verbinden, mindestens ein zusätzliches Paar entfernter Knoten zu identifizieren, deren räumliche und/oder zeitliche Beziehung zueinander den vorbestimmten Bereich überschreitet, das Paar entfernter Knoten mit einer zusätzlichen Kante eines zweiten Typs zu verbinden, wobei jeder Kante des ersten und zweiten Typs ein Kostenwert zugeordnet ist, der eine Wahrscheinlichkeit darstellt, ob die verbundenen Knoten ein identisches Objekt darstellen oder nicht, und eine Spur eines Objekts in der zeitlichen Sequenz digitaler Bilder zu bestimmen, auf Grundlage eines Satzes verbundener Kanten des ersten Typs und mindestens einer Kante des zweiten Typs, die zusätzlich mindestens einen der Knoten verbindet, die durch den Satz der verbundenen Kanten des ersten Typs verbunden sind. Die Erfindung bezieht sich ferner auf ein System zur Verfolgung von Objekten in einer zeitlichen Sequenz von digitalen Bildern.

Description

  • GEBIET DER OFFENBARUNG
  • Die vorliegende Offenbarung betrifft ein System und ein Verfahren zum Verfolgen von Objekten in einer zeitlichen Sequenz von digitalen Bildern, insbesondere zum Erfassen und Verfolgen von Menschen in einem digitalen Videostream.
  • HINTERGRUND DER OFFENBARUNG
  • Das Verfolgen, beziehungsweise Tracken mehrerer Personen in einem monokularen Video einer überfüllten Szene ist eine herausfordernde Aufgabe. Menschen können es meistern, selbst wenn sie den Überblick über eine Person vor Ort verlieren, indem sie dieselbe Person anhand ihres Aussehens neu identifizieren. Vorsicht ist über weite Entfernungen geboten, da ähnlich aussehende Personen nicht identisch sein müssen.
  • Wie auch immer hat sich die Verfolgung mehrerer Personen in den letzten Jahren erheblich verbessert. Ein Trend in diesem Forschungsbereich bestand darin, CNN-basierte Merkmalsdarstellungen für das Aussehen von Personen zu entwickeln, um die Beziehungen zwischen Erfassungshypothesen effektiv zu modellieren, vgl. beispielsweise:
    • C. Kim, F. Li, A. Ciptadi, und J.M. Rehg. Multiple hypothesis tracking revisited. In Computer Vision (ICCV), IEEE Internationale Konferenz über IEEE, Dez. 2015
  • Dieser Trend hat zwei Vorteile: Erstens können Darstellungen des Aussehens von Personen für unterschiedliche Kamerapositionen und Bewegungen gelernt werden, ein mit einfachen Bewegungsmodellen weniger einfach zu erreichendes Ziel, insbesondere für monokulare Videos aufgrund der Komplexität der Bewegung bei perspektivischer Projektion. Zweitens erleichtert das Aussehen die erneute Identifizierung von Personen über große Entfernungen hinweg, im Gegensatz zu Bewegungsmodellen, die asymptotisch unkorreliert werden.
  • Das Einbeziehen einer erneuten Identifizierung über große Entfernungen in Algorithmen zur Verfolgung mehrerer Personen bleibt jedoch eine Herausforderung. Ein Grund ist, wie bereits erwähnt, die einfache Tatsache, dass ähnlich aussehende Menschen nicht unbedingt identisch sind.
  • Jüngste Arbeiten zur Verfolgung von mehreren Personen konzentrieren sich auf den Ansatz der Verfolgung nach Erkennung, vgl. beispielsweise:
    • A. Milan, S. Roth, und K. Schindler. Continuous energy minimization for multitarget tracking. IEEE TPAMI, 2014.
  • Die Verfolgung kann entweder direkt auf Personenerfassungen oder auf einem Satz vertrauenswürdiger Tracklets durchgeführt werden, die durch erste Gruppenerfassungen erhalten werden. Das Einfügen von Tracklets kann den Statusraum verringern. Für solche Ansätze ist jedoch ein separater Tracklet-Generierungsschritt erforderlich, und alle durch die Tracklet-Generierung verursachten Fehler werden wahrscheinlich auf die endgültige Lösung übertragen.
  • Eine gängige Formulierung für die Mehrpersonenverfolgung, beziehungsweise das Mehrpersonen-Tracking oder das Multi-Person-Tracking sind netzwerkflussbasierte Methoden, vgl. beispielsweise:
    • H. Pirsiavash, D. Ramanan, und C.C. Fowlkes. Globallyoptimal greedy algorithms for tracking a variable number of objects. In CVPR, 2011.
  • Solche Methoden formulieren das Verfolgen als ein graphenbasiertes Optimierungsproblem.
  • Kürzlich wurde eine Kostenminimale-Multicut-Formulierung vorgeschlagen, um das Mehrpersonenverfolgungsproblem, beziehungsweise das Mehrpersonen-Tracking-Problem oder das Multi-Person-Tracking-Problem anzugehen, vgl. beispielsweise:
    • S. Tang, B. Andres, M. Andriluka, und B. Schiele. Multiperson tracking by multicuts and deep matching. In BMTT, 2016.
  • Hier wird vorgeschlagen das Verfolgungsproblem als ein Korrelations-Clustering-Problem zu modellieren, bei dem Detektionshypothesen gemeinsam über Raum und Zeit geclustert, beziehungsweise gebündelt werden. Die optimale Anzahl von Personen sowie der Cluster jeder Person werden erhalten, indem der Graph mit attraktiven und repulsiven Termen partitioniert wird.
  • Kürzlich wurde ferner vorgeschlagen, die Ähnlichkeit zwischen Detektionspaaren durch CNNs zu modellieren, vgl. beispielsweise:
    • L. Leal-Taixe, C. Canton-Ferrer, und K. Schindler. Learning by tracking:
      • Siamese CNN for robust target association. arXiv: 1604.07866.
  • Es wurden mehrere Architekturen untersucht, die Erkenntnisse liefern, dass die Bildung einer gestapelten Eingabe für CNNs die beste Leistung erbringt.
  • ZUSAMMENFASSUNG DER OFFENBARUNG
  • Derzeit ist es nach wie vor wünschenswert, ein System und ein Verfahren zum zuverlässigen Verfolgen eines Objekts in einer zeitlichen Sequenz von digitalen Bildern bereitzustellen, insbesondere über große Entfernungen und ohne gleichaussehende Objekte zu verwechseln.
  • Daher wird gemäß den Ausführungsbeispielen der vorliegenden Offenbarung ein System zum Verfolgen von Objekten in einer zeitlichen Sequenz von digitalen Bildern bereitgestellt.
  • Das System ist dazu eingerichtet, um:
    • - potentielle Objekte in den Bildern zu erfassen, wobei die erfassten potentiellen Objekte als Knoten angezeigt werden, Paare benachbarter Knoten zu identifizieren, so dass für jedes Paar die Knoten dieses Paares potentiell ein identisches Objekt darstellen und deren räumliche und/oder zeitliche Beziehung zueinander innerhalb eines vorbestimmten Bereichs besteht,
    • - jedes Paar benachbarter Knoten mit einer Kante eines ersten Typs zu verbinden,
    • - mindestens ein zusätzliches Paar entfernter Knoten zu identifizieren, deren räumliche und/oder zeitliche Beziehung zueinander den vorbestimmten Bereich überschreitet,
    • - das Paar entfernter Knoten mit einer zusätzlichen Kante eines zweiten Typs zu verbinden, wobei jeder Kante des ersten und zweiten Typs ein Kostenwert zugewiesen wird, der eine Wahrscheinlichkeit darstellt, ob die verbundenen Knoten ein identisches Objekt darstellen oder nicht, und
    • - eine Spur eines Objekts in der zeitlichen Sequenz von digitalen Bildern zu bestimmen, basierend auf einem Satz von verbundenen Kanten des ersten Typs und mindestens einer Kante des zweiten Typs, die zusätzlich mindestens einen der Knoten verbindet, die durch den Satz von verbundenen Kanten des ersten Typs verbunden sind.
  • Das System kann eine elektronische Einheit umfassen, die dazu eingerichtet ist, um die oben beschriebenen Systemfunktionen auszuführen.
  • Ein Objekt (zum Beispiel ein Mensch) kann in mehreren Bildern erfasst werden, so dass die resultierenden Knoten einen zeitlichen Versatz und schließlich auch einen räumlichen Versatz zueinander aufweisen. Das gleiche Objekt kann jedoch in einem Bild mehrere Male erfasst werden, was dazu führt, dass mehrere Knoten einen räumlichen Versatz, jedoch keinen zeitlichen Versatz zueinander aufweisen. Aus diesem Grund können Kanten auch Knoten verbinden, die sich im gleichen Bild oder auf verschiedenen Bildern befinden. Daher kann die Beziehung von verbundenen Knoten eine räumliche und/oder eine zeitliche Beziehung zueinander sein.
  • Die identifizierten Paare benachbarter Knoten, die jeweils durch eine Kante eines ersten Typs verbunden sind, erfüllen zwei Bedingungen: Die Knoten eines Paares repräsentieren potentiell ein identisches (das heißt dasselbe) Objekt. Somit kann ein Basiselement einer Spur eines Objekts durch eine solche Kante eines ersten Typs bestimmt werden. Zusätzlich liegt die räumliche und/oder zeitliche Beziehung der verbundenen benachbarten Knoten in einem vorbestimmten Bereich. Daher sind die benachbarten Knoten relativ „nahe“ beieinander, dies kann zum Beispiel bedeuten, dass ihr kombinierter zeitlicher und räumlicher Abstand zueinander einen vorbestimmten Abstand nicht überschreitet oder dass kein weiterer Knoten (der dasselbe Objekt darstellt) identifiziert wurde, der sich zum Beispiel zwischen den beiden benachbarten Knoten befindet (zum Beispiel innerhalb der räumlichen und/oder zeitlichen Ausdehnung der Kante).
  • Jede Kante weist wünschenswerterweise einen Kostenwert auf, der angibt, ob die verbundenen Knoten wahrscheinlich dasselbe Objekt darstellen oder nicht. Demnach gibt der Kostenwert einer Kante eines ersten Typs wünschenswerterweise an, dass die verbundenen Knoten dasselbe Objekt darstellen, er könnte zum Beispiel über einem vorbestimmten Grenzwert liegen.
  • Das System ist wünschenswerterweise ferner in der Lage grundsätzlich die Spur eines Objekts (zum Beispiel eines Menschen) zu bestimmen, indem ein Satz (zum Beispiel eine Kette) von Kanten des ersten Typs identifiziert wird, wobei die Spur basierend auf der mindestens einen Kante eines zweiten Typs verifiziert und schließlich aktualisiert wird.
  • Die Knoten, die durch den Satz von Kanten des ersten Typs verbunden wurden, repräsentieren wünschenswerterweise das verfolgte Objekt. Daher kann dieser Satz anfänglich die Spur definieren. Auf jeden Fall wird die Spur immer noch anhand der mindestens einen Kante des zweiten Typs überprüft (und schließlich aktualisiert), insbesondere basierend auf ihrem Kostenwert. Beispielsweise kann ein Kostenwert der Kante des zweiten Typs über einem vorbestimmten oberen Grenzwert, der anzeigt, dass die entfernten Knoten das identische Objekt darstellen (und insbesondere auch das Objekt, das durch den Satz von Kanten des ersten Typs dargestellt wird), die anfängliche Spur bestätigen oder sogar zu einer Verbindung, beziehungsweise Zusammenfügung weiterer Kanten des ersten Typs mit der anfänglichen Spur führen. In einem anderen Beispiel kann ein Kostenwert unter einem vorbestimmten unteren Grenzwert, der anzeigt, dass die entfernten Knoten unterschiedliche Objekte darstellen, zu einem Zerschneiden, beziehungsweise Aufteilen der anfänglichen Spur in mehrere Spuren führen.
  • Es ist ebenfalls möglich, dass den Kanten des ersten Typs (und eventuell auch der mindestens einen Kante des zweiten Typs) anfänglich ein Kostenwert zugewiesen wird, zum Beispiel um die anfängliche Spur auf Grundlage des identifizierten Satzes verbundener Kanten des ersten Typs zu bestimmen. In diesem Fall kann die Funktion des Verifizierens und Aktualisierens der Spur ein Verifizieren und Aktualisieren der Kostenwerte der Kanten des ersten Typs (und schließlich auch der mindestens einen Kante des zweiten Typs) umfassen. Basierend auf den aktualisierten Kostenwerten kann die Spur aktualisiert werden.
  • Im Allgemeinen, gemäß der vorliegenden Offenbarung, wird das mathematische Modell von beispielsweise:
    • S. Tang, B. Andres, M. Andriluka, und B. Schiele. Subgraph decomposition for multi-target tracking. In CVPR, 2015
    • wünschenswerterweise verallgemeinert, um zu vermeiden, dass ähnlich aussehende, aber tatsächlich unterschiedliche Objekte verwechselt werden. Dadurch wird das mathematische Modell wünschenswerterweise verallgemeinert, um die Tatsache auszudrücken, dass ähnlich aussehende Personen nur dann als dieselbe Person betrachtet werden, falls sie durch mindestens eine realisierbare Spur verbunden sind (möglicherweise Auslassen einer Okklusion). In dem oben genannten Stand der Technik wird die Verfolgung von mehreren Personen als ein Kostenminimales-Multicut-Problem angesehen. Dort und in der vorliegenden Offenbarung wird jede Erfassung (das heißt erfasstes Objekt) durch einen Knoten in einem Graphen dargestellt; Kanten verbinden Erfassungen innerhalb und über Zeitrahmen hinweg, und die den Kanten zugewiesenen Kosten können positiv sein, um die einfallenden Knoten dazu zu bewegen, sich auf derselben Spur zu befinden, oder negativ sein, um die einfallenden Knoten dazu zu bewegen, sich auf unterschiedlichen Spuren zu befinden. Eine solche mathematische Abstraktion hat mehrere Vorteile:
      • Erstens ist die Anzahl von Personen nicht durch die Definition des Problems festgelegt oder verzerrt, sondern wird in unbefangener Weise aus der Videosequenz geschätzt und durch die Lösung des Problems bestimmt. Zweitens werden mehrere Erfassungen derselben Person im selben Bild effektiv geclustert, wodurch die Notwendigkeit einer heuristischen Nicht-Maxima-Unterdrückung entfällt. Um zu vermeiden, dass unterschiedliche, aber ähnlich aussehende Personen derselben Spur zugeordnet werden, muss zwischen Kanten, die mögliche Verbindungen definieren (das heißt ein realisierbarer Satz), und Kanten, die die Kosten oder Belohnungen für die Zuordnung der einfallenden Knoten zu unterschiedlichen Knoten definieren (das heißt eine Zielfunktion), unterschieden werden. Dies kann erreicht werden, indem das Mehrpersonenverfolgungsproblem als ein Minimalkostenangehobenes-Multicut-Problem, beziehungsweise ein Minimum-Cost-Lifted-Multicut-Problem, betrachtet wird, wie im Folgenden erläutert ist. Insbesondere können drei Beiträge geleistet werden:
        • Erstens können tiefgehende Netzwerke zur erneuten Identifizierung von Personen entworfen und trainiert werden, indem menschliche Pose-Informationen, beziehungsweise Haltungs-Informationen zusammengeführt werden. Dies stellt einen Mechanismus zum Assoziieren von Personenhypothesen bereit, die zeitlich entfernt sind, und ermöglicht das Erhalten von Korrespondenz vor und nach einer Okklusion.
  • Zweitens wird eine neue Formulierung einer Mehrpersonenverfolgung als das Minimalkostenangehobene-Multicut-Problem vorgeschlagen. Zwei Arten von Kanten (reguläre, das heißt erster Art und angehobene, das heißt Kanten zweiter Art) werden wünschenswerterweise in den Graphen eingeführt. Die regelmäßigen Kanten definieren den Satz realisierbarer Lösungen in dem Graphen, nämlich welches Paar von Knoten verbunden/zerschnitten werden kann. Die angehobenen Kanten fügen dem Objektiv zusätzliche Informationen über große Entfernungen, beziehungsweise weitreichende Informationen hinzu, auf denen Knoten verbunden/zerschnitten werden sollen, ohne den Satz realisierbarer Lösungen zu modifizieren. Eine solche Formulierung kodiert Informationen über große Entfernungen, bestraft jedoch langfristig falsche Verbindungen (zum Beispiel ähnlich aussehende Personen), indem gültige Pfade in der realisierbaren Lösung auf einheitliche und strenge Weise erzwungen werden.
  • Drittens kann gezeigt werden, dass durch lokale Optima dieses Optimierungsproblems definierte Spuren einen neuen Stand der Technik definieren, zum Beispiel für den MOT16-Benchmark.
  • Dementsprechend unterscheidet sich die vorliegende Offenbarung von der vorherigen Multicut-basierten Arbeit des Standes der Technik, indem zusätzliche Kanten (das heißt Kanten des zweiten Typs) in einen Graphen eingefügt werden, um Informationen über große Entfernungen in die Verfolgung aufzunehmen.
  • Da die Erfassungen wünschenswerterweise in Raum und Zeit zusammen geclustert sind, ist das System außerdem in der Lage, mehrere Erfassungshypothesen desselben Ziels in jedem Bild handzuhaben.
  • Das mindestens eine zusätzliche Paar entfernter Knoten kann derart identifiziert werden, dass die Knoten des zusätzlichen Paares potentiell ein identisches Objekt darstellen, oder dass die Knoten des zusätzlichen Paares potentiell verschiedene Objekte darstellen.
  • Dementsprechend können unterschiedliche Arten von Kanten des zweiten Typs (insbesondere mit unterschiedlichen Kostenwerten) verwendet werden, um die Spur zu verifizieren, zum Beispiel in der ersten Alternative, um einen Satz von Kanten des ersten Typs als Spur zu bestätigen, in der zweiten, um zu bestätigen, dass eine Spur zerschnitten werden muss.
  • Das System kann ein neuronales Netzwerk umfassen, das dazu eingerichtet ist, um jeder der Kanten des ersten und des zweiten Typs einen Kostenwert zuzuweisen, der eine Wahrscheinlichkeit darstellt, ob die verbundenen Knoten ein identisches Objekt darstellen oder nicht.
  • Demnach kann die oben beschriebene Funktion des Systems zum Zuweisen von Kostenwerten durch ein neuronales Netzwerk ausgeführt werden.
  • Das neuronale Netzwerk ist wünschenswerterweise ein Faltungs-Neuronales Netzwerk, bzw. ein Convolution Neuronal Network (CNN).
  • Das neuronale Netzwerk (oder ein weiteres neuronales Netzwerk) kann dazu eingerichtet sein, um: Die potentiellen Objekte in den Bildern zu erfassen, wobei die erfassten potentiellen Objekte als Knoten angezeigt werden, die Paare benachbarter Knoten zu identifizieren, jedes Paar benachbarter Knoten zu verbinden, das mindestens eine zusätzliche Paar entfernter Knoten zu identifizieren, und das Paar entfernter Knoten zu verbinden.
  • Dementsprechend können die oben beschriebenen Funktionen des Systems auch von einem neuronalen Netzwerk ausgeführt werden.
  • Die Funktion zum Bestimmen der Spur kann umfassen: Identifizieren eines Satzes verbundener Kanten des ersten Typs, die die Spur darstellen, und Aktualisieren der Spur basierend auf der mindestens einen Kante des zweiten Typs.
  • Insbesondere kann eine Spur eine Komponente eines Graphen sein, der vom System bestimmt wird. In diesem Fall kann das Bestimmen einer Spur Folgendes umfassen: Bestimmen eines Graphen mit mehreren Komponenten, wobei jede Komponente einen Satz verbundener Kanten des ersten Typs umfasst, und Aktualisieren des Graphen durch Zusammenfügen und/oder Zerschneiden einzelner Komponenten basierend auf mindestens einer zusätzlichen Kante des zweiten Typs, wobei jede zusammengefügte und/oder zerschnittene Komponente des aktualisierten Graphen eine Spur eines Objekts darstellt.
  • Das System kann ferner dazu eingerichtet sein, um: Den Graphen zu aktualisieren, indem einzelne Komponenten zu einer zusammengeführten Komponente verbunden, beziehungsweise zusammengefügt werden, falls sich mindestens eine zusätzliche Kante des zweiten Typs entlang der einzelnen Komponenten erstreckt.
  • Dies kann insbesondere der Fall sein, wenn der Kostenwert der Kante des zweiten Typs die Verbindung belohnt.
  • Demnach kann das System ferner dazu eingerichtet sein, um: Den Graphen durch Zusammenfügen einzelner Komponenten mit der zusammengeführten Komponente nur in dem Fall zu aktualisieren, dass der Kostenwert der mindestens einen zusätzlichen Kante des zweiten Typs einen vorbestimmten Grenzwert überschreitet.
  • Der Kostenwert repräsentiert wünschenswerterweise eine vorbestimmte minimale Wahrscheinlichkeit, dass die verbundenen entfernten Knoten ein identisches Objekt repräsentieren.
  • Das System kann ferner dazu eingerichtet sein, um: Ein Paar entfernter Knoten mit einer Kante des zweiten Typs nur in dem Fall zu verbinden, dass die entfernten Knoten auch durch einen Satz verbundener Kanten des ersten Typs verbunden sind.
  • Demnach kann ein Identifizieren einer Kante des zweiten Typs ein Identifizieren eines Satzes verbundener Kanten des ersten Typs umfassen. Der Satz verbundener Kanten des ersten Typs repräsentiert wünschenswerterweise das gleiche Objekt wie die Kante des zweiten Typs.
  • Die räumliche und/oder zeitliche Beziehung eines Knotenpaares kann durch den räumlichen und/oder zeitlichen Abstand des Knoten des Paares zueinander definiert sein, und/oder der vorbestimmte Bereich wird durch einen vorbestimmten räumlichen und/oder zeitlichen Abstandsgrenzwert definiert.
  • Der vorbestimmte Bereich kann derart definiert sein, dass die räumliche und/oder zeitliche Beziehung eines Knotenpaares den vorbestimmten Bereich überschreitet, falls mindestens ein weiterer Knoten zwischen dem Paar von Knoten identifiziert wird, der potentiell das identische Objekt wie das Knotenpaar darstellt.
  • Die Bestimmung, dass Knoten potentiell ein identisches Objekt darstellen, kann auf dem Kostenwert der Verbindungskante basieren.
  • Der Kostenwert einer Kante kann auf Grundlage des Maßstabs, der Koordinaten und/oder des Aussehens der verbundenen Knoten bestimmt werden.
  • Die vorliegende Offenbarung betrifft ferner ein Verfahren zum Verfolgen von Objekten in einer zeitlichen Sequenz von digitalen Bildern, mit den Schritten:
    • - Erfassen potentieller Objekte in den Bildern, wobei die erfassten potentiellen Objekte als Knoten angezeigt werden,
    • - Identifizieren von Paaren benachbarter Knoten, so dass für jedes Paar die Knoten des Paares potentiell ein identisches Objekt darstellen und ihre räumliche und/oder zeitliche Beziehung zueinander in einem vorbestimmten Bereich liegt,
    • - Verbinden jedes Paares benachbarter Knoten mit einer Kante des ersten Typs,
    • - Identifizieren von mindestens einem zusätzlichen Paar entfernter Knoten, deren räumliche und/oder zeitliche Beziehung zueinander den vorgegebenen Bereich überschreitet,
    • - Verbinden des Paares entfernter Knoten mit einer zusätzlichen Kante des zweiten Typs, wobei jeder Kante des ersten und zweiten Typs ein Kostenwert zugewiesen wird, der eine Wahrscheinlichkeit darstellt, ob die verbundenen Knoten ein identisches Objekt darstellen oder nicht, und
    • - Bestimmen einer Spur eines Objekts in der zeitlichen Sequenz von digitalen Bildern auf Grundlage eines Satzes von verbundenen Kanten des ersten Typs und mindestens einer Kante des zweiten Typs, die zusätzlich mindestens einen der Knoten verbindet, die durch den Satz von verbundenen Kanten des ersten Typs verbunden sind.
  • Das Verfahren kann weitere Verfahrensschritte umfassen, die den oben beschriebenen Funktionen des Systems entsprechen. Die weiteren Verfahrensschritte können wie nachfolgend beschrieben sein.
  • Das mindestens eine zusätzliche Paar entfernter Knoten kann derart identifiziert werden, dass die Knoten des zusätzlichen Paares potentiell ein identisches Objekt darstellen, oder dass die Knoten des zusätzlichen Paares potentiell verschiedene Objekte darstellen.
  • Das Verfahren kann zumindest teilweise durchgeführt werden, indem ein neuronales Netzwerk konfiguriert wird, um jeder der Kanten des ersten und des zweiten Typs einen Kostenwert zuzuweisen, der eine Wahrscheinlichkeit darstellt, ob die verbundenen Knoten ein identisches Objekt darstellen oder nicht.
  • Das neuronale Netzwerk (oder ein weiteres neuronales Netzwerk) kann auch die folgenden Schritte des Verfahrens ausführen: Erfassen der potentiellen Objekte in den Bildern, wobei die erfassten potentiellen Objekte als Knoten angezeigt werden, Identifizieren der Paare benachbarter Knoten, Verbinden von jedem Paar benachbarter Knoten, Identifizieren des mindestens einen zusätzlichen Paares entfernter Knoten, und Verbinden des Paares entfernter Knoten.
  • Der Schritt des Bestimmens der Spur kann umfassen: Identifizieren eines Satzes verbundener Kanten des ersten Typs, die die Spur darstellen, und Aktualisieren der Spur auf Grundlage der mindestens einen Kante des zweiten Typs.
  • Insbesondere kann eine Spur eine Komponente eines Graphen sein, der vom System bestimmt wird. In diesem Fall kann ein Bestimmen einer Spur Folgendes umfassen: Bestimmen eines Graphen mit mehreren Komponenten, wobei jede Komponente einen Satz verbundener Kanten des ersten Typs umfasst, und Aktualisieren des Graphen durch Zusammenfügen und/oder Zerschneiden einzelner Komponenten basierend auf mindestens einer zusätzlichen Kante des zweiten Typs, wobei jede zusammengefügte und/oder zerschnittene Komponente des aktualisierten Graphen eine Spur eines Objekts darstellt.
  • In einem weiteren Schritt kann das Verfahren den Graphen aktualisieren, indem einzelne Komponenten zu einer zusammengeführten Komponente zusammengefügt werden, falls sich mindestens eine zusätzliche Kante des zweiten Typs entlang der einzelnen Komponenten erstreckt.
  • Der Kostenwert repräsentiert wünschenswerterweise eine Wahrscheinlichkeit, dass die verbundenen entfernten Knoten ein identisches Objekt darstellen.
  • In einem weiteren Schritt kann das Verfahren ein Paar entfernter Knoten mit einer Kante des zweiten Typs nur in dem Fall verbinden, dass die entfernten Knoten auch durch einen Satz verbundener Kanten des ersten Typs verbunden sind.
  • Die räumliche und/oder zeitliche Beziehung eines Knotenpaares kann durch den räumlichen und/oder zeitlichen Abstand der Knoten des Paares zueinander definiert sein, und/oder der vorbestimmte Bereich wird durch einen vorbestimmten räumlichen und/oder zeitlichen Abstandsgrenzwert definiert.
  • Der vorbestimmte Bereich kann derart definiert sein, dass die räumliche und/oder zeitliche Beziehung eines Knotenpaares den vorbestimmten Bereich überschreitet, falls mindestens ein weiterer Knoten zwischen den Knoten des Paares identifiziert wird, der potentiell das identische Objekt wie das Knotenpaar darstellt.
  • Die Bestimmung, dass Knoten potentiell ein identisches Objekt darstellen, kann auf dem Kostenwert der Verbindungskante basieren.
  • Die vorliegende Offenbarung betrifft ferner ein Computerprogramm mit Instruktionen zum Ausführen der Schritte des Verfahrens, wenn das Programm von einem Computer ausgeführt wird.
  • Es ist beabsichtigt, dass Kombinationen der oben beschriebenen Elemente und derjenigen innerhalb der Beschreibung vorgenommen werden können, sofern nicht anders angegeben.
  • Es soll verstanden werden, dass sowohl die vorstehende allgemeine Beschreibung als auch die folgende detaillierte Beschreibung nur beispielhaft und erläuternd sind und die beanspruchte Offenbarung nicht einschränken.
  • Die beigefügten Zeichnungen, die in diese Beschreibung aufgenommen sind und einen Teil davon bilden, veranschaulichen Ausführungsbeispiele der Offenbarung und dienen zusammen mit der Beschreibung dazu, deren Grundsätze zu erläutern.
  • Figurenliste
    • 1 zeigt ein schematisches Blockdiagramm eines Systems gemäß Ausführungsbeispielen der vorliegenden Offenbarung;
    • 2a bis 2d zeigen Vergleiche von beispielhaften Spuren gemäß dem Stand der Technik (2a und 2c) und gemäß Ausführungsbeispielen der vorliegenden Offenbarung (2b und 2d); und
    • 3a bis 3c zeigen schematische Darstellungen von neuronalen Netzen gemäß Ausführungsbeispielen der vorliegenden Offenbarung.
  • BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
  • Es wird nun detailliert auf beispielhafte Ausführungsbeispiele der Offenbarung Bezug genommen, von denen Beispiele in den beigefügten Zeichnungen veranschaulicht sind. Wo immer es möglich ist werden in den Zeichnungen dieselben Bezugszeichen verwendet, um auf dieselben oder ähnliche Teile Bezug zu nehmen.
  • 1 zeigt ein Blockdiagramm eines Systems 10 gemäß Ausführungsbeispielen der vorliegenden Offenbarung. Das System kann verschiedene weitere Funktionen aufweisen, zum Beispiel kann es ein Robotersystem oder ein Kamerasystem sein. Es kann ferner in ein Fahrzeug integriert sein.
  • Das System 10 kann eine elektronische Schaltung, einen Prozessor (gemeinsam genutzt, dediziert, oder gruppiert), eine kombinatorische Logikschaltung, einen Speicher, der ein oder mehrere Softwareprogramme ausführt, und/oder andere geeignete Komponenten umfassen, die die beschriebene Funktionalität bereitstellen. Mit anderen Worten kann das System 10 eine Computervorrichtung sein.
  • Das System kann mit einem Speicher verbunden sein, der Daten speichern kann, zum Beispiel ein Computerprogramm, das, wenn es ausgeführt wird, das Verfahren gemäß der vorliegenden Offenbarung ausführt. Insbesondere kann das System oder der Speicher Software speichern, die ein neuronales Netzwerk gemäß der vorliegenden Offenbarung umfassen kann.
  • Das System 10 weist einen Eingang zum Empfangen digitaler Bilder oder eines Streams von digitalen Bildern auf. Insbesondere kann das System 10 mit einem optischen Sensor 1, insbesondere einer Digitalkamera, verbunden sein. Die Digitalkamera 1 ist derart eingerichtet, dass sie eine Szene aufzeichnen und insbesondere digitale Daten an das System 10 ausgeben kann.
  • Das System kann dazu eingerichtet sein, um Objekte in den Bildern zu identifizieren, zum Beispiel durch Ausführen eines Computer-Vision-Algorithmus zum Erfassen des Vorhandenseins und der Position von Objekten in einer wahrgenommenen Szene. Beispielsweise können Personen, Fahrzeuge, und andere Objekte erfasst werden. Das System kann die erfassten Objekte über die Bilder verfolgen.
  • Im Folgenden ist der Betrieb des neuronalen Netzwerks gemäß der vorliegenden Offenbarung detaillierter erklärt, in Bezug auf die mathematische Abstraktion der Verfolgung mehrerer Personen als ein Minimum-Cost-Lifted-Multicut-Problem (LMP) gemäß der vorliegenden Offenbarung.
  • Das LMP ist ein Optimierungsproblem, dessen mögliche Lösungen durch Zerlegung eines Graphen identifiziert werden können. Im Vergleich zu dem Minimum-Cost-Multicut-Problem (MP), wie es beispielsweise bekannt ist von:
    • S. Tang, B. Andres, M. Andriluka, und B. Schiele. Multiperson Tracking by Multicuts and Deep Matching. In BMTT, 2016,
    • das in Bezug auf einen Graphen definiert wird, dessen Kanten Möglichkeiten definieren, Knoten direkt in die selbe Spur zusammenzufügen. Das LMP wird zusätzlich in Bezug auf zusätzliche angehobene Kanten (das heißt Kanten eines zweiten Typs) definiert, die keine Möglichkeiten zum direkten Zusammenfügen von Knoten definieren. Die Entscheidung, die Knoten zusammenzufügen, muss durch die regulären Kanten (das heißt Kanten des ersten Typs) unterstützt werden.
  • Die Motivation für die Modellierung der angehobenen Kanten beruht auf der einfachen Tatsache, dass Personen mit ähnlichem Aussehen nicht notwendigerweise identisch sind. Bei zwei Erfassungen, die zeitlich weit voneinander entfernt sind und sich in ihrem Aussehen ähneln, ist es wahrscheinlicher, dass sie a priori dieselbe Person darstellen. Gleichzeitig wird diese Entscheidung wünschenswerterweise a posteriori durch eine Spur bestätigt, die die zwei verbindet. Dies kann durch die Einführung der beiden Klassen von Kanten erreicht werden: Um zwei zeitlich weit voneinander entfernte und optisch ähnliche Erfassungen demselben Cluster (das heißt Person) zuzuordnen, muss entlang der regulären Kanten ein Pfad (das heißt Spur) vorhanden sein, die diese Entscheidung bestätigt.
  • 2a bis 2d zeigen Vergleiche von beispielhaften Spuren gemäß dem Stand der Technik (2a und 2c) und gemäß Ausführungsbeispielen der vorliegenden Offenbarung (2b und 2d). Insbesondere wird ein Vergleich zwischen dem herkömmlichen Multicut-Problem (MP) (2a und 2c) und dem Lifted-Multicut-Problem (LMP) (2b und 2d) bereitgestellt. Grundwahrheitsspuren G jeder Person O sind als hohle Linien dargestellt. Regelmäßige Kanten werden als einfache Linien dargestellt, angehobene Kanten als doppelte Linien. Durchgezogene Linien kennzeichnen Verbindungen, gepunktete Linien kennzeichnen Schnitte. Die Kosten für Schneidkanten sind durch die Zahlen auf den entsprechenden Kanten angegeben.
  • In 2a und 2b wird dieselbe Szene verarbeitet, in der sich drei Personen in der Szene befinden, wobei v1 die Erfassung (das heißt Knoten) der ersten Person ist, v2 und v3 die Erfassungen der zweiten Person sind, und v4 die der Dritten. Die Kosten an den Kanten v1v2 und v3v4 sind -3, was auf starke Belohnungen hinsichtlich eines Zerschneidens der Kanten hindeutet, und das ist richtig (vgl. Grundwahrheit). Die Kosten am Rand von v1v4 lassen jedoch vermuten, dass die erste und die dritte Person ähnlich aussehen, und führen eine starke Belohnung für die Verbindung ein. Infolgedessen verbindet der MP v1 und v4 fälschlicherweise als dieselbe Person; das LMP gemäß der vorliegenden Offenbarung verbindet v1 und v4 nicht, da eine solche Zusammenfügung, beziehungsweise Verbindung über große Entfernungen von den lokalen Kanten nicht unterstützt wird.
  • 2c und 2d sind ein weiteres Beispiel, bei dem dieselbe Szene einmal von MP und einmal von LMP verarbeitet wird. In der Szene gelten alle Erfassungen für dieselbe Person, das heißt es ist wünschenswert, eine Spur zu erstellen, die alle Knoten in dem Graphen verbindet. Aufgrund von teilweiser Okklusion oder ungenauer Lokalisierung von Begrenzungsrahmen können die Kosten an den lokalen Kanten v1v2 und v3v4 mehrdeutig sein, manchmal sogar entgegengesetzt. Die weitreichende Kante v1v4 identifiziert die Person korrekt neu.
  • Der MP erzeugt jedoch zwei Cluster für eine einzelne Person, da die weitreichende Kante keinen Einfluss auf die lokalen Verbindungen hat. Im Gegensatz dazu erlaubt es das LMP eine ganze Kette von Verbindungen zwischen Personenhypothesen mit einer einzigen zuverlässigen weitreichenden Beobachtung zu beeinflussen.
  • Parameter:
    • Bei einer Bildsequenz kann es als eine Instanz des LMP betrachtet werden, in Bezug auf:
      • • Einen endlichen Satz V, in dem jedes Element eine Erfassung einer Person in einem Bild darstellt. Für jede Erfassung können auch deren Maßstab und die Koordinaten (x, y, t) ihres Mittelpunkts in der Bildsequenz definiert werden.
      • • Für jedes Paar v, w eines Knotens v und eines Knotens w: Eine bedingte Wahrscheinlichkeit, dass v und w unterschiedliche Personen darstellen, aufgrund ihrer Maßstäbe, Koordinaten und ihres Aussehens.
      • • Einen Graphen, dessen Kanten reguläre Kanten sind, die Erfassungen v; w im selben Bild verbinden, und ebenfalls Erfassungen in bestimmten Bildern verbinden, die zeitnah sind.
      • • Einen Graphen, dessen zusätzliche Kanten angehobene Kanten sind, die Erfassungen verbinden, die zeitlich weit voneinander entfernt sind und ein ähnliches Aussehen haben.
  • Realisierbarer Satz:
    • Die realisierbaren Lösungen des LMP können wünschenswerterweise mit den Zerlegungen (Clusterungen, das heißt Komponenten) des Graphen G identifiziert werden. Hier definiert im Kontext der Verfolgung jede Komponente (das heißt Cluster) von Erfassungen eine Spur einer Person. Es ist daher vernünftig, unseren Ansatz als Verfolgung durch Clustering zu betrachten. Formal kann jede realisierbare Lösung des LMP ein 01-Vektor sein.
  • 3a bis 3c zeigen schematische Darstellungen von neuronalen Netzwerken gemäß Ausführungsbeispielen der vorliegenden Offenbarung. Insbesondere zeigt 3a ein SiameseNet 20, zeigt 3b ein StackNet 20", und zeigt 3c eine StackNetPose 20". Rechtecke 23, 23', 23" geben die Convolutional-, Relu- und Pooling-Layer von VGG16 an. Rechtecke 24, 24', 24" geben die vollständig verbundenen Layer an. Rechtecke 25, 25', 25" oben auf jedem Netzwerk sind die Verlust-Layer. Boxen 26 sind die gestapelten Körperteil-Punktekarten.
  • Traditionell ist eine Neuidentifizierung von Personen die Aufgabe, um beobachtete Fußgänger in nicht überlappenden Kameraansichten zuzuordnen. Im Kontext der Mehrpersonenverfolgung kann ein Verknüpfen der erfassten Fußgänger über das gesamte Video als Neuidentifizierung mit besonderen Herausforderungen angesehen werden: Okklusionen, ein überfüllter Hintergrund, große Unterschiede in der Bildauflösung und ungenaue Lokalisierung eines Begrenzungsrahmens. Wie im Folgenden beschrieben ist, können mehrere CNN-Architekturen zur Neuidentifizierung für die Mehrpersonenverfolgungsaufgabe verwendet werden. Eine grundlegende CNN-Architektur kann VGG-16 Net sein, wie zum Beispiel beschrieben in:
    • K. Simonyan und A. Zisserman. Very deep convolutional networks for large-scale image recognition. CoRR, abs/1409.1556, 2014.
  • Insbesondere wird ein neues Personen-Neuidentifizierungsmodell vorgeschlagen, das das erhaltene Körperposen-Layout mit Posenschätzverfahren, beziehungsweise Haltungsschätzverfahren nach dem Stand der Technik kombiniert.
  • ID-Netz:
    • Zuerst wird ein VGG-Netz gelernt zum Beispiel N = 2511 eindeutige Identitäten aus unserer Datensammlung als ein N-Wege-Klassifizierungsproblem zu erkennen. Die VGG schätzt durch einen Vorwärtsdurchlauf die Wahrscheinlichkeit, dass jedes Bild jedes Etikett ist. Das Netzwerk wird durch den Softmax-Verlust trainiert. Während des Tests wird bei einem Bild von nicht sichtbaren Identitäten das letzte Softmax-Layer entfernt und die Ausgabe des vollständig verbundenen Layer als Identitätsmerkmal verwendet. Bei einem gegebenen Paar von Bildern kann der Euklidische Abstand zwischen den zwei Identitätsmerkmalen verwendet werden, um zu entscheiden, ob das Paar die gleiche Identität enthält.
  • SiameseNet:
    • Siamesische Architektur bedeutet, dass das Netzwerk zwei Symmetrie-CNNs umfasst, die sich die Parameter teilen. Es kann mit einer allgemein verwendeten siamesischen Architektur begonnen werden, wie in 3(a) gezeigt ist. Um die Ähnlichkeit zu modellieren, können vollständig verbundene Layer auf den Zwillings-CNNs verwendet werden. Genauer gesagt werden die Merkmale FC6(xi); FC6(xj) aus einem Paar von Bildern extrahiert, aus dem ersten vollständig verbundenen Layer des VGG-basierten Siamese-Netzwerks, das die Gewichte teilt. Anschließend werden die Merkmale durch zwei vollständig verbundene Layer (FC7; FC8) verkettet und transformiert, wobei auf FC7 eine ReLU-Nichtlinearität folgt. FC8 verwendet eine Softmax-Funktion, um eine Wahrscheinlichkeitsschätzung über eine binäre Entscheidung zu erstellen, nämlich dieselbe Identität oder verschiedene Identitäten.
  • StackNet:
    • Die effektivste Architektur, die untersucht wurde, ist das StackNet, bei dem ein Bilderpaar entlang des RGB-Kanals gestapelt wird. Gemäß einem Beispiel wird die Eingabe in das Netzwerk 112 x 224 x 6. Dann wird die Filtergröße der ersten Faltungsschicht von 3 x 3 x 3 auf 3 x 3 x 6 geändert, und für den Rest des Netzwerks kann die VGG-Architektur befolgt werden. Das letzte vollständig verbundene Layer modelliert ein 2-Wege-Klassifizierungsproblem, nämlich dieselbe Identität oder verschiedene Identitäten. Während des Testens erzeugen SiameseNet und StackNet bei einem gegebenen Bilderpaar die Wahrscheinlichkeit, dass das Paar bei einem Weiterleitungsdurchlauf die gleiche/unterschiedliche Identität aufweist.
  • Das StackNet erlaubt es einem Paar von Bildern in der frühen Phase des Netzwerks zu kommunizieren, es ist jedoch immer noch durch die mangelnde Fähigkeit begrenzt, eine Körperteilkorrespondenz zwischen den Bildern zu integrieren. Daher wird als weiteres Ausführungsbeispiel ein Körperteil-Vereinigungsverfahren vorgeschlagen, um das Modellieren der semantischen Körperteilinformationen innerhalb des Netzwerks explizit zu ermöglichen.
  • StackNetPose:
    • Eine wünschenswerte Eigenschaft des Netzwerks besteht darin, die entsprechenden Regionen der Körperteile zu lokalisieren und über die Ähnlichkeit eines Paares von Fußgängerbildern basierend auf lokalisierten Körperregionen sowie den vollständigen Bildern zu urteilen. Ein solches Modell kann implementiert werden, indem Körperteilerfassungen in das CNN vereinigt werden. Insbesondere können Körperteilerfassungen verwendet werden, um individuelle Punktekarten für 14 Körperteile zu erstellen, nämlich Kopf, Schultern, Ellbogen, Handgelenke, Hüften, Knie, und Knöchel, jeweils mit links-/rechtssymmetrischen Körperteilen, mit Ausnahme des Kopfes, der durch das Kopfobere und das Kopfuntere angegeben ist. Die Punktekarten von jeweils zwei Symmetriekörperteilen werden kombiniert, was zu 7 Punktekarten führt; jedes weist die gleiche Größe wie das Eingabebild auf. Das Bilderpaar sowie die 14 Punktekarten können zu einem Eingabevolumen von 112 x 224 x 20 gestapelt werden. Jetzt ist die Filtergröße der ersten Faltungsschicht auf 3 x 3 x 20 eingestellt, und der Rest des Netzwerks folgt der VGG16-Architektur mit einer 2-Wege-Klassifizierungsschicht am Ende.
  • Paarweise Potentiale:
    • Die Kosten einer Kante können auf drei Informationsquellen basieren:
      • Räumlich-zeitliche Beziehungen, beziehungsweise Spatio-Temporal-Relations (ST), Dichte-Korrespondenz-Abgleich, bzw. Dense-Correspondance-Matching (DM), und Personen-Neuidentifikations-Vertrauen, bzw. Person-Re-Identification Confidence (Re-ID).
  • Das auf der räumlich-zeitlichen Beziehung basierende Merkmal wird häufig in vielen Mehrpersonenverfolgungsarbeiten verwendet, da es ein gutes Affinitätsmaß für die Erfassungspaare ist, die sich in naher Nähe befinden. ST-Merkmale können nützliche Informationen in einem kurzen Zeitfenster bereitstellen. Sie modellieren die geometrischen Beziehungen zwischen Begrenzungsrahmen, berücksichtigen jedoch nicht den Bildinhalt.
  • DeepMatching (DM) kann als leistungsstarke Paarweiseaffinität für das Mehrpersonenverfolgen eingeführt werden. Die DM-Funktion basiert auf der lokalen Bildkorrektur und ist daher robust gegenüber unregelmäßigen Kamerabewegungen und teilweiser Okklusion in kurzen zeitlichen Abständen. Die Leistung der DM-Funktion sinkt dramatisch, wenn der zeitliche Abstand vergrößert wird. Re-ID ist ausdrücklich für die Aufgabe der Personen-Neuidentifikation trainiert. Es ist robust gegenüber großen zeitlichen und räumlichen Abständen und ermöglicht eine weitreichende Assoziation. Wünschenswerterweise kann ein Deep-Reidentification-Modell (StackNetPose) zum Modellieren der weitreichenden Verbindungen verwendet werden.
  • In der gesamten Beschreibung, einschließlich der Ansprüche, sollte der Begriff „ein umfassen“ als synonym mit „mindestens ein umfassen“ verstanden werden, sofern nicht anders angegeben. Außerdem sollte jeder in der Beschreibung angegebene Bereich, einschließlich der Ansprüche, so verstanden werden, dass er seinen Endwert (seine Endwerte) enthält, sofern nicht anders angegeben. Spezifische Werte für beschriebene Elemente sollten so verstanden werden, dass sie innerhalb akzeptierter Herstellungs- oder Industrietoleranzen liegen, die dem Fachmann bekannt sind, und jede Verwendung der Begriffe „im Wesentlichen“ und/oder „ungefähr“ und/oder „allgemein“ sollte so verstanden werden, um zu bedeuten, innerhalb solch akzeptabler Toleranzen zu fallen.
  • Obwohl die vorliegende Offenbarung hierin unter Bezugnahme auf bestimmte Ausführungsformen beschrieben ist, soll verstanden werden, dass diese Ausführungsbeispiele lediglich die Grundlagen und Anwendungen der vorliegenden Offenbarung veranschaulichen.
  • Es ist beabsichtigt, dass die Beschreibung und die Beispiele nur als beispielhaft angesehen werden, wobei ein wahrer Umfang der Offenbarung durch die folgenden Ansprüche angegeben ist.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • C. Kim, F. Li, A. Ciptadi, und J.M. Rehg. Multiple hypothesis tracking revisited. In Computer Vision (ICCV), IEEE Internationale Konferenz über IEEE, Dez. 2015 [0003]
    • A. Milan, S. Roth, und K. Schindler. Continuous energy minimization for multitarget tracking. IEEE TPAMI, 2014 [0006]

Claims (15)

  1. System zur Verfolgung von Objekten in einer zeitlichen Sequenz von digitalen Bildern, wobei das System dazu eingerichtet ist, um: potentielle Objekte in den Bildern zu erfassen, wobei die erfassten potentiellen Objekte als Knoten angezeigt werden, Paare benachbarter Knoten derart zu identifizieren, dass für jedes Paar die Knoten des Paares potentiell ein identisches Objekt darstellen und ihre räumliche und/oder zeitliche Beziehung zueinander innerhalb eines vorbestimmten Bereichs liegt, jedes Paar benachbarter Knoten mit einer Kante eines ersten Typs zu verbinden, mindestens ein zusätzliches Paar entfernter Knoten zu identifizieren, deren räumliche und/oder zeitliche Beziehung zueinander den vorbestimmten Bereich überschreitet, das Paar entfernter Knoten mit einer zusätzlichen Kante eines zweiten Typs zu verbinden, wobei jeder Kante des ersten und zweiten Typs ein Kostenwert zugeordnet ist, der eine Wahrscheinlichkeit darstellt, ob die verbundenen Knoten ein identisches Objekt darstellen oder nicht, und eine Spur eines Objekts in der zeitlichen Sequenz digitaler Bilder zu bestimmen, auf Grundlage eines Satzes verbundener Kanten des ersten Typs und mindestens einer Kante des zweiten Typs, die zusätzlich mindestens einen der Knoten verbindet, die durch den Satz der verbundenen Kanten des ersten Typs verbunden sind.
  2. System nach Anspruch 1, wobei das mindestens eine zusätzliche Paar entfernter Knoten derart identifiziert ist, dass die Knoten des zusätzlichen Paares potentiell ein identisches Objekt darstellen, oder dass die Knoten des zusätzlichen Paares potentiell verschiedene Objekte darstellen.
  3. System nach Anspruch 1 oder 2, wobei die Spur basierend auf den Kostenwerten des Satzes verbundener Kanten des ersten Typs und/oder dem Kostenwert der mindestens einen zusätzlichen Kante des zweiten Typs bestimmt wird.
  4. System nach einem der vorhergehenden Ansprüche, ein neuronales Netzwerk umfassend, das dazu eingerichtet ist, um: jeder der Kanten des ersten und des zweiten Typs einen Kostenwert zuzuweisen, der eine Wahrscheinlichkeit darstellt, ob die verbundenen Knoten ein identisches Objekt darstellen oder nicht.
  5. System nach dem vorhergehenden Anspruch 4, wobei das neuronale Netzwerk ferner dazu eingerichtet ist, um: die potentiellen Objekte in den Bildern zu erfassen, wobei die erfassten potentiellen Objekte als Knoten angezeigt werden, die Paare benachbarter Knoten zu identifizieren, jedes Paar benachbarter Knoten zu verbinden, das mindestens eine zusätzliche Paar entfernter Knoten zu identifizieren und das Paar entfernter Knoten zu verbinden.
  6. System nach einem der vorhergehenden Ansprüche, wobei das Bestimmen der Spur umfasst: Identifizieren eines Satzes verbundener Kanten des ersten Typs, die die Spur darstellen, und Aktualisieren der Spur basierend auf der mindestens einen Kante des zweiten Typs.
  7. System nach einem der vorhergehenden Ansprüche, wobei das Bestimmen einer Spur umfasst: Bestimmen eines Graphen mit einer Vielzahl von Komponenten, wobei jede Komponente einen Satz verbundener Kanten des ersten Typs umfasst, und Aktualisieren des Graphen durch Zusammenfügen und/oder Schneiden einzelner Komponenten basierend auf mindestens einer zusätzlichen Kante des zweiten Typs, wobei jede verbundene und/oder geschnittene Komponente des aktualisierten Graphen eine Spur eines Objekts darstellt.
  8. System nach dem vorhergehenden Anspruch, ferner dazu eingerichtet, um: den Graphen durch Zusammenfügen einzelner Komponenten in eine zusammengeführte Komponente zu aktualisieren, falls sich mindestens eine zusätzliche Kante des zweiten Typs entlang der einzelnen Komponenten erstreckt.
  9. System nach dem vorhergehenden Anspruch, ferner dazu eingerichtet, um: den Graphen durch Zusammenfügen einzelner Komponenten mit der zusammengeführten Komponente zu aktualisieren, nur in dem Fall, dass der Kostenwert der mindestens einen zusätzliche Kante des zweiten Typs einen vorbestimmten Grenzwert überschreitet.
  10. System nach einem der vorhergehenden Ansprüche, ferner dazu eingerichtet, um: ein Paar entfernter Knoten mit einer Kante des zweiten Typs zu verbinden, nur in dem Fall, dass die entfernten Knoten auch durch einen Satz verbundener Kanten des ersten Typs verbunden sind.
  11. System nach einem der vorhergehenden Ansprüche, wobei die räumliche und/oder zeitliche Beziehung eines Knotenpaares durch den räumlichen und/oder zeitlichen Abstand der Knoten des Paares zueinander definiert ist, und/oder der vorbestimmte Bereich durch einen vorbestimmten räumlichen und/oder zeitlichen Abstandsgrenzwert bestimmt ist.
  12. System nach einem der vorhergehenden Ansprüche, wobei der vorbestimmte Bereich derart definiert ist, dass die räumliche und/oder zeitliche Beziehung eines Knotenpaares den vorbestimmten Bereich überschreitet, falls mindestens ein weiterer Knoten zwischen dem Knotenpaar identifiziert wird, der potentiell das identische Objekt wie das Knotenpaar darstellt.
  13. System nach einem der vorhergehenden Ansprüche, wobei die Bestimmung, dass Knoten potentiell ein identisches Objekt darstellen, auf dem Kostenwert der Verbindungskante basiert, und/oder der Kostenwert einer Kante basierend auf den Maßstäben, Koordinaten und/oder dem Aussehen der verbundenen Knoten bestimmt ist.
  14. Verfahren zum Verfolgen von Objekten in einer zeitlichen Sequenz von digitalen Bildern, die Schritte umfassend: Erfassen potentieller Objekte in den Bildern, wobei die erfassten potentiellen Objekte als Knoten angezeigt werden, Identifizieren von Paaren benachbarter Knoten, so dass für jedes Paar die Knoten des Paares potentiell ein identisches Objekt darstellen und ihre räumliche und/oder zeitliche Beziehung zueinander innerhalb eines vorbestimmten Bereichs liegt, Verbinden jedes Paares benachbarter Knoten mit einer Kante eines ersten Typs, Identifizieren mindestens eines zusätzlichen Paares entfernter Knoten, deren räumliche und/oder zeitliche Beziehung zueinander den vorbestimmten Bereich überschreitet, Verbinden des Paares entfernter Knoten mit einer zusätzlichen Kante eines zweiten Typs, wobei jeder Kante des ersten und zweiten Typs ein Kostenwert zugeordnet ist, der eine Wahrscheinlichkeit darstellt, ob die verbundenen Knoten ein identisches Objekt darstellen oder nicht, und Bestimmen einer Spur eines Objekts in der zeitlichen Sequenz digitaler Bilder, auf Grundlage eines Satzes verbundener Kanten des ersten Typs und mindestens einer Kante des zweiten Typs, die zusätzlich mindestens einen der Knoten verbindet, die durch den Satz der verbundenen Kanten des ersten Typs verbunden sind.
  15. Computerprogramm mit Anweisungen zum Ausführen der Schritte des Verfahrens nach Anspruch 14, wenn das Programm von einem Computer ausgeführt wird.
DE112017007724.9T 2017-07-06 2017-07-06 System und Verfahren zur Verfolgung von Objekten in einer zeitlichen Sequenz von digitalen Bildern Pending DE112017007724T5 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2017/067037 WO2019007524A1 (en) 2017-07-06 2017-07-06 TRACKING OBJECTS IN DIGITAL IMAGE SEQUENCES

Publications (1)

Publication Number Publication Date
DE112017007724T5 true DE112017007724T5 (de) 2020-03-26

Family

ID=59581833

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112017007724.9T Pending DE112017007724T5 (de) 2017-07-06 2017-07-06 System und Verfahren zur Verfolgung von Objekten in einer zeitlichen Sequenz von digitalen Bildern

Country Status (3)

Country Link
US (1) US11170226B2 (de)
DE (1) DE112017007724T5 (de)
WO (1) WO2019007524A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507949A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 目标跟踪方法、装置、路侧设备以及云控平台

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316031B (zh) * 2017-07-04 2020-07-10 北京大学深圳研究生院 用于行人重识别的图像特征提取方法
CN107562805B (zh) * 2017-08-08 2020-04-03 浙江大华技术股份有限公司 一种以图搜图的方法及装置
CN110298248A (zh) * 2019-05-27 2019-10-01 重庆高开清芯科技产业发展有限公司 一种基于语义分割的多目标跟踪方法及系统
EP3819812B1 (de) 2019-11-08 2023-08-16 Axis AB Verfahren zur objektneuidentifizierung
CN111259836A (zh) * 2020-01-20 2020-06-09 浙江大学 一种基于动态图卷积表征的视频行人重识别方法
CN113705594B (zh) * 2020-05-21 2024-05-21 北京沃东天骏信息技术有限公司 一种识别图像的方法和装置
CN118072361B (zh) * 2024-04-24 2024-07-12 南京信息工程大学 一种基于随机游走的小股行人重识别方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2395452A1 (de) * 2010-06-11 2011-12-14 Toyota Motor Europe NV/SA Erkennung von Gegenständen in einem Bild mithilfe eigener Ähnlichkeiten
EP2395478A1 (de) * 2010-06-12 2011-12-14 Toyota Motor Europe NV/SA Monokulare 3D-Poseneinschätzung und deren Verfolgung durch Erkennung
US9058663B2 (en) * 2012-04-11 2015-06-16 Disney Enterprises, Inc. Modeling human-human interactions for monocular 3D pose estimation
TWI595450B (zh) * 2014-04-01 2017-08-11 能晶科技股份有限公司 物件偵測系統

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507949A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 目标跟踪方法、装置、路侧设备以及云控平台

Also Published As

Publication number Publication date
WO2019007524A1 (en) 2019-01-10
US11170226B2 (en) 2021-11-09
US20200218904A1 (en) 2020-07-09

Similar Documents

Publication Publication Date Title
DE112017007724T5 (de) System und Verfahren zur Verfolgung von Objekten in einer zeitlichen Sequenz von digitalen Bildern
DE112017006136T5 (de) System und Verfahren zur CNN-Schichtenteilung
DE102014106210B4 (de) Probabilistische Personennachführung unter Verwendung der Mehr- Ansichts-Vereinigung
EP2344980B1 (de) Vorrichtung, verfahren und computerprogramm zur erkennung einer geste in einem bild, sowie vorrichtung, verfahren und computerprogramm zur steuerung eines geräts
DE102019008142A1 (de) Lernen von Darstellungen unter Nutzung gemeinsamer semantischer Vektoren
DE102014105351B4 (de) Detektion von menschen aus mehreren ansichten unter verwendung einer teilumfassenden suche
DE112017001311T5 (de) System und Verfahren zum Trainieren eines Objektklassifikators durch maschinelles Lernen
EP2467828B1 (de) Verfahren und system zur automatischen objekterkennung und anschliessenden objektverfolgung nach massgabe der objektform
DE102015206178A1 (de) Ein Videoverfolgungsbasiertes Verfahren zur automatischen Reihung von Fahrzeugen in Drivethrough-Anwendungen
WO2010040668A1 (de) Verfahren und einrichtung zur analyse von umgebungsobjekten und/oder umgebungsszenen, wie zur objekt- und szenenklassensegmentierung
WO2020192849A1 (de) Automatische erkennung und klassifizierung von adversarial attacks
DE102008043954A1 (de) Sensornetzwerksystem, Übertragunsprotokoll, Verfahren zum Wiedererkennen eines Objekts sowie Computerprogramm
DE602004002837T2 (de) Objekterkennung
EP2005361A1 (de) Multisensorieller hypothesen-basierter objektdetektor und objektverfolger
DE102016222036A1 (de) System für eine visuelle Objekt- und Ereignis-Erkennung und - Vorhersage unter Verwendung von Sakkaden
DE102010016251A1 (de) Erkennungsverfahren für ein bewegliches Objekt und das der Erkennung des beweglichen Objekts zugrunde liegende Befehlseingabeverfahren
DE102007010186A1 (de) Vorrichtung, Verfahren und Computerprogramm zur bildgestützten Verfolgung von Überwachungsobjekten
DE102015207047A1 (de) Verfahren und System automatisierten Sequenzieren von Fahrzeugen in nebeneinander angeordneten Durchfahrtskonfigurationen über eine bildbasierte Einstufung
DE102019117559A1 (de) Verfahren und System zum Fusionieren von zweidimensionalen semantischen Informationen aus Bildern mit einer dreidimensionalen Punktwolke
EP1180258B1 (de) Mustererkennung mittels prüfung zusätzlicher merkmale nach teilverarbeitung
DE102017124600A1 (de) Semantische Segmentierung eines Objekts in einem Bild
DE102020203047A1 (de) Effiziente gleichzeitige Inferenzberechnung für mehrere neuronale Netzwerke
DE10145608B4 (de) Modellbasierte Objektklassifikation und Zielerkennung
DE102017222675A1 (de) Personenerkennung mittels einer Kamera
DE112021005555T5 (de) Multitasking-lernen über gradienteilung zur umfangreichen menschlichen analyse

Legal Events

Date Code Title Description
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009000000

Ipc: G06V0010000000

R012 Request for examination validly filed