DE102019216511A1 - Verfahren zur Detektion und Wiedererkennung von Objekten mit einem neuronalen Netz - Google Patents

Verfahren zur Detektion und Wiedererkennung von Objekten mit einem neuronalen Netz Download PDF

Info

Publication number
DE102019216511A1
DE102019216511A1 DE102019216511.7A DE102019216511A DE102019216511A1 DE 102019216511 A1 DE102019216511 A1 DE 102019216511A1 DE 102019216511 A DE102019216511 A DE 102019216511A DE 102019216511 A1 DE102019216511 A1 DE 102019216511A1
Authority
DE
Germany
Prior art keywords
data
image
embedding
anchor
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102019216511.7A
Other languages
English (en)
Inventor
Tamas Kapelner
Denis Stalz-John
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102019216511.7A priority Critical patent/DE102019216511A1/de
Priority to US17/073,780 priority patent/US11978218B2/en
Priority to CN202011144476.4A priority patent/CN112712101A/zh
Publication of DE102019216511A1 publication Critical patent/DE102019216511A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40543Identification and location, position of components, objects
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40563Object detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Image Analysis (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Processing (AREA)

Abstract

Verfahren zur Detektion und Wiedererkennung von Objekten mit einem neuronalen Netz, umfassend die Schritte:Extrahieren (S10) von Features (F) aus einem Bild, wobei die Features (F) Informationen zu mindestens einem Objekt in dem Bild umfassen;Detektieren (S20) des mindestens einen Objekts in dem Bild mit einer Anchor-basierten Objektdetektion basierend auf den extrahierten Features (F), wobei zum Detektieren des Objekts mit Hilfe mindestens eines Anchors durch eine Klassifizierung Klassifizierungsdaten bestimmt werden und durch eine Regression Regressionsdaten bestimmt werden; undWiedererkennung (S30) des mindestens einen Objekts durch Bestimmen von Embeddingdaten basierend auf den extrahierten Features (F), wobei die Embeddingdaten für das mindestens eine Feature (F) des Bildes eine Objektbeschreibung abbilden.

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zur Detektion und Wiedererkennung von Objekten mit einem neuronalen Netz, ein neuronales Netz, ein Steuerungsverfahren, ein Computerprogramm und ein maschinenlesbares Speichermedium.
  • Stand der Technik
  • Beim Verwenden eines externen Tracking Algorithmus zur Detektion und Wiedererkennung von Objekten, muss dieser in aufeinanderfolgenden Bildern, den sogenannten Frames, eine Box mit dem gleichen Objekt wiederfinden. Hierzu gibt es verschiedene Ansätze, welche z.B. den Inhalt der Boxen miteinander vergleichen oder die Position, Größe und das Seitenverhältnis mit in Betracht ziehen. Diese Verfahren sind oft fehleranfällig, wenn Objekte nah beieinanderliegen oder Objekte für eine Zeitspanne teilweise oder ganz verdeckt sind.
  • Es kann daher der Wunsch nach einem verbesserten Verfahren zur Detektion und Wiedererkennung von Objekten mit einem neuronalen Netz bestehen.
  • Offenbarung der Erfindung
  • Ausführungsformen der Erfindung ergeben sich aus den unabhängigen Ansprüchen. Zweckmäßige Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen, der Beschreibung sowie den begleitenden Figuren.
  • Gemäß einem Aspekt der Erfindung umfasst ein Verfahren zur Detektion und Wiedererkennung von Objekten mit einem neuronalen Netz folgende Schritte. Extrahieren von Features aus einem Bild, wobei die Features Informationen zu mindestens einem Objekt in dem Bild umfassen. Detektieren des mindestens einen Objekts in dem Bild mit einer Anchor-basierten Objektdetektion basierend auf den extrahierten Features, wobei zum Detektieren des Objekts mit Hilfe mindestens eines Anchors durch eine Klassifizierung Klassifizierungsdaten bestimmt werden und durch eine Regression Regressionsdaten bestimmt werden. Wiedererkennung des mindestens einen Objekts durch Bestimmen von Embeddingdaten basierend auf den extrahierten Features, wobei die Embeddingdaten für das mindestens eine Feature des Bildes eine Objektbeschreibung abbilden.
  • Der Begriff „Feature“, wie er hier benutzt wird, umfasst das Ergebnis der Gesamtheit von Operationen in einem neuronalen Netz, auf Basis dessen Regressions-, Klassifizierungs- und Embeddingdaten bestimmt werden. Diese Operationen erhalten als Eingabe ein bestimmtes Pixel oder eine bestimmte Region des Bildes, wobei das gesamte neuronale Netz mindestens ein Bild als Eingabe enthält.
  • Der Begriff „Klassifizierung“, wie er hier benutzt wird, umfasst eine Prädiktion von Klassenzugehörigkeit, in anderen Worten, ob sich ein Objekt im Bild innerhalb des Anchors befindet und wenn ja, welcher Klasse das Objekt gehört.
  • Der Begriff „Regression“, wie er hier benutzt wird, umfasst ein Verfeinern von Anchor-Koordinaten, in andern Worten, welche Verschiebung und Skalierung des Anchors nötig ist, damit eine Anchor-box des Anchors genau auf dem Objekt im Bild passt.
  • Der Begriff „Embeddingdaten“, wie er hier benutzt wird, umfasst Daten die für ein bestimmtes Pixel oder eine Region des Bildes eine Beschreibung darstellen. Die Embeddingdaten umfassen insbesondere mindestens einen Embeddingvektor. Diese Beschreibung ist möglichst eindeutig für den gegebenen Inhalt des Pixels oder der Region. Somit kann aufgrund der Embeddingdaten ein Ähnlichkeitsvergleich zu anderen Pixeln oder Regionen getroffen werden. Die Embeddingdaten werden auch als Embeddings bezeichnet. Bei der Objektwiedererkennung mit Embeddings wird einem neuronalen Netz beigebracht für ein Pixel oder eine Region spezifische Embeddingdaten, beispielsweise einen spezifischen Embeddingvektor auszugeben. Durch eine Ähnlichkeit der Embeddingdaten, also den Inhalt den sie abbilden, können somit Objekte auf verschiedenen Frames wiedererkannt werden, auch über mehrere Kameraansichten hinweg.
  • Der Begriff „Objekt-Widererkennung“, wie er hier benutzt wird, bezeichnet eine Wiedererkennung von Objekten auf unterschiedlichen Kameras oder Frames. Bei der Objekt-Wiedererkennung mit Embeddings wird dem neuronalen Netz beigebracht für ein bestimmtes Pixel oder eine Region eine Beschreibung auszugeben. Diese Beschreibung ist möglichst eindeutig für einen gegebenen Inhalt und kann aufgrund dieser Daten als Ähnlichkeitsvergleich zu einem anderen Pixel oder Region getroffen werden. Über eine Ähnlichkeit zwischen verschiedenen Embeddings kann eine Zugehörigkeit zu dem gleichen Objekt bestimmt werden.
  • Vorzugsweise wird das mindestens eine Objekt in aufeinanderfolgenden Bildern basierend auf den bestimmten Klassifizierungsdaten, den bestimmten Regressionsdaten und den bestimmten Embeddingdaten getrackt.
  • Der Begriff „Tracken“, wie er hier benutzt wird, umfasst eine Verwendung von einem Algorithmus und/oder System zusätzlich zur Objektdetektion, der insbesondere einem Objektdetektor nachgeschaltet ist, und welcher die Detektionen auf nacheinander folgenden Bildern, die auch Frames genannt werden, prozessiert. Beispielsweise sind Tracking und Objektdetektion voneinander unabhängig. Ein Tracker, der eingerichtet ist, das Tracken auszuführen kann sowohl mit klassischen als auch mit Deep Learning basierten Algorithmen arbeiten.
  • Vorzugsweise wird für jeden Anchor die Klassifizierung, die Regression und das Bestimmen des Embeddings trainiert.
  • Auf diese Weise können Objekte auf unterschiedlichen Bildern wiedererkannt werden.
  • Vorzugsweise, wird das mindestens eine Objekt auf unterschiedlichen Kameraansichten wiedererkannt.
  • Vorzugweise umfassen die Embeddingdaten mindestens einen Embeddingvektor. Vorzugsweise ist die Länge aller Embeddingvektoren gleich. Die Länge der Embeddingvektoren ist vorzugsweise variabel.
  • Vorzugsweise wird das Bild virtuell in Zellen aufgeteilt und zu jeder Zelle wird mindestens ein Anchor zugewiesen. Insbesondere sind die Anchor Prototypen für detektierte Boxen, in anderen Worten bilden transformierte Anchor am Ende den Ausgang des neuronalen Netzes.
  • Zu jedem Anchor gehören mindestens zwei Gruppen von Neuronen im neuronalen Netz. Ein Neuron ist trainiert die Klassifizierung durchzuführen, bei der eine Klassenzugehörigkeit des Objekts prädiziert wird. In anderen Worten wird bestimmt, ob sich ein Objekt im Bild innerhalb des Anchors befindet und wenn ja, ob zu einer der im Training definierten Klassen das Objekt gehört. Beispielsweise ist eine Klasse mit „Person“ bezeichnet. Ein Neuron ist trainiert die Regression durchzuführen, bei der Koordinaten des Anchors verfeinert werden. Insbesondere umfasst die Verfeinerung Informationen darüber, welche Verschiebung und Skalierung des Anchors nötig ist, damit der Anchor, oder in anderen Worten die Anchor-Box, genau auf das Objekt im Bild passt.
  • Vorzugsweise ist die Objektbeschreibung möglichst eindeutig für den Inhalt des Objekts.
  • Somit wird die Einschränkung behoben, dass der Tracking Algorithmus entweder nur auf sehr einfache Eigenschaften der Objekte Zugriff hat und somit zum größten Teil auf Basis von Eigenschaften der Box eine neue Identifikation geschehen muss, oder insbesondere, dass der Tracking Algorithmus für sich selbst Features aus dem Bild extrahieren muss, um komplexere Objekteigenschaften zu bestimmen, was mit Ressourcen- und Rechenaufwand verbunden ist.
  • Somit besteht die Möglichkeit das gleiche Objekt auf unterschiedlichen Kameras wiederzuerkennen.
  • Auf diese Weise werden Embeddings und Anchor-basierte Objektdetektionsverfahren kombiniert, mit dem Ziel Objekte auf unterschiedlichen Bildern wiederzuerkennen.
  • Somit wird die Aufgabe des Trackens vereinfacht, da die Embeddings direkte Informationen über eine Identität des Objekts liefert.
  • Auf diese Weise wird das Objekt diskriminativ durch die Embeddings beschrieben. Somit können diese außerdem zur Wiedererkennung des Objekts außerhalb des Trackings verwendet werden. Die Wiedererkennung führt zu einer Reduktion des Rechenaufwands. Beispielsweise kann bei einer Person Re-Identification, bei der Personen in unterschiedlichen Kameras zu unterschiedlichen Zeitpunkten wiedererkannt werden müssen, Rechenaufwand eingespart werden.
  • Auf diese Weise wird ein verbessertes Verfahren zur Detektion und Wiedererkennung von Objekten mit einem neuronalen Netz bereitgestellt.
  • In einer bevorzugten Ausführungsform umfasst das Verfahren den Schritt Tracken des mindestens einen Objekts in aufeinanderfolgenden Bildern basierend auf den bestimmten Klassifizierungsdaten, den bestimmten Regressionsdaten und den bestimmten Embeddingdaten.
  • Vorzugsweise, wird das mindestens eine Objekt auf unterschiedlichen Kameraansichten wiedererkannt.
  • Auf diese Weise wird ein verbessertes Verfahren zur Detektion und Wiedererkennung von Objekten mit einem neuronalen Netz bereitgestellt.
  • In einer bevorzugten Ausführungsform werden das Detektieren des mindestens einen Objekts und Bestimmen der Embeddingdaten zeitgleich auf Basis der gleichen Features und mit demselben neuronalen Netz durchgeführt.
  • Auf diese Weise werden Embeddings und Anchor-basierte Objektdetektionsverfahren kombiniert, mit dem Ziel Objekte auf unterschiedlichen Bildern wiederzuerkennen.
  • In einer bevorzugten Ausführungsform werden die Embeddingdaten durch ein Embedding-Layer bestimmt, wobei das Embedding-Layer mit einer Loss-Funktion gelernt wird.
  • Vorzugsweise umfasst die Loss-Funktion das Hinzufügen eines Losses.
  • Die Anchor sind vorzugsweise positive Anchor oder negative Anchor.
  • Ein positiver Anchor bezeichnet einen Anchor, dessen relativer Überlapp mit einem Objekt im Bild größer ist als ein vorher festgelegter Schwellwert. Da es Anchor mit der gleichen Position im Bild aber verschiedenen Größen gibt, kann es vorkommen, dass ein Objekt mehr als einen positiven Anchor besitzt solange die Bedingung des Schwellwertes für jeden Anchor jeweils zutrifft.
  • Ein negativer Anchor bezeichnet einen Anchor, bei dem sich innerhalb des Anchorbereichs kein Objekt befindet oder dessen relativer Überlapp mit einem Objekt im Bild kleiner ist als ein vorher festgelegter Schwellwert.
  • Der Loss wird vorzugsweise lediglich für positive Anchor gelernt.
  • Der Loss erfüllt vorzugsweise folgende Bedingungen. Wenn ein Objekt in verschiedenen Anchorn vorkommt, sollen die entsprechenden Embedding-Features gegeben einer Metrik einen möglichst geringen Abstand voneinander haben. Ein Wert, der durch die Metrik aus zwei Embeddingvektoren bestimmt wird soll möglichst groß sein, wenn den Embeddingvektoren unterschiedliche Objekte zugrunde liegen.
  • Der Loss umfasst vorzugsweise einen Pull-Loss, der angibt, dass die Embeddingdaten demselben Objekt zuzuordnen sind, und einen Push-Loss, der angibt, dass die Embeddingdaten verschiedenen Objekten zuzuordnen sind.
  • Vorzugsweise sind mehrere Ansichten von demselben Objekt bekannt, damit der Pull-Loss zwischen mehreren Ansichten desselben Objekts wirken kann.
  • Ein Beispiel für einen Pull-Loss ist wie folgt beschrieben: L p u l l = 1 N k = 1 N [ ( e i k e j k ) 2 ]
    Figure DE102019216511A1_0001
  • Ein Beispiel für einen Push-Loss ist wie folgt beschrieben: L p u s h = 1 N ( N 1 ) k = 1 N l = 1 l k N max ( 0, Δ | e i k e j l | )
    Figure DE102019216511A1_0002
    ejk ∈ P(k) ist ein Embeddingvektor für das Objekt k und den Anchor j und eine der beiden Loss-Funktionen wird auf jedes Paar von positiven Anchors angewandt. Δ ist ein Hyperparameter des Trainings, welche die Distanz zwischen Embeddings von unterschiedlichen Objekten bestimmt.
  • Vorzugsweise weist ein Ausgang des Embedding-Layers dieselbe Anzahl von Vektoren wie die Anzahl der Anchor des Ausgangs der Klassifizierung.
  • In einer bevorzugten Ausführungsform umfasst die Pull-Loss-Funktion eine Metrik, wobei die Metrik eine L2Norm oder eine Cosinus-Distanz umfasst. Grundsätzlich kann die Pull-Loss-Funktion eine Funktion d() sein, die folgenden Eigenschaften genügt: 1. d ( x ,y ) 0
    Figure DE102019216511A1_0003
    2. d ( x ,y ) = 0 x=y
    Figure DE102019216511A1_0004
    3. d ( x ,y ) = d ( y ,x )
    Figure DE102019216511A1_0005
    4. d ( x ,z ) d ( x ,y ) + d ( y ,z )
    Figure DE102019216511A1_0006
    wobei x und y Elemente einer beliebigen Menge sind, insbesondere Embeddingvektoren.
  • In einer bevorzugten Ausführungsform wird das Embedding-Layer mit Objekt-Wiedererkennung gelernt, wobei Distanzen zwischen den Embeddingdaten, insbesondere Embeddingvektoren, von detektierten Objekten verwendet werden.
  • In einer bevorzugten Ausführungsform wird das Embedding-Layer mit temporal detection gelernt, wobei die Embeddingdaten von detektierten Objekten als Eingabe für einen Tracking-Algorithmus verwendet werden.
  • Der Begriff „temporal detection“, wie er hier benutzt wird, umfasst eine Verfolgung von Objekten innerhalb einer Sequenz von nacheinander folgenden Frames. Vorzugsweise wird dazu eine Detektion von Objekten mit anschließendem Tracking verwendet, wobei die Detektionen basieren auf Features von mindestens einem Bild.
  • Gemäß einem Aspekt der Erfindung umfasst ein neuronales Netz eine Klassifikation-Layer, die eingerichtet ist, zum Detektieren mindestens eines Objekts in einem Bild mit einer Anchor-basierten Objektdetektion Klassifizierungsdaten zu bestimmen, eine Regression-Layer, die eingerichtet ist, zum Detektieren mindestens eines Objekts in einem Bild mit einer Anchor-basierten Objektdetektion Regressionsdaten zu bestimmen, eine Embedding-Layer, die eingerichtet ist, das mindestens eine Objekt durch Bestimmen von Embeddingdaten basierend auf den extrahierten Features wiederzuerkennen, wobei die Embeddingdaten für das mindestens ein Feature des Bildes eine Objektbeschreibung abbilden.
  • Vorzugsweise wird das tiefe neuronale Netz benutzt um Objekte in einem Bild zu Detektieren und mit Embeddings wiederzuerkennen. Vorzugsweise umfassen die zu detektierenden und wiederzuerkennenden Objekte Fahrzeuge und/oder Verkehrszeichen.
  • Gemäß einem Aspekt der Erfindung umfasst ein Steuerungsverfahren für einen wenigstens teilautonomen Roboter die Schritte: Empfangen von Bilddaten des wenigstens teilautonomen Roboters, wobei die Bilddaten insbesondere eine Umgebung des Roboters abbilden. Anwenden eines Verfahrens zur Detektion und Wiedererkennung von Objekten, wies es hier beschrieben ist, auf die empfangenen Bilddaten. Steuern des wenigstens teilautonomen Roboters abhängig von den detektierten und wiedererkannten Objekten.
  • Gemäß einem Aspekt der Erfindung wird ein Computerprogramm bereitgestellt, umfassend Befehle, die bei der Ausführung des Computerprogramms durch einen Computer diesen veranlassen, ein Verfahren, wie es hier beschrieben ist, auszuführen.
  • Gemäß einem Aspekt der Erfindung wird ein maschinenlesbares Speichermedium bereitgestellt, auf dem das Computerprogramm, wie es hier beschrieben ist, gespeichert ist.
  • Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
  • Figurenliste
  • Es zeigt:
    • 1 ein neuronales Netz zur Detektion und Wiedererkennung von Objekten in einem Bild; und
    • 2 ein Verfahren zur Detektion und Wiedererkennung von Objekten in einem Bild.
  • 1 zeigt ein neuronales Netz 10 zur Detektion und Wiedererkennung von Objekten in einem Bild. Das neuronale Netz 10 umfasst einen Feature-Extraktor 20, der eingerichtet ist, Features F aus einem Bild zu extrahieren, wobei die Features F Informationen zu mindestens einem Objekt in dem Bild umfassen.
  • Das neuronale Netz umfasst weiter eine Klassifikations-Layer 30, eine Regressions-Layer 40, eine Embedding-Layer 50 und einen Tracking-Algorithmus 60. Der Feature-Extraktor 20 versorgt die Klassifikation-Layer 30, die Regression-Layer 40 und die Embedding-Layer 50 mit den extrahierten Features F. Die Klassifikation-Layer 30 ist eingerichtet mindestens ein Objekt in dem Bild mit einer Anchor-basierten Objektdetektion zu klassifizieren und dabei Klassifizierungsdaten Dk zu bestimmen. Die Regression-Layer 40 ist eingerichtet, mindestens ein Objekt in dem Bild mit einer Anchor-basierten Objektdetektion zu detektieren und dabei Regressionsdaten Dr zu bestimmen. Die Embedding-Layer 50 ist eingerichtet, mindestens einen Embeddingvektor V basierend auf den extrahierten Features F, zu bestimmen, um das mindestens eine Objekt in mehreren aufeinanderfolgenden Bildern wiederzuerkennen, wobei der mindestens eine Embeddingvektor für das mindestens eine Feature F des Bildes eine Objektbeschreibung abbildet.
  • Die bestimmten Klassifizierungsdaten Dk, Regressionsdaten Dr und der mindestens eine Embeddingvektor V werden im Anschluss an den Tracking-Algorithmus 60 weitergeleitet. Der Tracking-Algorithmus 60, ist eingerichtet, das mindestens eine Objekt in aufeinanderfolgenden Bildern basierend auf den bestimmten Klassifizierungsdaten Dk, den bestimmten Regressionsdaten Dr und dem bestimmten mindestens einen Embeddingvektor V zu tracken.
  • 2 zeigt ein Verfahren zur Detektion und Wiedererkennung von Objekten mit einem neuronalen Netz, umfassend folgende Schritte. In einem ersten Schritt S10 werden Features F aus einem Bild extrahiert, wobei die Features F Informationen zu mindestens einem Objekt in dem Bild umfassen. In einem zweiten Schritt S20 wird das mindestens eine Objekt in dem Bild mit einer Anchor-basierten Objektdetektion basierend auf den extrahierten Features F detektiert, wobei zum Detektieren des Objekts mit Hilfe mindestens eines Anchors durch eine Klassifizierung Klassifizierungsdaten Dk bestimmt werden und durch eine Regression Regressionsdaten Dr bestimmt werden. In einem dritten Schritt S30 wird das mindestens eine Objekt durch Bestimmen von mindestens einem Embeddingvektor V basierend auf den extrahierten Features F wiedererkannt, wobei der mindestens eine Embeddingvektor V für das mindestens ein Feature F des Bildes eine Objektbeschreibung abbildet.

Claims (11)

  1. Verfahren zur Detektion und Wiedererkennung von Objekten mit einem neuronalen Netz, umfassend die Schritte: Extrahieren (S10) von Features (F) aus einem Bild, wobei die Features (F) Informationen zu mindestens einem Objekt in dem Bild umfassen; Detektieren (S20) des mindestens einen Objekts in dem Bild mit einer Anchor-basierten Objektdetektion basierend auf den extrahierten Features (F), wobei zum Detektieren des Objekts mit Hilfe mindestens eines Anchors durch eine Klassifizierung Klassifizierungsdaten bestimmt werden und durch eine Regression Regressionsdaten bestimmt werden; und Wiedererkennung (S30) des mindestens einen Objekts durch Bestimmen von Embeddingdaten basierend auf den extrahierten Features (F), wobei die Embeddingdaten für das mindestens eine Feature (F) des Bildes eine Objektbeschreibung abbilden.
  2. Verfahren nach Anspruch 1, umfassend den Schritt: Tracken des mindestens einen Objekts in aufeinanderfolgenden Bildern basierend auf den bestimmten Klassifizierungsdaten, den bestimmten Regressionsdaten und den bestimmten Embeddingdaten.
  3. Verfahren nach einem der Ansprüche 1 oder 2, wobei Detektieren des mindestens einen Objekts und Bestimmen der Embeddingdaten zeitgleich auf Basis von gleichen Features (F) und mit demselben neuronalen Netz.
  4. Verfahren nach einem der voranstehenden Ansprüche, wobei die Embeddingdaten durch ein Embedding-Layer bestimmt werden, wobei das Embedding-Layer mit einer Loss-Funktion gelernt wird.
  5. Verfahren nach Anspruch 4, wobei die Loss-Funktion eine Metrik umfasst, wobei die Metrik eine L2Norm oder eine Cosinus-Distanz umfasst.
  6. Verfahren nach einem der Ansprüche 4 oder 5, wobei das Embedding-Layer mit Objekt-Wiedererkennung gelernt wird, wobei Distanzen zwischen den Embeddingdaten von detektierten Objekten verwendet werden.
  7. Verfahren nach einem der voranstehenden Ansprüche, wobei das Embedding-Layer mit temporal detection gelernt wird, wobei die Embeddingdaten von detektierten Objekten als Eingabe für einen Tracking-Algorithmus verwendet werden.
  8. Neuronales Netz (10), umfassend: einen Feature-Extraktor (20), der eingerichtet ist, Features (F) aus einem Bild zu extrahieren, wobei die Features (F) Informationen zu mindestens einem Objekt in dem Bild umfassen; eine Klassifikation-Layer (30), die eingerichtet ist, zum Detektieren mindestens eines Objekts in einem Bild mit einer Anchor-basierten Objektdetektion Klassifizierungsdaten zu bestimmen; eine Regression-Layer (40), die eingerichtet ist, zum Detektieren mindestens eines Objekts in einem Bild mit einer Anchor-basierten Objektdetektion Regressionsdaten zu bestimmen; und eine Embedding-Layer (50), die eingerichtet ist, das mindestens eine Objekt durch Bestimmen von Embeddingdaten basierend auf den extrahierten Features (F) wiederzuerkennen, wobei die Embeddingdaten für das mindestens eine Feature (F) des Bildes eine Objektbeschreibung abbilden.
  9. Steuerungsverfahren für einen wenigstens teilautonomen Roboter, umfassend die Schritte: Empfangen von Bilddaten des wenigstens teilautonomen Roboters, wobei die Bilddaten insbesondere eine Umgebung des Roboters abbilden; Anwenden eines Verfahrens zur Detektion und Wiedererkennung von Objekten gemäß einem der Ansprüche 1 bis 7 auf die empfangenen Bilddaten; und Steuern des wenigstens teilautonomen Roboters abhängig von den detektierten und wiedererkannten Objekten.
  10. Computerprogramm, umfassend Befehle, die bei der Ausführung des Computerprogramms durch einen Computer diesen veranlassen, ein Verfahren gemäß einem der Ansprüche 1 bis 7 auszuführen.
  11. Maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 10 gespeichert ist.
DE102019216511.7A 2019-10-25 2019-10-25 Verfahren zur Detektion und Wiedererkennung von Objekten mit einem neuronalen Netz Pending DE102019216511A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE102019216511.7A DE102019216511A1 (de) 2019-10-25 2019-10-25 Verfahren zur Detektion und Wiedererkennung von Objekten mit einem neuronalen Netz
US17/073,780 US11978218B2 (en) 2019-10-25 2020-10-19 Method for detecting and re-identifying objects using a neural network
CN202011144476.4A CN112712101A (zh) 2019-10-25 2020-10-23 用于借助神经网络来探测和再识别对象的方法、神经网络和控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102019216511.7A DE102019216511A1 (de) 2019-10-25 2019-10-25 Verfahren zur Detektion und Wiedererkennung von Objekten mit einem neuronalen Netz

Publications (1)

Publication Number Publication Date
DE102019216511A1 true DE102019216511A1 (de) 2021-04-29

Family

ID=75379092

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019216511.7A Pending DE102019216511A1 (de) 2019-10-25 2019-10-25 Verfahren zur Detektion und Wiedererkennung von Objekten mit einem neuronalen Netz

Country Status (3)

Country Link
US (1) US11978218B2 (de)
CN (1) CN112712101A (de)
DE (1) DE102019216511A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11386306B1 (en) * 2018-12-13 2022-07-12 Amazon Technologies, Inc. Re-identification of agents using image analysis and machine learning

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11087130B2 (en) * 2017-12-29 2021-08-10 RetailNext, Inc. Simultaneous object localization and attribute classification using multitask deep neural networks
US11455807B2 (en) * 2018-09-20 2022-09-27 Nvidia Corporation Training neural networks for vehicle re-identification
US11468582B2 (en) * 2019-03-16 2022-10-11 Nvidia Corporation Leveraging multidimensional sensor data for computationally efficient object detection for autonomous machine applications
DE112020000369T5 (de) * 2019-03-16 2021-10-21 Nvidia Corporation Objekterfassung unter verwendung von verzerrten polygonen, die zur parkplatzerfassung geeignet ist

Also Published As

Publication number Publication date
US11978218B2 (en) 2024-05-07
US20210122052A1 (en) 2021-04-29
CN112712101A (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
EP2467828B1 (de) Verfahren und system zur automatischen objekterkennung und anschliessenden objektverfolgung nach massgabe der objektform
DE102014214448B4 (de) Vorrichtung und Verfahren zur Erkennung eines Verkehrszeichens
EP2368216B1 (de) Verfahren und einrichtung zur analyse von umgebungsobjekten und/oder umgebungsszenen, wie zur objekt- und szenenklassensegmentierung
WO2017032775A9 (de) Aktives maschinelles lernen zum trainieren eines ereignisklassifikators
DE102018119682A1 (de) Bildverarbeitungsvorrichtung, bildverarbeitungsverfahren und nicht-vorübergehendes computerlesbares speichermedium
DE102019209644A1 (de) Verfahren zum Trainieren eines neuronalen Netzes
DE102015205505A1 (de) Verfahren und Vorrichtung zum Detektieren elliptischer Strukturen in einem Bild
DE102018122019A1 (de) Computer implementiertes Verfahren zur Bewertung von Objektbilddaten eines Objektes
DE102019216511A1 (de) Verfahren zur Detektion und Wiedererkennung von Objekten mit einem neuronalen Netz
DE112021005940T5 (de) Zielverfolgungsverfahren, computerlesbares Speichermedium und Computergerät
DE102021207613A1 (de) Verfahren zur Qualitätssicherung eines Systems
DE102018100315A1 (de) Erzeugen von Eingabedaten für ein konvolutionelles neuronales Netzwerk
EP3576013A1 (de) Abschätzen eines verlaufs eines schienenpfads
DE102021200643B3 (de) Verfahren zur Umfelderkennung für teilautonome oder autonome Fahrfunktionen eines Kraftfahrzeugs mittels eines neuronalen Netzes
DE102018129871A1 (de) Trainieren eins tiefen konvolutionellen neuronalen Netzwerks zum Verarbeiten von Sensordaten zur Anwendung in einem Fahrunterstützungssystem
DE102022107228A1 (de) Aufnahme von objekten aus einem behälter (bin picking) mit drehungsausgleich
DE102018211514A1 (de) Verfahren und Vorrichtung zum Bestimmen einer Kollisionswahrscheinlichkeit eines Fahrzeugs mit einem Objekt
DE102020105070A1 (de) Verfahren zum Erkennen eines befahrbaren Bereichs in einer Umgebung eines Fahrzeugs mithilfe eines binären künstlichen neuronalen Netzes, Recheneinrichtung sowie Fahrerassistenzsystem
DE102021212277A1 (de) Verfahren und Vorrichtung für bestärkendes Lernen
WO2021063572A1 (de) Vorrichtung und verfahren zum verarbeiten von daten eines neuronalen netzes
EP1998272A2 (de) Vorrichtung zur Bestimmung einer Objekt- und/oder Existenzwahrscheinlichkeit eines Suchobjekts in einem Auslesefenster eines Bildes, Verfahren sowie Computerprogramm
DE102020215945A1 (de) Verfahren zum Trainieren eines ML-Systems, ML-System, Computerprogramm, maschinenlesbares Speichermedium und Vorrichtung
DE102014006488A1 (de) System und verfahren zum erkennen eines geschwindigkeits-beschränkungszeichens unter verwendung einer frontkamera
DE102022200947A1 (de) Constraintbasierte Feinabstimmung von Bildklassifizierern und/oder Objektdetektoren

Legal Events

Date Code Title Description
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009620000

Ipc: G06V0030190000