DE102019208008A1 - Verfahren und Vorrichtung zum sicheren Zuordnen identifizierter Objekte in Videobildern - Google Patents

Verfahren und Vorrichtung zum sicheren Zuordnen identifizierter Objekte in Videobildern Download PDF

Info

Publication number
DE102019208008A1
DE102019208008A1 DE102019208008.1A DE102019208008A DE102019208008A1 DE 102019208008 A1 DE102019208008 A1 DE 102019208008A1 DE 102019208008 A DE102019208008 A DE 102019208008A DE 102019208008 A1 DE102019208008 A1 DE 102019208008A1
Authority
DE
Germany
Prior art keywords
objects
texture
lists
sem
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102019208008.1A
Other languages
English (en)
Inventor
Konrad Groh
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102019208008.1A priority Critical patent/DE102019208008A1/de
Priority to CN202010474495.7A priority patent/CN112016384A/zh
Publication of DE102019208008A1 publication Critical patent/DE102019208008A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/06Recognition of objects for industrial automation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

Computerimplementiertes Verfahren zum Zuordnen von Objekten in einer mittels eines bildgebenden Sensors (30) empfangenen Folge von Eingangsbildern (x), wobei aus den Eingangsbildern zunächst eine Folge von jeweils zu den jeweiligen Eingangsbildern (x) gehöriger Listen von in dem jeweiligen Eingangsbild (x) sichtbaren Objekten ermittelt wird, wobei mittels eines maschinellen Lernsystems aus dieser Folge von Listen die identifizierten Objekte der Listen einander zugeordnet werden.

Description

  • Die Erfindung betrifft einen Verfahren zum Zuordnen von Objekten innerhalb eines von einem Sensor erfassten Bildes, ein Objektzuordnungssystem, ein Steuerungssystem, ein Verfahren zum Trainieren des Objektzuordnungssystems, ein Computerprogramm und ein maschinenlesbares Speichermedium.
  • Stand der Technik
  • Aus der nicht vorveröffentlichten DE 10 2017 223 264.1 ist ein Verfahren zum Detektieren eines Objekts in einem bereitgestellten Eingangssignal, wobei abhängig von dem bereitgestellten Eingangssignal ein Objekt detektiert wird und wobei eine Ansteuerung eines Aktors abhängig von der Detektion des Objekts erfolgt.
  • Vorteile der Erfindung
  • Werden Objekte mit einer Videokamera, oder allgemeiner als eine Bildfolge eines bildgebenden Sensors, aufgenommen, stellt sich die Herausforderung, in aufeinander folgenden Bilder die identifizierten Objekte einander zuzuordnen, also mit Identitäten zu versehen. Dieses sogenannte Assoziationsproblem besteht also darin, die in zwei zeitlich aufeinanderfolgenden Sensorsignalen x1 und x2 erkannten Objekte zueinander zuzuordnen. Die Zuordnung kann z.B. durch eine Heuristik erfolgen. Hierbei werden Abstände zwischen den in x1 und x2 erkannten Objekten eingeführt. Jede Zuordnung zwischen den Objekten von x1 und x2 ergibt einen Gesamtabstand. Die Heuristik kann dann vorsehen, diesen Gesamtabstand zu minimieren, das heißt diejenigen Objekte in x1 und x2 zueinander zuzuordnen, die möglichst nah beieinander liegen.
  • Das Hauptproblem in dieser Vorgehensweise besteht darin, dass Objekte zwischen x1 und x2 verschwinden können, oder neu auftauchen. Das heißt, nicht jedes Objekt aus x2 korrespondiert zu einem Objekt in x1 und umgekehrt. Weiterhin ignoriert die Heuristik die physikalischen Eigenschaften der Assoziation. Schließlich ist es sehr aufwändig einen Datensatz zu erzeugen, der alle möglichen Kombinationen von entstehenden und verschwindenden Objekten enthält.
  • Das Verfahren mit den Merkmalen des unabhängigen Anspruch 1 hat demgegenüber den Vorteil, dass es sich mit synthetisch, also auf einem Computer, generierten Testdaten trainieren lässt, sodass sich mit Leichtigkeit eine große Vielzahl Trainingsdaten bereitstellen lässt, um so das Assoziationsproblem zu lösen.
  • Weitere Aspekte der Erfindung sind Gegenstand der nebengeordneten Ansprüche. Vorteilhafte Weiterbildungen sind Gegenstand der abhängigen Ansprüche.
  • Offenbarung der Erfindung
  • In einem ersten Aspekt betrifft die Erfindung daher ein computerimplementiertes Verfahren zum Zuordnen von Objekten in einer mittels eines bildgebenden Sensors empfangenen Folge von Eingangsbildern, wobei aus den Eingangsbildern zunächst eine Folge von jeweils zu den jeweiligen Eingangsbildern gehöriger Listen von in dem jeweiligen Eingangsbild sichtbaren Objekten ermittelt wird, wobei mittels eines maschinellen Lernsystems aus dieser Folge von Listen die identifizierte Objekte der Listen einander zugeordnet werden.
  • Die Listen von Objekten umfassen neben den Typen der Objekte auch weitere Attribute, wie beispielsweise eine Position, eine Orientierung oder Geschwindigkeiten der jeweiligen Objekte.
  • Es wurde nämlich erkannt, dass die Identifikation von Objekten und ihrer Attribute aus Einzelbildern gut möglich ist, wohingegen die Zuordnung eine Vielzahl von Szenen abdecken muss, was vorteilhafterweise derart geschieht, dass die Zuordnung mit einem maschinellen Lernsystem erfolgt, zu dessen Training synthetische Trainingsdaten leicht realistisch generierbar sind.
  • Die Zuordnung der Objekte zueinander kann vorteilhafterweise derart geschehen, dass jedem der Objekte noch ein eindeutiges Identifikationsmerkmal, eine Identität, zugeordnet wird.
  • In einer Weiterbildung dieses Aspekts kann vorgesehen sein, dass aus den Eingangsbildern zunächst eine Folge jeweils zu den jeweiligen Eingangsbildern gehöriger texturfreier Darstellung ermittelt wird, wobei mittels eines Objektdetektors in mindestens zwei der texturfreien Darstellungen Objekte identifiziert werden, wobei mittels eines maschinellen Lernsystems aus dieser Folge texturfreier Darstellungen die identifizierte Objekte der mindestens zwei texturfreien Darstellungen einander zugeordnet werden.
  • Dieses maschinelle Lernsystem, insbesondere ein neuronales Netz, kann dadurch, dass es die Zuordnung identifizierter Objekte anhand der texturfreien Darstellung macht, besonders gut mit künstlich generierten Daten trainiert werden. Denn es ist bekannt, dass maschinelle Lernsysteme wie z.B. neuronale Netze der Textur von Objekten bei der Klassifikation sehr großes Gewicht beimessen, während gleichzeitig die computergestützte Generierung solcher Texturen zwar so gut möglich ist, dass sich einem menschlichen Beobachter eine realistisch anmutende Textur darbietet. Es ist aber eine große Herausforderung, diese Texturen derart zu generieren, dass sie bei einem maschinellen Lernsystem nachweisbar zu der gewünschten Klassifikation führen. Dieses Problem kann umgangen werden, da auf Texturen verzichtet wird.
  • Unter einer „Textur“ in einem Bild können insbesondere Variationen innerhalb eines Bereichs, der einem konstanten semantischen Wert zuzuordnen ist, verstanden werden. Eine insbesondere pixelweise semantische Segmentierung ist damit texturfrei.
  • In einer Weiterbildung kann vorgesehen sein, dass das obige Verfahren aus den texturfreien Darstellungen Listen von darin identifizierten Objekten ermittelt werden, und das maschinelle Lernsystem die Zuordnung der identifizierten Objekte ausgehend von den Listen der identifizierten Objekte ermittelt.
  • In einem weiteren Aspekt betrifft die Erfindung daher ein Verfahren zum Trainieren des obigen Objektzuordnungssystems, umfassend die Schritte:
    • - Bereitstellen mindestens einer Szene umfassend eine Mehrzahl von Objekten;
    • - Erzeugen einer Mehrzahl von Listen von Objekten inklusive der Identität der Objekte entsprechend derjenigen der Mehrzahl von Objekten, die in einem von einer vorgebbaren Kameraposition aus aufgenommene Bild der Szene sichtbar wären;
    • - Trainieren des maschinellen Lernsystems abhängig von der erzeugten Mehrzahl von Listen von Objekten.
  • Dieses Trainingsverfahren nutzt aus, dass in Trainingsdaten, die aus einer Szene synthetisch erzeugten werden, die Identität der Objekte leicht feststellbar ist, und dass Eingangs- und Ausgangsdaten des maschinellen Lernsystems synthetisch leicht realistisch generierbar sind. D.h. dieses Trainingsverfahrens nutzt die besonders geschickte Struktur des Objektzuordnungssystems aus.
  • In einer Weiterbildung des Trainingsverfahrens kann vorgesehen sein, dass texturfreie Darstellungen (SEM) entsprechend von einer vorgebbaren Kameraposition aus aufgenommenen Bildern der Szene generiert werden, und ein Objektdetektor, der eingerichtet ist, aus texturfreien Darstellung von Bildern eine Objektliste zu erzeugen, und/oder das maschinellen Lernsystems abhängig von den erzeugten texturfreien Darstellungen trainiert wird.
  • D.h. das maschinelle Lernsystem wird mit einem Trainingsdatensatz trainiert, der die erzeugten texturfreien Darstellungen und aus den jeweiligen Szenen generierte Sollwerten von Zuordnungen der in der texturfreien Darstellung aus der vorgebbaren Kameraposition sichtbaren Objekte umfasst.
  • Eine Szene umfasst beispielsweise eine Liste von in der Szene vorkommenden Objekte, eine Liste von Trajektorien, die die Bewegung der Objekte in der Szene beschreiben, und eine räumliche Beschreibung der Szene (diese räumliche Beschreibung kann einen Straßenverlauf, eine Topographie, und eine Liste der in der Szenen vorhanden unbewegten Objekte enthalten).
  • Vorteilhafterweise sind in der Szene enthaltene zeitliche Verläufe der kinetischen Größe durch zeitliche Verläufe eines entsprechenden Rucks, also einer zeitlichen Ableitung einer Beschleunigung, dargestellt. Dies hat den Vorteil, dass sich realistische Verläufe besonders einfach zufällig generieren lassen.
  • In weiteren Aspekten betrifft die Erfindung ein Computerprogramm, das eingerichtet, die obigen Verfahren auszuführen und ein maschinenlesbares Speichermedium, auf dem dieses Computerprogramm gespeichert ist.
  • Nachfolgend werden Ausführungsformen der Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen näher erläutert. In den Zeichnungen zeigen:
    • 1 schematisch einen Aufbau einer Ausführungsform der Erfindung;
    • 2 schematisch ein Ausführungsbeispiel zur Steuerung eines wenigstens teilautonomen Roboters;
    • 3 schematisch ein Ausführungsbeispiel zur Steuerung eines Fertigungssystems;
    • 4 schematisch ein Ausführungsbeispiel zur Steuerung eines Zugangssystems;
    • 5 schematisch ein Ausführungsbeispiel zur Steuerung eines Überwachungssystems;
    • 6 zeigt eine beispielhafte logische Zuordnung dreier Objekte;
    • 7 beispielhaft eine zeitliche Abfolge von semantischen Segmentierungen;
    • 8 zeigt einen beispielhaften Verlauf eines Rucks;
    • 9 einen beispielhaften Aufbau des Objektzuordnungssystem.
    • 10 einen möglichen Aufbau einer Trainingsvorrichtung 140.
  • Beschreibung der Ausführungsbeispiele
  • 1 zeigt einen Aktor 10 in seiner Umgebung 20 in Interaktion mit einem Steuerungssystem 40. In vorzugsweise regelmäßigen zeitlichen Abständen wird die Umgebung 20 in einem Videosensor 30 erfasst, der auch durch eine Mehrzahl von Sensoren gegeben sein kann, beispielsweise eine Stereokamera. Das Sensorsignal S - bzw. im Fall mehrerer Sensoren je ein Sensorsignal S - des Sensors 30 wird an das Steuerungssystem 40 übermittelt. Das Steuerungssystem 40 empfängt somit eine Folge von Sensorsignalen S. Das Steuerungssystem 40 ermittelt hieraus Ansteuersignale A, welche an den Aktor 10 übertragen werden.
  • Das Steuerungssystem 40 empfängt die Folge von Sensorsignalen S des Sensors 30 in einer optionalen Empfangseinheit 50, die die Folge von Sensorsignalen S in eine Folge von Eingangsbildern x umwandelt (alternativ kann auch unmittelbar je das Sensorsignal S als Eingangsbild x übernommen werden). Das Eingangsbild x kann beispielsweise ein Ausschnitt oder eine Weiterverarbeitung des Sensorsignals S sein. Das Eingangsbild x umfasst einzelne Frames einer Videoaufzeichnung. Mit anderen Worten wird Eingangsbild x abhängig von Sensorsignal S ermittelt. Die Folge von Eingangsbildern x wird einem Objektzuordnungssystem 60 zugeführt.
  • Objektzuordnungssystem 60 wird vorzugsweise parametriert durch Parameter ϕ, die in einem Parameterspeicher P hinterlegt sind und von diesem bereitgestellt werden.
  • Das Objektzuordnungssystem 60 ermittelt aus den Eingangsbildern x Ausgangsgrößen y. Ausgangsgrößen y werden einer optionalen Umformeinheit 80 zugeführt, die hieraus Ansteuersignale A ermittelt, welche dem Aktor 10 zugeführt werden, um den Aktor 10 entsprechend anzusteuern. Ausgangsgröße y umfasst Informationen über Objekte, die der Videosensor 30 erfasst hat, sowie Informationen über eine Identität dieser Objekte.
  • Der Aktor 10 empfängt die Ansteuersignale A, wird entsprechend angesteuert und führt eine entsprechende Aktion aus. Der Aktor 10 kann hierbei eine (nicht notwendigerweise baulich integrierte) Ansteuerlogik umfassen, welches aus dem Ansteuersignal A ein zweites Ansteuersignal ermittelt, mit dem dann der Aktor 10 angesteuert wird.
  • In weiteren Ausführungsformen umfasst das Steuerungssystem 40 den Sensor 30. In noch weiteren Ausführungsformen umfasst das Steuerungssystem 40 alternativ oder zusätzlich auch den Aktor 10.
  • In weiteren bevorzugten Ausführungsformen umfasst das Steuerungssystem 40 eine Ein- oder Mehrzahl von Prozessoren 45 und wenigstens ein maschinenlesbares Speichermedium 46, auf dem Anweisungen gespeichert sind, die dann, wenn sie auf den Prozessoren 45 ausgeführt werden, das Steuerungssystem 40 veranlassen, das erfindungsgemäße Verfahren auszuführen.
  • In alternativen Ausführungsformen ist alternativ oder zusätzlich zum Aktor 10 eine Anzeigeeinheit 10a vorgesehen.
  • 2 zeigt, wie das Steuerungssystem 40 zur Steuerung eines wenigstens teilautonomen Roboters, hier eines wenigstens teilautonomen Kraftfahrzeugs 100, eingesetzt werden kann.
  • Bei dem Sensor 30 kann es sich beispielsweise um einen vorzugsweise im Kraftfahrzeug 100 angeordneten Videosensor handeln.
  • Das Objektzuordnungssystem 60 ist eingerichtet, aus den Eingangsbildern x Objekte zu identifizieren und einander zuzuordnen, die Objekte also mit einer Identität zu versehen. Dies ermöglicht beispielsweise eine besonders sichere Prognose zukünftiger Bewegungen der Objekte und damit eine Prognose sicherer Bereiche, in denen eine Kollision mit diesen Objekten vermieden werden kann.
  • Bei dem vorzugsweise im Kraftfahrzeug 100 angeordneten Aktor 10 kann es sich beispielsweise um eine Bremse, einen Antrieb oder eine Lenkung des Kraftfahrzeugs 100 handeln. Das Ansteuersignal A kann dann derart ermittelt werden, dass der Aktor oder die Aktoren 10 derart angesteuert wird, dass das Kraftfahrzeug 100 beispielsweise eine Kollision mit den vom Objektzuordnungssystem 60 identifizierten Objekte verhindert, insbesondere, wenn es sich um Objekte bestimmter Klassen, z.B. um Fußgänger, handelt. Mit anderen Worten kann Ansteuersignal A abhängig von der ermittelten Zuordnung der Objekt ermittelt werden.
  • Alternativ kann es sich bei dem wenigstens teilautonomen Roboter auch um einen anderen mobilen Roboter (nicht abgebildet) handeln, beispielsweise um einen solchen, der sich durch Fliegen, Schwimmen, Tauchen oder Schreiten fortbewegt. Bei dem mobilen Roboter kann es sich beispielsweise auch um einen wenigstens teilautonomen Rasenmäher oder einen wenigstens teilautonomen Putzroboter handeln. Auch in diesen Fällen kann das Ansteuersignal A derart ermittelt werden, dass Antrieb und/oder Lenkung des mobilen Roboters derart angesteuert werden, dass der wenigstens teilautonome Roboter beispielsweise eine Kollision mit vom Objektzuordnungssystem 60 identifizierten Objekten verhindert.
  • Alternativ oder zusätzlich kann mit dem Ansteuersignal A die Anzeigeeinheit 10a angesteuert werden, und beispielsweise die ermittelten sicheren Bereiche dargestellt werden. Auch ist es beispielsweise beim einem Kraftfahrzeug 100 mit nicht automatisierter Lenkung möglich, dass die Anzeigeeinheit 10a mit dem Ansteuersignal A derart angesteuert wird, dass sie ein optisches oder akustisches Warnsignal ausgibt, wenn ermittelt wird, dass das Kraftfahrzeug 100 droht, mit einem der identifizierten Objekte zu kollidieren.
  • 3 zeigt ein Ausführungsbeispiel, in dem das Steuerungssystem 40 zur Ansteuerung einer Fertigungsmaschine 11 eines Fertigungssystems 200 verwendet wird, indem ein diese Fertigungsmaschine 11 steuernder Aktor 10 angesteuert wird. Bei der Fertigungsmaschine 11 kann es sich beispielsweise um eine Maschine zum Stanzen, Sägen, Bohren und/oder Schneiden handeln.
  • Bei dem Sensor 30 kann es sich dann beispielsweise um einen optischen Sensor handeln, der z.B. Eigenschaften von Fertigungserzeugnissen 12a, 12b erfasst. Es ist möglich, dass diese Fertigungserzeugnisse 12a, 12b beweglich sind. Es ist möglich, dass der die Fertigungsmaschine 11 steuernde Aktor 10 abhängig von einer Zuordnung der erfassten Fertigungserzeugnisse 12a, 12b angesteuert wird, damit die Fertigungsmaschine 11 entsprechend einen nachfolgenden Bearbeitungsschritt des richtigen der Fertigungserzeugnisses 12a, 12b ausführt. Es ist auch möglich, dass durch Identifikation der richtigen Eigenschaften desselben der Fertigungserzeugnisse 12a, 12b (d.h. ohne eine Fehlzuordnung) die Fertigungsmaschine 11 entsprechend den gleichen Fertigungsschritt für eine Bearbeitung eines nachfolgenden Fertigungserzeugnisses anpasst.
  • 4 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines Zugangssystems 300 eingesetzt wird. Das Zugangssystem 300 kann eine physische Zugangskontrolle, beispielsweise eine Tür 401 umfassen. Videosensor 30 ist eingerichtet ist, eine Person zu erfassen. Mittels des Objektzuordnungssystems 60 kann dieses erfasste Bild interpretiert werden. Sind mehrere Personen gleichzeitig erfasst, kann durch eine Zuordnung der Personen (also der Objekte) zueinander beispielweise die Identität der Personen besonders zuverlässig ermittelt werden, beispielsweise durch eine Analyse ihrer Bewegungen. Der Aktor 10 kann ein Schloss sein, dass abhängig vom Ansteuersignal A die Zugangskontrolle freigibt, oder nicht, beispielsweise die Tür 401 öffnet, oder nicht. Hierzu kann das Ansteuersignal A abhängig von der der Interpretation des Objektzuordnungssystems 60 gewählt werden, beispielsweise abhängig von der ermittelten Identität der Person. An Stelle der physischen Zugangskontrolle kann auch eine logische Zugangskontrolle vorgesehen sein.
  • 5 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines Überwachungssystems 400 verwendet wird. Von dem in 5 dargestellten Ausführungsbeispiel unterscheidet sich dieses Ausführungsbeispiel dadurch, dass an Stelle des Aktors 10 die Anzeigeeinheit 10a vorgesehen ist, die vom Steuerungssystem 40 angesteuert wird. Beispielsweise kann vom Objektzuordnungssystem 60 ermittelt werden, welche der vom Videosensor 30 aufgenommenen Gegenstände identisch sind, um abhängig davon z.B. darauf zu schließen, welche verdächtig werden, und das Ansteuersignal A dann derart gewählt werden, dass dieser Gegenstand von der Anzeigeeinheit 10a farblich hervorgehoben dargestellt wird.
  • 6 zeigt eine beispielhafte logische Zuordnung dreier Objekte O1, O2, O3, die von Videokamera 30 zu einem ersten Zeitpunkt t erfasst wurden, zu drei weiteren Objekten P1, P2, P3,
  • 7 zeigt beispielhaft eine zeitliche Abfolge von dargestellten semantischen Segmentierungen der Szene sz. Dargestellt ist die Straße st, auf der sich das erste Objekt obj11 und ein zweites Objekt obj21 befindet (7a). 7b zeigt entsprechend zwei Objekte obj12, obj 22, 7c drei Objekte obj13, obj23. Mit der Erfindung ist es möglich, die Zuordnung zu treffen, dass Objekte obj11, obj12, obj13 dem gleichen ersten Objekt obj1 entsprechen, und obj21, obj22, obj23 dem gleichen zweiten Objekt obj2.
  • Damit ist die Aussage möglich, dass sich das erste Objekt obj1 in der zeitlichen Abfolge der Bilder in 7a), 7b) und 7c) auf die Kamera zubewegt, während sich das zweite Objekt obj2 von ihr wegbewegt.
  • 8 zeigt einen beispielhaften Verlauf eines Rucks r eines der Objekte obj1, obj2 aus der in 7 dargestellten Szene über der Zeit t. Vorteilhafterweise sind Zeit t wie auch Ruck r in jeweils festen Intervallen diskretisiert. Durch die Vorgabe solcher zeitlichen Verläufe des Rucks r lässt sich der zeitliche Verlauf der Objekte in der in 7 dargestellten Szene beschreiben.
  • 9 zeigt einen beispielhaften Aufbau des Objektzuordnungssystem 60. Diesem wird eine Folge von Eingangsbildern x zu aufeinanderfolgenden Zeitpunkten k, k+1, k+2 zugeführt, also erstes Eingangsbild xk+1 , zweites Eingangsbild Xk+2 und drittes Eingangsbild Xk+3 . Objektzuordnungssystem 60 umfasst einen Segmentierer 61, dem zum jeweiligen Zeitpunkt das entsprechende Eingangsbild xk , xk+1 , Xk+2 zugeführt wird und der daraus die zugehörige semantische Segmentierung SEMk , SEMk+1 ,SEMk+2 ermittelt. Diese wird dem Objektdetektor 62 zugeführt, der vorzugsweise durch ein maschinelles Lernsystem, beispielsweise ein neuronales Netz, gegeben ist, und der aus zwei aufeinanderfolgenden semantischen Segmentierungen die sichtbaren Objekte identifiziert und zu den identifizierten Objekten zugehörige Attribute (also Position, Orientierung und Geschwindigkeiten sowie Typ). Diese werden ausgegeben als eine erste Objektliste objt+1 und eine zweite Objektliste objk+2 . Diese Abfolge von Objektlisten wird dem Identifzierer 63 zugeführt, der hieraus die Ausgangsgröße y ermittelt, welche eine Liste der in der ersten bzw. zweiten Objektliste enthaltenen Objekte und Attribute enthält, und zusätzlich noch eine Identität der Objekte.
  • Der Identifizierer 63 ist ein maschinelles Lernsystem, vorzugsweise ein künstliches neuronales Netz.
  • 10 zeigt einen möglichen Aufbau einer Trainingsvorrichtung 140 zum Trainieren des Objektzuordnungssystem 60. Dieser wird mit Parametern ϕ parametriert, die von einem Parameterspeicher P bereitgestellt werden.
  • Trainingsvorrichtung 140 umfasst einen Generator 71, der eine Vielzahl von Szenen sz generiert. Diese werden einem Renderer 72 zugeführt, der hieraus eine Folge semantischer Segmentierungen SEM ermittelt. Diese werden unmittelbar dem Objektdetektor 62 des Objektzuordnungssystems 60 zugeführt. Im weiteren Verlauf ermittelt das Objektzuordnungssystem 60 aus der Folge semantischer Segmentierungen SEM die Liste detektierter Objekte obj. Diese wird einem Vergleicher 74 zugeführt.
  • Mit der generierten Szene sz stellt Generator 71 auch die zugehörige Liste von Objekten als Soll-Objektliste objs inklusive der aus der Szene sz unmittelbar ablesbaren Soll-Identitäten der Objekte. Diese werden als Sollwerte der kinetischen Größen kins dem Vergleicher 74 zugeführt.
  • Abhängig von einer Übereinstimmung zwischen Objektliste obj und Soll-Objektliste objs, also den Abweichungen der Attribute inklusive deren Identitäten werden neue Parameter ϕ' ermittelt, die dem Parameterspeicher P übermittelt werden und dort Parameter ϕ ersetzen.
  • Ist der Objektdetektor 62 und/oder Identifizierer 63 beispielsweise ein neuronales Netz, kann dies durch Ermittlung von Gradienten zur Minimierung einer vorgebbaren Kostenfunktion und Rückwärtspropagation geschehen. Es ist möglich, in einer ersten Phase nur diejenigen Parameter ϕ anzupassen, die den Objektdetektor 62 parametrieren, und in einer zweiten Phase nur diejenigen, die den Identifizierer 63 parametrieren.
  • Alternativ kann auf den Renderer 72 verzichtet werden, und an Stelle der Zuführung von semantischen Segmentierungen SEM wird dem Identifizierer 63 die aus der Szene generierte Soll-Objektliste objs ohne die Identitäten der Objekte zugeführt. In diesem Fall werden im Training nur diejenigen Parameter ϕ angepasst, die den Identifizierer 63 parametrieren.
  • Zur Ermittlung der Kostenfunktion kann vorgesehen sein, entsprechend der ermittelten Zuordnung der Objekte zueinander ein Regressionsfehler der Parameter der Objekte zur Kostenfunktion hinzugefügt wird, durch deren Optimierung die neuen Parameter ϕ' ermittelt werden. Dieser Regressionsfehler kann z.B. durch eine Quadratsumme von Differenzen der Geschwindigkeiten, Beschleunigung und Positionen gegeben sein.
  • Die vom Trainingssystem 140 ausgeführten Verfahren können als Computerprogramm implementiert auf einem maschinenlesbaren Speichermedium 146 hinterlegt sein und von einem Prozessor 145 ausgeführt werden.
  • Der Begriff „Computer“ umfasst beliebige Geräte zur Abarbeitung vorgebbarer Rechenvorschriften. Diese Rechenvorschriften können in Form von Software vorliegen, oder in Form von Hardware, oder auch in einer Mischform aus Software und Hardware.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • DE 102017223264 [0002]

Claims (13)

  1. Computerimplementiertes Verfahren zum Zuordnen von Objekten in einer mittels eines bildgebenden Sensors (30) empfangenen Folge von Eingangsbildern (x), wobei aus den Eingangsbildern zunächst eine Folge von jeweils zu den jeweiligen Eingangsbildern (x) gehöriger Listen von in dem jeweiligen Eingangsbild (x) sichtbaren Objekten (obj) ermittelt wird, wobei mittels eines maschinellen Lernsystems (63) aus dieser Folge von Listen die identifizierte Objekte der Listen einander zugeordnet werden.
  2. Verfahren nach Anspruch 1, wobei aus den Eingangsbildern zunächst eine Folge jeweils zu den jeweiligen Eingangsbildern (x) gehöriger texturfreier Darstellung (SEM) ermittelt wird, wobei in mindestens zwei der texturfreien Darstellungen (SEM) Objekte identifiziert werden, wobei mittels eines maschinellen Lernsystems (63) aus dieser Folge texturfreier Darstellungen (SEM) die identifizierte Objekte der mindestens zwei texturfreien Darstellungen (SEM) einander zugeordnet werden.
  3. Verfahren nach Anspruch 2, wobei aus den texturfreien Darstellungen (SEM) Listen von darin identifizierten Objekten (obj) ermittelt werden, und das maschinelle Lernsystem (63) die Zuordnung der identifizierten Objekte ausgehend von den Listen der identifizierten Objekte (obj) ermittelt.
  4. Verfahren nach einem der Ansprüche 1 bis 3, wobei der bildgebende Sensor (30) eine Umgebung (20) eines wenigstens teilautonomen Roboters (100) erfasst, und abhängig von den zugeordneten Objekten ein Ansteuersignal (A) zur Ansteuerung des wenigstens teilautonomen Roboters (100) bereitgestellt wird.
  5. Objektzuordnungssystem (60) umfassend das maschinelle Lernsystem (63), welches eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 3 auszuführen.
  6. Objektzuordnungssystem (60) nach Anspruch 5, ferner umfassend einen Segmentierer (61) zum Erzeugen der texturfreien Darstellung (SEM) und/oder einen Objektdetektor (62).
  7. Steuerungssystem (40) umfassend das Objektzuordnungssytem (60) nach Anspruch 5 oder 6, welches eingerichtet ist, das Verfahren nach Anspruch 5 auszuführen.
  8. Computerimplementiertes Verfahren zum Trainieren des Objektzuordnungssystems (60) nach Anspruch 5 oder 6, umfassend die Schritte: - Generieren mindestens einer Szene (sz) umfassend eine Mehrzahl von Objekten; - Erzeugen einer Mehrzahl von Listen von Objekten inklusive der Identität der Objekte (objs) entsprechend derjenigen der Mehrzahl von Objekten, die in einem von einer vorgebbaren Kameraposition aus aufgenommene Bild der Szene (sz) sichtbar wären; - Trainieren des maschinellen Lernsystems (63) abhängig von der erzeugten Mehrzahl von Listen von Objekten (objs).
  9. Verfahren nach Anspruch 8 zum Trainieren des Objektzuordnungssystems (60) nach Anspruch 6, umfassend die Schritte: - Erzeugen texturfreier Darstellungen (SEM) entsprechend von einer vorgebbaren Kameraposition aus aufgenommenen Bildern der Szene (sz); - Trainieren des Objektdetektors (62) und/oder des maschinellen Lernsystems (63) abhängig von den erzeugten texturfreien Darstellungen (SEM). Dies kann insbesondere den Schritt umfassen, einen Trainingsdatensatzes bereitzustellen, der die erzeugten texturfreien Darstellungen und aus den jeweiligen Szenen generierte Sollwerten von Zuordnungen (also Identitäten) der in der texturfreien Darstellung aus der vorgebbaren Kameraposition sichtbaren Objekte umfasst.
  10. Verfahren nach Anspruch 8 oder 9, wobei in der Szene (sz) enthaltene zeitliche Verläufe der kinetischen Größe durch zeitliche Verläufe eines entsprechenden Rucks (r) dargestellt sind.
  11. Trainingsvorrichtung (140), welche eingerichtet ist, das Verfahren nach einem der Ansprüche 8 bis 10 auszuführen.
  12. Computerprogramm, welches eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 4 oder 7 bis 9 auszuführen.
  13. Maschinenlesbares Speichermedium (46, 146), auf dem das Computerprogramm nach Anspruch 12 gespeichert ist.
DE102019208008.1A 2019-05-31 2019-05-31 Verfahren und Vorrichtung zum sicheren Zuordnen identifizierter Objekte in Videobildern Pending DE102019208008A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102019208008.1A DE102019208008A1 (de) 2019-05-31 2019-05-31 Verfahren und Vorrichtung zum sicheren Zuordnen identifizierter Objekte in Videobildern
CN202010474495.7A CN112016384A (zh) 2019-05-31 2020-05-29 用于使在视频图像中所标识的对象可靠关联的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102019208008.1A DE102019208008A1 (de) 2019-05-31 2019-05-31 Verfahren und Vorrichtung zum sicheren Zuordnen identifizierter Objekte in Videobildern

Publications (1)

Publication Number Publication Date
DE102019208008A1 true DE102019208008A1 (de) 2020-12-03

Family

ID=73264521

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019208008.1A Pending DE102019208008A1 (de) 2019-05-31 2019-05-31 Verfahren und Vorrichtung zum sicheren Zuordnen identifizierter Objekte in Videobildern

Country Status (2)

Country Link
CN (1) CN112016384A (de)
DE (1) DE102019208008A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102020216015A1 (de) 2020-12-16 2022-06-23 Siemens Mobility GmbH Verfahren zum Steuern eines Stellgliedes einer Vorrichtung mit einer Recheneinheit

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100191391A1 (en) * 2009-01-26 2010-07-29 Gm Global Technology Operations, Inc. multiobject fusion module for collision preparation system
US9443320B1 (en) * 2015-05-18 2016-09-13 Xerox Corporation Multi-object tracking with generic object proposals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100191391A1 (en) * 2009-01-26 2010-07-29 Gm Global Technology Operations, Inc. multiobject fusion module for collision preparation system
US9443320B1 (en) * 2015-05-18 2016-09-13 Xerox Corporation Multi-object tracking with generic object proposals

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ONDRUSKA, P. [et al.]: End-to-end tracking and semantic segmentation using recurrent neural networks. arXiv preprint arXiv:1604.05091, 2016.URL: https://arxiv.org/pdf/1604.05091[abgerufen am 23.03.2020] *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102020216015A1 (de) 2020-12-16 2022-06-23 Siemens Mobility GmbH Verfahren zum Steuern eines Stellgliedes einer Vorrichtung mit einer Recheneinheit

Also Published As

Publication number Publication date
CN112016384A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
EP2220588B1 (de) Konfigurationsmodul für ein überwachungssystem, überwachungssystem, verfahren zur konfiguration des überwachungssystems sowie computerprogramm
WO2009003793A2 (de) Vorrichtung zur erkennung und/oder klassifizierung von bewegungsmustern in einer bildsequenz von einer überwachungsszene, verfahren sowie computerprogramm
DE102018128531A1 (de) System und Verfahren zum Analysieren einer durch eine Punktwolke dargestellten dreidimensionalen Umgebung durch tiefes Lernen
DE102018128289A1 (de) Verfahren und vorrichtung für eine autonome systemleistung und zur einstufung
DE102017219282A1 (de) Verfahren und Vorrichtung zum automatischen Erzeugen eines künstlichen neuronalen Netzes
DE102019208008A1 (de) Verfahren und Vorrichtung zum sicheren Zuordnen identifizierter Objekte in Videobildern
DE102020201939A1 (de) Verfahren und Vorrichtung zur Bewertung eines Bildklassifikators
WO2020260016A1 (de) Verfahren und vorrichtung zum trainieren eines maschinellen lernsystems
DE102019209228A1 (de) Verfahren und Vorrichtung zum Überprüfen der Robustheit eines künstlichen neuronalen Netzes
DE102022201679A1 (de) Verfahren und Vorrichtung zum Trainieren eines neuronalen Netzes
DE102019209152A1 (de) Verfahren und Vorrichtung zum sicheren Identifizieren von Objekten in Videobildern
DE102019207947A1 (de) Verfahren und Vorrichtung zum sicheren Vorhersagen einer Trajektorie
EP3754544A1 (de) Erkennungssystem, arbeitsverfahren und trainingsverfahren
DE102020206990A1 (de) Vorrichtung zur Verarbeitung von Sensordaten und Trainingsverfahren
EP3772017A1 (de) Bahnsignalerkennung für autonome schienenfahrzeuge
WO2020057868A1 (de) Verfahren und vorrichtung zum betreiben eines steuerungssystems
DE102019217225A1 (de) Verfahren zum Trainieren eines maschinellen Lernsystems für eine Objekterkennungsvorrichtung
DE102011017305A1 (de) Bedien- und Beobachtungssystem für technische Anlagen
DE102019208920A1 (de) Verfahren und Vorrichtung zum sicheren Betreiben eines Segmentierers
DE102019207411A1 (de) Verfahren und Vorrichtung zum sicheren Betreiben eines Schätzers
EP2115699A1 (de) Verfahren zur selbsttätigen analyse von objektbewegungen
DE102022111549A1 (de) Verbesserte fernsteuerung von autonomen fahrzeugen
DE102019207408A1 (de) Verfahren und Vorrichtung zum Betreiben eines neuronalen Netzes
DE102021214329A1 (de) Verfahren und Vorrichtung zum Bestimmen einer Abdeckung eines Datensatzes für ein maschinelles Lernsystem hinsichtlich Trigger Events
DE102023105432A1 (de) Zielerfassungsvorrichtung, zielerfassungsverfahren und zielerfassungsprogramm

Legal Events

Date Code Title Description
R163 Identified publications notified
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009660000

Ipc: G06V0030194000