DE102019208008A1

DE102019208008A1 - Verfahren und Vorrichtung zum sicheren Zuordnen identifizierter Objekte in Videobildern

Info

Publication number: DE102019208008A1
Application number: DE102019208008.1A
Authority: DE
Inventors: Konrad Groh
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2020-12-03
Also published as: CN112016384A

Abstract

Computerimplementiertes Verfahren zum Zuordnen von Objekten in einer mittels eines bildgebenden Sensors (30) empfangenen Folge von Eingangsbildern (x), wobei aus den Eingangsbildern zunächst eine Folge von jeweils zu den jeweiligen Eingangsbildern (x) gehöriger Listen von in dem jeweiligen Eingangsbild (x) sichtbaren Objekten ermittelt wird, wobei mittels eines maschinellen Lernsystems aus dieser Folge von Listen die identifizierten Objekte der Listen einander zugeordnet werden.

Description

Die Erfindung betrifft einen Verfahren zum Zuordnen von Objekten innerhalb eines von einem Sensor erfassten Bildes, ein Objektzuordnungssystem, ein Steuerungssystem, ein Verfahren zum Trainieren des Objektzuordnungssystems, ein Computerprogramm und ein maschinenlesbares Speichermedium.
Stand der Technik
Aus der nicht vorveröffentlichten DE 10 2017 223 264.1 ist ein Verfahren zum Detektieren eines Objekts in einem bereitgestellten Eingangssignal, wobei abhängig von dem bereitgestellten Eingangssignal ein Objekt detektiert wird und wobei eine Ansteuerung eines Aktors abhängig von der Detektion des Objekts erfolgt.
Vorteile der Erfindung
Werden Objekte mit einer Videokamera, oder allgemeiner als eine Bildfolge eines bildgebenden Sensors, aufgenommen, stellt sich die Herausforderung, in aufeinander folgenden Bilder die identifizierten Objekte einander zuzuordnen, also mit Identitäten zu versehen. Dieses sogenannte Assoziationsproblem besteht also darin, die in zwei zeitlich aufeinanderfolgenden Sensorsignalen x₁ und x₂ erkannten Objekte zueinander zuzuordnen. Die Zuordnung kann z.B. durch eine Heuristik erfolgen. Hierbei werden Abstände zwischen den in x₁ und x₂ erkannten Objekten eingeführt. Jede Zuordnung zwischen den Objekten von x₁ und x₂ ergibt einen Gesamtabstand. Die Heuristik kann dann vorsehen, diesen Gesamtabstand zu minimieren, das heißt diejenigen Objekte in x₁ und x₂ zueinander zuzuordnen, die möglichst nah beieinander liegen.
Das Hauptproblem in dieser Vorgehensweise besteht darin, dass Objekte zwischen x₁ und x₂ verschwinden können, oder neu auftauchen. Das heißt, nicht jedes Objekt aus x₂ korrespondiert zu einem Objekt in x₁ und umgekehrt. Weiterhin ignoriert die Heuristik die physikalischen Eigenschaften der Assoziation. Schließlich ist es sehr aufwändig einen Datensatz zu erzeugen, der alle möglichen Kombinationen von entstehenden und verschwindenden Objekten enthält.
Das Verfahren mit den Merkmalen des unabhängigen Anspruch 1 hat demgegenüber den Vorteil, dass es sich mit synthetisch, also auf einem Computer, generierten Testdaten trainieren lässt, sodass sich mit Leichtigkeit eine große Vielzahl Trainingsdaten bereitstellen lässt, um so das Assoziationsproblem zu lösen.
Weitere Aspekte der Erfindung sind Gegenstand der nebengeordneten Ansprüche. Vorteilhafte Weiterbildungen sind Gegenstand der abhängigen Ansprüche.
Offenbarung der Erfindung
In einem ersten Aspekt betrifft die Erfindung daher ein computerimplementiertes Verfahren zum Zuordnen von Objekten in einer mittels eines bildgebenden Sensors empfangenen Folge von Eingangsbildern, wobei aus den Eingangsbildern zunächst eine Folge von jeweils zu den jeweiligen Eingangsbildern gehöriger Listen von in dem jeweiligen Eingangsbild sichtbaren Objekten ermittelt wird, wobei mittels eines maschinellen Lernsystems aus dieser Folge von Listen die identifizierte Objekte der Listen einander zugeordnet werden.
Die Listen von Objekten umfassen neben den Typen der Objekte auch weitere Attribute, wie beispielsweise eine Position, eine Orientierung oder Geschwindigkeiten der jeweiligen Objekte.
Es wurde nämlich erkannt, dass die Identifikation von Objekten und ihrer Attribute aus Einzelbildern gut möglich ist, wohingegen die Zuordnung eine Vielzahl von Szenen abdecken muss, was vorteilhafterweise derart geschieht, dass die Zuordnung mit einem maschinellen Lernsystem erfolgt, zu dessen Training synthetische Trainingsdaten leicht realistisch generierbar sind.
Die Zuordnung der Objekte zueinander kann vorteilhafterweise derart geschehen, dass jedem der Objekte noch ein eindeutiges Identifikationsmerkmal, eine Identität, zugeordnet wird.
In einer Weiterbildung dieses Aspekts kann vorgesehen sein, dass aus den Eingangsbildern zunächst eine Folge jeweils zu den jeweiligen Eingangsbildern gehöriger texturfreier Darstellung ermittelt wird, wobei mittels eines Objektdetektors in mindestens zwei der texturfreien Darstellungen Objekte identifiziert werden, wobei mittels eines maschinellen Lernsystems aus dieser Folge texturfreier Darstellungen die identifizierte Objekte der mindestens zwei texturfreien Darstellungen einander zugeordnet werden.
Dieses maschinelle Lernsystem, insbesondere ein neuronales Netz, kann dadurch, dass es die Zuordnung identifizierter Objekte anhand der texturfreien Darstellung macht, besonders gut mit künstlich generierten Daten trainiert werden. Denn es ist bekannt, dass maschinelle Lernsysteme wie z.B. neuronale Netze der Textur von Objekten bei der Klassifikation sehr großes Gewicht beimessen, während gleichzeitig die computergestützte Generierung solcher Texturen zwar so gut möglich ist, dass sich einem menschlichen Beobachter eine realistisch anmutende Textur darbietet. Es ist aber eine große Herausforderung, diese Texturen derart zu generieren, dass sie bei einem maschinellen Lernsystem nachweisbar zu der gewünschten Klassifikation führen. Dieses Problem kann umgangen werden, da auf Texturen verzichtet wird.
Unter einer „Textur“ in einem Bild können insbesondere Variationen innerhalb eines Bereichs, der einem konstanten semantischen Wert zuzuordnen ist, verstanden werden. Eine insbesondere pixelweise semantische Segmentierung ist damit texturfrei.
In einer Weiterbildung kann vorgesehen sein, dass das obige Verfahren aus den texturfreien Darstellungen Listen von darin identifizierten Objekten ermittelt werden, und das maschinelle Lernsystem die Zuordnung der identifizierten Objekte ausgehend von den Listen der identifizierten Objekte ermittelt.
In einem weiteren Aspekt betrifft die Erfindung daher ein Verfahren zum Trainieren des obigen Objektzuordnungssystems, umfassend die Schritte:

- Bereitstellen mindestens einer Szene umfassend eine Mehrzahl von Objekten;
- Erzeugen einer Mehrzahl von Listen von Objekten inklusive der Identität der Objekte entsprechend derjenigen der Mehrzahl von Objekten, die in einem von einer vorgebbaren Kameraposition aus aufgenommene Bild der Szene sichtbar wären;
- Trainieren des maschinellen Lernsystems abhängig von der erzeugten Mehrzahl von Listen von Objekten.

Dieses Trainingsverfahren nutzt aus, dass in Trainingsdaten, die aus einer Szene synthetisch erzeugten werden, die Identität der Objekte leicht feststellbar ist, und dass Eingangs- und Ausgangsdaten des maschinellen Lernsystems synthetisch leicht realistisch generierbar sind. D.h. dieses Trainingsverfahrens nutzt die besonders geschickte Struktur des Objektzuordnungssystems aus.
In einer Weiterbildung des Trainingsverfahrens kann vorgesehen sein, dass texturfreie Darstellungen (SEM) entsprechend von einer vorgebbaren Kameraposition aus aufgenommenen Bildern der Szene generiert werden, und ein Objektdetektor, der eingerichtet ist, aus texturfreien Darstellung von Bildern eine Objektliste zu erzeugen, und/oder das maschinellen Lernsystems abhängig von den erzeugten texturfreien Darstellungen trainiert wird.
D.h. das maschinelle Lernsystem wird mit einem Trainingsdatensatz trainiert, der die erzeugten texturfreien Darstellungen und aus den jeweiligen Szenen generierte Sollwerten von Zuordnungen der in der texturfreien Darstellung aus der vorgebbaren Kameraposition sichtbaren Objekte umfasst.
Eine Szene umfasst beispielsweise eine Liste von in der Szene vorkommenden Objekte, eine Liste von Trajektorien, die die Bewegung der Objekte in der Szene beschreiben, und eine räumliche Beschreibung der Szene (diese räumliche Beschreibung kann einen Straßenverlauf, eine Topographie, und eine Liste der in der Szenen vorhanden unbewegten Objekte enthalten).
Vorteilhafterweise sind in der Szene enthaltene zeitliche Verläufe der kinetischen Größe durch zeitliche Verläufe eines entsprechenden Rucks, also einer zeitlichen Ableitung einer Beschleunigung, dargestellt. Dies hat den Vorteil, dass sich realistische Verläufe besonders einfach zufällig generieren lassen.
In weiteren Aspekten betrifft die Erfindung ein Computerprogramm, das eingerichtet, die obigen Verfahren auszuführen und ein maschinenlesbares Speichermedium, auf dem dieses Computerprogramm gespeichert ist.
Nachfolgend werden Ausführungsformen der Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen näher erläutert. In den Zeichnungen zeigen:

1 schematisch einen Aufbau einer Ausführungsform der Erfindung;
2 schematisch ein Ausführungsbeispiel zur Steuerung eines wenigstens teilautonomen Roboters;
3 schematisch ein Ausführungsbeispiel zur Steuerung eines Fertigungssystems;
4 schematisch ein Ausführungsbeispiel zur Steuerung eines Zugangssystems;
5 schematisch ein Ausführungsbeispiel zur Steuerung eines Überwachungssystems;
6 zeigt eine beispielhafte logische Zuordnung dreier Objekte;
7 beispielhaft eine zeitliche Abfolge von semantischen Segmentierungen;
8 zeigt einen beispielhaften Verlauf eines Rucks;
9 einen beispielhaften Aufbau des Objektzuordnungssystem.
10 einen möglichen Aufbau einer Trainingsvorrichtung 140.

Beschreibung der Ausführungsbeispiele
1 zeigt einen Aktor 10 in seiner Umgebung 20 in Interaktion mit einem Steuerungssystem 40. In vorzugsweise regelmäßigen zeitlichen Abständen wird die Umgebung 20 in einem Videosensor 30 erfasst, der auch durch eine Mehrzahl von Sensoren gegeben sein kann, beispielsweise eine Stereokamera. Das Sensorsignal S - bzw. im Fall mehrerer Sensoren je ein Sensorsignal S - des Sensors 30 wird an das Steuerungssystem 40 übermittelt. Das Steuerungssystem 40 empfängt somit eine Folge von Sensorsignalen S. Das Steuerungssystem 40 ermittelt hieraus Ansteuersignale A, welche an den Aktor 10 übertragen werden.
Das Steuerungssystem 40 empfängt die Folge von Sensorsignalen S des Sensors 30 in einer optionalen Empfangseinheit 50, die die Folge von Sensorsignalen S in eine Folge von Eingangsbildern x umwandelt (alternativ kann auch unmittelbar je das Sensorsignal S als Eingangsbild x übernommen werden). Das Eingangsbild x kann beispielsweise ein Ausschnitt oder eine Weiterverarbeitung des Sensorsignals S sein. Das Eingangsbild x umfasst einzelne Frames einer Videoaufzeichnung. Mit anderen Worten wird Eingangsbild x abhängig von Sensorsignal S ermittelt. Die Folge von Eingangsbildern x wird einem Objektzuordnungssystem 60 zugeführt.
Objektzuordnungssystem 60 wird vorzugsweise parametriert durch Parameter ϕ, die in einem Parameterspeicher P hinterlegt sind und von diesem bereitgestellt werden.
Das Objektzuordnungssystem 60 ermittelt aus den Eingangsbildern x Ausgangsgrößen y. Ausgangsgrößen y werden einer optionalen Umformeinheit 80 zugeführt, die hieraus Ansteuersignale A ermittelt, welche dem Aktor 10 zugeführt werden, um den Aktor 10 entsprechend anzusteuern. Ausgangsgröße y umfasst Informationen über Objekte, die der Videosensor 30 erfasst hat, sowie Informationen über eine Identität dieser Objekte.
Der Aktor 10 empfängt die Ansteuersignale A, wird entsprechend angesteuert und führt eine entsprechende Aktion aus. Der Aktor 10 kann hierbei eine (nicht notwendigerweise baulich integrierte) Ansteuerlogik umfassen, welches aus dem Ansteuersignal A ein zweites Ansteuersignal ermittelt, mit dem dann der Aktor 10 angesteuert wird.
In weiteren Ausführungsformen umfasst das Steuerungssystem 40 den Sensor 30. In noch weiteren Ausführungsformen umfasst das Steuerungssystem 40 alternativ oder zusätzlich auch den Aktor 10.
In weiteren bevorzugten Ausführungsformen umfasst das Steuerungssystem 40 eine Ein- oder Mehrzahl von Prozessoren 45 und wenigstens ein maschinenlesbares Speichermedium 46, auf dem Anweisungen gespeichert sind, die dann, wenn sie auf den Prozessoren 45 ausgeführt werden, das Steuerungssystem 40 veranlassen, das erfindungsgemäße Verfahren auszuführen.
In alternativen Ausführungsformen ist alternativ oder zusätzlich zum Aktor 10 eine Anzeigeeinheit 10a vorgesehen.
2 zeigt, wie das Steuerungssystem 40 zur Steuerung eines wenigstens teilautonomen Roboters, hier eines wenigstens teilautonomen Kraftfahrzeugs 100, eingesetzt werden kann.
Bei dem Sensor 30 kann es sich beispielsweise um einen vorzugsweise im Kraftfahrzeug 100 angeordneten Videosensor handeln.
Das Objektzuordnungssystem 60 ist eingerichtet, aus den Eingangsbildern x Objekte zu identifizieren und einander zuzuordnen, die Objekte also mit einer Identität zu versehen. Dies ermöglicht beispielsweise eine besonders sichere Prognose zukünftiger Bewegungen der Objekte und damit eine Prognose sicherer Bereiche, in denen eine Kollision mit diesen Objekten vermieden werden kann.
Bei dem vorzugsweise im Kraftfahrzeug 100 angeordneten Aktor 10 kann es sich beispielsweise um eine Bremse, einen Antrieb oder eine Lenkung des Kraftfahrzeugs 100 handeln. Das Ansteuersignal A kann dann derart ermittelt werden, dass der Aktor oder die Aktoren 10 derart angesteuert wird, dass das Kraftfahrzeug 100 beispielsweise eine Kollision mit den vom Objektzuordnungssystem 60 identifizierten Objekte verhindert, insbesondere, wenn es sich um Objekte bestimmter Klassen, z.B. um Fußgänger, handelt. Mit anderen Worten kann Ansteuersignal A abhängig von der ermittelten Zuordnung der Objekt ermittelt werden.
Alternativ kann es sich bei dem wenigstens teilautonomen Roboter auch um einen anderen mobilen Roboter (nicht abgebildet) handeln, beispielsweise um einen solchen, der sich durch Fliegen, Schwimmen, Tauchen oder Schreiten fortbewegt. Bei dem mobilen Roboter kann es sich beispielsweise auch um einen wenigstens teilautonomen Rasenmäher oder einen wenigstens teilautonomen Putzroboter handeln. Auch in diesen Fällen kann das Ansteuersignal A derart ermittelt werden, dass Antrieb und/oder Lenkung des mobilen Roboters derart angesteuert werden, dass der wenigstens teilautonome Roboter beispielsweise eine Kollision mit vom Objektzuordnungssystem 60 identifizierten Objekten verhindert.
Alternativ oder zusätzlich kann mit dem Ansteuersignal A die Anzeigeeinheit 10a angesteuert werden, und beispielsweise die ermittelten sicheren Bereiche dargestellt werden. Auch ist es beispielsweise beim einem Kraftfahrzeug 100 mit nicht automatisierter Lenkung möglich, dass die Anzeigeeinheit 10a mit dem Ansteuersignal A derart angesteuert wird, dass sie ein optisches oder akustisches Warnsignal ausgibt, wenn ermittelt wird, dass das Kraftfahrzeug 100 droht, mit einem der identifizierten Objekte zu kollidieren.
3 zeigt ein Ausführungsbeispiel, in dem das Steuerungssystem 40 zur Ansteuerung einer Fertigungsmaschine 11 eines Fertigungssystems 200 verwendet wird, indem ein diese Fertigungsmaschine 11 steuernder Aktor 10 angesteuert wird. Bei der Fertigungsmaschine 11 kann es sich beispielsweise um eine Maschine zum Stanzen, Sägen, Bohren und/oder Schneiden handeln.
Bei dem Sensor 30 kann es sich dann beispielsweise um einen optischen Sensor handeln, der z.B. Eigenschaften von Fertigungserzeugnissen 12a, 12b erfasst. Es ist möglich, dass diese Fertigungserzeugnisse 12a, 12b beweglich sind. Es ist möglich, dass der die Fertigungsmaschine 11 steuernde Aktor 10 abhängig von einer Zuordnung der erfassten Fertigungserzeugnisse 12a, 12b angesteuert wird, damit die Fertigungsmaschine 11 entsprechend einen nachfolgenden Bearbeitungsschritt des richtigen der Fertigungserzeugnisses 12a, 12b ausführt. Es ist auch möglich, dass durch Identifikation der richtigen Eigenschaften desselben der Fertigungserzeugnisse 12a, 12b (d.h. ohne eine Fehlzuordnung) die Fertigungsmaschine 11 entsprechend den gleichen Fertigungsschritt für eine Bearbeitung eines nachfolgenden Fertigungserzeugnisses anpasst.
4 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines Zugangssystems 300 eingesetzt wird. Das Zugangssystem 300 kann eine physische Zugangskontrolle, beispielsweise eine Tür 401 umfassen. Videosensor 30 ist eingerichtet ist, eine Person zu erfassen. Mittels des Objektzuordnungssystems 60 kann dieses erfasste Bild interpretiert werden. Sind mehrere Personen gleichzeitig erfasst, kann durch eine Zuordnung der Personen (also der Objekte) zueinander beispielweise die Identität der Personen besonders zuverlässig ermittelt werden, beispielsweise durch eine Analyse ihrer Bewegungen. Der Aktor 10 kann ein Schloss sein, dass abhängig vom Ansteuersignal A die Zugangskontrolle freigibt, oder nicht, beispielsweise die Tür 401 öffnet, oder nicht. Hierzu kann das Ansteuersignal A abhängig von der der Interpretation des Objektzuordnungssystems 60 gewählt werden, beispielsweise abhängig von der ermittelten Identität der Person. An Stelle der physischen Zugangskontrolle kann auch eine logische Zugangskontrolle vorgesehen sein.
5 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines Überwachungssystems 400 verwendet wird. Von dem in 5 dargestellten Ausführungsbeispiel unterscheidet sich dieses Ausführungsbeispiel dadurch, dass an Stelle des Aktors 10 die Anzeigeeinheit 10a vorgesehen ist, die vom Steuerungssystem 40 angesteuert wird. Beispielsweise kann vom Objektzuordnungssystem 60 ermittelt werden, welche der vom Videosensor 30 aufgenommenen Gegenstände identisch sind, um abhängig davon z.B. darauf zu schließen, welche verdächtig werden, und das Ansteuersignal A dann derart gewählt werden, dass dieser Gegenstand von der Anzeigeeinheit 10a farblich hervorgehoben dargestellt wird.
6 zeigt eine beispielhafte logische Zuordnung dreier Objekte O₁, O_2, O_3, die von Videokamera 30 zu einem ersten Zeitpunkt t erfasst wurden, zu drei weiteren Objekten P₁, P₂, P₃,
7 zeigt beispielhaft eine zeitliche Abfolge von dargestellten semantischen Segmentierungen der Szene sz. Dargestellt ist die Straße st, auf der sich das erste Objekt obj11 und ein zweites Objekt obj21 befindet (7a). 7b zeigt entsprechend zwei Objekte obj12, obj 22, 7c drei Objekte obj13, obj23. Mit der Erfindung ist es möglich, die Zuordnung zu treffen, dass Objekte obj11, obj12, obj13 dem gleichen ersten Objekt obj1 entsprechen, und obj21, obj22, obj23 dem gleichen zweiten Objekt obj2.
Damit ist die Aussage möglich, dass sich das erste Objekt obj1 in der zeitlichen Abfolge der Bilder in 7a), 7b) und 7c) auf die Kamera zubewegt, während sich das zweite Objekt obj2 von ihr wegbewegt.
8 zeigt einen beispielhaften Verlauf eines Rucks r eines der Objekte obj1, obj2 aus der in 7 dargestellten Szene über der Zeit t. Vorteilhafterweise sind Zeit t wie auch Ruck r in jeweils festen Intervallen diskretisiert. Durch die Vorgabe solcher zeitlichen Verläufe des Rucks r lässt sich der zeitliche Verlauf der Objekte in der in 7 dargestellten Szene beschreiben.
9 zeigt einen beispielhaften Aufbau des Objektzuordnungssystem 60. Diesem wird eine Folge von Eingangsbildern x zu aufeinanderfolgenden Zeitpunkten k, k+1, k+2 zugeführt, also erstes Eingangsbild x_k+1 , zweites Eingangsbild X_k+2 und drittes Eingangsbild X_k+3 . Objektzuordnungssystem 60 umfasst einen Segmentierer 61, dem zum jeweiligen Zeitpunkt das entsprechende Eingangsbild x_k , x_k+1 , X_k+2 zugeführt wird und der daraus die zugehörige semantische Segmentierung SEM_k , SEM_k+1 ,SEM_k+2 ermittelt. Diese wird dem Objektdetektor 62 zugeführt, der vorzugsweise durch ein maschinelles Lernsystem, beispielsweise ein neuronales Netz, gegeben ist, und der aus zwei aufeinanderfolgenden semantischen Segmentierungen die sichtbaren Objekte identifiziert und zu den identifizierten Objekten zugehörige Attribute (also Position, Orientierung und Geschwindigkeiten sowie Typ). Diese werden ausgegeben als eine erste Objektliste obj_t+1 und eine zweite Objektliste obj_k+2 . Diese Abfolge von Objektlisten wird dem Identifzierer 63 zugeführt, der hieraus die Ausgangsgröße y ermittelt, welche eine Liste der in der ersten bzw. zweiten Objektliste enthaltenen Objekte und Attribute enthält, und zusätzlich noch eine Identität der Objekte.
Der Identifizierer 63 ist ein maschinelles Lernsystem, vorzugsweise ein künstliches neuronales Netz.
10 zeigt einen möglichen Aufbau einer Trainingsvorrichtung 140 zum Trainieren des Objektzuordnungssystem 60. Dieser wird mit Parametern ϕ parametriert, die von einem Parameterspeicher P bereitgestellt werden.
Trainingsvorrichtung 140 umfasst einen Generator 71, der eine Vielzahl von Szenen sz generiert. Diese werden einem Renderer 72 zugeführt, der hieraus eine Folge semantischer Segmentierungen SEM ermittelt. Diese werden unmittelbar dem Objektdetektor 62 des Objektzuordnungssystems 60 zugeführt. Im weiteren Verlauf ermittelt das Objektzuordnungssystem 60 aus der Folge semantischer Segmentierungen SEM die Liste detektierter Objekte obj. Diese wird einem Vergleicher 74 zugeführt.
Mit der generierten Szene sz stellt Generator 71 auch die zugehörige Liste von Objekten als Soll-Objektliste objs inklusive der aus der Szene sz unmittelbar ablesbaren Soll-Identitäten der Objekte. Diese werden als Sollwerte der kinetischen Größen kins dem Vergleicher 74 zugeführt.
Abhängig von einer Übereinstimmung zwischen Objektliste obj und Soll-Objektliste objs, also den Abweichungen der Attribute inklusive deren Identitäten werden neue Parameter ϕ' ermittelt, die dem Parameterspeicher P übermittelt werden und dort Parameter ϕ ersetzen.
Ist der Objektdetektor 62 und/oder Identifizierer 63 beispielsweise ein neuronales Netz, kann dies durch Ermittlung von Gradienten zur Minimierung einer vorgebbaren Kostenfunktion und Rückwärtspropagation geschehen. Es ist möglich, in einer ersten Phase nur diejenigen Parameter ϕ anzupassen, die den Objektdetektor 62 parametrieren, und in einer zweiten Phase nur diejenigen, die den Identifizierer 63 parametrieren.
Alternativ kann auf den Renderer 72 verzichtet werden, und an Stelle der Zuführung von semantischen Segmentierungen SEM wird dem Identifizierer 63 die aus der Szene generierte Soll-Objektliste objs ohne die Identitäten der Objekte zugeführt. In diesem Fall werden im Training nur diejenigen Parameter ϕ angepasst, die den Identifizierer 63 parametrieren.
Zur Ermittlung der Kostenfunktion kann vorgesehen sein, entsprechend der ermittelten Zuordnung der Objekte zueinander ein Regressionsfehler der Parameter der Objekte zur Kostenfunktion hinzugefügt wird, durch deren Optimierung die neuen Parameter ϕ' ermittelt werden. Dieser Regressionsfehler kann z.B. durch eine Quadratsumme von Differenzen der Geschwindigkeiten, Beschleunigung und Positionen gegeben sein.
Die vom Trainingssystem 140 ausgeführten Verfahren können als Computerprogramm implementiert auf einem maschinenlesbaren Speichermedium 146 hinterlegt sein und von einem Prozessor 145 ausgeführt werden.
Der Begriff „Computer“ umfasst beliebige Geräte zur Abarbeitung vorgebbarer Rechenvorschriften. Diese Rechenvorschriften können in Form von Software vorliegen, oder in Form von Hardware, oder auch in einer Mischform aus Software und Hardware.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102017223264 [0002]

Claims

Computerimplementiertes Verfahren zum Zuordnen von Objekten in einer mittels eines bildgebenden Sensors (30) empfangenen Folge von Eingangsbildern (x), wobei aus den Eingangsbildern zunächst eine Folge von jeweils zu den jeweiligen Eingangsbildern (x) gehöriger Listen von in dem jeweiligen Eingangsbild (x) sichtbaren Objekten (obj) ermittelt wird, wobei mittels eines maschinellen Lernsystems (63) aus dieser Folge von Listen die identifizierte Objekte der Listen einander zugeordnet werden.
Verfahren nach Anspruch 1, wobei aus den Eingangsbildern zunächst eine Folge jeweils zu den jeweiligen Eingangsbildern (x) gehöriger texturfreier Darstellung (SEM) ermittelt wird, wobei in mindestens zwei der texturfreien Darstellungen (SEM) Objekte identifiziert werden, wobei mittels eines maschinellen Lernsystems (63) aus dieser Folge texturfreier Darstellungen (SEM) die identifizierte Objekte der mindestens zwei texturfreien Darstellungen (SEM) einander zugeordnet werden.
Verfahren nach Anspruch 2, wobei aus den texturfreien Darstellungen (SEM) Listen von darin identifizierten Objekten (obj) ermittelt werden, und das maschinelle Lernsystem (63) die Zuordnung der identifizierten Objekte ausgehend von den Listen der identifizierten Objekte (obj) ermittelt.
Verfahren nach einem der Ansprüche 1 bis 3, wobei der bildgebende Sensor (30) eine Umgebung (20) eines wenigstens teilautonomen Roboters (100) erfasst, und abhängig von den zugeordneten Objekten ein Ansteuersignal (A) zur Ansteuerung des wenigstens teilautonomen Roboters (100) bereitgestellt wird.
Objektzuordnungssystem (60) umfassend das maschinelle Lernsystem (63), welches eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 3 auszuführen.
Objektzuordnungssystem (60) nach Anspruch 5, ferner umfassend einen Segmentierer (61) zum Erzeugen der texturfreien Darstellung (SEM) und/oder einen Objektdetektor (62).
Steuerungssystem (40) umfassend das Objektzuordnungssytem (60) nach Anspruch 5 oder 6, welches eingerichtet ist, das Verfahren nach Anspruch 5 auszuführen.
Computerimplementiertes Verfahren zum Trainieren des Objektzuordnungssystems (60) nach Anspruch 5 oder 6, umfassend die Schritte: - Generieren mindestens einer Szene (sz) umfassend eine Mehrzahl von Objekten; - Erzeugen einer Mehrzahl von Listen von Objekten inklusive der Identität der Objekte (objs) entsprechend derjenigen der Mehrzahl von Objekten, die in einem von einer vorgebbaren Kameraposition aus aufgenommene Bild der Szene (sz) sichtbar wären; - Trainieren des maschinellen Lernsystems (63) abhängig von der erzeugten Mehrzahl von Listen von Objekten (objs).
Verfahren nach Anspruch 8 zum Trainieren des Objektzuordnungssystems (60) nach Anspruch 6, umfassend die Schritte: - Erzeugen texturfreier Darstellungen (SEM) entsprechend von einer vorgebbaren Kameraposition aus aufgenommenen Bildern der Szene (sz); - Trainieren des Objektdetektors (62) und/oder des maschinellen Lernsystems (63) abhängig von den erzeugten texturfreien Darstellungen (SEM). Dies kann insbesondere den Schritt umfassen, einen Trainingsdatensatzes bereitzustellen, der die erzeugten texturfreien Darstellungen und aus den jeweiligen Szenen generierte Sollwerten von Zuordnungen (also Identitäten) der in der texturfreien Darstellung aus der vorgebbaren Kameraposition sichtbaren Objekte umfasst.
Verfahren nach Anspruch 8 oder 9, wobei in der Szene (sz) enthaltene zeitliche Verläufe der kinetischen Größe durch zeitliche Verläufe eines entsprechenden Rucks (r) dargestellt sind.
Trainingsvorrichtung (140), welche eingerichtet ist, das Verfahren nach einem der Ansprüche 8 bis 10 auszuführen.
Computerprogramm, welches eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 4 oder 7 bis 9 auszuführen.
Maschinenlesbares Speichermedium (46, 146), auf dem das Computerprogramm nach Anspruch 12 gespeichert ist.