DE102019209152A1

DE102019209152A1 - Verfahren und Vorrichtung zum sicheren Identifizieren von Objekten in Videobildern

Info

Publication number: DE102019209152A1
Application number: DE102019209152.0A
Authority: DE
Inventors: Konrad Groh
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2020-12-31
Also published as: US20200410294A1; US11580332B2; CN112131923A

Abstract

Computerimplementiertes Verfahren zum sicheren Identifizieren von Objekten in einer mittels eines bildgebenden Sensors (30) empfangenen Folge von Eingangsbildern (x), wobei mittels eines ersten maschinellen Lernsystems (NN1), insbesondere eines künstlichen neuronalen Netzes, aus den Eingangsbildern (x) jeweils Positionen von Lichtquellen im jeweiligen Eingangsbild (x) ermittelt werden, und wobei mittels eines zweiten maschinellen Lernsystems (NN2), insbesondere eines künstlichen neuronalen Netzes, aus der sich ergebenden Folge von Positionen (P1,P2) von Lichtquellen Objekte (i) aus der Folge von Eingangsbildern (x) identifiziert werden.

Description

Die Erfindung betrifft einen Verfahren zum Sicheren Identifizieren von Objekten innerhalb eines von einem bildgebenden Sensor erfassten Bildes, ein System das eingerichtet ist, dieses Verfahren auszuführen, Verfahren zum Trainieren dieses Systems, eine Trainingsvorrichtung, ein Computerprogramm und ein maschinenlesbares Speichermedium.
Stand der Technik
Aus der nicht vorveröffentlichten DE 10 2017 223 264.1 ist ein Verfahren zum Detektieren eines Objekts in einem bereitgestellten Eingangssignal, wobei abhängig von dem bereitgestellten Eingangssignal ein Objekt detektiert wird und wobei eine Ansteuerung eines Aktors abhängig von der Detektion des Objekts erfolgt.
Vorteile der Erfindung
Die Erfindung betrachtet einen visuellen Sensor, der bei auch bei schlecht ausgeleuchteten Szenen mit im Bild sichtbaren aktiven Lichtquellen Eingangsbilder für z.B. eine automatisierte Fahrfunktion liefert.
In solchen Fällen kann es sein, dass die Eingangsbilder schlecht ausgeregelt sind. Dies kann dazu führen, dass nur die im Bild sichtbaren Lichtquellen wie etwa Fahrzeugscheinwerfer, Laternen, Reklametafeln, und ähnliches, sichtbar sind.
Durch eine Normalisierung kann das Bild justiert werden, nur führt dies u.U. dazu, dass nun die Umgebung sichtbar ist, aber die Position der Lichtquellen nicht eindeutig bestimmbar ist.
Wird ein maschinelles Lernsystem angelernt, Objekte in den Eingangsbildern zu identifizieren, so ist es nicht auszuschließen, dass Lichtquellen mit Fahrzeugen und/oder andere Objekten assoziiert werden. Dies kann dazu führen, dass jede Lichtquelle automatisch zu einem detektierten Objekt führt. Dies führt zu dem Problem, dass Reflektionen, die z.B. durch nasse Fahrbahnen, spiegelnden Straßenbeton, Tunnelwände usw. entstanden sind, als Geisterobjekten erkannt werden.
Es praktischerweise nicht möglich, im Training des maschinellen Lernsystems einen Datensatz realer Trainingsdaten vorzusehen, in dem alle potentiellen Lichtquellen und Reflektionen enthalten sind.
Das Verfahren mit den Merkmalen des unabhängigen Anspruch 1 hat demgegenüber den Vorteil, dass Lichtintensitäten lokal angepasst werden, so dass es nicht zu Überblendungen kommt.
Weiterhin ist dieses Verfahren mit einer Simulation von bewegten und unbewegten Lichtquellen trainierbar, in der Reflektionen und Überdeckungen für alle relevanten Fälle synthetisch generiert werden können.
Weitere Aspekte der Erfindung sind Gegenstand der nebengeordneten Ansprüche. Vorteilhafte Weiterbildungen sind Gegenstand der abhängigen Ansprüche.
Offenbarung der Erfindung
In einem ersten Aspekt betrifft die Erfindung ein computerimplementiertes Verfahren zum sicheren Identifizieren von Objekten in einer mittels eines bildgebenden Sensors empfangenen Folge von Eingangsbildern, wobei mittels eines ersten maschinellen Lernsystems, insbesondere eines künstlichen neuronalen Netzes, aus den Eingangsbildern jeweils Positionen von Lichtquellen im jeweiligen Eingangsbild ermittelt werden, und wobei insbesondere mittels eines zweiten maschinellen Lernsystems wie beispielsweise eines künstlichen neuronalen Netzes aus der sich ergebenden Folge von Positionen von Lichtquellen Objekte aus der Folge von Eingangsbildern identifiziert werden.
Diese Verarbeitungssequenz hat den Vorteil, dass die komplexe Aufgabe, auch Lichtquellen von Reflektionen zu unterscheiden, und auch zumindest teilweise überdeckte Lichtquellen sicher zu identifizieren, in ein mit vertretbarem Aufwand trainierbares maschinelles Lernsystem verlagert werden kann. Aus den identifizierten Lichtquellen lassen sich dann besonders einfach die Objekte identifizieren. Auch diese Aufgabe ist wiederum besonders gut in ein leicht trainierbares maschinelles Lernsystem verlagerbar.
In einer Weiterbildung kann vorgesehen sein, dass insbesondere mittels des zweiten maschinellen Lernsystems neben den identifizierten Objekten auch Attribute insbesondere der identifizierten Objekte in der Folge von Eingangsbildern identifiziert werden. Dies lässt sich mit dem zweiten maschinellen Lernsystem besonders einfach umsetzen. Attribute können beispielsweise eine (3d-)Position des mittels des Sensors aufgenommenen Objekts, eine (3d-)Geschwindigkeit dieses Objekts, oder auch eine Eigengeschwindigkeit des Sensors sein, die gemeinsam mit der (3d-)Geschwindigkeit des Objekts eine Relativgeschwindigkeit zwischen Sensor und Objekt charakterisiert.
Alternativ oder zusätzlich kann vorgesehen sein, dass insbesondere mittels des ersten maschinellen Lernsystems auch eine Normalisierung des jeweiligen Eingangsbilds ermittelt wird. Eine Normalisierung kann insbesondere bedeuten, dass eine etwaige im Eingangsbild vorhandene Überblendung in der Normalisierung nicht mehr vorhanden ist. Mit einer solchen Normalisierung lässt sich besonders effizient eine weitere Informationsquelle bereitstellen, mit der Objekte ebenfalls identifiziert werden können. Es ist besonders vorteilhaft, dass das erste maschinellen Lernsystem sowohl die Normalisierung, also ein Entfernen von durch die Lichtquellen verursachten Überblendungen, also auch die Identifikation der Positionen der Lichtquellen durchführt, da der für die jeweilige der beiden Aktionen notwendige Informationsgehalt stark korreliert. Daher lässt sich dieses maschinelle Lernsystem besonders effizient trainieren.
Um diese Informationsquelle dann auch auszunutzen, kann in einer Weiterbildung dann vorgesehen sein, dass mittels eines dritten maschinellen Lernsystems aus der Normalisierung des jeweiligen Eingangsbilds Objekte im jeweiligen Eingangsbild und deren Positionen im Eingangsbild identifiziert werden. Eine Ausgestaltung als maschinelles Lernsystem ist hier besonders einfach, weil dieses besonders einfach trainierbar ist.
In einem weiteren Aspekt kann vorgesehen sein, dass eine Fusion der auf alternativen Wegen identifizierten Objekte mittels eines vierten maschinellen Lernsystems geschieht, d.h. dass dieses aus den mittels des dritten maschinellen Lernsystems identifizierten Objekten und aus den aus der Folge der Positionen der Lichtquellen identifizierten Objekten und insbesondere auch aus den identifizierten Attributen gesicherte Objekte im Eingangsbild identifiziert.
In weiteren Aspekten betrifft die Erfindung System, die eingerichtet ist, eines der vorgenannten Verfahren auszuführen, umfassend das erste maschinelle Lernsystem und das zweite maschinelle Lernsystem, optional auch das dritte maschinelle Lernsystem und/oder das vierte maschinelle Lernsystem.
Hieran anknüpfend ist in einem noch weiteren Aspekt ein computerimplementiertes Verfahren zum Trainieren eines dieser Systeme vorgesehen, wobei eine Szene umfassend Objekte und Lichtquellen an vorgebbaren Positionen im Raum generiert wird und aus der Szene eine Folge synthetischen Positionen von Lichtquellen generiert wird, wie sie von einer Kamera aus einer vorgebbaren Kameraposition aufgenommen würde, wobei das zweite maschinelle Lernsystem trainiert wird, aus den Positionen der Lichtquellen die Positionen der Objekte, so, wie sie von der Kamera aus der vorgebbaren Kameraposition aufgenommen würden, abzuleiten. Dies hat den Vorteil, dass sich Positionen von Lichtquellen auf einfachste Weise realistisch generieren lassen, und daher für eine Vielzahl denkbarer Szenarien besonders einfach Trainingsdaten erzeugbar sind, sodass das trainierte System besonders zuverlässig funktioniert.
In einer Weiterbildung kann vorgesehen sein, dass das erste maschinelle Lernsystem mit einem Datensatz trainiert wird, der Paare aus augmentierten Bildern und zugehörigen vorgebbaren Positionen umfasst, wobei die augmentierten Bilder erhalten wurden, indem zu realen Bildern an vorgebbaren Positionen Lichtquellen künstlich hinzugefügt werden, und wobei das erste maschinelle Lernsystem trainiert wird, aus den augmentierten Bildern die vorgebbaren Positionen zu ermitteln. Dies nutzt in besonders vorteilhafter Weise aus, dass zwar eine große Vielzahl von Bildern mit realen Lichtquellen schwer mit einer adäquaten Vielzahl von Reflektionen etc. erzeugbar sind, dass aber zu realen, d.h. mit einem Sensor aufgenommenen, Bildern auf vergleichsweise einfache Weise z.B. mittels Raytracing-Verfahren Lichtquellen künstlich hinzugefügt werden können.
In einer Weiterbildung hiervon kann vorgesehen sein, dass das erste maschinelle Lernsystem ferner mit einem Datensatz trainiert wird, der auch Paare von realen Bildern und zugehörigen augmentierten Bildern umfasst, und wobei das erste maschinelle Lernsystem trainiert wird, aus den augmentierten Bildern als normalisierte Daten die zugehörigen realen Bilder zu ermitteln. Hiermit lässt sich das erste maschinelle Lernsystem auf besonders einfache Weise so trainieren, dass es Lichtquellen aus Bildern herausrechnen kann.
In weiteren Aspekten betrifft die Erfindung ein Computerprogramm, das eingerichtet, die obigen Verfahren auszuführen und ein maschinenlesbares Speichermedium, auf dem dieses Computerprogramm gespeichert ist.
Nachfolgend werden Ausführungsformen der Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen näher erläutert. In den Zeichnungen zeigen:

1 schematisch einen Aufbau einer Ausführungsform der Erfindung;
2 schematisch ein Ausführungsbeispiel zur Steuerung eines wenigstens teilautonomen Roboters;
3 schematisch ein Ausführungsbeispiel zur Steuerung eines Fertigu ngssystems;
4 schematisch ein Ausführungsbeispiel zur Steuerung eines Zugangssystems;
5 schematisch ein Ausführungsbeispiel zur Steuerung eines Überwachungssystems;
6 eine beispielhafte Szene in der der ein Objekt mittels des Sensors erfasst wird;
7 eine beispielhafte Skizze der vom Sensor erfassten Szene;
8 einen beispielhaften Informationsfluss im oben genannten Systems;
9 einen möglichen Aufbau einer Trainingsvorrichtung.

Beschreibung der Ausführungsbeispiele
1 zeigt einen Aktor 10 in seiner Umgebung 20 in Interaktion mit einem Steuerungssystem 40. In vorzugsweise regelmäßigen zeitlichen Abständen wird die Umgebung 20 in einem Videosensor 30 erfasst, der auch durch eine Mehrzahl von Sensoren gegeben sein kann, beispielsweise eine Stereokamera. Das Sensorsignal S - bzw. im Fall mehrerer Sensoren je ein Sensorsignal S - des Sensors 30 wird an das Steuerungssystem 40 übermittelt. Das Steuerungssystem 40 empfängt somit eine Folge von Sensorsignalen S. Das Steuerungssystem 40 ermittelt hieraus Ansteuersignale A, welche an den Aktor 10 übertragen werden.
Das Steuerungssystem 40 empfängt die Folge von Sensorsignalen S des Sensors 30 in einer optionalen Empfangseinheit 50, die die Folge von Sensorsignalen S in eine Folge von Eingangsbildern x umwandelt (alternativ kann auch unmittelbar je das Sensorsignal S als Eingangsbild x übernommen werden). Das Eingangsbild x kann beispielsweise ein Ausschnitt oder eine Weiterverarbeitung des Sensorsignals S sein. Das Eingangsbild x umfasst einzelne Frames einer Videoaufzeichnung. Mit anderen Worten wird Eingangsbild x abhängig von Sensorsignal S ermittelt. Die Folge von Eingangsbildern x wird einem Objektidentifikationssystem 60 zugeführt.
Objektidentifikationssystem 60 wird vorzugsweise parametriert durch Parameter ϕ, die in einem Parameterspeicher P hinterlegt sind und von diesem bereitgestellt werden.
Das Objektidentifikationssystem 60 ermittelt aus den Eingangsbildern x Ausgangsgrößen y. Ausgangsgrößen y werden einer optionalen Umformeinheit 80 zugeführt, die hieraus Ansteuersignale A ermittelt, welche dem Aktor 10 zugeführt werden, um den Aktor 10 entsprechend anzusteuern. Ausgangsgröße y umfasst Informationen über Objekte, die der Videosensor 30 erfasst hat.
Der Aktor 10 empfängt die Ansteuersignale A, wird entsprechend angesteuert und führt eine entsprechende Aktion aus. Der Aktor 10 kann hierbei eine (nicht notwendigerweise baulich integrierte) Ansteuerlogik umfassen, welches aus dem Ansteuersignal A ein zweites Ansteuersignal ermittelt, mit dem dann der Aktor 10 angesteuert wird.
In weiteren Ausführungsformen umfasst das Steuerungssystem 40 den Sensor 30. In noch weiteren Ausführungsformen umfasst das Steuerungssystem 40 alternativ oder zusätzlich auch den Aktor 10.
In weiteren bevorzugten Ausführungsformen umfasst das Steuerungssystem 40 eine Ein- oder Mehrzahl von Prozessoren 45 und wenigstens ein maschinenlesbares Speichermedium 46, auf dem Anweisungen gespeichert sind, die dann, wenn sie auf den Prozessoren 45 ausgeführt werden, das Steuerungssystem 40 veranlassen, das erfindungsgemäße Verfahren auszuführen.
In alternativen Ausführungsformen ist alternativ oder zusätzlich zum Aktor 10 eine Anzeigeeinheit 10a vorgesehen.
2 zeigt, wie das Steuerungssystem 40 zur Steuerung eines wenigstens teilautonomen Roboters, hier eines wenigstens teilautonomen Kraftfahrzeugs 100, eingesetzt werden kann.
Bei dem Sensor 30 kann es sich beispielsweise um einen vorzugsweise im Kraftfahrzeug 100 angeordneten Videosensor handeln.
Das Objektidentifikationssystem 60 ist eingerichtet, aus den Eingangsbildern x Objekte sicher zu identifizieren.
Bei dem vorzugsweise im Kraftfahrzeug 100 angeordneten Aktor 10 kann es sich beispielsweise um eine Bremse, einen Antrieb oder eine Lenkung des Kraftfahrzeugs 100 handeln. Das Ansteuersignal A kann dann derart ermittelt werden, dass der Aktor oder die Aktoren 10 derart angesteuert wird, dass das Kraftfahrzeug 100 beispielsweise eine Kollision mit den vom Objektidentifikationssystem 60 sicher identifizierten Objekte verhindert, insbesondere, wenn es sich um Objekte bestimmter Klassen, z.B. um Fußgänger, handelt.
Alternativ kann es sich bei dem wenigstens teilautonomen Roboter auch um einen anderen mobilen Roboter (nicht abgebildet) handeln, beispielsweise um einen solchen, der sich durch Fliegen, Schwimmen, Tauchen oder Schreiten fortbewegt. Bei dem mobilen Roboter kann es sich beispielsweise auch um einen wenigstens teilautonomen Rasenmäher oder einen wenigstens teilautonomen Putzroboter handeln. Auch in diesen Fällen kann das Ansteuersignal A derart ermittelt werden, dass Antrieb und/oder Lenkung des mobilen Roboters derart angesteuert werden, dass der wenigstens teilautonome Roboter beispielsweise eine Kollision mit vom Objektidentifikationssystem 60 identifizierten Objekten verhindert.
Alternativ oder zusätzlich kann mit dem Ansteuersignal A die Anzeigeeinheit 10a angesteuert werden, und beispielsweise die ermittelten sicheren Bereiche dargestellt werden. Auch ist es beispielsweise beim einem Kraftfahrzeug 100 mit nicht automatisierter Lenkung möglich, dass die Anzeigeeinheit 10a mit dem Ansteuersignal A derart angesteuert wird, dass sie ein optisches oder akustisches Warnsignal ausgibt, wenn ermittelt wird, dass das Kraftfahrzeug 100 droht, mit einem der sicher identifizierten Objekte zu kollidieren.
3 zeigt ein Ausführungsbeispiel, in dem das Steuerungssystem 40 zur Ansteuerung einer Fertigungsmaschine 11 eines Fertigungssystems 200 verwendet wird, indem ein diese Fertigungsmaschine 11 steuernder Aktor 10 angesteuert wird. Bei der Fertigungsmaschine 11 kann es sich beispielsweise um eine Maschine zum Stanzen, Sägen, Bohren und/oder Schneiden handeln.
Bei dem Sensor 30 kann es sich dann beispielsweise um einen optischen Sensor handeln, der z.B. Eigenschaften von Fertigungserzeugnissen 12a, 12b erfasst. Es ist möglich, dass diese Fertigungserzeugnisse 12a, 12b beweglich sind. Es ist möglich, dass der die Fertigungsmaschine 11 steuernde Aktor 10 abhängig von einer Zuordnung der erfassten Fertigungserzeugnisse 12a, 12b angesteuert wird, damit die Fertigungsmaschine 11 entsprechend einen nachfolgenden Bearbeitungsschritt des richtigen der Fertigungserzeugnisses 12a, 12b ausführt. Es ist auch möglich, dass durch Identifikation der richtigen Eigenschaften desselben der Fertigungserzeugnisse 12a, 12b (d.h. ohne eine Fehlzuordnung) die Fertigungsmaschine 11 entsprechend den gleichen Fertigungsschritt für eine Bearbeitung eines nachfolgenden Fertigungserzeugnisses anpasst.
4 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines Zugangssystems 300 eingesetzt wird. Das Zugangssystem 300 kann eine physische Zugangskontrolle, beispielsweise eine Tür 401 umfassen. Videosensor 30 ist eingerichtet ist, eine Person zu erfassen. Mittels des Objektidentifikationssystem 60 kann dieses erfasste Bild interpretiert werden. Sind mehrere Personen gleichzeitig erfasst, kann durch eine Zuordnung der Personen (also der Objekte) zueinander beispielweise die Identität der Personen besonders zuverlässig ermittelt werden, beispielsweise durch eine Analyse ihrer Bewegungen. Der Aktor 10 kann ein Schloss sein, dass abhängig vom Ansteuersignal A die Zugangskontrolle freigibt, oder nicht, beispielsweise die Tür 401 öffnet, oder nicht. Hierzu kann das Ansteuersignal A abhängig von der der Interpretation des Objektidentifikationssystem 60 gewählt werden, beispielsweise abhängig von der ermittelten Identität der Person. An Stelle der physischen Zugangskontrolle kann auch eine logische Zugangskontrolle vorgesehen sein.
5 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines Überwachungssystems 400 verwendet wird. Von dem in 5 dargestellten Ausführungsbeispiel unterscheidet sich dieses Ausführungsbeispiel dadurch, dass an Stelle des Aktors 10 die Anzeigeeinheit 10a vorgesehen ist, die vom Steuerungssystem 40 angesteuert wird. Beispielsweise kann vom Objektidentifikationssystem 60 zuverlässig eine Identität der vom Videosensor 30 aufgenommenen Gegenstände ermittelt werden, um abhängig davon z.B. darauf zu schließen, welche verdächtig werden, und das Ansteuersignal A dann derart gewählt werden, dass dieser Gegenstand von der Anzeigeeinheit 10a farblich hervorgehoben dargestellt wird.
6 zeigt eine beispielhafte reale Szene, in der das mit Sensor 30 ausgestatte Kraftfahrzeug 100, auch als Ego-Fahrzeug bezeichnet, sich mit einer Ego-Geschwindigkeit v_e fortbewegt und ein Objekt i, im dargestellten Beispiel ein weiteres Kraftfahrzeug, aufnimmt, welches sich mit einer Geschwindigkeit v_i fortbewegt.
7 zeigt schematisch eine Ansicht dieses Objekts i, wie es vom Sensor 30 aufgenommen sein kann. Objekt i hat zwei Scheinwerfer, einen ersten an einer ersten Position P₁ und einen zweiten an einer zweiten Position P₂, die zu Überblendungen im Bild führen können. Objekt i befindet sich in einer Position P_i im aufgenommenen Bild.
8 zeigt beispielhaft den Informationsfluss im Objektidentifikationssystem 60. Zu aufeinanderfolgenden Zeitpunkten t_k, t_k+1 wird diesem jeweils ein Eingangsbild x zugeführt. Das erste maschinelle Lernsystem NN1 ermittelt hieraus Positionen P₁ ,P₂ (t_k) der Lichtquellen im Eingangsbild zum ersten Zeitpunkt t_k, und Positionen P₁ ,P₂ (t_k+1) der Lichtquellen im Eingangsbild zum späteren zweiten Zeitpunkt t_k+1. Diese Positionen P_1, P₂ der Lichtquellen können z.B. durch ein semantisch segmentiertes Bild beschrieben werden, welches die Klassen „Lichtquelle“ und „keine Lichtquelle“ hat. Beide ermittelte Positionen werden dem zweiten maschinellen Lernsystem NN2 zugeführt, das hieraus Objekt i, seine Position P_i , seine Geschwindigkeit v_i (bzw. eine Liste der Objekte und ihrer jeweiligen Attribute) und die Ego-Geschwindigkeit v_e ermittelt.
Das erste maschinelle Lernsystem NN1 ermittelt ferner aus dem Eingangsbild x dessen zugehörige Normalisierung xnorm und führt sie dem dritten maschinellen Lernsystem NN3 zu, das hieraus ebenfalls Objekt i und seine Position P_i (bzw. eine Liste der Objekte und ihrer jeweiligen Positionen) ermittelt.
Das vom zweiten maschinellen Lernsystem NN2 ermittelten Objekt i, seine Position P_i , seine Geschwindigkeit v_i (bzw. die Liste der Objekte und ihrer jeweiligen Attribute) und die Ego-Geschwindigkeit v_e sowie das vom dritten maschinellen Lernsystem NN3 ermittelte Objekt i, und seine Position P_i (bzw. die entsprechende Liste) werden dem vierten maschinellen Lernsystem NN4 übermittelt. Dieses ermittelt hieraus das Ausgangssignal y, welches Informationen über das gesicherte Objekt i und seine gesicherte Position P_i umfasst (bzw. eine Liste der Objekte und ihrer zugehörigen gesicherten Positionen).
Jedes dieser vier maschinellen Lernsysteme kann beispielsweise durch ein künstliches neuronales Netz gegeben sein. Das hier illustrierte Verfahren kann als Computerprogramm realisiert und im maschinenlesbaren Speichermedium 46 abgespeichert sein.
9 zeigt einen möglichen Aufbau einer Trainingsvorrichtung 140 zum Trainieren des Objektidentifikationssystems 60. Dieser wird mit Parametern ϕ parametriert, die von einem Parameterspeicher P bereitgestellt werden.
Trainingsvorrichtung 140 kann jedes der vier maschinellen Lernsystem NN1, ..., NN4 trainieren. Das jeweils zu trainierende maschinelle Lernsystem ist mit dem Bezugszeichen NN gekennzeichnet.
Trainingsvorrichtung 140 umfasst einen Bereitsteller 71, der Eingangsgrößen e und Soll-Ausgangsgrößen as bereitstellt. Eingangsgröße e wird dem zu trainierenden maschinellen Lernsystem NN zugeführt, das hieraus Ausgangsgrößen a ermittelt. Ausgangsgrößen a und Soll-Ausgangsgrößen as werden einem Vergleicher 74 zugeführt, der hieraus abhängig von einer Übereinstimmung den jeweiligen Ausgangsgrößen a und Soll-Ausgangsgrößen as neue Parameter ϕ' ermittelt, die dem Parameterspeicher P übermittelt werden und dort Parameter ϕ ersetzen.
Im ersten Schritt wird mit das erste maschinelle Lernsystem NN1 trainiert, welches die Position der Lichtquellen bestimmen und die Eingangsbilder normalisieren soll. Hierbei werden realen Bildern xr, die beispielsweise aus einer Datenbank bereitgestellt werden, an vorgebbaren Positionen P_1,s,P_2,s künstliche Lichtquellen hinzugefügt. So ergibt sich ein augmentiertes Bild xa. Dieses ist die Eingangsgröße e, die Ausgangsgröße a ist die Normalisierung und die ermittelten Positionen P₁ ,P₂ der Lichtquellen. Die Soll-Ausgangsgrößen sind das reale Bild xr und die vorgebbaren Positionen P_1,s,P_2,s. Die Übereinstimmung wird für die Bilder und die Positionen jeweils separat ermittelt. Das erste maschinelle Lernsystem NN1 wird dahin trainiert, dass die Positionen dieser Lichtquellen ausgegeben werden und die Bilder normalisiert werden, d.h. die Lichtquellen wieder entfernt werden.
Im zweiten Schritt wird das zweite maschinelle Lernsystem NN2 trainiert. Hierbei werden die Positionen von Objekten mit Lichtquellen (wie z.B. eines Fahrzeugs mit Scheinwerfern) mit Reflektionen von zeitlichen Abfolgen zufälliger Szenen sz erzeugt. Eingangsgröße e ist die Folge der Positionen von Lichtquellen zu zwei aufeinanderfolgenden Zeitpunkten, Soll-Ausgangsgröße as sind die Positionen und die Geschwindigkeiten der Objekte. Das zweite maschinelle Lernsystem NN2 wird dahingehend trainiert, dass es die Positionen und die Geschwindigkeiten der Objekte korrekt rekonstruiert.
Die Reihenfolgen von erstem Schritt und zweitem Schritt kann beliebig gewählt werden.
Im dritten Schritt wird das dritte maschinelle Lernsystem NN3 trainiert. Dies erfolgt mit Hilfe eines Datensatzes (X,Z) der Folgen von Eingangsbildern enthält X = ((x_1,0, x_1,1, ..., x_1,t), ..., (x_n,0, x_n,1, ..., x_n,t)) und zu jeder Folge (x_k,0,x_k,1, ...,x_k,t) eine Liste (z_k,0,z_k,1, ...,z_k,t) der darin enthalten Objekte mit Attributen Positionen, Geschwindigkeiten und die Ego-Geschwindigkeit. Die gleichen Objekte in verschiedenen Eingangsbildern sind einander zugeordnet. Weiterhin wird zu jedem Eingangsbild x eine Segmentierung bereitgestellt, die insbesondere die darin enthaltenen aktiven Lichtquellen enthält. Mit dem ersten maschinellen Lernsystem NN1 werden aus den Eingangsbildern x des Datensatzes zugehörige Normalisierungen xnorm ermittelt, die als Eingangsgröße e verwendet werden. Soll-Ausgangsgröße as sind die Objekte und ihre Positionen. Das dritte maschinelle Lernsystem NN3 soll trainiert werden, dass es Objekte korrekt erkennt und die Positionen zuverlässig rekonstruiert.
Hinsichtlich der Reihenfolge von Schritt 3 ist lediglich zu beachten, dass er nach erfolgtem Schritt 1 erfolgen sollte, damit das erste maschinelle Lernsystem NN1 bereits trainiert ist.
Im vierten Schritt wird das vierte maschinelle Lernsystem NN4 trainiert. Hierbei wird das gesamte Objektidentifikationssystem 60 herangezogen, dem das Eingangsbild x des beschriebenen Datensatzes (X,Z) zugeführt wird. Die Ausgangsgröße a ist hier die Ausgangsgröße y des Objektidentifikationssystems 60, als Soll-Ausgangsgröße as werden im Datensatz die entsprechenden Objekte und Attribute vorgehalten. Angepasst werden hier lediglich die Parameter ϕ, die das vierte maschinelle Lernsystem NN4 charakterisieren.
Hinsichtlich der Trainingsreihenfolge sollte dieser Schritt als letzter ausgeführt werden.
Die vom Trainingssystem 140 ausgeführten Verfahren können als Computerprogramm implementiert auf einem maschinenlesbaren Speichermedium 146 hinterlegt sein und von einem Prozessor 145 ausgeführt werden.
Der Begriff „Computer“ umfasst beliebige Geräte zur Abarbeitung vorgebbarer Rechenvorschriften. Diese Rechenvorschriften können in Form von Software vorliegen, oder in Form von Hardware, oder auch in einer Mischform aus Software und Hardware.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102017223264 [0002]

Claims

Computerimplementiertes Verfahren zum sicheren Identifizieren von Objekten in einer mittels eines bildgebenden Sensors (30) empfangenen Folge von Eingangsbildern (x), wobei mittels eines ersten maschinellen Lernsystems (NN1), insbesondere eines künstlichen neuronalen Netzes, aus den Eingangsbildern (x) jeweils Positionen (P₁,P₂) von Lichtquellen im jeweiligen Eingangsbild (x) ermittelt werden, und wobei insbesondere mittels eines zweiten maschinellen Lernsystems (NN2) aus der sich ergebenden Folge von Positionen (P₁,P₂) von Lichtquellen Objekte (i) aus der Folge von Eingangsbildern (x) identifiziert werden.
Verfahren nach Anspruch 1, wobei insbesondere mittels des zweiten maschinellen Lernsystems (NN2) neben den identifizierten Objekten (i) auch Attribute (v_i,P_i,v_e) der identifizierten Objekte (i) in der Folge von Eingangsbildern (x) identifiziert werden.
Verfahren nach Anspruch 1 oder 2, wobei insbesondere mittels des ersten maschinellen Lernsystems (NN1) auch eine Normalisierung (xnorm) des jeweiligen Eingangsbilds (x) ermittelt wird.
Verfahren nach Anspruch 3, wobei mittels eines dritten maschinellen Lernsystems (NN3) aus der Normalisierung (xnorm) des jeweiligen Eingangsbilds (x) Objekte im jeweiligen Eingangsbild (x) identifiziert werden.
Verfahren nach Anspruch 4, wobei mittels eines vierten maschinellen Lernsystems (NN4) aus den mittels des dritten maschinellen Lernsystems (NN3) identifizierten Objekten (i) und aus den aus der Folge der Positionen der Lichtquellen identifizierten Objekten (i) und insbesondere auch aus den identifizierten Attributen (v_i,P_i,v_e) gesicherte Objekte (i) im Eingangsbild (x) identifiziert werden.
System (60), das eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 5 auszuführen, umfassend das erste maschinelle Lernsystem (NN1) und das zweite maschinelle Lernsystem (NN2).
System (60) nach Anspruch 6 das eingerichtet ist, das Verfahren nach einem der Ansprüche 4 bis 5 auszuführen, umfassend das dritte maschinelle Lernsystem (NN3).
System (60) nach Anspruch 7, das eingerichtet ist, das Verfahren nach Anspruch 5 auszuführen, umfassend das vierte maschinelle Lernsystem (NN4).
Computerimplementiertes Verfahren zum Trainieren des Systems (60) nach einem der Ansprüche 6 bis 8, wobei eine Szene (sz) umfassend Objekte und Lichtquellen an vorgebbaren Positionen im Raum generiert wird und aus der Szene (sz) eine Folge synthetischer Positionen (P_1,s,P_2,s) von Lichtquellen generiert wird, wie sie von einer Kamera (30) aus einer vorgebbaren Kameraposition aufgenommen würde, wobei das zweite maschinelle Lernsystem (NN2) trainiert wird, aus der Folge synthetischer Positionen (P_1,s,P_2,s) der Lichtquellen die Position der Objekte abzuleiten.
Verfahren nach Anspruch 9, wobei das erste maschinelle Lernsystem (NN1) mit einem Datensatz trainiert wird, der Paare aus augmentierten Bildern (xa) und zugehörigen vorgebbaren Positionen (P_1,s,P_2,s) umfasst, wobei die augmentierten Bilder (xa) erhalten wurden, indem zu realen Bildern (xr) an vorgebbaren Positionen (P_1,s,P_2,s) Lichtquellen künstlich hinzugefügt werden, und wobei das erste maschinelle Lernsystem (NN1) trainiert wird, aus den augmentierten Bildern (xa) die vorgebbaren Positionen (P_1,s,P_2,5) zu ermitteln.
Verfahren nach Anspruch 10, wobei das erste maschinelle Lernsystem (NN1) ferner mit einem Datensatz trainiert wird, der auch Paare von realen Bildern (xr) und zugehörigen augmentierten Bildern (xa) umfasst, und wobei das erste maschinelle Lernsystem (NN1) trainiert wird, aus den augmentierten Bildern (xa) als normalisierte Daten die zugehörigen realen Bilder (xr) zu ermitteln.
Verfahren nach einem der Ansprüche 9 bis 11, wobei zunächst das erste maschinelle Lernsystem (NN1), vor dem dritten maschinellen Lernsystem (NN3) trainiert wird, und dann das vierte maschinelle Lernsystem (NN4) als letztes trainiert wird.
Trainingsvorrichtung (140), welche eingerichtet ist, das Verfahren nach einem der Ansprüche 9 bis 12 auszuführen.
Computerprogramm, welches eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 5 oder 9 bis 12 auszuführen.
Maschinenlesbares Speichermedium (46, 146), auf dem das Computerprogramm nach Anspruch 14 gespeichert ist.