DE102019207947A1

DE102019207947A1 - Verfahren und Vorrichtung zum sicheren Vorhersagen einer Trajektorie

Info

Publication number: DE102019207947A1
Application number: DE102019207947.4A
Authority: DE
Inventors: Konrad Groh
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2020-12-03
Also published as: WO2020239632A1

Abstract

Computerimplementiertes Verfahren zum Klassifizieren zukünftiger Trajektorienverläufe von Objekten innerhalb eines von einem Sensor (30) erfassten Bildes (x), mit den Schritten:1) Ermitteln einer texturlosen Darstellung (SEM), insbesondere einer semantischen Segmentierung, des Bildes (x);2) Identifizieren von Objekten innerhalb des Bildes (x);3) Ermitteln von kinetischen Größen, also von Größen, die ihren kinetischen Zustand charakterisieren, wie insbesondere aktuelle kinetische Größen, der identifizierten Objekte; und4) Zuordnen der ermittelten kinetischen Größen der identifizierten Objekte zu einer Klasse einer vorgebbaren Mehrzahl von Klassen.

Description

Die Erfindung betrifft einen Verfahren zum Klassifizieren zukünftiger Trajektorienverläufe von Objekten innerhalb eines von einem Sensor erfassten Bildes, einen Intentionsschätzer zum Ausführen dieses Verfahrens, ein Verfahren zum Trainieren des Intentionsschätzers, ein Computerprogramm und ein maschinenlesbares Speichermedium.
Stand der Technik
Aus der nicht vorveröffentlichten DE 10 2017 223 264.1 ist ein Verfahren zum Detektieren eines Objekts in einem bereitgestellten Eingangssignal, wobei abhängig von dem bereitgestellten Eingangssignal ein Objekt detektiert wird und wobei eine Ansteuerung eines Aktors abhängig von der Detektion des Objekts erfolgt.
Vorteile der Erfindung
Eine Herausforderung bei der sicheren Klassifikation von Videoaufnahmen einer Szene ist es, sichere Prognosen über einen zukünftigen zeitlichen Verlauf von Trajektorien in den Objekten der Szene zu erstellen, also mithin eine Intention der Objekte der Szene zu ermitteln.
Dies ermöglicht zum Training eine Vielzahl von Trainingsdaten, die als reale aufgenommene Daten oft nicht in der erforderlichen Variabilität zur Verfügung stehen, um sicherstellen zu können, dass alle möglichen Konstellationen abdeckt sind.
Das Verfahren mit den Merkmalen des unabhängigen Anspruch 1 hat demgegenüber den Vorteil, dass es sich mit künstlich, also auf einem Computer, generierten Testdaten trainieren lässt, sodass sich mit Leichtigkeit eine große Vielzahl Trainingsdaten bereitstellen lässt.
Weitere Aspekte der Erfindung sind Gegenstand der nebengeordneten Ansprüche. Vorteilhafte Weiterbildungen sind Gegenstand der abhängigen Ansprüche.
Offenbarung der Erfindung
In einem ersten Aspekt betrifft die Erfindung ein computerimplementiertes Verfahren zum Klassifizieren zukünftiger Trajektorienverläufe von Objekten innerhalb eines von einem Sensor erfassten Bildes, mit den Schritten:

1) Ermitteln einer texturlosen Darstellung, insbesondere einer semantischen Segmentierung, des Bildes;
2) Identifizieren von Objekten innerhalb des Bildes, insbesondere mittels der texturlosen Darstellung;
3) Ermitteln von kinetischen Größen, also von Größen, die ihren kinetischen Zustand charakterisieren, wie insbesondere aktuelle kinetische Größen, der identifizierten Objekte; und
4) Zuordnen der ermittelten kinetischen Größen der identifizierten Objekte zu einer Klasse einer vorgebbaren Mehrzahl von Klassen.

Unter kinetischen Größen eines Objekts können Positionen und Geschwindigkeiten verstanden werden, die es erlauben, eine Bewegung des Objektes als starrer Körper insbesondere vollständig zu beschreiben, und sowohl translative als auch rotatorische Größen umfassen.
In einer Weiterbildung dieses Aspekts ist vorgesehen, dass die Ermittlung kinetischer Größen der identifizierten Objekte aus einer Mehrzahl von insbesondere unmittelbar aufeinander folgenden Bildern einer erfassten Sequenz von Bildern erfolgt. Die Sequenz kann beispielsweise durch aufeinander folgende Frames einer Videoaufnahme gegeben sein. Es ist dann vorteilhaft, wenn zu der Sequenz von Bildern eine Sequenz von texturlosen Darstellungen der jeweiligen Bilder ermittelt wird, und wobei die Ermittlung der kinetischen Größen der identifizierten Objekte aus der Sequenz texturloser Darstellungen erfolgt.
Liegt eine Sequenz von Bildern vor, ist es sinnvoll, eine Sequenz jeweiliger kinetischer Größen zu ermitteln, und wobei die Zuordnung zu der Klasse abhängig von der Sequenz der kinetischen Größen erfolgt. Es wurde nämlich erkannt, dass sich aus dem zurückliegenden zeitlichen Verlauf, also der zurückliegenden Sequenz kinetischer Größen Rückschlüsse auf einen zukünftigen Verlauf ziehen lassen können.
In einer weiteren Weiterbildung kann hierbei vorgesehen sein, dass die Zuordnung zu der Klasse mittels eine Mehrzahl von Clustern charakterisierenden Grö-ßen, insbesondere Clusterzentren und Clusterradien, erfolgt, welche mittels eines Clusteralgorithmus auf einem Cluster-Trainingsdatensatz ermittelt wurden. D.h. es kann vorgesehen sein, dass abhängig von den Clusterzentren und Clusterradien für einen bereitgestellten zeitlichen Verlauf kinetischer Größen derjenige der im Clustertraining ermittelten Cluster ausgewählt wird, dem der bereitgestellte zeitliche Verlauf kinetischer Größen am ehesten zugehörig ist. Einen solchen zugeordneten Cluster kann man als geschätzte Intention der detektierten Objekte bezeichnen.
In einem weiteren Aspekt betrifft die Erfindung einen Intentionsschätzer zum Klassifizieren zukünftiger Trajektorienverläufe von Objekten innerhalb des von dem Sensor erfassten Bildes, welcher eingerichtet ist, eines der vorgenannten Verfahren auszuführen, umfassend:

- einen Segmentierer, insbesondere ein maschinelles Lernverfahren wie ein neuronales Netz, das eingerichtet ist, die texturlose Darstellung des Bildes zu ermitteln;
- einen Objektdetektor, insbesondere ein maschinelles Lernverfahren wie ein neuronales Netz, der eingerichtet ist, Objekten innerhalb des Bildes zu identifizieren und kinetische Größen der identifizierten Objekte zu ermitteln; und
- einen Schätzer, der eingerichtet ist, die kinetischen Größen der identifizierten Objekte zu einer Klasse einer vorgebbaren Mehrzahl von Klassen zuzuordnen.

Mit anderen Worten kann der Objektdetektor eingerichtet sein, zu einem ihm zugeführten Bild eine Liste der darin identifizierten Objekte und der zugehörigen kinetischen Größen bereitzustellen.
In einem weiteren Aspekt betrifft die Erfindung ein computerimplementiertes Verfahren zum Trainieren dieses Intentionsschätzers, umfassend die Schritte:

- Generieren einer Mehrzahl von Szenen;
- Erzeugen texturfreier Darstellungen (wie z.B. semantischer Segmentierungen) entsprechend von einer vorgebbaren Kameraposition aus aufgenommenen Bildern der Szene;
- Bereitstellen eines Trainingsdatensatzes zum Trainieren des Intentionsschätzers, umfassend die erzeugten texturfreien Darstellungen und
1. a) aus den jeweiligen Szenen generierte Sollwerte der kinetischen Größen, und/oder
2. b) aus den jeweiligen Szenen generierte Sollwerten der in der texturfreien Darstellung aus der vorgebbaren Kameraposition sichtbaren Objekte.

Eine Szene umfasst hierbei insbesondere eine Beschreibung einer vorgebbaren Position einer Videokamera (wie sie beispielsweise in einem Kraftfahrzeug montiert sein kann) und eine (abstrakte) Beschreibung des Kraftfahrzeugs. Insbesondere kann es eine Topographie um die Videokamera, einen Verlauf einer Straße, Positionen und Orientierungen beweglicher oder unbeweglicher Objekte, Typenangaben der Objekte, einen zeitlichen Verlauf der Bewegungen der beweglichen Objekte und eine Position und Orientierung sowie eine Ego-Bewegung der Videokamera.
Aus dieser vorgebbaren Position der Videokamera heraus kann dann z.B. mit einem Rendering-Verfahren für eine vorgebbare Folge von Zeitpunkten jeweils eine texturfreie Darstellung der Szene aus Sicht der Videokamera erzeugt werden.
Mit einem solchen Datensatz ist es möglich, den Objektdetektor und somit auch den Intentionsschätzer mit synthetisch generierten (d.h. computergenerierten) Trainingsdaten zu trainieren.
Besonders vorteilhaft ist es hierbei, wenn die zeitlichen Verläufe der kinetischen Größe durch zeitliche Verläufe eines entsprechenden Rucks, also einer zeitlichen Ableitung einer Beschleunigung, gegeben sind. Durch Verwendung des Rucks ist es möglich, durch zeitliche Integration realistische zeitliche Verläufe der Objekte zu erhalten, ohne dass die zeitlichen Verläufe des Rucks selbst komplexen Anforderungen genügen müssen.
In weiteren Aspekten betrifft die Erfindung ein Computerprogramm, das eingerichtet, die obigen Verfahren auszuführen und ein maschinenlesbares Speichermedium, auf dem dieses Computerprogramm gespeichert ist.
Nachfolgend werden Ausführungsformen der Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen näher erläutert. In den Zeichnungen zeigen:

1 schematisch einen Aufbau einer Ausführungsform der Erfindung;
2 schematisch ein Ausführungsbeispiel zur Steuerung eines wenigstens teilautonomen Roboters;
3 schematisch ein Ausführungsbeispiel zur Steuerung eines Fertigungssystems;
4 schematisch ein Ausführungsbeispiel zur Steuerung eines Zugangssystems;
5 schematisch ein Ausführungsbeispiel zur Steuerung eines Überwachungssystems;
6 eine beispielhafte Segmentierung einer Szene;
7 beispielhaft eine zeitliche Abfolge von dargestellten semantischen Segmentierungen der Szene;
8 zeigt einen beispielhaften Verlauf eines Rucks;
9 einen beispielhaften Aufbau des Intentionsschätzers;
10 einen beispielhaften Aufbau des Klassifikators;
11 einen möglichen Aufbau einer Trainingsvorrichtung.

Beschreibung der Ausführungsbeispiele
1 zeigt einen Aktor 10 in seiner Umgebung 20 in Interaktion mit einem Steuerungssystem 40. In vorzugsweise regelmäßigen zeitlichen Abständen wird die Umgebung 20 mit einem Sensor 30 erfasst, der auch durch eine Mehrzahl von Sensoren gegeben sein kann. Das Sensorsignal S - bzw. im Fall mehrerer Sensoren je ein Sensorsignal S - des Sensors 30 wird an das Steuerungssystem 40 übermittelt. Das Steuerungssystem 40 empfängt somit eine Folge von Sensorsignalen S. Das Steuerungssystem 40 ermittelt hieraus Ansteuersignale A, welche an den Aktor 10 übertragen werden.
Das Steuerungssystem 40 empfängt die Folge von Sensorsignalen S des Sensors 30 in einer optionalen Empfangseinheit 50, die die Folge von Sensorsignalen S in eine Folge von Eingangsbildern x umwandelt (alternativ kann auch unmittelbar je das Sensorsignal S als Eingangsbild x übernommen werden). Das Eingangsbild x kann beispielsweise ein Ausschnitt oder eine Weiterverarbeitung des Sensorsignals S sein. Das Eingangsbild x kann beispielsweise Bilddaten oder Bilder umfassen, oder einzelne Frames einer Videoaufzeichnung. Mit anderen Worten wird Eingangsbild x abhängig von Sensorsignal S ermittelt. Die Folge von Eingangsbildern x wird dem Intentionsschätzer 60 zugeführt.
Intentionsschätzer 60 wird vorzugsweise parametriert durch Parameter ϕ, die in einem Parameterspeicher P hinterlegt sind und von diesem bereitgestellt werden.
Der Intentionsschätzer 60 ermittelt aus den Eingangsbildern x Ausgangsgrößen y. Ausgangsgrößen y werden einer optionalen Umformeinheit 80 zugeführt, die hieraus Ansteuersignale A ermittelt, welche dem Aktor 10 zugeführt werden, um den Aktor 10 entsprechend anzusteuern.
Der Aktor 10 empfängt die Ansteuersignale A, wird entsprechend angesteuert und führt eine entsprechende Aktion aus. Der Aktor 10 kann hierbei eine (nicht notwendigerweise baulich integrierte) Ansteuerlogik umfassen, welches aus dem Ansteuersignal A ein zweites Ansteuersignal ermittelt, mit dem dann der Aktor 10 angesteuert wird.
In weiteren Ausführungsformen umfasst das Steuerungssystem 40 den Sensor 30. In noch weiteren Ausführungsformen umfasst das Steuerungssystem 40 alternativ oder zusätzlich auch den Aktor 10.
In weiteren bevorzugten Ausführungsformen umfasst das Steuerungssystem 40 eine Ein- oder Mehrzahl von Prozessoren 45 und wenigstens ein maschinenlesbares Speichermedium 46, auf dem Anweisungen gespeichert sind, die dann, wenn sie auf den Prozessoren 45 ausgeführt werden, das Steuerungssystem 40 veranlassen, das erfindungsgemäße Verfahren auszuführen.
In alternativen Ausführungsformen ist alternativ oder zusätzlich zum Aktor 10 eine Anzeigeeinheit 10a vorgesehen.
2 zeigt, wie das Steuerungssystem 40 zur Steuerung eines wenigstens teilautonomen Roboters, hier eines wenigstens teilautonomen Kraftfahrzeugs 100, eingesetzt werden kann.
Bei dem Sensor 30 kann es sich beispielsweise um einen oder mehrere vorzugsweise im Kraftfahrzeug 100 angeordnete bildgebende Sensoren wie etwa einen oder mehrere Videosensoren handeln.
Der Intentionsschätzer 60 ist eingerichtet, aus den Eingangsbildern x eine Analyse der Szene y umfassend eine von den ermittelten Intentionen detektierter Objekte abhängige Prognose sicherer Bereiche zu ermitteln.
Bei dem vorzugsweise im Kraftfahrzeug 100 angeordneten Aktor 10 kann es sich beispielsweise um eine Bremse, einen Antrieb oder eine Lenkung des Kraftfahrzeugs 100 handeln. Das Ansteuersignal A kann dann derart ermittelt werden, dass der Aktor oder die Aktoren 10 derart angesteuert wird, dass das Kraftfahrzeug 100 beispielsweise eine Kollision mit den vom Intentionsschätzer 60 identifizierten Objekte verhindert, insbesondere, wenn es sich um Objekte bestimmter Klassen, z.B. um Fußgänger, handelt. Mit anderen Worten kann Ansteuersignal A abhängig von der ermittelten Klasse und/oder entsprechend der ermittelten Klasse und entsprechend der ermittelten Intention des Objekts ermittelt werden.
Alternativ kann es sich bei dem wenigstens teilautonomen Roboter auch um einen anderen mobilen Roboter (nicht abgebildet) handeln, beispielsweise um einen solchen, der sich durch Fliegen, Schwimmen, Tauchen oder Schreiten fortbewegt. Bei dem mobilen Roboter kann es sich beispielsweise auch um einen wenigstens teilautonomen Rasenmäher oder einen wenigstens teilautonomen Putzroboter handeln. Auch in diesen Fällen kann das Ansteuersignal A derart ermittelt werden, dass Antrieb und/oder Lenkung des mobilen Roboters derart angesteuert werden, dass der wenigstens teilautonome Roboter beispielsweise eine Kollision mit vom Intentionsschätzer 60 identifizierten Objekten verhindert.
Das Ansteuersignal A kann dann derart ermittelt werden, dass der Aktor oder die Aktoren 10 derart angesteuert wird, dass das Kraftfahrzeug 100 die anhand Ausgangsgröße y charakterisierten sicheren Bereiche nicht verlässt.
Alternativ oder zusätzlich kann mit dem Ansteuersignal A die Anzeigeeinheit 10a angesteuert werden, und beispielsweise die ermittelten sicheren Bereiche dargestellt werden. Auch ist es beispielsweise beim einem Kraftfahrzeug 100 mit nicht automatisierter Lenkung möglich, dass die Anzeigeeinheit 10a mit dem Ansteuersignal A derart angesteuert wird, dass sie ein optisches oder akustisches Warnsignal ausgibt, wenn ermittelt wird, dass das Kraftfahrzeug 100 droht, die sicheren Bereiche zu verlassen.
3 zeigt ein Ausführungsbeispiel, in dem das Steuerungssystem 40 zur Ansteuerung einer Fertigungsmaschine 11 eines Fertigungssystems 200 verwendet wird, indem ein diese Fertigungsmaschine 11 steuernder Aktor 10 angesteuert wird. Bei der Fertigungsmaschine 11 kann es sich beispielsweise um eine Maschine zum Stanzen, Sägen, Bohren und/oder Schneiden handeln.
Bei dem Sensor 30 kann es sich dann beispielsweise um einen optischen Sensor handeln, der z.B. Eigenschaften von Fertigungserzeugnissen 12 erfasst. Es ist möglich, dass diese Fertigungserzeugnisse 12 beweglich sind. Es ist möglich, dass der die Fertigungsmaschine 11 steuernde Aktor 10 abhängig von der ermittelten prognostizierten Bewegung, also der Intention, des Fertigungserzeugnisses 12 angesteuert wird, damit die Fertigungsmaschine 11 entsprechend einen nachfolgenden Bearbeitungsschritt dieses Fertigungserzeugnisses 12 ausführt.
4 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines Zugangssystems 300 eingesetzt wird. Das Zugangssystem 300 kann eine physische Zugangskontrolle, beispielsweise eine Tür 401 umfassen. Bei dem Sensor 30 kann es sich beispielsweise um einen optischen Sensor (beispielsweise zur Erfassung von Bild- oder Videodaten) handeln, der eingerichtet ist, eine Person zu erfassen. Mittels des Intentionsschätzers 60 kann dieses erfasste Bild interpretiert werden. Beispielsweise kann die Identität dieser und die Intention der Person ermittelt werden. Der Aktor 10 kann ein Schloss sein, dass abhängig vom Ansteuersignal A die Zugangskontrolle freigibt, oder nicht, beispielsweise die Tür 401 öffnet, oder nicht. Hierzu kann das Ansteuersignal A abhängig von der der Interpretation des Intentionsschätzers 60 gewählt werden, beispielsweise abhängig von der ermittelten Identität und/oder Intention der Person. An Stelle der physischen Zugangskontrolle kann auch eine logische Zugangskontrolle vorgesehen sein.
5 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines Überwachungssystems 400 verwendet wird. Von dem in 5 dargestellten Ausführungsbeispiel unterscheidet sich dieses Ausführungsbeispiel dadurch, dass an Stelle des Aktors 10 die Anzeigeeinheit 10a vorgesehen ist, die vom Steuerungssystem 40 angesteuert wird. Beispielsweise kann vom Intentionsschätzer 60 ermittelt werden, ob ein vom optischen Sensor aufgenommener Gegenstand verdächtig ist, und das Ansteuersignal A dann derart gewählt werden, dass dieser Gegenstand von der Anzeigeeinheit 10a farblich hervorgehoben dargestellt wird.
6 zeigt eine beispielhafte semantische Segmentierung einer Szene sz. Dargestellt ist eine Straße st, auf der sich ein erstes Objekt obj1 befindet. Eine solche Szene sz kann beispielsweise von einem Renderer erzeugt werden.
7 zeigt beispielhaft eine zeitliche Abfolge von dargestellten semantischen Segmentierungen der Szene sz. Dargestellt ist die Straße st, auf der sich das erste Objekt obj1 und ein zweites Objekt obj2 befindet. Wie ersichtlich bewegt sich das erste Objekt obj1 in der zeitlichen Abfolge der Bilder in 7a), 7b) und 7c) auf die Kamera zu, während sich das zweite Objekt obj2 von ihr wegbewegt.
8 zeigt einen beispielhaften Verlauf eines Rucks r eines der Objekte obj1, obj2 aus der in 7 dargestellten Szene über der Zeit t. Vorteilhafterweise sind Zeit t wie auch Ruck r in jeweils festen Intervallen diskretisiert. Durch die Vorgabe solcher zeitlichen Verläufe des Rucks r lässt sich der zeitliche Verlauf der Objekte in der in 7 dargestellten Szene beschreiben.
9 zeigt einen beispielhaften Aufbau des Intentionsschätzers 60. Ihm wird die Folge von Eingangsbildern x zugeführt, wo sie zunächst von einem Klassifikator 64 verarbeitet werden. Klassifikator 64 ermittelt aus der Folge von Eingangsbildern x eine Folge semantischer Segmentierungen SEM der Eingangsbilder x und eine Folge von Klassifikationen i eine Liste von Objekten obj, die in den Eingangsbildern x detektiert wurden. Diese werden einem Integrator 65 zugeführt, der hieraus die Ausgangsgröße y ermittelt. Die Klassifikation i kann z.B. mittels eines Clusteralgorithmus ermittelt worden sein, und damit ein mögliches prototypisches zukünftiges Verhalten des zugehörigen Objektes obj. Dieses prototypische Verhalten ist dann in der Ausgangsgröße y kodiert.
10 zeigt einen beispielhaften Aufbau des Klassifikators 64. Diesem wird eine Folge von Eingangsbildern x zu aufeinanderfolgenden Zeitpunkten k, k+1, k+2 zugeführt, also erstes Eingangsbild x_k+1 , zweites Eingangsbild x_k+2 und drittes Eingangsbild x_k+3. Der Klassifikator 64 umfasst einen Segmentierer 61, dem zum jeweiligen Zeitpunkt das entsprechende Eingangsbild x_k , x_k+1 , x_k+2 zugeführt wird und der daraus die zugehörige semantische Segmentierung SEM_k ,SEM_k+1, SEM_k+2 ermittelt. Diese wird dem Objektdetektor 62 zugeführt, der aus zwei aufeinanderfolgenden semantischen Segmentierungen die sichtbaren Objekte identifiziert und zu den identifizierten Objekten zugehörige kinetische Größen kin (also Position, Orientierung und Geschwindigkeiten sowie Typ), hier also erste kinetische Größe kin_k+1 und zweite kinetische Größe kin_k+2 . Diese Abfolge kinetischer Größen kin wird dem Schätzer 63 zugeführt, der hieraus die zugehörige Klassifikation i ermittelt.
Der Schätzer 63 kann mit einer Vielzahl bereitgestellter Trainingsverläufe kinetischer Größen kin trainiert werden. Mittels eines Clusteralgorithmus (z.B. k-means) werden die zeitlichen Verläufe geclustert, und zu den identifizierten Clustern diese Cluster charakterisierende Größen im Schätzer 63 gespeichert. Schätzer 63 kann dann für einen bereitgestellten zeitlichen Verlauf der kinetischen Größe kin z.B. diejenige charakterisierende Größe auswählen, die den geringsten Abstand zum zeitlichen Verlauf der kinetischen Größe kin aufweiset. Die Klassifikation i kann dann als ein diese charakterisierende Größe charakterisierende Zahl gewählt werden. Die im Clusteralgorithmus ermittelten charakterisierenden Grö-ßen sind vorzugsweise auch im Integrator 65 hinterlegt, um in die Ermittlung der Ausgangsgröße y einzugehen.
11 zeigt einen möglichen Aufbau einer Trainingsvorrichtung 140 zum Trainieren des Intentionsschätzers 60. Dieser wird mit Parametern ϕ parametriert, die von einem Parameterspeicher P bereitgestellt werden.
Trainingsvorrichtung 140 umfasst einen Generator 71, der eine Vielzahl von Szenen sz generiert. Diese werden einem Renderer 72 zugeführt, der hieraus eine Folge semantischer Segmentierungen SEM ermittelt. Diese werden unmittelbar dem Objektdetektor 62 des Intentionsschätzers 60 zugeführt. Im weiteren Verlauf ermittelt der Intentionsschätzer 60 aus der Folge semantischer Segmentierungen SEM die Folge kinetischer Größen kin, eine Liste detektierter Objekte obj und eine zugehörige Klassifikation i. Diese werden einem Vergleicher 74 zugeführt.
Mit der generierten Szene sz stellt Generator 71 auch die zugehörige Liste von Objekten als Soll-Objektliste objs und die zugehörige Liste kinetischer Größen als Sollwerte der kinetischen Größen kins dem Vergleicher 74 zugeführt.
Abhängig von einer Übereinstimmung zwischen Objekten obj und Soll-Objektliste objs sowie einer Übereinstimmung zwischen den kinetischen Größen kin und den entsprechenden Sollwerten kins werden neue Parameter ϕ' ermittelt, die dem Parameterspeicher P übermittelt werden und dort Parameter ϕ ersetzen.
Ist der Objektdetektor 62 beispielsweise ein neuronales Netz, kann dies durch Ermittlung von Gradienten zur Minimierung einer vorgebbaren Kostenfunktion und Rückwärtspropagation geschehen.
In diesem Fall kann zur Ermittlung der Übereinstimmung zwischen Objekten obj und Soll-Objektliste objs vorgesehen sein, die Objekte der Soll-Objektliste objs und die Objekte obj (inklusive Wahrscheinlichkeiten) zueinander zuzuordnen (d.h. ein Assoziationsproblem lösen). Anschließend wird ein Regressionsfehler der Parameter der Objekte zur Kostenfunktion hinzugefügt, durch deren Optimierung die neuen Parameter ϕ' ermittelt werden. Dieser Regressionsfehler kann z.B. durch eine Quadratsumme von Differenzen der Geschwindigkeiten, Beschleunigung und Positionen gegeben sein.
Schließlich benutzt man die Objektwahrscheinlichkeiten um Falschpositive / Falschnegative zu bewerten. Das heißt, es wurde ein Objekt erkannt obwohl kein Objekt da ist, und es wurde ein Objekt übersehen.
Im Ausführungsbeispiel kann von einer maximalen Anzahl von sichtbaren Objekten ausgegangen werden. Das heißt, es werden die Wahrscheinlichkeiten von einer vorgebbaren Anzahl, z.B. 100, möglicher Objekten in der Szene berechnet. Überschreitet diese Wahrscheinlichkeit dann einen vorgebbaren Schwellwert werden diese Kandidaten als identifizierte Objekte identifiziert, wodurch sichergestellt ist, dass kein Objekt übersehen wird.
Es ist dann möglich, dass für alle erkannten Objekte ein bestimmter Regressionsfehler durch die Objektwahrscheinlichkeit geteilt wird, für alle anderen fehlerhaft erkannten Objekte wird der Regressionsfehler mit der Wahrscheinlichkeit multipliziert.
Die vom Trainingssystem 140 ausgeführten Verfahren können als Computerprogramm implementiert auf einem maschinenlesbaren Speichermedium 146 hinterlegt sein und von einem Prozessor 145 ausgeführt werden.
Der Begriff „Computer“ umfasst beliebige Geräte zur Abarbeitung vorgebbarer Rechenvorschriften. Diese Rechenvorschriften können in Form von Software vorliegen, oder in Form von Hardware, oder auch in einer Mischform aus Software und Hardware.
Bezugszeichenliste

A: Ansteuersignal
P: Parameterspeicher
S: Sensorsignale
SEM: semantische Segmentierung
SEM_k: erste semantische Segmentierung
SEM_k+1: zweite semantische Segmentierung
SEM_k+2: dritte semantische Segmentierung
SEMs: Soll-Segmentierung
i: Klassifikation
kin: kinetische Größe
kins: Sollwert der kinetischen Größe
kin_k+1: erste kinetische Größe
kin_k+2: zweite kinetische Größe
obj: Objekt
objs: Soll-Objektliste
r: Ruck
st: Straße
sz: Szene
t: Zeit
x: Eingangsbild
x_k: erstes Eingangsbild
x_k+1: zweites Eingangsbild
x_k+2: drittes Eingangsbild
y: Ausgangsgröße
ϕ: Parameter
ϕ': neue Parameter
10: Aktor
10a: Anzeigeeinheit
11: Fertigungsmaschine
12: Fertigungserzeugnis
20: Umgebung
30: Sensor
40: Steuerungssystem
45: Prozessor
46: maschinenlesbares Speichermedium
50: Empfangseinheit
60: Intentionsschätzer
61: Segmentierer
62: Objektdetektor
63: Schätzer
64: Klassifikator
65: Integrator
71: Generator
72: Renderer
74: Vergleicher
80: Umformeinheit
100: Kraftfahrzeug
140: Trainingsvorrichtung
145: Prozessor
146: maschinenlesbares Speichermedium
200: Fertigungssystem
249: Nutzer
250: persönlicher Assistent
300: Zugangssystem
400: Überwachungssystem
401: Tür

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102017223264 [0002]

Claims

Computerimplementiertes Verfahren zum Klassifizieren zukünftiger Trajektorienverläufe von Objekten (obj) innerhalb eines von einem Sensor (30) erfassten Bildes (x), mit den Schritten: 1) Ermitteln einer texturlosen Darstellung (SEM), insbesondere einer semantischen Segmentierung, des Bildes (x); 2) Identifizieren von Objekten innerhalb des Bildes (x); 3) Ermitteln von kinetischen Größen (kin), also von Größen, die ihren kinetischen Zustand charakterisieren, wie insbesondere aktuelle kinetische Grö-ßen, der identifizierten Objekte; und 4) Zuordnen der ermittelten kinetischen Größen (kin) der identifizierten Objekte (obj) zu einer Klasse (i) einer vorgebbaren Mehrzahl von Klassen.
Verfahren nach Anspruch 1, wobei die Ermittlung kinetischer Größen der identifizierten Objekte aus einer Mehrzahl von insbesondere unmittelbar aufeinander folgenden Bildern einer erfassten Sequenz von Bildern erfolgt.
Verfahren nach Anspruch 2, wobei zu der Sequenz von Bildern (x) eine Sequenz von texturlosen Darstellungen (SEM) der jeweiligen Bilder (x) ermittelt wird, und wobei die Ermittlung der kinetischen Größen (kin) der identifizierten Objekte (obj) aus der Sequenz texturloser Darstellungen (SEM) erfolgt.
Verfahren nach Anspruch 2 oder 3, wobei zu der Sequenz von Bildern (x) eine Sequenz jeweiliger kinetischer Größen (kin) ermittelt wird, und wobei die Zuordnung zu der Klasse (i) abhängig von der Sequenz der kinetischen Größen (kin) erfolgt.
Verfahren nach Anspruch 4, wobei die Zuordnung zu der Klasse (i) mittels eine Mehrzahl von Clustern charakterisierenden Größen, insbesondere Clusterzentren und Clusterradien, erfolgt, welche mittels eines Clusteralgorithmus auf einem Cluster-Trainingsdatensatz ermittelt wurden.
Intentionsschätzer (60) zum Klassifizieren zukünftiger Trajektorienverläufe von Objekten innerhalb des von dem Sensor (30) erfassten Bildes (x), welcher eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 5 auszuführen, umfassend: - einen Segmentierer (61), der eingerichtet ist, die texturlose Darstellung (SEM) des Bildes (x) zu ermitteln; - einen Objektdetektor (62), der eingerichtet ist, Objekte (obj) innerhalb des Bildes (x) zu identifizieren und kinetische Größen (kin) der identifizierten Objekte (obj) zu ermitteln; und - einen Schätzer (63), der eingerichtet ist, die kinetischen Größen (kin) der identifizierten Objekte (obj) zu einer Klasse (i) einer vorgebbaren Mehrzahl von Klassen zuzuordnen.
Computerimplementiertes Verfahren zum Trainieren des Intentionsschätzers (60) nach Anspruch 6, umfassend die Schritte: - Generieren einer Mehrzahl von Szenen (sz); - Erzeugen texturfreier Darstellungen (SEM) entsprechend von einer vorgebbaren Kameraposition aus aufgenommenen Bildern der Szene (sz); - Bereitstellen eines Trainingsdatensatzes zum Trainieren des Intentionsschätzers (60), umfassend die erzeugten texturfreien Darstellungen (SEM) und a) aus den jeweiligen Szenen generierte Sollwerte der kinetischen Größen (kins), und/oder b) aus den jeweiligen Szenen generierte Sollwerten der in der texturfreien Darstellung (SEM) aus der vorgebbaren Kameraposition sichtbaren Objekte (objs).
Verfahren nach Anspruch 7, wobei mittels des Trainingsdatensatzes der Objektdetektor (62) trainiert wird.
Verfahren nach Anspruch 7 oder 8, wobei in den jeweiligen Szenen enthaltene zeitliche Verläufe der kinetischen Größe (kin) durch zeitliche Verläufe eines entsprechenden Rucks (r) dargestellt sind.
Trainingsvorrichtung (140), welche eingerichtet ist, das Verfahren nach einem der Ansprüche 7 bis 9 auszuführen.
Computerprogramm, welches eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 5 oder 7 bis 9 auszuführen.
Maschinenlesbares Speichermedium (46, 146), auf dem das Computerprogramm nach Anspruch 11 gespeichert ist.