-
Die vorliegende Erfindung betrifft die Erkennung der Bewegung von Objekten aus physikalischen Messdaten, die durch Beobachtung der Objekte mit mindestens einem Sensor gewonnen wurden.
-
Stand der Technik
-
Damit sich ein Fahrzeug zumindest teilweise automatisiert im Straßenverkehr bewegen kann, ist es erforderlich, das Umfeld des Fahrzeugs zu erfassen und Gegenmaßnahmen einzuleiten, falls eine Kollision mit einem Objekt im Umfeld des Fahrzeugs droht. Auch die Erstellung einer Umfeld-Repräsentation und Lokalisierung sind für sicheres automatisiertes Fahren notwendig.
-
Typischerweise wird das Umfeld des Fahrzeugs mit mindestens einem Sensor beobachtet, und aus den aufgenommenen Messdaten werden die daraus ersichtlichen Objekte mit einem trainierten Machine Learning-Modell klassifiziert. Für bewegte Objekte ist es ebenfalls wichtig, die Trajektorie zu kennen, die das Objekt verfolgt. Die
DE 10 2017 223 206 A1 offenbart eine Vorrichtung, die mittels eines künstlichen neuronalen Netzwerks linienförmige Trajektorien von Objekten ermittelt.
-
Weiterer allgemeiner Stand der Technik zur Objektklassifizierung und Bewegungsverfolgung ist in der
WO 2019/007 718 A1 , in der
US 9,760,806 B1 sowie in der
EP 1 449 743 B1 angegeben.
-
Offenbarung der Erfindung
-
Im Rahmen der Erfindung wurde ein Verfahren zur Charakterisierung bewegter Objekte aus physikalischen Messdaten entwickelt. Das Verfahren geht daovn aus, dass die physikalischen Messdaten mit mindestens einem Sensor zu mindestens zwei verschiedenen Zeitpunkten t1 und t2 aufgenommen wurden. Der genaue Mechanismus der Aufnahme ist unerheblich. Wichtig ist lediglich, dass die physikalischen Messdaten durch die Anwesenheit und/oder Bewegung der zu charakterisierenden Objekte in irgendeiner Form beeinflussbar sind. Beispielsweise hängt die Reflexion von Radar- oder LIDAR-Abfragestrahlung davon ab, welche Objekte im mit der Strahlung abgetasteten Bereich vorhanden sind und wie schnell sowie in welche Richtung sie sich bewegen. Auch ein mit einer optischen Kamera aufgenommenes Bild hängt davon ab, welche Objekte Licht welcher Wellenlängen in Richtung der Kamera reflektieren. Die Messdaten können in einem beliebigen Datentyp vorliegen, wie beispielsweise als in Pixel unterteiltes Bild oder als Punktwolke, die Messwerte in Kombination mit Koordinaten im dreidimensionalen Raum angibt.
-
Im Rahmen des Verfahrens werden die zu den verschiedenen Zeitpunkten t1 und t2 aufgenommenen Messdaten werden in einem Eingabe-Tensor zusammengefasst, wobei eine Dimension dieses Eingabe-Tensors die Zeit t repräsentiert. Wenn die Messdaten beispielsweise in Form zweidimensionaler Bilder vorliegen, die zu den verschiedenen Zeitpunkten können diese Bilder t1 und t2 aufgenommen wurden, können diese Bilder entlang einer dritten Dimension, die dann die Zeit t repräsentiert, übereinander gestapelt werden. Wenn die Messdaten beispielsweise Punkten im dreidimensionalen Raum zugeordnet sind, können dreidimensionale Quader, die diese Zuordnungen zu den einzelnen Zeitpunkten enthalten, entlang einer vierten Dimension, die dann die Zeit t repräsentiert, gestapelt werden.
-
Der Eingabe-Tensor wird durch mindestens eine gleitende Anwendung mindestens eines Faltungskerns zu einem Faltungs-Tensor gefaltet, in dem jeder Wert sowohl von zum Zeitpunkt t1 aufgenommenen Messdaten als auch von zum Zeitpunkt t2 aufgenommenen Messdaten abhängt. Der Faltungs-Tensor wird einem trainierten Machine Learning-Modell als Eingabe zugeführt und von diesem trainierten Machine Learning-Modell auf mindestens eine Klassifikation und/oder Regression abgebildet. Aus der Klassifikation und/oder Regression wird die Bewegung mindestens eines Objekts ausgewertet.
-
Unter einem Machine Learning-Modell wird insbesondere ein Modell angesehen, das eine mit anpassbaren Parametern parametrierte Funktion mit idealerweise großer Kraft zur Verallgemeinerung verkörpert. Die Parameter können beim Training eines Machine Learning-Modells insbesondere dergestalt angepasst werden, dass bei Eingabe von Lern-Eingangsgrößenwerten in das Modell die zugehörigen Lern-Ausgangsgrößenwerte möglichst gut reproduziert werden. Das Machine Learning-Modell kann insbesondere ein künstliches neuronales Netzwerk, KNN, beinhalten, und/oder es kann ein KNN sein.
-
Die gleitende Anwendung des Faltungskerns hat eine doppelte Wirkung. Die Dimensionalität des Eingabe-Tensors wird quantitativ verringert, so dass die für die Verarbeitung erforderliche Größe des Machine Learning-Modells, etwa eines künstlichen neuronalen Netzes (KNN), entsprechend vermindert wird. Gleichzeitig werden die Messdaten in einen neuen Raum transformiert, in dem räumliche Information an zeitliche Information gebunden ist. Es wurde erkannt, dass diese Transformation überraschenderweise zwei wesentliche Vorteile hat.
-
Zum einen lässt sich ein Machine Learning-Modell in diesem Raum so trainieren, dass es nicht nur die Bewegung als solche erkennt, sondern diese Erkennung unter die zusätzliche Randbedingung stellt, dass die Bewegung für den jeweiligen Objekttyp plausibel sein muss. Wenn beim Training Messdaten mit einer hinreichenden Variabilität sowohl hinsichtlich des Objekttyps als auch der Bewegungsarten als Trainingsdaten verwendet werden, lernt das Machine Learning-Modell beispielsweise automatisch, dass ein LKW sich beispielsweise nicht senkrecht nach oben bewegen kann. Ebenfalls lernt das Machine Learning-Modell beispielsweise, dass bestimmte Typen von Fahrzeugen einen Mindest-Wendekreis für Richtungsänderungen haben. Hierfür ist es nicht erforderlich, dem Machine Learning-Modell Details über Fahrzeugtypen als „ground truth“ zur Verfügung zu stellen.
-
Zum anderen wird die Möglichkeit eröffnet, neben der Bewegung auch andere Informationen über Objekte, wie beispielsweise eine Klassifikation des Objekttyps, in einem Arbeitsgang zu ermitteln. Die genannte Plausibilisierung wirkt dann auch in der umgekehrten Richtung. Das bedeutet, dass das Machine Learning-Modell, wenn es eine bestimmte Art der Bewegung mit hoher Konfidenz erkannt hat, bestimmte Objekttypen automatisch ausschließen kann. In Zweifelsfällen können sich die Bewegungserkennung und die Objekterkennung also gegenseitig unterstützen, um aus möglicherweise unvollständigen oder verrauschten Messdaten eine vollständige und zutreffende Einschätzung der durch die Messdaten repräsentierten Situation etwa für die Zwecke des zumindest teilweise automatisierten Fahrens zu ermitteln.
-
Die Klassifikation und/oder Regression kann beliebige Größen liefern, die sich im Hinblick auf die Bewegung auswerten lassen. Beispielsweise können die x-, y- und z-Komponenten ax, ay und az einer Beschleunigung, und/oder die x-, y- und z-Komponenten vx, vy und vz einer Geschwindigkeit, mit einer Regression, und/oder mit einer Klassifikation nach Wertebereichen, ermittelt werden.
-
Eine Klassifikation kann insbesondere einen oder mehrere „Softmax-Scores“ enthalten, die zu einer oder mehreren Klassen angibt, mit welcher Wahrscheinlichkeit und/oder Konfidenz die Zuordnung zu der jeweiligen Klasse zutreffend ist.
-
In einer vorteilhaften Ausgestaltung wird ein eindimensionaler Faltungskern gewählt, der sich entlang der Dimension des Eingabe-Tensors erstreckt, die die Zeit t repräsentiert. Der resultierende Faltungs-Tensor kann dann beispielsweise für jede Koordinate im dreidimensionalen Raum einen Wert enthalten, in dem die zeitliche Entwicklung der Messdaten speziell an diesem Ort im dreidimensionalen Raum zusammengefasst ist. Dabei ist eine eindimensionale Faltung vergleichsweise schnell.
-
In einer weiteren besonders vorteilhaften Ausgestaltung wird ein dreidimensionaler Faltungskern gewählt. Zugleich wird die Faltung ohne Auffüllen des Eingabe-Tensors (auch „padding“ genannt) durchgeführt. Ein dreidimensionaler Faltungskern ist aufwendiger zu berechnen, verknüpft dafür aber räumliche und zeitliche Information an mehreren Orten, so dass die einzelnen Werte des Faltungs-Tensors einen höheren Aussagewert haben. Der Verzicht auf das Auffüllen sorgt dafür, dass die Dimensionalität des Faltungs-Tensors, also die Anzahl der in ihm enthaltenen Werte, gegenüber dem Eingabe-Tensor reduziert wird.
-
Dabei können insbesondere beispielsweise mehrere Faltungen mit dem gleichen dreidimensionalen Faltungskern, und/oder mit verschiedenen dreidimensionalen Faltungskernen, nacheinander ausgeführt werden. Auf diese Weise lässt sich präzise steuern, in welchen Raum die im Eingabe-Tensor zusammengetragenen Messdaten transformiert werden. Insbesondere kann eine beliebige Balance zwischen der Genauigkeit, mit der Objekte und ihre Bewegungen erkannt werden, und der für diese Erkennung erforderlichen Zeit eingestellt werden. Dies ist insbesondere für das zumindest teilweise automatisierte Fahren wichtig, weil hier strikte Vorgaben bezüglich der Antwortzeiten bestehen und die an Bord eines Fahrzeugs verfügbare Rechenkapazität begrenzt ist.
-
In einer besonders vorteilhaften Ausgestaltung bildet das trainierte Machine Learning-Modell den Faltungs-Tensor auf eine Klassifikation dahingehend ab, welchem von mehreren kinematischen Modellen aus einem vorgegebenen Katalog die Bewegung mindestens eines Objekts folgt. Auf diese Weise kann der Raum der Möglichkeiten, in dem die gesuchte Bewegung dieses Objekts liegt, von vornherein eingeschränkt werden, so dass die Bewegung schneller erkannt werden kann. Dies ist besonders nützlich bei der Bewertung der Bewegungen anderer Verkehrsteilnehmer in einer Verkehrssituation, da im Straßenverkehr bestimmte Grundtypen von Bewegungen immer wieder vorkommen.
-
Vorteilhaft weist das kinematische Modell mindestens einen freien Parameter auf. Das trainierte Machine Learning-Modell kann dann den Faltungs-Tensor auf einen Regressionswert für diesen mindestens einen Parameter abbilden. Die Bewegung kann also qualitativ und quantitativ zugleich in einem Arbeitsgang charakterisiert werden. Hierbei kann das Machine Learning-Modell wiederum eine gegenseitige Plausibilisierung der Regression und der Klassifikation lernen. So sind beispielsweise Beschleunigungen und Geschwindigkeiten durch die Gegebenheiten des Straßenverkehrs sowie durch fahrphysikalische Grenzen, die auch vom Typ des Objekts abhängen, auf bestimmte Bereiche begrenzt. Diese Begrenzungen können automatisch gelernt werden, ohne dass sie explizit formuliert und als „ground truth“ zugeführt werden müssen.
-
Auf diese Weise wird insbesondere das fortwährende Updaten des Machine Learning-Modells vereinfacht. Derartige Updates werden immer wieder notwendig. So hat beispielsweise das Inkrafttreten der Elektrokleinstfahrzeuge-Verordnung den Straßenverkehr nicht nur um neue Objekttypen bereichert, sondern auch um neue charakteristische Bewegungsmuster, die man von bisherigen Fahrzeugtypen nicht kennt. Auch können sich durch Verordnung jederzeit räumliche Bereiche, in denen bestimmte Fahrzeuge mit bestimmten Bewegungsmustern genutzt werden dürfen, oder Tempolimits für bestimmte Fahrzeugtypen ändern. Indem das Machine Learning-Modell viele Zusammenhänge vollautomatisch lernen kann, müssen die hierfür verwendeten Trainingsdaten mit weniger „ground truth“ annotiert („gelabelt“) sein. Dieses Labeln ist vergleichsweise teuer, weil es vielfach menschliche Arbeit erfordert.
-
Das kinematische Modell kann beispielsweise eine Bewegung mit konstanter Geschwindigkeit umfassen. Änderungen der Geschwindigkeit, die es gemäß diesem Modell nominell nicht gibt, können dann beispielsweise als weißes Rauschen w(t) modelliert werden. Für die Beschleunigung a
x in einer Raumrichtung x kann also beispielsweise
angenommen werden.
-
Das kinematische Modell kann beispielsweise auch eine Bewegung mit konstanter Beschleunigung umfassen. Änderungen der Beschleunigung, die es gemäß diesem Modell nominell nicht gibt, können dann wiederum beispielsweise als weißes Rauschen w(t) modelliert werden. Für die Änderung ȧ
x einer Beschleunigung a
x in einer Raumrichtung x kann also beispielsweise
angenommen werden.
-
Das kinematische Modell kann beispielsweise auch eine Drehung mit konstanter Winkelgeschwindigkeit ω umfassen. Die Beschleunigungen ax und ay entlang der kartesischen Koordinatenrichtungen x und y können dann beispielsweise als
ax = -ωvy und ay = ωvx
angenommen werden.
-
Das kinematische Modell kann beispielsweise auch ein Singer-Beschleunigungsmodell mit einem Markov-Prozess 1. Ordnung umfassen. Dieses Modell beschreibt die zeitdiskrete Fortentwicklung der Beschleunigung a(k) von einem Zeitpunkt k auf einen Folgezeitpunkt k+1 als
-
Hierin beschreibt
ρ
m = exp(-βT) mit dem Sampling-Intervall T und
ein exponentiell abfallendes Verhalten mit der Zeitkonstanten τ
m. r(k) ist eine um Null herum normalverteile Zufallsvariable, und σ
m ist die Standardabweichung der Bewegung des Objekts.
-
In einer weiteren besonders vorteilhaften Ausgestaltung bildet das trainierte Machine Learning-Modell den Faltungs-Tensor auf eine Klassifikation und/oder Regression der Position, der Größe, und/oder der Orientierung, mindestens eines Objekts ab. Wenn jeweils nur eine grobe Unterteilung etwa in bestimmte Größenklassen gefragt ist, reicht jeweils eine Klassifikation. Eine genauere Ermittlung kann jeweils über eine Regression erfolgen.
-
In einer weiteren besonders vorteilhaften Ausgestaltung bildet das trainierte Machine Learning-Modell den Faltungs-Tensor auf eine Klassifikation des Typs des Objekts ab. Auf diese Weise kann insbesondere die zuvor beschriebene gegenseitige Plausibilisierung von Objekttypen einerseits und Bewegungsmustern andererseits ausgenutzt werden.
-
Wie zuvor erläutert, schließt die Abbildung des Faltungs-Tensors auf eine der zuvor genannten konkreten Klassifikationen und/oder Regressionen nicht aus, dass der Faltungs-Tensor im gleichen Arbeitsgang auch noch auf weitere konkrete Klassifikationen und/oder Regressionen abgebildet wird. Insbesondere können diese Abbildungen jeweils gemeinsam gelernt werden, so dass der zuvor beschriebene Effekt der gegenseitigen Plausibilisierung verschiedener ausgewerteter Informationen genutzt werden kann.
-
Nach dem zuvor Beschriebenen werden insbesondere vorteilhaft Messdaten gewählt, die durch physikalische Beobachtung des Umfelds eines Fahrzeugs mit mindestens einem Sensor gewonnen wurden. Aus mindestens einer Klassifikation und/oder Regression, auf die das trainierte Machine Learning-Modell den Faltungs-Tensor abbildet, und/oder aus einer hieraus ausgewerteten Bewegung, wird ein Ansteuersignal gebildet. Das Fahrzeug wird mit dem Ansteuersignal angesteuert.
-
Wie zuvor beschrieben, kann beispielsweise in einem Arbeitsgang ermittelt werden, ob die Trajektorie eines bewegten Objekts voraussichtlich die Trajektorie des eigenen Fahrzeugs schneidet und ob dem eigenen Fahrzeug hieraus möglicherweise Nachteile erwachsen. Auf der Basis dieser Beurteilung kann dann eine angemessene Reaktion ermittelt und das Fahrzeug entsprechend angesteuert werden.
-
Wenn beispielsweise erkannt wird, dass ein Tier sich auf die Fahrbahn zubewegt und vom eigenen Fahrzeug erfasst zu werden droht, dann hängt es entscheidend von der Art und Größe des Tieres ab, welche Reaktion angemessen ist. Für ein kleineres Tier, das das eigene Fahrzeug bei einem Aufprall voraussichtlich nicht oder nur unwesentlich beschädigt, ist beispielsweise eine Vollbremsung, die einen Auffahrunfall mit einem nachfolgenden Fahrzeug provoziert, möglicherweise nicht angemessen, weil der dann entstehende Schaden viel größer wäre. Anders kann es sich bei einem größeren, massiveren Tier verhalten.
-
In einer weiteren besonders vorteilhaften Ausgestaltung werden Messdaten gewählt, die durch physikalische Beobachtung eines zu sichernden Bereichs mit mindestens einem Sensor aufgenommen wurden. Aus mindestens einer Klassifikation und/oder Regression, auf die das trainierbare Machine Learning-Modell den Faltungs-Tensor abbildet, und/oder aus einer hieraus ausgewerteten Bewegung, wird ein Ansteuersignal gebildet. Ein Alarmgeber, ein Benachrichtigungsgerät, ein Aufzeichnungsgerät, und/oder eine Protokolliervorrichtung, wird mit dem Ansteuersignal angesteuert. Das Aufzeichnungsgerät kann beispielsweise die Messdaten, wie etwa Kamerabilder, aufzeichnen. Die Protokolliervorrichtung kann beispielsweise die Tatsache, dass ein sicherheitsrelevanter Vorfall stattgefunden hat, mit Datum und Uhrzeit protokollieren.
-
Analog zur Anwendung in einem Fahrzeug ist bei der Überwachung zu sichernder Bereiche nicht nur wichtig, ob sich ein Objekt im zu sichernden Bereich bewegt, sondern auch, ob die Kombination aus dieser Bewegung und dem Objekttyp eine Gefahr für den zu sichernden Bereich verheißt. So ist beispielsweise eine Person, die sich im Umfeld eines zu sichernden Gebäudes bewegt, nicht immer für das Gebäude gefährlich. Wenn die Person schnell am Gebäude vorbeigeht, ist es unwahrscheinlich, dass sie die Absicht verfolgt, in das Gebäude einzubrechen oder dem Gebäude in anderer Weise zu schaden. Wenn die Person hingegen langsam auf das Gebäude zu schleicht und die Bewegung weiterhin Verhaltensweisen aufweist, mit denen die Vermeidung einer Entdeckung beabsichtigt wird, dann verfolgt diese Person möglicherweise böse Absichten.
-
Mit dem beschriebenen Verfahren kann also zielgenauer gesteuert werden, ob in einer bestimmten Situation Alarm gegeben wird, so dass mehr potentiell gefährliche Situationen erkannt werden und zugleich das Risiko von Fehlalarmen vermindert ist. Fehlalarme verursachen Kosten für nutzlos herbeigerufene Einsatzkräfte und führen dazu, dass der Alarm irgendwann nicht mehr ernst genommen wird.
-
Das beschriebene Verfahren setzt voraus, dass ein trainiertes Machine Learning-Modell zur Verfügung steht. Daher stellt die Erfindung auch ein Verfahren für dieses Training bereit.
-
Bei diesem Verfahren werden reale und/oder simulierte Lern-Messdaten, die sich auf mindestens zwei verschiedene Zeitpunkte t1 und t2 beziehen, in einem Lern-Eingabe-Tensor zusammengefasst. Eine Dimension dieses Lern-Eingabe-Tensors repräsentiert die Zeit.
-
Der Lern-Eingabe-Tensor wird durch mindestens eine gleitende Anwendung mindestens eines Faltungskerns zu einem Lern-Faltungs-Tensor gefaltet, in dem jeder Wert sowohl von zum Zeitpunkt t1 gehörenden Lern-Messdaten als auch von zum Zeitpunkt t2 gehörenden Lern-Messdaten abhängt. Hierfür können insbesondere alle im Zusammenhang mit dem zuvor beschriebenen Verfahren diskutierten Faltungskerne genutzt werden, da für das Training und für die spätere Charakterisierung bewegter Objekte jeweils die gleiche Faltung bzw. Abfolge von Faltungen verwendet werden sollte. Die beim Training verwendete Faltung legt den Arbeitsraum fest, auf den das Machine Learning-Modell trainiert wird, und das Trainingsergebnis ist nicht zwangsläufig in andere Arbeitsräume übertragbar.
-
Der Lern-Faltungs-Tensor wird dem Machine Learning-Modell als Eingabe zugeführt und von dem Machine Learning-Modell auf mindestens eine Klassifikation und/oder Regression abgebildet. Aus der Klassifikation und/oder Regression wird die Bewegung mindestens eines Objekts ausgewertet.
-
Es wird mit einer Kostenfunktion bewertet, inwieweit die ausgewertete Bewegung mit den Lern-Messdaten im Einklang steht, und/oder inwieweit die Klassifikation und/oder Regression mit sonstigen zu den Lern-Messdaten gehörenden Soll-Ergebnissen („ground truth“) im Einklang steht. Auf der Basis dieser Bewertung werden Parameter, die das Verhalten des Machine Learning-Modells charakterisieren, optimiert. Wenn das Machine Learning-Modell beispielsweise ein künstliches neuronales Netzwerk, KNN, umfasst, dann können die Parameter beispielsweise Gewichte umfassen, mit denen die zu einem Neuron oder einer vergleichbaren Verarbeitungseinheit geführten Eingaben zu einer Aktivierung diese Neurons, bzw. dieser vergleichbaren Verarbeitungseinheit, verrechnet werden.
-
Ziel der Optimierung ist, dass bei erneuter Anwendung des Machine Learning-Modells auf den Lern-Faltungs-Tensor und Auswertung der Bewegung aus der Klassifikation und/oder Regression die Bewertung durch die Kostenfunktion voraussichtlich besser wird. Eine solche Optimierung kann beispielsweise umfassen, einen mehrdimensionalen Raum der Parameter systematisch zu durchsuchen. Es kann aber auch beispielsweise jeweils auf der Basis des aktuellen Informationsstandes gezielt eine Richtung im Raum der Parameter festgelegt werden, in der eine Änderung voraussichtlich Erfolg verspricht. Hierfür kann beispielsweise ein Gradientenabstiegsverfahren genutzt werden. Es ist im Rahmen der Optimierung nicht garantiert, dass jede vorgenommene Änderung der Parameter tatsächlich zu einer Verbesserung der Bewertung durch die Kostenfunktion führt. Vielmehr gehört es zur Optimierung dazu, dass sich eingeschlagene Wege auch im Nachhinein als Irrwege erweisen können.
-
In einer besonders vorteilhaften Ausgestaltung beinhaltet die Kostenfunktion eine Summe aus mehreren Beiträgen, die jeweils von einem Vergleich der ausgewerteten Bewegung mit den zu einem bestimmten Zeitpunkt t1 , t2 gehörenden Lern-Messdaten abhängen. Dies begünstigt ein Trainingsergebnis, das zu einer für alle Zeitpunkte t1 , t2 zutreffenden Auswertung der Bewegung führt. Das Training driftet also nicht dahingehend ab, dass für einen Teil des untersuchten Zeitraums eine perfekte Erkennung geliefert wird um den Preis, dass die Erkennung für die restliche Zeit gar nicht zutreffend ist. Der Vergleich der Bewegung mit den Messdaten zu einem bestimmten Zeitpunkt t1 , t2 kann insbesondere beispielsweise eine Bewertung umfassen, inwieweit die Bewegung im Lichte speziell dieser Messdaten plausibel erscheint.
-
Die Kostenfunktion kann aber alternativ oder in Kombination beispielsweise einen Beitrag beinhalten, der ein Maß dafür ist, inwieweit das Machine Learning-Modell den Lern-Faltungs-Tensor zutreffend auf eine Klassifikation des kinematischen Modells aus einem vorgegebenen Katalog von mehreren kinematischen Modellen abgebildet hat.
-
In einer weiteren besonders vorteilhaften Ausgestaltung beinhaltet die Kostenfunktion mindestens einen Beitrag, der ein Maß für die Übereinstimmung einer mit dem Machine Learning-Modell ausgewerteten Position, Größe und/oder Orientierung mindestens eines Objekts mit einer bekannten Soll-Position, Soll-Größe bzw. Soll-Orientierung ist. Auf diese Weise wird die zuvor beschriebene gegenseitige Plausibilisierung dieser Größen mit der aus dem gleichen Lern-Faltungstensor ermittelten Bewegung gestärkt.
-
Beispielsweise können Beiträge l
xund l
y zur Kostenfunktion für die Positionskomponenten x und y sein:
-
Hierin bezeichnet das Superskript „GT“ für „ground truth“ bekannte Lern-Werte für die Positionskomponenten x und y. wGT ist die wahre Breite des Objekts, und hGT ist die wahre Höhe des Objekts. Die Beiträge sind linear in der jeweiligen Positionsabweichung, und diese Positionsabweichung wird sinnvollerweise ins Verhältnis zur Größe des Objekts gesetzt.
-
Beispielsweise können Beiträge s
w und s
h zur Kostenfunktion für die Breite w bzw. die Höhe h des Objekts sein:
-
Beispielsweise können Beiträge a
sin und a
cos zur Kostenfunktion für die Orientierung θ des Objekts sein:
In einer weiteren besonders vorteilhaften Ausgestaltung beinhaltet die Kostenfunktion mindestens einen Beitrag, der ein Maß für die Übereinstimmung einer mit dem Machine Learning-Modell ausgewerteten Klassifikation eines Objekts, und/oder eines kinematischen Modells der Bewegung eines Objekts, mit einer bekannten Soll-Klassifikation des Objekts, bzw. des kinematischen Modells, ist. Hierbei können insbesondere beispielsweise qualitativ unterschiedliche Arten von Abweichungen verschieden hart „bestraft“ werden, je nachdem, wie nachteilig sie sich auf die vorgesehene Anwendung, wie beispielsweise das zumindest teilweise automatisierte Fahren, auswirken.
-
Das Ergebnis des Trainings ist ein Parametersatz von Parametern, die das Verhalten des trainierten Machine Learning-Moduls charakterisieren. Wer im Besitz dieses Parametersatzes ist, kann das Machine Learning-Modul unmittelbar nutzen, ohne es zuerst selbst trainieren zu müssen. Daher ist dieser Parametersatz ein eigenständig verkaufbares Produkt.
-
Die Verfahren können insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, eines der beschriebenen Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
-
Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Parametersatz, und/oder mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
-
Weiterhin kann ein Computer mit dem Parametersatz, mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
-
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
-
Figurenliste
-
Es zeigt:
- 1 Ausführungsbeispiel des Verfahrens 100 zur Charakterisierung bewegter Objekte 1;
- 2 Ausführungsbeispiel des Trainingsverfahrens 200.
-
1 ist ein Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zur Charakterisierung bewegter Objekte 1. Von den Objekten 1 werden mit mindestens einem Sensor 2 physikalische Messdaten 2a aufgenommen, wie beispielsweise in Schritt 105a durch physikalische Beobachtung des Umfelds eines Fahrzeugs 50 oder in Schritt 105b durch physikalische Beobachtung eines zu sichernden Bereichs.
-
Die zu verschiedenen Zeitpunkten t1 und t2 aufgenommenen Messdaten 2a werden in Schritt 110 zum Eingabe-Tensor 3 zusammengefasst. Eine Dimension des Eingabe-Tensors repräsentiert die Zeit t. Durch gleitende Anwendung mindestens eines Faltungskerns 4 wird der Eingabe-Tensor 3 in Schritt 120 zu einem Faltungs-Tensor 5 gefaltet. Innerhalb des Kastens 120 sind beispielhafte Möglichkeiten für die Faltung angegeben.
-
Gemäß Block 121 kann ein eindimensionaler Faltungskern gewählt werden, der sich entlang derjenigen Dimension des Eingabe-Tensors 3 erstreckt, der die Zeit t repräsentiert.
-
Gemäß Block 122 kann ein dreidimensionaler Faltungskern 4 gewählt werden. Die Faltung wird dann gemäß Block 123 ohne Auffüllen des Eingabe-Tensors 3 durchgeführt, damit die Anzahl der Werte bei der Faltung reduziert wird.
-
Gemäß Block 124 können mehrere Faltungen mit dem gleichen dreidimensionalen Faltungskern 4 oder mit unterschiedlichen dreidimensionalen Faltungskernen 4 nacheinander durchgeführt werden.
-
In Schritt 130 wird der Faltungs-Tensor 5 einem trainierten Machine Learning-Modell 6 als Eingabe 61 zugeführt. Das Machine Learning-Modell 6 bildet in Schritt 140 den Faltungs-Tensor 5 auf mindestens eine Klassifikation 63a, und/oder auf mindestens eine Regression 63b, ab. Innerhalb des Kastens 140 sind verschiedene beispielhafte Möglichkeiten hierfür angegeben.
-
Gemäß Block 141 kann das Machine Learning-Modell 6 eine Klassifikation 63a dahingehend liefern, welchem von mehreren kinematischen Modellen aus einem vorgegebenen Katalog die Bewegung 1a mindestens eines Objekts 1 folgt. Dieses kinematische Modell kann gemäß Block 142 mindestens einen freien Parameter aufweisen, der vom Machine Learning-Modell 6 als Regressionswert 63b geliefert wird.
-
Gemäß Block 143 kann das Machine Learning-Modell 6 eine Klassifikation 63a und/oder Regression 63b der Position, der Größe, und/oder der Orientierung, mindestens eines Objekts 1 liefern. Wie zuvor erläutert, kann es sich beispielsweise nach der benötigten Genauigkeit richten, ob eine Regression 63b nötig ist oder ob eine mehr oder weniger grobe Klassifikation 63a ausreicht.
-
Gemäß Block 144 kann das Machine Learning-Modell 6 auf den Typ des Objekts 1 selbst klassifizieren. Wie zuvor erläutert, kann dies insbesondere genutzt werden, um den Typ des Objekts 1 einerseits und seine Bewegung 1a andererseits automatisch gegeneinander zu plausibilisieren.
-
In Schritt 150 wird aus einer oder mehreren Klassifikationen 63a und/oder Regressionen 63b die Bewegung 1a mindestens eines Objekts 1 ausgewertet. Diese Informationen, sowie auch die Klassifikationen 63a und/oder Regressionen 63b selbst, können für die Ansteuerung technischer Systeme genutzt werden und somit direkt deren Funktion verbessern. In 1 sind hierfür zwei Beispiele angegeben.
-
Wenn die Messdaten 2a aus dem Umfeld eines Fahrzeugs 50 stammen, dann kann in Schritt 160 ein für das Fahrzeug 50 spezifisches Ansteuersignal 160a gebildet werden. In Schritt 170 kann das Fahrzeug 50 mit diesem Ansteuersignal 160a angesteuert werden.
-
Wenn die Messdaten 2a aus der Beobachtung eines zu sichernden Bereichs stammen, kann in Schritt 180 ein für ein System zur Überwachung eines zu sichernden Bereichs spezifisches Ansteuersignal 180a gebildet werden. In Schritt 190 kann ein Alarmgeber 60, ein Benachrichtigungsgerät 70, ein Aufzeichnungsgerät 80, und/oder eine Protokolliervorrichtung 90, mit diesem Ansteuersignal 180a angesteuert werden.
-
2 ist ein Ablaufdiagramm eines Ausführungsbeispiels des Trainingsverfahrens 200.
-
In Schritt 210 werden reale und/oder simulierte Messdaten 2a*, die sich auf mindestens zwei verschiedene Zeitpunkte t1 und t2 beziehen, in einem Lern-Eingabe-Tensor 3* zusammengefasst. Eine Dimension dieses Lern-Eingabe-Tensors 3* repräsentiert die Zeit t.
-
Der Lern-Eingabe-Tensor 3* wird durch mindestens eine gleitende Anwendung mindestens eines Faltungskerns 4 zu einem Lern-Faltungs-Tensor 5* gefaltet. In diesem Lern-Faltungs-Tensor 5* hängt jeder Wert sowohl von zum Zeitpunkt t1 gehörenden Lern-Messdaten 2a* als auch von zum Zeitpunkt t2 gehörenden Lern-Messdaten 2a* ab.
-
In Schritt 230 wird der Lern-Faltungs-Tensor 5* dem Machine Learning-Modell 6 als Eingabe 61 zugeführt. Das Machine Learning-Modell 6 erzeugt hieraus in Schritt 240 mindestens eine Klassifikation 63a und/oder Regression 63b. In Schritt 250 wird aus der Klassifikation 63a und/oder Regression 63b die Bewegung 1a mindestens eines Objekts 1 ausgewertet.
-
Die Bewegung 1a, und/oder die mindestens eine Klassifikation 63a und/oder Regression 63b selbst, wird in Schritt 260 mit einer Kostenfunktion dahingehend bewertet, ob sie im Einklang mit den Lern-Messdaten 1, bzw. mit sonstigen zu den Lern-Messdaten 2* gehörenden Soll-Ergebnissen 63a*, 63b („ground truth“), im Einklang steht. Einige beispielhafte Möglichkeiten für diese Bewertung sind innerhalb des Kastens 260 angegeben.
-
Gemäß Block 261 kann die Kostenfunktion 7 mindestens eine Summe aus mehreren Beiträgen beinhalten, die jeweils vom Vergleich der ausgewerteten Bewegung 1a mit den zu einem bestimmten Zeitpunkt t1 , t2 gehörenden Lern-Messdaten 2a* abhängen.
-
Gemäß Block 262 kann die Kostenfunktion 7 mindestens einen Beitrag beinhalten, der aus dem Vergleich einer mit dem Machine Learning-Modell 6 ausgewerteten Position, Größe und/oder Orientierung mindestens eines Objekts 1 mit einer bekannten Soll-Position, Soll-Größe bzw. Soll-Orientierung erhalten wird. Der Beitrag ist ein Maß für die bei diesem Vergleich ermittelte Übereinstimmung.
-
Gemäß Block 263 kann die Kostenfunktion 7 mindestens einen Beitrag beinhalten, der aus dem Vergleich einer Klassifikation 63a eines Objekts 1, und/oder eines kinematischen Modells der Bewegung 1a dieses Objekts 1, mit einer bekannten Soll-Klassifikation 63a* erhalten wird. Der Beitrag ist ein Maß für die bei diesem Vergleich ermittelte Übereinstimmung.
-
In Schritt 270 werden Parameter 62, die das Verhalten des Machine Learning-Moduls 6 charakterisieren, optimiert. Das Ziel dieser Optimierung ist, bei erneuter Anwendung des Machine Learning-Modells 6 auf den Lern-Faltungs-Tensor 5* und Auswertung der Bewegung 1a eine Bewertung 260a durch die Kostenfunktion 7 zu erhalten, die voraussichtlich besser ist.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- DE 102017223206 A1 [0003]
- WO 2019/007718 A1 [0004]
- US 9760806 B1 [0004]
- EP 1449743 B1 [0004]