DE102022212666A1

DE102022212666A1 - Computerimplementierte Verfahren zur Anker und zur Keypoint basierten Erkennung von Objektzentren

Info

Publication number: DE102022212666A1
Application number: DE102022212666.1A
Authority: DE
Inventors: Benjamin Sick
Original assignee: ZF Friedrichshafen AG
Current assignee: ZF Friedrichshafen AG
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2024-05-29

Abstract

Die Erfindung betrifft ein computerimplementiertes Verfahren zur Anker basierten Erkennung von Objektzentren (Z), wobei die Referenzinformationen für Zentrumspunkte (Z) der gekennzeichneten Objekte (O) jeweils mehrere Punkte in einem Bereich um die jeweiligen Zentrumspunkte (Z) als positive Punktanker (Z1, Z2, Z3) umfassen und bei der Optimierung des Maschinenlernmodells von dem Maschinenlernmodell vorhergesagte positive Punktanker (Z1, Z2, Z3) als Zentrumspunkte (Z) gewertet werden (V4). Ferner betrifft die Erfindung ein computerimplementiertes Verfahren zur Keypoint basierten Erkennung von Objektzentren in einer Heatmap (Ŷ) mittels einer zweidimensionalen Gaußfunktion, wobei eine erste Varianz (σx) der zweidimensionalen Gaußfunktion an eine Objektlänge (L) und eine zweite Varianz (σy) der zweidimensionalen Gaußfunktion an eine Objektbreite (W) angepasst ist.

Description

Die Erfindung betrifft ein computerimplementiertes Verfahren zur Anker basierten Erkennung von Objektzentren. Ferner betrifft die Erfindung ein computerimplementiertes Verfahren zur Keypoint basierten Erkennung von Objektzentren in einer Heatmap.
Folgende Definitionen, Beschreibungen und Ausführungen behalten ihre jeweilige Bedeutung für und finden Anwendung auf den gesamten offenbarten Erfindungsgegenstand.
Beim Trainieren, beispielsweise überwachten Trainieren, auch supervised training genannt, von Maschinenlernmodellen zur Objekterkennung, beispielsweise künstlichen neuronalen Netzwerken, beispielsweise tiefen neuronalen Netzwerken, sogenannten deep neural networks, werden zuerst Daten manuell gelabelt. Dabei wird eine Referenz, die sogenannte ground truth, erhalten. Die ground truth besteht bei der 3D Objekterkennung in der Regel aus sogenannten 3D Bounding Boxen mit beispielsweise sieben Freiheitsgraden: Position (x, y, z), Größe (Länge, Breite, Höhe) und Orientierung (Yaw-Winkel um z-Achse). Die Gewichte eines künstlichen neuronalen Netzwerks werden zufällig initialisiert und dann, beispielsweise mittels der Methode gradient descent, über eine Optimierungsfunktion optimiert. Die Optimierungsfunktion wird auch Verlustfunktion, Kostenfunktion oder Loss-Funktion genannt. Die Loss-Funktion beinhaltet einen Vergleich der Ausgabe des künstlichen neuronalen Netzwerks mit der ground truth.
Aus dem Stand der Technik bekannte Algorithmen benutzen für das Training einer Objekterkennung von Maschinenlernmodellen in der Regel zwei Methoden:
Methode 1: Anker basierte Erkennung
Ein Eingabebild wird in ein zwei- oder dreidimensionales Gitter aufgeteilt. Jeder Gitterzelle werden Anker, beispielsweise Ankerboxen, zugwiesen, beispielsweise pro Gitterzelle zwei Anker, wobei jeweils ein erster Anker eine 0° Orientierung und ein zweiter Anker eine 90° Orientierung um eine z-Achse aufweist. Die Ankerboxen sind den zu erwarteten Objekten, die von dem Maschinenlernmodell erkannt werden sollen, möglichst ähnlich. Geht man beispielsweise von den Durchschnittsgrößen and Zentren aller ground truth Objekte des KITTI Datensatzes aus, ergeben sich für Fahrzeuge Ankerboxen der Dimensionen Breite x Länge x Höhe = 1,6m × 3,9m × 1,56m mit Zentrum bei z=-1, für Fußgänger Ankerboxen der Größe 0,6m × 0,8m × 1,73m mit Zentrum bei z=-0,6m und für Fahrradfahrer Ankerboxen der Größe 0,6 × 1,76m × 1,73m mit Zentrum bei z=-0,6m. Dabei wird eine Ankerbox einem ground truth Objekt zugewiesen, das heißt diese Ankerbox erkennt dann das Objekt der ground truth, wenn eine Intersection over Union der Ankerbox mit einer ground truth box einen Schwellenwert, beispielsweise 0,6, für Fahrzeuge und 0,5 für Fußgänger und Fahrradfahrer, übersteigt. Methode 1 ist beispielsweise in Y. Zhou and O. Tuzel. Voxelnet: End-to-end learning for point cloud based 3d object detection. In CVPR, 2018 und in arXiv:1506.02640v5 [cs.CV] 9 May 2016 offenbart.
Intersection over Union ist eine Metrik zur Bestimmung eines Überschneidungsbereichs. Bei zweidimensionalen Bounding Boxen ist die Intersection over Union der Quotient aus der Fläche des Überschneidungsbereichs von zweidimensionalen Bounding Boxen und der Fläche der Vereinigung der zweidimensionalen Bounding Boxen.
Problematisch bei Methode 1 ist, dass passende Anker nur gefunden werden, wenn die Objekte in Größe und Orientierung den entsprechenden Ankern ähnlich sind. Als Rettungsmaßnahme wird hierbei zumindest ein Anker im Zentrum des Objekts benutzt. Jedoch bekommen Objekte, welche Standardgrößen und Orientierungen haben, deutlich mehr Anker zugewiesen. Dies resultiert in einem deutlich besseren Lernerfolg für diese Objekte, da diese in der Loss-Funktion deutlich überrepräsentiert werden. Vor allem bei Objektklassen, welche eine hohe Größenvarianz aufweisen, führt dies zu Problemen. So sind Lastwagen, Busse und Anhänger in ihrer Länge sehr variabel, welches in den meisten Fällen zu einer Intersection over Union unter den Schwellenwerten führt.
Methode 2: Keypoint basierte Erkennung
Hier werden Keypoints, beispielsweise Objektzentren, offenbart in ar-Xiv:1904.07850v2 [cs.CV] 25 Apr 2019, oder Eckpunkte von Objekt einhüllenden Boxen, auch bounding box genannt, siehe H. Law and J. Deng. Cornernet: Detecting objects as paired keypoints. In ECCV, 2018 in einer Heatmap gelernt. Die Heatmap beinhaltet eine 2D Gaußfunktion an jedem Objektzentrum der ground truth.
Methode 2 kann zwar die Orientierungsprobleme von Methode 1 lösen, basiert aber auf Gaußfunktionen, welche kreisförmig sind mit 0° Orientierung relativ zur z-Achse. Dies ist problematisch für lange und/oder rotierte Objekte. Hier muss das Maschinenlernmodell sehr genau das Objektzentrum entlang der Längsachse bestimmen können, was in der Realität oft nicht möglich ist. Oft sind Detektionen nur an der Vorderseite eines Objektes und am Beginn der Seite sichtbar. Ein falsch geschätztes Objektzentrum resultiert in einer falsch geschätzten Objektlänge
Aufgabe der Erfindung war es, wie beim Trainieren von Maschinenlernmodellen Objektzentren bestimmt werden können für eine verbesserte Längenanpassung bei der Objekterkennung.
Die Aufgabe wird zum einen gemäß Anspruch 1 dadurch gelöst, dass mehrere Ankerpunkte in einem Bereich um ein Zentrum eines ground truth Objekts benutzt werden. Zum anderen wird die Aufgabe gemäß Anspruch 5 dadurch gelöst, dass die bekannte kreisförmige Gaußfunktion durch eine zweidimensionale Gaußfunktion ersetzt wird, deren Radien durch Haupt- und Nebenachse einer Ellipse basierend auf Länge und Breite der Objekte gegeben sind. Vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Definitionen, den Unteransprüchen, den Zeichnungen und der Beschreibung bevorzugter Ausführungsbeispiele.
Nach einem Aspekt stellt die Erfindung ein computerimplementiertes Verfahren bereit zur Anker basierten Erkennung von Objektzentren. Mit dem Verfahren können beispielsweise zweidimensionale und/oder dreidimensionale Objekte und deren Objektzentren erkannt werden.
In einem Verfahrensschritt werden Daten in Form von Messungen mindestens eines Sensors eines Fahrzeuges erhalten. Die Daten umfassen Bilder eines Sichtfeldes des Sensors. Beispielsweise ist der Sensor in eine Stoßstange oder einen Kühlergrill integriert. Die Sensoren können auch in einer Sensorschiene integriert sein. Die Sensorschiene kann an dem Fahrzeug angeordnet und/oder ausgerichtet werden, beispielsweise an einer Front- oder Heckseite, seitliche Anordnungen und/oder Ausrichtungen sind auch möglich. Der Sensor kann beispielsweise ein Kamerasystem, ein Radarsystem oder ein Lidarsystem sein. Die Messungen können zweidimensionale Bilder sein. Die Messungen können auch dreidimensional sein, beispielsweise können die Messungen nach einem Lichtlaufzeitverfahren durchgeführt werden. Die Daten können als Daten eines realen Sensors aus realen Messungen erhalten werden und/oder als Daten eines Sensormodells in einer computerimplementierten Simulation erzeugt werden. Die erhaltenen Daten werden nach einem Aspekt als Datensatz bereitgestellt, mit dem ein Maschinenlernmodell trainiert, validiert und/oder getestet wird. Die Bilder können Graustufenbilder oder Farbbilder sein.
In einem weiteren Verfahrensschritt werden Objekten in den Bildern mit Objekt-Informationen gekennzeichnet. Dabei werden Referenzinformationen erhalten. Das Kennzeichnen wird auch labeling genannt. Die Objekte in den Bildern können beispielsweise Personenkraftwagen, Nutzfahrzeuge, Fußgänger, Fahrradfahrer, Infrastrukturelemente und/oder Vegetationselemente sein. Die Referenzinformationen können dann beispielsweise die Objektklasse angeben, beispielsweise Personenkraftwagen für das Objekt Personenkraftwagen oder Fußgänger für das Objekt Fußgänger. Die Referenzinformationen können auch Ausdehnung der Objekte in Länge, Breite und Höhe und Orientierung der Objekte, beispielsweise Gierwinkel, umfassen. Mittels den Referenzinformationen wird eine Referenz oder die ground truth für das Maschinenlernmodell erhalten. Das Kennzeichnen von 3D Objekten kann beispielsweise mittels sogenannten 3D Bounding Boxen erfolgen. Dabei werden Bildpunkte, die sich in einer ground truth Box befinden, extrahiert und mit Klasseninformation und weiteren Referenzinformationen gespeichert. Das Kennzeichnen kann auch mittels Masken erfolgen. Beispielsweise identifiziert eine Maske jeden Bildpixel, der zu einem bestimmten Objekt gehört, für jede Objektinstanz; dies wird auch Segmentierung genannt.
In einem weiteren Verfahrensschritt wird ein Maschinenlernmodells auf den Daten trainiert. Das trainierte Maschinenlernmodell wird auf einem Erkennungsmodul eines automatisiert betreibbaren Ego-Fahrsystems zur Objekterkennung eingesetzt. Während des Trainings wird das Maschinenlernmodell auf den Daten ausgeführt. Parameter des Maschinenlernmodells werden durch einen Vergleich der von dem Maschinenlernmodell vorhergesagten Objekten und/oder vorhergesagten Objekt-Informationen mit den Referenzinformationen optimiert.
Maschinelles Lernen ist eine Technologie, die Computern und anderen Datenverarbeitungsvorrichtungen die Ausführung von Aufgaben durch Lernen aus Daten lehrt, anstatt für die Aufgaben programmiert zu werden.
Das trainierte Maschinenlernmodell wird auf einem Erkennungsmodul eines automatisiert betreibbaren Ego-Fahrsystems zur Objekterkennung eingesetzt wird. Das Erkennungsmodul umfasst Hardware- und/oder Softwarekomponenten. Beispielsweise ist das Erkennungsmodul, auch perception module genannt, in einem elektronischen Steuergerät, auch electronic control unit genannt, des Ego-Fahrsystems integriert. Das Ego-Fahrsystem kann sich auf Systemebene auf einzelne Systemkomponenten eines automatisiert betreibbaren Fahrzeuges beziehen, beispielsweise auf Umfeldwahrnehmung mittels Umfelderkennungssensoren, Umfeldmodellierung mittels Wahrnehmungscomputerprogrammen, Trajektorienplanung mittels spezieller Algorithmen und/oder Trajektorienausführung mittels Aktuatoren für Längs- und/oder Quersteuerung. Das Ego-Fahrsystem kann sich auch auf das gesamte Ego-Fahrzeug beziehen. Beispielsweise ist das Ego-Fahrzeug ein Personenkraftwagen oder ein Shuttle. Der Automatisierungsgrad kann teilautomatisiert, hochautomatisiert oder autonom sein.
Parameter des Maschinenlernmodells werden durch einen Vergleich der von dem Maschinenlernmodell vorhergesagten Objekten und/oder vorhergesagten Objekt-Informationen mit den Referenzinformationen optimiert. Durch den Vergleich der Vorhersagen des Maschinenlernmodells mit den Referenzinformationen, das heißt der ground truth, wird ein überwachtes Lernen, auch supervised learning, ermöglicht, das hinsichtlich Nachvollziehbarkeit und Validierung der Vorhersagen des Maschinenlernmodells vorteilhaft ist. Dies ist insbesondere für Anwendungen im Automobilbereich unter dem Aspekt der Sicherheit vorteilhaft.
Im Unterschied zum bekannten Stand der Technik, der nur einen Anker im Zentrum des Objekts benutzt, umfassen nach dem hier offenbarten Verfahren die Referenzinformationen für Zentrumspunkte der gekennzeichneten Objekte jeweils mehrere Punkte in einem Bereich um die jeweiligen Zentrumspunkte als positive Punktanker. Bei der Optimierung des Maschinenlernmodells werden von dem Maschinenlernmodell vorhergesagte positive Punktanker als Zentrumspunkte gewertet werden.
Der Bereich um die jeweiligen ground truth Zentrumspunkte ist relativ klein, so dass ausgehend von jedem der positiven Punktanker und Detektionen an Vorderseiten von Objekten eine Längenausdehnung der Objekte basierend auf bekannter Vorderseite und positiven Punktankern genauer als im bisherigen Stand der Technik bestimmt werden kann. Durch die mehreren positiven Punktanker bekommen werden insbesondere Objekten, welche keine Standardgrößen haben, mehr Anker zugewiesen. Damit wird der Lernerfolg für derartige Objekte verbessert. Dies führt zu einer verbesserten Objekterkennung. Es werden Punkte als positive Punktanker gekennzeichnet. Das heißt, die Anker werden ausschließlich auf der Position im Bild zugeordnet und nicht auf Grundlage einer Intersection over Union.
Nach einem weiteren Aspekt stellt die Erfindung ein computerimplementiertes Verfahren bereit zur Keypoint basierten Erkennung von Objektzentren in einer Heatmap. Die Heatmap bildet Bildbereiche auf Wahrscheinlichkeiten für das Vorhandensein der Keypoints in den Bildbereichen ab.
In einem Verfahrensschritt werden Daten in Form von Messungen mindestens eines Sensors eines Fahrzeuges erhalten, wobei die Daten Bilder eines Sichtfeldes des Sensors umfassen, wie voran beschrieben.
In einem weiteren Verfahrensschritt werden Objekte in den Bildern mit Objekt-Informationen gekennzeichnet. Dabei werden Referenzinformationen erhalten, wie voran beschrieben. Zentrumspunkte der gekennzeichneten Objekte werden jeweils mittels einer zweidimensionalen Gaußfunktion auf einer Referenzheatmap abgebildet. Die Referenzinformationen umfassen die Referenzheatmap.
Die Bilder in Form von zweidimensionalen Bildern haben eine Breite W und eine Höhe L und können in Gitterzellen unterteilt werden. Die Gitterzellen können beispielsweise eine Breite W/R und eine Höhe L/R haben. Hat das Bild beispielsweise eine Breite W von 100 Pixeln und eine Höhe H von 100 Pixeln und hat R den Wert 10, dann haben die Gitterzellen eine Breite von 10 Pixeln und eine Höhe von 10 Pixeln. Es wird also ein Gitter von 100 gleichgroßen Gitterzellen erhalten. Die zweidimensionale Gaußfunktion kann normierte sein. Die Referenzheatmap kann beispiels-weise die Form $Y \in {[0,1]}^{\frac{W}{R} \times \frac{L}{R}}$
haben, wobei Y_xy die normierte zweidimensionale Gaußfunktion ist, siehe auch arXiv:1904.07850v2 [cs.CV] 25 Apr 2019.
In einem weiteren Verfahrensschritt wird ein Maschinenlernmodell auf den Daten trainiert. Das trainierte Maschinenlernmodell wird auf einem Erkennungsmodul eines automatisiert betreibbaren Ego-Fahrsystems zur Objekterkennung eingesetzt, wie voran beschrieben. Während des Trainings wird das Maschinenlernmodell, wie voran beschrieben, auf den Daten ausgeführt. Parameter des Maschinenlernmodells werden, wie voran beschrieben, durch einen Vergleich der von dem Maschinenlernmodell vorhergesagten Objekten und/oder vorhergesagten Objekt-Informationen mit den Referenzinformationen optimiert werden. Das Maschinenlernmodell sagt für die Zentrumspunkte die Heatmap vorher. Die vorhergesagte Heatmap wird mit der Referenzheatmap verglichen wird. Beispielsweise sagt das Maschinenlernmodell die Heatmap in der Form $\hat{Y} \in {[0,1]}^{\frac{W}{R} \times \frac{L}{R}}$
voraus, wobei Ŷ_xy = 1 einem erkannten Zentrumspunkt entspricht und Ŷ_xy = 0 Hintergrund entspricht, siehe auch arXiv:1904.07850v2 [cs.CV] 25 Apr 2019.
Im Unterschied zum bekannten Stand der Technik, der in der zweidimensionalen Gaußfunktion nur eine Objektgrößen adaptierbare Varianz berücksichtigt, wird bei dem hier offenbarten Verfahren eine erste Varianz der zweidimensionalen Gaußfunktion an eine Objektlänge und eine zweite Varianz der zweidimensionalen Gaußfunktion an eine Objektbreite angepasst ist.
Die zweidimensionale Gaußfunktion kann beispielsweise die Form $Y_{x y} \propto e x p (- (\frac{{(x - p_{x})}^{2}}{2 σ_{x}^{2}}) + \frac{{(y - p_{y})}^{2}}{2 σ_{y}^{2}})$

haben. p_x und p_y sind die Koordinaten der Referenzzentrumspunkte, das heißt die Koordinaten der ground truth Zentrumspunkte. Die Koordinaten sind beispielsweise Bildkoordinaten oder Pixelkoordinaten. σ_x ist die erste Varianz. σ_y ist die zweite Varianz.
Das Trainingsziel ist beispielsweise eine Optimierung mit reduzierter Bestrafung, wobei vorhergesagte Zentrumsobjekte in einem Varianzbereich um einen Referenzzentrumspunkt, wobei der Varianzbereich ein Bereich ist, der die Ausdehnungen der ersten Varianz und der zweiten Varianz hat, weniger bestraft werden als Punkte außerhalb dieses Varianzbereichs. Hierdurch wird es dem Maschinenlernmodell erlaubt, kleine Fehler in der Bestimmung der Zentrumspunkte von langen Objekten entlang der Längsachse zu machen. Dies verbessert die generelle Erkennung von Objekten und erlaubt dem Maschinenlernmodell, den Fokus auf das Erlernen der Vorderseite der Objekte zu setzen. Die Vorderseite der Objekte kann sensoriell vergleichsweise gut erfasst werden.
Nach einem weiteren Aspekt der Anker basierten Erkennung sind für Referenzobjekt-Vielecke die positiven Punktanker jeweils Elemente der Schnittmenge aus einem Vieleck innerhalb des Referenzobjekt-Vielecks mit einem vorgegebenen Seitenabstand zu Seiten des umliegenden Referenzobjekt-Vielecks und einer Ellipse. Der Mittelpunkt der Ellipse ist der Zentrumspunkt des Referenzobjekt-Vielecks. Die Hauptachse der Ellipse ist nicht länger als die Breite des Referenzobjekt-Vielecks ist. Die Schnittmenge bildet Bereich um die jeweiligen Zentrumspunkte, innerhalb dessen positive Punktanker für Zentrumspunkte gesetzt werden. Dadurch, dass ein innenliegendes Vieleck betrachtet wird, wird insbesondere auch die Länge der Objekte berücksichtigt. Die Referenzobjekt-Vielecke können Bounding Boxen von zweidimensionalen Objekten sein. Die Referenzobjekt-Vielecke können auch Seitenflächen von dreidimensionalen Bounding Boxen sein, beispielsweise die Oberflächen der Objekte aus bird's eye view.
Nach einem weiteren Aspekt der Anker basierten Erkennung werden Punkte aus der Schnittmenge aus einem Vieleck innerhalb eines Referenzobjekt-Vielecks mit einem Seitenabstand zu Seiten des umliegenden Referenzobjekt-Vielecks unterhalb eines vorgegebenen Schwellenwertes und einer Ellipse, deren Mittelpunkt der Zentrumspunkt des Referenzobjekt-Vielecks ist und deren Hauptachse länger als die Breite des Referenzobjekt-Vielecks ist, als Punktanker bei der Optimierung des Maschinenlernmodells nicht berücksichtigt werden. Die Punkte aus dieser Schnittmenge stellen sogenannte Ignore-Anker dar. Die Ignore-Anker haben keinen Einfluss auf das Lernen. Damit kann das Training optimiert werden.
Nach einem weiteren Aspekt der Anker basierten Erkennung ist das Referenzobjekt-Vieleck ein Rechteck. Die Ellipse ist ein Kreis, dessen Durchmesser der Hauptachse der Ellipse entspricht. Zweidimensionale Bounding Boxen sind oft als Rechtecke ausgeführt. Es wurde überraschenderweise erkannt, dass positive Punktanker aus der Schnittmenge der Rechtecke und Kreise zu einer besseren Längenbestimmung von Objekten führen.
Nach einem weiteren Aspekt der Keypoint basierten Erkennung umfassen die Referenzinformationen eine Orientierung der gekennzeichneten Objekte. Die jeweilige zweidimensionale Gaußfunktion ist entsprechend der Orientierung des jeweiligen gekennzeichneten Objekts orientiert. Auf dem Gebiet von Heatmaps sind zweidimensionale kreisförmige Gaußfunktionen mit 0° Drehung bekannt. Für lange rotierte Objekte ist es aber davon ausgehend schwierig, den Objekt-Zentrumspunkt entlang der Längsachse zu bestimmen. Durch die gedrehte zweidimensionale elliptische Gaußfunktion wird nun auch die Orientierung der Objekte bei der Längenbestimmung berücksichtigt und damit die Objekterkennung weiter verbessert.
In einer Ausführungsform der Verfahren ist das Maschinenlernmodell ein künstliches neuronales Netzwerk. Die Parameter werden mittels Vor- und Rückwärtsspeisung des künstlichen neuronalen Netzwerks auf den Daten und den Referenzinformationen Gradienten basiert optimiert werden, wobei die Parameter Gewichtungsfaktoren von Neuronenverbindungen des künstlichen neuronalen Netzwerks umfassen. Das künstliche neuronale Netzwerk kann beispielsweise ein Encoder-Decoder Netzwerk sein, das Faltungsschichten umfasst. Ein Encoder-Decoder Netzwerk mit Faltungsschichten eignet sich besonders gut zum Vorhersagen der Heatmap Y auf einem Bild. Beispielsweise hat das künstliche neuronale Netzwerk eine Architektur ähnlich oder gleich der Architektur des in arXiv:1512.03385v1 [cs.CV] 10 Dec 2015 offenbarten ResNet. Nach einem Aspekt wird eine von den Gewichtungsfaktoren abhängige Verlustfunktion, auch Kostenfunktion oder Loss-Funktion, durch Rückwärtsspeisen eines Fehlers zwischen einer Vorhersage des künstlichen neuronalen Netzwerks und der entsprechenden Referenzinformation minimiert. Nach einem Aspekt wird als Loss-Funktion logistische Regression, vorzugsweise mit fokalem Loss, verwendet, siehe auch arXiv:1904.07850v2 [cs.CV] 25 Apr 2019 und T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollar. Focal loss for dense object detection. ICCV, 2017.
In einer weiteren Ausführungsform der Verfahren werden Objektzentren von Objekten mit relativ hoher Größenvarianz. In bekannten Datensätzen sind überwiegend Objekte mit Standardgrößen vertreten, beispielsweise Personenkraftwagen. Für diese Standardobjekte können Ankerboxen definiert werden, beispielsweise für Personenkraftwagen Ankerboxen der Dimensionen Breite x Länge x Höhe = 1,6m x 3,9m x 1,56m mit Zentrum bei z=-1. Jedoch bekommen Standardobjekte deutlich mehr Anker zugewiesen. Dies resultiert in einem deutlich besseren Lernerfolg für diese Standardobjekte, da diese bei der Optimierung, beispielsweise in der Loss-Funktion, deutlich überrepräsentiert werden. Objekte mit relativ hoher Größeninvarianz werden im bekannten Stand der Technik nicht gesondert betrachtet. Die Erfindung ermöglicht es auch für Objekte mit relativer hoher Größeninvarianz Zentrumspunkte zu bestimmen.
In einer weiteren Ausführungsform der Verfahren werden Objektzentren von Fahrzeugen variabler Länge vorhergesagt. Fahrzeuge variabler Länge sind beispielsweise Lastwagen und Busse jeweils mit oder ohne Anhänger.
Die Erfindung wird in den folgenden Ausführungsbeispielen verdeutlicht. Es zeigen:

1 ein Ausführungsbeispiel eines detektierten Objekts,
2 ein Ausführungsbeispiel einer falsch bestimmten Länge des Objekts aus 1,
3 ein Ausführungsbeispiel für positive Punktanker,
4 ein Ausführungsbeispiel einer Heatmap mittels einer aus dem Stand der Technik bekannten Gaußfunktion,
5 ein Ausführungsbeispiel einer Heatmap mittels einer Gaußfunktion nach hier offenbarten Verfahren,
6 ein Ausführungsbeispiel eines Varianzbereiches einer aus dem Stand der Technik bekannten Gaußfunktion,
7 ein Ausführungsbeispiel eines Varianzbereichs einer Gaußfunktion nach dem hier offenbarten Verfahren,
8 ein Ausführungsbeispiel eines hier offenbarten Verfahrens zur Anker basierten Erkennung von Objektzentren und
9 ein Ausführungsbeispiel eines hier offenbarten Verfahrens zur Keypoint basierten Erkennung von Objektzentren in einer Heatmap

In den Figuren bezeichnen gleiche Bezugszeichen gleiche oder funktionsähnliche Bezugsteile. Übersichtshalber werden in den einzelnen Figuren nur die jeweils relevanten Bezugsteile hervorgehoben.
In 1 wird ein Objekt O detektiert. Das Objekt O ist beispielsweise ein gedrehter Lastwagen mit einer Objektlänge L und einer Objektbreite W. Von dem Objekt werden in der Regel nur Detektion D an einer Seite und einer an diese Seite angrenzenden Seite erhalten, in der Regel in einer L-Form. Die Detektionen D sind beispielsweise Lidardetektionen. Die Detektionen D geben beispielsweise durch Verdeckung oft nur wenig Information über die Objektlänge L.
2 zeigt das Objekt mit falsch bestimmten Zentrumspunkt Ze, der dann basierend auf den Detektionen D an der Vorderseite in einer falsch bestimmten Objektlänge Le resultiert.
3 zeigt als ein Referenzobjekt-Vieleck B ein Rechteck, also ein ground truth Rechteck. Für jedes dieser Rechtecke in der ground truth wird eine Ellipse E definiert, in 3 ein Kreis, deren Hauptachse, in Fig., 3 dessen Durchmesser, nicht größer als die Breite W des Referenzobjekt-Vielecks B ist. Außerdem wird ein Vieleck B1, in 3 ein Rechteck, definiert innerhalb des Referenzobjekt-Vielecks B mit einem Seitenabstand a zu allen Seiten des umliegenden Referenzobjekt-Vielecks B. Positive Punktanker, beispielsweise Z1, Z2, Z3, werden in der Schnittmenge I beider Formen erstellt.
4 zeigt Heatmaps Y für Objektzentren Z von Objekten O basierend auf aus dem Stand der Technik bekannten zweidimensionalen Gaußfunktionen. Die Objekte O umfassen beispielsweise Fahrzeuge variabler Länge, beispielsweise einen Lastzug, einen Transporter und einen Personenkraftwagen. Die Heatmap Ŷ der 4 wurde mit dem in arXiv:2006.11275v2 [cs.CV] 6 Jan 2021 offenbarten CenterPoint Netzwerk erhalten, das Punktwolken als Eingangsbilder erhält und Zentrumspunkte von Objekten in Punktwolken erstellt.
5 zeigt Heatmaps Ŷ, die mit dem hier offenbarten Keypoint basierten Verfahren erhalten wurden mittels zweidimensionalen Gaußfunktion mit rotiertem elliptischen Varianzbereich VB, siehe 7.
6 zeigt einen kreisförmigen Varianzbereich VB einer aus dem Stand der Technik bekannten zweidimensionalen Gaußfunktion. Für Objektlänge L und Objektbreite W wird dieselbe Varianz verwendet. Der Varianzbereich VB weist eine 0° Orientierung auf.
7 zeigt einen von einer 0° Orientierung verschieden rotierten Varianzbereich VB einer zweidimensionalen Gaußfunktion mit einer ersten Varianz σ_x und einer zweiten Varianz σ_y.
8 zeigt schematisch ein Ausführungsbeispiel eines hier offenbarten computerimplementierten Verfahrens zur Anker basierten Erkennung von Objektzentren Z. In einem Schritt V werden Daten in Form von Messungen mindestens eines Sensors eines Fahrzeuges erhalten. Die Daten umfassen Bilder aus einem Sichtfeld des Sensors, beispielsweise einer Kamera oder eines Lidars. In einem Schritt V2 werden die Objekten O in den Bildern mit Objekt-Informationen gekennzeichnet oder gelabelt. Dabei werden Referenzinformationen oder die ground truth erhalten. In einem Schritt V3 wird ein Maschinenlernmodell auf den Daten trainiert. Das trainierte Maschinenlernmodell wird auf einem Erkennungsmodul eines automatisiert betreibbaren Ego-Fahrsystems zur Objekterkennung eingesetzt. Das Maschinenlernmodell wird auf den Daten ausgeführt. Parameter des Maschinenlernmodells werden durch einen Vergleich der von dem Maschinenlernmodell vorhergesagten Objekten O und/oder vorhergesagten Objekt-Informationen mit den Referenzinformationen optimiert. Bei dem Verfahren umfassen die Referenzinformationen für Zentrumspunkte Z der gekennzeichneten Objekte O jeweils mehrere Punkte in einem Bereich um die jeweiligen Zentrumspunkte Z als positive Punktanker Z1, Z2, Z3. In einem Schritt V4 werden die von dem Maschinenlernmodell vorhergesagte positive Punktanker Z1, Z2, Z3 als Zentrumspunkte Z gewertet bei der Optimierung des Maschinenlernmodells.
9 zeigt schematisch ein Ausführungsbeispiel eines hier offenbarten computerimplementierten Verfahrens zur Keypoint basierten Erkennung von Objektzentren in einer Heatmap Ŷ. In einem Schritt W1 werden Daten in Form von Messungen mindestens eines Sensors eines Fahrzeuges erhalten., Die Daten umfassen Bilder aus einem Sichtfeld des Sensors, wie oben beschrieben. In einem Schritt W2 werden die Objekten O in den Bildern mit Objekt-Informationen gekennzeichnet und Referenzinformationen erhalten. Zentrumspunkte Z der gekennzeichneten Objekte O werden jeweils mittels einer zweidimensionalen Gaußfunktion auf einer Referenzheatmap abgebildet. Die Referenzinformationen umfassen die Referenzheatmap. In einem Schritt W3 wird ein Maschinenlernmodell auf den Daten trainiert. Das trainierte Maschinenlernmodell wird auf einem Erkennungsmodul eines automatisiert betreibbaren Ego-Fahrsystems zur Objekterkennung eingesetzt. Das Maschinenlernmodell wird auf den Daten ausgeführt. Parameter des Maschinenlernmodells werden durch einen
Vergleich der von dem Maschinenlernmodell vorhergesagten Objekten O und/oder vorhergesagten Objekt-Informationen mit den Referenzinformationen optimiert. Das Maschinenlernmodell sagt für die Zentrumspunkte Z die Heatmap Ŷ vorher. Die vorhergesagte Heatmap Ŷ wird mit der Referenzheatmap verglichen. Bei dem Verfahren ist eine erste Varianz σ_x der zweidimensionalen Gaußfunktion an eine Objektlänge L und eine zweite Varianz σ_y der zweidimensionalen Gaußfunktion an eine Objektbreite W angepasst.
Bezugszeichen

V1-V4: Verfahrensschritte
W1-W3: Verfahrensschritte
Z: Objektzentrum
O: Objekt
D: Detektion
Ze: falsches Objektzentrum
Z1-Z3: positive Punktanker
B: Referenzobjekt-Vieleck
I: Schnittmenge
B1: Vieleck
a: Seitenabstand
E: Ellipse
W: Breite
Ŷ: Heatmap
σx: erste Varianz
σy: zweite Varianz
L: Objektlänge
Le: falsche Objektlänge
VB: Varianzbereich

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

Y. Zhou and O. Tuzel. Voxelnet: End-to-end learning for point cloud based 3d object detection. In CVPR, 2018 und in arXiv:1506.02640v5 [cs.CV] 9 May 2016 [0005]
ar-Xiv:1904.07850v2 [cs.CV] 25 Apr 2019, oder Eckpunkte von Objekt einhüllenden Boxen, auch bounding box genannt, siehe H. Law and J. Deng. Cornernet: Detecting objects as paired keypoints [0008]
arXiv:1904.07850v2 [cs.CV] 25 Apr 2019 und T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollar. Focal loss for dense object detection. ICCV, 2017 [0033]

Claims

Computerimplementiertes Verfahren zur Anker basierten Erkennung von Objektzentren (Z), das Verfahren umfassend die Schritte: • Erhalten von Daten in Form von Messungen mindestens eines Sensors eines Fahrzeuges, wobei die Daten Bilder eines Sichtfeldes des Sensors umfassen (V1); • Kennzeichnen von Objekten (O) in den Bildern mit Objekt-Informationen, wobei Referenzinformationen erhalten werden (V2); • Trainieren eines Maschinenlernmodells auf den Daten, wobei das trainierte Maschinenlernmodell auf einem Erkennungsmodul eines automatisiert betreibbaren Ego-Fahrsystems zur Objekterkennung eingesetzt wird, das Maschinenlernmodell auf den Daten ausgeführt wird und Parameter des Maschinenlernmodells durch einen Vergleich der von dem Maschinenlernmodell vorhergesagten Objekten (O) und/oder vorhergesagten Objekt-Informationen mit den Referenzinformationen optimiert werden (V3), dadurch gekennzeichnet, dass die Referenzinformationen für Zentrumspunkte (Z) der gekennzeichneten Objekte (O) jeweils mehrere Punkte in einem Bereich um die jeweiligen Zentrumspunkte (Z) als positive Punktanker (Z1, Z2, Z3) umfassen; bei der Optimierung des Maschinenlernmodells von dem Maschinenlernmodell vorhergesagte positive Punktanker (Z1, Z2, Z3) als Zentrumspunkte (Z) gewertet werden (V4).
Verfahren nach Anspruch 1, wobei für Referenzobjekt-Vielecke (B) die positiven Punktanker (Z1, Z2, Z3) jeweils Elemente der Schnittmenge (I) aus einem Vieleck (B1) innerhalb des Referenzobjekt-Vielecks (B) mit einem vorgegebenen Seitenabstand (a) zu Seiten des umliegenden Referenzobjekt-Vielecks (B) und einer Ellipse (E) sind, wobei der Mittelpunkt der Ellipse (E) der Zentrumspunkt (Z) des Referenzobjekt-Vielecks (B) ist und die Hauptachse (A) der Ellipse (E) nicht länger als die Breite (W) des Referenzobjekt-Vielecks (B) ist, sind.
Verfahren nach einem der vorangehenden Ansprüche, wobei Punkte aus der Schnittmenge (I) aus einem Vieleck (B1) innerhalb eines Referenzobjekt-Vielecks (B) mit einem Seitenabstand (a) zu Seiten des umliegenden Referenzobjekt-Vielecks (B) unterhalb eines vorgegebenen Schwellenwertes und einer Ellipse (E), deren Mittelpunkt der Zentrumspunkt (Z) des Referenzobjekt-Vielecks (B) ist und deren Hauptachse länger als die Breite (W) des Referenzobjekt-Vielecks (B) ist, als Punktanker bei der Optimierung des Maschinenlernmodells nicht berücksichtigt werden.
Verfahren nach Anspruch 2 oder 3, wobei das Referenzobjekt-Vieleck (B) ein Rechteck ist und die Ellipse (E) ein Kreis ist, dessen Durchmesser der Hauptachse der Ellipse (E) entspricht.
Computerimplementiertes Verfahren zur Keypoint basierten Erkennung von Objektzentren in einer Heatmap (Ŷ), wobei die Heatmap (Ŷ) Bildbereiche auf Wahrscheinlichkeiten für das Vorhandensein der Keypoints in den Bildbereichen abbildet, das Verfahren umfassend die Schritte: • Erhalten von Daten in Form von Messungen mindestens eines Sensors eines Fahrzeuges, wobei die Daten Bilder eines Sichtfeldes des Sensors umfassen (W1); • Kennzeichnen von Objekten (O) in den Bildern mit Objekt-Informationen und Erhalten von Referenzinformationen, wobei Zentrumspunkte (Z) der gekennzeichneten Objekte (O) jeweils mittels einer zweidimensionalen Gaußfunktion auf einer Referenzheatmap abgebildet werden und die Referenzinformationen die Referenzheatmap umfassen (W2); • Trainieren eines Maschinenlernmodells auf den Daten, wobei das trainierte Maschinenlernmodell auf einem Erkennungsmodul eines automatisiert betreibbaren Ego-Fahrsystems zur Objekterkennung eingesetzt wird, das Maschinenlernmodell auf den Daten ausgeführt wird und Parameter des Maschinenlernmodells durch einen Vergleich der von dem Maschinenlernmodell vorhergesagten Objekten (O) und/oder vorhergesagten Objekt-Informationen mit den Referenzinformationen optimiert werden, wobei das Maschinenlernmodell für die Zentrumspunkte (Z) die Heatmap (Ŷ) vorhersagt und die vorhergesagte Heatmap (Ŷ) mit der Referenzheatmap verglichen wird (W3), dadurch gekennzeichnet, dass eine erste Varianz (σ_x) der zweidimensionalen Gaußfunktion an eine Objektlänge (L) und eine zweite Varianz (σ_y) der zweidimensionalen Gaußfunktion an eine Objektbreite (W) angepasst ist.
Verfahren nach Anspruch 5, wobei die Referenzinformationen eine Orientierung der gekennzeichneten Objekte (O) umfassen und die jeweilige zweidimensionale Gaußfunktion entsprechend der Orientierung des jeweiligen gekennzeichneten Objekts (O) orientiert ist.
Verfahren nach einem der vorangehenden Ansprüche, wobei das Maschinenlernmodell ein künstliches neuronales Netzwerk ist und die Parameter mittels Vor- und Rückwärtsspeisung des künstlichen neuronalen Netzwerks auf den Daten und den Referenzinformationen Gradienten basiert optimiert werden, wobei die Parameter Gewichtungsfaktoren von Neuronenverbindungen des künstlichen neuronalen Netzwerks umfassen.
Verfahren nach einem der vorangehenden Ansprüche, wobei Objektzentren (Z) von Objekten (O) mit relativ hoher Größenvarianz vorhergesagt werden.
Verfahren nach einem der vorangehenden Ansprüche, wobei Objektzentren (Z) von Fahrzeugen variabler Länge vorhergesagt werden.