-
Die Erfindung betrifft ein Verfahren zum Bestimmen eines Bewegungsmodells eines sich bewegenden Objekts in einer Umgebung eines Kraftfahrzeugs mittels eines Assistenzsystems des Kraftfahrzeugs. Ferner betrifft die Erfindung ein Computerprogrammprodukt, ein computerlesbares Speichermedium sowie ein Assistenzsystem.
-
Aus dem Stand der Technik ist bekannt, dass sich bewegende Objekte bei der Erfassung der Umgebung insbesondere im Bereich des Automobilbaus eine dominante Rolle spielen. Insbesondere sind sich bewegende Objekte schwieriger zu erfassen als beispielsweise statische Objekte. Die sich bewegenden Objekte sind sogenannte interaktive Agenten, welche ein hochdynamisches und unsicheres Szenario für die Planung, beispielsweise in einem zumindest teilweise autonomen Betrieb des Kraftfahrzeugs beziehungsweise einem vollautonomen Betrieb des Kraftfahrzeugs, bilden können. Insbesondere bei der Nutzung eines neuronalen Netzes zur Erfassung der Umgebung und dem Erzeugen des Bewegungsmodells kann es dazu kommen, dass bei einem Training des neuronalen Netzwerks unbekannte und untrainierte Objekte auftreten können, da beispielsweise nicht jedes Objekt, welches sich auf den Straßen befinden kann, dargestellt werden kann. Als Beispiel können Kängurus angesehen werden, für welche im Normalfall kein entsprechendes Bewegungsmodell abgespeichert ist. Ferner ist aus dem Stand der Technik bekannt, dass statische Objekte beispielsweise aus einer sogenannten vorgegebenen High-Definition-Map bestimmt werden können.
-
Die
US 2019 370980 AA beschreibt ein Verfahren zum Durchführen einer Echtzeit-Erfassung von sich bewegenden Objekten, welche das Empfangen eines Eingangsvideostreams von einer Kamera umfasst, das Überprüfen, ob eine Bewegung in einem aktuellen Frame des Eingangsvideostreams aufgetreten ist, das Bereitstellen des aktuellen Frames zur Objekterfassung, wenn die Bewegung darin erfasst worden ist, das Erfassen eines sich bewegenden Objekts im aktuellen Frame, das Anzeigen des erfassten sich bewegenden Objekts, gleichzeitiges Verfolgen eines Ortes des erkannten sich bewegenden Objekts innerhalb des entsprechenden Frames, während die Objekterkennung für eines oder mehrere sich bewegende Objekte fortgesetzt wird, und das Erzeugen einer Verfolgungsbox und Überlagern der Verfolgungsbox auf das erkannte sich bewegende Objekt und dann ein Übertragen des Videos an den Bildschirm und Fortsetzen der Verfolgung des erkannten sich bewegenden Objekts, bis die Objekterkennung für ein oder mehrere entsprechende sich bewegende Objekte fortgesetzt wird.
-
Bei der
US 2014 177946 A ist eine Vorrichtung und ein Verfahren zur Erkennung einer Person aus einem Eingangs-Videobild mit hoher Zuverlässigkeit unter Verwendung gradientenbasierter Merkmalsvektoren und eines neuronalen Netzes offenbart. Die Vorrichtung zur Erkennung einer Person umfasst eine Bildverarbeitungseinheit zur Modellierung eines Hintergrundbildes aus einem Eingabebild. Eine Einstelleinheit für den Bereich eines sich bewegenden Objekts legt einen Bereich eines sich bewegenden Objekts fest, in dem Bewegung vorhanden ist, indem eine Differenz zwischen dem Eingabebild und dem Hintergrundbild ermittelt wird. Eine Einheit zum Erfassen menschlicher Regionen extrahiert gradientenbasierte Merkmalsvektoren für einen ganzen Körper und einen Oberkörper aus dem sich bewegenden Objektbereich und detektiert eine menschliche Region, in der sich eine Person befindet, indem sie die gradientenbasierten Merkmalsvektoren für den ganzen Körper und den Oberkörper als Eingabe eines Klassifizierers für neuronale Netze verwendet. Eine Entscheidungseinheit entscheidet, ob ein Objekt in der detektierten menschlichen Region eine Person oder eine Nicht-Person ist.
-
Die
CN 104166861 A offenbart ein Verfahren zur Erkennung von Fußgängern. Die Fußgänger-Detektionsmethode umfasst die Schritte: Ein Fußgänger-positiv-Probensatz und ein Fußgänger-negativ-Probensatz, die für das Training eines konvoluten neuronalen Netzes benötigt werden, werden vorverarbeitet. Die Probensätze werden vorbereitet und normalisiert, um einem einheitlichen Standard zu entsprechen und eine Datendatei wird erzeugt. Die Struktur des konvoluten neuronalen Netzes wird entworfen, das Training wird durchgeführt und eine Gewichtsverbindungsmatrix wird während der Konvergenz des Netzes erhalten. Eine selbstadaptive Hintergrundmodellierung wird auf Videos durchgeführt, Informationen über sich bewegende Objekte in jedem Frame werden erhalten, eine grobe Auswahl wird zunächst an erkannten Regionen bewegter Objekte durchgeführt, die Regionen mit einem nicht den Anforderungen genügenden Verhältnis von Höhe zu Breite werden ausgeschlossen, und es werden Kandidatenregionen generiert. Jede Kandidatenregion wird in das konvolute neuronale Netz eingegeben, und es wird beurteilt, ob Fußgänger vorhanden sind.
-
Die
US 2019 005361 AA offenbart eine Technologie für das Erkennen und Identifizieren von Objekten in digitalen Bildern und im Besonderen auf das Erkennen, Identifizieren und/oder Verfolgen von sich bewegenden Objekten in Videobildern unter Verwendung eines neuronalen Netzes mit künstlicher Intelligenz, das für tiefes Lernen konfiguriert ist. In einem Aspekt umfasst ein Verfahren das Erfassen einer Videoeingabe von einer Szene, die einen oder mehrere Kandidaten für sich bewegende Objekte umfasst, unter Verwendung einer Videobilderfassungsvorrichtung, wobei die Videoeingabe mindestens zwei zeitlich beabstandete Bilder umfasst, die von der Szene erfasst wurden. Das Verfahren umfasst zusätzlich die Umwandlung der Videoeingabe in eine oder mehrere Bildmusterschichten, wobei jede der Bildmusterschichten ein Muster umfasst, das ein der sich bewegenden Kandidatenobjekte darstellt. Das Verfahren umfasst zusätzlich die Bestimmung einer Wahrscheinlichkeit der Übereinstimmung zwischen jeder der Bildmusterschichten und einem in einer großen Datenbibliothek gespeicherten Bild. Das Verfahren umfasst zusätzlich das automatische Hinzufügen einer oder mehrerer der Bildmusterschichten mit einer Übereinstimmungswahrscheinlichkeit, die einen vorbestimmten Wert überschreitet und die Ausgabe der Übereinstimmungswahrscheinlichkeit an einen Benutzer.
-
Die
CN 108492319 A schlägt ein Verfahren zur Detektion bewegter Objekte vor, das auf einem tiefen, voll gefalteten neuronalen Netz basiert. Das Verfahren umfasst die Implementierungsschritte: Extrahieren eines Hintergrundbildes einer Videoszene; Erhalten einer Mehrkanal-Videobildfolge; Konstruieren eines Trainingsprobensatzes und eines Testprobensatzes und Ausführen der Normalisierung der beiden Probensätze; Konstruieren eines tiefen vorgefalteten neuronalen Netzwerkmodells; Ausführen des Trainings des aktiven vorgefalteten neuronalen Netzwerkmodells; Ausführen der Vorhersage des Testprobensatzes durch das trainierte tiefe vorgefaltete neuronale Netzwerkmodell; Erhalten eines Detektionsergebnisses für ein sich bewegendes Ziel.
-
Aufgabe der vorliegenden Erfindung ist es, ein Verfahren, ein Computerprogrammprodukt, ein computerlesbares Speichermedium sowie ein Assistenzsystem zu schaffen, mittels welchem verbessert einzelne, sich bewegende Objekte in der Umgebung eines Kraftfahrzeugs erfasst werden können.
-
Diese Aufgabe wird durch ein Verfahren, ein Computerprogrammprodukt, ein computerlesbares Speichermedium sowie durch ein Assistenzsystem gemäß den unabhängigen Patentansprüchen gelöst. Vorteilhafte Ausgestaltungsformen sind in den Unteransprüchen angegeben.
-
Ein Aspekt der Erfindung betrifft ein Verfahren zum Bestimmen eines Bewegungsmodells eines sich bewegenden Objekts in einer Umgebung eines Kraftfahrzeugs mittels eines Assistenzsystems des Kraftfahrzeugs. Es erfolgt ein Erfassen zumindest eines Bilds der Umgebung mit dem sich bewegenden Objekt mittels einer Erfassungseinrichtung des Assistenzsystems. Das zumindest eine Bild wird mittels eines Merkmalsextraktionsmoduls eines neuronalen Netzwerks einer elektronischen Recheneinrichtung des Assistenzsystems kodiert. Das zumindest eine kodierte Bild wird mittels eines Objektsegmentierungsmoduls des neuronalen Netzwerks dekodiert und es wird ein erste Verlustfunktion mittels des Objektsegmentierungsmoduls erzeugt. Es erfolgt ein Dekodieren des zumindest einen kodierten Bilds mittels eines Begrenzungsrahmenschätzmoduls des neuronalen Netzwerks und es erfolgt ein Erzeugen einer zweiten Verlustfunktion mittels des Begrenzungsrahmenschätzmoduls. Die zweite Verlustfunktion wird in Abhängigkeit von der Dekodierung des zumindest einen Bilds mittels eines Bewegungsdekodierungsmoduls des neuronalen Netzwerks dekodiert und eine dritte Verlustfunktion wird mittels des Bewegungsdekodierungsmoduls erzeugt. Das Bewegungsmodell wird in Abhängigkeit von zumindest der ersten Verlustfunktion und der dritten Verlustfunktion mittels des neuronalen Netzwerks bestimmt.
-
Dadurch ist es ermöglicht, dass insbesondere einzelne Objekte verbessert erfasst werden können. Insbesondere können einzelne, sich bewegende Objekte, welche sich nahe zueinander befinden, verbessert erfasst werden. Dadurch kann eine robustere und akkuratere Bewegungssegmentierung durchgeführt werden.
-
Mit anderen Worten ist ein neuronales Netzwerk vorgeschlagen, welches insbesondere auch als konvolutes neuronales Netzwerk bezeichnet werden kann, welches Instanzen von sich bewegenden Objekten extrahiert und die jeweiligen dynamischen Bewegungen einzeln modelliert. Um nun das neuronale Netzwerk robuster zu gestalten, werden frühere Informationen als „sanfte Einschränkungen“ mit in das neuronale Netzwerk einbezogen.
-
Gemäß einer vorteilhaften Ausgestaltungsform wird von dem Begrenzungsrahmenschätzmodul ein dreidimensionaler Begrenzungsrahmen erzeugt und in Abhängigkeit von dem dreidimensionalen Begrenzungsrahmen wird die zweite Verlustfunktion erzeugt. Der Begrenzungsrahmen kann insbesondere auch als Box, insbesondere als Bounding-Box, bezeichnet werden. Mit anderen Worten kann eine 3D-Box mittels des Begrenzungsrahmenschätzmoduls erzeugt werden. Insbesondere kann zusätzlich zu dieser 3D-Box eine Orientierung dieser 3D-Box mit erzeugt werden. Eine 3D-Box beschreibt insbesondere eine zuverlässige Repräsentation von starren Kraftfahrzeugen und sich bewegender Fußgänger.
-
Es hat sich weiterhin als vorteilhaft erwiesen, wenn von dem Begrenzungsrahmenschätzmodul ein zweidimensionaler Begrenzungsrahmen erzeugt wird und in Abhängigkeit von dem zweidimensionalen Begrenzungsrahmen eine vierte Verlustfunktion erzeugt wird. Insbesondere kann die 2D-Box sowie ein Zuverlässigkeitswert in Bildkoordinaten erzeugt werden. Die 2D-Boxen sind optimiert durch standardmäßige Verlustfunktionen für Begrenzungsrahmen.
-
Ferner hat es sich als vorteilhaft erwiesen, wenn die vierte Verlustfunktion an das Objektsegmentierungsmodul übertragen wird und die erste Verlustfunktion in Abhängigkeit von der vierten Verlustfunktion erzeugt wird. Insbesondere kann die Vorhersage der 2D-Box durch die Kombination sowohl von der Bewegung als auch von der Erscheinung trainiert werden. Die 2D-Boxen werden dann mit weiteren Informationen fusioniert und in einem lernfähigen Fusionsdekodierer kombiniert, um die Objektsegmentierung durchzuführen. Dies ist insbesondere durch die erste Verlustfunktion optimiert. Die erste Verlustfunktion basiert auf der semantischen Segmentierung von pixelweisem Kreuzentropieverlust unter Verwendung der Ground Truth der instanzbasierten Bewegungssegmentierung, bei der jedes bewegte Objekt mit einem anderen Wert annotiert wird. Das lernfähige Objektsegmentierungsmodul schafft dabei die Robustheit, wenn beispielsweise eines dieser Eingänge fehlt, da insbesondere der Ausgang des Objektsegmentierungsmoduls für die Objektdetektion optimiert ist.
-
In einer weiteren vorteilhaften Ausgestaltungsform wird das zumindest eine Bild mittels eines Raumtransformationsmoduls des neuronalen Netzwerks ausgewertet und in Abhängigkeit von dem ausgewerteten Bild wird zumindest die zweite Verlustfunktion mit dem Begrenzungsrahmenschätzmodul erzeugt. Das Raumtransformationsmodul kann auch als Spatial-Transformermodul bezeichnet werden. Insbesondere kann dadurch eine Szenen-Geometrie der Umgebung mit einbezogen werden, wobei ein flaches Gitter die Oberfläche einer Straße repräsentieren kann und das Raumtransformationsmodul derart angelernt wird, dass alle Informationen einer Kamera zu einem einheitlichen Koordinatensystem relativ zu dem flachen Gitter verbunden werden. Dies wird insbesondere durch Feldversuche für das flache Gitter und die Kartierung von annotierten Objekten im dreidimensionalen Raum auf der Grundlage von extrinsischen Informationen und Tiefeninformationen berücksichtigt. Insbesondere kann ferner vorgesehen sein, obwohl die Annahme einer flachen Straße in vielen Fällen bereits funktioniert, dass auch ansteigende Straßen berücksichtigt werden können innerhalb des Raumtransformationsmoduls. Das flache Gitter wird dabei in Untergitter geteilt und jedes Gitterelement hat einen konfigurierbaren Winkel für eine Erhebung, welcher als Ausgang für die nicht flachen Straßen kompensiert werden kann.
-
Ebenfalls vorteilhaft ist, wenn zur Erzeugung der zweiten Verlustfunktion die dritte Verlustfunktion von dem Bewegungsdekodierungsmodul an das Begrenzungsrahmenschätzmodul rückpropagiert wird. Mit anderen Worten verfügt das Bewegungsdekodierungsmodul als Decoder über einen rückführenden Knoten, um die Schätzungen der 3D-Box und frühere Schätzungen des Bewegungsmodells zu verbessern und zeitlich zu glätten.
-
Weiterhin vorteilhaft ist, wenn ein erstes Bild zu einem ersten Zeitpunkt und ein zweites Bild zu einem zum ersten Zeitpunkt späteren zweiten Zeitpunkt erfasst wird und das erste Bild von einem ersten Merkmalsextraktionselement des Merkmalsextraktionsmoduls kodiert wird und das zweite Bild von einem zweiten Merkmalsextraktionselement des Merkmalsextraktionsmoduls kodiert wird und das Bewegungsmodell in Abhängigkeit von dem ersten kodierten Bild und dem zweiten kodierten Bild bestimmt wird. Insbesondere kann somit ein „siamesischer Zweistrom-Kodierer“ für aufeinanderfolgende Bilder eines Videosequenzbildes bereitgestellt werden. Dieser Kodierer hat identische Gewichte für die zwei Bilder, sodass diese effektiv in einem Rollpuffer-Modus bearbeitet werden können, sodass nur dieser Encoder in einem Dauerbetrieb für einen Ausgang betrieben wird. Dies ermöglicht es ferner, dass der vorgeschlagene Algorithmus in ein multi-task-geteiltes Kodierersystem eingebracht werden kann. Beispielsweise kann zur Implementierung des Kodierers Resnet 18 und Resnet 50 genutzt werden.
-
Ferner hat es sich als vorteilhaft erwiesen, wenn mittels eines geometrischen Unterstützungsdekodierungsmoduls des neuronalen Netzwerks eine sechste Verlustfunktion mit geometrischen Einschränkungen für das Objekt erzeugt wird und zusätzlich in Abhängigkeit der sechsten Verlustfunktion das Bewegungsmodell bestimmt wird. Insbesondere können somit spezifische geometrische Beschränkungen beziehungsweise Einschränkungen dem neuronalen Netzwerk vorgegeben werden, unter welchen Bedingungen dieses das Bewegungsmodell erzeugt. Insbesondere können diese geometrischen Einschränkungen beispielsweise auf der Grundlage von Mehrfachansichten-Geometrien von Kameras, Szenen-Prioritäten auf der Grundlage der realen Geometrie von Straßenszenen, Bewegungs-Prioritäten auf der Grundlage des Bewegungsverhaltens von Fahrzeugen und Fußgängern und der zeitlichen Konsistenz der Bewegungsabschätzung bestimmt werden.
-
In einer weiteren vorteilhaften Ausgestaltungsform wird mittels eines optischen Flusselements des geometrischen Unterstützungsdekodierungsmoduls ein optischer Fluss im zumindest einen Bild bestimmt und es wird mittels eines geometrischen Einschränkungselements des geometrischen Unterstützungsdekodierungsmoduls die geometrische Einschränkung in Abhängigkeit von dem bestimmten optischen Fluss bestimmt. Insbesondere kann der optische Fluss, insbesondere der dichte optische Fluss, per Pixel im Bild eine Bewegung erkennen. Dadurch ist es ermöglicht, dass der Kodierer bewegungsbasierte Eigenschaften besser lernt und nicht zu sehr an das Erscheinungsbild anpasst, da der typische Datensatz hauptsächlich Fahrzeuge und Fußgänger als bewegliche Objekte beinhaltet. Ferner erlaubt der optische Fluss das Einbeziehen der Multi-View-Geometrie der Kameras. Der geometrische Decoder bestimmt einen optischen Fluss und einen geometrischen Verlust als sechste Verlustfunktion, um epipolare Beschränkungen, positive Tiefe/Höhe als Beschränkung und parallele Bewegungsbeschränkung mit einbeziehen zu können.
-
Weiterhin vorteilhaft ist, wenn zur Erzeugung des Bewegungsmodells ein geometrisches Mittel aus zumindest der ersten Verlustfunktion und zumindest der dritten Verlustfunktion mittels der elektronischen Recheneinrichtung gebildet wird. Insbesondere kann vorgesehen sein, dass zur Erzeugung des Bewegungsmodells das geometrische Mittel aus der ersten Verlustfunktion, der zweiten Verlustfunktion, der dritten Verlustfunktion, der vierten Verlustfunktion, der fünften Verlustfunktion und der sechsten Verlustfunktion gebildet werden kann. Die erläuterten Feldversuche (ground truth) können möglicherweise nicht gleichzeitig alle Verlustfunktionen erzeugen. In diesem Fall könnten die Verlustfunktionen durch asynchrone Rückpropagation getrennt voneinander marginalisiert und gelernt werden. Ferner kann ein selbstüberwachender Lernmechanismus genutzt werden, wobei die 3D-Box mit dem Bewegungsmodell des korrespondierenden Objekts rückprojiziert werden kann, um ein grobes zweidimensionales Segment des Bildes zu erhalten, welches dann wiederum mit dem beobachteten Objekt gematcht werden kann. Da es sich hierbei nicht um ein präzises Matching handelt, wird ein Regulierer verwendet, um entsprechende Toleranzen zu nutzen. Das selbstüberwachende Lernen ermöglicht die Verminderung einer großen Anzahl von Daten.
-
Weiterhin vorteilhaft ist, wenn zur Bestimmung des Bewegungsmodells des sich bewegenden Objekts mittels des Bewegungsdekodierungsmoduls sechs Freiheitsgrade des Objekts bestimmt werden. Insbesondere können diese Freiheitsgrade die Richtungen dx, dy, dz sowie den Rollwinkel, den Neigungswinkel und den Gierwinkel umfassen. Diese sechs Freiheitsgrade sind für jedes Objekt beziehungsweise für jede Eigenschaft des sich bewegenden Objekts bestimmt. Das Bewegungsdekodierungsmodul nutzt dabei den Ausgang des Objektsegmentierungsmoduls und die 3D-Box um ein unabhängiges Bewegungsmodell für jedes sich bewegende Objekt zu erzeugen. Es werden die Vorinformationen zum sich bewegenden Objekt kodiert. Die kanonische dreidimensionale Bewegung von anderen Objekten ist insbesondere entweder parallel zum Kraftfahrzeug oder in die gleiche Richtung, beispielsweise auf benachbarten Fahrbahnen oder im rechten Winkel zum Kraftfahrzeug. Es können ferner auch weitere Bewegungen gelernt werden, beispielsweise wenn sich das Kraftfahrzeug selbst bewegt. Es werden bei Feldversuchen die parallelen und die rechtwinkligen Bewegungen separat erzeugt und ein generisches Bewegungsmodell wird erzeugt. Es wird dann insbesondere die dritte Verlustfunktion auf Basis eines sechsdimensionalen Vektors durch Feldversuche einer dreidimensionalen Bewegung und durch die abgeschätzte Bewegung erzeugt. Das Bewegungsmodell ist unabhängig für jedes Objekt erzeugt. Insbesondere ist jedoch eine abhängige Beziehung zwischen den jeweiligen Bewegungsmodellen der unterschiedlichen Objekte. Es kann daher vorgesehen sein, dass die Bewegungsmodelle der unterschiedlichen Objekte mittels eines Graphen neuronalen Netzwerks zusammengeführt werden. Das Graphen neuronale Netzwerk ermöglicht damit ein Ende-zu-Ende-Training für ein gesamtes Modell für eine Vielzahl von unterschiedlichen sich bewegenden Objekten.
-
Ein weiterer Aspekt der Erfindung betrifft ein Computerprogrammprodukt mit Programmcodemitteln, welche in einem computerlesbaren Medium gespeichert sind, um das Verfahren zum Bestimmen eines Bewegungsmodells nach dem vorhergehenden Aspekt durchzuführen, wenn das Computerprogrammprodukt auf einem Prozessor einer elektronischen Recheneinrichtung abgearbeitet wird.
-
Ein nochmals weiterer Aspekt der Erfindung betrifft ein computerlesbares Speichermedium mit einem Computerprogrammprodukt, insbesondere eine elektronische Recheneinrichtung mit einem Computerprogrammprodukt, nach dem vorhergehenden Aspekt.
-
Ein nochmals weiterer Aspekt der Erfindung betrifft ein Assistenzsystem für ein Kraftfahrzeug zum Bestimmen eines Bewegungsmodells eines sich bewegenden Objekts in einer Umgebung des Kraftfahrzeugs, mit zumindest einer Erfassungseinrichtung und mit einer elektronischen Recheneinrichtung, welche ein neuronales Netzwerk mit zumindest einem Merkmalsextraktionsmodul, einem Objektsegmentierungsmodul, einem Begrenzungsrahmenschätzmodul und einem Bewegungsdekodierungsmodul aufweist, wobei das Assistenzsystem zum Durchführen eines Verfahrens nach dem vorhergehenden Aspekt ausgebildet ist. Insbesondere wird das Verfahren mittels des Assistenzsystems durchgeführt.
-
Ein nochmals weiterer Aspekt der Erfindung betrifft ein Kraftfahrzeug mit einem Assistenzsystem gemäß dem vorhergehenden Aspekt. Das Kraftfahrzeug ist insbesondere als Personenkraftwagen ausgebildet. Ferner ist das Kraftfahrzeug insbesondere zumindest teilweise autonom, insbesondere vollautonom, ausgebildet. Das Assistenzsystem kann beispielsweise für den autonomen Betrieb beziehungsweise für ein autonomes Parkmanöver eingesetzt werden.
-
Vorteilhafte Ausgestaltungsformen des Verfahrens sind als vorteilhafte Ausgestaltungsformen des Computerprogrammprodukts, des computerlesbaren Speichermediums, des Assistenzsystems sowie des Kraftfahrzeugs anzusehen. Das Assistenzsystem sowie das Kraftfahrzeug weisen dazu gegenständliche Merkmale auf, welche eine Durchführung des Verfahrens oder einer vorteilhafte Ausgestaltungsform davon ermöglichen.
-
Weitere Merkmale der Erfindung ergeben sich aus den Ansprüchen, den Figuren und der Figurenbeschreibung. Die vorstehend in der Beschreibung genannten Merkmale und Merkmalskombinationen, sowie die nachfolgend in der Figurenbeschreibung genannten und/oder in den Figuren alleine gezeigten Merkmale und Merkmalskombinationen sind nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen verwendbar, ohne den Rahmen der Erfindung zu verlassen. Es sind somit auch Ausführungen von der Erfindung als umfasst und offenbart anzusehen, die in den Figuren nicht explizit gezeigt und erläutert sind, jedoch durch separierte Merkmalskombinationen aus den erläuterten Ausführungen hervorgehen und erzeugbar sind. Es sind auch Ausführungen und Merkmalskombinationen als offenbart anzusehen, die somit nicht alle Merkmale eines ursprünglich formulierten unabhängigen Anspruchs aufweisen. Es sind darüber hinaus Ausführungen und Merkmalskombinationen, insbesondere durch die oben dargelegten Ausführungen, als offenbart anzusehen, die über die in den Rückbezügen der Ansprüche dargelegten Merkmalskombinationen hinausgehen oder abweichen.
-
Die Erfindung wird nun anhand von bevorzugten Ausführungsbeispielen sowie unter Bezugnahme auf die beigefügten Zeichnungen näher erläutert.
-
Dabei zeigen:
- 1 eine schematische Draufsicht auf eine Ausführungsform eines Kraftfahrzeugs mit einer Ausführungsform eines Assistenzsystems;
- 2 ein schematisches Blockschaltbild einer Ausführungsform des Assistenzsystems; und
- 3 eine schematische Ansicht eines Straßenszenarios.
-
In den Figuren sind gleiche oder funktionsgleiche Elemente mit gleichen Bezugszeichen versehen.
-
1 zeigt in einer schematischen Draufsicht eine Ausführungsform eines Kraftfahrzeugs 1 mit einer Ausführungsform eines Assistenzsystems 2. Das Assistenzsystem 2 kann beispielsweise für ein zumindest teilweise autonomes Parken des Kraftfahrzeugs 1 genutzt werden. Ferner kann das Assistenzsystem 2 auch für einen autonomen Fahrbetrieb des Kraftfahrzeugs 1 genutzt werden. Das Assistenzsystem 2 ist zum Bestimmen eines Bewegungsmodells 3 für ein sich bewegendes Objekt 4 in einer Umgebung 5 des Kraftfahrzeugs 1 ausgebildet. Das Assistenzsystem 2 weist zumindest eine Erfassungseinrichtung 6, welche insbesondere als Kamera ausgebildet sein kann, sowie eine elektronische Recheneinrichtung 7 auf. Die elektronische Recheneinrichtung 7 weist ferner insbesondere ein neuronales Netzwerk 8 auf.
-
2 zeigt in einem schematischen Blockschaltbild eine Ausführungsform des Assistenzsystems 2, insbesondere des neuronalen Netzwerks 8. Das neuronale Netzwerk 8 weist zumindest ein Merkmalsextraktionsmodul 9, ein Objektsegmentierungsmodul 10, ein Begrenzungsrahmenschätzmodul 11 und ein Bewegungsdekodierungsmodul 12 auf. Von dem Begrenzungsrahmenschätzmodul 11 wird insbesondere ein dreidimensionaler Begrenzungsrahmen 13 erzeugt. Ferner zeigt die 2, dass von dem Begrenzungsrahmenschätzmodul 11 ein zweidimensionaler Begrenzungsrahmen 14 erzeugt wird. Ferner weist das neuronale Netzwerk 8 insbesondere ein Bewegungssegmentierungsmodul 15, ein Raumtransformationsmodul 16 sowie ein geometrisches Unterstützungsdekodierungsmodul 17 auf, wobei das geometrische Unterstützungsdekodierungsmodul 17 wiederum ein optisches Flusselement 18 sowie ein geometrisches Einschränkungselement 19 aufweist.
-
Beim Verfahren zum Bestimmen des Bewegungsmodells 3 des sich bewegenden Objekts 4 in der Umgebung 5 des Kraftfahrzeugs 1 mittels des Assistenzsystems 2 erfolgt zumindest ein Erfassen eines Bilds 20, 21 der Umgebung 5 mit dem sich bewegenden Objekt 4 mittels der Erfassungseinrichtung 6 des Assistenzsystems 2. Es erfolgt ein Kodieren des zumindest einen Bilds 20, 21 mittels des Merkmalsextraktionsmoduls 9 des neuronalen Netzwerks 8 der elektronischen Recheneinrichtung 7 des Assistenzsystems 2. Es wird das zumindest eine kodierte Bild 20, 21 mittels des Objektsegmentierungsmoduls 10 des neuronalen Netzwerks 8 dekodiert und es erfolgt ein Erzeugen einer ersten Verlustfunktion 22 mittels des Objektsegmentierungsmoduls 10. Es wird das zumindest eine kodierte Bild 20, 21 mittels des Begrenzungsrahmenschätzmoduls 11 des neuronalen Netzwerks 8 dekodiert und es erfolgt ein Erzeugen einer zweiten Verlustfunktion 23 mittels des Begrenzungsrahmenschätzmoduls 11. Es wird die zweite Verlustfunktion 23 in Abhängigkeit von der Dekodierung des zumindest einen Bilds 20, 21 mittels des Bewegungsdekodierungsmoduls 12 des neuronalen Netzwerks 8 kodiert und es erfolgt ein Erzeugen einer dritten Verlustfunktion 24 mittels des Bewegungsdekodierungsmoduls 12. Es wird das Bewegungsmodell 3 in Abhängigkeit von zumindest der ersten Verlustfunktion 22 und der dritten Verlustfunktion 24 mittels des neuronalen Netzwerks 18 erzeugt.
-
Insbesondere zeigt die 2 ferner, dass von dem Begrenzungsrahmenschätzmodul 11 der dreidimensionale Begrenzungsrahmen 13 erzeugt wird und in Abhängigkeit von dem dreidimensionalen Begrenzungsrahmen 13 die zweite Verlustfunktion 23 erzeugt wird. Ferner kann von dem Begrenzungsrahmenschätzmodul 11 der zweidimensionale Begrenzungsrahmen 14 erzeugt werden und in Abhängigkeit von dem zweidimensionalen Begrenzungsrahmen 14 wird eine vierte Verlustfunktion 25 erzeugt. Die vierte Verlustfunktion 25 kann wiederum an das Objektsegmentierungsmodul 10 übertragen werden und die erste Verlustfunktion 22 wird in Abhängigkeit von der vierten Verlustfunktion 25 erzeugt. Ferner ist insbesondere vorgesehen, dass das zumindest eine kodierte Bild 20, 21 von dem Bewegungssegmentierungsmodul 15 des neuronalen Netzwerks 18 dekodiert wird und eine fünfte Verlustfunktion 26 mit dem Bewegungssegmentierungsmodul 15 erzeugt wird und an das Objektsegmentierungsmodul 10 übertragen wird und die erste Verlustfunktion 22 mittels des Objektsegmentierungsmoduls 22 in Abhängigkeit von der fünften Verlustfunktion 26 erzeugt wird.
-
Ferner ist insbesondere gezeigt, dass das zumindest eine Bild 20, 21 mittels des Raumtransformationsmoduls 16 des neuronalen Netzwerks 18 ausgewertet wird und in Abhängigkeit von dem ausgewerteten Bild 20, 21 zumindest die zweite Verlustfunktion 23 mit dem Begrenzungsrahmenschätzmodul 11 erzeugt wird.
-
Ferner zeigt die 2, dass zur Erzeugung der zweiten Verlustfunktion 23 die dritte Verlustfunktion 24 von dem Bewegungsdekodierungsmodul 12 an das Begrenzungsrahmenschätzmodul 11 rückpropagiert wird, wobei dies insbesondere durch die Verbindung 27 vorliegend gezeigt ist.
-
Des Weiteren kann vorgesehen sein, dass zumindest ein erstes Bild 20 zu einem ersten Zeitpunkt t1 und ein zweites Bild 21 zu einem zum ersten Zeitpunkt t1 späteren zweiten Zeitpunkt t2 erfasst wird und das erste Bild 20 von einem ersten Merkmalsextraktionselement 28 des Merkmalsextraktionsmoduls 9 kodiert wird und das zweite Bild 21 von einem zweiten Merkmalsextraktionselement 29 des Merkmalsextraktionsmoduls 9 kodiert wird und das Bewegungsmodell 3 in Abhängigkeit von dem ersten kodierten Bild 20 und dem zweiten kodierten Bild 21 bestimmt wird. Insbesondere ist ferner gezeigt, dass mittels des geometrischen Unterstützungsdekodierungsmoduls 17 des neuronalen Netzwerks 8 eine sechste Verlustfunktion 30 mit geometrischen Einschränkungen für das Objekt 4 erzeugt wird und zusätzlich in Abhängigkeit von der sechsten Verlustfunktion 30 das Bewegungsmodell 3 bestimmt wird. Insbesondere kann mittels des optischen Flusselements 18 des geometrischen Unterstützungsdekodierungsmoduls 17 ein optischer Fluss im zumindest einen Bild 20, 21 bestimmt werden und mittels des geometrischen Einschränkungselements 19 des geometrischen Unterstützungsdekodierungsmoduls 17 die geometrische Einschränkung in Abhängigkeit von dem bestimmten optischen Fluss bestimmt werden.
-
Das Merkmalsextraktionsmodul 9 somit als „siamesischer Encoder“ für zwei aufeinander folgende Bilder 20, 21 eines Videostreams verwendet. Der siamesische Encoder verwendet identische Gewichte für die beiden Bilder 20, 21, so dass diese effektiv in einer Art Rolling-Buffer laufen können, so dass nur der Codierer im stationären Zustand für einen Ausgang genutzt wird. Dieser Aufbau ermöglicht es dem vorgeschlagenen Algorithmus auch in ein gemeinsames Multi-Task-geteiltes Encodersystem mit anderen Aufgaben integriert werden.
-
Das Bewegungssegmentierungsmodul 15 ist ein binärer Segmentierungsdecoder, der für die fünfte Verlustfunktion 26 optimiert ist. Dieser Decoder ist rein für die Aufgabe der Bewegungssegmentierung optimiert. Die Ground-Truth-Annotation basiert auf einer Zwei-Klassen-Segmentierung, nämlich bewegte und statische Pixel.
-
Das Begrenzungsrahmenschätzmodul 11 ist insbesondere als 2D/3D-Box-Decoder ausgebildet und gibt 2D-Boxen und einen Vertrauenswert in Bildkoordinaten und 3D-Boxen in Weltkoordinaten zusammen mit der Orientierung aus. 2D-Boxen werden unter Verwendung der Standard-Bounding-Box-Verlustfunktion optimiert. Es wird ferner das Raumtransformator-Modul 16 genutzt, um eine Szenengeometrie einzubinden, bei der ein flaches Gitter die Straßenoberfläche darstellen kann, und der Raumtransformator lernt, alle Kameras auf ein einheitliches Koordinatensystem relativ zum flachen Gitter auszurichten. Dies wird durch Feldversuche des flachen Gitters und die Kartierung annotierter Objekte in 3D auf der Grundlage von extrinsischen Informationen und Tiefenschätzung berücksichtigt. Es können auch geneigte Straßen vorhanden sein, die ebenfalls in das Raumtransformator-Modul 16 einbezogen werden können. Das flache Gitter ist in Untergitter unterteilt, und jedes Gitterelement hat eine konfigurierbare Neigung, die ausgegeben werden kann, um nicht flache Straßen auszugleichen.
-
Für das Objektsegmentierungsmodul 10 wird die 2D-Box-Vorhersage derart trainiert, dass sie eine Kombination aus Bewegung und Erscheinung ist. Die 2D-Boxen werden mit der Bewegungssegmentierungsausgabe des Bewegungssegmentierungsmoduls 15 unter Verwendung eines lernfähigen Fusionsdecoders zusammengeführt. Dies wird mit der ersten Verlustfunktion 22 optimiert. Die erste Verlustfunktion 22 basiert auf einer semantischen Segmentierung mit pixelweisem Kreuzentropie-Verlust unter Verwendung von Feldversuchen von einer instanzbasiertern Bewegungs-Segmentierung, bei der jedes sich bewegende Objekt 4 mit einem anderen Wert versehen wird. Die lernfähige Fusion ermöglicht eine Robustheit, wenn einer der Eingänge fehlt, da der Fusionsausgang beispielsweise für die Erkennung optimiert ist.
-
Bei dem Bewegungsdekodierungsmodul 12 handelt es sich um ein Modul, bei dem die 3D-Bewegung (6 Freiheitsgrade dx, dy, dz, Gierwinkel, Nickwinkel und Rollwinkel) für jeden Fall eines sich bewegenden Objekts 4 geschätzt wird. Dieser Decoder nutzt die Ausgabe des Objektsegmentierungsmoduls 11, was insbesondere durch den Pfeil 31 dargestellt ist, und die Ausgabe der 3D-Box, um ein unabhängiges Bewegungsmodell 3 für jedes sich bewegende Objekt 4 zu erzeugen. Dieser Decoder verfügt auch über eine Rückpropagation, um die Schätzungen der 3D-Box zu verbessern und zeitlich zu glätten. Es werden Vorabinformationen zum Bewegungsmodell 3 genutzt, wie beispielsweise eine kanonische 3D-Bewegung anderer Objekte 4, welche entweder parallel zum Kraftfahrzeug 1 auf derselben oder benachbarten Fahrspuren oder senkrecht dazu sind. Obwohl es auch andere Bewegungen gibt, wie beispielsweise eine Drehung des Kraftfahrzeugs 1, ist es vorteilhaft, sich zu spezialisieren und diese Bewegungen separat zu erlernen. Durch Feldversuche werden die parallelen und die senkrechten Bewegungen getrennt und ein generisches Bewegungsmodell 3 auch für die Handhabung anderer Fälle erzeugt. Das Bewegungsmodell 3 wird für jedes Objekt 4 unabhängig modelliert. Es gibt jedoch eine Abhängigkeit der Bewegungsmodelle 3. Die Bewegungsmodelle 3 der einzelnen Objekte 4 können daher beispielsweise über ein Graphen neuronales Netzwerk zusammengeführt werden. Die Modellierung über das Graphen neuronale Netz ermöglicht ein Ende-zu-Ende-Training für das vollständige Modell.
-
Im geometrischen Unterstützungsdekodierungsmodul 17 wird ein dichter optischer Fluss erzeugt auf Basis einer bildbasierten Bewegung pro Pixel. Dadurch wird der Kodierer dazu gezwungen, bewegungsbasierte Merkmale besser zu lernen und sich nicht zu sehr an Erscheinungsmerkmale anzupassen, da der typische Datensatz hauptsächlich Fahrzeuge und Fußgänger als sich bewegende Objekte 4 enthält. Des Weiteren ermöglicht der optische Fluss die Einbeziehung geometrischer Beschränkungen für mehrere Ansichten.
-
Der vorgeschlagene geometrische Decoder berechnet den dichten optischen Fluss und ein geometrischer Verlust, insbesondere die sechste Verlustfunktion 30, wird bestimmt, um epipolare Beschränkung, positive Tiefen-/Höhenbeschränkung und parallele Bewegungsbeschränkung zu integrieren.
-
Die Gesamtverlustfunktion ist insbesondere ein geometrisches Produkt der einzelnen Verlustfunktionen 22, 23, 24, 25, 26, 30. Die entsprechenden Feldversuche stehen möglicherweise nicht gleichzeitig für alle diese Verlustfunktionen 22, 23, 24, 25, 26, 30 zur Verfügung. In diesem Fall können sie an den Rand gedrängt und separat gelernt werden, indem man eine asynchrone Back-Propagation verwendet. Es wird ferner ein selbstüberwachtes Lernen vorgeschlagen, bei dem die 3D-Box zusammen mit dem Bewegungsmodell 3 des entsprechenden Objekts 4 neu projiziert werden kann, um ein grobes 2D-Segment auf dem Bild zu erhalten, das mit dem beobachteten Objekt 4 übereinstimmt. Da es sich nicht um ein präzises Matching handelt, wird ein Regulierer für das Matching verwendet, um Toleranzen zu ermöglichen. Das selbstüberwachte Lernen ermöglicht es, einen Mangel an großen Datenmengen auszugleichen.
-
3 zeigt eine schematische Perspektivansicht eines Straßenszenarios. Zum Einen befindet sich vor dem Kraftfahrzeug 1 auf der rechten Spur ein weiteres Kraftfahrzeugs, welches insbesondere als Kleinbus dargestellt ist. Vor dem Kraftfahrzeug 1 auf der gleichen Spur befindet sich ein nochmals weiteres Kraftfahrzeug. Auf der entgegenkommenden Spur des Kraftfahrzeug 1 kommt ein weiteres Kraftfahrzeug entgegen. Den drei Kraftfahrzeugen wird jeweils eine 3D-Box zugewiesen. In der 3 sind die Positionen der drei Kraftfahrzeuge zu drei unterschiedlichen Zeitpunkten gezeigt. 3 zeigt somit, wie eine Objektverfolgung mittels des erfindungsgemäßen Verfahrens ermöglicht ist.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- US 2019370980 AA [0003]
- US 2014177946 A [0004]
- CN 104166861 A [0005]
- US 2019005361 AA [0006]
- CN 108492319 A [0007]