DE102020126690A1 - Verfahren zum Bestimmen eines Bewegungsmodells eines Objekts in einer Umgebung eines Kraftfahrzeugs, Computerprogrammprodukt, computerlesbares Speichermedium sowie Assistenzsystem - Google Patents

Verfahren zum Bestimmen eines Bewegungsmodells eines Objekts in einer Umgebung eines Kraftfahrzeugs, Computerprogrammprodukt, computerlesbares Speichermedium sowie Assistenzsystem Download PDF

Info

Publication number
DE102020126690A1
DE102020126690A1 DE102020126690.1A DE102020126690A DE102020126690A1 DE 102020126690 A1 DE102020126690 A1 DE 102020126690A1 DE 102020126690 A DE102020126690 A DE 102020126690A DE 102020126690 A1 DE102020126690 A1 DE 102020126690A1
Authority
DE
Germany
Prior art keywords
loss function
module
image
motion
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020126690.1A
Other languages
English (en)
Inventor
Letizia Mariotti
Senthil Kumar Yogamani
Ciaran Hughes
Hazem Rashed
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Connaught Electronics Ltd
Original Assignee
Connaught Electronics Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Connaught Electronics Ltd filed Critical Connaught Electronics Ltd
Priority to DE102020126690.1A priority Critical patent/DE102020126690A1/de
Priority to EP21787411.4A priority patent/EP4226323A1/de
Priority to US18/248,671 priority patent/US20230394680A1/en
Priority to PCT/EP2021/077506 priority patent/WO2022078828A1/en
Publication of DE102020126690A1 publication Critical patent/DE102020126690A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle

Abstract

Die Erfindung betrifft ein Verfahren zum Bestimmen eines Bewegungsmodells (3) eines Objekts (4) mittels eines Assistenzsystems (2), mit den Schritten:- Erfassen eines Bilds (20, 21) der Umgebung (5) mit dem Objekt (4) mittels einer Erfassungseinrichtung (4);- Kodieren des Bilds (20, 21) mittels eines Merkmalsextraktionsmoduls (9) eines neuronalen Netzwerks (8) einer elektronischen Recheneinrichtung (7);- Dekodieren des kodierten Bilds (20, 21) mittels eines Objektsegmentierungsmoduls (10) und Erzeugen einer ersten Verlustfunktion (22);- Dekodieren des kodierten Bilds (20, 21) mittels eines Begrenzungsrahmenschätzmoduls (11) und Erzeugen einer zweiten Verlustfunktion (23);- Dekodieren der zweiten Verlustfunktion (23) in Abhängigkeit von der Dekodierung des Bilds (20, 21) mittels eines Bewegungsdekodierungsmoduls (12) und Erzeugen einer dritten Verlustfunktion (24); und- Bestimmen des Bewegungsmodells (3) in Abhängigkeit von der ersten Verlustfunktion (22) und der dritten Verlustfunktion (24). Ferner betrifft die Erfindung ein Computerprogrammprodukt, ein computerlesbares Speichermedium sowie ein Assistenzsystem (2).

Description

  • Die Erfindung betrifft ein Verfahren zum Bestimmen eines Bewegungsmodells eines sich bewegenden Objekts in einer Umgebung eines Kraftfahrzeugs mittels eines Assistenzsystems des Kraftfahrzeugs. Ferner betrifft die Erfindung ein Computerprogrammprodukt, ein computerlesbares Speichermedium sowie ein Assistenzsystem.
  • Aus dem Stand der Technik ist bekannt, dass sich bewegende Objekte bei der Erfassung der Umgebung insbesondere im Bereich des Automobilbaus eine dominante Rolle spielen. Insbesondere sind sich bewegende Objekte schwieriger zu erfassen als beispielsweise statische Objekte. Die sich bewegenden Objekte sind sogenannte interaktive Agenten, welche ein hochdynamisches und unsicheres Szenario für die Planung, beispielsweise in einem zumindest teilweise autonomen Betrieb des Kraftfahrzeugs beziehungsweise einem vollautonomen Betrieb des Kraftfahrzeugs, bilden können. Insbesondere bei der Nutzung eines neuronalen Netzes zur Erfassung der Umgebung und dem Erzeugen des Bewegungsmodells kann es dazu kommen, dass bei einem Training des neuronalen Netzwerks unbekannte und untrainierte Objekte auftreten können, da beispielsweise nicht jedes Objekt, welches sich auf den Straßen befinden kann, dargestellt werden kann. Als Beispiel können Kängurus angesehen werden, für welche im Normalfall kein entsprechendes Bewegungsmodell abgespeichert ist. Ferner ist aus dem Stand der Technik bekannt, dass statische Objekte beispielsweise aus einer sogenannten vorgegebenen High-Definition-Map bestimmt werden können.
  • Die US 2019 370980 AA beschreibt ein Verfahren zum Durchführen einer Echtzeit-Erfassung von sich bewegenden Objekten, welche das Empfangen eines Eingangsvideostreams von einer Kamera umfasst, das Überprüfen, ob eine Bewegung in einem aktuellen Frame des Eingangsvideostreams aufgetreten ist, das Bereitstellen des aktuellen Frames zur Objekterfassung, wenn die Bewegung darin erfasst worden ist, das Erfassen eines sich bewegenden Objekts im aktuellen Frame, das Anzeigen des erfassten sich bewegenden Objekts, gleichzeitiges Verfolgen eines Ortes des erkannten sich bewegenden Objekts innerhalb des entsprechenden Frames, während die Objekterkennung für eines oder mehrere sich bewegende Objekte fortgesetzt wird, und das Erzeugen einer Verfolgungsbox und Überlagern der Verfolgungsbox auf das erkannte sich bewegende Objekt und dann ein Übertragen des Videos an den Bildschirm und Fortsetzen der Verfolgung des erkannten sich bewegenden Objekts, bis die Objekterkennung für ein oder mehrere entsprechende sich bewegende Objekte fortgesetzt wird.
  • Bei der US 2014 177946 A ist eine Vorrichtung und ein Verfahren zur Erkennung einer Person aus einem Eingangs-Videobild mit hoher Zuverlässigkeit unter Verwendung gradientenbasierter Merkmalsvektoren und eines neuronalen Netzes offenbart. Die Vorrichtung zur Erkennung einer Person umfasst eine Bildverarbeitungseinheit zur Modellierung eines Hintergrundbildes aus einem Eingabebild. Eine Einstelleinheit für den Bereich eines sich bewegenden Objekts legt einen Bereich eines sich bewegenden Objekts fest, in dem Bewegung vorhanden ist, indem eine Differenz zwischen dem Eingabebild und dem Hintergrundbild ermittelt wird. Eine Einheit zum Erfassen menschlicher Regionen extrahiert gradientenbasierte Merkmalsvektoren für einen ganzen Körper und einen Oberkörper aus dem sich bewegenden Objektbereich und detektiert eine menschliche Region, in der sich eine Person befindet, indem sie die gradientenbasierten Merkmalsvektoren für den ganzen Körper und den Oberkörper als Eingabe eines Klassifizierers für neuronale Netze verwendet. Eine Entscheidungseinheit entscheidet, ob ein Objekt in der detektierten menschlichen Region eine Person oder eine Nicht-Person ist.
  • Die CN 104166861 A offenbart ein Verfahren zur Erkennung von Fußgängern. Die Fußgänger-Detektionsmethode umfasst die Schritte: Ein Fußgänger-positiv-Probensatz und ein Fußgänger-negativ-Probensatz, die für das Training eines konvoluten neuronalen Netzes benötigt werden, werden vorverarbeitet. Die Probensätze werden vorbereitet und normalisiert, um einem einheitlichen Standard zu entsprechen und eine Datendatei wird erzeugt. Die Struktur des konvoluten neuronalen Netzes wird entworfen, das Training wird durchgeführt und eine Gewichtsverbindungsmatrix wird während der Konvergenz des Netzes erhalten. Eine selbstadaptive Hintergrundmodellierung wird auf Videos durchgeführt, Informationen über sich bewegende Objekte in jedem Frame werden erhalten, eine grobe Auswahl wird zunächst an erkannten Regionen bewegter Objekte durchgeführt, die Regionen mit einem nicht den Anforderungen genügenden Verhältnis von Höhe zu Breite werden ausgeschlossen, und es werden Kandidatenregionen generiert. Jede Kandidatenregion wird in das konvolute neuronale Netz eingegeben, und es wird beurteilt, ob Fußgänger vorhanden sind.
  • Die US 2019 005361 AA offenbart eine Technologie für das Erkennen und Identifizieren von Objekten in digitalen Bildern und im Besonderen auf das Erkennen, Identifizieren und/oder Verfolgen von sich bewegenden Objekten in Videobildern unter Verwendung eines neuronalen Netzes mit künstlicher Intelligenz, das für tiefes Lernen konfiguriert ist. In einem Aspekt umfasst ein Verfahren das Erfassen einer Videoeingabe von einer Szene, die einen oder mehrere Kandidaten für sich bewegende Objekte umfasst, unter Verwendung einer Videobilderfassungsvorrichtung, wobei die Videoeingabe mindestens zwei zeitlich beabstandete Bilder umfasst, die von der Szene erfasst wurden. Das Verfahren umfasst zusätzlich die Umwandlung der Videoeingabe in eine oder mehrere Bildmusterschichten, wobei jede der Bildmusterschichten ein Muster umfasst, das ein der sich bewegenden Kandidatenobjekte darstellt. Das Verfahren umfasst zusätzlich die Bestimmung einer Wahrscheinlichkeit der Übereinstimmung zwischen jeder der Bildmusterschichten und einem in einer großen Datenbibliothek gespeicherten Bild. Das Verfahren umfasst zusätzlich das automatische Hinzufügen einer oder mehrerer der Bildmusterschichten mit einer Übereinstimmungswahrscheinlichkeit, die einen vorbestimmten Wert überschreitet und die Ausgabe der Übereinstimmungswahrscheinlichkeit an einen Benutzer.
  • Die CN 108492319 A schlägt ein Verfahren zur Detektion bewegter Objekte vor, das auf einem tiefen, voll gefalteten neuronalen Netz basiert. Das Verfahren umfasst die Implementierungsschritte: Extrahieren eines Hintergrundbildes einer Videoszene; Erhalten einer Mehrkanal-Videobildfolge; Konstruieren eines Trainingsprobensatzes und eines Testprobensatzes und Ausführen der Normalisierung der beiden Probensätze; Konstruieren eines tiefen vorgefalteten neuronalen Netzwerkmodells; Ausführen des Trainings des aktiven vorgefalteten neuronalen Netzwerkmodells; Ausführen der Vorhersage des Testprobensatzes durch das trainierte tiefe vorgefaltete neuronale Netzwerkmodell; Erhalten eines Detektionsergebnisses für ein sich bewegendes Ziel.
  • Aufgabe der vorliegenden Erfindung ist es, ein Verfahren, ein Computerprogrammprodukt, ein computerlesbares Speichermedium sowie ein Assistenzsystem zu schaffen, mittels welchem verbessert einzelne, sich bewegende Objekte in der Umgebung eines Kraftfahrzeugs erfasst werden können.
  • Diese Aufgabe wird durch ein Verfahren, ein Computerprogrammprodukt, ein computerlesbares Speichermedium sowie durch ein Assistenzsystem gemäß den unabhängigen Patentansprüchen gelöst. Vorteilhafte Ausgestaltungsformen sind in den Unteransprüchen angegeben.
  • Ein Aspekt der Erfindung betrifft ein Verfahren zum Bestimmen eines Bewegungsmodells eines sich bewegenden Objekts in einer Umgebung eines Kraftfahrzeugs mittels eines Assistenzsystems des Kraftfahrzeugs. Es erfolgt ein Erfassen zumindest eines Bilds der Umgebung mit dem sich bewegenden Objekt mittels einer Erfassungseinrichtung des Assistenzsystems. Das zumindest eine Bild wird mittels eines Merkmalsextraktionsmoduls eines neuronalen Netzwerks einer elektronischen Recheneinrichtung des Assistenzsystems kodiert. Das zumindest eine kodierte Bild wird mittels eines Objektsegmentierungsmoduls des neuronalen Netzwerks dekodiert und es wird ein erste Verlustfunktion mittels des Objektsegmentierungsmoduls erzeugt. Es erfolgt ein Dekodieren des zumindest einen kodierten Bilds mittels eines Begrenzungsrahmenschätzmoduls des neuronalen Netzwerks und es erfolgt ein Erzeugen einer zweiten Verlustfunktion mittels des Begrenzungsrahmenschätzmoduls. Die zweite Verlustfunktion wird in Abhängigkeit von der Dekodierung des zumindest einen Bilds mittels eines Bewegungsdekodierungsmoduls des neuronalen Netzwerks dekodiert und eine dritte Verlustfunktion wird mittels des Bewegungsdekodierungsmoduls erzeugt. Das Bewegungsmodell wird in Abhängigkeit von zumindest der ersten Verlustfunktion und der dritten Verlustfunktion mittels des neuronalen Netzwerks bestimmt.
  • Dadurch ist es ermöglicht, dass insbesondere einzelne Objekte verbessert erfasst werden können. Insbesondere können einzelne, sich bewegende Objekte, welche sich nahe zueinander befinden, verbessert erfasst werden. Dadurch kann eine robustere und akkuratere Bewegungssegmentierung durchgeführt werden.
  • Mit anderen Worten ist ein neuronales Netzwerk vorgeschlagen, welches insbesondere auch als konvolutes neuronales Netzwerk bezeichnet werden kann, welches Instanzen von sich bewegenden Objekten extrahiert und die jeweiligen dynamischen Bewegungen einzeln modelliert. Um nun das neuronale Netzwerk robuster zu gestalten, werden frühere Informationen als „sanfte Einschränkungen“ mit in das neuronale Netzwerk einbezogen.
  • Gemäß einer vorteilhaften Ausgestaltungsform wird von dem Begrenzungsrahmenschätzmodul ein dreidimensionaler Begrenzungsrahmen erzeugt und in Abhängigkeit von dem dreidimensionalen Begrenzungsrahmen wird die zweite Verlustfunktion erzeugt. Der Begrenzungsrahmen kann insbesondere auch als Box, insbesondere als Bounding-Box, bezeichnet werden. Mit anderen Worten kann eine 3D-Box mittels des Begrenzungsrahmenschätzmoduls erzeugt werden. Insbesondere kann zusätzlich zu dieser 3D-Box eine Orientierung dieser 3D-Box mit erzeugt werden. Eine 3D-Box beschreibt insbesondere eine zuverlässige Repräsentation von starren Kraftfahrzeugen und sich bewegender Fußgänger.
  • Es hat sich weiterhin als vorteilhaft erwiesen, wenn von dem Begrenzungsrahmenschätzmodul ein zweidimensionaler Begrenzungsrahmen erzeugt wird und in Abhängigkeit von dem zweidimensionalen Begrenzungsrahmen eine vierte Verlustfunktion erzeugt wird. Insbesondere kann die 2D-Box sowie ein Zuverlässigkeitswert in Bildkoordinaten erzeugt werden. Die 2D-Boxen sind optimiert durch standardmäßige Verlustfunktionen für Begrenzungsrahmen.
  • Ferner hat es sich als vorteilhaft erwiesen, wenn die vierte Verlustfunktion an das Objektsegmentierungsmodul übertragen wird und die erste Verlustfunktion in Abhängigkeit von der vierten Verlustfunktion erzeugt wird. Insbesondere kann die Vorhersage der 2D-Box durch die Kombination sowohl von der Bewegung als auch von der Erscheinung trainiert werden. Die 2D-Boxen werden dann mit weiteren Informationen fusioniert und in einem lernfähigen Fusionsdekodierer kombiniert, um die Objektsegmentierung durchzuführen. Dies ist insbesondere durch die erste Verlustfunktion optimiert. Die erste Verlustfunktion basiert auf der semantischen Segmentierung von pixelweisem Kreuzentropieverlust unter Verwendung der Ground Truth der instanzbasierten Bewegungssegmentierung, bei der jedes bewegte Objekt mit einem anderen Wert annotiert wird. Das lernfähige Objektsegmentierungsmodul schafft dabei die Robustheit, wenn beispielsweise eines dieser Eingänge fehlt, da insbesondere der Ausgang des Objektsegmentierungsmoduls für die Objektdetektion optimiert ist.
  • In einer weiteren vorteilhaften Ausgestaltungsform wird das zumindest eine Bild mittels eines Raumtransformationsmoduls des neuronalen Netzwerks ausgewertet und in Abhängigkeit von dem ausgewerteten Bild wird zumindest die zweite Verlustfunktion mit dem Begrenzungsrahmenschätzmodul erzeugt. Das Raumtransformationsmodul kann auch als Spatial-Transformermodul bezeichnet werden. Insbesondere kann dadurch eine Szenen-Geometrie der Umgebung mit einbezogen werden, wobei ein flaches Gitter die Oberfläche einer Straße repräsentieren kann und das Raumtransformationsmodul derart angelernt wird, dass alle Informationen einer Kamera zu einem einheitlichen Koordinatensystem relativ zu dem flachen Gitter verbunden werden. Dies wird insbesondere durch Feldversuche für das flache Gitter und die Kartierung von annotierten Objekten im dreidimensionalen Raum auf der Grundlage von extrinsischen Informationen und Tiefeninformationen berücksichtigt. Insbesondere kann ferner vorgesehen sein, obwohl die Annahme einer flachen Straße in vielen Fällen bereits funktioniert, dass auch ansteigende Straßen berücksichtigt werden können innerhalb des Raumtransformationsmoduls. Das flache Gitter wird dabei in Untergitter geteilt und jedes Gitterelement hat einen konfigurierbaren Winkel für eine Erhebung, welcher als Ausgang für die nicht flachen Straßen kompensiert werden kann.
  • Ebenfalls vorteilhaft ist, wenn zur Erzeugung der zweiten Verlustfunktion die dritte Verlustfunktion von dem Bewegungsdekodierungsmodul an das Begrenzungsrahmenschätzmodul rückpropagiert wird. Mit anderen Worten verfügt das Bewegungsdekodierungsmodul als Decoder über einen rückführenden Knoten, um die Schätzungen der 3D-Box und frühere Schätzungen des Bewegungsmodells zu verbessern und zeitlich zu glätten.
  • Weiterhin vorteilhaft ist, wenn ein erstes Bild zu einem ersten Zeitpunkt und ein zweites Bild zu einem zum ersten Zeitpunkt späteren zweiten Zeitpunkt erfasst wird und das erste Bild von einem ersten Merkmalsextraktionselement des Merkmalsextraktionsmoduls kodiert wird und das zweite Bild von einem zweiten Merkmalsextraktionselement des Merkmalsextraktionsmoduls kodiert wird und das Bewegungsmodell in Abhängigkeit von dem ersten kodierten Bild und dem zweiten kodierten Bild bestimmt wird. Insbesondere kann somit ein „siamesischer Zweistrom-Kodierer“ für aufeinanderfolgende Bilder eines Videosequenzbildes bereitgestellt werden. Dieser Kodierer hat identische Gewichte für die zwei Bilder, sodass diese effektiv in einem Rollpuffer-Modus bearbeitet werden können, sodass nur dieser Encoder in einem Dauerbetrieb für einen Ausgang betrieben wird. Dies ermöglicht es ferner, dass der vorgeschlagene Algorithmus in ein multi-task-geteiltes Kodierersystem eingebracht werden kann. Beispielsweise kann zur Implementierung des Kodierers Resnet 18 und Resnet 50 genutzt werden.
  • Ferner hat es sich als vorteilhaft erwiesen, wenn mittels eines geometrischen Unterstützungsdekodierungsmoduls des neuronalen Netzwerks eine sechste Verlustfunktion mit geometrischen Einschränkungen für das Objekt erzeugt wird und zusätzlich in Abhängigkeit der sechsten Verlustfunktion das Bewegungsmodell bestimmt wird. Insbesondere können somit spezifische geometrische Beschränkungen beziehungsweise Einschränkungen dem neuronalen Netzwerk vorgegeben werden, unter welchen Bedingungen dieses das Bewegungsmodell erzeugt. Insbesondere können diese geometrischen Einschränkungen beispielsweise auf der Grundlage von Mehrfachansichten-Geometrien von Kameras, Szenen-Prioritäten auf der Grundlage der realen Geometrie von Straßenszenen, Bewegungs-Prioritäten auf der Grundlage des Bewegungsverhaltens von Fahrzeugen und Fußgängern und der zeitlichen Konsistenz der Bewegungsabschätzung bestimmt werden.
  • In einer weiteren vorteilhaften Ausgestaltungsform wird mittels eines optischen Flusselements des geometrischen Unterstützungsdekodierungsmoduls ein optischer Fluss im zumindest einen Bild bestimmt und es wird mittels eines geometrischen Einschränkungselements des geometrischen Unterstützungsdekodierungsmoduls die geometrische Einschränkung in Abhängigkeit von dem bestimmten optischen Fluss bestimmt. Insbesondere kann der optische Fluss, insbesondere der dichte optische Fluss, per Pixel im Bild eine Bewegung erkennen. Dadurch ist es ermöglicht, dass der Kodierer bewegungsbasierte Eigenschaften besser lernt und nicht zu sehr an das Erscheinungsbild anpasst, da der typische Datensatz hauptsächlich Fahrzeuge und Fußgänger als bewegliche Objekte beinhaltet. Ferner erlaubt der optische Fluss das Einbeziehen der Multi-View-Geometrie der Kameras. Der geometrische Decoder bestimmt einen optischen Fluss und einen geometrischen Verlust als sechste Verlustfunktion, um epipolare Beschränkungen, positive Tiefe/Höhe als Beschränkung und parallele Bewegungsbeschränkung mit einbeziehen zu können.
  • Weiterhin vorteilhaft ist, wenn zur Erzeugung des Bewegungsmodells ein geometrisches Mittel aus zumindest der ersten Verlustfunktion und zumindest der dritten Verlustfunktion mittels der elektronischen Recheneinrichtung gebildet wird. Insbesondere kann vorgesehen sein, dass zur Erzeugung des Bewegungsmodells das geometrische Mittel aus der ersten Verlustfunktion, der zweiten Verlustfunktion, der dritten Verlustfunktion, der vierten Verlustfunktion, der fünften Verlustfunktion und der sechsten Verlustfunktion gebildet werden kann. Die erläuterten Feldversuche (ground truth) können möglicherweise nicht gleichzeitig alle Verlustfunktionen erzeugen. In diesem Fall könnten die Verlustfunktionen durch asynchrone Rückpropagation getrennt voneinander marginalisiert und gelernt werden. Ferner kann ein selbstüberwachender Lernmechanismus genutzt werden, wobei die 3D-Box mit dem Bewegungsmodell des korrespondierenden Objekts rückprojiziert werden kann, um ein grobes zweidimensionales Segment des Bildes zu erhalten, welches dann wiederum mit dem beobachteten Objekt gematcht werden kann. Da es sich hierbei nicht um ein präzises Matching handelt, wird ein Regulierer verwendet, um entsprechende Toleranzen zu nutzen. Das selbstüberwachende Lernen ermöglicht die Verminderung einer großen Anzahl von Daten.
  • Weiterhin vorteilhaft ist, wenn zur Bestimmung des Bewegungsmodells des sich bewegenden Objekts mittels des Bewegungsdekodierungsmoduls sechs Freiheitsgrade des Objekts bestimmt werden. Insbesondere können diese Freiheitsgrade die Richtungen dx, dy, dz sowie den Rollwinkel, den Neigungswinkel und den Gierwinkel umfassen. Diese sechs Freiheitsgrade sind für jedes Objekt beziehungsweise für jede Eigenschaft des sich bewegenden Objekts bestimmt. Das Bewegungsdekodierungsmodul nutzt dabei den Ausgang des Objektsegmentierungsmoduls und die 3D-Box um ein unabhängiges Bewegungsmodell für jedes sich bewegende Objekt zu erzeugen. Es werden die Vorinformationen zum sich bewegenden Objekt kodiert. Die kanonische dreidimensionale Bewegung von anderen Objekten ist insbesondere entweder parallel zum Kraftfahrzeug oder in die gleiche Richtung, beispielsweise auf benachbarten Fahrbahnen oder im rechten Winkel zum Kraftfahrzeug. Es können ferner auch weitere Bewegungen gelernt werden, beispielsweise wenn sich das Kraftfahrzeug selbst bewegt. Es werden bei Feldversuchen die parallelen und die rechtwinkligen Bewegungen separat erzeugt und ein generisches Bewegungsmodell wird erzeugt. Es wird dann insbesondere die dritte Verlustfunktion auf Basis eines sechsdimensionalen Vektors durch Feldversuche einer dreidimensionalen Bewegung und durch die abgeschätzte Bewegung erzeugt. Das Bewegungsmodell ist unabhängig für jedes Objekt erzeugt. Insbesondere ist jedoch eine abhängige Beziehung zwischen den jeweiligen Bewegungsmodellen der unterschiedlichen Objekte. Es kann daher vorgesehen sein, dass die Bewegungsmodelle der unterschiedlichen Objekte mittels eines Graphen neuronalen Netzwerks zusammengeführt werden. Das Graphen neuronale Netzwerk ermöglicht damit ein Ende-zu-Ende-Training für ein gesamtes Modell für eine Vielzahl von unterschiedlichen sich bewegenden Objekten.
  • Ein weiterer Aspekt der Erfindung betrifft ein Computerprogrammprodukt mit Programmcodemitteln, welche in einem computerlesbaren Medium gespeichert sind, um das Verfahren zum Bestimmen eines Bewegungsmodells nach dem vorhergehenden Aspekt durchzuführen, wenn das Computerprogrammprodukt auf einem Prozessor einer elektronischen Recheneinrichtung abgearbeitet wird.
  • Ein nochmals weiterer Aspekt der Erfindung betrifft ein computerlesbares Speichermedium mit einem Computerprogrammprodukt, insbesondere eine elektronische Recheneinrichtung mit einem Computerprogrammprodukt, nach dem vorhergehenden Aspekt.
  • Ein nochmals weiterer Aspekt der Erfindung betrifft ein Assistenzsystem für ein Kraftfahrzeug zum Bestimmen eines Bewegungsmodells eines sich bewegenden Objekts in einer Umgebung des Kraftfahrzeugs, mit zumindest einer Erfassungseinrichtung und mit einer elektronischen Recheneinrichtung, welche ein neuronales Netzwerk mit zumindest einem Merkmalsextraktionsmodul, einem Objektsegmentierungsmodul, einem Begrenzungsrahmenschätzmodul und einem Bewegungsdekodierungsmodul aufweist, wobei das Assistenzsystem zum Durchführen eines Verfahrens nach dem vorhergehenden Aspekt ausgebildet ist. Insbesondere wird das Verfahren mittels des Assistenzsystems durchgeführt.
  • Ein nochmals weiterer Aspekt der Erfindung betrifft ein Kraftfahrzeug mit einem Assistenzsystem gemäß dem vorhergehenden Aspekt. Das Kraftfahrzeug ist insbesondere als Personenkraftwagen ausgebildet. Ferner ist das Kraftfahrzeug insbesondere zumindest teilweise autonom, insbesondere vollautonom, ausgebildet. Das Assistenzsystem kann beispielsweise für den autonomen Betrieb beziehungsweise für ein autonomes Parkmanöver eingesetzt werden.
  • Vorteilhafte Ausgestaltungsformen des Verfahrens sind als vorteilhafte Ausgestaltungsformen des Computerprogrammprodukts, des computerlesbaren Speichermediums, des Assistenzsystems sowie des Kraftfahrzeugs anzusehen. Das Assistenzsystem sowie das Kraftfahrzeug weisen dazu gegenständliche Merkmale auf, welche eine Durchführung des Verfahrens oder einer vorteilhafte Ausgestaltungsform davon ermöglichen.
  • Weitere Merkmale der Erfindung ergeben sich aus den Ansprüchen, den Figuren und der Figurenbeschreibung. Die vorstehend in der Beschreibung genannten Merkmale und Merkmalskombinationen, sowie die nachfolgend in der Figurenbeschreibung genannten und/oder in den Figuren alleine gezeigten Merkmale und Merkmalskombinationen sind nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen verwendbar, ohne den Rahmen der Erfindung zu verlassen. Es sind somit auch Ausführungen von der Erfindung als umfasst und offenbart anzusehen, die in den Figuren nicht explizit gezeigt und erläutert sind, jedoch durch separierte Merkmalskombinationen aus den erläuterten Ausführungen hervorgehen und erzeugbar sind. Es sind auch Ausführungen und Merkmalskombinationen als offenbart anzusehen, die somit nicht alle Merkmale eines ursprünglich formulierten unabhängigen Anspruchs aufweisen. Es sind darüber hinaus Ausführungen und Merkmalskombinationen, insbesondere durch die oben dargelegten Ausführungen, als offenbart anzusehen, die über die in den Rückbezügen der Ansprüche dargelegten Merkmalskombinationen hinausgehen oder abweichen.
  • Die Erfindung wird nun anhand von bevorzugten Ausführungsbeispielen sowie unter Bezugnahme auf die beigefügten Zeichnungen näher erläutert.
  • Dabei zeigen:
    • 1 eine schematische Draufsicht auf eine Ausführungsform eines Kraftfahrzeugs mit einer Ausführungsform eines Assistenzsystems;
    • 2 ein schematisches Blockschaltbild einer Ausführungsform des Assistenzsystems; und
    • 3 eine schematische Ansicht eines Straßenszenarios.
  • In den Figuren sind gleiche oder funktionsgleiche Elemente mit gleichen Bezugszeichen versehen.
  • 1 zeigt in einer schematischen Draufsicht eine Ausführungsform eines Kraftfahrzeugs 1 mit einer Ausführungsform eines Assistenzsystems 2. Das Assistenzsystem 2 kann beispielsweise für ein zumindest teilweise autonomes Parken des Kraftfahrzeugs 1 genutzt werden. Ferner kann das Assistenzsystem 2 auch für einen autonomen Fahrbetrieb des Kraftfahrzeugs 1 genutzt werden. Das Assistenzsystem 2 ist zum Bestimmen eines Bewegungsmodells 3 für ein sich bewegendes Objekt 4 in einer Umgebung 5 des Kraftfahrzeugs 1 ausgebildet. Das Assistenzsystem 2 weist zumindest eine Erfassungseinrichtung 6, welche insbesondere als Kamera ausgebildet sein kann, sowie eine elektronische Recheneinrichtung 7 auf. Die elektronische Recheneinrichtung 7 weist ferner insbesondere ein neuronales Netzwerk 8 auf.
  • 2 zeigt in einem schematischen Blockschaltbild eine Ausführungsform des Assistenzsystems 2, insbesondere des neuronalen Netzwerks 8. Das neuronale Netzwerk 8 weist zumindest ein Merkmalsextraktionsmodul 9, ein Objektsegmentierungsmodul 10, ein Begrenzungsrahmenschätzmodul 11 und ein Bewegungsdekodierungsmodul 12 auf. Von dem Begrenzungsrahmenschätzmodul 11 wird insbesondere ein dreidimensionaler Begrenzungsrahmen 13 erzeugt. Ferner zeigt die 2, dass von dem Begrenzungsrahmenschätzmodul 11 ein zweidimensionaler Begrenzungsrahmen 14 erzeugt wird. Ferner weist das neuronale Netzwerk 8 insbesondere ein Bewegungssegmentierungsmodul 15, ein Raumtransformationsmodul 16 sowie ein geometrisches Unterstützungsdekodierungsmodul 17 auf, wobei das geometrische Unterstützungsdekodierungsmodul 17 wiederum ein optisches Flusselement 18 sowie ein geometrisches Einschränkungselement 19 aufweist.
  • Beim Verfahren zum Bestimmen des Bewegungsmodells 3 des sich bewegenden Objekts 4 in der Umgebung 5 des Kraftfahrzeugs 1 mittels des Assistenzsystems 2 erfolgt zumindest ein Erfassen eines Bilds 20, 21 der Umgebung 5 mit dem sich bewegenden Objekt 4 mittels der Erfassungseinrichtung 6 des Assistenzsystems 2. Es erfolgt ein Kodieren des zumindest einen Bilds 20, 21 mittels des Merkmalsextraktionsmoduls 9 des neuronalen Netzwerks 8 der elektronischen Recheneinrichtung 7 des Assistenzsystems 2. Es wird das zumindest eine kodierte Bild 20, 21 mittels des Objektsegmentierungsmoduls 10 des neuronalen Netzwerks 8 dekodiert und es erfolgt ein Erzeugen einer ersten Verlustfunktion 22 mittels des Objektsegmentierungsmoduls 10. Es wird das zumindest eine kodierte Bild 20, 21 mittels des Begrenzungsrahmenschätzmoduls 11 des neuronalen Netzwerks 8 dekodiert und es erfolgt ein Erzeugen einer zweiten Verlustfunktion 23 mittels des Begrenzungsrahmenschätzmoduls 11. Es wird die zweite Verlustfunktion 23 in Abhängigkeit von der Dekodierung des zumindest einen Bilds 20, 21 mittels des Bewegungsdekodierungsmoduls 12 des neuronalen Netzwerks 8 kodiert und es erfolgt ein Erzeugen einer dritten Verlustfunktion 24 mittels des Bewegungsdekodierungsmoduls 12. Es wird das Bewegungsmodell 3 in Abhängigkeit von zumindest der ersten Verlustfunktion 22 und der dritten Verlustfunktion 24 mittels des neuronalen Netzwerks 18 erzeugt.
  • Insbesondere zeigt die 2 ferner, dass von dem Begrenzungsrahmenschätzmodul 11 der dreidimensionale Begrenzungsrahmen 13 erzeugt wird und in Abhängigkeit von dem dreidimensionalen Begrenzungsrahmen 13 die zweite Verlustfunktion 23 erzeugt wird. Ferner kann von dem Begrenzungsrahmenschätzmodul 11 der zweidimensionale Begrenzungsrahmen 14 erzeugt werden und in Abhängigkeit von dem zweidimensionalen Begrenzungsrahmen 14 wird eine vierte Verlustfunktion 25 erzeugt. Die vierte Verlustfunktion 25 kann wiederum an das Objektsegmentierungsmodul 10 übertragen werden und die erste Verlustfunktion 22 wird in Abhängigkeit von der vierten Verlustfunktion 25 erzeugt. Ferner ist insbesondere vorgesehen, dass das zumindest eine kodierte Bild 20, 21 von dem Bewegungssegmentierungsmodul 15 des neuronalen Netzwerks 18 dekodiert wird und eine fünfte Verlustfunktion 26 mit dem Bewegungssegmentierungsmodul 15 erzeugt wird und an das Objektsegmentierungsmodul 10 übertragen wird und die erste Verlustfunktion 22 mittels des Objektsegmentierungsmoduls 22 in Abhängigkeit von der fünften Verlustfunktion 26 erzeugt wird.
  • Ferner ist insbesondere gezeigt, dass das zumindest eine Bild 20, 21 mittels des Raumtransformationsmoduls 16 des neuronalen Netzwerks 18 ausgewertet wird und in Abhängigkeit von dem ausgewerteten Bild 20, 21 zumindest die zweite Verlustfunktion 23 mit dem Begrenzungsrahmenschätzmodul 11 erzeugt wird.
  • Ferner zeigt die 2, dass zur Erzeugung der zweiten Verlustfunktion 23 die dritte Verlustfunktion 24 von dem Bewegungsdekodierungsmodul 12 an das Begrenzungsrahmenschätzmodul 11 rückpropagiert wird, wobei dies insbesondere durch die Verbindung 27 vorliegend gezeigt ist.
  • Des Weiteren kann vorgesehen sein, dass zumindest ein erstes Bild 20 zu einem ersten Zeitpunkt t1 und ein zweites Bild 21 zu einem zum ersten Zeitpunkt t1 späteren zweiten Zeitpunkt t2 erfasst wird und das erste Bild 20 von einem ersten Merkmalsextraktionselement 28 des Merkmalsextraktionsmoduls 9 kodiert wird und das zweite Bild 21 von einem zweiten Merkmalsextraktionselement 29 des Merkmalsextraktionsmoduls 9 kodiert wird und das Bewegungsmodell 3 in Abhängigkeit von dem ersten kodierten Bild 20 und dem zweiten kodierten Bild 21 bestimmt wird. Insbesondere ist ferner gezeigt, dass mittels des geometrischen Unterstützungsdekodierungsmoduls 17 des neuronalen Netzwerks 8 eine sechste Verlustfunktion 30 mit geometrischen Einschränkungen für das Objekt 4 erzeugt wird und zusätzlich in Abhängigkeit von der sechsten Verlustfunktion 30 das Bewegungsmodell 3 bestimmt wird. Insbesondere kann mittels des optischen Flusselements 18 des geometrischen Unterstützungsdekodierungsmoduls 17 ein optischer Fluss im zumindest einen Bild 20, 21 bestimmt werden und mittels des geometrischen Einschränkungselements 19 des geometrischen Unterstützungsdekodierungsmoduls 17 die geometrische Einschränkung in Abhängigkeit von dem bestimmten optischen Fluss bestimmt werden.
  • Das Merkmalsextraktionsmodul 9 somit als „siamesischer Encoder“ für zwei aufeinander folgende Bilder 20, 21 eines Videostreams verwendet. Der siamesische Encoder verwendet identische Gewichte für die beiden Bilder 20, 21, so dass diese effektiv in einer Art Rolling-Buffer laufen können, so dass nur der Codierer im stationären Zustand für einen Ausgang genutzt wird. Dieser Aufbau ermöglicht es dem vorgeschlagenen Algorithmus auch in ein gemeinsames Multi-Task-geteiltes Encodersystem mit anderen Aufgaben integriert werden.
  • Das Bewegungssegmentierungsmodul 15 ist ein binärer Segmentierungsdecoder, der für die fünfte Verlustfunktion 26 optimiert ist. Dieser Decoder ist rein für die Aufgabe der Bewegungssegmentierung optimiert. Die Ground-Truth-Annotation basiert auf einer Zwei-Klassen-Segmentierung, nämlich bewegte und statische Pixel.
  • Das Begrenzungsrahmenschätzmodul 11 ist insbesondere als 2D/3D-Box-Decoder ausgebildet und gibt 2D-Boxen und einen Vertrauenswert in Bildkoordinaten und 3D-Boxen in Weltkoordinaten zusammen mit der Orientierung aus. 2D-Boxen werden unter Verwendung der Standard-Bounding-Box-Verlustfunktion optimiert. Es wird ferner das Raumtransformator-Modul 16 genutzt, um eine Szenengeometrie einzubinden, bei der ein flaches Gitter die Straßenoberfläche darstellen kann, und der Raumtransformator lernt, alle Kameras auf ein einheitliches Koordinatensystem relativ zum flachen Gitter auszurichten. Dies wird durch Feldversuche des flachen Gitters und die Kartierung annotierter Objekte in 3D auf der Grundlage von extrinsischen Informationen und Tiefenschätzung berücksichtigt. Es können auch geneigte Straßen vorhanden sein, die ebenfalls in das Raumtransformator-Modul 16 einbezogen werden können. Das flache Gitter ist in Untergitter unterteilt, und jedes Gitterelement hat eine konfigurierbare Neigung, die ausgegeben werden kann, um nicht flache Straßen auszugleichen.
  • Für das Objektsegmentierungsmodul 10 wird die 2D-Box-Vorhersage derart trainiert, dass sie eine Kombination aus Bewegung und Erscheinung ist. Die 2D-Boxen werden mit der Bewegungssegmentierungsausgabe des Bewegungssegmentierungsmoduls 15 unter Verwendung eines lernfähigen Fusionsdecoders zusammengeführt. Dies wird mit der ersten Verlustfunktion 22 optimiert. Die erste Verlustfunktion 22 basiert auf einer semantischen Segmentierung mit pixelweisem Kreuzentropie-Verlust unter Verwendung von Feldversuchen von einer instanzbasiertern Bewegungs-Segmentierung, bei der jedes sich bewegende Objekt 4 mit einem anderen Wert versehen wird. Die lernfähige Fusion ermöglicht eine Robustheit, wenn einer der Eingänge fehlt, da der Fusionsausgang beispielsweise für die Erkennung optimiert ist.
  • Bei dem Bewegungsdekodierungsmodul 12 handelt es sich um ein Modul, bei dem die 3D-Bewegung (6 Freiheitsgrade dx, dy, dz, Gierwinkel, Nickwinkel und Rollwinkel) für jeden Fall eines sich bewegenden Objekts 4 geschätzt wird. Dieser Decoder nutzt die Ausgabe des Objektsegmentierungsmoduls 11, was insbesondere durch den Pfeil 31 dargestellt ist, und die Ausgabe der 3D-Box, um ein unabhängiges Bewegungsmodell 3 für jedes sich bewegende Objekt 4 zu erzeugen. Dieser Decoder verfügt auch über eine Rückpropagation, um die Schätzungen der 3D-Box zu verbessern und zeitlich zu glätten. Es werden Vorabinformationen zum Bewegungsmodell 3 genutzt, wie beispielsweise eine kanonische 3D-Bewegung anderer Objekte 4, welche entweder parallel zum Kraftfahrzeug 1 auf derselben oder benachbarten Fahrspuren oder senkrecht dazu sind. Obwohl es auch andere Bewegungen gibt, wie beispielsweise eine Drehung des Kraftfahrzeugs 1, ist es vorteilhaft, sich zu spezialisieren und diese Bewegungen separat zu erlernen. Durch Feldversuche werden die parallelen und die senkrechten Bewegungen getrennt und ein generisches Bewegungsmodell 3 auch für die Handhabung anderer Fälle erzeugt. Das Bewegungsmodell 3 wird für jedes Objekt 4 unabhängig modelliert. Es gibt jedoch eine Abhängigkeit der Bewegungsmodelle 3. Die Bewegungsmodelle 3 der einzelnen Objekte 4 können daher beispielsweise über ein Graphen neuronales Netzwerk zusammengeführt werden. Die Modellierung über das Graphen neuronale Netz ermöglicht ein Ende-zu-Ende-Training für das vollständige Modell.
  • Im geometrischen Unterstützungsdekodierungsmodul 17 wird ein dichter optischer Fluss erzeugt auf Basis einer bildbasierten Bewegung pro Pixel. Dadurch wird der Kodierer dazu gezwungen, bewegungsbasierte Merkmale besser zu lernen und sich nicht zu sehr an Erscheinungsmerkmale anzupassen, da der typische Datensatz hauptsächlich Fahrzeuge und Fußgänger als sich bewegende Objekte 4 enthält. Des Weiteren ermöglicht der optische Fluss die Einbeziehung geometrischer Beschränkungen für mehrere Ansichten.
  • Der vorgeschlagene geometrische Decoder berechnet den dichten optischen Fluss und ein geometrischer Verlust, insbesondere die sechste Verlustfunktion 30, wird bestimmt, um epipolare Beschränkung, positive Tiefen-/Höhenbeschränkung und parallele Bewegungsbeschränkung zu integrieren.
  • Die Gesamtverlustfunktion ist insbesondere ein geometrisches Produkt der einzelnen Verlustfunktionen 22, 23, 24, 25, 26, 30. Die entsprechenden Feldversuche stehen möglicherweise nicht gleichzeitig für alle diese Verlustfunktionen 22, 23, 24, 25, 26, 30 zur Verfügung. In diesem Fall können sie an den Rand gedrängt und separat gelernt werden, indem man eine asynchrone Back-Propagation verwendet. Es wird ferner ein selbstüberwachtes Lernen vorgeschlagen, bei dem die 3D-Box zusammen mit dem Bewegungsmodell 3 des entsprechenden Objekts 4 neu projiziert werden kann, um ein grobes 2D-Segment auf dem Bild zu erhalten, das mit dem beobachteten Objekt 4 übereinstimmt. Da es sich nicht um ein präzises Matching handelt, wird ein Regulierer für das Matching verwendet, um Toleranzen zu ermöglichen. Das selbstüberwachte Lernen ermöglicht es, einen Mangel an großen Datenmengen auszugleichen.
  • 3 zeigt eine schematische Perspektivansicht eines Straßenszenarios. Zum Einen befindet sich vor dem Kraftfahrzeug 1 auf der rechten Spur ein weiteres Kraftfahrzeugs, welches insbesondere als Kleinbus dargestellt ist. Vor dem Kraftfahrzeug 1 auf der gleichen Spur befindet sich ein nochmals weiteres Kraftfahrzeug. Auf der entgegenkommenden Spur des Kraftfahrzeug 1 kommt ein weiteres Kraftfahrzeug entgegen. Den drei Kraftfahrzeugen wird jeweils eine 3D-Box zugewiesen. In der 3 sind die Positionen der drei Kraftfahrzeuge zu drei unterschiedlichen Zeitpunkten gezeigt. 3 zeigt somit, wie eine Objektverfolgung mittels des erfindungsgemäßen Verfahrens ermöglicht ist.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 2019370980 AA [0003]
    • US 2014177946 A [0004]
    • CN 104166861 A [0005]
    • US 2019005361 AA [0006]
    • CN 108492319 A [0007]

Claims (15)

  1. Verfahren zum Bestimmen eines Bewegungsmodells (3) eines sich bewegenden Objekts (4) in einer Umgebung (5) eines Kraftfahrzeugs (1) mittels eines Assistenzsystems (2) des Kraftfahrzeugs (1), mit den Schritten: - Erfassen zumindest eines Bilds (20, 21) der Umgebung (5) mit dem sich bewegenden Objekt (4) mittels einer Erfassungseinrichtung (6) des Assistenzsystems (2); - Kodieren des zumindest eines Bilds (20, 21) mittels eines Merkmalsextraktionsmoduls (9) eines neuronalen Netzwerks (8) einer elektronischen Recheneinrichtung (7) des Assistenzsystems (2); - Dekodieren des zumindest einen kodierten Bilds (20, 21) mittels eines Objektsegmentierungsmoduls (10) des neuronalen Netzwerks (8) und Erzeugen einer ersten Verlustfunktion (22) mittels des Objektsegmentierungsmoduls (10); - Dekodieren des zumindest einen kodierten Bilds (20, 21) mittels eines Begrenzungsrahmenschätzmoduls (11) des neuronalen Netzwerks (8) und Erzeugen einer zweiten Verlustfunktion (23) mittels des Begrenzungsrahmenschätzmoduls (11); - Dekodieren der zweiten Verlustfunktion (23) in Abhängigkeit von der Dekodierung des zumindest einen Bilds (20, 21) mittels eines Bewegungsdekodierungsmoduls (12) des neuronalen Netzwerks (8) und Erzeugen einer dritten Verlustfunktion (24) mittels des Bewegungsdekodierungsmoduls (12); und - Bestimmen des Bewegungsmodells (3) in Abhängigkeit von zumindest der ersten Verlustfunktion (22) und der dritten Verlustfunktion (24) mittels des neuronalen Netzwerks (8).
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass von dem Begrenzungsrahmenschätzmodul (11) ein dreidimensionaler Begrenzungsrahmen (13) erzeugt wird und in Abhängigkeit von dem dreidimensionalen Begrenzungsrahmen (13) die zweite Verlustfunktion (24) erzeugt wird.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass von dem Begrenzungsrahmenschätzmodul (11) ein zweidimensionaler Begrenzungsrahmen (14) erzeugt wird und in Abhängigkeit von dem zweidimensionalen Begrenzungsrahmen (14) eine vierte Verlustfunktion (25) erzeugt wird.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die vierte Verlustfunktion (25) an das Objektsegmentierungsmodul (10) übertragen wird und die erste Verlustfunktion (22) in Abhängigkeit von der vierten Verlustfunktion (25) erzeugt wird.
  5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das zumindest eine kodierte Bild (20, 21) von einem Bewegungssegmentierungsmodul (15) des neuronalen Netzwerks (8) dekodiert wird und eine fünfte Verlustfunktion (26) mit dem Bewegungssegmentierungsmodul (15) erzeugt und an das Objektsegmentierungsmodul (10) übertragen wird und die erste Verlustfunktion (22) mittels des Objektsegmentierungsmodul (10) in Abhängigkeit von der fünften Verlustfunktion (26) erzeugt wird.
  6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das zumindest eine Bild (20, 21) mittels eines Raumtransformationsmoduls (16) des neuronalen Netzwerks (8) ausgewertet wird und in Abhängigkeit von dem ausgewerteten Bild (20, 21) zumindest die zweite Verlustfunktion (23) mit dem Begrenzungsrahmenschätzmodul (11) erzeugt wird.
  7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zur Erzeugung der zweiten Verlustfunktion (23) die dritte Verlustfunktion (24) von dem Bewegungsdekodierungsmodul (12) an das Begrenzungsrahmenschätzmodul (11) rückpropagiert wird.
  8. Verfahren nach einem der vorhergehenden Ansprüche dadurch gekennzeichnet, dass ein erstes Bild (20) zu einem ersten Zeitpunkt (t1) und ein zweites Bild (21) zu einem zum ersten Zeitpunkt (t1) späteren zweiten Zeitpunkt (t2) erfasst wird und das erste Bild (20) von einem ersten Merkmalsextraktionselement (28) des Merkmalextraktionsmoduls (9) kodiert wird und das zweite Bild (21) von einem zweiten Merkmalsextraktionselement (29) des Merkmalextraktionsmoduls (9) kodiert wird und das Bewegungsmodell (3) in Abhängigkeit von dem ersten kodierten Bild (20) und dem zweiten kodierten Bild (21) bestimmt wird.
  9. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mittels eines geometrischen Unterstützungsdekodierungsmoduls (17) des neuronalen Netzwerks (8) eine sechste Verlustfunktion (30) mit geometrischen Einschränkungen für das Objekt (4) erzeugt wird und zusätzlich in Abhängigkeit von der sechsten Verlustfunktion (30) das Bewegungsmodell (3) bestimmt wird.
  10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass mittels eines Optischenflusselements (18) des geometrischen Unterstützungsdekodierungsmoduls (17) ein optischer Fluss im zumindest einen Bild (20, 21) bestimmt wird und mittels eines Geometrischeneinschränkungselements (19) des geometrischen Unterstützungsdekodierungsmoduls (17) die geometrische Einschränkung in Abhängigkeit von dem bestimmten optischen Fluss bestimmt wird.
  11. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zur Erzeugung des Bewegungsmodells (3) ein geometrisches Mittel aus zumindest der ersten Verlustfunktion (22) und zumindest der dritten Verlustfunktion (24) mittels der elektronischen Recheneinrichtung (7) gebildet wird.
  12. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zur Bestimmung des Bewegungsmodells (3) des sich bewegenden Objekts (4) mittels des Bewegungsdekodierungsmoduls (12) sechs Freiheitsgrade des Objekts (4) bestimmt werden.
  13. Computerprogrammprodukt mit Programmcodemitteln, welche in einem computerlesbaren Medium gespeichert sind, um das Verfahren nach einem der vorhergehenden Ansprüche 1 bis 12 durchzuführen, wenn das Computerprogrammprodukt auf einem Prozessor einer elektronischen Recheneinrichtung (7) abgearbeitet wird.
  14. Computerlesbares Speichermedium mit einem Computerprogrammprodukt nach Anspruch 13.
  15. Assistenzsystem (2) für ein Kraftfahrzeug (1) zum Bestimmen eines Bewegungsmodells (3) eines sich bewegenden Objekts (4) in einer Umgebung (5) des Kraftfahrzeugs (1), mit zumindest einer Erfassungseinrichtung (6) und mit einer elektronischen Recheneinrichtung (7), welche ein neuronales Netzwerk (8) mit zumindest einem Merkmalsextraktionsmodul (9), einem Objektsegmentierungsmodul (10), einem Begrenzungsrahmenschätzmodul (11) und einem Bewegungsdekodierungsmodul (12) aufweist, wobei das Assistenzsystem (2) zum Durchführen eines Verfahrens nach einem der Ansprüche 1 bis 12 ausgebildet ist.
DE102020126690.1A 2020-10-12 2020-10-12 Verfahren zum Bestimmen eines Bewegungsmodells eines Objekts in einer Umgebung eines Kraftfahrzeugs, Computerprogrammprodukt, computerlesbares Speichermedium sowie Assistenzsystem Pending DE102020126690A1 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE102020126690.1A DE102020126690A1 (de) 2020-10-12 2020-10-12 Verfahren zum Bestimmen eines Bewegungsmodells eines Objekts in einer Umgebung eines Kraftfahrzeugs, Computerprogrammprodukt, computerlesbares Speichermedium sowie Assistenzsystem
EP21787411.4A EP4226323A1 (de) 2020-10-12 2021-10-06 Verfahren zum bestimmen eines bewegungsmodells eines objekts im umfeld eines kraftfahrzeugs, computerprogrammprodukt, computerlesbares speichermedium sowie assistenzsystem
US18/248,671 US20230394680A1 (en) 2020-10-12 2021-10-06 Method for determining a motion model of an object in the surroundings of a motor vehicle, computer program product, computer-readable storage medium, as well as assistance system
PCT/EP2021/077506 WO2022078828A1 (en) 2020-10-12 2021-10-06 Method for determining a motion model of an object in the surroundings of a motor vehicle, computer program product, computer-readable storage medium, as well as assistance system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102020126690.1A DE102020126690A1 (de) 2020-10-12 2020-10-12 Verfahren zum Bestimmen eines Bewegungsmodells eines Objekts in einer Umgebung eines Kraftfahrzeugs, Computerprogrammprodukt, computerlesbares Speichermedium sowie Assistenzsystem

Publications (1)

Publication Number Publication Date
DE102020126690A1 true DE102020126690A1 (de) 2022-04-14

Family

ID=78085696

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020126690.1A Pending DE102020126690A1 (de) 2020-10-12 2020-10-12 Verfahren zum Bestimmen eines Bewegungsmodells eines Objekts in einer Umgebung eines Kraftfahrzeugs, Computerprogrammprodukt, computerlesbares Speichermedium sowie Assistenzsystem

Country Status (4)

Country Link
US (1) US20230394680A1 (de)
EP (1) EP4226323A1 (de)
DE (1) DE102020126690A1 (de)
WO (1) WO2022078828A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022121781A1 (de) 2022-08-29 2024-02-29 Connaught Electronics Ltd. Computer-Vision basierend auf Wärmebilderfassung in einem Fahrzeug

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140177946A1 (en) 2012-12-21 2014-06-26 Electronics and Telecommunicatidons Research Institute Human detection apparatus and method
CN104166861A (zh) 2014-08-11 2014-11-26 叶茂 一种行人检测方法
CN108492319A (zh) 2018-03-09 2018-09-04 西安电子科技大学 基于深度全卷积神经网络的运动目标检测方法
US20190005361A1 (en) 2017-06-30 2019-01-03 Ai Systems Co., Ltd. Real-time identification of moving objects in video images
US20190370980A1 (en) 2018-05-30 2019-12-05 Chiral Software, Inc. System and method for real-time detection of objects in motion

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11004209B2 (en) * 2017-10-26 2021-05-11 Qualcomm Incorporated Methods and systems for applying complex object detection in a video analytics system
DE102018114229A1 (de) * 2018-06-14 2019-12-19 Connaught Electronics Ltd. Verfahren zum Bestimmen eines Bewegungszustands eines Objekts in Abhängigkeit einer erzeugten Bewegungsmaske und eines erzeugten Begrenzungsrahmens, Fahrerassistenzsystem sowie Kraftfahrzeug

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140177946A1 (en) 2012-12-21 2014-06-26 Electronics and Telecommunicatidons Research Institute Human detection apparatus and method
CN104166861A (zh) 2014-08-11 2014-11-26 叶茂 一种行人检测方法
US20190005361A1 (en) 2017-06-30 2019-01-03 Ai Systems Co., Ltd. Real-time identification of moving objects in video images
CN108492319A (zh) 2018-03-09 2018-09-04 西安电子科技大学 基于深度全卷积神经网络的运动目标检测方法
US20190370980A1 (en) 2018-05-30 2019-12-05 Chiral Software, Inc. System and method for real-time detection of objects in motion

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
REN, S., et al.: Faster R-CNN: towards real-time object detection with region proposal networks. In: IEEE transactions on pattern analysis and machine intelligence, 2016, 39. Jg., Nr. 6, S. 1137-1149. doi: 10.1109/TPAMI.2016.2577031
SIAM, M., et al.: Motion and Appearance Based Multi-Task Learning Network for Autonomous Driving. 31 Oct 2017 (modified: 20 Nov. 2017); NIPS 2017 Workshop MLITS Submission (Readers: Everyone) (URL: https://openreview.net/pdf?id=Bk4BBBLRZ)
SIAM, Mennatullah, et al. Modnet: Motion and appearance based moving object detection network for autonomous driving. In: 2018 21st International Conference on Intelligent Transportation Systems (ITSC). IEEE, 2018. S. 2859-2864. doi: 10.1109/ITSC.2018.8569744

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022121781A1 (de) 2022-08-29 2024-02-29 Connaught Electronics Ltd. Computer-Vision basierend auf Wärmebilderfassung in einem Fahrzeug

Also Published As

Publication number Publication date
EP4226323A1 (de) 2023-08-16
WO2022078828A1 (en) 2022-04-21
US20230394680A1 (en) 2023-12-07

Similar Documents

Publication Publication Date Title
DE102014222617B4 (de) Fahrzeugerfassungsverfahren und Fahrzeugerfassungssytem
DE112018000899T5 (de) Gemeinsame 3D-Objekterfassung und Ausrichtungsabschätzung über multimodale Fusion
DE112018000332T5 (de) Dichtes visuelles slam mit probabilistic-surfel-map
DE102019114622A1 (de) Erfassung und planare darstellung dreidimensionaler fahrspuren in einer strassenszene
DE102005008131A1 (de) Objektdetektion auf Bildpunktebene in digitalen Bildsequenzen
DE102021002798A1 (de) Verfahren zur kamerabasierten Umgebungserfassung
DE102019117559A1 (de) Verfahren und System zum Fusionieren von zweidimensionalen semantischen Informationen aus Bildern mit einer dreidimensionalen Punktwolke
WO2020069964A1 (de) Verfahren, künstliches neuronales netz, vorrichtung, computerprogramm und maschinenlesbares speichermedium zur semantischen segmentierung von bilddaten
DE102018215055A1 (de) Verfahren zum Bestimmen einer Spurwechselangabe eines Fahrzeugs, ein computerlesbares Speichermedium und ein Fahrzeug
DE102017221765A1 (de) Trainieren und Betreiben eines Maschinen-Lern-Systems
DE102020126690A1 (de) Verfahren zum Bestimmen eines Bewegungsmodells eines Objekts in einer Umgebung eines Kraftfahrzeugs, Computerprogrammprodukt, computerlesbares Speichermedium sowie Assistenzsystem
DE102013017621A1 (de) Verfahren zur Auswertung von stereoskopisch erfassten Einzelbildern
DE102019204187A1 (de) Klassifizierung und temporale Erkennung taktischer Fahrmanöver von Verkehrsteilnehmern
DE102018109680A1 (de) Verfahren zum Unterscheiden von Fahrbahnmarkierungen und Bordsteinen durch parallele zweidimensionale und dreidimensionale Auswertung; Steuereinrichtung; Fahrassistenzsystem; sowie Computerprogrammprodukt
DE102021213344A1 (de) Verfahren zum Ermitteln von Agenten-Trajektorien in einem Multi-Agenten-Szenario
DE102021117227A1 (de) Analysieren eines Kreisverkehrs
DE102020200875A1 (de) Verfahren zum Bereitstellen von Sensordaten durch eine Sensorik eines Fahrzeugs
DE102020200876A1 (de) Verfahren zum Verarbeiten von Sensordaten einer Sensorik eines Fahrzeugs
DE102022200353A1 (de) Verfahren zum Erzeugen von Daten zum Trainieren eines auf künstlicher Intelligenz basierenden Objekterkennungsverfahrens
DE102020116794A1 (de) Verfahren zum Bestimmen eines Objekts in einer Umgebung eines Kraftfahrzeugs mittels eines Assistenzsystems, Computerprogrammprodukt, computerlesbares Speichermedium sowie Assistenzsystem
DE102022214331A1 (de) Verfahren zum Detektieren von Informationen über mindestens ein Objekt und/oder mindestens einen Teil des freien Raums in einer Darstellung der Umgebung eines Systems
DE102020210816A1 (de) Verfahren zur Erkennung dreidimensionaler Objekte, Computerprogramm, Maschinenlesbares Speichermedium, Steuergerät, Fahrzeug und Videoüberwachungssystem
EP4293634A1 (de) Verfahren, prozessorschaltung und computerlesbares speichermedium zum durchführen einer verkehrsobjektdetektion in einem kraftfahrzeug
DE102022208714A1 (de) Computerimplementiertes System und Verfahren zur semantischen Analyse einer Szene
DE102022204547A1 (de) Verfahren zum Erfassen eines Umfelds eines Kamerasystems und zugehöriger Vorrichtung

Legal Events

Date Code Title Description
R163 Identified publications notified
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009620000

Ipc: G06V0030190000