DE102020209983A1 - Verfahren zum Erkennen eines Objekts aus Eingabedaten unter Verwendung von relationalen Attributen - Google Patents

Verfahren zum Erkennen eines Objekts aus Eingabedaten unter Verwendung von relationalen Attributen Download PDF

Info

Publication number
DE102020209983A1
DE102020209983A1 DE102020209983.9A DE102020209983A DE102020209983A1 DE 102020209983 A1 DE102020209983 A1 DE 102020209983A1 DE 102020209983 A DE102020209983 A DE 102020209983A DE 102020209983 A1 DE102020209983 A1 DE 102020209983A1
Authority
DE
Germany
Prior art keywords
attribute
relational
objects
vehicle
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020209983.9A
Other languages
English (en)
Inventor
Thomas Wenzel
Matthias Kirschner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102020209983.9A priority Critical patent/DE102020209983A1/de
Priority to US17/394,887 priority patent/US20220044029A1/en
Priority to CN202110895364.0A priority patent/CN114078238A/zh
Publication of DE102020209983A1 publication Critical patent/DE102020209983A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/02Systems using reflection of radio waves, e.g. primary radar systems; Analogous systems
    • G01S13/06Systems determining position data of a target
    • G01S13/42Simultaneous measurement of distance and other co-ordinates
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/93Radar or analogous systems specially adapted for specific applications for anti-collision purposes
    • G01S13/931Radar or analogous systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/88Sonar systems specially adapted for specific applications
    • G01S15/93Sonar systems specially adapted for specific applications for anti-collision purposes
    • G01S15/931Sonar systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/93Lidar systems specially adapted for specific applications for anti-collision purposes
    • G01S17/931Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/02Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
    • G01S7/41Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • G01S7/417Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section involving the use of neural networks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/48Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00
    • G01S7/4802Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/52Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00
    • G01S7/539Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/457Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/40Photo, light or radio wave sensitive means, e.g. infrared sensors
    • B60W2420/403Image sensing, e.g. optical camera
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/40Photo, light or radio wave sensitive means, e.g. infrared sensors
    • B60W2420/408Radar; Laser, e.g. lidar
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/54Audio sensitive means, e.g. ultrasound
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electromagnetism (AREA)
  • Automation & Control Theory (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Neurology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

Verfahren zum Erkennen eines Objekts aus Eingabedaten (D), mit den Schritten:a) Durchführen von Rohdetektionen, wobei wenigstens zwei Objekte ermittelt werden;b) Ermitteln wenigstens eines relationalen Attributs für die wenigstens zwei ermittelten Objekte, wobei das wenigstens eine relationale Attribut einen Zusammenhang zwischen den in Schritt a) ermittelten wenigstens zwei Objekten definiert; undc) Ermitteln eines zu erkennenden Objekts unter Berücksichtigung des wenigstens einen relationalen Attributs.

Description

  • Die Erfindung betrifft ein Verfahren zum Erkennen eines Objekts aus Eingabedaten unter Verwendung von relationalen Attributen. Die Erfindung betrifft ferner eine Objektdetektionsvorrichtung. Die Erfindung betrifft ferner ein Computerprogrammprodukt.
  • Stand der Technik
  • Bekannte Objektdetektionsalgorithmen liefern für ein Eingabedatum (z.B. in Form eines Bildes) eine Menge von Detektionen. Eine Detektion wird in der Regel durch ein das Objekt umrandendes Rechteck (Bounding Box) und eine skalare Detektionsgüte repräsentiert. Alternative Formen der Repräsentation, wie zum Beispiel so genannte Hauptpunkte, etwa die Positionen einzelner Körperteile wie Kopf, linker/rechter Arm usw., sind im Falle eines Personendetektors bekannt. Problematisch sind bei der Objekterkennung die Identifikation von Objekten, die innerhalb einer Gruppe angeordnet sind und von anderen Objekten der Gruppe teilweise überdeckt werden. Dies ist insbesondere bei der Verfolgung von Objekten, beispielsweise von Personen in einer Menge, oder bei der Beobachtung eines Verkehrsaufkommens eines Straßenverkehrs aus einer Fahrerperspektive eines Fahrzeugs von Interesse.
  • Eine Aufgabe der Erfindung besteht insbesondere darin, ein Verfahren zum verbesserten Erkennen von Objekten mittels Eingabedaten bereitzustellen.
  • Die Aufgabe wird gemäß einem ersten Aspekt gelöst mit einem Verfahren zum Erkennen eines Objekts aus Eingabedaten, mit den Schritten:
    1. a) Durchführen von Rohdetektionen, wobei wenigstens zwei Objekte ermittelt werden;
    2. b) Ermitteln wenigstens eines relationalen Attributs für die wenigstens zwei ermittelten Objekte, wobei das wenigstens eine relationale Attribut einen Zusammenhang zwischen den in Schritt a) ermittelten wenigstens zwei Objekten definiert; und
    3. c) Ermitteln eines zu erkennenden Objekts unter Berücksichtigung des wenigstens einen relationalen Attributs.
  • Auf diese Weise wird eine Objekterkennung realisiert, die eine spezifische Klasse von Attributen in Form von sogenannten „relationalen Attributen“ verwendet. Die relationalen Attribute beziehen sich nicht mehr nur auf ein einzelnes Objekt, sondern auf ein oder mehrere andere Objekte und definieren somit einen Zusammenhang zwischen mindestens zwei unterschiedlichen Objekten. Ein relationales Attribut ist ein Attribut der Detektion, welches eine Beziehung zwischen einem detektierten Objekt zu anderen Objekten beschreibt. Z.B. kann als relationales Attribut die Anzahl von Objekten in einem bestimmten Radius um ein detektiertes Objekt darstellen. Die beschriebene Beziehung ist die räumliche Nähe der Objekte im Bildraum. Zudem kann als relationales Attribut eine Interaktion zwischen Objekten darstellen. Beispielsweise kann die in Detektion A erkannte Person mit einer anderen erkannten Person B reden. Das Reden ist das relationale Attribut. Vorteilhaft kann dadurch eine verbesserte Objekterkennung durchgeführt werden und es können im Ergebnis dadurch z.B. effiziente Steuerungssignale für ein physikalisches System, z.B. ein Fahrzeug generiert werden. Über die Objekterkennung mit relationalen Attributen kann für ein ermitteltes Objekt beispielsweise eine Anzahl von Objekten bestimmt werden, die vom ermittelten Objekt wenigstens teilweise überdeckt werden. Dies kann als zusätzliche Information für das ermittelte Objekt weiter verarbeitet werden. Hierdurch können beispielsweise hintereinander fahrende Fahrzeuge oder hintereinander gehende Fußgänger oder hintereinander fahrende Fahrräder oder Motorräder erkannt werden.
  • Rohdetektionen sind im Sinne der Anmeldung detektierte Objekte, die mit wenigstens einem Attribut präzidiert sind. Das wenigstens eine Attribut kann durch ein Begrenzungselement, ein Bounding Box, gegeben sein, die das detektierte Objekte wenigstens teilweise umfasst. Ferner kann einer Rohdetektion als weiteres Attribut ein Konfidenzwert zugeordnet sein. Ein Konfidenzwert gibt hierbei den Grad der Übereinstimmung zwischen der Bounding Box und dem detektierten Objekt an. Darüber hinaus kann eine Rohdetektion über zusätzliche Attribute verfügen, die im Sinne der Anmeldung jedoch ausschließlich auf das detektierte Objekt bezogen sind, und sich damit von dem relationalen Attribut dadurch unterscheiden, dass über die Attribute der Rohdetektion keine Aussagen über gegebenenfalls von dem detektierten Objekt der Rohdetektion wenigstens teilweise überdeckte weitere Objekte getroffen werden können.
  • Gemäß einem zweiten Aspekt wird ein Verfahren zum Steuern eines autonom fahrenden Fahrzeugs unter Berücksichtigung von Umfeldsensordaten bereitgestellt, wobei das Verfahren die Schritte umfasst:
    • Aufnehmen von Umfeldsensordaten über wenigstens einen Umfeldsensor des Fahrzeugs;
    • Erkennen eines Objekts auf Basis der aufgenommenen Umfeldsensordaten in Form von Eingabedaten unter Berücksichtigung wenigstens eines relationale Attributs;
    • Bestimmen unter Berücksichtigung des erkannten Objekts eines Umgebungszustands des Fahrzeugs, wobei im Umgebungszustand wenigstens eine Verkehrssituation des Fahrzeugs inklusive des erkannten Objekts beschrieben ist;
    • Generieren einer Manövrierentscheidung durch das Steuerungsmodul der Fahrzeugsteuerung, wobei die Manövrierentscheidung auf dem bestimmten Umgebungszustand basiert;
    • Bewirken durch Steuerungssysteme der Fahrzeugsteuerung eines Steuerungsmanövers basierend auf der Manövrierentscheidung.
    • Die Manövrierentscheidung kann ein Bremsen oder ein Beschleunigen und/oder ein Lenken des Fahrzeuges umfassen. Hierdurch kann ein verbessertes Steuerungsverfahren für autonome Fahrzeuge bereitgestellt werden, das auf einer verbesserten Objekterkennung basiert.
  • Gemäß einem dritten Aspekt wird die Aufgabe gelöst mit einer Objektdetektionsvorrichtung die eingerichtet ist, das vorgeschlagene Verfahren auszuführen.
  • Gemäß einem vierten Aspekt wird die Aufgabe gelöst mit einem Computerprogramm umfassend Befehle, die bei der Ausführung des Computerprogramms durch einen Computer diesen veranlassen, das vorgeschlagene Verfahren auszuführen oder das auf einem computerlesbaren Speichermedium gespeichert ist.
  • Bevorzugte Weiterbildungen des Verfahrens sind Gegenstand von abhängigen Ansprüchen.
  • Eine weitere vorteilhafte Weiterbildung des Verfahrens zeichnet sich dadurch aus, dass das relationale Attribut eines aus Folgendem ist: Interaktionen von wenigstens zwei Objekten, Verdeckung eines Objekts durch wenigstens ein anderes Objekt. Auf diese Weise werden nützliche Formen von relationalen Attributen bereitgestellt, die einen funktionalen Zusammenhang zwischen mindestens zwei unterschiedlichen Objekten definieren. Hierdurch kann eine eindeutige Relation zwischen zwei oder mehreren Objekten erkannt werden, sodass eine Beurteilung ermöglicht ist, wie viele gegebenenfalls teilweise überdeckte Objekte in einer Rohdetektion enthalten sind.
  • Weitere vorteilhafte Weiterbildungen des Verfahrens zeichnen sich dadurch aus, dass als ein Attribut zur Verortung des Objekts ein Begrenzungselement oder Hauptpunkte des Objekts ermittelt werden. Vorteilhaft werden dadurch unterschiedliche Möglichkeiten zur Definition bzw. Verortung des Objekts mittels der Eingabedaten bereitgestellt.
  • Eine weitere vorteilhafte Weiterbildung des Verfahrens zeichnet sich dadurch aus, dass das Attribut in Form eines Begrenzungselements in Teilbegrenzungselemente unterteilt ist, wobei für jedes Teilbegrenzungselement ein binärer Wert ermittelt wird, der eine Präsenz eines Objekts innerhalb eines Teilbegrenzungselements kodiert. Vorteilhaft wird auf diese Weise eine weitere Art der relationalen Attribute bereitgestellt, der unter Umständen eine weiter verbesserte Szenenauflösung bereitstellen kann.
  • Eine weitere vorteilhafte Weiterbildung des Verfahrens zeichnet sich daraus, dass das Verfahren mit wenigstens einem Typ folgender Eingabedaten durchgeführt wird: Bilddaten, Radardaten, Lidardaten, Ultraschalldaten. Vorteilhaft kann auf diese Weise das vorgeschlagene Verfahren mit unterschiedlichen Arten von Eingabedaten durchgeführt werden. Eine verbesserte Diversifizierung bzw. Nutzbarkeit des vorgeschlagenen Verfahrens ist auf diese Weise vorteilhaft unterstützt.
  • Eine weitere vorteilhafte Weiterbildung des Verfahrens zeichnet sich dadurch aus, dass zur Ermittlung des relationalen Attributs ein neuronales Netz verwendet wird, wobei ein Bild der Eingabedaten mittels Faltungskernen wenigstens in Teilbereichen definiert oft gefaltet wird. Vorteilhaft können auf diese Art und Weise die relationalen Attribute mit nur geringfügig erhöhtem Rechenaufwand ermittelt werden. Im verwendeten neuronalen Netz kann das relationale Attribut wenigstens in Form eines zusätzlichen Ausgabeneurons des neuronalen Netzes berücksichtigt werden, das das relationale Attribut beschreibt. Das neuronale Netz wurde in einem vorhergehenden Trainingsverfahren entsprechend trainiert, um an dem zusätzlichen Ausgabeneuron das relationale Attribut auszugeben.
  • Eine weitere vorteilhafte Weiterbildung des Verfahrens zeichnet sich dadurch aus, dass das Ermitteln des zu erkennenden Objekts zusammen mit einer Nicht-Maximalwert-Unterdrückung durchgeführt wird. Dadurch kann das relationale Attribut auch im Zusammenhang mit einer Nicht-Maximalwert-Unterdrückung verwendet werden, wodurch eine Objekterkennung noch weiter verbessert sein kann.
  • Eine weitere vorteilhafte Weiterbildung des Verfahrens zeichnet sich dadurch aus, dass ein Steuersignal zum Steuern eines physikalischen Systems, insbesondere eines Fahrzeugs in Abhängigkeit vom erkannten Objekt erzeugt wird. Im Ergebnis ist dadurch eine bessere Wahrnehmung eines Umfelds unterstützt, wodurch ein physikalisches System, z.B. ein Fahrzeug verbessert gesteuert werden kann. Beispielsweise kann dadurch ein Überholmanöver eines Fahrzeugs, nachdem eine Mehrzahl von vorausfahrenden Fahrzeugen erkannt wurde, verbessert gesteuert werden.
  • Nach einer Ausführungsform ist das Steuerungsmanöver ein Ausweichmanöver und/oder ein Überholmanöver, und wobei insbesondere das Ausweichmanöver und/oder das Überholmanöver geeignet sind, das Fahrzeug an einem erkannten Objekt vorbeizusteuern.
  • Die Erfindung wird im Folgenden mit weiteren Merkmalen und Vorteilen anhand von mehreren Figuren im Detail beschrieben. Gleiche oder funktionsgleiche Elemente haben dabei gleiche Bezugszeichen.
  • Offenbarte Verfahrensmerkmale ergeben sich analog aus entsprechenden offenbarten Vorrichtungsmerkmalen und umgekehrt. Dies bedeutet insbesondere, dass sich Merkmale, technische Vorteile und Ausführungen betreffend das vorgeschlagene Verfahren in analoger Weise aus entsprechenden Ausführungen, Merkmalen und Vorteilen betreffend die vorgeschlagene Objektdetektionsvorrichtung ergeben und umgekehrt.
  • In den Figuren zeigt:
    • 1 einen prinzipiellen Ablauf des vorgeschlagenen Verfahrens;
    • 2 ein Blockschaltbild einer vorgeschlagenen Objektdetektionsvorrichtung;
    • 3 eine prinzipielle Darstellung einer Wirkungsweise des vorgeschlagenen Verfahrens;
    • 4 einen prinzipiellen Ablauf eines vorgeschlagenen Trainingsverfahrens zum Trainieren von relationalen Attributen;
    • 5 ein Beispiel zur Ermittlung eines relationalen Attributs mittels eines neuronalen Netzes; und
    • 6 einen prinzipiellen Ablauf einer Ausführungsform des vorgeschlagenen Verfahrens.
  • Beschreibung von Ausführungsformen
  • Es ist bekannt, objektspezifische Attribute wie einen Überlappungsgrad einer Detektion mit der detektierten Objektinstanz oder Objekteigenschaften wie beispielsweise die Orientierung eines Objektes in der Szene zu prädizieren. Dies ist z.B. in Redmon, Joseph, et al. „You only look once: Unified, real-time object detection“, Proceedings of the IEEE conference on computer vision and pattern recognition, 2016 oder in Braun, Markus, et al. „Pose-RCNN: Joint Object Detection and Pose Estimation Using 3D Object Proposals“, IEEE ITSC, 2016 offenbart.
  • Ein Kerngedanke des vorgeschlagenen Verfahrens ist eine Prädiktion von sogenannten relationalen Attributen, insbesondere im Zusammenhang mit Objektdetektion. Die vorgeschlagenen relationalen Attribute beschreiben Beziehungen oder Eigenschaften, die sich auf ein oder mehrere weitere Objekte im Umfeld eines detektierten Objektes beziehen. Dies umfasst auch eine der Objektdetektion folgende Algorithmik, die z.B. die Attributpräsenz auf Objektvorschlägen bewertet. Im Folgenden werden diese Attribute als „relationale Attribute“ bezeichnet. Herkömmliche Attribute beziehen sich ausschließlich auf Eigenschaften des detektierten Objektes. Derartige konventionell detektierte Objekte werden somit isoliert betrachtet, potenziell wichtige Kontextinformation werden einer Nachverarbeitung somit nicht zur Verfügung gestellt.
  • Ein einfaches Beispiel für ein relationales Attribut ist eine Anzahl von Objekten, die sich in einem Bildraum mit dem detektierten Objekt überschneiden. Beispielsweise könnte für ein Fahrzeug prädiziert werden, dass dieses zwei weitere vorausfahrende Fahrzeuge verdeckt, die im Bild aufgrund von Verdeckung nur zu einem geringen Prozentsatz sichtbar sind.
  • Auf diese Weise lässt sich mit dem vorgeschlagenen Verfahren ein erheblich verbessertes Szenenverständnis gewinnen oder es lassen sich nachfolgende Algorithmen unterstützen, indem beispielsweise eine nachgeschaltete Nicht-Maximalwert-Unterdrückung (NMS) informiert wird, wieviel Rohdetektionen innerhalb eines bestimmten Bereichs ausgegeben werden müssen. Alternativ können die ermittelten relationalen Attribute eines ermittelten Objekts auch als zusätzliche Information in Bezug auf das ermittelte Objekt zu einer verbesserten Objekterkennung dienen. So kann beispielsweise auf Basis der relationalen Attribute eines erkannten Objekts, das erkannte Objekt als ein zu einer Gruppe von Objekten gehöriges Objekt erkannt werden. Beispielsweise lässt sich so aus einer Fahrerperspektive eines Fahrzeugs ein vor diesem Fahrzeug angeordnetes weiteres Fahrzeug als zu einer Gruppe von hintereinander angeordneten weiteren Fahrzeugen erkennen. Hierdurch lassen sich Reihen von hintereinander fahrenden Fahrzeugen ermitteln, wobei jedem erkannten Fahrzeug eine Position innerhalb der Reihe zugeordnet werden kann, indem die Anzahl von Fahrzeuge bestimmt wird, die durch das jeweilige Fahrzeug wenigstens teilweise verdeckt sind. Dies kann insbesondere für einen geplanten Überholvorgang von Interesse sein, bei dem für das überholende Fahrzeug berücksichtigt werden muss, ob lediglich das unmittelbar vor dem überholenden Fahrzeug angeordnete Fahrzeug oder eine Reihe weiterer hintereinander fahrender Fahrzeuge überholt werden muss. Die Information der relationalen Attribute kann entsprechend durch die Steuerung des Fahrzeugs berücksichtigt werden.
  • Weitere denkbare Anwendungsmöglichkeiten des vorgeschlagenen Verfahrens sind:
    • Ein Algorithmus zur Personenerkennung oder Aktionserkennung kann etwa durch die Prädiktion von Verdeckungsinformation von Körperteilen unterstützt werden, um sich auf das richtige Objekt zu fokussieren. Ein Tracking-Algorithmus, welcher gestützt durch einen Objektdetektor ein Objekt in einer Videosequenz verfolgt, kann durch zusätzlich prädizierte Verdeckungsinformationen vorteilhaft in die Lage versetzt werden, schwierige algorithmische Entscheidungen, wie das Eröffnen neuer Tracks ausgehend von einzelnen Detektionen korrekt zu treffen, um auf diese Weise z.B. das Trackingverhalten von Menschenmengen zu verbessern.
  • 1 zeigt im Prinzip einen Ablauf des vorgeschlagenen Verfahrens. Erkennbar ist eine Objektdetektionsvorrichtung 100, beispielsweise mit einer Verarbeitungseinrichtung 20a...20n (nicht dargestellt), an die Eingabedaten D in Form von z.B. Kameradaten, Lidardaten, Radardaten, Ultraschalldaten, eines Umfelds eines Fahrzeugs zugeführt werden. Die Eingabedaten D können dabei in einer bildähnlichen Form in einem 2D- oder einem 3D-Grid dargestellt sein.
  • Vorgeschlagen wird bei den Rohdetektionen eine Ermittlung eines Attributs 1a... 1n in Form wenigstens eines relationalen Attributs 1a... 1n, welches einen Zusammenhang eines ermittelten Objekts mit zumindest einem weiteren ermittelten Objekt definiert.
  • Die derart durchgeführten Rohdetektionen stehen somit entweder als erste Objektdetektionen OD bereit oder können optional einer nachgelagerten Nicht-Maximalwert-Unterdrückung übergeben werden, die mittels einer Unterdrückungseinrichtung 110 durchgeführt wird. Im Ergebnis werden dadurch am Ausgang der Unterdrückungseinrichtung 110 zweite Objektdetektionen OD1 mit den erkannten Objekten bereitgestellt. Mittels der Nicht-Maximalwert-Unterdrückung (engl. non-maximum-suppression, NMS) kann eine sich ergebende Vielzahl von Detektionen pro Zielobjekt auf eine einzige Detektion reduziert werden. Durch Berücksichtigung der ermittelten relationalen Attribute kann bestimmt werden, ob lediglich ein Objekt oder eine Gruppe einander teilweise verdeckender Objekte erkannt ist. Dies kann bei der Nicht-Maximalwert-Unterdrückung berücksichtigt werden, um einen möglichst eindeutige Repräsentation des erkannte Objekts beziehungsweise der erkannten Objekte durch ein oder mehrere Begrenzungselemente, in Form von Bounding Boxen, zu erreichen.
  • Mittels der Objektdetektionsvorrichtung 100 werden aus den Eingabedaten D Rohdetektionen durchgeführt, wobei zugeordnete Attribute 1a...1n (z.B. Begrenzungselemente, Konfidenz, Objektklassifikationen, usw.) ermittelt werden. Ein Attribut 1a... 1n zur Definition eines Objekts aus den Eingabedaten D kann zum Beispiel in Form in Form eines Begrenzungselements (Bounding Box) des Objekts vorliegen, welches das Objekt als eine Art von Rechteck umschließt.
  • Alternativ kann vorgesehen sein, das Objekt aus den Eingabedaten D in Form von Hauptpunkten zu definieren, wobei jeder Hauptpunkt die Position einer einzelnen Komponente eines Objektes kodiert (z.B. Kopf, rechter/linker Arm einer Person, usw.). Mit dem vorgeschlagenen Verfahren werden somit verbesserte attributierte Rohdetektionen durchgeführt, wobei pro Hauptpunkt wenigstens ein zusätzliches Attribut (z.B. Verdeckung) berücksichtigt wird. Im Folgenden werden beispielhaft zwei Varianten beschrieben, wie solche verbessert attributierten Rohdetektionen durchgeführt werden können. In Form von semantischer Segmentierung können somit jedem erkannten Objekt einzelne Komponenten zugeschrieben werden. Beispielsweise kann einer erkannten Person einzeln erkannte Körperteile als Hauptpunkte zugeordnet werden. Eine derartige Zuordnung einzelner Komponenten eines Objekts kann durch ein auf semantische Segmentierung und Klassifikation von Objekten trainiertes neuronales Netz erreicht werden. Ein entsprechender Trainingsprozess erfolgt nach aus dem Stand der Technik für semantische Segmentierung und Objekterkennung bekannte Trainingsprozesse. Hierzu kann das neuronale Netz beispielsweise als eine Covolutional Neural Network ausgebildet sein.
  • Eine Ausführungsform einer vorgeschlagenen Objektdetektionsvorrichtung 100 ist schematisch in 2 dargestellt. Man erkennt mehrere Sensoreinrichtungen 10a...10n (z.B. Lidar, Radar- Ultraschallsensor, Kamera, usw.), die beispielsweise in einem Fahrzeug verbaut sind und zur Bereitstellung von Eingabedaten D verwendet werden. Vorteilhaft kann ein mit dem vorgeschlagenen Verfahren betriebenes technisches System auf diese Art und Weise unterschiedliche Arten von Eingabedaten D bereitstellen, zum Beispiel in Form von Kameradaten, Radardaten, Lidardaten, Ultraschalldaten.
  • Die genannten relationalen Attribute 1a... 1n können für Eingabedaten D einer einzelnen Sensoreinrichtung 10a... 10n oder für Eingabedaten D mehrerer Sensoreinrichtungen 10a... 10n ermittelt werden, wobei im letzteren Fall die Sensoreinrichtungen 10a... 10n zueinander kalibriert sein sollten.
  • Nachgeschaltet zu jeder der Sensoreinrichtungen 10a... 10n erkennt man eine jeweils zugeordnete Verarbeitungseinrichtung 20a...20n, die ein trainiertes neuronales Netz (z.B. region proposal network, convolutional neural network) umfassen kann, das die von den Sensoreinrichtungen 10a... 10n bereitgestellten Eingabedaten D mittels des vorgeschlagenen Verfahrens verarbeitet und anschließend einer Fusionseinrichtung 30 zuführt. Mittels der Fusionseinrichtung 30 wird die Objekterkennung aus den Einzelergebnissen der Verarbeitungseinrichtungen 20a...20n durchgeführt.
  • An einen Ausgang der Fusionseinrichtung 30 kann eine Aktuatoreinrichtung 40 eines Fahrzeugs angeschaltet sein, die in Abhängigkeit vom Ergebnis der durchgeführten Objekterkennung angesteuert wird, beispielsweise um einen Überholvorgang, Bremsvorgang, Lenkmanöver des Fahrzeugs, usw. zu initiieren. Wie oben angeführt, ermöglicht die verbesserte Objekterkennung unter Berücksichtigung entsprechender relationaler Attribute der erkannten Objekte eine verbesserte und präzisere Steuerung eines Fahrzeugs.
  • Im Folgenden sind einige Beispiele für relationale Attribute 1a... 1n und ihre Anwendung genannt:
    • - Die Rohdetektionen können mit Attributen 1a...1n in Form von Begrenzungselementen (Bounding Box) repräsentiert sein. Zusätzlich zu den Begrenzungselementen wird als relationales Attribut 1a... 1n für jedes Objekt prädiziert, wie viele Objekte sich mit dem Begrenzungselement schneiden. Während sich das prädizierte Begrenzungselement nur auf ein einzelnes Objekt bezieht, gibt das relationale Attribut eine Zusatzinformation an, die in einer Nachverarbeitung vorteilhaft eingesetzt werden kann, z.B. in der bereits erwähnten Nicht-Maximalwert-Unterdrückung.
    • - Die Rohdetektionen können auch mit Attributen 1a... 1n in Form von Hauptpunkten der Objekte repräsentiert sein. Zusammen mit einem, mehreren oder allen Hauptpunkten wird ein relationales Attribut 1a... 1n definiert, das angibt, ob der Hauptpunkt ein anderes Objekt verdeckt. Ähnlich wie im vorangegangen Beispiel kann diese Information vorteilhaft in einer Nachverarbeitung eingesetzt werden, die noch feingranularer sein kann.
  • 3 zeigt Beispiele der vorgeschlagenen relationalen Attribute 1a... 1n. Im linken Abschnitt von 3 ist angedeutet, dass die Objektdetektionsvorrichtung 100 jeweils mittels eines Begrenzungselements 1a, 1b, 1cjeweils eine Person P1, P2, P3 erkennt. Zusätzlich wird für jedes Begrenzungselement 1a, 1b, 1c als relationales Attribut prädiziert bzw. ermittelt, wie viele Objekte im Objekt-Begrenzungselement vorhanden sind.
  • Im Ergebnis wird dadurch angegeben, wieviel Personen sich scheinbar innerhalb des jeweiligen Begrenzungselements befinden. Dies bedeutet, dass im Falle des Begrenzungselements 1a als relationales Attribut angegeben wird, dass sich insgesamt drei Personen innerhalb des Begrenzungselements 1a befinden. Im Falle des Begrenzungselements 1b wird als relationales Attribut angegeben, dass sich insgesamt zwei Personen innerhalb des Begrenzungselements 1b befinden. Im Falle des Begrenzungselements 1c wird angegeben, dass sich insgesamt zwei Personen innerhalb des Begrenzungselements 1c befinden. Hierdurch kann eine präzisere Zuordnung von Begrenzungselementen zu erkannten Objekten und damit verbunden eine verbesserte Objekterkennung erreicht werden.
  • Eine Kodierung der genannten relationalen Attribute kann z.B. in Form von Zahlenwerten durchgeführt werden. Dies bedeutet, dass für das Begrenzungselement 1a der Zahlenwert drei kodiert wird, für das Begrenzungselements 1 der Zahlenwert zwei und für das Begrenzungselement 1c ebenfalls der Zahlenwert zwei.
  • Im rechten Abschnitt von 3 ist angedeutet, dass mittels der Objektdetektionsvorrichtung 100 zwei Personen P4, P5 erkannt werden, die nicht durch Begrenzungselemente (wie im linken Abschnitt von 3), sondern jeweils durch Attribute in Form von Hauptpunkten 1a... 1n, 2a... 2n repräsentiert sind. Zu jedem der genannten Hauptpunkte 1a... 1n, 2a...2n wird als relationales Attribut prädiziert, ob dieser ein anderes Objekt verdeckt oder nicht. Beispielhaft sind zwei Hauptpunkte 1f, 1g der Person P4 graphisch hervorgehoben, für die dies zutrifft. Mit den Hauptpunkten 1f, 1g verdeckt die Person P4 also wenigstens teilweise die ermittelte Person P5.
  • Denkbar und nicht in Figuren dargestellt ist die Option, dass ein Attribut 1a... 1n in Form eines Begrenzungselements in mehrere Teilbegrenzungselemente unterteilt ist, wobei in den Teilbegrenzungselementen kodiert ist, ob sich Objekte im jeweiligen Teilbegrenzungselement befinden. Die Kodierung kann zum Beispiel binär mit Nullen oder Einsen erfolgen, wobei eine „1“ kodiert, dass sich im Teilbegrenzungselement ein weiteres Objekt befindet und wobei eine „0“ kodiert, dass sich kein weiteres Element im jeweiligen Teilbegrenzungselement befindet. Eine Kodierung in Form einer ganzen Zahl kann z.B. angeben, dass sich mehr als ein Objekt im Teilbegrenzungselement befindet.
  • 4 zeigt einen beispielhaften Inferenzvorgang einer Objektdetektionsvorrichtung 100 mit zusätzlicher Prädiktion von relationalen Attributen 1a... 1n. Dabei wird analog wie bei der Prädiktion von Attributen 1a... 1n in Form von Begrenzungselementen relativ zu Ankern (vordefinierte Boxen im Sinne des oben genannten Dokuments des Stands der Technik) vorgegangen, indem für jeden Anker mittels eines Filterkerns 23a...23n pro relationalem Attribut eine Prädiktion des Ankerwerts ermittelt wird. Befindet sich an einer Ankerposition kein Objekt gemäß prädizierter Klassenkonfidenz, so wird das Prädiktionsergebnis verworfen.
  • 4 kann auch als ein Trainingsszenario eines neuronalen Netzes einer Verarbeitungseinrichtung 20a...20n (nicht dargestellt) für eine Objektdetektionsvorrichtung 100 (nicht dargestellt) verstanden werden, wobei das neuronale Netz in diesem Fall als ein Faster RCNN ausgebildet sein kann. Man erkennt mehrere Merkmalskarten (engl. feature maps) 21a...21n mit Eingabedaten D. Man erkennt, dass die Merkmalskarten 21a... 21n schrittweise mit ersten Faltungskernen 22a...22n und anschließend mit zweiten Faltungskernen 23a...23n bearbeitet werden. Die derart gefalteten Bilder der Eingabedaten D stellen auf diese Weise abstrahierte Darstellungen der ursprünglichen Bilder dar. Die vorgeschlagenen zusätzlichen relationalen Attribute 1a... 1n werden insbesondere mit den Faltungskernen 23a...23n ermittelt.
  • Ein Ergebnis der Faltung der Merkmalskarten mit den Faltungskernen 22a...22n, 23a...23n wird am Ausgang des neuronalen Netzes ausgegeben. Die derart ermittelten relationalen Attribute 1a... 1n werden anschließend analog zu Koordinaten von Attributen 1a... 1n in Form von Begrenzungselementen verarbeitet.
  • In der Trainingsphase des neuronalen Netzes kann die Generierung der zusätzlichen relationalen Attributen 1a... 1n z.B. per Hand durch einen menschlichen Annotator erfolgen, oder algorithmisch. Hierzu kann der Annotator entsprechende relationale Attribute in den jeweiligen Trainingsdaten des neuronalen Netzes annotieren. Beispielsweise kann der Annotator in Trainingsdaten, die Bildaufnahmen darstellen, Bereiche einer Überdeckung von Objekten kennzeichnen. Diese gekennzeichneten Bildaufnahmen werden als Trainingsdaten verwendet, um ein neuronales Netz zum Erkennen von Überdeckungen von Objekten zu trainieren. Als Trainingsdaten können beispielsweise aus einer Fahrerperspektive aufgenommene Bildaufnahmen verwendet werden, die z.B. Reihen hintereinander fahrender Fahrzeuge darstellen, in denen Überdeckungen einzelner Fahrzeuge gekennzeichnet sein können.
  • Eine vollständige Objektannotation beschreibt hiermit ein einzelnes in der Bildaufnahme auftretendes Objekt durch eine Menge von Attributen, wie zum Beispiel die Bounding Box, eine Objektklasse, oder weitere zur Kennzeichnung des Objekts geeignete Attribute. Diese Attribute können insbesondere geeignet sein, um mit einer Nicht-Maximalwert Unterdrückung (Non Maximum Supression, NMS) für ein detektiertes Objekt die zur Objektdetektion erstellte Mehrzahl von Rohdetektionen auf die Rohdetektion zu reduzieren, die die beste Darstellung des detektierten Objekts ermöglicht. In den Annotationen können alle Attribute, die in der Nicht-Maximalwert-Unterdrückung notwendig sind, entsprechend hinterlegt werden. Diese Annotationen der Attribute wie auch der zusätzlichen Attribute kann händisch während eines supervised Trainingsprozesses vorgenommen werden. Alternativ kann eine derartige Annotation automatisch mittels eines entsprechenden Algorithmus erreicht werden.
  • Im Trainingsprozess des neuronalen Netzes werden die freien Parameter (Gewichte der Neuronen) des neuronalen Netzes über ein Optimierungsverfahren bestimmt. Dies passiert dadurch, dass für jedes Attribut, das das neuronale Netz prädiziert, eine Zielfunktion definiert wird, welche die Abweichung der Ausgabe von den Trainingsannotationen bestraft. Für die relationalen Attribute werden dementsprechend zusätzliche Zielfunktionen definiert. Die konkret zu wählende Zielfunktion hängt dabei von der Semantik des relationalen Attributes ab.
  • Liegen beispielsweise bereits Objektannotationen mit Attributen 1a... 1n in Form von Begrenzungselementen vor, ließe sich ein relationales Attribut, welches beschreibt, mit wie vielen Objekten sich ein Objekt überlappt, automatisiert bestimmen, indem man die Überlappung des Begrenzungselements mit allen anderen Begrenzungselementen in der Szene berechnet. Zu beachten ist dabei, dass sich diese Information zwar in der Trainingsphase bei vorhandenen korrekten Annotationen automatisiert berechnen lassen kann, nicht aber zur Anwendungszeit der Objektdetektionsvorrichtung 100, da die Ausgabe der trainierten Objektdetektionsvorrichtung 100 fehlerbehaftet sein kann und da insbesondere Objektdetektoren gemäß Stand der Technik viel zu viele Detektionen produzieren, bevor die NMS angewandt wird.
  • Ein neuronales Netz der Objektdetektionsvorrichtung 100 kann zur Berücksichtigung der zusätzlichen relationalen Attribute für jedes relationale Attribut wenigstens mit einem weiteren Ausgabeneuron versehen sein. Das weitere Ausgabeneuron gibt ein entsprechend dem Training festgelegtes relationales Attribut aus.
  • Die auf die genannte Art und Weise ermittelten relationalen Attribute 1a... 1n der Objektdetektionsvorrichtung 100 können vorteilhaft mit einer Nicht-Maximalwert-Unterdrückung kombiniert werden. So kann zum Beispiel die Information, dass ein Objekt weitere Objekte verdeckt, genutzt werden, um während der nachfolgenden Nicht-Maximalwert-Unterdrückung Objektgruppen besser in zweite Objektdetektionen OD1 auflösen. Die Verwendung der vorgeschlagenen relationalen Attribute 1a... 1n ist aber vorteilhaft nicht auf eine Kombination mit der Nicht-Maximalwert-Unterdrückung beschränkt, sondern kann auch ohne diese erfolgen.
  • Dabei wird ein relationales Attribut als ein Attribut der Detektion definiert, welches eine Beziehung zwischen einem detektierten Objekt zu anderen Objekten in der erfassten Szene beschreibt. Beispiele für ein relationales Attribut sind:
    • - Eine Anzahl von mehreren Objekten in einem bestimmten Radius um die Detektion herum. Die genannte Beziehung ist dabei eine räumliche Nähe der Objekte im Bildraum.
    • - Eine Interaktion zwischen Objekten, z.B. eine in einer Rohdetektion A erkannte Person redet mit einer anderen, in einer Rohdetektion B erkannten Person.
  • Um das vorgeschlagene Verfahren zu realisieren, sollten die relationalen Attribute bereits in der Trainingsphase der Objektdetektionsvorrichtung 100 berücksichtigt werden. Die Objektdetektionsvorrichtung 100 wird dabei auf einer Menge von Trainingsdaten trainiert. Die Trainingsdaten repräsentieren dabei eine Menge von Sensordaten (z.B. Bilder), wobei mit jedem Datum eine Liste von Objektannotationen assoziert wird. Dabei beschreibt eine Objektannotation ein einzelnes in der Szene auftretendes Objekt durch eine Menge von Attributen 1a... 1n (z.B. Begrenzungselement, Objektklasse, Detektionsgüte, usw.). Relationale Attribute werden entsprechend zu diesen Attributmengen hinzugefügt. Auf Basis dieser mit Objektannotationen versehenen Trainingsdaten in Form von Bildaufnahmen von Szenendarstellungen zu erkennender Objekte wird die wenigstens ein neuronales Netz umfassende Objektdetektionsvorrichtung trainiert, entsprechende Objekte und die jeweils annotierten relationalen Attribute zu erkennen.
  • Die Erfindung ist vorteilhaft auf Produkte anwendbar, bei denen eine Objektdetektion durchgeführt wird, wie zum Beispiel:
    • - „Intelligente“ Kameras für (teil-)automatisierte Fahrzeuge. Die Detektion ermöglicht hierbei das Erkennen von Hindernissen oder genereller eine Interpretation der Szene und das Ansteuern eines entsprechend steuernden Aktuators
    • - Roboter, die auf Basis von Kameradaten Hindernissen ausweichen (z.B. autonomer Rasenmäher)
    • - Überwachungskameras, mit denen etwa die Anzahl von Personen in einem bestimmten Bereich geschätzt werden kann
    • - Intelligente Sensoren im Allgemeinen, z.B. Objektdetektion auf Radar- oder LIDAR-Daten, die in einer weiteren Ausprägung bspw. von einer Kamera ermittelten Attribute nutzt
  • Besonders nutzbringend kann das vorgeschlagene Verfahren bei Szenarien mit stark überlappenden Objekten eingesetzt werden und kann auf diese Weise z.B. einzelne Personen in Menschenmengen oder einzelne Fahrzeugen in einer Stausituation auflösen. Vorteilhaft werden dadurch mehrere Objekte nicht fälschlicherweise zu einer einzigen Detektion zusammengefasst.
  • Vorteilhaft kann dadurch eine Arbeit für der Objektdetektion nachgeschaltete Algorithmen erleichtert werden, wie z.B. Verfahren zur Personenerkennung. Dabei können einzelne Personen vom Objektdetektor getrennt werden, so dass die Personenerkennung ihrerseits optimale Ergebnisse erzielt.
  • 5 zeigt eine Einrichtung in Form eines neuronalen Netzes zum Ermitteln des vorgeschlagenen relationalen Attributs 1a... 1n. Man erkennt, dass dem neuronalen Netz 50 in einer Inferenzphase der Objektdetektion die Eingabedaten D zugeführt werden, wobei das neuronale Netz z.B. die Aktionen gemäß 4 durchführt und aus den Eingabedaten D das relationale Attribut 1a... 1n ermittelt.
  • Dabei definiert das relationale Attribut 1a... 1n eine Beziehung bzw. einen Zusammenhang zwischen wenigstens einem ermittelten Objekt der Objektdetektion.
  • Auf diese Weise wird eine Deep Learning-basierte Objektdetektion unter Verwendung wenigstens eines neuronalen Netzes, insbesondere eines Convolutional Neural Network CNN, realisiert, welches zunächst die Eingabedaten mittels Faltungen und Nichtlinearitäten in so genannte Features transformiert, um darauf basierend mit speziell angeordneten Prädiktionslayern des neuronalen Netzes (üblicherweise ebenfalls bestehend aus Faltungskernels, manchmal aber auch „Fully connected“-Neuronen) unter anderem ein relationales Attribut, eine Objektklasse, eine genaue Position und gegebenenfalls weitere Attribute zu prädizieren.
  • Vorteilhaft kann das vorgeschlagene Verfahren z.B. bei einem Objekterkennungssystem im Zusammenhang mit Action Recognition/Prediction, Tracking Algorithmus eingesetzt werden.
  • 6 zeigt ein prinzipielles Ablaufdiagramm einer Ausführungsform des vorgeschlagenen Verfahrens.
  • In einem Schritt 200 erfolgt ein Durchführen von Rohdetektionen, wobei wenigstens zwei Objekte ermittelt werden.
  • In einem Schritt 210 erfolgt ein Ermitteln wenigstens eines relationalen Attributs für die wenigstens zwei ermittelten Objekte, wobei das wenigstens eine relationale Attribut einen Zusammenhang zwischen den in Schritt a) ermittelten wenigstens zwei Objekten definiert.
  • In einem Schritt 220 wird ein Ermitteln eines zu erkennenden Objekts unter Berücksichtigung des wenigstens einen relationalen Attributs durchgeführt.
  • Das vorgeschlagene Verfahren ist vorzugsweise als ein Computerprogramm ausgebildet, das Programmcodemittel zum Ausführen des Verfahrens auf der Verarbeitungseinrichtung 20a...20n aufweist. Voreilhaft kann das vorgeschlagene Verfahren auf einem Hardwarechip implementiert werden, wobei ein Softwareprogramm mittels eines Chipdesigns explizit für eine Rechenaufgabe des vorgeschlagenen Verfahrens nachgebildet wird.
  • Obwohl die Erfindung vorgehend anhand von konkreten Ausführungsbeispielen beschrieben worden ist, kann der Fachmann vorgehend auch nicht oder nur teilweise offenbarte Ausführungsformen realisieren, ohne vom Kern der Erfindung abzuweichen.

Claims (13)

  1. Verfahren zum Erkennen eines Objekts aus Eingabedaten (D), mit den Schritten: a) Durchführen von Rohdetektionen, wobei wenigstens zwei Objekte ermittelt werden; b) Ermitteln wenigstens eines relationalen Attributs für die wenigstens zwei ermittelten Objekte, wobei das wenigstens eine relationale Attribut einen Zusammenhang zwischen den in Schritt a) ermittelten wenigstens zwei Objekten definiert; und c) Ermitteln eines zu erkennenden Objekts unter Berücksichtigung des wenigstens einen relationalen Attributs.
  2. Verfahren nach Anspruch 1, wobei das relationale Attribut (1a... 1n) eines aus Folgendem ist: Interaktionen von wenigstens zwei Objekten, Verdeckung eines Objekts durch wenigstens ein anderes Objekt.
  3. Verfahren nach Anspruch 1 oder 2, wobei als ein Attribut (1a... 1n) zur Verortung des Objekts ein Begrenzungselement oder Hauptpunkte des Objekts ermittelt werden.
  4. Verfahren nach Anspruch 3, wobei das Attribut (1a... 1n) in Form eines Begrenzungselements in Teilbegrenzungselemente unterteilt ist, wobei für jedes Teilbegrenzungselement ein binärer Wert ermittelt wird, der eine Präsenz eines Objekts innerhalb eines Teilbegrenzungselements kodiert.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Verfahren mit wenigstens einem Typ folgender Eingabedaten (D) durchgeführt wird: Bilddaten, Radardaten, Lidardaten, Ultraschalldaten.
  6. Verfahren nach einem der vorhergehenden Ansprüche, wobei zur Ermittlung des relationalen Attributs (1a... 1n) ein neuronales Netz, insbesondere ein Convolutional Neural Network CNN verwendet wird, wobei ein Bild der Eingabedaten (D) mittels Faltungskernen (22a...22n, 23a...23n) des neuronalen Netzes wenigstens in Teilbereichen definiert oft gefaltet wird.
  7. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Ermitteln des zu erkennenden Objekts zusammen mit einer Nicht-Maximalwert-Unterdrückung durchgeführt wird.
  8. Verfahren nach einem der vorhergehenden Ansprüche, wobei ein Steuersignal zum Steuern eines physikalischen Systems, insbesondere eines Fahrzeugs in Abhängigkeit vom erkannten Objekt erzeugt wird.
  9. Verfahren zum Steuern eines autonom fahrenden Fahrzeugs unter Berücksichtigung von Umfeldsensordaten, mit den Schritten: Aufnehmen von Umfeldsensordaten über wenigstens einen Umfeldsensor des Fahrzeugs; Erkennen eines Objekts auf Basis der aufgenommenen Umfeldsensordaten in Form von Eingabedaten gemäß dem Verfahren nach einem der Ansprüche 1 bis 8; Bestimmen unter Berücksichtigung des erkannten Objekts eines Umgebungszustands des Fahrzeugs, wobei im Umgebungszustand wenigstens eine Verkehrssituation des Fahrzeugs inklusive des erkannten Objekts beschrieben ist; Generieren einer Manövrierentscheidung durch das Steuerungsmodul der Fahrzeugsteuerung, wobei die Manövrierentscheidung auf dem bestimmten Umgebungszustand basiert; Bewirken durch Steuerungssysteme der Fahrzeugsteuerung eines Steuerungsmanövers basierend auf der Manövrierentscheidung.
  10. Verfahren nach Anspruch 9, wobei das Steuerungsmanöver ein Ausweichmanöver und/oder ein Überholmanöver ist, und wobei das Ausweichmanöver und/oder das Überholmanöver geeignet ist, das Fahrzeug am erkannten Objekt vorbeizusteuern.
  11. Objektdetektionsvorrichtung (100) die eingerichtet ist, ein Verfahren nach einem der vorhergehenden Ansprüche 1 bis 8 auszuführen.
  12. Objektdetektionsvorrichtung (100) nach Anspruch 11, wobei das Verfahren nach einem der Ansprüche 1 bis 8 wenigstens teilweise mittels eines neuronalen Netzes durchgeführt wird.
  13. Computerprogramm umfassend Befehle, die bei der Ausführung des Computerprogramms durch einen Computer diesen veranlassen, ein Verfahren gemäß einem der Ansprüche 1 bis 8 auszuführen oder das auf einem computerlesbaren Speichermedium gespeichert ist.
DE102020209983.9A 2020-08-06 2020-08-06 Verfahren zum Erkennen eines Objekts aus Eingabedaten unter Verwendung von relationalen Attributen Pending DE102020209983A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE102020209983.9A DE102020209983A1 (de) 2020-08-06 2020-08-06 Verfahren zum Erkennen eines Objekts aus Eingabedaten unter Verwendung von relationalen Attributen
US17/394,887 US20220044029A1 (en) 2020-08-06 2021-08-05 Method for Recognizing an Object from Input Data Using Relational Attributes
CN202110895364.0A CN114078238A (zh) 2020-08-06 2021-08-05 使用关系属性从输入数据中识别对象的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102020209983.9A DE102020209983A1 (de) 2020-08-06 2020-08-06 Verfahren zum Erkennen eines Objekts aus Eingabedaten unter Verwendung von relationalen Attributen

Publications (1)

Publication Number Publication Date
DE102020209983A1 true DE102020209983A1 (de) 2022-02-10

Family

ID=79686289

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020209983.9A Pending DE102020209983A1 (de) 2020-08-06 2020-08-06 Verfahren zum Erkennen eines Objekts aus Eingabedaten unter Verwendung von relationalen Attributen

Country Status (3)

Country Link
US (1) US20220044029A1 (de)
CN (1) CN114078238A (de)
DE (1) DE102020209983A1 (de)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9805274B2 (en) * 2016-02-03 2017-10-31 Honda Motor Co., Ltd. Partially occluded object detection using context and depth ordering
US10908614B2 (en) * 2017-12-19 2021-02-02 Here Global B.V. Method and apparatus for providing unknown moving object detection

Also Published As

Publication number Publication date
CN114078238A (zh) 2022-02-22
US20220044029A1 (en) 2022-02-10

Similar Documents

Publication Publication Date Title
AT521607B1 (de) Verfahren und Vorrichtung zum Testen eines Fahrerassistenzsystem
EP3466239A1 (de) Verfahren für den betrieb einer selbstfahrenden landwirtschaftlichen arbeitsmaschine
EP3765927B1 (de) Verfahren zum erzeugen eines trainingsdatensatzes zum trainieren eines künstlichen-intelligenz-moduls für eine steuervorrichtung eines fahrzeugs
DE102019122760A1 (de) Selbstfahrende mobile roboter, die mensch-roboter-interaktionen verwenden
DE102019215902A1 (de) Verfahren zur Bestimmung eines Gütegrades von Daten-Sätzen von Sensoren
DE102021109395A1 (de) Verfahren, systeme und vorrichtungen für benutzerverständliche erklärbare lernmodelle
DE102018132370A1 (de) Verwendung von tiefer videobildvorhersage zum trainieren einer steuerung eines autonomen fahrzeugs und verfahren davon
EP4200801A1 (de) Computerimplementiertes verfahren zur analyse des innenraums eines fahrzeugs
DE102023102316A1 (de) System und verfahren zur robusten erzeugung von pseudo-labels für die halb-überwachte objekterkennung
DE102021207613A1 (de) Verfahren zur Qualitätssicherung eines Systems
DE102021207505A1 (de) Verfahren zum Trainieren eines tiefen neuronalen Netzes
DE102020201939A1 (de) Verfahren und Vorrichtung zur Bewertung eines Bildklassifikators
DE102020200499A1 (de) Verfahren zum Generieren von gelabelten Daten, insbesondere für das Training eines neuronalen Netzes, unter Verwendung ungelabelter, partitionierter Stichproben
DE102020209983A1 (de) Verfahren zum Erkennen eines Objekts aus Eingabedaten unter Verwendung von relationalen Attributen
DE102019209463A1 (de) Verfahren zur Bestimmung eines Vertrauenswertes eines Objektes einer Klasse
DE102019204187A1 (de) Klassifizierung und temporale Erkennung taktischer Fahrmanöver von Verkehrsteilnehmern
WO2022106414A2 (de) Verfahren und system zur annotation von sensordaten
DE102018216719A1 (de) Schlüsselbildbasierter autonomer Fahrzeugbetrieb
DE102020209979A1 (de) Verfahren und Vorrichtung zum Erkennen eines Objekts aus Eingabedaten
DE102021117227A1 (de) Analysieren eines Kreisverkehrs
WO2021180470A1 (de) Verfahren zur qualitätssicherung eines beispielbasierten systems
DE102020127051A1 (de) Verfahren zur Bestimmung von sicherheitskritischen Ausgabewerten mittels einer Datenanalyseeinrichtung für eine technische Entität
DE102021210593A1 (de) Verfahren zum Trainieren eines neuronalen Umfeld-Netzwerks zum Bestimmen eines Objekt-angereicherten Umfelds einer mobilen Plattform
DE102018217219B4 (de) Verfahren zum Ermitteln einer dreidimensionalen Position eines Objekts
DE102022001208A1 (de) Verfahren zur Prädiktion von Trajektorien von Objekten