DE112018000899T5 - Gemeinsame 3D-Objekterfassung und Ausrichtungsabschätzung über multimodale Fusion - Google Patents

Gemeinsame 3D-Objekterfassung und Ausrichtungsabschätzung über multimodale Fusion Download PDF

Info

Publication number
DE112018000899T5
DE112018000899T5 DE112018000899.1T DE112018000899T DE112018000899T5 DE 112018000899 T5 DE112018000899 T5 DE 112018000899T5 DE 112018000899 T DE112018000899 T DE 112018000899T DE 112018000899 T5 DE112018000899 T5 DE 112018000899T5
Authority
DE
Germany
Prior art keywords
proposals
candidates
point cloud
merging
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE112018000899.1T
Other languages
English (en)
Inventor
Chien-Yi WANG
Yi-Ting Chen
Athmanarayanan LAKSHMI NARAYANAN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of DE112018000899T5 publication Critical patent/DE112018000899T5/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C3/00Measuring distances in line of sight; Optical rangefinders
    • G01C3/02Details
    • G01C3/06Use of electric means to obtain final indication
    • G01C3/08Use of electric radiation detectors
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/02Systems using the reflection of electromagnetic waves other than radio waves
    • G01S17/06Systems determining position data of a target
    • G01S17/42Simultaneous measurement of distance and other co-ordinates
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/48Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00
    • G01S7/4802Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Electromagnetism (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

Die vorliegende Offenbarung bezieht sich allgemein auf Verfahren und Systeme zum Identifizieren von Objekten aus einer 3D-Punktwolke und einem 2D-Bild. Das Verfahren kann ein Bestimmen eines ersten Satzes von 3D-Vorschlägen unter Verwendung von euklidischem Clustering auf der 3D-Punktwolke und ein Bestimmen eines zweiten Satzes von 3D-Vorschlägen aus der 3D-Punktwolke basierend auf einem neuronalen 3D-Faltungsnetz einschließen. Das Verfahren kann ein Zusammenführen des ersten und zweiten Satzes von 3D-Vorschlägen einschließen, um einen Satz von 3D-Kandidaten zu bestimmen. Das Verfahren kann ein Projizieren des ersten Satzes von 3D-Vorschlägen auf das 2D-Bild und ein Bestimmen eines ersten Satzes von 2D-Vorschlägen unter Verwendung eines neuronalen 2D-Faltungsnetzes einschließen. Das Verfahren kann ein Zusammenführen des projizierten ersten Satzes von 3D-Vorschlägen und des ersten Satzes von 2D-Vorschlägen, um einen Satz von 2D-Kandidaten zu bestimmen, und dann ein Zusammenzuführen des Satzes von 3D-Kandidaten und des Satzes von 2D-Kandidaten einschließen.

Description

  • QUERVERWEIS AUF VERWANDTE ANMELDUNGEN
  • Die vorliegende Patentanmeldung beansprucht die Priorität der vorläufigen Anmeldung Nr. 62/473 054 mit dem Titel „JOINT 3D OBJECT DETECTION AND ORIENTATION ESTIMATION VIA MULTIMODAL FUSION“, die am 17. März 2017 eingereicht und an deren Abtretungsempfänger abgetreten wurde und durch Bezugnahme in ihrer Gesamtheit hierin aufgenommen wird.
  • HINTERGRUND
  • Ein Verständnis einer dreidimensionalen (3D) Szene kann für viele Anwendungen hilfreich sein, einschließlich automatisierter Fahr- und hochentwickelter Fahrassistenzsysteme. Bei diesen Anwendungen kann es hilfreich sein, verschiedene Verkehrsteilnehmer, z. B. Fahrzeuge, Fußgänger und Radfahrer, für Entscheidungsfindung, Risikobewertung und Bewegungsplanung zu lokalisieren und zu erkennen. Auf einer automatisierten Fahrplattform werden häufig multimodale sensorische Vorrichtungen verwendet, da jeder Sensor seine Vor- und Nachteile hat. Kameras und Lichterfassung und Entfernungsmessung (light detection and ranging (LiDAR)) sind zwei gängige Wahrnehmungssensoren. Bilder enthalten eine große Menge visueller Hinweise für Erkennungsaufgaben. Die Bildqualität kann jedoch durch unterschiedliche Beleuchtungsvariationen beeinträchtigt werden, und es kann aufgrund der perspektivischen Projektion schwierig sein, Tiefeninformationen aus Bilddaten zu rekonstruieren. Andererseits stellen LiDAR-Sensoren genaue Tiefenmessungen bereit und sind unveränderlich gegenüber der Beleuchtung. Die LiDAR-Sensordaten sind jedoch relativ spärlich, so dass es schwierig sein kann, Objekte so genau zu erkennen wie im Bildbereich.
  • In Anbetracht des Vorstehenden kann es Möglichkeiten geben, Objekte von Interesse genauer zu erfassen und ihre Ausrichtung in 3D abzuschätzen. Weitere Vorteile ergeben sich aus der nachstehend bereitgestellten Offenbarung.
  • KURZDARSTELLUNG
  • Diese Kurzdarstellung wird bereitgestellt, um eine Auswahl von Konzepten in vereinfachter Form vorzustellen, die nachstehend in der DETAILLIERTEN BESCHREIBUNG näher beschrieben werden. Diese Kurzdarstellung ist weder dazu bestimmt, Schlüsselmerkmale des beanspruchten Gegenstands zu kennzeichnen, noch soll sie als Hilfe beim Bestimmen des Schutzumfangs des beanspruchten Gegenstands verwendet werden.
  • In einem Gesichtspunkt stellt die Offenbarung ein Verfahren zum Identifizieren von Objekten aus einer 3D-Punktwolke und einem 2D-Bild bereit. Das Verfahren kann ein Bestimmen eines ersten Satzes von 3D-Vorschlägen unter Verwendung von euklidischem Clustering auf der 3D-Punktwolke einschließen. Das Verfahren kann ein Bestimmen eines zweiten Satzes von 3D-Vorschlägen aus der 3D-Punktwolke basierend auf einem neuronalen 3D-Faltungsnetzwerk einschließen. Das Verfahren kann ein Zusammenführen (pooling) des ersten Satzes von 3D-Vorschlägen und des zweiten Satzes von 3D-Vorschlägen einschließen, um einen Satz von 3D-Kandidaten zu bestimmen. Das Verfahren kann ein Projizieren des ersten Satzes von 3D-Vorschlägen auf das 2D-Bild einschließen. Das Verfahren kann ein Bestimmen eines ersten Satzes von 2D-Vorschlägen basierend auf dem Bild unter Verwendung eines neuronalen 2D-Faltungsnetzes einschließen. Das Verfahren kann ein Zusammenführen des projizierten ersten Satzes von 3D-Vorschlägen und des ersten Satzes von 2D-Vorschlägen einschließen, um einen Satz von 2D-Kandidaten zu bestimmen. Das Verfahren kann ein Zusammenführen des Satzes von 3D-Kandidaten und des Satzes von 2D-Kandidaten einschließen.
  • In einem weiteren Gesichtspunkt stellt die Offenbarung ein Fahrzeug mit einer Kamera bereit, die dazu konfiguriert ist, ein 2D-Bild zu erlangen, und ein „Lichterfassungs- und Entfernungsmessungs“(LiDAR)-System, das dazu konfiguriert ist, eine 3D-Punktwolke zu erlangen. Das Fahrzeug kann ein multimodales Fusionssystem einschließen, das dazu konfiguriert ist, Objekte aus der 3D-Punktwolke und dem 2D-Bild zu identifizieren. Das multimodale Fusionssystem kann einen Speicher und einen Prozessor einschließen, der kommunikativ mit dem Speicher gekoppelt ist. Der Prozessor kann dazu konfiguriert sein, einen ersten Satz von 3D-Vorschlägen unter Verwendung von euklidischem Clustering auf der 3D-Punktwolke zu bestimmen. Der Prozessor kann dazu konfiguriert sein, einen zweiten Satz von 3D-Vorschlägen aus der 3D-Punktwolke basierend auf einem neuronalen 3D-Faltungsnetz zu bestimmen. Der Prozessor kann dazu konfiguriert sein, den ersten Satz von 3D-Vorschlägen und den zweiten Satz von 3D-Vorschlägen zusammenzuführen, um einen Satz von 3D-Kandidaten zu bestimmen. Der Prozessor kann dazu konfiguriert sein, den ersten Satz von 3D-Vorschlägen auf das 2D-Bild zu projizieren. Der Prozessor kann dazu konfiguriert sein, einen ersten Satz von 2D-Vorschlägen basierend auf dem Bild unter Verwendung eines neuronalen 2D-Faltungsnetzes zu bestimmen. Der Prozessor kann dazu konfiguriert sein, den projizierten ersten Satz von 3D-Vorschlägen und den ersten Satz von 2D-Vorschlägen zusammenzuführen, um einen Satz von 2D-Kandidaten zu bestimmen. Der Prozessor kann dazu konfiguriert sein, den Satz von 3D-Kandidaten und den Satz von 2D-Kandidaten zusammenzuführen.
  • In einem weiteren Gesichtspunkt stellt die Offenbarung ein nichtflüchtiges, computerlesbares Medium mit Anweisungen bereit, die bei Ausführen durch einen Prozessor den Prozessor veranlassen, Objekte aus der 3D-Punktwolke und dem 2D-Bild zu identifizieren. Das computerlesbare Medium kann Anweisungen einschließen, um einen ersten Satz von 3D-Vorschlägen unter Verwendung von euklidischem Clustering auf der 3D-Punktwolke zu bestimmen. Das computerlesbare Medium kann Anweisungen einschließen, um einen zweiten Satz von 3D-Vorschlägen aus der 3D-Punktwolke basierend auf einem neuronalen 3D-Faltungsnetz zu bestimmen. Das computerlesbare Medium kann Anweisungen einschließen, um den ersten Satz von 3D-Vorschlägen und den zweiten Satz von 3D-Vorschlägen zusammenzuführen, um einen Satz von 3D-Kandidaten zu bestimmen. Das computerlesbare Medium kann Anweisungen einschließen, um den ersten Satz von 3D-Vorschlägen auf das 2D-Bild zu projizieren. Das computerlesbare Medium kann Anweisungen einschließen, um einen ersten Satz von 2D-Vorschlägen basierend auf dem Bild unter Verwendung eines neuronalen 2D-Faltungsnetzes zu bestimmen. Das computerlesbare Medium kann Anweisungen einschließen, um den projizierten ersten Satz von 3D-Vorschlägen und den ersten Satz von 2D-Vorschlägen zusammenzuführen, um einen Satz von 2D-Kandidaten zu bestimmen. Das computerlesbare Medium kann Anweisungen einschließen, um den Satz von 3D-Kandidaten und den Satz von 2D-Kandidaten zusammenzuführen.
  • Diese und andere Gesichtspunkte der Erfindung werden nach einem Überblick über die detaillierte Beschreibung, die folgt, umfassender verstanden werden.
  • Figurenliste
  • Die neuartigen Merkmale, von denen angenommen wird, dass sie charakteristisch für die Offenbarung sind, sind in den beiliegenden Ansprüchen dargelegt. In den folgenden Beschreibungen sind ähnliche Teile in der gesamten Patentschrift und in den Zeichnungen jeweils mit denselben Ziffern gekennzeichnet. Die Zeichnungsfiguren sind nicht notwendigerweise maßstabsgetreu gezeichnet, und bestimmte Figuren können der Klarheit und Kürze wegen in übertriebener oder verallgemeinerter Form gezeigt sein. Die Offenbarung selbst sowie eine bevorzugte Art der Nutzung, weitere Objekte und Weiterentwicklungen davon lassen sich jedoch am besten unter Bezugnahme auf die folgende detaillierte Beschreibung der veranschaulichenden Gesichtspunkte der Offenbarung verstehen, wenn sie in Verbindung mit den beigefügten Zeichnungen gelesen wird, wobei:
    • 1 eine schematische Ansicht einer Beispielbetriebsumgebung eines multimodalen Fusionssystems für eine 3D-Objekterfassung und Ausrichtung gemäß Gesichtspunkten der vorliegenden Offenbarung veranschaulicht;
    • 2 ein konzeptionelles Diagramm veranschaulicht, das eine Gesamtarchitektur für ein multimodales Fusionssystem gemäß Gesichtspunkten der vorliegenden Offenbarung veranschaulicht;
    • 3 eine Beispiel-3D-Punktwolke zur Objekterfassung gemäß Gesichtspunkten der vorliegenden Offenbarung veranschaulicht;
    • 4 ein Beispiel-2D-Bild zur Objekterfassung gemäß Gesichtspunkten der vorliegenden Offenbarung veranschaulicht;
    • 5 ein Flussdiagramm veranschaulicht, das ein Beispielverfahren zur Objekterfassung und -lokalisierung gemäß Gesichtspunkten der vorliegenden Offenbarung zeigt;
    • 6 ein exemplarisches Systemdiagramm verschiedener Hardwarekomponenten und anderer Merkmale zur Verwendung gemäß Gesichtspunkten der vorliegenden Offenbarung vorstellt; und
    • 7 ein Blockdiagramm verschiedener exemplarischer Systemkomponenten zur Verwendung gemäß Gesichtspunkten der vorliegenden Offenbarung ist.
  • DETAILLIERTE BESCHREIBUNG
  • Das Folgende schließt Definitionen von ausgewählten Begriffen ein, die hierin verwendet werden. Die Definitionen schließen verschiedene Beispiele und/oder Formen von Komponenten ein, die in den Schutzumfang eines Begriffs fallen und die zur Implementierung verwendet werden können. Die Beispiele sollen nicht einschränkend sein.
  • Ein „Prozessor“, wie hierin verwendet, verarbeitet Signale und führt allgemeine Berechnungen und arithmetische Funktionen durch. Von dem Prozessor verarbeitete Signale können digitale Signale, Datensignale, Computeranweisungen, Prozessoranweisungen, Nachrichten, ein Bit, einen Bitstrom oder andere Berechnungen einschließen, die empfangen, übertragen und/oder erfasst werden können.
  • Ein „Bus“, wie hierin verwendet, bezieht sich auf eine vernetzte Architektur, die funktionsfähig verbunden ist, um Daten zwischen Computerkomponenten innerhalb eines einzelnen oder mehrerer Systeme zu übertragen. Der Bus kann unter anderem ein Speicherbus, eine Speichersteuerung, ein Peripheriebus, ein externer Bus, ein Kreuzschienenschalter und/oder ein lokaler Bus sein. Der Bus kann auch ein Fahrzeugbus sein, der Komponenten innerhalb eines Fahrzeugs unter Verwendung von Protokollen, wie unter anderem beispielsweise Controller Area Network (CAN), Local Interconnect Network (LIN), verbindet.
  • Ein „Speicher“, wie er hierin verwendet wird, kann einen flüchtigen Speicher und/oder einen nichtflüchtigen Speicher einschließen. Ein nichtflüchtiger Speicher kann zum Beispiel ROM (Read Only Memory), PROM (Programmable Read Only Memory), EPROM (Löschbarer PROM) und EEPROM (Elektrisch Löschbarer PROM) einschließen. Der flüchtige Speicher kann zum Beispiel RAM (Direktzugriffsspeicher), synchronen RAM (SRAM), dynamischen RAM (DRAM), synchronen DRAM (SDRAM), doppelten Datenraten-SDRAM (DDR SDRAM) und/oder direkten RAM-Bus-RAM (DRRAM) einschließen.
  • Eine „funktionsfähige Verbindung“, wie sie hierin verwendet wird, kann eine Verbindung einschließen, durch die Einheiten „funktionsfähig verbunden“ sind, und ist eine Verbindung, in der Signale, physische Kommunikation und/oder logische Kommunikation gesendet und/oder empfangen werden können. Eine funktionsfähige Verbindung kann eine physische Schnittstelle, eine Datenschnittstelle und/oder eine elektrische Schnittstelle einschließen.
  • Ein „Fahrzeug“, wie es hierin verwendet wird, bezieht sich auf jedes sich bewegende Fahrzeug, das durch irgendeine Form von Energie angetrieben wird. Ein Fahrzeug kann menschliche Insassen oder Fracht transportieren. Der Begriff „Fahrzeug“ schließt ein, ist aber nicht beschränkt auf: PKW, LKW, Kastenwagen, Kleinbusse, SUVs, Motorräder, Motorroller, Boote, Wassermotorräder und Flugzeuge. In manchen Fällen schließt ein Kraftfahrzeug einen oder mehrere Motoren ein.
  • Die jüngsten Arbeiten zur 2D-Objekterfassung haben aufgrund des Erfolgs von tiefen neuronalen Faltungsnetzen einen großen Fortschritt erzielt. Das Rekonstruieren von Tiefeninformationen aus einem Bild ist jedoch bekanntermaßen eine Herausforderung, da die Tiefeninformationen für die 3D-Objekterfassung erforderlich sein können. Diese Offenbarung stellt ein System zum Nutzen von LiDAR-Punktwolkendaten und Bilddaten zum Lokalisieren von Objekten in 3D bereit. Die Offenbarung stellt einen effektiven 3D-Objektvorschlagsalgorithmus zum Behandeln von Mehrklassenobjekten im Fahrszenario bereit. Die Offenbarung stellt einen Rahmen bereit, der neuronale 2D- und 3D-Faltungsnetze mit 2D- und 3D-Regionen von Interesse (Region of Interest (ROI)) integriert. Die Offenbarung stellt einen multimodalen Rahmen bereit, der einen kompakten bilinearen Pooling-Algorithmus verwendet, um Informationen aus dem Bild und der Punktwolke einzubeziehen. Der Rahmen zeigt günstige Ergebnisse bei anspruchsvollen realen Datensätzen wie beispielsweise dem KITTI-Datensatz.
  • Unter Hinwendung zu 1 wird eine schematische Ansicht einer Beispielbetriebsumgebung 100 eines Objekterfassungssystems 110 für eine 3D-Objekterfassung und Ausrichtung gemäß eines Gesichtspunktes der Offenbarung bereitgestellt. Das Objekterfassungssystem 110 kann sich in einem Fahrzeug 102 befinden. Die Komponenten des Objekterfassungssystems 110 sowie die Komponenten anderer hierin erörterter Systeme, Hardware- und Softwarearchitekturen können kombiniert, weggelassen oder in verschiedenen Implementierungen angeordnet werden.
  • Das Fahrzeug 102 kann allgemein eine elektronische Steuereinheit (electronic control unit (ECU)) 112 einschließen, die eine Vielzahl von Fahrzeugsystemen betrieblich steuert. Die Fahrzeugsysteme können unter anderem einschließen, sind jedoch nicht beschränkt auf das Objekterfassungssystem 110 einschließlich eines multimodalen Fusionssystems 140, einschließlich Fahrzeugheizungs-, -lüftungs- und -klimaanlagensysteme, (HVAC-Systeme), Fahrzeugaudiosysteme, Fahrzeugvideosysteme, Fahrzeuginfotainmentsysteme, Fahrzeugtelefonsysteme und dergleichen. Das multimodale Fusionssystem 140 kann eine Kamera 120 oder eine andere Bildaufnahmevorrichtung (z. B. einen Scanner) einschließen, die auch an die ECU 112 angeschlossen werden kann, um Bilder der Umgebung um das Fahrzeug 102 herum bereitzustellen, wie nachstehend detaillierter beschrieben. Das multimodale Fusionssystem 140 kann auch einen LiDAR-Sensor 122 einschließen, der eine 3D-Punktwolke aufnehmen kann. Das Objekterfassungssystem 110 kann auch einen Prozessor 114 und einen Speicher 116 einschließen, die mit der Kamera 120, dem LiDAR-Sensor 122, einer Kommunikationsvorrichtung 130 und einem automatischen Fahrsystem 132 kommunizieren.
  • Die ECU 112 kann einen internen Verarbeitungsspeicher, eine Schnittstellenschaltung und Busleitungen zum Übertragen von Daten, zum Senden von Befehlen und zum Kommunizieren mit den Fahrzeugsystemen einschließen. Die ECU 112 kann einen internen Prozessor und Speicher einschließen, nicht gezeigt. Das Fahrzeug 102 kann auch einen Bus zum internen Senden von Daten zwischen den verschiedenen Komponenten des Objekterfassungssystems 110 einschließen.
  • Das Fahrzeug 102 kann ferner eine Kommunikationsvorrichtung 130 (z. B. drahtloses Modem) zum Bereitstellen einer drahtgebundenen oder drahtlosen Computerkommunikation einschließen, die verschiedene Protokolle zum Senden/Empfangen elektronischer Signale intern in Bezug auf Merkmale und Systeme innerhalb des Fahrzeugs 102 und in Bezug auf externe Vorrichtungen verwendet. Diese Protokolle können ein drahtloses System einschließen, das Hochfrequenz(HF)-Kommunikation (z. B. IEEE 802.11 (Wi-Fi), IEEE 802.15.1 (Bluetooth®)), ein Nahfeldkommunikationssystem (near field communication (NFC)) (z. B. ISO 13157), ein lokales Netzwerk (local area network (LAN)), ein drahtloses Weitverkehrsnetzwerk (wireless wide area network (WWAN)) (z. B. Mobilfunk) und/oder ein Punkt-zu-Punkt-System verwendet. Darüber hinaus kann die Kommunikationsvorrichtung 130 des Fahrzeugs 102 funktionsfähig zur internen Computerkommunikation über einen Bus (z. B. einen CAN- oder LIN-Protokollbus) verbunden werden, um die Datenein- und -ausgabe zwischen der elektronischen Steuereinheit 112 und den Fahrzeugmerkmalen und -systemen zu erleichtern. In einem Gesichtspunkt kann die Kommunikationsvorrichtung 130 für eine Fahrzeug-zu-Fahrzeug-Kommunikation (vehicle-to-vehicle (V2V) communications) konfiguriert sein. Zum Beispiel kann die V2V-Kommunikation drahtlose Kommunikation über ein reserviertes Frequenzspektrum einschließen. Als weiteres Beispiel kann die V2V-Kommunikation ein Ad-hoc-Netzwerk zwischen Fahrzeugen einschließen, das unter Verwendung von Wi-Fi oder Bluetooth® eingerichtet wurde.
  • Das Fahrzeug 102 kann mindestens eine Kamera 120 einschließen. Die Kamera 120 kann eine Digitalkamera sein, die fähig ist, ein oder mehrere Bilder oder Bildströme aufzunehmen, oder eine andere Bilderfassungsvorrichtung, wie beispielsweise ein Scanner, sein. Die Kamera 120 kann ein Bild eines Raumes direkt vor dem Fahrzeug 102 bereitstellen. Andere Kameras können Bilder von anderen Räumen in der Umgebung des Fahrzeugs 102 bereitstellen. Zum Beispiel kann sich eine Rückkamera über einem Stoßfänger des Fahrzeugs befinden. Die Kamera 120 kann das Bild einem 2D-Zweig 146 des multimodalen Fusionssystems 140 und einem 3D-Zweig 144 des multimodalen Fusionssystems 140 bereitstellen.
  • Das Fahrzeug 102 kann mindestens einen Lichterfassungs- und Entfernungsmessungssensor (LiDAR) 122 einschließen. Der LiDAR-Sensor 122 kann einen Bereich mit einem Laserlicht ausleuchten und Rückstreuung erfassen. Der LiDAR-Sensor 122 kann eine 3D-Punktwolke erzeugen, die mögliche Orte anzeigt, an denen ein Objekt das Laserlicht reflektierte. Der LiDAR-Sensor 122 kann auch die 3D-Punktwolke für den 3D-Zweig 144 und ein 3D-Vorschlagsmodul 142 des multimodalen Fusionssystems 140 bereitstellen.
  • Das Fahrzeug 102 kann ein automatisches Fahrsystem 132 zum Steuern des Fahrzeugs 102 einschließen. Das automatische Fahrsystem 132 kann ein Spurhalteassistenzsystem, ein Kollisionswarnsystem oder ein vollautonomes Fahrsystem einschließen. Das automatische Fahrsystem 132 kann Objektpositions- und Ausrichtungsinformationen vom multimodalen Fusionssystem 140 empfangen. In einem Gesichtspunkt kann das multimodale Fusionssystem 140 eine Komponente des automatischen Fahrsystems 132 sein.
  • 2 veranschaulicht ein konzeptionelles Diagramm 200, das einen Gesamtrahmen des multimodalen Fusionssystems veranschaulicht. Der gesamte Rahmen ist aus mehreren Teilen zusammengesetzt: einem 3D-Objektvorschlagsmodul 142, einem neuronalen 3D-Netzzweig 144, einem neuronalen 2D-Netzzweig 146 und einer multimodalen kompakten bilinearen (multimodal compact bilinear (MCB)) Pooling-Schicht 148 zur Erfassung und Ausrichtungsabschätzung.
  • Das 3D-Objektvorschlagsmodul 142 kann einen kleinen Satz von 3D-Kandidatenboxen erzeugen, um die meisten Vordergrundobjekte im 3D-Raum zu lokalisieren. Das 3D-Objektvorschlagsmodul 142 kann die Belegungsabschätzung unter diskretisierten 3D-Gittern und die 3D-Geometrieanalyse mit Rohpunktwolke nutzen, um genaue Objektvorschläge im 3D-Raum vorzuschlagen. 3 veranschaulicht ein Beispiel einer LiDAR-Punktwolke 202. Mit einem Einzelbild der LiDAR-Punktwolke 202 (z. B. vom LiDAR-Sensor 122) ist es aufgrund der Verdeckung und der Grenzen des LiDAR-Bereichs schwierig, jedes umliegende Objekt zu lokalisieren. Zum Beispiel würden die LiDAR-Strahlen, die auf ein Vordergrundobjekt treffen, ein anderes Objekt verdecken. Als weiteres Beispiel können die LiDAR-Strahlen für ein entferntes Objekt aufgrund der exponentiellen LiDAR-Leistungsabnahme mit zunehmender Entfernung spärlich sein. LiDAR kann jedoch in einer Einzelbild-LiDAR-Punktwolke optimal eingesetzt werden, um eine gute Abschätzung der Umgebung zu erhalten. Durch das Verfolgen jedes LiDAR-Strahls in einem Einzelbild kann das 3D-Objektvorschlagsmodul 142 die Belegungswahrscheinlichkeit des Raumes abschätzen. Dieses Verfahren kann als binäres Belegungsgittermodell bezeichnet werden und kann ein binäres Belegungsgitter 204 erzeugen. Nach dem Diskretisieren des 3D-Raums in Voxel kann das 3D-Objektvorschlagsmodul 142 für jedes Voxel, gleich ob belegt oder unbelegt, einen binären Zustand annehmen. Das 3D-Objektvorschlagsmodul 142 kann die logarithmierten Belegungschancen jedes Voxels, das von LiDAR-Strahlen durchquert wird, iterativ aktualisieren. Zum Beispiel wird eine Prozedur zum Aktualisieren der logarithmierten Belegungschancen von Voxeln beschrieben in D. Maturana und S. Scherer, „VoxNet: A 3D Convolutional Neural Network for Real-Time Object Recognition“, IROS, 2015, das durch Bezugnahme hierin eingeschlossen ist. Das 3D-Objektvorschlagsmodul 142 kann eine Belegungswahrscheinlichkeit erstellen, die jedem Voxel im Bereich von [0, 1] entspricht. Für Voxel ohne Aktualisierung in der Prozedur, wie sie sich hinter der LiDAR-Auftreffoberfläche befinden (z. B. eine verdeckende Oberfläche), kann das 3D-Objektvorschlagsmodul sie als belegt annehmen und die Wahrscheinlichkeit auf 1 setzen, was sich von der Prozedur von Maturana und Scherer unterscheidet. Das diskretisierte Belegungsgitter stellt nicht nur eine LiDAR-Auftreffoberfläche bereit, die den möglichen Ort von Vordergrundobjekten eingrenzt, sondern reduziert auch die Größe der 3D-Eingabe für die weitere Merkmalsextraktion im End-to-End-Fusionsnetzwerk.
  • Eine Einzelbild-LiDAR-Punktwolke 202, die im Rahmen des Fahrszenarios im Freien aufgenommen wurde, weist ein ähnliches Muster auf, und es ist einfach, aus ihr sinnvolle Cluster zu extrahieren, indem man nur die Geometriehinweise der LiDAR-Rohpunktwolke berücksichtigt. Das 3D-Objektvorschlagsmodul 142 kann zunächst die Bodenpunkte unter Verwendung eines Bodenentfernungsmoduls 220 entfernen, das beispielsweise einen progressiven morphologischen Filteralgorithmus ausführen kann.
  • Ein Beispielalgorithmus ist beschrieben in K. Zhang, S.-C. Chen, D. Whitman, M.-L. Shyu, J. Yan und C. Zhang, „A Progressive Morphological Filter for Removing Nonground Measurements From Airborne LIDAR Data“. IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING, 41(4):872 bis 882, 2003, die hierin durch Bezugnahme aufgenommen ist. Der Beispielalgorithmus wird häufig verwendet, um Bodenpunkte zu extrahieren, und ist robust gegen Stöße auf der Straße. Nachdem die Bodenpunkte aus der Punktwolke entfernt wurden, kann das 3D-Objektvorschlagsmodul 142 ein euklidisches Clustering-Modul 222 verwenden, das einen euklidischen Clustering-Algorithmus ausführen kann, um den Rest der Punktwolke 202 zu bündeln und mögliche Objektcluster zu erlangen. Für einen Punkt p in einem Cluster c kann das 3D-Objektvorschlagsmodul 142 den euklidischen Abstand zwischen p und seinem nächsten Nachbarn als d1 bezeichnen. Wenn der Abstand d1 kleiner oder gleich dem Schwellenwert th ist, dann wird der nächste Nachbar in den Cluster eingeschlossen. Da der Abstand zwischen Objekten im Freien unterschiedlich ist, können unterschiedliche Schwellenwerte th gewählt werden, um Objektcluster mit unterschiedlicher Granularität zu extrahieren.
  • Obwohl die aus der 3D-Geometrieanalyse erlangten Objektcluster ungefähre Orte von umliegenden Objekten anzeigen können, kann das 3D-Objektvorschlagsmodul 142 ferner 3D-Boxen mit genaueren Orten und Größen vorschlagen. Das 3D-Objektvorschlagsmodul 142 kann ein 3D-Vorschlagsgenerierungsmodul 224 einschließen, um jede 3D-Vorschlagsbox 226 durch (l, w, h, x, y, z) zu parametrieren, die die Größe (Länge, Breite und Höhe) und die Mitte (x, y, z) (in Metern) der 3D-Vorschlagsboxen 226 im LiDAR-Koordinatensystem darstellen. Das 3D-Objektvorschlagsmodul 142 kann einen kleinen Satz von Größen, SGröße, für 3D-Vorschlagsboxen 226 bezeichnen, die den üblichen Seitenverhältnissen für Zielobjektkategorien entspricht. Ein Beispielalgorithmus zur Generierung von 3D-Objektvorschlägen ist in X. Chen, H. Ma, J. Wan, B. Li und T. Xia, „Multi-View 3D Object Detection Network for Autonomous Driving“ in CVPR, 2017, beschrieben, das hierin durch Bezugnahme aufgenommen wird.
  • Das 3D-Objektvorschlagsmodul 142 kann Bodenwahrheits(ground truth (GT))-Objektgrößen im Trainingssatz unter Verwendung eines Mittelwert-Shift-Clustering-Algorithmus bündeln, um SGröße zu erlangen. Für jeden Objektcluster, der aus der 3D-Geometrieanalyse gewonnen wird, kann das 3D-Objektvorschlagsmodul 142 Boxen vorschlagen mit (1, w, h) ∈ SGröße. Die Ausrichtungen der Vorschläge können so festgelegt werden, dass sie mit der Hauptachse im LiDAR-Koordinatensystem übereinstimmen.
  • Bezüglich des Orts jeder 3D-Vorschlagsbox 226 kann die z-Koordinate der Boxmitte basierend auf einer Bodenhöhe aus der 3D-Geometrieanalyse und der Objekthöhe h berechnet werden. Das Bestimmen (x, y) kann die Belegungsabschätzung in dem aus dem Belegungsgitter 204 abgeleiteten 3D-Raum verwenden. Intuitiv kann davon ausgegangen werden, dass sich die umgebenden Objekte nicht vor der LiDAR-Auftreffoberfläche befinden und den Freiraum verdecken sollten. Daher kann das 3D-Objektvorschlagsmodul 142 durch Nutzen des LiDAR-Auftreffoberflächenhinweises aus dem Belegungsgitter 204 für jedes Seitenverhältnis eine Vorschlagsbox 226 erzeugen, die gleichzeitig den Objektcluster umschließen und den belegten Raum größtenteils verdecken kann. Das 3D-Objektvorschlagsmodul 142 kann (x, y) variieren, um die am stärksten belegte Box zu finden, da z bereits festgelegt ist. Die Grenze des Objektclusters auf der xy-Ebene kann angegeben werden als: (Objxmin, Objymin, Objxmax, Objymax). Bei der Vorschlagsgröße (1, w) reicht der mögliche Ort des Zentrums von [Objxmax - 1/2, Objxmin + 1/2] × [Objymax - w/2, Objymin + w/2]. Für jeden möglichen Ort des Zentrums kann das 3D-Objektvorschlagsmodul 142 die Summe der logarithmierten Belegungschancen in der Box berechnen und schließlich diejenige mit der maximalen Belegungswahrscheinlichkeit auswählen. Wenn der Objektcluster zu groß ist, um von der Box eingeschlossen zu werden, was geschieht, wenn Objxmax - 1/2 > Objxmin + 1/2 oder Objymax - w/2 > Objymin + w/2, dann kann das 3D-Objektvorschlagsmodul 142 eine Box 226 mit x = (Objxmin + Objxmax)/2 und y = (Objymin + Objymax)/2 erzeugen, da die Objektcluster nicht immer perfekt sind. Am Ende, wenn es N verschiedene Größen in SGröße und K Objektcluster aus der 3D-Geometrieanalyse gibt, dann gibt es NK verschiedene Vorschlagsboxen. Die Anzahl der Vorschläge wird für jedes Einzelbild der Punktwolke unterschiedlich sein, da die Anzahl der Objektcluster K aus der 3D-Geometrieanalyse unterschiedlich ist.
  • Das multimodale Fusionssystem 140 kann genaue 3D-Lokalisierungs- und Klassifizierungsergebnisse aus multimodalen Informationen bereitstellen. Während die LiDAR-Punktwolke 202 eine zuverlässigere 3D-Lokalisierung (einschließlich Ort und Ausrichtung) von Objekten bereitstellen kann, kann die Analyse der LiDAR-Punktwolke 202 ein Objekt mit spärlichen Daten nicht gut erkennen. Andererseits hat das Bild 206 eine viel bessere Fähigkeit, Objekte zu erkennen, da das Bild 206 Informationen von Rot-Grün-Blau (RGB)-Kanälen aufweist und dichter strukturierte Daten bereitstellt. 4 veranschaulicht ein Beispielbild 206, das eine Darstellung der gleichen Umgebung wie die Punktwolke 202 in 3 zeigt. Daher kann das multimodale Fusionssystem 140 den neuronalen 3D-Netzzweig 144 und den neuronalen 2D-Netzzweig 146 nutzen, um Vorteile aus beiden Datensätzen zu nutzen, und kann gemeinsam 3D-Objektvorschläge klassifizieren und eine 3D-Vorschlagsboxregression vornehmen.
  • Der 3D-Zweig 144 des multimodalen Fusionssystems 140 kann das gesamte Belegungsgitter 204, das die ursprüngliche 3D-LiDAR-Punktwolke 202 mit geringerer Auflösung darstellt, als Eingabe verwenden. Der 3D-Zweig 144 kann Merkmale unter Verwendung mehrerer 3D-Faltungsschichten 210, 214 und Max-Pooling-Schichten 212 extrahieren. Der 3D-Zweig 144 kann für jede 3D-Vorschlagsbox 226 eine Faltungsmerkmalskarte in 3D erstellen. Eine Beispieltechnik ist in R. Girshick, „Fast R-CNN“, in ICCV, 2015, beschrieben, die hierin durch Bezugnahme aufgenommen wird. Der 3D-Zweig 144 kann eine 3D-Region-of-Interest(ROI)-Pooling-Schicht 216 dazu verwenden, 3D-Merkmalsvektoren fester Größe aus der von den Faltungsschichten 214 ausgegebenen Merkmalskarte zu extrahieren. Eine vollständig verbundene Schicht 218 kann am Ende des 3D-Zweiges 144 gestapelt werden, um den Merkmalsvektor für den weiteren Fusionsprozess zu glätten.
  • Für das Netzwerkdesign stapelt der Beispiel-3D-Zweig 144 zwei 3D-Faltungsschichten 210 mit einer Max-Pooling-Schicht 212, gefolgt von weiteren zwei 3D-Faltungsschichten 214, um Merkmale aus dem Belegungsgitter zu extrahieren. So können zum Beispiel die 3D-Faltungsschichten 210 Parameter von (32, 5, 2, 1) für die neuronalen Netze verwenden. Die Faltungsschichten 214 können Parameter von (64, 5, 2, 1) für die neuronalen Netze verwenden. Die Größe der Zielobjekte (z. B. Auto, Fußgänger, Radfahrer) in einer Verkehrsszene (z. B. Punktwolke 202) kann im Vergleich zum gesamten 3D-Raum sehr klein sein, so dass der 3D-Zweig 144 nur eine Max-Pooling-Schicht 212 dazu verwenden kann, eine große Merkmalskarte zum Erfassen dieser kleinen Objekte zu behalten. Da die strukturierten Informationen im Belegungsgitter 204 im Vergleich zum Bild 206 geringer sind, wurde festgestellt, dass dieses Architekturdesign ein Erlernen leistungsfähiger Darstellungen in 3D ermöglicht.
  • Der 2D-Zweig 146 des Fusionsnetzwerks 200 kann ein 2D-Faltungsnetzwerk 230 einschließen, wie beispielsweise ein Fast-RCNN-Netzwerk, wie von Girshick beschrieben.
  • Das Fast-RCNN-Netzwerk kann ein ganzes Bild 206 als Eingabe nehmen und 2D-Merkmalskarten unter Verwendung eines VGG16-Netzwerks erstellen. Zusätzlich können 2D-Vorschlagsboxen 232 aus den 3D-Vorschlagsboxen 226 durch Projektion erlangt werden. Dann kann eine 2D-ROI-Pooling-Schicht 234 feste 2D-Merkmalsvektoren für jede 2D-Vorschlagsbox 232 extrahieren. Als Nächstes kann eine vollständig verbundene Schicht 236 die 2D-Merkmalsvektoren wie im 3D-Zweig 144 glätten.
  • Um die Vorteile beider Eingänge (Punktwolke 202 und Bild 206) zu nutzen, kann eine multimodale kompakte bilineare (MCB) Pooling-Schicht 148 dazu verwendet werden, multimodale Merkmale effizient und ausdrucksstark zu kombinieren. Das ursprüngliche bilineare Pooling-Modell berechnete das äußere Produkt zwischen zwei Vektoren, was eine multiplikative Interaktion zwischen allen Elementen beider Vektoren ermöglicht. Anschließend verwendete das ursprüngliche bilineare Pooling-Modell eine Count-Sketch-Projektionsfunktion, um die Dimensionalität zu reduzieren und die Effizienz des bilinearen Poolings zu verbessern. Beispiele für ursprüngliche Bilinear-Pooling-Modelle sind beschrieben in A. Fukui, D. H. Park, D. Yang, A. Rohrbach, T. Darrell und M. Rohrbach, „Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding“ in arXiv, 2016, und in Y. Gao, O. Beijbom, N. Zhang und T. Darrell, „Compact Bilinear Pooling“ in CVPR, 2016, die beide durch Bezugnahme hierin aufgenommen sind. Die ursprüngliche kompakte bilineare Pooling-Schicht wurde auf eine visuelle Fragebeantwortungsaufgabe angewendet, indem multimodale Merkmale aus visuellen und textuellen Darstellungen kombiniert wurden. Der Erfolg des multimodalen kompakten bilinearen Poolings hat sein Potenzial gezeigt, die Fusion von Merkmalen aus zwei sehr unterschiedlichen Domänen zu bewältigen.
  • In einem Gesichtspunkt kann die multimodale kompakte bilineare Pooling-Schicht 148 zwei geglättete Merkmalsvektoren aufnehmen, die aus der 3D-Domäne durch den 3D-Zweig 144 und aus der 2D-Domäne durch den 2D-Zweig 146 extrahiert wurden und eine 4096-D multimodale Darstellung für die Klassifizierung und 3D-Begrenzungsbox-Regression erstellen. Die Klassifizierung kann durch das Klassifizierungsmodul 240 durchgeführt werden.
  • Aufgrund der Fusionsdarstellung aus der multimodalen kompakten bilinearen Pooling-Schicht 148 kann das Begrenzungsbox-Regressionsmodul 242 die Ausrichtung und Größe der 3D-Begrenzungsboxen aus den 3D-Vorschlagsboxen 226 durch Regression zurücksetzen. Für die Größenregression kann das Begrenzungsbox-Regressionsmodul 242 ähnlich wie Fast-RCNN das Regressionsziel parametrieren durch t = (Δ x, Δy, Δz, Δl, Δw, Δh), wobei (Δx, Δy, Δz) die um Vorschlagsgrößen normierten Mittelpunktoffsets sind und (Δl, Δw, Δh) als Δs = log(sGT/sVorschlag), s ∈ {l, w, h} berechnet werden. Für die Ausrichtungsregression kann das 3D-Ausrichtungsregressionsmodul 244 das Regressionsziel durch Δθ = θGT - θVorschlag parametrieren, wobei θ der Drehwinkel der 3D-Begrenzungsbox um die z-Achse ist. In der Fahrzeugeinstellung wird die Bodenwahrheit (GT) so annotiert, dass (1, w, h) immer mit den (x, y, z) Achsen ausgerichtet sind, so dass der Winkelbereich in [-π/4, π/4] eingeschränkt werden kann, was die Ausrichtungsregression erleichtert. Da die Vorschlagsboxen so eingestellt sind, dass sie mit der Hauptachse in LiDAR-Koordinaten ausgerichtet sind (θVorschlag = 0), kann das Ausrichtungsziel als Δθ =ΔGT vereinfacht werden.
  • 5 veranschaulicht ein Flussdiagramm eines Beispielverfahrens 500 zum Erfassen von Objekten und Ausrichtungen. Das Verfahren 500 kann durch ein Objekterfassungssystem 110 in einem Fahrzeug 102 durchgeführt werden.
  • Bei Block 510 kann das Verfahren 500 ein Bestimmen eines ersten Satzes von 3D-Vorschlägen unter Verwendung von euklidischem Clustering auf der 3D-Punktwolke einschließen. In einem Gesichtspunkt kann das 3D-Vorschlagsmodul 142 zum Beispiel einen ersten Satz von 3D-Vorschlägen unter Verwendung von euklidischem Clustering auf der 3D-Punktwolke bestimmen. In einem Gesichtspunkt kann der Block 510 ein Erzeugen eines Belegungsgitters einschließen, das diskretisierte Voxel der 3D-Punktwolke darstellt. Zum Beispiel kann das 3D-Vorschlagsmodul 142 das binäre Belegungsgitter 204 erzeugen. Der Block 510 kann ein Bezeichnen jedes Voxels als entweder belegt oder unbelegt basierend auf der 3D-Punktwolke einschließen. Zum Beispiel kann das 3D-Vorschlagsmodul 142 jedes Voxel des binären Belegungsgitters 204 basierend auf der Punktwolke 202 als entweder belegt oder unbelegt bezeichnen. Der Block 510 kann ein Aktualisieren des Belegungsgitters mit einer Belegungswahrscheinlichkeit einschließen, die den von LiDAR-Strahlen durchquerten Voxeln entspricht. Zum Beispiel kann das 3D-Vorschlagsmodul 142 das binäre Belegungsgitter 204 mit einer Belegungswahrscheinlichkeit aktualisieren, die den von LiDAR-Strahlen durchquerten Voxeln entspricht. Der Block 510 kann ein Einstellen der Belegungswahrscheinlichkeit von verborgenen Voxeln einschließen, um anzuzeigen, dass das Voxel belegt ist. Zum Beispiel kann das 3D-Vorschlagsmodul 142 die Belegungswahrscheinlichkeit von verborgenen Voxeln im binären Belegungsgitter 204 einstellen, um anzuzeigen, dass das Voxel belegt ist. Zum Beispiel kann davon ausgegangen werden, dass Voxel, die von einer Oberfläche eingeschlossen werden, von einem Objekt hinter der Oberfläche belegt sind.
  • In einem weiteren Gesichtspunkt kann der Block 510 ein Entfernen von Bodenpunkten aus der 3D-Punktwolke einschließen. Zum Beispiel kann das Bodenentfernungsmodul 220 Bodenpunkte aus der Punktwolke 202 entfernen. Der Block 510 kann Clustering-Punkte der Punktwolke mit einem euklidischen Abstand von weniger als einem Schwellenwert zu vorgeschlagenen Clustern einschließen. Zum Beispiel kann das euklidische Clustering-Modul 222 Punkte der Punktwolke 202 mit einem euklidischen Abstand von weniger als einem Schwellenwert zu vorgeschlagenen Clustern bündeln.
  • In einem Gesichtspunkt kann der Block 510 ein Parametrieren jedes vorgeschlagenen Clusters als 3D-Vorschlagsbox mit Längen-, Breiten-, Höhen- und Mittelpunktkoordinaten einschließen. Zum Beispiel kann das 3D-Vorschlagsgenerierungsmodul 224 jeden vorgeschlagenen Cluster als 3D-Vorschlagsbox 226 mit Längen-, Breiten-, Höhen- und Mittelpunktkoordinaten parametrieren. Das 3D-Vorschlagsgenerierungsmodul 224 kann eine z-Koordinate der Mittelpunktkoordinaten basierend auf einer Bodenhöhe (bestimmt durch das Bodenentfemungsmodul 220) und der Höhe der Vorschlagsbox 226 einstellen. In einem Gesichtspunkt kann der Block 510 ein Erzeugen mindestens einer Vorschlagsbox 226 mit einer festen Länge und Höhe einschließen. Die x-Koordinate und y-Koordinate der Mittelpunktkoordinaten der Vorschlagsbox 226 können ausgewählt werden, um die Belegungswahrscheinlichkeit von Voxeln innerhalb der Vorschlagsbox 226 zu maximieren. Zum Beispiel kann das 3D-Vorschlagsgenerierungsmodul 224 die feste Länge und Höhe einstellen (z. B. basierend auf einem vorgegebenen Objekttyp) und die x-Koordinate und die y-Koordinate auswählen, die die Belegung der Vorschlagsbox 226 maximieren. Das 3D-Vorschlagsgenerierungsmodul 224 kann eine Vielzahl von Vorschlagsboxen für einen vorgeschlagenen Cluster erzeugen, wobei jede Vorschlagsbox eine unterschiedliche Kombination aus Länge, Höhe und Breite aufweist (z. B. entsprechend verschiedenen vorbestimmten Objekttypen). Bei Block 520 kann das Verfahren 500 ein Bestimmen eines zweiten Satzes von 3D-Vorschlägen aus der 3D-Punktwolke basierend auf einem neuronalen 3D-Faltungsnetz einschließen. In einem Gesichtspunkt kann der 3D-Zweig 144 zum Beispiel einen zweiten Satz von 3D-Vorschlägen aus der 3D-Punktwolke basierend auf einem neuronalen 3D-Faltungsnetz bestimmen. In einem Gesichtspunkt kann der 3D-Zweig 144 die mehreren Faltungsschichten und mindestens eine Max-Pooling-Schicht dazu anwenden, eine Faltungsmerkmalskarte mit dem zweiten Satz von 3D-Vorschlägen zu erstellen. Zum Beispiel kann das neuronale 3D-Faltungsnetz die 3D-Faltungsschichten 310, die Max-Pooling-Schicht 212 und die 3D-Faltungsschichten 312 einschließen.
  • Bei Block 530 kann das Verfahren 500 ein Zusammenführen des ersten Satzes von 3D-Vorschlägen und des zweiten Satzes von 3D-Vorschlägen einschließen, um einen Satz von 3D-Kandidaten zu bestimmen. In einem Gesichtspunkt kann zum Beispiel der 3D-Zweig 144 den ersten Satz von 3D-Vorschlägen und den zweiten Satz von 3D-Vorschlägen zusammenführen, um einen Satz von 3D-Kandidaten zu bestimmen. In einem Gesichtspunkt kann das Zusammenführen des ersten Satzes von 3D-Vorschlägen und des zweiten Satzes von 3D-Vorschlägen in Block 530 ein Extrahieren von 3D-Merkmalsvektoren fester Größe aus der Faltungsmerkmalskarte für jeden 3D-Vorschlag des zweiten Satzes von 3D-Vorschlägen einschließen. Zum Beispiel kann die 3D-ROI-Pooling-Schicht 144 für jeden 3D-Vorschlag des zweiten Satzes von 3D-Vorschlägen die 3D-Merkmalsvektoren fester Größe aus der Faltungsmerkmalskarte extrahieren. Block 530 kann auch ein Glätten der 3D-Merkmalsvektoren fester Größe unter Verwendung einer vollständig verbundenen Schicht einschließen. Zum Beispiel kann der 3D-Zweig 144 die 3D-Merkmalsvektoren fester Größe unter Verwendung der vollständig verbundenen Schicht 218 glätten.
  • Bei Block 540 kann das Verfahren 500 ein Projizieren des ersten Satzes von 3D-Vorschlägen auf das 2D-Bild einschließen. In einem Gesichtspunkt kann der 2D-Zweig 146 zum Beispiel den ersten Satz von 3D-Vorschlägen auf das 2D-Bild projizieren. Der 2D-Zweig 146 kann die 2D-Vorschlagsboxen 232 erzeugen.
  • Bei Block 550 kann das Verfahren 500 ein Bestimmen eines ersten Satzes von 2D-Vorschlägen basierend auf dem Bild unter Verwendung eines neuronalen 2D-Faltungsnetzes einschließen. In einem Gesichtspunkt kann zum Beispiel der 2D-Zweig 146 einen ersten Satz von 2D-Vorschlägen basierend auf dem Bild unter Verwendung des neuronalen 2D-Faltungsnetzes 230 bestimmen. Zum Beispiel kann das neuronale 2D-Faltungsnetz 230 2D-Merkmalskarten mit dem ersten Satz von 2D-Vorschlägen erstellen.
  • Bei Block 560 kann das Verfahren 500 ein Zusammenführen des projizierten ersten Satzes von 3D-Vorschlägen und des ersten Satzes von 2D-Vorschlägen einschließen, um einen Satz von 2D-Kandidaten zu bestimmen. In einem Gesichtspunkt kann die multimodale kompakte bilineare Pooling-Schicht 148 den projizierten ersten Satz von 3D-Vorschlägen und den ersten Satz von 2D-Vorschlägen zusammenführen, um einen Satz von 2D-Kandidaten zu bestimmen.
  • Bei Block 570 kann das Verfahren 500 ein Zusammenführen des Satzes von 3D-Kandidaten und des Satzes von 2D-Kandidaten einschließen. In einem Gesichtspunkt kann zum Beispiel die multimodale kompakte bilineare Pooling-Schicht 148 den Satz von 3D-Kandidaten und den Satz von 2D-Kandidaten zusammenführen. In einem Gesichtspunkt kann Block 570 ein Berechnen des äußeren Produkts zwischen 3D-Merkmalsvektoren, die den Satz von 3D-Kandidaten darstellen, und 2D-Merkmalsvektoren, die den Satz von 2D-Kandidaten darstellen, einschließen, um eine multimodale Darstellung zu erzeugen. Block 570 kann ferner eine Regression einer Größe und Ausrichtung der 3D-Vorschlagsboxen aus der multimodalen Darstellung einschließen. Zum Beispiel kann das 3D-Begrenzungsbox-Regressionsmodul 242 die Größe der 3D-Vorschlagsboxen regredieren und das 3D-Ausrichtungs-Regressionsmodul 244 die Ausrichtung der 3D-Vorschlagsboxen regredieren.
  • Gesichtspunkte der vorliegenden Offenbarung können unter Verwendung von Hardware, Software oder einer Kombination derselben implementiert werden und können in einem oder mehreren Computersystemen oder anderen Verarbeitungssystemen implementiert werden. In einem Gesichtspunkt ist die Offenbarung auf ein oder mehrere Computersysteme ausgerichtet, die fähig sind, die hierin beschriebenen Funktionalität auszuführen. 6 stellt ein Beispielsystemdiagramm verschiedener Hardwarekomponenten und anderer Merkmale dar, die gemäß den Gesichtspunkten der vorliegenden Offenbarung verwendet werden können. Gesichtspunkte der vorliegenden Offenbarung können unter Verwendung von Hardware, Software oder einer Kombination derselben implementiert werden und können in einem oder mehreren Computersystemen oder anderen Verarbeitungssystemen implementiert werden. Gemäß einer beispielhaften Variation sind Gesichtspunkte der Offenbarung auf ein oder mehrere Computersysteme abgestellt, die fähig sind, die hierin beschriebene Funktionalität auszuführen. Ein Beispiel eines solchen Computersystems 600 ist in 6 gezeigt.
  • Ein Computersystem 600 schließt einen oder mehrere Prozessoren, wie beispielsweise einen Prozessor 604 ein. Der Prozessor 604 ist mit einer Kommunikationsinfrastruktur 606 (z. B. einem Kommunikationsbus, einer Kreuzschiene oder einem Netzwerk) verbunden. Im Rahmen dieses Beispielcomputersystems werden verschiedene Softwaregesichtspunkte beschrieben. Nach dem Lesen dieser Beschreibung wird dem Fachmann der relevanten Fachrichtung(en) klar, wie Gesichtspunkte der Offenbarung unter Verwendung von anderen Computersystemen und/oder Architekturen implementiert werden können.
  • Das Computersystem 600 kann eine Anzeigeschnittstelle 602 einschließen, die Grafiken, Texte und andere Daten von der Kommunikationsinfrastruktur 606 (oder von einem nicht gezeigten Frame-Puffer) zur Anzeige auf einer Anzeigeeinheit 630 weiterleitet. Das Computersystem 600 schließt auch einen Hauptspeicher 608, vorzugsweise einen Direktzugriffsspeicher (RAM), ein und kann auch einen Sekundärspeicher 610 einschließen. Der Sekundärspeicher 610 kann zum Beispiel eine Festplatte 612 und/oder ein Wechseldatenspeicherlaufwerk 614 einschließen, das ein Diskettenlaufwerk, ein Magnetbandlaufwerk, ein optisches Plattenlaufwerk usw. darstellt. Das Wechseldatenspeicherlaufwerk 614 liest in bekannter Weise von und/oder schreibt auf einer Wechseldatenspeichereinheit 618. Die Wechseldatenspeichereinheit 618 stellt eine Diskette, ein Magnetband, eine optische Platte usw. dar, die durch das Wechseldatenspeicherlaufwerk 614 gelesen und auf dieses geschrieben wird. Wie zu erkennen ist, schließt die Wechseldatenspeichereinheit 618 ein computertaugliches Datenspeichermedium ein, in dem Computersoftware und/oder Daten gespeichert sind.
  • In alternativen Gesichtspunkten kann der Sekundärspeicher 610 andere ähnliche Vorrichtungen einschließen, die es ermöglichen, Computerprogramme oder andere Anweisungen in das Computersystem 600 zu laden. Solche Vorrichtungen können zum Beispiel eine Wechseldatenspeichereinheit 622 und eine Schnittstelle 620 einschließen. Beispiele dafür können eine Programmkassette und eine Kassettenschnittstelle (wie sie in Videospielvorrichtungen zu finden ist), einen abnehmbaren Speicherchip (wie beispielsweise einen löschbaren programmierbaren Nur-Lese-Speicher (EPROM) oder einen programmierbaren Nur-Lese-Speicher (PROM)) und einen zugehörigen Steckplatz sowie andere Wechseldatenspeichereinheiten 622 und Schnittstellen 620 einschließen, die es ermöglichen, Software und Daten von der Wechseldatenspeichereinheit 622 auf das Computersystem 600 zu übertragen.
  • Das Computersystem 600 kann auch eine Kommunikationsschnittstelle 624 einschließen. Die Kommunikationsschnittstelle 624 ermöglicht es, Software und Daten zwischen dem Computersystem 600 und externen Vorrichtungen zu übertragen. Beispiele für die Kommunikationsschnittstelle 624 können ein Modem, eine Netzwerkschnittstelle (wie beispielsweise eine Ethernet-Karte), einen Kommunikationsanschluss, einen Steckplatz und eine Karte der Personal Computer Memory Card International Association (PCMCIA) usw. einschließen. Die über die Kommunikationsschnittstelle 624 übertragene Software und Daten liegen in Form von Signalen 628 vor, die elektronische, elektromagnetische, optische oder andere Signale sein können, die durch die Kommunikationsschnittstelle 624 empfangen werden können. Diese Signale 628 werden der Kommunikationsschnittstelle 624 über einen Kommunikationsweg (z. B. Kanal) 626 bereitgestellt. Dieser Weg 626 überträgt die Signale 628 und kann unter Verwendung von Draht oder Kabel, Faseroptik, einer Telefonleitung, einer Mobilfunkverbindung, einer Hochfrequenz(HF)-Verbindung und/oder anderen Kommunikationskanälen implementiert werden. In diesem Dokument werden die Begriffe „Computerprogrammmedium“ und „computertaugliches Medium“ verwendet, um sich allgemein auf Medien wie beispielsweise ein Wechseldatenspeicherlaufwerk 680, eine in einem Festplattenlaufwerk 670 installierte Festplatte und die Signale 628 zu beziehen. Diese Computerprogrammprodukte stellen dem Computersystem 600 Software bereit. Gesichtspunkte der Offenbarung sind auf solche Computerprogrammprodukte gerichtet.
  • Computerprogramme (auch als Computersteuerlogik bezeichnet) werden in dem Hauptspeicher 608 und/oder dem sekundären Speicher 610 gespeichert. Computerprogramme können auch über die Kommunikationsschnittstelle 624 empfangen werden. Solche Computerprogramme ermöglichen es dem Computersystem 600, wenn sie ausgeführt werden, verschiedene Merkmale gemäß in dieser Offenbarung beschriebenen Gesichtspunkten auszuführen, wie hierin erörtert. Insbesondere ermöglichen es die Computerprogramme bei Ausführen dem Prozessor 604, solche Merkmale durchzuführen. Dementsprechend stellen solche Computerprogramme Steuerungen des Computersystems 600 dar.
  • Bei Variationen, bei denen Gesichtspunkte der Offenbarung unter Verwendung von Software ausgeführt werden, kann die Software in einem Computerprogrammprodukt gespeichert und unter Verwendung des Wechseldatenspeicherlaufwerks 614, der Festplatte 612 oder der Kommunikationsschnittstelle 620 in das Computersystem 600 geladen werden. Die Steuerlogik (Software) bewirkt, wenn sie durch den Prozessor 604 ausgeführt wird, dass der Prozessor 604 die Funktionen gemäß Gesichtspunkten der Offenbarung, wie hierin beschrieben, ausführt. In einer anderen Variation werden Gesichtspunkte hauptsächlich in Hardware implementiert, zum Beispiel unter Verwendung von Hardwarekomponenten, wie beispielsweise anwendungsspezifischen integrierten Schaltungen (application specific integrated circuits (ASICs)). Die Implementierung der Hardware-Zustandsmaschine zum Durchführen der hierin beschriebenen Funktionen ist für den Fachmann der relevanten Fachrichtung(en) ersichtlich.
  • In noch einer weiteren Beispielvariation werden Gesichtspunkte der Offenbarung unter Verwendung einer Kombination von sowohl Hardware als auch Software implementiert.
  • 7 ist ein Blockdiagramm von verschiedenen Beispielsystemkomponenten, die gemäß Gesichtspunkten der vorliegenden Offenbarung verwendet werden können. Zum Beispiel können sich die verschiedenen Komponenten innerhalb des Fahrzeugs 102 befinden, oder es befinden sich eventuell nur manche der Komponenten innerhalb des Fahrzeugs 102, und andere Komponenten können vom Fahrzeug 102 entfernt sein. Das System 700 schließt einen oder mehrere Zugangsberechtigte 760, 762 (im Folgenden auch hierin austauschbar als ein oder mehrere „Benutzer“ bezeichnet) und ein oder mehrere Terminals 742, 766 ein (solche Terminals können zum Beispiel verschiedene Merkmale des Objekterfassungssystems 110 sein oder einschließen). In einem Gesichtspunkt werden Daten zur Verwendung gemäß Gesichtspunkten der vorliegenden Offenbarung zum Beispiel von den Zugangsberechtigten 760, 762 über die Terminals 742, 766 eingegeben und/oder abgerufen, wie beispielsweise Personalcomputer (PCs), Minicomputer, Großrechner, Mikrocomputer, Telefonvorrichtungen oder drahtlose Vorrichtungen, wie beispielsweise persönliche digitale Assistenten („PDAs“) oder handgehaltene drahtlose Vorrichtungen, die mit einem Server 743 gekoppelt sind, wie beispielsweise einem PC, Minicomputer, Großrechner, Mikrocomputer oder einer anderen Vorrichtung mit einem Prozessor und einem Speicher für Daten und/oder einer Verbindung zu einem Speicher für Daten, zum Beispiel über ein Netzwerk 744, wie beispielsweise das Internet oder ein Intranet, und Kopplungen 745, 746, 764. Die Kopplungen 745, 746, 764 schließen zum Beispiel drahtgebundene, drahtlose oder faseroptische Verbindungen ein. In einer weiteren Beispielvariation arbeiten das Verfahren und das System gemäß Gesichtspunkten der vorliegenden Offenbarung in einer eigenständigen Umgebung, wie beispielsweise auf einem einzigen Terminal.
  • Die hierin erörterten Gesichtspunkte der Offenbarung können auch im Kontext eines computerlesbaren Datenspeichermediums beschrieben und implementiert werden, das computerausführbare Anweisungen speichert. Computerlesbare Datenspeichermedien schließen Computerdatenspeichermedien und Kommunikationsmedien ein. Zum Beispiel Flash-Speicherlaufwerke, DVDs (Digital Versatile Discs), CDs (Compact Discs), Disketten und Bandkassetten. Computerlesbare Datenspeichermedien können flüchtige und nichtflüchtige, entfernbare und nicht entfernbare Medien umfassen, die in einem beliebigen Verfahren oder einer beliebigen Technologie zur Speicherung von Informationen wie beispielsweise computerlesbaren Anweisungen, Datenstrukturen, Modulen oder anderen Daten implementiert sind.
  • Es wird verstanden werden, dass verschiedene Implementierungen der oben offenbarten und anderer Merkmale und Funktionen oder Alternativen oder Varianten davon in vielen anderen Systemen oder Anwendungen wünschenswert kombiniert werden können. Auch dass verschiedene derzeit unvorhergesehene oder unerwartete Alternativen, Änderungen, Variationen oder Verbesserungen darin nachträglich vom Fachmann vorgenommen werden können, die auch von den folgenden Ansprüchen erfasst werden sollen.

Claims (20)

  1. Verfahren zum Identifizieren von Objekten aus einer 3D-Punktwolke und einem 2D-Bild, umfassend: Bestimmen eines ersten Satzes von 3D-Vorschlägen unter Verwendung von euklidischem Clustering auf der 3D-Punktwolke; Bestimmen eines zweiten Satzes von 3D-Vorschlägen aus der 3D-Punktwolke basierend auf einem neuronalen 3D-Faltungsnetz; Zusammenführen des ersten Satzes von 3D-Vorschlägen und des zweiten Satzes von 3D-Vorschlägen, um einen Satz von 3D-Kandidaten zu bestimmen; Projizieren des ersten Satzes von 3D-Vorschlägen auf das 2D-Bild; Bestimmen eines ersten Satzes von 2D-Vorschlägen basierend auf dem Bild unter Verwendung eines neuronalen 2D-Faltungsnetzes; Zusammenführen des projizierten ersten Satzes von 3D-Vorschlägen und des ersten Satzes von 2D-Vorschlägen, um einen Satz von 2D-Kandidaten zu bestimmen; und Zusammenführen des Satzes von 3D-Kandidaten und des Satzes von 2D-Kandidaten.
  2. Verfahren nach Anspruch 1, wobei das Bestimmen eines ersten Satzes von 3D-Vorschlägen unter Verwendung von euklidischem Clustering auf der 3D-Punktwolke umfasst: Erzeugen eines Belegungsgitters, das diskretisierte Voxel der 3D-Punktwolke darstellt; Bezeichnen jedes Voxels als entweder belegt oder unbelegt basierend auf der 3D-Punktwolke; Aktualisieren des Belegungsgitters mit einer Belegungswahrscheinlichkeit, die den von LiDAR-Strahlen durchquerten Voxeln entspricht; und Einstellen der Belegungswahrscheinlichkeit von verborgenen Voxeln, um anzuzeigen, dass das Voxel belegt ist.
  3. Verfahren nach Anspruch 1, wobei das Bestimmen eines ersten Satzes von 3D-Vorschlägen unter Verwendung von euklidischem Clustering auf der 3D-Punktwolke umfasst: Entfernen von Bodenpunkten aus der 3D-Punktwolke; und Bündeln von Punkten der Punktwolke mit einem euklidischen Abstand von weniger als einem Schwellenwert zu vorgeschlagenen Clustern.
  4. Verfahren nach Anspruch 3, wobei das Bestimmen eines ersten Satzes von 3D-Vorschlägen unter Verwendung von euklidischem Clustering auf der 3D-Punktwolke ferner umfasst: Parametrieren jedes vorgeschlagenen Clusters als 3D-Vorschlagsbox mit Längen-, Breiten-, Höhen- und Mittelpunktkoordinaten.
  5. Verfahren nach Anspruch 4, wobei das Parametrieren jedes vorgeschlagenen Clusters umfasst: Einstellen einer z-Koordinate der Mittelpunktkoordinaten basierend auf einer Bodenhöhe und Objekthöhe; Erzeugen mindestens einer Vorschlagsbox mit einer festen Länge und Höhe und x- und y-Koordinaten, die eine Belegungswahrscheinlichkeit von Voxeln innerhalb der Vorschlagsbox maximieren.
  6. Verfahren nach Anspruch 5, wobei das Erzeugen der mindestens einen Vorschlagsbox ein Erzeugen einer Vielzahl von Vorschlagsboxen für einen vorgeschlagenen Cluster umfasst, wobei jede Vorschlagsbox eine unterschiedliche Kombination von Länge, Höhe und Breite aufweist.
  7. Verfahren nach Anspruch 1, wobei das Bestimmen eines zweiten Satzes von 3D-Vorschlägen aus der 3D-Punktwolke basierend auf einem neuronalen 3D-Faltungsnetz ein Aufbringen mehrerer Faltungsschichten und mindestens einer Max-Pooling-Schicht umfasst, um eine Faltungsmerkmalskarte einschließlich des zweiten Satzes von 3D-Vorschlägen zu erstellen.
  8. Verfahren nach Anspruch 7, wobei das Zusammenführen des ersten Satzes von 3D-Vorschlägen und des zweiten Satzes von 3D-Vorschlägen umfasst: Extrahieren von 3D-Merkmalsvektoren fester Größe aus der Faltungsmerkmalskarte für jeden 3D-Vorschlag des zweiten Satzes von 3D-Vorschlägen; und Glätten der 3D-Merkmalsvektoren fester Größe unter Verwendung einer vollständig verbundenen Schicht.
  9. Verfahren nach Anspruch 1, wobei das Bestimmen des ersten Satzes von 2D-Vorschlägen basierend auf dem Bild unter Verwendung eines neuronalen 2D-Faltungsnetzes ein Erstellen von 2D-Merkmalskarten unter Verwendung des neuronalen 2D-Faltungsnetzes umfasst.
  10. Verfahren nach Anspruch 1, wobei das Zusammenführen des projizierten ersten Satzes von 3D-Vorschlägen und des ersten Satzes von 2D-Vorschlägen zum Bestimmen eines Satzes von 2D-Kandidaten ein Extrahieren von festen 2D-Merkmalsvektoren für jede 2D-Vorschlagsbox umfasst.
  11. Verfahren nach Anspruch 1, wobei das Zusammenführen des Satzes von 3D-Kandidaten und des Satzes von 2D-Kandidaten ein Berechnen des äußeren Produkts zwischen 3D-Merkmalsvektoren, die den Satz von 3D-Kandidaten darstellen, und 2D-Merkmalsvektoren, die den Satz von 2D-Kandidaten darstellen, umfasst, um eine multimodale Darstellung zu erzeugen.
  12. Verfahren nach Anspruch 11, wobei das Zusammenführen des Satzes von 3D-Kandidaten und des Satzes von 2D-Kandidaten ein Regredieren der Größe und Ausrichtung der 3D-Vorschlagsboxen aus der multimodalen Darstellung umfasst.
  13. Fahrzeug, umfassend: eine Kamera, die dazu konfiguriert ist, ein 2D-Bild zu erlangen; ein Lichterfassungs- und Entfernungsmesssystem (light detection and ranging (LiDAR) system), das dazu konfiguriert ist, eine 3D-Punktwolke zu erlangen; und ein multimodales Fusionssystem, das dazu konfiguriert ist, Objekte aus der 3D-Punktwolke und dem 2D-Bild zu identifizieren, wobei das multimodale Fusionssystem einen Speicher und einen Prozessor einschließt, der kommunikativ mit dem Speicher gekoppelt ist, wobei der Prozessor konfiguriert ist zum: Bestimmen eines ersten Satzes von 3D-Vorschlägen unter Verwendung von euklidischem Clustering auf der 3D-Punktwolke; Bestimmen eines zweiten Satzes von 3D-Vorschlägen aus der 3D-Punktwolke basierend auf einem neuronalen 3D-Faltungsnetz; Zusammenführen des ersten Satzes von 3D-Vorschlägen und des zweiten Satzes von 3D-Vorschlägen, um einen Satz von 3D-Kandidaten zu bestimmen; Projizieren des ersten Satzes von 3D-Vorschlägen auf das 2D-Bild; Bestimmen eines ersten Satzes von 2D-Vorschlägen basierend auf dem Bild unter Verwendung eines neuronalen 2D-Faltungsnetzes; Zusammenführen des projizierten ersten Satzes von 3D-Vorschlägen und des ersten Satzes von 2D-Vorschlägen, um einen Satz von 2D-Kandidaten zu bestimmen; und Zusammenführen des Satzes von 3D-Kandidaten und des Satzes von 2D-Kandidaten.
  14. Fahrzeug nach Anspruch 13, wobei der Prozessor konfiguriert ist zum: Erzeugen eines Belegungsgitters, das diskretisierte Voxel der 3D-Punktwolke darstellt; Bezeichnen jedes Voxels als entweder belegt oder unbelegt, basierend auf der 3D-Punktwolke; Aktualisieren des Belegungsgitters mit einer Belegungswahrscheinlichkeit, die den von LiDAR-Strahlen durchquerten Voxeln entspricht; und Einstellen der Belegungswahrscheinlichkeit von verborgenen Voxeln, um anzuzeigen, dass das Voxel belegt ist.
  15. Fahrzeug nach Anspruch 13, wobei der Prozessor konfiguriert ist zum: Entfernen von Bodenpunkten aus der 3D-Punktwolke; und Bündeln von Punkten der Punktwolke mit einem euklidischen Abstand von weniger als einem Schwellenwert zu vorgeschlagenen Clustern. Parametrieren jedes vorgeschlagenen Clusters als 3D-Vorschlagsbox mit Längen-, Breiten-, Höhen- und Mittelpunktkoordinaten.
  16. Fahrzeug nach Anspruch 13, wobei der Prozessor dazu konfiguriert ist, mehrere Faltungsschichten und mindestens eine Max-Pooling-Schicht aufzubringen, um eine Faltungsmerkmalskarte zu erstellen, die den zweiten Satz von 3D-Vorschlägen einschließt.
  17. Fahrzeug nach Anspruch 16, wobei der Prozessor konfiguriert ist zum: Extrahieren von 3D-Merkmalsvektoren fester Größe aus der Faltungsmerkmalskarte für jeden 3D-Vorschlag des zweiten Satzes von 3D-Vorschlägen; und Glätten der 3D-Merkmalsvektoren fester Größe unter Verwendung einer vollständig verbundenen Schicht.
  18. Fahrzeug nach Anspruch 13, wobei der Prozessor dazu konfiguriert ist, feste 2D-Merkmalsvektoren für jede 2D-Vorschlagsbox zu extrahieren, um den Satz von 2D-Kandidaten zu bestimmen.
  19. Fahrzeug nach Anspruch 13, wobei der Prozessor konfiguriert ist zum: Berechnen des äußeren Produkts zwischen 3D-Merkmalsvektoren, die den Satz von 3D-Kandidaten darstellen, und 2D-Merkmalsvektoren, die den Satz von 2D-Kandidaten darstellen, um eine multimodale Darstellung zu erzeugen; und Regredieren von Größe und Ausrichtung der 3D-Vorschlagsboxen aus der multimodalen Darstellung.
  20. Computerlesbares Medium, das computerausführbare Anweisungen speichert, die, wenn sie durch einen Prozessor ausgeführt werden, den Prozessor veranlassen zum: Bestimmen eines ersten Satzes von 3D-Vorschlägen unter Verwendung von euklidischem Clustering auf der 3D-Punktwolke; Bestimmen eines zweiten Satzes von 3D-Vorschlägen aus der 3D-Punktwolke basierend auf einem neuronalen 3D-Faltungsnetz; Zusammenführen des ersten Satzes von 3D-Vorschlägen und des zweiten Satzes von 3D-Vorschlägen, um einen Satz von 3D-Kandidaten zu bestimmen; Projizieren des ersten Satzes von 3D-Vorschlägen auf das 2D-Bild; Bestimmen eines ersten Satzes von 2D-Vorschlägen basierend auf dem Bild unter Verwendung eines neuronalen 2D-Faltungsnetzes; Zusammenführen des projizierten ersten Satzes von 3D-Vorschlägen und des ersten Satzes von 2D-Vorschlägen, um einen Satz von 2D-Kandidaten zu bestimmen; und Zusammenführen des Satzes von 3D-Kandidaten und des Satzes von 2D-Kandidaten.
DE112018000899.1T 2017-03-17 2018-03-16 Gemeinsame 3D-Objekterfassung und Ausrichtungsabschätzung über multimodale Fusion Withdrawn DE112018000899T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762473054P 2017-03-17 2017-03-17
US62/473,054 2017-03-17
PCT/US2018/022995 WO2018170472A1 (en) 2017-03-17 2018-03-16 Joint 3d object detection and orientation estimation via multimodal fusion

Publications (1)

Publication Number Publication Date
DE112018000899T5 true DE112018000899T5 (de) 2019-10-31

Family

ID=63523320

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112018000899.1T Withdrawn DE112018000899T5 (de) 2017-03-17 2018-03-16 Gemeinsame 3D-Objekterfassung und Ausrichtungsabschätzung über multimodale Fusion

Country Status (5)

Country Link
US (1) US10885398B2 (de)
JP (1) JP6799169B2 (de)
CN (1) CN110325818B (de)
DE (1) DE112018000899T5 (de)
WO (1) WO2018170472A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022107770A1 (de) 2022-04-01 2023-10-05 Valeo Detection Systems GmbH Verfahren zur Verfolgung wenigstens eines Objekts mit wenigstens einer Detektionsvorrichtung, Detektionsvorrichtung und Fahrzeug mit wenigstens einer Detektionsvorrichtung
DE102019115874B4 (de) 2018-11-27 2024-08-01 GM Global Technology Operations LLC Systeme und verfahren zur verbesserten entfernungsschätzung durch eine monokamera unter verwendung von radar- und bewegungsdaten

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11144747B2 (en) * 2017-03-31 2021-10-12 Pioneer Corporation 3D data generating device, 3D data generating method, 3D data generating program, and computer-readable recording medium storing 3D data generating program
US10751548B2 (en) * 2017-07-28 2020-08-25 Elekta, Inc. Automated image segmentation using DCNN such as for radiation therapy
US10769411B2 (en) * 2017-11-15 2020-09-08 Qualcomm Technologies, Inc. Pose estimation and model retrieval for objects in images
US11925446B2 (en) * 2018-02-22 2024-03-12 Vayyar Imaging Ltd. Radar-based classification of vehicle occupants
US11221413B2 (en) * 2018-03-14 2022-01-11 Uatc, Llc Three-dimensional object detection
US11768292B2 (en) 2018-03-14 2023-09-26 Uatc, Llc Three-dimensional object detection
US11080542B2 (en) * 2018-07-27 2021-08-03 International Business Machines Corporation Sparse region-of-interest pooling for object detection
US11100669B1 (en) * 2018-09-14 2021-08-24 Apple Inc. Multimodal three-dimensional object detection
US10984540B2 (en) * 2018-10-15 2021-04-20 Tusimple, Inc. Tracking and modeling processing of image data for LiDAR-based vehicle tracking system and method
EP3803273A4 (de) * 2018-10-29 2021-11-17 DJI Technology, Inc. Techniken zur echtzeitabbildung in einer umgebung eines beweglichen objekts
DE102018127990A1 (de) * 2018-11-08 2020-05-14 Bayerische Motoren Werke Aktiengesellschaft Verfahren und Verarbeitungseinheit zur Ermittlung von Information in Bezug auf ein Objekt in einem Umfeld eines Fahrzeugs
DK201970115A1 (en) 2018-11-08 2020-06-09 Aptiv Technologies Limited DEEP LEARNING FOR OBJECT DETECTION USING PILLARS
US20200153926A1 (en) * 2018-11-09 2020-05-14 Toyota Motor North America, Inc. Scalable vehicle data compression systems and methods
US11032370B2 (en) * 2018-11-14 2021-06-08 Toyota Jidosha Kabushiki Kaisha Wireless communications in a vehicular macro cloud
US11217012B2 (en) * 2018-11-16 2022-01-04 Uatc, Llc System and method for identifying travel way features for autonomous vehicle motion control
CN109543601A (zh) * 2018-11-21 2019-03-29 电子科技大学 一种基于多模态深度学习的无人车目标检测方法
CN109635685B (zh) * 2018-11-29 2021-02-12 北京市商汤科技开发有限公司 目标对象3d检测方法、装置、介质及设备
US11227398B2 (en) * 2019-01-30 2022-01-18 Baidu Usa Llc RGB point clouds based map generation system for autonomous vehicles
WO2020154973A1 (en) 2019-01-30 2020-08-06 Baidu.Com Times Technology (Beijing) Co., Ltd. Lidar localization using rnn and lstm for temporal smoothness in autonomous driving vehicles
CN111771206B (zh) * 2019-01-30 2024-05-14 百度时代网络技术(北京)有限公司 用于自动驾驶车辆的地图分区系统
US10817777B2 (en) * 2019-01-31 2020-10-27 StradVision, Inc. Learning method and learning device for integrating object detection information acquired through V2V communication from other autonomous vehicle with object detection information generated by present autonomous vehicle, and testing method and testing device using the same
DE102019102769A1 (de) * 2019-02-05 2020-08-06 Bayerische Motoren Werke Aktiengesellschaft Verfahren und eine Vorrichtung zur Sensordatenfusion für ein Fahrzeug
JP7201909B2 (ja) * 2019-02-25 2023-01-11 富士通株式会社 データセット作成方法、データセット作成装置、及びデータセット作成プログラム
US11468582B2 (en) 2019-03-16 2022-10-11 Nvidia Corporation Leveraging multidimensional sensor data for computationally efficient object detection for autonomous machine applications
CN109959911A (zh) * 2019-03-25 2019-07-02 清华大学 基于激光雷达的多目标自主定位方法及装置
CN110007675B (zh) * 2019-04-12 2021-01-15 北京航空航天大学 一种基于行车态势图的车辆自动驾驶决策系统及基于无人机的训练集制备方法
WO2020258218A1 (zh) * 2019-06-28 2020-12-30 深圳市大疆创新科技有限公司 可移动平台的障碍物检测方法、装置及可移动平台
US11450120B2 (en) * 2019-07-08 2022-09-20 Waymo Llc Object detection in point clouds
US11455806B2 (en) * 2019-07-10 2022-09-27 Deka Products Limited Partnership System and method for free space estimation
CN110490915B (zh) * 2019-08-19 2023-11-24 重庆大学 一种基于卷积受限玻尔兹曼机的点云配准方法
EP3789794A1 (de) * 2019-09-04 2021-03-10 Ibeo Automotive Systems GmbH Verfahren und vorrichtung zur distanzmessung
US11327178B2 (en) * 2019-09-06 2022-05-10 Volvo Car Corporation Piece-wise network structure for long range environment perception
CN111079523B (zh) * 2019-11-05 2024-05-14 北京迈格威科技有限公司 物体检测方法、装置、计算机设备和存储介质
GB2591171B (en) 2019-11-14 2023-09-13 Motional Ad Llc Sequential fusion for 3D object detection
US11543534B2 (en) * 2019-11-22 2023-01-03 Samsung Electronics Co., Ltd. System and method for three-dimensional object detection
US11407431B2 (en) * 2019-11-22 2022-08-09 Samsung Electronics Co., Ltd. System and method for object trajectory prediction in an autonomous scenario
CN111060923B (zh) * 2019-11-26 2022-05-13 武汉乐庭软件技术有限公司 一种多激光雷达的汽车驾驶障碍物检测方法及系统
CN111179247A (zh) * 2019-12-27 2020-05-19 上海商汤智能科技有限公司 三维目标检测方法及其模型的训练方法及相关装置、设备
CN111199206A (zh) * 2019-12-30 2020-05-26 上海眼控科技股份有限公司 三维目标检测方法、装置、计算机设备及存储介质
JP7501398B2 (ja) 2020-02-18 2024-06-18 株式会社デンソー 物体検出装置
CN115176175A (zh) * 2020-02-18 2022-10-11 株式会社电装 物体检测装置
US11524701B2 (en) 2020-03-30 2022-12-13 Toyota Research Institute, Inc. Methods and systems of predicting road agent behavior using voxel grids
CN114078181A (zh) * 2020-08-19 2022-02-22 北京达佳互联信息技术有限公司 人体三维模型的建立方法、装置、电子设备及存储介质
CN112307890B (zh) * 2020-09-22 2023-01-20 西人马帝言(北京)科技有限公司 一种物体识别方法、装置、物体识别设备及存储介质
US20220270327A1 (en) * 2021-02-24 2022-08-25 Denso International America, Inc. Systems and methods for bounding box proposal generation
CN112927217B (zh) * 2021-03-23 2022-05-03 内蒙古大学 一种基于目标检测的甲状腺结节侵袭性预测方法
CN113313831B (zh) * 2021-05-24 2022-12-16 华南理工大学 基于极坐标图卷积神经网络的三维模型特征提取方法
CN113870422B (zh) * 2021-11-30 2022-02-08 华中科技大学 一种点云重建方法、装置、设备及介质
EP4224366A1 (de) 2022-02-03 2023-08-09 AImotive Kft. Trainingsmethode für neuronale netze unter verwendung von semi-pseudo-labels
CN117218364A (zh) * 2022-05-31 2023-12-12 鸿海精密工业股份有限公司 三维目标检测方法、电子设备及存储介质
CN115829898B (zh) * 2023-02-24 2023-06-02 北京百度网讯科技有限公司 数据处理方法、装置、电子设备、介质以及自动驾驶车辆
CN118606900B (zh) * 2024-08-08 2024-10-11 中国民用航空飞行学院 基于双模态交互的开放词汇三维场景理解方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4232167B1 (ja) * 2007-08-27 2009-03-04 三菱電機株式会社 対象特定装置、対象特定方法および対象特定プログラム
US8705792B2 (en) * 2008-08-06 2014-04-22 Toyota Motor Engineering & Manufacturing North America, Inc. Object tracking using linear features
US8179393B2 (en) * 2009-02-13 2012-05-15 Harris Corporation Fusion of a 2D electro-optical image and 3D point cloud data for scene interpretation and registration performance assessment
US8488877B1 (en) * 2009-12-02 2013-07-16 Hrl Laboratories, Llc System for object recognition in colorized point clouds
GB201116959D0 (en) * 2011-09-30 2011-11-16 Bae Systems Plc Vehicle localisation with 2d laser scanner and 3d prior scans
JP5950296B2 (ja) * 2012-01-27 2016-07-13 国立研究開発法人産業技術総合研究所 人物追跡属性推定装置、人物追跡属性推定方法、プログラム
US10007336B2 (en) * 2013-09-10 2018-06-26 The Board Of Regents Of The University Of Texas System Apparatus, system, and method for mobile, low-cost headset for 3D point of gaze estimation
GB2520338A (en) * 2013-11-19 2015-05-20 Nokia Corp Automatic scene parsing
EP3123399A4 (de) 2014-03-27 2017-10-04 Hrl Laboratories, Llc System zur filterung, segmentierung und erkennung von objekten in uneingeschränkten umgebungen
CN105825173B (zh) * 2016-03-11 2019-07-19 福州华鹰重工机械有限公司 通用道路和车道检测系统与方法
CN106157309B (zh) * 2016-07-04 2019-03-22 南京大学 一种基于虚拟种子点的机载LiDAR地面点云滤波方法
GB201616095D0 (en) * 2016-09-21 2016-11-02 Univ Oxford Innovation Ltd A neural network and method of using a neural network to detect objects in an environment

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019115874B4 (de) 2018-11-27 2024-08-01 GM Global Technology Operations LLC Systeme und verfahren zur verbesserten entfernungsschätzung durch eine monokamera unter verwendung von radar- und bewegungsdaten
DE102022107770A1 (de) 2022-04-01 2023-10-05 Valeo Detection Systems GmbH Verfahren zur Verfolgung wenigstens eines Objekts mit wenigstens einer Detektionsvorrichtung, Detektionsvorrichtung und Fahrzeug mit wenigstens einer Detektionsvorrichtung

Also Published As

Publication number Publication date
US20190188541A1 (en) 2019-06-20
JP2020509494A (ja) 2020-03-26
CN110325818A (zh) 2019-10-11
CN110325818B (zh) 2021-11-26
US10885398B2 (en) 2021-01-05
WO2018170472A1 (en) 2018-09-20
JP6799169B2 (ja) 2020-12-09

Similar Documents

Publication Publication Date Title
DE112018000899T5 (de) Gemeinsame 3D-Objekterfassung und Ausrichtungsabschätzung über multimodale Fusion
DE102019115874B4 (de) Systeme und verfahren zur verbesserten entfernungsschätzung durch eine monokamera unter verwendung von radar- und bewegungsdaten
DE102018205915A1 (de) Monokulare Lokalisierung in städtischen Umgebungen unter Verwendung von Straßenmarkierungen
DE102019112002A1 (de) Systeme und verfahren zur automatischen detektion von anhängereigenschaften
DE102019104217A1 (de) Bereitstellen von Informationsreicher Kartensemantik an Navigations-Metrik-Karten
DE102020112314A1 (de) Verifizierung von fahrzeugbildern
DE102019121785A1 (de) Wahrnehmungsvorrichtung für die Hindernisdetektion und Hindernisverfolgung und Wahrnehmungsverfahren für die Hindernisdetektion und Hindernisverfolgung
DE102017120112A1 (de) Tiefenkartenschätzung mit stereobildern
DE102014222617B4 (de) Fahrzeugerfassungsverfahren und Fahrzeugerfassungssytem
DE112017000643T5 (de) Detektion eines teilweise verdeckten Objekts unter Verwendung von Kontext und Tiefenordnung
DE102019118999A1 (de) Lidar-basierte objektdetektion und -klassifikation
DE112017001322T5 (de) Signalverarbeitungsvorrichtung und Signalverarbeitungsverfahren
DE102009012435A1 (de) Vorrichtung und Verfahren zum monokularen Motion-Stereo-basierten Detektieren von freien Parkplätzen
DE102020117376A1 (de) Generierung eines fahrzeugbildes
DE102019114622A1 (de) Erfassung und planare darstellung dreidimensionaler fahrspuren in einer strassenszene
DE102018129057A1 (de) Systeme und verfahren zum bestimmen der geschwindigkeit von lidar-punkten
DE102021108470A1 (de) Realistische bildperspektiventransformation unter verwendung neuronaler netze
DE102016104730A1 (de) Verfahren zum Detektieren eines Objekts entlang einer Straße eines Kraftfahrzeugs, Rechenvorrichtung, Fahrerassistenzsystem sowie Kraftfahrzeug
DE112021006101T5 (de) Systeme und Verfahren zur Objektdetektion mit LiDAR-Dekorrelation
DE102021002798A1 (de) Verfahren zur kamerabasierten Umgebungserfassung
DE102020102823A1 (de) Fahrzeugkapselnetzwerke
DE102018132805A1 (de) Verfahren für eine verbesserte Objekterfassung
DE102021128041A1 (de) Verbesserung eines neuronalen fahrzeugnetzwerks
DE102021129544A1 (de) Systeme und verfahren zur tiefenabschätzung in einem fahrzeug
DE102022102934A1 (de) Ereignisbasierte fahrzeugposenschätzung unter verwendung monochromatischer bildgebung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: WEICKMANN & WEICKMANN PATENT- UND RECHTSANWAEL, DE

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee