CN113298250A - 用于定位和对象检测的神经网络 - Google Patents

用于定位和对象检测的神经网络 Download PDF

Info

Publication number
CN113298250A
CN113298250A CN202110191263.5A CN202110191263A CN113298250A CN 113298250 A CN113298250 A CN 113298250A CN 202110191263 A CN202110191263 A CN 202110191263A CN 113298250 A CN113298250 A CN 113298250A
Authority
CN
China
Prior art keywords
vehicle
map tile
neural network
features
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110191263.5A
Other languages
English (en)
Inventor
高拉夫·潘迪
尼基塔·斋普里亚
普拉韦恩·纳拉亚南
普纳杰·查克拉瓦蒂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ford Global Technologies LLC
Original Assignee
Ford Global Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ford Global Technologies LLC filed Critical Ford Global Technologies LLC
Publication of CN113298250A publication Critical patent/CN113298250A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/005Handover processes
    • B60W60/0053Handover processes from vehicle to occupant
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/005Handover processes
    • B60W60/0059Estimation of the risk associated with autonomous or manual driving, e.g. situation too complex, sensor failure or driver incapacity
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S19/00Satellite radio beacon positioning systems; Determining position, velocity or attitude using signals transmitted by such systems
    • G01S19/01Satellite radio beacon positioning systems transmitting time-stamped messages, e.g. GPS [Global Positioning System], GLONASS [Global Orbiting Navigation Satellite System] or GALILEO
    • G01S19/13Receivers
    • G01S19/35Constructional details or hardware or software details of the signal processing chain
    • G01S19/37Hardware or software details of the signal processing chain
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/584Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Automation & Control Theory (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)
  • Navigation (AREA)

Abstract

本公开提供了“用于定位和对象检测的神经网络”。本公开公开了一种系统和方法。在示例性实现方式中,所述系统和方法在第一编码器神经网络处生成从车辆的车辆传感器接收的图像的图像特征的编码表示。所述系统和方法还可在第二编码器神经网络处生成地图图块特征的编码表示,并且在所述解码器神经网络处基于图像特征的所述编码表示、地图图块特征的所述编码表示以及所述车辆的全球定位系统(GPS)坐标来生成语义上分割的地图图块。所述语义上分割的地图图块包括所述车辆的位置和所述图像内描绘的检测到的对象相对于所述车辆的位置。

Description

用于定位和对象检测的神经网络
技术领域
本公开总体上涉及深度神经网络。
背景技术
深度神经网络(DNN)可以用于执行许多图像理解任务,包括分类、分割和生成字幕。例如,卷积神经网络可以将图像作为输入,为图像内描绘的各个方面/对象分配重要性,并且将所述方面/对象彼此区分开。
发明内容
一种系统包括计算机,所述计算机包括处理器和存储器,并且所述存储器包括指令,使得所述处理器被编程为:在第一编码器神经网络处生成从车辆的车辆传感器接收的图像的图像特征的编码表示;在第二编码器神经网络处生成地图图块特征的编码表示;以及在所述解码器神经网络处基于图像特征的所述编码表示、地图图块特征的所述编码表示以及所述车辆的全球定位系统(GPS)坐标来生成语义上分割的地图图块,其中所述语义上分割的地图图块包括所述车辆的位置和所述图像内描绘的检测到的对象相对于所述车辆的位置。
在其他特征中,所述处理器还被编程为基于所述检测到的对象来致动所述车辆。
在其他特征中,所述处理器还被编程为估计所述检测到的对象与所述车辆之间的距离,确定所述估计距离是否大于预定距离阈值,并且当所述估计距离不大于所述预定距离阈值时生成警报。
在其他特征中,所述处理器还被编程为确定所述车辆是否已经停止或正在相反方向上移动,并且当所述车辆尚未停止并且未在所述相反方向上移动时致动所述车辆。
在其他特征中,所述处理器还被编程为基于检测到的对象使所述车辆从非自主模式转变为自主模式。
在其他特征中,所述解码器神经网络从潜在嵌入层接收图像特征的所述编码表示、地图图块特征的所述编码表示以及所述车辆的所述GPS坐标。
在其他特征中,地图图块特征基于从基于云的服务接收的地图图块,所述地图图块表示与车辆的位置相对应的地图。
在其他特征中,所述语义上分割的地图图块包括指示所述车辆在所述语义上分割的地图图块内的相对位置的至少一个视觉指示符。
在其他特征中,所述语义上分割的地图图块包括指示所述检测到的对象的所述位置的至少一个视觉指示符。
一种方法包括:在第一编码器神经网络处生成从车辆的车辆传感器接收的图像的图像特征的编码表示,在第二编码器神经网络处生成地图图块特征的编码表示,以及在所述解码器神经网络处基于图像特征的所述编码表示、地图图块特征的所述编码表示以及所述车辆的全球定位系统(GPS)坐标来生成语义上分割的地图图块,其中所述语义上分割的地图图块包括所述车辆的位置和所述图像内描绘的检测到的对象相对于所述车辆的位置。
在其他特征中,所述方法包括:基于检测到的对象致动所述车辆。
在其他特征中,该方法包括估计所述检测到的对象与所述车辆之间的距离,确定所述估计距离是否大于预定距离阈值,并且当所述估计距离不大于所述预定距离阈值时生成警报。
在其他特征中,该方法包括确定所述车辆是否已经停止或正在相反方向上移动,并且当所述车辆尚未停止并且未在所述相反方向上移动时致动所述车辆。
在其他特征中,该方法包括基于检测到的对象使所述车辆从非自主模式转变为自主模式。
在其他特征中,该方法包括从潜在嵌入层接收图像特征的所述编码表示、地图图块特征的所述编码表示以及所述车辆的所述GPS坐标。
在其他特征中,地图图块特征基于从基于云的服务接收的地图图块,所述地图图块表示与车辆的位置相对应的地图。
在其他特征中,所述语义上分割的地图图块包括指示车辆的所述位置的至少一个视觉指示符。
在其他特征中,所述语义上分割的地图图块包括指示所述检测到的对象的所述位置的至少一个视觉指示符。
一种系统包括计算机,所述计算机包括处理器和存储器,并且所述存储器包括指令,使得所述处理器被编程为:用一组标记的训练图像训练神经网络,其中所述一组标记的训练图像包括描绘车辆相机的视野内的对象的至少一个训练图像和指示所述对象与所述车辆相机之间的距离和车辆在地图图块内的位置的至少一个训练标签;基于所述深度神经网络处的至少一个未标记的训练图像来生成语义上分割的地图图块,其中所述语义上分割的地图图块包括车辆的相对位置和检测到的对象相对于该车辆的位置;将所述语义上分割的地图图块与地面实况数据进行比较;以及更新与所述神经网络的神经元相关联的至少一个权重。
在其他特征中,所述语义上分割的地图图块包括指示所述车辆在所述语义上分割的地图图块内的相对位置的至少一个视觉指示符。
在其他特征中,所述神经网络包括解码器,所述解码器被配置为生成所述语义上分割的地图图块。
附图说明
图1是包括车辆的示例性系统的图示。
图2是系统内的示例性服务器的图示。
图3是示出了示例性编码器-解码器神经网络系统的图示。
图4A是输入到编码器-解码器神经网络系统中的示例性地图图块的图示。
图4B是由编码器-解码器神经网络系统生成的示例性语义上分割的地图图块的图示。
图5是示例性深度神经网络的图示。
图6A是示出用于训练深度神经网络的示例性过程的图示。
图6B是示出用于基于所接收的输入来在深度神经网络处生成输出的示例性过程的图示。
图7是示出用于基于车辆与对象之间的估计距离来生成警报的示例性过程的流程图。
具体实施方式
自主车辆通常采用感知算法来感知车辆周围的环境。感知算法可以使用一个或多个深度神经网络来帮助对对象进行定位、检测和/或分类。
当前,车辆可以采用多种类型的传感器,诸如相机、RADAR和/或LiDAR,以在地图内定位车辆以及检测和测量对象与车辆之间的距离。本公开公开了一种车辆,所述车辆包括一个或多个神经网络,所述一个或多个神经网络基于由车辆的相机传感器捕获的图像(例如,二维图像)生成语义上分割的地图。神经网络可以在地图图块内定位例如确定车辆和/或检测到的对象的相对位置。可以将语义上分割的地图提供给其他车辆系统,以允许车辆基于检测到的对象来规划和/或控制车辆的一个或多个方面。
图1是示例性车辆系统100的框图。系统100包括车辆105,所述车辆是陆地车辆,诸如汽车、卡车等。车辆105包括计算机110、车辆传感器115、用于致动各种车辆部件125的致动器120、以及车辆通信模块130。经由网络135,通信模块130允许计算机110与服务器145通信。
计算机110包括处理器和存储器。存储器包括一种或多种形式的计算机可读介质,并且存储可由计算机110执行以执行各种操作(包括如本文所公开的操作)的指令。
计算机110可以自主模式、半自主模式或非自主(手动)模式来操作车辆105。出于本公开的目的,自主模式被限定为其中由计算机110控制车辆105推进、制动和转向中的每一者的模式;在半自主模式下,计算机110控制车辆105推进、制动和转向中的一者或两者;在非自主模式下,人类操作员控制车辆105推进、制动和转向中的每一者。
计算机110可以包括编程以操作车辆105制动、推进(例如,通过控制内燃发动机、电动马达、混合动力发动机等中的一者或多者来控制车辆的加速)、转向、气候控制、内部灯和/或外部灯等中的一者或多者,以及确定计算机110(而非人类操作员)是否以及何时控制此类操作。另外,计算机110可被编程为确定人类操作员是否以及何时控制此类操作。
计算机110可包括一个以上处理器,或者例如经由如以下进一步描述的车辆105通信模块130而通信地耦接到所述一个以上处理器,所述一个以上处理器例如包括在车辆105中所包括的用于监测和/或控制各种车辆部件125的电子控制器单元(ECU)等(例如动力传动系统控制器、制动控制器、转向控制器等)中。此外,计算机110可经由车辆105通信模块130与使用全球定位系统(GPS)的导航系统通信。作为示例,计算机110可请求并接收车辆105的位置数据。位置数据可以是已知的形式,例如地理坐标(纬度坐标和经度坐标)。
计算机110通常被布置用于依靠车辆105通信模块130并且还利用车辆105内部有线和/或无线网络(例如车辆105中的总线等,诸如控制器局域网(CAN)等)和/或其他有线和/或无线机制进行通信。
经由车辆105通信网络,计算机110可向车辆105中的各种装置传输消息和/或从所述各种装置接收消息,所述各种装置例如车辆传感器115、致动器120、车辆部件125、人机界面(HMI)等。替代地或另外,在其中计算机110实际上包括多个装置的情况下,车辆105通信网络可用于在本公开中表示为计算机110的装置之间的通信。此外,如以下所提及,各种控制器和/或车辆传感器115可向计算机110提供数据。
车辆传感器115可包括诸如已知的用于向计算机110提供数据的多种装置。例如,车辆传感器115可包括设置在车辆105的顶部上、在车辆105的前挡风玻璃后面、在车辆105周围等的光探测和测距(LiDAR)传感器115等,所述传感器提供车辆105周围的对象的相对位置、大小和形状和/或周围的情况。作为另一示例,固定到车辆105保险杠的一个或多个雷达传感器115可以提供数据以提供对象(可能包括第二车辆)等相对于车辆105的位置的速度并进行测距。车辆传感器115还可以包括相机传感器115(例如,前视、侧视、后视等),所述相机传感器提供来自车辆105内部和/或外部的视野的图像。
车辆105致动器120经由如已知那样可根据适当控制信号致动各种车辆子系统的电路、芯片、马达或者其他电子和/或机械部件来实现。致动器120可用于控制部件125,包括车辆105的制动、加速和转向。
在本公开的上下文中,车辆部件125是适于执行机械或机电功能或操作(诸如使车辆105移动、使车辆105减速或停止、使车辆105转向等)的一个或多个硬件部件。部件125的非限制性示例包括推进部件(其包括例如内燃发动机和/或电动马达等)、变速器部件、转向部件(例如,其可包括方向盘、转向齿条等中的一者或多者)、制动部件(如以下所描述)、停车辅助部件、自适应巡航控制部件、自适应转向部件、可移动座椅等。
此外,计算机110可被配置用于经由车辆对车辆通信模块或接口130与车辆105外部的装置通信,例如,通过车辆对车辆(V2V)或车辆对基础设施(V2X)无线通信与另一车辆、远程服务器145(通常经由网络135)通信。模块130可包括计算机110可借以通信的一种或多种机制,包括无线(例如,蜂窝、无线、卫星、微波和射频)通信机制的任何期望组合以及任何期望网络拓扑(或者当利用多个通信机制时为多个拓扑)。经由模块130提供的示例性通信包括提供数据通信服务的蜂窝、
Figure BDA0002945251070000071
IEEE 802.11、专用短程通信(DSRC)和/或广域网(WAN),包括互联网。
网络135可以是各种有线或无线通信机制中的一者或多者,包括有线(例如,电缆和光纤)和/或无线(例如,蜂窝、无线、卫星、微波和射频)通信机制的任何期望的组合以及任何期望的网络拓扑(或当利用多种通信机制时为多个拓扑)。示例性通信网络包括提供数据通信服务的无线通信网络(例如,使用蓝牙、低功耗蓝牙(BLE)、IEEE 802.11、车辆对车辆(V2V)(诸如专用短程通信(DSRC))等)、局域网(LAN)和/或广域网(WAN),包括互联网。
计算机110可以基本上连续地、周期性地和/或当由服务器145指示时等从传感器115接收并分析数据。此外,对象分类或识别技术可在例如计算机110中基于lidar传感器115、相机传感器115等的数据用于识别对象的类型(例如,车辆、人、岩石、坑洞、自行车、摩托车等)以及对象的物理特征。
图2是示例性服务器145的框图。服务器145包括计算机235和通信模块240。计算机235包括处理器和存储器。存储器包括一种或多种形式的计算机可读介质,并且存储可由计算机235执行以用于执行各种操作(包括如本文所公开的操作)的指令。通信模块240允许计算机235与其他装置(诸如车辆105)通信。
图3是示例性神经网络300的图示。例如,神经网络300可以是可加载到存储器中并由车辆105和/或服务器145中的处理器执行的软件程序。如图所示,神经网络300包括编码器-解码器架构,其包括第一编码器305、第二编码器310和解码器315。
编码器305、310生成相应输入的编码表示。如图所示,第一编码器305接收图像320作为输入,并且第二编码器310接收地图图块325作为输入。图像320可以包括由车辆105传感器115(诸如前向相机)捕获的图像帧。例如,图像320可以描绘车辆105前方的环境。地图图块325描绘了地图的一部分,例如地图的描绘感兴趣区域的一部分。在一些实现方式中,地图图块325可以根据请求经由通信模块130提供给车辆105计算机110。
例如,编码器305生成图像属性的编码表示,诸如图像特征的固定维矢量表示。编码器310生成地图属性的编码表示,诸如地图特征的固定维矢量表示。在各种实现方式中,编码器305、310可以包括卷积-批处理标称-ReLU架构。
由编码器305、310生成的编码表示被提供给潜在嵌入层330。神经网络300的潜在嵌入层330还接收全球定位系统(GPS)坐标335。在一些实现方式中,GPS坐标335可以由一个或多个车辆105传感器115提供。解码器315接收图像属性和地图属性的编码表示以及GPS坐标335。解码器315基于输入生成估计的重建。估计的重建包括语义上分割的地图图块340,所述地图图块340基于所接收的地图图块325可包括车辆105的位置和对象相对于车辆105的位置(例如,相对于在地图图块内)。例如,语义上分割的地图图块340可以包括对车辆105在地图图块325内的位置的描绘以及对图像320中描绘的各种对象在地图325内相对于车辆105的位置的描绘。解码器315可以包括反卷积-批处理标称-泄漏ReLU架构。
图4A示出了由编码器310接收的示例性地图图块325。在一些实现方式中,计算机110从基于云的服务请求地图图块325,并且基于云的服务基于车辆105的GPS坐标提供地图图块325。图4B示出了由解码器315生成的示例性语义上分割的地图图块340。如图所示,语义上分割的地图图块340可以包括表示车辆105在地图图块340内的位置的视觉指示符345和表示由车辆105传感器115捕获的一个或多个对象的相对位置的视觉指示符350。基于云的服务可以包括提供地图图块的任何合适的服务,诸如GOOGLE地图等。
图5是示例性深度神经网络(DNN)400的图示。DNN 400可以表示上述编码器305、310和/或解码器315。DNN 400包括多个节点405,并且节点405被布置成使得DNN 400包括输入层、一个或多个隐藏层、和输出层。DNN 400的每一层可以包括多个节点405。虽然图4A和图4B示出了三(3)个隐藏层,但应理解,DNN 400可以包括更多的或更少的隐藏层。输入层和输出层还可以包括一(1)个以上的节点405。
节点405有时被称为人工神经元405,因为它们被设计成模拟生物(例如,人类)神经元。每个神经元405的输入集合(由箭头表示)各自乘以相应的权重。然后,可以将经加权输入在输入函数中求和,以在可能通过偏差进行调整的情况下提供净输入。然后,可以将净输入提供给激活函数,所述激活函数进而为连接的神经元405提供输出。所述激活函数可以是通常基于经验分析来选择的各种合适的函数。如图4A和图4B中的箭头所示,接着可以提供神经元405的输出以将其包括在到下一层中的一个或多个神经元405的一组输入中。
可以训练DNN 400以接受数据作为输入并基于输入生成输出。DNN 400可以用地面实况数据即关于真实世界状况或状态的数据进行训练。例如,DNN 400可以用地面实况数据进行训练或者由处理器用附加数据进行更新。例如,可以通过使用高斯分布初始化权重,并且可将每个节点405的偏差设置为零。训练DNN 400可以包括经由合适技术(诸如反向传播)加以优化来更新权重和偏差。地面实况数据可以包括但不限于指定图像内的对象的数据或指定物理参数(例如,对象相对于另一对象的角度、速度、距离或角度)的数据。例如,地面实况数据可以是表示对象和对象标签的数据。
图6A示出了根据本公开的一个或多个实现方式的用于训练神经网络300的示例性过程。在监督训练阶段期间,将一组N个训练数据620输入到神经网络300。神经网络300为N个训练图像620中的每一个生成语义上分割的地图图块。训练数据620可以包括表示相机的视野的训练图像、训练地图图块、GPS坐标和训练标签。训练标签可以包括在监督训练阶段之前生成的语义上分割的地图图块。
语义上分割的地图图块可以包括指示对应于训练GPS坐标的车辆105位置的标记以及指示障碍物的标记。障碍物的标记可以包括可以从LiDAR传感器以及相机的视野内的相机数据获得的障碍物位置和类别标签。地图图块可以包括高清晰度地图的占用层。经训练的神经网络300还可以被训练以估计检测到的对象与图像源之间的距离。例如,训练数据620还可以包括由超声波传感器、LiDAR传感器和/或雷达传感器测量的在相机的视野内的对象的距离。
如图所示,神经网络300可以生成N个训练图像620的训练图像的输出。在监督训练之后,神经网络300可以接收GPS坐标、地图图块和图像。神经网络300输出语义上分割的地图图块625,所述地图图块包括车辆在地图图块内的位置和对象在地图图块内相对于车辆的位置。可以将语义上分割的地图图块625与地面实况数据630进行比较,并且神经网络300基于与地面实况框630的比较来更新网络参数。例如,可以经由反向传播来更新网络参数,例如与神经元相关联的权重。
神经网络可以在服务器145处训练,并且经由通信网络135提供给车辆105。车辆105还可以将由车辆105系统捕获的数据提供给服务器145以用于进一步的训练目的。
在训练之后,神经网络300可以用于定位车辆105,并检测在地图图块325内的接收到的图像635内描绘的对象,如图6B所示。神经网络300的输出是一个或多个语义上分割的地图图块340,其在上文更详细地描述。例如,经训练的神经网络300可以在车辆105的计算机110上执行并接收图像320、地图图块325和GPS坐标335,并且基于输入生成语义上分割的地图图块340。
图7是用于使用神经网络300生成语义上分割的地图图块的示例性过程700的流程图。语义上分割的地图图块可以定位车辆105和由车辆105的传感器115捕获的一个或多个图像内描绘的对象。过程700的框可以由计算机110执行。过程700开始于框705,在所述框705中确定是否接收到图像。例如,图像可以是由车辆105传感器115捕获的图像。如果没有接收到图像,则过程700返回到框705。如果接收到图像,则在框710处接收车辆105的GPS坐标。在框715处,接收基于GPS坐标的表示区域的地图的地图图块。例如,计算机110可以使用车辆105的GPS坐标从基于云的服务请求一个或多个地图图块。
在框720处,神经网络300生成语义上分割的地图图块,其在所接收的地图图块内定位车辆105。如上面所讨论的,经训练的神经网络300接收GPS坐标和使用GPS坐标的地图图块。经训练的神经网络300可以使用GPS坐标来定位车辆105在地图图块内的位置。另外或替代地,经训练的神经网络300可以检测在所接收的图像内描绘的一个或多个对象,并且估计图像源与检测到的对象之间的距离。使用估计距离和车辆105在地图图块内的确定位置,还可以在地图图块内相对于车辆105定位检测到的对象。
在框725处,计算机110估计图像内描绘的一个或多个对象与图像源(诸如车辆105传感器115)之间的距离。在框730处,确定估计距离是否大于预定距离阈值。如果距离大于预定距离阈值,则过程700返回到框705。如果距离小于或等于距离阈值,则在框735处基于估计距离来生成警报。在示例性实现方式中,计算机110可以使用查找表等来基于估计距离确定要生成的警报。例如,计算机110可以生成随估计距离而变化的警报。在一些示例中,计算机110可以基于估计距离来改变警报的可听特性、可视特性和/或频率特性。警报可以包括在车辆105内生成的可听警报和/或可视警报。
在框740处,确定车辆105是否已经停止移动或正在相对于对象的不同方向上移动。在一个或多个实现方式中,如果估计距离相对于先前估计距离增加,则计算机110可以确定车辆105正在另一个方向上移动。在一个或多个实现方式中,如果估计距离相对于先前估计距离尚未改变、一个或多个控制部件125指示车辆105没有产生扭矩,则计算机110可以确定车辆105没有在移动。如果车辆105已经停止移动或者车辆105正在不同的方向上移动,则在框745处终止警报并且过程700结束。
否则,在框750处致动车辆105。例如,计算机110可以向一个或多个部件125发送控制信号以使车辆105停止移动或使车辆105在另一个方向上移动。在一些示例中,计算机110可以使车辆105从自主模式到半自主模式或手动模式,反之亦然。
通常,所描述的计算系统和/或装置可以采用许多计算机操作系统中的任一者,包括但绝不限于以下版本和/或变型:Ford
Figure BDA0002945251070000121
应用、AppLink/Smart Device Link中间件、Microsoft
Figure BDA0002945251070000131
操作系统、Microsoft
Figure BDA0002945251070000132
操作系统、Unix操作系统(例如,由加利福尼亚州红木海岸的甲骨文公司发布的
Figure BDA0002945251070000133
操作系统)、由纽约州阿蒙克市的国际商业机器公司发布的AIX UNIX操作系统、Linux操作系统、由加利福尼亚州库比蒂诺的苹果公司发布的Mac OSX和iOS操作系统、由加拿大滑铁卢的黑莓有限公司发布的BlackBerry OS、以及由谷歌公司和开放手机联盟开发的Android操作系统、或由QNX软件系统公司提供的
Figure BDA0002945251070000134
CAR信息娱乐平台。计算装置的示例包括但不限于车载计算机、计算机工作站、服务器、台式机、笔记本、膝上型计算机或手持计算机、或一些其他计算系统和/或装置。
计算机和计算装置一般包括计算机可执行指令,其中所述指令可能够由一个或多个计算装置(诸如以上所列出的那些)执行。可由使用多种编程语言和/或技术创建的计算机程序编译或解译计算机可执行指令,所述编程语言和/或技术单独地或者组合地包括但不限于JavaTM、C、C++、Matlab、Simulink、Stateflow、Visual Basic、Java Script、Perl、HTML等。这些应用程序中的一些可在诸如Java虚拟机、Dalvik虚拟机等虚拟机上编译和执行。通常,处理器(例如,微处理器)接收来自例如存储器、计算机可读介质等的指令,并执行这些指令,从而执行一个或多个过程,包括本文所述过程中的一个或多个。可使用各种计算机可读介质来存储和传输此类指令和其他数据。计算装置中的文件通常是存储在诸如存储介质、随机存取存储器等计算机可读介质上的数据的集合。
存储器可以包括计算机可读介质(也称为处理器可读介质),所述计算机可读介质包括参与提供可以由计算机(例如,由计算机的处理器)读取的数据(例如,指令)的任何非暂时性(例如,有形)介质。此类介质可采取许多形式,包括但不限于非易失性介质和易失性介质。非易失性介质可以包括例如光盘或磁盘以及其他持久存储器。易失性介质可包括(例如)通常构成主存储器的动态随机存取存储器(DRAM)。此类指令可由一种或多种传输介质传输,所述一种或多种传输介质包括同轴电缆、铜线和光纤,包括构成耦接到ECU的处理器的系统总线的电线。常见形式的计算机可读介质包括例如软磁盘、软盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD、任何其他光学介质、穿孔卡、纸带、带有孔图案的任何其他物理介质、RAM、PROM、EPROM、FLASH-EEPROM、任何其他存储器芯片或盒式磁带或计算机可从其中读取的任何其他介质。
数据库、数据存储库或本文所述的其他数据存储装置可包括用于存储、访问和检索各种数据的各种机构,包括分层数据库、文件系统中的文件集、呈专用格式的应用数据库、关系数据库管理系统(RDBMS)等。每个此类数据存储装置大体包括在采用计算机操作系统(诸如以上所提到的那些操作系统中的一个操作系统)的计算装置内,并且经由网络以多种方式中的任一种或多种方式来访问。文件系统可以从计算机操作系统访问,并且可以包括以各种格式存储的文件。除了用于创建、存储、编辑和执行已存储的程序的语言(例如上述PL/SQL语言)之外,RDBMS还通常采用结构化查询语言(SQL)。
在一些示例中,系统元件可被实施为一个或多个计算装置(例如,服务器、个人计算机等)上、存储在与其相关联的计算机可读介质(例如,磁盘、存储器等)上的计算机可读指令(例如,软件)。计算机程序产品可以包括存储在计算机可读介质上的用于执行本文所描述功能的此类指令。
关于本文描述的介质、过程、系统、方法、启发等,应理解,虽然此类过程等的步骤已被描述为按照某一有序的顺序发生,但是可以通过以与本文所述顺序不同的顺序执行所述步骤来实践此类过程。还应理解,可同时执行某些步骤,可添加其他步骤,或者可省略本文所描述的某些步骤。换句话说,本文对过程的描述出于说明某些实施例的目的而提供,并且决不应被解释为限制权利要求。
因此,应理解,以上描述旨在是说明性的而非限制性的。在阅读以上描述时,除了所提供的示例之外的许多实施例和应用对于本领域的技术人员将是明显的。不应参考以上描述来确定本发明的范围,而应参考所附权利要求连同这些权利要求赋予的等效物的全部范围来确定。可以设想并预期未来的发展将在本文讨论的领域中发生,并且所公开的系统和方法将结合到此类未来实施例中。总之,当应理解,本发明能够进行修改和变化,并且仅受所附权利要求的限制。
除非本文做出明确的相反指示,否则权利要求中使用的所有术语意图给出如本领域技术人员所理解的普通和一般的含义。具体地,除非权利要求叙述相反的明确限制,否则使用诸如“一个”、“该”、“所述”等单数冠词应被解读为叙述所指示的要素中的一者或多者。
根据本发明,提供了一种系统,其具有计算机,所述计算机包括处理器和存储器,所述存储器包括指令,使得所述处理器被编程为:在第一编码器神经网络处生成从车辆的车辆传感器接收的图像的图像特征的编码表示;在第二编码器神经网络处生成地图图块特征的编码表示;以及在所述解码器神经网络处基于图像特征的所述编码表示、地图图块特征的所述编码表示以及所述车辆的全球定位系统(GPS)坐标来生成语义上分割的地图图块,其中所述语义上分割的地图图块包括所述车辆的位置和所述图像内描绘的检测到的对象相对于所述车辆的位置。
根据一个实施例,所述处理器还被编程为基于所述检测到的对象来致动所述车辆。
根据一个实施例,所述处理器还被编程为估计所述检测到的对象与所述车辆之间的距离;确定所述估计距离是否大于预定距离阈值;并且当所述估计距离不大于所述预定距离阈值时生成警报。
根据一个实施例,所述处理器还被编程为确定所述车辆是否已经停止或正在相反方向上移动;并且当所述车辆尚未停止并且未在所述相反方向上移动时致动所述车辆。
根据一个实施例,所述处理器还被编程为基于检测到的对象使所述车辆从非自主模式转变为自主模式。
根据一个实施例,所述解码器神经网络从潜在嵌入层接收图像特征的所述编码表示、地图图块特征的所述编码表示以及所述车辆的所述GPS坐标。
根据一个实施例,地图图块特征基于从基于云的服务接收的地图图块,所述地图图块表示与车辆的位置相对应的地图。
根据一个实施例,所述语义上分割的地图图块包括所述车辆在所述语义上分割的地图图块内的相对位置的至少一个视觉指示符。
根据一个实施例,所述语义上分割的地图图块包括指示所述对象的所述位置的至少一个视觉指示符。
根据本发明,一种方法包括:在第一编码器神经网络处生成从车辆的车辆传感器接收的图像的图像特征的编码表示;在第二编码器神经网络处生成地图图块特征的编码表示;以及在所述解码器神经网络处基于图像特征的所述编码表示、地图图块特征的所述编码表示以及所述车辆的全球定位系统(GPS)坐标来生成语义上分割的地图图块,其中所述语义上分割的地图图块包括所述车辆的位置和所述图像内描绘的检测到的对象相对于所述车辆的位置。
在本发明的一个方面,该方法包括估计所述检测到的对象与所述车辆之间的距离;确定所述估计距离是否大于预定距离阈值;并且当所述估计距离不大于所述预定距离阈值时生成警报。
在本发明的一个方面,该方法包括确定所述车辆是否已经停止或正在相反方向上移动;并且当所述车辆尚未停止并且未在所述相反方向上移动时致动所述车辆。
在本发明的一个方面,该方法包括基于检测到的对象使所述车辆从非自主模式转变为自主模式。
在本发明的一个方面,所述解码器神经网络从潜在嵌入层接收图像特征的所述编码表示、地图图块特征的所述编码表示以及所述车辆的所述GPS坐标。
在本发明的一个方面,地图图块特征基于从基于云的服务接收的地图图块,所述地图图块表示与车辆的位置相对应的地图。
在本发明的一个方面,所述语义上分割的地图图块包括指示所述车辆在所述语义上分割的地图图块内的相对位置的至少一个视觉指示符。
在本发明的一个方面,所述语义上分割的地图图块包括指示所述检测到的对象的所述位置的至少一个视觉指示符。
根据本发明,提供了一种系统,其具有计算机,所述计算机包括处理器和存储器,所述存储器包括指令,使得所述处理器被编程为:用一组标记的训练图像训练神经网络,其中所述一组标记的训练图像包括描绘车辆相机的视野内的对象的至少一个训练图像和指示所述对象与所述车辆相机之间的距离和车辆在地图图块内的位置的至少一个训练标签;基于所述深度神经网络处的至少一个未标记的训练图像来生成语义上分割的地图图块,其中所述语义上分割的地图图块包括车辆在语义上分割的地图图块内的位置和检测到的对象相对于该车辆的位置;将所述语义上分割的地图图块与地面实况数据进行比较;以及更新与所述神经网络的神经元相关联的至少一个权重。
根据一个实施例,所述语义上分割的地图图块包括指示所述车辆在语义上分割的地图图块内的相对位置的至少一个视觉指示符。
根据一个实施例,所述神经网络包括解码器,所述解码器被配置为生成所述语义上分割的地图图块。

Claims (9)

1.一种系统,其包括计算机,所述计算机包括处理器和存储器,所述存储器包括指令,使得所述处理器被编程为:
在第一编码器神经网络处生成从车辆的车辆传感器接收的图像的图像特征的编码表示;
在第二编码器神经网络处生成地图图块特征的编码表示;以及
在所述解码器神经网络处基于图像特征的所述编码表示、地图图块特征的所述编码表示以及所述车辆的全球定位系统(GPS)坐标来生成语义上分割的地图图块,其中所述语义上分割的地图图块包括所述车辆的位置和所述图像内描绘的检测到的对象相对于所述车辆的位置。
2.如权利要求1所述的系统,其中所述处理器还被编程为:
基于所述检测到的对象来致动所述车辆。
3.如权利要求2所述的系统,其中所述处理器还被编程为:
估计所述检测到的对象与所述车辆之间的距离;
确定所述估计距离是否大于预定距离阈值;以及
当所述估计距离不大于所述预定距离阈值时生成警报。
4.如权利要求2所述的系统,其中所述处理器还被编程为:
确定所述车辆是否已经停止或正在相反方向上移动;以及
当所述车辆尚未停止并且未在所述相反方向上移动时致动所述车辆。
5.如权利要求1所述的系统,其中所述处理器还被编程为:
基于所述检测到的对象使所述车辆从非自主模式转变为自主模式。
6.如权利要求1所述的系统,其中所述解码器神经网络从潜在嵌入层接收图像特征的所述编码表示、地图图块特征的所述编码表示以及所述车辆的所述GPS坐标。
7.如权利要求1所述的系统,其中所述地图图块特征基于从基于云的服务接收的地图图块,所述地图图块表示对应于所述车辆的位置的地图。
8.如权利要求1所述的系统,其中所述语义上分割的地图图块包括所述车辆在所述语义上分割的地图图块内的相对位置的至少一个视觉指示符。
9.如权利要求8所述的系统,其中所述语义上分割的地图图块包括指示所述对象的所述位置的至少一个视觉指示符。
CN202110191263.5A 2020-02-24 2021-02-20 用于定位和对象检测的神经网络 Pending CN113298250A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/799,210 US11574463B2 (en) 2020-02-24 2020-02-24 Neural network for localization and object detection
US16/799,210 2020-02-24

Publications (1)

Publication Number Publication Date
CN113298250A true CN113298250A (zh) 2021-08-24

Family

ID=77176308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110191263.5A Pending CN113298250A (zh) 2020-02-24 2021-02-20 用于定位和对象检测的神经网络

Country Status (3)

Country Link
US (1) US11574463B2 (zh)
CN (1) CN113298250A (zh)
DE (1) DE102021104044A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019029A (zh) * 2022-08-08 2022-09-06 杭州实在智能科技有限公司 一种基于神经自动机的rpa元素智能定位方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11423576B1 (en) * 2021-07-23 2022-08-23 Ford Global Technologies, Llc Infrastructure node localization with respect to alternative frame of reference
DE102021209786A1 (de) 2021-09-06 2023-03-09 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Positionieren einer Kartendarstellung eines Umfelds eines Fahrzeugs in einer semantischen Straßenkarte

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9428194B2 (en) * 2014-12-11 2016-08-30 Toyota Motor Engineering & Manufacturing North America, Inc. Splash condition detection for vehicles
US10322696B2 (en) * 2017-01-18 2019-06-18 Gm Global Technology Operations Llc. Vehicle environment imaging systems and methods
US10262234B2 (en) 2017-04-24 2019-04-16 Baidu Usa Llc Automatically collecting training data for object recognition with 3D lidar and localization
WO2019094843A1 (en) 2017-11-10 2019-05-16 Nvidia Corporation Systems and methods for safe and reliable autonomous vehicles
CN112204343B (zh) 2018-03-02 2024-05-17 辉达公司 高清晰地图数据的可视化
US11263245B2 (en) * 2018-10-30 2022-03-01 Here Global B.V. Method and apparatus for context based map data retrieval

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019029A (zh) * 2022-08-08 2022-09-06 杭州实在智能科技有限公司 一种基于神经自动机的rpa元素智能定位方法
CN115019029B (zh) * 2022-08-08 2022-11-04 杭州实在智能科技有限公司 一种基于神经自动机的rpa元素智能定位方法

Also Published As

Publication number Publication date
US20210264213A1 (en) 2021-08-26
DE102021104044A1 (de) 2021-08-26
US11574463B2 (en) 2023-02-07

Similar Documents

Publication Publication Date Title
US10775509B2 (en) Sensor field of view mapping
US11107228B1 (en) Realistic image perspective transformation using neural networks
CN113298250A (zh) 用于定位和对象检测的神经网络
US20220111859A1 (en) Adaptive perception by vehicle sensors
CN112438729A (zh) 驾驶员警觉性检测系统
CN111107484A (zh) 运输基础设施通信和控制
CN114118350A (zh) 观察的车辆姿态的自监督估计
CN116136963A (zh) 自适应地修剪神经网络系统
CN112784867A (zh) 利用合成图像训练深度神经网络
US11657635B2 (en) Measuring confidence in deep neural networks
US11500104B2 (en) Localizing a moving object
CN113159271A (zh) 时间cnn后部碰撞警报系统
CN114758313A (zh) 实时神经网络再训练
US10977783B1 (en) Quantifying photorealism in simulated data with GANs
US11262201B2 (en) Location-based vehicle operation
CN114119625A (zh) 点云数据的分割与分类
US11158066B2 (en) Bearing only SLAM with cameras as landmarks
US11823465B2 (en) Neural network object identification
US20220172062A1 (en) Measuring confidence in deep neural networks
US11321587B2 (en) Domain generation via learned partial domain translations
US11530933B1 (en) Vehicle navigation
CN117115625A (zh) 未见环境分类
CN117521748A (zh) 计算高效的无监督dnn预训练

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination