CN116529561A - 基于单目的对象检测的系统和方法 - Google Patents

基于单目的对象检测的系统和方法 Download PDF

Info

Publication number
CN116529561A
CN116529561A CN202180079456.XA CN202180079456A CN116529561A CN 116529561 A CN116529561 A CN 116529561A CN 202180079456 A CN202180079456 A CN 202180079456A CN 116529561 A CN116529561 A CN 116529561A
Authority
CN
China
Prior art keywords
information
roadmap
layer
vehicle
additional layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180079456.XA
Other languages
English (en)
Inventor
肖恩·富利
詹姆斯·海斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ford Global Technologies LLC
Original Assignee
Ford Global Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ford Global Technologies LLC filed Critical Ford Global Technologies LLC
Publication of CN116529561A publication Critical patent/CN116529561A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3407Route searching; Route guidance specially adapted for specific applications
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3602Input other than that of destination using image analysis, e.g. detection of road signs, lanes, buildings, real preceding vehicles using a camera
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/38Electronic maps specially adapted for navigation; Updating thereof
    • G01C21/3804Creation or updating of map data
    • G01C21/3807Creation or updating of map data characterised by the type of data
    • G01C21/3815Road data
    • G01C21/3822Road feature data, e.g. slope data
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/38Electronic maps specially adapted for navigation; Updating thereof
    • G01C21/3804Creation or updating of map data
    • G01C21/3859Differential updating map data
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0251Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting 3D information from a plurality of images taken from different locations, e.g. stereo vision
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0268Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means
    • G05D1/0274Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means using mapping information stored in a memory device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/24Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Electromagnetism (AREA)
  • Traffic Control Systems (AREA)

Abstract

对象检测系统和方法。方法包括:利用计算设备获得包括相互叠加的多个颜色层的图像;使用包含在路线图中的信息生成至少一个第一附加层(其中第一附加层包括地面高度信息、地面深度信息、可驾驶的地理区域信息、地图点到车道中心的距离信息、车道方向信息或十字路口信息);通过将第一附加层叠加在颜色层上生成修改图像;以及利用计算设备基于使用修改图像进行的对象检测来控制车辆的操作。

Description

基于单目的对象检测的系统和方法
背景
交叉引用和优先权要求
本专利文件要求2020年11月25日提交的申请号为17/105,199的美国专利申请的优先权,该申请通过引用并入本文。
技术领域
本公开总体涉及对象检测系统。更具体地,本公开涉及基于单目的对象检测的实施系统和方法。
背景技术
现代车辆具有至少一台车载计算机并有互联网/卫星连接。在这些车载计算机上运行的软件可以监测和/或控制车辆的操作。这种车辆还包括激光雷达探测器来探测其附近的对象。激光雷达探测器生成激光雷达数据集,该激光雷达数据集在多个不同的时间测量从车辆到对象的距离。这些距离测量可用于识别对象、跟踪对象的运动、预测对象的轨迹、以及根据预测的对象的轨迹规划车辆的行驶路径。基于激光雷达的对象检测成本昂贵且对天气条件敏感。
发明内容
本文涉及用于对象检测的实施系统和方法。该方法包括:通过计算设备获取包括相互叠加的多个颜色层(或通道)的图像;并使用包含在路线图中的信息生成至少一个第一附加层(或通道)。第一附加层(或通道)包括地面高度信息、地面深度信息、可驾驶的地理区域信息、地图点到车道中心距离信息、车道方向信息或十字路口信息。然后,通过将第一附加层(或通道)叠加到颜色层(或通道)上生成修改图像。计算设备可以基于使用修改图像进行的对象检测对车辆操作进行控制。
在一些场景中,方法包括获取车辆的姿态信息和预定义的地图网格部分的大小。此信息用于识别路线图的一部分。路线图的该部分包括路线图的片段,该片段(i)包含在几何区域中,该几何区域具有与路线图中的车辆的中心点相同的中心点,并且(ii)尺寸与预定义的地图网格部分的大小定义的尺寸相等。
在这些或其他场景中,方法包括:获取路线图部分中多个几何点位置的基于路线图的值;并使用基于路线图的值生成第一附加层(或通道)。第一附加层(或通道)通过下列方法生成:根据基于路线图的值在第一坐标系中定义多个图块;使用与基于路线图的各个值关联的路线图的地面高度值定义每个图块的多边形;以及将多个图块从第一坐标系转换到第二坐标系。这些图块可以对应于接近地面的网格。基于路线图的值可以包括:定义路线图中指定的地面的值;定义路线图中包含的可驾驶的地理区域的值;基于已知摄像机位置和包含在路线图中的地面高度信息计算的地面深度值;地图点到车道中心的距离值;车道方向值;或十字路口值。
在这些或其他场景中,方法包括:使用路线图中包含的信息生成至少一个第二附加层(或通道)。第二附加层(或通道)包含与第一附加层(或通道)不同的信息。除了第一附加层(或通道)之外,第二附加层(或通道)也叠加在颜色层(或通道)上,从而生成修改图像。除了多个颜色层(或通道)之外,修改图像还可以包括下列中的至少两个层(或通道)的组合:地面高度层(或通道)、地面深度层(或通道)、可驾驶的地理区域层(或通道)、地图点到车道中心的距离层(或通道)、车道方向层(或通道)和十字路口层(或通道)。可以在修改图像中检测对象。可以对修改图像中检测到的对象估计位置、方向、空间范围和/或分类。
附图说明
参考下述附图描述本文,其中在全部附图中类似的附图标记表示类似的项目。
图1是说明性系统的图示;
图2是说明性的车辆架构的图示;
图3是说明性的计算设备的图示;
图4提供了用于对象检测的说明性方法的流程图;
图5提供了说明性路线图的图示;
图6提供了有助于理解图4中所示方法的图示;
图7提供了说明性网格的图示;
图8提供了说明性多边形的图示;
图9-10各自提供了说明性的修改图像的图示;
图11提供了有助于理解根据本文如何控制车辆的框图。
具体实施方式
本文中使用的单数形式“一”、“一个”和“该”包括复数形式,除非上下文另有明确规定。除非另有定义,否则本文中使用的所有技术和科学术语与本领域普通技术人员通常理解的含义相同。本文中使用的术语“包括”是指“包括但不限于”。与本文档相关的附加术语的定义包含在具体实施方式的末尾。
“电子设备”或“计算设备”指包含处理器和存储器的设备。每个设备可以具有其自己的处理器和/或存储器,或者该处理器和/或存储器可以与虚拟机或容器装置中的其他设备共享。存储器将包含或接收编程指令,编程指令当由处理器执行时,使电子设备根据编程指令执行一个或多个操作。
术语“存储器”、“存储设备”、“数据存储”、“数字存储设备”等均指存储计算机可读数据、编程指令或两者的非瞬态设备。除非另有特别说明,否则术语“存储器”、“存储设备”、“数据存储”、“数字存储设备”等旨在包括单个设备实施例、多个存储设备一起或共同存储一组数据或指令的实施例、以及这些设备内的单个扇区。
术语“处理器”和“处理设备”是指被配置为执行编程指令的电子设备的硬件组件。除非另有特别说明,否则单数术语“处理器”或“处理设备”旨在包括单个处理设备实施例和多个处理设备一起或共同执行过程的实施例。
术语“车辆”是指能够承载一名或多名乘客和/或货物并由任何形式的能量提供动力的任何移动形式的运输工具。术语“车辆”包括但不限于轿车、卡车、货车、火车、自主车辆、飞机、无人机等。“自主车辆”是指具有处理器、编程指令和可由处理器控制而无需操作人员的传动系部件的车辆。自主车辆可以是完全自主的,对于大多数或所有驾驶条件和功能而言,不需要操作人员,或者可以是半自主的,在某些条件下或对于某些操作,可能需要操作人员,或者操作人员可以超驰车辆的自主系统并且可以控制车辆。
在本文中,当“第一”和“第二”等术语用于修饰名词时,这种使用只是为了将一个项目与另一个项目区分开来,除非特别说明,否则不需要顺序。此外,相对位置的术语,如“垂直”和“水平”,或“前部”和“后部”,在使用时,旨在彼此相对,而不必是绝对的,并且仅指与这些术语相关联的设备的一个可能位置,这取决于设备的方向。
在此在自主驾驶车辆的背景下描述了本文。本文并不限于自主驾驶车辆应用。本文可用于其他应用,如机器人应用。
本文提供了一种替代基于激光雷达的对象检测的方法,基于激光雷达的对象检测成本昂贵且对天气条件敏感。本文总体涉及使用对象检测算法,该算法利用例如AV应用中的单目3D对象检测中的路线图(例如预定义的高清3D表面路线图)中包含的信息。路线图在本领域中是众所周知的。对象检测的结果可用于对象轨迹预测、车辆轨迹生成和/或避免碰撞。对象检测算法可以包括机器学习算法,该算法被训练为基于路线图特征的学习组合来估计对象的位置、方向和/或空间范围。路线图特征包括但不限于地面高度特征、地面深度特征、可驾驶的地理区域特征、地图点到车道中心距离特征、车道方向特征和十字路口特征。
在操作过程中,AV的单目摄像机捕捉图像(例如2D图像)。图像包括彼此相互叠加的三个信息层(或通道)——红色(R)层、绿色(G)层和蓝色(B)层。此图像也被称为RGB图像。路线图信息被投影到该图像上。该投影通过以下方法来实现:获取AV姿态信息(定义为3D地图坐标的位置、与单目摄像机连接的车辆的角度和指向方向);使用AV姿态信息和预定义的地图网格部分的大小来识别要投影到图像中的路线图的一部分;并生成修改图像,该修改图像具有在图像上叠加了与路线图的识别部分关联的路线图信息。通过向图像中添加附加层(或通道)来生成修改图像。附加层(或通道)包括但不限于地面高度层(或通道)、地面深度层(或通道)、可驾驶的地理区域层(或通道)、地图点到车道中心的距离层(或通道)、车道方向层(或通道)和/或十字路口层(或通道)。层(或通道)的像素在二维空间中彼此对齐。然后,对象检测算法使用修改图像来估计在修改图像中检测到的至少一个对象的位置、方向、空间范围和/或分类。然后,对象的位置/方向/空间范围被用于控制AV的操作(例如用于对象轨迹预测、车辆轨迹规划和/或车辆运动控制)。现在将描述本文的说明性实施系统。
说明性实施系统
现在参考图1,提供了说明性系统100的图示。系统100包括以半自主或自主方式沿着道路行驶的车辆1021。车辆1021在这里也被称为AV。AV 1021可以包括但不限于陆地车辆(如图1所示)、飞机或船舶。
AV 1021通常被配置为检测其邻近的对象1022、114、116。这些对象可以包括但不限于车辆1022、骑车人114(例如自行车、电动滑板车、摩托车等的骑车人)和/或行人116。根据一种新的基于单目的对象检测过程来实现对象检测。下面将详细描述这种新的基于单目的对象检测过程。基于单目的对象检测过程可以在AV 1021、在远程计算设备110、或部分地在AV 1021和远程计算设备110两者上执行。因此,与对象检测相关的信息可以通过网络108(例如互联网、蜂窝网络和/或无线电网络)在AV和远程计算设备110之间进行通信。与对象检测相关的信息也可以存储在数据库112中。
当进行这样的对象检测时,AV 1021执行操作以:生成被检测对象的一个或多个可能的对象轨迹;并分析生成的至少一个可能的对象轨迹,以确定如果AV遵循给定的轨迹,AV和对象之间是否存在发生碰撞的不良风险水平。如果没有,则会使AV 1021遵循给定的车辆轨迹。如果有,则使AV 1021(i)遵循与对象碰撞风险相对较低的其他车辆轨迹,或(ii)执行操作(例如制动和/或改变行驶方向)以减少与对象碰撞的风险或避免与对象碰撞。
现在参考图2,提供了关于车辆的说明性系统架构200的图示。图1中的车辆1021和/或1022可以具有与图2中所示的系统架构相同或相似的系统架构。因此,下面对系统架构200的讨论足以理解图1中的车辆1021、1022
如图2所示,车辆200包括发动机或马达202和用于测量车辆的各种参数的各种传感器204-218。在具有燃料动力发动机的燃气动力或混合动力车辆中,传感器可以包括例如发动机温度传感器204、电池电压传感器206、发动机每分钟转数(“RPM”)传感器208、和节气门位置传感器210。如果车辆是电动或混合动力车辆,则车辆可以具有电动马达,并且相应地具有例如电池监测系统212(用于测量电池的电流、电压和/或温度)、马达电流传感器214和马达电压传感器216、以及马达位置传感器218(诸如解析器和编码器的)之类的传感器。
两种类型车辆通用的操作参数传感器包括例如位置传感器236(如加速度计、陀螺仪和/或惯性测量单元)、速度传感器238、和里程表传感器240。车辆还可以具有时钟242,系统使用时钟242来确定运行期间的车辆时间。时钟242可以被编码到车载计算设备中,可以是单独的设备,或可以有多个时钟。
车辆还可以包括收集有关车辆行驶环境信息的各种传感器。这些传感器可以包括例如定位传感器260(例如全球定位系统(GPS)设备)以及诸如一个或多个摄像机262的对象检测传感器。传感器还可以包括环境传感器268,例如降水传感器和/或环境温度传感器。对象检测传感器可以使车辆能够检测在车辆200的给定距离范围内的对象,而环境传感器收集关于车辆行驶区域内的环境状况的数据。
在操作期间,信息从传感器通信到车载计算设备220。车载计算设备220分析由传感器捕获的数据,并可选地根据分析的结果控制车辆的操作。例如,车载计算设备220可以:利用制动控制器232控制制动;利用转向控制器224控制方向;利用节气门控制器226(在燃气动力车辆中)或马达速度控制器228(例如电动车辆中的电流水平控制器)控制速度和加速度;控制差速齿轮控制器230(在具有变速器的车辆中);和/或控制其他控制器。
地理位置信息可以从位置传感器260通信到车载计算设备220,然后车载计算设备220可以访问与位置信息对应的环境地图,以确定环境中已知的固定特征,如街道、建筑物、停止标志和/或停止/前进信号。
由摄像机262捕获的图像被通信到车载计算设备220。捕获的图像由车载计算设备220进行处理,以根据本文的新的基于单目的对象检测算法来检测车辆200附近的对象。下面将详细描述这种新的基于单目的对象检测算法。应当注意,基于单目的对象检测算法使用利用包含在用于对象检测的路线图270中的信息的对象检测算法。路线图270可以包括但不限于任何已知或将来可知的三维路面路线图。路线图270被存储在车载计算设备220的本地存储器中。
该对象检测算法可以采用机器学习的方法。机器学习是一种人工智能(Al),它通过基于数据分析自动构建分析模型来为计算机提供学习能力,而无需明确编程。在一些情况下,基于机器学习的对象检测算法配置为:根据数据从各种角度、关系和趋势识别对象的形状;根据识别信息建立对象的基线轮廓;对输入图像中检测到的对象的对象类型、位置、方向和空间范围进行预测/估计。对象的基线轮廓可能会随着时间的推移而变化。基于机器学习的对象检测算法可以采用有监督机器学习、半监督机器学习、无监督机器学习和/或强化机器学习。这些列出的机器学习类型中的每一个在本领域中都是众所周知的。
在一些情况下,基于机器学习的对象检测算法包括但不限于决策树学习算法、关联规则学习算法、人工神经网络学习算法、深度学习算法、基于归纳逻辑编程算法、支持向量机算法、基于聚类算法、基于贝叶斯网络算法、表示学习算法、相似和度量学习算法、稀疏字典学习算法、遗传算法、基于规则的机器学习算法、和/或基于学习分类系统的算法。可以使用商业非货架(COTS)工具(例如,北卡罗来纳州卡里的SAS研究所提供的SAS)来构建本文实施的机器学习过程。
当车载计算设备220检测到移动对象时,车载计算设备220将为被检测到的对象生成一个或多个可能的对象轨迹,并分析可能的对象轨迹,以评估在AV遵循给定的车辆轨迹的情况下,对象和AV之间的碰撞风险。如果风险不超过可接受的阈值,那么车载计算设备220可以使车辆200遵循给定的轨迹。如果风险超过可接受的阈值,则车载计算设备220执行下列操作:(i)确定替代的车辆轨迹并分析如果AV遵循该替代车辆轨迹是否可以避免碰撞;或(ii)使AV执行操作(例如制动、加速或转向)。
现在参考图3,提供了关于计算设备300的说明性架构的图示。图1的计算设备110和/或图2的车辆车载计算设备220与计算设备300相同或相似。因此,对计算设备300的讨论足以理解图1的计算设备110和图2的车辆车载计算设备220。
计算设备300可以包括比图3中所示的组件多或少的组件。然而,所示的组件足以公开实现本文的说明性方案。图3的硬件架构表示被配置为如本文所述操作车辆的代表性计算设备的一种实施方式。这样,图3的计算设备300实施了本文所描述的方法的至少一部分。
计算设备300的部分或全部组件可以被实施为硬件、软件和/或硬件和软件的组合。该硬件包括但不限于一个或多个电子电路。电子电路可以包括但不限于无源组件(例如电阻和电容器)和/或有源组件(例如放大器和/或微处理器)。无源和/或有源组件可适于、被设置成和/或编程用于执行本文所述的一种或多种方法、程序或功能。
如图3所示,计算设备300包括用户接口302、中央处理单元(CPU)306、系统总线310、通过系统总线310连接到计算设备300的其他部分并可访问的存储器312、系统接口360和连接到系统总线310的硬件实体314。用户接口可以包括输入设备和输出设备,这些设备便于用户-软件交互,以控制计算设备300的操作。输入设备包括但不限于物理键盘和/或触摸键盘350。输入设备可以通过有线或无线连接(例如连接)连接到计算设备300。输出设备包括但不限于扬声器352、显示器354、和/或发光二极管356。系统接口360被配置为促进与外部设备(例如接入点等的网络节点)之间的有线或无线通信。
至少一些硬件实体314执行涉及访问和使用存储器312的操作,存储器312可以是随机存取存储器(RAM)、磁盘驱动器、闪存、光盘只读存储器(CD-ROM)和/或其他能够存储指令和数据的硬件设备。硬件实体314可以包括磁盘驱动器单元316,磁盘驱动器单元316中包括计算机可读存储介质318,在计算机可读存储介质318上存储一组或多组指令320(例如,软件代码),指令320被配置为实现本文描述的一种或多种方法、程序或功能。在由计算设备300执行指令期间,指令320还可以完全或至少部分地驻留在存储器312内和/或在CPU 306内。存储器312和CPU 306也可以构成机器可读的介质。这里使用的术语“机器可读介质”是指存储一组或多组指令320的单一介质或多个介质(例如集中式或分布式数据库和/或相关的缓存和服务器)。这里使用的术语“机器可读介质”也指能够存储、编码或携带由计算设备300执行并使计算设备300执行本公开的任何一种或多种方法的一组指令320的任何介质。
现在参考图4,提供了用于对象检测的说明性方法400的流程图。方法400从402开始,然后继续到404,在404中一个或多个图像被摄像机(例如图2中的摄像机262)捕获。该摄像机可以包括安装在捕获图像的AV(例如图1的AV 1021)上的单目摄像机。每个图像包括信息相互叠加的3层(或通道),即红色(R)层、绿色(G)层和蓝色(B)层。此图像也被称为RGB图像。在图6中示出了说明性图像600。
在406中,计算设备从数据存储器(例如图1的数据存储器112和/或图3的存储器312)获取姿态信息和预定义地图网格部分的大小(例如≤200米乘≤200米)。姿态信息可以包括但不限于车辆姿态信息。车辆姿态信息包括以三维地图坐标定义的车辆位置、车辆相对于参考点的角度以及车辆的指向方向。
在408中使用车辆姿态信息和预定义地图网格部分的大小来识别要投影到404中捕获的图像中的路线图的一部分。该路线图可以包括但不限于由数据点限定的表面的2.5D网格,每个数据点都具有x坐标和y坐标。通过下列方式识别路线图的部分:识别路线图上AV的中心点;并选择路线图中包含AV的部分,其中具有预定义地图网格部分大小的形状(例如矩形)的中心设置为AV的中心点。在图5中提供了说明性路线图500的图示。AV的中心用点502表示。路线图的部分504在408中被识别,因为部分504包括地图的片段,该片段包含在矩形中且(i)具有与AV相同的中心点并且(ii)尺寸(例如长度和宽度)等于预定义地图网格部分的大小。本文并不限于图5中的具体示例。
在可选的410中,计算设备选择一种或多种类型的路线图信息用于生成修改图像。路线图信息的类型包括但不限于:地面、地面深度、可驾驶的地理区域、地图点到车道中心的距离、车道方向、十字路口和/或与给定应用相关的任何其他地图信息。路线图信息的类型是根据机器学习的信息来选择的。例如,在第一种情形中,计算设备机器学习地面、地面深度和车道方向的组合提供了最准确的方案,而在第二种情形中,机器学习地面和地图点到车道中心的距离的不同组合提供了最准确的方案。本文并不限于本示例的具体情况。在其他情形中,路线图信息的类型是预定义的。
在412中,从数据存储器(例如图1的数据存储器112和/或图3的存储器312)的路线图部分(在408中识别的)中包含的多个几何点p获得路线图信息。该路线图信息包括但不限于地面信息和可驾驶的地理区域信息。在图6中提供了在412中获得的说明性路线图信息的示意图。从路线图中获得的地面信息显示在图602中的xy坐标系中。地面的每个点都由具有x坐标和y坐标的值来定义。可驾驶的地理区域信息可作为网格中每个点的二进制值(可驾驶或不可驾驶)获得。从路线图中获得的可驾驶的地理区域信息显示绘制在图606中的xy坐标系中。路线图中可驾驶的地理区域的每个点都由具有x坐标和y坐标的值来定义。这种地面信息和可驾驶的地理区域信息是众所周知的。
在414中,由计算设备计算附加地图信息。附加地图信息包括但不限于地面深度信息、地图点与车道中心距离信息、车道方向信息和/或十字路口信息。地面深度信息来源于路线图中包含的信息和与单目摄像机相关的其他信息。因此,地面深度信息来自于存储在数据存储器(例如图1的数据存储器112和/或图3的存储器312)中的信息。此信息包括但不限于地面高度信息、已知的摄像机高度和/或已知的摄像机位置。说明性的地面深度信息显示在图6的图604中。地面深度信息采用欧氏距离算法进行计算。每个欧氏距离值表示摄像机在三维空间中的已知位置与给定的地面点位置(即由来自网格的x坐标和y坐标以及来自地面高度信息的z坐标定义)之间的距离。每个欧氏距离值由一个数字限定,该数字限定了三维空间中两个位置之间的关系,因此被绘制在图604上的xy坐标系中。
由计算设备为地图中的每个几何点位置(即由x坐标和y坐标限定)计算地图点到车道中心的距离值。根据多个中心线中哪个中心线包含与地图位置最近的地图点(以欧氏距离(x,y)表示,忽略垂直距离)来限定与地图位置最近的中心线。C是一组中心线,其中c∈C由一组几何点p组成,p∈c。距离被定义为2-范数(norm)。与地图位置l最近的中心线由下列数学方程(1)定义。
其中,p表示中心线上的一组有序的几何点。图6的图608表示地图点到车道中心的距离值信息。每个地图位置l的最近中心线的值由x坐标和y坐标定义,由此绘制在图608上的xy坐标系中。
为地图中的每个几何点位置l确定车道方向值。例如,为给定的几何点位置l识别出最近的中心线然后,将几何点位置的方向设置成为最近的中心线定义的车道方向。车道方向被定义为具有x分量和y分量的2维向量。示例性车道方向信息显示在图6的图610中。每个车道方向绘制在图610上的xy坐标系中。
为地图中的每个几何点位置l确定十字路口值。例如,为给定的几何点位置l识别出最近的中心线然后确定最近的中心线是否位于包含在地图中的十字路口内。这个确定可以基于与地图关联的查找表,或者基于定义最近的中心线的xyz坐标和地图中定义十字路口的xyz坐标。如果最近的中心线的xyz坐标在十字路口的区域内,则确定给定的几何点位置处于十字路口中。因此,十字路口被分配给给定的几何点位置。每个十字路口都由x分量和y分量定义。在图6的图612中示出了说明性的十字路口信息。每个十字路口绘制在图612上的xy坐标系中。
在416中,将412-414的地图信息投影到给定的坐标系上,以获得附加层(或通道)。通过在每个图(例如图602-612)上定义网格来实现该投影。在图7中示出了说明性的网格700。网格700包括多个图块(或单元)702。网格700的两条线交汇(或相交)的每个点704定义了地图的几何点的位置。每个图块(或单元)都有四个角。每个角处都由一个几何点来定义。每个几何点位置都具有与之相关联的地面高度值。每个几何点位置都分配有由行号和列号定义的标识符。例如,第一个点具有标识符p11,因为它位于第一行和第一列中。第二个点具有标识符p12,因为它位于第一行和第二列中,等等。最后一个点的标识符为pmj,因为它位于第m行和第j列。本文并不限于该示例的具体情况。地面高度值可用于以三维空间中的四边形定义每个图块(或单元)p11……pmj。图8中示出了给定图块(或单元)的说明性四边形800。然后使用透视变换算法(即从xyz坐标系转换为uv坐标系)将四边形投影到摄像机帧或视图中。透视变换算法是众所周知的。透视变换算法通常涉及将平面A中的四个点映射成平面B中的四个点。此映射涉及将x坐标值转换为u坐标值,以及将y坐标值转换为v坐标值。每个投影的四边形的颜色被设置为该多边形的选定点的颜色值,或被设置为该多边形的多个点的颜色值的平均值。然后,由uv坐标定义的多边形以相对于v轴从上到下的方式绘制在摄像机帧上。
在图6中提供了说明性的附加层(或通道)的图示。层614包括绘制在uv坐标系中的地面高度信息。层(或通道)616包括绘制在uv坐标系中的地面深度信息。层(或通道)618包括绘制在uv坐标系中的可驾驶的地理区域信息。层(或通道)620包括绘制在uv坐标系中的地图点到车道中心的距离信息。层(或通道)622包括绘制在uv坐标系中的车道方向信息。层(或通道)624包括绘制在uv坐标系中的十字路口信息。本文并不限于图6中的具体示例。
在图4的418中,通过将路线图信息的附加层叠加到在404中捕获的图像上来生成修改图像。在图9中提供了说明性的修改图像900的图示。在图10中提供了另一说明性的修改图像1000。如图10所示,修改图像10000包括R层(或通道)1002、G层(或通道)1004、B层(或通道)1006、地面高度层(或通道)1008、地面深度层(或通道)1010、可驾驶的地理区域层(或通道)1012、地图点到车道中心的距离层(或通道)1014、车道方向层(或通道)1016和十字路口层(或通道)1018。本文并不限于图10的具体示例。修改图像可以包括比图9-10中所示的路线图信息层(或通道)更多或更少的层(或通道)。
将修改图像输入到计算设备(例如图1的计算设备110、图2的车辆车载计算设备220、和/或图3的计算设备300)的对象检测算法中,如420所示。对象检测算法总体被配置为估计在修改图像中检测到的至少一个对象的位置、方向、空间范围和/或对象分类,如422所示。在一些情况下,422中使用以下机器学习算法之一用于三维对象检测:深度任务算法、3D-RCNN算法、RoI-10D算法、Mono3D++算法、MonoGRNet算法或MonoGRNet V2算法。然后,执行424,在424中方法400结束或执行其他处理(例如返回到402)。
在方法400中生成的位置、方向、空间范围和对象分类可被AV用于对象轨迹预测、车辆轨迹生成和/或避免碰撞。在图11中提供了一个框图,该图用于理解如何根据基于修改图像估计的对象相关信息来实现车辆控制。在图11中执行的全部或部分操作可以通过车辆(例如图1的AV 1021)的车载计算设备和/或远程计算设备(例如图1的计算设备110)来执行。
在框1012中,检测车辆的位置。可以基于从车辆的定位传感器(例如图2中的定位传感器260)输出的传感器数据来进行该检测。该传感器数据可以包括但不限于GPS数据。然后将表示车辆检测位置的信息1120传递到框1106。
在框1104中,检测车辆附近的对象。可以基于从车辆的摄像机(例如图2的摄像机262)输出的传感器数据进行该检测。上文结合图4-10讨论了实现对象检测的方式。关于被检测对象的信息1122被传递到框1106。该信息包括但不限于对象的位置、对象的方向、对象的空间范围、对象的初始预测轨迹、对象的速度和/或对象的分类。对象的初始预测轨迹可以包括但不限于指向对象前进方向的线性路径。
在框1106中,使用来自框1102和1104的信息生成车辆轨迹。确定车辆轨迹的技术在本领域是众所周知的。任何已知的或将来可知的确定车辆轨迹的技术都可以在此不受限制地使用。例如,在一些情况下,该技术包括当对象位于AV前面、对象的方向与AV移动的方向一致并且对象长度大于阈值时,确定AV将经过对象的轨迹。本文并不限于这些情况的具体示例。可以基于位置信息1120、对象检测信息1122和/或路线图(例如预先存储在车辆的数据存储中的图2的路线图270)来确定车辆轨迹1124。车辆轨迹1124可以表示没有突然变化的平滑路径,这种突然变化会给乘客造成不适。例如,车辆轨迹由沿着道路的给定车道的行驶路径定义,其中预测对象不会在给定的时间内在该给定车道内行进。然后将车辆轨迹1124提供给框1108。
在框1108中,基于车辆轨迹1124生成转向角度和速度命令。转向角度和速度命令被提供给框1110以用于车辆动力学控制。
尽管已参考一种或多种实施方式说明和描述了本文,但本领域的其他技术人员在阅读和理解本说明书和附图后将想到等同的变更和修改方案。此外,虽然本文的特定特征仅参考几种实施方式中的一种来公开,但是这样的特征可以与其他实施方式中的一个或多个其他特征组合,这对于任何给定或特定的应用是期望的和有利的。因此,本文的广度和范围不应受到上述任何实施例的限制。相反,本文的范围应根据所附权利要求及其等同范围来定义。

Claims (20)

1.一种对象检测方法,包括:
利用计算设备获得包括相互叠加的多个颜色层的图像;
使用包含在路线图中的信息生成至少一个第一附加层,所述至少一个第一附加层包括下列类型的信息之一:地面高度信息、地面深度信息、可驾驶的地理区域信息、地图点到车道中心的距离信息、车道方向信息和十字路口信息;
通过将所述至少一个第一附加层叠加到所述颜色层上来生成修改图像;以及
利用所述计算设备基于使用所述修改图像进行的对象检测来控制车辆的操作。
2.根据权利要求1所述的方法,进一步包括获取所述车辆的姿态信息和预定义地图网格部分的大小。
3.根据权利要求2所述的方法,进一步包括使用所述姿态信息和所述预定义地图网格部分的大小来识别路线图的一部分。
4.根据权利要求3所述的方法,其中所述路线图的所述部分包括所述路线图的片段,所述片段:(i)被包含在几何区域中,所述几何区域的中心点与路线图中的所述车辆的中心点相同,以及(ii)尺寸等于由所述预定义地图网格部分的大小定义的尺寸。
5.根据权利要求3所述的方法,进一步包括:
获取所述路线图的所述部分中的多个几何点位置的基于路线图的值;以及
使用所述基于路线图的值来生成至少一个所述第一附加层。
6.根据权利要求5所述的方法,其中至少一个所述第一附加层由下列方式生成:
根据所述基于路线图的值在第一坐标系中定义多个图块;
使用所述路线图的地面高度值为每个所述图块定义多边形,所述路线图的地面高度值与所述基于路线图的值的各个值相关;以及
将多个所述图块从所述第一坐标系转换到第二坐标系。
7.根据权利要求5所述的方法,其中所述基于路线图的值包括:定义所述路线图中指定地面的值;定义包含在所述路线图中的可驾驶的地理区域的值;基于已知摄像机位置和包含在所述路线图中的地面高度信息计算的地面深度值;地图点到车道中心的距离值;车道方向值;或十字路口值。
8.根据权利要求1所述的方法,进一步包括:
使用包含在所述路线图中的信息生成至少一个第二附加层,所述至少一个第二附加层包含与所述至少一个第一附加层不同的信息;
其中除了所述至少一个第一附加层之外,所述至少一个第二附加层叠加在所述颜色层上以生成所述修改图像。
9.根据权利要求1所述的方法,其中所述修改图像除了包括所述多个颜色层外,还包括至少两个下列层的组合:地面高度层、地面深度层、可驾驶的地理区域层、地图点到车道中心的距离层、车道方向层和十字路口层。
10.根据权利要求1所述的方法,进一步包括估计在所述修改图像中检测到的至少一个对象的位置、方向、空间范围和分类中的至少一个。
11.一种系统,包括:
处理器;
包括编程指令的非暂时性计算机可读介质,所述编程指令被配置为使所述处理器实施对象检测方法,其中所述编程指令包括下列指令:
获得包括相互叠加的多个颜色层的图像;
使用包含在路线图中的信息生成至少一个第一附加层,所述附加层包括下列类型的信息之一:地面高度信息、地面深度信息、可驾驶的地理区域信息、地图点到车道中心的距离信息、车道方向信息和十字路口信息;
通过将所述至少一个第一附加层叠加到所述颜色层上来生成修改图像;以及
基于使用所述修改图像进行的对象检测来控制车辆的操作。
12.根据权利要求11所述的系统,其中所述编程指令进一步包括获得车辆的姿态信息和预定义地图网格部分的大小的指令。
13.根据权利要求12所述的系统,其中所述编程指令进一步包括使用所述姿态信息和所述预定义地图网格部分的大小来识别路线图的一部分的指令。
14.根据权利要求13所述的系统,其中所述路线图的所述部分包括所述路线图的片段,所述片段:(i)被包含在几何区域中,所述几何区域的中心点与所述路线图中的所述车辆的中心点相同,以及(ii)尺寸等于由所述预定义地图网格部分的大小定义的尺寸。
15.根据权利要求13所述的系统,其中所述编程指令进一步包括下列指令:
获取所述路线图的所述部分中的多个几何点位置的基于路线图的值;以及
使用所述基于路线图的值来生成至少一个所述第一附加层。
16.根据权利要求15所述的系统,其中至少一个所述第一附加层由下列方式生成:
根据所述基于路线图的值在第一坐标系中定义多个图块;
使用所述路线图的地面高度值为每个所述图块定义多边形,所述路线图的地面高度值与所述基于路线图的值的各个值相关;以及
将多个所述图块从所述第一坐标系转换到第二坐标系。
17.根据权利要求15所述的系统,其中所述基于路线图的值包括:定义所述路线图中指定地面的值;定义包含在所述路线图中的可驾驶的地理区域的值;基于已知摄像机位置和包含在所述路线图中的地面高度信息计算的地面深度值;地图点到车道中心的距离值;车道方向值;或十字路口值。
18.根据权利要求11所述的系统,其中所述编程指令进一步包括下列指令:
使用包含在所述路线图中的信息生成至少一个第二附加层,所述至少一个第二附加层包含与所述至少一个第一附加层不同的信息;
其中除了所述至少一个第一附加层之外,所述至少一个第二附加层叠加在所述颜色层上以生成所述修改图像。
19.根据权利要求11所述的系统,其中所述修改图像除了包括所述多个颜色层外,还包括至少两个下列层的组合:地面高度层、地面深度层、可驾驶的地理区域层、地图点到车道中心的距离层、车道方向层和十字路口层。
20.一种存储有指令的非暂时性计算机可读介质,所述指令配置为在由至少一个计算设备执行时使得所述至少一个计算设备执行以下操作:
利用计算设备获得包括相互叠加的多个颜色层的图像;
使用包含在路线图中的信息生成至少一个第一附加层,所述至少一个第一附加层包括下列类型的信息之一:地面高度信息、地面深度信息、可驾驶的地理区域信息、地图点到车道中心的距离信息、车道方向信息和十字路口信息;
通过将所述至少一个第一附加层叠加到所述颜色层上来生成修改图像;以及
利用所述计算设备基于使用所述修改图像进行的对象检测来控制车辆的操作。
CN202180079456.XA 2020-11-25 2021-11-03 基于单目的对象检测的系统和方法 Pending CN116529561A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/105,199 US11527028B2 (en) 2020-11-25 2020-11-25 Systems and methods for monocular based object detection
US17/105,199 2020-11-25
PCT/US2021/057905 WO2022115215A1 (en) 2020-11-25 2021-11-03 Systems and methods for monocular based object detection

Publications (1)

Publication Number Publication Date
CN116529561A true CN116529561A (zh) 2023-08-01

Family

ID=81658461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180079456.XA Pending CN116529561A (zh) 2020-11-25 2021-11-03 基于单目的对象检测的系统和方法

Country Status (4)

Country Link
US (2) US11527028B2 (zh)
CN (1) CN116529561A (zh)
DE (1) DE112021006111T5 (zh)
WO (1) WO2022115215A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11473917B2 (en) 2020-07-14 2022-10-18 Argo AI, LLC System for augmenting autonomous vehicle perception using smart nodes
US11403943B2 (en) * 2020-07-14 2022-08-02 Argo AI, LLC Method and system for vehicle navigation using information from smart node
US20220197983A1 (en) * 2020-12-17 2022-06-23 Asynchronous Art, Inc, Systems and methods for creating and managing programmable art
US20230089897A1 (en) * 2021-09-23 2023-03-23 Motional Ad Llc Spatially and temporally consistent ground modelling with information fusion

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002098538A (ja) * 2000-09-27 2002-04-05 Alpine Electronics Inc ナビゲーション装置および擬似三次元地図情報表示方法
US9927251B2 (en) * 2009-02-24 2018-03-27 Alpine Electronics, Inc. Method and apparatus for detecting and correcting freeway-ramp-freeway situation in calculated route
EP3500822A4 (en) * 2016-08-18 2019-08-28 SZ DJI Technology Co., Ltd. SYSTEMS AND METHODS FOR ADVANCED STEREOSCOPIC PRESENTATION
US10410328B1 (en) * 2016-08-29 2019-09-10 Perceptin Shenzhen Limited Visual-inertial positional awareness for autonomous and non-autonomous device
US10488215B1 (en) 2018-10-26 2019-11-26 Phiar Technologies, Inc. Augmented reality interface for navigation assistance
US20210256849A1 (en) * 2020-02-19 2021-08-19 GM Global Technology Operations LLC Process and system for local traffic approximation through analysis of cloud data
IN202027039221A (zh) 2020-09-10 2020-10-02 Sony Corp

Also Published As

Publication number Publication date
US20230063845A1 (en) 2023-03-02
DE112021006111T5 (de) 2023-12-14
US20220165010A1 (en) 2022-05-26
WO2022115215A1 (en) 2022-06-02
US11527028B2 (en) 2022-12-13

Similar Documents

Publication Publication Date Title
US10809081B1 (en) User interface and augmented reality for identifying vehicles and persons
US10837788B1 (en) Techniques for identifying vehicles and persons
US20200307563A1 (en) Prediction based on attributes
US20200103236A1 (en) Modifying Map Elements Associated with Map Data
WO2022020028A1 (en) Drivable surface identification techniques
CN116529561A (zh) 基于单目的对象检测的系统和方法
US11699237B2 (en) Bounding box embedding for object identifying
CN114072841A (zh) 根据图像使深度精准化
US11055859B2 (en) Eccentricity maps
US11543263B1 (en) Map distortion determination
US11124154B1 (en) Techniques for authorizing vehicles
US20230056589A1 (en) Systems and methods for generating multilevel occupancy and occlusion grids for controlling navigation of vehicles
US20240174239A1 (en) Route-relative trajectory generation and optimization computations incorporating vehicle sideslip
CN118354949A (zh) 基于中心的检测和跟踪
CN116867675A (zh) 车辆运动规划系统与方法
WO2022165498A1 (en) Methods and system for generating a lane-level map for an area of interest for navigation of an autonomous vehicle
CN116529141A (zh) 自主车辆曲线坐标系下的运动规划
EP4148599A1 (en) Systems and methods for providing and using confidence estimations for semantic labeling
US11663807B2 (en) Systems and methods for image based perception
US20220171404A1 (en) Techniques for authorizing vehicle control systems
CN116724248A (zh) 用于产生非模态长方体的系统和方法
CN116583884A (zh) 利用立体视觉信息进行对象检测的系统和方法
US11846514B1 (en) User interface and augmented reality for representing vehicles and persons
US11966452B2 (en) Systems and methods for image based perception
EP4131174A1 (en) Systems and methods for image based perception

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination