CN116052124A - 多相机生成局部地图模板理解加强目标检测方法及系统 - Google Patents
多相机生成局部地图模板理解加强目标检测方法及系统 Download PDFInfo
- Publication number
- CN116052124A CN116052124A CN202310051583.XA CN202310051583A CN116052124A CN 116052124 A CN116052124 A CN 116052124A CN 202310051583 A CN202310051583 A CN 202310051583A CN 116052124 A CN116052124 A CN 116052124A
- Authority
- CN
- China
- Prior art keywords
- local map
- vehicle
- map
- static
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种多相机生成局部地图模板理解加强目标检测方法及系统,其包括:以同一帧多个车载相机的图像作为信息源,构建自车感知范围内的生成式局部地图;基于生成式局部地图,通过静态环境模板生成式地图与动态目标检测的交互式学习与交叉注意力增强,由目标检测障碍物信息分辨静态要素是否被遮挡,补全被遮挡区域,通过静态要素约束动态障碍物的位置与状态,完善目标检测;利用生成式局部地图约束目标检测后处理,输出静态要素的语义图层和动态要素的三维包围框,由目标检测增强局部地图生成过程的完整性。本发明使用交叉注意力机制处理动态目标在静态环境模板的约束和静态模板被动态目标的遮挡,联合增强局部地图和目标检测的性能。
Description
技术领域
本发明涉及一种自动驾驶领域,特别是关于一种多相机生成局部地图模板理解加强目标检测方法及系统。
背景技术
自动驾驶中纯视觉的多相机环境感知解决方案是一个被广泛研究的研究领域,环境感知包括动态目标的感知和静态道路要素的感知。环视相机的目标检测一般有三种方法,第一种是单目相机的检测方法,包括直接从特征金字塔回归三维包围框和单目深度预训练后的伪激光雷达方法,对于多相机的配置使用全局非极大值抑制,第二种是原生的多目相机检测方法,包括使用多个伪激光雷达的点云融合方法和变换器的隐式集合预测方法,上述目标检测方法均没有考虑物体在环境中的约束,例如正常运行的车辆一般朝向与道路的朝向平行,行人一般走在人行道,车辆一般运行在两个车道之间等位置约束,这些约束一般由高精度地图实现。
基于高精度地图形成“地图传感器”加强环境感知的实践被广泛研究,2018年Uber先进技术团队尝试将地图中的几何和语义先验信息表达在鸟瞰图中,并作为一个数据通道,与点云数据一并进入深度学习网络中。融合地图几何和语义先验信息后,目标检测及定位的精度有明显提升。2019年Manato Hirabayashi等人通过高精地图的特征与相机特征的互相校验提升了交通信号灯识别效果,2019年Ming-Fang Chang等人提供了丰富地图的感知数据集Argoverse并指出地图对于多目标跟踪任务的三点增益:可行驶区域识别,地面去除和道路朝向先验。这些方法为目标感知提供了静态的环境模板,但是对高精度定位的要求非常严苛,不准确的定位会使得地图传感器的输入完全失准失效,而厘米级定位设备售价高昂,另外当前阶段高精度地图的覆盖范围有限,且涉及地理信息安全,目前无法大规模覆盖主流结构化城市道路。
局部地图生成是一项新型的使用车辆的多目环视相机针对地图要素感知的方法,主要的人工智能技术是语义分割,使用人工采集与标注的语义高精度地图作为标签标注,给神经网络输入同一帧多张图片,输出鸟瞰图下的多种语义类别分割,最后通过同一类别栅格聚类和边缘锐化的操作,形成各语义层的边界,即是道路边界,车道边界的矢量地图要素信息。仅在车辆训练生成地图的网络时需要准确的定位和正确的地图,此外该方法可以与定位解耦,于动态目标感知共用同一组传感器,但是目前尚未有动态物体与静态要素紧耦合的约束方法,同时交通场景中不可避免的动态物体会遮挡静态地图要素,需要设计针对动态物体遮挡的局部地图补全。
发明内容
针对上述问题,本发明的目的是提供一种多相机生成局部地图模板理解加强目标检测方法及系统,其能够使用交叉注意力机制处理动态目标在静态环境模板的约束和静态模板被动态目标的遮挡,联合增强局部地图和目标检测的性能。
为实现上述目的,第一方面,本发明采取的技术方案为:一种多相机生成局部地图模板理解加强目标检测方法,其特征在于,包括:
以同一帧多个车载相机的图像作为信息源,构建自车感知范围内的生成式局部地图;
基于生成式局部地图,通过静态环境模板生成式地图与动态目标检测的交互式学习与交叉注意力增强,由目标检测障碍物信息分辨静态要素是否被遮挡,补全被遮挡区域,通过静态要素约束动态障碍物的位置与状态,完善目标检测;
利用生成式局部地图约束目标检测后处理,输出静态要素的语义图层和动态要素的三维包围框。
进一步,所述生成式局部地图的构建,包括语义面图层与分隔线图层,实现对静态环境模板的理解,包括:
在鸟瞰图下进行语义分割,得到密集的语义栅格;
单目视觉时,对于面状地图要素,把位置相近的,语义属性为同一类的光栅聚类成一类,采用多边形框定其外包络面;对于线状地图要素,采用折线段拟合语义属性的一类;
多个相机时,进行准确的内外参标定,对于观测边缘进行矢量数据关联,然后进行平滑化后得到全景360°的矢量地图。
进一步,所述语义分割,包括:
在图像平面上应用语义分割骨干网络,然后进行二维到三维的视角转换,使图像形成一个光视椎体;
通过相机的内参和外参转移到三维大地平面下,在鸟瞰图中进行堆叠卷积网络,回归最后的语义分割。
进一步,所述交互式学习与交叉注意力的实现,包括:
设置交叉注意力机制使得目标检测的框架能够注意到目标所在静态地理环境的信息,在预测头实现变换器结构;
变换器结构的输出是物体级查询,查询的维度是隐层层数和框编码长度,在变换器结构中通过改变查询,键,值的交互矩阵形成全局自注意力。
进一步,所述变换器结构为基于变换器的双分支转换器,包括:
将图像块中的静态要素和动态模板的查询分别输入两个转换器,用两个独立分支处理不同的图像块;
处理后的图像块进入多尺度变换器的编码器,并得到一致性解码,解码后得到最后的目标信息。
进一步,所述补全被遮挡区域,包括:
把前序多帧信息的特征图进行坐标位置补偿后融合到当前帧,然后把目标检测结果所在的俯视图区域视为潜在遮挡区域,定位该障碍物是否分布在某块状区域内部或是块状区域的边界线上,若分布在区域内部则不需要补全处理,若分布在区域边界上,需要倒回前序信息特征图与前序目标检测结果,选定其中不受动态障碍物遮挡的位置加以时序推断与本帧结果融合后获得增强的静态局部地图。
进一步,所述利用生成式局部地图约束目标检测后处理,包括:查询目标所在位置,并判断目标是否为车辆;若为车辆,则在图像平面中车辆在车道内行驶,没有倾轧两边车道分割线,通过该生成式地图约束车辆的位置;修正车辆中心点的位置使得车辆在鸟瞰图的多边形均不与矢量车道线有交叉位置,修正车辆的朝向信息与相邻车道线平齐,并判断车辆的运行状态是否正常,纠正车辆位置及朝向;若不是车辆,则提取人行道分割线,根据该地理区域信息辅助骑车人与行人的判断,位置在车道边缘的分类为骑车人,在人行道的分类为行人。
第二方面,本发明采取的技术方案为:一种多相机生成局部地图模板理解加强目标检测的系统,其包括:第一处理模块,以同一帧多个车载相机的图像作为信息源,构建自车感知范围内的生成式局部地图;第二处理模块,基于生成式局部地图,通过静态环境模板生成式地图与动态目标检测的交互式学习与交叉注意力增强,由目标检测障碍物信息分辨静态要素是否被遮挡,补全被遮挡区域,通过静态要素约束动态障碍物的位置与状态,完善目标检测;输出模块,利用生成式局部地图约束目标检测后处理,输出静态要素的语义图层和动态要素的三维包围框。
第三方面,本发明采取的技术方案为:一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行上述方法中的任一方法。
第四方面,本发明采取的技术方案为:一种计算设备,其包括:一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述方法中的任一方法的指令。
本发明由于采取以上技术方案,其具有以下优点:
1、本发明可以仅使用车载的环视相机同时实现静态地图要素和动态物体的包围框,实现两个任务的多任务学习。
2、本发明能够使用交叉注意力机制处理动态目标在静态环境模板的约束和静态模板被动态目标的遮挡,联合增强局部地图和目标检测的性能。
3、本发明可以通过基于规则的后处理方法获得解释性更强的障碍物处于环境中合适状态的推理。
附图说明
图1是本发明实施例中多相机生成局部地图模板理解加强目标检测方法流程图;
图2是本发明实施例中生成式局部地图构建中语义分割流程图;
图3是本发明实施例中三维目标检测流程图;
图4是本发明实施例中交叉注意力模块实现的流程图;
图5是本发明实施例中目标检测引入地图信息后处理流程图;
图6是本发明实施例中地图补全被障碍物遮挡区域流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
为了解决目前尚未有动态物体与静态要素紧耦合的约束方法,同时交通场景中不可避免的动态物体会遮挡静态地图要素的问题,本发明提供一种多相机生成局部地图模板理解加强目标检测方法及系统,利用计算机视觉、通过环视多相机生成局部地图,理解局部的静态环境模板以加强多相机目标检测。
本发明使用环视多目相机,以同一帧多个车载相机的图像作为信息源,把鸟瞰图语义分割网络和目标检测网络共享骨干网络和脖颈网络,主要在多个预测头进行鸟瞰图语义分割与目标检测的多任务学习,然后用交叉注意力机制耦合处理动态目标位于静态环境模板的约束与静态模板补全动态目标造成的阻挡,最后用道路朝向的预测头约束车辆的朝向信息预测,输出静态要素的语义图层和动态要素的三维包围框。本发明能够使用交叉注意力机制处理动态目标在静态环境模板的约束和静态模板被动态目标的遮挡,联合增强局部地图和目标检测的性能。
在本发明的一个实施例中,提供一种多相机生成局部地图模板理解加强目标检测方法。本实施例中,如图1所示,该方法包括以下步骤:
1)以同一帧多个车载相机的图像作为信息源,构建自车感知范围内的生成式局部地图,包括语义面图层与分隔线图层,实现对静态环境模板的理解。
2)基于生成式局部地图,通过静态环境模板生成式地图与动态目标检测的交互式学习与交叉注意力增强,由目标检测障碍物信息分辨静态要素是否被遮挡,补全被遮挡区域,通过静态要素约束动态障碍物的位置与状态,完善目标检测;
3)利用生成式局部地图约束目标检测后处理,输出静态要素的语义图层和动态要素的三维包围框,由目标检测增强局部地图生成过程的完整性。
上述步骤1)中,生成式局部地图的构建,包括语义面图层与分隔线图层,实现对静态环境模板的理解,具体包括以下步骤:
1.1)如图2所示,在鸟瞰图下进行语义分割,得到密集的语义栅格;
具体的,静态地图的语义分割是一个在鸟瞰图下执行语义分割的任务,主要分割的对象是面状道路信息,如人行道,车行道,人行横道等面域的位置;与线状信息,如人行道与车道的分界线即护路方砖,车道分界线(虚线,实线,双黄线),斑马线等。
其中,语义分割的方法为:
在图像平面上应用语义分割骨干网络,如DeeplabV3+或EfficientNet;然后进行二维到三维的视角转换,通过估计图像中像素点的深度,使图像形成一个光视椎体;
通过相机的内参和外参转移到三维大地平面下,在鸟瞰图中进行简单的堆叠卷积网络,回归最后的语义分割。
其中,深度估计网络可以用PackNet等网络实现。
1.2)单目视觉时,对于面状地图要素,把位置相近的,语义属性为同一类的光栅聚类成一类,采用多边形框定其外包络面;对于线状地图要素,采用折线段拟合语义属性的一类;
1.3)多个相机时,矢量地图要素的提取在不同图像平面中有重合部分,需要做一个拼接,避免发生矢量要素拼合后边缘观测的区域实现错误。首先进行准确的内外参标定,对于观测边缘进行矢量数据关联,然后进行平滑化后得到全景360°的矢量地图。
在本实施例中,语义分割的结果是密集的语义栅格,需要后处理才能得到最后的矢量地图,采用基于密度的噪声应用空间聚类(DBSCAN)。
上述步骤2)中,如图3所示,基于环视相机的目标检测方法为:由于多个相机在360°中环视安装,相机的视角重叠区域不大,所以环视相机的目标检测可以由单目相机的目标检测实现,然后通过全局非极大值抑制得到全景的目标检测结果。单目相机的目标检测可以使用FCOS3D等直接从二维观测回归三维框的框架,也可以使用DD3D等先进行深度估计再转为伪激光雷达点云的三维目标检测框架,最终输出目标的三维包围框,框的属性是(语义类别,长,宽,高,中心点坐标x,中心点坐标y,中心点坐标z,偏航角)。
上述步骤2)中,生成式地图与动态目标检测的多任务学习,当生成式地图的语义分割模块与动态目标检测共享同一个主干网络与脖颈网络,使用不同的预测头时,可以实现多任务学习,主要方法是各预测头的损失函数加权后得到最终的损失函数进行回传,权重的设置也是学习的参数之一,以便于动态调整多个任务损失函数的优化平衡。静态要素的损失函数由每个最小单元的分类损失组成,由交叉熵损失函数表征。动态要素的损失函数由分类交叉熵损失,包围框的一范数损失和交并比损失联合确定。两个子任务的损失函数由动态权重控制并联合优化骨干网络的参数。
本实施例中,交互式学习与交叉注意力的实现,如图4所示,具体为:
设置深度神经网络中的交叉注意力机制使得目标检测的框架能够注意到目标所在静态地理环境的信息,在预测头实现变换器结构;变换器结构的输出是物体级查询(object query),查询的维度是隐层层数和框编码长度,在变换器结构中通过改变查询,键,值的交互矩阵形成全局自注意力。
其中,变换器结构为基于变换器的双分支转换器,具体为:
2.1)将图像块(patch)中的静态要素和动态模板的查询分别输入两个转换器,用两个独立分支处理不同的图像块;
2.2)处理后的图像块输入多尺度变换器的编码器,并得到一致性解码,解码后得到最后的目标信息。交叉注意力机制使得表征动态物体的图像块可以注意到与相邻的表征静态环境特征的图像块的交叉注意力关系,能够隐式目标在环境中的相对位姿约束与关系。
上述步骤2)中,在局部地图更新时动态障碍物会遮挡对于静态地图要素的连续性变差,在部分区域有断层。如图6所示,例如车辆压线会导致车道线中间断开,补全被遮挡区域的方法为:把前序多帧信息的特征图进行坐标位置补偿后融合到当前帧,然后把目标检测结果所在的俯视图区域视为潜在遮挡区域,定位该障碍物是否分布在某块状区域内部或是块状区域的边界线上,若分布在区域内部则不需要补全处理,若分布在区域边界上,需要倒回前序信息特征图与前序目标检测结果,选定其中不受动态障碍物遮挡的位置加以时序推断与本帧结果融合后获得增强的静态局部地图。
上述步骤3)中,基于驾驶员驾驶时会同时关注结构化道路的分布情况和动态交通参与者的位姿情况,同时对目标的运行状态进行初步的判断。同理,本发明使得多相机的环境感知系统可以同时注意到静态要素与动态要素的耦合。由于相机没有纹理深度信息,所以在目标的深度和朝向的估计上常常出现错误,特别的是自车本身与其他车辆的朝向不相同时,会出现大量的误判。在结构化道路情况下,针对每个被感知到的车辆,分析其环绕的静态环境,车辆左右的车道分割线,以及车辆所在的车道区域。
利用生成式局部地图约束目标检测后处理,如图5所示,对于车辆运行的典型场景,包括以下步骤:
3.1)查询目标所在位置,并判断目标是否为车辆;
3.2)若为车辆,则在图像平面中车辆在车道内行驶,没有倾轧两边车道分割线,即两边车道线连续无遮挡,通过该生成式地图约束车辆的位置;
3.3)修正车辆中心点的位置使得车辆在鸟瞰图的多边形均不与矢量车道线有交叉位置,修正车辆的朝向信息与相邻车道线平齐,并判断车辆的运行状态是否正常,纠正车辆位置及朝向;
其中,在修正后处理时需要判断车辆的运行状态是否正常,主要由检测置信度来决定,由于视觉检测在近处(三十米内)的检测精度较高,检测置信度高,如果发生车辆朝向与车道严重不符合时可以抛出此异常情况,如道路中车辆发生车祸等异常停留情况,可以标识出此异常并提醒驾驶员进行人工接管处理。
3.4)若不是车辆,则提取人行道分割线,根据该地理区域信息辅助骑车人与行人的判断,位置在车道边缘的分类为骑车人,在人行道的分类为行人;
具体的,由于在目标检测中,骑车人与行人在分类中由于外观的相似性常会使检测器混淆。由于骑车人在极少情况下可能在人行道骑车,车道信息对于骑车人的预测的位置约束较弱,主要为根据车道与人行道的分界线辨别行人与骑车人的分类误判,对于检测中分类置信度不高的目标(即网络很难通过特征分辨是否为行人或骑车人的情况),本实施例通过对于该地理区域信息辅助骑车人与行人的判断。
在本发明的一个实施例中,提供一种多相机生成局部地图模板理解加强目标检测的系统,其包括:
第一处理模块,以同一帧多个车载相机的图像作为信息源,构建自车感知范围内的生成式局部地图;
第二处理模块,基于生成式局部地图,通过静态环境模板生成式地图与动态目标检测的交互式学习与交叉注意力增强,由目标检测障碍物信息分辨静态要素是否被遮挡,补全被遮挡区域,通过静态要素约束动态障碍物的位置与状态,完善目标检测;
输出模块,利用生成式局部地图约束目标检测后处理,输出静态要素的语义图层和动态要素的三维包围框。
上述第一处理模块中,生成式局部地图的构建,包括语义面图层与分隔线图层,实现对静态环境模板的理解,包括:
在鸟瞰图下进行语义分割,得到密集的语义栅格;其中,语义分割,具体为:在图像平面上应用语义分割骨干网络,然后进行二维到三维的视角转换,使图像形成一个光视椎体;通过相机的内参和外参转移到三维大地平面下,在鸟瞰图中进行堆叠卷积网络,回归最后的语义分割。
单目视觉时,对于面状地图要素,把位置相近的,语义属性为同一类的光栅聚类成一类,采用多边形框定其外包络面;对于线状地图要素,采用折线段拟合语义属性的一类;
多个相机时,进行准确的内外参标定,对于观测边缘进行矢量数据关联,然后进行平滑化后得到全景360°的矢量地图。
上述第二处理模块中,交互式学习与交叉注意力的实现,具体为:
设置交叉注意力机制使得目标检测的框架能够注意到目标所在静态地理环境的信息,在预测头实现变换器结构;
变换器结构的输出是物体级查询,查询的维度是隐层层数和框编码长度,在变换器结构中通过改变查询,键,值的交互矩阵形成全局自注意力。
其中,变换器结构为基于变换器的双分支转换器,具体为:将图像块中的静态要素和动态模板的查询分别输入两个转换器,用两个独立分支处理不同的图像块;处理后的图像块进入多尺度变换器的编码器,并得到一致性解码,解码后得到最后的目标信息。
上述第二处理模块中,补全被遮挡区域的方法为:把前序多帧信息的特征图进行坐标位置补偿后融合到当前帧,然后把目标检测结果所在的俯视图区域视为潜在遮挡区域,定位该障碍物是否分布在某块状区域内部或是块状区域的边界线上,若分布在区域内部则不需要补全处理,若分布在区域边界上,需要倒回前序信息特征图与前序目标检测结果,选定其中不受动态障碍物遮挡的位置加以时序推断与本帧结果融合后获得增强的静态局部地图。
上述输出模块中,利用生成式局部地图约束目标检测后处理,包括:
查询目标所在位置,并判断目标是否为车辆;
若为车辆,则在图像平面中车辆在车道内行驶,没有倾轧两边车道分割线,通过该生成式地图约束车辆的位置;
修正车辆中心点的位置使得车辆在鸟瞰图的多边形均不与矢量车道线有交叉位置,修正车辆的朝向信息与相邻车道线平齐,并判断车辆的运行状态是否正常,纠正车辆位置及朝向;
若不是车辆,则提取人行道分割线,根据该地理区域信息辅助骑车人与行人的判断,位置在车道边缘的分类为骑车人,在人行道的分类为行人。
本实施例提供的系统是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
在本发明一实施例中提供的计算设备,该计算设备可以是终端,其可以包括:处理器(processor)、通信接口(Communications Interface)、存储器(memory)、显示屏和输入装置。其中,处理器、通信接口、存储器通过通信总线完成相互间的通信。该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质、内存储器,该非易失性存储介质存储有操作系统和计算机程序,该计算机程序被处理器执行时以实现一种多相机生成局部地图模板理解加强目标检测方法;该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、管理商网络、NFC(近场通信)或其他技术实现。该显示屏可以是液晶显示屏或者电子墨水显示屏,该输入装置可以是显示屏上覆盖的触摸层,也可以是计算设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。处理器可以调用存储器中的逻辑指令。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的一个实施例中,提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。
在本发明的一个实施例中,提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储服务器指令,该计算机指令使计算机执行上述各实施例提供的方法。
上述实施例提供的一种计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种多相机生成局部地图模板理解加强目标检测方法,其特征在于,包括:
以同一帧多个车载相机的图像作为信息源,构建自车感知范围内的生成式局部地图;
基于生成式局部地图,通过静态环境模板生成式地图与动态目标检测的交互式学习与交叉注意力增强,由目标检测障碍物信息分辨静态要素是否被遮挡,补全被遮挡区域,通过静态要素约束动态障碍物的位置与状态,完善目标检测;
利用生成式局部地图约束目标检测后处理,输出静态要素的语义图层和动态要素的三维包围框。
2.如权利要求1所述多相机生成局部地图模板理解加强目标检测方法,其特征在于,所述生成式局部地图的构建,包括语义面图层与分隔线图层,实现对静态环境模板的理解,包括:
在鸟瞰图下进行语义分割,得到密集的语义栅格;
单目视觉时,对于面状地图要素,把位置相近的,语义属性为同一类的光栅聚类成一类,采用多边形框定其外包络面;对于线状地图要素,采用折线段拟合语义属性的一类;
多个相机时,进行准确的内外参标定,对于观测边缘进行矢量数据关联,然后进行平滑化后得到全景360°的矢量地图。
3.如权利要求2所述多相机生成局部地图模板理解加强目标检测方法,其特征在于,所述语义分割,包括:
在图像平面上应用语义分割骨干网络,然后进行二维到三维的视角转换,使图像形成一个光视椎体;
通过相机的内参和外参转移到三维大地平面下,在鸟瞰图中进行堆叠卷积网络,回归最后的语义分割。
4.如权利要求1所述多相机生成局部地图模板理解加强目标检测方法,其特征在于,所述交互式学习与交叉注意力的实现,包括:
设置交叉注意力机制使得目标检测的框架能够注意到目标所在静态地理环境的信息,在预测头实现变换器结构;
变换器结构的输出是物体级查询,查询的维度是隐层层数和框编码长度,在变换器结构中通过改变查询,键,值的交互矩阵形成全局自注意力。
5.如权利要求4所述多相机生成局部地图模板理解加强目标检测方法,其特征在于,所述变换器结构为基于变换器的双分支转换器,包括:
将图像块中的静态要素和动态模板的查询分别输入两个转换器,用两个独立分支处理不同的图像块;
处理后的图像块进入多尺度变换器的编码器,并得到一致性解码,解码后得到最后的目标信息。
6.如权利要求1所述多相机生成局部地图模板理解加强目标检测方法,其特征在于,所述补全被遮挡区域,包括:
把前序多帧信息的特征图进行坐标位置补偿后融合到当前帧,然后把目标检测结果所在的俯视图区域视为潜在遮挡区域,定位该障碍物是否分布在某块状区域内部或是块状区域的边界线上,若分布在区域内部则不需要补全处理,若分布在区域边界上,需要倒回前序信息特征图与前序目标检测结果,选定其中不受动态障碍物遮挡的位置加以时序推断与本帧结果融合后获得增强的静态局部地图。
7.如权利要求1所述多相机生成局部地图模板理解加强目标检测方法,其特征在于,所述利用生成式局部地图约束目标检测后处理,包括:
查询目标所在位置,并判断目标是否为车辆;
若为车辆,则在图像平面中车辆在车道内行驶,没有倾轧两边车道分割线,通过该生成式地图约束车辆的位置;
修正车辆中心点的位置使得车辆在鸟瞰图的多边形均不与矢量车道线有交叉位置,修正车辆的朝向信息与相邻车道线平齐,并判断车辆的运行状态是否正常,纠正车辆位置及朝向;
若不是车辆,则提取人行道分割线,根据该地理区域信息辅助骑车人与行人的判断,位置在车道边缘的分类为骑车人,在人行道的分类为行人。
8.一种多相机生成局部地图模板理解加强目标检测的系统,其特征在于,包括:
第一处理模块,以同一帧多个车载相机的图像作为信息源,构建自车感知范围内的生成式局部地图;
第二处理模块,基于生成式局部地图,通过静态环境模板生成式地图与动态目标检测的交互式学习与交叉注意力增强,由目标检测障碍物信息分辨静态要素是否被遮挡,补全被遮挡区域,通过静态要素约束动态障碍物的位置与状态,完善目标检测;
输出模块,利用生成式局部地图约束目标检测后处理,输出静态要素的语义图层和动态要素的三维包围框。
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行如权利要求1至7所述方法中的任一方法。
10.一种计算设备,其特征在于,包括:一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行如权利要求1至7所述方法中的任一方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310051583.XA CN116052124A (zh) | 2023-02-02 | 2023-02-02 | 多相机生成局部地图模板理解加强目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310051583.XA CN116052124A (zh) | 2023-02-02 | 2023-02-02 | 多相机生成局部地图模板理解加强目标检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116052124A true CN116052124A (zh) | 2023-05-02 |
Family
ID=86116129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310051583.XA Pending CN116052124A (zh) | 2023-02-02 | 2023-02-02 | 多相机生成局部地图模板理解加强目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116052124A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912488A (zh) * | 2023-06-14 | 2023-10-20 | 中国科学院自动化研究所 | 基于多目相机的三维全景分割方法及装置 |
CN117315238A (zh) * | 2023-11-29 | 2023-12-29 | 福建理工大学 | 一种车辆目标检测的方法与终端 |
-
2023
- 2023-02-02 CN CN202310051583.XA patent/CN116052124A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912488A (zh) * | 2023-06-14 | 2023-10-20 | 中国科学院自动化研究所 | 基于多目相机的三维全景分割方法及装置 |
CN116912488B (zh) * | 2023-06-14 | 2024-02-13 | 中国科学院自动化研究所 | 基于多目相机的三维全景分割方法及装置 |
CN117315238A (zh) * | 2023-11-29 | 2023-12-29 | 福建理工大学 | 一种车辆目标检测的方法与终端 |
CN117315238B (zh) * | 2023-11-29 | 2024-03-15 | 福建理工大学 | 一种车辆目标检测的方法与终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109766878B (zh) | 一种车道线检测的方法和设备 | |
US11094112B2 (en) | Intelligent capturing of a dynamic physical environment | |
EP4152204A1 (en) | Lane line detection method, and related apparatus | |
CN111874006B (zh) | 路线规划处理方法和装置 | |
Broggi | Automatic vehicle guidance: the experience of the ARGO autonomous vehicle | |
CN112740268B (zh) | 目标检测方法和装置 | |
Shim et al. | An autonomous driving system for unknown environments using a unified map | |
CN117441197A (zh) | 一种基于行车安全风险场的激光雷达点云动态分割及融合方法 | |
CN116052124A (zh) | 多相机生成局部地图模板理解加强目标检测方法及系统 | |
US11755917B2 (en) | Generating depth from camera images and known depth data using neural networks | |
CN112740225B (zh) | 一种路面要素确定方法及装置 | |
Zang et al. | Lane boundary extraction from satellite imagery | |
CN114821507A (zh) | 一种用于自动驾驶的多传感器融合车路协同感知方法 | |
Deng et al. | Semantic segmentation-based lane-level localization using around view monitoring system | |
CN116830164A (zh) | LiDAR去相关对象检测系统与方法 | |
CN116051779A (zh) | 用于自主系统和应用的使用深度神经网络利用点云致密化的3d表面重建 | |
Chen et al. | Multitarget vehicle tracking and motion state estimation using a novel driving environment perception system of intelligent vehicles | |
CN116051780A (zh) | 用于自主系统和应用的使用人工智能利用点云致密化的3d表面重建 | |
CN116048060A (zh) | 用于自主系统和应用的使用神经网络基于真实世界数据的3d表面结构估计 | |
Wang et al. | Lane detection algorithm based on temporal–spatial information matching and fusion | |
CN117115690A (zh) | 一种基于深度学习和浅层特征增强的无人机交通目标检测方法及系统 | |
US20200135035A1 (en) | Intelligent on-demand capturing of a physical environment using airborne agents | |
WO2023158706A1 (en) | End-to-end processing in automated driving systems | |
CN115423932A (zh) | 道路标注方法、可读介质、程序产品和电子设备 | |
Pravallika et al. | Deep Learning Frontiers in 3D Object Detection: A Comprehensive Review for Autonomous Driving |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |