CN114140758A - 一种目标检测方法、装置及计算机设备 - Google Patents
一种目标检测方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN114140758A CN114140758A CN202111450576.4A CN202111450576A CN114140758A CN 114140758 A CN114140758 A CN 114140758A CN 202111450576 A CN202111450576 A CN 202111450576A CN 114140758 A CN114140758 A CN 114140758A
- Authority
- CN
- China
- Prior art keywords
- point
- sparse
- target
- points
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种目标检测方法、装置及计算机设备。该方法应用于图形处理器,包括:获取对应目标区域的原始点云和原始图像;将原始点云中各稀疏点投影至原始图像,得到各稀疏点与像素点之间的对应关系;提取原始点云的点云特征,以及提取原始图像的图像特征;根据各稀疏点与像素点之间的对应关系,将各稀疏点特征与对应的像素点特征进行融合,得到目标区域对应的目标融合特征;基于目标融合特征对目标区域进行类别预测和边界框预测,得到检测目标。本申请中包括投影和融合在内的整个目标检测过程均在图形处理器上完成,能实现端到端的实时运行,且目标融合特征包括了高层次的语义信息,增大了检测的准确性。
Description
技术领域
本申请涉及图像识别领域,尤其涉及一种目标检测方法、装置及计算机设备。
背景技术
在自动驾驶感知系统中,相机和激光雷达是自动驾驶车辆必不可少的传感器。相机可采集周围环境的RGB彩色信息与纹理信息,模拟人类视觉感知成像,相机的优势在于可以准确的描述目标的纹理信息,但缺少目标的深度信息。激光雷达依靠激光束不间断扫描完成对周围环境的场景再现,激光束可以在物体表面产生激光点,它可以采集周围环境在雷达坐标系下的XYZ准确坐标和反射率,激光雷达的优势在于可以获取目标的深度信息,但缺乏目标的纹理信息。可以通过图像和激光雷达的融合算法,保留目标的纹理信息和缺深度信息。
但是,现有技术基于图像和激光点云融合的3D目标检测存在两大问题。一是图像和激光雷达的融合算法总体设计比较复杂,整个模型从点云与图像的输入到检测结果的输出,无法同时在图形处理器(Graphics Processing Unit,简称GPU)实现,造成数据在处理过程中在设备间传输多次造成极大的延时,无法达到实际应用。二是现有算法神经网络部分和非神经网络的数据处理部分繁杂,耗时严重且占用内存较大,造成了算法模型的复杂度高计算量大。
发明内容
为了解决上述技术问题,本发明提供了一种目标检测方法、装置及计算机设备,具体方案如下:
第一方面,本申请实施例提供了一种目标检测方法,所述方法包括:
获取对应目标区域的原始点云和原始图像,其中,所述原始点云包括多个稀疏点,所述原始图像包括多个像素点;
将所述原始点云中各所述稀疏点投影至所述原始图像,得到各稀疏点与像素点之间的对应关系;
提取所述原始点云的点云特征,以及提取所述原始图像的图像特征,其中,所述点云特征包括多个稀疏点特征,所述图像特征包括多个像素点特征;
根据各稀疏点与像素点之间的对应关系,将各稀疏点特征与对应的像素点特征进行融合,得到所述目标区域对应的目标融合特征;
基于所述目标融合特征对所述目标区域进行类别预测和边界框预测,得到检测目标。
根据本申请公开的一种具体实施方式,将所述原始点云中各稀疏点投影至所述原始图像,得到各稀疏点与像素点之间的对应关系的步骤,包括:
基于公式建立稀疏点与像素点之间的对应关系,其中,[u,v,1]为像素点在图像坐标系中的二维坐标值,P[3*4]为相机坐标系到图像坐标系的投影矩阵,大小为3*4,P[3*4]为相机的旋转矩阵,大小为4*4,为雷达到相机的投影矩阵,大小为4*4,[X,Y,Y,1]为稀疏点在点云坐标系中的三维坐标值。
根据本申请公开的一种具体实施方式,各稀疏点对应的点云数据包括三维坐标值和反射率,提取所述原始点云的点云特征的步骤,包括;
将所述原始点云进行并行下采样;
基于下采样后的原始点云中各所述稀疏点对应的点云数据,提取各稀疏点对应的稀疏点特征和邻域特征,其中,以任一所述稀疏点为关键点,预设半径范围内的稀疏点为所述关键点对应的邻近点,所述邻域特征由稀疏点对应的邻近点的点云数据拼接组成;
将各所述稀疏点特征及对应的邻域特征融合为所述点云特征。
根据本申请公开的一种具体实施方式,确定各稀疏点的邻近点的步骤,包括:
判断以所述关键点为中心的所述预设半径范围内的稀疏点的数量N是否大于或等于预设数量M,其中,N为正整数;
若N≥M,按照各稀疏点与关键点的距离,将N个所述稀疏点进行升序排列,并将前M个次序对应的稀疏点确定为所述关键点的邻近点;
若N<M,按照各稀疏点与关键点的距离,将N个所述稀疏点进行升序排列,并将前M-N个稀疏点确定为补充点,复制所述补充点,将N个所述稀疏点和M-N个所述补充点确定为所述关键点的邻近点。
根据本申请公开的一种具体实施方式,根据稀疏点与像素点之间的对应关系,将各稀疏点特征与对应的像素点特征进行融合,得到所述目标区域对应的融合特征的步骤,包括:
基于各稀疏点与像素点之间的对应关系,将各稀疏点特征与对应的像素点特征进行融合,得到第一融合特征;
将所述第一融合特征进行插值,得到第二融合特征;
通过两个Linear-BN-ReLU层,提取所述第二融合特征中的高层语义特征为所述目标区域对应的目标融合特征。
根据本申请公开的一种具体实施方式,将所述第一融合特征进行插值,得到第二融合特征的步骤,包括:
选取所述第一融合特征对应的任一所述稀疏点为原始点;
按照稀疏点与所述原始点的距离值,将所述第一融合特征对应的全部所述稀疏点进行升序排列,得到第一序列;
选取所述第一序列中前K个稀疏点为所述原始点的关联点,其中,K为正整数;
将各所述关联点到所述原始点的距离进行归一化处理,得到各所述关联点的权重;
将各关联点对应的权重乘上各关联点对应的稀疏点特征,得到各原始点的上采样特征;
将所述第一融合特征对应的各稀疏点的上采样特征组合为所述第二融合特征。
根据本申请公开的一种具体实施方式,基于所述目标融合特征对所述目标区域进行类别预测和边界框预测,得到检测目标的步骤,包括:
基于所述目标融合特征对所述目标区域进行类别预测和边界框预测,得到对应目标类别的多个不同类别分值的第一边界框;
按照所述类别分值将多个所述第一边界框进行排序,得到第二序列;
重复执行从第二序列中选择目标边界框的步骤,直至找出全部目标边框;
将各所述目标边界框对应的目标物体确定为检测目标;
其中,重复执行从第二序列中选择目标边界框的步骤,直至找出全部目标边框的步骤,包括:
按照预设规则从所述第二序列中选取所述第二序列中类别分值最大的第一边界框为目标边界框;
保留重叠度小于或等于预设阈值的第一边界框为第二边界框,其中,重叠度为第一边界框与目标边界框相交部分面积与相并部分面积之比;
将各所述第二边界框按照所述类别分值排序为第三序列,将所述第三序列作为新的第二序列。
第二方面,本申请实施例提供了一种目标检测装置,应用于图形处理器,所述装置包括:
获取模块,用于获取对应目标区域的原始点云和原始图像,其中,所述原始点云包括多个稀疏点,所述原始图像包括多个像素点;
投影模块,用于将所述原始点云中各所述稀疏点投影至所述原始图像,得到各稀疏点与像素点之间的对应关系;
提取模块,用于提取所述原始点云的点云特征,以及提取所述原始图像的图像特征,其中,所述点云特征包括多个稀疏点特征,所述图像特征包括多个像素点特征;
融合模块,用于根据各稀疏点与像素点之间的对应关系,将各稀疏点特征与对应的像素点特征进行融合,得到所述目标区域对应的目标融合特征;
检测模块,或第二方面中任一项实施例所述的方法用于基于所述目标融合特征对所述目标区域进行类别预测和边界框预测,得到检测目标。
第三方面,本申请实施例提供了一种计算机设备,所述计算机设备包括图形处理器和存储器,所述存储器存储有计算机程序,所述计算机程序在所述图形处理器上执行时实现第一方面中任一项实施例所述的目标检测方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在处理器上执行时实现第一方面中任一项实施例所述的目标检测方法。
相对于现有技术而言,本申请具有以下有益效果:
本申请提供的目标检测方法应用于图形处理器,包括:获取对应目标区域的原始点云和原始图像;将原始点云中各稀疏点投影至原始图像,得到各稀疏点与像素点之间的对应关系;提取原始点云的点云特征,以及提取原始图像的图像特征;根据各稀疏点与像素点之间的对应关系,将各稀疏点特征与对应的像素点特征进行融合,得到目标区域对应的目标融合特征;基于目标融合特征对目标区域进行类别预测和边界框预测,得到检测目标。本申请中包括投影和融合在内的整个目标检测过程均在图形处理器上完成,能实现端到端的实时运行,且目标融合特征包括了高层次的语义信息,增大了检测的准确性。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1为本申请实施例提供的一种目标检测方法的流程示意图之一;
图2为本申请实施例提供的一种目标检测方法的流程示意图之二;
图3为本申请实施例提供的一种目标检测装置的模块框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互结合。
目前基于图像和激光雷达的融合算法,主要分为前融合、深度融合和后融合三种不同的类型。其中,深度融合包括前处理、中间处理和后处理三个步骤。前处理包括点云到图像的投影、点云的下采样,这一部分在中央处理器(Central Processing Unit,简称CPU)实现且耗时较长;中间处理过程在图形处理器(Graphics Processing Unit,简称GPU)实现,包括点云特征提取分支、图像特征提取分支、融合分支;而后处理包括非极大值抑制和边界框解码,在CPU端实现耗时较长。
总体来讲,整个融合网络的数据处理需要在不同的硬件设备传输多次,且每个过程都耗时较为长,导致目前融合算法无法实时推理并应用。
参见图1和图2,图1为本申请实施例提供的一种目标检测方法的流程示意图之一,图2为本申请实施例提供的一种目标检测方法的流程示意图之二。所述目标检测方法应用于图形处理器,如图1所示,所述方法主要包括:
步骤S101,获取对应目标区域的原始点云和原始图像,其中,所述原始点云包括多个稀疏点,所述原始图像包括多个像素点。
在进行目标检测时,图形处理器可以根据用户的实际需求,选择任一空间区域作为目标区域,分别获取目标区域对应的原始点云和原始图像,即图2中所示的输入点云和输入图像。其中,原始点云由稀疏点组成,原始图像由像素点组成。可以通过激光雷达采集原始点云,通过相机采集原始图像。其中,各稀疏点对应的点数据均包括其在点云坐标系中的三维坐标值(X,Y,Z),以及各稀疏点的反射率。各像素点对应的像素点数据则由RGB三通道数据构成。
步骤S102,将所述原始点云中各所述稀疏点投影至所述原始图像,得到各稀疏点与像素点之间的对应关系。
获取目标区域对应的原始点云和原始图像后,可以根据预先设置的标定参数,通过坐标系转换,将雷达坐标系中原始点云的各稀疏点转换到图像坐标系,即将原始点云投影至原始图像上,得到图2中所示的点云映射图像,从而实现原始点云中的稀疏点与原始图像中的像素点一一对应,建立各稀疏点与像素点之间的对应关系。其中,所述标定参数包括雷达坐标系到相机坐标系的刚体转换矩阵,以及相机坐标系到图像坐标系的投影矩阵。
具体实施时,可以用下面的公式计算得到各稀疏点与像素点之间的对应关系:
其中,[u,v,1]为像素点在图像坐标系中的二维坐标值,P[3*4]为相机坐标系到图像坐标系的投影矩阵,大小为3*4,P[3*4]为相机的旋转矩阵,大小为4*4,为雷达到相机的投影矩阵,大小为4*4,[X,Y,Y,1]为稀疏点在点云坐标系中的三维坐标值。
步骤S103,提取所述原始点云的点云特征,以及提取所述原始图像的图像特征,其中,所述点云特征包括多个稀疏点特征,所述图像特征包括多个像素点特征。
在获取目标区域对应的原始点云和原始图像后,分别提取原始点云的点云特征以及原始图像的图像特征。在具体实施时,可以先将原始点云中的各帧点云进行定值采样,即将每帧采集的点云下采样或者上采样到同一数值,便于后续的对齐与采样处理。定值采样中的下采样的原理是根据雷达扫描原理而制定,雷达扫描的点云通常近密远疏,因此采样仅在可感知的感兴趣区域中进行。在图像处理领域,感兴趣区域即为用户进行目标检测或分析的区域。远处点在采样的过程中会大量的保留,这样保证了远处点表示的特征不会损失,而近处点则采用随机采样,保证了算法在训练迭代的过程中保持一定的鲁棒性。
下面分别介绍提取原始点云的点云特征的过程,以及提取原始图像的图像特征的过程。
针对点云特征的提取过程,即上述各稀疏点对应的点云数据包括三维坐标值和反射率,提取所述原始点云的点云特征的步骤,包括;
将所述原始点云进行并行下采样;
基于下采样后的原始点云中各所述稀疏点对应的点云数据,提取各稀疏点对应的稀疏点特征和邻域特征,其中,以任一所述稀疏点为关键点,预设半径范围内的稀疏点为所述关键点对应的邻近点,所述邻域特征由稀疏点对应的邻近点的点云数据拼接组成;
将各所述稀疏点特征及对应的邻域特征融合为所述点云特征。
具体实施时,通过基于网格的下采样将原始点云对应的三维空间划为若干个体素,在每个体素内部取部分点,最终达到降低点云分辨率的目的。上述下采样过程还可以用最远点采样或者随机采样替代。在下采样的过程中能够,可以基于并行计算架构(ComputeUnified Device Architecture,简称CUDA)实现网格并行采样,保证采样的速度,大大降低在采样过程的耗时。CUDA是一个并行计算平台和编程模型,通过CUDA,GPU可以很方便地被用来进行通用计算。
采样后的原始点云在三维空间中分布较为均匀,为了提取每个稀疏点的语义信息,需要各稀疏点对应的稀疏点特征和邻域特征。其中,语义信息分为视觉层、对象层和概念层三种不同类型。视觉层包括颜色、纹理和形状等,这些特征都被称为底层特征或底层语义信息;对象层也称中间层,包含属性特征,用于描述某一对象在某一时刻的状态;而概念层是高层,用于表达最接近人类理解的东西。例如,某一视觉区域内有沙子、蓝天和海水,视觉层是一块块的区分,对象层是沙子、蓝天和海水,而概念层即为海滩。可以基于下采样后的原始点云中各稀疏点对应的点云数据,提取各稀疏点对应的稀疏点特征和邻域特征,其中,以任一所述稀疏点为关键点,预设半径范围内的稀疏点为所述关键点对应的邻近点,所述邻域特征由稀疏点对应的邻近点的点云数据拼接组成。
上述点云特征的提取过程中,确定各稀疏点的邻近点的步骤,包括:
判断以所述关键点为中心的所述预设半径范围内的稀疏点的数量N是否大于或等于预设数量M,其中,N为正整数;
若N≥M,按照各稀疏点与关键点的距离,将N个所述稀疏点进行升序排列,并将前M个次序对应的稀疏点确定为所述关键点的邻近点;
若N<M,按照各稀疏点与关键点的距离,将N个所述稀疏点进行升序排列,并将前M-N个稀疏点确定为补充点,复制所述补充点,将N个所述稀疏点和M-N个所述补充点确定为所述关键点的邻近点。
具体实施时,可以通过遍历的方法查找每个稀疏点预设半径范围内,与这个中心位置的稀疏点距离值次序在前16个或32个的稀疏点为对应的邻近点。进一步地,为了减少遍历造成的耗时,可以采用基于CUDA的“邻近点查询与分组”快速查询邻近点。通过查询下采样后的原始点云中,与采样点最邻近的27个网格或次近邻的125个网格中距离较近的点。如果邻近点数量不足16或者32个点,则将最近的稀疏点进行复制,以达到计算中所需的预设数量M,即前文所述16或者32。具体实施时,M的具体取值可以根据实际使用需求和应用场景自定义,这里不做具体限定。
具体实施时,为了提取更深层或更多的特征,可以将下采样的过程分为多个阶段,如可以分为四个阶段:依次进行1/4、1/16、1/64和1/256这下采样、查询分组和特征聚合,例如图2所示的“1/4降采样+分组聚合特征”,以提高每次聚合的感受野。由于预设的感受野获取的特征数量是为定值,若下采样的程度越大,那么感受野的半径需扩大,以使感受野能获取更大范围的局部特征。
而对于原始图像中图像特征,可以通过神经网络模型进行提取。参见图2,图像特征的提取主要由神经网络层组成,包括conv卷积、bn归一化和re l u激活函数,这些神经网络层作用在于提取图像中的局部特征。同样的,为了提取更深层级的特征,我们设定四个特征提取层来提取图像的深层特征,每个特征提取层的维度与各阶段下采样后的原始点云的特征维度保持一致,便于下一步的融合。
步骤S104,根据各稀疏点与像素点之间的对应关系,将各稀疏点特征与对应的像素点特征进行融合,得到所述目标区域对应的目标融合特征。
在步骤S103获取点云特征和图像特征之后,基于各稀疏点与像素点之间的对应关系,将各稀疏点特征与对应的像素点特征进行融合,得到第一融合特征。将所述第一融合特征进行插值,得到第二融合特征。这个第一融合特征是对应于步骤S103中的下采样过程中最后一层的融合特征。因此,需要通过特征插值是对第一融合特征进行插值,将低分辨率的维度特征恢复到高分辨率的原始尺寸的点云上。然后通过两个Linear-BN-ReLU层,提取所述第二融合特征中的高层语义特征为所述目标区域对应的目标融合特征。
具体实施时,可以通过步骤S102中得到各稀疏点与像素点之间的对应关系,将四次下采样后的原始点云中的稀疏点分别与像素点进行匹配,这样就可以保证稀疏点特征与像素点特征在同一位置进行融合。在特征融合时,还可以对每个稀疏点的邻域特征再次进行特征提取,使特征的分布相对一致,即对特征做归一化保证稀疏点特征与像素点特征在数量级上一致,然后逐层融合特征。上述实施步骤即为图2所示的“特征融合与对齐”的过程。
将所述第一融合特征进行插值,得到第二融合特征的步骤,包括:
选取所述第一融合特征对应的任一所述稀疏点为原始点;
按照稀疏点与所述原始点的距离值,将所述第一融合特征对应的全部所述稀疏点进行升序排列,得到第一序列;
选取所述第一序列中前K个稀疏点为所述原始点的关联点,其中,K为正整数;
将各所述关联点到所述原始点的距离进行归一化处理,得到各所述关联点的权重;
将各关联点对应的权重乘上各关联点对应的稀疏点特征,得到各原始点的上采样特征;
将所述第一融合特征对应的各稀疏点的上采样特征组合为所述第二融合特征。
具体地,可以选取第一融合特征对应的任一稀疏点为原始点,利用CUDA进行并行处理来查询原始点在下采样后的原始点云中,距离较近的K个稀疏点,例如可以取值K=3。取这3个稀疏点对应的稀疏点特征作为原始点的特征。将这3个稀疏点到原始点的距离进行归一化,得到这3个稀疏点的权重,然后将3个权重分别乘上3个稀疏点对应的稀疏点特征值,作为原始点的上采样特征。
具体实施时,神经网络处理层中的Linear-BN-ReLU层可以用Conv2d-BN-Relu/LeakyRelu/Relu来替代,这样也可以达到特征提取的目的,本申请实施例不做具体限定。
步骤S105,基于所述目标融合特征对所述目标区域进行类别预测和边界框预测,得到检测目标。
获取到目标区域对应的融合特征后,基于融合特征进行类别预测和边界框预测。类别预测是用于判断目标区域中各待检测目标的类别,比如猫,狗,汽车等。类别预测会输出待检测目标对应几个类别的得分,经过s igmoid函数后取其分值最高的索引作为其对应的类别。而边界框预测用于获取待检测目标的相对长宽高、三维坐标绝对值和朝向角。
基于目标融合特征对目标区域进行类别预测和边界框预测之后,对输出的检测结果进行边界框解码和非极大值抑制(Non-Maximum Suppression,简称NMS)。边界框解码是将边界框预测的相对偏移量通过解算得到目标的真实偏移量、长宽高和朝向角。利用非极大值抑制,可以将同一目标类别间存在交叠的边界框进行过滤,保留对应目标类别的最高得分的边界框作为最终的目标边界框。
基于所述目标融合特征对所述目标区域进行类别预测和边界框预测,得到检测目标的步骤,包括:
基于所述目标融合特征对所述目标区域进行类别预测和边界框预测,得到对应目标类别的多个不同类别分值的第一边界框;
按照所述类别分值将多个所述第一边界框进行排序,得到第二序列;
重复执行从第二序列中选择目标边界框的步骤,直至找出全部目标边框;
将各所述目标边界框对应的目标物体确定为检测目标;
其中,重复执行从第二序列中选择目标边界框的步骤,直至找出全部目标边框的步骤,包括:
按照预设规则从所述第二序列中选取所述第二序列中类别分值最大的第一边界框为目标边界框;
保留重叠度小于或等于预设阈值的第一边界框为第二边界框,其中,重叠度为第一边界框与目标边界框相交部分面积与相并部分面积之比;
将各所述第二边界框按照所述类别分值排序为第三序列,将所述第三序列作为新的第二序列。
下面通过一个具体实例对上述步骤S1051-S1056进行解释。若需要从一张图片中检测目标类别为车辆的检测目标,而同一个类别可能会识别出多个检测目标,每个检测目标又可能存在多个高度重叠的边界框。例如,采用类别预测和边界框预测识别出图像中有两个汽车,a和b,a有5个第一边界框,b也有5个第一边界框。选取类别分值最大的第一边界框为目标边界框,假设这个目标边界框是对应a的一个边界框,那么保留重叠度小于或等于预设阈值的第一边界框是属于b的第一边界框,而a的其他第一边界框由于和目标边界框的重叠度过大被删除。然后再基于剩下的第一边界框再次选取并进行重叠度的比较,即可选出全部的目标边界框。
由于每个框是独立的,可以基于CUDA实现快速并行的边界框解码。在非极大值抑制上,也可以在GPU端完成边界框的滤除,提高计算速度和数据处理效率。
本申请提供的目标检测方法,运用CUDA实现GPU端的点云下采样和点云到图像的映射,非神经网络部分利用CUDA实现GPU端点云特征与图像特征的深度融合,而神经网络部分直接在GPU中完成。整个目标检测过程都能保持很高的处理速度,解决了基于原始图像和原始点云深度融合中无法实现端到端实时运行的问题,也降低了融合特征包含的语义信息不足而导致的误检问题,提高了检测的准确性。
与上述方法实施例相对应,参见图3,本申请还提供一种目标检测装置300,应用于图形处理器,所述目标检测装置300包括:
获取模块301,用于获取对应目标区域的原始点云和原始图像,其中,所述原始点云包括多个稀疏点,所述原始图像包括多个像素点;
投影模块302,用于将所述原始点云中各所述稀疏点投影至所述原始图像,得到各稀疏点与像素点之间的对应关系;
提取模块303,用于提取所述原始点云的点云特征,以及提取所述原始图像的图像特征,其中,所述点云特征包括多个稀疏点特征,所述图像特征包括多个像素点特征;
融合模块304,用于根据各稀疏点与像素点之间的对应关系,将各稀疏点特征与对应的像素点特征进行融合,得到所述目标区域对应的目标融合特征;
检测模块305,用于基于所述目标融合特征对所述目标区域进行类别预测和边界框预测,得到检测目标。
本申请提供的目标检测装置,运用CUDA实现GPU端的点云下采样和点云到图像的映射,非神经网络部分利用CUDA实现GPU端点云特征与图像特征的深度融合,而神经网络部分直接在GPU中完成。整个目标检测过程都能保持很高的处理速度,解决了基于原始图像和原始点云深度融合中无法实现端到端实时运行的问题,也降低了融合特征包含的语义信息不足而导致的误检问题,提高了检测的准确性。
所提供的目标检测装置、计算机设备和计算机可读存储介质的具体实施过程,可以参见上述实施例提供的目标检测方法的具体实施过程,在此不再一一赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种目标检测方法,其特征在于,应用于图形处理器,所述方法包括:
获取对应目标区域的原始点云和原始图像,其中,所述原始点云包括多个稀疏点,所述原始图像包括多个像素点;
将所述原始点云中各所述稀疏点投影至所述原始图像,得到各稀疏点与像素点之间的对应关系;
提取所述原始点云的点云特征,以及提取所述原始图像的图像特征,其中,所述点云特征包括多个稀疏点特征,所述图像特征包括多个像素点特征;
根据各稀疏点与像素点之间的对应关系,将各稀疏点特征与对应的像素点特征进行融合,得到所述目标区域对应的目标融合特征;
基于所述目标融合特征对所述目标区域进行类别预测和边界框预测,得到检测目标。
3.根据权利要求1所述的方法,其特征在于,各稀疏点对应的点云数据包括三维坐标值和反射率,提取所述原始点云的点云特征的步骤,包括;
将所述原始点云进行并行下采样;
基于下采样后的原始点云中各所述稀疏点对应的点云数据,提取各稀疏点对应的稀疏点特征和邻域特征,其中,以任一所述稀疏点为关键点,预设半径范围内的稀疏点为所述关键点对应的邻近点,所述邻域特征由稀疏点对应的邻近点的点云数据拼接组成;
将各所述稀疏点特征及对应的邻域特征融合为所述点云特征。
4.根据权利要求3所述的方法,其特征在于,确定各稀疏点的邻近点的步骤,包括:
判断以所述关键点为中心的所述预设半径范围内的稀疏点的数量N是否大于或等于预设数量M,其中,N为正整数;
若N≥M,按照各稀疏点与关键点的距离,将N个所述稀疏点进行升序排列,并将前M个次序对应的稀疏点确定为所述关键点的邻近点;
若N<M,按照各稀疏点与关键点的距离,将N个所述稀疏点进行升序排列,并将前M-N个稀疏点确定为补充点,复制所述补充点,将N个所述稀疏点和M-N个所述补充点确定为所述关键点的邻近点。
5.根据权利要求1所述的方法,其特征在于,根据稀疏点与像素点之间的对应关系,将各稀疏点特征与对应的像素点特征进行融合,得到所述目标区域对应的融合特征的步骤,包括:
基于各稀疏点与像素点之间的对应关系,将各稀疏点特征与对应的像素点特征进行融合,得到第一融合特征;
将所述第一融合特征进行插值,得到第二融合特征;
通过两个Linear-BN-ReLU层,提取所述第二融合特征中的高层语义特征为所述目标区域对应的目标融合特征。
6.根据权利要求5所述的方法,其特征在于,将所述第一融合特征进行插值,得到第二融合特征的步骤,包括:
选取所述第一融合特征对应的任一所述稀疏点为原始点;
按照稀疏点与所述原始点的距离值,将所述第一融合特征对应的全部所述稀疏点进行升序排列,得到第一序列;
选取所述第一序列中前K个稀疏点为所述原始点的关联点,其中,K为正整数;
将各所述关联点到所述原始点的距离进行归一化处理,得到各所述关联点的权重;
将各关联点对应的权重乘上各关联点对应的稀疏点特征,得到各原始点的上采样特征;
将所述第一融合特征对应的各稀疏点的上采样特征组合为所述第二融合特征。
7.根据权利要求1所述的方法,其特征在于,基于所述目标融合特征对所述目标区域进行类别预测和边界框预测,得到检测目标的步骤,包括:
基于所述目标融合特征对所述目标区域进行类别预测和边界框预测,得到对应目标类别的多个不同类别分值的第一边界框;
按照所述类别分值将多个所述第一边界框进行排序,得到第二序列;
重复执行从第二序列中选择目标边界框的步骤,直至找出全部目标边框;
将各所述目标边界框对应的目标物体确定为检测目标;
其中,重复执行从第二序列中选择目标边界框的步骤,直至找出全部目标边框的步骤,包括:
按照预设规则从所述第二序列中选取所述第二序列中类别分值最大的第一边界框为目标边界框;
保留重叠度小于或等于预设阈值的第一边界框为第二边界框,其中,重叠度为第一边界框与目标边界框相交部分面积与相并部分面积之比;
将各所述第二边界框按照所述类别分值排序为第三序列,将所述第三序列作为新的第二序列。
8.一种目标检测装置,其特征在于,应用于图形处理器,所述装置包括:
获取模块,用于获取对应目标区域的原始点云和原始图像,其中,所述原始点云包括多个稀疏点,所述原始图像包括多个像素点;
投影模块,用于将所述原始点云中各所述稀疏点投影至所述原始图像,得到各稀疏点与像素点之间的对应关系;
提取模块,用于提取所述原始点云的点云特征,以及提取所述原始图像的图像特征,其中,所述点云特征包括多个稀疏点特征,所述图像特征包括多个像素点特征;
融合模块,用于根据各稀疏点与像素点之间的对应关系,将各稀疏点特征与对应的像素点特征进行融合,得到所述目标区域对应的目标融合特征;
检测模块,用于基于所述目标融合特征对所述目标区域进行类别预测和边界框预测,得到检测目标。
9.一种计算机设备,其特征在于,所述计算机包括图形处理器和存储器,所述存储器存储有计算机程序,所述计算机程序在所述图形处理器上执行时实现权利要求1至7中任一项所述的目标检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序在处理器上执行时实现权利要求1至7中任一项所述的目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111450576.4A CN114140758A (zh) | 2021-11-30 | 2021-11-30 | 一种目标检测方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111450576.4A CN114140758A (zh) | 2021-11-30 | 2021-11-30 | 一种目标检测方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114140758A true CN114140758A (zh) | 2022-03-04 |
Family
ID=80386781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111450576.4A Pending CN114140758A (zh) | 2021-11-30 | 2021-11-30 | 一种目标检测方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114140758A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114677315A (zh) * | 2022-04-11 | 2022-06-28 | 探维科技(北京)有限公司 | 基于图像与激光点云的图像融合方法、装置、设备和介质 |
CN115830588A (zh) * | 2023-02-16 | 2023-03-21 | 天翼交通科技有限公司 | 一种基于点云的目标检测方法、系统、存储介质及设备 |
CN116527663A (zh) * | 2023-04-10 | 2023-08-01 | 北京城市网邻信息技术有限公司 | 信息处理方法、装置、电子设备及存储介质 |
-
2021
- 2021-11-30 CN CN202111450576.4A patent/CN114140758A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114677315A (zh) * | 2022-04-11 | 2022-06-28 | 探维科技(北京)有限公司 | 基于图像与激光点云的图像融合方法、装置、设备和介质 |
CN114677315B (zh) * | 2022-04-11 | 2022-11-29 | 探维科技(北京)有限公司 | 基于图像与激光点云的图像融合方法、装置、设备和介质 |
US11954835B2 (en) | 2022-04-11 | 2024-04-09 | Tanway Technology (beijing) Co., Ltd. | Methods, devices, apparatuses, and media for image fusion utilizing images and LiDAR point clouds |
CN115830588A (zh) * | 2023-02-16 | 2023-03-21 | 天翼交通科技有限公司 | 一种基于点云的目标检测方法、系统、存储介质及设备 |
CN116527663A (zh) * | 2023-04-10 | 2023-08-01 | 北京城市网邻信息技术有限公司 | 信息处理方法、装置、电子设备及存储介质 |
CN116527663B (zh) * | 2023-04-10 | 2024-04-26 | 北京城市网邻信息技术有限公司 | 信息处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Automatic building information model reconstruction in high-density urban areas: Augmenting multi-source data with architectural knowledge | |
CN109902702B (zh) | 目标检测的方法和装置 | |
CN114708585B (zh) | 一种基于注意力机制的毫米波雷达与视觉融合的三维目标检测方法 | |
CN113128348B (zh) | 一种融合语义信息的激光雷达目标检测方法及系统 | |
CN114140758A (zh) | 一种目标检测方法、装置及计算机设备 | |
CN110346808B (zh) | 一种激光雷达的点云数据处理方法和系统 | |
KR102219561B1 (ko) | 대응점 일관성에 기반한 비지도 학습 방식의 스테레오 매칭 장치 및 방법 | |
Schilling et al. | Detection of vehicles in multisensor data via multibranch convolutional neural networks | |
EP4174792A1 (en) | Method for scene understanding and semantic analysis of objects | |
CN116783620A (zh) | 根据点云的高效三维对象检测 | |
JP2013186902A (ja) | 車輌検知方法及び装置 | |
CN114463736A (zh) | 一种基于多模态信息融合的多目标检测方法及装置 | |
CN110619299A (zh) | 基于网格的对象识别slam方法和装置 | |
CN112270694B (zh) | 基于激光雷达扫描图进行城市环境动态目标检测的方法 | |
CN115937819A (zh) | 基于多模态融合的三维目标检测方法及系统 | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 | |
CN116168384A (zh) | 点云目标检测方法、装置、电子设备及存储介质 | |
CN116246119A (zh) | 3d目标检测方法、电子设备及存储介质 | |
CN114519681A (zh) | 自动标定方法及装置、计算机可读存储介质、终端 | |
CN111813882B (zh) | 一种机器人地图构建方法、设备及存储介质 | |
EP4293622A1 (en) | Method for training neural network model and method for generating image | |
CN116468950A (zh) | 一种类别引导中心点邻域搜索半径的三维目标检测方法 | |
CN115497061A (zh) | 一种基于双目视觉的道路可行驶区域识别方法及装置 | |
CN115240168A (zh) | 感知结果获取方法、装置、计算机设备、存储介质 | |
CN114266900B (zh) | 一种基于动态卷积的单目3d目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Liang Shuang Inventor after: Chen Yifei Inventor after: Qiu Zhongyuan Inventor after: Liu Hao Inventor before: Zhao Yali Inventor before: Liang Shuang Inventor before: Chen Yifei Inventor before: Qiu Zhongyuan Inventor before: Liu Hao |
|
CB03 | Change of inventor or designer information |