CN109902702B - 目标检测的方法和装置 - Google Patents
目标检测的方法和装置 Download PDFInfo
- Publication number
- CN109902702B CN109902702B CN201810837972.4A CN201810837972A CN109902702B CN 109902702 B CN109902702 B CN 109902702B CN 201810837972 A CN201810837972 A CN 201810837972A CN 109902702 B CN109902702 B CN 109902702B
- Authority
- CN
- China
- Prior art keywords
- feature
- dimensional
- features
- dimensional input
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本申请提供了一种目标检测的方法和装置,该方法包括:获取目标的二维输入数据和三维输入数据,所述二维输入数据包括二维输入特征,所述二维输入特征为二维图像的输入矩阵,所述三维输入数据包括三维点云和三维输入特征,所述三维输入特征为所述三维点云的输入矩阵;对所述二维输入特征和所述三维输入特征进行融合处理,得到第一融合特征;对所述第一融合特征进行近邻算法处理,得到特征集合;对所述三维输入点进行近邻算法处理,得到点集合;对所述特征集合和所述点集合进行融合处理,得到第二融合特征;根据所述第二融合特征确定所述目标的三维位置信息。本申请实施例的技术方案能够提高三维目标检测的准确率。
Description
技术领域
本申请涉及媒体传输技术领域,并且更具体地,涉及一种目标检测的方法和装置。
背景技术
计算机视觉模块是智能系统的关键模块,视觉模块处理外界输入的信息,并对相关视觉信息进行理解。而计算机视觉领域中对于三维(3dimensions,3D)世界的信息获取和处理对于诸多智能系统都至关重要。例如,自动导航,自动驾驶,工业机器人,家政机器人均需要对3D世界的信息进行分析和处理。其中,3D目标检测是以上诸多智能系统的核心模块,此模块提供物体在3D世界中的坐标位置,使得诸多智能系统能够感知和理解现实世界中的物体和场景,也是智能系统后续模块的基础。
借助于深度学习网络的强大学习能力,现有方案中基于2D和3D输入的目标检测系统的性能得到了一定的提升。但是,由于目前的目标检测系统对3D物体的局部空间的相互关系利用不足,并且基于2D和3D目标检测的输入数据的融合程度不够高,导致目标检测的准确率仍然较低。
发明内容
本申请提供一种目标检测的方法和装置,能够提高三维目标检测的准确率。
第一方面,提供了一种目标检测的方法,包括:获取目标的二维输入数据和三维输入数据,所述二维输入数据包括二维输入特征,所述二维输入特征为二维图像的输入矩阵,所述三维输入数据包括三维点云和三维输入特征,所述三维输入特征为所述三维点云的输入矩阵;对所述二维输入特征和所述三维输入特征进行融合处理,得到第一融合特征;对所述第一融合特征进行近邻算法处理,得到特征集合;对所述三维点云进行近邻算法处理,得到点集合;对所述特征集合和所述点集合进行融合处理,得到第二融合特征;
根据所述第二融合特征确定所述目标的三维位置信息。
应理解,三维点云可以看作是在目标表面特性的海量点集合,例如根据激光测量原理得到的点,可以包括三维坐标和激光反射强度。例如,根据摄影测量原理得到的点可以包括三维坐标和颜色信息,在获取目标检测物表面每个采样点的坐标空间后,可以得到一个点的集合,本申请实施例对此不作限定。
在本申请实施例的技术方案中,利用二维输入特征和三维输入特征的融合,以及特征集合和点集合的融合,将二维与三维的局部空间关系特征以及多维空间的数据相结合运用在目标检测中,提高了三维目标检测的准确率。
结合第一方面,在第一方面的某些实现方式中,所述对所述二维输入特征和所述三维输入特征进行融合处理,得到第一融合特征,包括:将所述三维输入特征转换为第一特征,所述第一特征为与所述第二维输入特征具有相同维度的输入矩阵;根据所述二维输入特征和所述第一特征加权生成所述第一融合特征。
在本申请实施例的技术方案中,通过将三维输入特征迁移至二维输入特征的空间,并与二维输入特征加权,进而实现二维输入特征与三维输入特征的融合。
结合第一方面,在第一方面的某些实现方式中,所述将所述三维输入特征转换为二维的第一特征,包括:将所述三维输入特征进行降维处理和卷积处理,得到所述第一特征。
在本申请实施例的技术方案中,将三维输入特征转换为二维的第一特征的过程可以是将三维输入特征首先从三维空间降维至二维空间,例如,将三维输入特征的张量的最后一维的大小降低至1,再通过卷积算法得到第一特征。
应理解,在本申请的实施例中,可以使用但不限于卷积算法,还可以是经过PC算法或者相关的算法处理得到第一特征。此外,还可以根据主成分分析(principal componentanalysis,PCA)算法,或者,线性降维算法(linear discriminant analysis,LDA)等,或者可以根据其它任何能够使三维输入特征进行降维的相关算法来代替经典卷积算法和PC算法,本申请对此不作限定。
结合第一方面,在第一方面的某些实现方式中,所述将所述三维输入特征进行降维处理和卷积处理,包括:
根据以下等式将所述三维输入特征f3d降维至二维空间,
结合第一方面,在第一方面的某些实现方式中,所述对所述第一融合特征进行近邻算法处理,得到特征集合,包括:
根据近邻算法确定所述第一融合特征的K个近邻特征的集合,所述K为正整数;
确定所述K个近邻特征的集合的中心特征;
根据所述中心特征对所述K个近邻特征的集合进行减法处理,得到所述特征集合。
在本申请实施例的技术方案中,通过对第一融合特征进行近邻算法处理,得到特征集合,能够提高输入数据的准确性,从而提高三维目标检测的准确率。
结合第一方面,在第一方面的某些实现方式中,所述对所述三维点云进行近邻算法处理,得到点集合,包括:
根据近邻算法确定所述三维点云的M个近邻点的集合,其中,所述M为正整数;
确定所述M个近邻点的集合的中心点;
根据所述中心点对所述M个近邻点的集合进行减法处理,得到所述点集合。
在本申请实施例的技术方案中,通过对三维点云进行近邻算法处理,得到点集合,能够提高输入数据的准确性,从而提高三维目标检测的准确率。
结合第一方面,在第一方面的某些实现方式中,所述对所述特征集合和所述点集合进行融合处理,得到第二融合特征,包括:
将所述点集合转换至所述特征集合的空间,得到点集合特征空间张量;
对所述点集合特征空间张量和所述特征集合进行乘法处理,得到所述第二融合特征。
在本申请实施例的技术方案中,将输入数据中的点集合和特征集合进行融合处理,充分利用了二维输入数据和三维输入数据的融合特性,提高了三维目标检测的准确率。
结合第一方面,在第一方面的某些实现方式中,所述将所述点集合转换至所述特征集合的空间,得到点集合特征空间张量,包括:
结合第一方面,在第一方面的某些实现方式中,所述对所述点集合特征空间张量和所述特征集合进行乘法处理,包括:
根据以下等式进行乘法处理得到所述第二融合特征fp,
在本申请实施例的技术方案中,根据得到的第二融合特征可以进行卷积处理从而得到目标检测物体的三维位置信息,将二维与三维的局部空间关系特征以及多维空间的数据相结合运用在目标检测中,提高了三维目标检测的准确率。此外,由于综合利用了局部空间关系特征以及多维空间的数据,降低了网络的复杂度,提高了三维目标检测的实时性。
第二方面,提供了一种目标检测的装置,包括:获取模块,用于获取目标的二维输入数据和三维输入数据,所述二维输入数据包括二维输入特征,所述二维输入特征为二维图像的输入矩阵,所述三维输入数据包括三维点云和三维输入特征,所述三维输入特征为所述三维点云的输入矩阵;第一融合模块,用于对所述二维输入特征和所述三维输入特征进行融合处理,得到第一融合特征;第一处理模块,用于对所述第一融合特征进行近邻算法处理,得到特征集合;第二处理模块,用于对所述三维点云进行近邻算法处理,得到点集合;第二融合模块,用于对所述特征集合和所述点集合进行融合处理,得到第二融合特征;确定模块,用于根据所述第二融合特征确定所述目标的三维位置信息。
在本申请实施例的技术方案中,利用二维输入特征和三维输入特征的融合,以及特征集合和点集合的融合,将二维与三维的局部空间关系特征以及多维空间的数据相结合运用在目标检测中,提高了三维目标检测的准确率。
结合第二方面,在第二方面的某些实现方式中,所述第一融合模块具体用于:将所述三维输入特征转换为第一特征,所述第一特征为与所述二维输入特征具有相同维度的输入矩阵;根据所述二维输入特征和所述第一特征加权生成所述第一融合特征。
在本申请实施例的技术方案中,通过将三维输入特征迁移至二维输入特征的空间,并与二维输入特征加权,进而实现二维输入特征与三维输入特征的融合。
结合第二方面,在第二方面的某些实现方式中,所述第一融合模块具体用于:将所述三维输入特征进行降维处理和卷积处理,得到所述第一特征。
在本申请实施例的技术方案中,将三维输入特征转换为二维的第一特征的过程可以是将三维输入特征首先从三维空间降维至二维空间,例如,将三维输入特征的张量的最后一维的大小降低至1,再通过卷积算法得到第一特征。
应理解,在本申请的实施例中,可以使用但不限于卷积算法,还可以是经过PC算法或者相关的算法处理得到第一特征。此外,还可以根据主成分分析(principal componentanalysis,PCA)算法,或者,线性降维算法(linear discriminant analysis,LDA)等,或者可以根据其它任何能够使三维输入特征进行降维的相关算法来代替经典卷积算法和PC算法,本申请对此不作限定。
结合第二方面,在第二方面的某些实现方式中,所述第一融合模块具体用于:根据以下等式将所述三维输入特征f3d降维至二维空间,
结合第二方面,在第二方面的某些实现方式中,所述第一处理模块具体用于:根据近邻算法确定所述第一融合特征的K个近邻特征的集合,所述K为正整数;确定所述K个近邻特征的集合的中心特征;根据所述中心特征对所述K个近邻特征的集合进行减法处理,得到所述特征集合。
在本申请实施例的技术方案中,通过对第一融合特征进行近邻算法处理,得到特征集合,能够提高输入数据的准确性,从而提高三维目标检测的准确率。
结合第二方面,在第二方面的某些实现方式中,所述第二处理模块具体用于:根据近邻算法确定所述三维点云的M个近邻点的集合,其中,所述M为正整数;确定所述M个近邻点的集合的中心点;根据所述中心点对所述M个近邻点的集合进行减法处理,得到所述点集合。
在本申请实施例的技术方案中,通过对三维点云进行近邻算法处理,得到点集合,能够提高输入数据的准确性,从而提高三维目标检测的准确率。
结合第二方面,在第二方面的某些实现方式中,所述第二融合模块具体用于:将所述点集合转换至所述特征集合的空间,得到点集合特征空间张量;对所述点集合特征空间张量和所述特征集合进行乘法处理,得到所述第二融合特征。
在本申请实施例的技术方案中,将输入数据中的点集合和特征集合进行融合处理,充分利用了二维输入数据和三维输入数据的融合特性,提高了目标检测的准确率。
结合第二方面,在第二方面的某些实现方式中,所述第二融合模块具体用于:根据以下等式进行乘法处理得到所述第二融合特征fp,
在本申请实施例的技术方案中,根据得到的第二融合特征可以进行卷积处理从而得到目标检测物体的三维位置信息,将二维与三维的局部空间关系特征以及多维空间的数据相结合运用在目标检测中,提高了目标检测的准确率。此外,由于综合利用了局部空间关系特征以及多维空间的数据,降低了网络的复杂度,提高了三维目标检测的实时性。
第三方面,提供了一种目标检测的装置,包括收发器、处理器和存储器。该处理器用于控制收发器收发数据,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得该网络设备执行第一方面及其可能实现方式中的方法。
第四方面,提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被计算机执行时实现第一方面或第一方面的任一种可能的实现方式中的方法。
第五方面,提供了一种计算机程序产品,该计算机程序产品被计算机执行时实现第一方面或第一方面的任一种可能的实现方式中的方法。
第六方面,提供了一种处理装置,包括处理器和接口;
该处理器,用于作为上述第一方面或第一方面的任一可能的实现方式中的方法的执行主体来执行这些方法,其中相关的数据交互过程(例如获取数据)是通过上述接口来完成的。在具体实现过程中,上述接口可以进一步通过收发器来完成上述数据交互过程。
应理解,上述第六方面中的处理装置可以是一个芯片,该处理器可以通过硬件来实现也可以通过软件来实现,当通过硬件实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于该处理器之外,独立存在。
附图说明
图1是卷积神经网络的基本框架图。
图2是三维图像的高度、宽度和深度的示意图。
图3是卷积层实现卷积操作过程的示意图。
图4是全连接层的结构示意图。
图5是应用本申请实施例的技术方案的架构图。
图6是根据本申请实施例的目标检测的方法的示意性流程图。
图7是根据本申请实施例的三维输入数据进行分离的示意图。
图8是根据本申请实施例的目标检测的方法的示意性流程图。
图9是根据本申请实施例的提取输入图像的特征的示意图。
图10是根据本申请实施例的将特征进行融合处理的示意图。
图11是根据本申请一个实施例的目标检测的装置的示意性框图。
图12是根据本申请另一个实施例的目标检测的装置的示意性框图。
图13是根据本申请另一个实施例的目标检测的装置的示意性框图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
为了更好地理解本申请实施例的视频处理方法,下面先对相关的一些基本概念进行简单说明。神经网络一般包括多个神经网络层,各神经网络层可以实现不同的运算或操作。常见的神经网络层包括卷积层(convolution layer)、池化层(pooling layer)和全连接层(full-connection layer)等。
图1为卷积神经网络(convolutional neural networks,CNN)的基本框架图。参见图1,卷积神经网络包括卷积层、池化层和全连接层。其中,多个卷积层与多个池化层交替排列,卷积层之后可以为卷积层,也可以为池化层。
卷积层主要用于对输入矩阵执行卷积操作,池化层主要用于对输入矩阵执行池化操作。无论是卷积操作还是池化操作,均可对应一个核,其中卷积操作对应的核可以称为卷积核。下面对卷积操作和池化操作进行详细描述。
卷积操作主要用于图像处理领域,在图像处理领域,输入矩阵也可称为特征图。卷积操作对应一个卷积核。卷积核也可称为权矩阵,权矩阵中的每个元素为一个权值。在卷积过程中,输入矩阵会被滑动窗口划分成许多与权矩阵大小相同的子矩阵,每个子矩阵与权矩阵进行矩阵乘法,得到的结果即为每个子矩阵中的数据元素的加权平均。
为了清楚起见,先对本申请中所使用的术语作以解释。
1、像素
像素是组成图像的最基本的元素,是一种逻辑尺寸单位。
2、图像的尺寸和分辨率
图像的尺寸可以包括多个维度,当图像的维度为二维时,图像的尺寸包括高度和宽度;当图像的维度为三维时,图像的尺寸包括宽度、高度和深度。
应理解,图像的高度可以理解为该图像在高度方向上包括的像素的数量;图像的宽度可以理解为该图像在宽度方向上包括的像素的数量;图像的深度可以理解为该图像的通道数量。
在卷积神经网络模型中,图像的深度可以理解为图像包括的特征图(featuremaps)的数量,其中,该图像的任意一张特征图的宽度和高度都与该图像的其他特征图的宽度和高度相同。
也就是说,一张图像为三维的图像,可以理解为该三维的图像是由多张二维的特征图构成的,且该多张二维的特征图的尺寸相同。
应理解,一张图像包括M张特征图、该M张特征图中每张特征图的高度为H个像素,给每个特征图的宽度为W个像素,可以理解为该图像为三维的图像,且该三维的图像的尺寸为H×W×M,也就是说,该三维的图像包括M张H×W的二维的特征图。其中,H、W为大于1的整数,M为大于0的整数。
图2示出了一张5×5×3的图像,该图像包括3张特征图(例如红色(red,R)特征图、绿色(green,G)特征图和蓝色(blue,B)特征图,每张特征图的尺寸为5×5。
应理解,不同色彩的特征图可以理解为是图像的不同通道,卷积神经网络中可以把不同的通道看作为不同的特征图。
还应理解,图2中仅以深度为3的图像为例进行描述,图像的深度还可以为其它取值,例如,例如灰度图像的深度为1,RGB-深度(depth,D)图像的深度为4等,本申请实施例对此不作限定。
还应理解,图像(或特征图)的分辨率可以理解为该图像(或特征图)的宽度与高度的积,即若图像(或特征图)的高度为H个像素,该图像(或特征图)的宽度为W个像素,则该图像(或特征图)的分辨率为H×W。
应理解,本申请实施例中提及的待处理图像或者是输入图像可以是输入特征图像,但本申请实施例不限于此。
3、卷积层
在卷积神经网络中,卷积层主要起到作用是抽取特征的作用。主要是根据设定的卷积核,对输入图像进行卷积操作。
如图3所示,输入矩阵为3×3的矩阵。为了保证输入矩阵与输出矩阵的维度一致,在对输入矩阵进行卷积操作之前,需要在输入矩阵的边缘补充2行2列0元素,从而将输入矩阵转换成5×5的矩阵。滑动窗口的尺寸代表的是卷积核的大小,图3是以卷积核为3×3的权矩阵为例进行说明的。滑动窗口可以以输入矩阵的左上角位置为起始位置,按照一定的滑动步长进行滑动,图3是以滑动步长=1为例进行说明的。按照图3所示的方式执行9次卷积操作,即可得到输出矩阵,其中第一次卷积操作得到的是输出矩阵的元素(1,1),第二次卷积操作得到的是输出矩阵的元素(1,2),以此类推。
应理解,卷积操作通常要求输入矩阵和输出矩阵的维度一致,但本申请实施例不限于此,也可以不要求输入矩阵和输出矩阵的维度一致。如果卷积操作不要求输入矩阵和输出矩阵维度一致,那么输入矩阵在执行该卷积操作之前,可以不补0。
还应理解,上文是以卷积操作的滑动步长=1为例进行说明的,但本申请实施例不限于此,卷积操作的滑动步长还可以为大于1。
4、池化层
池化层的作用一方面是使特征图的宽度和高度变小,通过减少特征层数据量降低卷积神经网络计算复杂度;一方面是进行特征压缩,提取主要特征。
池化操作一般用于降低输入矩阵的维度,即对输入矩阵进行降采样。池化操作与卷积操作类似,也是基于一个核对输入矩阵进行计算,因此,也存在一个滑动窗口,且池化操作的滑动步长通常大于1(也可以等于1)。池化操作的类型有多种,如平均池化和最大池化。平均池化是将滑动窗口中的所有元素取平均。最大池化是计算滑动窗口中的所有元素的最大值。池化过程与卷积过程大致类似,不同之处在于滑动窗口中的数据元素的运算方式不同,此处不再详述。
5、全连接层
在卷积神经网络的最后接上几层全连接层,用来把前边提取到的特征综合起来,最终输出对待处理图像的处理结果。所谓全接连层,即上一层的所有节点与下一层的所有节点都相连,每个相连节点之间都有一个权重参数。如图4所示为一个简单的全连接层的示意图。
如图4所示,L1层有三个普通节点和一个偏置节点,标上“+1”的圆圈被称为偏置节点。L2层的每个普通节点都与L1层的所有节点相连,每个相连节点之间都会有一个权重参数,以L2层的输出为例,L2层第一个节点的输出为:
其中,为L1层的第一个节点与L2层的第一个节点之间的权重参数,为L1层的第二个节点与L2层的第一个节点之间的权重参数,为L1层的第三个节点与L2层的第一个节点之间的权重参数,为L1层的偏置节点与L2层的第一个节点之间的权重参数。f(.)表示激活函数,和卷积层一样,例如,为ReLU激活函数。以此类推,可以得到L2层第二个、第三个节点的输出和
类似的,可以得到L3的输出hw,b(x)。
应理解,图4所示的全连接层仅为一种示例性说明,并不对本申请造成限定。
在现有技术中,基于2D&3D联合检测的技术方案主要包括以下三种方式:
第一种:首先将图片(image input)输入卷积神经网络进行特征提取,得到一个第一特征向量,将鸟瞰图(BEV input)输入卷积神经网络进行特征提取,得到一个第二特征向量;然后,将第一特征向量输入卷积神经网络和全链接,得到2D后选框(proposal),后选框框可以看作是目标位置可能出现的区域,将第二特征向量输入卷积神经网络和全链接,得到3D后选框(proposal);根据2D proposal和3D proposal通过卷积神经网络得到3D目标的位置。
应理解,鸟瞰图为根据透视原理用高视点透视法从高处某一点俯视地面起伏绘制成的立体图。因此,鸟瞰图可以看作是3D的输入数据。
第二种:首先将2D图片(RGB image)输入卷积神经网络进行特征提取和proposal选择,得到物体在2D空间的位置,将3D深度图(3D depth)和2D空间位置通过卷积神经网络结合得到物体的3D椎体;然后将3D椎体通过卷积神经网络,得到物体3D实例分割;根据3D椎体通过卷积神经网络和全链接层,回归出物体的3D位置。
第三种:首先将2D图片(RGB image),3D深度激光点云输入和3D鸟瞰图输入分别输入不同的卷积神经网络进行特征提取和proposal预测,将基于3D鸟瞰图提取的3Dproposal通过卷积神经网络映射至2D图片和3D点云云空间中;然后,通过多层卷积和全链接操作融合3D鸟瞰图的3D proposal,3D点云的3D proposal和2D图片的2D proposal;根据卷积神经网络回归出目标的3D框。
目前3D目标检测系统的性能较低,检测的准确率不高。
例如,针对于第一种方式中3D目标检测的方法,在特征提取时通过经典卷积机制提取的特征,没有利用2D和3D局部相关性这一重要性质;并且在proposal提取时,没有基于2D和3D局部相关性特征进行融合;因此,在预测目标3D位置时,没有利用融合后的特征来回归出目标的3D位置,造成检测的准确率不高。
针对于第二种方式中3D目标检测的方法,在椎体提取时,没有联合提取图片(image)和深度(depth)的两种输入,而只是分别提取这两种输入,导致没有利用图片和深度的局部空间相关性;在3D实例分割模块时,仅利用了3D椎体却没有利用2D图片的特征,导致没有联合利用3D椎体和2D图片的局部空间相关性;造成3D后选框预测模块没有利用3D空间的局部相关性进行3D框回归,造成检测的准确率不高。
针对于第三种方式中3D目标检测的方法,后选框提取模块只是基于鸟瞰的3D输入提取proposal然后映射至点云和图片中,没有利用三种输入融合后的输入和特征提取proposal,此外在融合proposal时,只是运用普通卷积融合3种proposal,没有融合2D和3D空间的局部空间相关性这一特征,因此,在预测目标3D位置时,没有利用融合后的特征来回归出目标的3D位置,造成检测的准确率不高。
本申请实施例中综合考虑现有方法的不足,提出一种基于2D和3D数据融合和空间局部相关性的三维物体检测方法。该方法融合了2D和3D数据之间的相互关系,提高了2D和3D数据联合利用的效率,从而提高三维物体检测的准确率。其次,本申请首次构造局部空间相对位置关系模块,提取了2D和3D数据空间的相对位置特征,并且把局部空间相对位置特征应用于3D物体的检测中,提高了检测效率。再者,本申请构造了自适应稠密链接模块,改变了对物体整体信息的利用方式,提高了三维物体目标检测的效率。
应理解,本申请实施例提供的技术方案可以应用于各种需要对输入数据进行处理以得到相应的目标三维位置信息的场景,本申请实施例对此不作限定。
图5是应用本申请实施例的技术方案的架构图。图5中系统200可以为各种应用神经网络的平台。
如图5所示,系统200可以接收输入数据202,对输入数据202进行处理,得到输出数据208。在一些实施例中,系统200中的部件可以由一个或多个处理器实现,该处理器可以是计算设备中的处理器,也可以是可移动设备(例如无人机)中的处理器。该处理器可以为任意种类的处理器,本申请实施例对此不做限定。
在一些实施例中,该处理器可以为由处理电路组成的芯片。在一些实施例中,系统200中还可以包括一个或多个存储器。该存储器可用于存储指令和数据,例如,实现本申请实施例的技术方案的计算机可执行指令,以及数据等。该存储器可以为任意种类的存储器,本申请实施例对此也不做限定。
在一些设计中,上述资源受限的平台可以为可移动设备或者智能设备。该可移动设备也可以称为移动设备。该可移动设备可以是无人机、无人驾驶船、自动驾驶车辆或机器人等;该智能设备可以为智能可穿戴设备(wearable device,WD)、智能家电、智能手机等,但本申请实施例对此并不限定。
例如,在一个示例中,本申请的目标检测的方法可以应用于自动驾驶系统。
在智能汽车上安装了2D图像获取系统和3D激光扫描雷达,智能汽车驾驶系统在汽车高速行驶时,在应对路面前方的行人、汽车、自行车等复杂情况时候,对前方物体在真实世界的3D位置做出检测,然后依据检测结果做出驾驶策略和驾驶路径规划,提高自动驾驶系统的安全性和实用性。
例如,在自动驾驶系统的场景下,二维输入数据可以是路面正前方的2D图片,例如,前方路面是否出现行人、汽车、自行车等情况,三维输入数据可以是路面正前方情况的3D点云以及3D点云的特征信息。可以将二维输入数据和三维输入数据输入卷积神经网络系统中,根据本申请的目标检测的方法,,对前方物体在真实世界的3D位置做出检测,然后依据检测结果做出驾驶策略和驾驶路径规划,提高自动驾驶系统的安全性和实用性。
需要说明的是,3D点云由多个三维输入点组成,一个三维输入点可以指一个三维坐标(x,y,z)的点A,多个与点A相似的点组成3D点云集合。当点A具有颜色时,可以用(r,g,b)表示点A的颜色,那么(r,g,b)可以表示点A的特征信息。
在一个示例中,本申请的目标检测的方法可以应用于自动导航系统。
车载自动导航的实现与地理位置信息密切相关。其中,交通信息包括停车场,交通附属设施,车辆密度与流量等信息为导航系统路径规划,驾驶方案提供重要数据来源。利用本方申请提供的3D目标检测系统方案,可以实时检测出路面物体真实3D位置,为导航系统精细化的路线导航方案的产生提供路面物体准确的地理信息。
例如,在自动导航系统中,二维输入数据可以是路面正前方的2D图片,例如,路面路况信息的2D图片,或者,路面车辆情况的2D图片,三维输入数据可以是路面正前方的3D点云图像以及3D点云的特征信息。可以将二维输入数据和三维输入数据输入卷积神经网络系统中,根据本申请的目标检测的方法,实时检测出路面物体真实3D位置,为导航系统精细化的路线导航方案的产生提供路面物体准确的地理信息。
在一个示例中,本申请的目标检测的方法可以应用于工业机器人动作系统。
在工业生产线上部署工业机器人极大降低生产成本,提高自动化效率。工业机器人动作系统中的视觉检测系统提供生产线上零部件的在真实世界中的3D位置,随后机器人的动作策略系统即可采用动作策略,对生产线上的物体做出动作。利用本申请提供的三维目标检测方案,提供生产线上各个零部件的准确位置,为后续的动作策略系统提供零部件准确的位置信息。
例如,在工业机器人动作系统中,二维输入数据可以是生产线当前情况的2D图片,三维输入数据可以生产线当前情况的3D点云图像以及3D点云的特征信息。可以将二维输入数据和三维输入数据输入卷积神经网络系统中,根据本申请的目标检测的方法,提供生产线上各个零部件的准确位置,为后续的动作策略系统提供零部件准确的位置信息。
在一个示例中,本申请的目标检测的方法可以应用于家政机器人扫地系统。
家政扫地机器人是在家庭场景中应用广泛的机器人。扫地机器人依据视觉系统感知外部环境,制定合适的扫地路径。利用本申请提供的3D目标检测方案,检测物体在真实场景中的3D位置信息,使得家政机器人能够感知立体的外部环境,从而制定一个立体扫地路径。
例如,在家政机器人扫地系统中,二维输入数据可以是前方物体的2D图片,例如,前方家具或者阻碍物的2D图片,三维输入数据可以是前方物体的3D点云图像以及3D点云的特征信息。可以将二维输入数据和三维输入数据输入卷积神经网络系统中,根据本申请的目标检测的方法,检测物体在真实场景中的3D位置信息,使得家政机器人能够感知立体的外部环境,从而制定一个立体扫地路径。
需要说明的是,本申请的落地产品形态可以是云端地理位置服务产品、汽车自动驾驶设备、汽车辅助驾驶设备等,工业机器人设备和家政机器人设备。本申请的三维物体检测方法可以部署在相关设备的计算节点上,通过软件改造能够提升物体三维检测的准确率,本申请实施例对此不作限定。
图6是根据本申请实施例提供的一种目标检测的方法的示意图。图6所示的方法可以由图5所示的系统200执行,该方法可以应用于卷积神经网络模型中,方法100包括:
110,获取二维输入数据和三维输入数据,其中,二维输入数据可以包括二维输入特征,所述二维输入特征为二维图像的输入矩阵,三维输入数据可以包括三维输入特征和三维点云,三维输入特征可以是所述三维点云的输入矩阵。
在本申请的实施例中,三维输入数据通过卷积神经网络中的模块可以将输入数据分离为三维输入特征和三维点云。例如,图7示出了卷积神经网络中的分离模块将三维输入数据分离为三维输入特征和三维点云的示意图。
在本申请的实施例中,将三维输入数据通过卷积神经网络的分离模块分离为三维输入特征和三维点云,进而将三维输入特征与二维输入特征进行融合处理,实现在目标检测过程中融合了二维输入特征和三维输入特征,提高了三维目标检测的准确率。
120,对二维输入特征和三维输入特征进行融合处理,得到第一融合特征。
二维输入特征f2d可以看作是一个维度为p1×p2×l×1的张量。三维输入特征f3d可以看作是一个维度为p1×p2×l1×l2的张量。n1,n2为定值,由2D特征提取和3D特征提取的卷积操作决定,n1可以是一次输入三维特征的数量,n2可以是一次输入二维特征的数量。或者,n1可以表示张量的第一维大小,n2可以表示张量的第二维大小,l,l1可以表示张量的第三维大小,l2可以表示张量的第四维大小。
特征张量的最后一维的大小和数据的z坐标系相关,当输入数据是二维的时候,例如2D图像没有z坐标系,因此特征张量最后一维的大小是1。当输入数据是三维的时候,例如3D数据,特征张量最后一维的大小是l2>1。
将二维输入特征和三维输入特征进行融合处理,得到第一融合特征,可以包括但不限于以下两个步骤:第一步,将所述三维输入特征转换为二维的第一特征;第二步,根据所述二维输入特征和所述第一特征加权生成所述第一融合特征。降维处理可以看作是将三维输入特征迁移至二维特征的空间,即可以理解为是将三维输入特征张量的最后一维大小由l2降至1的过程。
在一个示例中,可以根据以下等式将三维输入特征f3d降维至二维输入特征f2d的空间中,
其中,t表示转移函数,其函数形式根据n1个经典卷积核所决定。通过转移函数,将3D特征张量迁移至2D特征的空间中。迁移后的特征张量的其大小可以为p1×p2×l3×1。
应理解,上述等式为使用经典卷积过程将三维输入特征迁移至二维空间,除上述经典卷积算法外,还可以根据其它算法进行降维处理。例如,根据主成分分析(principalcomponent analysis,PCA)算法,线性降维算法(linear discriminant analysis,LDA)等,还可以使用其它任何能够使三维输入特征进行降维的相关算法来代替经典卷积算法和PC算法,本申请对此不作限定。
130,对得到的第一融合特征进行近邻算法处理,得到特征集合。
近邻算法,或者称为K最近邻(k-nearest neighbor,kNN)分类算法是数据挖掘分类技术中的方法之一。所谓K最近邻,就是k个最近的邻居的意思,也就意味着每个样本都可以用它最接近的k个邻居来代表。
在一个示例中,根据近邻算法确定第一融合特征的K个近邻特征的集合,K为正整数;确定K个近邻特征的集合的中心特征;根据确定的中心特征对所述K个近邻特征的集合进行减法处理,得到所述特征集合。
例如,根据KNN算法对第一融合特征进行最近邻查询,得到第一融合特征的最近邻的K个特征集合。该K个特征集合即为已知特征集合(此时,K=n)计算已知特征集合各个特征与第一融合特征的距离,将最小的k个距离所对应的特征组成一个集合,即为第一融合特征的k个近邻特征的集合确定K个近邻特征的集合的中心特征
例如,可以是K个近邻特征的集合中各个特征张量和的平均值,或者,可以确定K个近邻特征的集合的内类中心特征可以是K个近邻特征的集合中各个特征张量所决定的内类中心特征向量,本申请实施例中对中心特征的计算方法不作任何限定。
140,对三维点云进行近邻算法处理,得到点集合。
在一个示例中,根据近邻算法确定三维点云的M个近邻点的集合,M为正整数,确定M个近邻点的集合的中心点,根据中心点对所述M个近邻点的集合进行减法处理,得到点集合。
例如,根据KNN算法对三维点云p3d进行最近邻查询,得到三维点云的最近邻的M个点的集合计算已知点集合各个点与三维点云p3d的距离,将最小的M个距离所对应的点组成一个集合,即为三维点云的M个近邻特征的集合
确定M个近邻点的集合的中心点可以是M个近邻点的集合中各个点的平均值,或者,可以确定M个近邻点的集合的内类中心点可以是M个近邻点的集合中各个点所决定的内类中心点,本申请实施例中对中心点的计算方法不作任何限定。
150,对得到的特征集合和点集合进行融合处理,得到第二融合特征。
其中,t表示转移函数,所述函数形式根据n3个卷积核k1,k2,…kn3所确定;对所述点集合特征空间张量和所述特征集合进行乘法处理,得到所述第二融合特征。根据以下等式进行乘法处理得到所述第二融合特征fp,
160,根据得到的第二融合特征确定目标的三维位置信息。
在本申请实施例的技术方案中,利用二维输入特征和三维输入特征的融合,以及特征集合和点集合的融合,将二维与三维的局部空间关系特征以及多维空间的数据相结合运用在目标检测中,提高了三维目标检测的准确率。
应理解,上述的具体的例子只是为了帮助本领域技术人员更好地理解本申请实施例,而非限制本申请实施例的范围。
还应理解,本申请实施例中的公式只是一种示例,而非限制本申请实施例的范围,各公式可以进行变形,这些变形也应属于本申请保护的范围。
还应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
还应理解,本说明书中描述的各种实施方式,既可以单独实施,也可以组合实施,本申请实施例对此并不限定。
图8是本申请实施例的目标检测的方法的示意性流程图。图8所示的方法可以应用于上述图5所示的系统200中,且该方法300可以由上述系统执行,但本申请实施例不限于此。
301、系统获取二维输入数据和三维输入数据。
302、系统在输入数据中提取二维输入特征和三维输入特征。
例如,可以采用CNN对输入的2D图像进行卷积运算,得到图像的空间特征f2d。如图9所示,通过CNN模型对输入的2D图像进行卷积处理,得到输入图像的卷积特征图。其中,CNN模块可以采用多种构架实现,例如,VGG16、Resnet网络等。另外,CNN模块的系数需要经过训练得到。
对于三维输入数据,可以采用卷积神经网络中的分离模块将三维输入数据分离为三维输入特征和三维点云。例如图7所示。
应理解,提取二维输入特征和三维输入特征可以是相互独立的,两者既可以同时进行,也可以依次进行,本申请对此不作限定。
303、将二维特征和三维特征进行前置融合。
在步骤303中,可以将输入系统中的三维特征与二维特征进行融合处理,生成融合后的输入特征。
具体地,可以先将输入的三维特征进行降维处理,将降维的三维特征经过卷积运算,进而与二维特征进行加权,生成三维特征和二维特征进行融合处理的第一融合特征。
如图10所示,二维特征和三维特征进行前置融合的具体过程包括:
应理解,上述等式为使用经典卷积过程将三维输入特征迁移至二维空间,除经典卷积算法外,还可以根据其它算法进行降维处理,例如,根据多窗口相位相关(phasecorrelation,PC)算法。还可以使用其它任何能够使三维输入特征进行降维的相关算法来代替经典卷积算法和PC算法,例如,根据主成分分析(principal component analysis,PCA)算法,线性降维算法(linear discriminant analysis,LDA)等,本申请对此不作限定。
应理解,在本申请实施中,前置融合特征可以是图6中的第一融合特征。具体流程与图6中的步骤120相似,此处不再赘述。
304、特征空间局部计算。
根据前置融合特征进行近邻算法处理,可以生成具有局部空间关系的特征集合。
在一个示例中,特征空间局部计算的具体流程包括但不限于以下步骤:
第一步,用knn算法对融合后的特征进行最近邻查询,得到特征的最近邻K个特征集合,例如,计算过程如下:
其计算过程可以如下:
应理解,本申请实施例中的公式只是一种示例,而非限制本申请实施例的范围,各公式可以进行变形,这些变形也应属于本申请保护的范围。
305、点空间局部计算。
将三维输入数据中的三维点云进行近邻算法处理,可以生成具有局部空间关系的点集合。
在一个示例中,点空间局部计算的具体流程包括但不限于以下步骤:
其计算过程可以如下:
应理解,本申请实施例中的公式只是一种示例,而非限制本申请实施例的范围,各公式可以进行变形,这些变形也应属于本申请保护的范围。
306、二维和三维特征进行后置融合。
在一个示例中,进行后置融合的具体流程包括但不限于以下步骤:
应理解,上述等式为使用经典卷积的过程,除上述经典卷积算法外,还可以根据其它算法进行降维处理,例如,根据PC算法。还可以使用其它任何相关算法来代替经典卷积算法和PC算法,本申请实施例对此不作限定。
可以使用但不局限于矩阵相乘:
307、利用CNN进行卷积运算,得到适合后续卷积神经网络中模块用于回归目标检测的特征。
308、利用CNN进行卷积运算,得到目标检测物体的3D位置信息。
还应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
还应理解,本说明书中描述的各种实施方式,既可以单独实施,也可以组合实施,本申请实施例对此并不限定。
在本申请实施例的技术方案中,利用二维输入特征和三维输入特征的融合,以及特征集合和点集合的融合,将二维与三维的局部空间关系特征以及多维空间的数据相结合运用在目标检测中,提高了三维目标检测的准确率。
为了与现有的目标检测的方法进行对比,下面结合表1对本申请实施例的目标检测的方法的效果进行说明。表1示出了本申请实施例的目标检测的方法在不同的常见物体上的检测准确率,例如,本申请的目标检测的方法在汽车,行人,自行车这些路上常见物体的检测的准确率均比现有方法有显著提升。
表1
从表1中可以看出,在不同数据集上,本申请的目标检测方法的检测的准确率均高其它现有方案的检测的准确率,因此,本申请实施例的目标检测方法具有较高的检测准确率。
上文详细描述了本申请实施例的目标检测的方法,下面将描述本申请实施例的目标检测的装置。应理解,图11至图13所示的目标检测的装置具体可以是云端地理位置服务产品、汽车自动驾驶设备、汽车辅助驾驶设备等,工业机器人设备和家政机器人设备等,本申请的目标检测方法还可以是部署在相关设备的计算节点上,通过软件改造,能够提升物体检测的准确率。
还应理解,本申请实施例的目标检测的装置可以执行前述本申请实施例的各种方法,即以下各种产品的具体工作过程,可以参考前述方法实施例中的对应过程。
图11是本申请实施例的目标检测的装置的示意性框图。图11的目标检测的装置1100包括:
获取模块1110,用于获取目标的二维输入数据和三维输入数据,所述二维输入数据包括二维输入特征,所述二维输入特征为二维图像的输入矩阵,所述三维输入数据包括三维点云和三维输入特征,所述三维输入特征为所述三维点云的输入矩阵;
第一融合模块1120,用于对所述二维输入特征和所述三维输入特征进行融合处理,得到第一融合特征;
第一处理模块1130,用于对所述第一融合特征进行近邻算法处理,得到特征集合;
第二处理模块1140,用于对所述三维点云进行近邻算法处理,得到点集合;
第二融合模块1150,用于对所述特征集合和所述点集合进行融合处理,得到第二融合特征;
确定模块1160,用于根据所述第二融合特征确定所述目标的三维位置信息。
在本申请实施例的技术方案中,利用二维输入特征和三维输入特征的融合,以及特征集合和点集合的融合,将二维与三维的局部空间关系特征以及多维空间的数据相结合运用在目标检测中,提高了三维目标检测的准确率。
可选地,作为一个实施例,所述第一融合模块1120具体用于:将所述三维输入特征转换为第一特征,所述第一特征为与所述二维输入特征具有相同维度的输入矩阵;根据所述二维输入特征和所述第一特征加权生成所述第一融合特征。
可选地,作为一个实施例,所述第一融合模块1120具体用于:将所述三维输入特征进行降维处理和卷积处理,得到所述第一特征。
在本申请实施例的技术方案中,将三维输入特征转换为二维的第一特征的过程可以是将三维输入特征首先从三维空间降维至二维空间,例如,将三维输入特征的张量的最后一维的大小降低至1,再通过卷积算法得到第一特征。
应理解,在本申请的实施例中,可以使用但不限于卷积算法,还可以是经过PC算法或者相关的算法处理得到第一特征。例如,还可以根据主成分分析(principal componentanalysis,PCA)算法,或者,线性降维算法(linear discriminant analysis,LDA)等,或者可以根据其它任何能够使三维输入特征进行降维的相关算法来代替经典卷积算法和PC算法,本申请对此不作限定。
可选地,作为一个实施例,所述第一融合模块1120具体用于:根据以下等式将所述三维输入特征f3d降维至二维空间,
其中,t表示转移函数,所述转移函数的形式是根据n2个卷积核k1,k2,…kn2确定的。
可选地,作为一个实施例,所述第一处理模块1130具体用于:根据近邻算法确定所述第一融合特征的K个近邻特征的集合,所述K为正整数;确定所述K个近邻特征的集合的中心特征;根据所述中心特征对所述K个近邻特征的集合进行减法处理,得到所述特征集合。
在本申请实施例的技术方案中,通过对第一融合特征进行近邻算法处理,得到特征集合,能够提高输入数据的准确性,从而提高三维目标检测的准确率。
可选地,作为一个实施例,所述第二处理模块1140具体用于:根据近邻算法确定所述三维点云的M个近邻点的集合,其中,所述M为正整数;确定所述M个近邻点的集合的中心点;根据所述中心点对所述M个近邻点的集合进行减法处理,得到所述点集合。
在本申请实施例的技术方案中,通过对三维点云进行近邻算法处理,得到点集合,能够提高输入数据的准确性,从而提高三维目标检测的准确率。
可选地,作为一个实施例,所述第二融合模块1150具体用于:将所述点集合转换至所述特征集合的空间,得到点集合特征空间张量;对所述点集合特征空间张量和所述特征集合进行乘法处理,得到所述第二融合特征。
在本申请实施例的技术方案中,将输入数据中的点集合和特征集合进行融合处理,充分利用了二维输入数据和三维输入数据的融合特性,提高了三维目标检测的准确率。
可选地,作为一个实施例,所述第二融合模块1150具体用于:根据以下等式进行乘法处理得到所述第二融合特征fp,
在本申请实施例的技术方案中,根据得到的第二融合特征可以进行卷积处理从而得到目标检测物体的三维位置信息,将二维与三维的局部空间关系特征以及多维空间的数据相结合运用在目标检测中,提高了三维目标检测的准确率。此外,由于综合利用了局部空间关系特征以及多维空间的数据,降低了网络的复杂度,提高了三维目标检测的实时性。
图12是本申请实施例的目标检测的装置的示意性框图。图12所示的目标检测的装置1200。
应理解,在图12所示的目标检测的装置1200中CNN模块1202、CNN模块1204、CNN模块1209、CNN模块1211可以是卷积神经网络下的同一模块,也可以是卷积神经网络下的不同模块。类似的,KNN模块1205、KNN模块1207可以是卷积神经网络下的同一模块,也可以是卷积神经网络下的不同模块。以及局部去中心模块1206和局部去中心模块1208可以是卷积神经网络下的同一模块,也可以是卷积神经网络下的不同模块。其中,各个模块的功能如下所述:
输入模块1201用于,获取三维输入数据和二维输入数据。
在本申请中,输入模块1201的功能可以看作是图11的目标检测的装置1100中的获取模块1110的功能类似。
CNN模块1202用于,根据CNN算法对二维输入数据,例如2D图像进行卷积运算,得到图像的空间特征,例如2D特征。
分离模块1203用于,将三维输入数据分离为3D点输入和3D特征输入。
例如,如图7所示,分离模块可以将输入的三维数据进行分离处理,生成三维的输入点和三维输入特征。
CNN模块1204用于,根据CNN算法对2D特征和3D特征进行融合处理得到融合的第一融合特征。
例如,首先将三维输入特征进行降维处理和卷积处理,将三维输入特征转换成二维的第一特征,将二维的第一特征与二维输入特征进行融合处理,生成第一融合特征。
需要说明的是,CNN模块1204可以与CNN模块1202可以是同一模块,也可以是不同模块。
KNN模块1205用于,根据KNN算法对融合后的第一融合特征进行最近邻查询,得到k个近邻特征的集合。
局部去中心模块1206用于,将k个近邻特征的集合减去该集合的中心点特征,得到特征集合。
在本申请实施例的技术方案中,通过对第一融合特征进行近邻算法处理,得到特征集合,能够提高输入数据的准确性,从而提高三维目标检测的准确率。
KNN模块1207用于,根据KNN算法对3D点进行最近邻查询,得到3D点的M个近邻点的集合。
局部去中心模块1208用于,将M个近邻点的集合减去该集合的中心点,得到点集合。
在本申请实施例的技术方案中,通过对三维点云进行近邻算法处理,得到点集合,能够提高输入数据的准确性,从而提高三维目标检测的准确率。
CNN模块1209用于,根据CNN算法对点集合进行卷积运算,得到局部点集合的空间特征。
加权模块1210用于,根据CNN(卷积神经网络)和FC(全链接)进行卷积运算将两个局部空间特征进行融合处理,得到第二融合特征,即将特征集合和点集合进行融合处理,得到第二融合特征。
CNN模块1211用于,根据CNN算法进行卷积运算,得到适合回归模块的特征。
位置回归模块1212用于,根据CNN算法进行卷积运算,得到物体的3D位置。
如图12所示的目标检测的装置1200可以根据得到的第二融合特征可以进行卷积处理从而得到目标检测物体的三维位置信息,将二维与三维的局部空间关系特征以及多维空间的数据相结合运用在目标检测中,提高了目标检测的准确率。此外,由于综合利用了局部空间关系特征以及多维空间的数据,降低了网络的复杂度,提高了目标检测的实时性。
图13是本申请实施例的目标检测的装置的硬件结构示意图。图13所示的目标检测的装置1300(该目标检测的装置1300具体可以是一种计算机设备)包括存储器1301、处理器1302、通信接口1303以及总线1304。其中,存储器1301、处理器1302、通信接口1303通过总线1304实现彼此之间的通信连接。
存储器1301可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器1301可以存储程序,当存储器1301中存储的程序被处理器1302执行时,处理器1302和通信接口1303用于执行本申请实施例的目标检测的方法的各个步骤。
处理器1302可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路,用于执行相关程序,以实现本申请实施例的目标检测的装置中的模块所需执行的功能,或者执行本申请方法实施例的目标检测的方法。
处理器1302还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的目标检测的方法的各个步骤可以通过处理器1302中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1302还可以是通用处理器、数字信号处理器(DigitalSignal Processing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field ProgrammableGate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1301,处理器1302读取存储器1301中的信息,结合其硬件完成本申请实施例的目标检测的装置中包括的模块所需执行的功能,或者执行本申请方法实施例的目标检测的方法。
通信接口1303使用例如但不限于收发器一类的收发装置,来实现装置1300与其他设备或通信网络之间的通信。例如,可以通过通信接口1303获取输入数据。
总线1304可包括在装置1300各个部件(例如,存储器1301、处理器1302、通信接口1303)之间传送信息的通路。
应注意,尽管图13所示的装置1300仅仅示出了存储器1301、处理器1302、通信接口1303,但是在具体实现过程中,本领域的技术人员应当理解,装置1300还包括实现正常运行所必须的其他器件。同时,根据具体需要,本领域的技术人员应当理解,装置1300还可包括实现其他附加功能的硬件器件。此外,本领域的技术人员应当理解,装置1300也可仅仅包括实现本申请实施例所必须的器件,而不必包括图13中所示的全部器件。
应理解,目标检测的装置1300可以与上述图11中的目标检测的装置1100相对应,目标检测的装置1100中的第一融合模块1110、第一处理模块1130、第二处理模块1140、第二融合模块1150以及确定模块1160的功能可以由处理器1302实现,获取模块1110的功能可以由通信接口1303实现。为避免重复,此处适当省略详细描述。
本申请实施例还提供了一种处理装置,包括处理器和接口;所述处理器,用于执行上述任一方法实施例中的目标检测的方法。
应理解,上述处理装置可以是一个芯片。例如,该处理装置可以是现场可编程门阵列(field-programmable gate array,FPGA),可以是专用集成芯片(applicationspecific integrated circuit,ASIC),还可以是系统芯片(system on chip,SoC),还可以是中央处理器(central processor unit,CPU),还可以是网络处理器(networkprocessor,NP),还可以是数字信号处理电路(digital signal processor,DSP),还可以是微控制器(micro controller unit,MCU),还可以是可编程控制器(programmable logicdevice,PLD)或其他集成芯片。
本申请实施例还提供一种平台系统,其包括前述的目标检测的装置。
本申请实施例还提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被计算机执行时实现上述任一方法实施例的方法。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品被计算机执行时实现上述任一方法实施例的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,高密度数字视频光盘(digitalvideo disc,DVD))、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
应理解,本文中涉及的第一、第二、第三、第四以及各种数字编号仅为描述方便进行的区分,并不用来限制本申请实施例的范围。
在本说明书中使用的术语“部件”、“模块”、“系统”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如,部件可以是但不限于,在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或计算机。通过图示,在计算设备上运行的应用和计算设备都可以是部件。一个或多个部件可驻留在进程和/或执行线程中,部件可位于一个计算机上和/或分布在2个或更多个计算机之间。此外,这些部件可从在上面存储有各种数据结构的各种计算机可读介质执行。部件可例如根据具有一个或多个数据分组(例如来自与本地系统、分布式系统和/或网络间的另一部件交互的二个部件的数据,例如通过信号与其它系统交互的互联网)的信号通过本地和/或远程进程来通信。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
另外,本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应理解,在本申请实施例中,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random accessmemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (16)
1.一种目标检测的方法,其特征在于,包括:
获取目标的二维输入数据和三维输入数据,所述二维输入数据包括二维输入特征,所述二维输入特征为二维图像的输入矩阵,所述三维输入数据包括三维点云和三维输入特征,所述三维输入特征为所述三维点云的输入矩阵;
对所述二维输入特征和所述三维输入特征进行融合处理,得到第一融合特征;
对所述第一融合特征进行近邻算法处理,得到特征集合;
对所述三维点云进行近邻算法处理,得到点集合;
对所述特征集合和所述点集合进行融合处理,得到第二融合特征;
根据所述第二融合特征确定所述目标的三维位置信息;
所述对所述特征集合和所述点集合进行融合处理,得到第二融合特征,包括:
将所述点集合转换至所述特征集合的空间,得到点集合特征空间张量;
对所述点集合特征空间张量和所述特征集合进行乘法处理,得到所述第二融合特征;
所述对所述二维输入特征和所述三维输入特征进行融合处理,得到第一融合特征,包括:
将所述三维输入特征转换为第一特征,所述第一特征为与所述二维输入特征具有相同维度的输入矩阵;
根据所述二维输入特征和所述第一特征加权生成所述第一融合特征。
2.根据权利要求1所述的方法,其特征在于,所述将所述三维输入特征转换为二维的第一特征,包括:
将所述三维输入特征进行降维处理和卷积处理,得到所述第一特征。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述对所述第一融合特征进行近邻算法处理,得到特征集合,包括:
根据近邻算法确定所述第一融合特征的K个近邻特征的集合,所述K为正整数;
确定所述K个近邻特征的集合的中心特征;
根据所述中心特征对所述K个近邻特征的集合进行减法处理,得到所述特征集合。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述对所述三维点云进行近邻算法处理,得到点集合,包括:
根据近邻算法确定所述三维点云的M个近邻点的集合,其中,所述M为正整数;
确定所述M个近邻点的集合的中心点;
根据所述中心点对所述M个近邻点的集合进行减法处理,得到所述点集合。
9.一种目标检测的装置,其特征在于,包括:
获取模块,用于获取目标的二维输入数据和三维输入数据,所述二维输入数据包括二维输入特征,所述二维输入特征为二维图像的输入矩阵,所述三维输入数据包括三维点云和三维输入特征,所述三维输入特征为所述三维点云的输入矩阵;
第一融合模块,用于对所述二维输入特征和所述三维输入特征进行融合处理,得到第一融合特征;
第一处理模块,用于对所述第一融合特征进行近邻算法处理,得到特征集合;
第二处理模块,用于对所述三维点云进行近邻算法处理,得到点集合;
第二融合模块,用于对所述特征集合和所述点集合进行融合处理,得到第二融合特征;
确定模块,用于根据所述第二融合特征确定所述目标的三维位置信息;
所述第二融合模块具体用于:
将所述点集合转换至所述特征集合的空间,得到点集合特征空间张量;
对所述点集合特征空间张量和所述特征集合进行乘法处理,得到所述第二融合特征;
所述第一融合模块具体用于:
将所述三维输入特征转换为第一特征,所述第一特征为与所述二维输入特征具有相同维度的输入矩阵;
根据所述二维输入特征和所述第一特征加权生成所述第一融合特征。
10.根据权利要求9所述的装置,其特征在于,所述第一融合模块具体用于:
将所述三维输入特征进行降维处理和卷积处理,得到所述第一特征。
13.根据权利要求9至12中任一项所述的装置,其特征在于,所述第一处理模块具体用于:
根据近邻算法确定所述第一融合特征的K个近邻特征的集合,所述K为正整数;
确定所述K个近邻特征的集合的中心特征;
根据所述中心特征对所述K个近邻特征的集合进行减法处理,得到所述特征集合。
14.根据权利要求9至12中任一项所述的装置,其特征在于,所述第二处理模块具体用于:
根据近邻算法确定所述三维点云的M个近邻点的集合,其中,所述M为正整数;
确定所述M个近邻点的集合的中心点;
根据所述中心点对所述M个近邻点的集合进行减法处理,得到所述点集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810837972.4A CN109902702B (zh) | 2018-07-26 | 2018-07-26 | 目标检测的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810837972.4A CN109902702B (zh) | 2018-07-26 | 2018-07-26 | 目标检测的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902702A CN109902702A (zh) | 2019-06-18 |
CN109902702B true CN109902702B (zh) | 2021-08-03 |
Family
ID=66943076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810837972.4A Active CN109902702B (zh) | 2018-07-26 | 2018-07-26 | 目标检测的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902702B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111886597A (zh) * | 2019-06-28 | 2020-11-03 | 深圳市大疆创新科技有限公司 | 可移动平台的障碍物检测方法、装置及可移动平台 |
CN110275163B (zh) * | 2019-06-28 | 2020-11-27 | 清华大学 | 一种基于神经网络的毫米波雷达探测目标成像方法 |
CN110414374B (zh) * | 2019-07-08 | 2021-12-17 | 深兰科技(上海)有限公司 | 一种障碍物位姿的确定方法、装置、设备及介质 |
CN112154448A (zh) * | 2019-09-29 | 2020-12-29 | 深圳市大疆创新科技有限公司 | 目标检测方法、设备及可移动平台 |
CN112699907B (zh) * | 2019-10-22 | 2024-02-09 | 华为云计算技术有限公司 | 数据融合的方法、装置和设备 |
CN111079523B (zh) * | 2019-11-05 | 2024-05-14 | 北京迈格威科技有限公司 | 物体检测方法、装置、计算机设备和存储介质 |
US11282218B2 (en) * | 2019-11-25 | 2022-03-22 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for providing medical guidance using a patient depth image |
CN111192277A (zh) * | 2019-12-31 | 2020-05-22 | 华为技术有限公司 | 一种实例分割的方法及装置 |
CN111310765A (zh) * | 2020-02-14 | 2020-06-19 | 北京经纬恒润科技有限公司 | 激光点云语义分割方法和装置 |
CN111476242B (zh) * | 2020-03-31 | 2023-10-20 | 北京经纬恒润科技股份有限公司 | 一种激光点云语义分割方法及装置 |
CN111767843B (zh) * | 2020-06-29 | 2024-01-02 | 阿波罗智联(北京)科技有限公司 | 三维位置预测方法、装置、设备以及存储介质 |
CN112966670A (zh) * | 2021-04-08 | 2021-06-15 | 北京的卢深视科技有限公司 | 人脸识别方法、电子设备及存储介质 |
CN113111978B (zh) * | 2021-06-11 | 2021-10-01 | 之江实验室 | 一种基于点云和图像数据的三维目标检测系统和方法 |
CN113724393B (zh) * | 2021-08-12 | 2024-03-19 | 北京达佳互联信息技术有限公司 | 三维重建方法、装置、设备及存储介质 |
CN114367110B (zh) * | 2022-01-10 | 2023-06-20 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN117315886B (zh) * | 2023-09-07 | 2024-04-12 | 安徽建筑大学 | 一种基于uwb雷达的人员即将跌倒检测方法及装置 |
CN117806336A (zh) * | 2023-12-26 | 2024-04-02 | 珠海翔翼航空技术有限公司 | 基于二维和三维标识的飞机自动泊位方法、系统及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104715254A (zh) * | 2015-03-17 | 2015-06-17 | 东南大学 | 一种基于2d和3d sift特征融合的一般物体识别方法 |
CN104778441A (zh) * | 2015-01-07 | 2015-07-15 | 深圳市唯特视科技有限公司 | 融合灰度信息和深度信息的多模态人脸识别装置及方法 |
CN105678235A (zh) * | 2015-12-30 | 2016-06-15 | 北京工业大学 | 基于典型区域多维度特征的三维人脸表情识别方法 |
-
2018
- 2018-07-26 CN CN201810837972.4A patent/CN109902702B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778441A (zh) * | 2015-01-07 | 2015-07-15 | 深圳市唯特视科技有限公司 | 融合灰度信息和深度信息的多模态人脸识别装置及方法 |
CN104715254A (zh) * | 2015-03-17 | 2015-06-17 | 东南大学 | 一种基于2d和3d sift特征融合的一般物体识别方法 |
CN105678235A (zh) * | 2015-12-30 | 2016-06-15 | 北京工业大学 | 基于典型区域多维度特征的三维人脸表情识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109902702A (zh) | 2019-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902702B (zh) | 目标检测的方法和装置 | |
AU2017324923B2 (en) | Predicting depth from image data using a statistical model | |
CN113128348B (zh) | 一种融合语义信息的激光雷达目标检测方法及系统 | |
Yao et al. | Estimating drivable collision-free space from monocular video | |
US10477178B2 (en) | High-speed and tunable scene reconstruction systems and methods using stereo imagery | |
US11348270B2 (en) | Method for stereo matching using end-to-end convolutional neural network | |
CN110796686A (zh) | 目标跟踪方法及设备、存储装置 | |
KR20200075727A (ko) | 깊이 맵 산출 방법 및 장치 | |
Gupta et al. | Mergenet: A deep net architecture for small obstacle discovery | |
Liu et al. | Layered interpretation of street view images | |
Dehnavi et al. | FPGA based real-time on-road stereo vision system | |
CN114299405A (zh) | 一种无人机图像实时目标检测方法 | |
Raza et al. | Framework for estimating distance and dimension attributes of pedestrians in real-time environments using monocular camera | |
Li et al. | Deep learning based monocular depth prediction: Datasets, methods and applications | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 | |
Leite et al. | Exploiting motion perception in depth estimation through a lightweight convolutional neural network | |
CN114140758A (zh) | 一种目标检测方法、装置及计算机设备 | |
CN114358133B (zh) | 一种基于语义辅助双目视觉slam检测回环帧的方法 | |
CN114998610A (zh) | 一种目标检测方法、装置、设备及存储介质 | |
Yoo et al. | Accurate object distance estimation based on frequency‐domain analysis with a stereo camera | |
CN115588187A (zh) | 基于三维点云的行人检测方法、装置、设备以及存储介质 | |
Milli et al. | Multi-Modal Multi-Task (3MT) Road Segmentation | |
CN113065521B (zh) | 物体识别方法、装置、设备及介质 | |
Zhao et al. | Distance transform pooling neural network for lidar depth completion | |
US20210350222A1 (en) | System and method for self-supervised depth and ego-motion overfitting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |