CN108229548A

CN108229548A - 一种物体检测方法及装置

Info

Publication number: CN108229548A
Application number: CN201711452468.4A
Authority: CN
Inventors: 刘杨; 张志军
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2018-06-29

Abstract

本申请实施例公开了一种物体检测方法及装置，其中方法包括：获取待检测物体的特征信息，所述特征信息包括RGB图像、深度图像和三维点云信息；根据所述深度图像和所述三维点云信息确定所述待检测物体的形状特征矩阵；根据所述RGB图像和所述形状特征矩阵确定所述待检测物体的类别。采用本申请实施例，可以有效提高物体检测的准确率。

Description

一种物体检测方法及装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种物体检测方法及装置。

背景技术

物体检测一直都是计算机视觉研究的热点问题，检测到物体后能方便对物体进行存储、分析、3D建模、识别、跟踪和搜索等。早期针对物体检测的研究借助于人工特征，例如尺度不变特征转换(Scale-Invariant Feature Transform，SIFT)和加速稳健特征(SpeededUpRobustFeatures，SURF)等。现有算法需要提取红绿蓝(Red、Green、Blue，RGB)图像中的RGB特征信息，并对提取出的RGB特征信息进行匹配以达到物体检测的目的。但由于现有算法仅依靠RGB特征信息来进行物体检测，故当物体色彩或纹理相似时，现有算法易发生混淆，从而无法准确进行物体检测，如何提高物体检测的准确率是目前亟需解决的问题。

发明内容

本申请实施例所要解决的技术问题在于，提供一种物体检测方法及装置，可以有效提高物体检测的准确率。

第一方面，本申请实施例提供了一种物体检测方法，该方法包括：首先获取待检测物体的特征信息，其中，该特征信息包括RGB图像、深度图像和三维点云信息；然后根据该待检测物体的深度图像和三维点云信息确定该待检测物体的形状特征矩阵；最后根据该待检测物体的RGB图像和该待检测物体的形状特征矩阵确定待检测物体的类别。采用上述方式，可以结合物体的形状信息和颜色信息进行物体识别，从而可以有效提高物体检测的准确率。

本申请实施例中，该待检测物体的RGB图像和形状特征矩阵均为三通道矩阵，该待检测物体的RGB图像与深度图像在像素位置上对应，该RGB图像和该形状特征矩阵也对应；该形状特征矩阵包括几何形状信息，该RGB图像包括色彩和纹理信息；其中，该几何形状信息包括法向量、投影法向量、曲率方向、投影曲率方向和曲率值中的一种或多种，该色彩和纹理信息例如是灰度级强度和灰度级梯度变化。

在一种可能的实施例中，根据待检测物体的RGB图像和形状特征矩阵确定待检测物体的类别的具体方式为：将该待检测物体的RGB图像和形状特征矩阵输入到神经网络中进行处理，得到该待检测物体的类别。其中，该神经网络例如是卷积神经网络；利用神经网络对RGB图像和形状特征矩阵进行处理，可以有效提高数据的处理效率，并且可以依据监督学习，利用大量样本对神经网络进行训练，从而可以不断提高神经网络检测物体的准确率。

在一种可能的实施例中，该神经网络是预先训练得到的，首先获取训练物体的RGB图像和形状特征矩阵，并获取该训练物体当前的训练语料；然后将该训练物体的RGB图像和形状特征矩阵输入到初始神经网络中进行处理，得到该训练物体的训练描述信息；最后确定该训练物体当前的训练语料与该训练描述信息的相似度，若该训练物体当前的训练语料与该训练描述信息的相似度小于预设相似度阈值，则调整所述初始神经网络中的卷积参数，得到训练后的该神经网络。其中，该训练物体可以是与该待检测物体的类别相同的物体。

在一种可能的实施例中，将待检测物体的RGB图像和形状特征矩阵输入到神经网络中进行处理，得到待检测物体的类别的具体方式为：首先将该待检测物体的RGB图像输入到该神经网络包括的第一子神经网络中进行处理，得到该第一子神经网络的输出，同时将该待检测物体的形状特征矩阵输入到该神经网络包括的第二子神经网络中进行处理，得到该第二子神经网络的输出；然后将得到的该第一子神经网络的输出和该第二子神经网络的输出输入到该神经网络包括的全连接层中进行融合，得到该待检测物体的类别。

在一种可能的实施例中，将第一子神经网络的输出和第二子神经网络的输出输入到神经网络包括的全连接层中进行融合，得到待检测物体的类别的具体方式为：首先将该第一子神经网络的输出和该第二子神经网络的输出输入到该神经网络包括的全连接层中进行融合，得到分类结果，其中，得到的分类结果包括至少一个类别指示参数，该类别指示参数用于指示待检测物体属于相应类别的概率；然后获取该至少一个类别指示参数中数值最大的目标类别指示参数；最后当该目标类别指示参数的数值大于预设数值阈值时，确定该待检测物体的类别为该目标类别指示参数对应的类别。

在一种可能的实施例中，获取待检测物体的特征信息的具体方式为：首先获取待检测物体的目标图像；然后从该目标图像中确定感兴趣区域，并获取该感兴趣区域对应的特征信息。其中，该感兴趣区域可以是该目标图像的所有区域，也可以是该目标图像的部分区域；该感兴趣区域中可以包括一个待检测物体，也可以不包括待检测物体，也即是说，该感兴趣区域只包括背景图像。

在一种可能的实施例中，根据待检测物体的RGB图像和形状特征矩阵确定待检测物体的类别之后，首先根据该待检测物体的RGB图像、深度图像和三维点云信息确定该待检测物体的位置信息，然后根据该待检测物体的位置信息确定该待检测物体与目标对象之间的距离；最后当该待检测物体的类别属于危险物体类别，且该待检测物体与该目标对象之间的距离小于预设距离阈值时，发出警报信号。其中，该目标对象可以是用户或者幼童。

在一种可能的实施例中，该形状特征矩阵包括的几何形状信息为法向量，根据深度图像和三维点云信息确定待检测物体的形状特征矩阵的具体方式为：首先从该三维点云信息中确定出与该深度图像中的像素点对应的三维空间点；然后根据该三维点云信息获取该三维空间点的法向量，其中，该三维空间点的法向量为三维向量，该法向量的取值为与该三维空间点相切的平面方程的系数；最后根据该法向量的取值确定待检测物体的形状特征矩阵。

在一种可能的实施例中，该形状特征矩阵包括的几何形状信息为曲率值，根据深度图像和三维点云信息确定待检测物体的形状特征矩阵的具体方式为：首先从该三维点云信息中确定出与该深度图像中的像素点对应的三维空间点；然后根据该三维点云信息获取该三维空间点的最大曲率值、最小曲率值以及最大曲率值和最小曲率值的平均曲率值；最后根据最大曲率值、最小曲率值和平均曲率值确定待检测物体的形状特征矩阵。

第二方面，本申请实施例提供了一种物体检测装置，该装置包括：获取模块、第一确定模块、第二确定模块、训练模块、第三确定模块、警报模块，上述各个模块用于执行上述第一方面所述的任一种方法。

第三方面，本申请实施例提供了另一种物体检测装置，包括：处理器、存储器，该处理器、该存储器通过总线连接，该存储器存储有可执行程序代码，该处理器用于调用该可执行程序代码，执行上述第一方面所述的任一种方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的任一种方法。

第五方面，本申请实施例提供了一种神经网络，包括并联的第一子神经网络和第二子神经网络，所述神经网络还包括用于对所述第一子神经网络的输出和第二子神经网络的输出进行融合的全连接层。

第六方面，本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的任一种方法。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1是本申请实施例提供的一种物体检测方法的示意图；

图2是本申请实施例提供的一种物体检测结果的示意图；

图3是本申请实施例提供的一种物体检测方法的流程示意图；

图4是本申请实施例提供的一种点云信息的存储格式的示意图；

图5是本申请实施例提供的一种法向量和曲率的示意图；

图6是本申请实施例提供的另一种物体检测方法的示意图；

图7是本申请实施例提供的一种物体检测装置的结构示意图；

图8是本申请实施例提供的另一种物体检测装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

人工神经网络(artificial neural networks，ANN)，也简称为神经网络(NN)，是一种模仿动物神经网络行为特征进行信息处理的网络结构。将待处理信号输入这种网络，通过内部大量节点对信号进行非线性变换，从而达到处理信息的目的。神经网络的基本单元是“神经元”，可以看作一个计算与存储单元。计算是神经元对其的输入信号进行计算。存储是神经元暂存计算结果，并传递到下一层神经元。神经网络的基本结构是将许多个输入神经元的信号联结起来，作为一个输出神经元的输出信号。而这个输出神经元的输出信号也可以是另一个“神经元”的输入。卷积神经网络(convolutional neural network，CNN)是神经网络中的一种，可以用于处理图像。

由于卷积神经网络在处理RGB图像时，具备快速、准确率高等特点，故相对于计算机常规处理RGB图像的方式具备明显的优势；因此本申请实施例提供一种基于卷积神经网络的物体检测方法。请参见图1，图1是本申请实施例提供的一种基于卷积神经网络的物体检测方法的示意图。如图1所示，卷积神经网络包含了若干个卷积层(convolution)、采样层(pooling)以及全连接层(fullyconnected)。本申请实施例提供的一种基于卷积神经网络的物体检测方法主要包括以下步骤：首先获取待检测物体的RGB图像，其中，RGB图像是数字图像，而数字图像的本质则是一个三通道矩阵，RGB图像的矩阵元素的取值范围取决于灰度级的选取，通常是在0到255之间；然后将获取到的待检测物体的RGB图像输入到卷积神经网络中进行处理，待检测物体的RGB图像经过若干个卷积层和全连接层的卷积处理后，得到卷积神经网络的输出，该卷积神经网络的输出即是对待检测物体的分类结果。

其中，在每一个卷积层或全连接层，输入的RGB图像都要和若干个滤波模板进行卷积操作，而该层的输出则是下一卷积层或全连接层的输入。采样层则是对卷积层的输出的大小进行压缩，从而保证图像特征的高度紧凑。卷积神经网络的最终输出可以是一个对原始RGB图像进行编码的高维向量；进一步地，该高维向量通过相应的数学变换，可以直接对应到对该待检测物体进行分类的一个概率描述，即图1中的0.01、0.03、0.94、0.02等数字；最后，将卷积神经网络的输出结果中数值最大的概率值对应的类别确定为待检测物体的类别。举例来说，假设卷积神经网络的输出结果表示该待检测物体是狗的概率为0.01，是猫的概率为0.03，是船的概率为0.94，是鸟的概率为0.02，则可以确定该待检测物体为船。

需要说明的是，卷积神经网络可以在利用大量图像进行训练的过程中，不断更新卷积神经网络的滤波模板的权重，从而可以使得卷积神经网络的鲁棒性更强、适用性更广，进而不断提高利用卷积神经网络检测物体的准确率。

采用上述方式，通过利用卷积神经网络进行物体的检测，虽然可以在一定程度上提高物体检测的效率和准确率；但对于物体色彩或纹理相似的两幅图像，由于两幅RGB图像的灰度级强度很接近，卷积神经网络最后输出的图像编码也会相近，故而利用卷积神经网络无法准确识别出两幅RGB图像中物体的类别。请一并参见图2，如图2所示，由于只将带条纹的帽子的RGB图像作为卷积神经网络的输入，CNN会出现无法准确识别出待检测物体的类别的情况，可能会将带条纹的帽子归为具有类似纹理和色彩的纸抽盒。由此可见，当物体色彩或纹理相似时，利用卷积神经网络进行物体检测还是会出现物体被错误识别的问题。

为进一步解决由于物体色彩或纹理相似，卷积神经网络无法准确识别出物体的类别的问题，本申请实施例提供了另一种物体检测方法，该物体检测方法可以由智能手机、平板电脑、移动互联网设备(Mobile Internet Devices，MID)、智能机器人等配置深度传感器以及具备数据处理功能的智能终端来实现。请参见图3，图3是本申请实施例提供的另一种物体检测方法的流程示意图，该物体检测方法包括：

S301、终端获取待检测物体的特征信息。

本申请实施例中，待检测物体的特征信息由终端配置的深度传感器(例如Kinect传感器)获取得到，与传统彩色相机相比，深度传感器基于结构光原理，不仅可以提供RGB图像，还可以提供深度图像和三维点云信息。待检测物体的特征信息包括RGB图像、深度图像和三维点云信息，其中，RGB图像指的是待检测物体的彩色图像，即红绿蓝图像；三维点云信息指的是待检测物体表面上的点的三维空间位置信息；深度图像表示待检测物体的三维点云与深度传感器之间的距离信息，深度图像中的每个像素点对应于待检测物体的三维点云中的一个三维空间点，终端可以是通过将待检测物体的三维点云投影到二维图像平面，得到待检测物体的深度图像。

在一些可行的实施方式中，终端获取待检测物体的特征信息的具体方式为：终端首先通过其自身配置的深度传感器获取待检测物体的目标图像和三维点云信息，待检测物体的目标图像包括RGB图像和深度图像，其中，待检测物体可以是一个物体，也可以是多个物体，目标图像还可以只包括背景部分；然后从该目标图像中确定出感兴趣区域，其中，该感兴趣区域可以是该目标图像的所有区域，也可以是该目标图像的部分区域；确定的感兴趣区域可以是随机选取得到的，也可以是利用固定模式(例如滑动窗口)选取得到的，还可以是终端根据先验知识选取得到的，本申请实施例不作限定；最后获取该感兴趣区域对应的RGB图像、深度图像和三维点云信息，该感兴趣区域中可以包括待检测物体，也可以不包括待检测物体，也即是说，该感兴趣区域只包括背景图像。

其中，RGB图像的本质是一个三通道矩阵，RGB图像的矩阵元素的类型为无符号整型8位，取值范围是[0，255]，表示RGB图像各个像素点的灰度级强度。深度图像的本质是一个矩阵，矩阵元素的类型为无符号整型16位，取值范围是[0，65535]，表示深度图像中各个像素点对应的三维空间点到深度传感器的距离，距离值以毫米为单位，由于深度传感器观测范围的局限性，距离值通常在4000mm以内。三维点云信息描述了深度传感器能够观测到的所有三维空间点相对于深度传感器的三维空间位置。获取到的三维点云信息可以以.pcd文件的存储格式进行存储，也可以以其他存储格式进行存储，请一并参见图4，图4是存储三维点云信息的文件的部分截图，如图4所示，存储三维点云信息的文件的前面几行是特定描述深度传感器采集信息的数据，数据行的前三位是三维空间点的三维坐标(例如[x，y，z])的数值，第五位和第六位是与三维空间点对应的RGB图像的像素位置，第四位是一个24比特长的二进制字符串，即3个8比特，每一个8比特对应于一个灰度级，或是R，或是G，或是B，从而可以根据数据行的第四位可以解析出三个在[0，255]之间的数值，也即是与三维空间点对应的RGB图像的像素位置的三个灰度级。

S302、所述终端根据深度图像和三维点云信息确定所述待检测物体的形状特征矩阵。

本申请实施例中，待检测物体的深度图像中的每个元素对应于待检测物体的三维点云中的一个三维空间点，而该三维空间点又表示了待检测物体表面上的某一点，如此，待检测物体表面上的点的几何形状信息可以被提取。待检测物体表面上的点的几何形状信息包括但不限于法向量(Normal Vector)和曲率(Curvature)，几何形状信息用于描述待检测物体在三维空间中的几何形状特性。待检测物体表面上的点的几何形状信息可以被转换为与CNN输入相兼容的矩阵表示形式，也即是待检测物体的形状特征矩阵；例如，待检测物体表面上的某一点的法向量是一个三维向量，该法向量的取值对应于三维空间下与该点相切的平面方程的系数，终端将该法向量的三个取值作为形状特征矩阵的一个元素，以此类推，终端将待检测物体表面上的点的法向量的取值，都作为形状特征矩阵的元素，从而构建出与CNN输入相兼容的三维的形状特征矩阵。由于待检测物体的深度图像和RGB图像在像素位置上是对应的，故而确定出的待检测物体的RGB图像对应的三通道矩阵和形状特征矩阵也对应。

请一并参见图5，如图5所示，切点为待检测物体表面上的一点，切平面为与切点相切的平面，与切平面相垂直的向量便是法向量。其中，单位法向量的长度为1，三维空间中的标准切平面方程为ax+by+cz+d＝0，那么[a，b，c]^T即为单位法向量，且a²+b²+c²＝1，a、b和c的取值范围均为[-1，1]；终端将a，b和c作为待检测物体的形状特征矩阵的一个元素，表示相应三维空间点的法向量的方向，从而可以使得待检测物体的形状特征矩阵为与CNN输入相兼容的三通道矩阵。根据空间几何原理，经过法向量的任意一个参考平面都与切平面垂直，并且与待检测物体的表面相交，参考平面与待检测物体的表面之间形成的交线在切点处有一个弯曲程度(如右图中虚线所示)，这即是切点的曲率，曲率的取值范围是[0，+∞]。可以看出，切点的曲率有无数个，这是因为三维空间中经过切点的法向量的参考平面有无数个，参考平面与待检测物体的表面之间形成的交线也有无数个；而在这些曲率中，有三个最具代表性，即切点的最大曲率和最小曲率，以及最大曲率和最小曲率的平均值，即平均曲率(Mean Curvature)；切点的最大曲率与最小曲率合称为主曲率(PrincipalCurvatures)，终端将切点的两个主曲率值和平均曲率值作为待检测物体的形状特征矩阵的一个元素，从而可以使得待检测物体的形状特征矩阵为与CNN输入相兼容的三通道矩阵。

在一些可行的实施方式中，一个空间点对应一个三维坐标，确定某一空间点的法向量时，首先获取该空间点和该空间点的多个最近临点的三维坐标，然后计算得到该空间点和该多个最近临点的平均坐标，并计算得到该空间点和该多个最近临点的坐标的方差，其中，该坐标的方差和平均坐标也是三维的，故而根据该坐标的方差和平均坐标可以形成3乘3的协方差矩阵，该协方差矩阵的特征向量即对应该空间点的法向量。进一步地，首先获取该空间点和该空间点的多个最近临点的法向量，然后计算得到该空间点和该多个最近临点的法向量的平均值，并计算得到该空间点和该多个最近临点的法向量的方差，其中，该法向量的平均值和方差也是三维的，故而根据该法向量的平均值和方差可以形成3乘3的协方差矩阵，该协方差矩阵的特征向量即对应该空间点的曲率。

其中，法向量和曲率在一定程度上体现了待检测物体的几何形状信息，例如，待检测物体表面上某点的曲率较大，说明待检测物体表面在该点处弯曲较大。通常对曲率的讨论并不涉及方向，而只关注于大小，然而曲率本身是具备方向的，且根据微分几何原理，最大曲率的方向和最小曲率的方向互相垂直。在一些可行的实施方式中，终端也可以利用投影法向量(Projected Surface Normal)、曲率方向、投影曲率方向来构建出与CNN输入相兼容的三维的形状特征矩阵。投影法向量与法向量的含义相同，将表示法向量的三个值标准化到[0，255]时，先取绝对值再乘以255，对应得到表示投影法向量的三个值，相当于把表示法向量的三个值投影到了第一象限；曲率方向指的是最大曲率的方向，且为一个三维向量；将表示最大曲率方向的三个值标准化到[0，255]时，先取绝对值再乘以255，对应得到表示投影曲率方向的三个值。终端将表示投影法向量、曲率方向和/或投影曲率方向的三个取值作为形状特征矩阵的一个元素，从而构建出与CNN输入相兼容的三维的形状特征矩阵。

S303、所述终端将所述RGB图像和所述形状特征矩阵输入到神经网络中进行处理，得到所述待检测物体的类别。

本申请实施例中，用于检测物体，或者说用于处理RGB图像和形状特征矩阵的神经网络是预先训练得到的。终端首先获取训练物体的RGB图像和形状特征矩阵，并获取该训练物体当前的训练语料；其中，该训练物体包括多个类别的多个物体实例，该多个物体实例中包括与该待检测物体的类别相同的物体，该训练物体的形状特征矩阵是根据该训练物体的三维点云信息以及深度图像得到的，该训练物体的训练语料包括人为标记的类别等信息。终端然后将该训练物体的RGB图像和形状特征矩阵输入到初始神经网络中进行处理，得到该训练物体的训练描述信息，该训练物体的训练描述信息包括类别等信息；最后，终端确定该训练物体当前的训练语料与该训练描述信息的相似度，包括确定人为标记的该训练物体的类别与初始神经网络得到的该训练物体的类别的相似度；若该训练物体当前的训练语料与该训练描述信息的相似度小于预设相似度阈值，则调整该初始神经网络中的各层卷积层和/或全连接层中的卷积参数，或者说调整初始神经网络中的各层卷积层和/或全连接层中的滤波板的权重，得到训练后的该神经网络。采用上述方式，经过对初始神经网络的大量训练，可以不断更新初始卷积神经网络的各层卷积层和/或全连接层中的卷积参数，从而得到鲁棒性更强，适用性更广的神经网络，也即是得到本申请实施例用于检测物体类别的神经网络。

本申请实施例中，首先，终端将待检测物体的RGB图像输入到神经网络包括的第一子神经网络中进行处理，得到该第一子神经网络的输出；同时将该待检测物体的形状特征矩阵输入到神经网络包括的第二子神经网络中进行处理，得到该第二子神经网络的输出；然后，终端将得到的该第一子神经网络的输出和该第二子神经网络的输出输入到该神经网络包括的全连接层中进行融合，得到对待检测物体的分类结果；其中，得到的分类结果包括至少一个类别指示参数，该类别指示参数用于指示待检测物体属于相应类别的概率；进一步地，终端获取该至少一个类别指示参数中数值最大的目标类别指示参数；最后当该目标类别指示参数的数值大于预设数值阈值时，终端确定该待检测物体的类别为该目标类别指示参数对应的类别。需要说明的是，神经网络可以是卷积神经网络CNN，卷积神经网络可以是运行在终端的CPU或者其它处理器上的一段程序，也可以是以专用电路的形式在芯片中实现。

举例来说，请一并参见图6，如图6所示，神经网络包括第一子神经网络、第二子神经网络以及融合全连接层。其中，第一子神经网络和第二子神经网络是并联的，且均包括卷积层conv-1、conv-2、conv-3、conv-4、conv-5以及全连接层fc6和fc7，第一子神经网络用于处理待检测物体的RGB图像，第二子神经网络用于处理待检测物体的形状特征矩阵；第一子神经网络和第二子神经网络的全连接层fc7的每个神经元分别与融合全连接层fc1-fus的神经元相连，因此，融合全连接层fc1-fus的维数是第一子神经网络和第二子神经网络的全连接层fc7的维数之和；融合全连接层fc1-fus，用于对第一子神经网络的输出和第二子神经网络的输出进行融合，得到待检测物体的分类结果。首先，终端将待检测物体的RGB图像输入到第一子神经网络中的卷积层和全连接层进行处理，得到第一子神经网络的输出；同时将待检测物体的形状特征矩阵输入到第二子神经网络中的卷积层和全连接层进行处理，得到第二子神经网络的输出。然后，终端将得到的第一子神经网络的输出和第二子神经网络的输出输入到融合全连接层fc1-fus中进行融合，得到神经网络的最终输出，也即是对待检测物体的分类结果。最后，终端将分类结果中数值最大的类别指示参数对应的类别确定为待检测物体的类别。

在一些可行的实施方式中，终端在确定出待检测物体的类别之后，终端首先根据该待检测物体的的RGB图像、深度图像和三维点云信息确定该待检测物体的位置信息等；然后，根据该待检测物体的位置信息确定该待检测物体与目标对象之间的距离；进一步地，检测该待检测物体的类别是否属于危险物体类别，并检测该待检测物体与该目标对象之间的距离是否小于预设距离阈值；最后，当该待检测物体的类别属于危险物体类别，且该待检测物体与该目标对象之间的距离小于预设距离阈值时，发出警报信号。其中，该目标对象可以是用户或者幼童，采用上述方式，终端可以识别幼童是否有危险动作和行为，从而实现对幼童的保护。另一方面，若终端检测到感兴趣区域不包括待检测物体只包括背景部分，则终端简单传递判断结果，不作其他处理。

需要说明的是，本申请实施例只是用几何形状信息法向量、曲率、投影法向量、曲率方向和投影曲率方向来举例说明。只要构建的三通道矩阵与CNN输入相兼容，能够被CNN处理，并且能在一定程度上描述待检测物体的几何形状信息，这样的三通道矩阵就是有效的形状特征矩阵。例如，终端将表示法向量的三个值转换成两个值，用表示法向量的两个值占据形状特征矩阵某个元素的两位，用平均曲率的值占据该元素的另一位；采用上述方式构建的形状特征矩阵为三通道矩阵，与CNN输入相兼容，且融合了两种几何形状信息(即法向量和平均曲率)，这样的三通道矩阵即为有效的形状特征矩阵。

综上所述，本申请实施例的主要思想为，通过构建与CNN输入相兼容，并且能够描述待检测物体在三维空间中的几何形状特性的形状特征矩阵，来实现将卷积神经网络与几何形状信息相结合的目的，同时，在进行物体检测时保留待检测物体的RGB信息，使用并联式的两层CNN对RGB信息和几何形状信息分别进行处理后，再进行有效融合；从而既提供了待检测物体的几何形状信息，又保留了待检测物体的色彩和纹理信息，可以得到更好的分类效果，丰富检测物体的方式。采用上述方式可以有效解决使用CNN技术来识别物体时，由于物体的色彩或纹理相近而导致物体被错误识别的问题，可以有效提高物体检测的准确率。

本申请实施例中，之所以将物体的几何形状信息和RGB信息相结合来检测物体，是因为针对某些物体的分类，根据物体的几何形状信息得到的分类结果比根据物体的RGB信息得到的分类结果更加准确，分类效果更好。请一并参见表一和表二。表一是利用RGB信息和几何形状信息进行物体检测在类别层次(category-level)和实例层次(instance-level)的分类准确率。类别层次指确定待检测物体的类别，实例层次指确定待检测物体具体是哪个物体。从表一可以看出，在类别层次，根据物体的几何形状信息得到的分类结果略低于根据物体的RGB信息得到的分类结果，但两者相差并不明显。

RGB

法向量

投影法向量

曲率值

曲率方向

投影曲率方向

类别层次

81.18±2.7

80.12±2.36

80.21±2.29

79.49±2.25

79.55±2.49

80.34±2.38

实例层次

94.27

60.56

57.85

59.22

56.91

60.05

表一：类别层次和实例层次的分类准确率

其中，表二是使用RGB信息分类效果最差(准确率低于70％)的9种物体，在使用几何形状信息进行分类时的效果。从表二可以看出，对于帽子(cap)、碗(bowl)和笔记本(notebook)三种物体，在使用几何形状信息进行分类时，达到了比使用RGB信息明显准确的效果，因此当物体的色彩和纹理信息相近，使用RGB信息进行分类准确率低时，利用几何形状信息进行分类是有效的，故而将几何形状信息与色彩和纹理信息相结合的方案，也将在整体上提高CNN对物体识别和分类的效果，提高CNN对物体检测的准确率。

	蘑菇	水罐	帽子	球	桃子	碗	笔记本	照相机	计算器
										RGB	0.65	18.26	20.26	29.89	44.62	53.73	56.40	57.45	68.56
法向量	0.39	20.42	97.81	43.90	0	92.27	86.47	37.75	47.18
										投影法向量	1.62	20.25	95.86	44.87	0	86.07	89.31	27.15	39.63
曲率值	2.03	27.43	96.81	46.30	0	84.67	83.29	26.84	43.28
										曲率方向	1.95	18.58	98.67	45.77	0	75.39	93.10	37.50	30.88
投影曲率方向	0.85	28.44	99.22	47.52	0	77.62	93.55	31.43	39.61

表二：RGB分类效果最差的9种物体在使用几何形状时的分类效果

本申请实施例中，终端首先获取待检测物体的特征信息，其中，该特征信息包括RGB图像、深度图像和三维点云信息；然后根据该待检测物体的深度图像和三维点云信息确定待检测物体的形状特征矩阵；最后根据该RGB图像和该形状特征矩阵确定待检测物体的类别。采用上述方式，可以结合物体的几何形状信息和颜色信息进行物体识别，从而可以有效提高物体检测的准确率。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

请参见图7，图7是本申请实施例提供的一种物体检测装置的结构示意图。其中，图7所示的物体检测装置可以包括获取模块701、第一确定模块702、第二确定模块703、训练模块704、第三确定模块705和警报模块706，其中，各个模块的详细描述如下。

获取模块701，用于获取待检测物体的特征信息，所述特征信息包括RGB图像、深度图像和三维点云信息；

第一确定模块702，用于根据所述深度图像和所述三维点云信息确定所述待检测物体的形状特征矩阵；

第二确定模块703，用于根据所述RGB图像和所述形状特征矩阵确定所述待检测物体的类别。

在一些可行的实施方式中，所述第二确定模块703具体用于：

将所述RGB图像和所述形状特征矩阵输入到神经网络中进行处理，得到所述待检测物体的类别。

在一些可行的实施方式中，所述神经网络是预先训练得到的，所述训练模块704用于：

获取训练物体的RGB图像和形状特征矩阵，并获取所述训练物体当前的训练语料；

将所述训练物体的RGB图像和形状特征矩阵输入到初始神经网络中进行处理，得到所述训练物体的训练描述信息；

确定所述训练物体当前的训练语料与所述训练描述信息的相似度；

若所述相似度小于预设相似度阈值，则调整所述初始神经网络中的卷积参数，得到训练后的所述神经网络。

在一些可行的实施方式中，所述第二确定模块703具体用于：

将所述RGB图像输入到所述神经网络包括的第一子神经网络中进行处理，得到所述第一子神经网络的输出；

将所述形状特征矩阵输入到所述神经网络包括的第二子神经网络中进行处理，得到所述第二子神经网络的输出；

将所述第一子神经网络的输出和所述第二子神经网络的输出输入到所述神经网络包括的全连接层中进行融合，得到所述待检测物体的类别。

在一些可行的实施方式中，所述第二确定模块703具体用于：

将所述第一子神经网络的输出和所述第二子神经网络的输出输入到所述神经网络包括的全连接层中进行融合，得到分类结果，所述分类结果包括至少一个类别指示参数，所述类别指示参数用于指示所述待检测物体属于相应类别的概率；

获取所述至少一个类别指示参数中数值最大的目标类别指示参数；

当所述目标类别指示参数的数值大于预设数值阈值时，确定所述待检测物体的类别为所述目标类别。

在一些可行的实施方式中，所述获取模块701具体用于：

获取待检测物体的目标图像；

从所述目标图像中确定感兴趣区域，并获取所述感兴趣区域对应的特征信息。

在一些可行的实施方式中，第三确定模块705，用于根据所述RGB图像、所述深度图像和所述三维点云信息确定所述待检测物体的位置信息；

所述第三确定模块，还用于根据所述待检测物体的位置信息确定所述待检测物体与目标对象之间的距离；

警报模块706，用于当所述待检测物体的类别属于危险物体类别，且所述待检测物体与所述目标对象之间的距离小于预设距离阈值时，发出警报信号。

在一些可行的实施方式中，所述形状特征矩阵包括几何形状信息，所述几何形状信息包括法向量、投影法向量、曲率方向、投影曲率方向和曲率值中的一种或多种。

在一些可行的实施方式中，所述RGB图像和所述形状特征矩阵均为三通道矩阵，所述RGB图像与所述深度图像在像素位置上对应，所述RGB图像和所述形状特征矩阵对应。

需要说明的是，本申请实施例的物体检测装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本申请实施例中，获取模块701首先获取待检测物体的特征信息，其中，该特征信息包括RGB图像、深度图像和三维点云信息；然后第一确定模块702根据该待检测物体的深度图像和三维点云信息确定待检测物体的形状特征矩阵；最后第二确定模块703根据该RGB图像和该形状特征矩阵确定待检测物体的类别。采用上述方式，可以结合物体的几何形状信息和颜色信息进行物体识别，从而可以有效提高物体检测的准确率。

请参见图8，图8是本申请实施例提供的另一种物体检测装置的结构示意图，本申请实施例中所描述的物体检测装置包括：处理器801、通信接口802、输入设备803和存储器804，上述处理器801、通信接口802、输入设备803和存储器804可通过总线或其他方式连接，本申请实施例以通过总线连接为例。

处理器801可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)，图形处理器(graphics processing unit，GPU)，或者CPU、GPU和NP的组合。处理器801也可以是多核CPU、多核GPU或多核NP中用于实现通信标识绑定的核。

上述处理器801可以是硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。

上述通信接口802可用于收发信息或信令的交互，以及信号的接收和传递。上述输入设备803可以是用于捕获图像的摄像头、获取深度信息和空间位置信息的传感器。上述存储器804可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的存储程序(比如文字存储功能、位置存储功能等)；存储数据区可存储根据装置的使用所创建的数据(比如图像数据、文字数据)等，并可以包括应用存储程序等。此外，存储器804可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

上述存储器804还用于存储程序指令。当上述处理器801是非硬件芯片的处理器时，可以调用上述存储器804存储的程序指令，实现如本申请实施例所示的物体检测方法。

具体的，上述处理器801调用存储在上述存储器804存储的程序指令执行以下步骤：

获取待检测物体的特征信息，所述特征信息包括RGB图像、深度图像和三维点云信息；

根据所述深度图像和所述三维点云信息确定所述待检测物体的形状特征矩阵；

根据所述RGB图像和所述形状特征矩阵确定所述待检测物体的类别。

本申请实施例中处理器执行的方法均从处理器的角度来描述，可以理解的是，本申请实施例中处理器要执行上述方法需要其他硬件结构的配合。本申请实施例对具体的实现过程不作详细描述和限制。

在一些可行的实施方式中，上述处理器801根据所述RGB图像和所述形状特征矩阵确定所述待检测物体的类别的具体方式为：

在一些可行的实施方式中，所述神经网络是预先训练得到的，上述处理器801还用于：

在一些可行的实施方式中，上述处理器801将所述RGB图像和所述形状特征矩阵输入到神经网络中进行处理，得到所述神经网络的输出结果的具体方式为：

在一些可行的实施方式中，上述处理器801将所述第一子神经网络的输出和所述第二子神经网络的输出输入到所述神经网络包括的全连接层中进行融合，得到所述待检测物体的类别的具体方式为：

在一些可行的实施方式中，上述处理器801根据所述RGB图像和所述形状特征矩阵确定所述待检测物体的类别之后，还用于：

根据所述RGB图像、所述深度图像和所述三维点云信息确定所述待检测物体的位置信息；

根据所述待检测物体的位置信息确定所述待检测物体与目标对象之间的距离；

当所述待检测物体的类别属于危险物体类别，且所述待检测物体与所述目标对象之间的距离小于预设距离阈值时，发出警报信号。

具体实现中，本申请实施例中所描述的处理器801、通信接口802、输入设备803和存储器804，可执行本申请实施例提供的一种物体检测方法中所描述的实现方式，也可执行本申请实施例图7提供的一种物体检测装置中所描述的实现方式，在此不再赘述。

本申请实施例中，处理器801首先通过输入设备803获取待检测物体的特征信息，其中，该特征信息包括RGB图像、深度图像和三维点云信息；然后根据该待检测物体的深度图像和三维点云信息确定待检测物体的形状特征矩阵；最后根据该RGB图像和该形状特征矩阵确定待检测物体的类别。采用上述方式，可以结合物体的几何形状信息和颜色信息进行物体识别，从而可以有效提高物体检测的准确率。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使计算机执行上述方法实施例所述的物体检测方法。

本申请还提供一种神经网络，包括并联的第一子神经网络和第二子神经网络，还包括用于对所述第一子神经网络的输出和第二子神经网络的输出进行融合的全连接层。

本申请还提供一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使计算机执行上述方法实施例所述的物体检测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘(SolidState Disk，SSD))等。

综上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种物体检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的物体检测方法，其特征在于，所述根据所述RGB图像和所述形状特征矩阵确定所述待检测物体的类别，包括：

3.根据权利要求2所述的物体检测方法，其特征在于，所述神经网络是预先训练得到的，所述方法还包括：

4.根据权利要求2或3所述的物体检测方法，其特征在于，所述将所述RGB图像和所述形状特征矩阵输入到神经网络中进行处理，得到所述待检测物体的类别，包括：

将所述RGB图像输入到神经网络包括的第一子神经网络中进行处理，得到所述第一子神经网络的输出；

5.根据权利要求4所述的物体检测方法，其特征在于，所述将所述第一子神经网络的输出和所述第二子神经网络的输出输入到所述神经网络包括的全连接层中进行融合，得到所述待检测物体的类别，包括：

6.根据权利要求5所述的物体检测方法，其特征在于，所述根据所述RGB图像和所述形状特征矩阵确定所述待检测物体的类别之后，所述方法还包括：

7.根据权利要求1所述的物体检测方法，其特征在于，所述形状特征矩阵包括几何形状信息，所述几何形状信息包括法向量、投影法向量、曲率方向、投影曲率方向和曲率值中的一种或多种。

8.根据权利要求7所述的物体检测方法，其特征在于，所述RGB图像和所述形状特征矩阵均为三通道矩阵，所述RGB图像与所述深度图像在像素位置上对应，所述RGB图像和所述形状特征矩阵对应。

9.一种物体检测装置，其特征在于，所述装置包括：

获取模块，用于获取待检测物体的特征信息，所述特征信息包括RGB图像、深度图像和三维点云信息；

第一确定模块，用于根据所述深度图像和所述三维点云信息确定所述待检测物体的形状特征矩阵；

第二确定模块，用于根据所述RGB图像和所述形状特征矩阵确定所述待检测物体的类别。

10.根据权利要求9所述的物体检测装置，其特征在于，所述第二确定模块具体用于：

11.根据权利要求10所述的物体检测装置，其特征在于，所述神经网络是预先训练得到的，所述物体检测装置还包括训练模块，所述训练模块用于：

12.根据权利要求10或11所述的物体检测装置，其特征在于，所述第二确定模块具体用于：

13.根据权利要求12所述的物体检测装置，其特征在于，所述第二确定模块具体用于：

14.根据权利要求13所述的物体检测装置，其特征在于，所述装置还包括：

第三确定模块，用于根据所述RGB图像、所述深度图像和所述三维点云信息确定所述待检测物体的位置信息；

警报模块，用于当所述待检测物体的类别属于危险物体类别，且所述待检测物体与所述目标对象之间的距离小于预设距离阈值时，发出警报信号。

15.根据权利要求9所述的物体检测装置，其特征在于，所述形状特征矩阵包括几何形状信息，所述几何形状信息包括法向量、投影法向量、曲率方向、投影曲率方向和曲率值中的一种或多种。

16.根据权利要求15所述的物体检测装置，其特征在于，所述RGB图像和所述形状特征矩阵均为三通道矩阵，所述RGB图像与所述深度图像在像素位置上对应，所述RGB图像和所述形状特征矩阵对应。

17.一种物体检测装置，其特征在于，包括：处理器、存储器，所述处理器、所述存储器通过总线连接，所述存储器存储有可执行程序代码，所述处理器用于调用所述可执行程序代码，执行如权利要求1至8中任一项所述的物体检测方法。

18.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时使所述计算机执行如权利要求1至8中任一项所述的物体检测方法。