CN107305635A

CN107305635A - 对象识别方法、对象识别装置和分类器训练方法

Info

Publication number: CN107305635A
Application number: CN201610236625.7A
Authority: CN
Inventors: 王千; 王刚; 诸加丹; 庞博
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2016-04-15
Filing date: 2016-04-15
Publication date: 2017-10-31
Also published as: JP6439820B2; EP3232371A1; JP2017191608A

Abstract

本公开涉及一种对象识别方法、对象识别装置以及分类器训练方法。所述对象识别方法，包括：获得包含待识别对象的区域的原始图像以及相应的深度信息和光流图；利用该深度信息对该光流图进行补偿操作，以得到补偿后的光流图；利用卷积神经网络提取至少该补偿后的光流图中的特征分量；以及利用分类器对提取的特征分量进行分类，以获得用于识别所述对象的分类结果。

Description

对象识别方法、对象识别装置和分类器训练方法

技术领域

本公开涉及图像处理领域，更具体地，本公开涉及一种用于识别图像或视频中的对象的对象识别方法、对象识别装置以及分类器训练方法。

背景技术

近些年来，在计算机视觉领域中，图像的语义分割、人的行为识别、物体的跟踪定位等方面都取得了有目共睹的成果。其中，对于图像或者视频中的对象的检测和识别技术具有重要意义并且其应用也越来越广泛。

现有的对象识别方法包括基于区域的卷积神经网络(RCNN)的对象检测技术，其利用训练好的卷积神经网络自动地提取对应于该潜在目标区域的特征，并且由分类器根据提取的特征进行分类。然而，基于RCNN的对象识别方法的缺点在于输入到卷积神经网络中的图片尺寸必须是固定的，导致潜在目标区域的图片原本的纵宽比将可能丢失，从而不利于物体的识别。此外，由于在对象的识别过程中并没有考虑到对象本身的运动情况，对于运动对象的识别结果可能不准确。进一步地，由于识别或训练样本是从真实图像中用矩形标记或者抠取出来的，因此不可避免地在标记或抠取出的图块中存在与所关心的目标对象无关的图像信息(即，“杂信”)。杂信的存在必然会影响对象识别的准确性。

因此，希望提供一种用于识别图像或视频中的对象的对象识别方法、对象识别装置以及分类器训练方法，其能够考虑对象本身的运动情况，并且过滤掉不利于准确识别对象的杂信，从而提高对象识别精度。

发明内容

鉴于上述问题，本公开提供一种用于识别图像或视频中的对象的对象识别方法、对象识别装置以及分类器训练方法。

根据本公开的一个实施例，提供了一种对象识别方法，包括：获得包含待识别对象的区域的原始图像以及相应的深度信息和光流图；利用该深度信息对该光流图进行补偿操作，以得到补偿后的光流图；利用卷积神经网络提取至少该补偿后的光流图中的特征分量；以及利用分类器对提取的特征分量进行分类，以获得用于识别所述对象的分类结果。

此外，根据本公开的一个实施例的对象识别方法，其中所述补偿操作是归一化操作，该归一化操作包括：对于光流图中的每个像素点的光流值，利用该像素点的深度信息对该光流值进行归一化，以获得每个像素点的归一化的光流值。

此外，根据本公开的一个实施例的对象识别方法，还包括：利用该深度信息对该原始图像进行二值化操作，以获得二值化图像；以及利用该二值化图像对卷积神经网络提取的特征分量进行过滤，以获得过滤后的特征分量，其中，所述分类器对过滤后的特征分量进行分类以获得用于识别所述对象的分类结果。

此外，根据本公开的一个实施例的对象识别方法，其中所述二值化操作包括：根据该深度信息将该原始图像划分为多个块；从所述多个块中选择满足预定约束条件的一个块；以及基于所选择的块生成所述二值化图像。

此外，根据本公开的一个实施例的对象识别方法，还包括：根据该卷积神经网络的结构，对该二值化图像进行降采样操作，以获得降采样的二值化图像，其中，所述利用该二值化图像对卷积神经网络提取的特征分量进行过滤包括利用该降采样的二值化图像对卷积神经网络提取的特征分量进行过滤。

此外，根据本公开的一个实施例的对象识别方法，其中所述降采样操作包括：根据该卷积神经网络的结构将该二值化图像划分为预定数量的子区域；对于每个子区域内的二值化像素值进行投票操作；以及基于投票结果获得该子区域的降采样后的二值化像素值。

此外，根据本公开的一个实施例的对象识别方法，其中所述分类结果包括分类置信度，所述方法还包括：基于分类器针对包含所述待识别对象的多个区域的每个区域获得的分类置信度，进行动态自适应非极大值抑制处理，以获得抑制后的分类结果作为用于识别所述对象的分类结果。

根据本公开的另一个实施例，提供了一种分类器训练方法，包括：获得包含已知对象的区域的原始图像以及相应的深度信息和光流图；利用该深度信息对该光流图进行补偿操作，以得到补偿后的光流图；利用卷积神经网络提取至少该补偿后的光流图中的特征分量；以及利用提取的特征分量训练分类器。

根据本公开的又一个实施例，提供了一种对象识别装置，包括：获得部件，用于获得包含待识别对象的区域的原始图像以及相应的深度信息和光流图；补偿部件，用于利用该深度信息对该光流图进行补偿操作，以得到补偿后的光流图；提取部件，用于利用卷积神经网络提取至少该补偿后的光流图中的特征分量；以及识别部件，用于利用分类器对提取的特征分量进行分类，以获得用于识别所述对象的分类结果。

根据本公开的再一种对象识别设备，包括：存储器，配置为存储包含待识别对象的区域的原始图像以及相应的深度信息和光流图；以及处理器，耦合到该存储器，该处理器配置为：利用该深度信息对该光流图进行补偿操作，以得到补偿后的光流图；利用卷积神经网络提取至少该补偿后的光流图中的特征分量；以及利用分类器对提取的特征分量进行分类，以获得用于识别所述对象的分类结果。

根据本公开的实施例的对象识别方法、对象识别装置以及分类器训练方法，其通过利用图像的深度信息使得物体的运动信息与距离相机的远近无关，并且利用图像的深度信息过滤掉不利于准确识别对象的杂信，从而提高卷积神经网络的对象识别精度。

要理解的是，前面的一般描述和下面的详细描述两者都是示例性的，并且意图在于提供要求保护的技术的进一步说明。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是图示根据本公开的第一实施例的对象识别装置的功能性框图；

图2是图示根据本公开的第一实施例的对象识别方法的流程图；

图3是图示根据本公开的第一实施例的待识别对象的示意图；

图4是图示根据本公开的第一实施例的待识别对象的示意图；

图5是图示根据本公开的第二实施例的对象识别装置的功能性框图；

图6是图示根据本公开的第二实施例的对象识别方法的流程图；

图7是图示根据本公开的第二实施例的样本中的不同区域的示意图；

图8是进一步图示根据本公开的第二实施例的对象识别方法中的二值化处理的流程图；

图9是进一步图示根据本公开的第二实施例的对象识别方法中的二值化处理的示意图；

图10是进一步图示根据本公开的第二实施例的对象识别方法中的二值化图像的降采样处理的流程图；

图11是进一步图示根据本公开的第二实施例的对象识别方法中的二值化图像的降采样处理的示意图；

图12是图示根据本公开的第三实施例的对象识别装置的功能性框图；

图13是图示根据本公开的第三实施例的对象识别方法的流程图；

图14是图示根据本公开的第三实施例的对象识别方法中的非极大值抑制的示意图；

图15是图示根据本公开的第四实施例的分类器训练方法的流程图；以及

图16是图示根据本公开的第五实施例的对象识别设备的功能性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本公开中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

以下，将参考附图详细描述本公开的优选实施例。

首先，将参照图1描述根据本公开的第一实施例的对象识别装置。图1是图示根据本公开的第一实施例的对象识别装置的功能性框图。如图1所示，根据本公开的第一实施例的对象识别装置10包括获得部件200、补偿部件300、提取部件400和识别部件500。所述对象识别装置10中的获得部件200、补偿部件300、提取部件400和识别部件500可以是由所述对象识别装置10的中央处理单元(CPU)配置。可替代地，所述获得部件200、补偿部件300、提取部件400和识别部件500还可以是由所述对象识别装置10中的专用处理单元(诸如专用集成电路(ASIC)等)。也就是说，所述获得部件200、补偿部件300、提取部件400和识别部件500例如可以由诸如硬件、软件、固件以及它们的任意可行的组合配置。容易理解的是，图1仅示出对象识别装置10中与本公开密切相关的模块，根据本公开实施例的对象识别装置当然还可以包括其他模块，诸如输入输出部件、显示部件、通信部件等。

具体地，所述获得部件200用于获得包含待识别对象的区域的原始图像以及相应的深度信息和光流图。也就是说，不同于仅仅获得包含待识别对象的区域的原始图像来执行识别的情况，根据本公开的实施例的所述获得部件200获得由图像捕获设备(未示出)捕获的包含待识别对象的区域的原始图像、相应的深度信息以及基于原始图像亮度模式的表观运动所获取的光流图。

在本公开的一个实施例中，原始图像和相应的深度信息来自所述图像捕获设备(未示出)。所述图像捕获设备可以是包括能够获取包含待识别对象的区域的图像数据的RGB相机。在本发明的另一个实施例中，所述图像捕获设备可以包括能够获取包含待识别对象的区域的深度信息的深度相机(深度摄像机)。所述图像捕获设备可以与其后的所述获得部件200物理上分离，或者物理上位于同一位置甚至位于同一机壳内部。在所述图像捕获设备与其后的所述获得部件200物理上分离的情况下，所述图像捕获设备进一步经由有线或者无线方式将获取的原始图像以及相应的深度信息发送给其后的部件。在所述图像捕获设备与其后的所述获得部件200物理上位于同一位置甚至位于同一机壳内部的情况下，所述图像捕获设备经由内部总线将获取的原始图像以及相应的深度信息(即，RGB彩色图像数据或者包括深度信息的RGBD图像数据)发送给其后的部件。在本公开的又一实施例中，根据本公开的第一实施例的对象识别装置也可以不包括所述图像捕获设备，而是经由有线或者无线方式从其他电子设备接收用于包含待识别对象的区域的原始图像以及相应的深度信息。

所述补偿部件300用于利用该深度信息对该光流图进行补偿操作，以得到补偿后的光流图。人们在观察三维世界中目标的运动时，运动目标的轮廓会在视网膜上形成一系列连续变化的图像，这些连续变化的信息不断的“流过”人眼视网膜(即图像平面)，就像是一种光“流”过一样，称为光流(opticalflow)。在视频跟踪领域，光流是指图像中灰度模式的表面运动，是物体的三维速度矢量在成像平面上的投影，其可以表示物体在图像中位置的瞬时变化。

具体地，参照图3说明目标运动模式信息对于识别外观相似物体作用，以及参照图4说明使用普通二维图像光流信息来估计物体运动模式所带来的问题。

如图3所示，存在4类待识别对象：行人P1、骑自行车的人P2、骑摩托车的人P3以及机动车辆P4。不同类别的对象在运动模式和运动速度等方面一般是不同的，将其按照速度由慢到快排序为：行人P1、骑自行车的人P2、骑摩托车的人P3以及车辆P4。然而，现有的基于二维彩色或者灰度图像的光流方法不能直接用于这里的对象运动估计，这是由于相机成像的透视投影变换以及光流运动估计原理所导致的。

如图4所示，在图像底端，距离相机较近的行人P1_A和P1_B的光流幅值要大于距离相机较远的骑摩托车人P3的光流幅值。直接将基于二维图像方法计算得到的光流信息作为神经网络的输入来为其提供运动信息不可行，原始光流图像无法提供距离无关的运动信息。

因此，根据本公开的第一实施例的所述对象识别装置10中的所述补偿部件300执行的所述补偿操作是归一化操作，即利用深度图的深度信息来归一化原始光流，再将归一化后的光流作为神经网络的输入，使得待识别对象的运动信息与距离相机的远近无关。

具体地，所述补偿部件300利用以下等式(1)对原始光流信息(位移以像素为单位计算)进行归一化操作：

其中，ρ_n代表原始光流的幅值，d表示该像素点处的深度，f_x和f_y分别代表相机的焦距。由以上等式1可知，较之距离相机较近的对象，距离相机较远的对象的光流的幅值将被给予更多的补偿。

返回参照图1。所述提取部件400用于利用卷积神经网络提取至少该补偿后的光流图中的特征分量。

所述识别部件500用于利用分类器对提取的特征分量进行分类，以获得用于识别所述对象的分类结果。

图2是图示根据本公开的第一实施例的对象识别方法的流程图。由以上参照图1描述的根据本公开的第一实施例的对象识别装置10执行所述对象识别方法。根据本公开的第一实施例的对象识别方法包括以下步骤：

在步骤S201中，获得包含待识别对象的区域的原始图像以及相应的深度信息和光流图。如上所述，根据本公开的实施例的所述获得部件200获得由图像捕获设备(未示出)捕获的包含待识别对象的区域的原始图像、相应的深度信息以及基于原始图像亮度模式的表观运动所获取的光流图。此后，处理进到步骤S202。

在步骤S202中，利用深度信息对光流图进行补偿操作，以得到补偿后的光流图。如上所述，根据本公开的实施例的所述补偿部件300利用上述等式(1)对原始光流信息进行归一化操作，获得归一化的光流图。在所述归一化的光流图中，对象的运动信息与距离相机的远近无关。此后，处理进到步骤S203。

在步骤S203中，利用卷积神经网络提取至少补偿后的光流图中的特征分量。此后，处理进到步骤S204。

在步骤S204中，利用分类器对提取的特征分量进行分类，以获得用于识别对象的分类结果。

因此，在以上参照图1到图4描述的根据本公开的第一实施例的对象识别装置和对象识别方法中，通过利用深度信息对光流图进行补偿操作以获得补偿后的光流图，此后利用卷积神经网络针对补偿后的光流图进行特征分量提取，从而获得能够准确反映识别对象的运动模式信息用于进行对象的分类识别。

以下，将参照图5描述根据本公开的第二实施例的对象识别装置。图5是图示根据本公开的第二实施例的对象识别装置的功能性框图。如图5所示，根据本公开的第二实施例的对象识别装置50与以上参照图1描述的根据本公开的第一实施例的对象识别装置10相比，进一步存在二值化部件600。此外，如图5所示的对象识别装置50没有包括图1中示出的补偿部件300，然而根据本公开的实施例的对象识别装置不限于此，而是可以如下所述同时包括补偿部件300和二值化部件600两者(参照如下将描述的根据本公开的第三实施例的对象识别装置)。

具体地，图5所示的获得部件200用于获得包含待识别对象的区域的原始图像以及相应的深度信息和光流图。所述获得部件200的具体配置和功能与以上参照图1描述的相同，在此将省略其重复描述。

进一步地，所述二值化部件600利用深度信息对原始图像进行二值化操作，以获得二值化图像。通过所述二值化部件600利用深度信息对原始图像进行二值化操作，过滤掉与当前目标无关的图像信息，以用于在随后的基于空间金字塔池化(spatial pyramid pooling)层的卷积神经网络中使用。以下，将参照图7到图9详细描述由所述二值化部件600执行的二值化操作。

此外，图5所示的提取部件400和识别部件500分别与以上参照图1描述的相同。所述提取部件400用于利用卷积神经网络提取至少该补偿后的光流图中的特征分量。所述识别部件500用于利用分类器对提取的特征分量进行分类，以获得用于识别所述对象的分类结果。需要注意的是，根据本公开的第二实施例的对象识别装置50中的提取部件400利用卷积神经网络的SPP层执行特征分量的提取。

图6是图示根据本公开的第二实施例的对象识别方法的流程图。由以上参照图5描述的根据本公开的第二实施例的对象识别装置50执行所述对象识别方法。根据本公开的第二实施例的对象识别方法包括以下步骤：

在步骤S601中，获得包含待识别对象的区域的原始图像以及相应的深度信息和光流图。此后，处理进到步骤S602。

在步骤S602中，利用深度信息对原始图像进行二值化操作，以获得二值化图像。通过所述二值化部件600利用深度信息对原始图像进行二值化操作，过滤掉与当前目标无关的图像信息。以下，将参照图7到图9详细描述由所述二值化部件600执行的二值化操作。此后，处理进到步骤S603。

在步骤S603中，根据卷积神经网络的结构，对二值化图像进行降采样操作，以获得降采样的二值化图像。以下，将参照图10和图11详细描述对二值化图像进行降采样操作。此后，处理进到步骤S604。

在步骤S604中，利用卷积神经网络提取降采样的二值化图像中的特征分量。在根据本公开的第二实施例的对象识别方法中，利用卷积神经网络的SPP层执行特征分量的提取。此后，处理进到步骤S605。

在步骤S605中，利用分类器对提取的特征分量进行分类，以获得用于识别对象的分类结果。

图7是图示根据本公开的第二实施例的样本中的不同区域的示意图。如图7所示，由于在实际的识别或训练样本准备过程中，样本是从真实图像中用矩形标记或者抠出来的，因此不可避免地在标记或抠出的图块中引出与所关心目标无关的图像信息，即“杂信”信息。如图7所示，样本70中包括目标区域71和杂信区域72。如果将整张本样输入到卷积神经网络中而不加任何对杂信区域的过滤，那么最终由卷积神经网络提取的特征向量中将包含杂信区域的信息，这意味着提取的特征信息将引入类无关的视觉信息。因此，根据本公开的第二实施例的对象识别方法利用距离信息滤除在当前图块中不利于准确识别目标的杂信，从而达到净化卷积神经网络提取的特征向量的作用。

图8是进一步图示根据本公开的第二实施例的对象识别方法中的二值化处理的流程图。

在步骤S801中，根据深度信息将原始图像划分为多个块。此后，处理进到步骤S802。

在步骤S802中，从多个块中选择满足预定约束条件的一个块。具体地，选择满足以下等式(2)条件的图块，即距离相机最近的图块。

r_i>T且

其中，T代表一个事先定义的面积阈值，而r_i＝area(B_i)/area(BB_i),这里B_i代表第i个聚类或者分割块，BB_i代表训练或者测试样本的外接矩形框，area()表示求图像块所含像素个数的操作或者外界矩形框的面积操作，Mean()代表求一个像素块深度的均值操作。如此，通过等式(2)选择满足大于事先定义的面积阈值并且距离相机最近的图块。此后，处理进到步骤S803。

在步骤S803中，基于所选择的块生成二值化图像。

图9是进一步图示根据本公开的第二实施例的对象识别方法中的二值化处理的示意图。

对于深度图上的无效像素(即像素无深度值，以黑色示)，它们的深度信息可以通过均值滤波，中值滤波，置信传播或者是基于规则的连线方法来填充上。如图9所示，对稀疏的深度或者视差图I₁，首先对其做稠密化的操作，将稀疏的深度图I₁转化为稠密的深度图I₂。此后，在稠密化后的深度图I₂上，利用深度信息来做聚类和分割操作，产生基于深度信息的二值化掩膜图像I₃。然后，根据聚类分割的结果，选择满足上述等式(2)条件的图块，作为基于深度信息的二值化掩膜图像I₄。

进一步地，为了使用上述基于深度信息的二值掩膜图像降低原始图像中“杂信”对卷积神经网络提取特征的影响，二值掩膜图像的大小必须和卷积神经网络输出的特征图大小一致。一般来说，卷积神经网络在某层中输出的特征图要小于原始的输入图的尺寸，这主要是由于卷积神经网络中的图像卷积和池化操作所导致的，而特征图像降采样的程度主要与卷积和池化操作的步长有关，步长越大，特征图降采样得越多。因此，二值化掩膜图像也要做相同程度的降采样操作。

因此，在根据本公开的第二实施例的对象识别方法中，还需要根据定义的卷积神经网络的结构，对以上参照图8和图9描述的二值掩膜图像做相应的降采样操作。根据本公开的第二实施例的对象识别方法采用一种基于投票的策略来对二值掩膜图像做降采样操作。

图10是进一步图示根据本公开的第二实施例的对象识别方法中的二值化图像的降采样处理的流程图。如图10所示，根据本公开的第二实施例的对象识别方法中的二值化图像的降采样处理包括以下步骤。

在步骤S1001中，根据卷积神经网络的结构将二值化图像划分为预定数量的子区域。此后，处理进到步骤S1002。

在步骤S1002中，对于每个子区域内的二值化像素值进行投票操作。此后，处理进到步骤S1003。

在步骤S1003中，基于投票结果获得子区域的降采样后的二值化像素值。

具体地，参照图11描述如图10所示的根据本公开的第二实施例的对象识别方法中的二值化图像的降采样处理。

图11的左侧示出了一幅4×4的二值化掩膜图像，图12的左侧示出了采用投票方法降采样过后的二值化掩膜图像。例如，根据卷积神经网络的结构将二值化图像划分为预定数量的子区域，其中一个子区域在图11中标注为101。对于每个子区域内的二值化像素值进行投票操作，即对于子区域101中的二值化像素值进行投票操作。该子区域101中包括的四个像素分别为0、1、1、1，因此投票操作之后，获得降采样后的子区域102的二值化像素值为1。由图11可知，降采样后的二值化掩膜图像为原二值化掩膜图像的四分之一大小。

因此，在以上参照图5到图11描述的根据本公开的第二实施例的对象识别装置和对象识别方法中，利用图像的深度信息过滤掉不利于准确识别对象的杂信，从而二值化掩膜图像可以用于过滤掉神经网络从普通彩色图像中提取的特征向量中对应于杂信区域的特征分量，从而产生纯化的特征向量。

以下，将参照图12描述根据本公开的第三实施例的对象识别装置。图12是图示根据本公开的第三实施例的对象识别装置的功能性框图。如图12所示，根据本公开的第三实施例的对象识别装置120与以上参照图1描述的根据本公开的第一实施例的对象识别装置10以及参照图5描述的根据本公开的第二实施例的对象识别装置50相比，进一步包括非极大值抑制部件700。此外，如图12所示的获得部件200、补偿部件300、提取部件400、识别部件500以及二值化部件600的配置与以上参照图1和图5描述的那些相同，在此将省略其重复描述。

如图12所示的根据本公开的第三实施例的对象识别装置120，通过补偿部件300利用深度图的深度信息来归一化原始光流，再将归一化后的光流作为神经网络的输入，使得待识别对象的运动信息与距离相机的远近无关，从而获得能够准确反映识别对象的运动模式信息用于进行对象的分类识别。另一方面，通过二值化部件600利用图像的深度信息过滤掉不利于准确识别对象的杂信，使得二值化掩膜图像可以用于过滤掉神经网络从普通彩色图像中提取的特征向量中对应于杂信区域的特征分量，从而产生纯化的特征向量。

进一步地，在所述识别部件500基于能够准确反映识别对象的运动模式信息的特征分量以及从普通彩色图像中提取的特征向量中过滤掉对应于杂信区域的特征分量的纯化的特征向量，以获得用于识别对象的分类结果之后，进一步配置所述非极大值抑制部件700，基于每个区域的分类置信度，进行动态自适应非极大值抑制处理，抑制去除同一目标上多个重复的识别结果，将动态自适应非极大值抑制后的结果作为最终识别结果输出。

图13是图示根据本公开的第三实施例的对象识别方法的流程图。由以上参照图12描述的根据本公开的第三实施例的对象识别装置120执行所述对象识别方法。根据本公开的第三实施例的对象识别方法包括以下步骤：

在步骤S1301中，获得包含待识别对象的区域的原始图像以及相应的深度信息和光流图。此后，处理进到步骤S1302。

在步骤S1302中，利用深度信息对光流图进行补偿操作，以得到补偿后的光流图。如上所述，根据本公开的实施例的所述补偿部件300利用上述等式(1)对原始光流信息进行归一化操作，获得归一化的光流图。在所述归一化的光流图中，对象的运动信息与距离相机的远近无关。此后，处理进到步骤S1303。

在步骤S1303中，利用深度信息对原始图像进行二值化操作，以获得二值化图像。通过所述二值化部件600利用深度信息对原始图像进行二值化操作，过滤掉与当前目标无关的图像信息。此后，处理进到步骤S1304。

在步骤S1304中，根据卷积神经网络的结构，对二值化图像进行降采样操作，以获得降采样的二值化图像。此后，处理进到步骤S1305。

在步骤S1305中，利用卷积神经网络提取补偿后的光流图和/或降采样的二值化图像中的特征分量。需要注意的是，通过在步骤S1302中的利用深度图的深度信息来归一化原始光流，再将归一化后的光流作为神经网络的输入，使得待识别对象的运动信息与距离相机的远近无关，从而获得能够准确反映识别对象的运动模式信息的特征分量。另一方面，通过在步骤S1303和S1304中的利用图像的深度信息过滤掉不利于准确识别对象的杂信，使得二值化掩膜图像可以用于过滤掉神经网络从普通彩色图像中提取的特征向量中对应于杂信区域的特征分量，从而产生纯化的特征向量。以上补偿后的光流图和降采样的二值化图像两者可以分别或者同时用于特征分量的提取。此后，处理进到步骤S1306。

在步骤S1306中，利用分类器对提取的特征分量进行分类，以获得用于识别对象的分类结果。此后，处理进到步骤S1307。

在步骤S1307中，基于每个区域的分类置信度，进行动态自适应非极大值抑制处理，以获得抑制后的分类结果作为用于识别对象的分类结果。即，进行动态自适应非极大值抑制处理，抑制去除同一目标上多个重复的识别结果，将动态自适应非极大值抑制后的结果作为最终识别结果输出。

图14是图示根据本公开的第三实施例的对象识别方法中的非极大值抑制的示意图。在根据本公开的第三实施例的对象识别方法中的非极大值抑制中，非极大值抑制中的IoU(Intersection-over-Union)阈值是根据检测出来的潜在物体的分布密度动态调整的。如图14所示，实线的矩形框代表抑制窗口，虚线的矩形框代表被抑制窗口，即在该局部区域，该实线的矩形框的识别分数为周围所有窗口分数的局部极大值。另外，抑制窗口和被抑制窗口均为识别分数大于一定阈值的定位窗口。对于抑制窗口A，因为其周围被抑制窗口的个数较多，密度较高，因此要提高IoU的阈值来降低漏检率。相反，对于抑制窗口B，与抑制窗口A相比，其周围的被抑制窗口的个数较少，密度较低，因此要降低IoU的阈值来减少同一个物体上多个定位窗口的发生率。另外，对抑制窗口，其估计周围被抑制窗口的半径也要根据其深度信息(深度值越大，距离越远的物体，其估计半径要比深度值小，距离近的同种物体在图像中的半径要小)和所属的类别来调整。

因此，在以上参照图12到图14描述的根据本公开的第三实施例的对象识别装置和对象识别方法中，通过利用深度信息对光流图进行补偿操作以获得补偿后的光流图，此后利用卷积神经网络针对补偿后的光流图进行特征分量提取，从而获得能够准确反映识别对象的运动模式信息用于进行对象的分类识别；同时，利用图像的深度信息过滤掉不利于准确识别对象的杂信，从而二值化掩膜图像可以用于过滤掉神经网络从普通彩色图像中提取的特征向量中对应于杂信区域的特征分量，从而产生纯化的特征向量。进一步地，通过进行动态自适应非极大值抑制处理，抑制去除同一目标上多个重复的识别结果，产生更加精确的分类结果。

以上，参照图1到图14描述了根据本公开的第一到第三实施例的对象识别装置和对象识别方法。此外，本公开同样还可以用于训练用于对象识别的分类器。

图15是图示根据本公开的第四实施例的分类器训练方法的流程图。如图15所示，根据本公开的第四实施例的分类器训练方法包括以下步骤。

在步骤S1501中，获得包含已知对象的区域的原始图像以及相应的深度信息和光流图。此后，处理进到步骤S1502。

在步骤S1502中，利用深度信息对光流图进行补偿操作，以得到补偿后的光流图。此后，处理进到步骤S1503。

在步骤S1503中，利用卷积神经网络提取至少补偿后的光流图中的特征分量。此后，处理进到步骤S1504。

在步骤S1504中，利用提取的特征分量训练分类器。

如上所述，根据本公开的第四实施例的分类器训练方法中，通过利用深度信息对光流图进行补偿操作以获得补偿后的光流图，此后利用卷积神经网络针对补偿后的光流图进行特征分量提取，使得用于分类器训练的光流图能够准确反映识别对象的运动模式信息，且不与对象距相机的位置相关。

容易理解的是，根据本公开的实施例的分类器训练方法还可以利用图像的深度信息过滤掉不利于准确识别对象的杂信，从而产生纯化的特征向量用于分类器训练。

图16是图示根据本公开的第五实施例的对象识别设备的功能性框图。如图16所示，根据本公开的第五实施例的对象识别设备160包括存储器1601和处理器1602。具体地，所述存储器1601配置为存储包含待识别对象的区域的原始图像以及相应的深度信息和光流图。所述处理器1602耦合到该存储器1601，该处理器1602配置为：利用该深度信息对该光流图进行补偿操作，以得到补偿后的光流图；利用卷积神经网络提取至少该补偿后的光流图中的特征分量；以及利用分类器对提取的特征分量进行分类，以获得用于识别所述对象的分类结果。此外，该处理器1602还配置为：利用深度信息对原始图像进行二值化操作，以获得二值化图像；根据卷积神经网络的结构，对二值化图像进行降采样操作，以获得降采样的二值化图像；利用卷积神经网络提取降采样的二值化图像中的特征分量；利用分类器对提取的特征分量进行分类，以获得用于识别对象的分类结果。

以上，参照图1到16描述了根据本公开的实施例的对象识别方法、对象识别装置以及分类器训练方法，其通过利用图像的深度信息使得物体的运动信息与距离相机的远近无关，并且利用图像的深度信息过滤掉不利于准确识别对象的杂信，从而提高卷积神经网络的对象识别精度。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种对象识别方法，包括：

获得包含待识别对象的区域的原始图像以及相应的深度信息和光流图；

利用该深度信息对该光流图进行补偿操作，以得到补偿后的光流图；

利用卷积神经网络提取至少该补偿后的光流图中的特征分量；以及

利用分类器对提取的特征分量进行分类，以获得用于识别所述对象的分类结果。

2.如权利要求1所述的对象识别方法，其中所述补偿操作是归一化操作，该归一化操作包括：

对于光流图中的每个像素点的光流值，利用该像素点的深度信息对该光流值进行归一化，以获得每个像素点的归一化的光流值。

3.如权利要求1或2所述的对象识别方法，还包括：

利用该深度信息对该原始图像进行二值化操作，以获得二值化图像；以及

利用该二值化图像对卷积神经网络提取的特征分量进行过滤，以获得过滤后的特征分量，

其中，所述分类器对过滤后的特征分量进行分类以获得用于识别所述对象的分类结果。

4.如权利要求3所述的对象识别方法，其中所述二值化操作包括：

根据该深度信息将该原始图像划分为多个块；

从所述多个块中选择满足预定约束条件的一个块；以及

基于所选择的块生成所述二值化图像。

5.如权利要求3所述的对象识别方法，还包括：

根据该卷积神经网络的结构，对该二值化图像进行降采样操作，以获得降采样的二值化图像，

其中，所述利用该二值化图像对卷积神经网络提取的特征分量进行过滤包括利用该降采样的二值化图像对卷积神经网络提取的特征分量进行过滤。

6.如权利要求5所述的对象识别方法，其中所述降采样操作包括：

根据该卷积神经网络的结构将该二值化图像划分为预定数量的子区域；

对于每个子区域内的二值化像素值进行投票操作；以及

基于投票结果获得该子区域的降采样后的二值化像素值。

7.如权利要求1所述的对象识别方法，其中所述分类结果包括分类置信度，所述方法还包括：

基于分类器针对包含所述待识别对象的多个区域的每个区域获得的分类置信度，进行动态自适应非极大值抑制处理，以获得抑制后的分类结果作为用于识别所述对象的分类结果。

8.一种分类器训练方法，包括：

获得包含已知对象的区域的原始图像以及相应的深度信息和光流图；

利用提取的特征分量训练分类器。

9.一种对象识别装置，包括：

获得部件，用于获得包含待识别对象的区域的原始图像以及相应的深度信息和光流图；

补偿部件，用于利用该深度信息对该光流图进行补偿操作，以得到补偿后的光流图；

提取部件，用于利用卷积神经网络提取至少该补偿后的光流图中的特征分量；以及

识别部件，用于利用分类器对提取的特征分量进行分类，以获得用于识别所述对象的分类结果。

10.一种对象识别设备，包括：

存储器，配置为存储包含待识别对象的区域的原始图像以及相应的深度信息和光流图；以及

处理器，耦合到该存储器，该处理器配置为：