CN110232326A

CN110232326A - 一种三维物体识别方法、装置及存储介质

Info

Publication number: CN110232326A
Application number: CN201910423126.2A
Authority: CN
Inventors: 陈诗锦
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2019-09-13
Anticipated expiration: 2039-05-20
Also published as: CN110232326B

Abstract

本申请公开了一种三维物体识别方法、图像处理装置及计算机可读存储介质，应用于智慧城市领域，其中方法包括：拍摄得到三维物体的彩色图像和深度图像；分别对彩色图像和深度图像进行目标分割，得到彩色分割图像和深度分割图像；利用彩色分割图像，来对深度分割图像进行修正；利用卷积神经网络来对修正之后的深度分割图像进行目标识别，以得到三维物体的类别。本申请首先拍摄三维图像的彩色图像和深度图像，并分别对其进行目标分割，然后利用彩色图像的分割结果，来对深度图像的分割结果进行修正，最后利用卷积神经网络来对修正后的深度图像的分割结果进行识别，以识别出三维物体，可见，本申请提供了一种三维物体的识别方法。

Description

一种三维物体识别方法、装置及存储介质

技术领域

本申请涉及图像处理领域，尤其涉及一种三维物体识别方法、装置及存储介质。

背景技术

随着科学技术的发展，各行各业都在提倡人工智能化，提倡使用机器来减轻人工作业的压力，例如家庭机器人，还有手术机器人、写作机器人和酒店机器人等。为了让机器能像人一样工作，首先需要解决机器人与外界世界进行交互的问题，使得机器人能够感知外界事物以及识别外界事物，这样才能让机器真正的实现智能化。

目前机器与外界进行交互的方法有采集外界事物的二维图像，并通过对该二维图像进行图像处理，来识别二维图像中的物体的类别。

虽然机器可以识别采集到的二维图像中的物体的类别，却无法确定采集到的二维图像中的物体是否为一个真实存在的物体还是只是一张平面图像，于是还缺少一种准确识别三维物体的方法。

发明内容

本申请实施例提供一种三维物体识别方法，可以针对不同的用户提供个性化的医疗机构评估服务。

第一方面，本申请实施例提供了一种三维物体识别方法，该方法包括：

拍摄得到三维物体的彩色图像和深度图像，所述深度图像为包含所述三维物体的色彩信息的图像，所述深度图像为包含所述三维物体的景深信息的图像；

分别对所述彩色图像和所述深度图像进行目标分割，得到彩色分割图像和深度分割图像；

利用所述彩色分割图像，来对所述深度分割图像进行修正；

利用卷积神经网络来对修正之后的深度分割图像进行目标识别，以得到所述三维物体的类别。

第二方面，本申请实施例提供了一种图像处理装置，该图像处理装置包括用于执行上述第一方面的三维物体识别方法的单元，该图像处理装置包括：

拍摄单元，用于拍摄得到三维物体的彩色图像和深度图像，所述深度图像为包含所述三维物体的色彩信息的图像，所述深度图像为包含所述三维物体的景深信息的图像；

分割单元，用于分别对所述彩色图像和所述深度图像进行目标分割，得到彩色分割图像和深度分割图像；

修正单元，用于利用所述彩色分割图像，来对所述深度分割图像进行修正；

识别单元，用于利用卷积神经网络来对修正之后的深度分割图像进行目标识别，以得到所述三维物体的类别。

第三方面，本申请实施例提供了另一种图像处理装置，包括处理器、输入设备和存储器，所述处理器、输入设备和存储器相互连接，其中，所述存储器用于存储支持图像处理装置执行上述三维物体识别方法的计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，用以执行上述第一方面以及第一方面的任意一种实现方式的三维物体识别方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行，用以执行上述第一方面以及第一方面的任意一种实现方式的三维物体识别方法。

在本申请实施例中，先对三维物体进行拍摄，得到三维物体的深度图像和彩色图像，然后分别对深度图像和彩色图像进行目标分割，然后利用彩色图像的目标分割的结果，来对深度图像的目标分割的结果进行修正，使得深度图像的目标分割的结果更加准确，最后使用卷积神经网络来识别经过目标分割和修正的深度图像，以识别出深度图像中的三维物体的类别。可见，本申请至少包含以下两个方面的发明点，第一方面，本申请主要是利用了深度图像来识别三维物体，而深度图像虽然只包含一维数据，但却能够描述一个三维物体，于是本申请相比平面图像能更好的清除背景，需要处理的数据更少，而且还能在手势解锁和面部解锁等场景下，避免平面图像造假。第二方面，本申请还利用彩色图像的分割结果对深度图像的分割结果进行修正，使得深度图像的分割结果更加准确。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的一种三维物体识别方法的示意流程图；

图2是本申请另一实施例提供的一种三维物体识别方法的示意流程图；

图3是本申请实施例提供的一种图像处理装置的示意性框图；

图4是本申请实施例提供的一种图像处理装置的结构性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请主要应用于图像处理装置，该图像处理装置可以是传统图像处理装置、大型存储系统、台式电脑、笔记本电脑、平板电脑、掌上电脑、智能手机、便携式数字播放器、智能手表以及智能手环等等，本申请对此不做限制。

本申请实施例中描述的终端设备包括但不限于带通讯功能的设备、智能手机、平板电脑、笔记本电脑、台式电脑、便携式数字播放器、智能手环以及智能手表等。当终端设备与图像处理装置之间交互数据的时候，终端设备或者图像处理装置都会按照预设格式进行对数据的特性进行记录并传送，其中，数据的特性包括时间、地点、类型等。

目前机器与外界进行交互的方法是通过对二维图像物体进行识别，来获知外界的物体，但是机器无法确定识别到物体是否是真实存在的，还是只是平面图像。举例来说，现目前采用的很多的手势识别是作为人机交互的重要组成部分，其研究发展影响着人机交互的自然性和灵活性。手势识别可以来自人的身体各部位的运动，但一般是指脸部和手的运动。用户可以使用简单的手势来控制或与设备交互，让计算机理解人类的行为。手势识别使得用户可以使用简单的手势来控制或与设备交互，而无需接触他们。现实应用中，手势通常处于复杂的环境下，例如光线过亮或过暗有较多手势存在手势距采集设备距离不同等各种复杂背景因素。这些方面的难题目前尚未得到解决。手势识别技术可以是基于红绿蓝色彩模式(RGB，red green Blue)的二维图像的，但这样的方法无法有效判断是否是真人还是图片，为了解决这个问题，还可以采用基于骨骼状态的手势识别方法，以可以识别出是真人还是图片，但骨骼数据是计算出来的数据，不够准确，且在复杂环境下会受到干扰。可见，目前还是缺少了一种可以较准确识别三维物体(例如手势和人脸等)的方法。

本申请为了解决上述问题，提出了一种结合彩色图像和深度图像来准确识别三维图像的方法。首先，本申请通过摄像装置来采集外界事物的彩色图像和深度图像，如果外界事物是一个平面图像，则不可能采集到深度图像，于是本申请保证了识别的对象是三维物体，然后再对彩色图像和深度图像分别进行图像分割，并利用彩色图像的分割结果对深度图像的分割结果进行预处理，使得深度图像的分割结果更加准确，最后利用卷积神经网络对预处理后的深度图像的分割结果进行目标识别，以识别出深度图像中包含的三维物体的类别。

参见图1，是本申请实施例提供一种三维物体识别方法的示意流程图，如图1所示三维物体识别方法可包括：

101：拍摄得到三维物体的彩色图像和深度图像。

本申请实施例通过摄像装置采集三维物体的图像，得到彩色图像和深度图像，其中，彩色图像的每个像素点的像素值代表该像素点的颜色，深度图像的每个像素点的像素值表示该像素点对应的三维物体上的点，距离景深摄像装置的距离。

需要说明的是，本申请不对上述用于采集彩色图像和深度图像的摄像装置进行限定。用于采集彩色图像和深度图像的摄像装置可以是同一个摄像装置，也可以是不同的摄像装置。如果是同一个摄像装置，则该摄像装置既具备彩色图像的成像器件也具备深度图像的成像器件，如果不是同一个摄像装置，则用于采集彩色图像的摄像装置为包含彩色图像的成像器件的彩色摄像头，用于采集深度图像的摄像装置为包含深度图像的成像器件的深度摄像装置。

可见，本申请实施例采用了深度图像来表示三维物体，仅使用深度(一维数据)便表示了三维物体。不仅保证了深度图像中的三维物体是在现实中真实三维物体，还使得图像处理的数据量大大减少。

在另一种可实施的实现方式中，获得上述三维物体的彩色图像以及深度图像之后，对该彩色图像和深度图像进行预处理。该预处理分为两个步骤，第一个步，先分别对该彩色图像和深度图像进行棋盘校验，以矫正所述彩色图像和所述深度图像的形变误差。第二步，对进行棋盘校验之后的彩色图像和深度图像进行像素匹配，使得彩色图像与深度图像对应的像素点相关联。

需要说明的是，为了方便说明，接下来将彩色图像和深度图像统称为图像，因为不论是在棋盘校验的过程中还是在像素匹配的过程中，彩色图像和深度图像的处理过程类似。由于受摄像装置与三维物体的三维空间位置关系，摄像装置的镜头厚度的不均匀程度，以及摄像机的质量等原因的影响，通过摄像装置采集的图片一般都存在着不同程度的光学畸变，其成像可能产生梯形失真或者桶形失真等，在现实中即表现为图像发生一定程度的形变，于是在拍摄得到图像之后还需要对其进行矫正。本申请所使用的方法是棋盘校验，棋盘校验也可以被称为基于棋盘格的图形校准方法，即将图像划分为棋盘格，然后基于该划分的棋盘格将图像的各个部分进行预设的仿射变换，恢复到图像发生形变之前的样子，其中，仿射变换包括对图像进行尺寸变换、伸缩变换、扭曲变换、旋转变换和平移变换等。

还需要说明的是，由于本申请实施例最终需要结合彩色图像和深度图像，来识别三维物体，于是在这之前需要将彩色图像和深度图像进行像素匹配，像素匹配指的是将彩色图像和深度图像的像素点对齐，使得彩色图像和深度图像之间用于表示三维物体的同一个点的像素点相关联。

102：分别对上述彩色图像和上述深度图像进行目标分割，得到彩色分割图像和深度分割图像。

在本申请实施例中，分别对上述彩色图像和上述深度图像中的三维物体进行目标分割，以得到彩色图像中包含三维物体的彩色分割图像，以及深度图像中包含三维物体的深度分割图像。其中，对彩色图像进行目标分割的方法包括基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等，而对深度图像进行目标分割的方法为阈值分割。

在另一种可实施的实现方式中，上述三维物体为人手或人脸，则上述用于对彩色图像进行目标分割的方法为肤质检测，即基于色彩特征检测出彩色图像中的手势图像。上述用于对深度图像进行目标分割的方法为阈值分割，即基于深度特征检测出深度图像中的手势图像。

需要说明的是，上述肤质检测指的是根据肤质的颜色来分割出彩色图像中可能为人手或者人脸的三维物体。

还需要说明是，上述阈值分割指的是根据三维物体与摄像装置的距离来分割出深度图像中可能为人手或者人脸的三维物体。本申请实施例中的深度图像的不同的像素点表示了图像中每个点在现实空间中与摄像装置的摄像头的距离，于是深度图像中的像素点的像素值为一维数据，根据深度图像中每个像素点的像素值映射为灰度值，以灰度图的方式来表示深度图像。而上述阈值分割指的是一种基于区域的图像分割技术，根据深度图像的灰度级的变化来分割出三维图像。阈值分割非常适用于对深度图像进行分割，这是阈值分割不仅有实现简单、计算量小和性能较稳定等优点，而且深度图像中背景与三维物体分别距离摄像装置的距离差异很大，使得本申请实施例通过阈值分割的方法便能很轻易得将背景与三维物体分割开来。

103：利用上述彩色分割图像，来对上述深度分割图像进行修正。

本申请实施例主要任务是识别深度图像中的三维物体，彩色图像可以理解为是用于提高深度图像的目标分割的准确度。在得到上述彩色图像的彩色分割图像，以及上述深度图像的深度分割图像之后，利用彩色分割图像对深度分割图像进行修正，使得深度分割图像更加准确，简而言之，就是删除深度分割图像中彩色分割图像中不存在的点。

具体过程为，首先确定深度分割图像和彩色分割图像中相关联的像素点，然后获取深度分割图像中不与彩色分割图像中的任意一个像素点相关联的像素点，作为错误像素点，最后在深度分割中舍弃该错误像素点，以对深度分割图像进行阉割。

举例来说，彩色分割图像中包含像素点1、2和4，深度分割图像中包含像素点1、2和3，彩色分割图像的像素点1和2分别与深度分割图像的像素点1和2相关联，可见，深度分割图像中包含彩色分割图像中不存在的像素点3，根据彩色分割图像对深度分割图像进行阉割，删除深度分割图像中的像素点3。

104：利用卷积神经网络来对修正之后的深度分割图像进行目标识别，以得到上述三维物体的类别。

在本申请实施例中，利用卷积神经网络对修正之后的深度分割图像进行目标识别，以识别出深度分割图像中的三维物体的类别。其中，卷积神经网络包括全卷积网络(FCN，Fully Convolutional Network)网络结构、U-NET网络结构或V-Net网络结构等。

可见，本申请实施例利用彩色分割图像来对深度分割图像的结果进行修正，使得深度图像的分割结果更加准确，然后再利用卷积神经网络来对深度分割图像进行目标识别，以识别出深度分割图像中的三维物体的类别。本申请实施例相对于利用卷积神经网络来进行多任务学习，即对彩色分割图像和深度分割图像同时进行目标分割来说，更加的简单和高效，甚至于更加准确。

在另一种可实施的实现方式中，在使用上述卷积神经网络对深度分割图像进行目标识别之前，构建卷积神经网络框架，利用训练样本对所述卷积神经网络框架进行训练，得到所述卷积神经网络，所述训练样本包含多个深度图像以及所述多个深度图像的识别结果。

具体的，首先构建卷积神经网络框架，该框架包含卷积层、池化层、分批标准化层、激活函数层和分类层中的任意多层，本申请实施例对卷积神经网络的层数不做限定。其中，卷积层用于对输入的图像数据进行卷积以提取图像特征，池化层用于通过最大池化方法或者平均池化方法简化数据，分批标准化层用于提高卷积神经网络的训练速度，激活函数层可以引入非线性因素提高卷积神经网络解决非线性问题的能力，分类层用于得出三维物体为各个类别的概率集合，以及根据该概率集合判断三维物体最可能为的类别。本申请实施例除了可以自己构建卷积神经网络框架以外，还可以使用数据库中构建好的经典卷积神经网络框架，例如全卷积网络(FCN，Fully Convolutional Network)网络结构、U-NET网络结构和V-Net网络结构等中的任意一种。构建好卷积神经网络框架之后向该卷积神经网络框架输入大量的训练样本，以对卷积神经网络框架进行训练，得到一个参数不断被修改和优化的成熟的卷积神经网络，该成熟的卷积神经网络能够正确识别出深度分割图像中的三维物体的类别。

需要说明的是，训练样本也被称为即训练集(training set)，包括不计数量的多个深度分割图像及其对应的类别。上述利用训练样本对卷积神经网络框架进行训练指的是将训练样本输入到卷积神经网络框架中，利用损失函数计算实际输出与期望输出间的误差，然后利用优化算法来调整卷积神经网络中的参数，使得实际输出与期望输出之前的误差最小，从而优化上述卷积神经网络。具体的，将训练集中的一个样本(A_i,B_i)输入卷积神经网络框架中，得到卷积神经网络框架的实际输出Y_i。其中，A_i为第i个深度分割图像的图像数据、B_i为第i个深度分割图像的类别。然后计算D＝B_i-Y_i，D为即预测值与实际值的误差，然后根据该误差D的大小利用反向传播算法调整图像处理模型中的参数。通过对每个样本重复上述过程，直到误差D不超过预设误差，表示图像处理模型训练完成。其中，预设误差可以为任意设定的值。

在另一种可实施的实现方式中，在利用卷积神经网络来对修正之后的深度分割图像进行目标识别，以得到三维物体的类别之后，接收反馈信息，反馈信息为用户标注的三维物体的类别，然后根据该反馈信息计算卷积神经网络进行目标识别的误差，利用所述误差对卷积神经网络进行优化。

本申请实施例用于再根据用户标注的三维图像结果来对卷积神经网络进行进一步的优化，使得卷积神经网络更加准确。在卷积神经网络识别得到深度分割图像中包含的三维物体的类别之后，接收反馈信息，该反馈信息包含了用户所标注的深度分割图像中的三维物体的类别。然后再根据该反馈信息计算得到卷积神经网络进行目标识别的误差，最后根据该误差使用反向传播(back-propagation)算法更新卷积神经网络的参数,从而优化该卷积神经网络。

上述根据反馈信息计算得到卷积神经网络进行目标识别的误差指的是，先讲反馈信息中用户标记的三维物体的类别与卷积神经网络进行目标识别之后得到的三维物体的类别进行比较，比较其结果是否一致。若一致则说明卷积神经网络的训练的比较成熟，如果不一致则说明卷积神经网络还需要进一步的训练，其实不管是否一致，都可以利用反馈信息对卷积神经网络进行优化，这是因为卷积神经网络其实是通过最后一层分类层(softmax层)得到三维物体的为各个类别的概率集合，然后将其中概率最大的类别最为该三维物体的类别，所以卷积神经网络即使正确识别处理三维物体的类别，但并不是百分之百的确定三维物体的类别，卷积神经网络还有一定的概率将三维物体识别为其他错误的类别，于是卷积神经网络即使正确识别了三维物体的类别，还是存在优化的空间。

利用反馈信息对卷积神经网络进行优化分为两个步骤，第一步，根据反馈信息计算卷积神经网络进行目标识别的误差，即获取反馈信息中用户标记的三维物体的类别在卷积神经网络的分类层中的概率，然后将该概率带入到损失函数中计算误差，第二步，根据该误差使用反向传播(back-propagation)算法更新卷积神经网络的参数,从而优化该卷积神经网络。其中，上述损失函数是描述图像处理模型的处理结果与反馈信息中的真实结果之间的损失情况，其中，损失函数包括DICE损失函数、IOU损失函数、回归损失函数、交叉熵函数和LogLoss函数。

在另一个可实施的实现方式中，生成含有上述反馈信息的处理报告，该处理报告用于规范化显示处理结果。

举例来说，假设三维物体是人手，人手的手势有五种，经过卷积神经网络对深度分割图像进行目标识别之后，得到深度分割图像中的人手分别为五种手势的概率的集合p＝[0.1，0.15，0.05，0.6，0.1]，通过该概率的集合判断人手的手势最可能是第四种，然后对比反馈信息中的用户标注的手势，例如为y＝[0，0，0，1，0]，表示人手的手势确实是第四种，从而可以看出卷积神经网络的目标识别是正确的，但是卷积神经网络中的参数还不够完美，可以进一步优化，尽可能的使卷积神经网络判断人手的手势为第四类的概率接近于1。假设使用交叉熵函数作为损失函数来描述上述卷积神经网络的分类准确度，其中，交叉熵函数表示为L_i＝-log(p_i)，其中L_i为人手为第i种手势的损失，p_i为卷积神经网络识别人手为第i种手势的概率。接着上述的举例，可以根据该交叉熵函数计算得到损失Loss＝-log(0.6)，最后根据损失使用反向传播(back-propagation)算法对图像处理模型进行优化，即使用链式法则求导，将损失反向传播回去，然后更新卷积神经网络中的权重参数，确保最后的卷积神经网络目标识别的结果与实际的结果保持在一定的误差范围内，也就是使误差为零为最终目标。

参见图2，是本申请实施例提供另一种三维物体识别方法的示意流程图，应用于手势识别和人脸识别领域，如图2所示三维物体识别方法可包括：

201：构建卷积神经网络框架。

本申请实施例，首先构建卷积神经网络框架，该框架包含卷积层、池化层、分批标准化层、激活函数层和分类层中的任意多层，本申请实施例对卷积神经网络的层数不做限定。其中，卷积层用于对输入的图像数据进行卷积以提取图像特征，池化层用于通过最大池化方法或者平均池化方法简化数据，分批标准化层用于提高卷积神经网络的训练速度，激活函数层可以引入非线性因素提高卷积神经网络解决非线性问题的能力，分类层用于得出三维物体为各个类别的概率集合，以及根据该概率集合判断三维物体最可能为的类别。本申请实施例除了可以自己构建卷积神经网络框架以外，还可以使用数据库中构建好的经典卷积神经网络框架，例如全卷积网络(FCN，Fully Convolutional Network)网络结构、U-NET网络结构和V-Net网络结构等中的任意一种。

202：利用训练样本对上述卷积神经网络框架进行训练，得到卷积神经网络。

在本申请实施例中，向构建好卷积神经网络框架之后向该卷积神经网络框架输入大量的训练样本，以对卷积神经网络框架进行训练，得到一个参数不断被修改和优化的成熟的卷积神经网络，该成熟的卷积神经网络能够正确识别出深度分割图像中的三维物体的类别，其中，深度分割图像指的是，本申请对深度图像进行目标分割之后得到的图像，该图像中去除了背景只剩下人手和人脸，该人脸和人手为三维物体。

203：拍摄得到三维物体的彩色图像和深度图像，该三维物体为人手或人脸。

204：分别对上述彩色图像和上述深度图像进行棋盘校验，以矫正上述彩色图像和上述深度图像的形变误差。

在本申请实施例中，对上述三维物体的彩色图像以及深度图像进行棋盘校验，以矫正所述彩色图像和所述深度图像的形变误差。

205：对上述彩色图像和上述深度图像进行像素匹配，使得上述彩色图像与上述深度图像对应的像素点相关联。

在本申请实施例中，对上述消除了形变误差的彩色图像和深度图像进行像素匹配，使得彩色图像与深度图像对应的像素点相关联。通过上一步骤和本步骤完成对彩色图像和深度图像的预处理。

需要说明的是，由于本申请实施例最终需要结合彩色图像和深度图像，来识别三维物体，于是在这之前需要将彩色图像和深度图像进行像素匹配，像素匹配指的是将彩色图像和深度图像的像素点对齐，使得彩色图像和深度图像之间用于表示三维物体的同一个点的像素点相关联。

206：分别对上述彩色图像和上述深度图像进行肤质检测和阈值分割，得到彩色分割图像和深度分割图像。

在本申请实施例中，对上述彩色图像和深度图像进行目标分割，由于上述三维物体为人手或人脸，于是采用肤质检测的方法对彩色图像进行目标分割，即基于色彩特征检测出彩色图像中的手势图像，并采用阈值分割的方法对深度图像进行目标分割，即基于深度特征检测出深度图像中的手势图像。

还需要说明是，本申请实施例中的深度图像的不同的像素点表示了图像中每个点在现实空间中与摄像装置的摄像头的距离，于是深度图像中的像素点的像素值为一维数据，根据深度图像中每个像素点的像素值映射为灰度值，以灰度图的方式来表示深度图像。而上述阈值分割指的是一种基于区域的图像分割技术，根据深度图像的灰度级的变化来分割出三维图像。阈值分割非常适用于对深度图像进行分割，这是阈值分割不仅有实现简单、计算量小和性能较稳定等优点，而且深度图像中背景与三维物体分别距离摄像装置的距离差异很大，使得本申请实施例通过阈值分割的方法便能很轻易得将背景与三维物体分割开来。

207：利用上述彩色分割图像，来对上述深度分割图像进行修正。

208：利用上述卷积神经网络来对修正之后的深度分割图像进行目标识别，以得到上述三维物体的类别。

209：接收反馈信息。

本申请实施例，接收反馈信息，该反馈信息包括用户标注的深度图像中的三维图像，即人手和人脸的类别，通过该类别可以得知人手的手势含义，或者人脸的身份等。

210：根据上述反馈信息计算上述卷积神经网络进行目标识别的误差。

在本申请实施例中，根据上述反馈信息估计卷积神经网络识别结果与实际结果之间的误差，该误差可以通过损失函数计算出，误差越大，说明卷积神经网络的识别效果越差，误差越小，说明卷积神经网络的识别结果越好。

211：利用上述误差对上述卷积神经网络进行优化。

总的举例来说明上述根据反馈信息计算误差，并利用误差来优化卷积神经网络的过程。假设三维物体是人手，人手的手势有五种，经过卷积神经网络对深度分割图像进行目标识别之后，得到深度分割图像中的人手分别为五种手势的概率的集合p＝[0.1，0.15，0.05，0.6，0.1]，通过该概率的集合判断人手的手势最可能是第四种，然后对比反馈信息中的用户标注的手势，例如为y＝[0，0，0，1，0]，表示人手的手势确实是第四种，从而可以看出卷积神经网络的目标识别是正确的，但是卷积神经网络中的参数还不够完美，可以进一步优化，尽可能的使卷积神经网络判断人手的手势为第四类的概率接近于1。假设使用交叉熵函数作为损失函数来描述上述卷积神经网络的分类准确度，其中，交叉熵函数表示为L_i＝-log(p_i)，其中L_i为人手为第i种手势的损失，p_i为卷积神经网络识别人手为第i种手势的概率。接着上述的举例，可以根据该交叉熵函数计算得到损失Loss＝-log(0.6)，最后根据损失使用反向传播(back-propagation)算法对图像处理模型进行优化，即使用链式法则求导，将损失反向传播回去，然后更新卷积神经网络中的权重参数，确保最后的卷积神经网络目标识别的结果与实际的结果保持在一定的误差范围内，也就是使误差为零为最终目标。

可见，相对于上一申请实施例来说，本申请实施例不仅更详细说明了图像处理的过程，还重点说明了构建、训练和优化卷积神经网络的过程，从而不断的对卷积神经网络进行进一步的优化和完善，使得卷积神经网络更加准确。而且本申请实施例的三维物体主要是人脸和人手，于是本申请实施例应用于手势识别和人脸识别，本申请中通过采用卷积神经网络来对图像进行手势识别，来提高手势识别的精度，以及采用深度图像这样的一维数据来表示三维图像，大大减少了需要处理的数据量。于是本申请实施例通过摒弃RGB彩色数据，而对深度图像进行处理，不仅可以大幅度缩小数据量，去除颜色信息的干扰，能够更有效的进行背景减除，提高识别准确性，还无需进行微动作等额外操作，便保证了手势和人脸是真实的三维物体，避免了不法分子利用二维图像进行造假。而且本申请实施例还利用彩色图像的分割结果对深度图像的分割结果进行修正，直接提高了深度图像的分割精度，间接提高了卷积神经网络进行手势识别和人脸识别的精度。总的来说，本申请实施例效率和识别精度都大大提升。

本申请实施例还提供一种图像处理装置，该图像处理装置用于执行前述任一项的三维物体识别方法的单元。具体地，参见图3，是本申请实施例提供的一种图像处理装置的示意框图。本实施例的图像处理装置包括：拍摄单元301、分割单元302、修正单元303以及识别单元304。具体的：

拍摄单元301，用于拍摄得到三维物体的彩色图像和深度图像，上述深度图像为包含上述三维物体的色彩信息的图像，上述深度图像为包含上述三维物体的景深信息的图像；分割单元302，用于分别对上述彩色图像和上述深度图像进行目标分割，得到彩色分割图像和深度分割图像；修正单元303，用于利用上述彩色分割图像，来对上述深度分割图像进行修正；识别单元304，用于利用卷积神经网络来对修正之后的深度分割图像进行目标识别，以得到上述三维物体的类别。

在另一种可实施的实现方式中，上述图像处理装置包括彩色拍摄单元305和深度拍摄单元306，彩色拍摄单元305用于拍摄上述三维图像，得到上述彩色图像；深度拍摄单元306用于通过景深摄像装置拍摄上述三维图像，得到上述深度图像。

在另一种可实施的实现方式中，上述三维物体为人手或人脸；上述分割单元302具体用于对上述彩色图像进行肤质检测，得到上述彩色分割图像；还用于对上述深度图像进行阈值分割，得到上述深度分割图像。

在另一种可实施的实现方式中，上述图像处理装置还包括确定单元307，获取单元308以及删除单元309，上述确定单元307用于确定上述深度分割图像和上述彩色分割图像中相关联的像素点；上述获取单元308，用于获取上述深度分割图像中不与上述彩色分割图像中的任意一个像素点相关联的像素点，作为错误像素点；上述删除单元309，用于舍弃上述深度分割图像中的错误像素点，以对上述深度分割图像进行阉割。

在另一种可实施的实现方式中，上述图像处理装置还包括矫正单元310和匹配单元311，上述矫正单元310用于分别对上述彩色图像和上述深度图像进行棋盘校验，以矫正上述彩色图像和上述深度图像的形变误差；上述匹配单元311，用于对上述彩色图像和上述深度图像进行像素匹配，使得上述彩色图像与上述深度图像对应的像素点相关联。

在另一种可实施的实现方式中，上述图像处理装置还包括构建单元312和训练单元313，上述构建单元312用于构建卷积神经网络框架；上述训练单元313，用于利用训练样本对上述卷积神经网络框架进行训练，得到上述卷积神经网络，上述训练样本包含多个深度分割图像以及上述多个深度分割图像的类别。

在另一种可实施的实现方式中，上述图像处理装置还包括接收单元314、估计单元315和优化单元316，上述接收单元314用于接收反馈信息，上述反馈信息为用户标注的上述三维物体的类别；上述估计单元315，用于根据上述反馈信息计算上述卷积神经网络进行目标识别的误差；上述优化单元316，用于利用上述误差对上述卷积神经网络进行优化。

在本申请实施例中，拍摄单元先对三维物体进行拍摄，得到三维物体的深度图像和彩色图像，然后分割单元分别对深度图像和彩色图像进行目标分割，然后修正单元利用彩色图像的目标分割的结果，来对深度图像的目标分割的结果进行修正，使得深度图像的目标分割的结果更加准确，最后识别单元使用卷积神经网络来识别经过目标分割和修正的深度图像，以识别出深度图像中的三维物体的类别。可见，本申请至少包含以下两个方面的发明点，第一方面，本申请主要是利用了深度图像来识别三维物体，而深度图像虽然只包含一维数据，但却能够描述一个三维物体，于是本申请相比平面图像能更好的清除背景，需要处理的数据更少，而且还能在手势解锁和面部解锁等场景下，避免平面图像造假。第二方面，本申请还利用彩色图像的分割结果对深度图像的分割结果进行修正，使得深度图像的分割结果更加准确。

参见图4，是本申请另一实施例提供的一种图像处理装置示意框图。如图所示的本实施例中的图像处理装置可以包括：一个或多个处理器410、输入设备420和存储器430。上述处理器410、输入设备420和存储器430通过总线440连接。存储器430用于存储计算机程序，计算机程序包括程序指令，处理器410用于执行存储器430存储的程序指令。具体的：

输入设备420用于执行拍摄单元301的功能，用于拍摄得到三维物体的彩色图像和深度图像，上述深度图像为包含上述三维物体的色彩信息的图像，上述深度图像为包含上述三维物体的景深信息的图像；

处理器410用于执行分割单元302的功能，用于分别对上述彩色图像和上述深度图像进行目标分割，得到彩色分割图像和深度分割图像；还用于执行修正单元303的功能，用于利用上述彩色分割图像，来对上述深度分割图像进行修正；还用于执行识别单元304的功能，用于利用卷积神经网络来对修正之后的深度分割图像进行目标识别，以得到上述三维物体的类别。

在另一种可实施的实现方式中，输入设备420还用于执行彩色拍摄单元的功能，用于拍摄上述三维图像，得到上述彩色图像；输入设备420还用于执行深度拍摄单元306的功能，用于通过景深摄像装置拍摄上述三维图像，得到上述深度图像。

在另一种可实施的实现方式中，上述三维物体为人手或人脸；上述处理器410具体用于对上述彩色图像进行肤质检测，得到上述彩色分割图像；还用于对上述深度图像进行阈值分割，得到上述深度分割图像。

在另一种可实施的实现方式中，上述处理器410还用于执行确定单元307的功能，用于确定上述深度分割图像和上述彩色分割图像中相关联的像素点；上述处理器410还用于执行获取单元308的功能，用于获取上述深度分割图像中不与上述彩色分割图像中的任意一个像素点相关联的像素点，作为错误像素点；上述处理器410还用于执行删除单元309的功能，用于舍弃上述深度分割图像中的错误像素点，以对上述深度分割图像进行阉割。

在另一种可实施的实现方式中，上述处理器410还用于执行矫正单元310的功能，用于分别对上述彩色图像和上述深度图像进行棋盘校验，以矫正上述彩色图像和上述深度图像的形变误差；上述处理器410还用于执行匹配单元311的功能，用于对上述彩色图像和上述深度图像进行像素匹配，使得上述彩色图像与上述深度图像对应的像素点相关联。

在另一种可实施的实现方式中，上述处理器410还用于执行构建单元312的功能，用于构建卷积神经网络框架；上述处理器410还用于执行训练单元313的功能，用于利用训练样本对上述卷积神经网络框架进行训练，得到上述卷积神经网络，上述训练样本包含多个深度分割图像以及上述多个深度分割图像的类别。

在另一种可实施的实现方式中，上述输入设备420还用于执行接收单元314的功能，用于接收反馈信息，上述反馈信息为用户标注的上述三维物体的类别；上述处理器410用于执行估计单元315的功能，用于根据上述反馈信息计算上述卷积神经网络进行目标识别的误差；上述处理器410用于执行优化单元316的功能，用于利用上述误差对上述卷积神经网络进行优化。

应当理解，在本申请实施例中，所称处理器410可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器430可以包括只读存储器和随机存取存储器，并向处理器410提供指令和数据。存储器430的一部分还可以包括非易失性随机存取存储器。例如，存储器430还可以存储设备类型的信息。

具体实现中，本申请实施例中所描述的处理器410可执行本申请实施例提供的三维物体识别方法的第一实施例和第二实施例中所描述的实现方式，也可执行本申请实施例所描述的图像处理装置的实现方式，在此不再赘述。

在本申请的另一实施例中提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令被处理器执行。：

计算机可读存储介质可以是前述任一实施例的图像处理装置的内部存储单元，例如图像处理装置的硬盘或内存。计算机可读存储介质也可以是图像处理装置的外部存储设备，例如图像处理装置上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，计算机可读存储介质还可以既包括图像处理装置的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序以及图像处理装置所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同三维物体识别方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的图像处理装置和单元的具体工作过程，可以参考前述三维物体识别方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的图像处理装置和三维物体识别方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，图像处理装置，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种三维物体识别方法，其特征在于，包括：

利用所述彩色分割图像，来对所述深度分割图像进行修正；

2.根据权利要求1所述的方法，其特征在于，所述拍摄得到三维物体的彩色图像和深度图像，包括：

通过彩色摄像装置拍摄所述三维图像，得到所述彩色图像；

通过景深摄像装置拍摄所述三维图像，得到所述深度图像。

3.根据权利要求1所述的方法，其特征在于，所述三维物体为人手或人脸；

所述分别对所述彩色图像和所述深度图像进行目标分割，得到彩色分割图像和深度分割图像，包括：

对所述彩色图像进行肤质检测，得到所述彩色分割图像；

对所述深度图像进行阈值分割，得到所述深度分割图像。

4.根据权利要求1所述的方法，其特征在于，所述利用所述彩色分割图像，来对所述深度分割图像进行修正，包括：

确定所述深度分割图像和所述彩色分割图像中相关联的像素点；

获取所述深度分割图像中不与所述彩色分割图像中的任意一个像素点相关联的像素点，作为错误像素点；

舍弃所述深度分割图像中的错误像素点，以对所述深度分割图像进行阉割。

5.根据权利要求1所述的方法，其特征在于，所述拍摄得到三维物体的彩色图像和深度图像之后，所述分别对所述彩色图像和所述深度图像进行目标分割之前，还包括：

分别对所述彩色图像和所述深度图像进行棋盘校验，以矫正所述彩色图像和所述深度图像的形变误差；

对所述彩色图像和所述深度图像进行像素匹配，使得所述彩色图像与所述深度图像对应的像素点相关联。

6.根据权利要求1所述的方法，其特征在于，所述利用卷积神经网络来对修正之后的深度分割图像进行目标识别之前，还包括：

构建卷积神经网络框架；

利用训练样本对所述卷积神经网络框架进行训练，得到所述卷积神经网络，所述训练样本包含多个深度分割图像以及所述多个深度分割图像的类别。

7.根据权利要求1所述的方法，其特征在于，所述利用卷积神经网络来对修正之后的深度分割图像进行目标识别，以得到所述三维物体的类别之后，还包括：

接收反馈信息，所述反馈信息为用户标注的所述三维物体的类别；

根据所述反馈信息计算所述卷积神经网络进行目标识别的误差；

利用所述误差对所述卷积神经网络进行优化。

8.一种图像处理装置，其特征在于，包括：

9.一种图像处理装置，其特征在于，包括处理器、输入设备和存储器，所述处理器、输入设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，用以执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。