CN106127733B

CN106127733B - 人体目标识别的方法和装置

Info

Publication number: CN106127733B
Application number: CN201610414525.9A
Authority: CN
Inventors: 谭志国; 滕书华; 李洪
Original assignee: Hunan Visualtouring Information Technology Co Ltd
Current assignee: Shandong Jiayin Information Technology Co ltd
Priority date: 2016-06-14
Filing date: 2016-06-14
Publication date: 2019-02-22
Anticipated expiration: 2036-06-14
Also published as: CN106127733A

Abstract

本发明提供的一种人体目标识别的方法和装置，所述方法包括：获得深度图像；提取所述深度图像中的图像像素特征；将所述图像像素特征输入人体深度学习模型中进行识别分类；判断所述图像像素特征的分类与所述人体深度学习模型中已有的人体部位标签是否匹配；若所述图像像素特征的分类与所述人体深度学习模型中的已有标签匹配，则输出与该像素特征对应的标签。本发明采用深度学习模型识别图像像素特征，同时完成了人体目标检测与识别，简化了检测识别过程，提高了检测识别效率。

Description

人体目标识别的方法和装置

技术领域

本发明涉及目标识别技术领域，具体而言，涉及一种人体目标识别的方法和装置。

背景技术

随着深度图像传感器技术的逐步成熟，低廉的深度图像传感器设备已经在各领域得到广泛应用。由于深度图像不受光线、图像色差、运动状态等因素的影响，其特别适合运用于人体目标识别领域。因此，基于深度图像的人体目标识别方法成为本领域研究的热点。

现有基于深度图像的人体目标识别需要先进行人体检测，然后在此基础上进行人体部位的识别。如此，就需要至少两套算法来完成检测识别，编程复杂，且维护与调试过程也十分繁琐。同时，检测识别分为两个独立步骤，使得运算速度慢，不能满足实时应用的需求。人体部位识别很大程度上也会受到人体检测结果的影响，导致精准度不够。如何建立一套准确高效且简单的人体目标识别方法成为本领域技术人员亟待解决的问题。

发明内容

为了克服现有技术中的上述不足，本发明所要解决的技术问题是提供一种人体目标识别的方法和装置，其能够通过人体深度学习模型识别深度图像的图像像素特征，快速准确地同时完成人体目标检测和识别。

就方法而言，本发明提供一种人体目标识别的方法，所述方法包括：

获得深度图像；

提取所述深度图像中的图像像素特征；

将所述图像像素特征输入人体深度学习模型中进行识别分类；

判断所述图像像素特征的分类与所述人体深度学习模型中已有的人体部位标签是否匹配；

若所述图像像素特征的分类与所述人体深度学习模型中的已有标签匹配，则输出与该图像像素特征对应的标签。

进一步地，在所述人体目标识别的方法中，所述图像像素特征为像素点邻域内其他像素点深度值之差的集合，所述提取所述深度图像中的图像像素特征的步骤包括：

由选定像素点的深度值及一空间不变系数得到该选定像素点在真实空间的空间分辨率；

由该选定像素点的所述空间分辨率、预设真实空间偏移量及预设多个偏移角中任意的两个不同的偏移角得到多个偏移向量对，其中每个所述偏移向量对包含两个偏移向量；

由所述两个偏移向量得到该选定像素点的两个偏移点，由一深度差值函数获得两个偏移点之间的深度值之差；

将多个所述深度值之差的集合作为该选定像素点的特征向量，以此表征该选定像素点的图像像素特征。

进一步地，在所述人体目标识别的方法中，在所述由一深度差值函数获得两个偏移点之间的深度值之差的步骤中，

当所述两个偏移点相对于所述选定像素点的深度值之差均小于等于一预设深度阈值时，所述深度差值函数等于所述两个偏移点之间的深度值的差，

当所述两个偏移点中的至少一个相对于所述选定像素点的深度值之差大于所述深度阈值时，所述深度差值函数等于一设定值，所述设定值大于所述深度图像上所有像素点的深度值。

进一步地，在所述人体目标识别的方法中，所述人体深度学习模型包括深度置信网络模型，所述深度置信网络模型将所述图像像素特征作为其底层的输入，在网络最顶层进行回归分类，并匹配相应的标签，其中，所述标签包括各人体部位标签。

进一步地，在所述人体目标识别的方法中，所述人体目标识别的方法还包括预先对所述人体深度学习模型进行深度学习训练，所述深度学习训练的步骤包括，

获得深度图像库中的训练图像；

提取所述训练图像的图像像素特征；

利用所述训练图像的图像像素特征训练所述人体深度学习模型，并对训练完成的分类赋予相应标签；

所述人体深度学习模型根据所述标签对其参数进行调整。

进一步地，在所述人体目标识别的方法中，所述人体目标识别的方法还包括：

将识别完成后的带标签的图像像素特征及图像像素特征的正确识别率输入到所述人体深度学习模型；所述人体深度学习模型以此进行深度学习训练，并对其参数进行调整。

就装置而言，本发明提供一种人体目标识别的装置，所述人体目标识别的装置包括：

第一获取模块，用于获得深度图像；

第一特征提取模块，用于提取所述深度图像中的图像像素特征；

人体深度学习模块，用于将所述图像像素特征输入人体深度学习模型中进行识别分类；

判断模块，用于判断所述图像像素特征的分类与所述人体深度学习模型中已有的人体部位标签是否匹配；

输出模块，用于当所述图像像素特征的分类与所述人体深度学习模型中的已有标签匹配时，输出与该像素特征对应的标签。

进一步地，在所述人体目标识别的方法中，所述人体深度学习模型用于将所述图像像素特征作为其底部输入层的输入，在网络最顶层进行回归分类，并匹配相应的标签，其中，所述标签包括人体各部位标签及非人体部位标签。

进一步地，在所述人体目标识别的方法中，所述装置还包括:

第二获取模块，用于获得深度图像库中的训练图像；

第二特征提取模块，用于提取所述训练图像的图像像素特征；

训练模块，用于利用所述训练图像的图像像素特征训练所述人体深度学习模型，并对训练完成的分类赋予相应标签；

参数调整模块，用于根据所述标签对人体深度学习模型的参数进行调整。

进一步地，在所述人体目标识别的方法中，所述参数调整模块还用于根据识别完成后带标签的图像像素特征及图像像素特征的正确识别率对所述人体深度学习模型的参数进行调整。

相对于现有技术而言，本发明具有以下有益效果：

本发明提供的人体目标识别的方法和装置，通过采用人体深度学习模型对提取的深度图像像素特征进行检测识别，一方面以像素深度差值作为图像像素特征，特征提取过程简单，且有较好的唯一性和空间不变性。另一方面，采用人体深度学习模型同时完成检测与识别，简化了检测识别过程，提高了检测识别效率，拥有更好的实时性。且深度学习算法有较强的分类和学习能力，以及较强的自适应性，能有效准确的检测识别到人体及相应部位。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的人体目标识别的方法的流程示意图；

图2为本发明实施例提供的深度图像获得方法的示意图；

图3为本发明实施例提供的提取图像像素特征流程的示意图；

图4为本发明实施例提供的像素空间分辨率获得方法的示意图；

图5为本发明实施例提供的训练人体深度学习模型流程的示意图；

图6为本发明实施例提供的深度置信网络模型的示意图；

图7为本发明实施例提供的人体目标识别的装置的一种结构框图；

图8为本发明实施例提供的人体目标识别的装置的另一种结构框图。

上述附图中，各附图标记对应的名称为：

人体目标识别装置	10
		第一获取模块	110
第一特征提取模块	120
		人体深度学习模块	130
判断模块	140
		输出模块	150
第二获取模块	210
		第二特征提取模块	220
训练模块	230
		参数调整模块	240

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

第一实施例

请参照图1，图1为本实施例提供人体目标识别的方法的具体流程图，所述方法包括：

步骤S110，获得深度图像。

在本实施例中，所述深度图像通过深度传感器获得，其中，所述深度图像包括通过所述深度传感器获得的每个像素点的深度值。

请参照图2，假设在本实施例中所述深度传感器视场角为(α，β)，获得的深度图像的分辨率为(m,n)。在所述深度图像上以像素点为单位建立坐标，记录像素点p＝(x,y)的深度值为D(x,y)。

步骤S120，提取所述深度图像中的图像像素特征。

提取所述图像像素特征可以包括：深度梯度方向直方图特征、局部简化三元模式特征、深度值统计分布特征及邻域内其他像素点间深度差值之差特征等，在本实施例中，优选为采用像素点邻域内其他像素点间深度差值之差的集合作为该像素点的图像像素特征。

请参照图3，所述提取所述图像像素特征的步骤可以包括子步骤S121、 S122、S123及S124。

子步骤S121，由选定像素点的深度值及一空间不变系数得到该选定像素点在真实空间的空间分辨率。

具体地，请参照图4，在本实施例中，选取所述深度图像上像素点 p＝(1,1)，其对应视场角为(α₁，β₁)，得到其深度值为D(1,1)，由此可得像素点p₁在真实空间的横向空间分辨率l_x1为：

l_x1＝2D(1,1)tan(α₁)＝2D(1,1)tan(α/2m)

同理其纵向空间分辨率l_y1为：

l_y1＝2D(1,1)tan(β/2n)

由此可得任意像素点p_i＝(x_i,y_i)的空间分辨率为：

l_xi＝2D(x_i,y_i)tan(α/2m)＝D(x_i,y_i)ξ_x

l_yi＝2D(x_i,y_i)tan(β/2n)＝D(x_i,y_i)ξ_y

其中，ξx＝2tan(α/2m)，ξ_y＝2tan(β/2n)为空间不变系数。

子步骤S122，由该选定像素点的所述空间分辨率、预设真实空间偏移量及预设多个偏移角中任意的两个不同的偏移角得到多个偏移向量对，其中每个所述偏移向量对包含两个偏移向量。

具体地，预设一真实空间偏移量为ε，并在所述深度图像上预设多个离散化的偏移角(方向)为θ＝{θ₁,θ₂,…θ_n}，由任意两个偏移方向的偏移向量构成，即对于对，可构成偏移量对δ＝(u,v)，其中，

由此得到个所述偏移量对{δ₁,δ₂,…δ_s}。

在本实施例中，所述偏移角的取值可以为

子步骤S123，由所述偏移向量对中的两个偏移向量得到该选定像素点的两个偏移点，由一深度差值函数获得两个偏移点之间的深度值之差。

具体地，在深度图像上取任意点p，通过深度差值函数计算该点经其中一个所述偏移量对δ＝(u,v)后所得的两个偏移点之间的深度差值为：

f(p,δ)＝D(p+u)-D(p+v)

在本实施例中，为保证所述图像像素特征描述为同一人体目标上的特征，当所述两个偏移点相对于所述选定像素点的深度值之差均小于等于一预设深度阈值时，所述深度差值函数等于所述两个偏移点之间的深度值的差；当所述两个偏移点中的至少一个相对于所述选定像素点的深度值之差大于所述深度阈值时，所述深度差值函数等于一个大于所述深度图像上所有像素点的深度值的κ值。以使得同一目标上点的特征向量值较为接近；即给定一个深度阈值η，两个偏移点之间的深度差值的计算公式如下：

子步骤S124，将多个所述深度值之差的集合作为该选定像素点的特征向量，以此表征该选定像素点的图像像素特征。所述特征向量可以表示如下：

F_p＝(f(p,δ₁),f(p,δ₂),…f(p,δ_S))

如此，所述提取所述深度图像中的图像像素特征的步骤，不仅利用了深度值，还利用了空间不变系数进行计算，因此该特征具有较好的局部深度以及不同分辨率情况下的特征不变性，可为后续检测识别模型提供有力的判别依据。

步骤S130，将所述图像像素特征输入人体深度学习模型中进行识别分类。

所述人体深度学习模型可以为随机森林学习模型、回归自组织神经网络模型、深度置信网络(DBN，Deep Belief Network)模型等，在本实施例中，优选为采用DBN模型。所述DBN模型具有多个隐层神经网络，能更好的处理复杂函数，在处理复杂分类问题时表现出更优的泛化性。

值得说明的是，在本实施例中，所述人体目标识别的方法还包括预先对所述人体深度学习模型进行深度学习训练。请参照图5，所述深度学习训练的步骤包括：

步骤S210，预先建立有深度图像库，获得所述深度图像库中的训练图像。

步骤S220，提取所述训练图像的图像像素特征。

在本实施例中，所述图像像素特征为像素点领域内其他像素点的深度差值的集合。所述图像像素特征的提取步骤和S120中提取过程相同，在此不再赘述。

步骤S230，利用所述训练图像的图像像素特征训练所述人体深度学习模型，并对训练完成的分类赋予相应标签；所述人体深度学习模型根据所述标签对其参数进行调整。

具体地，请参照图6，所述DBN模型可以包括多层受限玻尔兹曼机 (RBM，Restricted Boltzman Machines)网络和反向传播(BP， Backpropagation Algorithm)网络组成。

将所述图像像素特征输入底层RBM，对该层RBM进行无监督训练，确保特征向量映射到不同特征空间时，都尽可能多地保留特征信息。

每一高层RBM以低一层的RBM输出数据作为输入，并对该层RBM 进行无监督训练。每一层RBM网络确保自身层内的权值对该层特征向量映射达到最优。

在所述DBN最后一层设置BP网络，以最上层的RBM输出的特征向量作为其输入。预设分类标签，所述标签可以包括人体各部分的标签(如头、颈、肩、胸、手臂、肘、腕、手掌、腰、髋、大腿、膝、小腿、踝、脚等部位标签)，以及一个非人体部位标签。以所述标签有监督地训练实体关系分类器，根据有监督训练是否分类正确信息，所述BP网络将错误信息自顶向下传播至每一层RBM，微调整个DBN模型中对应的特征向量的权重，以使DBN收敛到全局最优。在本实施例中，所述分类器可以采用Softmax 回归分类器。

步骤S140，判断所述像素特征的分类与所述人体深度学习模型中的已有标签是否匹配。若匹配则进入步骤S150，若不匹配则回到步骤S110。

步骤S150，输出与该像素特征对应的标签。

在本实施例中，所述人体目标检测识别的方法还包括：将识别完成后的带标签的图像像素特征及图像像素特征的正确识别率输入到所述人体深度学习模型。所述人体深度学习模型以此进行深度学习训练，并对其自身参数进行调整。

如此在进行人体目标识别的同时，不断补充新的训练样本对所述人体深度学习模型进行在线训练，使得随着识别的进行，所述人体深度学习模型的识别准确度也不断提高。

第二实施例

请参照图7，本实施例提供的人体目标识别装置10包括：

第一获取模块110，用于获得深度图像；

第一特征提取模块120，用于提取所述深度图像中的图像像素特征；

人体深度学习模块130，用于将输入的所述图像像素特征进行识别分类；

判断模块140，用于判断所述图像像素特征的分类与所述人体深度学习模型中已有的人体部位标签是否匹配；

输出模块150，用于当所述图像像素特征的分类与所述人体深度学习模型中的已有标签匹配时，输出与该像素特征对应的标签。

在本实施例中，所述人体深度学习模型用于将所述图像像素特征作为其底部输入层的输入，在网络最顶层进行回归分类，并匹配相应的标签，其中，所述标签包括人体各部位标签及非人体部位标签。在本实施例中，所述人体深度学习模型可以采用深度置信网络模型。

请参照图8，进一步地，在本实施例中，所述人体目标识别装置10还可以包括：

第二获取模块210，用于获得深度图像库中的训练图像；

第二特征提取模块220，用于提取所述训练图像的图像像素特征；

训练模块230，用于利用所述训练图像的图像像素特征训练所述人体深度学习模型，并对训练完成的分类赋予相应标签；

参数调整模块240，用于根据所述标签对人体深度学习模型的参数进行调整。

应当理解的是，在本实施例中，所述第一特征提取模块120和所述第二特征提取模块220可以为同一模块。

请参照图8，进一步地，在本实施例中，所述参数调整模块240还用于根据识别完成后带标签的图像像素特征及图像像素特征的正确识别率对所述人体深度学习模型的参数进行调整。

综上所述，本发明提供的人体目标识别的方法和装置，通过采用人体深度学习模型对提取的深度图像像素特征进行检测识别，一方面以像素深度差值作为图像像素特征，特征提取过程简单，且有较好的唯一性和空间不变性。另一方面，采用人体深度学习模型同时完成检测与识别，简化了检测识别过程，提高了检测识别效率，拥有更好的实时性。且深度学习算法有较强的分类和学习能力，以及较强的自适应性，能有效准确的检测识别到人体及相应部位。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人体目标识别的方法，其特征在于，所述方法包括：

获得深度图像；

将多个所述深度值之差的集合作为该选定像素点的特征向量，以此表征该选定像素点的图像像素特征；

2.根据权利要求1所述的方法，其特征在于，在所述由一深度差值函数获得两个偏移点之间的深度值之差的步骤中，

3.根据权利要求1所述的方法，其特征在于：所述人体深度学习模型包括深度置信网络模型，所述深度置信网络模型将所述图像像素特征作为其底层的输入，在网络最顶层进行回归分类，并匹配相应的标签，其中，所述标签包括各人体部位标签。

4.根据权利要求3所述的方法，其特征在于：所述人体目标识别的方法还包括预先对所述人体深度学习模型进行深度学习训练，所述深度学习训练的步骤包括，

获得深度图像库中的训练图像；

提取所述训练图像的图像像素特征；

所述人体深度学习模型根据所述标签对其参数进行调整。

5.根据权利要求1所述的方法，其特征在于，所述人体目标识别的方法还包括：

6.一种人体目标识别的装置，其特征在于，所述人体目标识别的装置包括：

第一获取模块，用于获得深度图像；

第一特征提取模块，用于由选定像素点的深度值及一空间不变系数得到该选定像素点在真实空间的空间分辨率；由该选定像素点的所述空间分辨率、预设真实空间偏移量及预设多个偏移角中任意的两个不同的偏移角得到多个偏移向量对，其中每个所述偏移向量对包含两个偏移向量；由所述两个偏移向量得到该选定像素点的两个偏移点，由一深度差值函数获得两个偏移点之间的深度值之差；将多个所述深度值之差的集合作为该选定像素点的特征向量，以此表征该选定像素点的图像像素特征；

7.根据权利要求6所述的装置，其特征在于，所述人体深度学习模型用于将所述图像像素特征作为其底部输入层的输入，在网络最顶层进行回归分类，并匹配相应的标签，其中，所述标签包括人体各部位标签及非人体部位标签。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括:

第二获取模块，用于获得深度图像库中的训练图像；

9.根据权利要求8所述的装置，其特征在于：所述参数调整模块还用于根据识别完成后带标签的图像像素特征及图像像素特征的正确识别率对所述人体深度学习模型的参数进行调整。