CN109359543A

CN109359543A - 一种基于骨骼化的人像检索方法及装置

Info

Publication number: CN109359543A
Application number: CN201811091034.0A
Authority: CN
Inventors: 姜黎; 张仁辉
Original assignee: Wuhan Fiberhome Digtal Technology Co Ltd
Current assignee: Wuhan Fiberhome Digtal Technology Co Ltd
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2019-02-19
Anticipated expiration: 2038-09-19
Also published as: CN109359543B

Abstract

本发明提供了一种基于骨骼化的人像检索方法及装置，方法包括：对待检测信息进行行人检测，得到待检测信息中的行人位置；对待检测信息中的行人位置进行骨骼化处理，得到行人的骨架图像；并对骨架图像进行图像分割，得到行人的骨架特征；分解骨架特征得到行人各预设肢体类型的肢体信息；针对行人的每一预设肢体类型的肢体信息，将该预设肢体类型的肢体信息输入至该预设肢体类型对应的预设肢体网络模型，得到针对行人该预设肢体类型的各预设属性的识别结果和识别结果的识别概率；将所有预设肢体类型各预设属性的识别结果中识别概率大于预设阈值的识别结果作为针对行人的检索结果。应用本发明实施例，提高了人像检索的效率和准确度。

Description

一种基于骨骼化的人像检索方法及装置

技术领域

本发明涉及数据检索领域，尤其涉及一种基于骨骼化的人像检索方法及装置。

背景技术

随着互联网技术的发展，各种网络数据呈爆发式增长，包括图像数据、视频数据等，为了快速的从海量数据中检索出某个人物的相关信息，各种人像检索方法应用而生。

目前，人像检索方法主要是采用人工识别方法或人脸识别技术，对视频中的人像进行检索，得到检索结果。但是这些方法存在效率较低或者不够全面的问题，仍难以满足用户实际需求。例如，待检索的视频的大小可能有几百T(Trillionbyte，太字节)，通过人工方式识别可能要一两个月，工作量巨大且耗时较长；而人脸识别技术虽然处理速度较快，但是通常只能识别人脸部信息，无法识别人体肢体信息，故检索的人物信息不够全面。

因此有必要设计一种新的人像检索方法，以克服上述问题。

发明内容

本发明的目的在于克服现有技术之缺陷，提供了一种基于骨骼化的人像检索方法及装置，以实现提高人像检索的效率和全面度。

本发明是这样实现的：

第一方面，本发明提供一种基于骨骼化的人像检索方法，所述方法包括：

获得待检测信息；对所述待检测信息进行行人检测，得到待检测信息中的行人位置；

对待检测信息中的行人位置进行骨骼化处理，得到行人的骨架图像；并对所述骨架图像进行图像分割，得到所述行人的骨架特征；对所述行人的骨架特征进行分解，得到所述行人各预设肢体类型的肢体信息；

获得各预设肢体类型对应的预设肢体网络模型，针对所述行人的每一预设肢体类型的肢体信息，将该预设肢体类型的肢体信息输入至该预设肢体类型对应的预设肢体网络模型，得到针对所述行人该预设肢体类型的各预设属性的识别结果和识别结果的识别概率；

将所有预设肢体类型各预设属性的识别结果中识别概率大于预设阈值的识别结果作为针对所述行人的检索结果。

可选的，所述待检测信息为静态图像、动态图像和视频中的一种。

可选的，当所述待检测信息为视频时，对所述待检测信息进行行人检测，得到待检测信息中的行人位置，包括：

利用预设的行人检测算法，从视频中检测出包含行人的各目标图像帧，并对各目标图像帧中的行人进行定位，得到各目标图像帧中的行人位置，作为待检测信息中的行人位置。

可选的，所述预设肢体类型包括头、躯干、手臂、手、大腿和脚，每一预设肢体类型的各预设属性包括纹理、颜色和装饰中的至少一种。

可选的，每一预设肢体网络模型均为目标神经网络模型，获得各预设肢体类型对应的预设肢体网络模型，包括：

用各预设肢体类型对应的预设训练样本集训练预设的初始神经网络模型，得到各预设肢体类型对应的目标神经网络模型。

可选的，所述初始神经网络模型为LSTM时间递归神经网络模型。

可选的，当检索结果有多个时，所述方法还包括：

按照各检索结果的识别概率的大小，对各检索结果进行升序/降序排列。

可选的，当所述待检测信息为视频时，所述方法还包括：

在对各检索结果进行升序/降序排列后，显示各检索结果以及各检索结果所针对的行人在视频中所处图像帧的帧号。

第二方面，本发明提供一种基于骨骼化的人像检索装置，所述装置包括：

第一获得模块，用于获得待检测信息；对所述待检测信息进行行人检测，得到待检测信息中的行人位置；

骨骼化处理模块，用于对待检测信息中的行人位置进行骨骼化处理，得到行人的骨架图像；并对骨架图像进行图像分割，得到行人的骨架特征；对行人的骨架特征进行分解，得到所述行人各预设肢体类型的肢体信息；

识别模块，用于获得各预设肢体类型对应的预设肢体网络模型，针对所述行人的每一预设肢体类型的肢体信息，将该预设肢体类型的肢体信息输入至该预设肢体类型对应的预设肢体网络模型，得到针对所述行人该预设肢体类型的各预设属性的识别结果和识别结果的识别概率；

第二获得模块，用于将所有预设肢体类型各预设属性的识别结果中识别概率大于预设阈值的识别结果作为针对所述行人的检索结果。

可选的，当所述待检测信息为视频时，第一获得模块对所述待检测信息进行行人检测，得到待检测信息中的行人位置，具体为：

可选的，每一预设肢体网络模型均为目标神经网络模型，识别模块获得各预设肢体类型对应的预设肢体网络模型，具体为：

可选的，所述装置还包括：

排序模块，用于当检索结果有多个时，按照各检索结果的识别概率的大小，对各检索结果进行升序/降序排列。

可选的，所述装置还包括：

显示模块，用于当所述待检测信息为视频时，在对各检索结果进行升序/降序排列后，显示各检索结果以及各检索结果所针对的行人在视频中所处图像帧的帧号。

本发明具有以下有益效果：应用本发明实施例，对所获得的待检测信息进行行人检测，得到待检测信息中的行人位置；对待检测信息中的行人位置进行骨骼化处理，得到行人的骨架图像；并对骨架图像进行图像分割，得到行人的骨架特征；对行人的骨架特征进行分解，得到行人各预设肢体类型的肢体信息；获得各预设肢体类型对应的预设肢体网络模型，针对行人的每一预设肢体类型的肢体信息，将该预设肢体类型的肢体信息输入至该预设肢体类型对应的预设肢体网络模型，得到针对行人该预设肢体类型的各预设属性的识别结果和识别结果的识别概率；将所有预设肢体类型各预设属性的识别结果中识别概率大于预设阈值的识别结果作为针对所述行人的检索结果。

可见，应用本发明实施例，每一预设肢体类型对应一个预设肢体网络模型，将预设肢体类型的肢体信息输入至该预设肢体类型对应的预设肢体网络模型，得到针对行人该预设肢体类型的各预设属性的识别结果和识别结果的识别概率，相比于现有的人工识别方式而言，提高了检索效率，且预设肢体类型可以根据需求预先设定，预设肢体类型不仅可以包括头部还可以包括其他部位，故，不仅可以识别行人的头部信息，还可以识别行人其他部位的信息，提高了检索结果的全面度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的基于骨骼化的人像检索方法的一种流程示意图；

图2为本发明实施例提供的基于骨骼化的人像检索装置的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

需要说明的是，本发明所提供的基于骨骼化的人像检索方法可以应用于电子设备，其中，在具体应用中，该电子设备可以为计算机、个人电脑、平板、手机等等，这都是合理的。

参见图1，本发明实施例提供一种基于骨骼化的人像检索方法，方法包括如下步骤：

S101、获得待检测信息；对所述待检测信息进行行人检测，得到待检测信息中的行人位置；

待检测信息可以为静态图像、动态图像和视频中的一种。本发明实施例对静态图像、动态图像和视频的格式不做限定。例如，视频格式可以是AVI(AudioVideoInterleaved，音频视频交错)、ASF(Advanced Streaming Format，高级流格式)、WMV(Windows Media Video，微软媒体视频格式)等常规视频格式；静态图像格式可以为JPEG(Joint Photograhic Experts Group，联合图像专家组)、PNG(Portable NetworkGraphics，便携式网络图形)等；动态图像格式可以是GIF(Graphics Interchange Format，图像互换格式)。

获得待检测信息的方式可以为：获得视频采集设备实时采集的图像或视频，或者，也可以是预先存储于本发明执行主体(例如电子设备)的视频或图像，还可以是第三方设备提供的视频或图像。视频采集设备可以为摄像机、录像机等，本发明对视频采集设备的具体型号不做限定，例如可以为单目摄像机，也可以为双目摄像机。视频采集设备可以固定安装在摸个位置；也可以安装于某个移动物体上，例如无人机、汽车上。图像可以是静态图像也可以是动态图像。

视频采集设备可以采集数据得到视频或图像，并可以将视频发送给电子设备，从而电子设备可以获得视频采集设备采集的视频或图像，作为待检测信息，并可以对待检测信息进行行人检测，得到待检测信息中的行人位置。

行人检测(Pedestrian Detection)是利用计算机视觉技术判断图像或者视频序列中是否存在行人并给予精确定位的技术。可以采用行人检测算法，对待检测信息进行行人检测，得到待检测信息中的行人位置。本发明对具体的行人检测算法不做限定，例如可以为基于全局特征的算法、基于人体部位的算法、基于立体视觉的算法等中的一种或组合。

具体的，当待检测信息为视频时，对待检测信息进行行人检测，得到待检测信息中的行人位置，包括：

视频是由连续的图像帧组成，可以认为是连续的图像帧序列，目标图像帧可以是视频中包含行人的图像帧。目标图像帧可以有一个或多个，每个模板图像帧中可以有一个或多个行人，每一目标图像帧中的行人位置可以是该目标图像帧中各行人所处的图像区域。图像区域可以是矩形区域，也可以是椭圆形区域，也可以是不规则形状区域等。帧号用于唯一标识图像帧。

S102、对待检测信息中的行人位置进行骨骼化处理，得到行人的骨架图像；并对骨架图像进行图像分割，得到行人的骨架特征；对行人的骨架特征进行分解，得到所述行人各预设肢体类型的肢体信息；

一个行人位置上有一个行人，当待检测信息中的行人位置有多个时，表明行人有多个，可以是处于不同图像帧的不同行人，也可以是处于同一图像帧中的不同行人，还可以是处于不同图像帧的同一行人，可以同步或依次对每个行人位置进行骨骼化处理，得到各行人的骨架图像。

骨骼化处理可以实现对图像帧的细化，即从原来的图中去掉一些不重要的点，从而可以保留图像中物体的骨架，形成骨架图像。去掉的点不影响物体的整体形状，骨架，可以理解为物体的中轴，例如一个长方形的骨架是它的长方向上的中轴线；正方形的骨架是它的中心点；圆的骨架是它的圆心，直线的骨架是它自身，孤立点的骨架也是自身。骨架图像突出了物体的主要结构和形状信息，根据这些信息可以对骨架图像进行图像分割，得到行人的骨架特征。应用本发明实施例，由于去除了多余信息，故提高了特征提取速度。

可以采用图像分割算法，对骨架图像进行图像分割。本发明对具体采用的图像分割算法不做限定，例如可以为基于阈值的分割算法、基于边缘的分割算法、基于区域的分割算法、基于聚类分析的图像分割算法、基于小波变换的分割算法等中的一种或组合。利用图像分割算法，可以分离出骨骼像素和非骨骼像素，得到由骨骼像素形成的骨架特征。由于骨骼像素和非骨骼像素不受光照条件和采集角度的影响，故提高了骨架特征的准确性。

另外，为了消除待检测信息中的噪声，提高识别准确度，在对待检测信息进行行人检测，得到待检测信息中的行人位置之前，方法还可以包括：

对待检测信息进行滤波处理。

相应的，步骤S101中的对待检测信息进行行人检测，得到待检测信息中的行人位置，可以为：

对滤波处理后的待检测信息进行行人检测，得到待检测信息中的行人位置。

由于待检测信息可能存在噪声干扰，例如视频采集设备采集的视频或者图像存在的干扰信号，因此，在对待检测信息进行行人检测之前，对待检测信息进行滤波处理，可以减少待检测信息中不必要的噪声干扰，提高待检测信息中画面的清晰度。

本发明实施例对滤波处理的实现方式不做限定，例如，可以采用中值滤波、线性滤波、卡尔曼滤波等滤波算法中的一种或组合，对待检测信息进行滤波处理。

骨架通过各关节点和骨骼相互联系在一起，可以看作是由关节点和骨骼相连接而成的刚性模型。骨架特征可以反映行人的各肢体信息，由于骨架特征只考虑了行人的骨架，而没有考虑行人的皮肤、肌肉等信息，从而避免了其他信息带来的干扰，提高了准确度和可靠性。不同的行人具有不同的骨架特征，同一个人做不同动作的骨架特征也不同。人体的关节点很多，大约有两百多个，但是用于划分肢体的关节点只有少数几个，可以称为关键关节点。对行人的骨架特征进行分解的方式可以为：提取骨架特征中的关键关节点，得到每个关键关节点的位置信息，运用隐马尔可夫模型将各关键关节点进行聚类，得到行人各预设肢体类型的肢体信息。或者，也可以为：采用肢体分割算法，对行人的骨架特征进行分解，得到所述行人各预设肢体类型的肢体信息。

预设肢体类型包括头、躯干、手臂、手、大腿和脚等，每一预设肢体类型的各预设属性包括纹理、颜色、装饰等中的至少一种。每一预设肢体类型的各预设属性可以相同，也可以不同，例如，头的预设属性还可以包括年龄和性别，大腿和脚的预设属性也可以仅包括纹理和颜色。

S103、获得各预设肢体类型对应的预设肢体网络模型，针对所述行人的每一预设肢体类型的肢体信息，将该预设肢体类型的肢体信息输入至该预设肢体类型对应的预设肢体网络模型，得到针对所述行人该预设肢体类型的各预设属性的识别结果和识别结果的识别概率；

每个预设肢体类型对应一个预设肢体网络模型，预设肢体网络模型可以是已经训练至收敛的机器学习模型，每个预设肢体网络模型的具体类型可以相同，也可以不同。例如，可以分别是神经网络模型、SVM(Support Vector Machine，支持向量机)模型、遗传网络模型等。由于每个预设肢体类型对应的预设肢体网络模型是收敛的，从而，在获得该预设肢体类型的肢体信息后，可以输出该预设肢体类型的各预设属性的识别结果和识别结果的识别概率。识别概率用于评价识别出正确结果的概率。

具体的，每一预设肢体网络模型均为目标神经网络模型，获得各预设肢体类型对应的预设肢体网络模型，包括：

每个肢体类型对应一个预设训练样本集，不同肢体类型所对应的预设训练样本集不同，所有预设训练样本集可以预先存储于资源数据库，预设训练样本集可以是用于训练初始神经网络模型的样本集合，每个样本均包括肢体信息和其对应的各预设属性的识别结果，预设训练样本集中的肢体信息来源于视频采集设备之前采集的视频/图像，或者是，电子设备预先存储的视频/图像，或者是其他第三方设备提供的视频/图像，预设训练样本集中的识别结果可以是专家事先标记的，也可以是其他机器学习模型事先学习出来的。用一个预设肢体类型对应的预设训练样本集训练预设的初始神经网络模型，得到该预设肢体类型对应的目标神经网络模型。

示例性的，预设肢体类型包括头、躯干、手臂、手、大腿和脚等，预设肢体类型对应的预设肢体网络模型包括：头部网络模型、躯干网络模型、手臂网络模型、手网络模型、大腿网络模型和脚网络模型，将头的肢体信息输入至该头部网络模型，得到针对行人头部的各预设属性的识别结果和识别结果的识别概率。

每一预设肢体类型的各预设属性包括纹理、颜色和装饰中的至少一种，纹理的识别结果包括条纹、纯色和图案等，颜色的识别结果包括红色、白色、黑色、绿色等具体颜色值。

头部装饰的识别结果包括是否佩戴眼镜、是否佩戴帽子、长发、短发、中分发型等等。手可以分为左手和右手，手臂可以分为左手臂和右手臂，大腿可以分为左大腿和右大腿，脚可以分为左脚和右脚。手部装饰的识别结果可以包括左手/右手是否提包、左手/右手是否佩戴手表、左手/右手是否手持手机等等。躯干装饰的识别结果可以包括是否佩戴项链、是否挎包等等，脚装饰的识别结果可以包括左脚/右脚是否穿鞋等。

初始神经网络模型中的各参数均为初始的默认参数，经过训练后，可以得到由训练至收敛后的模型参数构成的目标神经网络模型，模型参数决定了目标神经网络模型的识别准确度。初始神经网络模型为LSTM(Long Short-Term Memory，时间递归神经网络模型)，LSTM是一种改进之后的循环神经网络，可以记住长期信息，以解决长期依赖的问题，对于处理信息量较大的数据，具有较好的学习效果。

当然，在其他实现方式中，初始神经网络模型还可以为卷积神经网络模型、循环神经网络模型等。获得各预设肢体类型对应的预设肢体网络模型的方式还可以为：直接调用预先训练至收敛的各预设肢体类型对应的目标神经网络模型。

S104、将所有预设肢体类型各预设属性的识别结果中识别概率大于预设阈值的识别结果作为针对所述行人的检索结果。

当识别概率大于预设阈值时，可以认为识别结果正确；当识别概率不大于预设阈值时，可以认为识别结果不正确。将识别概率大于预设阈值的识别结果作为针对所述行人的检索结果，从而剔除了不正确的识别结果。

预设阈值可以仅设置一个，具体数值大小可以事先设定，例如，可以为0,7、0.75、0.8、0.85等等。

另外，在其他实施方式中，预设阈值可以仅设置多个，每个预设属性可以对应一个预设阈值，各预设阈值的值可以相同，也可以不同，预设属性的识别结果的识别概率大于预设阈值具体为：预设属性的识别结果的识别概率大于该预设属性对应的预设阈值。

示例性的，预设肢体类型包括头，头的预设属性均包括纹理、颜色和装饰，纹理、颜色和装饰对应的预设阈值分别为0.75、0.8和0.65，头的纹理识别结果为纯色且识别概率为0.7；头的装饰识别结果为佩戴眼镜且识别概率为0.8；头的颜色识别结果为白色且识别概率为0.9，则检索结果为：头的颜色为白色，头的装饰为佩戴眼镜；从而剔除了纹理识别结果。

另外，为了提高用户体验，在判定某个识别结果低于预设阈值后，还可以给出提示信息，该提示信息用于提示用户该识别结果不正确，或者，该提示信息还用于提示用户是否接受该识别结果，若用户选择接受，则电子设备可以将识别结果作为检索结果；若用户选择不接受，则电子设备可以不将该识别结果作为检索结果。

应用本发明实施例，用户可以自主选择是否接受识别结果，从而根据用户的选择来获得检索结果，提高了用户体验。

当检索结果有多个时，所述方法还包括：

预设肢体类型可以有多个，每一预设肢体类型可以有一个或多个预设属性，每个预设属性均有一个或多个识别结果，故识别结果可以有多个，每个识别结果均有相应的识别概率，当大于预设阈值的识别概率有多个时，检索结果有多个，检索结果的识别概率为：作为该检索结果的识别结果的识别概率。

另外，在其他实施方式中，也可以先按照预设属性分类检索结果，每一预设属性内的检索结果按升序/降序排列。

应用本发明实施例，可以将各检索结果升序/降序排列，从而便于后续的查看和分析。

一种实现方式中，当待检测信息为视频时，方法还包括：

可以并列显示各检索结果，也可以以滚动条的形式依次显示各检索结果。显示界面还可以包括帧号输入框和跳转按钮，从而用户通过输入帧号，可以跳转到帧号对应的图像帧，方便用户查看视频中的相应图像。

另外，在其他实施方式中，还可以显示视频的总帧数、所存储的空间位置等等。

与上述的方法实施例相对应，本发明实施例还提供一种基于骨骼化的人像检索装置。

参见图2，图2为本发明实施例所提供的一种基于骨骼化的人像检索装置的结构示意图，装置包括：

第一获得模块201，用于获得待检测信息；对所述待检测信息进行行人检测，得到待检测信息中的行人位置；

骨骼化处理模块202，用于对待检测信息中的行人位置进行骨骼化处理，得到行人的骨架图像；并对骨架图像进行图像分割，得到行人的骨架特征；对行人的骨架特征进行分解，得到所述行人各预设肢体类型的肢体信息；

识别模块203，用于获得各预设肢体类型对应的预设肢体网络模型，针对所述行人的每一预设肢体类型的肢体信息，将该预设肢体类型的肢体信息输入至该预设肢体类型对应的预设肢体网络模型，得到针对所述行人该预设肢体类型的各预设属性的识别结果和识别结果的识别概率；

第二获得模块204，用于将所有预设肢体类型各预设属性的识别结果中识别概率大于预设阈值的识别结果作为针对所述行人的检索结果。

可选的，当所述待检测信息为视频时，第一获得模块201对所述待检测信息进行行人检测，得到待检测信息中的行人位置，具体为：

可选的，每一预设肢体网络模型均为目标神经网络模型，识别模块203获得各预设肢体类型对应的预设肢体网络模型，具体为：

可选的，所述装置还包括：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于骨骼化的人像检索方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述待检测信息为静态图像、动态图像和视频中的一种。

3.根据权利要求2所述的方法，其特征在于，当所述待检测信息为视频时，对所述待检测信息进行行人检测，得到待检测信息中的行人位置，包括：

4.根据权利要求1所述的方法，其特征在于，所述预设肢体类型包括头、躯干、手臂、手、大腿和脚，每一预设肢体类型的各预设属性包括纹理、颜色和装饰中的至少一种。

5.根据权利要求1所述的方法，其特征在于，每一预设肢体网络模型均为目标神经网络模型，获得各预设肢体类型对应的预设肢体网络模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述初始神经网络模型为LSTM时间递归神经网络模型。

7.根据权利要求1-6任一所述的方法，其特征在于，当检索结果有多个时，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，当所述待检测信息为视频时，所述方法还包括：

9.一种基于骨骼化的人像检索装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述待检测信息为静态图像、动态图像和视频中的一种。