CN113469144A

CN113469144A - 基于视频的行人性别及年龄识别方法和模型

Info

Publication number: CN113469144A
Application number: CN202111013929.4A
Authority: CN
Inventors: 兰雨阳; 任必为; 郑翔; 宋君; 陶海
Original assignee: Beijing Vion Intelligent Technology Co ltd
Current assignee: Beijing Vion Intelligent Technology Co ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-10-01
Anticipated expiration: 2041-08-31
Also published as: CN113469144B

Abstract

本发明提供了一种基于视频的行人性别及年龄识别方法和模型，方法包括获取待测图像；进行人体轮廓检测，识别出行人并用人体区域检测框框选，裁取人体轮廓图片进行关键点提取，选取行人的多张人体轮廓图片，拼接像素值坐标输出时序初始向量，归一化处理得到时序归一化向量，将人体轮廓图片对齐得到人体轮廓对齐图片；横向切割出多张人体局部轮廓子图后深度特征提取，输出包含全局特征信息和局部特征信息的空域初始向量，归一化处理得到空域特征向量；获取决策向量以得到性别及年龄判定结果。本发明解决了现有技术中利用图像识别处理技术获取行人的性别和年龄信息时，需要提取和收集行人的面部信息数据，从而存在隐私安全性低的问题。

Description

基于视频的行人性别及年龄识别方法和模型

技术领域

本发明涉及人工智能计算机视觉识别技术领域，具体而言，涉及一种基于视频的行人性别及年龄识别方法和模型。

背景技术

随着人工智能技术的飞速发展，计算机视觉识别技术的应用在不断地普及，在安全防范、交通运输、商业运营甚至刑侦领域均发挥了重要的作用。计算机视觉识别技术主要是利用计算机搭建的模拟人类神经系统的神经网络模型对图像进行识别处理，以获取需要的信息数据，代替人类高效地完成针对某一领域的特定工作。

在计算机视觉识别技术的应用中，利用其获取的一项重要的信息数据便是行人的性别和年龄。现有技术中，对于行人的性别和年龄的识别通常基于待识别图像中的行人的面部信息，因此，便需要对待识别图像中行人的面部信息数据进行针对性提取和收集，然而，庞大的行人面部信息数据的安全储蓄始终是难于彻底解决的问题，对行人面部信息的提取必将面临行人的面部信息数据被故意盗取或无意泄露的风险。因此，在对图像进行识别和处理时，如何以一种高效、稳定且安全的方式获取行人的性别及年龄信息便成了现有技术亟待解决的问题。

发明内容

本发明的主要目的在于提供一种基于视频的行人性别及年龄识别方法和模型，以解决现有技术中利用图像识别处理技术获取行人的性别和年龄信息时，需要提取和收集行人的面部信息数据，从而存在行人的面部信息数据被故意盗取或无意泄露的风险，具有一定的安全隐患的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种基于视频的行人性别及年龄识别方法，包括：步骤S1，获取待检测视频，通过待检测视频提取出连续的多帧视频帧图像作为待测图像；步骤S2，通过人体目标检测模块对输入其的多帧待测图像进行人体轮廓检测，各帧待测图像中的被识别出的每个行人通过一个人体区域检测框框选，针对各帧待测图像中的所有行人，将其沿人体区域检测框裁取下以形成人体轮廓图片；步骤S3，通过人体关键点提取模块对输入其的各人体轮廓图片进行关键点提取，以获取其对应的行人的人体关键点的像素值坐标，选取多个行人中的目标行人P在待检测视频中出现的连续的N帧视频帧图像一一对应的N张人体轮廓图片，并将N张人体轮廓图片对应的人体关键点的像素值坐标拼接后输出包含目标行人P的时序特征的N个2m维的时序初始向量L_a1，将N个2m维的时序初始向量L_a1逐个进行减均值除方差的归一化处理后得到N个2m维的时序归一化向量L_a2，其中，m为人体关键点的个数；步骤S4，在目标行人P的N张人体轮廓图片中选取一张人体轮廓图片，将该张人体轮廓图片和与其对应的2m维的时序初始向量L_a1输入人体图片对齐模块后经过仿射变换得到人体轮廓对齐图片；步骤S5，将人体轮廓对齐图片进行横向切割，以分割出纵向排列的多张人体局部轮廓子图，将人体轮廓对齐图片和其对应的多张人体局部轮廓子图同时输入人体特征提取模块进行深度特征提取，以输出包含目标行人P的全局特征信息和局部特征信息的空域初始向量L_b1，将空域初始向量L_b1进行减均值除方差的归一化处理后得到空域特征向量L_b2；步骤S6，将N个2m维的时序归一化向量L_a2和空域特征向量L_b2输入性别及年龄识别模块，其中，N个2m维的时序归一化向量L_a2经过性别及年龄识别模块的lstm网络结构后输出时序特征向量L_a3，时序特征向量L_a3与空域特征向量L_b2拼接形成的组合向量E经过全连接层后输出决策向量F，决策向量F经过softmax分类层分类处理后输出目标行人P的性别及年龄判定结果，分类处理后的决策向量F的各维度值对应于目标行人P被判定在多个性别及年龄区间段的概率；性别及年龄判定结果为决策向量F的各维度值中概率得分最高者所对应的性别及年龄区间的分类结果。

进一步地，通过设置连接层的参数，输出的决策向量F为16维向量，分类处理后的决策向量F为（x₁，x₂，x₃，x₄，x₅，x₆，x₇，x₈，x₉，x₁₀，x₁₁，x₁₂，x₁₃，x₁₄，x₁₅，x₁₆），其中16个维度值之和为1，各维度值对应的性别及年龄区间段分别为：x₁对应的分类结果为：性别-女，年龄区间0~5岁；x₂对应的分类结果为：性别-女，年龄区间6~10岁；x₃对应的分类结果为：性别-女，年龄区间11~16岁；x₄对应的分类结果为：性别-女，年龄区间17~23岁；x₅对应的分类结果为：性别-女，年龄区间24~32岁；x₆对应的分类结果为：性别-女，年龄区间33~45岁；x₇对应的分类结果为：性别-女，年龄区间46~60岁；x₈对应的分类结果为：性别-女，年龄区间61~100岁；x₉对应的分类结果为：性别-男，年龄区间0~5岁；x₁₀对应的分类结果为：性别-男，年龄区间6~10岁；x₁₁对应的分类结果为：性别-男，年龄区间11~16岁；x₁₂对应的分类结果为：性别-男，年龄区间17~23岁；x₁₃对应的分类结果为：性别-男，年龄区间24~32岁；x₁₄对应的分类结果为：性别-男，年龄区间33~45岁；x₁₅对应的分类结果为：性别-男，年龄区间46~60岁；x₁₆对应的分类结果为：性别-男，年龄区间61~100岁。

进一步地，人体目标检测模块由包含有YOLO v5算法的目标检测网络构成，人体目标检测模块对输入其的待测图像进行人体轮廓检测包括：获取区域检测框的框选区域的置信度得分，当区域检测框的框选区域的置信度得分低于预设得分值时，取消区域检测框。

进一步地，人体关键点提取模块由HRnet网络结构构成，在待检测视频中选取的包含有目标行人P的连续视频帧图像的帧数N的取值范围为[5，10] ，人体关键点个数m的取值范围为[5，19]。

进一步地，时序初始向量L_a1的减均值除方差归一化处理公式为：

…………………………………………（1）

其中，μ表示时序初始向量L_a1的2m个维度值的均值；σ表示时序初始向量L_a1的2m个维度值的标准差；z_i表示时序初始向量L_a1的第i个维度值，i∈[1，2m]；z_i’ 表示时序初始向量L_a1的第i个维度值z_i进行减均值除方差后得到对应的时序归一化向量L_a2的维度值；

空域初始向量L_b1的减均值除方差归一化处理公式为：

…………………………………………（2）

其中，μ表示空域初始向量L_b1的所有维度值的均值；σ表示空域初始向量L_b1的所有维度值的标准差；y_i表示空域初始向量L_b1的第i个维度值；y_i’ 表示空域初始向量L_b1的第i个维度值y_i进行减均值除方差后得到对应的空域特征向量L_b2的维度值。

进一步地，在步骤S5中，人体轮廓对齐图片被等分切割成r张人体局部轮廓子图，其中，r∈[2，10]；或人体轮廓对齐图片被不等分切割成多张人体局部轮廓子图，其横向切割线经过人体关键点，当横向切割线为多条时，多条横向切割线一一对应经过沿纵向间隔分布的多个人体关键点。

进一步地，在步骤S5中，人体特征提取模块由用于行人重识别的MGN网络结构构成，MGN网络结构的损失函数由交叉熵损函数结合triplet-loss损失函数、 circle-loss损失函数和center-loss损失函数三个中的至少两个形成。

进一步地，在步骤S6中，N个2m维的时序归一化向量L_a2经过性别及年龄识别模块的lstm网络结构后输出的时序特征向量L_a3经过维数调整，时序特征向量L_a3的维数根据空域特征向量L_b2的维数调整为与空域特征向量L_b2的维数的比值范围[0.9，1.1]。

进一步地，空域特征向量L_b2的维数为512、1024、2048或4096。

根据本发明的另一方面，提供了一种行人性别及年龄识别模型，用于实现上述的基于视频的行人性别及年龄识别方法，包括：人体目标检测模块，用于对输入其的多帧待测图像进行人体轮廓检测，各帧待测图像中的被识别出的每个行人通过一个人体区域检测框框选，针对各帧待测图像中的所有行人，将其沿人体区域检测框裁取下以形成人体轮廓图片，其中，多帧待测图像为通过获取的待检测视频提取出连续的多帧视频帧图像；人体关键点提取模块，用于对输入其的各人体轮廓图片进行关键点提取，以获取其对应的行人的人体关键点的像素值坐标，选取多个行人中的目标行人P在待检测视频中出现的连续的N帧视频帧图像一一对应的N张人体轮廓图片，并将N张人体轮廓图片对应的人体关键点的像素值坐标拼接后输出包含目标行人P的时序特征的N个2m维的时序初始向量L_a1，将N个2m维的时序初始向量L_a1逐个进行减均值除方差的归一化处理后得到N个2m维的时序归一化向量L_a2，其中，m为人体关键点的个数；人体图像对齐模块，用于对输入其的人体轮廓图片和与其对应的2m维的时序初始向量L_a1进行仿射变换，以得到人体轮廓对齐图片，其中，人体轮廓图片为在目标行人P的N张人体轮廓图片中选取的一张；人体特征提取模块，用于对同时输入其的人体轮廓对齐图片和其对应的多张人体局部轮廓子图进行深度特征提取，以输出包含目标行人P的全局特征信息和局部特征信息的空域初始向量L_b1，将空域初始向量L_b1进行减均值除方差的归一化处理后得到空域特征向量L_b2，其中，多张人体局部轮廓子图沿人体轮廓对齐图片的纵向排列，由人体轮廓对齐图片进行横向切割形成；性别及年龄分析模块，用于对输入其的N个2m维的时序归一化向量L_a2和空域特征向量L_b2分析处理后获得性别及年龄判定结果，性别及年龄判定结果为决策向量F的各维度值中概率得分最高者所对应的性别及年龄区间的分类结果；其中，N个2m维的时序归一化向量L_a2经过性别及年龄识别模块的lstm网络结构后输出时序特征向量L_a3，时序特征向量L_a3与空域特征向量L_b2拼接形成的组合向量E经过全连接层后输出决策向量F，决策向量F经过softmax分类层分类处理后输出目标行人P的性别及年龄判定结果，分类处理后的决策向量F的各维度值对应于目标行人P被判定在多个性别及年龄区间段的概率。

应用本发明的技术方案，通过行人性别及年龄识别模型对待检测视频提取到的待测图像的分析处理，根据待测图像中行人的人体特征信息而获取行人的时序信息特征和空域信息特征，结合两种信息数据利用预设网络结构的算法步骤实现对行人的人体特征信息的分类，充分发挥网络结构的分类性能，将性别识别作为二分类问题、将年龄识别作为多分类问题，最终输出性别分类结果和年龄分类结果，实现对行人的性别及年龄的准确识别。整个运算过程不需要提取行人的面部信息数据，在保证了能够对行人的性别及年龄高效、稳定识别的基础上，从根源杜绝了面部信息数据被故意盗取或无意泄露的风险，确保行人性别及年龄识别过程的隐私性和安全性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明的基于视频的行人性别及年龄识别方法的步骤流程图；

图2示出了实施本发明的基于视频的行人性别及年龄识别方法过程中，获取的待检测视频中一个可选实施例的作为待测图像的视频帧图像，且待测图像被实施了人体轮廓检测；

图3示出了实施本发明的基于视频的行人性别及年龄识别方法过程中，在由图2的待测图像中裁取出的多张人体轮廓图片中选取的一张可选实施例的目标行人P的人体轮廓图片，且该人体轮廓图片中的目标行人P标识有人体关键点；

图4示出了实施本发明的基于视频的行人性别及年龄识别方法过程中，对图3的人途轮廓图片实施仿射变换后得到的人体轮廓对齐图片，且该人体轮廓对齐图片中的目标行人P标识有人体关键点；

图5示出了实施本发明的基于视频的行人性别及年龄识别方法过程中，对图4的人体轮廓对齐图片进行一种可选实施例的横向切割后得到的纵向排列的三张人体局部轮廓子图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”、“和”、“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了解决现有技术中利用图像识别处理技术获取行人的性别和年龄信息时，需要提取和收集行人的面部信息数据，从而存在行人的面部信息数据被故意盗取或无意泄露的风险，具有一定的安全隐患的问题。本发明提供了一种基于视频的行人性别及年龄识别方法和基于视频的行人性别及年龄识别模型。其中，行人性别及年龄识别模型用于实现下述的行人性别及年龄识别方法，包括人体目标检测模块、人体关键点提取模块、人体图像对齐模块、人体特征提取模块和性别及年龄分析模块，人体目标检测模块用于对输入其的多帧待测图像进行人体轮廓检测，各帧待测图像中的被识别出的每个行人通过一个人体区域检测框框选，针对各帧待测图像中的所有行人，将其沿人体区域检测框裁取下以形成人体轮廓图片，其中，多帧待测图像为通过获取的待检测视频提取出连续的多帧视频帧图像；人体关键点提取模块用于对输入其的各人体轮廓图片进行关键点提取，以获取其对应的行人的人体关键点的像素值坐标，选取多个行人中的目标行人P在待检测视频中出现的连续的N帧视频帧图像一一对应的N张人体轮廓图片，并将N张人体轮廓图片对应的人体关键点的像素值坐标拼接后输出包含目标行人P的时序特征的N个2m维的时序初始向量L_a1，将N个2m维的时序初始向量L_a1逐个进行减均值除方差的归一化处理后得到N个2m维的时序归一化向量L_a2，其中，m为人体关键点的个数；人体图像对齐模块用于对输入其的人体轮廓图片和与其对应的2m维的时序初始向量L_a1进行仿射变换，以得到人体轮廓对齐图片，其中，人体轮廓图片为在目标行人P的N张人体轮廓图片中选取的一张；人体特征提取模块用于对同时输入其的人体轮廓对齐图片和其对应的多张人体局部轮廓子图进行深度特征提取，以输出包含目标行人P的全局特征信息和局部特征信息的空域初始向量L_b1，将空域初始向量L_b1进行减均值除方差的归一化处理后得到空域特征向量L_b2，其中，多张人体局部轮廓子图沿人体轮廓对齐图片的纵向排列，由人体轮廓对齐图片进行横向切割形成；性别及年龄分析模块用于对输入其的N个2m维的时序归一化向量L_a2和空域特征向量L_b2分析处理后获得性别及年龄判定结果，性别及年龄判定结果为决策向量F的各维度值中概率得分最高者所对应的性别及年龄区间的分类结果；其中，N个2m维的时序归一化向量L_a2经过性别及年龄识别模块的lstm网络结构后输出时序特征向量L_a3，时序特征向量L_a3与空域特征向量L_b2拼接形成的组合向量E经过全连接层后输出决策向量F，决策向量F经过softmax分类层分类处理后输出目标行人P的性别及年龄判定结果，分类处理后的决策向量F的各维度值对应于目标行人P被判定在多个性别及年龄区间段的概率。

在本发明的图1所示的基于视频的行人性别及年龄识别方法的步骤流程图中，可见，行人性别及年龄识别方法，包括：步骤S1，获取待检测视频，通过待检测视频提取出连续的多帧视频帧图像作为待测图像；步骤S2，通过人体目标检测模块对输入其的多帧待测图像进行人体轮廓检测，各帧待测图像中的被识别出的每个行人通过一个人体区域检测框框选，针对各帧待测图像中的所有行人，将其沿人体区域检测框裁取下以形成人体轮廓图片；步骤S3，通过人体关键点提取模块对输入其的各人体轮廓图片进行关键点提取，以获取其对应的行人的人体关键点的像素值坐标，选取多个行人中的目标行人P在待检测视频中出现的连续的N帧视频帧图像一一对应的N张人体轮廓图片，并将N张人体轮廓图片对应的人体关键点的像素值坐标拼接后输出包含目标行人P的时序特征的N个2m维的时序初始向量L_a1，将N个2m维的时序初始向量L_a1逐个进行减均值除方差的归一化处理后得到N个2m维的时序归一化向量L_a2，其中，m为人体关键点的个数；步骤S4，在目标行人P的N张人体轮廓图片中选取一张人体轮廓图片，将该张人体轮廓图片和与其对应的2m维的时序初始向量L_a1输入人体图片对齐模块后经过仿射变换得到人体轮廓对齐图片；步骤S5，将人体轮廓对齐图片进行横向切割，以分割出纵向排列的多张人体局部轮廓子图，将人体轮廓对齐图片和其对应的多张人体局部轮廓子图同时输入人体特征提取模块进行深度特征提取，以输出包含目标行人P的全局特征信息和局部特征信息的空域初始向量L_b1，将空域初始向量L_b1进行减均值除方差的归一化处理后得到空域特征向量L_b2；步骤S6，将N个2m维的时序归一化向量L_a2和空域特征向量L_b2输入性别及年龄识别模块，其中，N个2m维的时序归一化向量L_a2经过性别及年龄识别模块的lstm网络结构后输出时序特征向量L_a3，时序特征向量L_a3与空域特征向量L_b2拼接形成的组合向量E经过全连接层后输出决策向量F，决策向量F经过softmax分类层分类处理后输出目标行人P的性别及年龄判定结果，分类处理后的决策向量F的各维度值对应于目标行人P被判定在多个性别及年龄区间段的概率；性别及年龄判定结果为决策向量F的各维度值中概率得分最高者所对应的性别及年龄区间的分类结果。

应用上述技术方案，通过行人性别及年龄识别模型对待检测视频提取到的待测图像的分析处理，根据待测图像中行人的人体特征信息而获取行人的时序信息特征和空域信息特征，结合两种信息数据利用预设网络结构的算法步骤实现对行人的人体特征信息的分类，充分发挥网络结构的分类性能，将性别识别作为二分类问题、将年龄识别作为多分类问题，最终输出性别分类结果和年龄分类结果，实现对行人的性别及年龄的准确识别。整个运算过程不需要提取行人的面部信息数据，在保证了能够对行人的性别及年龄高效、稳定识别的基础上，从根源杜绝了面部信息数据被故意盗取或无意泄露的风险，确保行人性别及年龄识别过程的隐私性和安全性。

在本发明的图示实施例中，待检测视频可以由取像装置拍摄，由其提取出的视频帧图像为RGB三通道的自然图片。如图2所示，图2中的待测图像有三个行人，输入目标检测模块经过人体轮廓检测后，三个行人一一对应地通过三个人体区域检测框被框选，分别为人体区域检测框A、人体区域检测框B和人体区域检测框C。在步骤S2中，人体目标检测模块由包含有YOLO v5算法的目标检测网络构成，人体目标检测模块对输入其的待测图像进行人体轮廓检测包括：获取区域检测框的框选区域的置信度得分，当区域检测框的框选区域的置信度得分低于预设得分值时，取消区域检测框。这样，由于针对置信度得分有预设得分值，从而有效地降低了目标检测模块将待测图像类似于行人的物体（例如充气玩偶、拟人雕塑或形状接近人型的电动车等）错误识别为行人，同时避免单一行人出现重复检测的现象，进而有利于人体目标检测模块的对行人检测的精度值和召回率的提升。可选地，预设得分值的取值范围为[0.3，0.8]，优选地，预设得分值为0.3。

在本发明的可选实施例中，选取图2中的人体区域检测框A框选的行人作为目标行人P，沿其裁取下以形成图3中的目标行人P的人体轮廓图片，该人体轮廓图片输入人体关键点提取模块后进行关键点提取，得到如图3中带有人体关键点的像素值坐标的人体轮廓图片。在本发明的步骤S3中，人体关键点提取模块优选地由HRnet网络结构构成。其能够并行地处理不同分辨率的人体轮廓图片，并且可以始终保持一路高分辨率图片向深层传播。最终，输出人体关键点位置热力图，将热力图中值最高的位置作为人体关键点输出。在待检测视频中选取的包含有目标行人P的连续视频帧图像的帧数N的取值范围为[5，10] ，这个范围的设置是充分考虑了外部算例得到的，同时还能够确保最终得到的时序信息特征的准确性。可选地，人体关键点个数m的取值范围为[5，19]。

如图3所示，本发明的图示实施例选取人体关键点个数m为19，自上至下分别为：左右耳关键点、左右眼关键点、鼻关键点、嘴部关键点、颈部关键点、左右肩关键点，左右肘关键点，左右腕关键点，左右臀关键点，左右膝关键点，左右脚踝关键点。当然，在本发明的另一优选实施例中，选取人体关键点个数m为13，相比于19个人体关键点，不包含左右耳关键点、左右眼关键点、鼻关键点、嘴部关键点，这样便可以完全忽略掉行人的面部信息数据，仅依靠人体的躯干信息数据同样能够得到最终的性别年龄识别结果。在本发明的另一优选实施例中，为便于提供训练模型的样本数据集，本发明的模型在coco数据集上完成训练，因此对应的人体关键点个数m为17。

由于行人的人体在行进与静止等姿态之间转换时，能提供较为丰富的性别年龄信息，因此，关键点检测算法在时序上的结合可以作为目标分类任务的分支之一，而人体关键点提取算法可以提取行人的人体的多个人体关键点的坐标信息。通过保留多帧连续的视频帧图像检测到的同一目标行人P的人体关键点的坐标信息，对于连续帧图像之间，将每一帧的视频帧图像均进行人体关键点提取，形成包含时序信息特征的特征。

在步骤S3中，时序初始向量L_a1的减均值除方差归一化处理公式为：

…………………………………………（1）

需要说明的是，将时序初始向量L_a1进行减均值除方差的归一化处理后得到时序归一化向量L_a2是控制向量元素的变化范围，有利于提高人体关键点提取模块的检测结果可靠性，减均值求方差能够缩小数值间较大的差距，以防止因数值差距过大出现的神经元坏死，避免出现人体关键点提取模块不工作的情况发生。由于非线性激活函数有自己的响应定义域，需要尽可能保证0均值，统一方差的数据输入，最能发挥网络的分类性能，因此，减均值求方差以缩小数值之间的差距，能够有利于人体关键点提取模块的测试。

在步骤S4中，对图2的目标行人P的人体轮廓图片输入人体图片对齐模块后经过人体关键点的仿射变换得到图3中所示的人体轮廓对齐图片，如图3所示。对人体轮廓图片的对齐操作是将其对齐到标准人体图片（未图示）上的，其中，标准人体图片中的人体位姿可以任意设定，即设定每个人体关键点在人体区域的标准位置。将经过人体关键点提取之后的人体轮廓图片，根据其上的人体关键点的相对位置信息判断出具体的人体姿态，并将这些人体关键点位置进行仿射变化相互匹配到标准人体图片的人体关键点，具体通过仿射变换公式将原有的人体轮廓图片中的不正、由于视角等等原因扭曲的目标行人P人体对应到标准人体图片的人体上，实现人体位姿对齐，得到的人体轮廓对齐图片用于下一步的人体特征提取。在对人体轮廓图片的对齐操作中，当有些位置没有截取到时，用统一纯色像素补齐得到人体轮廓对齐图片（如图4中的人体轮廓图片的对齐操作的4个边角位置，由于对人体轮廓图片的选择出现的无法截取区域）。

在步骤S5中，空域初始向量L_b1的减均值除方差归一化处理公式为：

…………………………………………（2）

类似地，将空域初始向量L_b1进行减均值除方差的归一化处理后得到空域特征向量L_b2是控制向量元素的变化范围，有利于提高人体特征提取模块的检测结果可靠性，减均值求方差能够缩小数值间较大的差距，以防止因数值差距过大出现的神经元坏死，避免出现人体特征提取模块不工作的情况发生。由于非线性激活函数有自己的响应定义域，需要尽可能保证0均值，统一方差的数据输入，最能发挥网络的分类性能，因此，减均值求方差以缩小数值之间的差距，能够有利于人体特征提取模块的测试。

在本发明的步骤S5中，人体轮廓对齐图片被等分切割成r张人体局部轮廓子图，其中，r∈[2，10]；或人体轮廓对齐图片被不等分切割成多张人体局部轮廓子图，其横向切割线经过人体关键点，当横向切割线为多条时，多条横向切割线一一对应经过沿纵向间隔分布的多个人体关键点。

在本发明的优选图示实施例中，如图5所示，人体轮廓对齐图片被不等分切割成3张人体局部轮廓子图，分别为图5中的P1、P2和P3，3张人体局部轮廓子图分别经过人体轮廓对齐图片中的目标行人P的颈部关键点和左右臀关键点的两条横向切割线进行纵向分割。

优选地，人体特征提取模块由用于行人重识别的MGN网络结构构成，MGN网络结构的损失函数由交叉熵损函数结合triplet-loss损失函数、 circle-loss损失函数和center-loss损失函数三个中的至少两个形成。

针对人体特征的提取，在实际场景中主要选取站立或行进中的人体图片，这样在经过对人体轮廓图片的对齐操作得到人体轮廓对齐图片中的行人位姿更容易辨识，获取到的人体特征信息更全面），在性别年龄识别上，主要思考在于行人重识别任务的目标：将相同的行人在不同地方再次识别出来。通过这种特殊方式训练得到的人体特征提取模块对于性别、年龄这两个强相关的属性有很大帮助，这些特征更易于推广到此类强相关属性识别的任务。与普通的CNN网络的输入、训练策略不尽相同，主要在于以下两个方面：

A) 分割输入：人体特征提取模块在接受对齐的人体轮廓对齐图片后，将它等距离或不等距离纵向分割后产生多张人体局部轮廓子图，将整张人体轮廓对齐图片以及多张人体局部轮廓子图共同送入人体特征提取模块的CNN网络获得一个固定长度的特征。

B) 细粒度分类损失：一般而言，分类网络常用分类损失是交叉熵损失，而针对更为细粒度的分类，有很多在网络、损失设计上的种种优化，在此处使用的是不同的损失函数结合的方式，主要由交叉熵损函数结合triplet-loss损失函数、 circle-loss损失函数和center-loss损失函数。对应地，训练时的输入也不再是单张图片输入，而是成组输入。

在步骤S6中，N个2m维的时序归一化向量L_a2经过性别及年龄识别模块的lstm网络结构后输出的时序特征向量L_a3经过维数调整，时序特征向量L_a3的维数根据空域特征向量L_b2的维数调整为与空域特征向量L_b2的维数的比值范围[0.9，1.1]。这样是为了确保最终的分类结果输出考虑到包含时序信息特征的时序特征向量L_a3能够与空域特征向量L_b2保证相似的权重，进而对时序特征向量L_a3进行维数限定，由空域特征向量L_b2的维数（向量长度）决定了时序特征向量L_a3的维数，时序特征向量的维数为空域特征向量L_b2的维数的90%-110%，这样确保结合空域信息特征和时序信息特征在得到性别及年龄时权重仅仅更占50%。

可选地，空域特征向量L_b2的维数为512、1024、2048或4096。

在本发明的优选实施例中，输出的决策向量F为16维向量，分类处理后的决策向量F为（x₁，x₂，x₃，x₄，x₅，x₆，x₇，x₈，x₉，x₁₀，x₁₁，x₁₂，x₁₃，x₁₄，x₁₅，x₁₆），其中16个维度值之和为1，各维度值对应的性别及年龄区间段分别为：

x₁对应的分类结果为：性别-女，年龄区间0~5岁；

x₂对应的分类结果为：性别-女，年龄区间6~10岁；

x₃对应的分类结果为：性别-女，年龄区间11~16岁；

x₄对应的分类结果为：性别-女，年龄区间17~23岁；

x₅对应的分类结果为：性别-女，年龄区间24~32岁；

x₆对应的分类结果为：性别-女，年龄区间33~45岁；

x₇对应的分类结果为：性别-女，年龄区间46~60岁；

x₈对应的分类结果为：性别-女，年龄区间61~100岁；

x₉对应的分类结果为：性别-男，年龄区间0~5岁；

x₁₀对应的分类结果为：性别-男，年龄区间6~10岁；

x₁₁对应的分类结果为：性别-男，年龄区间11~16岁；

x₁₂对应的分类结果为：性别-男，年龄区间17~23岁；

x₁₃对应的分类结果为：性别-男，年龄区间24~32岁；

x₁₄对应的分类结果为：性别-男，年龄区间33~45岁；

x₁₅对应的分类结果为：性别-男，年龄区间46~60岁；

x₁₆对应的分类结果为：性别-男，年龄区间61~100岁。

例如，在本实施例中，目标行人P对应的决策向量F为（0.000000，0.000000，0.000000，0.000000，0.000000，0.000000，0.000000，0.000000，0.000000，0.000061，0.246356，0.002083，0.751488，0.000012，0.000001，0.000000），其中，决策向量F的各维度值中x₁₃对应概率得分最高，分值为0.751488，因此目标行人P对应的性别及年龄区间的分类结果为性别-男，年龄区间24~32岁。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本发明所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视频的行人性别及年龄识别方法，其特征在于，包括：

步骤S1，获取待检测视频，通过所述待检测视频提取出连续的多帧视频帧图像作为待测图像；

步骤S2，通过人体目标检测模块对输入其的多帧所述待测图像进行人体轮廓检测，各帧所述待测图像中的被识别出的每个行人通过一个人体区域检测框框选，针对各帧所述待测图像中的所有行人，将其沿所述人体区域检测框裁取下以形成人体轮廓图片；

步骤S3，通过人体关键点提取模块对输入其的各所述人体轮廓图片进行关键点提取，以获取其对应的所述行人的人体关键点的像素值坐标，选取多个所述行人中的目标行人P在所述待检测视频中出现的连续的N帧所述视频帧图像一一对应的N张所述人体轮廓图片，并将N张所述人体轮廓图片对应的人体关键点的像素值坐标拼接后输出包含所述目标行人P的时序特征的N个2m维的时序初始向量L_a1，将N个2m维的所述时序初始向量L_a1逐个进行减均值除方差的归一化处理后得到N个2m维的时序归一化向量L_a2，其中，m为人体关键点的个数；

步骤S4，在所述目标行人P的N张所述人体轮廓图片中选取一张所述人体轮廓图片，将该张所述人体轮廓图片和与其对应的2m维的时序初始向量L_a1输入人体图片对齐模块后经过仿射变换得到人体轮廓对齐图片；

步骤S5，将所述人体轮廓对齐图片进行横向切割，以分割出纵向排列的多张人体局部轮廓子图，将所述人体轮廓对齐图片和其对应的多张所述人体局部轮廓子图同时输入人体特征提取模块进行深度特征提取，以输出包含所述目标行人P的全局特征信息和局部特征信息的空域初始向量L_b1，将所述空域初始向量L_b1进行减均值除方差的归一化处理后得到空域特征向量L_b2；

步骤S6，将N个2m维的所述时序归一化向量L_a2和所述空域特征向量L_b2输入性别及年龄识别模块，其中，N个2m维的所述时序归一化向量L_a2经过所述性别及年龄识别模块的lstm网络结构后输出时序特征向量L_a3，所述时序特征向量L_a3与所述空域特征向量L_b2拼接形成的组合向量E经过全连接层后输出决策向量F，所述决策向量F经过softmax分类层分类处理后输出所述目标行人P的性别及年龄判定结果，分类处理后的所述决策向量F的各维度值对应于所述目标行人P被判定在多个性别及年龄区间段的概率；所述性别及年龄判定结果为所述决策向量F的各维度值中概率得分最高者所对应的性别及年龄区间的分类结果。

2.根据权利要求1所述的基于视频的行人性别及年龄识别方法，其特征在于，通过设置所述连接层的参数，输出的所述决策向量F为16维向量，分类处理后的所述决策向量F为（x₁，x₂，x₃，x₄，x₅，x₆，x₇，x₈，x₉，x₁₀，x₁₁，x₁₂，x₁₃，x₁₄，x₁₅，x₁₆），其中16个维度值之和为1，各所述维度值对应的性别及年龄区间段分别为：

x₁对应的分类结果为：性别-女，年龄区间0~5岁；

x₂对应的分类结果为：性别-女，年龄区间6~10岁；

x₃对应的分类结果为：性别-女，年龄区间11~16岁；

x₄对应的分类结果为：性别-女，年龄区间17~23岁；

x₅对应的分类结果为：性别-女，年龄区间24~32岁；

x₆对应的分类结果为：性别-女，年龄区间33~45岁；

x₇对应的分类结果为：性别-女，年龄区间46~60岁；

x₈对应的分类结果为：性别-女，年龄区间61~100岁；

x₉对应的分类结果为：性别-男，年龄区间0~5岁；

x₁₀对应的分类结果为：性别-男，年龄区间6~10岁；

x₁₁对应的分类结果为：性别-男，年龄区间11~16岁；

x₁₂对应的分类结果为：性别-男，年龄区间17~23岁；

x₁₃对应的分类结果为：性别-男，年龄区间24~32岁；

x₁₄对应的分类结果为：性别-男，年龄区间33~45岁；

x₁₅对应的分类结果为：性别-男，年龄区间46~60岁；

x₁₆对应的分类结果为：性别-男，年龄区间61~100岁。

3.根据权利要求1所述的基于视频的行人性别及年龄识别方法，其特征在于，所述人体目标检测模块由包含有YOLO v5算法的目标检测网络构成，所述人体目标检测模块对输入其的所述待测图像进行人体轮廓检测包括：获取所述区域检测框的框选区域的置信度得分，当所述区域检测框的框选区域的置信度得分低于预设得分值时，取消所述区域检测框。

4.根据权利要求1所述的基于视频的行人性别及年龄识别方法，其特征在于，所述人体关键点提取模块由HRnet网络结构构成，在所述待检测视频中选取的包含有所述目标行人P的连续所述视频帧图像的帧数N的取值范围为[5，10] ，所述人体关键点个数m的取值范围为[5，19]。

5.根据权利要求1所述的基于视频的行人性别及年龄识别方法，其特征在于，

所述时序初始向量L_a1的减均值除方差归一化处理公式为：

…………………………………………（1）

其中，μ表示所述时序初始向量L_a1的2m个维度值的均值；

σ表示所述时序初始向量L_a1的2m个维度值的标准差；

z_i表示所述时序初始向量L_a1的第i个维度值，i∈[1，2m]；

z_i’ 表示所述时序初始向量L_a1的第i个维度值z_i进行减均值除方差后得到对应的时序归一化向量L_a2的维度值；

所述空域初始向量L_b1的减均值除方差归一化处理公式为：

…………………………………………（2）

其中，μ表示所述空域初始向量L_b1的所有维度值的均值；

σ表示所述空域初始向量L_b1的所有维度值的标准差；

y_i表示所述空域初始向量L_b1的第i个维度值；

y_i’ 表示所述空域初始向量L_b1的第i个维度值y_i进行减均值除方差后得到对应的空域特征向量L_b2的维度值。

6.根据权利要求1所述的基于视频的行人性别及年龄识别方法，其特征在于，在所述步骤S5中，

所述人体轮廓对齐图片被等分切割成r张人体局部轮廓子图，其中，r∈[2，10]；或

所述人体轮廓对齐图片被不等分切割成多张人体局部轮廓子图，其横向切割线经过所述人体关键点，当所述横向切割线为多条时，多条横向切割线一一对应经过沿纵向间隔分布的多个所述人体关键点。

7.根据权利要求1所述的基于视频的行人性别及年龄识别方法，其特征在于，在所述步骤S5中，所述人体特征提取模块由用于行人重识别的MGN网络结构构成，所述MGN网络结构的损失函数由交叉熵损函数结合triplet-loss损失函数、 circle-loss损失函数和center-loss损失函数三个中的至少两个形成。

8.根据权利要求7所述的基于视频的行人性别及年龄识别方法，其特征在于，在步骤S6中，N个2m维的所述时序归一化向量L_a2经过所述性别及年龄识别模块的lstm网络结构后输出的时序特征向量L_a3经过维数调整，所述时序特征向量L_a3的维数根据所述空域特征向量L_b2的维数调整为与所述空域特征向量L_b2的维数的比值范围[0.9，1.1]。

9.根据权利要求8所述的基于视频的行人性别及年龄识别方法，其特征在于，所述空域特征向量L_b2的维数为512、1024、2048或4096。

10.一种行人性别及年龄识别模型，其特征在于，用于实现权利要求1至9中任一项所述的基于视频的行人性别及年龄识别方法，包括：

人体目标检测模块，用于对输入其的多帧待测图像进行人体轮廓检测，各帧所述待测图像中的被识别出的每个行人通过一个人体区域检测框框选，针对各帧所述待测图像中的所有行人，将其沿所述人体区域检测框裁取下以形成人体轮廓图片，其中，多帧所述待测图像为通过获取的待检测视频提取出连续的多帧视频帧图像；

人体关键点提取模块，用于对输入其的各所述人体轮廓图片进行关键点提取，以获取其对应的所述行人的人体关键点的像素值坐标，选取多个所述行人中的目标行人P在所述待检测视频中出现的连续的N帧所述视频帧图像一一对应的N张所述人体轮廓图片，并将N张所述人体轮廓图片对应的人体关键点的像素值坐标拼接后输出包含所述目标行人P的时序特征的N个2m维的时序初始向量L_a1，将N个2m维的所述时序初始向量L_a1逐个进行减均值除方差的归一化处理后得到N个2m维的时序归一化向量L_a2，其中，m为人体关键点的个数；

人体图像对齐模块，用于对输入其的人体轮廓图片和与其对应的2m维的时序初始向量L_a1进行仿射变换，以得到人体轮廓对齐图片，其中，所述人体轮廓图片为在所述目标行人P的N张所述人体轮廓图片中选取的一张；

人体特征提取模块，用于对同时输入其的所述人体轮廓对齐图片和其对应的多张所述人体局部轮廓子图进行深度特征提取，以输出包含所述目标行人P的全局特征信息和局部特征信息的空域初始向量L_b1，将所述空域初始向量L_b1进行减均值除方差的归一化处理后得到空域特征向量L_b2，其中，多张人体局部轮廓子图沿所述人体轮廓对齐图片的纵向排列，由所述人体轮廓对齐图片进行横向切割形成；

性别及年龄分析模块，用于对输入其的N个2m维的所述时序归一化向量L_a2和所述空域特征向量L_b2分析处理后获得性别及年龄判定结果，所述性别及年龄判定结果为决策向量F的各维度值中概率得分最高者所对应的性别及年龄区间的分类结果；其中，N个2m维的所述时序归一化向量L_a2经过所述性别及年龄识别模块的lstm网络结构后输出时序特征向量L_a3，所述时序特征向量L_a3与所述空域特征向量L_b2拼接形成的组合向量E经过全连接层后输出所述决策向量F，所述决策向量F经过softmax分类层分类处理后输出所述目标行人P的性别及年龄判定结果，分类处理后的所述决策向量F的各维度值对应于所述目标行人P被判定在多个性别及年龄区间段的概率。