CN112329716A

CN112329716A - 一种基于步态特征的行人年龄段识别方法

Info

Publication number: CN112329716A
Application number: CN202011342347.6A
Authority: CN
Inventors: 余晓毅; 宋涛; 赵明富; 巫涛江; 卫排锋; 马爱萍
Original assignee: Chongqing University of Technology; Chongqing Energy College
Current assignee: Chongqing University of Technology; Chongqing Energy College
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-02-05

Abstract

本发明公开了一种基于步态特征的行人年龄段识别方法，其特征在于：该方法包括如下步骤：S1：行人步态图像预处理：采集行人行走视频，通过运动目标识别提取视频帧中的行人步态剪影图，该步态剪影图以二进制图像表示；并对步态剪影图进行形态学处理，获得完整的人体区域；S2:提取步态周期：对连续的视频帧通过统计行人区域面积的变化曲线，提取面积变化曲线中相邻的两个波峰，作为一个步态周期的起止帧；并以一个步态周期为一组数据，统计人体区域面积；S3：获取步态能量图；S4：步态能量图分割；S5：基于卷积神经网络提取步态特征；S6：基于步态特征的年龄识别；本发明可广泛应用于访问控制，监视，医学治疗等领域。

Description

一种基于步态特征的行人年龄段识别方法

技术领域

本发明涉及行人年龄段识别方法，具体涉及一种基于步态特征的行人年龄段识别方法。

背景技术

现有的年龄估计算法一般采用高分辨率的人脸图像，但人脸被遮挡时使得从残缺的面部图像中识别出年龄极具挑战性，除此之外，远距离获取人脸图像时造成的图像模糊亦会影响年龄的识别，这限制了基于人脸图像年龄识别的应用。相比之下，二进制的人体轮廓图就足够表示一个人的步态，因此在远距离表示人体信息的步态特征可以弥补远距离年龄识别的问题，而且不需要目标的配合，具有隐蔽性。众多的研究证明了步态包含了用于人年龄识别的潜在信息。步态具有周期性，为了节约内存且能有效保留完整步态周期的信息，基于步态特征的应用已被广泛研究，如访问控制，监视，医学治疗等。

众多的研究证明了步态包含了用于人年龄识别的潜在信息，利用简单的头部与身体尺寸的比例特征可以区分儿童与成人。将二进制人体轮廓图纵向和横向投影得到曲线作为特征，可以区分了老人和成年人。在步态识别领域，步态能量图是最广泛使用的步态模板之一，日本大阪大学构建了全代步态数据库，提出的基线算法证明了基于步态的年龄估计的可行性，这项研究可以被认为是最早利用步态估计年龄的工作。虽然其构建的数据库目前拥有最多的样本集，但是各个年龄的样本数量及其不平衡，例如老年样本集的数量远远少于青壮年样本集的数量。深度学习的发展，也促进了步态识别的发展。Marín-Jiménez等人设计了一个多任务的深度卷积神经网络，将光流作为训练集，同时实现了目标身份，性别，年龄的识别，但是其样本集中只包含了305个个体，而且这些个体大都是20多岁。因为年龄的评估需要一个较大的年龄范围，因此认为该方法并未得到有效验证。

发明内容

本发明所要解决的技术问题在于提供一种基于步态特征的行人年龄段识别方法。

本发明的技术方案是：一种基于步态特征的行人年龄段识别方法，其特征在于：该方法包括如下步骤：

S1：行人步态图像预处理：首先采集行人行走视频，通过运动目标识别提取视频帧中的行人步态剪影图，步态剪影图以二进制图像表示；运动目标提取的行人轮廓图都存在一定的空洞或者噪声，即行人身体部分存在漏识别或误识别，对步态剪影图进行形态学处理，获得比较完整精确的人体区域；

S2:提取步态周期：对连续的视频帧通过统计行人区域面积的变化曲线，在行走过程中，随着双腿的迈开与收拢，行人目标区域面积呈周期性波动，提取面积曲线中相临的两个波峰，作为一个步态周期的起止帧。

行人的步伐通常是周期性重复，在进行步态分析时以一个步态周期为一组数据，统计人体区域面积，通常行人双脚并拢时面积最小，双脚跨度最大时面积最大，通过面积曲线，以相邻两个峰值作为一个步态周期。

S3：获取步态能量图：以一个步态周期对应的视频帧作为原始数据，以每一帧图像中的行人重心作为中心，对周期内的视频进行中心对齐；

计算人体区域中每个像素点在一个周期内的平均灰度值，以周期内的平均灰度图像作为步态能量图，一方面减少数据量，一方面有滤波效果，去除噪声，同时包含一个步态周期的运动信息。

S4：步态能量图分割：将步态能量图分割为头部、上身、腿部三张子能量图，三张子能量图的宽度一致，高度按照一定比例分割，结合步态能量图，每个步态周期共计四张能量图；

S5：基于卷积神经网络提取步态特征：将三张子能量图和步态能量图分别命名为T-GEI、X-GEI、T-GEI、F-GEI，分别进行卷积，获得头部卷积特征图T-Map、上身卷积特征图X-Map、腿部卷积特征图T-Map和步态卷积特征图F-Map，再将头部卷积特征图、上身卷积特征图和腿部卷积特征图拼接成特征图二C-Map，再将特征图二C-Map与步态卷积特征图F-Map堆叠成堆叠特征图Map。

S6：基于步态特征的年龄识别：设计卷积神经网络，该卷积神经网络以S5中的堆叠特征图Map为输入，将人的年龄分为多个年龄段作为卷积神经网络输出，实现基于步态特征的行人年龄识别。

根据本发明述的一种基于步态特征的行人年龄段识别方法的优选方案，步骤S1中通过运动目标识别提取视频帧中的行人步态剪影图，为通过背景差法提取视频帧中的行人步态剪影图；对步态剪影图进行形态学处理具体为采用形态学的先腐蚀后膨胀的开运算对步态剪影图进行形态学处理。

根据本发明述的一种基于步态特征的行人年龄段识别方法的优选方案，步骤S6中的卷积神经网络采用残差扩展网络。即在卷积神经网络中引入残差扩展模块，在深层次的神经网络中通过跳远链接方式，将网络中的前一层或多层的数据直接引入到当前网络层中，可有效避免了梯度消失或者梯度退化。

根据本发明述的一种基于步态特征的行人年龄段识别方法的优选方案，针对样本不均衡问题，步骤S6中的卷积神经网络采用动态权重交叉熵函数作为损失函数，在训练全卷积神经网络的过程中，计算一个训练批次的混淆矩阵，得到每个类的误识别率，以此作为多分类交叉熵函数的动态权重。

根据本发明述的一种基于步态特征的行人年龄段识别方法的优选方案，S6中的卷积神经网络中去掉全连接层，极大程度降低神经网络的参数，并采用BatchNorm方法对参数标准化处理，避免网络出现过拟合。

本发明所述的一种基于步态特征的行人年龄段识别方法的有益效果是:本发明克服了样本集分布不均衡的问题，在多分类交叉熵函数的基础上设计了动态权重多分类交叉熵损失函数，利用设计的损失函数去训练全卷积神经网络，能够有效提升少样本数量年龄组的识别率，可广泛应用于访问控制，监视，医学治疗等领域。

附图说明

图1为本发明实施例中基于步态特征深度学习的行人年龄识别方法流程图。

图2为本发明实施例中一个步态周期获取步态能量图。

图3为本发明实施例中全局局部卷积网络结构图。

图4为残差卷积神经网络结构图。

图5(a)～图5(e)为本发明实施例中不同年龄段的步态能量图。

图6为本发明实施例中年龄识别深度学习神经网络整体结构。

图7(a)～图7(e)分别为本发明实施例中步态能量图、第一次池化结果图、第二次池化结果图、第三次池化结果图和第四次池化结果图。

图8为本发明实施例中年龄识别率。

具体实施方式

实施例1，参见图1至图8，一种基于步态特征的行人年龄段识别方法，该方法包括如下步骤：

S1：行人步态图像预处理：首先采集行人行走视频，通过运动目标识别提取视频帧中的行人步态剪影图，步态剪影图以二进制图像表示；运动目标提取的行人轮廓图都存在一定的空洞或者噪声，即行人身体部分存在漏识别或误识别，对步态剪影图进行形态学处理，获得比较完整精确的人体区域。

S2:提取步态周期：

对连续的视频帧通过统计行人区域面积的变化曲线，在行走过程中，随着双腿的迈开与收拢，行人目标区域面积呈周期性波动，提取面积曲线中相临的两个波峰，作为一个步态周期。因为，行人的步伐通常是周期性重复，在进行步态分析时以一个步态周期为一组数据，统计人体区域面积，通常行人双脚并拢时面积最小，双脚跨度最大时面积最大，通过面积的变化曲线，以相邻两个峰值作为一个步态周期的起止帧。

S3：获取步态能量图：以一个步态周期对应的视频帧作为原始数据，以每一帧图像中的行人重心作为中心，对周期内的视频进行中心对齐。

计算人体区域中每个像素点在一个周期内的平均灰度值，以周期内的平均灰度图作为步态能量图，参见图2.一方面减少数据量，一方面有滤波效果，去除噪声，同时包含一个步态周期的运动信息。

S4：步态能量图分割：将步态能量图分割为头部、上身、腿部三张子能量图，三张子能量图的宽度一致，高度按照22:48:58的比例分割，结合步态能量图，每个步态周期共计四张能量图。

S5：基于卷积神经网络提取步态特征：将三张子能量图和步态能量图分别命名为T-GEI、X-GEI、T-GEI、F-GEI，分别进行卷积，获得头部卷积特征图T-Map、上身卷积特征图X-Map、腿部卷积特征图T-Map和步态卷积特征图F-Map，再将头部卷积特征图、上身卷积特征图和腿部卷积特征图拼接成特征图二C-Map，再将特征图二C-Map与步态卷积特征图F-Map堆叠成堆叠特征图Map，参见图3。

在具体实施例中，步骤S1中通过运动目标识别提取视频帧中的行人步态剪影图，为通过背景差法提取视频帧中的行人步态剪影图；对步态剪影图进行形态学处理具体为采用形态学的先腐蚀后膨胀的开运算对步态剪影图进行形态学处理。

计算视频序列中的前几帧背景图像中的像素的均值和方差作为背景模型，当行人出现在背景图像之中时，计算该帧图像像素点(x,y)，将(x,y)代入背景模型之中。

其中V表示背景，G表示当前图像，B表示背景图像，d表示背景图像方差。

通过设置阈值判断每个像素点是背景还是运动人体，并以二值化图像表示识别结果。

在具体实施例中，步骤S6中的卷积神经网络采用残差扩展网络。即在卷积神经网络中引入残差扩展模块，在深层次的神经网络中通过跳远链接方式，将网络中的前一层或多层的数据直接引入到当前网络层中，可有效避免了梯度消失或者梯度退化。

在深度学习中，当层数逐渐变深时会造成梯度消失或者梯度爆炸，这是因为更新某一层的参数需要损失函数对下一层参数的梯度，如果每一层的梯度都小于1，经过不断地累乘，会导致较浅层的梯度趋近于0，该现象称为梯度消失，与之相反，当每一层的梯度都大于1时，会导致较浅层的梯度变得很大，此现象称为梯度爆炸。梯度消失或者梯度爆炸可以利用正则化层有效解决。但是网络的加深会导致网络的退化，可以理解为较深层的网络不容易拟合恒等映射，利用残差的思想有效解决了网络退化的问题，主要目的是人为构造天然的恒等映射。

将深度卷积神经网络l层拟合的函数假设为H(·),将该函数拆分为：

Z^l＝H(a^l-1)＝a^l-1+f(a^l-1)

其中Z^l表示神经网络中的l层,H(a^l-1)表示l层拟合的函数，f(·)是残差函数，在较深的网络层中学习一个恒等映射H(a^l-1)→a^l-1，a^l-1是直接映射，f(a^l-1)是残差部分,即让残差部分趋于零f(a^l-1)→0

在具体实施例中，S6中的卷积神经网络中去掉全连接层，极大程度降低神经网络的参数，并采用批标准化(BatchNorm，BN)方法对参数标准化处理，避免网络出现过拟合。

为了避免网络出现过拟合，采用BatchNorm方法，首先对一个批次的训练样本，分别计算其卷积特征的均值μ和方差σ，利用一个训练批次数据的均值和方差将数据进行标准化：

其中x_i表示原卷积特征值，

表示标准化后的特征值。

利用缩放和平移变量，经过线性变换得到标准化后的数据

BN(·)表示批量规范化运算，γ表示缩放因子，β表示平移量。

当卷积特征图经BN批量规范化运算后会使数据形成均值为0，方差为1的正态分布，这会降低神经网络的非线性，提高网络的线性，自然而然会加大损失函数对网络参数的导数，增强反向传播的信息流动性，加快网络的收敛速度。

在具体实施例中，针对样本不均衡问题，步骤S6中的卷积神经网络采用动态权重交叉熵函数作为损失函数，在训练全卷积神经网络的过程中，计算一个训练批次的混淆矩阵，得到每个类的误识别率，以此作为多分类交叉熵函数的动态权重。

针对步态数据集不平衡而难以训练神经网络的问题，利用各个类的错误率作为多分类交叉熵函数的权重，有效地解决了神经网络将预测结果识别为多数据的类。有N个输入-输出关系{x⁽ⁿ⁾,y⁽ⁿ⁾；n∈[1,…,N]},x⁽ⁿ⁾是第n个输入数据，y⁽ⁿ⁾是其对应的目标标签，o⁽ⁿ⁾是CNN的输出，θ表示深度卷积神经网络中的所有参数，包括卷积核和偏差项，可以通过最小化在该任务上定义的适当损失函数来获得特定任务的最佳参数。CNN的损失可以计算如下：

表示CNN的平均损失，ι表示每个输出的损失。

对于不同的任务可设计不同的损失函数，本发明中一个节点损失函数定义如下：

其中第o_i表示第i类的CNN输出，y_i表示第i类的目标标签。

表示第i类节点的损失函数

最终的交叉熵失函数变为：

m是训练批次的大小，Oi_，j表示第j个节点第i类的CNN输出，y_i，j表示第j个节点第i类的目标标签。

在训练全卷积神经网络的过程中，计算一个训练批次的混淆矩阵，得到每个类的误识别率，以此作为多分类交叉熵函数的权重。将多分类交叉熵损失函数用于评价网络模型的预测值与数据标签值之间的距离。以上损失函数的默认工作前提是训练数据平衡，除此之外卷积神经网络的识别率很大程度上也取决于数据，当每个类的样本集悬殊过大时，卷积神经网络将识别结果输出为多数量样本类。为了避免此种情况，在多分类交叉熵损失函数的基础上设计了一种动态多分类权重交叉熵损失函数，数学表达式如下:

其中E_j为j类在当前训练批次中的误识别率。

为验证本发明的效果，进行了如下试验：

采用目前最大的步态年龄数据集日本大阪大学构建的代步态数据库OULP-Age作为样本集,将年龄划分为5组，分别是0-5岁，6-10岁，11-15岁，16-60岁，大于60岁，分别见图5(a)～图5(e)，各个年龄组反映了行人头部与身体的比例，行走的姿态随着行人的年龄变化而变化。

利用训练集训练全卷积神经网络直至网络拟合，网络拟合的判断依据为训练精度和损失值趋于稳定。训练全卷积网络时优化函数选择梯度下降优化器，损失函数为设计的动态权重多分类损失函数，一个批次大小为256，当完成16次训练时，停止训练保存模型。所采用的深度学习整体网络结构如图6所示。先采用全局局部网络层对步态能量图进行卷积，提取步态特征。其中全局步态能量图的卷积模板尺寸为5*5，通道数为16，局部能量图的卷积模板尺寸为3*3，通道数为16。对全局局部网络层提取的步态特征，依次采用三个残差扩展网络层，进行特征优化和训练，三个残差网络的通道数依次为32、64、128，第一个残差扩展网络循环3次，第二个残差扩展网络循环5次，第三个残差扩展网络循环5次。神经网络的训练均采用BatchNorm方式进行分批训练，池化操作均采用最大池化。原步态能量图经过多次卷积特征提取和最大池化后的结果如图7(a)～图7(e)所示。图7(a)为步态能量图，图7(b)为第一次池化结果图，图7(c)为第二次池化结果图，图7(d)为第三次池化结果图，图7(e)为第四次池化结果图。

进行残差扩展网络层的特征为128通道，再经过1*1卷积层降维至1通道，1*1卷积层的通道数为5，与分类类别数一致，即一个通道的特征图表示一个类别，利用SoftMax逻辑回归模型将其转换为相应类别的概率，选择最大概率为网络的预测结果。为了验证本发明的效果，同时采用了无权重和固定权重网络进行对比，其准确率如图8所示。

本发明将日本大阪大学构建的代步态数据库OULP-Age作为样本集，因为该数据集包含了2岁到90多岁的年龄范围，可以有效验证提出算法的有效性。为了克服样本集分布不均衡的情况，在多分类交叉熵函数的基础上设计了动态权重多分类交叉熵损失函数。利用设计的损失函数去训练全卷积神经网络，能够有效提升少样本数量年龄组的识别率。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于步态特征的行人年龄段识别方法，其特征在于：该方法包括如下步骤：

S1：行人步态图像预处理：首先采集行人行走视频，通过运动目标识别提取视频帧中的行人步态剪影图，该步态剪影图以二进制图像表示；并对步态剪影图进行形态学处理，获得完整的人体区域；

S2:提取步态周期：对连续的视频帧通过统计行人区域面积的变化曲线，提取面积变化曲线中相邻的两个波峰，作为一个步态周期的起止帧；并在进行步态分析时以一个步态周期为一组数据，统计人体区域面积；

计算人体区域中每个像素点在一个周期内的平均灰度值，以周期内的平均灰度图像作为步态能量图；

S4：步态能量图分割：将步态能量图分割为头部、上身、腿部三张子能量图，三张子能量图的宽度一致，三张子能量图的高度按照一定比例分割；

S5：基于卷积神经网络提取步态特征：将三张子能量图和步态能量图分别进行卷积，获得头部卷积特征图、上身卷积特征图、腿部卷积特征图和步态卷积特征图，再将头部卷积特征图、上身卷积特征图和腿部卷积特征图拼接成特征图二，再将特征图二与步态卷积特征图堆叠成堆叠特征图；

S6：基于步态特征的年龄识别：设计卷积神经网络，该卷积神经网络以S5中的堆叠特征图为输入，将人的年龄分为多个年龄段作为卷积神经网络的输出，实现基于步态特征的行人年龄识别。

2.根据权利要求1所述的一种基于步态特征的行人年龄段识别方法，其特征在于:步骤S1中通过运动目标识别提取视频帧中的行人步态剪影图，为通过背景差法提取视频帧中的行人步态剪影图；对步态剪影图进行形态学处理具体为采用形态学的开运算对步态剪影图进行形态学处理。

3.根据权利要求1所述的一种基于步态特征的行人年龄段识别方法，其特征在于:步骤S6中的卷积神经网络采用残差扩展网络，即在卷积神经网络中引入残差扩展模块，在深层次的神经网络中通过跳远链接方式，将网络中的前一层或多层的数据直接引入到当前网络层中，可有效避免了梯度消失或者梯度退化。

4.根据权利要求1所述的一种基于步态特征的行人年龄段识别方法，其特征在于:步骤S6中的卷积神经网络去掉了全连接层，并采用BatchNorm方法对参数标准化处理，避免网络出现过拟合。

5.根据权利要求1所述的一种基于步态特征的行人年龄段识别方法，其特征在于:步骤S6中的卷积神经网络采用动态权重交叉熵函数作为损失函数，在训练全卷积神经网络的过程中，计算一个训练批次的混淆矩阵，得到每个类的误识别率，以此作为多分类交叉熵函数的动态权重。