CN112989889B

CN112989889B - 一种基于姿态指导的步态识别方法

Info

Publication number: CN112989889B
Application number: CN201911302215.8A
Authority: CN
Inventors: 唐琎; 赖普坚; 肖晓明; 高琰; 肖志红; 李丰军
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2023-09-12
Anticipated expiration: 2039-12-17
Also published as: CN112989889A

Abstract

本发明公开了一种基于姿态指导的步态识别方法，其包括：步骤1：进行步态数据的采集以及预处理；步骤2：提取静态外观信息和姿态信息进行模型训练；步骤3：利用训练好的模型进行身份的识别与认证。其中，本发明结合人体轮廓和姿态信息进行步态识别，有效地提取骨架模型中的姿态信息，实现静态外观信息和姿态信息的融合，提高了识别结果的可靠性。

Description

一种基于姿态指导的步态识别方法

技术领域

本发明属于计算机视觉、模式识别及步态识别技术领域，具体涉及一种基于姿态指导的步态识别方法。

背景技术

步态识别是指通过人的走路姿势对人物身份进行认证或识别的一种技术手段，被认为是远距离身份识别中最具潜力的方法之一。其它的身份识别方法如指纹识别、虹膜识别、人脸识别、语音识别等，虽然已经在考勤、门禁、自动身份鉴别领域得到了广泛应用，但是它们在使用过程中往往存在着或多或少的缺陷，比如需要受试者主动明确的配合或者要求受试者进行一系列标准动作，依据这些附加条件提高识别率，并实现身份识别。这些额外的要求，使得身份鉴定过程变得很不便利，受试者的配合动作也增加了识别时间。

步态识别的现有技术中无论是基于模型的方法还是基于非模型的方法，都有其自身的优缺点。基于非模型的方法主要是通过提取人体外观轮廓特征来进行步态分类识别，完整的人体轮廓包含丰富的静态外观信息，但是协变量的影响给准确有效的运动分割带来了困难，从而导致无法正确识别人物身份，其中，协变量指的是譬如天气的变化、光照条件的变化、背景的混乱干扰、运动目标的影子、物体与环境之间或者物体与物体之间的遮挡、甚至摄像机的运动等。基于模型的方法能够抽象出人体的比例结构与姿态信息，并且可以降低服饰、携带物和遮挡带来的影响，但是其一般需要复杂的采集设备、繁琐的建模过程和昂贵的计算代价等，这使得它不能在户外大规模使用。随着深度学习在计算机视觉领域的大规模应用，促进了语义分割和人体姿态估计技术的发展，为基于模型和非模型的步态识别方法提供了可靠高效的轮廓外观和人体姿态提取的手段。

人体步态特征既包含人体的外观，也包含行走时人的步态运动的动力学特征性。直观上，通过步态识别人物身份很大程度上依赖于人的静态轮廓形状如何随时间的变化，而理想上，基于步态特征的识别更加充分。但是目前步态识别的方法基本都是采用单一的基于模型的方法或者基于非模型的方法，对于结合人体轮廓和姿态信息进行步态识别的研究还没有人去探讨，也缺少将其两者结合进行步态识别的有效手段。

发明内容

本发明针对现有身份识别存在的弊端，提供了一种基于姿态指导的步态识别方法，其结合人体轮廓和姿态信息进行步态识别，有效地提取骨架模型中的姿态信息，实现静态外观信息和姿态信息的融合，使用的紧凑型双线性融合方法，允许不同维度上的时空信息进行交互，克服了传统方法不能很好地使时空特征信息交互从而导致大量信息的丢失的问题，提高对待识别个体进行身份识别的准确性。

本发明提供的一种基于姿态指导的步态识别方法，包括如下步骤：

S1：采集样本个体的的行走视频作为步态数据并进行预处理；

其中，将所述行走视频拆分为连续的步态图片序列并进行预处理得到人体姿态序列图和行人轮廓图；

S2：分别将每个样本个体对应的步态周期内的行人轮廓图输入R(2+1)D结构的静态信息网络得到静态特征以及基于时序堆叠网络由步态周期内的人体姿态序列图得到姿态特征；

其中，所述步态周期为从任意某一侧足的足跟落地开始，到下一次该一侧足跟落地结束之间的连续过程；每个行走视频的每个步态周期分别对应一个静态特征和姿态特征；

S3：基于紧凑性双线性融合方法将同一样本个体的静态特征和姿态特征进行融合得到融合特征；

S4：基于样本个体的融合特征进行网络训练得到步态识别模型；

每次训练过程为：随机选取的两个步态图片序列，并基于两组步态图片序列的融合特征进行网络训练，其中，根据所述两个步态图片序列是否为同一行人进行区别标记；

S5：将待识别个体的行走视频进行所述预处理得到步态图片序列并输入至步态识别模型，再基于待识别个体与数据库中行人的特征远近关系识别数据库中是否存在所述待识别个体，所述数据库中预先存储了行人的行走视频。

本发明上述方法利用样本个体的行走视频来获取人体姿态序列图和行人轮廓图，进而提取到静态特征和姿态特征，在信息融合阶段，考虑到传统的融合方法，如逐元素相加，级联融合等方法，不能很好地使时空特征信息交互，导致大量信息的丢失。一个好的融合策略应该最大程度地保留空间和时间信息，同时最大化它们之间的交互作用，本发明使用的紧凑型双线性融合方法实现静态外观信息和姿态信息的融合，允许不同维度上的时空信息进行交互，克服了信息丢失的问题。与此同时，获取姿态特征时，本发明采用时序堆叠网络，其允许不同时刻的时序信息进行交互，提高了时序动态特征的可靠性。

其中，本发明步骤S4中进行网络训练得到步态识别模型的过程中，基于两个步态图片序列是否为同一行人进行区别标记，进而基于该特点进行训练，训练使得网络能够有效地区别同一行人和不同行人，进而得到步态识别模型。

本发明结合人体轮廓和姿态信息进行步态识别，提供了一种全新的识别手段，并有效地提高了识别结果的准确性。

进一步优选，步骤S3中融合特征的融合公式如下：

式中，F_C为融合特征，FFT(.)表示快速傅里叶变换，表示降维函数，F_A表示静态特征，F_D表示姿态特征。

进一步优选，步骤S1中得到人体姿态序列图和行人轮廓图的过程是对步态图片序列中的行人进行目标跟踪再进行姿态和轮廓提取，其中，目标跟踪如下：

c_i，h＝λd⁽¹⁾(i，j)+(1-λ)d⁽²⁾(i，j)

式中，c_i，h表示第i个追踪器对应的运动目标与跟踪结果的线性加权距离，若线性加权距离小于预设阈值，则表示跟踪结果与运动目标是相匹配，否则，不匹配；其中预设阈值是设定的d⁽¹⁾(i，j)与d⁽²⁾(i，j)两种度量对应的阈值交集；

λ表示权重系数，d⁽¹⁾(i，j)表示运动目标在运动状态的卡尔曼预测结果与跟踪结果之间的马氏距离，d⁽²⁾(i，j)表示、运动目标最近N个成功关联的特征向量集与跟踪结果的特征向量r_h之间的最小余弦距离；

其中，d_h表示跟踪结果所在的矩形边框的状态(u¹,v¹,γ¹,h¹)，(u¹,v¹)是跟踪结果所在的矩形边框的中心坐标，γ¹是跟踪结果所在的矩形边框的长宽比，h¹表示跟踪结果所在的矩形边框的高度，y_i表示第i个追踪器对应运动目标的预测结果所在矩形边框的状态(u,v,γ,h)，(u,v) 是运动目标的预测结果所在矩形边框的中心坐标，γ是运动目标的预测结果所在矩形边框的长宽比，h是运动目标的预测结果所在矩形边框的高度；S_i表示d_h与y_i之间的协方差矩阵，R_i为运动目标的数据存储空间。

进一步优选，步骤S1中对步态图片序列并进行预处理得到人体姿态序列图和行人轮廓图的过程如下：

首先，利用目标检测器识别步态图片序列中行人所在的矩形边框；

其次，利用跟踪器对矩形边框中的行人进行跟踪并进行行人标记；

最后，根据行人标记选定识别目标，并将对应的矩形边框内的图片区域分别输入至PGN 人体语义分割网络和AlphaPose人体姿态估计网络得到行人轮廓图、人体姿态序列图。

进一步优选，步骤S2之前还包括对行人轮廓图进行归一化处理，过程如下：

首先，计算行人轮廓图的质心坐标；

式中，x_c，y_c分别代表质心坐标横轴和纵轴上的值，x_i代表第i个白色像素点的坐标值， y_j代表第j个白色像素点的坐标值，n代表白点个数，白点表示人体区域；

然后，基于质心坐标计算人体轮廓移动的偏移量；

其中，横轴和纵轴的偏移量分别为：行人轮廓图的宽度1/2、高度1/4处的坐标与质心坐标的横纵坐标的差；

最后，基于偏移量进行图片位置调整。

进一步优选，步骤S2之前还包括采用线性函数对人体姿态序列图进行归一化处理，其中，按照如下公式计算人体姿态序列图中第i帧骨架中第j个关节点归一化后的坐标

令表示第i帧骨架中第j个关节点的坐标，其中(i＝1…N,j＝1…18)，min(f_x(i)) 表示第i帧骨架中各关节点横坐标的最小值，min(f_y(i))表示第i帧骨架中各关节点纵坐标的最小值，max(f_x(i))表示第i帧骨架中各关节点横坐标的最大值，max(f_y(i))表示第i帧骨架中各关节点横坐标的最大值，α表示归一化后横坐标放大的倍数，β表示归一化后纵坐标放大的倍数。

进一步优选，步骤S4中步态识别模型的训练过程是基于对比损失函数进行网络训练，所述对比损失函数如下：

式中，L(F_c,i,F_c,j,θ_ij)为损失值，f(F_c,i)表示基于随机选取的两个步态图片序列中的一个步态图片序列i的融合特征F_c,i得到的模型特征，f(F_c,j)表示基于随机选取的两个步态图片序列对中另一个步态图片序列j的融合特征F_c,j得到的模型特征， θ_ij表示匹配标签，两个步态图片序列为同一行人时，θ_ij为1，否则θ_ij为0；F_C为融合特征；训练原则为：当两个步态图片序列为同一行人时，L(F_c,i,F_c,j,θ_ij)值趋近于0，当两个步态图片序列不为同一行人时的L(F_c,i,F_c,j,θ_ij)值趋近于m值，譬如，本实施例中m＝10，趋近为无限接近，两者差值小于预设误差。

进一步优选，步骤S5中基于待识别个体与数据库中行人的特征远近关系识别数据库中是否存在所述待识别个体的过程如下：

按照如下公式分别获取待识别个体与数据库中每个行人的特征欧式距离；

||f(F_c,i)-f(F_c,j)||₂

式中，f(F_c,i)表示基于待识别个体的一个步态图片序列i的融合特征F_c,i得到的模型特征，f(F_c,j)表示基于数据库中一个行人的步态图片序列j的融合特征F_c,j得到的模型特征，F_C为融合特征；然后，判断最小的特征欧式距离是否大于预设欧式距离阈值，若是，则数据库中没有所述待识别个体；否则，所述带识别个体为最小的特征欧式距离对应在数据库中的行人。

进一步优选，所述步态周期等于相邻两个极大值点之间帧数的两倍，其中，极大值点为左右脚踝的关节点横坐标差分距离的极大值；

式中，分别为第i帧左右脚踝的关节点坐标。

进一步优选，利用时序堆叠网络得到姿态特征的过程如下：

首先，利用空间网络推理结构计算出一个步态周期中每个图片对应的空间特征q_t并利用相邻时刻图片的空间特征计算出速度特征v_t；

v_t＝q_t–q_t-1，其中q_t表示当前时刻的空间特征，q_t-1表示上一时刻的空间特征；

然后，将空间特征q_t输入到空间特征的时序堆叠网络，将v_t输入到速度特征的时序堆叠网络；

最后，将两个时序堆叠网络的输出相加再经过全连接层得到一个步态周期对应的姿态特征F_D。

有益效果

1、本发明提供了一种基于姿态指导的步态识别方法，其结合人体轮廓和姿态信息进行步态识别，提供了一种全新的识别手段，相较于现有的单一基于模型的方法或者基于非模型的识别方法，本发明有效地提高了识别结果的准确性。

2、本发明上述方法在信息融合阶段，考虑到传统的融合方法，如逐元素相加，级联融合等方法，不能很好地使时空特征信息交互，导致大量信息的丢失。一个好的融合策略应该最大程度地保留空间和时间信息，同时最大化它们之间的交互作用，本发明使用的紧凑型双线性融合方法实现静态外观信息和姿态信息的融合，允许不同维度上的时空信息进行交互，克服了信息丢失的问题。与此同时，获取姿态特征时，本发明采用时序堆叠网络，其允许不同时刻的时序信息进行交互，提高了时序动态特征的可靠性。

附图说明

图1为人体轮廓图；

图2为归一化前后的二值图，(a)图为归一化之前的图，(b)图为归一化之后的图；

图3为人体姿态图；

图4为体步态周期检测示意图；

图5为人体左右脚踝的关节点横坐标差分距离的变化曲线；

图6为R(2+1)D结构的静态信息提取的网络分支示意图；

图7为空间推理网络结构；

图8为姿态信息提取的网络框架图；

图9为时序堆叠网络示意图；

图10为孪生网络示意图；

图11为网路结构示意图。

具体实施方式

下面将结合实施例对本发明做进一步的说明。

一种基于姿态指导的步态识别方法，包括如下步骤：

步骤1：进行步态数据的采集以及预处理。其中，步态数据为样本个体的行走视频，所述样本个体的行走视频包括不同行走角度拍摄的样本个体行走的视频，所述样本个体的行走视频上设有样本个体的身份和行走拍摄角度标记。将所述行走视频拆分为连续的步态图片序列并进行预处理得到人体姿态序列图和行人轮廓图。

步骤2：提取静态外观信息和姿态信息进行模型训练。其中，分别将每个样本个体对应的步态周期内的行人轮廓图输入R(2+1)D结构的静态信息网络得到静态特征以及将步态周期内的人体姿态序列图输入时序堆叠网络得到姿态特征，再基于紧凑性双线性融合方法将同一样本个体的静态特征和姿态特征进行融合得到融合特征，以及基于样本个体的融合特征进行网络训练得到步态识别模型。

步骤3：利用训练好的模型进行身份的识别与认证。

其中，关于步骤1的具体实现过程如下：

步骤1.1：步态数据采集。

使用摄像头对待采集的样本个体进行多个行走角度的行走视频拍摄，本实施例中，从行走方向正前方(0°)到正后方(180°)，每隔一定角度采集一段时间样本个体的行走视频，行走视频需要保证是统一的帧率，且行走速度控制在一定范围内，并对行走视频做好样本个体的身份和行走角度的标记，以身份和行走角度作为个体的身份标签。

步骤1.2：将每个行走视频分别拆分成连续的步态图片序列并对得到图片分别进行预处理。

(i)使用OpenCV将行走视频V_i拆分成连续的单帧图像得到一组共M_i张连续步态图像，M_i张连续步态图像组成与行走视频V_i对应的步态图片序列S_i。

(ii)对步态图片序列S_i中的M_i张连续步态图像进行预处理，得到人体姿态图和行人轮廓图；预处理包括：提取步态图片中行人所在的矩形边框，以及基于矩形边框利用跟踪器进行行人跟踪，并对同一行人进行标记，最后将矩形边框的图像区域转换得到人体姿态图和行人轮廓图。即针对一个行走视频，一个行人会得到一个人体姿态序列图以及行人轮廓序列图。

预处理的过程如下：

首先，采用YOLOv3目标检测器，以行人类别为目标进行检测，从而获取行人类别所在的矩形边框，本发明中具体为利用目标检测器识别每一个行走视频的步态图片序列中图片内的行人所在的矩形边框。其能够排除其他非行人类别的干扰，使得后续训练的模型更准确，使用模型时的身份识别率更高。

其次，利用跟踪器进行行人跟踪并标记。

为了适应多行人的步态识别，然后，对YOLOv3检测出来的行人目标进行跟踪。具体的，对每一个追踪的行人目标，记录其连续没有匹配的帧数a_k，一旦一个目标的检测结果与追踪结果正确关联之后，就将该参数设置为0。如果a_k超过了设置的最大阈值A_max，则认为对该目标的追踪过程已结束。对新目标出现的判断则是，如果某次检测结果中的某个目标始终无法与已经存在的追踪器进行关联，那么则认为可能出现了新目标。如果连续的3帧中潜在的新的追踪器对目标位置的预测结果都能够与检测结果正确关联，那么则确认是出现了新的运动目标；如果不能达到该要求，则认为是出现了“虚警”，需要删除该运动目标。对于视频中每个行人目标，完成目标追踪后，会显示相应的编号，如1,2,3,…,N。如需识别1号目标，则输入数字1。

更进一步地，本发明优选在实现目标跟踪的过程中采用下述手段进行目标跟踪：

首先，使用对已存在的运动目标的运动状态的卡尔曼预测结果与检测结果之间的马氏距离d⁽¹⁾(i，j)进行运行信息的关联。

d_h表示跟踪结果所在的矩形边框的状态(u¹,v¹,γ¹,h¹)，(u¹,v¹)是跟踪结果所在的矩形边框的中心坐标，γ¹是跟踪结果所在的矩形边框的长宽比，h¹表示跟踪结果所在的矩形边框的高度， y_i表示第i个追踪器对应运动目标的预测结果所在矩形边框的状态(u,v,γ,h)，(u,v)是运动目标的预测结果所在矩形边框的中心坐标，γ是运动目标的预测结果所在矩形边框的长宽比，h 是运动目标的预测结果所在矩形边框的高度。S_i表示d_h与y_i之间的协方差矩阵，利用d_h与y_i的状态值来计算。对于卡尔曼预测，规定8个参数来进行运动状态的描述，其中(u,v)是检测框(矩形边框)的中心坐标，γ是长宽比，h表示高度。其余四个变量表示对应的在图像坐标系中的速度信息。使用一个基于常量速度模型和线性观测模型的标准kalman滤波器进行目标运动状态的预测，预测的结果为(u,v,γ,h)。

其中，某次关联的马氏距离对应存在指定的阈值t⁽¹⁾，，本发明设置t⁽¹⁾＝9.4877。

由于当运动的不确定性很低的时候，上述的马氏距离匹配是一个合适的关联度量方法，但是在图像空间中使用卡尔曼滤波进行运动状态估计只是一个比较粗糙的预测。特别是相机存在运动时会使得马氏距离的关联方法失效，造成出现IDswitch的现象。

其次，针对每一个的检测块d_h通过CNN网络计算对应的128维外观特征向量r_h，限制条件是||r_j||＝1。然后对每一个追踪目标构建一个数据存储空间R_i，存储每一个追踪目标成功关联的最近100帧的特征向量。第二种度量方式就是计算第i个追踪器的最近100个成功关联的特征集与当前帧第j个检测结果的特征向量间的最小余弦距离d⁽²⁾(i，j)。计算公式为：

如果上面的距离小于指定的阈值，则函数的结果为1，表示关联成功。设置t⁽²⁾＝0.7。

c_i，h＝λd⁽¹⁾(i，j)+(1-λ)d⁽²⁾(i，j) (3)

为了提高跟踪的鲁棒性，最后，本文使用两种度量方式的线性加权距离c_i，h作为最终的度量，其中λ表示权重系数，取值为0到1。只有c_i，h位于两种度量阈值的交集内。本实施例中，即c_i，h＜0.7时，才认为实现了正确的关联，即实现了正确的跟踪。

最后，在选定识别目标后，将对应的检测边框的图片区域输入PGN人体语义分割网络得到行人轮廓图，输入AlphaPose人体姿态估计网络得到人体姿态图。

PGN人体语义分割网络将行人像素点作为前景(白色，单通道像素值为255)、将其余像素点作为背景(黑色，单通道像素值为0)，得到二值化步态图像，并将二值化步态图像作为下一步骤待处理的步态图像，二值化步态图像作为行人轮廓图。AlphaPose人体姿态估计网络能够定位图像或视频中人体关节，得到定位人体关节的人体姿态图。(也称为关键点-肘部，手腕等)的位置。

应当理解，在检测得到包含行人区域的目标检测框后，在目标检测框的基础上进行语义分割，相比于直接对全图进行语义分割和姿态估计，能够更为精细的得到行人的轮廓图和人体的姿态图。

步骤1.3：对所有分割出来的行人轮廓图和人体姿态图进行归一化处理。

关于行人轮廓图的归一化处理如下：

首先，为了获取人体高度，需要知道Ystart、Yend两个点的坐标，然后将两点y轴上的白色像素点的坐标值进行相减求绝对值即可求得人体高度。这两点的坐标可通过对图像进行扫描，判断白色像素点的值来得到。

然后，计算行人轮廓图的质心坐标。

根据图像矩的相关知识，图像质心坐标可用数学公式表示为：

其中，x_c，y_c分别代表质心坐标横轴和纵轴上的两个值，m，n代表横轴和纵轴上像素点的数量，f(i,j)为像素点(i,j)处的灰度值。但是本文是对二值化图像区域求取质心，因此，公式(4)可简化为以下形式：

式(5)中，x_c，y_c分别代表质心坐标横轴和纵轴上的两个值，x_i代表第i个白色像素点的坐标值，y_j代表第j个白色像素点的坐标值，n代表图1中白点个数，白点表示人体区域。

再者，基于质心坐标计算人体轮廓移动的偏移量。本发明用图片宽度1/2、高度1/4处的坐标与质心坐标的横纵坐标分别做差，求出横轴和纵轴的偏移量，之后利用求得的偏移量进行图片位置调整。最后将尺寸统一为100*100大小。如图2是归一化前和归一化后的效果图。

关于人体姿态图进行归一化处理如下：

考虑因为人离摄像头的距离不断变化而导致提取的骨架出现近大远小的现象，所以我们需要对人体骨架进行归一化。

首先，直接采用线性函数归一化方法(Min-MaxScaling,MMS)对人体骨架进行归一化，按照如下公式计算出第i帧骨架中第j个关节点归一化后的坐标

其中，令表示第i帧骨架中第j个关节点的坐标，其中(i＝1…N,j＝1…18)，min(f_x(i))表示第i帧骨架中各关节点横坐标的最小值，min(f_y(i))表示第i帧骨架中各关节点纵坐标的最小值，max(f_x(i))表示第i帧骨架中各关节点横坐标的最大值，max(f_y(i))表示第 i帧骨架中各关节点横坐标的最大值，/>表示第i帧骨架中第j个关节点归一化后的坐标， α表示归一化后横坐标放大的倍数，β表示归一化后纵坐标放大的倍数。

所述步骤2：提取静态外观信息和姿态信息进行模型训练，其具体处理过程如下：

步骤2.1：步态周期检测。

在进行步态信息的提取时，先进行步态周期的检测。步态周期的定义是，从任意某一侧足的足跟落地开始，到下一次该一侧足跟落地结束之间的连续过程。本发明对应到图片序列，就是指一个周期内有多少张图片，记为N_i。本文利用人体姿态图来计算步态周期。

设分别为第i帧左右脚踝的关节点坐标，定义左右脚踝的关节点横坐标差分距离为：

则的变化曲线具有周期性,如图5所示。应当理解，一个步态周期内会有三次两腿宽度达到最大值的时刻，因此在判断步态周期时，应该选取相邻两个极大值点间帧数的两倍作为一个步态周期内的帧数。对于现有的所有步态图片序列S_i，对应包括M_i张步态图像，且 M_i>N_i，因此有：每个步态序列S_i是包括若干个步态周期的连续图像序列。

步骤2.2提取静态外观信息和姿态信息。

静态信息的提取的具体过程如下：

将一个步态周期中的N_i张人体轮廓图片经过如图6所示的R(2+1)D结构的静态信息网络进行处理。

具体为：对每张图片单独做二维卷积，提取出每张图片中行人体态等外观信息。为了获取更加稳定的特征，利用一维的时间池化提取卷积后响应最高的特征得到一个步态周期对应的特征，记为F_A。

姿态信息的提取的具体过程如下：

首先，将一个步态周期内每帧图片对应的人体骨架图分成五个部分，即左手，右手，左脚，右脚，躯干；然后利用全连接层将每个部分转化成个体空间特征，利用一个残差图神经网络(RGNN)去建模身体关节点各部分之间的结构关系；最后将空间推理结构的各个节点的表示融合作为这一帧中人体的高层的空间结构特征。

其中，假设有k个节点与k个身体部件对应。本实施例中k＝5。对于时刻t，每个节点都有一个关系特征向量表示第k个部件与其他部件的空间结构关系。在使用RGNN之前，首先利用全连接层将每个身体部件的坐标向量映射为个体分部位特征e^k，具体地，将每个身体部件各个关节点的坐标融合成一个1x2n的坐标向量，n每个身体部件包含的关节点数，关节点的坐标为(x，y)，然后将坐标向量经过两层的全连接层生成1x64维的特征向量。之后初始化/>设/>表示节点k在时刻t接受到来自节点i的信息。i∈ {1，...，K}。/>表示节点k在时刻t从所有邻接节点Ω_vk接受到的信息。本文中的节点相互邻接，示意图如图7中残差图神经部分所示。

q_t＝f_r(r^t) (12)

其中：

Concat(.)：实现t时刻不同节点输出数据的拼接；

w_m：全连接层的权重；

：节点i在时刻t-1的状态，初始值设为0；

b_m：全连接层的偏置值

f_lstm(·)：LSTM的映射函数

q_t：t时刻高层的空间结构信息

f_r(.)：全连接网络的映射函数

利用空间网络推理结构的输出特征q_t计算速度特征v_t，即v_t＝q_t–q_t-1，其中q_t表示当前时刻的空间特征，q_t-1表示上一时刻的空间特征，v_t表示当前时刻的速度特征。

对于一个步态序列中的每个姿态图，都通过空间推理结构获得q_t，并利用v_t＝q_t–q_t-1获得对应的v_t。之后将q_t输入到空间特征的时序堆叠网络，将v_t输入到速度特征的时序堆叠网络，最后将两个时序堆叠网络的输出相加然后经过全连接层得到输出特征F_D。

步骤2.3：基于紧凑性双线性融合思想实现静态外观信息和姿态信息在特征层融合。

因为采用一般的线性融合方法，需要计算向量外积，使网络训练变得缓慢。为了解决这个问题，定义特征融合公式：

其中FFT(.)表示快速傅里叶变换，表示降维函数，F_A表示静态特征，F_D表示姿态特征。

步骤2.4：身份识别模型训练

本部分主要训练一个孪生网络。孪生网络的结构如图10所示。该网络的特点是其中输入层(inputlayer)和隐含层(hiddenlayer)部分有两条支路，这两条支路上的参数共享(或者也可以说这两个分支是同一部分，只不过被复用了)，之后的距离层表示这两个分支得出的特征(或者说其输入)的距离向量，再之后的节点则表示这两个特征的相似度(距离，相似概率等)。

随机选取两个步态序列对，如果来自同一个人，则标记为1，如果来自不同的行人则标记为0。将步态序列对中对应的人体二值图像和人体骨架分别经过步骤2中2)，3)，4)所描述的网络模块中。将两个步态序列的特征分别经过全连接网络进行特征的进一步提取，然后利用对比损失函数进行网络训练。

f(F_c,i)表示步态序列对中的其中一个步态序列i的融合特征F_c,i经过全连接层后的特征，即实施例中模型特征时融合特征经过全连接层后的输出特征。f(F_c,j)表示步态序列对中的另一个步态序列j的融合特征F_c,j经过全连接层后的特征，θ_ij表示匹配标签，两个步态序列来自同一个人时，θ_ij＝1，否则为0。L(F_c,i,F_c,j,θ_ij)为损失值，训练的目的是，当两个步态序列的身份标签相同时，该值尽可能小，当两个步态序列的身份标签不同时，该值尽可能大。m为设定的阈值，本方法中m＝10。m值可以根据实际情况设置。该值得设定是为了实现损失统一向最小值方向优化。网络通过反向传播算法逐层向前传播损失，利用梯度下降等优化方法修改网络结构中的权重参数值和偏置参数值，使网络最终收敛到一个最优状态，此时的网络模型就能够用作身份识别模型，来进行类似未知样本的身份验证。

所述步骤3的具体过程描述如下：

步骤3.1：获取待识别个体的行走视频，按步骤1中所述详细步骤对待识别个体的行走视频进行处理。

步骤3.2：按步骤2.1中对步态序列进行步态周期检测，确定一个周期内的图片帧数N。其中，待识别个体的行走视频的帧率，要求与获取步态图片序列训练样本时拍摄的行走视频的帧率保持一致，且识别个体的行走速度也需控制在一定范围内，从而保证待识别个体的步态周期与训练孪生网络时的步态周期之间的差距较小，提高身份识别模型的识别率。

步骤3.3：将待识别个体的步态图片序列与事先存储的所有个人行走的步态序列组成一个步态序列对输入步骤2.4训练好的身份识别网络模型中。网络计算最后输出特征的欧氏距离 ||f(F_c,i)-f(F_c,j)||₂，然后可以对这些距离进行升序排列从而得到Top-K排序。选取距离最小的作为最终的识别结果。具体地，数据库中事先存储了编号从1到100的100个行人的步态视频。我们现在采集了一个待验证行人的步态视频。我们按前面所述的步骤进行处理，最后得出待验证视频与所存储的步态视频的所有距离值，选出最小的距离值。比如待验证的视频与1号的欧氏距离最小，则待验证识别中的人物身份则识别为1号行人。此外，我们设定了一个欧式距离的阈值T，该值可按实际情况调整。实验中，该值设为5。计算出的所有欧式距离值均大于此值，说明此人不在数据库里，则标记为可疑人物，提醒相关人员确认其身份。

需要强调的是，本发明所述的实例是说明性的，而不是限定性的，因此本发明不限于具体实施方式中所述的实例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，不脱离本发明宗旨和范围的，不论是修改还是替换，同样属于本发明的保护范围。

Claims

1.一种基于姿态指导的步态识别方法，其特征在于，包括如下步骤：

S5：将待识别个体的行走视频进行所述预处理得到步态图片序列并输入至步态识别模型，再基于待识别个体与数据库中行人的特征远近关系识别数据库中是否存在所述待识别个体，所述数据库中预先存储了行人的行走视频；

步骤S3中融合特征的融合公式如下：

式中，F_C为融合特征，FFT(.)表示快速傅里叶变换，表示降维函数，F_A表示静态特征，F_D表示姿态特征；

步骤S1中得到人体姿态序列图和行人轮廓图的过程是对步态图片序列中的行人进行目标跟踪再进行姿态和轮廓提取，其中，目标跟踪如下：

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)

式中，c_i,j表示第i个追踪器对应的运动目标与跟踪结果的线性加权距离，若线性加权距离小于预设阈值，则表示跟踪结果与运动目标是相匹配，否则，不匹配；

λ表示权重系数，d⁽¹⁾(i,j)表示运动目标在运动状态的卡尔曼预测结果与跟踪结果之间的马氏距离，d⁽²⁾(i,j)表示运动目标最近N个成功关联的特征向量集与跟踪结果的特征向量r_j之间的最小余弦距离；

其中，d_j表示跟踪结果所在的矩形边框的状态(u¹,v¹,γ¹,h¹)，(u¹,v¹)是跟踪结果所在的矩形边框的中心坐标，γ¹是跟踪结果所在的矩形边框的长宽比，h¹表示跟踪结果所在的矩形边框的高度，y_i表示第i个追踪器对应运动目标的预测结果所在矩形边框的状态(u,v,γ,h)，(u,v)是运动目标的预测结果所在矩形边框的中心坐标，γ是运动目标的预测结果所在矩形边框的长宽比，h是运动目标的预测结果所在矩形边框的高度；S_i表示d_j与y_i之间的协方差矩阵，R_i为运动目标的数据存储空间；

步骤S4中步态识别模型的训练过程是基于对比损失函数进行网络训练，所述对比损失函数如下：

式中，L(F_c,i,F_c,j,θ_ij)为损失值，f(F_c,i)表示基于随机选取的两个步态图片序列中的一个步态图片序列i的融合特征F_c,i得到的模型特征，f(F_c,j)表示基于随机选取的两个步态图片序列对中另一个步态图片序列j的融合特征F_c,j得到的模型特征，θ_ij表示匹配标签，两个步态图片序列为同一行人时，θ_ij为1，否则θ_ij为0；F_C为融合特征；

训练原则为：当两个步态图片序列为同一行人时，L(F_c,i,F_c,j,θ_ij)值趋近于0，当两个步态图片序列不为同一行人时的L(F_c,i,F_c,j,θ_ij)值趋近于m值。

2.根据权利要求1所述的方法，其特征在于：步骤S1中对步态图片序列并进行预处理得到人体姿态序列图和行人轮廓图的过程如下：

最后，根据行人标记选定识别目标，并将对应的矩形边框内的图片区域分别输入至PGN人体语义分割网络和AlphaPose人体姿态估计网络得到行人轮廓图、人体姿态序列图。

3.根据权利要求1所述的方法，其特征在于：步骤S2之前还包括对行人轮廓图进行归一化处理，过程如下：

首先，计算行人轮廓图的质心坐标；

式中，x_c，y_c分别代表质心坐标横轴和纵轴上的值，x_i代表第i个白色像素点的坐标值，y_j代表第j个白色像素点的坐标值，n代表白点个数，白点表示人体区域；

然后，基于质心坐标计算人体轮廓移动的偏移量；

最后，基于偏移量进行图片位置调整。

4.根据权利要求1所述的方法，其特征在于：步骤S2之前还包括采用线性函数对人体姿态序列图进行归一化处理，其中，按照如下公式计算人体姿态序列图中第i帧骨架中第j个关节点归一化后的坐标

令表示第i帧骨架中第j个关节点的坐标，其中(i＝1…N，j＝1…18)，min(f_x(i))表示第i帧骨架中各关节点横坐标的最小值，min(f_y(i))表示第i帧骨架中各关节点纵坐标的最小值，max(f_x(i))表示第i帧骨架中各关节点横坐标的最大值，max(f_y(i))表示第i帧骨架中各关节点横坐标的最大值，α表示归一化后横坐标放大的倍数，β表示归一化后纵坐标放大的倍数。

5.根据权利要求1所述的方法，其特征在于：步骤S5中基于待识别个体与数据库中行人的特征远近关系识别数据库中是否存在所述待识别个体的过程如下：

按照如下公式分别获取待识别个体与数据库中每个行人的特征欧式距离，所述特征欧式距离按照如下公式计算：

||f(F_c,i)-f(F_c,j)||₂

式中，f(Fc,i)表示基于待识别个体的一个步态图片序列i的融合特征Fc,i得到的模型特征，f(Fc,j)表示基于数据库中一个行人的步态图片序列j的融合特征Fc,j得到的模型特征，F_C为融合特征；

然后，判断最小的特征欧式距离是否大于预设欧式距离阈值，若是，则数据库中没有所述待识别个体；否则，所述待识别个体为最小的特征欧式距离对应在数据库中的行人。

6.根据权利要求1所述的方法，其特征在于：所述步态周期等于相邻两个极大值点之间帧数的两倍，其中，极大值点为左右脚踝的关节点横坐标差分距离的极大值；

式中，分别为第i帧左右脚踝的关节点坐标。

7.根据权利要求1所述的方法，其特征在于：利用时序堆叠网络得到姿态特征的过程如下：