CN110555463B

CN110555463B - 一种基于步态特征的身份识别方法

Info

Publication number: CN110555463B
Application number: CN201910718693.0A
Authority: CN
Inventors: 刘家佳; 张海宾; 李坤林; 郭鸿志; 孙文; 谭欢; 文博
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2022-05-03
Anticipated expiration: 2039-08-05
Also published as: CN110555463A

Abstract

本发明公开了一种基于步态特征的身份识别方法，包括以下步骤：步骤1，采集数据；步骤2，基于互信息模型对数据去冗余；步骤3，使用PCA模型对训练数据集进行降维；步骤4，训练SVDD模型；步骤5，训练集成神经网络；步骤6，在完成SVDD模型与集成神经网络模型的构建后，使用这两个模型组成联合模型来对用户身份进行精确的判断。本发明采用智能手机采集数据，避免了额外使用传感器采集数据的需求，数据采集过程更方便，成本也更低。

Description

一种基于步态特征的身份识别方法

技术领域

本发明属于身份识别技术领域，特别涉及一种基于步态特征的身份识别方法。

背景技术

研究表明，每个人在行走时的步态特征都是独一无二的，可以用来进行身份信息的识别。步态识别是近些年发展出的基于步态特征的身份识别方法，相较于传统的身份识别方法，更加灵活、智能和安全。现有步态识别方法，主要分为基于视觉图像和基于可穿戴物联网设备来进行身份识别。基于视觉图像的步态识别方法主要通过摄像机来获取人走路时的图像，提取其中的步态特征并通过人工智能算法来实现身份认证，但这种步态识别方法所需的数据采集设备笨重且成本高，数据采集过程易受环境的干扰。基于可穿戴物联网设备通过采集人体不同部位在运动时的速度和加速度数据，提取其中的步态特征来进行身份识别。基于可穿戴物联网设备的步态识别方法因为成本低、数据采集简单、应用范围广的特点，日益得到重视。现有的基于可穿戴物联网设备的步态识别技术，需要专门的传感器设备来采集数据，这给使用者带来了额外的开销。此外，现有的步态识别技术仅仅使用朴素贝叶斯模型、KNN模型等简单模型来对步态特征进行处理，缺乏在无监督环境下对异常用户的识别方法；同时在多个合法用户需要识别的场景下，现有技术存在识别准确率较低的缺点。

发明内容

本发明的目的在于提供一种基于步态特征的身份识别方法，以解决上述问题。

为实现上述目的，本发明采用以下技术方案：

一种基于步态特征的身份识别方法，包括以下步骤：

步骤1，采用智能设备采集人走路时大腿的速度和加速度数据，对采集到的数据进行预处理，选取加速度数据的最大值、最小值、平均值和标准差作为与用户身份相关的特征属性；

步骤2，对步骤1中采集到的属性，基于互信息模型对数据去冗余，确定属性的依赖系数值，设定阈值，如果属性的依赖系数值小于阈值，则认为是冗余属性；

步骤3，在步骤2使用互信息模型去除数据集中的一些冗余特征后，使用PCA模型对训练数据集进行降维，生成一组新的维度较低的训练样本数据；

步骤4，训练SVDD模型：通过SVDD模型学习算法找到一个超球面，该超球面将训练数据紧密地封装在球面D中；

步骤5，训练集成神经网络：使用不同的训练样本训练多个神经网络分类器，然后使用Adaboost算法来完成集成神经网络模型的训练；Adaboost算法用于完成对集成模型权重的学习；

步骤6，在完成SVDD模型与集成神经网络模型的构建后，使用这两个模型组成联合模型来对用户身份进行精确的判断。

进一步的，步骤1中具体包括：

1)使用智能手机采集人走路时大腿的速度和加速度数据；

2)对步骤1.1所采集到的数据进行预处理，选取13个属性来进行下一步的处理,分别是x,y,z轴方向上加速度数据的最大值a_xMax,a_yMax,a_zMax；加速度数据的最小值a_xMin,a_yMin,a_zMin；加速度的平均值a_xAvg,a_yAvg,a_zAvg；加速度数据的标准差a_xSd，a_ySd,a_zSd；以及速度v；其中，a_xAvg和a_xSd通过以下两个公式得到：

其他类似属性也以同样的方式得到结果。

进一步的，步骤2中具体包括：通过依次计算用户属性与加速度相关的12个特征属性之间的依赖系数，选择与用户属性高度相关的特征，并根据依赖系数去除训练数据中的冗余属性，得到依赖系数值在0.1处会出现断层，设定阈值为0.1；如果属性的依赖系数小于阈值，则认为是冗余属性；通过特征选择，保留7个特征属性：在x,y,z轴方向上的加速度最大值a_xMax,a_yMax,a_zMax；在x轴方向上的加速度平均值a_xAvg；在y轴方向上的加速度最小值a_yMin；在y，z轴方向上的加速度标准差a_ySd,a_zSd。

进一步的，步骤3中具体包括：在使用PCA模型对训练样本集进行降维时，需使用样本中的部分数据生成主成分矩阵，通过将原数据集组成的矩阵与主成分矩阵相乘便得到降维矩阵；

首先从原始数据集中抽取n条数据，假设这些数据在降维前具有m个与加速度相关的属性，那么使用这些数据便组成一个n行m列的矩阵；该矩阵可以表示为X＝{x_ij|0≤i<n,0≤j<m}；主成分矩阵求解步骤如下所示：

步骤一：计算数据集中每列数据的平均值：

步骤二：对所有样本进行中心化；即每一列的数据减去该列上数据的均值，使得每一列的均值均为0；

步骤三：计算样本的协方差矩阵X′；第i列与第j列数据的协方差为cov(i,j)，根据协方差矩阵计算公式可得

cov(i,j)由以下公式得到

步骤四：求协方差矩阵X′的特征值(λ₁,…,λ_m)以及各个特征值对应的特征向量(w₁,…,w_m)；

步骤五：选取最大的m′个特征值对应的特征向量，并将这些特征向量依次排列，组成主成分矩阵W^*＝(w₁,w₂,…,w_m′)；m′与设定的阈值有关，选择满足以下公式的最小m′值：

δ设定为0.95；

步骤六：计算降维后的主成分矩阵W₂＝W₁*W^*，W₁是降维前的矩阵；计算出降维后的主成分矩阵后，对训练集数据进行降维，构成最终的训练数据集。

进一步的，步骤4中具体包括：SVDD模型学习算法用于找到一个超球面，该超球面将训练数据紧密地封装在D＝{x_i|1≤i≤n}中；为此，分别用R和O表示将所有样本包起来的球面D的半径和坐标，由解决SVDD模型学习算法的任务得到，该学习算法的任务如下：

其中C是惩罚因子,C越大，超球面外的样本就越少；a_i是拉格朗日乘子，K(·)代表了核函数；这里用到的核函数是RBF核函数，

通过在训练集数据中解决上述凸优化问题，计算得到球面坐标矢量o和球面半径R，然后利用判别函数对异常样本进行检测：

f(x)＝sgn(R²-||x-o||²)

如果函数值大于0，则判定该样本为正常，否则为异常样本；完成了SVDD模型的训练后，将待检测数据输入到构建的模型中，并结合训练集中的数据，通过计算离群概率粗略判断用户是否在比较库中。

进一步的，步骤5中具体包括：

步骤5.1，对多个神经网络分类器进行训练；先构建神经网络模型，神经网络模型由输入层，输出层和隐藏层组成；输入层神经元的个数表示为m，其大小取决于降维后数据集中属性特征的个数；输出层神经元的个数表示为n，其大小与训练集中用户的个数N有关：

隐藏层神经元的个数表示为l，由Kolmogorov经验公式来确定：

其中c为一个常量，它的值所在区间为[1,10]，取c的值为2；神经网络模型的激活函数采用sigmoid(x)函数：

步骤5.2，集成模型权重学习；在多个神经网络分类器训练完毕后，需要根据每个弱分类器的权重来构建集成神经网络模型，形成一个分类精度较高的强分类器；使用Adaboost算法完成对集成模型权重的学习，具体步骤如下：

a：从训练数据中提取n组样本构成训练集D，并初始化其中数据的权重分布；D中的每个数据在开始时都分配了相同的权值1/n；

b：然后选取分类误差率最小的分类器

并对该分类器的权值进行训练；如果某些训练数据被

分类器准确分类，那么这些数据的权重将会被降低；相反，如果某个训练样本点被错误的分类，那么这些数据的权重就应该增大；根据错误数据权重的大小来更新数据与分类器

的权重；

c：最后将各个弱分类器按照训练得到的权重进行组合，从而得到一个强分类器；利用这个强分类器对样本进行分类，判断集成模型的错误率是否达到了最小点，如果继续迭代时错误率会上升，那么停止迭代，反之则继续迭代；

在完成对集成模型中各个神经网络分类器的权重训练后，使用构建好的集成模型来对合法用户的身份进行一个初步的分类，从而判定其在比对库中的身份标签；集成神经网络模型每次对用户身份的判定都相当于在模型内部进行一次带加权投票表决，使用一个数组vote[N]来统计比对库中N个合法用户中每个用户的得票数目；集成模型内部在某个权重为α的神经网络分类器判定待检测用户为比对库中标签为y_i的用户时，更新该用户的得票数：

vote[i]＝vote[i]+α

在使用集成模型内多个神经网络分类器投票表决结束后，选择出数组vote的最大值vote[i]，那么i便为待检测用户在比对库中的身份标签。

进一步的，步骤6中具体包括：

在进行识别时选取3组数据输入至联合模型中进行判别；待检测用户的三组数据为d₁,d₂,d₃，分为两个决策机制：

决策机制1主要使用SVDD模型在无监督环境下对异常用户进行识别；将3组数据输入到训练好的SVDD模型中,使用π₁(d_i)代表SVDD模型对于d_i组数据的识别结果；SVDD模型的决策结果π₁(d_i)将输入数据分为异常数据和正常数据；如果有两组或两组以上输入数据被确定为异常数据，则待检测用户被SVDD模型识别为非法用户；

决策机制2主要使用集成神经网络模型来识别未被SVDD模型识别的非法用户和在合法用户在比较库中的身份标签；使用π₂(d_i)表示集成神经网络的决策结果,并用Ω表示决策机制2的最终结果；Ω由π₂(d_i)的多数派来决定；但是当三组输入数据的决策结果不同时，Ω＝-1；当Ω取值为-1时，联合模型判定该用户是非法用户；当Ω取值在0到N-1时，联合模型判定该用户的身份标签为Ω。

与现有技术相比，本发明有以下技术效果：

本发明提供了一种基于步态特征的身份识别方法，通过智能手机采集用户在运动时的速度和加速度数据，在经过互信息模型和PCA模型对数据处理后，构建并训练一个SVDD模型与集成神经网络模型的联合模型来对用户进行身份识别。本发明的优点在于：

第一：本发明采用智能手机采集数据，避免了额外使用传感器采集数据的需求，数据采集过程更方便，成本也更低；

第二：本发明使用互信息模型对采集到的数据去冗余，同时使用PCA模型对数据进行降维，在保留了数据中步态特征的同时，降低了模型训练的复杂度和计算量；

第三：本发明使用SVDD模型与集成神经网络模型的联合模型来进行身份识别，SVDD模型实现了无监督环境下的异常用户识别，相较于现有技术，识别准确率更高；集成神经网络模型实现了对多个合法用户的识别，相较于现有技术，识别准确率，应用范围更广。

附图说明

图1为本发明实例中基于步态特征的身份识别方法流程步骤图。

图2为本发明实例中联合模型的身份识别流程图。

具体实施方式

以下结合附图对本发明进一步说明：

步骤1，采集数据。

步骤1.1，使用智能手机采集人走路时大腿的速度和加速度数据。现有的技术都是利用专门的速度、加速度、压力传感器来采集人运动时的步态数据，这给用户带来了额外的开销。本发明利用智能手机内部的三轴加速度传感器来采集x,y,z轴方向的加速度数据，智能手机内部的GPS速度传感器来采集人运动时的速度数据。相较于现有技术，本发明的数据采集过程更为简单，成本更低。因为三轴加速度传感器和GPS速度传感器采样频率不同，在一秒内采集到一组速度数据时，需要采集多组加速度数据。假设一秒钟内收集了k个加速度数据{a1，···，ak}，需要从这些加速度数据中提取与最终训练数据中速度数据对应的相关特征。

步骤1.2，对步骤1.1所采集到的数据进行预处理，选取加速度数据的最大值、最小值、平均值和标准差作为与用户身份相关的特征属性。在获取加速度数据和速度数据后，为了更好的提取步态特征，我们选取13个属性来进行下一步的处理,分别是x,y,z轴方向上加速度数据的最大值a_xMax,a_yMax,a_zMax；加速度数据的最小值a_xMin,a_yMin,a_zMin；加速度的平均值a_xAvg,a_yAvg,a_zAvg；加速度数据的标准差a_xSd，a_ySd,a_zSd；以及速度v。其中，a_xAvg和a_xSd通过以下两个公式得到：

其他类似属性也以同样的方式得到结果。

步骤2，基于互信息模型对数据去冗余。

经步骤1采集后的原始数据中有13个属性，会产生相当规模的数据冗余。冗余属性的存在降低了分类模型的效率和准确性，不利于身份识别，因此需要使用互信息模型去除冗余属性。互信息是信息论中的一个基本概念，该方法被用来评估任意两个变量之间的相互依赖关系。我们通过依次计算用户属性与加速度相关的12个特征属性之间的依赖系数，选择与用户属性高度相关的特征，并根据依赖系数去除训练数据中的冗余属性。实验表明，依赖系数值在0.1处会出现断层，因此我们设定阈值为0.1；如果属性的依赖系数小于阈值，则认为是冗余属性。通过特征选择,我们保留7个特征属性：在x,y,z轴方向上的加速度最大值a_xMax,a_yMax,a_zMax；在x轴方向上的加速度平均值a_xAvg；在y轴方向上的加速度最小值a_yMin；在y，z轴方向上的加速度标准差a_ySd,a_zSd。

步骤3，PCA模型对数据降维。

在步骤2使用互信息模型去除数据集中的一些冗余特征后，数据集的维度仍然较高。高维度的数据集会严重影响模型的训练，提高模型训练的复杂度，造成一定的维度灾难。所以需要对使用PCA模型对训练数据集进行降维，生成一组新的维度较低的训练样本数据，从而对模型的训练数据样本做进一步的优化。在使用PCA模型对训练样本集进行降维时，需使用样本中的部分数据生成主成分矩阵，通过将原数据集组成的矩阵与主成分矩阵相乘便得到降维矩阵。

为了生成主成分矩阵，首先从原始数据集中抽取n条数据。假设这些数据在降维前具有m个与加速度相关的属性，那么我们使用这些数据便组成一个n行m列的矩阵。该矩阵可以表示为X＝{x_ij|0≤i<n,0≤j<m}。主成分矩阵求解步骤如下所示：

步骤一：计算数据集中每列数据的平均值：

cov(i,j)由以下公式得到

δ设定为0.95；

步骤六：计算降维后的主成分矩阵W₂＝W₁*W^*，W₁是降维前的矩阵；计算出降维后的主成分矩阵后，我们对训练集数据进行降维，构成最终的训练数据集。最终的训练集消除了不少冗余属性，并且维度低，采样密度大，为构建一个精准的用户身份识别模型提供了数据保障。

步骤4，训练SVDD模型。

SVDD模型学习算法的主要任务是找到一个超球面，该超球面将训练数据紧密地封装在D＝{x_i|1≤i≤n}中。为此，我们分别用R和o表示将所有样本包起来的球面D的半径和坐标，由解决SVDD模型学习算法的任务得到，该学习算法的任务如下：

f(x)＝sgn(R²-||x-o||²)

步骤5，训练集成神经网络。

在使用SVDD模型进行粗略判断后，需要用一种精确的分类模型来判断待检测用户的身份，从而识别出其在比对库中的身份标签。常用的分类模型有决策树，神经网络，SVM模型。利用传统办法训练这些模型时使用训练样本单一，这样训练出来的分类器容易出现过拟合，为了提高分类模型的准确性，本发明使用集成神经模型来进行用户身份识别。在使用集成分类模型时，我们首先要使用不同的训练样本训练多个神经网络分类器，然后使用Adaboost算法来完成集成神经网络模型的训练。

隐藏层神经元的个数表示为l，由Kolmogorov经验公式来确定：

b：然后选取分类误差率最小的分类器

并对该分类器的权值进行训练；如果某些训练数据被

的权重；

vote[i]＝vote[i]+α

步骤6，使用联合模型进行身份识别。

在完成SVDD模型与集成神经网络模型的构建后，使用这两个模型组成联合模型来对用户身份进行精确的判断。为了减少误判率，更加精确的判断用户身份，我们每次在进行识别时选取3组数据输入至联合模型中进行判别。待检测用户的三组数据为d₁,d₂,d₃，使用联合模型识别待检测用户身份的过程如图2所示。

决策机制1主要使用SVDD模型在无监督环境下对异常用户进行识别。将3组数据输入到训练好的SVDD模型中,我们使用π₁(d_i)代表SVDD模型对于d_i组数据的识别结果。SVDD模型的决策结果π₁(d_i)将输入数据分为异常数据和正常数据。如果有两组或两组以上输入数据被确定为异常数据，则待检测用户被SVDD模型识别为非法用户。

决策机制2主要使用集成神经网络模型来识别未被SVDD模型识别的非法用户和在合法用户在比较库中的身份标签。我们使用π₂(d_i)表示集成神经网络的决策结果(对于N个用户，取值0,1,2,…,N-1),并用Ω表示决策机制2的最终结果。Ω由π₂(d_i)的多数派来决定；但是当三组输入数据的决策结果不同时，Ω＝-1。当Ω取值为-1时，联合模型判定该用户是非法用户。当Ω取值在0到N-1时，联合模型判定该用户的身份标签为Ω。

本发明在识别比较库中多个合法用户身份场景上，相较于现有技术，有着更好的性能。我们选用了10名用户来进行实验，其中8名用户作为合法用户，2名作为非法用户。对于无监督环境下的异常身份识别，作为对比，我们选择了局部离群因子(LOF)模型，该模型也可以通过诊断对比数据库中离群因子对应的数据来进行非法用户识别。为了评价两种方案的比较性能，我们首先从测试样本中选择120个合法用户数据和120个非法用户数据，然后将这些数据输入到由SVDD模型和集成神经网络模型组成的联合模型中以及LOF模型中分别识别是否为合法用户。两种方案每次使用3个数据进行识别，总共执行80次。为了评价识别性能，我们采用了识别精度A_c、误报率F_A和漏报率M_A三个指标。联合模型与LOF模型的性能对比如下表1所示：

表1

模型	A<sub>c</sub>	F<sub>A</sub>	M<sub>A</sub>
				联合模型	0.925	0.05	0.1
LOF模型	0.813	0.2	0.175

由SVDD模型和集成神经网络模型组成的联合模型比LOF模型具有更高的精度、更低的误报率和更低的漏报率。

对于多个合法用户的身份识别场景，我们将每个合法用户对应的90条数据输入到集成神经网络模型中，对实验结果进行评估。因为用户数据中的噪声数据的干扰，我们依据决策机制2中的实验流程，采用三组数据作为一个识别单元；集成模型对每个用户的3条数据进行一次识别，对每个合法用户分别给出30个识别结果，以降低噪声数据的干扰，进一步提高识别精度，实验结果如下表2所示：

表2

。

Claims

1.一种基于步态特征的身份识别方法，其特征在于，包括以下步骤：

步骤6，在完成SVDD模型与集成神经网络模型的构建后，使用这两个模型组成联合模型来对用户身份进行精确的判断；

步骤6中具体包括：

在进行识别时选取3组数据输入至联合模型中进行判别；待检测用户的三组数据为d₁，d₂，d₃，分为两个决策机制：

决策机制1使用SVDD模型在无监督环境下对异常用户进行识别；将3组数据输入到训练好的SVDD模型中，使用π₁(d_i)代表SVDD模型对于d_i组数据的识别结果；SVDD模型的决策结果π₁(d_i)将输入数据分为异常数据和正常数据；如果有两组或两组以上输入数据被确定为异常数据，则待检测用户被SVDD模型识别为非法用户；

决策机制2使用集成神经网络模型来识别未被SVDD模型识别的非法用户和合法用户在比较库中的身份标签；使用π₂(d_i)表示集成神经网络的决策结果，并用Ω表示决策机制2的最终结果；Ω由π₂(d_i)的多数派来决定；但是当三组输入数据的决策结果不同时，Ω＝-1；当Ω取值为-1时，联合模型判定该用户是非法用户；当Ω取值在0到N-1时，联合模型判定该用户的身份标签为Ω；N为训练集中用户的个数。

2.根据权利要求1所述的一种基于步态特征的身份识别方法，其特征在于，步骤1中具体包括：

1)使用智能手机采集人走路时大腿的速度和加速度数据；

2)对步骤1.1所采集到的数据进行预处理，选取13个属性来进行下一步的处理，分别是x，y，z轴方向上加速度数据的最大值a_xMax，a_yMax，a_zMax；加速度数据的最小值a_xMin，a_yMin，a_zMin；加速度的平均值a_xAvg，a_yAvg，a_zAvg；加速度数据的标准差a_xSd，a_ySd，a_zSd；以及速度v；其中，a_xAvg和a_xSd通过以下两个公式得到：

其他类似属性也以同样的方式得到结果。

3.根据权利要求2所述的一种基于步态特征的身份识别方法，其特征在于，步骤2中具体包括：通过依次计算用户属性与加速度相关的12个特征属性之间的依赖系数，选择与用户属性高度相关的特征，并根据依赖系数去除训练数据中的冗余属性，得到依赖系数值在0.1处会出现断层，设定阈值为0.1；如果属性的依赖系数小于阈值，则认为是冗余属性；通过特征选择，保留7个特征属性：在x，y，z轴方向上的加速度最大值a_xMax，a_yMax，a_zMax；在x轴方向上的加速度平均值a_xAvg；在y轴方向上的加速度最小值a_yMin；在y，z轴方向上的加速度标准差a_ySd，a_zSd。

4.根据权利要求1所述的一种基于步态特征的身份识别方法，其特征在于，步骤3中具体包括：在使用PCA模型对训练样本集进行降维时，需使用样本中的部分数据生成主成分矩阵，通过将原数据集组成的矩阵与主成分矩阵相乘便得到降维矩阵；

首先从原始数据集中抽取n条数据，假设这些数据在降维前具有m个与加速度相关的属性，那么使用这些数据便组成一个n行m列的矩阵；该矩阵可以表示为x＝{x_ij|0≤i＜n，0≤j＜m}；主成分矩阵求解步骤如下所示：

步骤一：计算数据集中每列数据的平均值：

步骤三：计算样本的协方差矩阵X′；第i列与第j列数据的协方差为cov(i，j)，根据协方差矩阵计算公式可得

cov(i,j)由以下公式得到

步骤四：求协方差矩阵X′的特征值(λ₁，…，λ_m)以及各个特征值对应的特征向量(w₁，…，w_m)；

步骤五：选取最大的m′个特征值对应的特征向量，并将这些特征向量依次排列，组成主成分矩阵W^*＝(w₁，w₂，...，w_m′)；m′与设定的阈值有关，选择满足以下公式的最小m′值：

δ设定为0.95；

5.根据权利要求1所述的一种基于步态特征的身份识别方法，其特征在于，步骤4中具体包括：SVDD模型学习算法用于找到一个超球面，该超球面将训练数据紧密地封装在D＝{x_i|1≤i≤n}中；为此，分别用R和0表示将所有样本包起来的球面D的半径和坐标，由解决SVDD模型学习算法的任务得到，该学习算法的任务如下：

其中C是惩罚因子，C越大，超球面外的样本就越少；a_i是拉格朗日乘子，K(·)代表了核函数；这里用到的核函数是RBF核函数，

f(x)＝sgn(R²-||x-o||²)

6.根据权利要求1所述的一种基于步态特征的身份识别方法，其特征在于，步骤5中具体包括：

隐藏层神经元的个数表示为l，由Kolmogorov经验公式来确定：

其中c为一个常量，它的值所在区间为[1，10]，取c的值为2；神经网络模型的激活函数采用sigmoid(x)函数：

步骤5.2，集成模型权重学习；在多个神经网络分类器训练完毕后，需要根据每个弱分类器的权重来构建集成神经网络模型，形成一个分类精度较高的强分类器；使用Adabo ost算法完成对集成模型权重的学习，具体步骤如下：

b：然后选取分类误差率最小的分类器

并对该分类器的权值进行训练；如果某些训练数据被

的权重；

vote[i]＝vote[i]+α