CN114783054B

CN114783054B - 一种基于无线和视频特征融合的步态识别方法

Info

Publication number: CN114783054B
Application number: CN202210300680.3A
Authority: CN
Inventors: 韩枫; 郭竞; 梁颖; 刘征奇; 梁伟; 朱文娟; 张添祥; 许鹏飞
Original assignee: NORTHWEST UNIVERSITY
Current assignee: NORTHWEST UNIVERSITY
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2024-03-26
Anticipated expiration: 2042-03-24
Also published as: CN114783054A

Abstract

本发明公开了一种基于的无线和视频特征融合的步态识别方法，该方法包括：使用视频采集设备获取行人步态识别视频数据，对视频帧利用分割网络获得高质量的行人轮廓图序列，对轮廓图进行标准化裁剪操作处理成统一格式，然后使用基于时间空间的深度神经网络获取行人的视频特征；使用普通商用无线信号设备，一端发送物理层信道状态信息CSI数据，另外一端接收，对CSI数据进行去噪以及归一化预处理，用多尺度卷积神经网络对预处理之后的CSI数据进行行人的无线特征提取；最后将提取到的无线和视频的特征进行融合，进行身份预测。该方法结合了无线和视频两个模态的数据进行步态识别，相对于现有的相关技术，具有更好的鲁棒性，更加适合多变的复杂场景。

Description

一种基于无线和视频特征融合的步态识别方法

技术领域

本发明属于计算机应用技术领域，涉及模式识别、图像和信号处理以及深度学习方法，具体涉及一种基于无线和视频特征融合的步态识别方法。

背景技术

近年来，身份识别被应用到越来越多的场景，而传统的身份识别技术，比如人脸识别，虹膜识别，指纹识别等识别方式因其限制性和隐私安全性等原因远远不能满足实际的需要。步态作为一种独特的行为生物特征，因其容易识别，难以伪装，更少的侵入性限制条件等优势，被人们广泛关注，已经应用于安防，犯罪调查等多个领域。相对于其他的生物识别技术，步态识别在未来具有更大的发展潜力。

目前已经有多种技术及方法可以进行步态识别。大多数方法是基于摄像头，红外传感器，可穿戴设备以及无线设备。最常用的方法就是利用高清摄像头，高清摄像头录制的视频中包含一个人行走时的多个步态周期。但是视频步态识别依赖于高清摄像头采集的数据质量，存在一些难以避免的问题，诸如，光照条件差则采集到的视频质量差，障碍物遮挡则无法获取行人的完整轮廓以及完整的步态周期，以及不同角度下采集到的行人视频差异较大等。这些因素都极大的影响了识别准确率和方法的实用性。随着近年来无线感知领域的发展，利用无线信号进行步态识别也逐步成为了可能。另外无线设备应用广泛，价格比较低廉，实际环境中部署也很简单。目前无线设备已在家居，办公场所，以及公共场合普遍使用，因此无线信号的覆盖范围相当广泛。这些条件使得无线信号的实际获取更加容易，更加现实。但是基于无线信号的步态识别也有自己的缺陷，无线信号对外界环境比较敏感，无线设备过热，外界温度变化幅度较大，这些因素都会导致无线设备收集到的信号丢失或者不稳定，从而最终影响无线步态识别的识别精度。因此，现有的步态识别方法无论哪一种步态识别技术都有自己的受限条件。

在此背景下，运用信号处理，图像处理以及深度学习等领域的相关理论知识，研发一种基于无线和视频特征融合的步态识别方法具有十分现实的意义。

发明内容

基于现有的步态识别方法中只关注单模态分析的不足，本发明的目的在于，提供一种基于无线和视频特征融合的步态识别方法，该方法尝试探索利用深度神经网络同时对无线和视频两种模态下采集的数据进行预处理，特征提取，并接着进行特征融合操作，来解决单模态下因多变的环境等因素造成的噪声过大，步态身份信息缺失，最终导致识别准确率低下等问题，进一步提高步态识别方法的准确率，从而验证使用无线和视频数据进行多模步态识别的有效性。

为了实现上述任务，本发明采取如下的技术解决方案：

一种基于无线和视频特征融合的步态识别方法，其特征在于，包括如下步骤：

步骤S1：首先使用高分辨率的摄像头采集行人行走的视频数据；

步骤S2：对视频进行等间隔的分帧处理，采用语义分割网络Mask-RCNN对上述步态视频分离得到的视频帧图像进行语义分割，分离图像的前景与背景，得到高质量的行人行走的步态轮廓图；

步骤S3：对分割得到的步态轮廓图进行数据预处理，具体的指冗余帧和无效帧去除，以及裁剪尺寸大小进行对齐标准化处理；

步骤S4：采用步态识别公开数据集对深度神经网络GaitPart进行预训练，利用预训练好的网络提取对方法采集的行人视频数据进行特征提取，得到基于视频的步态序列时空步态特征；

步骤S5：利用商用无线路由器采集无线数据，从接收到的无线信号中获取随时间和行人行走而变化的信道状态信息流(CSI)；

步骤S6：对采集到的信道状态信息流(CSI)规格化处理，得到幅值序列，对幅值序列进行均值填充和去噪；

步骤S7：对去噪之后的无线数据进行采样或者零值填充。数据通过处理之后得到统一的维度，并进行归一化处理；

步骤S8：将预处理之后的无线数据输入到多尺度卷积神经网络进行预训练，利用预训练完成的网络提取基于无线的行人步态特征，此时的特征是对无线数据在多个尺度上进行提取的结果；

步骤S9：将提取到的基于视频的行人步态特征和基于无线的行人步态特征拼接进行维度上的扩增之后作为融合模块的输入，融合模块在进一步增强了两个模态下语义表达的同时，又使得视频和无线两个维度的特征共享语义子空间；

步骤S10：对融合后得到的步态特征进行身份预测得出识别结果。

根据本发明，所述步骤S2具体实现步骤包括：

步骤S21：对行人行走的视频段，根据采集视频等间隔进行分帧，方法设置为每秒提取30帧，在所有采集的视频段分帧结束之后，随机选取一部分图像，作为语义分割网络Mask-RCNN的训练数据，这部分图像涵盖了实际情况中的不同光照条件和不同场景，并且行人的外在穿衣状态也各不相同。

步骤S22：使用数据标注工具对这一部分图像数据中的行人轮廓进行精细标注，旨在使得语义分割网络能够得到高质量的行人轮廓。

步骤S23：将标注后的用于训练分割网络的数据馈入语义分割网络Mask-RCNN，通过反向传播，更新网络参数，直到网络收敛，最终完成语义分割网络Mask-RCNN的预训练。

步骤S24：在视频数据预处理阶段中，利用预训练收敛的语义分割网络Mask-RCNN提取精细的行人步态轮廓图，这将有助于提取到更准确的视频步态特征。

进一步地，所述步骤S4具体实现步骤包括：

步骤S41：将通过语义分割网络Mask-RCNN分割得到的图像接着进行裁剪对齐预处理之后，每张步态轮廓图的分辨率最终为66X64，每个行人行走一次的视频下的包含多张步态轮廓图。本发明方法称这些步态轮廓图的集合称为步态集，该集合至少包含行人的一个完整的步态周期，将其作为视频数据集中的一个最小样本。选择行人的身份ID作为该样本的标签。

步骤S42：考虑到行人身体不同的部分在行走时呈现不同的运动规律，且连续的帧与帧之间具有时间信息的关联，故采用深度神经网络GaitPart作为视频步态特征提取器，提取步态时间特征和空间特征的表达。

步骤S43：在预训练阶段，选取步态识别公开数据集CASIA-B作为数据训练深度神经网络GaitPart；该神经网络GaitPart网络采用三元组损失函数作为损失函数，不同样本之间的特征向量来计算网络训练阶段的损失。神经网络GaitPart网络针对人体各个部分在视觉上的运动模式不同，对各个部分分别进行时空建模。最后训练直到网络收敛，最终得到的预训练网络可以有效提取视频模态下的步态深度特征。

步骤S44：将预训练网络作为视频步态特征提取器，利用预训练的深度神经网络GaitPart的主干网络部分就可以提取到基于视频的行人步态特征，此时的特征具有高效的时空表达。

优选地，所述步骤S8具体实现步骤包括：

步骤S81：在无线信号覆盖区域，由于行人行走时候的习惯性，同一个人行走收集到的无线信号也会有着规律性的体现。数据通过规格化处理之后可以看成是时间序列信号，将去噪等预处理操作之后的数据作为多尺度卷积神经网络的输入，多尺度卷积神经网络具有三个不同尺度大小的通道，不同的尺度对应不同的感受野，每个通道又包含许多串联的卷积块，因此可以从三个通道不同的尺度通过卷积、平均池化等操作进行特征提取，然后将不同尺度的特征拼接，作为最终的无线行人步态特征输出。

步骤S82：在预训练阶段，选取部分无线数据送入多尺度卷积神经网络进行训练；多尺度卷积神经网络尾部加上全连接层，以行人的身份ID作为这些样本的标签，网络对样本进行分类预测行人身份，通过交叉熵损失函数计算损失。

步骤S83：预训练完成，网络的主干部分可得到无线的步态特征提取器，利用其可以进行提取到基于无线的步态深度特征。

进一步优选地，所述步骤S9具体实现步骤包括：

步骤S91：分别获取所述步骤S4和S8步骤所保存的基于视频的步态特征和基于无线的步态深度特征向量。

步骤S92：不同模态下的数据具有异构性，通过预训练的网络可以有效的对数据提取到具有很强的深度身份信息表达的步态特征，但是提取到无线和视频的特征又有各自的局限性，如只做简单运算融合，无法在两个模态特征之间建立联系，比如只做拼接，仅仅是从维度上对特征进行扩充。并且两个模态下的特征都包含行人的深度身份表达，具有一定的信息冗余性；

为了充分利用各个模态特征并获得融合后的高效特征信息表达，对无线和视频下的步态特征向量利用网络融合模块进行特征融合操作。

步骤S93：使用由全连接BatchNorm，Dropout以及ReLU层的组合构成的一个高效的融合模块。该融合模块也可以看做一个简单的神经网络，能够有效地对无线和视频两个模态下提取到的深度特征进行压缩和融合，对两个模态拼接之后的高维度的特征进行压缩映射到共享的语义子空间，在融合的过程中屏蔽掉模态之间的异构性和冗余性，保留有效的身份特征信息。

本发明的基于无线和视频特征融合的步态识别方法，引入了一对无线信号收发设备和一台视频采集装备。将采集到的行人行走的视频段等间隔提取出帧图像，输入到语义分割网络Mask-RCNN中，提取行人的步态轮廓图；基于分割网络分割出来的包含行人行走的步态轮廓图，将轮廓图按照行人的头部顶点对齐得到标准化之后的步态轮廓图；将行人一次行走的下采集的视频对应的步态轮廓图作为一个样本输入到深度神经网络GaitPart中提取视频步态特征。将无线设备采集到的无线信号进行预处理，去噪，采样填充等预处理操作之后，利用多尺度卷积神经网络提取无线步态特征。然后利用神经网络的特征压缩和学习能力融合视频和无线两个模态下的特征。最终得出步态识别身份预测的结果。

与现有技术相比，本发明的基于无线和视频特征融合的步态识别方法创新在于：采用分割网络对视频数据进行更加准确的预处理操作，对无线和视频两个模态下数据分别有效地提取到包含深度身份信息的特征，最终融合了多模态特征进行步态识别，提高了识别的准确率，可广泛应用于步态识别领域。

附图说明

图1是本发明的基于无线和视频结合的步态识别方法的流程框图；

图2是使用传统背景分离方法与本发明中采用语义分割网络分割得到的步态轮廓图对比；

图3表示本发明中的多模态步态数据集的实际采集场景；

图4表示对采集到的无线信号进行去噪等处理前后的对比；

图5表示本发明的基于无线和视频结合的步态识别方法详细结构图。

下面将结合附图和实施例对本发明作进一步详细的说明。

具体实施方式

参见图1和图5，本实施例给出一种基于无线和视频特征融合的步态识别方法，引入一对无线信号收发设备，一台视频采集装备，方法包括如下步骤：

需要说明的是：在以下的实施例中，无线信号的信道状态信息流(CSI：ChannelState Information，以下简称CSI数据)可以通过普通的商用无线路由器采集到，CSI用于描述通信链路的信道属性，也就是信道增益矩阵，其对当前所处环境的变化敏感度很强，当人在信号覆盖区域移动的时候，信号的传输距离也会产生相应的变化，发送端发射的信号会被人体反射，接收端的设备最终采集到的是增强或者削弱后的CSI。由于行人正常行走会呈现出规律性，采集到的CSI也会有一定的规律性，不同人行走时候的习惯不同，在同一条路径上采集到的CSI呈现出差异性，这就为使用无线信号进行步态识别提供了理论支撑。

从人眼视觉出发，在距离一个人较远看不清楚面部特征的时候，可通过该人行走的动作变化提供一些身份的判断依据。视频设备同样能够记录到行人行走的状态，定义行人行走时从上一次左脚脱离地面的后一刻到下一次左脚接触地面的前一刻为一个完整的步态周期，那么一条视频记录中包含重复的多个步态周期，视频数据中还记录有行走的步幅以及频率，双臂摆动以及身体其他部位也会呈现一定的规律性和周期性的变化，并且视频还可以采集到的行人的身高体重等外在可见的视觉表征信息，可以通过这些规律变化和外在表征发掘有用信息进行步态识别。

基于上述事实，本实施例的基于无线和视频特征融合的步态识别方法的详细设施过程阐述如下：

1、CSI数据处理

针对采集到的CSI数据进行处理，处理流程如下：

接收端接收到的多个载波矩阵通过规格化计算并提取幅值序列。

由于设备稳定性以及每个人行走速度不一致等原因，提取到的幅值序列可能存在缺失噪声并且序列长度不一等问题。所以要对幅值序列中的缺失值进行均值填充以及去噪，这可以在保持数据的维度不发生改变的情况下不改变数据的原始分布。采集到的无线信号进行去噪等处理前后的对比图如图4所示。

对过短的序列进行零值填充补充序列长度，对过长的序列从中采样获取有效长度，处理之后将序列统一成固定长度。

标准化操作对数据进行缩放和均值居中，操作将序列中的值满足【0，1】区间分布，标准化操作之后的数据在训练网络的时候可以使网络收敛的更快，并且隐式地去除了采集无线数据所在环境中存在的静态物体反射对信号造成的部分影响。最终无线数据处理的之后得到的特征向量具有固定的维度和值区间。

标准化操作可公式化为：

其中，x_mean为序列中所有值的均值，x_min为序列中所有值中的最小值，x_max为序列中所有值中的最大值，X_w＝(x₁，x₂，…，x_i，…，x_n-1，x_n)，表示无线数据预处理之后得到的特征向量，其中x_i∈【0,1】。

依赖于多层卷积神经网络的不同感受野和高效的学习能力，本实施例中，对无线数据并未做特别复杂的预处理工作，因为过度的预处理可能使得一些对于识别精度影响很大的有用信息丢失。使用预先训练的多尺度卷积神经网络可以从归一化之后得到的原始特征向量中提取到有效的无线步态特征。

以图像作为输入的卷积神经网络一般采用的二维卷积核，而针对特征向量X_w的一维性，网络使用一维卷积核。一般的卷积神经网络利用固定大小的卷积核的平移不变形平移然后进行卷积操作提取特征，固定尺寸大小的卷积核也就对应着单一尺寸的感受野，其往往提取的特征具有一定的局限性。

因此本实施例使用具有多个不同尺度的一维卷积核的多尺度卷积神经网络从多个感受野中提取无线步态深度特征，保证最终提取特征的有效性。多尺度卷积神经网络提取方式可公式化如下：

其中X_i为输入网络的已预处理的数据，X_i+1为网络输出的特征向量，⊕表示拼接(concatenation)操作。C^1*n为不同尺度通道上的多个特征卷积以及池化等操作，其中n可以为3，5和7，表示不同的尺度。每个通道上包括串联的多个卷积块，每个卷积块又包含卷积层，BN层和ReLU层。

卷积层通过平移卷积核提取特征，得到的数据分布不一。添加在卷积层之后的BN层，能够使得数据转换成均值为0，方差为1的分布，有效控制梯度爆炸和梯度小之外，同时使得网络加速训练和收敛。

接着引入激活函数层，增强网络的学习表达能力。使用ReLU作为激活函数层，相对于其他激活函数可以有效减少计算量，ReLU会使得一部分数据的输出为0，这样保证了网络的稀疏程度，减少网络参数之间存在的相互依赖关系，从而一定程度上缓解网络训练过程中过拟合现象的发生。

接着对多个通道卷积块之后得到的特征加以最大池化的操作，然后对特征图进行展平(Flatten)，也就是把多维特征图扁平化输出为一维特征向量，最后将多个尺度得到的特征向量进行拼接得到最终无线的行人深度步态特征。

2、视频处理

针对采集到的的视频进行处理，处理流程为：

行人行走的视频按照等间隔分帧得到视频帧序列，本实施例中对于视频取每秒30帧，过高的采样会导致数据冗余，不利于计算，并且行人行走的过程中，相邻的连续视频帧之间的差异性表现不明显。对残缺的无效帧进行剔除，将剩余的有效帧作为已经预训练收敛的语义分割网络Mask-RCNN的输入进行前景背景分离，行人为目标前景，其他为背景。

如图2所示，可以明显看出，传统背景分离方法分类出来的行人轮廓图，行人轮廓不够清晰，并且身体部分存在空洞残缺等问题。而使用已预训练的语义分割网络Mask-RCNN处理得到的步态轮廓图中行人的四肢躯干各个部分相比之下都明显更加清晰准确。预处理阶段得到的更精细准确的数据有助于提高最终步态识别的准确率。

对上述得到的所有分割后的有效帧序列以行人的头部为顶点进行裁剪和尺寸归一化，最后包含整个场景的分辨率为1920*1080的帧图像得到只包含行人完整轮廓的分辨率为66*64的步态轮廓图。预处理最终获得行人一次行走采集的视频对应步态轮廓图集合，集合至少包含行人行走的一个完整的步态周期。

具体的，在特征提取阶段，将步态轮廓图集合输入已经预训练收敛的深度神经网络GaitPart提取视频行人步态深度特征，使用其作为视频步态特征提取器。

行人身体的不同部分具有不同的空间形状，并且在行走的过程呈现出不同的运动规律。深度神经网络GaitPart对行人行走时候的时空特征建模。基于此，深度神经网络GaitPart提出帧级部件特征提取器(FPFF)模块，其是一种特殊的卷积模块，模块专注于进行帧的局部特征提取。模块其将轮廓图序列中的每帧提取到的特征图，从上至下水平划分也就对应行人身体的各个不同的部位，逐帧逐部分进行特征提取得到基于局部的细粒度层次空间特征。

接下来，水平池化(HP)操作对得到的特征图进行采样使得身体局部的特征更具判别性。然后使用多个并行并且参数独立的微运动捕捉模块(MCM)分别对应于定义好的身体各个部位，微运动捕捉模块对帧与帧之间的短期时态特征进行的空间特征建模。网络最终得到的时空特征进行展平(Flatten)之后作为视频步态深度特征。

3、特征融合

无论哪种模态都受限于实际数据采集的设备状况和环境因素，本实施例中采用同时利用两种模态下的数据的方式。考虑到无线数据和视频数据的表现形式不同，所以分别采用从两种模态数据提取特征之后再进行最终的融合的方式。相较于传统方法计算手动特征，本实施例对于无线和视频两个模态下的数据都采用了已经预训练的深度神经网络进行深度特征提取，能够有效抑制原始数据中的噪声在提取到的深度特征中的表达，保证了提取到的特征的身份信息相关性和后续融合操作的平滑进行。

对两个模态下的数据进行融合处理，具体如下：

特征融合包含多种方式，比如拼接融合，相加融合，张量积融合等。特征的拼接融合只是从维度上扩充，忽略了不同模态之间存在的相关性。相加融合则是将两种模态下的特征共享特征空间，容易造成有效信息的丢失，并且相加融合需要模态特征具有相同的维度，局限性较大。张量积融合方式下的两个模态的特征融合操作简单，并且虽然也可以一定程度上协同表达语义，但是却未关注不同模态下的特征的异构性，融合过程中更容易出现维度爆炸等问题，因此融合后的特征向量也包含相当冗余的身份信息。具体的融合操作可公式化如下。

拼接融合可公式化为：V_fusion＝【V_w，V_v】

相加融合可公式化为：V_fusion＝【V_w+V_v】

张量积融合可公式为：

其中V_fusion表示最终融合得到的特征张量，V_w表示无线信号提取到的步态特征向量，V_v表示视频提取到的步态特征向量。

以上几种基于数学计算的融合方式都无法充分利用已经提取特征中的深度信息而获得增强而高效的融合特征，而复杂的融合又会涉及到计算成本的问题。

融合操作可以看做是一种特殊的特征压缩问题，压缩过程中要去除冗余和无效噪声并且增强有效信息的表达。而神经网络中的全连接层可以将原始特征映射到更具辨别力的子空间内的同时，得到更低维度的特征表示。理论上，层数越多，网络能够拟合更加复杂的函数，具有更好的学习能力，但是网络参数也会同时增长。因此融合模块使用Dropout避免训练融合模块的时候产生过拟合的风险。考虑到经过两个模态下的特征是通过预训练网络提取的，权衡融和复杂性和效率问题之后，方法使用由多个全连接层，BatchNorm层，ReLU层，Dropout的组合构成的融合模块进行无线和视频的特征融合操作。

首先将提取到的无线步态特征向量与视频步态特征向量进行⊕操作，⊕代表拼接(concatenation)，拼接之后的特征向量可以看做两个低维度特征的集合。由于无线特征和视频特征是通过不同网络提取到的，因此特征向量在分布方面并不一致，使用BatchNorm层对拼接之后的特征进行归一化操作，加速训练阶段网络的收敛。全连接层以及ReLU的组合成的融合模块进行特征压缩和融合。融合模块中的神经元把前一层的所有神经元作为输入，输出又作为下一层的每个神经元的输入，引入非线性的ReLU激活函数，增强融合网络的学习能力。全连接层是把一个特征空间变换到另外一个特征空间，将提取得到的无线和视频的深度拼接之后的原始特征映射到更紧凑的子特征空间内，最终得到的融合后特征向量表示为V_fusion。具体融合部分如图5详解结构所示。

4、身份识别

在融合模块末端添加一个额外的全连接层进行分类，最后给出结果的预测，全连接层给出该样本属于每个身份的得分。融合模块和身份预测的训练阶段使用交叉熵损失函数计算损失。

以上为交叉熵损失的表达式，其中，M为样本中人的数量，y_ic为符号函数(0或1)，如果样本i的真实身份为c则取1，否则则取0，p_ic表示样本i属于预测身份为c的预测概率。

5、实验

为了验证本实施例的方法的有效性，进行多模态步态数据集的采集和实验的对比：

5.1、采集数据集

多模态步态数据集采集的具体实施方案为：

在公共区域比如较为空旷的大厅或者走廊布置无线信号收发设备和摄像头。图3是本发明的一个多模态步态数据集的实际采集场景，也可以作为实际应用场景。采用搭建Intel5300网卡的便携笔记本电脑和普通无线路由器作为行人行走过程中的原始CSI数据的无线信号收发设备。并且将高清摄像头放置在无线设备同一侧的较高高度同时采集原始视频数据，保证摄像头可以完整的记录行人的一个行走周期。

无线信号收发设备间距约2m，收发设备距离地面约0.8m，两台设备对齐水平放置。视频采集摄像头距离地面高度2m，与便携电脑同处一侧，水平方向上紧贴便携电脑并且略靠后。为了保证完全采集到行人的轮廓，摄像头俯视地面约45度。A点与B点之间，也就是行人单趟行走的距离约5m。数据集的实际采集场景如图3所示。

基于上述数据采集的设备和场景的布置，行人从A点开始行走，同时启动高清摄像头和无线信号收发设备开始采集视频数据和无线数据，行人到B点停止行走，设备停止记录。一次单向行走采集到一组数据，一组数据同时包括无线数据和视频数据。每个行人采集多组数据，无线数据和视频数据保持采集次序上的对齐以及身份的一致。

数据集的采集过程中，招募了35位志愿者，其性别身高体重穿衣携带物等状态均未作特殊限制，每位志愿者作为行人从图3中A点到B点单向行走，并且行走过程中保持正常行走时的速度和状态。每个志愿者行走约30次，也就是每位志愿者对应包含约三十组数据，共采集到约1050组数据。

基于上述的实际场景中采集到的数据作为实验的多模态步态数据集，数据集中包含无线步态数据集和视频步态数据集，其中无线数据样本和步态数据样本对应的行人身份以及行走次数状态等变量保持一致。采集到的步态数据集用于网络模型训练和最终的步态识别。

5.2、实验环境

实验采用Python深度学习框架Pytorch实现融合模块的网络，实验所用设备运行内存为32GB，操作系统为Ubuntu20.04.3LTS，设备具有一张型号为RTX2080Ti的显卡，显存为12G。实验环境的依赖包有：torch，numpy，torchvision，numpy，opencv-contrib-pytorh，tqdm等。

5.3、实验结果分析

使用多组实验来验证所提出方法的有效性，并使用识别正确样本和样本总数之比作为步态识别准确率的评价指标。本实施例分别就使用单模态输入，多模态简单融合以及多模态网络融合的方式进行了对比实验。

从表1知，如果只使用视频数据做识别，由于对数据做了较好的预处理工作，所以视频的步态识别得到的准确率也相对较高，这说明了使用语义分割网络Mask-RCNN进行提取步态轮廓图的可靠性。如果只利用无线数据进行识别，虽然也可以达到一定的准确率，但是其准确率明显不够理想。由于视频输入的时候是以步态轮廓图序列的形式提取身份特征，语义更加丰富，因此能够提取到更多具有判别性的信息，而无线信号相对于视频数据是一个低维度的输入，所以视频模态下步态识别准确率较无线模态下的准确率高。

而无论是使用简单拼接融合还是使用网络进行特征融合的方式，多模态下都比单一模态下的步态识别准确率高，证明了本实施例提出的使用无线和视频进行结合能够提高步态识别准确率的结论的正确性。为了验证使用网络融合的有效性，本实施例使用无线和视频特征拼接然后使用最近邻分类算法进行分类结果的准确率与使用特征融合模块融合特征之后再做分类的准确率进行对比。根据结果显示，相对于拼接融合的简单操作，使用方法中提出融合网络对多模态特征融合之后再进行步态识别的准确率也有所提高。最终说明了本实施例的基于无线和视频特征融合的步态识别方法的可行性。

表1

6、结论

综上，本实施例给出的基于无线和视频特征融合的步态识别方法，分别提取到无线和视频两个模态下的深度特征，并使用特征融合模块融合两部分特征进行步态识别，结果显示验证了对于步态识别任务而言，相对于使用单模态，利用多模态融合的方法可以有效提高步态识别的准确率。

最后需要指出的是，以上阐述的实施例仅用于对本申请的技术方案进行说明和理解，本发明不限于上述实施例。本领域的普通技术人员应当理解：在本申请的技术方案中，可以对技术特征进行修改、替换或者添加，这些简单的修改、替换或者添加应属于本申请的保护范围。

Claims

1.一种基于深度学习的无线和视频融合步态识别方法，其特征在于，包括如下步骤：

步骤S1：首先使用高分辨率的摄像头采集行人行走的视频；

步骤S2：对视频进行等间隔的分帧处理，采用语义分割网络Mask-RCNN对视频分离得到的视频帧图像进行语义分割，分离视频帧图像的前景与背景，得到高质量的行人行走的步态轮廓图；

步骤S3：对分割得到的步态轮廓图进行数据预处理，将冗余帧和无效帧去除，以及裁剪尺寸大小进行对齐标准化处理；

步骤S4：采用步态识别公开数据集对深度神经网络GaitPart进行预训练，利用预训练好的网络提取对所采集的行人视频进行特征提取，得到基于视频的步态序列时空步态特征；

步骤S5：利用商用无线路由器采集无线数据，从接收到的无线信号中获取随时间和行人行走而变化的信道状态信息流CSI；

步骤S6：对采集到的信道状态信息流CSI规格化处理，得到幅值序列，对幅值序列进行均值填充和去噪；

步骤S7：对去噪之后的无线数据进行采样或者零值填充，得到统一的维度，并进行归一化处理；

步骤S8：将归一化处理之后的无线数据输入到多尺度卷积神经网络进行预训练，利用预训练完成的网络提取基于无线的行人步态特征，该行人步态特征是对无线数据在多个尺度上进行提取的结果；

步骤S10：对融合后得到的步态特征进行身份预测，得出识别结果。

2.如权利要求1所述的方法，其特征在于，所述步骤S2具体实现步骤包括：

步骤S21：对行人行走的视频段，根据采集视频等间隔进行分帧，方法设置为每秒提取30帧，在所有采集的视频段分帧结束之后，随机选取一部分图像，作为语义分割网络Mask-RCNN的训练数据，这部分图像涵盖了实际情况中的不同光照条件和不同场景，并且行人的外在穿衣状态也各不相同；

步骤S22：使用数据标注工具对这一部分图像数据中的行人轮廓进行精细标注，旨在使得语义分割网络能够得到高质量的行人轮廓；

步骤S23：将精细标注后的用于训练分割网络的数据馈入语义分割网络Mask-RCNN，通过反向传播，更新网络参数，直到网络收敛，最终完成语义分割网络Mask-RCNN的预训练；

3.如权利要求1所述的方法，其特征在于，所述步骤S4的具体实现步骤包括：

步骤S41：将通过语义分割网络Mask-RCNN分割得到的图像接着进行裁剪对齐预处理之后，每张步态轮廓图的分辨率最终为66X64，每个行人行走一次的视频下的包含多张步态轮廓图；称这些步态轮廓图的集合称为步态集，该步态集至少包含行人的一个完整的步态周期，将其作为视频数据集中的一个最小样本，选择行人的身份ID作为该样本的标签；

步骤S42：考虑到行人身体不同的部分在行走时呈现不同的运动规律，且连续的帧与帧之间具有时间信息的关联，采用深度神经网络GaitPart作为视频步态特征提取器，提取步态时间特征和空间特征的表达；

步骤S43：在预训练阶段，选取步态识别公开数据集CASIA-B作为数据训练深度的神经网络GaitPart，该神经网络GaitPart采用三元组损失函数作为损失函数，不同样本之间的特征向量来计算网络训练阶段的损失；神经网络GaitPart针对人体各个部分在视觉上的运动模式不同，对各个部分分别进行时空建模，最后训练直到网络收敛，最终得到的预训练网络能够有效提取视频模态下的步态深度特征；

4.如权利要求1所述的方法，其特征在于，所述步骤S8具体实现步骤包括：

步骤S81：在无线信号覆盖区域，由于行人行走时候的习惯性，同一个人行走收集到的无线信号也会有着规律性的体现；数据通过规格化处理之后看成是时间序列信号，将去噪等预处理操作之后的数据作为多尺度卷积神经网络的输入，多尺度卷积神经网络具有三个不同尺度大小的通道，不同的尺度对应不同的感受野，每个通道又包含许多串联的卷积块，因此从三个通道不同的尺度通过卷积、平均池化等操作进行特征提取，然后将不同尺度的特征拼接，作为最终的无线行人步态特征输出；

步骤S82：在预训练阶段，选取部分无线数据送入多尺度卷积神经网络进行训练；多尺度卷积神经网络尾部加上全连接层，以行人的身份ID作为这些样本的标签，网络对样本进行分类预测行人身份，通过交叉熵损失函数计算损失；

步骤S83：预训练完成，网络的主干部分可得到无线的步态特征提取器，利用其进行提取到基于无线的步态深度特征。

5.如权利要求1所述的方法，其特征在于，所述步骤S9具体实现步骤包括：

步骤S91：分别获取所述步骤S4和S8步骤所保存的基于视频的步态特征和基于无线的步态深度特征向量；

步骤S92：为了充分利用各个模态特征并获得融合后的高效特征信息表达，对无线和视频下的步态特征向量利用网络融合模块进行特征融合操作；

步骤S93：使用由全连接BatchNorm，Dropout以及ReLU层的组合构成的融合模块；该融合模块看做一个简单的神经网络，能够有效地对无线和视频两个模态下提取到的深度特征进行压缩和融合，对两个模态拼接之后的高维度的特征进行压缩映射到共享的语义子空间，在融合的过程中屏蔽掉模态之间的异构性和冗余性，保留有效的身份特征信息。