CN111898442B

CN111898442B - 一种基于多模态特征融合的人体动作识别方法及装置

Info

Publication number: CN111898442B
Application number: CN202010607674.3A
Authority: CN
Inventors: 郭军; 石梅; 常晓军; 汤战勇; 刘宝英; 朱省吾; 黄位; 贺怡; 许鹏飞
Original assignee: NORTHWEST UNIVERSITY
Current assignee: NORTHWEST UNIVERSITY
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2023-08-11
Anticipated expiration: 2040-06-29
Also published as: CN111898442A

Abstract

本发明提供一种基于多模态特征融合的人体动作识别方法及装置，使用商用性最强的WiFi信号，再利用多模态特征融合法将WiFi信号的CSI特征与视频特征进行融合；多模态特征融合法将这两种不同的特征映射到同一个公共空间上，再进行分类，最终识别出人体动作类别。实验结果表明，在加入了WiFi信号并利用多模态特征融合方法的情况下，人体动作识别的精度明显提高。

Description

一种基于多模态特征融合的人体动作识别方法及装置

技术领域

本发明属于动作识别技术领域，具体涉及一种基于多模态特征融合的人体动作识别方法及装置。

背景技术

人体动作识别算法在计算机视觉的许多领域中起着至关重要的作用，至于视频动作识别，最流行的方法是基于时空和光学信息分析。然而，受数据帧质量差和自然环境中的环境光线影响，这些方法效果并不理想。

现有的多模态模型分为非监督算法和有监督算法。其中非监督的多模态算法由于缺少标签信息，所以不能得到判别性公共空间，导致结果不好。目前常用的多模态算法有：GMA(广义多视图分析)和MvDA(多视图判别分析)，它们都通过寻找映射矩阵将多模态样本映射到公共空间上再进行分类。然而GMA只考虑模态内的判别信息，而忽略了模态间的判别信息；而MvDA则两者兼顾，使得得到了具有判别性的公共空间，不过MvDA的缺点是对于最后的映射矩阵求解过程只用了广义特征值分解，从而导致求解的映射矩阵是一个近似值，而不是全局最优解，从而导致最后的精度下降。

发明内容

针对现有技术中的缺陷和不足，本发明提供了一种基于多模态特征融合的人体动作识别方法及装置，利用无线WiFi信号对视频特征进行辅助识别，并且利用多模态特征融合方案将这两种特征进行融合并且进行判别分析，得到最终的人体动作识别结果；从而克服现有的人体动作识别方案都是使用视频特征进行判别，但是受光学限制等影响使得结果不理想的缺陷。

为达到上述目的，本发明采取如下的技术方案：

一种基于多模态特征融合的人体动作识别方法，该方法利用多模态特征融合法将WiFi信号的CSI特征与视频特征进行融合，并将两种特征通过多模态特征融合模型映射到一个公共空间上进行判别分析，最终识别出人体动作类别；包括以下步骤：

步骤1，数据集预处理：Vi-Wi15数据集包括视频信息及其对应的Wifi信号的CSI信息数据，采用卷积神经网络提取Vi-Wi15数据集中的视频特征，根据标准统计算法提取Vi-Wi15数据集中WiFi信号的CSI特征；

将Vi-Wi15数据集定义为

其中，x是Vi-Wi15数据集，X_ijk是第i个类中第j个模态的第k个样本，i是类，对视频中做的每个动作定义为一个类，c是类的个数，j是不同的模态，D_j是第i个类中第j个模态的第k个样本的维数，j＝1表示视频模态，j＝2表示WiFi模态，n_ij是第j个模态的第i个类的样本个数；

步骤2，将步骤1得到的视频特征和WiFi信号的CSI特征分别作为两种模态，建立多模态特征融合模型并定义用于求解映射矩阵的目标函数：

其中，v₁*是关于视频模态的最优映射矩阵，v₂*为关于WiFi模态的最优映射矩阵；v₁是视频模态的映射矩阵，v₂是WiFi模态的映射矩阵，它们都是本公式中的自变量；V^T为映射矩阵转置的集合V^T＝{v₁ ^T，v₂ ^T}，V为映射矩阵的集合V＝{v₁，v₂}，D和S的构造为：和/>它们是关于/>的块矩阵，其元素的定义如下：

其中，是第j个模态中第i类样本关于输入X_ijk的平均矩阵，为/>的转置；n_ij是第j个模态中第i类的样本数，/>是所有模态中第i类的样本数，n是所有样本的数目；c是类的个数；j＝1代表视频模态，j＝2代表WiFi模态；是第r个模态中第i类样本关于输入X_irk的平均矩阵，/>为/>的转置；n_ir是第r个模态中第i类的样本数，/>是所有模态中第i类的样本数；r＝1代表视频模态，r＝2代表WiFi模态；

步骤3，计算所述目标函数得到多模态特征融合模型中映射矩阵的全局最优解；

步骤4：从步骤3中得到的关于映射矩阵的全局最优解，再将其通过公式：

映射到公共空间y上；

其中，Y_ijk是X_ijk样本映射到公共空间上所对应的样本值，即第i个类中第j个模态的第k个样本投影到公共空间上的样本，v_j是映射矩阵，i是类，c是类的个数，j是不同的模态，j＝1表示视频模态，j＝2表示WiFi模态，n_ij是第j个模态的第i个类的样本个数；

最后采用线性SVM对映射到公共空间上的样本进行分类，最终识别出人体动作类别。

本发明还包括如下技术特征：

具体的，所述步骤3具体包括：

将公式(6)和公式(7)中矩阵S和D变为半正定矩阵：

已知矩阵S和D是对称矩阵，放宽MvDA中的约束，用以下策略替换D和S：

D＝D+e₁I (9)

S＝S+e₂I (10)

其中，I是相应的单位矩阵，e₁和e₂是两个任意常数；经过选择e₁和e₂，D和S被转化为半正定矩阵，从而使公式(8)得到基于Newton-Raphson方法的全局最优解；

设置和/>加入正交约束V^TV＝I以保持数据的全局几何结构，目标函数公式(8)描述如下：

公式(11)最优解等同于求迹差函数的f(λ)＝0：

要使f(λ)＝0，此时的最优映射矩阵V^*为：

其中λ^*为最优的TR(Trace ratio，迹比)值。

具体的，利用Newton-Raphson迭代方法计算最优的TR值：初始化：t＝0，λ₀＝0

①计算的特征值；

②在初始值λ_t下，采用迭代策略求解公式(12)，并利用一阶泰勒展开逼近λ_t附近的特征值：

其中k＝1,…,m；

此时利用泰勒展开，我们将迹差函数f(λ)近似为它是对/>中前d个较大值求和：

其中是/>的前i个最大特征值；

③通过解决更新λ_t+1；

④计算|λ_t+1-λ_t|，当小于阈值ε(ε＝10^-4)时终止循环，此时得到最优的λ^*＝λ_t+1，再利用公式(13)计算出最优的映射矩阵V^*。

具体的，所述步骤4具体包括：

步骤4.1：从步骤3中得到的关于映射矩阵的全局最优解，再将其通过公式映射到公共空间y上，测试采用不同核函数时的分类准确度，选取性能最好的核函数；其中，Y_ijk是X_ijk样本映射到公共空间上所对应的样本值，即第i个类中第j个模态的第k个样本投影到公共空间上的样本，v_j是映射矩阵，i是类，c是类的个数，j是不同的模态，j＝1表示视频模态，j＝2表示WiFi模态，n_ij是第j个模态的第i个类的样本个数；

步骤4.2：对步骤4.1中选取的核函数进行交叉验证，通过参数搜索法搜索当前核函数的最佳参数；

步骤4.3：通过步骤4.1、步骤4.2选取最佳的核函数和参数后，采用线性SVM对映射到公共空间上的样本进行分类，最终识别出人体动作类别。

一种基于多模态特征融合的人体动作识别装置，包括：

数据集预处理单元，用于采用卷积神经网络提取Vi-Wi15数据集中的视频特征，根据标准统计算法提取Vi-Wi15数据集中WiFi信号的CSI特征；

多模态特征融合模型的构建单元，用于将得到的视频特征和WiFi信号的CSI特征分别作为两种模态，建立多模态特征融合模型并定义用于求解映射矩阵的目标函数；

映射矩阵全局最优解求解单元，用于计算目标函数得到多模态特征融合模型中映射矩阵的全局最优解；

动作识别单元，用于从得到的关于映射矩阵的全局最优解，再将其通过公式将多模态样本映射到公共空间y上，

其中，Y_ijk是X_ijk样本映射到公共空间上所对应的样本值，即第i个类中第j个模态的第k个样本投影到公共空间上的样本，v_j是映射矩阵，i是类，c是类的个数，j是不同的模态，j＝1表示视频模态，j＝2表示WiFi模态，n_ij是第j个模态的第i个类的样本个数；采用线性SVM对映射到公共空间上的样本进行分类，最终识别出人体动作类别。

本发明与现有技术相比，有益的技术效果是：

本发明公开了一种利用多模态特征融合方法将视频和Wi-Fi信号进行融合，再进行人类动作识别的新方法。该方法利用Wi-Fi信号所携带的人类动作信息来弥补由于视频中的动作受到环境因素的影响所导致的信息丢失。最后在特征融合的情况下完成了视频动作的分类任务，有效的弥补部分信息的丢失，提高了分类的准确度。

附图说明

图1为本发明方法的流程图。

具体实施方式

由于运动目标能够反射无线信号并改变其幅度和相位，从而提供可判别信息，因此无线信号能被广泛应用于运动目标的识别，如WiFi、RFID、雷达、蓝牙等无线信号相比视频有不受光学因素的影响的优势。因此，基于无线信号的人体动作识别研究近年来受到越来越多的关注。然而基于无线信号的人体动作识别任务面临的一个巨大挑战是多径效应和不可避免的噪声干扰，会降低识别性能。目前单独使用无线信号的效果并不理想，无疑提高人体动作识别性能的最佳方法是共同探索视频和无线信号特征。受最近成功地将视频和无线电信号结合起来用于人体姿势的工作的启发，本方案将WiFi信号融合到基于视频的HAR中，以提高识别性能。在本发明中，选择WiFi是因为：1)WiFi不需要额外由人类携带的设备；2)作为广泛使用的商用无线信号，世界各地都建立了基于WiFi的无线通信服务，这意味着我们轻而易举地以非常低的成本收集WiFi信号。

特征融合技术：在机器学习和计算机视觉领域，对不同模态的数据特征融合是一个巨大的挑战。近年来，特征融合技术在多模态数据分析中得到了越来越多的关注。现有的特征融合技术分为三种：1)基于特征的早期融合；2)基于决策的晚期融合；3)以及两者兼顾的混合融合。早期融合是在特征提取后融合多模态特征(通常通过简单地将它们的特征相加)，但是这种方法忽略不同模态特征之间的重要相关性，会增加计算和存储成本。后期融合则是由不同的模态特征作出决策(分类或回归)之后进行融合。混合融合结合了早期融合和晚期融合的优点。与早期融合相比，晚期融合和混合融合在实现上更加复杂；因此，探索一种高效的多模态模型解决这一问题。

多模态特征融合：多模态学习中常用的方法是公共空间投影，它将多模态的高维数据投影到一个公共空间中，以获得更好的预测性能。通常，根据是否被使用标签信息，多模态学习方法分为无监督或有监督两类。然而这些无监督方案并没有有监督的效果好，所以本方案做一个有监督的模型，并且希望模型中既考虑视图间信息，也考虑视图内信息，从而使得学习到的公共空间更具判别性。基于此，本发明中提出了一种融合视频和WiFi信号的多模态特征融合方法来进行人体动作识别。

本方案中使用的三个数据集，在被采集人的两边架设了WiFi设备用于WiFi信号数据的采集，在被采集人得正面和侧面分别架设了两部相机用于视频数据的采集。为了满足实验设计的需求，我们在不同的角度(正面和侧面)进行视频录制，同时在录制的过程中对视频中的目标加入了各种形式的遮挡(随机遮挡和条纹遮挡)。该数据集对92个受试者进行采集，包含15个动作类别。

Vi-Wi15数据集：它包含了视频信息及其对应的WIFi信号CSI特征的数据；

Vi-Wi15(video)数据集：它只包含了Vi-Wi15数据集中的视频信息；

Vi-Wi15(WiFi)数据集：它只包含了Vi-Wi15数据集中的WIFi信号CSI信息。

以下给出本发明的具体实施例，需要说明的是本发明并不局限于以下具体实施例，凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。

实施例1：

本实施例提供一种基于多模态特征融合的人体动作识别方法，该方法利用多模态特征融合法将WiFi信号的CSI特征与视频特征进行融合，并将这两种特征映射到同一个公共空间上进行判别分析，最终识别出人体动作类别；如图1所示，将多模态数据集经过数据预处理模块将视频和Wifi处理为数字，再构建一个多模态特征融合模型求解映射矩阵的目标函数；再对该模型求解全局最优的映射矩阵，最后利用映射矩阵将输入的多模态样本映射到公共空间上再进行SVM分类，得到最后的分类结果。包括以下步骤：

步骤1，数据集预处理：Vi-Wi15数据集包括视频信息及其对应的Wifi信号的CSI信息数据；采用卷积神经网络提取Vi-Wi15数据集中的视频特征(视频包含4096维特征)，根据标准统计算法提取Vi-Wi15数据集中WiFi信号的CSI特征(提取出635维特征)，用主成分分析法(PCA)将Vi-Wi15数据集95％的能量进行保留，用以去除冗余信息从而简化数据；

将Vi-Wi15数据集定义为

通过该步骤得到了带有WiFi信号的视频动作数据集，满足了实验的需求，通过对实验场景的设置，得到的数据集可以模拟出真实环境中的监控视频受到外部环境的影响导致视频质量的下降，以用于对该工作识别新方法的实验论证。

在本实施例中，具体的，定义目标函数过程如下：

其中，S_b为类间散射矩阵，下标b是类间between-class，S_w为类内散射矩阵，下标w是类内within-class；

定义类间散射矩阵S_b和类内散射矩阵和S_w如下：

其中，是所有模态中第i类样本的平均矩阵，/>是所有模态中第i类的样本数，/>是公共空间中所有样本的平均矩阵，n是所有样本的数目，并且/>Y_ijk是X_ijk样本映射到公共空间上所对应的样本值；

定义R^m表示这个矩阵的大小，v₁ ^T和v₂ ^T是m*1的向量，v_l是矩阵V的第l列，此时S_b和S_w表述如下：

D和S的构造为：和/>它们是关于/>的块矩阵，其元素的定义如下：

其中，是第j个模态中第i类样本关于输入X_ijk的平均矩阵，/>为的转置；n_ij是第j个模态中第i类的样本数，/>是所有模态中第i类的样本数，n是所有样本的数目；c是类的个数；j＝1代表视频模态，j＝2代表WiFi模态；/>是第r个模态中第i类样本关于输入X_irk的平均矩阵，/>为/>的转置；n_ir是第r个模态中第i类的样本数，/>是所有模态中第i类的样本数；r＝1代表视频模态，r＝2代表WiFi模态；

因此，公式(1)目标函数又能被表示为：

其中，v₁ ^*是关于视频模态的最优映射矩阵，v₂ ^*为关于WiFi模态的最优映射矩阵；v₁是视频模态的映射矩阵，v₂是WiFi模态的映射矩阵，它们都是本公式中的自变量；V^T为映射矩阵转置的集合V^T＝{v₁ ^T，v₂ ^T}，V为映射矩阵的集合V＝{v₁，v₂}，D和S是关于的块矩阵。

该步：将视频特征和WiFi特征分别作为两种模态，通过多模态特征融合模型映射到公共空间上进行判别分析。这样可以充分利用两个模态之间的关系，保留了原始特征。相比于早期融合的将两个特征简单相加效果更好，使得最后的人体动作识别效果更佳。

由于步骤2无法获得关于多模态特征融合方法的全局最优解，为了解决这个问题，使用一种基于Newton-Raphson方法的迭代算法来解决迹比问题。然而，能直接使用Newton-Raphson方法解公式(8)，因为从公式(6)和公式(7)中很难确定矩阵S和D是否是正半定的。因此，先提出了关于解决这一困境的策略。

步骤3.1：将公式(6)和公式(7)中矩阵S和D变为半正定矩阵：

D＝D+e₁I (9)

S＝S+e₂I (10)

公式(11)最优解等同于求迹差函数的f(λ)＝0：

要使f(λ)＝0，此时的最优映射矩阵V^*为：

其中λ^*为最优的TR值。

利用Newton-Raphson迭代方法计算最优的TR值：初始化：t＝0，λ₀＝0

①计算的特征值；

其中k＝1,…,m；

其中是/>的前i个最大特征值；

③通过解决更新λ_t+1；

④计算|λ_t+1-λ_t|，当小于阈值ε(ε＝10^-4)时终止循环，此时得到最优的λ^*＝λ_t+1，再利用公式(13)计算出最优的映射矩阵V*。

通过上述步骤将迹比问题转化为迹差问题，从而直接用Newton-Raphson方法求解公式12，得到迹比(Trace Ratio，TR)问题的全局最优解。

该步骤：已知步骤2中提出的多模态特征融合模型求解迹比(Trace Ratio，TR)问题都是利用广义特征值求解，但是这样处理无法获得全局最优解，所得到的近似解会偏离结果。因此步骤3对于上述问题对TR问题使用Newton-Raphson方法求解全局最优解，但是在使用该方法必须要求矩阵S和D为半正定矩阵，因此我们提出了一个策略将对成矩阵变为半正定矩阵。由此可以得到该模型的全局最优解，以获得最优的人体动作识别结果。

映射到公共空间y上；

步骤4具体包括：

具体的，对于步骤4.1，采用Libsvm来进行分类；Libsvm中有多种核函数，用Vi-Wi15数据集进行测试选取最佳的核函数；

对于步骤4.2，对步骤4.1中选取最佳的核函数进行参数搜索，通过网格参数搜索(先从参数值比较大的范围开始搜索，确定具体范围后，在这个具体的范围内进行细致搜索)的方法选取核函数的最佳参数。

表1为针对两个数据集Vi-Wi15(video)数据集(该数据集的具体信息：样本维度4096，样本个数2760，种类个数15)和Vi-Wi15数据集(该数据集的具体信息：样本维度视频4096+WiFi635，样本个数2760，种类个数15)的SVM不同核函数选取的结果；从表1可以看到线性核的效果最好，加入WiFi信号的数据集ACC比只有视频特征的数据集效果更好，这也证明了加入WiFi信号可以对人体动作识别进行辅助分析。

表1 SVM不同核函数选取的结果

表2在正面无遮挡的情况下，为选取SVM不同的惩罚因子时候所对应的ACC值，可以看出在惩罚因子大于0.01的情况下，ACC结果最高且稳定。所以选取了0.1作为惩罚因子C的值。还可以看出在WiFi的辅助下，人体动作识别的效果更好。

表2SVM不同惩罚因子C选取的结果

数据集

0.0001

0.001

0.01

0.1

1

10

100

1000

Vi-Wi15(video)

47.61％

62.72％

65.51％

65.43％

Vi-Wi15

58.70％

75.07％

76.12％

76.05％

对于步骤4.3，在选取最佳的核函数和参数以后，采用交叉验证进行分类，得到最后分类的准确度。

该步骤：选取最佳的核函数及其参数能保证实验的可靠性和准确性，防止由于核函数及其参数的差异导致实验结果不理想。正确的选择有利于提升分类的效果。分类采用交叉验证的形式，确保实验结果不受因数据集中样本排列的顺序而导致的实验误差。

实施例2：

本实施例给出一种基于多模态特征融合的人体动作识别装置，包括：

动作识别单元，用于从得到的关于映射矩阵的全局最优解，再将其通过公式将多模态样本映射到公共空间y上，/>

性能分析：

(1)表3为三个数据集的具体信息：

表3三个数据集具体信息

数据集	样本维度	样本个数	种类个数
				Vi-Wi15	(视频4096+WiFi635)	2760	15
Vi-Wi15(video)	4096	2760	15
				Vi-Wi15(WiFi)	635	2760	15

(2)评价标准：按照本方案聚类算法具体实施步骤，完成动作识别分类任务。用准确率(ACC)作为分类性能的评估标准。ACC:对于数据集中的第i个样本，如果定义gⁱ作为最终获得的簇标签，h_i作为真实的标签，那么ACC的计算公式如下：

其中，N是训练集中的样本个数，map(g_i)是映射函数，用于把获得的簇标签映射到真正标签上；δ是一个实现x和y匹配的函数，如果x＝y，那么δ(x,y)＝1，反之是0。

(3)结果分析：

首先为了模拟视频角度，对原始视频帧应用了两种不同拍摄视角(正面拍摄视角和侧面拍摄视角)，并对表3三个数据集进行实验。

表4三个数据集性能评估结果

在表4中，显示了不同视角情况下的视频之间的比较，这些视角是在没有遮挡的情况下的正面和侧面视图。很容易看出侧面拍摄视角比正面拍摄视角有更好的性能。这意味着侧面拍摄视角可能更适合我们数据集的人体动作识别，这说明侧面拍摄视角包含了大部分信息，信息损失不严重。不仅如此，多模态特征融合方案要比早期融合的方法高10％左右，得到了优秀的人体动作识别效果。

表5三个数据集性能评估结果

其次，为了模拟真实世界的环境限制，对原始视频帧应用了两种遮挡模式(条纹遮挡和块状遮挡)，并分别对三个数据集进行实验。实验结果如表5所示。从表5中我们可以看到，当视频被条状或块状遮挡时，最后的性能相较于正面无遮挡的情况下的准确率下降了10％以上。并且在WiFi特征的帮助下，分类器的性能明显提高。并且多模态特征融合依旧发挥了最好的效果。

表6四种不同的多模态算法的分类准确度结果

场景	GMLDA	GMMFA	MvDA	MvDAvc	本发明方案
						正面无遮挡	76.23％	83.43％	82.50％	82.86％	82.86％
正面条纹遮挡	57.75％	63.44％	62.43％	64.35％	75.72％
						正面块状遮挡	61.63％	67.14％	68.26％	69.42％	80.29％
侧面无遮挡	78.91％	83.77％	83.80％	84.39％	90.40％

最后，表6显示了具有视频和WiFi的Vi-Wi15数据集在4种不同的场景(正面无遮挡，正面条纹遮挡，正面块状遮挡和侧面无遮挡)下用四种不同的多模态算法的分类准确度结果。从表6中可以看到：在所有4种情况和4种多模态算法中，本发明的方法产生的准确性最高，而且，该方法的性能在多峰方法中得到了突破性的改进。GMMFA，MvDA和MvDAvc都具有相似的性能，MvDAvc比MvDA略高于0.3％～2％。值得注意的是，本文中的GMLDA方法比其他算法低约6％，这表明GMLDA方法在Vi-Wi15数据集上效果不佳。

Claims

1.一种基于多模态特征融合的人体动作识别方法，其特征在于，该方法利用多模态特征融合法将WiFi信号的CSI特征与视频特征进行融合，并将两种特征通过多模态特征融合模型映射到一个公共空间上进行判别分析，最终识别出人体动作类别；包括以下步骤：

将Vi-Wi15数据集定义为c；j＝1,2；k＝1,…,n_ij}；

映射到公共空间y上；

最后采用线性SVM对映射到公共空间上的样本进行分类，最终识别出人体动作类别；

所述步骤3具体包括：

将公式(6)和公式(7)中矩阵S和D变为半正定矩阵：

D＝D+e₁I (9)

S＝S+e₂I (10)

公式(11)最优解等同于求迹差函数的f(λ)＝0：

要使f(λ)＝0，此时的最优映射矩阵V^*为：

其中λ^*为最优的TR(Trace ratio，迹比)值。

2.如权利要求1所述的基于多模态特征融合的人体动作识别方法，其特征在于，利用Newton-Raphson迭代方法计算最优的TR值：初始化：t＝0，λ₀＝0

①计算的特征值；

其中k＝1,…,m；

其中是/>的前i个最大特征值；

③通过解决更新λ_t+1；

3.如权利要求1所述的基于多模态特征融合的人体动作识别方法，其特征在于，所述步骤4具体包括：

4.一种基于多模态特征融合的人体动作识别装置，其特征在于，包括：

多模态特征融合模型的构建单元，用于将得到的视频特征和WiFi信号的CSI特征分别作为两种模态，建立多模态特征融合模型并定义用于求解映射矩阵的目标函数：

将公式(6)和公式(7)中矩阵S和D变为半正定矩阵：

D＝D+e₁I (9)

S＝S+e₂I (10)

公式(11)最优解等同于求迹差函数的f(λ)＝0：

要使f(λ)＝0，此时的最优映射矩阵V^*为：

其中λ^*为最优的TR(Trace ratio，迹比)值；