CN113642499B

CN113642499B - 基于计算机视觉的人体行为识别方法

Info

Publication number: CN113642499B
Application number: CN202110966483.0A
Authority: CN
Inventors: 李庆辉; 王依刚; 蔡艳平; 崔智高; 苏延召; 姜柯
Original assignee: Rocket Force University of Engineering of PLA
Current assignee: Rocket Force University of Engineering of PLA
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2024-05-24
Anticipated expiration: 2041-08-23
Also published as: CN113642499A

Abstract

本发明涉及计算机视觉技术领域，具体公开了一种基于计算机视觉的人体行为识别方法，提取源域中行为视频的底层特征所构成的矩阵，得到第一特征矩阵；提取目标域中行为视频的底层特征所构成的矩阵，得到第二特征矩阵；利用联合矩阵分解技术将第一特征矩阵和第二特征矩阵同时进行分解，共享两个领域的隐含特征矩阵；将隐含特征矩阵构成的空间定义为源域和目标域的公共隐含语义空间；待算法学习到原始视频数据到公共隐含语义空间的线性映射矩阵和线性分类器，在识别行为视频时利用线性映射矩阵直接映射到公共隐含语义空间得到隐含语义表示，再采用线性分类器对语义表示向量进行分类，以此提升计算机人体行为识别的准确率。

Description

基于计算机视觉的人体行为识别方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于计算机视觉的人体行为识别方法。

背景技术

人体行为识别属于计算机视觉中的高层次任务，在智能监控、人机交互、基于内容的视频检索等领域有着巨大的应用前景，是当前计算机视觉领域的研究热点之一。

但是现有的人体行为识别方法的行为识别准确率偏低。

发明内容

本发明的目的在于提供一种基于计算机视觉的人体行为识别方法，旨在解决现有技术中的人体行为识别方法的行为识别准确率偏低的技术问题。

为实现上述目的，本发明采用的一种基于计算机视觉的人体行为识别方法，包括如下步骤：

提取源域中行为视频的底层特征所构成的矩阵，得到第一特征矩阵；

提取目标域中行为视频的底层特征所构成的矩阵，得到第二特征矩阵；

利用联合矩阵分解技术将第一特征矩阵和第二特征矩阵同时进行分解，共享两个领域的隐含特征矩阵；

将隐含特征矩阵构成的空间定义为源域和目标域的公共隐含语义空间，再以公共隐含语义空间为载体实现知识迁移；

待算法学习到原始视频数据到公共隐含语义空间的线性映射矩阵和线性分类器，在识别行为视频时利用线性映射矩阵直接映射到公共隐含语义空间得到隐含语义表示，再采用线性分类器对语义表示向量进行分类。

其中，联合矩阵分解表示矩阵转化为多个矩阵的乘积。

其中，在利用联合矩阵分解技术将第一特征矩阵和第二特征矩阵同时进行分解的步骤中引入信息矩阵。

其中，对于训练集以外的数据，算法通过线性映射的方式将目标域待分类行为视频直接映射到公共隐含语义空间，得到对应的隐含语义表示。

其中，在引入信息矩阵的步骤中：

首先需要定义源域和目标域样本间的相关性，给出相关性度量方法；

然后定义同一领域内样本两两之间的局部相似性度量方法；

在将源域和目标域的数据映射到公共隐含语义空间时，通过定义对应目标函数来保留不同领域间的标签一致性信息和相同领域内的局部几何结构信息。

本发明的一种基于计算机视觉的人体行为识别方法，通过提取源域中行为视频的底层特征所构成的矩阵，得到第一特征矩阵；提取目标域中行为视频的底层特征所构成的矩阵，得到第二特征矩阵；利用联合矩阵分解技术将第一特征矩阵和第二特征矩阵同时进行分解，共享两个领域的隐含特征矩阵；将隐含特征矩阵构成的空间定义为源域和目标域的公共隐含语义空间，再以公共隐含语义空间为载体实现知识迁移；待算法学习到原始视频数据到公共隐含语义空间的线性映射矩阵和线性分类器，在识别行为视频时利用线性映射矩阵直接映射到公共隐含语义空间得到隐含语义表示，再采用线性分类器对语义表示向量进行分类。以此提升计算机人体行为识别的准确率。

具体实施方式

本发明提供了一种基于计算机视觉的人体行为识别方法，包括如下步骤：

联合矩阵分解表示矩阵转化为多个矩阵的乘积。

在利用联合矩阵分解技术将第一特征矩阵和第二特征矩阵同时进行分解的步骤中引入信息矩阵。

对于训练集以外的数据，算法通过线性映射的方式将目标域待分类行为视频直接映射到公共隐含语义空间，得到对应的隐含语义表示。

在引入信息矩阵的步骤中：

然后定义同一领域内样本两两之间的局部相似性度量方法；

联合矩阵分解技术的数学表达式为：X_s＝f₁(U_sZ)和X_t＝f₂(U_tZ)，式中f(·)为映射函数，X_s表示第一特征阵列，X_t表示第二特征矩阵，Z是决定行为视频类别的共同因素，U_s和U_t分别是源域和目标域特有的区别因素。

将上式简化，取X_s＝U_sZ和X_t＝U_tZ，损失函数取二范数形式，则得到二者的损失之和为：

式中，为源域的矩阵分解误差，/>为目标域的矩阵分解误差，第三项是控制过拟合正则项，λ为正则化参数。

在本实施方式中，设定X_s表示源域中行为视频的底层特征所构成的矩阵，其中每个行为视频的特征表示长度为d₁，即X_t表示目标域中行为视频的底层特征所构成的矩阵，其中每个行为视频的特征表示长度为d₂，即X_s和X_t来源于两个不同但相关的域，具有不同的特征分布，但领域之间通常存在某种公共知识结构，行为类别一般由这种共性特征决定。例如，监控摄像机所记录的跑步行为与训练数据集(如UCF101数据集)中的跑步行为，二者虽然存在视角、背景和执行主体等的不同，但均存在抬腿、摆臂等基本动作。因此对于这两个行为视频域可以假设存在三个因素(即三个矩阵)：/>和Z∈R^k×N，其中Z是决定行为视频类别的共同因素，U_s和U_t分别是源域和目标域特有的区别因素。

为利用源域标注样本来帮助提高目标域行为视频分类，采用联合矩阵分解技术将特征矩阵X_s和X_t同时进行分解，共享两个领域的隐含特征矩阵Z，将隐含特征矩阵Z构成的空间定义为源域和目标域的公共隐含语义空间，再以这个空间为载体实现知识迁移。同时，为保留不同领域间的样本数据的标签一致性信息和每个领域内的局部几何结构信息，在联合矩阵分解过程中引入一个信息矩阵。算法最后学习到原始视频数据到公共隐含语义空间的线性映射矩阵(Linear Projection Matrix)和线性分类器(Linear Classifier)，在识别行为视频时利用线性映射矩阵直接映射到公共隐含语义空间得到隐含语义表示，再采用线性分类器对语义表示向量进行分类。

联合矩阵分解技术的数学表达式为：X_s＝f₁(U_sZ)和X_t＝f₂(U_tZ) (1)

式中f(·)为映射函数。如果将上式进一步简化，取X_s＝U_sZ和X_t＝U_tZ，损失函数取二范数形式，则可以得到二者的损失之和为：

式中，为源域的矩阵分解误差，/>为目标域的矩阵分解误差，第三项是控制过拟合正则项，λ为正则化参数。矩阵分解(MatrixFactorization，MF)是把矩阵转化为多个矩阵的乘积，上式中将X_s转化为U_s和Z的乘积、将X_t转化为U_t和Z的乘积。对X_s和X_t的转化结果存在公共的Z∈R^k×N，故式(2)是基于联合矩阵分解建立的目标函数。通过上述矩阵分解步骤，对源域和目标域两个领域的数据建立一个公共隐含语义空间，k为公共隐含语义表示的向量长度。Z中第i个列向量z_i是源域中第i个行为视频/>和目标域中对应的行为视频/>共同的隐含语义表示。

对于训练集以外的数据，算法通过线性映射的方式将目标域待分类行为视频直接映射到公共隐含语义空间，得到对应的隐含语义表示。对于源域的待分类行为视频

同理，对于目标域的待分类行为视频

式中，和/>分别是源域和目标域的线性映射矩阵。在建立了源域和目标域视频样本的公共隐含语义空间后，由式(3)和式(4)可得线性映射的目标函数为：

信息矩阵中，信息反映了领域间的相关性和领域内的相似性，在将源域和目标域的数据利用联合矩阵分解技术映射到公共隐含语义空间的过程中，保留这些信息可以使该语义空间中的语义表示更具判别力，从而进一步提高行为识别系统的分类能力。

为充分利用训练样本的标签(Label)信息，首先定义源域和目标域样本间的相关性，给出相关性度量方法

式中表示源域/>的标签，/>表示目标域/>的标签。

然后，定义同一领域内样本两两之间的局部相似性度量方法

式中N_K(·)表示利用K-NN算法获取的K个最近邻样本集合。

在将源域和目标域的数据映射到公共隐含语义空间时，通过定义如下目标函数来保留不同领域间的标签一致性信息和相同领域内的局部几何结构信息

式中，第一项根据领域间的相关性，确保相同类别标签的行为视频在公共隐含语义空间中的语义表示类似；第二项、第三项根据领域内的相似性，确保行为视频在公共隐含语义空间中仍能保持原领域的局部几何结构，亦即行为视频在原领域和公共隐含语义空间中保持相同的近邻关系。

式(9)中的目标函数可以化简为：

式中，为W∈R^N×N的元素。D∈R^N×N是一个对角矩阵(DiagonalMatrix)，主对角线上的元素值d_ii是参数矩阵W对应的每列元素值的和/>主对角线之外的元素均为0。其中矩阵L(L＝D-W)即为本章的信息矩阵，可以保留相同领域内的局部几何结构信息和不同领域间的标签一致性信息。

在获得源域和目标域的行为视频样本的隐含语义表示后，需要进一步采用分类器来对这些表示向量进行分类。为了问题的简化，本章选择一个线性分类器来实现特征向量的分类，目标函数(损失函数)为

式中，T∈R^m×k为线性分类器的系数矩阵，H＝[h₁,h₂,…,h_N]∈R^m×N为训练样本的行为类别标签，m为行为类别总数，H的每一个列向量h_i＝[0,0,…,1…,0,0]^T∈R^m为行为类别的独热编码(One-Hot Label Vector)，即只有行为类别对应位置的元素为1，其余位置元素均为0。

基于联合矩阵分解的跨域行为识别算法的目标函数包含四部分：联合矩阵分解项L_mf、线性映射项L_lp、领域间标签信息和领域内局部几何结构信息保持项L_sc、线性分类项L_lc，因此综合式(2)、式(5)、式(10)和式(11)，可得算法的全局目标函数为：

式中，最后一项为正则化项，分析式(12)可知，全局目标函数中存在六个参数：U_s、U_t、P_t、P_s、T和Z，直接在训练样本集上学习这些参数矩阵明显是个非常困难的非凸优化问题，因此需要将其转化为易于求解的凸优化问题。在每次训练时如果只考虑其中一个参数而固定其余参数，对于这个参数来说全局目标函数就是个凸函数，此时可用凸优化方法对这个参数进行更新。采用这种不断迭代至最优解的方式可以从训练样本集中学习到全局目标函数的六个参数。

综上，本章基于联合矩阵分解的跨域行为识别算法具体为：

另外在人体行为识别方法中，还包括基于限制密集轨迹与改进VLAD的行为识别、基于有序光流图和双流卷积网络的行为识别、基于几何特征和时序注意递归网络的行为识别，但是本发明采用的基于联合矩阵分解的跨域行为识别方法其精确率相对于基于限制密集轨迹与改进VLAD的行为识别、基于有序光流图和双流卷积网络的行为识别、基于几何特征和时序注意递归网络的行为识别的准确率来说更高。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于计算机视觉的人体行为识别方法，其特征在于，包括如下步骤：

待算法学习到原始视频数据到公共隐含语义空间的线性映射矩阵和线性分类器，在识别行为视频时利用线性映射矩阵直接映射到公共隐含语义空间得到隐含语义表示，再采用线性分类器对语义表示向量进行分类；

联合矩阵分解表示矩阵转化为多个矩阵的乘积；在利用联合矩阵分解技术将第一特征矩阵和第二特征矩阵同时进行分解的步骤中引入信息矩阵。

2.如权利要求1所述的基于计算机视觉的人体行为识别方法，其特征在于，

3.如权利要求2所述的基于计算机视觉的人体行为识别方法，其特征在于，在引入信息矩阵的步骤中：

然后定义同一领域内样本两两之间的局部相似性度量方法；