CN109977787A

CN109977787A - 一种多视角的人体行为识别方法

Info

Publication number: CN109977787A
Application number: CN201910156308.8A
Authority: CN
Inventors: 孔德慧; 孙彬; 王少帆; 李敬华; 王立春
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2019-07-05
Anticipated expiration: 2039-03-01
Also published as: CN109977787B

Abstract

公开一种多视角的人体行为识别方法，其能够有效地提取更具判别性、鲁棒的特征，从而提高了多视角的人体行为的识别精度。这种多视角的人体行为识别方法，包括以下步骤：(1)学习一组特定视角的迁移字典，使同一个动作在不同视角下的稀疏表示相同，使不同视角的动作特征迁移到稀疏空间中；(2)通过视角自适应变换模型，将稀疏表示从稀疏空间变换到新的共用空间，该模型联合学习了分布自适应模型、结构一致模型和判别信息保留模型。

Description

一种多视角的人体行为识别方法

技术领域

本发明涉及计算机视觉和模式识别的技术领域，尤其涉及一种多视角的人体行为识别方法。

背景技术

人体行为识别是机器学习和计算机视觉领域中一个重要的研究课题，在众多研究课题中得到广泛的应用，如人机交互，视频监控，运动检索和体育视频分析等。目前，在单视角人体行为识别方面已取得了令人满意的表现。但是，当视角发生变化时，性能会显著下降。主要原因是不同视角人体行为的表观差异很大，具体表现为背景、相机运动、照明条件和遮挡情况不同，严重影响到同一个动作在不同视角下的特征表示。因此，多视角的人体行为识别是一个具有挑战性的问题，为此，人们在过去几年提出了众多的解决方法。

现有的方法多使用自相似矩阵或视角不变的规范姿态和轨迹作为多视角动作的视角不变的特征表示。这类方法在视角变化程度小时，具有较好的识别性能。但对较大的视角差异不敏感。另外一种方法基于3D人体模型实现动作识别，这类方法通过几何变换实现在不同视角间的转换。然而，这类方法需要在许多模型参数空间上找到3D和2D之间的最佳匹配，计算效率较低。此外，这些方法的性能与3D模型的质量密切相关。尽管3D模型可以投影到尽可能多的视角，但这些离散的投影将不可避免地导致3D几何信息的丢失。

最近，迁移学习是一个热门的研究课题，其核心是找到源域和目标域之间的相似性，并加以合理利用，从而实现知识的迁移。基于迁移学习的方法在多视角行为识别方法中已获得良好的结果。这些方法将多视角行为识别视为迁移学习问题，并探索出不同视角的共用子空间。但是，当两个视角差异较大时，这些方法无法保证同一个动作在不同视角下的特征相似，因此，大大损害迁移学习的效果。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种多视角的人体行为识别方法，其能够有效地提取更具判别性、鲁棒的特征，从而提高了多视角的人体行为的识别精度。

本发明的技术方案是：这种多视角的人体行为识别方法，该方法包括以下步骤：

(1)学习一组特定视角的迁移字典，使同一个动作在不同视角下的稀疏表示相同，使不同视角的动作特征迁移到稀疏空间中；

(2)通过视角自适应变换模型，将稀疏表示从稀疏空间变换到新的共用空间，该模型联合学习了分布自适应模型、结构一致模型和判别信息保留模型。

本发明通过可迁移的特定视角字典将底层的特征迁移到视角无关的稀疏空间中，以较低维度的特征表示不同视角的运动；通过视角自适应变换模型，学习得到视角共用的变换矩阵，将不同视角的特征从稀疏空间投影到新的空间；所以能够有效地提取更具判别性、鲁棒的特征，从而提高了多视角的人体行为的识别精度。

附图说明

图1示出了根据本发明的多视角的人体行为识别方法的流程图。

图2示出了本发明方法在IXMAS数据库上不同视角不同动作类的识别结果。

图3示出了本发明方法在ACT4²数据库上不同视角不同动作类的识别结果。

具体实施方式

如图1所示，这种多视角的人体行为识别方法，该方法包括以下步骤：

优选地，所述步骤(1)中，特定视角的迁移字典的目标函数为公式(1)所示：

其中||·||_F是矩阵的Frobenious范数，是第v个视角的特定视角的字典，J是字典的原子个数，并且所有特定视角的字典的原子是相同的；X是稀疏矩阵，ρ是稀疏约束参数；获得了特定视角的字典后，通过正交匹配追踪算法计算相应视角样本的稀疏表示。

优选地，所述公式(1)中，D^v通过KSVD算法解决。

优选地，所述步骤(2)中，视角自适应变换模型包括：平衡分布自适应模型，局部结构一致模型和判别信息保留模型。

优选地，所述平衡分布自适应模型，用于评价边缘分布和条件分布的相对贡献，使用最大均值差异来计算视角之间的分布差异，假设R个源视角的数据为X_(s)＝[X₁,...,X_R]，目标视角的数据为X_(t)，特征空间和类别是相同的，但是边缘分布和条件分布均不同，P_r(X_r)≠P_t(X_(t))，P_r(l_r|X_r)≠P_t(l_t|X_(t))，其中和分别为源视角和目标视角的类标签，N_r和N_t分别为第r个源视角和目标视角的样本个数，平衡分布自适应模型的目标函数为公式(2)：

其中A为变换矩阵，N_r,c和N_t,c分别为第r个源视角和目标视角在第c个类的样本个数，X_r,c和X_t,c分别为第r个源视角和目标视角在第c个类的样本矩阵，μ为平衡参数；如果μ变小，意味着源视角和目标视角的差异较大，边缘分布自适应更重要，否则条件分布自适应更重要；因为目标视角的数据是没有类标签的，所以使用源视角的数据训练分类器来预测目标视角数据，以获得伪标签；由于目标视角样本的伪标签不可靠，所以基于上一次迭代的结果来改善预测结果。

优选地，所述局部结构一致模型的目标函数为公式(3)：

其中为源视角和目标视角所有样本的个数，为关联矩阵，矩阵中的每一个元素为两个样本的相似性：

优选地，所述判别信息保留模型的目标函数为公式(4)：

其中是第r个视角样本的标签矩阵，为第r个视角第n个样本的标签向量，它的第c个元素是1，其它元素是0。

优选地，所述视角自适应变换模型的目标函数为公式(5)：

优选地，该识别方法中使用的分类方法为最近邻分类法：如果一个测试样本在特征空间中最相邻的训练样本所属某一个类别，则该测试样本属于这个类别。

本发明已经应用到IXMAS数据库，ACT4²数据库，取得了良好的实验结果。表1、2为本发明方法与本领域主流方法在两个数据库上交叉视角识别的比较结果。交叉视角的识别指的是选用一个视角为测试视角，另一个视角为训练视角。表中每一行对应一个训练视角，每一列对应一个测试视角。每一格中的结果是本发明方法和其它方法的比较，其中每一小格中最后的数值为本发明方法的结果，其它数值为其它方法的结果。从表1可以看出本发明方法在IXMAS数据库的20种组合中的19种组合达到最好的结果，并且有17种情况达到了100％的识别率。从表2可以看出本发明方法在ACT4²数据库12种组合均优于其它方法，识别率均高于99％。通过这两个表可以看出，本发明方法对视角的变化是鲁棒的。即便两个视角差异很大，也可以获得较好的结果。

表3、4为本发明方法与其他方法在两个数据库上多视角识别的比较结果。多视角的识别指的是选用一个视角为测试视角，其它的所有视角为训练视角。表中每一列对应一个测试视角。从表3可以看出本发明方法在IXMAS数据库上能达到最好的结果，与Long等人提出的深度学习的方法达到相同的识别率。在测试视角4这一与其它视角差异较大的视角时，本发明方法能获得更好的性能。这进一步验证了本发明方法所提取的视角无关特征的有效性。从表4可以看出本发明方法在ACT4²数据库上的平均识别率是最优的，甚至优于Liu等人基于深度学习提取特征的方法。图2、3为本发明方法在两个数据库上不同视角不同动作类的识别结果。从两个图可以看出本发明方法在两个数据库上每个测试视角的每个动作类均能获取较好的结果。

表1

	视角0	视角1	视角2	视角3	视角4
						视角0	—	98.8,98.5,100	99.1,99.7,100	99.4,99.7,100	92.7,99.7,100
视角1	98.8,100,100	—	99.7,97.0,100	92.7,89.7,99.9	90.6,100,99.9
						视角2	99.4,99.1,100	96.4,99.3,100	—	97.3,100,100	95.5,99.7,100
视角3	98.2,90.0,100	97.6,99.7,100	99.7,98.2,100	—	90.0,96.4,100
						视角4	85.8,99.7,100	81.5,98.3,100	93.3,97.0,100	83.9,98.9,99.9	—
平均值	95.5,97.2,100	93.6,98.3,100	98.0,98.7,100	93.3,97.0,99.9	92.4,98.9,99.9

表2

	视角1	视角2	视角3	视角4
					视角1	—	92.86,93.33,99.07	92.81,93.59,99.31	92.81,93.11,99.21
视角2	92.85,93.19,99.27	—	92.85,93.58,99.26	92.86,93.25,99.33
					视角3	92.91,93.32,99.21	92.86,93.47,99.24	—	92.88,93.33,99.27
视角4	92.88,93.06,99.33	92.87,93.44,99.12	92.87,93.76,99.27	—
					平均值	92.88,93.19,99.27	92.87,93.41,99.14	92.84,93.64,99.28	92.85,93.23,99.27

表3

方法	视角0	视角1	视角2	视角3	视角4	平均值
							Junejo et al.	74.8	74.5	74.8	70.6	61.2	71.2
liu et al.	86.6	81.1	80.1	83.6	82.8	82.8
							Weinland et al.	86.7	89.9	86.4	87.6	66.4	83.4
Yan et al.	91.2	87.7	82.1	81.5	79.1	84.3
							Hao et al.	97.9	96.7	94.6	97.9	97.9	97.0
Zheng et al.	99.7	99.7	98.8	99.4	99.1	99.3
							Liu et al.	99.8	99.3	99.8	99.8	99.5	99.6
Kong et al.	100	99.7	100	100	99.4	99.8
							本发明的方法	99.9	99.8	99.9	99.7	99.5	99.8

表4

方法	视角1	视角2	视角3	视角4	平均值
						Junejo et al.	83.1	80.5	77.9	75.2	79.2
Yan et al.	84.6	86.7	80.0	82.1	83.4
						Zheng et al.	93.3	93.2	93.4	93.3	93.3
Liu et al.	98.6	98.6	98.7	98.7	98.7
						本发明的方法	98.9	98.6	98.6	99.0	98.8

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种多视角的人体行为识别方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的多视角的人体行为识别方法，其特征在于：所述步骤(1)中，特定视角的迁移字典的目标函数为公式(1)所示：

3.根据权利要求2所述的多视角的人体行为识别方法，其特征在于：所述公式(1)中，D^v通过KSVD算法解决。

4.根据权利要求3所述的多视角的人体行为识别方法，其特征在于：所述步骤(2)中，视角自适应变换模型包括：平衡分布自适应模型，局部结构一致模型和判别信息保留模型。

5.根据权利要求4所述的多视角的人体行为识别方法，其特征在于：所述平衡分布自适应模型，用于评价边缘分布和条件分布的相对贡献，使用最大均值差异来计算视角之间的分布差异，假设R个源视角的数据为X_(s)＝[X₁,,X_R]，目标视角的数据为X_(t)，特征空间和类别是相同的，但是边缘分布和条件分布均不同，P_r(X_r)≠P_t(X_(t))，P_r(l_r|X_r)≠P_t(l_t|X_(t))，其中和分别为源视角和目标视角的类标签，N_r和N_t分别为第r个源视角和目标视角的样本个数，平衡分布自适应模型的目标函数为公式(2)：

6.根据权利要求5所述的多视角的人体行为识别方法，其特征在于：所述局部结构一致模型的目标函数为公式(3)：

7.根据权利要求6所述的多视角的人体行为识别方法，其特征在于：所述判别信息保留模型的目标函数为公式(4)：

8.根据权利要求7所述的多视角的人体行为识别方法，其特征在于：所述视角自适应变换模型的目标函数为公式(5)：

9.根据权利要求8所述的多视角的人体行为识别方法，其特征在于：该识别方法中使用的分类方法为最近邻分类法：如果一个测试样本在特征空间中最相邻的训练样本所属某一个类别，则该测试样本属于这个类别。