CN109086659B

CN109086659B - 一种基于多模道特征融合的人体行为识别方法和装置

Info

Publication number: CN109086659B
Application number: CN201810607403.0A
Authority: CN
Inventors: 丁润伟; 何侵嵚; 金永庆; 刘宏
Original assignee: Shenzhen Gandong Smart Technology Co ltd; Peking University Shenzhen Graduate School
Current assignee: Shenzhen Gandong Smart Technology Co ltd; Peking University Shenzhen Graduate School
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2023-01-31
Anticipated expiration: 2038-06-13
Also published as: CN109086659A

Abstract

本发明涉及一种基于多模道特征融合的人体行为识别方法和装置。该方法包括：1)针对输入的深度图像序列构建自适应分层结构；2)在自适应分层结构的每个层级提取DMM特征；3)串联每个层级的DMM特征，构建自适应深度运动图特征作为深度图像通道特征；4)针对输入的骨架图像序列选取相对稳定的骨架关节点作为参考关节点；5)计算每帧内的其余关节点与参考关节点的位移差，作为每帧内的特征表达；6)联合整个骨架图像序列，得到一个动作序列的特征表达作为骨架图像通道特征；7)通过特征融合并对融合后的特征进行分类，得到人体行为识别结果。本发明能够同时描述人体的时序运动信息以及空间结构信息，具有良好的识别效果和鲁棒性。

Description

一种基于多模道特征融合的人体行为识别方法和装置

技术领域

本发明涉及一种基于多模道特征融合的人体行为识别方法和装置，首先，从深度序列模道提出一个全新的描述子：自适应深度运动图，用于描述人体时序运动信息。然后，基于骨架序列模道提出关节点位移描述子用于描述人体的空间结构信息。最后采用两种融合策略：决策层融合方法和特征层融合方法将两个特征描述子融合用于人体行为的识别。

背景技术

人体行为识别是计算机视觉领域旳一个重要研究方向，有着重要的理论研究意义。其研究目的是对一个未知视频中的连续图像序列自动分析其正在进行的活动。人体行为识别在智能监控、人机交互、智能机器人、虚拟现实和运动分析等领域有着广泛的应用。传统行为识别大都作用在RGB图像序列上，然而，由于颜色成像传感器固有的局限性，人体行为识别依然存在很多难点，比如光照变化、动态背景、相似前景背景等。近年来，随着深度摄像机的普及(微软Kinect等)，获得深度信息的代价急速下降，人体行为识别进入了新的发展方向。相比于RGB彩色数据，深度数据具有对光照变化不敏感，以及提供人体的空间三维信息等优点。

目前基于深度数据的方法大多数基于单一数据模道，如基于深度图像的深度运动图(DMM,Depth Motion Maps)方法，基于骨架图像的本征关节点(EigenJoints)方法。然而单一模道存在固有的缺陷，深度图像难以描述人体的空间结构，骨架图像仅仅有关节点位置信息而丢失很多细节。这使得从单一数据模道中提取更具描述性和判别性的行为描述子仍具有挑战性。其中DMM见文献“X.Yang,C.Zhang,and Y.Tian,“Recognizing actionsusing depth motion maps-based histograms of oriented gradients,”in.ACM MM,pp.1057–1060,2012.”，EigenJoints见文献“Yang X,Tian Y。Eigenjoints-based actionrecognition using naive-bayes-nearest-neighbor[C]//Computer vision andpattern recognition workshops(CVPRW),2012”。

发明内容

针对上述问题，本发明提出了一种基于多模道特征融合的人体行为识别方法和装置，该方法考虑到深度图像特征与骨架特征各自优势以及互相弥补的作用，能够同时描述人体的时序运动信息以及空间结构信息，具有良好的识别效果和鲁棒性。

一种基于多模道特征融合的人体行为识别方法，包括以下步骤：

1)针对输入的深度图像序列，构建自适应分层结构；

2)在自适应分层结构的每个层级，对输入的深度图像序列提取DMM特征；

3)串联每个层级的DMM特征，构建自适应深度运动图特征(AdaptiveHierarchical Depth Motion Maps，AH-DMMs)，此特征作为深度图像通道特征；

4)针对输入的骨架图像序列，选取相对稳定的骨架关节点作为参考关节点；

5)计算每帧内的其余关节点与参考关节点的位移差，作为每帧内的特征表达；

6)联合整个骨架图像序列，得到一个动作序列的特征表达，此特征作为骨架图像通道特征；

7)对深度图像通道特征和骨架图像通道特征进行融合，并采用分类器对融合后的特征进行分类，得到人体行为识别结果。

进一步地，步骤7)采用两种融合策略：决策层融合方法和特征层融合方法，将两个特征描述子融合。

进一步地，步骤7)采用协同表示分类器(Collaborative RepresentationClassifier,CRC)进行分类。

一种基于多模道特征融合的人体行为识别装置，其包括：

深度图像通道特征提取模块，负责针对输入的深度图像序列，构建自适应分层结构；然后在自适应分层结构的每个层级，对输入的深度图像序列提取DMM特征；然后串联每个层级的DMM特征，构建自适应深度运动图特征，作为深度图像通道特征；

骨架图像通道特征提取模块，负责针对输入的骨架图像序列，选取相对稳定的骨架关节点作为参考关节点；然后计算每帧内的其余关节点与参考关节点的位移差，作为每帧内的特征表达；然后联合整个骨架图像序列，得到一个动作序列的特征表达，作为骨架图像通道特征；

特征融合及分类模块，负责对深度图像通道特征和骨架图像通道特征进行融合，并采用分类器对融合后的特征进行分类，得到人体行为识别结果。

进一步地，所述特征融合及分类模块采用决策层融合方法和特征层融合方法对深度图像通道特征和骨架图像通道特征进行融合，采用协同表示分类器进行分类。

本发明的有益效果是：

本发明基于深度图像模道所提出的自适应层级深度运动图描述子采用多尺度时序窗采样方法用于编码时序运动信息，能保留更丰富的人体运动信息与形状信息。而且基于能量采样的自适应时间结构使得本方法对被试者的速度变化具有鲁棒性。其次本发明基于骨架关节点提取相对位移特征，能更有效地描述人体的结构和局部形状信息。通过将两个模道的时序运动特征与空间结构特征融合，能够充分利用互补优势，有效提高行为识别正确率。

附图说明

图1是本发明方法的步骤流程图；

图2是自适应分层模型示意图。

具体实施方式

下面通过具体实施例和附图，对本发明作进一步说明。

图1为基于多模道特征融合的人体行为识别方法流程图，包括以下几个步骤：

步骤1：提取AH-DMMs特征

第一步：给定一个具有N帧深度图像的人体行为视频序列S＝[I¹，I²，…，Iⁱ,…,I^N]，Iⁱ表示第i帧深度图像。为了充分利用深度信息，把每一帧的深度值向三个正交方向投影即：

Iⁱ→{map_f,map_s,map_t}

得到正投影map_f，侧投影map_s和俯视投影map_t。然后在这三个方向上，将t与t-1帧之间的深度图进行比较，去找出他们的运动区域，再按时间排序把他们三个累加起来，构成三个方向上的运动特征。数学表达式如下：

其中i表示第i帧,i＝2,3,…,N，ε表示阈值，N为视频序列的总帧数。

第二步：对视频序列的每一帧计算其能量，本实施使用帧间运动区域面积的累计值作为运动能量估计，对于一个有N帧的视频序列，其第i帧的累积能量定义为：

其中，num(·)返回的是二值图像中的非0元素个数，v＝{1,2,3}表示三个投影面。得到视频序列每一帧的能量之后，按照能量进行分分层，构建自适应分层模型，如图2所示。第1层为不分割的整个视频，窗口大小为N，包含的能量为ME(N)；在第二层，每个窗口大小所包含的能量为1/2ME(N),按照步长为1/4ME(N)沿着视频序列滑动；图2中H_lj表示第l层第j个窗口；

第三步：在每层的每个子序列窗口，分别提取特征DMM_i,，最后将其串联，得到最终的自适应层级深度运动图(Adaptive Hierarchical Depth Motion Maps,AH-DMM)描述子，具体公式为：AH-DMMs＝[DMM₁,DMM₂,...,DMM_L]

步骤2：本发明采用Gabor滤波器进行纹理信息增强，将得到的AH-DMMs与Gabor核函数进行卷积操作，得到更为紧凑的直方图特征向量。

步骤3：提取骨架关节点特征

第一步：令骨架序列由N帧组成，对每一帧骨架图像，选取臀部中心(hip center)关节点作为参考关节点，记作

其中k∈(1,…,N),r表示参考关节点是第k帧中的第r个关节点，r的值为固定值。

第二步：第k帧上的第i个骨架关节点记为

m表示每帧骨架关节点上的关节总数。计算当前帧中关节点相对于参考关节点的绝对位置：

即为参考关节点相对位移特征(Reference Joint Based Distance Feature，RDF)。

第三步：计算m个关节点的相对位移特征作为一帧骨架图的特征描述，串联整个骨架序列，得到一个动作序列的特征表达。

步骤4：特征融合。为了探究不同融合方法对实验结果的影响，本实施采用特征层融合和决策层融合两种融合方法，这两种融合方法是相互独立的。

1)特征层融合：基于深度图像模道的特征向量为AH-DMMs，基于骨架图像模道的特征向量为RDF，则融合得到的特征为：

F＝[AH-DMMs,RDF]

将融合后的特征F输入到协同表示分类器中进行训练和分类，为了修饰特征值的大小，通常会在特征融合之前将两个特征进行归一化处理。

2)决策层融合。将基于深度图像模道的AH-DMMs特征和基于骨架图像模道的RDF特征分别输入两个分类器中进行模型训练，每个测试序列的单个分类器输出结果为{p(1),p(2),…,p(C)}，p(j)表示该分类器将测试序列分类为类别j的概率。本实施采用对数意见池规则，将多个分类器的概率融合输出最后的决策结果，即人体行为识别结果。

本发明另一实施例提供一种基于多模道特征融合的人体行为识别装置，其包括：

其中，所述特征融合及分类模块采用决策层融合方法和特征层融合方法对深度图像通道特征和骨架图像通道特征进行融合，采用协同表示分类器进行分类。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于多模道特征融合的人体行为识别方法，其特征在于，包括以下步骤：

1)针对输入的深度图像序列，构建自适应分层结构；

2)在自适应分层结构的每个层级，对输入的深度图像序列提取特征DMM_i；

3)串联每个层级的DMM_i特征，构建自适应深度运动图特征AH-DMM，作为深度图像通道特征；

6)联合整个骨架图像序列，得到一个动作序列的特征表达，作为骨架图像通道特征；

7)对深度图像通道特征和骨架图像通道特征进行融合，并采用分类器对融合后的特征进行分类，得到人体行为识别结果；

其中，步骤1)包括：

1.1)给定一个具有N帧深度图像的人体行为视频序列S＝[I¹，I²，…，Iⁱ,…,I^N]，Iⁱ表示第i帧深度图像，把每一帧的深度值向三个正交方向投影，得到正投影map_f，侧投影map_s和俯视投影map_t；然后在这三个方向上，将t与t-1帧之间的深度图进行比较，找出运动区域，再按时间排序累加起来，构成三个方向上的运动特征；所述三个方向上的运动特征为：