CN108241849A

CN108241849A - 基于视频的人体交互动作识别方法

Info

Publication number: CN108241849A
Application number: CN201710750516.1A
Authority: CN
Inventors: 叶青; 郭新然; 张永梅
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2017-08-28
Filing date: 2017-08-28
Publication date: 2018-07-03
Anticipated expiration: 2037-08-28
Also published as: CN108241849B

Abstract

本发明公开一种基于视频的人体交互动作识别方法，包括以下步骤：S1：对输入的视频帧图像采用帧间差分法进行运动目标检测；S2：对处理后获得的运动目标进行特征提取，包括：S21：对处理后获得的运动目标采用局部时空特征与全局光流特征相结合的方式提取人体交互动作特征；S22：对所述光流和时空兴趣点进行描述，形成特征描述子HOF和HOG；S23；将所述局部时空特征与全局光流特征分别通过BP神经网络，以获得在某一特征下动作类别的概率矩阵；S3：通过对利用不同特征得到的概率矩阵赋予不同权值进行加权求和以得到融合概率矩阵，概率最大的动作类别即为该帧的动作类别；S4：将初始分类序列输入到改进的正态分布BP神经网络中，获得最终的交互动作分类。

Description

基于视频的人体交互动作识别方法

技术领域

本发明属于计算机视觉领域，可用于人体交互姿态或动作分析研究。

背景技术

基于视觉的人体交互动作分析一直都是计算机视觉领域的研究热点之一，其不仅具有重要的理论意义，而且具有广阔的应用前景。在智能视频监控系统中，由于“抢劫”“打架”等现象的存在，对场景中人与人的交互动作分析与理解技术的重要性显的尤为突出；在巨大的视频数据库中，人的交互动作识别可以根据预先定义的动作模式自动检索，使得在视频数据库中检索特定的事件变得非常方便；虚拟现实主要通过计算机对复杂数据进行可视化操作和仿真模拟，创建出虚拟的仿真场景，并基于人体运动模式对人体建模，以在此场景中实现和处理人与虚拟世界的交互。另外，人体交互行为检测和识别研究在视频会议、医学临床诊断等领域也起着相当重要的作用，有着广阔的应用前景。

人体交互行为识别主要是从视频中捕捉到运动目标，对其提取可以表示某一动作的特征，进行分类表示。但是由于人体是非刚性物体，其运动特征多，轨迹多变，细节信息量巨大，而且两人进行交互动作时易发生遮挡，导致自动捕捉和分析人体运动有较大的难度。上述传统方法大部分都是首先对单人原子行为进行分析，再通过相关方法实现交互行为识别。当交互人体不能精确分割时，将影响识别率。且当进行交互动作时，不同动作阶段对最终分类提供的信息量不同，但上述传统方法未考虑这一点。

因此，相对于已经取得不错效果的单人行为识别，交互动作识别已经成为人们的研究重点。

发明内容

本发明的目的在于，针对现有人体交互动作识别方法中很难有效的提取人与人交互动作中的特征、建立多个目标之间的复杂交互模型问题，提供一种基于视频的人体交互动作识别技术。

为达上述目的，本发明采用的技术方案如下所示：

一种基于视频的人体交互动作识别方法，包括以下步骤：

S1：对输入的视频帧图像进行处理，采用帧间差分法进行运动目标检测，检测公式为：

其中，x,y表示图像中横纵坐标位置，D_t(x,y)表示帧差图像中(x,y)点的像素值，I_t(x,y)表示t时刻图像(x,y)点的像素值，I_t-1(x,y)表示t-1时刻图像(x,y)点的像素值， R_t(x,y)表示检测结果，值为1表示图像(x,y)点为运动目标，值为0表示图像(x,y) 点为背景，T表示设定的阈值；

S2：对处理后获得的运动目标进行特征提取；该步骤分别包括以下内容： S21：提取模块用于对对处理后获得的运动目标采用局部时空特征与全局光流特征相结合的方式提取人体交互动作特征；S22：对所述光流和时空兴趣点进行描述，形成特征描述子HOF和HOG；S23；将所述局部时空特征与全局光流特征分别通过BP神经网络，以获得在某一特征下动作类别的概率矩阵；

S3：通过对利用不同特征得到的概率矩阵赋予不同权值进行加权求和，以得到融合概率矩阵，从中找到概率最大的动作类别即为该帧的动作类别，分类公示如下：

P＝W_a*P_a+W_b*P_b；

其中P代表该帧的动作类别融合概率，W_a代表特征A的权值，P_a代表通过特征A得到的该帧动作类别概率，W_b代表特征B的权值，P_b代表通过特征B 得到的该帧动作类别概率；

S4：通过将初始分类序列输入到改进的正态分布BP神经网络中，从而获得最终的交互动作分类，实现人体交互动作识别。

根据本发明提出的基于视频的人体交互动作识别方法，所述光流特征是通过Lucas-Kanade算法来计算的，所述算法是一种两帧差分的光流估计算法，计算两帧在时间t到t+δt之间每个像素点未知的移动，其中t表示某一时刻t，δt 表示一个很小的时间变化区域；根据图像序列计算光流的公式如下所示：

f_xu+f_yv+f_t＝0

其中，f_x，f_y，f_t分别表示图像中像素点的灰度沿X,Y,T三个方向的偏导数，u,v分别表示光流的水平方向和垂直方向的移动分量。

根据本发明提出的人体交互动作识别方法，视频序列的所述时空兴趣点是通过基于Harris角点的时空特征点提取算法进行提取的；根据以下公式建立时空角点矩阵：

上述函数g中的第一个因数是点·,具体表述为

其中，L_x,L_y,L_t空间分别为图像在(x,y,t)方向上的梯度，是空间域尺度因子，是时间域尺度因子，g为高斯核函数定义如下：

根据下式确定所求的时空兴趣点：

H＝det(M)-k*trace³(M)＝λ₁λ₂λ₃-k(λ₁+λ₂+λ₃)³

H值最大的点即为所求的兴趣点,矩阵M的三个特征值λ₁，λ₂，λ₃分别对应着视频序列I在(x,y,t)三个方向上的变化，当这三个值都比较大时，表示视频序列I在这三个方向上的变化都很大，因此这一点即为时空兴趣点。

根据本发明提出的基于视频的人体交互动作识别方法，所述光流的大小和方向分别通过下述公式计算：

其中V_x(x,y)和V_y(x,y)分别表示x轴方向和y轴方向的光流分量；

根据下式得到光流方向直方图H＝(G₁，G₂…G_b)：

其中，b_k为第K个方向区间，且k＝1,2，…,b，这里b为把360度的光流方向划分为等分扇形区的个数。

根据本发明提出的基于视频的人体交互动作识别方法，所述改进的正态分布BP神经网络，其学习过程由正向传播和反向传播两部分组成；输入数据从输入层经过隐含层神经元处理后，传入输出层，每一层神经元的状态只影响下一层神经元的状态；如果输出层得不到期望的输出，则转入反向传播，此时误差信号从输出层传播并调整各层间连接权值和阈值，使得误差不断减小，直到达到精度要求。

与现有技术相比，本发明具有以下有益效果：

传统的人体交互动作识别方法中，大部分都是首先对单人原子行为进行分析，再通过相关方法实现交互行为识别。当交互人体不能精确分割时，将影响识别率，而且没有考虑到不同动作阶段对识别提供的信息量不同。本发明针对这些问题，考虑了解决方案，本方法将交互的人看作一个整体，提取局部时空特征和全局特征，降低了对精确分割的要求和特征的局限性。通过改进的正态分布BP神经网络进行交互动作的分类识别，提高了分类的合理性。

附图说明

图1为本发明的人体交互动作识别方法一具体实施例的流程图；

图2为本发明中加权初始分类的流程图；

图3为本发明中改进的正态分布BP神经网络的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明主要有以下几个步骤组成：运动目标检测，特征提取，初始分类，人体交互动作识别。

实验平台选用一台高性能的计算机，Visual Studio 2010配置OpenCV2.4.2 的开发平台。

总设计方案方块流程请参见图1，详细技术方案如下所示：

一、运动目标检测步骤

本步骤对输入的视频帧图像进行处理，根据式(1)，拟采用帧间差分法进行运动目标检测。它的基本思想是利用视频图像序列前后相邻帧之间的差(求绝对值)，然后用设定的阈值来提取变化区域，能较为容易地检测出视频图像序列中的运动人体。

其中，x,y表示图像中横纵坐标位置，D_t(x,y)表示帧差图像中(x,y)点的像素值，I_t(x,y)表示t时刻图像(x,y)点的像素值，I_t-1(x,y)表示t-1时刻图像(x,y)点的像素值， R_t(x,y)表示检测结果，值为1表示图像(x,y)点为运动目标，值为0表示图像(x,y) 点为背景，T表示设定的阈值。

二、特征提取步骤

对步骤一处理后获得的运动目标进行特征提取工作。本发明拟采用局部时空特征与全局光流特征相结合的方法提取人体交互动作特征。

步骤1：提取光流和时空兴趣点

A.采用Lucas-Kanade算法计算运动区域光流。所述算法是一种两帧差分的光流估计算法，计算两帧在时间t到t+δt之间每个像素点未知的移动，其中t 表示某一时刻t，δt表示一个很小的时间变化区域；根据图像序列计算光流的公式如下所示：

f_xu+f_yv+f_t＝0 (2)

其中，f_x，f_y，f_t分别表示图像中像素点的灰度沿X,Y,T三个方向的偏导数， u,v分别表示光流的水平方向和垂直方向的移动分量。

B.采用基于Harris角点的时空特征点提取算法提取视频序列的时空兴趣点。在时空域内的时空特征点应该具有在三个正交的方向上的梯度值比较大的特征。根据(3)式建立时空角点矩阵：

上述函数g中的第一个因数是点·,具体表述为

根据式(5)确定所求的时空兴趣点：

H＝det(M)-k*trace³(M)＝λ₁λ₂λ₃-k(λ₁+λ₂+λ₃)³ (5)

步骤2：对光流和时空兴趣点进行描述，形成特征描述子HOF(HistogramsofOriented Optical Flow,光流方向信息直方图)与HOG(Histogram of OrientedGradient,方向梯度直方图):

A.光流直方图用于计算光流分布。根据式(6)(7)计算光流大小和方向：

其中V_x(x,y)和V_y(x,y)分别表示x轴方向和y轴方向的光流分量；

根据式(8)得到光流方向直方图H＝(G₁，G₂…G_b)：

其中,b_k为第K个方向区间，且k＝1,2，…,b，这里b为把360度的光流方向划分为等分扇形区的个数。

B.由于检测到的时空兴趣点只是一些孤立的点，这些点反映了视频序列中人体动作发生显著变化的位置，只用这些关键点位置信息几乎不足够识别，因此需要利用特征描述子将这些兴趣点周围所包含的时空信息进行描述，转化为时空特征。梯度方向直方图类似于光流直方图。以时空特征点为中心，构建时空立方体，计算其梯度大小和方向，获得梯度方向直方图。

步骤3：通过BP神经网络进行分类

将步骤2所获得的光流特征和局部时空特征分别通过BP神经网络，获得在某一特征下动作类别的概率矩阵。

BP算法根据式(9)(10)进行计算，其学习过程由正向传播和反向传播两部分组成。输入数据从输入层经过隐含层神经元处理后，传入输出层，每一层神经元的状态只影响下一层神经元的状态。如果输出层得不到期望的输出，则转入反向传播，此时误差信号从输出层传播并调整各层间连接权值和阈值，使得误差不断减小，直到达到精度要求。

正向算法：net_j＝∑w_ijo_i，o_j＝f(net_j) (9)

其中W_ij为权值，f为相应的激活函数。

反向传播：首先定义误差函数

其中t_j为理想输出值，y_j为实际输出值。采用梯度下降法调整权值，使得误差函数最优。

三、初始分类步骤

考虑到不同特征的特性和分类识别的效果，采用加权分类融合获得初始交互动作类别。如图2所示，分别将视频每帧的光流分类概率矩阵卷积一个权值1，视频每帧的局部时空特征分类概率矩阵卷积一个权值2，其中权值1和权值2之和等于1，将处理后的两个分类概率矩阵做求和处理，得到一个分类概率矩阵和。之后求分类概率矩阵和的最大值，即为该帧视频的动作类别，完成加权初始分类。

经过步骤二处理后可以得到一帧图像中两个概率矩阵，包括利用局部时空特征进行分类，得到属于每个动作的概率，同时可以利用全局光流特征进行分类，得到属于每个动作的概率。考虑到不同特征对于交互动作识别的局限性及效果的影响，通过式(11)，对利用不同特征得到的概率矩阵赋予不同权值，进行加权求和，得到融合概率矩阵，找到概率最大的动作类别，即为该帧的动作类别。

P＝W_a*P_a+W_b*P_b (11)

通过步骤一、步骤二、步骤三的依次运行，可以得到人体交互动作视频中一帧的动作分类结果。重复运行步骤一、二、三，直至人体交互视频处理结束，可得到视频序列的分类结果序列，即初始分类。

四、人体交互动作识别步骤

在一个人体交互动作视频中，当两个人有接触及其前后一段时间的视频序列内，包含信息量最大，对交互动作识别提供更有效的判别，其变化趋势类似于正态分布函数，因此，考虑改进BP神经网络。在传统的BP神经网络中，根据式(12)卷积正态分布函数，使得输入层不同位置读入的数据对最终的识别起到不同的作用。

将得到的初始分类序列输入到改进的正态分布BP神经网络中，获得最终的交互动作分类，实现人体交互动作识别。附图3为本发明中改进的正态分布BP 神经网络的示意图。其中，传统的BP神经网络包含输入层，隐层，输出层，输入层数据与相关权值卷积经过激活函数进入下一层，同理得到输出数据，误差反向传播调整权证，直至收敛。本专利改进的正态分布BP神经网络，将一个正态函数与传统的BP神经网络卷积，使得其实现强调某些数据的功能。

综上所述，本发明提出的基于视频的人体交互动作识别方法，是将进行交互的人看作一个整体，对交互视频每帧提取局部时空特征和光流全局特征，利用BP神经网络分别进行分类，通过加权融合获得初始分类，最后利用改进的正态分布BP神经网络进行动作识别，识别精确度高，系统运行成本较低。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种基于视频的人体交互动作识别方法，其特征在于，包括以下步骤：

D_t(x,y)＝|I_t(x,y)-I_t-1(x,y)|，

其中，x,y表示图像中横纵坐标位置，D_t(x,y)表示帧差图像中(x,y)点的像素值，I_t(x,y)表示t时刻图像(x,y)点的像素值，I_t-1(x,y)表示t-1时刻图像(x,y)点的像素值，R_t(x,y)表示检测结果，值为1表示图像(x,y)点为运动目标，值为0表示图像(x,y)点为背景，T表示设定的阈值；

S2：对处理后获得的运动目标进行特征提取；该步骤分别包括以下内容：S21：提取模块用于对处理后获得的运动目标采用局部时空特征与全局光流特征相结合的方式提取人体交互动作特征；S22：对所述光流和时空兴趣点进行描述，形成特征描述子HOF和HOG；S23；将所述局部时空特征与全局光流特征分别通过BP神经网络，以获得在某一特征下动作类别的概率矩阵；

P＝W_a*P_a+W_b*P_b；

其中P代表该帧的动作类别融合概率，W_a代表特征A的权值，P_a代表通过特征A得到的该帧动作类别概率，W_b代表特征B的权值，P_b代表通过特征B得到的该帧动作类别概率；

2.根据权利要求1所述的基于视频的人体交互动作识别方法，其特征在于，所述光流特征是通过Lucas-Kanade算法来计算的，所述算法是一种两帧差分的光流估计算法，计算两帧在时间t到t+δt之间每个像素点未知的移动，其中t表示某一时刻t，δt表示一个很小的时间变化区域；根据图像序列计算光流的公式如下所示：

f_xu+f_yv+f_t＝0

3.根据权利要求2所述的基于视频的人体交互动作识别方法，其特征在于，视频序列的所述时空兴趣点是通过基于Harris角点的时空特征点提取算法进行提取的；根据以下公式建立时空角点矩阵：

上述函数g的第一个因数是点·,其具体表述为

根据下式确定所求的时空兴趣点：

H＝det(M)-k*trace³(M)＝λ₁λ₂λ₃-k(λ₁+λ₂+λ₃)³

4.根据权利要求3所述的基于视频的人体交互动作识别方法，其特征在于，所述光流的大小和方向分别通过下述公式计算：

其中V_x(x,y)和V_y(x,y)分别表示x轴方向和y轴方向的光流分量,

根据下式得到光流方向直方图H＝(G₁，G₂…G_b)：

5.根据权利要求1所述的基于视频的人体交互动作识别方法，其特征在于，所述改进的正态分布BP神经网络，其学习过程由正向传播和反向传播两部分组成；输入数据从输入层经过隐含层神经元处理后，传入输出层，每一层神经元的状态只影响下一层神经元的状态；如果输出层得不到期望的输出，则转入反向传播，此时误差信号从输出层传播并调整各层间连接权值和阈值，使得误差不断减小，直到达到精度要求。