CN111160078B

CN111160078B - 一种基于视频图像的人体交互行为识别方法、系统及装置

Info

Publication number: CN111160078B
Application number: CN201811488237.3A
Authority: CN
Inventors: 叶青; 渠畅; 张永梅
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2023-06-23
Anticipated expiration: 2038-12-06
Also published as: CN111160078A

Abstract

本发明针对现有人体交互行为识别方法中，运动特征信息提取困难，不能充分结合运动整体与运动个体之间关系的问题，提出一种基于视频图像的人体交互行为识别方法、系统及装置。该方法从交互个体分割和整体融合的角度出发，首先进行运动人体检测并进行分割，分别得到两个交互个体的运动视频，接着把交互整体视频和个体分割后的运动视频分别送入卷积神经网络提取初步特征，随后把特征描述符送入多层感知机神经网络训练最后进行初步行为的分类，最后基于全局分类结果和个体分类结果进行多特征学习，形成最终分类结果。

Description

一种基于视频图像的人体交互行为识别方法、系统及装置

技术领域

本发明涉及计算机视频图像数据的处理及人机交互领域，尤其涉及一种基于视频图像的人体交互行为识别方法及系统。

背景技术

人体交互行为识别技术是指，通过分析识别视频图像序列中各个单人的行为，进而理解人与人之间的交互行为，并将这些行为进行描述。人体交互行为识别技术具有巨大的应用价值和广阔的市场前景，其研究成果可以用于各种对公共安全要求敏感的场合，如军事禁区、机场、车站、地铁站台、银行、超市、学校等。

交互行为识别技术中，通常从运动视频中找出运动目标后，进行运动特征信息的提取，最后采取分类算法对其进行分类。在交互行为特征信息获取算法方面，单一特征达不到准确度的要求，而兼顾多个特征的特征提取方式，虽然能提高识别准确率，但是也会破坏原有特征的空间结构，造成冗余信息。在交互行为识别框架中，一般分为基于整体的交互行为识别和基于个体分割的交互行为识别。其中，基于整体的交互行为识别方法将运动双方看作一个整体，这样处理会忽略运动个体之间的差异信息；而基于个体分割的方法是将运动双方分割开看作是两个行为执行者，这种方法原理简单但是识别准确率不高。

上述人体交互行为特征提取过程中，以上研究方法采用基于整体或基于个体的特征提取框架，特征信息没有综合运用。而传统的单一特征或者多特征融合的特征提取方式，也达不到识别准确率的要求。

发明内容

针对上述传统方法的缺陷，本发明提供了一种运动整体和个体结合的人体交互行为识别方法及其系统。从个体分割和整体结合角度出发，结合卷积神经网络和MLP神经网络提取特征，最后对初步识别结果进行多特征学习得到最终分类结果，以期提高交互行为识别的准确率。其中，交互整体信息主要学习交互双方相对位置和转向信息，运动个体信息主要学习单人行为信息。

具体而言，本发明提供了以下的技术方案：

一方面，本发明提供了一种基于视频图像的人体交互行为识别方法，所述方法包括：

步骤1、将输入的人体视频分割为个体左运动视频、个体右运动视频，所述个体左运动视频和个体右运动视频分别是运动视频个体分割后左边运动人视频和右边运动执行人视频；

步骤2、对所述人体视频及所述个体左运动视频、个体右运动视频进行预处理，所述预处理包括数据扩大及数据归一化，获得处理后视频数据；

步骤3、对所述处理后视频数据提取初步特征，将所述初步特征通过多层感知机建立所述初步特征的非线性关系；

步骤4、基于所述初步特征的非线性关系，采用分类器进行交互行为特征的分类。

优选地，所述步骤1进一步包括：

步骤101、将输入图像转换为灰度图，并对所述灰度图进行颜色空间的标准化；

步骤102、计算每个像素位置的梯度方向值；

步骤103、为每个细胞单元构建梯度方向直方图，并将细胞单元组合成块，在块内归一化梯度直方图；

步骤104、将检测窗口中所有重叠的块进行HOG特征的收集。

优选地，所述步骤2中，所述数据扩大，采用如下方式：对视频图像进行翻转，并进行随机裁剪，以扩大数据；

所述数据归一化通过如下方式：

x_i:＝x_i-μ

其中，每帧图片有n个像素，x_i(i＝1,2,…,n)是每帧图片的每一个像素大小，μ是每张图片的平均强度，针对每帧图片减去训练集中图片的平均强度μ。

更为优选地，所述翻转采用水平翻转，所述水平翻转是指以过图像中心的竖直轴为对称轴，将左、右两边像素交换。

优选地，所述步骤3中，所述多层感知机的激活函数为：

ReLU(x)＝Max(x,0)；

所述多层感知机加入优化器，所述优化器中动量直接并入梯度一阶矩的估计，并在所述优化器中加入偏置修正，以修正从原点初始化的一阶矩和二阶矩估计。

优选地，所述优化器具体通过如下方式实现：

其中，m_t与v_t分别是一阶动量与二阶动量项，β₁，β₂为动量值大小，通常取0.9和0.999，

与/>

分别是一阶动量与二阶动量项的修正值，W_t表示t时刻即第t次迭代模型的参数，g_t＝VJ(W_t)表示t次迭代代价函数关于W的梯度大小；ε是取值很小的数(一般是1e-8)；η是学习率，决定了每一时刻的更新步长。

优选地，在所述多层感知机后续引入dropout层，有效减少神经元之间的共适应关系。在网络训练过程中，随机临时删掉网路中一部分的隐藏神经元。

优选地，所述步骤4中，所述分类器采用概率加权融合得到识别概率：

R_Final＝R_U×P_U+R_L×P_L+R_R×P_R

其中，R_Final是最后识别结果概率，R_U是双人视频分类结果，R_L是左侧行为人视频分类结果，R_R是右侧行为执行人视频的分类结果，P_U、P_L、P_R为对应的分类结果相应的加权概率。

另一方面，本发明还提供了一种基于视频图像的人体交互行为识别系统，所述系统包括：

运动个体分割模块，用于将输入的人体视频分割为个体左运动视频、个体右运动视频，所述个体左运动视频和个体右运动视频分别是运动视频个体分割后左边运动人视频和右边运动执行人视频；

图像视频预处理模块，用于对所述人体视频及所述个体左运动视频、个体右运动视频进行预处理，所述预处理包括数据扩大及数据归一化，获得处理后视频数据；

神经网络特征提取模块，用于对所述处理后视频数据提取初步特征，将所述初步特征通过多层感知机建立所述初步特征的非线性关系；

人体交互行为识别模块，用于基于所述初步特征的非线性关系，采用分类器进行交互行为特征的分类。

优选地，所述图像视频预处理模块进一步包括：

数据扩大单元，通过对视频图像进行翻转，并进行随机裁剪，以扩大数据；

归一化单元，对扩大后的数据进行数据归一化，所述数据归一化通过如下方式：

x_i:＝x_i-μ

其中，每帧图片有n个像素，x_i(i＝1,2,…,n)是每帧图片的每一个像素大小，μ是每张图片的平均强度。

优选地，所述神经网络特征提取模块还包括优化器单元，所述优化器单元中的动量直接并入所述多层感知机梯度一阶矩的估计，并在所述优化器单元中加入偏置修正，以修正从原点初始化的一阶矩和二阶矩估计。

优选地，所述人体交互行为识别模块中，所述分类器采用概率加权融合得到识别概率：

R_Final＝R_U×P_U+R_L×P_L+R_R×P_R

优选地，所述优化器单元具体通过如下方式实现：

与/>

分别是一阶动量与二阶动量项的修正值，W_t表示t时刻即第t次迭代模型的参数，g_t＝VJ(W_t)表示t次迭代代价函数关于W的梯度大小；ε是取值很小的数(一般是1e-8)；η是是学习率，决定了每一时刻的更新步长。

优选地，在所述神经网络特征提取模块中，在多层感知机后续引入dropout层，有效减少神经元之间的共适应关系，其在网络训练过程中，随机临时删掉网路中一部分的隐藏神经元。

又一方面，本发明还提供了一种基于视频图像的人体交互行为识别装置，所述装置包括存储器，以及一处理器，所述处理器可以访问所述存储器，调用所述存储器中的指令，并执行所述指令，以执行如上所述的人体交互行为识别方法。

与现有技术相比，本发明的技术方案通过多次特征提取的方式，使得复杂运动图像中的运动特征信息提取更加准确，并且特征能够充分体现出图像中整体运动特征与个体对象的运动特征，从而能够更加准确地对视频中交互的两个不同执行人的行为进行更加准确的判定。

附图说明

图1为本发明实施例的整体流程图；

图2为本发明实施例的运动个体视频分割模块流程图；

图3为常规的MLP网络结构示意图；

图4为本发明实施例的加权融合网络结构。

具体实施例

下面将结合本发明实施例中的图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

在一个具体的实施例中，本发明的技术方案可以通过模块化的方式实现。主要有以下几个模块组成：运动个体分割模块，图像视频预处理模块，神经网络特征提取模块，人体交互行为识别模块。各个模块的具体运算方式，如图1所示，个体左和个体右分别是运动视频个体分割后左边运动人视频和右边运动执行人视频，MLP(Multi-Layer Perceptron)是多层感知机神经网络。详细技术方案如下：

一、运动个体分割模块

该模块从交互个体分割和整体融合的角度出发，首先进行运动人体检测并进行分割，其中运动个体目标检测过程优选地可以采用HOG特征和SVM方法相结合的方法。在行人检测中，HOG特征计算的步骤，针对图像区域(检测窗口，通常采用64*128的窗口)图片：

a.将输入的彩图转换为灰度图；

b.采用Gamma校正法对输入图像进行颜色空间的标准化(归一化)；

c.计算每个像素位置的梯度方向值，图像中像素点(x,y)的梯度是：

G_x(x,y)＝H(x+1,y)-H(x-1,y) (1)

G_y(x,y)＝H(x,y+1)-H(x,y-1) (2)

其中，H(x,y)表示输入图像中像素点(x,y)处的像素值，G_x(x,y)是图像像素点(x,y)处的水平梯度，G_y(x,y)是图像像素点(x,y)处的垂直梯度，G(x,y)，α(x,y)分别是图像像素点(x,y)处的梯度幅值和方向；

d.为每个细胞单元(cell)构建梯度方向直方图。其中，细胞单元是由图像区域(检测窗口)分成的若干小的子区域，细胞单元由一些相邻的像素点组成；

e.把细胞单元组合成大的块(block)，并且若干块(可能相互重叠)覆盖整个检测窗口，针对块进行块内归一化梯度直方图；

本领域技术人员明了，一个图像区域(检测窗口)被分成小的子区域(胞体，即细胞单元)，若干个胞体组成一个块(block)。因此，一些相邻的像素组成胞体(细胞单元)，一些胞体(细胞单元)组成块，并且若干块(可能相互重叠)覆盖整个图像窗口。

f.将检测窗口中所有重叠的块进行HOG特征的收集，特征向量供分类使用。在本领域中，根据目标检测任务的不同，确定图像检测窗口的大小和形状。这里在行人检测任务中，优选可采用64*128(像素个数)的窗口。

结合图2，在一个具体的实施方式中，运动个体分割模块流程如下：

人体检测过程之后，根据检测到的人体矩形框把一段交互运动视频分割成两段只含有单个人行为的运动视频。即把一组双人交互运动视频处理分割成两组只包含单个运动人体的个体左和个体右视频。

二、图像视频预处理模块

考虑到视频后续提取特征信息的需要，首先对视频序列进行预处理。在一个具体的实施方式中，本发明可以采用数据扩大、数据归一化处理的视频处理方式。其中数据扩大方式中，本发明对视频图像采取水平翻转，随机裁剪的方式来扩大数据。其中水平翻转是指以过图像中心的竖直轴为对称轴，将左、右两边像素交换，这样可以扩大一倍数据量。

数据归一化处理时，在一个具体的实施方式中，优选选用对所有训练视频图片采取去均值处理，以去除不同光照的影响。去均值方式如下：

x_i:＝x_i-μ (6)

其中，每帧图片有n个像素，x_i(i＝1,2,…,n)是每帧图片的每一个像素大小。μ是每张图片的平均强度，针对每帧图片减去训练集中图片的平均强度μ。

三、神经网络特征提取模块

首先，作为一个优选的实现方式，选用迁移学习的思路。通过发现大数据模型和小数据问题之间的关联，把已经训练好的模型迁移过去，能够大大减少运算量。优选地，采用卷积神经网络来进行特征初步提取。通过迁移学习的方式提取出图像初步特征后，再送入后续的神经网络进行特征提取。

其次，优选地，在进行后续的交互运动特征提取时，采用改进的多层感知机的方式实现。多层感知机看做是一个有向图，它由多个节点层组成，每一层全连接到下一层。多层感知机主要由输入层，隐藏层和输出层组成，其中输入层接收输入数据，经过隐藏层转发，最后到达输出层。常规的多层感知机网络结构如图3所示。其每层由若干个神经元组成，从输入层到隐藏层，用x_i(i＝1,2,…,n)代表输入神经元，用h代表隐藏层，则隐藏层的第j(j＝1,2,…,m)个输出神经元h_j可以用：

其中，w_ji和b_i是相应的权重和偏差，f是激活函数。从隐藏层到输出层，神经网络的输出y为：

在获得初步特征信息后，采用改进的MLP神经网络去学习特征的非线性关系。激活函数引入非线性关系,同时又可以缓解网络传播过程中容易产生梯度消失的情况。激活函数公式如下：

ReLU(x)＝Max(x,0) (9)

在网络训练过程中，优选地，采用加入优化器动态调整学习率参数，所述优化器中动量直接并入梯度一阶矩(指数加权)的估计，并在所述优化器中加入偏置修正，以修正从原点初始化的一阶矩(动量项)和(非中心的)二阶矩估计。所述优化器的具体方法如下：

其中，m_t与v_t分别是一阶动量与二阶动量项，β₁，β₂为动量值大小通常取0.9和0.999，

与/>

同时，对了防止过拟合的问题，在所述改进的MLP网络后续拟引入dropout层，有效减少神经元之间的共适应关系。在网络训练过程中，随机临时删掉网路中一部分的隐藏神经元。

四、人体交互行为识别模块

在一个优选的实施方式中，在进行交互行为特征的分类时，分类器为每个视频生成一个该类标签，对于训练集{(x⁽¹⁾,y⁽¹⁾),...,(x^(m),y^(m))},有y⁽ⁱ⁾∈{1,2,3,...,k}，共有k个分类，对于每个输入x都会有对应每个类的概率p(y＝j|x)，j＝(1,2,…,k)。那么假设函数h_θ(x)将要输出一个k维的向量(向量元素的和为1)来表示这k个估计的概率值,如下：

其中，

是模型的参数，/>

是θ_j的转置矩阵。

对于待处理的视频数据，我们有双人行为视频以及两个单人行为视频，因此经过采用上述网路训练后一组视频会有三个分类的结果。对于最终分类结果，优选地，将每组视频行为的三个分类结果进行概率加权融合得到最终的识别概率：

R_Final＝R_U×P_U+R_L×P_L+R_R×P_R (12)

其中，R_Final是最后识别结果概率，R_U是双人视频分类结果，R_L是左侧行为人视频分类结果，R_R是右侧行为执行人视频的分类结果。P为对应的分类结果相应的加权概率，即P_U、P_L、P_R分别为对应的分类结果相应的加权概率。P值要根据后续反复实验比较得到。

另一方面，上述的模块化的实现方式，也可以是以一种系统的方式实现的，如下所述：

一种基于视频图像的人体交互行为识别系统，所述系统包括：

优选地，所述图像视频预处理模块进一步包括：

x_i:＝x_i-μ

R_Final＝R_U×P_U+R_L×P_L+R_R×P_R

优选地，所述优化器单元具体通过如下方式实现：

与/>

实施例2

在一个具体的实施例中，本发明的技术方案还可以通过如下的方式实现：

一种基于视频图像的人体交互行为识别方法，所述方法包括：

优选地，所述步骤1进一步包括：

步骤102、计算每个像素位置的梯度方向值；

步骤104、将检测窗口中所有重叠的块进行HOG特征的收集。

所述数据归一化通过如下方式：

x_i:＝x_i-μ

优选地，所述步骤3中，所述多层感知机的激活函数为：

ReLU(x)＝Max(x,0)；

优选地，所述优化器具体通过如下方式实现：

与/>

R_Final＝R_U×P_U+R_L×P_L+R_R×P_R

需要指出的是，本实施例中的方法，可以通过如实施例1中的模块化的结构来实现。

实施例3

此外，本发明的技术方案还可以通过基于视频图像的人体交互行为识别装置，所述装置包括存储器，以及一处理器，所述处理器可以访问所述存储器，调用所述存储器中的指令，并执行所述指令，以执行如实施例2所述的人体交互行为识别方法，也可以包含如实施例1中的模块化的系统。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种基于视频图像的人体交互行为识别方法，其特征在于，所述方法包括：

步骤4、基于所述初步特征的非线性关系，采用分类器进行交互行为特征的分类；

所述步骤4中，所述分类器采用概率加权融合得到识别概率：

R_Final＝R_U×P_U+R_L×P_L+R_R×P_R

其中，R_Final是最后识别结果概率，R_U是双人视频分类结果，R_L是个体左运动视频分类结果，R_R是个体右运动视频的分类结果，P_U、P_L、P_R为对应的分类结果相应的加权概率。

2.根据权利要求1所述的方法，其特征在于，所述步骤1进一步包括：

步骤102、计算每个像素位置的梯度方向值；

步骤104、将检测窗口中所有重叠的块进行HOG特征的收集。

3.根据权利要求1所述的方法，其特征在于，所述步骤2中，所述数据扩大，采用如下方式：对视频图像进行翻转，并进行随机裁剪，以扩大数据；

所述数据归一化通过如下方式：

x_i:＝x_i-μ

其中，每帧图片有n个像素，x_i是每帧图片的每一个像素大小，i＝1,2,…,n，μ是每张图片的平均强度。

4.根据权利要求1所述的方法，其特征在于，所述步骤3中，所述多层感知机的激活函数为：

ReLU(x)＝Max(x,0)；

5.一种基于视频图像的人体交互行为识别系统，其特征在于，所述系统包括：

人体交互行为识别模块，用于基于所述初步特征的非线性关系，采用分类器进行交互行为特征的分类；

所述人体交互行为识别模块中，所述分类器采用概率加权融合得到识别概率：

R_Final＝R_U×P_U+R_L×P_L+R_R×P_R

6.根据权利要求5所述的系统，其特征在于，所述图像视频预处理模块进一步包括：

x_i:＝x_i-μ

7.根据权利要求5所述的系统，其特征在于，所述神经网络特征提取模块还包括优化器单元，所述优化器单元中的动量直接并入所述多层感知机梯度一阶矩的估计，并在所述优化器单元中加入偏置修正，以修正从原点初始化的一阶矩和二阶矩估计。

8.一种基于视频图像的人体交互行为识别装置，其特征在于，所述装置包括存储器，以及一处理器，所述处理器可以访问所述存储器，调用所述存储器中的指令，并执行所述指令，以执行如权利要求1-4任一所述的人体交互行为识别方法。