CN110765956A

CN110765956A - 基于部件特征的双人交互行为识别方法

Info

Publication number: CN110765956A
Application number: CN201911027700.9A
Authority: CN
Inventors: 高大化; 张中强; 石光明; 刘丹华; 林杰; 牛毅
Original assignee: Xian University of Electronic Science and Technology
Current assignee: Xian University of Electronic Science and Technology
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-02-07
Anticipated expiration: 2039-10-28
Also published as: CN110765956B

Abstract

本发明公开了一种基于部件特征的双人交互行为识别方法，通过生成双人交互行为数据集并搭建双人交互行为识别网络，克服了现有技术中识别网络没有关注到人的身体部件，引入无用的部件特征，加重了识别网络学习负担，数据集的复用性和扩展性差的问题。本发明实现的步骤是：(1)双人交互行为识别网络；(2)生成双人交互行为训练集；(3)训练双人交互行为识别网络；(4)进行双人交互行为识别。本发明具有双人交互识别网络检测交互行为识别率高、网络结构简单、数据集复用性和扩展行强的优点，可用于自然图像中双人交互行为的识别。

Description

基于部件特征的双人交互行为识别方法

技术领域

本发明属于图像处理技术领域，更进一步涉及图像识别技术领域中的一种基于部件特征的双人交互行为识别方法。本发明可用于对自然图像中双人交互行为进行识别。

背景技术

双人交互行为识别是视频分析、图像处理领域中很重要的一个问题，是计算机视觉领域中重要任务之一。图像中双人交互行为主要涉及到人与人之间进行握手、拥抱、击掌等行为，为安全监控、治安机构判断双人交互行为是否存在安全隐患提供依据。然而现有的一般的方法对图像中两个人整个身体做处理，获取双人整个身体的特征信息进行交互行为识别，这种方法引入了无用的部件特征，加重网络学习负担，进而影响最终的双人交互行为类别。

Alonso Patron等人在其发表的论文“High five:Recognising humaninteractions in TV shows”(In Proceedings of the British Machine VisionConference,2010)中提出了一种利用结构SVM的分类器对双人交互行为进行识别的方法。该方法采用多层卷积网络从含有双人交互行为的图像中提取更高级别的特征，更高级别的特征是以加权的形式将较低级的特征组合在一起，即前一层的激活与下一层神经元的权重相乘并相加，然后传递到激励函数中，最后将更高级别的特征输入到结构SVM分类器中预测图像中双人的交互行为。该方法存在的不足之处是：在双人交互行为识别中，由于结构SVM分类器针对的是两个人的整个身体特征，并没有具体到每个人的交互身体部件特征上，从而导致该方法在识别双人行为时主要依赖大量的训练数据，倾向于记忆数据集而不是学习到每个人的交互身体部件特征之间的空间关系来识别双人行为，引入了无用的非交互每个人身体部件特征，加重了网络学习负担。

Xiangbo Shu等人在其发表的论文“Concurrence-Aware Long Short-Term Sub-Memories for Person-Person Action Recognition”(IEEE Conference on ComputerVision and Pattern Recognition Workshops,2017)中提出了一种基于共现长短时记忆LSTM的网络对双人交互行为进行识别的方法。该方法采用包含两个子存储器的共现长短时记忆LSTM单元来存储双人交互视频中两个人的全部整体运动信息，再用一个共现细胞来选择性的从共现长短时记忆LSTM单元中的两个子存储器提取两个人的交互运动信息，两个人的运动信息在分别通过两个LSTM网络获得高级向量特征，该高级向量特征再通过简单的softmax分类器预测图像中双人的交互行为。该方法存在的不足之处是：在双人交互行为识别中，用两个子存储器存储两个人所有的运动信息计算量大，网络结构复杂，耗费时间长；同时对每个人的整体特征数据进行处理，容易受到双人交互行为数据集样本少和类别不均匀的影响，从而导致双人交互行为识别准确率低。

除此上述列举的双人交互行为识别方法之外，目前基于分类器和深度网络的双人交互行为识别方法都与上述两个方法类似，但是他们都有一个共性，通过学习每个人整个身体特征，而没有具体到交互行为的本质(每个人身体部件之间的空间关系)。引入了无用的部件特征，加重网络学习负担，进而影响最终的双人交互识别准确率。

发明内容

本发明的目的在于针对上述现有技术的不足，提出了一种基于部件特征的双人交互行为识别方法，以解决自然图像中双人交互行为不能准确识别的问题。

实现本发明目的的思路是，依据人眼视觉系统对双人交互行为的识别：人眼很容易关注到双人交互时每个人的重要身体部件的空间关系，以两个人拥抱、接吻交互行为为例，人眼很容易关注到两个人在拥抱时一个人的手和另一个人的背这两个部件及它们的空间关系。在两个人接吻时，人眼很容易关注到两个人的头这两个部件及它们的空间关系。这种机制主要是人在学习的时候依据了很多以前习得的先验知识，这些先验知识可以帮助神经网络更加快速的定位到所需关注的身体部件上而不是对整个人身体特征进行学习，本发明提出在神经网络的学习过程中，首先关注到图像中每个人的身体部件特征，以指导神经网络对部件特征的学习，本发明将模拟人利用先验这种机制，构建一个基于部件特征的双人交互行为识别网络。

这些先验信息主要包括两个部分，其一是依据人类知识和经验获得图像中每个人在一些交互行为中具有语义信息的部件，如手、头、背等，这些部件特征作为双人交互行为的基本组成元素，其二是依据视觉获取的图像中人的身体部件元素之间的空间关系，形如握手时两只手紧握的空间关系，拥抱时一个人的手与另一个人的背部接触的空间关系。因此双人交互识别网络首先通过卷积网络VGG16特征提取子模块和区域提取网络RPN(regionproposal network)子模块搭建的部件检测模块来提取图像中每个人交互身体部件特征，再通过双向长短时记忆LSTM(Long Short-Term Memory)子模块和正向LSTM子模块搭建的部件文本模块来获得每个人交互身体部件的文本特征和预测类别，最后通过双向长短时记忆LSTM(Long Short-Term Memory)子模块和解码子模块搭建的关系文本模块来识别双人交互行为。该双人交互识别网络可以用来解决现有技术中双人交互行为不能准确识别的问题。

为实现上述目的，本发明的具体步骤如下：

(1)构建双人交互识别网络：

(1a)搭建一个由VGG16特征提取子模块和区域建议子模块RPN串联组成部件检测模块；

所述VGG16特征提取子模块结构依次为：第一卷积层→第一池化层→第二卷积层→第二池化层→第三卷积层→第三池化层→第四卷积层→第四池化层→第五卷积层→第五池化层→第六卷积层→第六池化层→第七卷积层→第七池化层→第八卷积层→第八池化层→第九卷积层→第九池化层→第十卷积层→第十池化层→第十一卷积层→第十一池化层→第十二卷积层→第十二池化层→第十三卷积层→第十三池化层→三个依次相连的全连接层；

设置VGG16特征提取子模块中每层参数如下：第一至十三卷积层的卷积核个数依次为64、64、128、128、256、256、256、512、512、512、512、512、512，卷积核大小均为3*3，每个池化层均采用最大池化方式，每个池化层的池化核大小均设置为2*2；

所述区域建议子模块RPN结构由三个卷积层构成，第一卷积层的输出分别与第二卷积层、第三卷积层的输入相连，第一至三卷积层的卷积核大小依次为512、18、36，卷积核大小依次为3*3、1*1、1*1；

(1b)搭建一个由双向长短期记忆LSTM和时间正向长短期记忆LSTM串联组成部件文本模块；

所述双向长短期记忆LSTM由两个时间相反的长短期记忆LSTM并联组成，每个长短期记忆LSTM由至少3个长短期记忆LSTM单元串联组成；

利用参数设定公式，分别设定每个长短期记忆LSTM单元的输入门、遗忘门、输出门、细胞状态和隐藏状态结构参数；

(1c)搭建一个由双向长短期记忆LSTM、解码子模块组成关系文本模块；

所述双向长短期记忆LSTM与步骤(2b)中的双向长短期记忆LSTM的结构和参数一样；

所述解码子模块是由可分别执行向量均分操作、点乘操作、softmax操作三个子模块串联组成；

(1d)将部件检测模块、部件文本模块、关系文本模块串联组成双人交互行为识别网络；

(2)生成双人交互行为训练集：

(2a)将摄像机获取的含有双人交互行为的至少10000张图像组成样本集；

(2b)对样本集中每张含有双人交互行为的图像标注每个人的部件坐标位置，并划分每张图像中双人交互行为的真值类别，将所有划分好真值类别的双人交互行为的图像组成训练集；

(3)训练双人交互行为识别网络：

将训练集中所有划分好类别的双人交互行为的图像，输入到双人交互行为识别网络中，利用反向传播梯度下降法，更新迭代双人交互行为识别网络参数直到目标函数收敛，得到训练好的双人交互行为识别网络；

(4)进行双人交互行为识别：

将待识别的双人交互行为识别图像输入部件检测模块中获得图像中每个人的交互部件特征，再将每个人的交互部件特征输入到部件文本模块获得部件文本特征和部件预测类别，最后将部件文本特征和部件预测类别输入到关系文本模块中，获得双人交互行为识别图像的预测类别。

本发明与现有的技术相比具有以下优点：

第一，由于本发明在生成双人交互数据集时，用边界框标注了双人交互行为图像中每个人的身体部件，克服了现有技术中双人交互行为识别时主要依赖大量的训练数据，倾向于记忆数据集而不是学习到每个人的交互身体部件特征之间的空间关系的问题，使得本发明能够直接的促进双人交互识别网络定位到每个人的交互身体部件上，使得本发明更容易检测到每个人的交互部件特征，提高了双人交互识别准确率。

第二，由于本发明是依据了双人交互行为的类别来标注双人交互行为数据集中每个人的交互身体部件坐标位置，因此该数据集可以根据不同的交互行为来标注不同的部件位置，克服了现有技术中双人交互行为数据集样本少和类别不均匀的问题，使得本发明生成的双人交互数据集提高了其在其他交互行为任务中复用性和扩展性。

第三，由于本发明搭建的双人交互识别网络中的部件检测模块只需检测图像中每个人的交互身体部件特征，部件检测模块结构简单，克服了现有技术中提取图像特征所需的深度神经网络结构复杂，训练耗费时间长的问题，使得本发明在双人交互行为识别时具有速度快的优点。

附图说明

图1是本发明的流程图；

图2是本发明双人交互行为识别网络的结构示意图。

具体实施方式

下面结合附图对本发明做进一步的描述。

参照附图1，对本发明的实现具体步骤做进一步的描述。

步骤1，构建双人交互行为识别网络。

参照附图2，双人交互行为识别网络由三个模块组成：部件检测模块、部件文本模块、关系文本模块组成。

搭建一个由VGG16特征提取子模块和区域建议子模块RPN串联组成部件检测模块。

所述VGG16特征提取子模块结构依次为：第一卷积层→第一池化层→第二卷积层→第二池化层→第三卷积层→第三池化层→第四卷积层→第四池化层→第五卷积层→第五池化层→第六卷积层→第六池化层→第七卷积层→第七池化层→第八卷积层→第八池化层→第九卷积层→第九池化层→第十卷积层→第十池化层→第十一卷积层→第十一池化层→第十二卷积层→第十二池化层→第十三卷积层→第十三池化层→三个依次相连的全连接层。

设置VGG16特征提取子模块中每层参数如下：第一至十三卷积层的卷积核个数依次为64、64、128、128、256、256、256、512、512、512、512、512、512，卷积核大小均为3*3，每个池化层均采用最大池化方式，每个池化层的池化核大小均设置为2*2，VGG16特征提取子模块用于提取图像特征。

所述区域建议子模块RPN结构由三个卷积层构成，第一卷积层的输出分别与第二卷积层、第三卷积层的输入相连，第一至三卷积层的卷积核大小依次为512、18、36，卷积核大小依次为3*3、1*1、1*1，区域建议子模块RPN用于从VGG16提取的图像特征中选择出每个人的交互身体部件特征。

搭建一个由双向长短期记忆LSTM和时间正向长短期记忆LSTM串联组成部件文本模块。

所述双向长短期记忆LSTM由两个时间相反的长短期记忆LSTM并联组成，每个长短期记忆LSTM由至少3个长短期记忆LSTM单元串联组成。

利用参数设定公式，分别设定每个长短期记忆LSTM单元的输入门、遗忘门、输出门、细胞状态和隐藏状态结构参数。

所述的参数设定公式如下：

其中，i_m,t表示双向LSTM在第m层t时刻LSTM单元的输入门，e^(·)表示以自然常数e为底数的指数操作，W_i ^m表示输入门i_m,t与第m层t时刻LSTM单元的拼接向量

之间的权重，表示第m层t+k_m时刻LSTM单元的隐藏状态，k_m的取值为1或-1，当第m层t时刻时间为反向时LSTM单元的k_m＝1，正向时k_m＝-1，x_m,t表示第m层t时刻LSTM单元的输入向量，·表示矩阵相乘操作，[·]表示拼接操作，

表示输入门i_m,t与拼接向量

之间的偏置，f_m,t表示第m层t时刻LSTM单元的遗忘门，W_f ^m表示遗忘门f_m,t与拼接向量之间的权重，

表示遗忘门f_m,t与拼接向量

之间的偏置，o_m,t表示第m层t时刻LSTM单元的输出门，

表示输出门o_m,t与拼接向量

之间的权重，

表示输出门o_m,t与拼接向量

之间的偏置，c_m,t表示第m层t时刻LSTM单元的细胞状态，*表示向量中元素相乘操作，

表示细胞状态c_m,t与拼接向量

之间的权重，表示细胞状态c_m,t与拼接向量

之间的偏置，h_m,t表示第m层t时刻LSTM单元的隐藏状态。

搭建一个由双向长短期记忆LSTM和解码子模块组成关系文本模块。

所述双向长短期记忆LSTM与部件文本模块中的双向长短期记忆LSTM的结构和参数一样。

所述解码子模块是由可分别执行向量均分操作、点乘操作、softmax操作三个子模块串联组成。

softmax操作指的是向量中每一个元素的指数值和所有元素指数值和的比值；

将部件检测模块、部件文本模块、关系文本模块串联组成双人交互行为识别网络。

步骤2，生成双人交互行为训练集。

将摄像机获取的含有双人交互行为的至少10000张图像组成样本集。

对样本集中每张含有双人交互行为的图像标注每个人的部件坐标位置，并划分每张图像中双人交互行为的真值类别，将所有划分好类别的双人交互行为的图像组成训练集。

步骤3，训练双人交互行为识别网络。

将训练集中所有划分好类别的双人交互行为的图像，输入到双人交互识别网络中，输出图像的双人交互行为预测类别，利用反向传播梯度下降法，更新迭代双人交互识别网络参数直到目标函数收敛，得到训练好的双人交互识别网络。

所述的目标函数指的是预测类别向量和输入的双人交互行为图像真值类别做交叉熵的值。

步骤4，进行双人交互行为识别。

将待识别的双人交互行为图像输入部件检测模块中获得图像中每个人的交互部件特征，再将每个人的交互部件特征输入到部件文本模块获得部件文本特征和部件预测类别，最后将部件文本特征和部件预测类别输入到关系文本模块中，获得双人交互行为图像的预测类别。

下面结合仿真实验对本发明的效果做进一步说明。

1.仿真实验条件：

本发明的仿真实验的硬件平台为：Inter core i7-6700,频率为3.4GHz,NvidiaGeForce GTX1080Ti。本发明的仿真实验的软件使用pytorch。

2.仿真内容：

本发明的仿真实验是采用本发明和现有技术消息传递方法分别对TV shows和SBU双人交互数据集进行识别，得到数据集中每一幅双人交互图像中部件的位置，部件的预测类别和双人交互行为类别。

本发明仿真实验采用的现有技术消息传递方法是指：Danfei Xu等人在“SceneGraph Generation by Iterative Message Passing”(IEEE Conference on ComputerVision and Pattern Recognition 2017)中提出的双人交互行为识别方法，简称消息传递方法。

本发明仿真实验所使用的数据集TV shows是由英国牛津大学Alonso Patron-Perez等人建立的用于人与人之间交互行为识别的数据集，网址：http://www.robots.ox.ac.uk/～vgg/data/tv_human_interactions/index.html。该数据集一共包含四种交互行为：握手，击掌，拥抱和接吻。

SBU是由石溪大学的Kiwon Yun等人建立双人交互行为识别的数据集，网址：http://www3.cs.stonybrook.edu/～kyun/research/kinect_interaction/index.html。该数据集一共包含八种交互行为：握手，拥抱，交换，靠近，离去，推，踢，拳打。

下面分别采用预测类别、场景图分类、场景图生成三种评价指标，衡量本发明和现有技术消息传递方法在TV shows和SBU双人交互数据集的性能。

第一个评价指标是预测类别PREDCLS，在已知目标部件位置和标签的情况下预测双人交互行为类别，该指标数值越高，表示该方法预测双人交互行为的能力越强。其计算公式如下：

第二个评价指标是场景图分类SGCLS，在已知部件坐标位置的情况下预测部件的标签和双人交互行为类别，该指标数值越高，表示该方法预测部件的标签和双人交互行为类别能力越强。其计算公式如下：

第三个评价指标是场景图生成SGGEN,对输入的图片预测部件的位置、部件的标签和双人交互行为类别。其计算公式如下：

本发明仿真实验中R表示双人交互识别准确率，R@20,R@50,R@100分别表示双人交互行为正确的识别结果在前20个，50个，100个的预测识别结果下的准确率。

将本发明和现有技术消息传递方法在TV shows和SBU数据集中的测试集上计算结果绘制成表1。

表1为本发明方法与消息传递方法分别在TV shows和SBU数据集上训练后，对测试集识别准确率的比较情况，由表1可以看出，本发明在TV shows和SBU数据集下，获得较高的识别准确率，这直接说明了本发明所提出的方法可以更加准确的识别出图像中双人交互行为。

以上仿真实验表明：本发明方法利用生成的数据集，能够获取人的部件坐标位置，利用搭建的双人交互识别网络，首先通过部件检测模块获得图中每个人的交互身体部件特征，然后利用部件文本模块获得人的身体部件文本信息和部件预测类别，最后通过关系文本模块获得双人交互行为的类别，解决了现有技术方法中存在的数据集的复用性和扩展性差，网路没有关注到人的身体部件特征，网络结构复杂。从而导致在识别双人交互行为时出现识别错误或识别准确率不高的情况，是一种非常实用的针对双人交互识别问题的识别方法。

表1本发明仿真实验的定量分析表(％)。