CN110458038A

CN110458038A - 基于双链深度双流网络的小数据跨域动作识别方法

Info

Publication number: CN110458038A
Application number: CN201910653579.4A
Authority: CN
Inventors: 高赞; 郭乐铭; 张桦; 薛彦兵; 王志岗; 徐光平
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2019-11-15
Anticipated expiration: 2039-07-19
Also published as: CN110458038B

Abstract

本发明公开了一种基于双链深度双流网络的小数据跨域动作识别方法，实现了基于源域数据集对其他小规模数据集的高效动作识别；同时，提出了一个用在跨域动作识别任务上的数据集CDSAR；方法的具体步骤如下：(1)视频预处理；(2)基于双链深度双流网络模型搭建；(3)基于双链深度双流网络的目标函数构建；(4)基于双链深度双流网络的小数据跨域动作识别方法；本发明基于已知数据集可对其他仅有少量样本的数据集进行高效的动作识别，能够有效地解决目标数据集数据量少以及不同数据集之间数据分布不一致的问题，并且方法收敛速度快。

Description

基于双链深度双流网络的小数据跨域动作识别方法

技术领域

本发明属于计算机视觉和模式识别技术领域，涉及一种基于双链深度双流网络的小数据跨域动作识别方法，可以减少不同数据集间数据分布差异，有效抑制由于训练数据量少导致的过拟合问题，在小数据量的视频动作数据集上，验证了该模型的有效性；

背景技术

近几年，基于深度学习的视频表示学习方法取得了很大的进步，特征表示越来越鲁棒；其中经典的方法有：Two-Stream(双流卷积神经网络)：基本原理为对视频序列中每两帧计算密集光流，得到密集光流的序列(即时间信息)，然后对视频图像(空间信息)和密集光流(时间信息)分别训练卷积网络模型，两个分支的网络分别对动作的类别进行判断，最后直接将两个网络的分类得分进行融合，得到最终的分类结果；C3D：输入是连续的16帧彩图图像，通过3D卷积去提取视频数据的时间和空间特征，这些3D卷积同时在空间和时间维度上进行操作，因此可以同时捕捉视频的空间和时间信息，优点：特征同时聚合了时空信息，缺点模型参数量大，模型训练困难，模型训练耗费时间长；P3D：伪三维残差神经网络，该方法的核心是将3D卷积拆分为一个3*1*1的1D时间卷积核和一个1*3*3的2D空间卷积，且该方法相比于同样深度的2D-CNN只增添了一定数量的1D-CNN，相对于3D CNN参数量减少很多；

然而，上述方法存在的问题是均要求训练数据集和测试数据集是相同分布的，即是同一数据集中划分出来的；当面临跨域任务，即训练数据集和测试数据集不是从同一数据集的情况下上述方法不能很好的消除数据分布差异，从而导致模型的泛化能力不强，模型效果不好，不能有效应用在在跨域任务中；

在计算机视觉和模式识别相关研究领域中，迁移学习的跨域任务一直是最活跃的研究领域之一；跨域任务在图像领域已经有了较成熟的方法，取得了不错的成果，但在动作识别领域，跨域的研究还很少；由于不同数据集的场景，视角，人物等不同，会造成数据分布的差异性；在图像领域，研究者们通常通过相关算法来减少不同数据集数据分布的差异，增强模型的泛化能力。

发明内容

本发明目的是针对动作识别的跨域任务解决小数据量目标数据集的动作识别问题，常用方法一是无法有效地解决跨域任务，二是训练小数据目标数据集时，模型容易过拟合，提供一种高效的基于双链深度双流网络的小数据跨域动作识别方法；

常用动作识别方法的训练集和测试集都是从同一数据集划分的，无法有效地解决跨域问题；本发明解决了不同数据集之间数据分布不一致的问题，并且有效的抑制了由于目标域训练数据量少导致的过拟合问题，利用了源域的动作信息去识别目标域动作，本方法收敛速度快，从而为小规模数据集上的跨域动作识别问题提供了帮助；

数据集

CDSAR数据集：一个新的跨域小数据量动作识别数据集(CDSAR)，其中包含的动作类别是从5个公共动作数据集中收集的，分别是DHA、M2I、OA、ODAR和UTkinect-Action-Dataset动作数据集；CDSAR包含室内场景，户外场景，单人动作，多人动作共2826个样本，10个动作类别，分别为打电话、搬运、交谈、击掌、喝、起身、挥手、坐下、扔和行走；

MMA数据集：包含两个场景，场景1和场景2共7060个动作样本，25个动作类别，其中训练集包含2400个样本，交叉确认集包含1900个样本，测试集包含2760个样本；动作类别中包括单人动作15个，双人动作10个；单人动作依次为：打电话、擦桌子、整理、喝水、锻炼、脱衣服、去工作、打开电脑、穿衣服、阅读、寻找、接水、扔东西、散步、戴耳机；双人动作依次为：叫走、击掌、交换、下班、打招呼、递东西、握手、询问、搬东西、交谈；

该方法具体包含以下步骤：

第1、视频预处理

由于目标域数据集样本数较少，而且与源域数据集数据分布不一致，所以为了提高模型的泛化能力，使得模型更好地拟合目标域数据，并且为了防止训练时出现过拟合问题，采用了目标域困难样本选择及生成样本对的方法，将选出的目标域最难识别样本与源域样本一一匹对，生成正正对和正负对作为训练数据；采用困难样本选择能够有效提高模型的泛化能力；

在模型训练的时候为了能够实现长时间动作的识别，分别从一个样本对的前、中、后三部分各选取一帧，利用这一对三帧图像来稀疏地表示这一个样本对；

第2、基于双链的深度双流网络模型搭建

在第1步样本对生成的基础上，设计模型结构；选择基于双链深度双流网络的原因是双链网络的输入是数据对，非常适合处理数据相似性问题、数据分布问题和迁移学习问题，能够将任何神经网络当作双链网络的基础网络；而双流网络拥有两种模态的网络，彩图图像网络和光流网络，前者获取空间信息，后者获取时间信息，两个模态信息融合得到动作的时空信息，是动作识别里热门的深度网络，双链网络可以加入到双流网络中；

此外，相同动作类样本的区分度可能不一样，有的动作表现的明显，有的动作表现的不明显；为了增加样本特征区分性，在每条网络的浅层后加入权值分配层，得到特征的区分性权值得分，然后将权值分配给最终的视频表示，进行分类；

最后，一个视频内容有内在的不同模态，加权分配彩图和光流两个模态的分类得分能够结合彩图网络和光流网络的特性互相平衡彼此对动作的识别效果；于是在两个模态网络的全连接层的后面加了分类加权分配层，该层首先获取彩图和光流两个网络的分类得分，根据得分大小进行得分的加权处理，然后将得分分配给对应模态的全连接层类别特征，再进行分类并进行梯度回传；

第3、基于双链深度双流网络的目标函数构建

网络模型要实现的功能有两个，一是在双链网络中实现源域和目标域的域适应，混淆不同域的数据分布，使模型产生域不变特征；这里使用最大均值差异(MMD)算法来减少源域和目标域的数据分布差异；

第二个功能是动作的分类，在最大均值差异的基础上，为了使域不变特征的分类效果更好，在交叉熵损失函数作用之前，在网络中又使用了对比损失函数(contrastiveloss)，作用到最大均值差异损失的输出特征上；对比损失函数的作用是拉近相同类样本的距离，同时让不同类样本之间的距离大于某个阈值，起到了同类样本更聚集的效果；将经过对比损失函数作用产生的特征用交叉熵损失函数来进行分类，同时衡量源域和目标域特征的分类情况；

上述三种损失函数均可以作用在空间流双链网络和时间流双链网络上；

第4、基于双链深度双流网络的小数据跨域动作识别方法

经过第2步和第3步后形成最终的基于双链深度双流网络的小数据跨域动作识别模型；模型的流程为：彩图图像网络和光流网络接收相同的样本对，两者的双链网络结构是相同的；在两种模态网络的双链网络中，将每条链的浅层特征输入到权值分配层中得到特征的区分性权重，将权重乘到全局平均池化层的输出特征上，赋予权重，此时每条链赋予权重的特征，被最大均值差异方法作用，使得特征分布尽可能相同，然后这些特征又被对比损失函数作用，使得相同类别的特征彼此聚集，最后将所有特征输入到全连接层中，得到类别特征，类别特征被作用于交叉熵损失函数，实现分类。

本发明的优点和有益效果：

1)通过样本选择和样本生成，解决了目标域数据集数据量少的问题，并且选取的困难样本有助于提高模型的泛化能力；

2)样本经过模型训练，可以得到具有判别性的，域不变性的特征；并且通过结合多模态信息，可以得到鲁棒的视频特征，模型收敛速度快，在多个目标域小规模数据集上都能取得高效的动作识别性能。

附图说明

图1为本发明的结构图；

图2为每个动作类别第一行为CDSAR源域数据集，每个动作第二行为MMA目标域数据集；

图3为经典动作识别算法与本发明在源域和目标域上性能的比较，其中图3中对应的文献如下所示:

[1]Du Tran,Lubomir Bourdev,Rob Fergus,Lorenzo Torresani,and ManoharPaluri.Learning spatiotemporal features with 3d convolutional networks.InProceedings of the IEEE international conference on computer vision,pages4489–4497,2015.

[2]Zhaofan Qiu,Ting Yao,and Tao Mei.Learning spatio-temporalrepresentation with pseudo-3d residual networks.In proceedings of the IEEEInternational Conference on Computer Vision,pages 5533–5541,2017.

[3]Karen Simonyan and Andrew Zisserman.Two-stream convolutionalnetworks for action recognition in videos.In Advances in neural informationprocessing systems,pages 568–576,2014.

[4]Limin Wang,Yuanjun Xiong,Zhe Wang,Yu Qiao,Dahua Lin,Xiaoou Tang,and Luc Van Gool.Temporal segment networks:Towards good practices for deepaction recognition.In European conference on computer vision,pages 20–36.Springer,2016.

[5]Gao Z,Han T T,Zhu L,et al.Exploring the Cross-Domain ActionRecognition Problem by Deep Feature Learning and Cross-Domain Learning[J].IEEE Access,2018,6(99):68989-69008.

[6]Lin Y C,Hu M C,Cheng W H,et al.Actions speak louder than words:searching human action video based on body movement[C]//Acm InternationalConference on Multimedia.ACM,2012.

[7]Liu A A,Xu N,Nie W Z,et al.Benchmarking a Multimodal and Multiviewand Interactive Dataset for Human Action Recognition[J].IEEE Transactions onCybernetics,2017,47(7):1781-1794.

[8]Lin L,Wang K,Zuo W,et al.ADeep Structured Model with Radius–MarginBound for 3D Human Activity Recognition[J].International Journal of ComputerVision,2016,118(2):256-273.

[9]Xia L,Chen C C,Aggarwal J K.View invariant human actionrecognition using histograms of 3D joints[C]//Computer Vision and PatternRecognition Workshops(CVPRW),2012IEEE Computer Society Conference on.IEEE,2012.

图4为经典动作识别算法和本发明在源域和目标域上的收敛情况，其中，(a)TSN收敛图，(b)Two-stream收敛图，(c)本发明的收敛图；

图5为不同采样策略对模型性能的影响。

具体实施方式

下面结合附图对本发明作进一步的描述；

实施例1：

如图1所示，为本发明的一种基于双链深度双流网络的小数据跨域动作识别方法的操作流程图，该方法的操作步骤包括：

步骤10视频预处理

由于目标域数据集样本数较少，使得模型的泛化能力差，模型不能很好地拟合目标域数据，最难识别样本选择和样本对生成方法可以充分解决上述问题；例如，源域s有M个样本{s₁...s_i...s_M}，目标域t有O个样本{t₁...t_i...t_O}，选出两者共有的C个相同类{y₁...y_i...y_C}的样本；然后从目标域每个类的样本中选取出该类最难识别的样本，所有类共选取出N个最难识别样本；通过标签，将目标域N个最难识别样本与源域M个样本进行一一匹对，共生成N×M个正正对，然后按正正对：正负对＝1:2的比例随机选取正负对，总共P＝3×M×N个样本对作为训练样本；通过样本对的构建充分解决了训练数据少的问题；

最难识别样本选择：先对目标域样本提取特征，然后从每个类Q个样本中找出与样本相对应的特征并用K-means聚类，得到聚类中心c_yi,然后计算每个样本特征与聚类中心的欧式距离D(·,·)；距离最大的前几个样本就是此类最难识别的前几个样本；挑选最难识别样本的方法具体见公式1：

其中，max_j表示欧式距离最大的第j个样本；min_j表示欧式距离最小的第j个样本；

数据增强：将所有样本对的视频帧进行角裁剪，中心裁剪，多尺度裁剪和随机水平翻转；在角点裁剪技术中，提取的区域从图像的角或中心进行选择；中心裁剪是仅对图片中心区域进行裁剪；多尺度裁剪是先将样本对固定大小为(宽*高)340×299，然后再将宽高的裁剪区域从(1.0,0.875,0.75,0.66)中随机挑选一个裁剪尺度比例，与目标裁剪的大小(299×299)相乘后生成裁剪区域进行裁剪，最后将图片大小重定义为299×299，用于网络训练；随机水平翻转是按照50％的几率随机选择图片进行水平翻转；本发明在训练时先对样本对进行角裁剪然后进行多尺度裁剪最后进行随机水平翻转生成最终的图片训练格式；在测试时，仅对图片进行裁剪区域为(299×299)的中心裁剪；

在模型训练的时候为了能够实现长时间动作的识别，从一个样本对的前，中，后三部分各选取一帧，利用这一对三帧图像来稀疏地表示这一个样本对视频；这样做的优点是可以避免输入大量的帧来表示长时间动作，减少了模型训练参数的同时也能获得很好的识别结果；

步骤20基于双链的深度双流网络模型搭建

模型构建，在步骤10的基础上将生成的样本帧对作为模型输入；选择基于双链深度双流网络的原因是双链网络的输入是数据对，非常适合处理数据相似性问题，数据分布问题和迁移学习问题；而双流网络拥有两种模态的网络，彩图图像网络和光流网络，双流网络在空间流f_r通过彩图图像获得动作的空间信息；在时间流f_f通过光流图像来获取动作的时间信息，最后将二者融合得到完整的动作信息，是动作识别里热门的深度网络，双链网络可以加入到双流网络中；在双流网络中的每一条流上使用双链结构这样即可以实现动作信息的获取又可以充分利用双链结构的特性对数据对进行处理；

网络选择，将Inception_v3深度神经网络作为特征提取器，在彩图和光流网络上均使用此网络；因为Inception_v3是拥有优良局部拓扑结构的网络，即对输入图像并行地执行多个卷积运算或池化操作，并将所有输出结果拼接为一个非常深的特征图；因为1×1、3×3或5×5等不同的卷积运算与池化操作可以获得输入图像的不同信息，对它们进行拆分不会影响获得的图像信息，且参数更少，收敛速度更快，并行处理这些运算并结合所有结果将获得更好的图像表示，且在低维度上就可进行上述聚合，不会损失表示能力；而且在高维中，上述聚合更容易处理局部信息；网络兼备了宽度和深度的优势而且计算资源消耗少，训练速度快；详细的模型框图如图1所示；

权值分配层，相同动作类样本的区分度可能不一样，有的动作表现的明显，有的动作表现的不明显，所以在模型训练的时候，同等对待这些样本，会导致区分度不高的样本贡献度较低，从而使得训练出来的特征判别性较差，容易与其他相似动作混淆；为了增加样本特征区分性，在每个模态网络中双链的每条链的前7层后加入了权值分配层，使得源域、目标域均增加样本的区分性，有利于提高分类效果；经过权值分配层后得到权值，将权值乘到全局平均池化层输出的特征上；权值分配层包含一层全连接层和sigmoid激活函数，可以得到特征的区分性权值得分{s₁...s_w...s_P}∈(0,1)；选择前7层的原因是浅层特征能提取样本的背景，纹理，边界信息，可以从外形上对动作做出初步判断；每个得分代表了该样本的权重，即贡献度，区分性高的权重就高；权值的计算方法见公式2：

其中是inception_v3的前7层，包含5层卷积层和2层池化层，abs()是取绝对值操作，log()是取对数操作，sigmoid()是sigmoid激活函数，P是当前批次的样本对数，p_i指当前批次下样本对中的第i对；表示双流双链网络；

分类加权分配层，一个视频内容有内在的不同模态，当对同一动作类识别时，彩图网络通过背景和外观进行识别，而光流网络则通过运动轨迹来进行识别，一般来说光流网络识别效果要好；将彩图和光流两个模态的分类得分进行加权，再将得分分配给对应模态类别的权重，能够在网络训练时平衡利用两种模态网络的特性，使分类效果更好；于是在两个模态网络的全连接层的后面加了分类加权分配层，该层首先获取彩图和光流两个网络的分类得分，根据得分大小进行得分的加权处理，然后将得分分配给对应模态的全连接层输出的类别特征，再将加权后的类别特征进行分类得到分类损失并进行回传；分类加权分配层的定义在公式8中：

其中是彩图网络加权后动作类别c的得分,s_c ^f*是光流网络加权后动作类别c的得分；是彩图网络和光流网络对应全连接层的类别c的特征权重，分别是利用加权彩图和光流两条流的信息得到的彩图网络和光流网络的类别特征，将其用于各自模态的分类，经过分类损失函数得到损失并进行回传；

步骤30基于双链深度双流网络的目标函数构建

模型要实现的功能有两个，一是在双链网络中实现源域和目标域的域适应，混淆不同域的数据分布，使模型产生域不变特征；权值分配层已经对特征进行了加权，提高了特征的区分度，在权值分配层的基础上，使用最大均值差异(MMD)算法来减少源域和目标域的数据分布差异，最大均值差异算法作用在经过权值分配层加权后的特征上，分别在的双链双流网络上进行域适应，生成域不变特征；最大均值差异(MMD)损失函数的定义见公式3：

其中，指在的双链网络中计算MMD距离，H是再生希尔伯特空间(RKHS)，将网络的特征投影到再生希尔伯特空间中计算MMD距离，将每条链的全局平均池化层输出的特征用高斯核计算它们的MMD距离，其中u,v分别指每条链的全局平均池化层输出的特征，σ为函数的宽度参数,控制了函数的径向作用范围，计算方法为公式4；

p_si,p_ti分别指当前批次下源域和目标域样本对中的第i对,P指当前批次中样本对的个数；

第二个功能是动作的分类，为了使域不变特征的分类效果更好，在交叉熵损失函数作用之前，加入了对比损失函数；在最大均值差异的基础上，将产生的域不变特征作为对比损失函数的输入；对比损失函数的作用是拉近相同类样本的距离，使不同类样本的距离大于某个阈值；可以辅助分类损失函数对特征进行更有效的分类；对比损失函数的定义见公式6：

其中，P指当前网络训练批次中，样本对的个数；p_si,p_ti分别指当前批次下源域和目标域样本对中的第i对，d_i＝||p_si-p_ti||₂指当前批次样本对中源域样本和目标域样本的欧式距离，y_i指当前样本对的标签(one-hot)，即相同类为1，不同类为0，m是不同类别样本距离的阈值；

最后使用交叉熵损失函数对经过对比损失函数处理的特征进行分类，交叉熵损失函数被定义在公式5中：

其中P代表当前网络训练批次中样本数量，y_i表示第i个样本的标签，表示对第i个样本的预测值；log()是取对数操作；

整个双链深度双流网络最终的损失函数定义为公式7：

其中，α，β，γ为损失函数超参数；

步骤40基于双链深度双流网络的小数据跨域动作识别方法

经过步骤20和步骤30后形成最终的基于双链深度双流网络的小数据跨域动作识别模型；模型的流程为：经过步骤10生成样本对，并采样样本对的帧，彩图图像网络和光流网络接收相同的样本对帧，两者的双链网络结构是相同的；在两种模态网络的双链网络中，将每条链的浅层特征输入到权值分配层中得到特征的区分性权重，将权重乘到全局平均池化层的输出特征上，赋予权重，此时每条链赋予权重的特征，被最大均值差异方法作用，使得特征分布尽可能相同，然后这些特征又被对比损失函数作用，使得相同类别的特征彼此聚集，最后将所有特征输入到全连接层中，得到类别特征，类别特征被作用于交叉熵损失函数，实现分类；

为了验证本发明的有效性，在动作数据集MMA和CDSAR上进行了评测，具体实验设置为：将CDSAR作为源域数据集，MMA作为目标域数据集；从MMA数据集种选出与CDSAR相同的10个类，训练集中场景1，场景2分别有480个样本，每个类48个样本；测试集中场景1有890个样本,场景2有900个样本。

数据集的动作情况如图2所示；经典动作识别算法与本发明的性能比较如图3所示，图3的实验设置为：分别从MMA训练集场景1和场景2中挑选最难识别的2、4、6、10、20个样本与CDSAR样本匹对作为训练数据；实验设置10个epoch,采用优化方法Adadelta，默认学习率是1，该优化方法会在训练时自动调整学习率的大小；损失函数超参数设置为α＝0.25，β＝0.25，γ＝0.5；为了增强模型对目标域数据的拟合能力，将源域目标域样本对输入到模型得到分类结果后将源域目标域样本对进行调换，再输入到网络中，这相当于用源域的数据微调了目标域数据；将训练好的模型在目标域场景1和场景2分别进行测试，测试时按照TSN的方法进行测试,具体方法见:文献[4]Limin Wang,Yuanjun Xiong,Zhe Wang,YuQiao,Dahua Lin,Xiaoou Tang,and Luc Van Gool.Temporal segment networks:Towardsgood practices for deep action recognition.In European conference on computervision,pages 20–36.Springer,2016.。

经典动作识别算法与本发明的收敛情况如图4所示，图4的训练数据为：从MMA训练集场景1中挑选最难识别的10个样本，与CDSAR样本匹对作为训练数据，实验参数与图3的实验参数相同；不同采样策略对模型的影响如图5所示，图5的训练数据为从MMA训练集场景1和场景2中挑选最难识别、最容易识别、随机的10个样本与CDSAR样本匹对作为训练数据，实验参数与图3的实验参数相同，测试方法与实验3的测试方法相同；

从图2可以看出，CDSAR数据集具有场景多样性、视角多样性、动作背景多样性、人物多样性的特点，适用于跨域动作识别任务；从图3、4、5可以看出，本发明提出的基于双链深度双流网络的小数据跨域动作识别模型在跨域小数据量目标数据集上具有较好的识别性能。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制；尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于双链深度双流网络的小数据跨域动作识别方法，；其特征在于该方法具体包含以下步骤：

第1、视频预处理

第2、基于双链深度双流网络模型搭建

第3、基于双链深度双流网络的目标函数构建

第二个功能是动作的分类，在最大均值差异的基础上，为了使域不变特征的分类效果更好，在交叉熵损失函数作用之前，在网络中又使用了对比损失函数(contrastive loss)，作用到最大均值差异损失的输出特征上；对比损失函数的作用是拉近相同类样本的距离，同时让不同类样本之间的距离大于某个阈值，起到了同类样本更聚集的效果；将经过对比损失函数作用产生的特征用交叉熵损失函数来进行分类，同时衡量源域和目标域特征的分类情况；

第4、基于双链深度双流网络的小数据跨域动作识别方法