CN111797814A

CN111797814A - 基于通道融合和分类器对抗的无监督跨域动作识别方法

Info

Publication number: CN111797814A
Application number: CN202010708119.XA
Authority: CN
Inventors: 高赞; 赵一博; 张桦; 薛彦兵; 袁立明; 徐光平
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-10-20

Abstract

本发明公开了一种基于通道融合和分类器对抗的无监督跨域动作识别方法(CAFCCN)，实现了基于源域有标签数据集和目标域无标签训练集对目标域测试集的高效动作识别。方法的具体步骤如下：(1)动作识别模型的选择；(2)双流深度网络结构的优化；(3)基于双流网络的目标函数构建；(4)基于双流网络的无监督跨域动作识别模型搭建；(5)数据集的构建。本发明的优点是基于已知数据集可对其他训练集无标签的数据集进行高效的动作识别，能够有效地解决目标数据集训练集数据无标签的问题。应用对抗的方法，能够同时实现类别和域的混淆，获得域级别和类级别的不变特征，并且方法收敛速度快，可以实现动作的高效识别。

Description

基于通道融合和分类器对抗的无监督跨域动作识别方法

技术领域

本发明属于计算机视觉和模式识别技术领域，涉及一种基于通道融合和分类器对抗的无监督跨域动作识别方法(CAFCCN)，可以在类别上和域上同时进行对齐，能够解决目标域训练集没有标签的问题。利用源域数据进行辅助，在目标域数据训练集没有标签的情况下，验证了该模型的有效性。

背景技术

近几年中，随着深度学习技术的飞速发展，许多学者提出了许多基于深度学习技术的动作识别方法，能够提取出鲁棒的视频表征。经典的动作识别方法包括基于3D卷积的方法和基于双流的方法。在基于3D卷积的方法中，C3D取得了很大的成功，在C3D方法中，输入是连续的16帧图像，通过3D卷积来同时获取到空间特征和时间特征，取得了很好的效果，但是由于C3D方法的参数量大，训练速度慢。P3D(伪三维残差神经网络)方法应运而生，在P3D方法中，将3D卷积拆分成为1*3*3和3*1*1的空间卷积和时间卷积，极大的减少了参数量，加快了训练速度，同时使得网络的层数能够更深，进一步提升了动作识别的准确率。经典的基于双流的方法分为两条流：RGB流来提取空间的信息而光流来提取时间信息，并且RGB流和光流是分开训练的。最后的结果是两条流结果的分数的融合。这些经典的方法都是对于训练集和测试集满足独立同分布的数据集来进行的，泛化能力很差，如果将这些方法直接应用于无监督跨域动作识别，并不能取得很好的效果。

如何解决不满足独立同分布数据集的识别问题，在迁移学习中已经给出了一些图片跨域任务的解决方法，比如通过在特征层面进行度量来减小特征之间的差异，或是通过对抗的方法来产生域不变特征，但是这些方法并不能够直接应用于动作识别上的跨域任务，因为失去了在动作识别中必须要考虑进去的时序信息。

发明内容

本发明的目的是解决与现有数据集不相同的，目标数据集的训练集无标签的动作识别问题，之前的动作识别方法使用的数据集都满足训练集和测试集独立同分布，泛化能力较弱。本发明提供了一种高效的基于通道融合和分类器对抗的无监督跨域动作识别方法(CAFCCN)。用于解决目标数据集训练数据集无标签的问题，通过使用源域数据集的信息和目标域无标签训练集的信息，实现了对目标域测试集的准确识别，本发明方法收敛速度快，识别精度高，从而为目标数据集训练数据集无标签上的动作识别问题提供了帮助。

本发明的技术方案如下

基于通道融合和分类器对抗的无监督跨域动作识别方法，该方法具体包含以下步骤：

第1、动作识别模型的选择

选择基于双流的方法来解决无监督跨域动作识别任务；

在基础网络的选择方面，选择残差网络作为本发明方法的基本网络；

第2、双流深度网络结构的优化

在第1步基础网络选择的基础上，对双流深度网络的结构进行优化，首先，对于双流网络的输入，在RGB流输入的是单帧图像的信息为3通道，在光流输入的是连续的10帧光流信息为20通道；由于残差网络缺乏对输入信息保持空间不变性的能力，本发明采用了空间变换网络来解决这个问题，对于输入的信息，首先输入空间变换网络来获得信息的空间不变性，对于输入的信息，首先输入空间变换网络来获得信息的空间不变性，其次对于每个流的信息，使用第1个步骤中选取的Resnet抽取出的特征没有考虑到通道内部的关系，因此对于RGB流和光流抽取出来的特征，分别使用Squeeze Excitation Layers对通道内部的信息进行一个重新加权来分别建模RGB流和光流内部通道信息；对于双流网络，在本发明的模型中加入了一个通道注意力特征融合的模块，对RGB流和光流输出的特征进行拼接后输入到所述的通道注意力特征融合的模块中，能够获得RGB流和光流信息的通道关系，通过这种通道注意力特征融合的模块，构建了一个端到端训练的网络架构；

第3、基于双流网络的目标函数构建

对于无监督跨域动作识别任务，首先要考虑到如何训练一个鲁棒的模型来对特征进行提取，其次要考虑到如何训练一个准确的分类器来对数据进行正确的分类；由于目标域的训练数据是没有标签的，因此要考虑如何在不使用目标域训练数据标签的情况下来设计出合理的损失函数；在本发明的模型中，设计了基于分类器对抗的方法；

第3.1步、为了让分类器能够正确对类别和域的信息进行正确的分类；首先要基于源域数据来训练源域分类器和目标域分类器，采用交叉熵损失进行优化，这里的目的是源域和目标域的分类器都能够正确对源域数据进行分类，之后设计了域判别损失函数让源域数据通过源域分类器得到的概率大于源域数据通过目标域分类器得到的概率，同时目标域数据通过源域分类器得到的概率小于目标域数据通过目标域分类器得到的概率，这是为了能够正确判别出一个数据是来自源域还是目标域；

第3.2步、在训练好分类器之后，要混淆分类器让分类器不能够正确的区分域和类别来更新特征提取器的参数，从而能够生成域和类别的不变特征；在混淆的过程中设计了域混淆损失函数和类别混淆损失函数能够同时对类别和域的信息进行混淆；除此之外，还采用了MK-MMD loss在特征层面进行优化，以此来使得源域和目标域的数据分布更相近；

以上设计的域判别损失函数、域混淆损失函数、类别混淆损失函数均可用于无监督跨域识别任务中。

第4、基于双流网络的无监督跨域动作识别模型搭建

对于最终的模型，包含了动作识别模型的选择、双流深度网络结构的优化以及双流网络目标函数的构建。首先根据第1步来选择出合适且高效的动作识别模型，之后根据第2步来对选择出的动作识别模型进行优化，之后在第3步中利用优化之后的动作识别模型来抽取特征并进行损失函数的计算，计算loss后分别进行回传来更新特征提取器和分类器的参数；

第5、数据集的构建

U-H跨域动作识别数据集的构建：虽然目前已有很多动作识别数据集，但是这些数据集大多满足训练集和测试集独立同分布这一条件，并且采用有标签训练集进行训练，测试集进行测试；在无监督跨域动作识别任务中，这些数据集是不满足要求的，因此本发明从UCF101和HMDB51数据集中各选择了11个类构成了本发明的U-H跨域动作识别数据集，其中，UCF101数据集中收集了1480个视频片段，HMDB51数据集中收集了1322个视频片段；

第6、动作识别效果

本发明使用第5个步骤中构建的数据集进行无监督跨域动作识别，对于U作为源域，H作为目标域的情况，使用源域的数据和目标域训练集的无标签数据，在目标域测试集上取得了67.4的效果；对于H作为源域，U作为目标域的情况，使用源域的数据和目标域训练集的无标签数据，在目标域测试集上取得了79.6的效果。

本发明的优点和有益效果；

1)通过使用空间变换网络使得特征具有空间不变性。2)通过对RGB流和光流内部通道信息的建模以及对融合后特征通道信息的建模获得了RGB流和光流之间的联系，建立了一个端到端训练的网络架构。3)通过域判别损失函数、域混淆损失函数、类别混淆损失函数的设计成功利用了目标域训练集的无标签数据，获得了鲁棒的域不变和类别不变的特征。4)通过对模型的优化，获得了收敛速度上的提升。

附图说明

图1为本发明CAFCCN的结构图。

图2为本发明提出方法与无监督方法的比较，图2中对应的文献如下所示：

[1]Mingsheng Long,Yue Cao,Jianmin Wang,and Michael Jordan.Learn-ingtransferable features with deep adaptation networks.In InternationalConference on Machine Learning,pages 97–105,2015.

[2]Yaroslav Ganin and Victor Lempitsky.Unsupervised domain adaptationby backpropagation.In International Conference on Machine Learning,pages1180–1189,2015.

[3]Yabin Zhang,Hui Tang,Kui Jia,and Mingkui Tan.Domain-symmetricnetworks for adversarial domain adaptation.In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,pages 5031–5040,2019.

图3为本发明提出方法与经典动作识别算法的比较，图3中对应的文献如下所示:

[1]Du Tran,Lubomir Bourdev,Rob Fergus,Lorenzo Torresani,and ManoharPaluri.Learning spatiotemporal features with 3d convolutional networks.InProceedings of the IEEE international conference on computer vision,pages4489–4497,2015.

[2]Zhaofan Qiu,Ting Yao,and Tao Mei.Learning spatio-temporalrepresentation with pseudo-3d residual networks.In proceedings of the IEEEInternational Conference on Computer Vision,pages 5533–5541,2017.

[3]Karen Simonyan and Andrew Zisserman.Two-stream convolutionalnetworks for action recognition in videos.In Advances in neural informationprocessing systems,pages 568–576,2014.

[4]HildeKuehne,HueihanJhuang,RainerStiefelhagen,andThomasSerre.Hmdb51:A large video database for human motion recognition.InIEEE International Conference on Computer Vision,2011.

[5]Khurram Soomro,Amir Roshan Zamir,and Mubarak Shah.Ucf101:A datasetof 101human actions classes from videos in the wild.Computer Science,2012.

图4为双流法和本发明方法的在不同源域和目标域情况下收敛状况的比较，其中，A为源域为HMDB目标域为UCF时双流法以及本发明方法的收敛情况，B为源域为UCF目标域为HMDB时双流法以及本发明方法的收敛情况。

具体实施方式

下面结合附图对本发明作进一步的描述。

实施例1

如图1所示，为本发明的一种基于通道融合和分类器对抗的无监督跨域动作识别方法(CAFCCN)的操作流程图，该方法的操作步骤包括：

步骤10动作识别模型的选择

首先对于动作识别任务，需要选用合适的模型。

在图像识别任务中，通常选用基于2D卷积的方法来进行识别，但是基于2D卷积的方法不能直接应用于动作识别任务中，在动作识别中，基于3D卷积的方法同时建模了时序信息和空间信息，但是3D卷积的参数量大，无法构建很深层的网络，难以训练。因此本发明选择了基于双流的方法来进行动作识别，通过RGB流获取到输入的空间信息，通过光流获取到输入的时序信息。其次，对于不同的网络架构，也会取得不同的效果，在网络架构的选择上，单纯的增加网络的深度并不能取得很好的效果，因为在增加网络层数的过程中会出现梯度消失的现象，增加网络训练的难度，难以收敛，因此本发明在RGB流和光流两个流中都选择了152层的残差网络，残差网络能够解决在网络层数加深的过程中出现的梯度消失问题，除此之外，残差网络不仅能够取得很好的效果，并且参数量较小，易于训练，能够抽取出鲁棒的空间信息和时序信息，这对于动作识别任务是至关重要的。详细的模型框架图在图1可见。

步骤20双流深度网络结构的优化

在步骤10选择完动作识别模型之后，为了增强网络的空间不变性，添加了空间变换模块，空间变换网络可以分为三个部分，包含了Localisation net，Grid generator以及Sampler。对于一张输入图像，首先经过Localisation net，得到变化参数，Grid generator是依据预测的变换参数来构建一个采样网络，他是输入图像经过采样变换后得到的输出。Gridgenerator实际上生成了一种映射关系。最后Sampler根据Grid generator得到的一系列坐标和输入图像来填充生成图像。通过空间变换网络来对输入图像进行变换，能够增强模型的空间不变性，抽取出鲁棒的空间不变和时间不变的特征表示。

对于不同流中抽出的特征信息，没有建模各自通道内部的信息的关系，因此对于每条流的输出，加入了压缩激励层来进行通道信息的建模，该过程可以分为两个过程：压缩和激励。假定从RGB流得到维度为C*H*W的特征F，首先运用全局平均池化来使得特征F产生C*1*1的特征，通过这样的操作，所有的信息都集中到了通道中。在压缩操作之后进行激励操作，经过全连接层和sigmoid函数来获得权重，之后再将得到的权重信息对通道信息进行重新加权。通过这样的压缩激励操作，能够对通道内部的信息进行很好的建模。在光流中的操作和RGB流类似得到特征F_f，通过这样的方法，同样能够对抽取时序信息的光流通道内部进行很好的建模。

之前的双流法只是在单个流中是端到端的网络模型，没有考虑到RGB流和光流的通道关系，因此本发明采用了特征融合的方法来建模不同流之间的关系。

首先，对于RGB流和光流抽取出来的特征进行一个通道上的拼接，得到拼接后的维度为C’*H*W的特征A，其中C’＝2*C。得到特征A后，对其进行reshape得到C’*P的特征，命名为B，其中P＝H*W。

用得到的特征B和其转置B^T得到一个形为C’*C’的矩阵G，其操作定义如下：

G＝B*B^T (1)

得到矩阵G后，通过一个softmax操作来获得注意力图M。其中每一个元素就表示了通道间的关系。

得到注意力图之后，将注意力图应用于特征B上得到新的特征，操作定义如下：

F’＝M^T*B (2)

其中M^T表示矩阵M的转置。

得到新的特征F’后将F’的形状变为C’*H*W。

最终双流融合的特征的定义如下：

N＝α*F’+A (3)

其中α是需要学习的参数，在得到最终融合的特征之后再将这个特征输入进两层的卷积网络将维度恢复到和输入相同。

步骤30基于双流网络的目标函数构建

在构建好网络的整体模型后，设计合适的目标函数实现对抗的过程，首先，对于分类器的训练，要保证源域分类器和目标域分类器都能够正确的对源域有标签数据进行正确的分类，采用交叉熵损失函数，定义如下：

其中Ls(G,Cs)表示通过源域分类器的交叉熵损失，Ls(G,Ct)表示通过目标域分类器的交叉熵损失。Ps(x_si)和Pt(x_si)分别为源域数据通过分类器的softmax结果，y_i表示指示变量，如果预测的类别和实际类别相同那么其值为1，否则为0。k表示类别数。x_si表示源域数据。Ns表示源域有多少数据。

通过交叉熵损失的优化能够使得源域分类器和目标域分类器都可以对源域的有标签数据进行正确的分类。

在分类器对抗的方法中，除了使分类器能够正确的对源域有标签数据正确分类外，还要让分类器能够正确的对一个数据来自于哪个域进行正确的分类，这里设计了一个损失函数，使得源域数据通过源域分类器得到的logsoftmax结果大于源域数据通过目标域分类器得到的logsoftmax结果，同时目标域数据通过目标域分类器得到的logsoftmax结果大于目标域数据通过源域分类器得到的logsoftmax结果。把一个数据通过分类器得到的logsoftmax结果看做一个数据属于该域的概率，即可以正确实现源域和目标域的分类。此处的域分类损失设计如下：

其中Ld(G,Cst)表示域分类损失，Cst表示目标域分类器和源域分类器共同组成的分类器。x_ti表示目标域数据。Nt表示目标域有多少数据。通过优化该域分类损失，使得分类器能够正确区分一个数据是来自源域还是目标域。

至此，对抗过程的第一步就完成了，此时的分类器经过训练已经能够正确的对源域的数据进行分类，且此时的分类器能够正确对域的信息进行正确分类。之后实现混淆的过程，在混淆的过程中，更新特征提取器的参数，使得分类器不能够正确的对域和类别的信息进行正确的分类。

首先对于域的信息的混淆是不需要标签信息的，这里用目标域无标签数据进行损失函数的设计来进行域的混淆，损失函数定义如下：

其中Lcd表示域混淆损失。通过优化该损失函数来更新特征提取器，能够使得特征提取器不能正确区分一个数据是来自源域还是来自目标域。

除了域混淆的过程，还需要实现类别混淆的过程，在实现类别混淆的过程中是需要标签的，因此这里使用有标签的源域数据来设计损失函数实现类别混淆的过程，损失函数定义如下：

其中Lcc表示类别混淆损失。该损失函数能够实现类别混淆的功能，对于来自源域的输入，给定不同的标签(通过目标域分类器进行分类时的标签为源域分类时的标签+K)，让分类器不能正确判断该数据是属于哪个类，通过优化该损失函数来更新特征提取器，实现了类别混淆的过程。

以上就是对抗的总体过程，通过分类器正确分类，特征提取器混淆的过程，不断更新分类器和特征提取器的参数，获得优化的模型。

步骤40基于双流网络的无监督跨域动作识别模型搭建

首先根据步骤10选择出合适的动作识别模型，然后根据步骤20进行网络结构的优化，增强网络空间不变性并且对通道中的信息进行建模，最后将步骤30中的损失函数加入到整个网络架构中进行域和类别的对齐及混淆，最终形成了本发明的基于通道融合和分类器对抗的无监督跨域动作识别方法。

步骤50数据集构建

为了验证本发明的有效性，构建了跨域动作识别数据集U-H并且在跨域动作识别数据集U-H上进行了评测，将UCF101作为源域数据集，HMDB51作为目标域数据集。从UCF101数据集种选出与HMDB51相同的11个类，从UCF101数据集中收集了1480个视频剪辑(其中299个用于训练，1181个用于测试)和从HMDB51数据集中收集了1322个视频剪辑(270个用于训练，1052个用于测试)。

步骤60动作识别效果

训练时从一个视频样本的中间选取一帧，因为动作大多出现在视频中间部分。同时选取中间帧周围的十帧光流信息来建模时序信息。使用imagenet上预训练好的模型参数，采用优化方法SGD，默认学习率是0.001，该优化方法会在训练时自动调整学习率的大小。

在测试过程中，首先通过RGB流和光流两条流分别抽取特征，之后进行特征融合，用融合的特征进行测试来验证模型的准确率。对于本发明的实验效果与无监督方法的比较在图2中可见，对于本发明的实验效果与动作识别方法的比较在图3中可见。本发明取得了最好的效果，当UCF作为源域且HMDB作为目标域时，取得了67.4的效果，当HMDB作为源域且UCF作为目标域时，取得了79.6的效果，除此之外，对于本发明的收敛速度与残差网络的比较在图4中可见，本发明获得了最快的收敛速度。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于通道融合和分类器对抗的无监督跨域动作识别方法(CAFCCN)，该方法具体包含以下步骤：

第1、动作识别模型的选择

选择基于双流的方法来解决无监督跨域动作识别任务；

第2、双流深度网络结构的优化

在第1步基础网络选择的基础上，对双流深度网络的结构进行优化，首先，对于双流网络的输入，在RGB流输入的是单帧图像的信息为3通道，在光流输入的是连续的10帧光流信息为20通道；由于残差网络缺乏对输入信息保持空间不变性的能力，本发明采用了空间变换网络来解决这个问题，对于输入的信息，首先输入空间变换网络来获得信息的空间不变性，其次，对于每个流的信息，使用第1步中选取的残差网络抽取出的特征没有考虑到通道内部的关系，因此对于RGB流和光流抽取出来的特征，分别使用压缩激励层对通道内部的信息进行一个重新加权来分别建模RGB流和光流内部通道信息；对于双流网络，在本发明的模型中加入了一个通道注意力特征融合的模块，对RGB流和光流输出的特征进行拼接后输入到所述的通道注意力特征融合的模块中，能够获得RGB流和光流信息的通道关系，通过这种通道注意力特征融合的模块，构建出了一个端到端训练的网络架构；

第3、基于双流网络的目标函数构建

以上设计的域判别损失函数、域混淆损失函数、类别混淆损失函数均可用于无监督跨域识别任务中；

第4、基于双流网络的无监督跨域动作识别模型搭建

对于最终的模型，包含了动作识别模型的选择、双流深度网络结构的优化以及双流网络目标函数的构建；首先根据第1步来选择出合适且高效的动作识别模型，之后根据第2步来对选择出的动作识别模型进行优化，之后在第3步中利用优化之后的动作识别模型来抽取特征并进行损失函数的计算，计算loss后分别进行回传来更新特征提取器和分类器的参数；

第5、数据集的构建

第6、动作识别效果