CN107220616A

CN107220616A - 一种基于自适应权重的双路协同学习的视频分类方法

Info

Publication number: CN107220616A
Application number: CN201710379016.1A
Authority: CN
Inventors: 彭宇新; 赵韫禛
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-05-25
Filing date: 2017-05-25
Publication date: 2017-09-29
Anticipated expiration: 2037-05-25
Also published as: CN107220616B

Abstract

本发明提出一种基于自适应权重的双路协同学习的视频分类方法，包括以下步骤：利用视频训练样本，对预先使用大规模图像数据集训练好的卷积神经网络模型进行精细调整，得到适用于视频特征学习的卷积神经网络模型；利用训练得到的卷积神经网络模型，提取视频的运动和静态特征，并通过运动‑静态协同学习优化这两种特征的表示，最终输出与运动和静态特征对应的两种预测得分；利用两种预测得分，对于每个类别自适应地学习融合权重，并根据得到的权重预测视频所属的语义类别。本发明通过协同学习和自适应权重学习提高了视频分类的准确率。

Description

一种基于自适应权重的双路协同学习的视频分类方法

技术领域

本发明涉及视频分类技术领域，具体涉及一种基于自适应权重的双路协同学习的视频分类方法。

背景技术

随着网络和多媒体技术的迅速普及与发展，互联网上的视频内容呈现快速增长的趋势。有研究报告指出，YouTube视频网站每分钟上传视频总长超过300小时。视频分类是指通过分析视频的内容给出其具体的类别信息，是视频与知识进行关联的关键步骤，在智能监控、人机交互、老年人护理等方面都发挥着重要作用。

近年来，视频分类受到了研究人员的广泛关注。该问题主要面临着来自以下几方面的挑战：其一，对于相当一部分类别，视频中会出现复杂多变的物体，容易对视频分类造成干扰。例如，对于“生日宴会”这个类别的视频，其中可能出现鲜花、蛋糕、小刀等复杂的物体；其二，属于同种类别的视频也可能具有相当大的差异。例如，对于“婚礼”这个类别的视频，婚礼可能在宴会厅中举办，也可能在草坪上举办；其三，属于不同类别的视频，其差异可能相对较小。例如，对于“颠球”和“罚点球”这两个类别的视频，它们都包含绿茵草坪、人、足球等物体；其四，相对于图片，受限于拍摄器械、存储空间等的约束，视频往往不清晰，而数据量可能会很大(一个视频往往由成百上千个帧组成)，因此，对于视频的特征提取及处理会更加困难。

传统方法使用手工特征进行视频分类，但是随着视频数量的飞速增长、视频语义类别的扩充，需要更加强大的特征来支持视频分类。得益于深度学习技术的突破性进展，深度学习在大规模图像分类、语音识别等领域都取得了良好的效果。在视频分类上，研究人员也利用深度网络建模视频的运动和静态特征，取得了超越传统手工特征的效果。基于深度学习的视频分类方法一般采用两路网络来建模视频中的运动和静态信息。现有方法把视频的帧和光流分别作为两路网络的输入，其中视频帧一路用来提取视频中的静态特征，光流一路则用来提取视频中的运动特征。之后采用平均融合的方式对两路信息进行处理，取得最终的结果。然而，这些方法一方面忽略了运动和静态特征之间的联系，因此特征表达能力不足；另一方面，平均融合的方式忽略了不同类别视频对于运动和静态两路特征侧重的不同，难以取得较好的分类效果。

发明内容

针对现有技术的不足，本发明提出一种基于自适应权重的双路协同学习的视频分类方法，能够协同优化视频中运动和静态两种特征，并为不同类别的视频自适应地学习不同的融合权重，将二者有机地结合在一起，提高了视频分类的准确率。

为达到以上目的，本发明采用的技术方案如下：

一种基于自适应权重的双路协同学习的视频分类方法，用于根据视频内容自动判断所属的语义类别，包括以下步骤：

(1)训练卷积神经网络模型：利用视频训练样本，对预先使用大规模图像数据集训练好的卷积神经网络模型进行精细调整，从而得到适用于视频特征学习的卷积神经网络模型，并提取视频的运动和静态两种特征；

(2)构建并训练运动-静态协同学习模型：设计协同学习层以构建运动-静态协同学习模型，利用步骤(1)中得到的视频的运动和静态特征作为输入，通过协同学习优化各自特征的表示，并最终输出视频的运动和静态特征对应的预测得分；

(3)自适应视频分类：利用步骤(2)中得到的两种预测得分，对于每个语义类别自适应学习不同的融合权重，得到运动和静态特征对于不同语义类别所起到作用的权值，并根据得到的权值预测视频所属的语义类别。

进一步，上述一种基于自适应权重的双路协同学习的视频分类方法，所述步骤(1)中的第一步是预训练(pre-training)卷积神经网络，即利用大规模的图像数据集训练得到卷积神经网络模型。

进一步，上述一种基于自适应权重的双路协同学习的视频分类方法，所述步骤(1)中的第二步是精细调整(fine-tuning)卷积神经网络模型，即利用已标注的视频对卷积神经网络模型的参数进行调整，使其能够更好地适用于视频分类任务。

进一步，上述一种基于自适应权重的双路协同学习的视频分类方法，所述步骤(2)中，运动-静态协同学习模型由一个自定义的协同学习层(collaborative learninglayer)以及两个全连接层组成。其中自定义的协同学习层通过迭代操作使两种特征互相指导优化；全连接层则将这两种特征连接到损失函数，从而输出预测得分。

进一步，上述一种基于自适应权重的双路协同学习的视频分类方法，所述步骤(3)中，将步骤(2)中的预测得分作为输入，针对每个语义类别学习其各自的融合权重。

本发明的效果在于：与现有方法相比，本发明能够使视频的运动特征与静态特征互为指导、协同优化，并根据不同语义类别学习特征融合权重，使视频分类的效果有较大提升。

本发明之所以具有上述发明效果，其原因在于：一方面，本方法与现有方法最大的区别在于采用了运动-静态协同学习模型。本方法通过协同学习模型优化视频的运动和静态两种特征表示；而传统方法则直接使用视频的运动和静态两种特征进行分类。另一方面，融合权重对于视频分类的准确性至关重要。本方法利用自适应权重模型对不同的视频类别学习不同的融合权重，而现有方法则直接对两种视频特征对应的预测得分平均融合。因此，本方法能够提升视频分类的准确率。

附图说明

图1是本发明的基于自适应权重的双路协同学习的视频分类方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述。

本发明的一种基于自适应权重的双路协同学习的视频分类方法，其流程如图1所示，具体包含以下步骤：

(1)训练卷积神经网络模型

本实施例利用ImageNet等大规模图像数据集预训练得到卷积神经网络(convolutional neural network,CNN)模型，并将其迁移到视频分类的任务上。CNN通过加强神经网络中相邻层之间节点的局部连接模式来挖掘图像的空间局部关联信息，能够更好地获得图像特征，适用于识别和分类等任务。CNN模型包含N层卷积层和M层全连接层，其中N，M>1。

本实施例对CNN模型进行预训练的过程，本质上是CNN模型参数不断调整向训练数据拟合的过程。具体地，模型输入是图像，在训练过程中，利用前向传播算法和反向传播(back-propagation)算法对模型中的参数进行学习优化。这一步是预训练阶段，经过这一阶段，CNN模型已经具有一定的视频分类能力，但是还需要针对视频分类任务调整以取得更高准确率。

之后，对于视频分类的训练样本提取视频的帧和光流，并对CNN模型的顶层网络结构进行修改，然后采用反向传播算法进行学习。在学习过程中，通过控制学习参数，减小底层网络的学习速度，充分保存迁移过来的丰富底层特征；同时扩大深层网络的学习速度，使得整个网络较快地适应视频分类任务，自动调节深层神经元对于视频类别进行判断的能力。最终，我们得到两个CNN模型：其中一个接受视频的光流为输入，输出视频的运动特征；另一个接受视频帧为输入，输出视频的静态特征。

(2)构建并训练运动-静态协同学习模型

运动-静态协同学习模型由一个自定义的协同学习层(collaborative learninglayer)，以及两个全连接层组成，其中自定义的协同学习层起主要作用，通过迭代操作使两种特征互相指导优化，全连接层则将视频的运动和静态特征连接到损失函数，从而输出视频的预测得分。

具体地，在时刻t，使用视频的静态特征，优化运动特征的表示。定义视频的运动特征为其中N表示视频中帧的数量，在协同学习网络中，通过公式得到：

其中，H表示网络的隐状态输出，表示网络层的权值，1^T表示全1向量，softmax表示损失函数，o^s表示t-1时刻由视频静态特征合成的视频特征，o^m表示由视频的运动特征合成的视频特征，z^m表示由运动特征学习而得到的优化系数，表示每个视频帧对应的优化系数，表示每个视频帧对应的运动特征。

在时刻t+1，使用视频的运动特征优化静态特征的表示。定义视频的静态特征为在协同学习网络中，通过公式得到：

其中，表示网络层的权值，o^s表示t时刻由视频静态特征合成的视频特征，o^m表示由视频的运动特征合成的视频特征，z^s表示由静态特征学习而得到的优化系数，表示每个视频帧对应的优化系数，表示每个视频帧对应的静态特征。

应用softmax损失函数驱动上述迭代优化过程，直至损失函数收敛。之后用训练得到的模型，通过softmax损失函数计算输出运动和静态两种特征的预测得分。

(3)自适应视频分类

该模型以(2)中输出的两种特征的预测得分为输入，自适应地对于不同视频类别学习融合权重。具体地，对于(2)中两种特征的预测得分，首先融合第j个语义类别中的第i个训练数据的得分：

其中代表第m路输入中，第j个语义类别中的第i个训练数据的得分,T表示矩阵的转置。对于第j个语义类别，定义融合权重为：

W_j＝[w_j,1,w_j,2] (4)

其中w_j,1,w_j,2分别表示第1路和第2路输入对应的融合权重，这里限制w_j,1+w_j,2＝1，且w_j,1,w_j,2>0。每个语义类别的融合权重由下面的目标函数单独训练得到：

其中P_j约束语义类别类内的关系，N_j约束语义类别类间的关系，λ表示正负样本的平衡参数，P_j定义为：

上述公式中，n_j代表第j个语义类别的训练数据的个数，J_j表示第j维为1，其他维均为0的列向量。该项的目标是最大化W_j和的第j列数据的乘积，使得该语义类别的训练数据得分在融合权重下的内积尽可能大。类似地，N_j定义为：

其中，c表示语义的类别数目，n_k表示第k个语义类别的训练数据的个数，该项的目标是使得不属于该语义类别的训练数据在融合权重下的内积尽可能小。由上述两项，得到最终的目标函数：

通过求解上述目标函数，可以得到每个语义类别单独的融合权重。在预测视频的语义类别时，对于输入的两路视频特征S_t＝[s_t,1 ^T,s_t,2 ^T]^T，通过下面的公式预测视频的语义类别：

通过上述方法，本发明不仅考虑两路输入的约束关系，也考虑不同类别的类内和类间的约束关系，使视频分类效果得到提升。

下面的实验结果表明，与现有方法相比，本发明可以取得更高的视频分类准确率。

数据集：我们采用公开数据集HMDB51来验证本发明的有效性。HMDB51数据集由6766个视频组成，这些视频分为51个类别，在镜头运动、视角、视频质量等方面各有不同，每个视频都有唯一的类别。

现有方法：对视频提取运动和静态特征，并平均融合其得分。即Simonyan等人在文献“Two-Stream Convolutional Networks for Action Recognition in Videos”中提出的方法。

本发明：本实施例的方法。

实验采用准确率的指标来评测视频分类的效果。准确率越高，说明视频分类的效果越好。从表1可以看出，本发明取得了更好的视频分类效果。现有方法不经优化地直接使用视频的运动和静态两种特征，并对两种视频特征对应的预测得分平均融合，导致其视频分类的效果低于本发明。本发明通过协同学习模型优化视频的运动和静态两种特征表示，并通过自适应权重模型对不同的视频语义类别学习不同的融合权重，因此能够提高视频分类的准确率。

表1.本发明与现有方法的对比实验结果

方法	准确率
		现有方法	0.676
本发明	0.687

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于自适应权重的双路协同学习的视频分类方法，包括以下步骤：

(1)利用视频训练样本，对预先使用大规模图像数据集训练好的卷积神经网络模型进行精细调整，从而得到适用于视频特征学习的卷积神经网络模型，并提取视频的运动和静态两种特征；

(2)设计协同学习层以构建运动-静态协同学习模型，利用步骤(1)中得到的视频的运动和静态特征作为输入，通过协同学习优化各自特征的表示，并最终输出视频的运动和静态特征对应的预测得分；

(3)利用步骤(2)中得到的两种预测得分，对于每个语义类别自适应学习不同的融合权重，得到运动和静态特征对于不同语义类别所起到作用的权值，并根据得到的权值预测视频所属的语义类别。

2.如权利要求1所述的方法，其特征在于，步骤(1)中卷积神经网络模型的训练过程包括两步，第一步是利用大规模图像数据集预训练卷积神经网络模型，是卷积神经网络模型参数不断调整向训练数据拟合的过程；第二步是利用已标注的视频精细调整卷积神经网络模型。

3.如权利要求2所述的方法，其特征在于，所述卷积神经网络模型，在预训练过程中利用前向传播算法和反向传播算法对模型中的参数进行学习优化。

4.如权利要求2所述的方法，其特征在于，所述精细调整卷积神经网络模型的方法是：首先提取训练视频的帧和光流，然后采用反向传播算法进一步学习；在学习过程中，通过控制学习参数，减小底层网络的学习速度，充分保存迁移过来的丰富底层特征，扩大深层网络的学习速度，使得整个网络较快地适应视频类型检测任务，自动调节深层神经元对于视频语义类别的分类能力，以得到适用于视频特征学习的卷积神经网络。

5.如权利要求1中所述的方法，其特征在于，步骤(2)中所述运动-静态协同学习模型由一个自定义的协同学习层以及两个全连接层组成。

6.如权利要求5所述的方法，其特征在于，所述自定义的协同学习层通过迭代操作，使两种特征互相指导学习和优化。

7.如权利要求6所述的方法，其特征在于，利用运动特征优化静态特征的公式如下：

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>H</mi> <mo>=</mo> <mi>tanh</mi> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mi>m</mi> </msup> <msup> <mi>V</mi> <mi>m</mi> </msup> <mo>+</mo> <mo>(</mo> <mrow> <msubsup> <mi>W</mi> <mi>o</mi> <mi>s</mi> </msubsup> <msup> <mi>o</mi> <mi>s</mi> </msup> </mrow> <mo>)</mo> <msup> <mn>1</mn> <mi>T</mi> </msup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msup> <mi>z</mi> <mi>m</mi> </msup> <mo>=</mo> <mi>s</mi> <mi>o</mi> <mi>f</mi> <mi>t</mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msubsup> <mi>W</mi> <mi>h</mi> <mi>m</mi> </msubsup> <mi>H</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msup> <mi>o</mi> <mi>m</mi> </msup> <mo>=</mo> <msubsup> <mi>&Sigma;z</mi> <mi>i</mi> <mi>m</mi> </msubsup> <msubsup> <mi>v</mi> <mi>i</mi> <mi>m</mi> </msubsup> </mrow> </mtd> </mtr> </mtable> <mo>,</mo> </mrow>

其中o^s表示t-1时刻由视频静态特征合成的视频特征，o^m表示由视频的运动特征合成的视频特征，z^m表示由运动特征学习而得到的优化系数；

利用静态特征优化运动特征的公式如下：

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>H</mi> <mo>=</mo> <mi>tanh</mi> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mi>s</mi> </msup> <msup> <mi>V</mi> <mi>s</mi> </msup> <mo>+</mo> <mo>(</mo> <mrow> <msubsup> <mi>W</mi> <mi>o</mi> <mi>m</mi> </msubsup> <msup> <mi>o</mi> <mi>m</mi> </msup> </mrow> <mo>)</mo> <msup> <mn>1</mn> <mi>T</mi> </msup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msup> <mi>z</mi> <mi>s</mi> </msup> <mo>=</mo> <mi>s</mi> <mi>o</mi> <mi>f</mi> <mi>t</mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msubsup> <mi>W</mi> <mi>h</mi> <mi>s</mi> </msubsup> <mi>H</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msup> <mi>o</mi> <mi>s</mi> </msup> <mo>=</mo> <msubsup> <mi>&Sigma;z</mi> <mi>i</mi> <mi>s</mi> </msubsup> <msubsup> <mi>v</mi> <mi>i</mi> <mi>s</mi> </msubsup> </mrow> </mtd> </mtr> </mtable> <mo>,</mo> </mrow>

其中o^s表示t时刻由视频静态特征合成的视频特征，o^m表示由视频的运动特征合成的视频特征，z^s表示由运动特征学习而得到的优化系数。

8.如权利要求5中所述方法，其特征在于，所述全连接层将视频的运动和静态特征连接到损失函数，从而输出视频的预测得分。

9.如权利要求1中所述方法，其特征在于，步骤(3)利用如下公式得到运动和静态信息对于不同类别所起到作用的权值：

argmaxP_j-λN_j，

其中P_j约束语义类别类内的关系，N_j约束语义类别类间的关系，并根据得到的权重预测视频所属的语义类别。