CN106203296A

CN106203296A - 一种属性辅助的视频动作识别方法

Info

Publication number: CN106203296A
Application number: CN201610509713.XA
Authority: CN
Inventors: 陈凯; 邢爽; 杜强
Original assignee: Beijing Xiao Bai Century Network Technology Co Ltd
Current assignee: Beijing Xiao Bai Century Network Technology Co Ltd
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2016-12-07
Anticipated expiration: 2036-06-30
Also published as: CN106203296B

Abstract

本发明公开了一种属性辅助的视频动作识别方法，包括如下步骤：针对视频的训练数据选取视觉属性：根据所述视觉属性修改分类器模型；构建修改后的分类器模型的损失函数；根据损失函数对所述修改后的分类器模型进行训练，得到训练好的分类器；利用训练好的分类器进行视频分类。本发明通过添加额外的视觉属性，监督和指导卷积神经网络在训练时的学习过程，从而优化特征学习和参数调整的过程，获得了更加有效的特征映射，提升了动作识别的准确率。

Description

一种属性辅助的视频动作识别方法

技术领域

本发明涉及计算机多媒体技术领域，尤其涉及一种属性辅助的视频动作识别方法。

背景技术

动作识别技术在诸多现实场景中有着广泛的应用，比如监控视频的事件检测、体育视频的内容分析、体感设备的人机交互等。在这些应用中，如何构建准确、高效的动作分类器是动作识别技术中最重要的一步。近年来，随着深度学习和卷积神经网络在图像识别任务中的突出效果，视频识别的研究方向偏向于使用大量已标注数据训练出有效的卷积神经网络模型，然后使用模型对动作进行分类和识别。然而，由于动作通常由一小段视频片段或一系列连续的帧画面所描述，相比于单一的图像而言包含了更多的信息量，因此分类器的输入信息不再是传统的一帧图像或一段文本信息。尽管卷积神经网络在图像识别任务中表现出极强的学习能力，但对于视频中动作的识别却并不完全适用。所以，如何利用现有信息，训练有效的分类器以识别在复杂场景中发生的动作，成为一个重要问题。

现有动作识别的方法主要可以分为两类，传统方案通过挑选有效的视觉特征对动作进行分类，目前主流的方案则使用基于深度学习的思想。按照目前的研究趋势，采用深度学习方案基于大量训练数据训练出卷积神经网络模型，能够提取到比手工选取特征更加有区分能力的深度特征。因此，深度学习的方法已经成为研究的必要手段。如果直接将动作视频切分成多幅静态图像，使用静态图像进行卷积神经网络的训练和分类，并将分类结果使用投票策略获得视频分类的最终结果，就在手工选取特征方案的分类准确率结果上得到极大的提升。在此基础上，有些研究者尝试将时域特征作训练数据输入到网络模型中，能够有效捕捉到动作的时域信息；若同时将网络结构应用于视频的空间信息和时域信息，将获得空间和时域两条不同信息流的深度特征，使用高斯混合模型等方法能够将两类特征进行有效的融合，最终使用支持向量机等分类模型对融合特征进行训练和分类，使动作识别的精确度有了很大提升。另外，也有研究者将卷积神经网络内不同卷积层的深度特征根据原始时域特征进行投影和映射操作，聚合成有效的深度特征表现，也能够获得一定的分类精度提升。

从目前的研究来看，现有的研究方案主要聚集于对卷积神经网络结构的调整以及深度特征的获取和使用。这类方案虽然相比于朴素的卷积神经网络有不少的提升，但并没有从本质上提升动作识别的能力。所以在卷积神经网络的学习过程需要一种有效的指导和监督方法，使在动作发生环境较复杂的情况下为动作类别构建更正确、有效的分类模型。

发明内容

本发明的目的之一在于提供一种属性辅助的视频动作识别方法，以解决在动作识别任务中，相同动作类别的场景可能存在多样化的差别的情况下，如何利用视觉属性作为辅助信息，指导和监督分类器模型的学习过程，从而构建高精度识别动作分类的模型的问题。

本发明的发明目的是通过下述技术方案来实现的：

一种属性辅助的视频动作识别方法包括如下步骤：

针对视频的训练数据选取视觉属性；

将视觉属性添加到分类器模型中进行训练，得到训练好的分类器；

利用训练好的分类器进行视频分类。

进一步的，本发明提供的一种属性辅助的视频动作识别方法，具体包括如下步骤：

步骤S1：针对视频的训练数据选取视觉属性；

步骤S2：根据所述视觉属性修改分类器模型；

步骤S3：构建步骤S2中的修改后的分类器模型的损失函数；

步骤S4：根据步骤S3中的损失函数对所述修改后的分类器模型进行训练，得到训练好的分类器；

步骤S5：利用训练好的分类器进行视频分类。

进一步的，所述步骤S1：针对视频的训练数据选取视觉属性的步骤中，包括如下步骤：

将训练数据表示为：data_i＝{I,P}，其中I表示视频的常规数据信息；P表示视频的分类和属性的标准信息；

其中P定义为：P＝{C,A₁,A₂,…}，其中C∈{0,1}^c表示训练数据的分类信息向量，表示训练数据在第a_i个视觉属性的取值信息。

进一步的，所述步骤S2：根据所述视觉属性修改分类器模型的步骤中，具体包括如下步骤：

步骤S2.1：在分类器模型的输入层添加视觉属性标准值；

步骤S2.2：在分类器模型的输出层中添加视觉属性输出层。

进一步的，所述步骤S3：构建步骤S2中的修改后的分类器模型的损失函数的步骤，具体包括如下步骤：

步骤S3.1：构建分类器模型中视觉属性输出层的损失函数；

步骤S3.2：根据所述视觉属性输出层的损失函数构建分类器模型的全局损失函数。

进一步的，所述步骤S3.1中分类器模型中视觉属性输出层的损失函数表示为：

ζ = - \frac{1}{m} {Σ_{i = 1}^{m} [Σ_{&Element; = 1}^{k} y^{(i &Element;)} * \log (h_{&Element;} (x^{i}))]}

其中m表示训练数据个数，k表示视觉属性取值的范围个数，y^(i∈)表示第i个训练数据的视觉属性标准值，h_∈(xⁱ)表示第i个训练数据在输出层第∈列的输出。

进一步的，所述步骤S3.2中构建的分类器模型的全局损失函数表示为：

ζ_T表示全局损失函数值，其中r表示视觉属性的个数，ζ_c表示由动作类别产生的损失函数值，而表示视觉属性p产生的损失函数值，表示权重。

进一步的，所述分类器模型采用卷积神经网络模型。

进一步的，所述步骤S4：根据步骤S3中的损失函数对所述修改后的分类器模型进行训练，得到训练好的分类器的步骤中，采用开源工具Caffe完成分类器模型的训练。

本发明的有益效果：

(1)本发明提出利用一种基于属性监督的视频动作识别方案。在目前主流的深度学习模型基础上，通过添加额外的视觉属性，监督和指导卷积神经网络在训练时的学习过程，从而优化特征学习和参数调整的过程，获得了更加有效的特征映射，提升了动作识别的准确率；

(2)本发明可以在语义层面上提出多种有效的视觉属性，用于描述视频中动作的相关信息。这种语义层面上的属性符合人类常规认知，标注工作量较小，且只需要在训练过程中添加属性信息，在测试分类过程中不需要。通过添加视觉属性，克服了传统分类器视觉特征相似的两个动作类别识别过程中可能出现的错误分类问题。

附图说明

图1为本发明所述的属性辅助的视频动作识别方法流程图。

具体实施方式

下文将结合具体实施方式详细描述本发明。应当注意的是，下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的，它们可以被相互组合从而达到更好的技术效果。

本发明提供的一种属性辅助的视频动作识别方法，包括如下步骤：

针对视频的训练数据提取视觉属性；

利用训练好的分类器进行视频分类。

如图1所述，本发明提供的一种属性辅助的视频动作识别方法具体包括如下步骤：

步骤S1：针对视频的训练数据选取视觉属性，具体步骤如下：

将训练数据表示为：data_i＝{I,P}，其中I表示视频的常规数据信息，比如帧画面、时域特征向量等；P表示视频的分类和属性的标准信息；

其中P定义为：P＝{C,A₁,A₂,…}，其中C∈{0,1}^c表示训练数据的分类信息向量，表示训练数据在第a_i个视觉属性的取值信息。Ai可以用来表示视频中是否出现了某个视觉属性，取值为0或1，出现了，则取值为1，反之为0。本发明通过在训练数据中增添视觉属性，使训练数据得到扩充。

步骤S2：根据所述视觉属性修改分类器模型，具体包括如下步骤：

步骤S2.1：在分类器模型的输入层添加视觉属性标准值。以卷积神经网络模型为例，就是在网络模型的输入层添加视觉属性的标准值。

步骤S2.2：在分类器模型的输出层中添加视觉属性输出层。同样以卷积神经网络为例，就是在网络模型的的输出部分，平行于原有的类别分类输出层(Softmax Layer)，针对每种视觉属性添加对应的属性分类输出层，表示视频在每种视觉属性的网络模型输出。

步骤S3：构建步骤S2中的修改后的分类器模型的损失函数，具体包括如下步骤：

步骤S3.1：构建分类器模型中视觉属性输出层的损失函数，该视觉属性输出层的损失函数可以表示为：

ζ = - \frac{1}{m} {Σ_{i = 1}^{m} [Σ_{&Element; = 1}^{k} y^{(i &Element;)} * \log (h_{&Element;} (x^{i}))]}

步骤S3.2：根据所述视觉属性输出层的损失函数构建分类器模型的全局损失函数，该全局损失函数可以表示为：

在传统分类器模型中，只有分类向量在训练过程中被使用到，因此可以看作ζ_T＝ζ_c。使用视觉属性辅助的方法，能够通过添加视频的视觉属性信息，给予分类器模型关于视频额外的信息，从而达到提升动作分类准确率的效果。

步骤S4：根据步骤S3中的损失函数对所述修改后的分类器模型进行训练，得到训练好的分类器。

在分类器模型构建完成后，可以使用传统的训练方法进行分类器模型的训练。由于在分类器模型中添加了视觉属性标准值输入及对应的损失函数，分类器模型在训练的过程中将根据视频的视觉属性信息进行对应的参数调整，从而达到使用属性辅助指导和监督分类器训练过程的目的。以卷积神经网络为例，可以使用开源工具Caffe完成网络模型的定义和训练，最终得取到训练完成的网络模型。

步骤S5：利用训练好的分类器进行视频分类。

在分类器模型训练完成后，可以使用分类器输入视频进行分类，识别不同的动作类别。在分类过程中，并不需要提供视觉属性信息，确保了方法的简捷可行和有效性。

综上所述，本发明具有的优势为：

(1)本发明提出利用一种基于属性监督的视频动作识别方法在目前主流的深度学习模型基础上，通过添加额外的视觉属性，监督和指导卷积神经网络在训练时的学习过程，从而优化特征学习和参数调整的过程，获得了更加有效的特征映射，提升了动作识别的准确率。

实施例

为验证本发明所提出的一种属性辅助的视频动作识别方法的有效性，分别在动作识别领域的标准数据集KTH、UCF101、HMDB51上的实验。具体来说，在仅添加两个视觉属性的条件下，三个数据集上使用本发明所提出的方法在能够在同等原始深度模型的分类准确度上分别提升1.77％、2.23％、1.13％；在相关深度模型上也能够获得1％至3％的提升效果。

通过在不同的模型和不同的数据集上对本发明进行实验，证明了本发明对于动作识别效率的提升效果显著。

当然应意识到，虽然通过本发明的示例已经进行了前面的描述，但是对本发明做出的将对本领域的技术人员显而易见的这样和其他的改进及改变应认为落入如本文提出的本发明宽广范围内。因此，尽管本发明已经参照了优选的实施方式进行描述，但是，其意并不是使具新颖性的设备由此而受到限制，相反，其旨在包括符合上述公开部分、权利要求的广阔范围之内的各种改进和等同修改。

Claims

1.一种属性辅助的视频动作识别方法，其特征在于，包括如下步骤：

针对视频的训练数据选取视觉属性；

利用训练好的分类器进行视频分类。

2.如权利要求1所述的一种属性辅助的视频动作识别方法，其特征在于，包括如下步骤：

步骤S1：针对视频的训练数据选取视觉属性；

步骤S2：根据所述视觉属性修改分类器模型；

步骤S3：构建步骤S2中的修改后的分类器模型的损失函数；

步骤S5：利用训练好的分类器进行视频分类。

3.如权利要求2所述的一种属性辅助的视频动作识别方法，其特征在于，所述步骤S1：针对视频的训练数据选取视觉属性的步骤中，包括如下步骤：

其中P定义为：P＝{C,A₁,A₂,...}，其中C∈{0,1}^c表示训练数据的分类信息向量，表示训练数据在第a_i个视觉属性的取值信息。

4.如权利要求3所述的一种属性辅助的视频动作识别方法，其特征在于，所述步骤S2：根据所述视觉属性修改分类器模型的步骤中，具体包括如下步骤：

步骤S2.1：在分类器模型的输入层添加视觉属性标准值；

步骤S2.2：在分类器模型的输出层中添加视觉属性输出层。

5.如权利要求4所述的一种属性辅助的视频动作识别方法，其特征在于，所述步骤S3：构建步骤S2中的修改后的分类器模型的损失函数的步骤，具体包括如下步骤：

步骤S3.1：构建分类器模型中视觉属性输出层的损失函数；

6.如权利要求5所述的一种属性辅助的视频动作识别方法，其特征在于，所述步骤S3.1中分类器模型中视觉属性输出层的损失函数表示为：

ζ = - \frac{1}{m} {Σ_{i = 1}^{m} [Σ_{&Element; = 1}^{k} y^{(i &Element;)} * l o g (h_{&Element;} (x^{i}))]}

7.如权利要求6所述的一种属性辅助的视频动作识别方法，其特征在于，所述步骤S3.2中构建的分类器模型的全局损失函数表示为：

8.如权利要求7所述的一种属性辅助的视频动作识别方法，其特征在于，所述分类器模型采用卷积神经网络模型。

9.如权利要求1-8中任一项所述的一种属性辅助的视频动作识别方法，其特征在于，所述步骤S4：根据步骤S3中的损失函数对所述修改后的分类器模型进行训练，得到训练好的分类器的步骤中，采用开源工具Caffe完成分类器模型的训练。