CN110377790A

CN110377790A - 一种基于多模态私有特征的视频自动标注方法

Info

Publication number: CN110377790A
Application number: CN201910530231.6A
Authority: CN
Inventors: 张敏灵; 吴璇
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2019-10-25
Anticipated expiration: 2039-06-19
Also published as: CN110377790B

Abstract

本发明公开了一种基于多模态私有特征的视频自动标注方法，对视频文件进行预处理和人工标注，并对人工标注结果进行过滤；利用生成对抗网络提取不同模态特征间的共性特征；将原始特征中的共性特征剥离，得到不同模态的私有特征；整合提取的共性特征与模态私有特征组成该视频的新特征，使用多标记算法进行学习，得到视频自动标注分类器；将待标注的视频样本送入分类器，得到分类结果，实现自动标注；对标注结果进行抽检。采用本发明可以训练出用于视频自动标注的分类模型，利用未知标注视频不同模态的私有特征，重新对视频视频特征进行整合，自动完成标注任务，可显著降低人工标注时间与成本。

Description

一种基于多模态私有特征的视频自动标注方法

技术领域

本发明涉及一种视频自动标注方法，具体涉及一种适用于具有多模态特征与多标注描述的视频分类的视频自动标注方法。

背景技术

近年来，各类短视频应用层出不迭，用户常在零散时间用该类应用进行消遣，短视频应用的出现，使得用户接受新鲜事物的方式不再局限于静态的文字或图片，且可以巧妙利用时间间歇，因此，该类应用与短视频数量均呈现了爆炸式的增长。但随之而来的问题是，如何保证用户可以精准地进行搜索，如何保证当用户没有明确的观看内容需求时合理地进行推荐。利用机器学习技术进行自动化搜索与推荐是一个行之有效的手段，而该策略的基础是视频均有明确的标注信息。基于此，高效准确的视频自动标注方法成为一个重要的研究课题，在该方法中，利用已有标注的视频进行学习，得到分类模型，将未知标注的视频提交至该模型，即可对视频进行自动标注。

同时，一个视频通常具有不同模态的特征，例如视频题目的文字描述、表达视频主要内容的标题图、描述视频详细内容的视频帧、刻画视频表达的音频等。如何合理的利用各个模态的不同贡献、提取其最有价值的私有特征，可提高标注性能。

发明内容

发明目的：本发明的目的在于弥补现有视频标注技术中存在的不足，提出一种基于多模态私有特征的视频自动标注方法，利用视频不同模态所提供的不同信息，重新对视频特征进行整合，提高标注性能。

技术方案：本发明所述的一种基于多模态私有特征的视频自动标注方法，包括以下步骤：

(1)对视频文件进行预处理，从不同角度提取视频特征；

(2)对视频进行人工标注，并对人工标注结果进行过滤；

(3)利用生成对抗网络提取不同模态特征间的共性特征；

(4)将原始特征中的共性特征剥离，得到不同模态的私有特征；

(5)整合提取的共性特征与模态私有特征组成该视频的新特征，使用任一多标记算法进行学习，得到视频自动标注分类器；

(6)将待标注的视频样本送入分类器，得到分类结果，实现自动标注；

(7)对标注结果进行抽检，若合格，则结束；否则，返回步骤(1)，从训练集中选择更多的视频样本进行模型调整更新。

步骤(1)所述的视频特征主要包括视频标题、视频题图、视频帧、音频。

步骤(3)所述的共性特征的提取实现过程如下：

对于视频样本集合依次优化判别网络D与生成网络G；判别网络D的目标是识别出输入的特征来自于哪一个模态，设为真实特征来源的标记向量，当样本来自于第j个模态时，其他为0，设为判别器输出结果，将原始特征与生成特征和其对应的模态来源标记输入判别网络进行训练，判别网络使输出结果与真实标记λ_i的分布更为相似，即KL散度越小，即优化以下目标函数：

训练step次判别网络后，固定其参数，进行生成网络G的训练；对于迷惑判别网络，希望其输出结果更接近平均分布即即优化两者KL散度最小：

与此同时，要保证该生成特征具有语义信息，即可以表达出对应样本的标记分布情况，优化分类网络M的输出结果与对应样本的真实标记更为接近：

步骤(4)所述的通过提取出的模态私有特征与共享特征正交来将原始特征中的私有部分提取出来，即优化下式，以更新正交网络E：

步骤(5)所述的多标记算法为哈希快速多标记学习算法。

有益效果：与现有技术相比，本发明的有益效果：为了提取不同模态的私有特征，本发现利用生成对抗网络提取共性特征，并对私有特征进行剥离，可以训练出用于视频自动标注的分类模型，利用未知标注视频不同模态的私有特征，重新对视频视频特征进行整合，自动完成标注任务，可显著降低人工标注时间与成本。

附图说明

图1为本发明的流程图；

图2为本发明共性特征提取模块的流程图；

图3为本发明对模态私有特征提取模块的流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明，如图1所示，视频模块与视频标记模块中存放的是原始的视频资料与所有标记集合。针对原始视频，首先需要完成特征提取的工作。一个视频可从不同的角度进行描述，例如视频题目的文字描述、表达视频主要内容的标题图、描述视频详细内容的视频帧、刻画视频表达的音频等，利用以上不同模态的描述，可提取到多模态的视频特征。针对视频标记，首先需挑选部分视频样本进行人工标注，为防止标注者表示能力不同而使用相似但不完全相同的标记来进行标注，所有标记均应来自于标记集合。之后，为保证不同标记所包含的视频数相对均衡，需将出现次数较少的标记进行过滤。同时，一个视频的标记信息并不唯一，例如对于一部电影，其标记组成可以包括电影类型、国家、导演、主演等，因此，这是一个多标记问题。在得到视频多模态原始特征与标记后，首先提取各模态的共性特征与私有特征，之后基于整合特征训练多标记分类器，并对视频库中其他待标注视频进行自动标注，如果抽检准确率达标则结束，否则通过用户反馈与增加训练样本量来改善提升模型性能，获得新的视频自动标注模型，重新送检。

利用生成对抗网络提取不同模态特征间的共性特征，如图2所示。假设用户提交的视频样本对应的集合为其中表示不同模态的特征向量表示，是q维标记向量，q表示总共拥有的标记数量，当第i个样本被打上第m(1≤m≤q)个标记时，反之

针对每一个模态依次提取与该模态对应的共性特征，对生成网络与判别网络中的参数进行迭代更新，判别网络参数更新step次后，对生成网络进行一次更新，整体步骤迭代iter次。

判别网络D的目标是识别出输入的特征来自于哪一个模态，设为真实特征来源的标记向量，当样本来自于第j个模态时，其他为0，设为判别器输出结果，将原始特征与生成特征和其对应的模态来源标记输入判别网络进行训练，判别网络使输出结果与真实标记λ_i的分布更为相似，即KL散度越小，即优化以下目标函数：

训练step次判别网络后，固定其参数，进行生成网络G的训练。生成网络的目的是生成使判别网络无法判别来自于哪一个模态且具有语义的特征。对于迷惑判别网络，希望其输出结果更接近平均分布即即优化两者KL散度最小：

图3给出了将原始特征中的共性特征剥离得到不同模态的私有特征的具体步骤。依次对各个模态的私有特征进行提取，正交网络的训练需要进行epoch次迭代，在每一次迭代中，通过使提取出的模态私有特征与共享特征正交来将原始特征中的私有部分提取出来，即优化下式，以更新正交网络E：

由于每个样本的共性特征也来源于不同视图，在本发明中对其进行加和操作得到每个样本的共性特征与私有特征后，对其进行拼接得到整合特征将整合后的样本特征与对应的标记输入至任意一种多标记算法即可得到视频自动标注分类器。将待标注的视频样本送入分类器，得到分类结果，实现自动标注。

对于待标注样本，首先提取其模态共性特征与私有特征并进行整合，之后输入至多标记分类器中即可完成自动标注，可减少人力标注成本。

Claims

1.一种基于多模态私有特征的视频自动标注方法，其特征在于，包括以下步骤：

(1)对视频文件进行预处理，从不同角度提取视频特征；

(2)对视频进行人工标注，并对人工标注结果进行过滤；

(3)利用生成对抗网络提取不同模态特征间的共性特征；

2.根据权利要求1所述的一种基于多模态私有特征的视频自动标注方法，其特征在于，步骤(1)所述的视频特征主要包括视频标题、视频题图、视频帧、音频。

3.根据权利要求1所述的一种基于多模态私有特征的视频自动标注方法，其特征在于，步骤(3)所述的共性特征的提取实现过程如下：

4.根据权利要求1中所述的一种基于多模态私有特征的视频自动标注方法，其特征在于，步骤(4)所述的通过提取出的模态私有特征与共享特征正交来将原始特征中的私有部分提取出来，即优化下式，以更新正交网络E：

5.根据权利要求1中所述的一种基于多模态私有特征的视频自动标注方法，其特征在于，步骤(5)所述的多标记算法为哈希快速多标记学习算法。