CN111723692B

CN111723692B - 基于卷积神经网络语义分类的标签特征的近重复视频检测方法

Info

Publication number: CN111723692B
Application number: CN202010496104.1A
Authority: CN
Inventors: 王萍; 梁思颖
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2022-08-09
Anticipated expiration: 2040-06-03
Also published as: CN111723692A

Abstract

本发明基于卷积神经网络的语义分类标签特征的近重复视频检测方法，以解决现有近重复视频检索领域特征存储空间大、检索效率低等问题。该方法首先利用深度卷积神经网络模型对视频提取密集的语义分类标签特征；再根据视频帧标签特征之间的重复性去冗余以获得视频的语义分类标签特征；然后对查询视频和库视频的特征向量进行相似性匹配；最后通过计算杰卡德系数度量两视频的相似度，从而实现近重复视频的检测。其中视频标签特征去冗余和特征匹配两个步骤有视频级别和帧级别两种实现方式，即可以通过两种不同层次的方法实现基于语义分类标签特征的近重复视频检测。采用本发明能够快速实现近重复视频检测，并且对视频编辑变换和噪声具有一定的鲁棒性。

Description

基于卷积神经网络语义分类的标签特征的近重复视频检测方法

技术领域

本发明属于多媒体信息处理领域，具体涉及一种基于卷积神经网络语义分类的标签特征的近重复视频检测方法。

背景技术

随着互联网技术的蓬勃发展，视频作为信息的载体，在信息表达、信息传递中扮演着越来越重要的角色；而视频采集设备和视频编辑软件的快速发展，用户能更轻松地获取、编辑、分享视频，网络视频呈现爆炸式增长。以全球最大的视频网站YouTube为例，该网站目前每分钟有超过500小时时长的视频被上传，月活跃用户超过18亿。然而在这海量的视频数据中，存在着大量相同或近似的视频。据相关研究结果显示，在YouTube、Google Video和Yahoo Video上基于24个流行关键词进行查询，检索结果中平均有近27％的视频是相似视频，有的检索结果中这一数字甚至达到93％。这部分相似视频中，除了部分是完全重复的视频外，更多的是对原始视频进行了编辑变换后得到的近重复视频。大量近重复视频的存在给网络视频监管、视频版权保护、视频检索等任务带来了不小的挑战。

近重复视频检测技术是近年来引起人们普遍关注的研究课题。近重复视频是指完全相同或近似的视频，这些视频彼此之间几乎完全相同，但在文件格式、编码参数、光度变化(颜色、光照变化)、编辑操作(标题、徽标和边框插入)、长度和某些修改(插入帧/删除帧)方面有所不同。近重复视频检测的任务就是在一组视频(待检测视频)中确定是否有与给定视频(参考视频)近重复的视频。

在现有的近重复视频检测技术中，选择合适的具有高区分度和稳定性的视频帧特征是研究人员关注的热点。目前有视频帧的全局特征和视频帧的局部特征两种主要的特征表示方式。视频帧的全局特征包括颜色、纹理、形状等全局的图像视觉特征，通常将提取到的特征用一固定维数的向量进行表示，其优点在于计算简单，然而对于经过复杂编辑变换的视频，利用全局特征通常不能达到很好的检测效果。视频帧的局部特征包括尺度不变特征变换(Scale-invariant feature transform，SIFT)、加速鲁棒特征(Speed Up RobustFeatures，SURF)等，局部特征对颜色、光照、亮度变化、几何变换等后期编辑具有较强的鲁棒性，但是其计算代价较大且特征维数较高。

目前不论是视频帧的全局特征还是局部特征，都是以图像的低层视觉特征为主要内容，而忽略了视频帧在语义上的特性。通常为了解决计算代价和匹配准确率之间的矛盾，会对视频帧进行稀疏采样，如每秒均匀采样一到两帧、或一个镜头内选取一到三帧图像来代表整个视频片段。然而，同一秒内或同一镜头内的视频帧，尽管画面相似但又存在着细节上的差异，若仅使用其中的一到两帧来表示该一秒或一个镜头的视频片段，则会损失部分信息，导致特征的描述能力降低，继而造成检测结果准确率的下降。

发明内容

本发明通过深度学习的方法来解决现有技术中语义特征缺失和检测效率的问题。本发明提供一种基于卷积神经网络分类的语义标签的近重复视频检测方法，采用高层语义特征来描述视频内容，保证特征的紧凑和无冗余，实现高效的视频相似性匹配，满足视频检索、版权保护、视频监管等方面的技术需求。

本发明通过以下技术方案来实现的：

基于卷积神经网络语义分类的标签特征的近重复视频检测方法，该方法首先利用深度卷积神经网络模型对视频提取密集的语义分类标签特征；其次根据视频帧标签特征之间的重复性，去冗余得到视频的语义分类标签特征；然后对查询视频和库视频的特征向量进行相似性匹配；最后通过计算杰卡德系数度量两视频的相似度，从而实现近重复视频的检测；其中视频标签特征去冗余和特征匹配两个步骤有帧级别和视频级别两种实现方式，即通过两种不同层次的方法实现基于语义分类标签特征的近重复视频检测。

本发明进一步的改进在于，该方法具体包括以下步骤：

步骤1：视频帧语义分类标签特征提取：

分别对查询视频和库视频提取视频的所有帧，将各帧送入深度神经网络模型中提取语义分类标签特征，获得密集的视频帧标签特征；

步骤2：视频标签特征去冗余：

从视频级或帧级两个层次对密集的视频帧标签特征进行去冗余，获得视频级的查询视频特征向量V_qv和库视频特征向量V_dv，以及帧级的查询视频特征向量V_qf和库视频特征向量V_df；

步骤3：视频标签特征匹配：

从视频级或帧级两个层次进行视频间的相似性匹配，利用集合操作对视频级标签特征进行匹配，获得查询视频和库视频公共的语义标签数目；利用最大公共子序列的方法对帧级标签特征进行匹配，获得查询视频和库视频具有公共语义标签的帧数目；

步骤4：视频间相似性度量：

采用杰卡德系数计算查询视频和库视频中所有视频的相似度S，将相似度得分按从大到小排列，即得到近重复视频匹配列表。

本发明进一步的改进在于，在步骤1中，视频帧语义分类标签特征提取过程如下：

步骤1.1：抽取视频所有帧，得到视频帧集合F＝{f₁，f₂，…，f_n}，n为视频帧总数；

步骤1.2：将视频帧集合F中的n个视频帧进行归一化，每帧尺寸调整为227×227像素，并将归一化后的视频帧输入到在ImageNet数据集上预训练的AlexNet卷积神经网络模型；模型的Softmax层输出的1000维向量对应于1000个语义分类的概率，将这1000维向量作为每个视频帧的语义分类特征，得到n个视频帧的各1000维语义分类特征；

步骤1.3：对视频帧的语义分类特征，其标签定义为1000维向量的索引值，即1，2...，1000；因为该向量对应1000个语义分类的概率，因此取最高概率的三个语义分类对应的标签作为视频帧的语义分类标签特征，最终得到n×3维密集的视频帧语义分类标签特征矩阵。

本发明进一步的改进在于，在步骤2中，视频级去冗余的过程如下：

将n×3维的视频帧语义分类标签特征矩阵中的所有标签重组为一维的特征向量，该向量中重复出现的标签元素仅保留一个，即去冗余后得到一个一维的含p个无重复标签的视频级语义分类标签特征向量；对查询视频和库视频，其视频级语义分类标签特征分别记做V_qv和V_dv；

帧级去冗余的过程如下：

将第i帧特征向量与前i-1帧特征向量都进行比较，i＝2，…，n，若第i帧特征向量与前i-1帧的每个特征向量在每一维上都不相同，则保留第i帧特征向量，否则舍弃第i帧特征向量，即去冗余后的特征矩阵的每个3维的标签特征都是不同的；假设共保留q个无重复的3维标签特征，则得到q×3维的帧级视频特征向量；对查询视频和库视频，其帧级语义分类标签特征分别记做V_qf和V_df。

本发明进一步的改进在于，在步骤3中，针对视频级和帧级语义分类标签特征，有不同的相似性匹配方法；

其中视频级标签特征匹配过程如下：

对于视频级标签特征，利用集合的交集操作获得查询视频和库视频公共的语义标签数目|V_qv∩V_dv|，利用集合的并集操作获得查询视频和库视频全部的语义标签数目|V_qv∪V_dv|；

其中帧级标签特征匹配过程如下：

对于帧级标签特征，每帧的3维特征向量为一个匹配单元，如果两帧的3维特征向量的每一维分别对应相同，则认为两帧相似；利用最大公共子序列的方法获得查询视频和库视频按相同时间顺序出现的具有公共语义标签的帧数目|V_qf∩V_df|，以及查询视频和库视频全部语义标签的帧数目|V_qf∪V_df|＝|V_qf|+|V_df|-|V_qf∩V_df|，其中|V_qf|和|V_df|分别表示查询视频和库视频具有语义标签的帧数目。

本发明进一步的改进在于，在步骤4中，查询视频和库视频的相似度S的计算公式如下：采用杰卡德系数计算查询视频和库视频中所有视频的相似度S，对于视频级标签特征，

对于帧级标签特征，

与现有技术相比，本发明至少具有如下有益的技术效果：

(1)本发明采用高层语义特征来描述视频内容，相比传统的颜色特征、纹理特征、SIFT特征等，对视频内容的描述更加精简，特征维数低，所占用存储空间小，匹配时所需的时间大幅减少。

(2)本发明采用先提取特征，再对特征进行去冗余的方法来获得稀疏的视频描述，相比一般的先提取关键帧再提取特征的方法，本发明能够保留更多视频的原始信息，从而使检测的结果更加可靠。

附图说明

图1为本发明的总体流程图。

图2为本发明中视频高级语义特征提取过程示意图。

图3为从帧级的层面对一段视频的密集视频特征矩阵进行去冗余的流程图。

图4为利用本发明中的算法与现有的近重复视频检测算法在公开数据库CC_WEB_VIDEO中进行检测的结果的PR曲线。

具体实施方式

下面结合附图和实施例对本发明方法的实施方式做详细说明。

如图1所示，为本发明实现过程的总体流程图，本发明提供了基于卷积神经网络语义分类的标签特征的近重复视频检测方法，该方法首先对视频提取密集的语义分类标签特征；其次根据同一个视频的视频帧标签特征之间的重复性对特征进行去冗余，获得视频的语义分类标签特征；接着对查询视频和库视频的特征向量进行相似性匹配；最后通过计算杰卡德系数度量两视频的相似度，从而实现近重复视频的检测。其中视频标签特征去冗余和特征匹配两个步骤有帧级别和视频级别两种实现方式，即可以通过两种不同层次的方法实现基于语义分类标签特征的近重复视频检测。

本发明提供的基于卷积神经网络语义分类的标签特征的近重复视频检测方法，其具体实现过程如下：

步骤1，视频帧语义分类标签特征提取：

如图2所示为视频帧语义分类标签特征提取的流程，分别对查询视频和库视频提取视频的所有帧，将各帧送入深度神经网络模型中提取语义分类标签特征，获得密集的视频帧标签特征，具体生成过程如下：

第一步：抽取视频的所有视频帧，得到视频帧集合F＝{f₁，f₂，…，f_n}，n为视频帧总数；

第二步：将第一步中获得的视频帧集合F中的n个视频帧进行归一化，每帧尺寸调整为227×227像素；

第三步：将归一化后的视频帧输入到在ImageNet数据集上预训练的AlexNet卷积神经网络模型中，AlexNet卷积神经网络模型softmax层输出的1000维向量对应于1000个语义分类的概率，将这1000维向量作为每个视频帧的语义分类特征，得到n个视频帧的各1000维语义分类特征；

第四步：对第二步中获得的视频帧的语义分类特征，其标签定义为1000维向量的索引值，即1，2...，1000；因为该向量对应1000个语义分类的概率，因此取最高概率的三个语义分类对应的标签作为视频帧的语义分类标签特征，得到n×3维密集的视频帧语义分类标签特征矩阵。

步骤2，视频帧标签特征去冗余：

从视频级或帧级两个层次对密集的视频帧标签特征进行去冗余，获得视频级的查询视频特征向量V_qv和库视频特征向量V_dv，以及帧级的查询视频特征向量V_qf和库视频特征向量V_df。

其中视频级的特征去冗余的具体过程如下：

将n×3维的视频帧语义分类标签特征矩阵中的所有标签重组为一维的特征向量，该向量中重复出现的标签元素仅保留一个，即去冗余后得到一个一维的含p个无重复标签的视频级语义分类标签特征向量；对查询视频和库视频，其视频级语义分类标签特征分别记做V_qv和V_dv。

其中帧级的特征去冗余的流程如图3所示，具体过程如下：

第一步：保存第一个视频帧特征，初始化变量i＝2，将第i帧特征向量与前i-1帧特征向量都进行比较，若第i帧特征向量与前i-1帧的每个特征向量在每一维上都不相同，则保留第i帧特征向量，否则舍弃第i帧特征向量；

第二步：判断i是否小于n，若小于等于n，则令i＝i+1，返回第一步，继续进行比较，若大于或等于n，则循环结束；假设共保留q个无重复的3维标签特征，则得到q×3维的帧级视频特征向量。对查询视频和库视频，其帧级语义分类标签特征分别记做V_qf和V_df。

步骤3：视频标签特征匹配：

从视频级或帧级两个层次进行视频间的相似性匹配，利用集合操作对视频级标签特征进行匹配，获得查询视频和库视频公共的语义标签数目；利用最大公共子序列的方法对帧级标签特征进行匹配，获得查询视频和库视频具有公共语义标签的帧数目。

其中视频级标签特征匹配过程如下：

对于视频级标签特征，利用集合的交集操作获得查询视频和库视频公共的语义标签数目|V_qv∩V_dv|，利用集合的并集操作获得查询视频和库视频全部的语义标签数目|V_qv∪V_dv|。

其中帧级标签特征匹配过程如下：

第一步：对查询视频特征矢量V_qf及库视频特征矢量V_df，每帧的特征向量为一个匹配单元，若两帧的特征向量在每一维上都对应相同，则认为这两帧相似，利用最长公共子序列的方法获得查询视频和库视频按相同时间顺序出现的具有公共语义标签的帧数目|V_qf∩V_df|；

第二步：对查询视频特征矢量V_q及库视频特征矢量V_d，计算二者全部的帧特征向量数量|V_qf∪V_df|＝|V_qf|+|V_df|-|V_qf∩V_df|，其中|V_qf|和|V_df|分别表示查询视频和库视频具有语义标签的帧数目。

步骤4，视频间相似性度量：

对于视频级标签特征，

对于帧级标签特征，

如表1所示为利用本发明中的算法与现有的近重复视频检测算法在公开数据库CC_WEB_VIDEO中进行检测的结果，其中FL表示本发明中的帧级检测算法，VL表示本发明中的视频级检测算法，CH(Xiao Wu，Alexander G Hauptmann，and Chong-Wah Ngo，“Practical elimination of near-duplicates from web video search，”inProceedings of the 15th ACM international conference on Multimedia.ACM，2007，pp.218-227.)、ACC(Cai Yang，Linjun Yang，Ping Wei，Wang Fei，Mei Tao，Xian ShengHua，and Shipeng Li，“Million-scale near-duplicate video retrieval system，”inInternational Conference on Multimedea，2011.)、I-CNN-V(Giorgos Kordopatis-Zilos，Symeon Papadopoulos，Ioannis Patras，and Yiannis Kompatsiaris，“Near-duplicate video retrieval by aggregating intermediate cnn layers，”inInternational Conference on Multimedia Modeling.Springer，2017，pp.251-263.)为三种现有的近重复检测算法。mAP越高表明检测效果越好，本发明提高的检测的准确性。

表1 本发明与现有的近重复视频检测方法的对比结果

如图4所示为利用本发明中的算法与现有的近重复视频检测算法在公开数据库CC_WEB_VIDEO中进行检测的结果的PR曲线，本发明中的算法在各个水平的查全率(Recall)下都取得了优于其他三种算法的查准率(Precision)。

Claims

1.基于卷积神经网络语义分类的标签特征的近重复视频检测方法，其特征在于，该方法首先利用深度卷积神经网络模型对视频提取密集的语义分类标签特征；其次根据视频帧标签特征之间的重复性，去冗余得到视频的语义分类标签特征；然后对查询视频和库视频的特征向量进行相似性匹配；最后通过计算杰卡德系数度量两视频的相似度，从而实现近重复视频的检测；其中视频标签特征去冗余和特征匹配两个步骤有帧级别和视频级别两种实现方式，即通过两种不同层次的方法实现基于语义分类标签特征的近重复视频检测；

该方法具体包括以下步骤：

步骤1：视频帧语义分类标签特征提取：

分别对查询视频和库视频提取视频的所有帧，将各帧送入深度神经网络模型中提取语义分类标签特征，获得密集的视频帧标签特征；视频帧语义分类标签特征提取过程如下：

步骤1.1：抽取视频所有帧，得到视频帧集合F＝{f₁,f₂,…,f_n}，n为视频帧总数；

步骤1.3：对视频帧的语义分类特征，其标签定义为1000维向量的索引值，即1,2…,1000；因为该向量对应1000个语义分类的概率，因此取最高概率的三个语义分类对应的标签作为视频帧的语义分类标签特征，最终得到n×3维密集的视频帧语义分类标签特征矩阵；

步骤2：视频标签特征去冗余：

从视频级或帧级两个层次对密集的视频帧标签特征进行去冗余，获得视频级的查询视频特征向量V_qv和库视频特征向量V_dv，以及帧级的查询视频特征向量V_qf和库视频特征向量V_df；视频级去冗余的过程如下：

帧级去冗余的过程如下：

将第i帧特征向量与前i-1帧特征向量都进行比较，i＝2,…,n，若第i帧特征向量与前i-1帧的每个特征向量在每一维上都不相同，则保留第i帧特征向量，否则舍弃第i帧特征向量，即去冗余后的特征矩阵的每个3维的标签特征都是不同的；假设共保留q个无重复的3维标签特征，则得到q×3维的帧级视频特征向量；对查询视频和库视频，其帧级语义分类标签特征分别记做V_qf和V_df；

步骤3：视频标签特征匹配：

步骤4：视频间相似性度量：

2.根据权利要求1所述的基于卷积神经网络语义分类的标签特征的近重复视频检测方法，其特征在于，在步骤3中，针对视频级和帧级语义分类标签特征，有不同的相似性匹配方法；

其中视频级标签特征匹配过程如下：

其中帧级标签特征匹配过程如下：

3.根据权利要求2所述的基于卷积神经网络语义分类的标签特征的近重复视频检测方法，其特征在于，在步骤4中，查询视频和库视频的相似度S的计算公式如下：采用杰卡德系数计算查询视频和库视频中所有视频的相似度S，对于视频级标签特征，

对于帧级标签特征，