CN114567798A

CN114567798A - 一种针对互联网短视频变种的溯源方法

Info

Publication number: CN114567798A
Application number: CN202210184287.2A
Authority: CN
Inventors: 夏立; 李鑫; 曲宝珠; 王康; 王栋平; 王峥
Original assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Current assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-05-31
Anticipated expiration: 2042-02-28
Also published as: CN114567798B

Abstract

本发明公开了一种针对互联网短视频变种的溯源方法，包括如下步骤：S1、视频关键帧选择，包括对抽取的短视频进行关键帧质量评估，具体为信息熵评估、清晰程度评估和过滤无效视频帧；S2、关键帧特征提取，使用改进后的分类网络对符合关键帧质量评估后的短视频进行特征提取；S3、视频特征学习，对关键帧特征提取以及后处理合并后的视频初级特征进行学习，使得相似视频提取的特征经学习后尽可能接近，而不同的视频提取的特征学习后尽可能远离；S4、视频溯源系统，包括设计视频入库和视频溯源系统。该种针对互联网短视频变种的溯源方法，通过视频关键帧选择、关键帧特征提取和视频特征学习，形成互联网短视频的最终特征描述，具有溯源更加高效特点。

Description

一种针对互联网短视频变种的溯源方法

技术领域

本发明涉及视频溯源技术领域，具体为一种针对互联网短视频变种的溯源方法。

背景技术

随着网络的逐渐普及，短视频正在以爆发式增长的速度出现在互联网上，其中不乏出现一些违规的短视频，如侵犯版权的电视剧片段、色情视频等。

现实生活中，通过将待溯源视频库与目标特征库进行对比，从而判断待溯源视频库中是否包含目标视频。现有的相似视频匹配技术包括：1、比较视频的MD5码；2、提取相同间隔的视频帧特征进行撞库比较，选取相似帧数量最多的视频作为相似视频；3、每秒抽取固定数量的帧，并提取每帧的特征，计算所有帧的特征平均值并计算相似性。

然而，由于短视频在传播的过程中经过了不同程度的变化，如视频压缩、添加水印等，会导致对应的MD5码发生变化，使得检索召回率降低。通过视频帧进行撞库，会导致视频数据库的体量过大，检索时间过长；同时，提取帧的特征平均值作为视频的表示，这种方法忽视了视频的不同帧间的重要程度，准确性较差。因此，我们对此提出一种针对互联网短视频变种的溯源方法。

发明内容

为了解决上述技术问题，本发明提供了如下的技术方案：

本发明一种针对互联网短视频变种的溯源方法，包括如下步骤：

S1、视频关键帧选择，包括对抽取的短视频进行关键帧质量评估，具体为信息熵评估、清晰程度评估和过滤无效视频帧；

S2、关键帧特征提取，使用改进后的分类网络对符合关键帧质量评估后的短视频进行特征提取；

S3、视频特征学习，对关键帧特征提取以及后处理合并后的视频初级特征进行学习，使得相似视频提取的特征经学习后尽可能接近，而不同的视频提取的特征学习后尽可能远离；

S4、视频溯源系统，包括设计视频入库和视频溯源系统，实现视频特征入库和视频特征溯源的功能。

作为本发明的一种优选技术方案，S1中在对抽取短视频的关键帧进行信息熵评估时，需建立图像信息熵评估指标

和

，且

，

，式中

表示灰度直方图的统计概率，

表示图像在

处的像素灰度值，

为图像的大小，

表示图像的信息熵，且该值的大小表示图像信息量包含的大小，并在此处设置阈值

，信息熵低于该值的关键帧会被过滤。

作为本发明的一种优选技术方案，S1中在对抽取短视频的关键帧进行清晰程度评估时，需建立图像清晰程度评估指标

，且

，其中在x方向上的二阶偏微分定义为

，

，通过先对图像进行拉普拉斯变化，再求方差即可表示图像的清晰程度，该值越小则表示图像越模糊，且在此处设置阈值

，低于该值的关键帧会被过滤。

作为本发明的一种优选技术方案，S2具体为使用改进后的VGG-16模型作为特征提取网络，并将block1、block2、block3的特征纳入视频特征的计算范围，并在block4、block5中引入注意力机制，获取各block的帧级特征后，分别进行通道维度的标准化和最大池化操作，最终进行合并，获得视频初级特征。

作为本发明的一种优选技术方案，S3具体包括如下步骤：

S3-1、构建特征学习网络结构，FH_Net为三个全连接层构建学习网络，将三个FH_ Net并联构成特征学习网络，并共享权重，输入为N组三元组视频特征，即基准视频特征

、相似视频

、不相似视频

，且每个三元组的视频特征经过FH_Net后，能满足

，

定义为视频特征向量的欧氏距离，

；

S3-2、定义损失函数，为实现特征学习网络的区分能力，构建Triplet Loss，如下所示：

其中

为超参数，确保相似视频之间的距离和不相似视频之间距离足够大，若之间的距离大于

，则此时不做优化，若小于

，那么需要通过优化loss函数，使得网络参数进行更新；

S3-3、生成训练样本，具体流程如下：

a、获取2000个互联网短视频为训练数据，视频场景包括运动、音乐、购物、人物、动物类及其他类，并通过md5过滤重复视频；

b、随机从训练数据中选择一个视频作为基准视频，选择基准视频所在场景之外的任一视频作为不相似视频，对基准视频随机选择一种变种方式进行变种作为相似视频，变种方式包括：帧率变化、裁剪、尺寸缩放、画中画、比特率变化、淡入淡出、添加水印logo、拼接以及多种变化的组合；

c、分别计算基准视频、相似视频、不相似视频的视频初级特征，作为特征学习网络的输入进行训练，最终得到特征学习网络模型。

作为本发明的一种优选技术方案，S4中视频特征入库是对于需要入库的视频，获取视频特征后，直接存储到视频特征数据库中，视频库中视频特征与视频ID一一对应。

作为本发明的一种优选技术方案，S4中视频特征溯源是对于需要溯源的视频，获取视频特征后，通过搜索引擎，与视频特征库中的特征进行比对，如果大于阈值且满足TopK要求，则返回对应的视频ID。

本发明的有益效果是：

该种针对互联网短视频变种的溯源方法，根据视频时长对视频抽取关键帧，并进行质量评估，过滤无效的视频帧；使用改进的分类网络模型提取关键帧的高层语义信息以及低层细节信息，提高关键帧的特征表示能力，并通过特征聚合形成视频的初级特征；通过Triplet网络学习视频级的特征，使得相似视频具有较接近的特征表示，而不相似视频学习的特征尽可能远离，最终得到的特征更具有表征性，且通过降维使得溯源更加高效。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明视频关键帧选择流程图；

图2是本发明改进的VGG-16网络结构图；

图3是本发明视频关键帧提取流程图；

图4是本发明构建的特征学习网络结构图；

图5是本发明视频入库和视频溯源系统设计示意图；

图6是本发明FH_VR短视频溯源系统示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1

其中，S1中在对抽取短视频的关键帧进行信息熵评估时，需建立图像信息熵评估指标

和

，且

，

，式中

表示灰度直方图的统计概率，

表示图像在

处的像素灰度值，

为图像的大小，

，信息熵低于该值的关键帧会被过滤；在对抽取短视频的关键帧进行清晰程度评估时，需建立图像清晰程度评估指标

，且

，其中在x方向上的二阶偏微分定义为

，

，低于该值的关键帧会被过滤。视频关键帧选择流程图如图1所示。

其中，S2具体为使用改进后的VGG-16模型作为特征提取网络，并将block1、block2、block3的特征纳入视频特征的计算范围，并在block4、block5中引入注意力机制，获取各block的帧级特征后，分别进行通道维度的标准化和最大池化操作，最终进行合并，获得视频初级特征。改进的VGG-16网络结构如图2所示，视频关键帧提取流程图如图3所示。

其中，S3具体包括如下步骤：

、相似视频

、不相似视频

，且每个三元组的视频特征经过FH_Net后，能满足

，

定义为视频特征向量的欧氏距离，

，具体构建的特征学习网络结构如图4所示；

其中

，则此时不做优化，若小于

，那么需要通过优化loss函数，使得网络参数进行更新；

S3-3、生成训练样本，具体流程如下：

其中，S4中视频特征入库是对于需要入库的视频，获取视频特征后，直接存储到FH自研视频特征数据库中，视频库中视频特征与视频ID一一对应；S4中视频特征溯源是对于需要溯源的视频，获取视频特征后，通过FH自研搜索引擎，与视频特征库中的特征进行比对，如果大于阈值且满足TopK要求，则返回对应的视频ID。视频入库和视频溯源系统设计如图5所示。

上述实施例中，通过根据视频时长对视频抽取关键帧，进行质量评估，过滤无效的视频帧；使用改进的分类网络模型提取关键帧的高层语义信息以及低层细节信息，提高关键帧的特征表示能力，并通过特征聚合形成视频的初级特征；通过Triplet网络学习视频级的特征，使得相似视频具有较接近的特征表示，而不相似视频学习的特征尽可能远离，最终得到的特征更具有表征性，且通过降维使得溯源更加高效。

实施例2

针对针对互联网短视频变种的溯源方法，根据输入视频，进行关键帧选择、关键帧特征提取和视频特征学习，获得降维后具有表征性的视频特征，基于烽火自研的FH搜索引擎和烽火自研的FH视频特征数据库，可应用于海量视频下的视频溯源、相似视频检索、版权保护与鉴定、视频审核等领域。

烽火自研的短视频溯源系统FH_VR如图6所示：

执行如下步骤A到B分别获得关键帧特征提取模型、视频特征学习模型，然后执行步骤i到vi应用短视频溯源获得溯源结果。

步骤A. 搜集公开分类数据集或搜集不同类型的互联网图片，通过原始VGG16分类模型自动化打上标签，得到关键帧提取网络使用的训练样本。使用图2所述改进的VGG-16模型对数据进行微调，得到训练好的关键帧特征提取模型。

步骤B. 搜集一定数量的互联网短视频作为视频特征学习样本（需保证样本中无相似视频），使用本专利所述方法生成各变种视频，以及随机选择不同场景视频共同构建视频三元组。使用图4所述的视频特征学习网络对数据进行训练，得到训练好的视频特征学习模型。

执行步骤i到iv进行视频特征提取，执行步骤v进行短视频溯源功能，执行步骤vi进行短视频入库功能，溯源与入库不分先后。

步骤i. 初始化所有模型，并加载权重参数，然后进入步骤ii。

步骤ii. 对输入视频进行时长判断，抽取相应的视频关键帧，并进行关键帧质量评估，保留高质量的视频关键帧，然后进入步骤iii。

步骤iii. 对视频帧进行预处理，送到关键帧特征提取模型中提取关键帧特征，然后分别进行通道维度的L2标准化和最大池化操作，合并后获得视频初级特征，进入步骤iv。

步骤iv. 将视频初级特征，送到视频特征学习模型中获取最终的视频特征。

步骤v. 执行步骤i~步骤iv，获得待溯源视频特征，通过FH自研搜索引擎，将该特征与视频数据库中的特征进行比对，返回数据库中满足相似度阈值以及TopK的相似视频，完成视频溯源操作。

步骤vi. 执行步骤i~步骤iv，获得待入库视频特征，将视频ID与视频特征同时存储到FH自研视频特征数据库中，完成视频入库操作。

上述实施例中，烽火自研的短视频溯源系统对于相似视频的溯源具有高召回、响应快的特点。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种针对互联网短视频变种的溯源方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种针对互联网短视频变种的溯源方法，其特征在于，S1中在对抽取短视频的关键帧进行信息熵评估时，需建立图像信息熵评估指标

和

，且

，

，式中

表示灰度直方图的统计概率，

表示图像在

处的像素灰度值，

为图像的大小，

，信息熵低于该值的关键帧会被过滤。

3.根据权利要求1所述的一种针对互联网短视频变种的溯源方法，其特征在于，S1中在对抽取短视频的关键帧进行清晰程度评估时，需建立图像清晰程度评估指标

，且

，其中在x方向上的二阶偏微分定义为

，

，低于该值的关键帧会被过滤。

4.根据权利要求1所述的一种针对互联网短视频变种的溯源方法，其特征在于，S2具体为使用改进后的VGG-16模型作为特征提取网络，并将block1、block2、block3的特征纳入视频特征的计算范围，并在block4、block5中引入注意力机制，获取各block的帧级特征后，分别进行通道维度的标准化和最大池化操作，最终进行合并，获得视频初级特征。

5.根据权利要求1所述的一种针对互联网短视频变种的溯源方法，其特征在于，所述S3具体包括如下步骤：

S3-1、构建特征学习网络结构，FH_Net为三个全连接层构建学习网络，将三个FH_Net并联构成特征学习网络，并共享权重，输入为N组三元组视频特征，即基准视频特征