CN114625924B

CN114625924B - 一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统

Info

Publication number: CN114625924B
Application number: CN202210529260.2A
Authority: CN
Inventors: 纪守领; 马哲; 董建锋; 刘丰豪; 张旭鸿; 蒲誉文; 陈建海; 杨星
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-08-26
Anticipated expiration: 2042-05-16
Also published as: CN114625924A

Abstract

本发明公开了一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统，属于侵权视频检索技术领域。该方法包括：首先通过预训练的视觉模型获取视频的初始特征，然后通过在目标数据集上对视频的初始特征进行编码训练，得到具有更强任务适应性的视频特征表示。接着设计知识融合方法将多种基础检索模型的知识进行融合，融合后的知识通过知识蒸馏的方式迁移到蒸馏检索模型中。最终得到的融合了多位专家知识的蒸馏检索模型具有更高的计算效率和更加优越的性能。本发明利用深度学习技术和知识蒸馏技术，能够实现高效鲁棒的侵权视频检索，在很大程度上提高了侵权视频检索的性能和效率。

Description

一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统

技术领域

本发明涉及侵权视频检索技术领域，尤其涉及一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统。

背景技术

近年来，由于互联网和移动智能设备的普及以及通信和社交媒体技术的迅速发展，以腾讯视频、优酷、爱奇艺为代表的综合视频内容平台、以及以抖音、快手为代表的短视频分享平台的流行，海量的网络视频数据被创造、上传至互联网上。

随着5G技术的不断普及与应用，其更快的传输速度、更大的带宽和更低的时延等特点，将会进一步的加快视频数据的增长，未来互联网上的视频数据存储量将会非常巨大。

网络视频产业尤其是短视频产业的快速发展，用户规模持续增长，带动对内容的需求迅速上升。

大量网络视频用户在未经授权的情况下免费搬运、传播并获利，造成了严重的版权问题。

面对如此庞大的视频数据，如何利用技术手段，应对实际中的视频版权保护问题，实现高效率、准确和实用的视频侵权检测是一个艰巨的挑战，亟需一种有效的视频侵权检索技术。

侵权视频检索技术主要通过计算视频与视频的相似度，在数据库中搜索与查询视频相似度较高的视频，其核心是计算视频和视频的相似度。

现有的侵权视频检索方法主要基于现有的某种视觉特征方法，抽取视频中各帧的视觉特征，并在此基础上设计帧特征融合模型来计算视频间的相似度。

现有检索技术主要存在以下不足：

（1）侵权视频相比于原视频往往遭受了复杂的视频编辑操作，使得现有的视觉特征方法在实际的视频数据上鲁棒性较差；

（2）现有检索方法缺少对采用的视觉特征方法的关注，着重于设计特征融合方法，没有认识到不同视觉特征方法间的互补性，性能欠佳；

（3）现有检索方法计算量大、特征维度高、特征存储代价高。

从多视觉专家知识蒸馏的角度尝试侵权视频检索，能够有效缓解现有方法不足。

发明内容

本发明针对现有技术的不足，提出了一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统，采用知识蒸馏的方式将多种视觉专家模型融合为单一的学生模型，学生模型在性能上优于任何单一的专家模型，并将计算效率限制在单模型的复杂度下，实现了高效鲁棒的侵权视频检索。

本发明采用如下技术方案：

本发明的第一个目的在于提供一种基于多视觉专家知识蒸馏的侵权视频检索方法，包括以下步骤：

步骤1：构建多个预训练的视觉专家模型，利用预训练的多视觉专家模型分别对视频进行特征抽取，获得视频的帧级初始特征；

步骤2：利用多个基础检索模型对视频的帧级初始特征进行编码，获得帧级编码特征表示，并通过时序平均池化计算视频级特征；

步骤3：构造训练数据集，提取训练数据的视频级特征，采用对比学习方法对所述的多个基础检索模型进行训练，根据每一个训练好的基础检索模型得到一个相似度度量函数，取多个相似度度量函数的均值作为融合的专家知识；

步骤4：构建蒸馏检索模型，并通过训练将融合的专家知识蒸馏到蒸馏检索模型中；

步骤5：基于训练好的蒸馏检索模型，实现侵权视频检索。

本发明的第二个目的在于提供一种基于多视觉专家知识蒸馏的侵权视频检索系统，用于实现上述的侵权视频检索方法，所述的系统包括：

视觉专家模型模块，包含多个视觉专家模型，其用于对视频进行特征抽取，获得视频的帧级初始特征；

基础检索模型模块，包含多个基础检索模型，其用于对视频的帧级初始特征进行编码，获得帧级编码特征表示，并通过时序平均池化计算视频级特征；

训练数据库模块，其用于构造训练数据集；

第一训练模块，其用于获取训练数据集的视频级特征，并采用对比学习方法对基础检索模型进行训练，根据每一个训练好的基础检索模型得到一个相似度度量函数，取多个相似度度量函数的均值作为融合的专家知识；

蒸馏检索模型模块，包含一个蒸馏检索模型，与基础检索模型结构相同；

第二训练模块，其用于获取训练数据集的视频级特征，以及获取融合的专家知识，并通过训练将融合的专家知识蒸馏到蒸馏检索模型中；

侵权视频检索模块，其用于获取训练好的蒸馏检索模型并实现侵权视频检索。

与现有技术相比，本发明的有益效果如下：

1）本发明利用知识蒸馏技术，创新性将多种视觉专家模型的专家知识蒸馏到蒸馏检索模型中，将其应用到侵权视频检索任务中，大大提升视频侵权检索的准确率；

2）本发明通过训练得到的蒸馏检索模型结构简单、计算效率高、视频特征指纹更加紧凑，易于扩展和部署。

附图说明

图1为本发明的蒸馏检索模型训练流程图；

图2为本发明的基础检索模型结构示意图；

图3为本发明的蒸馏检索模型结构示意图；

图4为本发明的侵权视频检索系统架构图。

具体实施方式

以下将结合附图和具体实施方式对本发明进行详细说明。

为解决视频到视频的侵权视频检索问题，本发明提出了一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统，具体步骤如下：

（1）构建多个预训练的视觉专家模型，利用预训练的多视觉专家模型分别对视频进行特征抽取，获得视频数据的初始特征。

（1-1）搜集公开的预训练卷积神经网络模型及其预训练参数作为视觉专家模型，至少搜集两种，常用的模型有在ImageNet数据集上训练好的卷积神经网络（CNN）模型，比如ResNet-50分类模型、MoCoV2自监督模型等；

（1-2）对于给定的一个视频，本实施例预先指定每隔1秒从视频中均匀提取出若干个视频帧。

每一帧为一张RGB图像，用x _t表示，将该视频表示为一段帧序列{x ₁, x ₂,…,x _t,…, x _n}，其中，x _t表示从视频中抽取的第t帧图像，共有n帧。

（1-3）利用搜集的视觉专家模型抽取每帧的视觉特征。

这样，视频就可以由一系列特征向量

来描述，其中，

表示第k种预训练模型抽取的第t帧的特征向量，假设共搜集了K种不同的视觉专家模型。

通过上述步骤的特征抽取，获得了视频的帧级初始特征，但这些特征只是简单地通过K种预训练模型提取的视频的帧级初始特征，简称为K种预训练特征。

要应用到侵权视频检索任务和数据上，还需要对K种预训练特征进行进一步的编码处理，以获得具有更强任务适应性的视频特征。

（2）利用基础检索模型对在步骤（1）中得到的初始视频视觉特征进行进一步的编码处理，以获得具有更强任务适应性的特征表示。

如图1-2所示。

首先构建基础检索模型，基础检索模型对上述步骤提取的帧级初始特征进行融合，以充分捕捉视频时序上的语义信息。

接着根据目标数据集上的标注构造训练数据，计算对比学习损失函数，通过梯度下降算法来训练基础检索模型。

重复上述过程，分别以每一种视觉专家模型抽取的视频的帧级初始特征为输入，训练一个基础检索模型。

具体步骤如下：

（2-1）首先构建基础检索模型。

基础检索模型表示为

，表示以第k种预训练特征为输入的模型。

基础检索模型

以帧特征序列

为输入，n为视频帧数，对帧特征序列进行编码后输出同样大小的帧特征序列

，即：

经过编码后的视频帧序列捕获了视频时序信息，并且相比初始特征具有更小的维度，特征表示更加紧凑。

最后通过时序平均池化计算视频级特征：

式中，

为第k种预训练特征编码后得到的视频级特征。

（2-2）利用目标数据集上的标注构造训练数据，对上述基础检索模型进行训练。

具体来讲，一组训练数据由N+2个视频组成，表示为{X _q, X ₊, X ₁, X ₂,…, X _N}，其中X ₊对X _q构成侵权关系，

不构成侵权关系，即X ₊为正样本，

为负样本。

对于这N+2个视频，通过上述的基础检索模型

，可以计算相应的视频级特征

。

对于任意一个基础检索模型

，定义任意两个视频X _i、X _j的相似度（侵权程度）s ^k (X _i, X _j)为其特征向量

夹角的余弦值：

对于任意一个基础检索模型

，通过最小化以下的对比学习损失来优化其参数：

其中，L _cst表示对比学习损失，E[.]表示求期望。

采用基于Adam的批量数据随机梯度下降(Stochastic Gradient Descent)优化算法，批量数据（mini-batch）的大小设为64，初始学习率为0.0001，学习率衰减系数为0.95每周期，最大训练周期设为50。

（2-3）对于所有的K种预训练特征和基础检索模型，分别重复上述步骤（2-1）、（2- 2），训练得到K个基础检索模型

。

每个基础检索模型实际上确定了一个相似度度量函数s ^k(.)，能够用于判定两个视频构成侵权的程度，称之为专家知识。

（3）上述的每个基础检索模型扮演了一种视觉专家模型，具有互补性，因此对训练得到的基础检索模型进行融合，获得融合的专家知识。

取其相似度度量函数s ^k(.)的平均值为融合的专家知识

：

（4）采用与步骤（2）中基础检索模型相同的模型结构，构建蒸馏检索模型，并通过训练将融合的专家知识蒸馏到蒸馏检索模型中，如图2所示。

具体步骤如下；

（4-1）构建蒸馏检索模型。

蒸馏检索模型

与基础检索模型

具有相似的结构，以帧特征序列

为输入，对帧特征序列进行融合后输出同样大小的帧特征序列

；同样采用时序平均池化的方式计算视频级特征

。

本实施例中，

可以采用与步骤（1-2）中相同的某一种特征，或是另一种完全不同的预训练模型抽取的特征。

相应地，蒸馏检索模型确定了一个相似度度量函数s ^*(.)。

（4-2）知识蒸馏训练。

由于集成了多位视觉专家模型的能力，融合的专家知识

相比朴素的蒸馏检索模型s ^*(.)具有更优越的能力，因此通过知识蒸馏训练将融合的专家知识

蒸馏到蒸馏检索模型s ^*(.)中。

具体地，通过最小化相似度度量函数

和s ^*(.)的差异来进行知识蒸馏，采用步骤（2-2）中构造的训练数据，蒸馏损失表示为：

其中，L _distill表示蒸馏损失，E_i[.]表示遍历所有的负样本对求期望，

表示L2 范数的平方，

表示蒸馏检索模型的相似度量函数。

在进行蒸馏训练的同时，采用步骤（2-2）中的对比学习损失，蒸馏检索模型总的损失函数为对比学习损失和蒸馏损失的和：

其中，

为控制蒸馏损失的权重参数，根据目标数据集上的训练效果调整。

训练采用基于Adam的批量数据随机梯度下降(Stochastic Gradient Descent)优化算法，批量数据（mini-batch）的大小设为64，初始学习率为0.0001，学习率衰减系数为0.95每周期，最大训练周期设为50。

（5）基于步骤（4）训练得到的蒸馏检索模型，实现视频到视频的侵权视频检索系统。

具体步骤如下：

（5-1）基于实际业务，构建原始的视频数据库，视频数据库存储了大量的原始视频数据；

（5-2）将视频数据库中的视频通过步骤（4）训练好的蒸馏检索模型提取特征，构建视频指纹库；

（5-3）构建向量搜索引擎，采用乘积量化（Product Quantization）、倒排索引（Inverted Index）等方式构建视频指纹索引，加速检索速率；

（5-4）部署在线的蒸馏检索模型，处理在线的查询请求，抽取查询视频的特征，利用向量搜索引擎搜索最近邻，获取相似度最高的若干个视频，若相似度高于阈值，则判断视频侵权，以此实现视频到视频的侵权视频检索。

与前述的一种基于多视觉专家知识蒸馏的侵权视频检索方法的实施例相对应，本申请还提供了一种基于多视觉专家知识蒸馏的侵权视频检索系统的实施例，其包括：

训练数据库模块，其用于构造训练数据集；

本实施例中，所述的第二训练模块包括：

知识蒸馏训练模块，其用于将融合的专家知识蒸馏到蒸馏检索模型中，得到知识蒸馏训练损失；

对比学习训练模块，其用于获取训练数据集的视频级特征，并采用对比学习方法对蒸馏检索模型进行训练，得到对比学习损失；

总损失计算模块，其用于对知识蒸馏训练损失和对比学习损失进行加权求和，将总损失反馈给知识蒸馏训练模块和对比学习训练模块，直至训练结束。

本实施例中，所述的侵权视频检索模块包括：

视频指纹库模块，其用于收集原始视频数据库，利用训练好的蒸馏检索模型提取每一个视频的视频级特征，得到视频指纹库；

在线查询模块，其用于部署在线的蒸馏检索模型，并获取待查询视频，输出待查询视频的视频级特征；

最近邻搜索模块，其用于在视频指纹库中搜索待查询视频的视频级特征与视频指纹库中的特征的相似度，输出相似度最高的前p个视频对应的相似度结果；

识别输出模块，其用于判断相似度结果是否高于阈值，若是，则将相似度值对应的原始视频输出，作为侵权检测结果，否则不侵权。

关于上述实施例中的系统，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。

以上所描述的系统实施例仅仅是示意性的，各个模块可以是或者也可以不是物理上分开的。

另外，在本发明中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。

上述集成的模块或单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现，以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多视觉专家知识蒸馏的侵权视频检索方法，其特征在于，包括以下步骤：

步骤4：构建蒸馏检索模型，并通过训练将融合的专家知识蒸馏到蒸馏检索模型中；所述的步骤4具体为：

步骤4.1：构建与基础检索模型结构相同的蒸馏检索模型；

步骤4.2：采用步骤3所述的训练数据集对蒸馏检索模型进行知识蒸馏训练和对比学习训练，所述的知识蒸馏训练的损失函数为：

其中，L_distill表示知识蒸馏损失，E_i[.]表示遍历所有的负样本对求期望，

表示L2范数的平方，s^*(.)为蒸馏检索模型的相似度量函数，

为所有基础检索模型的相似度度量函数的均值，X_q为目标视频，X_i为对目标视频X_q不构成侵权关系的视频，N为训练数据集中对目标视频X_q不构成侵权关系的视频的数量，(X_q,X_i)作为负样本对；

所述蒸馏检索模型的对比学习训练过程与基础检索模型的对比学习训练过程相同；将知识蒸馏训练与对比学习训练的损失函数的加权值作为总损失，完成训练过程；

步骤5：基于训练好的蒸馏检索模型，实现侵权视频检索。

2.根据权利要求1所述的基于多视觉专家知识蒸馏的侵权视频检索方法，其特征在于，所述的视频的帧级初始特征表示为

其中K为预训练的视觉专家模型的数量，n为从视频中抽取的帧图像的数量，

为第k种预训练的视觉专家模型抽取的第t帧图像的特征向量。

3.根据权利要求2所述的基于多视觉专家知识蒸馏的侵权视频检索方法，其特征在于，所述的视频级特征表示为：

其中，φ^k(.)为第k个基础检索模型，

为帧级编码特征表示，

为第k个基础检索模型对第t帧图像的帧级编码特征，

为第k个基础检索模型对应的视频级特征。

4.根据权利要求1所述的基于多视觉专家知识蒸馏的侵权视频检索方法，其特征在于，步骤3所述的训练数据集表示为{X_q,X₊,X₁,X₂,…,X_i,…,X_N}，其中，X_q为目标视频，X₊为对目标视频X_q构成侵权关系的视频，(X_q,X₊)作为正样本对；X_i，i＝1,2,…,N为对目标视频X_q不构成侵权关系的视频，N为训练数据集中对目标视频X_q不构成侵权关系的视频的数量，(X_q,X_i)作为负样本对。

5.根据权利要求4所述的基于多视觉专家知识蒸馏的侵权视频检索方法，其特征在于，采用对比学习方法对所述的多个基础检索模型进行训练时，计算正样本对和负样本对的视频级特征，根据两个视频的相似度计算对比损失函数：

其中，L_cst表示对比学习损失，s^k(.)为第k个基础检索模型的相似度度量函数，s^k(X_q,X₊)为第k个基础检索模型输出的正样本对的视频级特征向量的相似度，s^k(X_q,X_i)为第k个基础检索模型输出的负样本对的视频级特征向量的相似度，E[.]为求期望运算。

6.根据权利要求1所述的基于多视觉专家知识蒸馏的侵权视频检索方法，其特征在于，所述的步骤5具体为：

步骤5.1：收集原始视频数据库，利用训练好的蒸馏检索模型提取每一个视频的视频级特征，构建视频指纹库；

步骤5.2：部署在线的蒸馏检索模型，提取待查询视频的视频级特征，利用向量搜索引擎在视频指纹库中搜索最近邻，获取相似度高于阈值的视频作为侵权检测结果。

7.一种基于多视觉专家知识蒸馏的侵权视频检索系统，用于实现权利要求1所述的侵权视频检索方法，其特征在于，所述的系统包括：

训练数据库模块，其用于构造训练数据集；

第二训练模块，其用于获取训练数据集的视频级特征，以及获取融合的专家知识，并通过训练将融合的专家知识蒸馏到蒸馏检索模型中；所述的第二训练模块包括：

总损失计算模块，其用于对知识蒸馏训练损失和对比学习损失进行加权求和，将总损失反馈给知识蒸馏训练模块和对比学习训练模块，直至训练结束；

8.根据权利要求7所述的基于多视觉专家知识蒸馏的侵权视频检索系统，其特征在于，所述的侵权视频检索模块包括：