CN114625924B - 一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统 - Google Patents

一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统 Download PDF

Info

Publication number
CN114625924B
CN114625924B CN202210529260.2A CN202210529260A CN114625924B CN 114625924 B CN114625924 B CN 114625924B CN 202210529260 A CN202210529260 A CN 202210529260A CN 114625924 B CN114625924 B CN 114625924B
Authority
CN
China
Prior art keywords
video
distillation
retrieval
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210529260.2A
Other languages
English (en)
Other versions
CN114625924A (zh
Inventor
纪守领
马哲
董建锋
刘丰豪
张旭鸿
蒲誉文
陈建海
杨星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210529260.2A priority Critical patent/CN114625924B/zh
Publication of CN114625924A publication Critical patent/CN114625924A/zh
Application granted granted Critical
Publication of CN114625924B publication Critical patent/CN114625924B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统,属于侵权视频检索技术领域。该方法包括:首先通过预训练的视觉模型获取视频的初始特征,然后通过在目标数据集上对视频的初始特征进行编码训练,得到具有更强任务适应性的视频特征表示。接着设计知识融合方法将多种基础检索模型的知识进行融合,融合后的知识通过知识蒸馏的方式迁移到蒸馏检索模型中。最终得到的融合了多位专家知识的蒸馏检索模型具有更高的计算效率和更加优越的性能。本发明利用深度学习技术和知识蒸馏技术,能够实现高效鲁棒的侵权视频检索,在很大程度上提高了侵权视频检索的性能和效率。

Description

一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统
技术领域
本发明涉及侵权视频检索技术领域,尤其涉及一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统。
背景技术
近年来,由于互联网和移动智能设备的普及以及通信和社交媒体技术的迅速发展,以腾讯视频、优酷、爱奇艺为代表的综合视频内容平台、以及以抖音、快手为代表的短视频分享平台的流行,海量的网络视频数据被创造、上传至互联网上。
随着5G技术的不断普及与应用,其更快的传输速度、更大的带宽和更低的时延等特点,将会进一步的加快视频数据的增长,未来互联网上的视频数据存储量将会非常巨大。
网络视频产业尤其是短视频产业的快速发展,用户规模持续增长,带动对内容的需求迅速上升。
大量网络视频用户在未经授权的情况下免费搬运、传播并获利,造成了严重的版权问题。
面对如此庞大的视频数据,如何利用技术手段,应对实际中的视频版权保护问题,实现高效率、准确和实用的视频侵权检测是一个艰巨的挑战,亟需一种有效的视频侵权检索技术。
侵权视频检索技术主要通过计算视频与视频的相似度,在数据库中搜索与查询视频相似度较高的视频,其核心是计算视频和视频的相似度。
现有的侵权视频检索方法主要基于现有的某种视觉特征方法,抽取视频中各帧的视觉特征,并在此基础上设计帧特征融合模型来计算视频间的相似度。
现有检索技术主要存在以下不足:
(1)侵权视频相比于原视频往往遭受了复杂的视频编辑操作,使得现有的视觉特征方法在实际的视频数据上鲁棒性较差;
(2)现有检索方法缺少对采用的视觉特征方法的关注,着重于设计特征融合方法,没有认识到不同视觉特征方法间的互补性,性能欠佳;
(3)现有检索方法计算量大、特征维度高、特征存储代价高。
从多视觉专家知识蒸馏的角度尝试侵权视频检索,能够有效缓解现有方法不足。
发明内容
本发明针对现有技术的不足,提出了一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统,采用知识蒸馏的方式将多种视觉专家模型融合为单一的学生模型,学生模型在性能上优于任何单一的专家模型,并将计算效率限制在单模型的复杂度下,实现了高效鲁棒的侵权视频检索。
本发明采用如下技术方案:
本发明的第一个目的在于提供一种基于多视觉专家知识蒸馏的侵权视频检索方法,包括以下步骤:
步骤1:构建多个预训练的视觉专家模型,利用预训练的多视觉专家模型分别对视频进行特征抽取,获得视频的帧级初始特征;
步骤2:利用多个基础检索模型对视频的帧级初始特征进行编码,获得帧级编码特征表示,并通过时序平均池化计算视频级特征;
步骤3:构造训练数据集,提取训练数据的视频级特征,采用对比学习方法对所述的多个基础检索模型进行训练,根据每一个训练好的基础检索模型得到一个相似度度量函数,取多个相似度度量函数的均值作为融合的专家知识;
步骤4:构建蒸馏检索模型,并通过训练将融合的专家知识蒸馏到蒸馏检索模型中;
步骤5:基于训练好的蒸馏检索模型,实现侵权视频检索。
本发明的第二个目的在于提供一种基于多视觉专家知识蒸馏的侵权视频检索系统,用于实现上述的侵权视频检索方法,所述的系统包括:
视觉专家模型模块,包含多个视觉专家模型,其用于对视频进行特征抽取,获得视频的帧级初始特征;
基础检索模型模块,包含多个基础检索模型,其用于对视频的帧级初始特征进行编码,获得帧级编码特征表示,并通过时序平均池化计算视频级特征;
训练数据库模块,其用于构造训练数据集;
第一训练模块,其用于获取训练数据集的视频级特征,并采用对比学习方法对基础检索模型进行训练,根据每一个训练好的基础检索模型得到一个相似度度量函数,取多个相似度度量函数的均值作为融合的专家知识;
蒸馏检索模型模块,包含一个蒸馏检索模型,与基础检索模型结构相同;
第二训练模块,其用于获取训练数据集的视频级特征,以及获取融合的专家知识,并通过训练将融合的专家知识蒸馏到蒸馏检索模型中;
侵权视频检索模块,其用于获取训练好的蒸馏检索模型并实现侵权视频检索。
与现有技术相比,本发明的有益效果如下:
1)本发明利用知识蒸馏技术,创新性将多种视觉专家模型的专家知识蒸馏到蒸馏检索模型中,将其应用到侵权视频检索任务中,大大提升视频侵权检索的准确率;
2)本发明通过训练得到的蒸馏检索模型结构简单、计算效率高、视频特征指纹更加紧凑,易于扩展和部署。
附图说明
图1为本发明的蒸馏检索模型训练流程图;
图2为本发明的基础检索模型结构示意图;
图3为本发明的蒸馏检索模型结构示意图;
图4为本发明的侵权视频检索系统架构图。
具体实施方式
以下将结合附图和具体实施方式对本发明进行详细说明。
为解决视频到视频的侵权视频检索问题,本发明提出了一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统,具体步骤如下:
(1)构建多个预训练的视觉专家模型,利用预训练的多视觉专家模型分别对视频进行特征抽取,获得视频数据的初始特征。
(1-1)搜集公开的预训练卷积神经网络模型及其预训练参数作为视觉专家模型,至少搜集两种,常用的模型有在ImageNet数据集上训练好的卷积神经网络(CNN)模型,比如ResNet-50分类模型、MoCoV2自监督模型等;
(1-2)对于给定的一个视频,本实施例预先指定每隔1秒从视频中均匀提取出若干个视频帧。
每一帧为一张RGB图像,用x t 表示,将该视频表示为一段帧序列{x 1, x 2,…,x t ,…, x n },其中,x t 表示从视频中抽取的第t帧图像,共有n帧。
(1-3)利用搜集的视觉专家模型抽取每帧的视觉特征。
这样,视频就可以由一系列特征向量
Figure 295086DEST_PATH_IMAGE001
来描述,其中,
Figure 743385DEST_PATH_IMAGE002
表 示第k种预训练模型抽取的第t帧的特征向量,假设共搜集了K种不同的视觉专家模型。
通过上述步骤的特征抽取,获得了视频的帧级初始特征,但这些特征只是简单地通过K种预训练模型提取的视频的帧级初始特征,简称为K种预训练特征。
要应用到侵权视频检索任务和数据上,还需要对K种预训练特征进行进一步的编码处理,以获得具有更强任务适应性的视频特征。
(2)利用基础检索模型对在步骤(1)中得到的初始视频视觉特征进行进一步的编码处理,以获得具有更强任务适应性的特征表示。
如图1-2所示。
首先构建基础检索模型,基础检索模型对上述步骤提取的帧级初始特征进行融合,以充分捕捉视频时序上的语义信息。
接着根据目标数据集上的标注构造训练数据,计算对比学习损失函数,通过梯度下降算法来训练基础检索模型。
重复上述过程,分别以每一种视觉专家模型抽取的视频的帧级初始特征为输入,训练一个基础检索模型。
具体步骤如下:
(2-1)首先构建基础检索模型。
基础检索模型表示为
Figure 555745DEST_PATH_IMAGE003
,表示以第k种预训练特征为输入的模型。
基础检索模型
Figure 747692DEST_PATH_IMAGE004
以帧特征序列
Figure 93223DEST_PATH_IMAGE005
为输入,n为视频帧数,对帧特征 序列进行编码后输出同样大小的帧特征序列
Figure 446844DEST_PATH_IMAGE006
,即:
Figure 245036DEST_PATH_IMAGE007
经过编码后的视频帧序列捕获了视频时序信息,并且相比初始特征具有更小的维度,特征表示更加紧凑。
最后通过时序平均池化计算视频级特征:
Figure 178357DEST_PATH_IMAGE008
式中,
Figure 378394DEST_PATH_IMAGE009
为第k种预训练特征编码后得到的视频级特征。
(2-2)利用目标数据集上的标注构造训练数据,对上述基础检索模型进行训练。
具体来讲,一组训练数据由N+2个视频组成,表示为{X q , X +, X 1, X 2,…, X N },其中X +X q 构成侵权关系,
Figure 168495DEST_PATH_IMAGE010
不构成侵权关系,即X +为正样本,
Figure 453983DEST_PATH_IMAGE011
为负样本。
对于这N+2个视频,通过上述的基础检索模型
Figure 223618DEST_PATH_IMAGE012
,可以计算相应的视频级特征
Figure 481424DEST_PATH_IMAGE013
对于任意一个基础检索模型
Figure 442427DEST_PATH_IMAGE014
,定义任意两个视频X i X j 的相似度(侵权程度)s k (X i , X j )为其特征向量
Figure 215211DEST_PATH_IMAGE015
夹角的余弦值:
Figure 287072DEST_PATH_IMAGE016
对于任意一个基础检索模型
Figure 461702DEST_PATH_IMAGE017
,通过最小化以下的对比学习损失来优化其参数:
Figure 328026DEST_PATH_IMAGE018
其中,L cst 表示对比学习损失,E[.]表示求期望。
采用基于Adam的批量数据随机梯度下降(Stochastic Gradient Descent)优化算法,批量数据(mini-batch)的大小设为64,初始学习率为0.0001,学习率衰减系数为0.95每周期,最大训练周期设为50。
(2-3)对于所有的K种预训练特征和基础检索模型,分别重复上述步骤(2-1)、(2- 2),训练得到K个基础检索模型
Figure 588106DEST_PATH_IMAGE019
每个基础检索模型实际上确定了一个相似度度量函数s k (.),能够用于判定两个视频构成侵权的程度,称之为专家知识。
(3)上述的每个基础检索模型扮演了一种视觉专家模型,具有互补性,因此对训练得到的基础检索模型进行融合,获得融合的专家知识。
取其相似度度量函数s k (.)的平均值为融合的专家知识
Figure 198079DEST_PATH_IMAGE020
Figure 430478DEST_PATH_IMAGE021
(4)采用与步骤(2)中基础检索模型相同的模型结构,构建蒸馏检索模型,并通过训练将融合的专家知识蒸馏到蒸馏检索模型中,如图2所示。
具体步骤如下;
(4-1)构建蒸馏检索模型。
蒸馏检索模型
Figure 234748DEST_PATH_IMAGE022
与基础检索模型
Figure 982124DEST_PATH_IMAGE023
具有相似的结构,以帧特征序列
Figure 395788DEST_PATH_IMAGE024
为输入,对帧特征序列进行融合后输出同样大小的帧特征序列
Figure 279430DEST_PATH_IMAGE025
;同样采用时序平均池化的方式计算视频级特征
Figure 956399DEST_PATH_IMAGE026
本实施例中,
Figure 925492DEST_PATH_IMAGE027
可以采用与步骤(1-2)中相同的某一种特征,或是另一种完全不 同的预训练模型抽取的特征。
相应地,蒸馏检索模型确定了一个相似度度量函数s * (.)。
(4-2)知识蒸馏训练。
由于集成了多位视觉专家模型的能力,融合的专家知识
Figure 877268DEST_PATH_IMAGE028
相比朴素的蒸馏检索 模型s * (.)具有更优越的能力,因此通过知识蒸馏训练将融合的专家知识
Figure 146575DEST_PATH_IMAGE028
蒸馏到蒸馏 检索模型s * (.)中。
具体地,通过最小化相似度度量函数
Figure 791183DEST_PATH_IMAGE028
s * (.)的差异来进行知识蒸馏,采用步 骤(2-2)中构造的训练数据,蒸馏损失表示为:
Figure 749037DEST_PATH_IMAGE029
其中,L distill 表示蒸馏损失,E i [.]表示遍历所有的负样本对求期望,
Figure 707766DEST_PATH_IMAGE030
表示L2 范数的平方,
Figure 300421DEST_PATH_IMAGE031
表示蒸馏检索模型的相似度量函数。
在进行蒸馏训练的同时,采用步骤(2-2)中的对比学习损失,蒸馏检索模型总的损失函数为对比学习损失和蒸馏损失的和:
Figure 115930DEST_PATH_IMAGE032
其中,
Figure 325195DEST_PATH_IMAGE033
为控制蒸馏损失的权重参数,根据目标数据集上的训练效果调整。
训练采用基于Adam的批量数据随机梯度下降(Stochastic Gradient Descent)优化算法,批量数据(mini-batch)的大小设为64,初始学习率为0.0001,学习率衰减系数为0.95每周期,最大训练周期设为50。
(5)基于步骤(4)训练得到的蒸馏检索模型,实现视频到视频的侵权视频检索系统。
具体步骤如下:
(5-1)基于实际业务,构建原始的视频数据库,视频数据库存储了大量的原始视频数据;
(5-2)将视频数据库中的视频通过步骤(4)训练好的蒸馏检索模型提取特征,构建视频指纹库;
(5-3)构建向量搜索引擎,采用乘积量化(Product Quantization)、倒排索引(Inverted Index)等方式构建视频指纹索引,加速检索速率;
(5-4)部署在线的蒸馏检索模型,处理在线的查询请求,抽取查询视频的特征,利用向量搜索引擎搜索最近邻,获取相似度最高的若干个视频,若相似度高于阈值,则判断视频侵权,以此实现视频到视频的侵权视频检索。
与前述的一种基于多视觉专家知识蒸馏的侵权视频检索方法的实施例相对应,本申请还提供了一种基于多视觉专家知识蒸馏的侵权视频检索系统的实施例,其包括:
视觉专家模型模块,包含多个视觉专家模型,其用于对视频进行特征抽取,获得视频的帧级初始特征;
基础检索模型模块,包含多个基础检索模型,其用于对视频的帧级初始特征进行编码,获得帧级编码特征表示,并通过时序平均池化计算视频级特征;
训练数据库模块,其用于构造训练数据集;
第一训练模块,其用于获取训练数据集的视频级特征,并采用对比学习方法对基础检索模型进行训练,根据每一个训练好的基础检索模型得到一个相似度度量函数,取多个相似度度量函数的均值作为融合的专家知识;
蒸馏检索模型模块,包含一个蒸馏检索模型,与基础检索模型结构相同;
第二训练模块,其用于获取训练数据集的视频级特征,以及获取融合的专家知识,并通过训练将融合的专家知识蒸馏到蒸馏检索模型中;
侵权视频检索模块,其用于获取训练好的蒸馏检索模型并实现侵权视频检索。
本实施例中,所述的第二训练模块包括:
知识蒸馏训练模块,其用于将融合的专家知识蒸馏到蒸馏检索模型中,得到知识蒸馏训练损失;
对比学习训练模块,其用于获取训练数据集的视频级特征,并采用对比学习方法对蒸馏检索模型进行训练,得到对比学习损失;
总损失计算模块,其用于对知识蒸馏训练损失和对比学习损失进行加权求和,将总损失反馈给知识蒸馏训练模块和对比学习训练模块,直至训练结束。
本实施例中,所述的侵权视频检索模块包括:
视频指纹库模块,其用于收集原始视频数据库,利用训练好的蒸馏检索模型提取每一个视频的视频级特征,得到视频指纹库;
在线查询模块,其用于部署在线的蒸馏检索模型,并获取待查询视频,输出待查询视频的视频级特征;
最近邻搜索模块,其用于在视频指纹库中搜索待查询视频的视频级特征与视频指纹库中的特征的相似度,输出相似度最高的前p个视频对应的相似度结果;
识别输出模块,其用于判断相似度结果是否高于阈值,若是,则将相似度值对应的原始视频输出,作为侵权检测结果,否则不侵权。
关于上述实施例中的系统,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。
以上所描述的系统实施例仅仅是示意性的,各个模块可以是或者也可以不是物理上分开的。
另外,在本发明中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。
上述集成的模块或单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现,以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于多视觉专家知识蒸馏的侵权视频检索方法,其特征在于,包括以下步骤:
步骤1:构建多个预训练的视觉专家模型,利用预训练的多视觉专家模型分别对视频进行特征抽取,获得视频的帧级初始特征;
步骤2:利用多个基础检索模型对视频的帧级初始特征进行编码,获得帧级编码特征表示,并通过时序平均池化计算视频级特征;
步骤3:构造训练数据集,提取训练数据的视频级特征,采用对比学习方法对所述的多个基础检索模型进行训练,根据每一个训练好的基础检索模型得到一个相似度度量函数,取多个相似度度量函数的均值作为融合的专家知识;
步骤4:构建蒸馏检索模型,并通过训练将融合的专家知识蒸馏到蒸馏检索模型中;所述的步骤4具体为:
步骤4.1:构建与基础检索模型结构相同的蒸馏检索模型;
步骤4.2:采用步骤3所述的训练数据集对蒸馏检索模型进行知识蒸馏训练和对比学习训练,所述的知识蒸馏训练的损失函数为:
Figure FDA0003732108270000011
其中,Ldistill表示知识蒸馏损失,Ei[.]表示遍历所有的负样本对求期望,
Figure FDA0003732108270000012
表示L2范数的平方,s*(.)为蒸馏检索模型的相似度量函数,
Figure FDA0003732108270000013
为所有基础检索模型的相似度度量函数的均值,Xq为目标视频,Xi为对目标视频Xq不构成侵权关系的视频,N为训练数据集中对目标视频Xq不构成侵权关系的视频的数量,(Xq,Xi)作为负样本对;
所述蒸馏检索模型的对比学习训练过程与基础检索模型的对比学习训练过程相同;将知识蒸馏训练与对比学习训练的损失函数的加权值作为总损失,完成训练过程;
步骤5:基于训练好的蒸馏检索模型,实现侵权视频检索。
2.根据权利要求1所述的基于多视觉专家知识蒸馏的侵权视频检索方法,其特征在于,所述的视频的帧级初始特征表示为
Figure FDA0003732108270000014
其中K为预训练的视觉专家模型的数量,n为从视频中抽取的帧图像的数量,
Figure FDA0003732108270000015
为第k种预训练的视觉专家模型抽取的第t帧图像的特征向量。
3.根据权利要求2所述的基于多视觉专家知识蒸馏的侵权视频检索方法,其特征在于,所述的视频级特征表示为:
Figure FDA0003732108270000021
Figure FDA0003732108270000022
其中,φk(.)为第k个基础检索模型,
Figure FDA0003732108270000023
为帧级编码特征表示,
Figure FDA0003732108270000024
为第k个基础检索模型对第t帧图像的帧级编码特征,
Figure FDA0003732108270000025
为第k个基础检索模型对应的视频级特征。
4.根据权利要求1所述的基于多视觉专家知识蒸馏的侵权视频检索方法,其特征在于,步骤3所述的训练数据集表示为{Xq,X+,X1,X2,…,Xi,…,XN},其中,Xq为目标视频,X+为对目标视频Xq构成侵权关系的视频,(Xq,X+)作为正样本对;Xi,i=1,2,…,N为对目标视频Xq不构成侵权关系的视频,N为训练数据集中对目标视频Xq不构成侵权关系的视频的数量,(Xq,Xi)作为负样本对。
5.根据权利要求4所述的基于多视觉专家知识蒸馏的侵权视频检索方法,其特征在于,采用对比学习方法对所述的多个基础检索模型进行训练时,计算正样本对和负样本对的视频级特征,根据两个视频的相似度计算对比损失函数:
Figure FDA0003732108270000026
其中,Lcst表示对比学习损失,sk(.)为第k个基础检索模型的相似度度量函数,sk(Xq,X+)为第k个基础检索模型输出的正样本对的视频级特征向量的相似度,sk(Xq,Xi)为第k个基础检索模型输出的负样本对的视频级特征向量的相似度,E[.]为求期望运算。
6.根据权利要求1所述的基于多视觉专家知识蒸馏的侵权视频检索方法,其特征在于,所述的步骤5具体为:
步骤5.1:收集原始视频数据库,利用训练好的蒸馏检索模型提取每一个视频的视频级特征,构建视频指纹库;
步骤5.2:部署在线的蒸馏检索模型,提取待查询视频的视频级特征,利用向量搜索引擎在视频指纹库中搜索最近邻,获取相似度高于阈值的视频作为侵权检测结果。
7.一种基于多视觉专家知识蒸馏的侵权视频检索系统,用于实现权利要求1所述的侵权视频检索方法,其特征在于,所述的系统包括:
视觉专家模型模块,包含多个视觉专家模型,其用于对视频进行特征抽取,获得视频的帧级初始特征;
基础检索模型模块,包含多个基础检索模型,其用于对视频的帧级初始特征进行编码,获得帧级编码特征表示,并通过时序平均池化计算视频级特征;
训练数据库模块,其用于构造训练数据集;
第一训练模块,其用于获取训练数据集的视频级特征,并采用对比学习方法对基础检索模型进行训练,根据每一个训练好的基础检索模型得到一个相似度度量函数,取多个相似度度量函数的均值作为融合的专家知识;
蒸馏检索模型模块,包含一个蒸馏检索模型,与基础检索模型结构相同;
第二训练模块,其用于获取训练数据集的视频级特征,以及获取融合的专家知识,并通过训练将融合的专家知识蒸馏到蒸馏检索模型中;所述的第二训练模块包括:
知识蒸馏训练模块,其用于将融合的专家知识蒸馏到蒸馏检索模型中,得到知识蒸馏训练损失;
对比学习训练模块,其用于获取训练数据集的视频级特征,并采用对比学习方法对蒸馏检索模型进行训练,得到对比学习损失;
总损失计算模块,其用于对知识蒸馏训练损失和对比学习损失进行加权求和,将总损失反馈给知识蒸馏训练模块和对比学习训练模块,直至训练结束;
侵权视频检索模块,其用于获取训练好的蒸馏检索模型并实现侵权视频检索。
8.根据权利要求7所述的基于多视觉专家知识蒸馏的侵权视频检索系统,其特征在于,所述的侵权视频检索模块包括:
视频指纹库模块,其用于收集原始视频数据库,利用训练好的蒸馏检索模型提取每一个视频的视频级特征,得到视频指纹库;
在线查询模块,其用于部署在线的蒸馏检索模型,并获取待查询视频,输出待查询视频的视频级特征;
最近邻搜索模块,其用于在视频指纹库中搜索待查询视频的视频级特征与视频指纹库中的特征的相似度,输出相似度最高的前p个视频对应的相似度结果;
识别输出模块,其用于判断相似度结果是否高于阈值,若是,则将相似度值对应的原始视频输出,作为侵权检测结果,否则不侵权。
CN202210529260.2A 2022-05-16 2022-05-16 一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统 Active CN114625924B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210529260.2A CN114625924B (zh) 2022-05-16 2022-05-16 一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210529260.2A CN114625924B (zh) 2022-05-16 2022-05-16 一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统

Publications (2)

Publication Number Publication Date
CN114625924A CN114625924A (zh) 2022-06-14
CN114625924B true CN114625924B (zh) 2022-08-26

Family

ID=81907012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210529260.2A Active CN114625924B (zh) 2022-05-16 2022-05-16 一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统

Country Status (1)

Country Link
CN (1) CN114625924B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152612B (zh) * 2023-04-21 2023-08-15 粤港澳大湾区数字经济研究院(福田) 一种长尾图像识别方法及相关装置
CN116883181B (zh) * 2023-09-07 2023-12-05 北京中关村科金技术有限公司 基于用户画像的金融服务推送方法、存储介质及服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821689A (zh) * 2021-09-22 2021-12-21 沈春华 基于视频序列的行人检索方法、装置和电子设备
CN114328834A (zh) * 2021-12-29 2022-04-12 成都晓多科技有限公司 一种模型蒸馏方法、系统以及文本检索方法
CN114462546A (zh) * 2022-02-16 2022-05-10 上海云从企业发展有限公司 一种基于多模型融合的特征蒸馏方法、系统、设备和介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706336B2 (en) * 2017-03-17 2020-07-07 Nec Corporation Recognition in unlabeled videos with domain adversarial learning and knowledge distillation
CN111309971B (zh) * 2020-01-19 2022-03-25 浙江工商大学 一种基于多级编码的文本到视频的跨模态检索方法
CN113902761B (zh) * 2021-11-02 2024-04-16 大连理工大学 基于知识蒸馏的肺部疾病病灶无监督分割方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821689A (zh) * 2021-09-22 2021-12-21 沈春华 基于视频序列的行人检索方法、装置和电子设备
CN114328834A (zh) * 2021-12-29 2022-04-12 成都晓多科技有限公司 一种模型蒸馏方法、系统以及文本检索方法
CN114462546A (zh) * 2022-02-16 2022-05-10 上海云从企业发展有限公司 一种基于多模型融合的特征蒸馏方法、系统、设备和介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Knowledge Distillation From End-To-End Image Compression To Vvc Intra Coding For Perceptual Quality Enhancement";Runyu Yang et al.;《IEEE International Conference on Image Processing》;20210823;全文 *
"基于知识蒸馏的差异性深度集成学习";张锡敏 等;《浙江科技学院学报》;20210630;全文 *

Also Published As

Publication number Publication date
CN114625924A (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN114625924B (zh) 一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统
Chen et al. Video person re-identification with competitive snippet-similarity aggregation and co-attentive snippet embedding
CN111309971B (zh) 一种基于多级编码的文本到视频的跨模态检索方法
CN111507311B (zh) 一种基于多模态特征融合深度网络的视频人物识别方法
WO2023280065A1 (zh) 一种面向跨模态通信系统的图像重建方法及装置
CN110569814B (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
CN111506773B (zh) 一种基于无监督深度孪生网络的视频去重方法
CN109492129B (zh) 一种基于双流神经网络的相似视频搜索方法和系统
WO2024021394A1 (zh) 全局特征与阶梯型局部特征融合的行人重识别方法及装置
CN112052387B (zh) 一种内容推荐方法、装置和计算机可读存储介质
CN112434608B (zh) 一种基于双流结合网络的人体行为识别方法及系统
CN113868474A (zh) 一种基于自注意力机制和动态图的信息级联预测方法
TWI761813B (zh) 視頻分析方法及其相關的模型訓練方法、電子設備、儲存介質
CN109446897B (zh) 基于图像上下文信息的场景识别方法及装置
CN112287170A (zh) 一种基于多模态联合学习的短视频分类方法及装置
CN111597929A (zh) 基于通道信息融合和组群关系空间结构化建模的组群行为识别方法
CN111461175A (zh) 自注意与协同注意机制的标签推荐模型构建方法及装置
CN111723692B (zh) 基于卷积神经网络语义分类的标签特征的近重复视频检测方法
CN111324773A (zh) 一种背景音乐构建方法、装置、电子设备和存储介质
Avgoustinakis et al. Audio-based near-duplicate video retrieval with audio similarity learning
CN115718826A (zh) 图结构数据中的目标节点分类方法、系统、设备及介质
CN110968721A (zh) 一种海量图像侵权检索方法、系统及其计算机可读存储介质
CN114168773A (zh) 一种基于伪标签和重排序的半监督草图图像检索方法
CN110807369B (zh) 基于深度学习和注意力机制的短视频内容智能分类方法
Yuan et al. A multi-image Joint Re-ranking framework with updateable Image Pool for person re-identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant