CN116704414A - 基于byol无监督深度对比学习的近重复视频清洗方法 - Google Patents
基于byol无监督深度对比学习的近重复视频清洗方法 Download PDFInfo
- Publication number
- CN116704414A CN116704414A CN202310695698.2A CN202310695698A CN116704414A CN 116704414 A CN116704414 A CN 116704414A CN 202310695698 A CN202310695698 A CN 202310695698A CN 116704414 A CN116704414 A CN 116704414A
- Authority
- CN
- China
- Prior art keywords
- video
- vector
- videos
- video data
- cndot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 98
- 230000009466 transformation Effects 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 6
- 239000013604 expression vector Substances 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000003252 repetitive effect Effects 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 8
- 238000011176 pooling Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于BYOL无监督深度对比学习的近重复视频清洗方法,包括步骤:一、将从视频集中任意抽取的两个视频作为上、下分支视频,利用C3D深度神经网络对两视频进行特征提取,以获得各自的特征向量;二、两特征向量经过投影变换和预测变换得到各自的高维视频特征向量;三、计算两个高维特征向量之间的对比损失,检测两视频是否互为近重复视频数据;四、计算两高维特征向量的平均向量,保留与平均向量最近的特征向量所属视频,删除另一视频,重复上述步骤,直至将所有近重复视频数据全部删除为止,改善视频数据集的数据质量。本发明创新性的实现了基于无监督对比学习的近重复视频清洗,能够在视频数据无标注的条件下,改善视频数据质量。
Description
技术领域
本发明属于数据清洗技术领域,具体涉及一种基于深度对比学习BYOL模型的近重复视频清洗方法。
背景技术
信息技术的飞速发展和视频网站的广泛应用使得人们能方便快捷的访问视频资源,但与此同时也伴随着大量近似重复视频的产生。这种现象给视频版权保护、视频监控管理带来了巨大挑战,同时也增加了视频网站运营商的存储和处理成本。基于上述背景,近重复视频检测成为了一个研究热点。近重复视频检测的主要研究主题在特征的处理上,包括基于底层视觉特征的特征提取方法和基于高层语义特征的特征提取方法。
然而,现有的近重复视频检测方法只能有效检测和识别出视频数据集中存在的近重复视频,较难自动清洗和删除近重复视频这类脏数据。因此,通过现有的近重复视频检测方法较难改善视频数据集的整体数据质量。
目前已有研究学者提出了近重复视频清洗方法,其方法是先利用视频的特征进行分类,然后利用设计的聚类清洗算法在保留聚类中心的同时,删除近重复视频数据,以便实现近重复视频数据的自动清洗。然而,在视频数据的清洗过程中,需要利用大量的视频标签进行监督学习的模型优化。事实上,每天大量的自媒体和监控视频数据不断涌现,手工的数据标注成本较大,自动标注方式存在标注不准确的问题,而且随着视频数据规模的迅速增大,目前较难完全实现所有视频数据的标注。因此,基于目前监督学习的视频数据清洗方法在实际应用过程中具有一定的局限性。为解决该问题,本发明引入无监督的深度对比学习方式,通过构建一种端到端的近重复视频清洗方法,既能够有效缓解实际应用过程中因视频数据标注不足,造成现有基于监督学习的近重复视频数据清洗方法难以有效自动删除近重复视频数据的问题,也可以克服现有近重复视频数据清洗方法存在多阶段训练目标不一致的问题。
发明内容
本发明所要解决的技术难题在于针对上述现有技术中的不足,提供一种基于深度对比学习BYOL模型的近重复视频清洗方法,利用深度对比学习强大的视频表征能力,将相似视频靠近,不相似视频分离,自动删除大量的冗余视频,在数据集无标注的情况下,依然能使视频数据集有较好的数据质量,实现无监督条件下视频数据集中近重复视频的自动清洗,便于推广使用。
为解决上述问题,本发明采用的技术方案是:基于深度对比学习BYOL模型的近重复视频清洗方法,其特征在于,该方法包括以下步骤:
步骤一、将从视频集中任意抽取的两个视频作为本发明模型的上、下分支视频,利用C3D深度神经网络对两视频进行特征提取以获得各自的特征向量;
步骤二、将经过上分支的C3D深度神经网络中提取到的特征向量经过上分支的投影变换结构和预测变换结构获得上分支视频的高维特征向量;而经过下分支的C3D深度神经网络中提取到的特征向量经过下分支的投影变换结构获得下分支视频的高维特征向量;
投影变换结构由两层MLP(Multilayer Perceptron,多层感知机)组成,本发明每一层MLP由输出尺寸为4096的线性层、批量归一化、校正线性单元ReLU和输出尺寸为256的线性层组成;预测变换结构由上述一层MLP组成。其中,上、下分支的投影变换结构相同。不同之处在于训练时参数的更新方式不同,上分支通过全局的随机梯度下降的更新方式调整参数,下分支通过动量更新的方式来调整参数。
步骤三、计算上、下分支两个视频的高维特征向量之间的对比损失,检测两视频是否互为近重复视频数据;
步骤四、若互为近重复视频数据,计算两视频高维特征向量的平均向量,保留与平均向量最近的特征向量所属视频,而删除另一视频,否则暂且保留两视频。然后,从视频集中剩余视频数据中选取未经过对比学习的视频数据,重复上述步骤,直至将视频集中近重复视频数据全部自动删除为止。
上述的基于BYOL无监督深度对比学习的近重复视频清洗方法,其特征在于:步骤一的实现过程如下:
步骤101,首先从视频集S={v1,...,vn}中选取任意一视频vi,该视频被作为第一轮要清洗的视频类别,从视频集的剩余视频数据中任意取另一个视频vj作为要进行对比学习的另一视频,其中,i,j∈[1,n]且i≠j,n表示视频集中视频的数量;
步骤102,将视频vi输入到一个上分支C3D深度神经网络模型构成的编码器fθ(·)中,以提取视频vi的时空特征特征向量xi;
将视频vj输入到一个下分支C3D深度神经网络模型构成的编码器fξ(·)中,以提取视频vj的时空特征特征向量xj;
其中, 表示维度空间,fθ(·)和fξ(·)的网络结构相同,区别在于fθ(·)通过全局的随机梯度下降的更新方式调整参数,fξ(·)通过动量更新的方式来调整参数。
上述的基于深度对比学习BYOL模型的近重复视频清洗方法,其特征在于:步骤二的实现过程如下:
步骤201,视频vi的时空特征特征向量xi经过上分支的投影变换结构gθ(·),得到投影向量zi;
视频vj的时空特征特征向量xj经过下分支的投影变换结构gξ(·),得到投影向量zj;
其中,上分支的投影变换结构gθ(·)和下分支的投影变换结构gξ(·)均由两层MLP(Multilayer Perceptron,多层感知机)组成,本发明每一层MLP由输出尺寸为4096的线性层、批量归一化、校正线性单元ReLU和输出尺寸为256的线性层组成;gθ(·)和gξ(·)的网络结构相同,区别在于gθ(·)通过全局的随机梯度下降的更新方式调整参数,gξ(·)通过动量更新的方式来调整参数。
步骤202,投影向量zi通过预测变换结构qθ(·),得到上分支的高维特征向量qθ(zi),预测变换结构由上述一层MLP组成。
分别对qθ(zi)、zj进行L2正则化,得到表示向量||qθ(zi)||2、||zj||2。这一步骤的目的是取出这两个隐含变量的绝对大小,而保留其方向性,为后面要做的向量点积做铺垫,同时优化后面的损失函数,防止模型在训练集过于复杂的情况下出现过拟合的现象,用来提高模型的泛化能力。
上述的基于深度对比学习BYOL模型的近重复视频清洗方法,其特征在于:步骤三中,采用MSE对比损失函数计算上、下分支高维特征向量之间的对比损失L(bi,vj),给定损失阈值γ,通过对比损失L(vi,vj)和损失阈值γ之间的差值,检测视频vi和视频vj是否互为近重复视频,为下一步的近重复视频清洗做准备。对比损失函数可以表示为:
上述的基于深度对比学习BYOL模型的近重复视频清洗方法,其特征在于:步骤四的实现过程如下:
步骤401,当L(vi,vj)≤γ时,视频vi和视频vj互为近重复视频,则进入步骤402实现近重复视频的清洗;
当L(vi,vj)>γ时,视频vi和视频vj为非近重复视频,则进入步骤403暂且保留两个视频;
步骤402,计算上分支的高维特征表示向量vi和下分支的高维特征表示向量vj的平均向量,进而保留与平均向量最近的高维特征表示向量所对应的视频,删除与平均向量远的高维特征表示向量所对应的视频;
两者之间的平均向量值可以表示为:
计算平均向量zavg与向量qθ(zi)、zj各自的欧式距离davg,i、davg,j,以此确定需要自动清洗的视频数据。欧氏距离的计算及清洗结果可以表示为:
之后,继续将保留的视频高维特征表示向量与剩余视频的高维特征表示向量进行上述步骤的计算,直至自动清洗完成视频数据集中的所有近重复视频数据。
步骤403,视频vi,vj均被保留,然后再从除vi,vj之外的剩余视频数据中选择某一视频与vi进行上述步骤一至步骤四。
本发明与现有技术相比具有以下优点:
1、本发明提出了一种端到端的近重复视频数据清洗框架,解决了非端到端视频清洗框架中的多模块训练且训练目标不一致问题,使得近重复视频数据清洗方法能够得到模型优化的最优解,并且具有较好的鲁棒性。
2、本发明引入了深度对比学习的方式,实现无监督的近重复视频数据清洗,缓解因视频数据标注不足,造成现有基于监督学习的近重复视频数据清洗方法难以有效自动删除近重复视频数据的问题。
3、目前,现有的深度对比学习模型对正负样本要求比较严格,即需要构造正负样本,本发明采用的BYOL模型是一种对比式自监督方法,无需构造负样本,减少视频数据标注的工作量和成本。
综上所述,本发明通过端到端的方式简化了视频清洗过程,可以获得全局最优解,避免多次模型训练产生的局部最优解问题。此外,针对目前大部分视频数据集缺乏标注的问题,通过引入深度对比学习的方式,能够在数据无标注的条件下,实现近重复视频数据的自动清洗,有效提高视频数据集整体的数据质量。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的流程原理灰度图。
图2为本发明的方法流程框图。
具体实施方式
如图1和图2所示,本发明的基于BYOL无监督深度对比学习的近重复视频清洗方法,包括以下步骤:
步骤一、将从视频集中任意抽取的两个视频作为本发明模型的上、下分支视频,利用C3D深度神经网络对两视频进行特征提取以获得各自的特征向量;
步骤二、将经过上分支的C3D深度神经网络中提取到的特征向量经过上分支的投影变换结构和预测变换结构获得上分支视频的高维特征向量;而经过下分支的C3D深度神经网络中提取到的特征向量经过下分支的投影变换结构获得下分支视频的高维特征向量;
投影变换结构由两层MLP(Multilayer Perceptron,多层感知机)组成,本发明每一层MLP由输出尺寸为4096的线性层、批量归一化、校正线性单元ReLU和输出尺寸为256的线性层组成;预测变换结构由上述一层MLP组成。其中,上、下分支的投影变换结构相同。不同之处在于训练时参数的更新方式不同,上分支通过全局的随机梯度下降的更新方式调整参数,下分支通过动量更新的方式来调整参数。
步骤三、计算上、下分支两个视频的高维特征向量之间的对比损失,检测两视频是否互为近重复视频数据;
步骤四、若互为近重复视频数据,计算两视频高维特征向量的平均向量,保留与平均向量最近的特征向量所属视频,而删除另一视频,否则暂且保留两视频。然后,从视频集中剩余视频数据中选取未经过对比学习的视频数据,重复上述步骤,直至将视频集中近重复视频数据全部自动删除为止。
本实施例中,步骤一的实现过程如下:
步骤101,首先从视频集S={v1,...,vn}中选取任意一视频vi,该视频被作为第一轮要清洗的视频类别,从视频集的剩余视频数据中任意取另一个视频vj作为要进行对比学习的另一视频,其中,i,j∈[1,n]且i≠j,n表示视频集中视频的数量;
步骤102,将视频vi输入到一个C3D深度神经网络模型构成的编码器fθ(·)中,以提取视频vi的时空特征特征向量xi;
将视频vj输入到一个C3D深度神经网络模型构成的编码器fξ(·)中,以提取视频vj的时空特征特征向量xj;
其中, 表示维度空间,fθ(·)和fξ(·)的网络结构相同,区别在于fθ(·)通过全局的随机梯度下降的更新方式调整参数,fξ(·)通过动量更新的方式来调整参数。动量更新机制能够有效防止极端样本对参数更新影响过大的问题,阻止模型坍塌。
需要说明的是,C3D深度神经网络非常适合于时空特征学习,与2D卷积网络相比,3D卷积将视频多帧进行融合,提取连续帧之间的运动信息,通过3D卷积和3D池化操作更好地建模时间信息。在C3D深度神经网络中,卷积和池化操作在时空上执行,而在2D卷积网络中,它们仅在空间上完成。同时C3D深度神经网络提取的特征封装了视频中与目标、场景、动作有关的信息,使得这些特征对不同的任务都有用,而不需要对每个任务都微调模型。
为了获取视频的时序特征,将视频vi和视频vj的视频片段分别输入到C3D深度神经网络中进行特征提取,假设视频片段的大小为c×l×h×w,其中h×w表示视频帧的大小,c表示每帧的通道数,l表示视频帧的数量,通常设置视频片段大小为3×16×112×112;3D卷积滤波器内核尺寸可以写为d×k×k,其中d为3D卷积内核的时间深度,k为3D卷积内核的空间大小;该输入通过数量为n、内核尺寸为3×3×3、步长为1×1×1的3D卷积滤波器,输出的特征图尺寸为n×l×h×w。
C3D深度神经网络共有8个卷积层5个最大池化层和2个全连接层,接着是softmax的输出层,所有的3D卷积核在空间和时间维度上的大小均为3×3×3,步长为1,使用相同的卷积层串联能在降低参数的同时增加卷积层的感受视野,8个卷积层的通道数分别为64、128、256、256、512、512、512。
为了避免由于过早地丢失时间信息而造成识别精度的下降,C3D网络的池化层除了池化层1的池化核大小为1×2×2以外,所有池化层的核大小都是2×2×2,全连接层具有4096个输出单元。最后一个softmax层用于分类任务,本实施例只需要提取特征不用分类,因此只保留最后两层全连接层。全连接层将上个图层中由池化操作所提取的各种局部特征,使用非线性函数Relu将其组合形成全局特征,C3D深度神经网络结构通过全连接层将视频特征表示为[1,4096]的时空特征向量。fθ(·)和fξ(·)的网络结构相同,θ和ξ分别是fθ(·)和fξ(·)的网络结构的权重参数。
本实施例中,步骤二的实现过程如下:
步骤201,视频vi的时空特征特征向量xi经过上分支的投影变换结构gθ(·)得到投影向量zi;
视频vj的时空特征特征向量xj经过下分支的投影变换结构gξ(·)得到投影向量zj;
其中,上分支的投影变换结构gθ(·)和下分支的投影变换结构gξ(·)均由两层MLP(Multilayer Perceptron,多层感知机)组成,本发明每一层MLP由输出尺寸为4096的线性层、批量归一化、校正线性单元ReLU和输出尺寸为256的线性层组成;
步骤202,投影向量zi通过预测变换结构qθ(·)得到上分支的高维特征向量qθ(zi),预测变换结构由上述一层MLP组成。
并分别对qθ(zi)、zj进行L2正则化得到表示向量||qθ(zi)||2、||zj||2,这一步骤的目的是取出这两个隐含变量的绝对大小,而保留其方向性,为后面要做的向量点乘做铺垫,同时优化后面的损失函数,防止模型为了迎合训练集而过于复杂,造成过拟合的现象,用来提高模型的泛化能力。
需要说明的是,投影变换是将特征表示空间投影到度量空间,该度量空间能够有效地计算和最大化相似性表示,投影变换分为三种类型,即降维投影、聚合投影和量化投影。本实施例采用降维投影变换,目的是降低特征表示的维度,便于更高效的计算。
本实施例中,步骤三中,采用MSE对比损失函数计算上、下分支高维特征向量之间的对比损失L(vi,vj),给定损失阈值γ,通过对比损失L(vi,vj)和损失阈值γ之间的差值,检测视频vi和视频vj是否互为近重复视频,为下一步的近重复视频清洗做准备。对比损失函数可以表示为:
需要说明的是,损失函数就相当于是2-2cosα,因此可以用该损失函数来衡量两视频间的相似性。
本实施例中,步骤四的实现过程如下:
步骤401,当L(vi,vj)≤γ时,视频vi和视频vj互为近重复视频,则进入步骤402实现近重复视频的清洗;
当L(vi,vj)>γ时,视频vi和视频vj为非近重复视频,则进入步骤403暂且保留两个视频;
步骤402,计算上分支的高维特征表示向量vi和下分支的高维特征表示向量vj的平均向量,进而保留与平均向量最近的高维特征表示向量所对应的视频,删除与平均向量远的高维特征表示向量所对应的视频;
两者之间的平均向量值可以表示为:
计算平均向量zavg与向量qθ(zi)、zj各自的欧式距离davg,i、davg,j,以此确定需要自动清洗的视频数据。欧氏距离的计算及清洗结果可以表示为:
之后,继续将保留的视频高维特征表示向量与剩余视频的高维特征表示向量进行上述步骤的计算,直至自动清洗完成视频数据集中的所有近重复视频数据。
步骤403,视频vi,vj均被保留,然后再从除vi,vj之外的剩余视频数据中选择某一视频与vi进行上述步骤一至步骤四。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。
Claims (5)
1.基于BYOL无监督深度对比学习的近重复视频清洗方法,其特征在于,该方法包括以下步骤:
步骤一、将从视频集中任意抽取的两个视频作为本发明模型的上、下分支视频,利用C3D深度神经网络对两视频进行特征提取以获得各自的特征向量;
步骤二、将经过上分支的C3D深度神经网络中提取到的特征向量经过上分支的投影变换结构和预测变换结构获得上分支视频的高维特征向量;而经过下分支的C3D深度神经网络中提取到的特征向量经过下分支的投影变换结构获得下分支视频的高维特征向量;
投影变换结构由两层MLP组成,本发明每一层MLP由输出尺寸为4096的线性层、批量归一化、校正线性单元ReLU和输出尺寸为256的线性层组成;预测变换结构由上述一层MLP组成;其中,上、下分支的投影变换结构相同,不同之处在于训练时参数的更新方式不同,上分支通过全局的随机梯度下降的更新方式调整参数,下分支通过动量更新的方式来调整参数,
步骤三、计算上、下分支两个视频的高维特征向量之间的对比损失,检测两视频是否互为近重复视频数据;
步骤四、若互为近重复视频数据,计算两视频高维特征向量的平均向量,保留与平均向量最近的特征向量所属视频,而删除另一视频,否则暂且保留两视频;然后,从视频集中剩余视频数据中选取未经过对比学习的视频数据,重复上述步骤,直至将视频集中近重复视频数据全部自动删除为止。
2.按照权利要求1所述的基于BYOL无监督深度对比学习的近重复视频数据清洗方法,其特征在于:步骤一的实现过程如下:
步骤101,首先从视频集S={v1,...,vn}中选取任意一视频vi,该视频被作为第一轮要清洗的视频类别,从视频集的剩余视频数据中任意取另一个视频vj作为要进行对比学习的另一视频,其中,i,j∈[1,n]且i≠j,n表示视频集中视频的数量;
步骤102,将视频vi输入到一个上分支C3D深度神经网络模型构成的编码器fθ(·)中,以提取视频vi的时空特征特征向量xi;
将视频vj输入到一个下分支C3D深度神经网络模型构成的编码器fξ(·)中,以提取视频vj的时空特征特征向量xj;
其中,xi、 表示维度空间,fθ(·)和fξ(·)的网络结构相同,区别在于fθ(·)通过全局的随机梯度下降的更新方式调整参数,fξ(·)通过动量更新的方式来调整参数。
3.按照权利要求2所述的基于深度对比学习BYOL模型的近重复视频清洗方法,其特征在于:步骤二的实现过程如下:
步骤201,视频vi的时空特征特征向量xi经过上分支的投影变换结构gθ(·),得到投影向量zi;
视频vj的时空特征特征向量xj经过下分支的投影变换结构gξ(·),得到投影向量zj;
其中,zi、上分支的投影变换结构gθ(·)和下分支的投影变换结构gξ(·)均由两层MLP组成,本发明每一层MLP由输出尺寸为4096的线性层、批量归一化、校正线性单元ReLU和输出尺寸为256的线性层组成;gθ(·)和gξ(·)的网络结构相同,区别在于gθ(·)通过全局的随机梯度下降的更新方式调整参数,gξ(·)通过动量更新的方式来调整参数;
步骤202,投影向量zi通过预测变换结构qθ(·),得到上分支的高维特征向量qθ(zi),预测变换结构由上述一层MLP组成;
分别对qθ(zi)、zj进行L2正则化,得到表示向量||qθ(zi)||2、||zj||2。
4.按照权利要求3所述的基于深度对比学习BYOL模型的近重复视频清洗方法,其特征在于:步骤三中,采用MSE对比损失函数计算上、下分支高维特征向量之间的对比损失L(vi,vj),给定损失阈值γ,通过对比损失L(vi,vj)和损失阈值γ之间的差值,检测视频vi和视频vj是否互为近重复视频,为下一步的近重复视频清洗做准备,对比损失函数可以表示为:式中分子表示两个向量之间的点积运算。
5.按照权利要求4所述的基于深度对比学习BYOL模型的近重复视频清洗方法,其特征在于:步骤四的实现过程如下:
步骤401,当L(vi,vj)≤γ时,视频vi和视频vj互为近重复视频,则进入步骤402实现近重复视频的清洗;
当L(vi,vj)>γ时,视频vi和视频vj为非近重复视频,则进入步骤403暂且保留两个视频;
步骤402,计算上分支的高维特征表示向量vi和下分支的高维特征表示向量vj的平均向量,进而保留与平均向量最近的高维特征表示向量所对应的视频,删除与平均向量远的高维特征表示向量所对应的视频;
两者之间的平均向量值可以表示为:
计算平均向量zavg与向量qθ(zi)、zj各自的欧式距离davg,i、davg,j,以此确定需要自动清洗的视频数据,欧氏距离的计算及清洗结果可以表示为:
之后,继续将保留的视频高维特征表示向量与剩余视频的高维特征表示向量进行上述步骤的计算,直至自动清洗完成视频数据集中的所有近重复视频数据;
步骤403,视频vi,vj均被保留,然后再从除vi,vj之外的剩余视频数据中选择某一视频与vi进行上述步骤一至步骤四。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310695698.2A CN116704414A (zh) | 2023-06-13 | 2023-06-13 | 基于byol无监督深度对比学习的近重复视频清洗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310695698.2A CN116704414A (zh) | 2023-06-13 | 2023-06-13 | 基于byol无监督深度对比学习的近重复视频清洗方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116704414A true CN116704414A (zh) | 2023-09-05 |
Family
ID=87833590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310695698.2A Pending CN116704414A (zh) | 2023-06-13 | 2023-06-13 | 基于byol无监督深度对比学习的近重复视频清洗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116704414A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507990A (zh) * | 2021-02-04 | 2021-03-16 | 北京明略软件系统有限公司 | 视频时空特征学习、抽取方法、装置、设备及存储介质 |
CN113889235A (zh) * | 2021-10-08 | 2022-01-04 | 国科宁波生命与健康产业研究院 | 一种三维医学影像无监督特征抽取系统 |
US20220067506A1 (en) * | 2020-08-28 | 2022-03-03 | Salesforce.Com, Inc. | Systems and methods for partially supervised learning with momentum prototypes |
CN114332745A (zh) * | 2022-03-11 | 2022-04-12 | 西安科技大学 | 一种基于深度神经网络的近重复视频大数据清洗方法 |
CN114882277A (zh) * | 2022-05-07 | 2022-08-09 | 江苏城乡建设职业学院 | 基于交错对比学习与动态参数更新的图像识别方法与系统 |
CN115115878A (zh) * | 2022-06-27 | 2022-09-27 | 浙江大学 | 一种结合随机遮挡和byol结构的高光谱图像分类方法及其装置 |
CN115131570A (zh) * | 2022-05-27 | 2022-09-30 | 马上消费金融股份有限公司 | 图像特征提取模型的训练方法、图像检索方法及相关设备 |
-
2023
- 2023-06-13 CN CN202310695698.2A patent/CN116704414A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220067506A1 (en) * | 2020-08-28 | 2022-03-03 | Salesforce.Com, Inc. | Systems and methods for partially supervised learning with momentum prototypes |
CN112507990A (zh) * | 2021-02-04 | 2021-03-16 | 北京明略软件系统有限公司 | 视频时空特征学习、抽取方法、装置、设备及存储介质 |
CN113889235A (zh) * | 2021-10-08 | 2022-01-04 | 国科宁波生命与健康产业研究院 | 一种三维医学影像无监督特征抽取系统 |
CN114332745A (zh) * | 2022-03-11 | 2022-04-12 | 西安科技大学 | 一种基于深度神经网络的近重复视频大数据清洗方法 |
CN114882277A (zh) * | 2022-05-07 | 2022-08-09 | 江苏城乡建设职业学院 | 基于交错对比学习与动态参数更新的图像识别方法与系统 |
CN115131570A (zh) * | 2022-05-27 | 2022-09-30 | 马上消费金融股份有限公司 | 图像特征提取模型的训练方法、图像检索方法及相关设备 |
CN115115878A (zh) * | 2022-06-27 | 2022-09-27 | 浙江大学 | 一种结合随机遮挡和byol结构的高光谱图像分类方法及其装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020173226A1 (zh) | 一种时空行为检测方法 | |
WO2022000426A1 (zh) | 基于孪生深度神经网络的动目标分割方法及系统 | |
CN110532970B (zh) | 人脸2d图像的年龄性别属性分析方法、系统、设备和介质 | |
CN111680655A (zh) | 一种面向无人机航拍影像的视频目标检测方法 | |
CN107330357A (zh) | 基于深度神经网络的视觉slam闭环检测方法 | |
CN107301380A (zh) | 一种用于视频监控场景中行人重识别的方法 | |
CN110555881A (zh) | 一种基于卷积神经网络的视觉slam测试方法 | |
CN113240688A (zh) | 一种一体化洪涝灾害精准监测预警方法 | |
CN104992223A (zh) | 基于深度学习的密集人数估计方法 | |
CN107977610B (zh) | 一种基于海量视频处理的人脸追踪方法 | |
CN113112519A (zh) | 基于感兴趣目标分布的关键帧筛选方法 | |
CN107590427A (zh) | 基于时空兴趣点降噪的监控视频异常事件检测方法 | |
CN114155213A (zh) | 基于主动学习的芯片缺陷检测方法和装置 | |
CN115240024A (zh) | 一种联合自监督学习和半监督学习的地外图片分割方法和系统 | |
CN115661459A (zh) | 一种使用差异信息的2D mean teacher模型 | |
CN107341471A (zh) | 一种基于双层条件随机场的人体行为识别方法 | |
CN116682043B (zh) | 基于SimCLR无监督深度对比学习异常视频清洗方法 | |
CN110083724A (zh) | 一种相似图像检索方法、装置及系统 | |
CN108765384B (zh) | 一种联合流形排序和改进凸包的显著性检测方法 | |
CN116704414A (zh) | 基于byol无监督深度对比学习的近重复视频清洗方法 | |
CN116453048A (zh) | 一种结合可学习注意力机制的人群计数方法 | |
CN115760707A (zh) | 一种基于自监督学习的皮损图像智能分类装置 | |
CN109558819A (zh) | 一种用于遥感图像目标检测的深度网络轻量化方法 | |
CN111681748B (zh) | 基于智能视觉感知的医疗行为动作规范性评价方法 | |
CN116012903A (zh) | 一种人脸表情自动标注的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |