CN113610021A - 视频分类方法及装置、电子设备及计算机可读存储介质 - Google Patents
视频分类方法及装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113610021A CN113610021A CN202110923305.XA CN202110923305A CN113610021A CN 113610021 A CN113610021 A CN 113610021A CN 202110923305 A CN202110923305 A CN 202110923305A CN 113610021 A CN113610021 A CN 113610021A
- Authority
- CN
- China
- Prior art keywords
- video
- sample
- classification
- initial
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012545 processing Methods 0.000 claims abstract description 70
- 238000005070 sampling Methods 0.000 claims abstract description 33
- 230000009466 transformation Effects 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims description 58
- 238000004590 computer program Methods 0.000 claims description 14
- 239000012634 fragment Substances 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明提供了一种视频分类方法及装置、电子设备及计算机可读存储介质,涉及视频处理技术领域,在对待分类视频进行视频分类时,先对待分类视频进行时序采样处理,得到多个不同部位的初始视频片段;然后分别对多个初始视频片段进行空间变换增强处理,得到多个目标视频片段;进而将多个目标视频片段两两配对后输入至训练好的分类网络模型,得到待分类视频的类别。这种基于自监督对比学习的视频分类技术,分类网络模型能够从经过时序采样处理和空间变换增强处理得到的多个目标视频片段中提取到时间跨度较大、表征能力较强的时空特征,从而可以应用到长视频,与相关现有技术相比,提高了视频分类的准确率,增强了特征泛化能力。
Description
技术领域
本发明涉及视频处理技术领域,尤其是涉及一种视频分类方法及装置、电子设备及计算机可读存储介质。
背景技术
视频分类技术是计算机视觉领域的一个重要研究方向,其主要目的是对视频内容进行分析,根据其中的对象、场景以及对象的动作信息、场景的演化信息等将视频归为预定义的类,从而达到对视频进行监管和分类整理的目的。在大数据时代,视频分类技术还要具有高效性、并行性和可扩展性等。因此,视频分类技术是视频理解先进性和前沿性的集中体现。
视频分类问题本质上是模式识别问题,其处理流程主要包含特征提取和分类两个步骤,其中特征提取是该问题的核心步骤。在过去的几十年中,随着特征提取技术的发展,视频分类技术取得了一些进步,但是远没有达到令人满意的地步,仍面临着巨大挑战:视频低层特征与语义标签之间存在着巨大的语义鸿沟。视频是由一系列图像按照一定的顺序组成的,图像中的视觉信息构成了视频的视觉信息。此外,更重要的是,图像之间的顺序信息构成了视频的时域信息。这些时域信息包含物体的运动和场景的演化等视频载体特有的信息,是视频特征的重要组成部分。而现有特征提取方法不能充分捕获时域信息,或仅能捕获短时低层动作特征,造成特征提取不充分。随着互联网上的视频内容越来越复杂,信息越来越丰富,这个问题愈发突出。
如何学习一个良好的视觉表征,对于解决与之相关的大量下游视觉感知任务(比如图像分类、视频动作识别和视频对象检测等)是至关重要的。因此,几十年以来,很多计算机视觉研究都集中在如何学习一个“完美”的视觉特征上,从早期的SIFT(Scale-invariantfeature transform,尺度不变特征变换)特征、HOG(Histogram of Oriented Gradient,方向梯度直方图)特征到如今的深度特征。然而,学习视觉表征通常需要大量的标注数据。比如,在图像理解领域,在ImageNet大规模图像数据集上监督式的预训练一个深度网络用来提取深度特征,然后迁移到下游的分类或回归任务,已被证明是行之有效的范式。遗憾的是,由于大规模视频数据集的缺乏,这种范式无法直接应用到视频领域。
近年来,自监督对比学习技术的发展为无监督特征表示提供了潜在的解决方案。这类方法通过将数据分别与正例样本和负例样本在特征空间进行对比,来学习样本的特征表示。然而,目前基于自监督对比学习的视频分类方法准确率低,只适用于比如10s长度的动作视频,难以应用到长视频,缺乏通用性。
发明内容
本发明的目的在于提供一种视频分类方法及装置、电子设备及计算机可读存储介质,以提高视频分类的准确率,增强特征泛化能力。
本发明实施例提供了一种视频分类方法,包括:
对待分类视频进行时序采样处理,得到多个不同部位的初始视频片段;
分别对多个所述初始视频片段进行空间变换增强处理,得到多个目标视频片段;
将多个所述目标视频片段两两配对后输入至训练好的分类网络模型,得到所述待分类视频的类别;其中,所述分类网络模型通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到。
进一步地,所述对待分类视频进行时序采样处理,得到多个不同部位的初始视频片段,包括:
从所述待分类视频的首部、中部、尾部各采样一个预设时长的视频片段,并对所述预设时长的视频片段进行预设帧数的采样,得到三个初始视频片段。
进一步地,所述分别对多个所述初始视频片段进行空间变换增强处理,得到多个目标视频片段,包括:
对多个所述初始视频片段分别进行相同的随机变换和高斯模糊变换,得到多个目标视频片段;其中,所述随机变换包括随机裁剪、随机水平翻转和随机颜色抖动中的一种或多种。
进一步地,所述分类网络模型包括特征嵌入编码器和分类层;所述将多个所述目标视频片段两两配对后输入至训练好的分类网络模型,得到所述待分类视频的类别,包括:
将多个所述目标视频片段两两配对,得到多个视频片段对;
将各个所述视频片段对输入至所述特征嵌入编码器,得到所述特征嵌入编码器输出的时空特征;
将所述时空特征输入至所述分类层,得到所述分类层输出的类别。
进一步地,所述方法还包括:
获取多个样本视频,所述样本视频包括来自所述开源数据集的第一样本视频和来自所述自定义数据集的第二样本视频;
对每个所述样本视频分别进行时序采样处理和空间变换增强处理,得到每个所述样本视频对应的多个样本视频片段;
将每个所述样本视频对应的多个所述样本视频片段两两配对,得到每个所述样本视频对应的多个样本片段对;
根据各个所述第一样本视频对应的多个样本片段对,对初始特征嵌入编码器进行自监督对比学习预训练,得到预训练后的特征嵌入编码器;
根据各个所述第二样本视频对应的多个样本片段对,对由所述预训练后的特征嵌入编码器和分类层构成的初始分类网络模型进行微调训练,得到训练好的分类网络模型。
进一步地,所述初始特征嵌入编码器包括依次设置的特征嵌入骨干网络和多层感知机投影头,所述多层感知机投影头的输出连接有多层感知机预测头;所述根据各个所述第一样本视频对应的多个样本片段对,对初始特征嵌入编码器进行自监督对比学习预训练,得到预训练后的特征嵌入编码器,包括:
对于每个所述第一样本视频对应的每个样本片段对,将该样本片段对分别输入到所述初始特征嵌入编码器的两个路径中,得到所述多层感知机投影头输出的两个第一编码特征;
将所述两个第一编码特征经输入至所述多层感知机预测头,得到两个第二编码特征;
根据所述两个第一编码特征和所述两个第二编码特征,计算得到对称损失;
根据所述对称损失,更新所述初始特征嵌入编码器中的参数,以得到预训练后的特征嵌入编码器。
本发明实施例还提供了一种视频分类装置,包括:
第一处理模块,用于对待分类视频进行时序采样处理,得到多个不同部位的初始视频片段;
第二处理模块,用于分别对多个所述初始视频片段进行空间变换增强处理,得到多个目标视频片段;
模型分类模块,用于将多个所述目标视频片段两两配对后输入至训练好的分类网络模型,得到所述待分类视频的类别;其中,所述分类网络模型通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到。
进一步地,所述装置还包括模型训练模块,所述模型训练模块用于:
获取多个样本视频,所述样本视频包括来自所述开源数据集的第一样本视频和来自所述自定义数据集的第二样本视频;
对每个所述样本视频分别进行时序采样处理和空间变换增强处理,得到每个所述样本视频对应的多个样本视频片段;
将每个所述样本视频对应的多个所述样本视频片段两两配对,得到每个所述样本视频对应的多个样本片段对;
根据各个所述第一样本视频对应的多个样本片段对,对初始特征嵌入编码器进行自监督对比学习预训练,得到预训练后的特征嵌入编码器;
根据各个所述第二样本视频对应的多个样本片段对,对由所述预训练后的特征嵌入编码器和分类层构成的初始分类网络模型进行微调训练,得到训练好的分类网络模型。
本发明实施例还提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的视频分类方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的视频分类方法。
本发明实施例提供的视频分类方法及装置、电子设备及计算机可读存储介质,在对待分类视频进行视频分类时,先对待分类视频进行时序采样处理,得到多个不同部位的初始视频片段;然后分别对多个初始视频片段进行空间变换增强处理,得到多个目标视频片段;进而将多个目标视频片段两两配对后输入至训练好的分类网络模型,得到待分类视频的类别;其中,分类网络模型通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到。这种基于自监督对比学习的视频分类技术,采用了通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到的分类网络模型,该分类网络模型通过对经过时序采样处理和空间变换增强处理得到的目标视频片段进行处理,能够提取到时间跨度较大、表征能力较强的时空特征,从而可以应用到长视频,与相关现有技术相比,提高了视频分类的准确率,增强了特征泛化能力。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种视频分类方法的流程示意图;
图2为本发明实施例提供的一种分类网络模型中特征嵌入编码器的预训练流程示意图;
图3为本发明实施例提供的一种特征嵌入骨干网络结构;
图4为本发明实施例提供的一种多层感知机的投影头和预测头结构;
图5为本发明实施例提供的一种视频分类装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前基于自监督对比学习的视频分类方法,是将图像表示学习领域的相关技术扩展至视频领域,因而无法提取到时域信息,因此准确率低,且难以应用到长视频、通用性差。基于此,本发明实施例提供的一种视频分类方法及装置、电子设备及计算机可读存储介质,可以应用到长视频,增强特征泛化能力,且视频分类的准确率高、实用性强。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种视频分类方法进行详细介绍。
本发明实施例提供了一种视频分类方法,该方法可以由具有视频处理能力的电子设备执行,该电子设备可以是手机、笔记本电脑或台式机等。参见图1所示的一种视频分类方法的流程示意图,该方法主要包括如下步骤S102~步骤S106:
步骤S102,对待分类视频进行时序采样处理,得到多个不同部位的初始视频片段。
在一些可能的实施例中,可以从待分类视频的首部、中部、尾部各采样一个预设时长的视频片段,并对该预设时长的视频片段进行预设帧数的采样,得到三个初始视频片段。其中,预设时长和预设帧数都可以根据实际需求设置,这里不做限定。可选地,预设时长s可以设置为s=64/FPS,其中,FPS(Frames Per Second)指每秒传输帧数,即视频转换中参数帧率。
具体实现时,对于一个时长为T的待分类视频,可以从待分类视频的首部、中部、尾部各采样一个时长为s的视频片段,记为片段1、片段2、片段3,且对片段1、片段2、片段3分别均匀采样到16帧,组成时序采样样例(即初始视频片段)t1、t2和t3。
步骤S104,分别对多个初始视频片段进行空间变换增强处理,得到多个目标视频片段。
在一些可能的实施例中,可以对多个初始视频片段分别进行相同的随机变换和高斯模糊变换,得到多个目标视频片段;其中,随机变换包括随机裁剪、随机水平翻转和随机颜色抖动中的一种或多种。
具体实现时,可以对t1、t2、t3应用相同的随机裁剪(改变图像的大小到224×224)、随机水平翻转、随机颜色抖动和高斯模糊变换,得到增强视图(即目标视频片段)v1、v2、v3。
步骤S106,将多个目标视频片段两两配对后输入至训练好的分类网络模型,得到待分类视频的类别;其中,分类网络模型通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到。
在一些可能的实施例中,分类网络模型包括特征嵌入编码器和分类层,其中特征嵌入编码器可以包括诸如3D-ResNet50的特征嵌入骨干网络,特征嵌入编码器还可以包括用于预训练的MLP(Multilayer,Perceptron多层感知机)投影头,MLP投影头的输出连接有用于预训练的MLP预测头,在分类网络模型的训练过程中,先基于开源数据集对特征嵌入编码器进行自监督对比学习预训练,然后基于自定义数据集对预训练后的特征嵌入编码器和分类层进行微调训练,得到训练好的分类网络模型。基于此,上述步骤S106可以通过如下过程实现:将多个目标视频片段两两配对,得到多个视频片段对;将各个视频片段对输入至特征嵌入编码器,得到特征嵌入编码器输出的时空特征;将时空特征输入至分类层,得到分类层输出的类别。
例如,对于目标视频片段v1、v2、v3,可以形成三个视频片段对:v1和v2、v1和v3、v2和v3,将这三个视频片段对输入至分类网络模型中,得到该分类网络模型输出的类别。
本发明实施例提供的视频分类方法,在对待分类视频进行视频分类时,先对待分类视频进行时序采样处理,得到多个不同部位的初始视频片段;然后分别对多个初始视频片段进行空间变换增强处理,得到多个目标视频片段;进而将多个目标视频片段两两配对后输入至训练好的分类网络模型,得到待分类视频的类别;其中,分类网络模型通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到。这种基于自监督对比学习的视频分类技术,采用了通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到的分类网络模型,该分类网络模型通过对经过时序采样处理和空间变换增强处理得到的目标视频片段进行处理,能够提取到时间跨度较大、表征能力较强的时空特征,从而可以应用到长视频,与相关现有技术相比,提高了视频分类的准确率,增强了特征泛化能力。
本发明实施例还提供了训练上述分类网络模型的方法,具体如下:获取多个样本视频,样本视频包括来自开源数据集的第一样本视频和来自自定义数据集的第二样本视频;对每个样本视频分别进行时序采样处理和空间变换增强处理,得到每个样本视频对应的多个样本视频片段;将每个样本视频对应的多个目标视频片段两两配对,得到每个样本视频对应的多个样本片段对;根据各个第一样本视频对应的多个样本片段对,对初始特征嵌入编码器进行自监督对比学习预训练,得到预训练后的特征嵌入编码器;根据各个第二样本视频对应的多个样本片段对,对由预训练后的特征嵌入编码器和分类层构成的初始分类网络模型进行微调训练,得到训练好的分类网络模型。
上述开源数据集可以采样kinetic4、youtube-8m等,可以从开源数据集加载一个批次的视频数据,批次大小可以但不限于为n=512,n个样本视频通过数据增强处理(时序采样处理和空间变换增强处理),可以得到3n个样本片段对。上述自定义数据集为自定义的有少量标签的业务数据集。对样本视频的时序采样处理和空间变换增强处理的具体过程可以参见前述实施例中对待分类视频的时序采样处理和空间变换增强处理的相应内容,得到样本片段对的具体过程可以参见前述实施例中得到视频片段对的相应内容,这里不再赘述。
在一些可能的实施例中,上述初始特征嵌入编码器包括依次设置的特征嵌入骨干网络和MLP投影头,MLP投影头的输出连接有MLP预测头,特征嵌入编码器在每个样本片段对的两个样本视频片段之间共享权重,MLP预测头转换一个样本视频片段的输出并将其与另一个样本视频片段相匹配。基于此,可以通过如下过程进行初始特征嵌入编码器的预训练:对于每个第一样本视频对应的每个样本片段对,将该样本片段对分别输入到初始特征嵌入编码器的两个路径中,得到MLP投影头输出的两个第一编码特征;将两个第一编码特征经输入至MLP预测头,得到两个第二编码特征;根据两个第一编码特征和两个第二编码特征,计算得到对称损失;根据对称损失,更新初始特征嵌入编码器中的参数,以得到预训练后的特征嵌入编码器。
为了便于理解,参见图2所示的一种分类网络模型中特征嵌入编码器的预训练流程示意图,特征嵌入编码器采用孪生网络架构,对于每个样本视频v,先经过数据增强处理得到多个样本片段对,一个样本片段对可以公式化为:
v1,v2=aug(v),aug(v) (1)
将每个样本视频v对应的多个样本片段对分别输入到特征嵌入编码器的两个路径中,样本片段对v1和v2经过特征嵌入骨干网络的特征提取后编码为:
y1,y2=f(v1),f(v2) (2)
进一步经MLP投影处理后编码为:
z1,z2=g(y1),g(y2) (3)
进一步经MLP预测处理后编码为:
p1,p2=h(z1),h(z2) (4)
最后,依据以下公式(5)计算对称损失,更新参数θ。
当对称损失趋于稳定或训练预设数量(如800)个epoch(时期,当一个完整的数据集通过了神经网络一次并且返回了一次,这个过程称为一次epoch)后停止训练,本实施例采用随机梯度下降法进行训练,学习率依据余弦衰减规则进行调整,初始学习率可以为0.1。
为了便于实施上述方法,本发明实施例还提供了如图3所示的一种特征嵌入骨干网络结构,以及如图4所示的一种多层感知机的投影头和预测头结构,其中,BN(Batchnormalization)指批量标准化;ReLU(Rectified Linear Unit)指线性整流函数,又称修正线性单元,是一种人工神经网络中常用的激活函数。
完成自监督对比学习预训练后,经过特征嵌入骨干网络编码后的特征可以作为抽取到的时空特征,其可以为一个2048维的特征向量。在预训练后的特征嵌入编码器上添加一层分类层,神经元的数量等于待分类业务数据的类别数目,此时的网络记为分类网络。在自定义的有少量标签业务数据集上微调分类网络,训练时使用预训练后的特征嵌入编码器中的权重初始化分类网络的对应层,附加的分类层随机初始化。这样就完成了分类网络模型的训练。
上述方法可以从无标签的视频数据中,通过自监督对比学习预训练自动学习有通用表达能力的视频特征,通过自定义数据集微调自动学习有鉴别力的视频特征(更加适用于当前业务数据),可以应用到较长的视频,特征泛化能力强、视频分类的准确率高、实用性强。
对应于上述的视频分类方法,本发明实施例还提供了一种视频分类装置,参见图5所示的一种视频分类装置的结构示意图,该装置包括:
第一处理模块52,用于对待分类视频进行时序采样处理,得到多个不同部位的初始视频片段;
第二处理模块54,用于分别对多个初始视频片段进行空间变换增强处理,得到多个目标视频片段;
模型分类模块56,用于将多个目标视频片段两两配对后输入至训练好的分类网络模型,得到待分类视频的类别;其中,分类网络模型通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到。
本发明实施例提供的视频分类装置,在对待分类视频进行视频分类时,先对待分类视频进行时序采样处理,得到多个不同部位的初始视频片段;然后分别对多个初始视频片段进行空间变换增强处理,得到多个目标视频片段;进而将多个目标视频片段两两配对后输入至训练好的分类网络模型,得到待分类视频的类别;其中,分类网络模型通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到。这种基于自监督对比学习的视频分类技术,采用了通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到的分类网络模型,该分类网络模型通过对经过时序采样处理和空间变换增强处理得到的目标视频片段进行处理,能够提取到时间跨度较大、表征能力较强的时空特征,从而可以应用到长视频,与相关现有技术相比,提高了视频分类的准确率,增强了特征泛化能力。
进一步地,上述第一处理模块52具体用于:从待分类视频的首部、中部、尾部各采样一个预设时长的视频片段,并对该预设时长的视频片段进行预设帧数的采样,得到三个初始视频片段。
进一步地,上述第二处理模块54具体用于:对多个初始视频片段分别进行相同的随机变换和高斯模糊变换,得到多个目标视频片段;其中,随机变换包括随机裁剪、随机水平翻转和随机颜色抖动中的一种或多种。
进一步地,上述分类网络模型包括特征嵌入编码器和分类层;上述模型分类模块56具体用于:将多个目标视频片段两两配对,得到多个视频片段对;将各个视频片段对输入至特征嵌入编码器,得到特征嵌入编码器输出的时空特征;将时空特征输入至分类层,得到分类层输出的类别。
进一步地,上述装置还包括与模型分类模块56连接的模型训练模块,模型训练模块用于:获取多个样本视频,该样本视频包括来自开源数据集的第一样本视频和来自自定义数据集的第二样本视频;对每个样本视频分别进行时序采样处理和空间变换增强处理,得到每个样本视频对应的多个样本视频片段;将每个样本视频对应的多个目标视频片段两两配对,得到每个样本视频对应的多个样本片段对;根据各个第一样本视频对应的多个样本片段对,对初始特征嵌入编码器进行自监督对比学习预训练,得到预训练后的特征嵌入编码器;根据各个第二样本视频对应的多个样本片段对,对由预训练后的特征嵌入编码器和分类层构成的初始分类网络模型进行微调训练,得到训练好的分类网络模型。
进一步地,上述初始特征嵌入编码器包括依次设置的特征嵌入骨干网络和多层感知机投影头,多层感知机投影头的输出连接有多层感知机预测头;上述模型训练模块具体用于:对于每个第一样本视频对应的每个样本片段对,将该样本片段对分别输入到初始特征嵌入编码器的两个路径中,得到多层感知机投影头输出的两个第一编码特征;将两个第一编码特征经输入至多层感知机预测头,得到两个第二编码特征;根据两个第一编码特征和两个第二编码特征,计算得到对称损失;根据对称损失,更新初始特征嵌入编码器中的参数,以得到预训练后的特征嵌入编码器。
本实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
参见图6,本发明实施例还提供一种电子设备100,包括:处理器60,存储器61,总线62和通信接口63,所述处理器60、通信接口63和存储器61通过总线62连接;处理器60用于执行存储器61中存储的可执行模块,例如计算机程序。
其中,存储器61可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory,简称NVM),例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线62可以是工业标准体系结构(Industry Standard Architecture,简称ISA)总线、外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器61用于存储程序,所述处理器60在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流程定义的装置所执行的方法可以应用于处理器60中,或者由处理器60实现。
处理器60可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61,处理器60读取存储器61中的信息,结合其硬件完成上述方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行前面方法实施例中所述的视频分类方法。该计算机可读存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
附图中的流程图和框图显示了根据本发明的多个实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种视频分类方法,其特征在于,包括:
对待分类视频进行时序采样处理,得到多个不同部位的初始视频片段;
分别对多个所述初始视频片段进行空间变换增强处理,得到多个目标视频片段;
将多个所述目标视频片段两两配对后输入至训练好的分类网络模型,得到所述待分类视频的类别;其中,所述分类网络模型通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到。
2.根据权利要求1所述的视频分类方法,其特征在于,所述对待分类视频进行时序采样处理,得到多个不同部位的初始视频片段,包括:
从所述待分类视频的首部、中部、尾部各采样一个预设时长的视频片段,并对所述预设时长的视频片段进行预设帧数的采样,得到三个初始视频片段。
3.根据权利要求1所述的视频分类方法,其特征在于,所述分别对多个所述初始视频片段进行空间变换增强处理,得到多个目标视频片段,包括:
对多个所述初始视频片段分别进行相同的随机变换和高斯模糊变换,得到多个目标视频片段;其中,所述随机变换包括随机裁剪、随机水平翻转和随机颜色抖动中的一种或多种。
4.根据权利要求1所述的视频分类方法,其特征在于,所述分类网络模型包括特征嵌入编码器和分类层;所述将多个所述目标视频片段两两配对后输入至训练好的分类网络模型,得到所述待分类视频的类别,包括:
将多个所述目标视频片段两两配对,得到多个视频片段对;
将各个所述视频片段对输入至所述特征嵌入编码器,得到所述特征嵌入编码器输出的时空特征;
将所述时空特征输入至所述分类层,得到所述分类层输出的类别。
5.根据权利要求1所述的视频分类方法,其特征在于,所述方法还包括:
获取多个样本视频,所述样本视频包括来自所述开源数据集的第一样本视频和来自所述自定义数据集的第二样本视频;
对每个所述样本视频分别进行时序采样处理和空间变换增强处理,得到每个所述样本视频对应的多个样本视频片段;
将每个所述样本视频对应的多个所述样本视频片段两两配对,得到每个所述样本视频对应的多个样本片段对;
根据各个所述第一样本视频对应的多个样本片段对,对初始特征嵌入编码器进行自监督对比学习预训练,得到预训练后的特征嵌入编码器;
根据各个所述第二样本视频对应的多个样本片段对,对由所述预训练后的特征嵌入编码器和分类层构成的初始分类网络模型进行微调训练,得到训练好的分类网络模型。
6.根据权利要求5所述的视频分类方法,其特征在于,所述初始特征嵌入编码器包括依次设置的特征嵌入骨干网络和多层感知机投影头,所述多层感知机投影头的输出连接有多层感知机预测头;所述根据各个所述第一样本视频对应的多个样本片段对,对初始特征嵌入编码器进行自监督对比学习预训练,得到预训练后的特征嵌入编码器,包括:
对于每个所述第一样本视频对应的每个样本片段对,将该样本片段对分别输入到所述初始特征嵌入编码器的两个路径中,得到所述多层感知机投影头输出的两个第一编码特征;
将所述两个第一编码特征经输入至所述多层感知机预测头,得到两个第二编码特征;
根据所述两个第一编码特征和所述两个第二编码特征,计算得到对称损失;
根据所述对称损失,更新所述初始特征嵌入编码器中的参数,以得到预训练后的特征嵌入编码器。
7.一种视频分类装置,其特征在于,包括:
第一处理模块,用于对待分类视频进行时序采样处理,得到多个不同部位的初始视频片段;
第二处理模块,用于分别对多个所述初始视频片段进行空间变换增强处理,得到多个目标视频片段;
模型分类模块,用于将多个所述目标视频片段两两配对后输入至训练好的分类网络模型,得到所述待分类视频的类别;其中,所述分类网络模型通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到。
8.根据权利要求7所述的视频分类装置,其特征在于,所述装置还包括模型训练模块,所述模型训练模块用于:
获取多个样本视频,所述样本视频包括来自所述开源数据集的第一样本视频和来自所述自定义数据集的第二样本视频;
对每个所述样本视频分别进行时序采样处理和空间变换增强处理,得到每个所述样本视频对应的多个样本视频片段;
将每个所述样本视频对应的多个所述样本视频片段两两配对,得到每个所述样本视频对应的多个样本片段对;
根据各个所述第一样本视频对应的多个样本片段对,对初始特征嵌入编码器进行自监督对比学习预训练,得到预训练后的特征嵌入编码器;
根据各个所述第二样本视频对应的多个样本片段对,对由所述预训练后的特征嵌入编码器和分类层构成的初始分类网络模型进行微调训练,得到训练好的分类网络模型。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-6中任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110923305.XA CN113610021A (zh) | 2021-08-12 | 2021-08-12 | 视频分类方法及装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110923305.XA CN113610021A (zh) | 2021-08-12 | 2021-08-12 | 视频分类方法及装置、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113610021A true CN113610021A (zh) | 2021-11-05 |
Family
ID=78340428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110923305.XA Pending CN113610021A (zh) | 2021-08-12 | 2021-08-12 | 视频分类方法及装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113610021A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114359656A (zh) * | 2021-12-13 | 2022-04-15 | 福州数据技术研究院有限公司 | 一种基于自监督对比学习的黑色素瘤图像识别方法和存储设备 |
CN114596312A (zh) * | 2022-05-07 | 2022-06-07 | 中国科学院深圳先进技术研究院 | 一种视频处理方法和装置 |
CN114998802A (zh) * | 2022-06-13 | 2022-09-02 | 北京微播易科技股份有限公司 | 一种视频模型训练、视频分类方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111930992A (zh) * | 2020-08-14 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 神经网络训练方法、装置及电子设备 |
CN112464879A (zh) * | 2020-12-10 | 2021-03-09 | 山东易视智能科技有限公司 | 基于自监督表征学习的海洋目标检测方法及系统 |
CN112507990A (zh) * | 2021-02-04 | 2021-03-16 | 北京明略软件系统有限公司 | 视频时空特征学习、抽取方法、装置、设备及存储介质 |
CN112668492A (zh) * | 2020-12-30 | 2021-04-16 | 中山大学 | 一种自监督学习与骨骼信息的行为识别方法 |
CN113177616A (zh) * | 2021-06-29 | 2021-07-27 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、设备及存储介质 |
-
2021
- 2021-08-12 CN CN202110923305.XA patent/CN113610021A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111930992A (zh) * | 2020-08-14 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 神经网络训练方法、装置及电子设备 |
CN112464879A (zh) * | 2020-12-10 | 2021-03-09 | 山东易视智能科技有限公司 | 基于自监督表征学习的海洋目标检测方法及系统 |
CN112668492A (zh) * | 2020-12-30 | 2021-04-16 | 中山大学 | 一种自监督学习与骨骼信息的行为识别方法 |
CN112507990A (zh) * | 2021-02-04 | 2021-03-16 | 北京明略软件系统有限公司 | 视频时空特征学习、抽取方法、装置、设备及存储介质 |
CN113177616A (zh) * | 2021-06-29 | 2021-07-27 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114359656A (zh) * | 2021-12-13 | 2022-04-15 | 福州数据技术研究院有限公司 | 一种基于自监督对比学习的黑色素瘤图像识别方法和存储设备 |
CN114596312A (zh) * | 2022-05-07 | 2022-06-07 | 中国科学院深圳先进技术研究院 | 一种视频处理方法和装置 |
CN114998802A (zh) * | 2022-06-13 | 2022-09-02 | 北京微播易科技股份有限公司 | 一种视频模型训练、视频分类方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lai et al. | Self-supervised learning for video correspondence flow | |
Mandal et al. | An empirical review of deep learning frameworks for change detection: Model design, experimental frameworks, challenges and research needs | |
Mandal et al. | 3DCD: Scene independent end-to-end spatiotemporal feature learning framework for change detection in unseen videos | |
CN112950581B (zh) | 质量评估方法、装置和电子设备 | |
CN113610021A (zh) | 视频分类方法及装置、电子设备及计算机可读存储介质 | |
US20180114071A1 (en) | Method for analysing media content | |
Wang et al. | Tree leaves detection based on deep learning | |
CN112507990A (zh) | 视频时空特征学习、抽取方法、装置、设备及存储介质 | |
US11062210B2 (en) | Method and apparatus for training a neural network used for denoising | |
CN110598558A (zh) | 人群密度估计方法、装置、电子设备及介质 | |
CN111783749A (zh) | 一种人脸检测方法、装置、电子设备及存储介质 | |
US12106541B2 (en) | Systems and methods for contrastive pretraining with video tracking supervision | |
Kang et al. | SdBAN: Salient object detection using bilateral attention network with dice coefficient loss | |
CN106372603A (zh) | 遮挡人脸识别方法及装置 | |
Yang et al. | Anomaly detection in moving crowds through spatiotemporal autoencoding and additional attention | |
Li et al. | Cross-level parallel network for crowd counting | |
CN113255557A (zh) | 一种基于深度学习的视频人群情绪分析方法及系统 | |
Kompella et al. | A semi-supervised recurrent neural network for video salient object detection | |
CN111428590A (zh) | 一种视频聚类切分方法和系统 | |
CN114898266B (zh) | 训练方法、图像处理方法、装置、电子设备以及存储介质 | |
Ge et al. | Deep variation transformation network for foreground detection | |
CN110008922B (zh) | 用于终端设备的图像处理方法、设备、装置、介质 | |
Sabater et al. | Event Transformer+. A multi-purpose solution for efficient event data processing | |
CN113177483B (zh) | 视频目标分割方法、装置、设备以及存储介质 | |
Behnaz et al. | DEEPPBM: Deep probabilistic background model estimation from video sequences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20211229 Address after: A111, 1f, building 3, No. 1, zone 1, Lize Zhongyuan, Wangjing emerging industrial zone, Chaoyang District, Beijing 100020 Applicant after: MIAOZHEN INFORMATION TECHNOLOGY Co.,Ltd. Address before: Floor 29, 30, 31, 32, No. 701, Yunjin Road, Xuhui District, Shanghai, 200030 Applicant before: Shanghai minglue artificial intelligence (Group) Co.,Ltd. |