CN110751224B - 视频分类模型的训练方法、视频分类方法、装置及设备 - Google Patents

视频分类模型的训练方法、视频分类方法、装置及设备 Download PDF

Info

Publication number
CN110751224B
CN110751224B CN201911026094.9A CN201911026094A CN110751224B CN 110751224 B CN110751224 B CN 110751224B CN 201911026094 A CN201911026094 A CN 201911026094A CN 110751224 B CN110751224 B CN 110751224B
Authority
CN
China
Prior art keywords
video
data set
classification model
label
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911026094.9A
Other languages
English (en)
Other versions
CN110751224A (zh
Inventor
尹康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201911026094.9A priority Critical patent/CN110751224B/zh
Publication of CN110751224A publication Critical patent/CN110751224A/zh
Application granted granted Critical
Publication of CN110751224B publication Critical patent/CN110751224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种视频分类模型的训练方法、分类方法、装置及设备,所述方法包括:获取长视频数据集;对所述长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段,得到所述视频的至少两个视频片段;将所述视频的至少两个视频片段和所述视频的标签进行组合,得到短视频数据集;根据所述短视频数据集对分类模型进行训练,得到所述视频分类模型。本申请实现了将长视频数据集通过“下采样”和“分段”的方式构建得到包含大量视频片段的短视频数据集,通过该短视频数据集训练得到的视频分类模型,对于短视频具有较好的标签分类能力,还能够减少训练和预测时的特征提取计算量。

Description

视频分类模型的训练方法、视频分类方法、装置及设备
技术领域
本申请涉及计算机视觉领域,特别涉及一种视频分类模型的训练方法、视频分类方法、装置及设备。
背景技术
自动理解视频内容已经成为许多应用场景的关键技术,如自动驾驶、基于视频的搜索和智能机器人等等。通过机器学习来进行视频标签分类是自动理解视频内容的一种方式。
相关技术中提供有视频标签数据集(简称数据集),该数据集包括视频和标签之间的对应关系。数据集中的视频一般为时长几分钟的“长视频”。采用该视频标签数据集能够训练得到深度学习模型。在视频分类时,先通过卷积神经网络中的三维卷积对视频进行特征提取,得到视频的视频级特征;将视频的视频级特征输入至训练好的深度学习模型中,得到该视频对应的标签。
由于目前的短视频分享应用的流行,视频标签分类的一个研究主题是针对时长为15秒以后的“短视频”,也即视频片段。由于上述三维卷积方式的计算量较大而且数据集中的视频也较长,因此上述深度学习模型对视频片段的分类能力较差。
发明内容
本申请实施例提供了一种视频分类模型的训练方法、视频分类方法、装置及设备,可以解决相关技术中的三维卷积方式的计算量较大而且数据集中的视频也较长,因此上述深度学习模型对视频片段的分类能力较差的问题。所述技术方案如下:
根据本申请的一个方面,提供了一种视频分类模型的训练方法,所述方法包括:
获取长视频数据集,所述长视频数据集包括视频和标签之间的对应关系,所述视频的视频长度大于第一时长;
对所述长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段,得到所述视频的至少两个视频片段,所述视频片段的视频长度小于第二时长,所述第二时长不大于所述第一时长;
将所述视频的至少两个视频片段和所述视频的标签进行组合,得到短视频数据集;
根据所述短视频数据集对分类模型进行训练,得到所述视频分类模型。
根据本申请的一个方面,提供了一种视频分类方法,所述方法包括:
获取待分类的视频,所述视频的长度小于第二时长;
对所述视频进行时间维度的下采样,将采样得到的抽样视频帧;
对所述视频的所述抽样视频帧进行特征提取,得到所述视频的特征向量;
调用视频分类模型对所述特征向量进行预测,得到所述视频的标签;所述视频分类模型是根据短视频数据集训练得到的;
其中,所述短视频数据集中的视频片段是对所述长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段得到的,所述视频片段的长度小于第二时长,所述视频的长度大于第一时长,所述第二时长不大于所述第一时长。
根据本申请的一个方面,提供了一种视频分类模型的训练装置,所述装置包括:
获取模块,用于获取长视频数据集,所述长视频数据集包括视频和标签之间的对应关系,所述视频的视频长度大于第一时长;
分段模块,用于对所述长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段,得到所述视频的至少两个视频片段,所述视频片段的视频长度小于第二时长,所述第二时长不大于所述第一时长;
组合模块,用于将所述视频的至少两个视频片段和所述视频的标签进行组合,得到短视频数据集;
训练模块,用于根据所述短视频数据集对分类模型进行训练,得到所述视频分类模型。
根据本申请的一个方面,提供了一种视频分类装置,所述装置包括:
获取模块,用于获取待分类的视频,所述视频的长度小于第二时长;
下采样模块,用于对所述视频进行时间维度的下采样,将采样得到的抽样视频帧;
提取模块,用于对所述视频的所述抽样视频帧进行特征提取,得到所述视频的特征向量;
预测模块,用于调用视频分类模型对所述特征向量进行预测,得到所述视频的标签;所述视频分类模型是根据短视频数据集训练得到的;
其中,所述短视频数据集中的视频片段是对所述长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段得到的,所述视频片段的长度小于第二时长,所述视频的长度大于第一时长,所述第二时长不大于所述第一时长。
根据本申请的一个方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的视频分类模型的训练方法,或,如上所述的视频分类方法。
根据本申请的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的视频分类模型的训练方法,或,如上所述的视频分类方法。
本申请实施例至少存在如下有益效果:
通过获取长视频数据集,对长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段,得到视频的至少两个视频片段;将视频的至少两个视频片段和视频的标签进行组合,得到短视频数据集。实现了将长视频数据集通过“下采样”和“分段”的方式构建得到包含大量视频片段的短视频数据集,通过该短视频数据集训练得到的视频分类模型,对于短视频具有较好的标签分类能力,还能够减少训练和预测时的特征提取计算量。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示意性实施例提供的视频分类模型的训练方法的流程图;
图2是本申请一个示意性实施例提供的视频分类模型的训练方法的原理示意图;
图3是本申请另一个示意性实施例提供的视频分类模型的训练方法的流程图;
图4是本申请另一个示意性实施例提供的视频分类模型的训练方法的原理示意图;
图5是本申请另一个示意性实施例提供的视频分类方法的流程图;
图6是本申请另一个示意性实施例提供的视频分类方法的原理示意图;
图7是本申请另一个示意性实施例提供的视频分类模型的训练装置的框图;
图8是本申请另一个示意性实施例提供的视频分类模型的框图;
图9是本申请另一个示意性实施例提供的计算机设备的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先对本申请实施例提供的若干个技术名词进行简介:
Youtube-8M视频理解挑战赛:是由Kaggle和谷歌赞助的视频理解挑战赛,要求采用1G以下的机器学习模型来进行视频标签分类任务。每年举办一次,已经举办两次,2019年是第三次。
Youtube-8M数据集:一个包含610万个视频和3862个类(或标签)的大型标记数据集。该数据集中将原始视频编码为一系列特征向量,包括视觉特征和音频特征。
-帧级数据集
帧级数据集是以“帧”为单位进行特征采集所得到的数据。每个帧对应有各自的标签。
-视频级数据集
将帧级数据集中与单个视频对应的特征向量序列进行平均后,得到视频级数据集中与该视频对应的特征向量。每个视频对应有各自的标签。
上述数据集中的标签是由采用机器自动化标注和人工手动标注两种策略来生成的,导致准确度较低。根据Youtube-8M数据集的技术报告,帧级数据集的标签精度和召回率仅为78.8%和14.5%。
图1示出了本申请一个示例性实施例提供的视频分类模型的训练方法的流程图。该方法可以应用于计算机设备中。该方法包括:
步骤102,获取长视频数据集;
长视频数据集包括:视频和标签之间的对应关系。长标签数据集中的视频的长度大于第一时长,比如20秒,通常为几分钟。长标签数据集中的标签是硬标签。在一个示例中,长标签数据集中的视频数量为第一数量,第一数量较大,比如几百万个视频、几千万个视频或上亿个视频。该长标签数据集可以是Youtube-8M数据集。
长标签数据集中的全部或部分硬标签是机器标注得到的,比如通过视频标题、视频评论、用户在观看视频时手动给出的分类等。
步骤104,对长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段,得到视频的至少两个视频片段;
视频片段的视频长度小于第二时长,第二时长不大于第一时长。比如,第二时长为15秒。
对于长视频数据集中的每个视频,按照1HZ进行时间维度的下采样。若视频中的帧率为每秒24帧,即为每24帧采样一个视频帧作为抽样视频帧。将采样得到的抽样视频帧进行等分或不等分分段,得到视频的至少两个视频片段,如图2所示。
步骤106,将视频的至少两个视频片段和视频的标签进行组合,得到短视频数据集;
将视频的全部或部分视频片段和该视频的标签进行组合,得到短视频数据集。该视频的标签是该视频在长视频数据集中的标签。
步骤108,根据短视频数据集对分类模型进行训练,得到视频分类模型。
对于短标签数据集中的每个视频片段,对视频片段提取特征向量,该特征向量包括视觉特征和听觉特征中的至少一种。将视频片段的特征向量输入至分类模型中进行预测,得到视频片段的预测标签。根据视频片段的预测标签和标签之间的误差,采用误差反向传播算法训练得到视频分类模型。
综上所述,本实施例提供的方法,通过获取长视频数据集,对长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段,得到视频的至少两个视频片段;将视频的至少两个视频片段和视频的标签进行组合,得到短视频数据集。实现了将长视频数据集通过“下采样”和“分段”的方式构建得到包含大量视频片段的短视频数据集,通过该短视频数据集训练得到的视频分类模型,对于短视频具有较好的标签分类能力,还能够减少训练和预测时的特征提取计算量。
图3示出了本申请另一个示例性实施例提供的视频分类模型的训练方法的流程图。该方法可以应用于计算机设备中。该方法包括:
步骤301,获取长视频数据集;
长视频数据集包括:视频和标签之间的对应关系。长标签数据集中的视频的长度大于第一时长,比如30秒,通常为几分钟。长标签数据集中的标签是硬标签。在一个示例中,长标签数据集中的视频数量为第一数量,第一数量较大,比如几百万个视频、几千万个视频或上亿个视频。该长标签数据集可以是Youtube-8M数据集。
长标签数据集中的全部或部分硬标签是机器标注得到的,比如通过视频标题、视频评论、用户在观看视频时手动给出的分类等。
步骤302,对长视频数据集中的视频按照预设频率进行时间维度的下采样,得到视频的抽样视频帧序列;
视频片段的视频长度小于第二时长,第二时长不大于第一时长。比如,第二时长为15秒。
对于长视频数据集中的每个视频,按照1HZ进行时间维度的下采样。若视频中的帧率为每秒24帧,即为每24帧采样一个视频帧作为抽样视频帧。若视频中的帧率为每秒60帧,即为每60帧采样一个视频帧作为抽样视频帧。
步骤303,对视频的抽样视频帧序列进行等分分段,得到视频的至少两个视频片段;
在一个示例中,对视频的抽样视频帧序列按照固定数量M进行等分分段,得到视频的M个视频片段,M为大于1的整数。
在一个示例中,在随机数区间(比如5-10)中为视频随机选择一个随机数作为分组数量;按照分组数量对视频的抽样视频帧序列进行等分分段,得到视频的至少两个视频片段。
步骤304,将视频的至少两个视频片段和视频的标签进行组合,得到短视频数据集;
将视频的全部或部分视频片段和该视频的标签进行组合,得到短视频数据集。该视频的标签是该视频在长视频数据集中的标签。
比如,对每个视频随机选择2个视频片段,与该视频在长视频数据集中的标签进行组合,得到短视频数据集。
步骤305,对于短视频数据集中的每个视频片段,采用二维卷积网络进行特征提取,得到视频片段对应的二维卷积特征;
采用二维卷积网络对视频片段的视觉特征和/或音频特征进行特征提取,得到视频片段对应的二维卷积特征。
可选地,对视频片段提取特征向量,包括:采用二维的第一神经网络对视频帧的帧特征向量进行提取,采用二维的第二神经网络对多个视频帧的帧特征向量进行特征融合,得到视频的特征向量。其中,第一神经网络可以采用谷歌公司提出的InceptionNet或移动端轻量级网络MobileNet;第二神经网络可以采用NetVLAD网络。InceptionNet的论文可参考《Inception-v4,Inception-ResNet and the Impact of Residual Connections onLearning》,NetVLAD网络的论文可参考《NeXtVLAD:An Efficient Neural Network toAggregate Frame-level Features for Large-scale Video Classification》。
步骤306,将视频片段对应的二维卷积特征输入至分类模型得到第一预测标签;
步骤307,根据第一预测标签和视频片段对应的标签之间的误差,根据误差反向传播算法对分类模型进行训练,得到视频分类模型。
在一个示例中,训练视频分类模型时的误差函数采用了下式所定义的交叉熵损失,其中,n代表类别数,yi、pi分别代表标签向量和视频分类模型输出的第一预测标签向量的第i位。
Figure GDA0003631491560000091
在某些实施例中,长视频数据集的标签精度较差。可选地,本实施例还获取人工标注数据集,采用标签精度较高的人工标注数据集对上述步骤训练得到视频分类模型(可视为预训练模型)进行微调训练,以提高视频分类模型的分类准确度,如图4所示。本实施例还可选包括如下步骤:
步骤308,获取人工标注数据集,人工标注数据集包括样本视频片段和人工标注标签之间的对应关系;
样本视频片段可以是长视频数据集中的视频进行分段后的视频分段的子集,也可以是独立于长视频数据集进行额外采集的视频片段。
示例性的,人工标注的方式包括:针对样本视频片段,计算机设备向标注员询问该视频片段是否存在某一个标签(其它没有被询问的标签无需标注),这样使得标注难度以及错标、漏标概率不会随标签类别的增加而增加。
若样本视频片段是长视频数据集中的视频进行分段后的视频分段的子集。为了增加人工标注正样本的占比,还可以在该视频片段在长视频数据集中所属的标签中选择要询问的标签,因为每个视频在长视频数据集中所属的标签数量可能不止一个。人工标签训练集的样本数量较少,但标签精度较高。比如人工标注数据集中的样本数量为长视频数据集中的样本数量的10%左右。
步骤309,对于人工标注数据集中的每个样本视频片段,采用二维卷积网络进行特征提取,得到样本视频片段对应的二维卷积特征;
采用二维卷积网络对视频片段的视觉特征和/或音频特征进行特征提取,得到视频片段对应的二维卷积特征。
可选地,对视频片段提取特征向量,包括:采用二维的第一神经网络对视频帧的帧特征向量进行提取,采用二维的第二神经网络对多个视频帧的帧特征向量进行特征融合,得到视频的特征向量。其中,第一神经网络可以采用InceptionNet或移动端轻量级网络MobileNet;第二神经网络可以采用NetVLAD网络。
步骤310,将样本视频片段对应的二维卷积特征输入至视频分类模型,得到第二预测标签;
步骤311,根据第二预测标签和样本视频片段对应的人工标注标签之间的误差,根据误差反向传播算法对视频分类模型进行微调训练,得到最终的视频分类模型。
在一个示例中,微调训练过程中,对特征提取网络(2D卷积)的学习率设置为0。
综上所述,本实施例提供的方法,通过获取长视频数据集,对长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段,得到视频的至少两个视频片段;将视频的至少两个视频片段和视频的标签进行组合,得到短视频数据集。实现了将长视频数据集通过“下采样”和“分段”的方式构建得到包含大量视频片段的短视频数据集,通过该短视频数据集训练得到的视频分类模型,对于短视频具有较好的标签分类能力,下采样方式不仅能够缩短视频的长度,还能够减少训练和预测时的特征提取计算量。
本实施例提供的方法,还通过二维卷积网络对视频片段进行特征提取,仅需要提取视频片段的二维卷积特征,无需提取视频片段的三维卷积特征,因此进一步减少训练和预测时的特征提取计算量。
本实施例提供的方法,还通过基于“海量但不准确的长标签数据集”和“少量但准确的人工标准的人工标注数据集”进行两段式训练,能够尽可能减少对人工标注工作的依赖,尽可能高地提高视频分类模型的分类准确度。
图5示出了本申请一个示例性实施例提供的视频分类方法的流程图,该方法可以应用于计算机设备中,所述方法包括:
步骤501,获取待分类的视频,视频的长度小于第二时长;
该视频可以为短视频或从长视频截取的视频片段。比如,第二时长为15秒。本申请实施例不限定第二时长的具体数值,第二时长还可以为10秒或30秒等其它数值。
步骤502,对视频进行时间维度的下采样,将采样得到的抽样视频帧;
对视频按照预设频率进行时间维度的下采样,得到视频的抽样视频帧。
示例性的,对视频按照1HZ进行时间维度的下采样。若视频中的帧率为每秒24帧,即为每24帧采样一个视频帧作为抽样视频帧。若视频中的帧率为每秒60帧,即为每60帧采样一个视频帧作为抽样视频帧。
步骤503,对视频的抽样视频帧进行特征提取,得到视频的特征向量;
采用二维卷积网络对视频片段的视觉特征和/或音频特征进行特征提取,得到视频片段对应的二维卷积特征。
可选地,对视频提取特征向量,包括:采用二维的第一神经网络对视频中抽样视频帧的帧特征向量进行提取,采用二维的第二神经网络对多个抽样视频帧的帧特征向量进行特征融合,得到视频的特征向量。其中,第一神经网络可以采用InceptionNet或移动端轻量级网络MobileNet;第二神经网络可以采用NetVLAD网络。
步骤504,调用视频分类模型对特征向量进行预测,得到视频的标签。
视频分类模型是根据短视频数据集训练得到的,比如上述各个方法实施例训练得到的分类模型。其中,短视频数据集中的视频片段是对长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段得到的,视频片段的长度小于第二时长,视频的长度大于第一时长,第二时长不大于第一时长。
参考图6,计算机设备调用视频分类模型对特征向量进行预测,得到视频属于每种标签的概率,也称概率分布向量。概率分布向量可以表示为P={p1,p2,…,pn},其中,pi表示输入视频输入第i类的概率,n为类别总数量。
当视频属于第i种标签的概率大于或等于阈值时,将第i种标签确定为视频的标签;当视频属于第i种标签的概率小于阈值时,将第i种标签确定为视频的标签。
在一个示例中,对概率分布向量P按下式进行二值化。
Figure GDA0003631491560000121
在一个示例中,阈值threshold设为0.5。
在二值化结果中,如果P的第i位等于1,表明输入视频属于第i类,否则不属于该类。按照该原则遍历二值化后的概率分布向量P,输出所有等于1的位置所对应的标签类别。
综上所述,本实施例提供的方法,由于视频分类模型是通过短视频数据集训练得到的,因此对于短视频具有较好的标签分类能力。
以下为本申请的装置实施例,对于装置实施例中未详细描述的细节,请参考上述方法实施例。
图7是本申请的一个示例性实施例提供的视频分类模型的训练装置的框图,所述装置包括:
获取模块720,用于获取长视频数据集,所述长视频数据集包括视频和标签之间的对应关系,所述视频的视频长度大于第一时长;
分段模块740,用于对所述长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段,得到所述视频的至少两个视频片段,所述视频片段的视频长度小于第二时长,所述第二时长不大于所述第一时长;
组合模块760,用于将所述视频的至少两个视频片段和所述视频的标签进行组合,得到短视频数据集;
训练模块780,用于根据所述短视频数据集对分类模型进行训练,得到所述视频分类模型。
在一个可选的实施例中,所述分段模块740,用于对所述长视频数据集中的视频按照预设频率进行时间维度的下采样,得到所述视频的抽样视频帧序列;对所述视频的抽样视频帧序列进行等分分段,得到所述视频的至少两个视频片段。
在一个可选的实施例中,所述分段模块740,用于在随机数区间中为所述视频随机选择一个随机数作为分组数量;按照所述分组数量对所述视频的抽样视频帧序列进行等分分段,得到所述视频的至少两个视频片段。
在一个可选的实施例中,所述训练模块780,用于对于所述短视频数据集中的每个视频片段,采用二维卷积网络进行特征提取,得到所述视频片段对应的二维卷积特征;将所述视频片段对应的二维卷积特征输入至分类模型得到第一预测标签;根据所述第一预测标签和所述视频片段对应的标签之间的误差,根据误差反向传播算法对所述分类模型进行训练,得到所述视频分类模型。
在一个可选的实施例中,所述装置还包括:微调训练模块790,
所述微调训练模块790,用于获取人工标注数据集,所述人工标注数据集包括样本视频片段和人工标注标签之间的对应关系;对于所述人工标注数据集中的每个样本视频片段,采用二维卷积网络进行特征提取,得到所述样本视频片段对应的二维卷积特征;将所述样本视频片段对应的二维卷积特征输入至所述视频分类模型,得到第二预测标签;根据所述第二预测标签和所述样本视频片段对应的人工标注标签之间的误差,根据误差反向传播算法对所述视频分类模型进行微调训练,得到最终的所述视频分类模型。
图8是本申请的一个示例性实施例提供的视频分类装置的框图,所述装置包括:
获取模块820,用于获取待分类的视频,所述视频的长度小于第二时长;
下采样模块840,用于对所述视频进行时间维度的下采样,将采样得到的抽样视频帧;
提取模块860,用于对所述视频的所述抽样视频帧进行特征提取,得到所述视频的特征向量;
预测模块880,用于调用视频分类模型对所述特征向量进行预测,得到所述视频的标签;所述视频分类模型是根据短视频数据集训练得到的;
其中,所述短视频数据集中的视频片段是对所述长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段得到的,所述视频片段的长度小于第二时长,所述视频的长度大于第一时长,所述第二时长不大于所述第一时长。
在一个可选的实施例中,下采样模块840,用于对所述视频按照预设频率进行时间维度的下采样,得到所述视频的抽样视频帧。
在一个可选的实施例中,预测模块880,用于调用所述视频分类模型对所述特征向量进行预测,得到所述视频属于每种标签的概率;当所述视频属于第i种标签的概率大于阈值时,将所述第i种标签确定为所述视频的标签。
本申请还提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条指令,至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的视频分类模型的训练方法或视频分类方法。需要说明的是,该计算机设备可以是如下图9所提供的计算机设备。
请参考图9,其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲:计算机设备900包括中央处理单元(CPU)901、包括随机存取存储器(RAM)902和只读存储器(ROM)903的系统存储器904,以及连接系统存储器904和中央处理单元901的系统总线905。计算机设备900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)906,和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。
基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。大容量存储设备907及其相关联的计算机可读介质为计算机设备900提供非易失性存储。也就是说,大容量存储设备907可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。
存储器存储有一个或多个程序,一个或多个程序被配置成由一个或多个中央处理单元901执行,一个或多个程序包含用于实现上述视频分类模型的训练方法或视频分类方法的指令,中央处理单元901执行该一个或多个程序实现上述各个方法实施例提供的视频分类模型的训练方法或视频分类方法。
根据本申请的各种实施例,计算机设备900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备900可以通过连接在系统总线905上的网络接口单元911连接到网络912,或者说,也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。
存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,一个或者一个以上程序包含用于进行本申请实施例提供的视频分类模型的训练方法或视频分类方法。
本申请实施例还提供一种计算机设备,该计算机设备包括存储器和处理器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并实现上述视频分类模型的训练方法或视频分类方法。
本申请实施例还提供一种计算机可读存储介质,该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述视频分类模型的训练方法或视频分类方法。
本申请还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述各个方法实施例提供的视频分类模型的训练方法或视频分类方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (11)

1.一种视频分类模型的训练方法,其特征在于,所述方法包括:
获取长视频数据集,所述长视频数据集包括视频和标签之间的对应关系,所述视频的视频长度大于第一时长;
对所述长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段,得到所述视频的至少两个视频片段,所述视频片段的视频长度小于第二时长,所述第二时长不大于所述第一时长;
将所述视频的至少两个视频片段和所述视频的标签进行组合,得到短视频数据集;
根据所述短视频数据集对分类模型进行训练,得到所述视频分类模型;
获取人工标注数据集,所述人工标注数据集包括样本视频片段和人工标注标签之间的对应关系;
对于所述人工标注数据集中的每个样本视频片段,采用二维卷积网络进行特征提取,得到所述样本视频片段对应的二维卷积特征;
将所述样本视频片段对应的二维卷积特征输入至所述视频分类模型,得到第二预测标签;
根据所述第二预测标签和所述样本视频片段对应的人工标注标签之间的误差,根据误差反向传播算法对所述视频分类模型进行微调训练,得到最终的所述视频分类模型。
2.根据权利要求1所述的方法,其特征在于,所述对所述长视频数据集中的视频进行时间维度的下采样,将采样得到的视频帧进行分段,得到所述视频的至少两个视频片段,包括:
对所述长视频数据集中的视频按照预设频率进行时间维度的下采样,得到所述视频的抽样视频帧序列;
对所述视频的抽样视频帧序列进行等分分段,得到所述视频的至少两个视频片段。
3.根据权利要求2所述的方法,其特征在于,所述对所述视频的抽样视频帧序列进行等分分段,得到所述视频的至少两个视频片段,包括:
在随机数区间中为所述长视频数据集中的视频随机选择一个随机数作为分组数量;
按照所述分组数量对所述视频的抽样视频帧序列进行等分分段,得到所述视频的至少两个视频片段。
4.根据权利要求1至3任一所述的方法,其特征在于,所述根据所述短视频数据集对分类模型进行训练,得到所述视频分类模型,包括:
对于所述短视频数据集中的每个视频片段,采用二维卷积网络进行特征提取,得到所述视频片段对应的二维卷积特征;
将所述视频片段对应的二维卷积特征输入至分类模型得到第一预测标签;
根据所述第一预测标签和所述视频片段对应的标签之间的误差,根据误差反向传播算法对所述分类模型进行训练,得到所述视频分类模型。
5.一种视频分类方法,其特征在于,所述方法包括:
获取待分类的短视频,所述短视频的长度小于第二时长;
对所述短视频进行时间维度的下采样,得到短视频的 抽样视频帧;
对所述短视频的抽样视频帧进行特征提取,得到所述短视频的特征向量;
调用视频分类模型对所述特征向量进行预测,得到所述短视频的标签;所述视频分类模型是根据短视频数据集训练得到的;
其中,所述短视频数据集中的视频片段是对长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段得到的,所述视频片段的长度小于第二时长,所述长视频数据集中的视频的长度大于第一时长,所述第二时长不大于所述第一时长;
其中,所述视频分类模型的训练方法包括:获取人工标注数据集,所述人工标注数据集包括样本视频片段和人工标注标签之间的对应关系;对于所述人工标注数据集中的每个样本视频片段,采用二维卷积网络进行特征提取,得到所述样本视频片段对应的二维卷积特征;将所述样本视频片段对应的二维卷积特征输入至所述视频分类模型,得到第二预测标签;根据所述第二预测标签和所述样本视频片段对应的人工标注标签之间的误差,根据误差反向传播算法对所述视频分类模型进行微调训练,得到最终的所述视频分类模型。
6.根据权利要求5所述的方法,其特征在于,所述对所述短视频进行时间维度的下采样,得到抽样视频帧,包括:
对所述短视频按照预设频率进行时间维度的下采样,得到所述短视频的抽样视频帧。
7.根据权利要求5所述的方法,其特征在于,所述调用视频分类模型对所述特征向量进行预测,得到所述短视频的标签,包括:
调用所述视频分类模型对所述特征向量进行预测,得到所述短视频属于每种标签的概率;
当所述短视频属于第i种标签的概率大于阈值时,将所述第i种标签确定为所述短视频的标签。
8.一种视频分类模型的训练装置,其特征在于,所述装置包括:
获取模块,用于获取长视频数据集,所述长视频数据集包括视频和标签之间的对应关系,所述视频的视频长度大于第一时长;
分段模块,用于对所述长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段,得到所述视频的至少两个视频片段,所述视频片段的视频长度小于第二时长,所述第二时长不大于所述第一时长;
组合模块,用于将所述视频的至少两个视频片段和所述视频的标签进行组合,得到短视频数据集;
训练模块,用于根据所述短视频数据集对分类模型进行训练,得到所述视频分类模型;
所述训练模块,还用于获取人工标注数据集,所述人工标注数据集包括样本视频片段和人工标注标签之间的对应关系;对于所述人工标注数据集中的每个样本视频片段,采用二维卷积网络进行特征提取,得到所述样本视频片段对应的二维卷积特征;将所述样本视频片段对应的二维卷积特征输入至所述视频分类模型,得到第二预测标签;根据所述第二预测标签和所述样本视频片段对应的人工标注标签之间的误差,根据误差反向传播算法对所述视频分类模型进行微调训练,得到最终的所述视频分类模型。
9.一种视频分类装置,其特征在于,所述装置包括:
获取模块,用于获取待分类的短视频,所述短视频的长度小于第二时长;
下采样模块,用于对所述短视频进行时间维度的下采样,得到所述短视频的抽样视频帧;
提取模块,用于对所述短视频的抽样视频帧进行特征提取,得到所述短视频的特征向量;
预测模块,用于调用视频分类模型对所述特征向量进行预测,得到所述短视频的标签;所述视频分类模型是根据短视频数据集训练得到的;
其中,所述短视频数据集中的视频片段是对长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段得到的,所述视频片段的长度小于第二时长,所述长视频数据集中的视频的长度大于第一时长,所述第二时长不大于所述第一时长;
其中,所述视频分类模型的训练方法包括:获取人工标注数据集,所述人工标注数据集包括样本视频片段和人工标注标签之间的对应关系;对于所述人工标注数据集中的每个样本视频片段,采用二维卷积网络进行特征提取,得到所述样本视频片段对应的二维卷积特征;将所述样本视频片段对应的二维卷积特征输入至所述视频分类模型,得到第二预测标签;根据所述第二预测标签和所述样本视频片段对应的人工标注标签之间的误差,根据误差反向传播算法对所述视频分类模型进行微调训练,得到最终的所述视频分类模型。
10.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上权利要求1至4任一所述的视频分类模型的训练方法,或,如上权利要求5至7任一所述的视频分类方法。
11.一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上权利要求1至4任一所述的视频分类模型的训练方法,或,如上权利要求5至7任一所述的视频分类方法。
CN201911026094.9A 2019-10-25 2019-10-25 视频分类模型的训练方法、视频分类方法、装置及设备 Active CN110751224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911026094.9A CN110751224B (zh) 2019-10-25 2019-10-25 视频分类模型的训练方法、视频分类方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911026094.9A CN110751224B (zh) 2019-10-25 2019-10-25 视频分类模型的训练方法、视频分类方法、装置及设备

Publications (2)

Publication Number Publication Date
CN110751224A CN110751224A (zh) 2020-02-04
CN110751224B true CN110751224B (zh) 2022-08-05

Family

ID=69280142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911026094.9A Active CN110751224B (zh) 2019-10-25 2019-10-25 视频分类模型的训练方法、视频分类方法、装置及设备

Country Status (1)

Country Link
CN (1) CN110751224B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111432138B (zh) * 2020-03-16 2022-04-26 Oppo广东移动通信有限公司 视频拼接方法及装置、计算机可读介质和电子设备
CN111444819B (zh) * 2020-03-24 2024-01-23 北京百度网讯科技有限公司 切割帧确定方法、网络训练方法、装置、设备及存储介质
CN111523566A (zh) * 2020-03-31 2020-08-11 易视腾科技股份有限公司 目标视频片段定位方法和装置
CN111444878B (zh) * 2020-04-09 2023-07-18 Oppo广东移动通信有限公司 一种视频分类方法、装置及计算机可读存储介质
CN111401474B (zh) * 2020-04-13 2023-09-08 Oppo广东移动通信有限公司 视频分类模型的训练方法、装置、设备及存储介质
CN111625661B (zh) * 2020-05-14 2023-09-08 国家计算机网络与信息安全管理中心 一种音视频片段分类方法及装置
CN111612093A (zh) * 2020-05-29 2020-09-01 Oppo广东移动通信有限公司 一种视频分类方法、视频分类装置、电子设备及存储介质
CN111626251A (zh) * 2020-06-02 2020-09-04 Oppo广东移动通信有限公司 一种视频分类方法、视频分类装置及电子设备
CN112307885A (zh) * 2020-08-21 2021-02-02 北京沃东天骏信息技术有限公司 模型构建及训练方法和装置、时序动作定位方法和装置
CN112261491B (zh) * 2020-12-22 2021-04-16 北京达佳互联信息技术有限公司 视频时序标注方法、装置、电子设备及存储介质
CN113038163B (zh) * 2021-03-26 2023-06-23 百果园技术(新加坡)有限公司 用户体验模型训练方法、短视频用户体验评估方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544498A (zh) * 2013-09-25 2014-01-29 华中科技大学 基于自适应抽样的视频内容检测方法与系统
CN107704840A (zh) * 2017-10-24 2018-02-16 汕头大学 一种基于深度学习的遥感图像道路检测方法
CN109800776A (zh) * 2017-11-17 2019-05-24 中兴通讯股份有限公司 素材标注方法、装置、终端和计算机可读存储介质
CN110147700A (zh) * 2018-05-18 2019-08-20 腾讯科技(深圳)有限公司 视频分类方法、装置、存储介质以及设备
CN110347872A (zh) * 2019-07-04 2019-10-18 腾讯科技(深圳)有限公司 视频封面图像提取方法及装置、存储介质及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8358837B2 (en) * 2008-05-01 2013-01-22 Yahoo! Inc. Apparatus and methods for detecting adult videos
US11024009B2 (en) * 2016-09-15 2021-06-01 Twitter, Inc. Super resolution using a generative adversarial network

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544498A (zh) * 2013-09-25 2014-01-29 华中科技大学 基于自适应抽样的视频内容检测方法与系统
CN107704840A (zh) * 2017-10-24 2018-02-16 汕头大学 一种基于深度学习的遥感图像道路检测方法
CN109800776A (zh) * 2017-11-17 2019-05-24 中兴通讯股份有限公司 素材标注方法、装置、终端和计算机可读存储介质
CN110147700A (zh) * 2018-05-18 2019-08-20 腾讯科技(深圳)有限公司 视频分类方法、装置、存储介质以及设备
CN110347872A (zh) * 2019-07-04 2019-10-18 腾讯科技(深圳)有限公司 视频封面图像提取方法及装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN110751224A (zh) 2020-02-04

Similar Documents

Publication Publication Date Title
CN110751224B (zh) 视频分类模型的训练方法、视频分类方法、装置及设备
CN110781960B (zh) 视频分类模型的训练方法、分类方法、装置及设备
EP3933686A2 (en) Video processing method, apparatus, electronic device, storage medium, and program product
CN108537119B (zh) 一种小样本视频识别方法
CN112559800B (zh) 用于处理视频的方法、装置、电子设备、介质和产品
CN112231275A (zh) 多媒体文件分类、信息处理与模型训练方法、系统及设备
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN107864405B (zh) 一种收视行为类型的预测方法、装置及计算机可读介质
US20220172476A1 (en) Video similarity detection method, apparatus, and device
CN111209431A (zh) 一种视频搜索方法、装置、设备及介质
CN114494981A (zh) 一种基于多层次运动建模的动作视频分类方法及系统
CN104580109A (zh) 生成点选验证码的方法及装置
CN111444364B (zh) 一种图像检测方法和装置
CN113010785A (zh) 用户推荐方法及设备
CN111539390A (zh) 一种基于Yolov3的小目标图像识别方法、设备和系统
CN113361462B (zh) 视频处理和字幕检测模型的方法及装置
CN114666656A (zh) 视频剪辑方法、装置、电子设备及计算机可读介质
CN115063858A (zh) 视频人脸表情识别模型训练方法、装置、设备及存储介质
CN114842411A (zh) 一种基于互补时空信息建模的群体行为识别方法
CN111860222A (zh) 基于稠密-分段式帧采样的视频行为识别方法、系统、计算机设备和存储介质
CN111538914A (zh) 地址信息的处理方法和装置
CN115205555B (zh) 确定相似图像的方法、训练方法、信息确定方法及设备
CN114630185B (zh) 一种目标用户识别方法、装置、电子设备和存储介质
CN113408530B (zh) 一种图像识别方法、装置、设备以及存储介质
CN113283394B (zh) 一种融合上下文信息的行人重识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant