CN111931856A

CN111931856A - 视频分类方法和装置、电子设备和存储介质

Info

Publication number: CN111931856A
Application number: CN202010817697.7A
Authority: CN
Inventors: 刘求索
Original assignee: Shenzhen Inveno Technology Co ltd
Current assignee: Shenzhen Inveno Technology Co ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-11-13

Abstract

一种视频分类方法和装置、电子设备和存储介质，包括：获取待分类视频；从所述待分类视频中抽取用于识别的目标帧图像；对所述目标帧图像进行至少一种特征向量的提取；将所述至少一种特征向量进行融合，并根据融合后的向量确定所述待分类视频的类别，有效提高视频类别识别的准确性。

Description

视频分类方法和装置、电子设备和存储介质

技术领域

本发明涉及计算机视觉技术领域，具体涉及视频分类方法和装置、电子设备和存储介质。

背景技术

随着互联网应用的普及，网络上的视频存储量呈爆发式增长，用户要想从海量视频数据中寻找到希望看到的视频，则需要通过分类标签进行检索。因此，如何准确的将视频进行标签分类，成为亟待解决的问题。

发明内容

本申请提供一种视频分类方法和装置、电子设备和存储介质，有效提高视频类别识别的准确性。

根据第一方面，一种实施例中提供一种视频分类方法，包括以下步骤：获取待分类视频；从所述待分类视频中抽取用于识别的目标帧图像；对所述目标帧图像进行至少一种特征向量的提取；将所述至少一种特征向量进行融合，并根据融合后的向量确定所述待分类视频的类别。

在一些实施例中，在所述获取待分类视频之后，还包括：识别所述待分类视频长度大于预设长度；按照预设间隔提取多个第一图像，并计算相邻两个所述第一图像的第一相似度以生成相似度列表；以预设长度的窗口扫描所述相似度列表，将所述窗口内的所述第一相似度累加，得到第二相似度；将所述第二相似度最低的窗口的中心点作为候选点，并按照所述候选点对所述待分类视频进行分割，获取目标视频段。

在一些实施例中，所述将所述第二相似度最低的窗口的中心点作为候选点，并按照所述候选点对所述待分类视频进行分割，包括：根据所述第二相似度的预设顺序遍历所述候选点；若相邻两个所述候选点在所述待分类视频中的时间间隔小于预设时长，则保留所述第二相似度较大的所述候选点；若相邻连个所述候选点在所述待分类视频中的时间间隔大于或等于所述预设时长，则保留两个所述候选点。

在一些实施例中，所述从所述待分类视频中抽取用于识别的目标帧图像，包括：对所述目标视频段进行平均间隔抽取，获取第一类型帧图像；对所述第一类型帧图像进行平均间隔抽取，获取第二类型帧图像。

在一些实施例中，所述对所述目标帧图像进行至少一种特征向量的提取，包括：利用膨胀三维卷积网络从所述第一类型帧图像提取动作向量；利用深度残差网络从所述第二类型帧图像提取背景向量；以及利用深度人脸识别模型从所述第二类型帧图形提取人脸向量。

在一些实施例中，所述将所述至少一种特征向量进行融合，并根据融合后的向量确定所述待分类视频的类别，包括：分别计算所述动作向量、所述背景向量和所述人脸向量的有效性系数；利用所述有效性系数分别确定所述动作向量、所述背景向量和所述人脸向量的权重；利用所述动作向量、所述背景向量和所述人脸向量的所述权重，将所述动作向量、所述背景向量和所述人脸向量进行融合。

在一些实施例中，获取所述待分类视频中时长最长的所述目标视频段，将所述目标视频段的类别作为所述待分类视频的类别；或者获取所述待分类视频中多个所述目标视频段的类别，将包含所述目标视频段最多的类别作为所述待分类视频的类别。

根据第二方面，一种实施例中提供一种视频分类装置，包括：获取模块，用于获取待分类视频；抽取模块，用于从所述待分类视频中抽取用于识别的目标帧图像；提取模块，用于对所述目标帧图像进行至少一种特征向量的提取；融合模块，用于将所述至少一种特征向量进行融合，并根据融合后的向量确定所述待分类视频的类别。

根据第二方面，一种实施例中提供一种电子设备，包括：存储器，用于存储程序；处理器，用于通过执行所述存储器存储的程序以实现上述第一方面所述的方法。

根据第二方面，一种实施例中提供一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现上述第一方面所述的方法。

依据上述实施例的视频分类方法，能够有效提高对视频进行标注的速度和准确率，为后续的基于视频类别标签的操作提供有力的数据支持。

附图说明

图1为本申请一个实施例的视频分类方法的流程图；

图2为本申请另一个实施例的视频分类方法的流程图；

图3为本申请又一个实施例的视频分类方法的流程图；

图4为本申请一个实施例的视频分类装置的方框示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

在视频推荐领域，为了进行视频推荐与分发，需要根据视频所属的类别标签制作反向索引，当需要根据类别标签进行推荐时，则对属于该类别标签的视频进行召回。在类别标签的涵盖意义很广时，会使得类别标签中包含过多的视频，此时，还需要对视频的召回条件进行限制，如果希望召回同时属于多个不同标签的视频，则需要多次匹配再取并集。

然而，相关技术中，由于视频通常具有一定的播放时间，每秒播放则需要播放多帧图像，若使用人工标注，则会有大量的人力缺口，或者，分类信息粒度太粗造成识别效果差、无法识别运动类别等问题。

因此，如果提高对视频进行准确的类别标签识别准确性，则能够大大降低召回的视频数据量，降低数据计算量，提高视频推荐的准确度，从而提升用户的体验。

基于此，本申请提出一种视频分类方法和装置、电子产品、存储介质。

下面结合附图来描述本申请提出的视频分类方法和装置、电子产品、存储介质。

图1为本申请实施例的视频分类方法的流程图。如图1所示，本申请实施例的视频分类方法，包括以下步骤：

步骤101，获取待分类视频。

需要说明的是，由于视频通常根据其内容、拍摄者或者上传者的不同具有不同的长度，因此，为了提高视频分类的准确度，还可在获取到待分类视频后对视频长度较长的视频进行分割，以便于减低视频分类粒度，从而提高视频识别的精度。

作为一个可行实施例，如图2所示，在获取待分类视频之后，还包括：

步骤201，识别待分类视频长度大于预设长度。

其中，预设长度可根据预设的视频分类粒度大小进行设置，例如在短视频领域可设置为5分钟，普通视频领域可设置为15分钟等。

步骤202，按照预设间隔提取多个第一图像，并计算相邻两个第一图像的第一相似度以生成相似度列表。

其中，预设间隔可根据视频分类粒度大小进行设置，在本实施例中，预设间隔为0.5s。

步骤203，以预设长度的窗口扫描相似度列表，将窗口内的第一相似度累加，得到第二相似度。

可选的，窗口的预设长度可为10s，即，每次累加20个第一图像的相似度。

步骤204，将第二相似度最低的窗口的中心点作为候选点，并按照候选点对待分类视频进行分割，获取目标视频段。

进一步地，为了防止过度分割，例如将较短的视频分割成多个碎片，还可对候选点进行合并。

可选的，可将时间间隔小于预设长度的候选点进行合并，其中，预设长度可为10分钟，例如，可按照第二相似度从小到大的顺序遍历候选点，若相邻两个候选点在待分类视频中播放时间间隔小于预设时长，则保留第二相似度较大的候选点，若相邻连个候选点在待分类视频中播放时间间隔大于预设时长，则保留两个候选点，直至遍历全部候选点。

步骤102，从待分类视频中抽取用于识别的目标帧图像。

作为一个可行实施例，从待分类视频中抽取用于识别的目标帧图像，包括：对待分类视频进行平均间隔抽取，获取第一类型帧图像，对第一类型帧图像进行平均间隔抽取，获取第二类型帧图像。

可选的，第一类型帧图像的个数可为64帧，第二类型帧图像的个数可为16帧，也就是说，对目标视频段的图像平均间隔的提取出64帧图像作为第一类型帧图像，然后对第二类型帧图像进行平均间隔的提取出16帧图像作为第二类型帧图像。

其中，当平均划分后帧数不足时，则需要对图像进行补足，即，将帧数补齐。具体地，采用floor函数对已经提取出的图像进行补齐，以使增加的帧均匀地分布在整个序列的各处。例如，如补为16帧，从[1，2，3，4，5，6，7]，补足成[1，1，1，2，2，3，3，4，4，4，5，5，6，6，7，7]，从[1，2，3，4，5，6，7，8，9，10]补足成[1，1，2，2，3，4，4，5，6，6，7，7，8，9，9，10]。

步骤103，对目标帧图像进行至少一种特征向量的提取。

作为一个可行实施例，对目标帧图像进行至少一种特征向量的提取，包括：利用膨胀三维卷积网络对第一类型帧图像提取动作向量；利用深度残差网络对第二类型帧图像提取背景向量；以及利用深度人脸识别模型对第二类型帧图形提取人脸向量。

具体地，可将64帧第一类型帧图像输入至膨胀三维卷积网络(Inflated 3DConvolution network，I3D)，并从网络的最后一个特征层中提取1024×8维特征，作为动作向量，将16帧第二类型帧图像输入至深度残差网络(deep residual network，resnet)，并从网络的最后一个特征层中提取2048×16维特征，作为背景向量，以及将16帧第二类型帧图像输入至深入人脸识别模型(AModel Using Additive Angular Margin Loss for DeepFace Recognition,ArcFace)，并从网络的最后一个特征层中提取128×N维特征，作为人脸向量。

其中，为了满足前述网络模型的输入尺寸，可提前对第一类型帧图像和第二类型帧图像进行缩放，具体地，第一类型帧图像可缩放至256×256，第二类型帧图像可缩放至224×224和320×320，其中，被缩放至224×224的第二类型帧图像输入至深度残差网络，被缩放至320×320的第二类型帧图像输入至深入人脸识别模型。

可选的，在将被缩放至320×320的第二类型帧图像输入至深入人脸识别模型之前，可先对被缩放至320×320的第二类型帧图像使用Dlib库进行人脸检测、对其，并将结果缩放至112×112后再输入至深入人脸识别模型，其中，深入人脸识别模型，可谓使用附加角边缘损失的深入人脸识别模型。

步骤104，将至少一种特征向量进行融合，并根据融合后的向量确定待分类视频的类别。

作为一个可行实施例，如图3所示，将至少一种特征向量进行融合，并根据融合后的向量确定待分类视频的类别，包括：

步骤301，分别计算动作向量、背景向量和人脸向量的有效性系数。

其中，有效系数可各向量内部相似度的最大值的平均值，举例来说，可分别获取动作向量中8个向量的两两相似度，并获取每个向量与其他向量的相似度的最大值，将8个最大值求平均，则得到动作向量的有效系数α，以此类推，分别获取到背景向量和人脸向量的有效性系数β和γ。

步骤302，利用有效性系数确定动作向量、背景向量和人脸向量的权重。

其中，动作向量、背景向量和人脸向量的权重分别为a、b、c，而且，α/a＝β/b＝γ/c且α+β+γ＝1。

步骤303，利用动作向量、背景向量和人脸向量的权重，将动作向量、背景向量和人脸向量进行融合。

可选的，对呈1024×8维的动作向量在每行(共1024行)取最大值，得到一个1024维向量，对呈2048×16维的背景向量在每行(共2048行)取最大值，得到一个2048维向量，在对呈128×N维的人脸向量，先使用ChineseWhisper聚类方法进行聚类，获得数量最多的3组人脸向量然后对，然后对三组人脸向量求平均，获得一个128维向量。

分别对1024维向量、2048维向量和128维向量进行归一化处理，并分别乘以权重a、b、c，然后将得到的向量数据进行拼接融合，得到代表目标视频段的向量。

然后，对得到的目标视频段的向量已经训练好的训练模型进行识别，得到目标视频段的类别。

进一步地，由于待分类视频是由多个目标视频段组成，则获取待分类视频中时长最长的目标视频段，将目标视频段的类别作为待分类视频的类别；或者获取待分类视频中多个目标视频段的类别，将包含目标视频段最多的类别作为待分类视频的类别。

也就是说，可先判断每个目标视频段的长度，然后将长度最长的目标视频段的类别作为待分类视频的类别，也可以统计属于各类别的目标视频段的个数，将包含目标视频段最多的类别作为待分类视频的类别。

应当理解的是，获取到的待分类视频的类别即为该视频的所属类别标签，当待分类视频的多个目标视频段具有属于多个类别时，待分类视频也可具有多个类别标签，多个类别标签按照包含的目标视频段的个数排序。

还应当理解的是，在获取到待分类视频的类别标签后，可根据待分类视频的类别标签对待分类视频进行检索，或对其他未进行标注的视频进行标注等。

综上所述，本申请实施例的视频分类方法，能够有效提高对视频进行标注的速度和准确率，为后续的基于视频类别标签的操作提供有力的数据支持。

为实现上述发明目的，本申请还提出一种视频分类装置。

图4为本申请一个实施例的视频分类装置的方框示意图。如图4所示，视频分类装置10，包括：获取模块11、抽取模块12、提取模块13和融合模块14。

其中，获取模块11用于获取待分类视频；抽取模块12用于从所述待分类视频中抽取用于识别的目标帧图像；提取模块13用于对所述目标帧图像进行至少一种特征向量的提取；融合模块14用于将所述至少一种特征向量进行融合，并根据融合后的向量确定所述待分类视频的类别。

进一步地，获取模块11还用于：识别所述待分类视频长度大于预设长度；按照预设间隔提取多个第一图像，并计算相邻两个所述第一图像的第一相似度以生成相似度列表；以预设长度的窗口扫描所述相似度列表，将所述窗口内的所述第一相似度累加，得到第二相似度；将所述第二相似度最低的窗口的中心点作为候选点，并按照所述候选点对所述待分类视频进行分割，获取目标视频段。

进一步地，获取模块11还用于：根据所述第二相似度的预设顺序遍历所述候选点；若相邻两个所述候选点在所述待分类视频中的时间间隔小于预设时长，则保留所述第二相似度较大的所述候选点；若相邻连个所述候选点在所述待分类视频中的时间间隔大于或等于所述预设时长，则保留两个所述候选点。

进一步地，抽取模块12还用于：对所述目标视频段进行平均间隔抽取，获取第一类型帧图像；对所述第一类型帧图像进行平均间隔抽取，获取第二类型帧图像。

进一步地，提取模块13还用于：利用膨胀三维卷积网络从所述第一类型帧图像提取动作向量；利用深度残差网络从所述第二类型帧图像提取背景向量；以及利用深度人脸识别模型从所述第二类型帧图形提取人脸向量。

进一步地，融合模块14还用于：分别计算所述动作向量、所述背景向量和所述人脸向量的有效性系数；利用所述有效性系数分别确定所述动作向量、所述背景向量和所述人脸向量的权重；利用所述动作向量、所述背景向量和所述人脸向量的所述权重，将所述动作向量、所述背景向量和所述人脸向量进行融合。

进一步地，融合模块14还用于：获取所述待分类视频中时长最长的所述目标视频段，将所述目标视频段的类别作为所述待分类视频的类别；或者获取所述待分类视频中多个所述目标视频段的类别，将包含所述目标视频段最多的类别作为所述待分类视频的类别。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种视频分类方法，其特征在于，包括以下步骤：

获取待分类视频；

从所述待分类视频中抽取用于识别的目标帧图像；

对所述目标帧图像进行至少一种特征向量的提取；

将所述至少一种特征向量进行融合，并根据融合后的向量确定所述待分类视频的类别。

2.根据权利要求1所述的视频分类方法，其特征在于，在所述获取待分类视频之后，还包括：

识别所述待分类视频长度大于预设长度；

按照预设间隔提取多个第一图像，并计算相邻两个所述第一图像的第一相似度以生成相似度列表；

以预设长度的窗口扫描所述相似度列表，将所述窗口内的所述第一相似度累加，得到第二相似度；

将所述第二相似度最低的窗口的中心点作为候选点，并按照所述候选点对所述待分类视频进行分割，获取目标视频段。

3.根据权利要求2所述的视频分类方法，其特征在于，所述将所述第二相似度最低的窗口的中心点作为候选点，并按照所述候选点对所述待分类视频进行分割，包括：

根据所述第二相似度的预设顺序遍历所述候选点；

若相邻两个所述候选点在所述待分类视频中的时间间隔小于预设时长，则保留所述第二相似度较大的所述候选点；

若相邻连个所述候选点在所述待分类视频中的时间间隔大于或等于所述预设时长，则保留两个所述候选点。

4.根据权利要求2或3所述的视频分类方法，其特征在于，所述从所述待分类视频中抽取用于识别的目标帧图像，包括：

对所述目标视频段进行平均间隔抽取，获取第一类型帧图像；

对所述第一类型帧图像进行平均间隔抽取，获取第二类型帧图像。

5.根据权利要求4所述的视频分类方法，其特征在于，所述对所述目标帧图像进行至少一种特征向量的提取，包括：

利用膨胀三维卷积网络从所述第一类型帧图像提取动作向量；

利用深度残差网络从所述第二类型帧图像提取背景向量；以及

利用深度人脸识别模型从所述第二类型帧图形提取人脸向量。

6.根据权利要求5所述的视频分类方法，其特征在于，所述将所述至少一种特征向量进行融合，并根据融合后的向量确定所述待分类视频的类别，包括：

分别计算所述动作向量、所述背景向量和所述人脸向量的有效性系数；

利用所述有效性系数分别确定所述动作向量、所述背景向量和所述人脸向量的权重；

利用所述动作向量、所述背景向量和所述人脸向量的所述权重，将所述动作向量、所述背景向量和所述人脸向量进行融合。

7.根据权利要求6所述的视频分类方法，其特征在于，还包括：

获取所述待分类视频中时长最长的所述目标视频段，将所述目标视频段的类别作为所述待分类视频的类别；或者

获取所述待分类视频中多个所述目标视频段的类别，将包含所述目标视频段最多的类别作为所述待分类视频的类别。

8.一种视频分类装置，其特征在于，包括：

获取模块，用于获取待分类视频；

抽取模块，用于从所述待分类视频中抽取用于识别的目标帧图像；

提取模块，用于对所述目标帧图像进行至少一种特征向量的提取；

融合模块，用于将所述至少一种特征向量进行融合，并根据融合后的向量确定所述待分类视频的类别。

9.一种电子设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1-7中任一项所述的方法。