CN114817633A

CN114817633A - 视频分类方法、装置、设备及存储介质

Info

Publication number: CN114817633A
Application number: CN202210452355.9A
Authority: CN
Inventors: 徐鸣谦; 王晓宇; 顾明; 饶明佺; 刘倍余
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-07-29

Abstract

本发明公开了一种视频分类方法、装置、设备及存储介质，涉及视频处理技术领域，方法包括获取待分类视频；对待分类视频进行特征提取和特征融合，得到多模态特征；对多模态特征进行标签分类，得到一级分类标签和二级分类标签；将一级分类标签对应的分支标签与二级分类标签进行融合，得到融合后的分类特征；根据融合后的分类特征，进行与二级分类标签对应的类别预测，得到视频分类结果。本发明解决了现有技术中视频分类准确度较低的问题，实现了提高视频分类准确度的效果。

Description

视频分类方法、装置、设备及存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频分类方法、装置、设备及存储介质。

背景技术

如今，短视频行业快速发展，其中的难点之一是为每个短视频快速、准确地打上标签，好的短视频标签，对于用户的精准推荐具有非常大的帮助。基于AI(ArtificialIntelligence，人工智能)的自动打标签技术，是目前短视频产品中比较常用的方法，通常是对短视频进行分类后再打上对应类别的标签，实现自动打标签。但由于短视频的时间短、图像信息少、视频质量参差不齐等特点，想要更具体、更复杂的分类层次，以打上更精准的标签尚有较大难度。现有技术的短视频分类方法，存在无法利用多层标签之间的依赖关系和特征联系，导致短视频的分类结果可能存在误差，精确度较低的问题。

发明内容

本发明的主要目的在于：提供一种视频分类方法、装置、设备及存储介质，旨在解决现有技术中的视频分类方法存在准确度较低的技术问题。

为实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供了一种视频分类方法，所述方法包括：

获取待分类视频；

对所述待分类视频进行特征提取和特征融合，得到多模态特征；

对所述多模态特征进行标签分类，得到一级分类标签和二级分类标签；

将所述一级分类标签对应的分支标签与所述二级分类标签进行融合，得到融合后的分类特征；

根据所述融合后的分类特征，进行与所述二级分类标签对应的类别预测，得到视频分类结果。

可选地，上述视频分类方法中，所述待分类视频包括文本数据和视频数据；

所述对所述待分类视频进行特征提取和特征融合，得到多模态特征的步骤包括：

根据所述文本数据和所述视频数据，进行文本模态特征提取，获得文本特征；

根据所述视频数据，进行视频模态特征提取，获得视频特征；

根据所述文本特征和所述视频特征，进行特征融合，得到多模态特征。

可选地，上述视频分类方法中，所述根据所述文本数据和所述视频数据，进行文本模态特征提取，获得文本特征的步骤包括：

对所述视频数据进行文本识别，获得第一文本；

根据所述文本数据，确定第二文本；

对所述第一文本和所述第二文本进行文本模态特征提取，获得文本特征。

可选地，上述视频分类方法中，所述对所述视频数据进行文本识别，获得第一文本的步骤包括：

将所述视频数据输入多级联目标检测模型，得到文本目标框；所述多级联目标检测模型基于样本生成数据对区域生成网络进行训练获得；

根据所述文本目标框，对所述视频数据进行裁剪，得到文本图像；

将所述文本图像输入文本识别模型，得到第一文本；所述文本识别模型基于双向长短期记忆神经网络训练获得。

可选地，上述视频分类方法中，所述根据所述文本特征和所述视频特征，进行特征融合，得到多模态特征的步骤包括：

利用聚类算法对所述视频特征进行降维处理，得到降维后的视频特征；

对所述文本特征和所述降维后的视频特征进行特征融合，得到融合特征；

确定所述融合特征的权重值；

根据所述融合特征和所述融合特征的权重值，得到多模态特征。

可选地，上述视频分类方法中，所述对所述多模态特征进行标签分类，得到一级分类标签和二级分类标签的步骤包括：

在第一分类通道中，利用第一分类模型对所述多模态特征进行标签分类，得到一级分类标签；

在第二分类通道中，利用第二分类模型对所述多模态特征进行标签分类，得到二级分类标签；所述二级分类标签为所述一级分类标签的子领域。

可选地，上述视频分类方法中，所述根据所述融合后的分类特征，进行与所述二级分类标签对应的类别预测，得到视频分类结果的步骤包括：

将所述融合后的分类特征输入类别预测模型，得到视频分类结果；所述类别预测模型的类别分布与所述二级分类标签对应，所述类别预测模型的损失函数为：

L＝L₁+λL₂+βL_H，

L₁表示第一分类模型的损失函数，

其中，n表示所述多模态特征的数量，i∈n，j∈n，Y_ij表示第i行第j列输入数据基于所述第一分类模型的输出；

L₂表示第二分类模型的损失函数，

其中，Z_ij表示第i行第j列输入数据基于所述第二分类模型的输出；

L_H表示所述一级分类标签和所述二级分类标签的不匹配损失函数，

L_H＝max(0,Y_class2-Y_class1)，

其中，Y_class2-Y_class1表示所述二级分类标签与所述一级分类标签的匹配度；

λ和β均为常数。

第二方面，本发明提供了一种视频分类装置，所述装置包括：

视频获取模块，用于获取待分类视频；

特征获取模块，用于对所述待分类视频进行特征提取和特征融合，得到多模态特征；

多级分类模块，用于对所述多模态特征进行标签分类，得到一级分类标签和二级分类标签；

标签融合模块，用于将所述一级分类标签对应的分支标签与所述二级分类标签进行融合，得到融合后的分类特征；

类别预测模块，用于根据所述融合后的分类特征，进行与所述二级分类标签对应的类别预测，得到视频分类结果。

第三方面，本发明提供了一种视频分类设备，所述设备包括处理器和存储器，所述存储器中存储有视频分类程序，所述视频分类程序被所述处理器执行时，实现如上述的视频分类方法。

第四方面，本发明提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序可被一个或多个处理器执行，以实现如上述的视频分类方法。

本发明提供的上述一个或多个技术方案，可以具有如下优点或至少实现了如下技术效果：

本发明提出的一种视频分类方法、装置、设备及存储介质，通过对获取到的待分类视频进行特征提取和特征融合，得到多模态特征，再对该多模态特征进行标签分类，得到不同级的一级分类标签和二级分类标签，然后将一级分类标签对应的分支标签与二级分类标签进行融合，得到融合后的分类特征，最后根据融合后的分类特征，进行与二级分类标签对应的类别预测，得到视频分类结果，实现了对视频进行多层次标签分类的目的。本发明可以更好地融合不同级标签的特征，输出最终的分类结果，提高了视频分类的准确度，可用于短视频产品中，根据得到的视频分类结果为用户推送更为准确的短视频，提升用户的使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的这些附图获得其他的附图。

图1为本发明视频分类方法第一实施例的流程示意图；

图2为本发明涉及的视频分类设备的硬件结构示意图；

图3为本发明视频分类方法第一实施例的步骤S211.1中样本生成数据的示例；

图4为本发明视频分类装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，在本发明中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。另外，在本发明中，若有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

在本发明中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。另外，各个实施例的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

如今，短视频行业快速发展，其中的难点之一是为每个短视频快速、准确地打上标签，好的短视频标签，对于用户的精准推荐具有非常大的帮助。传统的人工运营的方式给UGC(User Generated Content，用户原创内容)短视频分类打标签，会耗费大量的人力和时间成本。因此，出现了基于AI(Artificial Intelligence，人工智能)的自动打标签技术，也是目前短视频产品中比较常用的方法。

对现有技术的分析发现，通常，UGC短视频的标签都是单一的标签，如果只是单一的类别，并不能做好后续的推荐工作。同时，由于短视频的时间短、图像信息少、视频质量参差不齐等特点，想要更具体、更复杂的分类层次是有难度的，比如，同样是美食的标签，想要识别出具体是什么美食，同样是舞蹈，想要识别是什么类型的舞蹈等这类深层次标签的分类。因此，现有技术的短视频分类方法，无法利用起来多层标签之间的依赖关系和特征联系，导致短视频的分类结果可能存在误差，精确度较低。

目前，为短视频自动打标签的分类方式主要分为两种，一种是基于文字的视频语义分类，一种是基于图片的视频理解分类。对于一些文不对题的短视频，可以进行多模态的分类。现有技术中的视频分类方法，尤其是多模态分类方法，先分别对多模态进行特征提取，再进行多模态特征融合。但还存在一些问题，比如：

1.对于文字模态的文字特征提取，用word2vec来构建词嵌入矩阵，再根据具体的词去查找表中找到对应的词向量，存在的问题是，提取到的词向量是静态的，对于在不同句子中的相同的字其词向量也是一样的，没有考虑句子的整体语境，也没有考虑词序信息。

2.对于视频模态的视频特征提取，利用卷积神经网络(CNN，ConvolutionalNeural Networks)，对视频间隔采样T帧图像，提取视频特征，然后将T维降为1维的特征，比如直接平均降维，再与文字特征融合，存在的问题是，没有考虑到多帧的重要程度，可能会把一些无关帧的信息也融合了。

3.对于多模态特征的融合，直接把不同模态的特征给拼接起来，作为分类器的输入数据，存在的问题是，在文不对提的情况下，很难识别样本，对这些多模态特征是一视同仁的，但有些场景中文字特征更重要，有些场景中则图像特征更重要，因此处理不了模态偏差样本，很难实现较为准确的多模态的分类。

4.在文字模态上，UGC短视频的文字介绍都很少，内容描述信息不丰富，有时还会出现不足以支撑深度学习算法的训练条件的情况。

鉴于现有技术中视频分类方法存在准确度较低的技术问题，本发明提供了一种视频分类方法，总体思路如下：

获取待分类视频；

通过上述技术方案，对获取到的待分类视频进行特征提取和特征融合，得到多模态特征，再对该多模态特征进行标签分类，得到不同级的一级分类标签和二级分类标签，然后将一级分类标签对应的分支标签与二级分类标签进行融合，得到融合后的分类特征，最后根据融合后的分类特征，进行与二级分类标签对应的类别预测，得到视频分类结果，实现了对视频进行多层次标签分类的目的。本发明可以更好地融合不同级标签的特征，输出最终的分类结果，提高了视频分类的准确度，可用于短视频产品中，根据得到的视频分类结果为用户推送更为准确的短视频，提升用户的使用体验。

下面结合附图，通过具体的实施例和实施方式对本发明提供的视频分类方法、装置、设备及存储介质进行详细说明。

实施例一

参照图1的流程示意图，提出本发明视频分类方法的第一实施例，该视频分类方法应用于视频分类设备。

所述视频分类设备是指能够实现网络连接的终端设备或网络设备，所述视频分类设备可以是手机、电脑、平板电脑、嵌入式工控机等终端设备，也可以是服务器、云平台等网络设备。

如图2所示，为视频分类设备的硬件结构示意图。所述视频分类设备可以包括：处理器1001，例如CPU(Central Processing Unit，中央处理器)，通信总线1002，用户接口1003，网络接口1004，存储器1005。

本领域技术人员可以理解，图2中示出的硬件结构并不构成对本发明视频分类设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

具体的，通信总线1002用于实现这些组件之间的连接通信；

用户接口1003用于连接客户端，与客户端进行数据通信，用户接口1003可以包括输出单元，如显示屏、输入单元，如键盘，可选的，用户接口1003还可以包括其他输入/输出接口，比如标准的有线接口、无线接口；

网络接口1004用于连接后台服务器，与后台服务器进行数据通信，网络接口1004可以包括输入/输出接口，比如标准的有线接口、无线接口，如Wi-Fi接口；

存储器1005用于存储各种类型的数据，这些数据例如可以包括该视频分类设备中任何应用程序或方法的指令，以及应用程序相关的数据，存储器1005可以是高速RAM存储器，也可以是稳定的存储器，例如磁盘存储器，可选的，存储器1005还可以是独立于所述处理器1001的存储装置；

具体的，继续参照图2，存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频分类程序，其中，网络通信模块主要用于连接服务器，与服务器进行数据通信；

处理器1001用于调用存储器1005中存储的视频分类程序，并执行以下操作：

获取待分类视频；

基于上述的视频分类设备，下面结合图1所示的流程示意图，对本实施例的视频分类方法进行详细描述。

所述方法可以包括以下步骤：

步骤S100：获取待分类视频。

具体的，所述待分类视频可以包括文本数据和视频数据。

待分类视频可以是UGC短视频，也可以是普通视频，具体是包括有多种模态数据的视频数据，比如，可以是包括视频、音频、图像和文字等等多个模态的数据，但视频数据是其中必须的，以使该方法可以应用于各种视频推荐程序或在线视频观看程序，尤其是可以给用户推送视频的应用程序。本实施例中，以仅包括文本数据和视频数据的待分类视频为例进行说明，比如，一个用户自行拍摄的画面并添加了描述性文字的视频。

步骤S200：对所述待分类视频进行特征提取和特征融合，得到多模态特征。

具体的，步骤S200可以包括：

步骤S210：根据所述文本数据和所述视频数据，进行文本模态特征提取，获得文本特征。

具体的，步骤S210包括：

步骤S211：对所述视频数据进行文本识别，获得第一文本。

具体对视频数据的帧图片进行文本识别，得到第一文本。也就是说，第一文本是待分类视频中视频画面内包含的文本，例如，拍摄有路标的某个画面中，该路标上的文字即为该步骤得到的第一文本。

进一步地，步骤S211可以包括：

步骤S211.1：将所述视频数据输入多级联目标检测模型，得到文本目标框；所述多级联目标检测模型基于样本生成数据对区域生成网络进行训练获得。

具体的，在执行该步骤之前，需要先训练得到多级联目标检测模型。多级联目标检测模型的训练过程，可以分为三个阶段，第一，利用样本生成算法获取样本生成数据；第二，对样本生成数据进行文本区域框选，得到ROI(Region of Interest，感兴趣区域)；第三，根据ROI，进行多级联的RPN(RegionProposal Network，区域生成网络)训练，得到最终候选框以及对应的目标检测模型，即得到最终训练好的多级联目标检测模型。

在第一阶段中，可以用样本生成算法来生成不同字体、不同背景、不同大小的千万级别的文字图片即样本生成数据，将其作为多级联目标检测模型的训练数据集。与常规的对现有场景文字图片进行切割的方式不同，此处是采用生成样本的方式来得到训练数据，比如，对于包含数字、字母和中文等不同符号的6000多个字符，进行随机组合，组合的字符串中字符个数从2～15不等。对于组合得到的字符串，还可以在预设的字体如常用的26个字体中选择不同字体包，在预设的字号如常用的20～50种字号中选择不同文字大小，以及在预设的颜色如常用的100种颜色和随机数构成的RGB分量的组合中选择不同文字颜色，再结合不同的文字方向，不同的背景图片上的任意随机位置等等限制，构成符合定义的属性的文字图片。为了鲁棒性考虑，还可以设置不同范围的边界阈值，可以是时间阈值或数量阈值，比如，在1分钟内生成的文字图片，又比如生成的500万个文字图片等等，以模拟带有文字的视频帧图片为目的，生成大量的不同的样本数据。如图3所示为样本生成数据的示例。

该样本生成的方法可以增加后续训练目标检测模型的训练效率和训练时间，尽快得到可以直接使用的训练好的目标检测模型。与在现有视频中截取文字图片的方法相比，可以组合上万种预测较差的文字，还可以基于现有模型的基础上做强化训练，从而提高目标检测模型的准确度。通过样本生成算法，可以快速扩增训练样本至千万级别，增加了训练样本的多样性和泛化性。

在第二阶段中，可以针对上述生成的样本生成数据，按照之前随机选择好的相应位置裁切出文字所在位置的图片，也可以采用分割的方式对上述生成的样本生成数据进行文字区域预测，得到文字图片。

采用分割的方式对样本生成数据进行预测，先用基于resnet50-FPN(ResNet，残差神经网络；Feature Pyramid Networks，特征金字塔网络)的神经网络模型对样本生成数据进行特征提取，得到不同尺度下的文字图片，再用RPN(RegionProposal Network，区域生成网络)提取出文字图片的ROI(Region of Interest，感兴趣区域)，其中，对于anchor(锚)小的框映射回大尺度的featuremap(卷积输出)上，对于anchor大的框映射回小尺度的featuremap上，使得在小样本检测上有更好的效果。

在第三阶段中，由于传统的RPN在进行目标检测训练时，会根据IOU(Intersection-over-Union，交并比)阈值对所有候选框进行一个正负样本的选择，这个设定其实是一个由粗到精的筛的过程。但在推理阶段，是没有这个筛选过程的，这就会导致一些阈值比较低但是是正样本的目标可能检测不出来。因此，此处采用多级联的目标检测模型。比如，采用三个级联层。

具体对RPN的根据anchor框(锚框)和GT框(ground truth box)得到的IOU，对应进行训练，具体可以分为多个训练阶段；首先，将IOU阈值设为0.5，即大于0.5为正样本，小于0.5为负样本，通过1*1的卷积核训练得到微调后的候选框，作为下一训练阶段的输入；然后，再将IOU阈值设为0.6，同样选择正负样本作为下一个阶段的输入；按此方法，依次迭代，以当前阶段的输出作为下一阶段的输入，阈值也依次提高0.1个点。直到最后一个训练阶段的输出，得到最终的候选框和对应的目标检测模型。

采用级联的多阶段目标检测对候选框进行多阶段预测，前一个阶段的输出结果作为下一个阶段的训练输入，并且每一个阶段的IOU阈值会逐级提高，可以训练更加精确的候选框。

具体的，按上述训练方法训练得到多级联目标检测模型后，根据步骤S100获取到的待分类视频，将其输入该多级联目标检测模型，可得到该待分类视频的图像帧所对应的ROI，即得到文本目标框。

步骤S211.2：根据所述文本目标框，对所述视频数据进行裁剪，得到文本图像。

具体的，得到该待分类视频的图像帧所对应的ROI后，可以通过ROI Align算法对其进行处理，将特征统一到相同的尺度上，即可将多个ROI同时给到检测头做文本检测，在得到检测框后，可以对内部的所有像素做二值分类，即预测出前景和背景，其中，前景的类别在后续可以通过分类器分支进行类别预测。还可以基于该分割结果，接一个最小外接矩形框，这个矩形框即为本实施例最终的文本目标框，即所述文本图像。

用像素级别的文字检测代替基于传统的anchor文字检测，再对分割得到的结果接一个最小外接矩形框，这个框即为我们最终的文本检测目标框，对于小样本和距离很近的文字样本有极大的提升。

步骤S211.3：将所述文本图像输入文本识别模型，得到第一文本；所述文本识别模型基于双向长短期记忆神经网络训练获得。

对得到的文本图像，用CNN(Convolutional Neural Networks，卷积神经网络)和LSTM(Long Short-Term Memory，长短期记忆人工神经网络)构成为文本识别模型进行图像特征的提取。其中，LSTM是为了更好的提取图像的序列特征，CNN和LSTM结合的方式，相比于普通的RNN(Recurrent Neural Network，循环神经网络)和LSTM的方式，通过记忆门和遗忘门能够更好的提取更长序列之间的特征相关性。由于文字信息是一种有顺序结构的上下文序列，因此此处的文本识别模型中可以设置两层解码方向相反的LSTM，用来更好的提取出文字信息的上下文信息。该文本识别模型的输出是T*N特征维度的矩阵，其中，T是序列长度，N是需识别的字符个数，包含空白符，这个矩阵通过Softmax(逻辑回归)后验概率矩阵(N*T)，可以得到每个字符的预测结果。由于这个T是比标签字符个数要大的，考虑到输入和输出没有严格的对应关系，这里还可以用CTC-loss(Connectionist TemporalClassification，时序分类算法)来解决输入序列和输出序列难以一一对应的问题，最后通过对输出结果删除连续的字符可得到标签的路径求和，求其最大的概率和，即为该文本识别模型的训练目标。基于此，可以得到训练好的文本识别模型。本实施例中，将得到的文本图像输入文本识别模型后，对包含字幕和视频场景文字等文本进行识别，可得到第一文本。

基于双向长短期记忆神经网络训练获得的文本识别模型，可以提取更长的时序特征，并且在从前往后特征提取的基础上融合了从后往前依次编码的文字特征，使得模型可以更好的捕捉双向的语义依赖。

为了进一步说明步骤S211的文本识别准确率效果，进行了三个文本识别的对比例试验，具体通过获取任意测试集对该文本识别模型进行测试，分别以人为标注的1万个样本、自动生成的1万个样本和按步骤S211.1～S211.3的方式自动生成的500万个样本为文本识别模型的输入，以对应得到的文本进行准确率计算，得到下表1所示的效果对比：

表1

对比例序号	对比例的区别	准确率
			对比例一	人为标注的1万个样本	51％
对比例二	自动生成的1万个样本	64％
			对比例三	自动生成的500万个样本	94％

由表1的数据可以看出，本实施例的文本识别模型的文字识别准确率高达94％，进一步说明了采用样本生成算法得到的样本生成数据对模型进行训练后，利用训练获得的多级联目标检测模型和训练获得的文本识别模型对待分类视频的视频数据进行文本识别，确实可以提高文本识别的准确度，并且，还与具体采用的样本数量具有较大关系。

步骤S212：根据所述文本数据，确定第二文本。

具体的，对于包含文本数据和视频数据的待分类视频，对该视频的描述性文字作为第二文本，该描述性文字可以是用户输入的文字。

步骤S213：对所述第一文本和所述第二文本进行文本模态特征提取，获得文本特征。

具体的，将步骤S211识别出的第一文本和步骤S212确定的第二文本一起作为文本模态特征提取的样本，用BERT(BidirectionalEncoderRepresentationsfromTransformers，基于转换器的双向编码表征)模型提取文字特征，并在此基础上进行微调。其中，对经过BERT的[CLS]序列处得到的输出，接两个全连接(FC)层训练文本分类器，当模型开始收敛并且损失趋于平稳的时候，使用第一个输入符号CLS的输出作为文字样本的表征，此时的模型即可作为文本模态特征提取的提取器。该提取器可以采用12层编码网络，12个注意力头，每层的网络通道有768个，对应地，得到的文本特征为1*768维的矩阵。

采用BERT对文本特征进行提取，代替传统的word2vec提取词向量的方式，有以下几个优点：1)提取的特征是动态的，相同的词汇所在句子的变化表示的向量也会对应改变；2)引入了位置编码的输入词向量，将词序信息也融合进了得到的文本特征中；3)利用了句子粒度的信息，将句子顺序也融合进了文本特征，实现了对整段文本的更好表征。

步骤S220：根据所述视频数据，进行视频模态特征提取，获得视频特征。

具体的，在进行步骤S210的同时，还可以对待分类视频的视频数据进行视频模态特征提取，具体对该视频的帧图像进行特征提取。比如，对于一个UGC短视频，可以每隔1s提取一张图片，假设一个UGC视频共提取出128帧图像，对这128帧图像可以用resnet50模型进行图像特征提取，最终得到的视频特征为128*2048维的矩阵。

步骤S230：根据所述文本特征和所述视频特征，进行特征融合，得到多模态特征。

具体的，步骤S230可以包括：

步骤S231：利用聚类算法对所述视频特征进行降维处理，得到降维后的视频特征。

具体的，要对多模态的特征数据进行融合，即此处要将视频特征与文本特征进行融合，但视频特征的维度过大，是文字特征的341倍，因此，此处还需要对视频特征进行进一步的特征提取，实现降维。

对于128帧图像对应的视频特征，也就是步骤S220得到的视频特征，可以用k-means聚类算法对每个维度的图像进行聚类，得到16个聚类中心，用所有的样本分别对每个聚类中心求残差，由于会存在一些帧对视频的贡献大，一些帧的贡献小的情况，因此，此处对于每个聚类中心，还可以对每个残差和求权重，来表征该聚类下对全局特征上下文的影响。最终对于每个聚类中心，就得到了一个加权和，加权公式如下：

对于a(x)的权重，用一个全连接和Softmax训练得到，Softmax激活函数用于把输出映射到0～1之间。从而能够表征出不同的帧序列对于该视频的重要性权重。根据上述方法进行降维后，可以得到16*2048维度的视频特征。又由于相比于文字特征的768维，视频特征维度还是较多，因此，还可以再连接一个全连接，将视频特征继续降维成1*2048维的矩阵。此时，降维后的视频特征对于步骤S213得到的文本特征，大概是三倍不到的维度数，相对来说，已属于比较合理的范围，可以进行后续操作。需要说明，在实际实施时，降维处理的全连接数量可以以方便后续进行文本特征和视频特征的融合为目的，根据实际情况具体设定。

对得到的视频特征进行聚类融合，对于每个视频提取出来的128帧样本，通过k-means聚类得到每个聚类中心的向量表示，再将这些所有的帧样本赋予不同的权重信息，并加权求和得到一个1维的数值，对应可以设置多个聚类中心来丰富视频的表达。

步骤S232：对所述文本特征和所述降维后的视频特征进行特征融合，得到融合特征。

具体的，可以将文本特征和降维后的视频特征，通过concate(直接拼接)的方式进行特征融合，得到融合特征。本实施例中，将步骤S210得到的768维的文本特征和步骤S231得到的2048维的视频特征，通过concate(直接拼接)的方式融合在一起，能够得到2816维的融合特征。

步骤S233：确定所述融合特征的权重值。

如果直接拿融合特征进行视频分类，此时是对这些多模态特征一视同仁的，对于某些场景中文字特征更重要，或是图像特征更重要的情况，便可能会存在分类效果不好。因此，此处可以先对融合特征计算其中各个模态对于该视频的重要性程度，即权重值，比如采用通道权重的方式，对这2816维通道分别求得一个0～1的权重。

步骤S234：根据所述融合特征和所述融合特征的权重值，得到多模态特征。

具体的，将步骤S233求得的权重和原融合特征相乘，可以得到新权重及包含新权重的多模态特征。具体可以用2个FC分类器训练得到1*2816维的输出。为了更好的特征提取，对于第一个FC分类器设置输出为4096维，第二个FC分类器设置输出为2048维，因此可以和通道数对应起来，对于每个输出的特征再用sigmoid激活函数映射到0～1之间，求得新权重，并对应得到包含权重的多模态特征。

通过多模态特征加权，对于融合特征在每个通道维度都求一个0～1的一个权重，将原特征分别和对应位置的权重相乘，得到对于不同模态特征重要性重新加权过后的新的多模态融合特征。可以更好地表征不同模态对于该待分类视频的重要程度，尤其适用于那种文不对题的待分类视频，有很大的分类准确度提升效果。

步骤S300：对所述多模态特征进行标签分类，得到一级分类标签和二级分类标签。

具体的，可以先建立预设多分类通道，所述预设多分类通道包括至少两个分类通道，通过该预设多分类通道同时进行标签分类，得到多级分类标签，也就是将多模态特征分别输入多个分类通道，从而输出多级别的分类标签。对应的，多级分类标签包括至少两级分类标签。需要说明，预设多分类通道和多级分类标签是对应的，在实际实施时，预设多分类通道和多级分类标签的数量还可以为三个或更多个。

本实施例中，以两个分类通道和对应的两级分类标签为例进行说明。其中，一级分类标签是对待分类视频的领域划分，比如体育、乐器、影视、纪实等等类别，二级分类标签为一级分类标签的子领域，是在一级分类标签的基础之上对视频的子领域划分，比如，体育类别下的篮球、足球等等子类别，又比如，乐器类别下的古筝、琵琶、三弦等等子类别。

在一种实施方式中，可以先预测二级分类标签，再根据一级分类标签和二级分类标签之间的对应关系获得一级分类标签。这样比现有的单独分开进行的标签预测要可靠很多。但这样直接对二级分类标签进行预测，仍然存在浪费一级分类标签信息的问题。因此，还可以有另一种实施方式。

在另一种实施方式中，步骤S300可以包括：

步骤S310：在第一分类通道中，利用第一分类模型对所述多模态特征进行标签分类，得到一级分类标签；

步骤S320：在第二分类通道中，利用第二分类模型对所述多模态特征进行标签分类，得到二级分类标签；所述二级分类标签为所述一级分类标签的子领域。

同时构建了第一分类通道和第二分类通道，在第一分类通道中，利用一个分类器对多模态特征进行一级标签的分类，得到具体的一级分类标签，比如体育标签；同时，在第二分类通道中，也利用一个分类器对多模态特征进行二级标签的分类，得到具体的二级分类标签，比如篮球标签。

具体的，对应于步骤S300的一种实施方式，先预测二级分类标签，再根据一级分类标签和二级分类标签之间的对应关系获得一级分类标签，从而可以得到待分类视频的一级分类类别，此时，可以将该类别直接确定为视频分类结果。具体为，在步骤S300通过多分类通道得到一级分类标签和二级分类标签后，还可以根据一级分类标签和二级分类标签之间的对应关系，将根据该二级分类标签对应确定的一级分类标签与通过步骤S300得到的一级分类标签进行对比，若一致，则可以得到待分类视频的一级分类类别，若不一致，则说明标签分类错误，可以返回步骤S300或更前的步骤，重新进行分类识别。

具体的，对应于步骤S300的另一种实施方式，可以继续执行后续步骤。

步骤S400：将所述一级分类标签对应的分支标签与所述二级分类标签进行融合，得到融合后的分类特征。

具体的，在得到一级分类标签和二级分类标签后，为了充分利用多级分类标签之间的依赖关系和特征联系，获取更精准的分类结果，可以将一级分类标签的分支上的标签特征和二级分类标签进行特征融合，得到融合后的分类特征。一级分类标签对应的分支标签与二级分类标签属于同级。

步骤S500：根据所述融合后的分类特征，进行与所述二级分类标签对应的类别预测，得到视频分类结果。

进一步地，步骤S500可以包括：

步骤S510：将所述融合后的分类特征输入类别预测模型，得到视频分类结果；所述类别预测模型的类别分布与所述二级分类标签对应，所述类别预测模型的损失函数为：

L＝L₁+λL₂+βL_H，

L₁表示第一分类模型的损失函数，

L₂表示第二分类模型的损失函数，

L_H＝max(0,Y_class2-Y_class1)，

λ和β均为常数。

通过该自适应的损失函数，结合第一分类模型的损失函数和第二分类模型的损失函数，能够隐形的学习一二级标签的依赖关系，相互促进，提高了分类精度。

具体实施时，可以用融合后的分类特征再接一个全连接预测二级分类标签的类别，得到该待分类视频的二级分类类别，此时，可以将该类别直接确定为视频分类结果。

这种提升二级标签分类的策略，针对融合后的多模态特征，同时构建了一级分类标签与二级分类标签各自的分类通道，将一级分类标签的分支上的特征和二级分类标签融合，最后再接一个全接连预测二级分类标签的类别，通过自适应的损失函数，结合第一分类模型的损失函数和第二分类模型的损失函数，能够隐形的学习一级分类标签与二级分类标签的依赖关系，能够相互促进，提高了分类精度。

为了更具体地体现本实施例的多种实施方式相比于现有技术的效果，对应进行试验，得到如下表2所示的准确率对比：

表2

由上表2可知，单独对视频特征进行分类的现有技术一，也就是前述的基于文字的视频语义分类方法，得到的分类结果准确度为76％；单独对文本特征进行分类的现有技术二，也就是前述的基于图片的视频理解分类方法，得到的分类结果准确度为81％；对视频特征和文本特征进行多模态特征融合的现有技术三，也就是前述的先分别对多模态进行特征提取，再进行多模态特征融合的多模态分类方法，得到的分类结果准确度为84.1％。

而在本实施例中，针对上述详细步骤可以组合的多种实施方式中，此处的三种实施方式具体为：

实施方式一、对S213的文本特征和S231的降维后的视频特征，直接利用第一分类模型或第二分类模型进行视频分类的方式，得到的分类结果准确度为86.6％；

实施方式二、对S213的文本特征，以及根据S231的降维后的视频特征通过步骤S234得到的多模态特征，直接利用第一分类模型或第二分类模型进行视频分类的方式，得到的分类结果准确度为90.7％；

实施方式三、对S213的文本特征，以及根据S231的降维后的视频特征通过步骤S234得到的多模态特征，按照步骤S310、S320、S400、S500依次执行的方式，得到的分类结果准确度为92.4％。

因此，可以看出，本实施例中的多种实施方式相比现有技术的分类准确度均有较大提高，而对所述多模态特征进行标签分类，得到一级分类标签和二级分类标签后，再根据所述一级分类标签和二级分类标签之间的对应关系，进行同级融合和类别预测，得到视频分类结果的方式，是效果最好的一种实施方式。

本实施例提供的视频分类方法，通过对获取到的待分类视频进行特征提取和特征融合，得到多模态特征，再对该多模态特征进行标签分类，得到不同级的一级分类标签和二级分类标签，然后将一级分类标签对应的分支标签与二级分类标签进行融合，得到融合后的分类特征，最后根据该融合后的分类特征，进行与二级分类标签对应的类别预测，得到视频分类结果，实现了对视频进行多层次标签分类的目的。本发明可以更好地融合不同级标签的特征，输出最终的分类结果，提高了视频分类的准确度，可用于短视频产品中，根据得到的视频分类结果为用户推送更为准确的短视频，提升用户的使用体验。

实施例二

基于同一发明构思，参照图4，提出本发明视频分类装置的第一实施例，该视频分类装置可以为虚拟装置，应用于视频分类设备。

下面结合图4所示的功能模块示意图，对本实施例提供的视频分类装置进行详细描述，所述装置可以包括：

视频获取模块，用于获取待分类视频；

进一步地，所述待分类视频包括文本数据和视频数据；对应的，特征获取模块可以包括：

文本特征获取子模块，用于根据所述文本数据和所述视频数据，进行文本模态特征提取，获得文本特征；

视频特征获取子模块，用于根据所述视频数据，进行视频模态特征提取，获得视频特征；

特征融合子模块，用于根据所述文本特征和所述视频特征，进行特征融合，得到多模态特征。

具体的，文本特征获取子模块可以包括：

第一文本单元，用于对所述视频数据进行文本识别，获得第一文本；

第二文本单元，用于根据所述文本数据，确定第二文本；

文本特征获取单元，用于对所述第一文本和所述第二文本进行文本模态特征提取，获得文本特征。

更进一步地，第一文本单元可以包括：

目标检测子单元，用于将所述视频数据输入多级联目标检测模型，得到文本目标框；所述多级联目标检测模型基于样本生成数据对区域生成网络进行训练获得；

文本图像子单元，用于根据所述文本目标框，对所述视频数据进行裁剪，得到文本图像；

文本识别子单元，用于将所述文本图像输入文本识别模型，得到第一文本；所述文本识别模型基于双向长短期记忆神经网络训练获得。

更进一步地，特征融合子模块可以包括：

特征降维单元，用于利用聚类算法对所述视频特征进行降维处理，得到降维后的视频特征；

特征融合单元，用于对所述文本特征和所述降维后的视频特征进行特征融合，得到融合特征；

权重确定单元，用于确定所述融合特征的权重值；

多模态特征单元，用于根据所述融合特征和所述融合特征的权重值，得到多模态特征。

进一步地，多级分类模块可以包括：

第一分类单元，用于在第一分类通道中，利用第一分类模型对所述多模态特征进行标签分类，得到一级分类标签；

第二分类单元，用于在第二分类通道中，利用第二分类模型对所述多模态特征进行标签分类，得到二级分类标签；所述二级分类标签为所述一级分类标签的子领域。

进一步地，类别预测模块具体用于：

L＝L₁+λL₂+βL_H，

L₁表示第一分类模型的损失函数，

L₂表示第二分类模型的损失函数，

L_H＝max(0,Y_class2-Y_class1)，

λ和β均为常数。

需要说明，本实施例提供的视频分类装置中各个模块可实现的功能和对应达到的技术效果可以参照本发明视频分类方法各个实施例中具体实施方式的描述，为了说明书的简洁，此处不再赘述。

实施例三

基于同一发明构思，参照图2，为本发明各实施例涉及的视频分类设备的硬件结构示意图。本实施例提供了一种视频分类设备，所述视频分类设备可以包括处理器和存储器，所述存储器中存储有视频分类程序，所述视频分类程序被所述处理器执行时，实现本发明视频分类方法各个实施例的全部或部分步骤。

具体的，所述视频分类设备是指能够实现网络连接的终端设备或网络设备，可以是手机、电脑、平板电脑、便携计算机等终端设备，也可以是服务器、云平台等网络设备。

可以理解，所述视频分类设备还可以包括通信总线，用户接口和网络接口。

其中，通信总线用于实现这些组件之间的连接通信。

用户接口用于连接客户端，与客户端进行数据通信，用户接口可以包括输出单元，如显示屏、输入单元，如键盘，可选的，用户接口还可以包括其他输入/输出接口，比如标准的有线接口、无线接口。

网络接口用于连接后台服务器，与后台服务器进行数据通信，网络接口可以包括输入/输出接口，比如标准的有线接口、无线接口，如Wi-Fi接口。

存储器用于存储各种类型的数据，这些数据例如可以包括该视频分类设备中任何应用程序或方法的指令，以及应用程序相关的数据。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random AccessMemory，简称SRAM)，随机存取存储器(Random Access Memory，简称RAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-OnlyMemory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘，可选的，存储器还可以是独立于所述处理器的存储装置。

处理器用于调用存储器中存储的视频分类程序，并执行如上述的视频分类方法，处理器可以是专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(DigitalSignal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件，用于执行如上述视频分类方法各个实施例的全部或部分步骤。

实施例四

基于同一发明构思，本实施例提供了一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁性存储器、磁盘、光盘、服务器等等，所述存储介质上存储有计算机程序，所述计算机程序可被一个或多个处理器执行，所述计算机程序被处理器执行时可以实现本发明视频分类方法各个实施例的全部或部分步骤。

需要说明，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的可选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均包括在本发明的专利保护范围内。

Claims

1.一种视频分类方法，其特征在于，所述方法包括：

获取待分类视频；

2.如权利要求1所述的视频分类方法，其特征在于，所述待分类视频包括文本数据和视频数据；

3.如权利要求2所述的视频分类方法，其特征在于，所述根据所述文本数据和所述视频数据，进行文本模态特征提取，获得文本特征的步骤包括：

对所述视频数据进行文本识别，获得第一文本；

根据所述文本数据，确定第二文本；

4.如权利要求3所述的视频分类方法，其特征在于，所述对所述视频数据进行文本识别，获得第一文本的步骤包括：

5.如权利要求2所述的视频分类方法，其特征在于，所述根据所述文本特征和所述视频特征，进行特征融合，得到多模态特征的步骤包括：

确定所述融合特征的权重值；

6.如权利要求1所述的视频分类方法，其特征在于，所述对所述多模态特征进行标签分类，得到一级分类标签和二级分类标签的步骤包括：

7.如权利要求1所述的视频分类方法，其特征在于，所述根据所述融合后的分类特征，进行与所述二级分类标签对应的类别预测，得到视频分类结果的步骤包括：

L＝L₁+λL₂+βL_H，

L₁表示第一分类模型的损失函数，

L₂表示第二分类模型的损失函数，

L_H＝max(0,Y_class2-Y_class1)，

λ和β均为常数。

8.一种视频分类装置，其特征在于，所述装置包括：

视频获取模块，用于获取待分类视频；

9.一种视频分类设备，其特征在于，所述设备包括处理器和存储器，所述存储器上存储有视频分类程序，所述视频分类程序被所述处理器执行时，实现如权利要求1至7中任一项所述的视频分类方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被一个或多个处理器执行时，实现如权利要求1至7中任一项所述的视频分类方法。