CN114661952A

CN114661952A - 视频分类方法、装置、设备、介质及产品

Info

Publication number: CN114661952A
Application number: CN202210331744.6A
Authority: CN
Inventors: 张学森
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-06-24

Abstract

本公开关于一种视频分类方法、装置、设备、介质及产品，涉及计算机技术领域，上述方法包括：基于分类网络生成一类视频的一类分类结果，并基于分类网络生成二类视频的二类分类结果；其中，一类视频属于第一视频集合，二类视频属于第二视频集合，第一视频集合的视频数量大于第二视频集合的视频数量；确定一类视频标签和一类分类结果之间的第一损失函数，并确定二类视频标签和二类分类结果之间的第二损失函数；基于第一损失函数和第二损失函数训练分类网络，并基于训练后的分类网络对待分类的目标二类视频进行分类。这样可以提升分类网络针对样本量较小的二类视频的分类精度。

Description

视频分类方法、装置、设备、介质及产品

技术领域

本公开涉及计算机技术领域，尤其涉及一种视频分类方法、视频分类装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

在视频/短视频平台中，通常会接收到用户、商家、媒体等各方上传的视频，对于接收到的海量视频，对其进行分类至关重要。对视频进行分类得到的分类结果可以有助于视频个性化推荐、在对应的分区展示相应的视频、根据视频的分类结果对用户喜好进行调研等。目前，对于视频的分类方式通常依赖的是分类网络，分类网络可以学习样本视频的图像帧、视频的文字描述等一个或多个维度的自身参数与其标签之间的关系。但是，当样本视频的数量比较少时，则容易导致网络的学习效果不好，从而导致网络对于视频的分类精度不高。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此，不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供一种视频分类方法、视频分类装置、电子设备、计算机可读存储介质及计算机程序产品，以至少解决用于进行视频分类的分类网络分类精度不高的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频分类方法，视频分类方法包括：

基于分类网络生成一类视频的一类分类结果，并基于分类网络生成二类视频的二类分类结果；其中，一类视频属于第一视频集合，二类视频属于第二视频集合，第一视频集合的视频数量大于第二视频集合的视频数量；

确定一类视频标签和一类分类结果之间的第一损失函数，并确定二类视频标签和二类分类结果之间的第二损失函数；

基于第一损失函数和第二损失函数训练分类网络，并基于训练后的分类网络对待分类的目标二类视频进行分类。

在一种可能的实现方式中，基于分类网络生成一类视频的一类分类结果，包括：

获取一类视频的一类图像和一类文本；

提取一类图像对应的一类图像特征以及一类文本对应的一类文本特征；

将一类图像特征和一类文本特征融合为一类视频特征；

将一类视频特征输入分类网络，得到一类分类结果。

在一种可能的实现方式中，获取一类视频的一类图像和一类文本，包括：

将一类视频的封面图像确定为一类图像；

获取一类视频中的视频文本并将一类视频对应的音频数据识别为音频文本；

将视频文本和音频文本融合为一类文本。

在一种可能的实现方式中，基于分类网络生成二类视频的二类分类结果，包括：

获取二类视频的二类图像和二类文本；

提取二类图像对应的二类图像特征以及二类文本对应的二类文本特征；

将二类图像特征和二类文本特征融合为二类视频特征；

将二类视频特征输入分类网络，得到二类分类结果。

在一种可能的实现方式中，获取二类视频的二类图像和二类文本，包括：

将二类视频的封面图像确定为二类图像；

获取二类视频中的视频文本并将二类视频对应的音频数据识别为音频文本；

将视频文本和音频文本融合为二类文本。

在一种可能的实现方式中，二类视频标签属于目标标签集合，基于训练后的分类网络对待分类的目标二类视频进行分类，包括：

根据训练后的分类网络对待分类的目标二类视频进行分类，得到目标二类视频对应的目标分类结果；其中，目标分类结果用于表征目标二类视频属于目标标签集合中各标签的概率。

在一种可能的实现方式中，根据训练后的分类网络对待分类的目标二类视频进行分类之后，视频分类方法还包括：

从目标分类结果中选取最高概率对应的目标标签；

确定目标标签对应的对象集群；

向对象集群中各对象推送目标二类视频。

在一种可能的实现方式中，基于分类网络生成一类视频的一类分类结果，并基于分类网络生成二类视频的二类分类结果，包括：

将一类视频和二类视频输入分布式的计算节点；

通过分布式的计算节点分别运行分类网络，以生成一类视频的一类分类结果和二类视频的二类分类结果；其中，一类分类结果和二类分类结果来自于不同的计算节点。

在一种可能的实现方式中，基于第一损失函数和第二损失函数训练分类网络，包括：

将第一损失函数和第二损失函数融合为目标损失函数；

根据目标损失函数调整分类网络对应的网络参数，直到目标损失函数收敛至预设范围内为止。

根据本公开实施例的第二方面，提供一种视频分类装置，视频分类装置包括：

分类结果生成单元，被配置于执行基于分类网络生成一类视频的一类分类结果，并基于分类网络生成二类视频的二类分类结果；其中，一类视频属于第一视频集合，二类视频属于第二视频集合，第一视频集合的视频数量大于第二视频集合的视频数量；

损失函数确定单元，被配置于执行确定一类视频标签和一类分类结果之间的第一损失函数，并确定二类视频标签和二类分类结果之间的第二损失函数；

网络训练单元，被配置于执行基于第一损失函数和第二损失函数训练分类网络；

视频分类单元，被配置于执行基于训练后的分类网络对待分类的目标二类视频进行分类。

在一种可能的实现方式中，分类结果生成单元，被配置于执行基于分类网络生成一类视频的一类分类结果，包括：

信息获取子单元，被配置于执行获取一类视频的一类图像和一类文本；

特征提取子单元，被配置于执行提取一类图像对应的一类图像特征以及一类文本对应的一类文本特征；

特征融合子单元，被配置于执行将一类图像特征和一类文本特征融合为一类视频特征；

分类子单元，被配置于执行将一类视频特征输入分类网络，得到一类分类结果。

在一种可能的实现方式中，信息获取子单元，被配置于执行获取一类视频的一类图像和一类文本，包括：

图像确定模块，被配置于执行将一类视频的封面图像确定为一类图像；

文本确定模块，被配置于执行获取一类视频中的视频文本并将一类视频对应的音频数据识别为音频文本；

信息融合模块，被配置于执行将视频文本和音频文本融合为一类文本。

在一种可能的实现方式中，分类结果生成单元，被配置于执行基于分类网络生成二类视频的二类分类结果，包括：

信息获取子单元，被配置于执行获取二类视频的二类图像和二类文本；

特征提取子单元，被配置于执行提取二类图像对应的二类图像特征以及二类文本对应的二类文本特征；

特征融合子单元，被配置于执行将二类图像特征和二类文本特征融合为二类视频特征；

分类子单元，被配置于执行将二类视频特征输入分类网络，得到二类分类结果。

在一种可能的实现方式中，信息获取子单元，被配置于执行获取二类视频的二类图像和二类文本，包括：

图像确定模块，被配置于执行将二类视频的封面图像确定为二类图像；

文本确定模块，被配置于执行获取二类视频中的视频文本并将二类视频对应的音频数据识别为音频文本；

信息融合模块，被配置于执行将视频文本和音频文本融合为二类文本。

在一种可能的实现方式中，二类视频标签属于目标标签集合，视频分类单元，被配置于执行基于训练后的分类网络对待分类的目标二类视频进行分类，包括：

视频分类子单元，被配置于执行根据训练后的分类网络对待分类的目标二类视频进行分类，得到目标二类视频对应的目标分类结果；其中，目标分类结果用于表征目标二类视频属于目标标签集合中各标签的概率。

在一种可能的实现方式中，视频分类装置还包括：

标签确定单元，被配置于在视频分类单元根据训练后的分类网络对待分类的目标二类视频进行分类之后，执行从目标分类结果中选取最高概率对应的目标标签；

对象集群确定单元，被配置于执行确定目标标签对应的对象集群；

视频推送单元，被配置于执行向对象集群中各对象推送目标二类视频。

在一种可能的实现方式中，分类结果生成单元，被配置于执行基于分类网络生成一类视频的一类分类结果，并基于分类网络生成二类视频的二类分类结果，包括：

视频分配子单元，被配置于执行将一类视频和二类视频输入分布式的计算节点；

分布式计算子单元，被配置于执行通过分布式的计算节点分别运行分类网络，以生成一类视频的一类分类结果和二类视频的二类分类结果；其中，一类分类结果和二类分类结果来自于不同的计算节点。

在一种可能的实现方式中，网络训练单元，被配置于执行基于第一损失函数和第二损失函数训练分类网络，包括：

损失函数融合子单元，被配置于执行将第一损失函数和第二损失函数融合为目标损失函数；

参数调整子单元，被配置于执行根据目标损失函数调整分类网络对应的网络参数，直到目标损失函数收敛至预设范围内为止。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第一方面中任一项所述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例的第一方面中任一所述方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时，使得计算机执行本公开实施例的第一方面中任一项所述方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在本公开中，可以基于分类网络生成一类视频的一类分类结果，并基于分类网络生成二类视频的二类分类结果；其中，一类视频属于第一视频集合，二类视频属于第二视频集合，第一视频集合的视频数量大于第二视频集合的视频数量；确定一类视频标签和一类分类结果之间的第一损失函数，并确定二类视频标签和二类分类结果之间的第二损失函数；基于第一损失函数和第二损失函数训练分类网络，并基于训练后的分类网络对待分类的目标二类视频进行分类。这样可以结合数量较大的第一视频集合中的一类视频和数量较少的第二视频集合中的二类视频，进行联合训练，从而降低因二类视频样本量少/标签分布不均带来的训练效果不佳的问题，使得训练后的分类网络不仅可以精准地对一类视频进行分类，也可以更精准地对二类视频进行分类。此外，结合一类视频和二类视频进行有监督的网络训练，可以使得分类网络可以同时实现对于不同类型视频(即，一类视频、二类视频)的分类，相较于现有技术中针对一类视频训练一个分类网络再针对二类视频训练一个分类网络，可以降低训练量，提升对于计算资源的利用率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频分类方法及视频分类装置的示例性系统架构的示意图。

图2是根据一示例性实施例示出的一种视频分类方法的流程图。

图3是根据另一示例性实施例示出的一种视频分类方法的流程图。

图4是根据一示例性实施例示出的一种多任务训练分类网络的应用场景示意图。

图5是根据一示例性实施例示出的一种分类网络的架构示意图。

图6是根据一示例性实施例示出的一种视频分类装置的框图。

图7是根据一示例性实施例示出的一种用于信息处理的电子设备的框图。

图8是根据一示例性实施例示出的一种用于信息处理的电子设备的框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

请参阅图1，图1是根据一示例性实施例示出的一种视频分类方法及视频分类装置的示例性系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的文件处理方法一般由服务器105执行，相应地，文件处理装置一般设置于服务器105中。但本领域技术人员容易理解的是，本公开实施例所提供的文件处理方法也可以由终端设备101、102或103执行，相应的，文件处理装置也可以设置于终端设备101、102或103中，本示例性实施例中对此不做特殊限定。举例而言，在一种示例性实施例中，服务器105可以基于分类网络生成一类视频的一类分类结果，并基于分类网络生成二类视频的二类分类结果；其中，一类视频属于第一视频集合，二类视频属于第二视频集合，第一视频集合的视频数量大于第二视频集合的视频数量；确定一类视频标签和一类分类结果之间的第一损失函数，并确定二类视频标签和二类分类结果之间的第二损失函数；基于第一损失函数和第二损失函数训练分类网络，并基于训练后的分类网络对待分类的目标二类视频进行分类。

请参阅图2，图2是根据一示例性实施例示出的一种视频分类方法的流程图。如图2所示，视频分类方法可以包括以下步骤。

在步骤S200中，基于分类网络生成一类视频的一类分类结果，并基于分类网络生成二类视频的二类分类结果；其中，一类视频属于第一视频集合，二类视频属于第二视频集合，第一视频集合的视频数量大于第二视频集合的视频数量。

在步骤S202中，确定一类视频标签和一类分类结果之间的第一损失函数，并确定二类视频标签和二类分类结果之间的第二损失函数。

在步骤S204中，基于第一损失函数和第二损失函数训练分类网络，并基于训练后的分类网络对待分类的目标二类视频进行分类。

可见，实施图2所示的视频分类方法，可以结合数量较大的第一视频集合中的一类视频和数量较少的第二视频集合中的二类视频，进行联合训练，从而降低因二类视频样本量少/标签分布不均带来的训练效果不佳的问题，使得训练后的分类网络不仅可以精准地对一类视频进行分类，也可以更精准地对二类视频进行分类。此外，结合一类视频和二类视频进行有监督的网络训练，可以使得分类网络可以同时实现对于不同类型视频(即，一类视频、二类视频)的分类，相较于现有技术中针对一类视频训练一个分类网络再针对二类视频训练一个分类网络，可以降低训练量，提升对于计算资源的利用率。

针对上述步骤，下面进行详细描述：

具体地，一类视频和二类视频属于不同类别的视频。举例来说，一类视频是自制视频、二类视频是广告视频；或者，一类视频是综艺视频、二类视频是广告视频；或者，一类视频是广告视频、二类视频是自制视频；或者，一类视频是纪录片视频、二类视频是新闻视频。

此外，分类网络至少可以包括主干网络(shard model)、多头注意力模块(MultiHead attention)、分类器(fc)；其中，主干网络(shard model)用于进行特征提取，多头注意力模块(Multi Head attention)用于进行特征融合，分类器(fc)用于进行特征分类。

作为步骤S200的可选实施例1，基于分类网络生成一类视频的一类分类结果，包括：获取一类视频的一类图像和一类文本；提取一类图像对应的一类图像特征以及一类文本对应的一类文本特征；将一类图像特征和一类文本特征融合为一类视频特征；将一类视频特征输入分类网络，得到一类分类结果。

具体地，一类视频的一类图像可以为一类视频中的任一帧，也可以为一类视频的封面图像，也可以为预先指定的第N帧图像，N为正整数，也可以为用户指定的其他图像，本申请实施例不作限定。一类文本可以包括一类视频的音频文本、一类视频的各帧中的文本、一类视频的描述文本等，本申请实施例不作限定。

其中，提取一类图像对应的一类图像特征以及一类文本对应的一类文本特征，包括：基于残差网络(如，resnet-50)提取一类图像对应的一类图像特征，基于语言表征模型(Bidirectional Encoder Representation from Transformers，BERT)提取一类文本对应的一类文本特征。

可见，实施该可选的实施例，可以基于一类视频的图像特征的文本特征得到一类视频特征，提升了视频特征的表征范围，进而基于一类视频特征可以触发分类网路对一类视频进行分类，使得分类网路可以学习到多维度的一类视频特征，提升了分类网络的学习效果。

作为可选实施例1的进一步实施方式，获取一类视频的一类图像和一类文本，包括：将一类视频的封面图像确定为一类图像；获取一类视频中的视频文本并将一类视频对应的音频数据识别为音频文本；将视频文本和音频文本融合为一类文本。

具体地，获取一类视频中的视频文本，包括：从每帧视频中提取文本信息，得到视频文本。此外，将一类视频对应的音频数据识别为音频文本，包括：提取一类视频中的音频数据；将该音频数据转换为文本。

可见，实施该可选的实施例，可以结合视频文本和音频文本得到用于表征一类视频的一类文本，继而通过该一类文本进行分类网络的训练，可以有利于提升分类网络的训练效果，提升分类网络的分类精度。

作为步骤S200的可选实施例2，基于分类网络生成二类视频的二类分类结果，包括：获取二类视频的二类图像和二类文本；提取二类图像对应的二类图像特征以及二类文本对应的二类文本特征；将二类图像特征和二类文本特征融合为二类视频特征；将二类视频特征输入分类网络，得到二类分类结果。

具体地，二类视频的二类图像可以为二类视频中的任一帧，也可以为二类视频的封面图像，也可以为预先指定的第N帧图像，N为正整数，也可以为用户指定的其他图像，本申请实施例不作限定。二类文本可以包括二类视频的音频文本、二类视频的各帧中的文本、二类视频的描述文本等，本申请实施例不作限定。

可见，实施该可选的实施例，基于二类视频的图像特征的文本特征得到二类视频特征，提升了视频特征的表征范围，进而基于二类视频特征可以触发分类网路对二类视频进行分类，使得分类网路可以学习到多维度的二类视频特征，提升了分类网络的学习效果。

作为可选实施例2的进一步实施方式，获取二类视频的二类图像和二类文本，包括：将二类视频的封面图像确定为二类图像；获取二类视频中的视频文本并将二类视频对应的音频数据识别为音频文本；将视频文本和音频文本融合为二类文本。

具体地，获取二类视频中的视频文本，包括：从每帧视频中提取文本信息，得到视频文本。此外，将二类视频对应的音频数据识别为音频文本，包括：提取二类视频中的音频数据；将该音频数据转换为文本。

可见，实施该可选的实施例，可以结合视频文本和音频文本得到用于表征二类视频的二类文本，继而通过该二类文本进行分类网络的训练，可以有利于提升分类网络的训练效果，提升分类网络的分类精度。

作为步骤S200的可选实施例3，基于分类网络生成一类视频的一类分类结果，并基于分类网络生成二类视频的二类分类结果，包括：将一类视频和二类视频输入分布式的计算节点；通过分布式的计算节点分别运行分类网络，以生成一类视频的一类分类结果和二类视频的二类分类结果；其中，一类分类结果和二类分类结果来自于不同的计算节点。

具体地，分布式的计算节点可以包括至少两个计算节点，计算节点可以理解为服务器、图形处理器(Graphics Processing Unit，GPU)等，本申请实施例不作限定。举例来说，若存在计算节点A和计算节点B，计算节点A用于运行分类网络以生成一类视频的一类分类结果，计算节点B用于运行分类网络以生成二类视频的二类分类结果。

可见，实施该可选的实施例，可以基于分布式的计算节点运行分类网络，以分别完成不同视频的分类，相较于单计算机节点运算，这样可以提升对于分类网络的训练效率，进而可以使得分类网络可以更快地学习到不同类型视频的特征与相应标签之间的关系。

具体地，第一损失函数可以表示为L_reco，第二损失函数可以表示为L_ads。具体地，第一损失函数/第二损失函数可以为：绝对值损失函数、对数损失函数、平方损失函数、指数损失函数、Hinge损失函数、感知损失函数、交叉熵损失函数中任一种，本申请实施例不作限定。

具体地，待分类的目标二类视频的数量可以为一个或多个，本申请实施例不作限定。

此外，可选的，上述方法还可以包括：基于分类网络生成三类视频的三类分类结果，三类视频属于第三视频集合，确定三类视频标签和三类分类结果之间的第三损失函数。基于此，基于第一损失函数和第二损失函数训练分类网络可以执行为：基于第一损失函数、第二损失函数、第三损失函数训练分类网络。

进一步地，基于第一损失函数、第二损失函数、第三损失函数训练分类网络，可以执行为：将第一损失函数、第二损失函数、第三损失函数融合为目标损失函数，根据目标损失函数调整分类网络对应的网络参数，直到目标损失函数收敛至预设范围内为止。

基于上述扩展步骤，需要说明的是，本申请中的分类网络不仅可以支持双任务学习(即，一类视频和二类视频的联合学习)，还可以支持更多任务(如，三个任务、四个任务、五个任务等)的学习，本申请实施例不作限定。

作为步骤S204的可选实施例4，基于第一损失函数和第二损失函数训练分类网络，包括：将第一损失函数和第二损失函数融合为目标损失函数；根据目标损失函数调整分类网络对应的网络参数，直到目标损失函数收敛至预设范围内为止。

具体地，将第一损失函数和第二损失函数融合为目标损失函数，包括：根据表达式L＝L_ads+L_reco计算第一损失函数L_reco和第二损失函数L_ads的和，作为目标损失函数L。此外，分类网络对应的网络参数可以包括网络各层权重、偏置项等，本申请实施例不作限定。

其中，可选的，将第一损失函数和第二损失函数融合为目标损失函数，包括：确定将第一损失函数L_reco和第二损失函数L_ads分别对应的权重值a1、a2；计算第一损失函数L_reco和第二损失函数L_ads与权重值a1、a2的加权和，从而得到目标损失函数L，目标损失函数L＝a1*L_ads+a2*L_reco。

可见，实施该可选的实施例，可以通过联合多样本的一类视频和少样本的二类视频进行网络训练，提升网络泛化能力以及特征提取精度，由于多样本的一类视频和少样本的二类视频对应于不同的标签集合，基于一类视频和二类视频分别对应的标签计算一类视频和二类视频分别对应的损失函数，可以避免一类视频和二类视频的标签集合互相产生不良影响，还能够实现多任务学习的目的，从而提升分类网络的分类精度。

作为步骤S204的可选实施例5，二类视频标签属于目标标签集合，基于训练后的分类网络对待分类的目标二类视频进行分类，包括：根据训练后的分类网络对待分类的目标二类视频进行分类，得到目标二类视频对应的目标分类结果；其中，目标分类结果用于表征目标二类视频属于目标标签集合中各标签的概率。

具体地，目标标签集合中至少可以包括第一标签集合和第二标签集合，第一标签集合可以用于描述各种各样的一类视频，第二标签集合可以用于描述各种各样的二类视频，第一标签集合和第一标签集合可以存在交集，也可以不存在交集，本申请实施例不作限定。具体地，第一标签集合中可以包括话题标签(Hashtag)、关键词标签等，第二标签集合中可以包括分区标签、群组标签、广告一级类目、广告二级类目等。举例来说，第一标签集合为[#今日穿搭，#火烧云，……，#我的第一条视频]，第二标签集合为[街舞、民族舞、宅舞、……、川菜、湘菜]。进一步地，二类视频标签属于目标标签集合，也可以理解为二类视频标签属于目标标签集合中的第二标签集合，基于此，目标分类结果用于表征目标二类视频属于目标标签集合中各标签的概率，可以理解为，目标分类结果用于表征目标二类视频属于第二标签集合中各标签的概率。同理，一类视频标签属于目标标签集合中的第一标签集合，根据训练后的分类网络对待分类的目标一类视频进行分类，得到目标一类视频对应的分类结果，目标一类视频对应的分类结果用于表征目标一类视频属于第一标签集合中各标签的概率。

其中，根据训练后的分类网络对待分类的目标二类视频进行分类，得到目标二类视频对应的目标分类结果，包括：获取用于表征目标二类视频的目标图像；获取目标二类视频的目标文本；获取目标二类视频的音频数据并将该音频数据转换为目标音频文本；将目标文本和目标音频文本进行融合，得到目标融合文本；提取目标图像对应的目标图像特征以及目标融合文本对应的目标文本特征；将目标图像特征和目标融合文本特征融合为目标二类视频特征；将目标二类视频特征输入分类网络；其中，分类网络用于依据基于目标二类视频特征对目标二类视频进行分类，得到目标分类结果。举例来说，目标分类结果可以表示为[0.1，0.2，0.7]，其中，0.1对应于标签“川菜”，0.2对应于标签“粤菜”，0.7对应于标签“湘菜”，由于0.1>0.2>0.7，因此，目标二类视频大概率是与“湘菜”相关的，故，可以将标签“湘菜”确定为于目标二类视频对应的目标标签。

基于该实施方式，可选的，视频分类方法还包括：当检测到待分类的目标一类视频，根据训练后的分类网络对目标一类视频进行分类，得到目标一类视频对应的目标分类结果；进而，从目标一类视频对应的目标分类结果中选取对应于最高概率的标签作为目标一类视频的标签，并确定与该标签相关的对象集群，进而将目标一类视频推送至该对象集群中各对象。

可见，实施该可选的实施例，可以基于训练后的分类网络对二类视频进行分类，从而提升对于样本量比较少的二类视频的分类精度。

作为可选实施例5的进一步实施方式，根据训练后的分类网络对待分类的目标二类视频进行分类之后，视频分类方法还包括：从目标分类结果中选取最高概率对应的目标标签；确定目标标签对应的对象集群；向对象集群中各对象推送目标二类视频。

具体地，对象集群可以包括用户标识(如，用户ID)、服务器标识(如，服务器IP地址)等，本申请实施例不作限定。对象集群中各对象的标识可以与目标标签之间存在关联关系。

可见，实施该可选的实施例，可以基于高精度的目标分类结果确定对应于目标二类视频的对象集群，进而可以向对象集群推送目标二类视频。当目标二类视频是广告视频时，则可以提升对于广告视频定向投放的精度以及定向投放的效率，也能够改善用户的使用体验，使得用户在浏览视频平台时，可以浏览到有可能感兴趣的广告视频，进而有利于改善广告视频对应的转化率。

进一步地，请参阅图3，图3是根据另一示例性实施例示出的一种视频分类方法的流程图。如图3所示，视频分类方法可以包括以下步骤：步骤S300～步骤S328。

步骤S300：从第一视频集合中选取一类视频，并从第二视频集合中选取二类视频；其中，第一视频集合的视频数量大于第二视频集合的视频数量。

步骤S302：将一类视频的封面图像确定为一类图像。

步骤S304：获取一类视频中的视频文本并将一类视频对应的音频数据识别为音频文本，进而将视频文本和音频文本融合为一类文本。

步骤S306：提取一类图像对应的一类图像特征以及一类文本对应的一类文本特征。

步骤S308：将一类图像特征和一类文本特征融合为一类视频特征；将一类视频特征输入分类网络，得到一类分类结果。进而，执行步骤S318。

步骤S310：将二类视频的封面图像确定为二类图像。

步骤S312：获取二类视频中的视频文本并将二类视频对应的音频数据识别为音频文本，进而将视频文本和音频文本融合为二类文本。

步骤S314：提取二类图像对应的二类图像特征以及二类文本对应的二类文本特征。

步骤S316：将二类图像特征和二类文本特征融合为二类视频特征；将二类视频特征输入分类网络，得到二类分类结果。进而，执行步骤S318。

步骤S318：确定一类视频标签和一类分类结果之间的第一损失函数，并确定二类视频标签和二类分类结果之间的第二损失函数。

步骤S320：将第一损失函数和第二损失函数融合为目标损失函数。

步骤S322：根据目标损失函数调整分类网络对应的网络参数，直到目标损失函数收敛至预设范围内为止。

步骤S324：根据训练后的分类网络对待分类的目标二类视频进行分类，得到目标二类视频对应的目标分类结果；其中，目标分类结果用于表征目标二类视频属于目标标签集合中各标签的概率。

步骤S326：从目标分类结果中选取最高概率对应的目标标签。

步骤S328：确定目标标签对应的对象集群，并向对象集群中各对象推送目标二类视频。

其中，需要说明的是，步骤S302～步骤S308可以由第一计算节点执行，步骤S310～步骤S316可以由第二计算节点执行，第一计算节点和第一计算节点可以为同一计算节点也可以为不同计算节点，本申请实施例不作限定。步骤S302～步骤S308和步骤S310～步骤S316之间的执行顺序本申请不限定，可以先执行步骤S310～步骤S316再执行步骤S302～步骤S308，也可以先执行步骤S302～步骤S308再执行步骤S310～步骤S316，也可以同步执行步骤S302～步骤S308和步骤S310～步骤S316。

此外，还需要说明的是，步骤S300～步骤S328与图2所示的各步骤及其实施例相对应，针对步骤S300～步骤S328的具体实施方式，请参阅图2所示的各步骤及其实施例，此处不再赘述。

可见，实施图3所示的方法，可以结合数量较大的第一视频集合中的一类视频和数量较少的第二视频集合中的二类视频，进行联合训练，从而降低因二类视频样本量少/标签分布不均带来的训练效果不佳的问题，使得训练后的分类网络不仅可以精准地对一类视频进行分类，也可以更精准地对二类视频进行分类。此外，结合一类视频和二类视频进行有监督的网络训练，可以使得分类网络可以同时实现对于不同类型视频(即，一类视频、二类视频)的分类，相较于现有技术中针对一类视频训练一个分类网络再针对二类视频训练一个分类网络，可以降低训练量，提升对于计算资源的利用率。

请参阅图4，图4是根据一示例性实施例示出的一种多任务训练分类网络的应用场景示意图。如图4所示，本申请可以结合多个任务进行训练，如，任务(task)411、任务(task)412、……、任务(task)413，举例来说，任务(task)411可以用于训练对于一类视频的分类能力，任务(task)412可以用于训练对于二类视频的分类能力。

主干网络(shard model)420是分类网络的一部分，用于进行特征提取。当主干网络(shard model)420接收到任务(task)411、任务(task)412、……、任务(task)413分别对应的输入(即，视频的图像和文本)时，可以基于特征空间(feature)430针对各任务的输入进行特征提取，从而得到各任务对应的待分类的特征(即，视频特征)。

其中，任务(task)411与分类器(fc)441一一对应，任务(task)412与分类器(fc)412一一对应，任务(task)413与分类器(fc)443一一对应。基于此，可以将各任务对应的待分类的特征分别输入至相对应的分类器，如，分类器(fc)441、分类器(fc)442、……、分类器(fc)443。

进而，可以得到分类器(fc)441、分类器(fc)442、……、分类器(fc)443分别输出的分类结果，分类结果可以用于指示任务中的视频对应的标签。

请参阅图5，图5是根据一示例性实施例示出的一种分类网络的架构示意图。如图5所示，分类网络可以包括主干网络(shard model)510、特征空间520、分类器(fc)530。主干网络(shard model)510至少包括：图像编码器(Image Encoder)511和文本编码器(TextEncoder)512；特征空间520至少包括多头注意力模块(Multi Head attention)521。其中，多头注意力模块(Multi Head attention)521是通过一个注意力机制的多次并行运行，将独立的注意力输出串联起来，线性地转化为预期维度。

具体地，当存在训练任务时，可以将训练任务中的视频的文本(Text)输入文本编码器(Text Encoder)512，以使得文本编码器(Text Encoder)512输出相应的文本特征(Text Embed)，以及，将视频帧(Frame)输入图像编码器(Image Encoder)511，以使得图像编码器(Image Encoder)511输出相应的图像特征(Image Embed)。进而，可以将图像特征(Image Embed)和文本特征(Text Embed)输入多头注意力模块(Multi Head attention)521，以使得多头注意力模块(Multi Head attention)521基于特征空间520融合图像特征(Image Embed)和文本特征(Text Embed)，得到多模态视频特征(Video Embed)；其中，多任务联合训练时，多个任务可以共享特征空间520。

进而，分类器(fc)530可以基于多模态视频特征(Video Embed)实现视频分类，得到分类结果，通过损失函数计算模块(Classification Loss)540可以计算分类结果和视频标签之间的损失函数，该损失函数用于表征分类网络的分类精度，依据该损失函数也可以实现对于分类网络的参数调整(即，训练)。

可见，应用图4～5所示的分类网络，可以结合数量较大的第一视频集合中的一类视频和数量较少的第二视频集合中的二类视频，进行联合训练，从而降低因二类视频样本量少/标签分布不均带来的训练效果不佳的问题，使得训练后的分类网络不仅可以精准地对一类视频进行分类，也可以更精准地对二类视频进行分类。此外，结合一类视频和二类视频进行有监督的网络训练，可以使得分类网络可以同时实现对于不同类型视频(即，一类视频、二类视频)的分类，相较于现有技术中针对一类视频训练一个分类网络再针对二类视频训练一个分类网络，可以降低训练量，提升对于计算资源的利用率。

请参阅图6，图6是根据一示例性实施例示出的一种视频分类装置的框图。该视频分类装置600可以包括：分类结果生成单元601、损失函数确定单元602、网络训练单元603、视频分类单元604。

分类结果生成单元601，被配置于执行基于分类网络生成一类视频的一类分类结果，并基于分类网络生成二类视频的二类分类结果；其中，一类视频属于第一视频集合，二类视频属于第二视频集合，第一视频集合的视频数量大于第二视频集合的视频数量；

损失函数确定单元602，被配置于执行确定一类视频标签和一类分类结果之间的第一损失函数，并确定二类视频标签和二类分类结果之间的第二损失函数；

网络训练单元603，被配置于执行基于第一损失函数和第二损失函数训练分类网络；

视频分类单元604，被配置于执行基于训练后的分类网络对待分类的目标二类视频进行分类。

可见，实施图6所示的装置，可以结合数量较大的第一视频集合中的一类视频和数量较少的第二视频集合中的二类视频，进行联合训练，从而降低因二类视频样本量少/标签分布不均带来的训练效果不佳的问题，使得训练后的分类网络不仅可以精准地对一类视频进行分类，也可以更精准地对二类视频进行分类。此外，结合一类视频和二类视频进行有监督的网络训练，可以使得分类网络可以同时实现对于不同类型视频(即，一类视频、二类视频)的分类，相较于现有技术中针对一类视频训练一个分类网络再针对二类视频训练一个分类网络，可以降低训练量，提升对于计算资源的利用率。

在一种可能的实现方式中，分类结果生成单元601，被配置于执行基于分类网络生成一类视频的一类分类结果，包括：

在一种可能的实现方式中，分类结果生成单元601，被配置于执行基于分类网络生成二类视频的二类分类结果，包括：

在一种可能的实现方式中，二类视频标签属于目标标签集合，视频分类单元604，被配置于执行基于训练后的分类网络对待分类的目标二类视频进行分类，包括：

在一种可能的实现方式中，视频分类装置还包括：

标签确定单元，被配置于在视频分类单元604根据训练后的分类网络对待分类的目标二类视频进行分类之后，执行从目标分类结果中选取最高概率对应的目标标签；

在一种可能的实现方式中，分类结果生成单元601，被配置于执行基于分类网络生成一类视频的一类分类结果，并基于分类网络生成二类视频的二类分类结果，包括：

在一种可能的实现方式中，网络训练单元603，被配置于执行基于第一损失函数和第二损失函数训练分类网络，包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种用于执行视频分类方法的电子设备的框图，该电子设备可以是用户端，其内部结构图可以如图7所示。该电子设备包括通过系统总线连接的处理器700、存储器、网络接口704、显示屏705和输入装置706。其中，该电子设备的处理器700用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器703。该非易失性存储介质存储有操作系统701和计算机程序702。该内存储器703为非易失性存储介质中的操作系统701和计算机程序702的运行提供环境。该电子设备的网络接口704用于与外部的终端通过网络连接通信。该计算机程序702被处理器700执行时以实现一种视频分类方法。该电子设备的显示屏705可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置706可以是显示屏705上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图8是根据一示例性实施例示出的一种用于执行视频分类方法的电子设备的框图，该电子设备可以是服务端，其内部结构图可以如图8所示。该电子设备包括通过系统总线连接的处理器800、存储器和网络接口804。其中，该电子设备的处理器800用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器803。该非易失性存储介质存储有操作系统801和计算机程序802。该内存储器803为非易失性存储介质中的操作系统801和计算机程序802的运行提供环境。该电子设备的网络接口804用于与外部的终端通过网络连接通信。该计算机程序802被处理器800执行时以实现一种视频分类方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的视频分类方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的视频分类方法。计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的视频分类方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频分类方法，其特征在于，所述视频分类方法包括：

基于分类网络生成一类视频的一类分类结果，并基于所述分类网络生成二类视频的二类分类结果；其中，所述一类视频属于第一视频集合，所述二类视频属于第二视频集合，所述第一视频集合的视频数量大于所述第二视频集合的视频数量；

确定一类视频标签和所述一类分类结果之间的第一损失函数，并确定二类视频标签和所述二类分类结果之间的第二损失函数；

基于所述第一损失函数和所述第二损失函数训练所述分类网络，并基于训练后的分类网络对待分类的目标二类视频进行分类。

2.根据权利要求1所述的视频分类方法，其特征在于，所述基于分类网络生成一类视频的一类分类结果，包括：

获取所述一类视频的一类图像和一类文本；

提取所述一类图像对应的一类图像特征以及所述一类文本对应的一类文本特征；

将所述一类图像特征和所述一类文本特征融合为一类视频特征；

将所述一类视频特征输入所述分类网络，得到所述一类分类结果。

3.根据权利要求2所述的视频分类方法，其特征在于，所述获取所述一类视频的一类图像和一类文本，包括：

将所述一类视频的封面图像确定为所述一类图像；

获取所述一类视频中的视频文本并将所述一类视频对应的音频数据识别为音频文本；

将所述视频文本和所述音频文本融合为所述一类文本。

4.根据权利要求1所述的视频分类方法，其特征在于，所述基于所述分类网络生成二类视频的二类分类结果，包括：

获取所述二类视频的二类图像和二类文本；

提取所述二类图像对应的二类图像特征以及所述二类文本对应的二类文本特征；

将所述二类图像特征和所述二类文本特征融合为二类视频特征；

将所述二类视频特征输入所述分类网络，得到所述二类分类结果。

5.根据权利要求4所述的视频分类方法，其特征在于，所述获取所述二类视频的二类图像和二类文本，包括：

将所述二类视频的封面图像确定为所述二类图像；

获取所述二类视频中的视频文本并将所述二类视频对应的音频数据识别为音频文本；

将所述视频文本和所述音频文本融合为所述二类文本。

6.根据权利要求1所述的视频分类方法，其特征在于，所述二类视频标签属于目标标签集合，所述基于训练后的分类网络对待分类的目标二类视频进行分类，包括：

根据训练后的分类网络对待分类的目标二类视频进行分类，得到所述目标二类视频对应的目标分类结果；其中，所述目标分类结果用于表征所述目标二类视频属于所述目标标签集合中各标签的概率。

7.一种视频分类装置，其特征在于，所述视频分类装置包括：

分类结果生成单元，被配置于执行基于分类网络生成一类视频的一类分类结果，并基于所述分类网络生成二类视频的二类分类结果；其中，所述一类视频属于第一视频集合，所述二类视频属于第二视频集合，所述第一视频集合的视频数量大于所述第二视频集合的视频数量；

损失函数确定单元，被配置于执行确定一类视频标签和所述一类分类结果之间的第一损失函数，并确定二类视频标签和所述二类分类结果之间的第二损失函数；

网络训练单元，被配置于执行基于所述第一损失函数和所述第二损失函数训练所述分类网络；

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-6中任一项所述的视频分类方法。

9.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1-6中任一项所述的视频分类方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的视频分类方法。