CN113569092B

CN113569092B - 一种视频分类方法、装置、电子设备及存储介质

Info

Publication number: CN113569092B
Application number: CN202110863765.8A
Authority: CN
Inventors: 姜健; 宛言
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2023-09-05
Anticipated expiration: 2041-07-29
Also published as: CN113569092A

Abstract

本公开关于一种视频分类方法、装置、电子设备及存储介质，涉及计算机技术领域，该方法包括：确定目标图片的图片特征和目标文本的文本特征，该图片特征中包括长度特征、宽度特征以及通道数特征，该目标图片为待分析视频对应的多个图片中的一个，该目标文本为该目标图片对应的文本；将该图片特征和该文本特征融合，以得到融合特征；根据该融合特征，确定该待分析视频的类别。本公开中，通过多种特征的融合，能够全面地体现出图片和文本对视频分类的影响，可以准确地确定出待分析视频的类别，进而提升产品推荐的有效性。

Description

一种视频分类方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种视频分类方法、装置、电子设备及存储介质。

背景技术

目前，可以基于某一视频中包括的图片信息和文本信息确定该视频中描述的产品的类别。具体的，可以将该图片信息对应的一维向量，以及该文本信息对应的一维向量拼接在一起，然后输入到分类模型中进行训练或预测。

但是，上述方法中，仅仅将两个一维向量拼接的方式可能不能完整地描述出图片信息和文本信息结合后对视频分类的影响，即无法准确地确定出视频所处的类别，进而影响视频中对应产品的推荐效果。

发明内容

本公开提供一种视频分类方法、装置、电子设备及存储介质，解决了现有技术不能准确地对视频进行分类，进而影响视频中对应产品的推荐效果的技术问题。

本公开实施例的技术方案如下：

根据本公开实施例的第一方面，提供一种视频分类方法。该方法可以包括：确定目标图片的图片特征和目标文本的文本特征，该图片特征中包括长度特征、宽度特征以及通道数特征，该目标图片为待分析视频对应的多个图片中的一个，该目标文本为该目标图片对应的文本；将该图片特征和该文本特征融合，以得到融合特征；根据该融合特征，确定该待分析视频的类别。

可选地，上述图片特征包括该目标图片对应的初始矩阵，该文本特征包括该目标文本对应的矩阵，该融合特征包括目标矩阵，上述将该图片特征和该文本特征融合，以得到融合特征，具体包括：基于该初始矩阵分别在长度维度和宽度维度进行特征融合操作，以得到第一矩阵和第二矩阵，该长度维度为该长度特征对应的维度，该宽度维度为该宽度特征对应的维度，该第一矩阵用于表征该目标图片在该长度维度上的特征组合，该第二矩阵用于表征该目标图片在该宽度维度上的特征组合；拼接该第一矩阵和该第二矩阵，以得到该目标图片对应的第一拼接矩阵；在第一通道数维度与第二通道数维度相同的情况下，拼接该第一拼接矩阵和该目标文本对应的矩阵，以得到该目标矩阵，该第一通道数维度为该第一拼接矩阵中包括的通道数特征对应的维度，该第二通道数维度为该目标文本对应的矩阵中包括的通道数特征对应的维度。

可选地，上述视频分类方法还包括：在该第一通道数维度与该第二通道数维度不相同的情况下，对该第一拼接矩阵执行维度变换操作，得到该目标图片对应的第二拼接矩阵，该第二拼接矩阵中包括的通道数特征对应的维度与该第二通道数维度相同；拼接该第二拼接矩阵和该目标文本对应的矩阵，以得到该目标矩阵。

可选地，基于该初始矩阵在该长度维度进行特征融合操作，得到该第一矩阵，具体包括：对该初始矩阵执行形状变更操作，得到第一变更矩阵，该形状变更操作用于变更该通道数特征在该初始矩阵中的位置；将该第一变更矩阵与预设权重的乘积确定为该第一矩阵。

可选地，上述根据该融合特征，确定该待分析视频的类别，具体包括：将该融合特征输入预设分类模型；利用该预设分类模型，确定该待分析视频的类别。

根据本公开实施例的第二方面，提供一种视频分类装置。该装置可以包括：确定模块和处理模块；该确定模块，被配置为确定目标图片的图片特征和目标文本的文本特征，该图片特征中包括长度特征、宽度特征以及通道数特征，该目标图片为待分析视频对应的多个图片中的一个，该目标文本为该目标图片对应的文本；该处理模块，被配置为将该图片特征和该文本特征融合，以得到融合特征；该确定模块，还被配置为根据该融合特征，确定该待分析视频的类别。

可选地，上述图片特征包括该目标图片对应的初始矩阵，该文本特征包括该目标文本对应的矩阵，该融合特征包括目标矩阵，该处理模块，具体被配置为基于该初始矩阵分别在长度维度和宽度维度进行特征融合操作，以得到第一矩阵和第二矩阵，该长度维度为该长度特征对应的维度，该宽度维度为该宽度特征对应的维度，该第一矩阵用于表征该目标图片在该长度维度上的特征组合，该第二矩阵用于表征该目标图片在该宽度维度上的特征组合；该处理模块，具体还被配置为拼接该第一矩阵和该第二矩阵，以得到该目标图片对应的第一拼接矩阵；该处理模块，具体还被配置为在第一通道数维度与第二通道数维度相同的情况下，拼接该第一拼接矩阵和该目标文本对应的矩阵，以得到该目标矩阵，该第一通道数维度为该第一拼接矩阵中包括的通道数特征对应的维度，该第二通道数维度为该目标文本对应的矩阵中包括的通道数特征对应的维度。

可选地，该处理模块，具体还被配置为在该第一通道数维度与该第二通道数维度不相同的情况下，对该第一拼接矩阵执行维度变换操作，得到该目标图片对应的第二拼接矩阵，该第二拼接矩阵中包括的通道数特征对应的维度与该第二通道数维度相同；该处理模块，具体还被配置为拼接该第二拼接矩阵和该目标文本对应的矩阵，以得到该目标矩阵。

可选地，该处理模块，具体还被配置为对该初始矩阵执行形状变更操作，得到第一变更矩阵，该形状变更操作用于变更该通道数特征在该初始矩阵中的位置；该确定模块，具体被配置为将该第一变更矩阵与预设权重的乘积确定为该第一矩阵。

可选地，该处理模块，还被配置为将该融合特征输入预设分类模型；该确定模块，具体被配置为利用该预设分类模型，确定该待分析视频的类别。

根据本公开实施例的第三方面，提供一种电子设备，可以包括：处理器和被配置为存储处理器可执行指令的存储器；其中，处理器被配置为执行所述指令，以实现上述第一方面中任一种可选地视频分类方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，计算机可读存储介质上存储有指令，当该计算机可读存储介质中的指令由电子设备执行时，使得该电子设备能够执行上述第一方面中任一种可选地视频分类方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，该计算机程序产品包括计算机指令，当该计算机指令在电子设备上运行时，使得该电子设备执行如第一方面中任一种可选地视频分类方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

基于上述任一方面，本公开中，电子设备可以确定目标图片的图片特征和目标文本的文本特征，并且将该图片特征和该文本特征融合，得到融合特征，以及根据该融合特征确定出待分析视频的类别。本公开实施例中，由于图片特征中包括长度特征、宽度特征以及通道数特征，因此融合特征中至少可以包括该长度特征、宽度特征、通道数特征以及该文本特征，通过该多种特征的融合，能够全面地体现出图片和文本对视频分类的影响，可以准确地确定出待分析视频的类别，进而提升产品推荐的有效性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1示出了本公开实施例提供的一种视频分类方法的流程示意图；

图2示出了本公开实施例提供的又一种视频分类方法的流程示意图；

图3示出了本公开实施例提供的又一种视频分类方法的流程示意图；

图4示出了本公开实施例提供的又一种视频分类方法的流程示意图；

图5示出了本公开实施例提供的又一种视频分类方法的流程示意图；

图6示出了本公开实施例提供的又一种视频分类方法的流程示意图；

图7示出了本公开实施例提供的一种视频分类装置的结构示意图；

图8示出了本公开实施例提供的又一种视频分类装置的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

还应当理解的是，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件的存在或添加。

本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据。

如背景技术中所描述，由于现有技术，当需要确定某一视频的类别时，往往将该视频中包括的某一图片的一维向量和该视频中包括的某一文本的一维向量拼接在一起。该仅拼接两个一维向量的方法，可能不能完整地描述出图片信息和文本信息结合后对视频分类的影响，即无法准确地确定出视频所处的类别，影响了视频中对应产品的推荐效果。

基于此，本公开实施例提供一种视频分类方法，电子设备可以确定目标图片的图片特征和目标文本的文本特征，并且将该图片特征和该文本特征融合，得到融合特征，以及根据该融合特征确定出待分析视频的类别。本公开实施例中，由于图片特征中包括长度特征、宽度特征以及通道数特征，因此融合特征中至少可以包括该长度特征、宽度特征、通道数特征以及该文本特征，通过该多种特征的融合，能够全面地体现出图片和文本对视频分类的影响，可以准确地确定出待分析视频的类别，进而提升产品推荐的有效性。

本公开实施例提供的视频分类方法、装置、电子设备及存储介质，应用于直播带货场景中。当获取到某一视频时，可以依据本公开实施例提供的方法，确定该视频的类别(具体可以为确定该视频中对应的产品的类别)。

以下结合附图对本公开实施例提供的视频分类方法进行示例性说明：

可以理解的是，执行本公开实施例提供的视频分类方法的电子设备可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobilepersonal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digitalassistant，PDA)、增强现实(augmented reality，AR)\虚拟现实(virtual reality，VR)设备等可以安装并使用内容社区应用的设备，本公开对该电子设备的具体形态不作特殊限制。其可以与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互。

如图1所示，本公开实施例提供的视频分类方法可以包括S101-S103。

S101、电子设备确定目标图片的图片特征和目标文本的文本特征。

其中，该图片特征中包括长度特征、宽度特征以及通道数特征，该目标图片为待分析视频对应的多个图片中的一个，该目标文本为该目标图片对应的文本。

应理解，电子设备在获取到某一视频(例如待分析视频)之后，可以一帧一帧地确定出(或抽出)多个图片，其中，每个图片可以对应一条语音。电子设备可以基于自动语音识别(automatic speech recognition，ASR)技术将每条语音转换为文本，如此，该多个图片中的每个图片均可以对应一个文本。然后，电子设备可以确定出该多个图片中的某一个图片(即目标图片)的图片特征和该目标图片对应的文本(即目标文本)的文本特征。

可以理解的是，在直播带货(或者也可以理解为视频推荐)场景中，上述多个图片中的某一图片(例如目标图片)为包括对应产品的图片，其对应的语音为主播在该视频中对该对应产品的语言描述，即目标文本为主播对该对应产品的文字描述。

可选地，上述通道数特征对应的维度可以大于3。

S102、电子设备将图片特征和文本特征融合，以得到融合特征。

结合上述实施例的描述，应理解，该图片特征为上述目标图片的图片特征，该图片特征中包括长度特征、宽度特征以及通道数特征，该文本特征为目标文本的文本特征。电子设备将该图片特征和该文本特征融合之后得到的融合特征中，至少也包括该长度特征、该宽度特征以及该通道数特征。

S103、电子设备根据融合特征，确定待分析视频的类别。

应理解，该待分析视频的类别可以为该待分析视频中对应产品的名称，例如，该对应产品为苹果，则该待分析视频的类别为苹果。在一种实现方式中，该待分析视频的类别还可以为该对应产品所属的类别，例如该对应产品为苹果，则该待分析视频的类别为食物类。本公开实施例待分析视频的类别不作具体限定。

上述实施例提供的技术方案至少能够带来以下有益效果：由S101-S103可知，电子设备可以确定目标图片的图片特征和目标文本的文本特征，并且将该图片特征和该文本特征融合，得到融合特征，以及根据该融合特征确定出待分析视频的类别。本公开实施例中，由于图片特征中包括长度特征、宽度特征以及通道数特征，因此融合特征中至少可以包括该长度特征、宽度特征、通道数特征以及该文本特征，通过该多种特征的融合，能够全面地体现出图片和文本对视频分类的影响，可以准确地确定出待分析视频的类别，进而提升产品推荐的有效性。

在本公开实施例的一种实现方式中，上述图片特征包括目标图片对应的初始矩阵，上述文本特征包括目标文本对应的矩阵，上述融合特征包括目标矩阵。结合图1，如图2所示，上述电子设备将图片特征和文本特征融合，以得到融合特征，具体包括S1021-S1023。

S1021、电子设备基于初始矩阵分别在长度维度和宽度维度进行特征融合操作，以得到第一矩阵和第二矩阵。

其中，该长度维度为该长度特征对应的维度，该宽度维度为该宽度特征对应的维度，该第一矩阵用于表征该目标图片在该长度维度上的特征组合，该第二矩阵用于表征该目标图片在该宽度维度上的特征组合。

结合图2，如图3所示，在本公开实施例的一种实现方式中，电子设备基于初始矩阵在长度维度进行特征融合操作，得到第一矩阵，具体可以包括S1021a-S1021b。

S1021a、电子设备对初始矩阵执行形状变更操作，得到第一变更矩阵。

其中，该形状变更操作用于变更该通道数特征在该初始矩阵中的位置。

应理解，该形状变更操作可以为resize操作，用于改变目标图片(具体为该初始矩阵)的形状。

具体的，该初始矩阵可以为长度维度*宽度维度*通道数维度的矩阵，对该初始矩阵执行该形状变更操作，可以得到通道数维度*长度维度*宽度维度的矩阵，也可以得到通道数维度*宽度维度*长度维度的矩阵。本公开实施例中，电子设备可以将得到的通道数维度*长度维度*宽度维度的矩阵确定为该第一变更矩阵。

示例性地，假设上述初始矩阵中包括的长度维度为7、宽度维度为7、通道数维度为512，即初始矩阵为7*7*512的矩阵。对该初始矩阵执行resize操作可以得到512*7*7的矩阵，该512*7*7的矩阵可以理解为通道数维度*长度维度*宽度维度的矩阵，即512*7*7的矩阵为上述第一变更矩阵。

S1021b、电子设备将第一变更矩阵与预设权重的乘积确定为第一矩阵。

应理解，该预设权重可以为一个预设的矩阵(以下简称第一预设矩阵)，也可以理解为一个全连接。该第一变更矩阵与该第一预设矩阵相乘之后可以得到该第一矩阵。

结合S1021a中的示例，该第一预设矩阵可以为一个7*1的矩阵，该512*7*7的矩阵乘以该7*1的矩阵之后，可以得到一个512*7*1的矩阵(“1”可以省去)，即得到一个512*7的矩阵，即为第一矩阵。具体的，该第一矩阵中的第一个维度(即“512”)表示上述通道数维度，该第一矩阵中的第二个维度(即“7”)表示上述长度维度。

上述实施例提供的技术方案至少能够带来以下有益效果：由S1021a-S1021b可知，电子设备可以对初始矩阵执行形状变更操作，即变更通道数特征在该初始矩阵中的位置，以得到第一变更矩阵，并将该第一变更矩阵与预设权重的乘积确定为上述第一矩阵。本公开实施例中，电子设备可以准确地确定出第一矩阵，由于该第一矩阵可以表征目标图片在长度维度上的特征组合，因此电子设备可以准确地表征出目标图片在长度维度上的特征组合，进而结合第二矩阵，即表征目标图片在宽度维度上的特征组合，可以准确地确定出目标图片在长度维度和宽度维度上的特征组合，提升维度拼接的效率。

继续如图3所示，在一种实现方式中，电子设备基于初始矩阵在宽度维度进行特征融合操作，得到第二矩阵，具体可以包括S1021c-S1021d。

S1021c、电子设备对初始矩阵执行形状变更操作，得到第二变更矩阵。

本公开实施例中，电子设备可以将得到的通道数维度*宽度维度*长度维度的矩阵确定为该第二变更矩阵。

S1021d、电子设备将第二变更矩阵与预设权重的乘积确定为第二矩阵。

示例性地，结合上述示例，电子设备也可以确定第二变更矩阵为512*7*7的矩阵，第二矩阵为512*7的矩阵，具体的，该第二矩阵中的第二个维度(即“7”)表示上述宽度维度。

需要说明的是，S1021c-S1021d的解释说明与上述S1021a-S1021b中的描述是相同或类似的，此处不再赘述。

至此，电子设备可以得到第一矩阵和第二矩阵。

S1022、电子设备拼接第一矩阵和第二矩阵，以得到目标图片对应的第一拼接矩阵。

应理解，电子设备拼接两个矩阵可以理解为对该两个矩阵执行拼接操作。具体的，若第一矩阵的第一个维度与第二矩阵的第一个维度相同，则可以将第一矩阵的第二个维度与第二矩阵的第二个维度的和确定为第一拼接矩阵的第二个维度，该第一拼接矩阵的第一个维度不变(即为第一矩阵或者第二矩阵的第一个维度)；若第一矩阵的第二个维度与第二矩阵的第二个维度相同，同理，第一拼接矩阵的第一个维度可以为第一矩阵的第一个维度与第二矩阵的第一个维度之和，该第一拼接矩阵的第二个维度不变。

示例性地，结合上述S1021b和S1021d中的示例，即第一矩阵为512*7的矩阵，第二矩阵为512*7的矩阵。则电子设备确定第一拼接矩阵可以为1024*7的矩阵，也可以为512*14的矩阵。

可以理解的是，在第一拼接矩阵为1024*7的矩阵的情况下，该第一拼接矩阵中的第一个维度(即“1024”)表示通道数维度，具体为该第一拼接矩阵中包括的通道数特征对应的维度，该第一拼接矩阵中的第二个维度(即“7”)表示拼接维度，具体为长度维度和宽度维度拼接后的维度。

需要说明的是，当第一矩阵的第n个维度与第二矩阵的第n个维度相同时，该第一矩阵和该第二矩阵才可以进行拼接操作，n≥1。否则，第一矩阵和第二矩阵无法直接进行拼接操作，例如，一个512*7的矩阵与一个1024*3的矩阵是无法直接进行拼接操作的。

S1023、在第一通道数维度与第二通道数维度相同的情况下，电子设备拼接第一拼接矩阵和目标文本对应的矩阵，以得到目标矩阵。

其中，该第一通道数维度为该第一拼接矩阵中包括的通道数特征对应的维度，该第二通道数维度为该目标文本对应的矩阵中包括的通道数特征对应的维度。

示例性地，假设电子设备得到的第一拼接矩阵为一个7*768的矩阵，目标文本对应的矩阵为1*768的矩阵(也可以理解为一维向量)，由于两个矩阵中的第二个维度相同，因此，电子设备可以拼接该7*768的矩阵和该1*768的矩阵，即得到一个8*768的矩阵，该8*768的矩阵即为该目标矩阵。

上述实施例提供的技术方案至少能够带来以下有益效果：由S1021-S1023可知，电子设备基于初始矩阵分别在长度维度和宽度维度进行特征融合操作，以得到第一矩阵和第二矩阵，然后拼接该第一矩阵和该第二矩阵，以得到目标图片对应的第一拼接矩阵；在第一通道数维度(即第一矩阵中包括的通道数特征对应的维度)和第二通道数维度(即目标文本对应的矩阵中包括的通道数特征对应的维度)相同的情况下，拼接该第一拼接矩阵和该目标文本对应的矩阵，以得到目标矩阵。本公开实施例中，由于第一矩阵可以表征目标图片在长度维度上的特征组合，第二矩阵可以表征目标图片在宽度维度上的特征组合，因此拼接后得到的第一拼接矩阵可以表征目标图片在长度维度以及宽度维度上的特征组合，然后将该第一拼接矩阵与目标文本对应的矩阵拼接得到目标矩阵，可以准确、合理地确定出图片特征及文本特征结合的整体体现，进而提升视频分类的准确性。

结合图2，如图4所示，本公开实施例提供的视频分类方法还包括S1024-S1025。

S1024、在第一通道数维度与第二通道数维度不相同的情况下，电子设备对第一拼接矩阵执行维度变换操作，得到目标图片对应的第二拼接矩阵。

其中，该第二拼接矩阵中包括的通道数特征对应的维度与该第二通道数维度相同。

应理解，当该第一通道数维度大于该第二通道数维度时，该维度变换操作为降维操作(即维度的压缩)，当该第一通道数维度小于该第二通道数维度时，该维度变换操作为升维操作(即维度的扩展)。

在本公开实施例的一种实现方式中，电子设备对第一拼接矩阵执行维度变换操作，得到目标图片对应的第二拼接矩阵具体包括步骤A。

步骤A、电子设备将第一拼接矩阵与第二预设矩阵的乘积确定为第二拼接矩阵。

其中，该第一拼接矩阵乘以该第二预设矩阵可以得到一个通道数维度与第二通道数维度相同的矩阵(即第二拼接矩阵)。

示例性地，假设第一拼接矩阵为1024*7的矩阵，目标文本对应的矩阵为1*768的矩阵，该第二预设矩阵可以为1024*768的矩阵。具体的，电子设备可以确定7*1024的矩阵与1024*768的矩阵的乘积，即得到一个7*768的矩阵(即第二拼接矩阵)，该7*768的矩阵中包括的通道数特征对应的维度(即“768”)与第二通道数维度相同。

S1025、电子设备拼接第二拼接矩阵和目标文本对应的矩阵，以得到目标矩阵。

结合上述S1024中的示例，电子设备可以确定目标矩阵为8*768的矩阵。

上述实施例提供的技术方案至少能够带来以下有益效果：由S1024-S1025可知，在第一通道数维度(即第一拼接矩阵中包括的通道数特征对应的维度)与第二通道数维度(即目标文本对应的矩阵中包括的通道数特征对应的维度)不相同的情况下，电子设备可以对该第一拼接矩阵执行维度变换操作，得到目标图片对应的第二拼接矩阵；然后，电子设备拼接该第二拼接矩阵和该目标文本对应的矩阵，以得到该目标矩阵。本公开实施例中，由于第一通道数维度与第二通道数维度不相同，因此第一拼接矩阵与目标文本对应的矩阵无法直接拼接，需要将第一拼接矩阵变换为通道数维度与第二通道数维度相同的矩阵，即第二拼接矩阵，能够提升两个矩阵(具体为目标图片对应的矩阵与目标文本对应的矩阵)之间的拼接效率，以得到更加准确地目标矩阵。

需要说明的是，上述“7”、“512”以及“1024”等是对维度的示例性说明，本公开实施例中对长度维度、宽度维度以及通道数维度的具体值不作限定。

结合图1，如图5所示，在本公开实施例的一种实现方式中，上述电子设备确定目标图片的图片特征，具体可以包括S1011-S1013。

S1011、电子设备获取待分析视频。

S1012、电子设备对待分析执行抽帧操作，得到多个图片。

结合上述实施例的描述，该多个图片可以是电子设备一帧一帧地确定出(或抽出)的。

S1013、电子设备将目标图片输入特征提取网络，以得到图片特征。

应理解，该目标图片为该多个图片中的一个。

可选地，该特征提取网络可以为残差网络(residual，networks，ResNet)，即电子设备将目标图片输入ResNet网络，可以得到该目标图片的图片特征。

在一种实现方式中，该特征提取网络也可以理解为图片编码器。具体的，电子设备将目标图片输入该图片编码器可以得到上述初始矩阵。

在本公开实施例的一种实现方式中，电子设备还可以将目标文本输入文本编码器(例如BERT)，即可以得到该目标文本对应的矩阵(或一维向量)。

上述实施例提供的技术方案至少能够带来以下有益效果：由S1011-S1013可知，电子设备可以获取待分析视频，并对该待分析视频执行抽帧操作，得到多个图片；然后，电子设备可以将目标图片(即该多个图片中的一个)输入特征提取网络，以得到目标图片的图片特征。本公开实施例中，电子设备可以对待分析视频进行抽帧处理，得到多个图片，并且还可以将该多个图片输入特征提取网络，以得到该多个图片各自的图片特征，能够快速、有效地得到图片特征，进而提升了视频分类的效率。

结合图1，如图6所示，在本公开实施例的一种实现方式中，上述电子设备根据融合特征，确定待分析视频的类别，具体可以包括S1031-S1032。

S1031、电子设备将融合特征输入预设分类模型。

应理解，该预设分类模型为已经训练完成的分类模型。在该融合特征输入到该预设分类模型之后，电子设备可以基于该融合特征，在该预设分类模型中确定出该待分析视频的类别。

S1032、利用预设分类模型，确定待分析视频的类别。

结合上述实施例的描述，该融合特征可以包括目标矩阵。

在本公开实施例的一种实现方式中，电子设备可以将该目标矩阵与第二预设矩阵(可以理解为另一个预设的权重)的乘积，乘以一个分类矩阵，得到一个可以确定出待分析视频的类别的最终矩阵。

示例性地，结合上述S1023中的示例，即目标矩阵为8*768的矩阵，假设第二预设矩阵为8*1的矩阵，既可以得到一个768*1的矩阵，然后该768*1的矩阵再乘以一个分类矩阵。又假设该分类矩阵为m*1，m为分类数(即类别的个数)，即可以得到768*m的矩阵。具体的，该m中每一个数值代表了当前类别的概率(m≥1)。例如，m中的第1个数值代表了待分析视频为第1类的概率、第2个数值代表了待分析视频为第2类的概率、……、第m个数值代表了待分析视频为第m类的概率。然后电子设备确定一个概率最大的值，并把该概率最大的值对应的类别确定为该待分析视频的类别。

上述实施例提供的技术方案至少能够带来以下有益效果：由S1031-S1032可知，电子设备可以将融合特征输入预设分类模型，并利用该预设分类模型，确定待分析视频的类别。能够准确、合理地确定出某一视频的类别，进而提升该视频中对应产品的推荐效果。

可以理解的，在实际实施时，本公开实施例所述的电子设备可以包含有用于实现前述对应视频分类方法的一个或多个硬件结构和/或软件模块，这些执行硬件结构和/或软件模块可以构成一个电子设备。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

基于这样的理解，本公开实施例还对应提供一种视频分类装置，图7示出了本公开实施例提供的视频分类装置的结构示意图。如图7所示，该视频分类装置10可以包括：确定模块101和处理模块102。

确定模块101，被配置为确定目标图片的图片特征和目标文本的文本特征，该图片特征中包括长度特征、宽度特征以及通道数特征，该目标图片为待分析视频对应的多个图片中的一个，该目标文本为该目标图片对应的文本。

处理模块102，被配置为将该图片特征和该文本特征融合，以得到融合特征。

确定模块101，还被配置为根据该融合特征，确定该待分析视频的类别。

可选地，上述图片特征包括该目标图片对应的初始矩阵，该文本特征包括该目标文本对应的矩阵，该融合特征包括目标矩阵。

处理模块102，具体被配置为基于该初始矩阵分别在长度维度和宽度维度进行特征融合操作，以得到第一矩阵和第二矩阵，该长度维度为该长度特征对应的维度，该宽度维度为该宽度特征对应的维度，该第一矩阵用于表征该目标图片在该长度维度上的特征组合，该第二矩阵用于表征该目标图片在该宽度维度上的特征组合。

处理模块102，具体还被配置为拼接该第一矩阵和该第二矩阵，以得到该目标图片对应的第一拼接矩阵。

处理模块102，具体还被配置为在第一通道数维度与第二通道数维度相同的情况下，拼接该第一拼接矩阵和该目标文本对应的矩阵，以得到该目标矩阵，该第一通道数维度为该第一拼接矩阵中包括的通道数特征对应的维度，该第二通道数维度为该目标文本对应的矩阵中包括的通道数特征对应的维度。

可选地，处理模块102，具体还被配置为在该第一通道数维度与该第二通道数维度不相同的情况下，对该第一拼接矩阵执行维度变换操作，得到该目标图片对应的第二拼接矩阵，该第二拼接矩阵中包括的通道数特征对应的维度与该第二通道数维度相同。

处理模块102，具体还被配置为拼接该第二拼接矩阵和该目标文本对应的矩阵，以得到该目标矩阵。

可选地，处理模块102，具体还被配置为对该初始矩阵执行形状变更操作，得到第一变更矩阵，该形状变更操作用于变更该通道数特征在该初始矩阵中的位置。

确定模块101，具体被配置为将该第一变更矩阵与预设权重的乘积确定为该第一矩阵。

可选地，处理模块102，还被配置为将该融合特征输入预设分类模型。

确定模块101，具体被配置为利用该预设分类模型，确定该待分析视频的类别。

如上所述，本公开实施例可以根据上述方法示例对视频分类装置进行功能模块的划分。其中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。另外，还需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。

关于上述实施例中的视频分类装置，其中各个模块执行操作的具体方式、以及具备的有益效果，均已经在前述方法实施例中进行了详细描述，此处不再赘述。

图8是本公开提供的另一种视频分类装置的结构示意图。如图8，该视频分类装置20可以包括至少一个处理器201以及用于存储处理器可执行指令的存储器203。其中，处理器201被配置为执行存储器203中的指令，以实现上述实施例中的视频分类方法。

另外，视频分类装置20还可以包括通信总线202以及至少一个通信接口204。

处理器201可以是一个处理器(central processing units，CPU)，微处理单元，ASIC，或一个或多个用于控制本公开方案程序执行的集成电路。

通信总线202可包括一通路，在上述组件之间传送信息。

通信接口204，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

存储器203可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。

其中，存储器203用于存储执行本公开方案的指令，并由处理器201来控制执行。处理器201用于执行存储器203中存储的指令，从而实现本公开方法中的功能。

在具体实现中，作为一种实施例，处理器201可以包括一个或多个CPU，例如图8中的CPU0和CPU1。

在具体实现中，作为一种实施例，视频分类装置20可以包括多个处理器，例如图8中的处理器201和处理器207。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，视频分类装置20还可以包括输出设备205和输入设备206。输出设备205和处理器201通信，可以以多种方式来显示信息。例如，输出设备205可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备206和处理器201通信，可以以多种方式接受用户的输入。例如，输入设备206可以是鼠标、键盘、触摸屏设备或传感设备等。

本领域技术人员可以理解，图8中示出的结构并不构成对视频分类装置20的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

另外，本公开还提供一种计算机可读存储介质，包括指令，当指令由处理器执行时，使得处理器执行如上述实施例所提供的视频分类方法。

另外，本公开还提供一种计算机程序产品，包括指令，当指令由处理器执行时，使得处理器执行如上述实施例所提供的视频分类方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种视频分类方法，其特征在于，包括：

确定目标图片的图片特征和目标文本的文本特征，所述图片特征中包括长度特征、宽度特征以及通道数特征，所述目标图片为待分析视频对应的多个图片中的一个，所述目标文本为所述目标图片对应的文本；

将所述图片特征和所述文本特征融合，以得到融合特征，所述图片特征包括所述目标图片对应的初始矩阵，所述文本特征包括所述目标文本对应的矩阵，所述融合特征包括目标矩阵；

根据所述融合特征，确定所述待分析视频的类别；

所述将所述图片特征和所述文本特征融合，以得到融合特征，包括：

基于所述初始矩阵分别在长度维度和宽度维度进行特征融合操作，以得到第一矩阵和第二矩阵，所述长度维度为所述长度特征对应的维度，所述宽度维度为所述宽度特征对应的维度，所述第一矩阵用于表征所述目标图片在所述长度维度上的特征组合，所述第二矩阵用于表征所述目标图片在所述宽度维度上的特征组合；

拼接所述第一矩阵和所述第二矩阵，以得到所述目标图片对应的第一拼接矩阵；

在第一通道数维度与第二通道数维度相同的情况下，拼接所述第一拼接矩阵和所述目标文本对应的矩阵，以得到所述目标矩阵，所述第一通道数维度为所述第一拼接矩阵中包括的通道数特征对应的维度，所述第二通道数维度为所述目标文本对应的矩阵中包括的通道数特征对应的维度。

2.根据权利要求1所述的视频分类方法，其特征在于，所述方法还包括：

在所述第一通道数维度与所述第二通道数维度不相同的情况下，对所述第一拼接矩阵执行维度变换操作，得到所述目标图片对应的第二拼接矩阵，所述第二拼接矩阵中包括的通道数特征对应的维度与所述第二通道数维度相同；

拼接所述第二拼接矩阵和所述目标文本对应的矩阵，以得到所述目标矩阵。

3.根据权利要求1所述的视频分类方法，其特征在于，基于所述初始矩阵在所述长度维度进行特征融合操作，得到所述第一矩阵，包括：

对所述初始矩阵执行形状变更操作，得到第一变更矩阵，所述形状变更操作用于变更所述通道数特征在所述初始矩阵中的位置；

将所述第一变更矩阵与预设权重的乘积确定为所述第一矩阵。

4.根据权利要求1-3任一项所述的视频分类方法，其特征在于，所述根据所述融合特征，确定所述待分析视频的类别，包括：

将所述融合特征输入预设分类模型；

利用所述预设分类模型，确定所述待分析视频的类别。

5.一种视频分类装置，其特征在于，包括：确定模块和处理模块；

所述确定模块，被配置为确定目标图片的图片特征和目标文本的文本特征，所述图片特征中包括长度特征、宽度特征以及通道数特征，所述目标图片为待分析视频对应的多个图片中的一个，所述目标文本为所述目标图片对应的文本；

所述处理模块，被配置为将所述图片特征和所述文本特征融合，以得到融合特征，所述图片特征包括所述目标图片对应的初始矩阵，所述文本特征包括所述目标文本对应的矩阵，所述融合特征包括目标矩阵；

所述确定模块，还被配置为根据所述融合特征，确定所述待分析视频的类别；

所述处理模块，具体被配置为基于所述初始矩阵分别在长度维度和宽度维度进行特征融合操作，以得到第一矩阵和第二矩阵，所述长度维度为所述长度特征对应的维度，所述宽度维度为所述宽度特征对应的维度，所述第一矩阵用于表征所述目标图片在所述长度维度上的特征组合，所述第二矩阵用于表征所述目标图片在所述宽度维度上的特征组合；

所述处理模块，具体还被配置为拼接所述第一矩阵和所述第二矩阵，以得到所述目标图片对应的第一拼接矩阵；

所述处理模块，具体还被配置为在第一通道数维度与第二通道数维度相同的情况下，拼接所述第一拼接矩阵和所述目标文本对应的矩阵，以得到所述目标矩阵，所述第一通道数维度为所述第一拼接矩阵中包括的通道数特征对应的维度，所述第二通道数维度为所述目标文本对应的矩阵中包括的通道数特征对应的维度。

6.根据权利要求5所述的视频分类装置，其特征在于，

所述处理模块，具体还被配置为在所述第一通道数维度与所述第二通道数维度不相同的情况下，对所述第一拼接矩阵执行维度变换操作，得到所述目标图片对应的第二拼接矩阵，所述第二拼接矩阵中包括的通道数特征对应的维度与所述第二通道数维度相同；

所述处理模块，具体还被配置为拼接所述第二拼接矩阵和所述目标文本对应的矩阵，以得到所述目标矩阵。

7.根据权利要求5所述的视频分类装置，其特征在于，

所述处理模块，具体还被配置为对所述初始矩阵执行形状变更操作，得到第一变更矩阵，所述形状变更操作用于变更所述通道数特征在所述初始矩阵中的位置；

所述确定模块，具体被配置为将所述第一变更矩阵与预设权重的乘积确定为所述第一矩阵。

8.根据权利要求5-7任一项所述的视频分类装置，其特征在于，

所述处理模块，还被配置为将所述融合特征输入预设分类模型；

所述确定模块，具体被配置为利用所述预设分类模型，确定所述待分析视频的类别。

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

被配置为存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-4中任一项所述的视频分类方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，当所述计算机可读存储介质中的指令由电子设备执行时，使得所述电子设备能够执行如权利要求1-4中任一项所述的视频分类方法。