CN110399934A

CN110399934A - 一种视频分类方法、装置及电子设备

Info

Publication number: CN110399934A
Application number: CN201910704666.8A
Authority: CN
Inventors: 李涛; 李岩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-01

Abstract

本公开关于一种视频分类方法、装置及电子设备。其中，方法包括：获取待处理的视频文件，作为待处理视频；针对多个模态中的每个模态，提取待处理视频在该模态上的信息的特征，作为待处理视频在该模态上的初始特征；根据待处理视频在该模态上的初始特征，计算待处理视频在该模态上的注意力值；以注意力值作为权重，对待处理视频在该模态上的初始特征进行加权，得到待处理视频在该模态上的加权特征；拼接待处理视频在各个模态上的加权特征，得到待处理视频的融合特征。可以使得不同模态对分类结果的贡献程度具有合理的初始值，不再完全依赖于网络模型利用深度学习学习到的映射关系，可以更准确地对视频进行分类。

Description

一种视频分类方法、装置及电子设备

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频分类方法、装置及电子设备。

背景技术

在一些应用场景中，出于实际需求需要对视频进行分类，例如，短视频平台需要对上传的视频进行分类。在对视频进行分类的过程中，为了能够充分获取视频的相关特征，可以从视频相关的多个模态进行分类。例如，可能结合该视频的视频图像、附属文本、语音等模态上的特征，对该视频进行分类。

相关技术中，往往是将视频在多个模态上的特征首尾拼接后，作为视频的融合特征，输入至后续的网络模型中，以对融合特征进行特征到分类结果的端到端映射。但是该方法中在融合特征中对不同模态的特征进行区分，因此不同模态的特征对分类结果的贡献程度，完全依赖于网络模型利用深度学习学习到的特征到分类结果的映射关系，而学习过程受到网络模型结构、样本视频、训练方法等因素影响，网络模型所能够学习到的映射关系的准确性可能存在较大的波动，即网络模型的可靠性较差，利用该网络模型对视频进行分类时，得到的视频分类结果可信度较差，即难以准确对视频进行分类。

发明内容

本公开提供一种视频分类方法、装置及电子设备，以至少解决相关技术中结合视频多模态上的特征，对视频进行分类时，难以准确对视频进行分类的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频分类方法，包括：

获取待处理的视频文件，作为待处理视频；

针对多个模态中的每个模态，提取待处理视频在该模态上的信息的特征，作为所述待处理视频在该模态上的初始特征；

根据所述待处理视频在该模态上的所述初始特征，计算所述待处理视频在该模态上的注意力值，所述注意力值用于表示所述待处理视频在该模态上的信息的上下文关系；

以所述注意力值作为权重，对所述待处理视频在该模态上的所述初始特征进行加权，得到所述待处理视频在该模态上的加权特征；

拼接所述待处理视频在每个模态上的所述加权特征，得到所述待处理视频的融合特征；

利用预先训练得到的模型，对所述融合特征进行映射，得到所述待处理视频的分类结果，所述模型用于实现融合特征到分类结果的映射。

在一种可能的实施例中，所述针对多个模态中的每个模态，提取待处理视频在该模态上的信息的特征，作为所述待处理视频在该模态上的初始特征，包括：

针对多个模态中的每个模态，将待处理视频在该模态上的信息输入至预先经过训练的特征提取网络，得到所述特征提取网络的输出，作为所述待处理视频在该模态上的初始特征，所述特征提取网络为用于提取输入的信息的特征的卷积神经网络或循环神经网络。

在一种可能的实施例中，所述根据所述待处理视频在该模态上的所述初始特征，计算所述待处理视频在该模态上的注意力值，包括：

将所述待处理视频在该模态上的所述初始特征输入至预设的自注意力网络，得到所述自注意力网络的输出，作为所述待处理视频在该模态上的注意力值，所述自注意力网络为用于利用自注意力机制计算输入的特征的注意力值的T*1维全连接网络，其中，T为所述待处理视频在该模态上的所述初始特征的维度。

在一种可能的实施例中，所述以所述注意力值作为权重，对所述待处理视频在该模态上的所述初始特征进行加权，得到所述待处理视频在该模态上的加权特征，包括：

将所述待处理视频在该模态上的所述初始特征和所述注意力值输入至预设的元素级乘法单元，得到所述元素级乘法单元的输出，作为所述待处理视频在该模态上的加权特征，所述元素级乘法单元用于对输入的初始特征和注意力值进行元素级乘法运算。

根据本公开实施例的第二方面，提供一种视频分类装置，包括：

视频获取模块，用于获取待处理的视频文件，作为待处理视频；

特征提取模块，被配置为执行针对多个模态中的每个模态，提取待处理视频在该模态上的信息的特征，作为所述待处理视频在该模态上的初始特征；

自注意力模块，被配置为执行根据所述待处理视频在该模态上的所述初始特征，计算所述待处理视频在该模态上的注意力值，所述注意力值用于表示所述待处理视频在该模态上的信息的上下文关系；

特征加权模块，被配置为执行以所述注意力值作为权重，对所述待处理视频在该模态上的所述初始特征进行加权，得到所述待处理视频在该模态上的加权特征；

特征拼接模块，被配置为执行拼接所述待处理视频在每个模态上的所述加权特征，得到所述待处理视频的融合特征；

分类模块，用于利用预先训练得到的模型，对所述融合特征进行映射，得到所述待处理视频的分类结果，所述模型用于实现融合特征到分类结果的映射。

在一种可能的实施例中，所述特征提取模块，具体被配置为执行针对多个模态中的每个模态，将待处理视频在该模态上的信息输入至预先经过训练的特征提取网络，得到所述特征提取网络的输出，作为所述待处理视频在该模态上的初始特征，所述特征提取网络为用于提取输入的信息的特征的卷积神经网络或循环神经网络。

在一种可能的实施例中，所述自注意力模块，具体被配置为执行将所述待处理视频在该模态上的所述初始特征输入至预设的自注意力网络，得到所述自注意力网络的输出，作为所述待处理视频在该模态上的注意力值，所述自注意力网络为用于利用自注意力机制计算输入的特征的注意力值的T*1维全连接网络，其中，T为所述待处理视频在该模态上的所述初始特征的维度。

在一种可能的实施例中，所述特征加权模块，具体被配置为执行将所述待处理视频在该模态上的所述初始特征和所述注意力值输入至预设的元素级乘法单元，得到所述元素级乘法单元的输出，作为所述待处理视频在该模态上的加权特征，所述元素级乘法单元用于对输入的初始特征和注意力值进行元素级乘法运算。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第一方面中任一所述的视频分类方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述第一方面任一所述的视频分类方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，当其在计算机上运行时，使得计算机执行如上述第一方面任一所述的视频分类方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

可以根据不同模态的信息是否能够有效反映出待处理视频的特征，调整不同模态的初始特征对结果的贡献程度，使得拼接得到的融合特征中对不同模态的特征加以区别，因此不同模态对分类结果的贡献程度具有合理的初始值，不再完全依赖于网络模型利用深度学习学习到的映射关系，因此网络模型可靠性更高，进而可以通过该网络模型更准确地对视频进行分类。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定；

图1是根据一示例性实施例示出的一种视频分类方法的流程图；

图2是根据一示例性实施例示出的多模态特征融合网络的网络结构示意图；

图3是根据一示例性实施例示出的一种视频分类装置的框图；

图4是根据一示例性实施例示出的一种电子设备的框图；

图5是根据一示例性实施例示出的另一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种视频分类方法的流程图，如图1所示，该视频分类方法可以用于具有视频分类功能的电子设备中，包括以下步骤。

在步骤S11中，获取待处理的视频文件，作为待处理视频。

可以是从本地存储设备读取待处理的视频文件，也可以是接收其他电子设备发送的待处理的视频文件。示例性的，以应用于短视频平台中用于视频分裂的服务器为例，该服务器可以是接收客户端上传的视频文件，作为待处理的视频文件。

在步骤S12中，针对多个模态中的每个模态，提取待处理视频在该模态上的信息的特征，作为待处理视频在该模态上的初始特征。

根据应用场景的不同，多个模态所包括的模态可以不同，示例性的，以待处理视频为用户上传至视频平台的视频为例，多个模态上的信息可以包括视频、随视频一同上传平台的视频介绍文本、图像、语音等信息。

针对待处理视频在不同模态上的信息，可以采用不同的方式提取特征，也可以采用相同的方式提取特征，本实施例对此不做限制。提取到的初始特征可以是以特征向量的形式表示的，不同模态上的初始特征的维度可以相同，也可以不同，示例性的，在一种可能的实施例中，待处理视频在每个模态上的初始特征均为1*128维的特征向量。

在步骤S13中，根据待处理视频在该模态上的初始特征，计算待处理视频在该模态上的注意力值。

其中，注意力值用于表示待处理视频在该模态上的信息的上下文关系。例如，以该模态上的信息为文本为例，可以理解的是，上下文关系可以是指一句话中的词与词之间可能是相互依赖的依赖关系，而非简单指词与词之间的相邻关系，如“我们添加了双语字幕，使得观众观看起来更加轻松”，其中“使得”和“轻松”构成了使动短语，这两个词是相互依赖的，虽然这两个词在句子中并不相邻，也可以认为这两个词是存在上下文关系的。如果一个文本的注意力值越高，则该文本中的词与词之间的上下文关系越强，即该文本中词与词之间的依赖关系更加紧密。因此可以认为该文本中各个词在表意上是相对统一的，因此该文本中可能包含较少的无效信息，所以该文本能够较好的反映出待处理视频的特征。而如果一个文本的注意力值越低，则可以认为该文本中各个词在表意上是相对离散的，因此该文本中可能包含有较多的无效信息，所以该文本不能够较好的反映出待处理视频的特征。

对于其他模态的信息，原理是相同，因此不再赘述。在该实施例中，计算注意力值的方式，可以根据实际需求选用任意的自注意力算法，本实施例对此不做限制。示例性的，以初始特征为1*128维的特征向量为例，可以是将该特征向量输入至预先构造的128*1维的全连接网络中，计算得到1*1维的注意力值。该全连接层可以将输入的1*128维特征向量，与该特征向量的转置向量(该转置向量为128*1维的向量)进行矩阵乘法运算，并通过归一化函数对矩阵乘法运算结果进行分类，得到1*1维的注意力值。

在步骤S14中，以注意力值作为权重，对待处理视频在该模态上的初始特征进行加权，得到待处理视频在该模态上的加权特征。

示例性的，假设待处理视频在该模态上的初始特征为1*128维的特征向量，并且将该特征向量记为{a₁，a₂，…，a₁₂₈}，待处理视频在该模态上的注意力值为k，则在一种可能的实施例中，可以是将{a₁，a₂，…，a₁₂₈}与k进行元素级乘法运算，得到加权特征，得到的加权特征可以表示为{k*a₁，k*a₂，…，k*a₁₂₈}。

在步骤S15中，拼接待处理视频在各个模态上的加权特征，得到待处理视频的融合特征。

可以是首尾拼接待处理视频在各个模态上的加权特征。

在步骤S16中，利用预先训练得到的模型，对融合特征进行映射，得到待处理视频的分类结果。

其中，该模型用于实现融合特征到分类结果的映射，该模型可以基于传统机器学习训练得到的模型，也可以是基于深度学习训练得到的神经网络模型，本实施例对此不做限制。该模型的输入为融合特征，输出为对应的分类结果。并且根据应用场景的不同，分类结果用于表好待处理视频所属视频种类，视频种类的划分可以根据应用场景的不同而不同。例如，在一种可能的应用场景中，可能需要从上传至平台的短视频中筛选出广告视频，则可以将视频种类划分为广告视频和非广告视频。

可以理解的是，由于融合特征是由各个模态的加权特征拼接得到的，而加权特征是在初始特征的基础上加权得到的，而加权时的权重取决于该模态上的信息的上下文关系，如前述分析，该上下文关系可以反映出该模态上的信息是否能够有效反应待处理视频的特征。因此选用该实施例可以使得融合特征中，能够较好反映出待处理视频特征的部分权重较大，而不能够较好反映出待处理视频特征的部分权重较小，而一个模态的初始特征的权重的大小，可以视为该模态的初始特征对结果的贡献程度。因此选用该实施例，可以根据不同模态的信息是否能够有效反映出待处理视频的特征，调整不同模态的初始特征对结果的贡献程度，使得不同模态的特征对结果的贡献程度具有合理的初始值，不再完全依赖于网络模型利用深度学习学习到映射关系，使得网络模型更加可靠，进而可以通过该网络模型更准确地对视频进行分类。

参见图2，图2所示为本公开实施例提供的多模态特征融合网络的一种结构示意图，可以包括特征提取网络210、自注意力网络220以及元素级乘法单元230。下面将结合具体的实施例，对该多模态特征融合网络进行说明。

特征提取网络210可以是卷积神经网络，也可以是循环神经网络，并且可以是部分特征提取网络210为卷积神经网络，另外一部分特征提取网络210为循环神经网络，特征提取网络210用于提取输入的信息的特征。不同的特征提取网络的输入为待处理视频在不同模态上的信息，输出为待处理视频在该模态上的初始特征，该实施例中，待处理视频在每个模态上的初始特征以1*128维的特征向量表示。

自注意力网络220可以为基于自注意力机制构造的128*1维的全连接网络，输入为待处理视频在某个模态上的1*128维的初始特征，输出为待处理视频在该模态上的1*1维的注意力值。关于自注意力网络220的原理可以参见S13中的相关描述，在此不再赘述。

元素级乘法单元230的输入为特征提取网络210输出的待处理视频在某个模态上的1*128维的初始特征，以及对应的自注意力网络220输出的待处理视频在该模态上的1*1维的注意力值。元素级乘法单元用于对输入进行元素级乘法运算，输出为1*128维的加权特征。

对于所有元素级乘法单元输出的1*128维的加权特征，可以通过Concat(拼接)函数拼接为N*128维的融合特征，其中N为多个模态中所包括的模态的数目。例如，多个模态为5个模态，则融合特征为5*128维，并且可以表示为Concat{F₁，F₂，F₃，F₄，F₅}，其中F_i为待处理视频在第i个模态上的加权特征。

在得到融合特征后，可以将融合特征输入至预先经过训练的分类网络，得到分类网络的输出，作为待处理视频的分类结果。其中，分类网络用于对输入的特征执行预设分类任务，根据应用场景的不同，分类任务可以不同。例如，可以是确定待处理视频视频是否为广告视频、确定待处理视频视频的视频类型等，本实施例对此不做限制。

选用该多模态特征融合网络可以利用较为简化的网络模型，对待处理视频多模态上的特征进行融合，以减少融合待处理视频多模态上的特征的计算量，从而提高对待处理视频分类的效率。

图3是根据一示例性实施例示出的一种多模态融合装置的装置框图。该装置包括视频获取模块301、特征提取模块302、自注意力模块303、特征加权模块304、特征拼接模块305以及分类模块306。

该视频获取模块301，被配置为执行获取待处理的视频文件，作为待处理视频；

该特征提取模块302，被配置为执行针对多个模态中的每个模态，提取待处理视频在该模态上的信息的特征，作为待处理视频在该模态上的初始特征；

该自注意力模块303，被配置为执行根据待处理视频在该模态上的初始特征，计算待处理视频在该模态上的注意力值，注意力值用于表示待处理视频在该模态上的信息的上下文关系；

该特征加权模块304，被配置为执行以注意力值作为权重，对待处理视频在该模态上的初始特征进行加权，得到待处理视频在该模态上的加权特征；

该特征拼接模块305，被配置为执行拼接待处理视频在各个模态上的加权特征，得到待处理视频的融合特征。

该分类模块306，被配置为执行利用预先训练得到的模型，对融合特征进行映射，得到待处理视频的分类结果，该模型用于实现融合特征到分类结果的映射。

在一种可能的实施例中，特征提取模块302，具体被配置为执行针对多个模态中的每个模态，将待处理视频在该模态上的信息输入至预先经过训练的特征提取网络，得到特征提取网络的输出，作为待处理视频在该模态上的初始特征，特征提取网络为用于提取输入的信息的特征的卷积神经网络或循环神经网络。

在一种可能的实施例中，自注意力模块303，具体被配置为执行将待处理视频在该模态上的初始特征输入至预设的自注意力网络，得到自注意力网络的输出，作为待处理视频在该模态上的注意力值，自注意力网络为用于利用自注意力机制计算输入的特征的注意力值的T*1维全连接网络，其中，T为待处理视频在该模态上的初始特征的维度。

在一种可能的实施例中，特征加权模块304，具体被配置为执行将待处理视频在该模态上的初始特征和注意力值输入至预设的元素级乘法单元，得到元素级乘法单元的输出，作为待处理视频在该模态上的加权特征，元素级乘法单元用于对输入的初始特征和注意力值进行元素级乘法运算。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种用于视频分类的电子设备400的框图。例如，装置可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，电子设备400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在设备的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当电子设备400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当电子设备400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置提供各个方面的状态评估。例如，传感器组件414可以检测到电子设备400的打开/关闭状态，组件的相对定位，例如所述组件为电子设备400的显示器和小键盘，传感器组件414还可以检测电子设备400一个组件的位置改变，用户与电子设备400接触的存在或不存在，电子设备400方位或加速/减速和电子设备400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于电子设备400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G等)，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器404，上述指令可由电子设备400的处理器420执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图5是根据一示例性实施例示出的一种用于视频分类的电子设备的另一种框图。例如，电子设备可以被提供为一服务器。参照图5，可以包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理组件522的执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行上述视频分类方法。

该电子设备还可以包括一个电源组件526被配置为执行该电子设备的电源管理，一个有线或无线网络接口550被配置为将该电子设备连接到网络，和一个输入输出(I/O)接口558。该电子设备可以操作基于存储在存储器532的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似……。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频分类方法，其特征在于，包括：

获取待处理的视频文件，作为待处理视频；

针对多个模态中的每个模态，提取所述待处理视频在该模态上的信息的特征，作为所述待处理视频在该模态上的初始特征；

拼接所述待处理视频在各个模态上的所述加权特征，得到所述待处理视频的融合特征；

2.根据权利要求1所述的方法，其特征在于，所述针对多个模态中的每个模态，提取待处理视频在该模态上的信息的特征，作为所述待处理视频在该模态上的初始特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述待处理视频在该模态上的所述初始特征，计算所述待处理视频在该模态上的注意力值，包括：

4.根据权利要求1所述的方法，其特征在于，所述以所述注意力值作为权重，对所述待处理视频在该模态上的所述初始特征进行加权，得到所述待处理视频在该模态上的加权特征，包括：

将所述待处理视频在该模态上的所述初始特征和所述注意力值输入至预设的元素级乘法单元，得到所述元素级乘法单元的输出，作为所述待处理视频在该模态上的加权特征，所述元素级乘法单元用于对输入的初始特征和注意力值进行元素级乘法运算，并输出元素级乘法运算结果。

5.一种视频分类装置，其特征在于，包括：

视频获取模块，被配置为执行获取待处理的视频文件，作为待处理视频；

特征拼接模块，被配置为执行拼接所述待处理视频在各个模态上的所述加权特征，得到所述待处理视频的融合特征；

分类模块，被配置为执行利用预先训练得到的模型，对所述融合特征进行映射，得到所述待处理视频的分类结果，所述模型用于实现融合特征到分类结果的映射。

6.根据权利要求5所述的装置，其特征在于，所述特征提取模块，具体被配置为执行针对多个模态中的每个模态，将待处理视频在该模态上的信息输入至预先经过训练的特征提取网络，得到所述特征提取网络的输出，作为所述待处理视频在该模态上的初始特征，所述特征提取网络为用于提取输入的信息的特征的卷积神经网络或循环神经网络。

7.根据权利要求5所述的装置，其特征在于，所述自注意力模块，具体被配置为执行将所述待处理视频在该模态上的所述初始特征输入至预设的自注意力网络，得到所述自注意力网络的输出，作为所述待处理视频在该模态上的注意力值，所述自注意力网络为用于利用自注意力机制计算输入的特征的注意力值的T*1维全连接网络，其中，T为所述待处理视频在该模态上的所述初始特征的维度。

8.根据权利要求5所述的装置，其特征在于，所述特征加权模块，具体被配置为执行将所述待处理视频在该模态上的所述初始特征和所述注意力值输入至预设的元素级乘法单元，得到所述元素级乘法单元的输出，作为所述待处理视频在该模态上的加权特征，所述元素级乘法单元用于对输入的初始特征和注意力值进行元素级乘法运算。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至4中任一项所述的视频分类方法。

10.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至4中任一项所述的视频分类方法。