CN117708375A

CN117708375A - 一种视频处理方法、装置及相关产品

Info

Publication number: CN117708375A
Application number: CN202410163555.1A
Authority: CN
Inventors: 高鹏
Original assignee: Beijing Sohu New Media Information Technology Co Ltd
Current assignee: Beijing Sohu New Media Information Technology Co Ltd
Priority date: 2024-02-05
Filing date: 2024-02-05
Publication date: 2024-03-15
Anticipated expiration: 2044-02-05
Also published as: CN117708375B

Abstract

本申请公开了一种视频处理方法、装置及相关产品。利用视频处理模型对语音模态特征集和图像模态特征集进行特征融合，获得多模态融合特征，其中视频处理模型用于生成多模态融合特征；根据多模态融合特征对待处理视频进行处理，获得待处理视频的处理结果，其中处理结果包括对于待处理视频的分类结果、对于待处理视频的主题生成结果和对于待处理视频的标签提取结果。可见，在本申请中提出对待处理视频中的语音模态特征集和图像模态特征集进行特征融合，以获得多模态融合特征，此时便可以根据该多模态融合特征确定视频的分类、标签提取等结果。如此，在本申请中采用对多种模态特征进行融合的方式来确定视频的处理结果，提高了视频处理效果。

Description

一种视频处理方法、装置及相关产品

技术领域

本申请涉及视频处理技术领域，特别是涉及一种视频处理方法、装置及相关产品。

背景技术

随着互联网的逐步发展，用户越来越热衷于观看视频，其以简短、有趣、高度视觉化的特点，成为了用户日常生活中的一种娱乐方式。相应的，对于视频的分类、标签提取等任务，可以更好的使用户找到需要观看的视频，比如用户可以根据视频的分类结果，确定是否需要收看该视频。

目前在相关技术中大多利用视频中的单一模态信息来确定视频的分类、标签提取等结果，然而在对视频进行处理时，仅利用一种模态信息很难取得较好的处理效果，导致最终获得的分类、标签提取等结果不准确。因此，如何提高视频处理效果是本领域技术人员关注的重点问题。

发明内容

基于上述问题，本申请提供了一种视频处理方法、装置及相关产品，以提高视频处理效果。本申请实施例公开了如下技术方案：

第一方面，本申请公开了一种视频处理方法，其特征在于，包括：

获取待处理视频；

对所述待处理视频进行解析，获得语音模态特征集和图像模态特征集；

利用视频处理模型对所述语音模态特征集和所述图像模态特征集进行特征融合，获得多模态融合特征，其中所述视频处理模型用于生成多模态融合特征；

根据所述多模态融合特征对所述待处理视频进行处理，获得所述待处理视频的处理结果，其中所述处理结果包括对于所述待处理视频的分类结果、对于所述待处理视频的主题生成结果和对于所述待处理视频的标签提取结果。

可选的，所述视频处理模型包括特征融合模块、特征去冗余模块和多模态特征融合模块，所述利用视频处理模型对所述语音模态特征集和所述图像模态特征集进行特征融合，获得多模态融合特征，包括：

利用所述特征融合模块对所述语音模态特征集中的第i个语音模态特征和所述图像模态特征集中的第i个图像模态特征进行融合处理，获得第i个特征融合向量；

利用所述特征去冗余模块对所述第i个特征融合向量和所述第i个语音模态特征进行去冗余处理，获得第i个语音去冗余模态特征，以及利用所述特征去冗余模块对所述第i个特征融合向量和所述第i个图像模态特征进行去冗余处理，获得第i个图像去冗余模态特征；

利用所述多模态特征融合模块对所述第i个语音去冗余模态特征和所述第i个图像去冗余模态特征进行特征融合，获得多模态融合特征。

可选的，所述特征融合模块包括双线性特征融合层和1×1卷积层，所述利用所述特征融合模块对所述语音模态特征集中的第i个语音模态特征和所述图像模态特征集中的第i个图像模态特征进行融合处理，获得第i个特征融合向量，包括：

利用所述双线性特征融合层对所述语音模态特征集中的第i个语音模态特征和所述图像模态特征集中的第i个图像模态特征进行融合处理，获得第i个融合特征；

利用所述1×1卷积层对所述第i个融合特征进行卷积处理，获得第i个特征融合向量。

可选的，所述特征去冗余模块包括感知层和注意力层，所述利用所述特征去冗余模块对所述第i个特征融合向量和所述第i个语音模态特征进行去冗余处理，获得第i个语音去冗余模态特征，以及利用所述特征去冗余模块对所述第i个特征融合向量和所述第i个图像模态特征进行去冗余处理，获得第i个图像去冗余模态特征，包括：

利用所述感知层对所述第i个语音模态特征进行处理，获得所述第i个语音模态特征对应的权重；

利用所述注意力层对所述第i个特征融合向量和所述第i个语音模态特征对应的权重进行处理，获得第i个语音去冗余模态特征；

以及利用所述感知层对所述第i个图像模态特征进行处理，获得所述第i个图像模态特征对应的权重；

利用所述注意力层对所述第i个特征融合向量和所述第i个图像模态特征对应的权重进行处理，获得第i个图像去冗余模态特征。

可选的，在所述利用所述多模态特征融合模块对所述第i个语音去冗余模态特征和所述第i个图像去冗余模态特征进行特征融合之后，还包括：

利用所述视频处理模型对所述语音模态特征集中的第i+1个语音模态特征和所述图像模态特征集中的第i+1个图像模态特征进行处理，获得第i+1个多模态融合特征；

所述利用所述多模态特征融合模块对所述第i个语音去冗余模态特征和所述第i个图像去冗余模态特征进行特征融合，获得多模态融合特征，包括：

利用所述多模态特征融合模块对所述第i个语音去冗余模态特征和所述第i个图像去冗余模态特征进行特征融合，获得第i个多模态融合特征；

根据所述第i+1个多模态融合特征和所述第i个多模态融合特征，获得多模态融合特征。

可选的，所述对所述待处理视频进行解析，获得语音模态特征集和图像模态特征集，包括：

利用语音特征提取模型对所述待处理视频进行语音特征提取，获得语音模态特征集；

利用图像特征提取模型对所述待处理视频进行图像特征提取，获得图像模态特征集。

可选的，所述语音特征提取模型包括预训练语言BERT模型，所述图像特征提取模型包括3D卷积网络。

第二方面，本申请公开了一种视频处理装置，包括：

待处理视频获取单元，用于获取待处理视频；

待处理视频解析单元，用于对所述待处理视频进行解析，获得语音模态特征集和图像模态特征集；

多模态融合特征获得单元，用于利用视频处理模型对所述语音模态特征集和所述图像模态特征集进行特征融合，获得多模态融合特征，其中所述视频处理模型用于生成多模态融合特征；

处理结果获得单元，用于根据所述多模态融合特征对所述待处理视频进行处理，获得所述待处理视频的处理结果，其中所述处理结果包括对于所述待处理视频的分类结果、对于所述待处理视频的主题生成结果和对于所述待处理视频的标签提取结果。

可选的，所述多模态融合特征获得单元，包括：

融合向量获得单元，用于利用所述特征融合模块对所述语音模态特征集中的第i个语音模态特征和所述图像模态特征集中的第i个图像模态特征进行融合处理，获得第i个特征融合向量；

去冗余模态特征获得单元，用于利用所述特征去冗余模块对所述第i个特征融合向量和所述第i个语音模态特征进行去冗余处理，获得第i个语音去冗余模态特征，以及利用所述特征去冗余模块对所述第i个特征融合向量和所述第i个图像模态特征进行去冗余处理，获得第i个图像去冗余模态特征；

特征融合单元，用于利用所述多模态特征融合模块对所述第i个语音去冗余模态特征和所述第i个图像去冗余模态特征进行特征融合，获得多模态融合特征。

可选的，所述融合向量获得单元，具体用于：

可选的，所述去冗余模态特征获得单元，具体用于：

可选的，所述装置还包括：

模态特征处理单元，用于利用所述视频处理模型对所述语音模态特征集中的第i+1个语音模态特征和所述图像模态特征集中的第i+1个图像模态特征进行处理，获得第i+1个多模态融合特征；

所述特征融合单元，具体用于：

可选的，所述待处理视频解析单元，具体用于：

第三方面，本申请实施例提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述视频处理方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述视频处理方法的步骤。

相较于现有技术，本申请具有以下有益效果：

本申请首先获取待处理视频，在此之后对待处理视频进行解析，获得语音模态特征集和图像模态特征集，以及利用视频处理模型对语音模态特征集和图像模态特征集进行特征融合，获得多模态融合特征，最后根据多模态融合特征对待处理视频进行处理，获得待处理视频的处理结果。需要说明的是，处理结果包括对于待处理视频的分类结果、对于待处理视频的主题生成结果和对于待处理视频的标签提取结果。

可见，在本申请中提出对待处理视频中的语音模态特征集和图像模态特征集进行特征融合，以获得多模态融合特征，此时便可以根据该多模态融合特征确定视频的分类、标签提取等结果。如此，在本申请中采用对多种模态特征进行融合的方式来确定视频的处理结果，提高了视频处理效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频处理方法的流程图；

图2为本申请实施例提供的一种视频处理方法中降维计算的示意图；

图3为本申请实施例提供的一种视频处理方法中获得多模态融合特征的示意图；

图4为本申请实施例提供的一种视频处理方法中视频处理模型的应用过程；

图5为本申请实施例提供的一种视频处理方法中生成处理结果的示意图；

图6为本申请实施例提供的一种视频处理装置的结构示意图；

图7为本申请实施例提供的一种电子设备结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本申请保护范围。

需要说明的是，本申请提供的一种视频处理方法、装置及相关产品，用于视频处理技术领域，上述仅为示例，并不对本申请提供的方法及装置名称的应用领域进行限定。

正如前文描述，随着互联网的逐步发展，用户越来越热衷于观看视频，其以简短、有趣、高度视觉化的特点，成为了用户日常生活中的一种娱乐方式。相应的，对于视频的分类、标签提取等任务，可以更好的使用户找到需要观看的视频，比如用户可以根据视频的分类结果，确定是否需要收看该视频。

目前在相关技术中大多利用视频中的单一模态信息来确定视频的分类、标签提取等结果，比如利用视频中的语音模态信息来确定视频的分类结果，然而在对视频进行处理时，可能存在语音发音不标准等情况，此时仅利用一种模态信息很难取得较好的处理效果，导致最终获得的分类、标签提取等结果不准确。因此，如何提高视频处理效果是本领域技术人员关注的重点问题。

所以发明人提出本申请技术方案，本申请首先获取待处理视频，在此之后对待处理视频进行解析，获得语音模态特征集和图像模态特征集，以及利用视频处理模型对语音模态特征集和图像模态特征集进行特征融合，获得多模态融合特征，最后根据多模态融合特征对待处理视频进行处理，获得待处理视频的处理结果。需要说明的是，处理结果包括对于待处理视频的分类结果、对于待处理视频的主题生成结果和对于待处理视频的标签提取结果。可见，在本申请中提出对待处理视频中的语音模态特征集和图像模态特征集进行特征融合，以获得多模态融合特征，此时便可以根据该多模态融合特征确定视频的分类、标签提取等结果。如此，本申请采用对多种模态特征进行融合的方式来确定视频的处理结果，提高了视频处理效果。

接下来对本申请中可能出现的技术术语进行解释说明。

BERT模型：（Bidirectional Encoder Representations from Transformers）是一种在自然语言处理领域中应用的预训练语言模型。

GPT模型：GPT（Generative Pre-trained Transformer）是一种基于变换器（Transformer）架构的预训练语言模型。

T5模型：T5（Text-to-Text Transfer Transformer）是一种基于变换器（Transformer）架构的预训练模型。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。

以下通过一个实施例，对本申请提供的一种视频处理方法进行说明。参见图1，该图为本申请实施例提供的一种视频处理方法的流程图，如图1所示，该方法包括：

S101：获取待处理视频。

在本步骤中，待处理视频可以理解为需要进行分类、主题生成、标签提取等任务的视频。该待处理视频可以为一段完整的包含语音和图像的视频，以便在后续过程中对该待处理视频进行解析，以获得该待处理视频中的语音模态特征和图像模态特征。

S102：对所述待处理视频进行解析，获得语音模态特征集和图像模态特征集。

需要说明的是，在本步骤中可以利用语音特征提取模型对待处理视频进行语音特征提取，获得语音模态特征集，以及利用图像特征提取模型对待处理视频进行图像特征提取，获得图像模态特征集。其中，语音模态特征集可以理解为不同时间对应下的语音生成的语音模态特征集，图像模态特征集可以理解为不同时间对应下的图像生成的图像模态特征集，以及本申请中的语音模态特征为语音对应的文本特征，也即获取待处理视频中的语音数据后，将语音数据转换为文本数据，以根据该文本数据获得的语音模态特征。

进一步的，本申请中的语音特征提取模型包括预训练语言BERT模型，语音特征提取模型还包括预训练语言GPT模型和预训练语言T5模型，其中BERT模型以transformerencoder（神经网络-编码器结构）为主体，GPT模型以transformer decoder（神经网络-解码器结构）为主体，T5模型以encoder-decoder（编码器-解码器结构）为主体。在本申请中可以采用以上任意一种模型对待处理视频进行语音特征提取，在此不做具体限定。

以及本申请中的图像特征提取模型包括3D卷积网络，图像特征提取模型还包括双流结构网络，其中3D卷积网络可以从卷积维度上获得图像模态特征集，双流结构网络可以从静态特征流和动态特征流中获得图像模态特征集。在本申请中可以采用以上任意一种模型对待处理视频进行图像特征提取，在此不做具体限定。

需要说明的是，本申请中可以利用3D卷积网络的快慢通道结构网络从慢帧序列和快帧序列两个方面获得图像模态特征集，以及本申请中主要根据从慢帧序列方面获得的模态特征来生成图像模态特征集，如此贴合了用户的感官空间特征，使得可以吸引用户对于待处理视频的视觉空间的注意力。

S103：利用视频处理模型对所述语音模态特征集和所述图像模态特征集进行特征融合，获得多模态融合特征。

在本步骤中，视频处理模型为预先生成的，视频处理模型用于对待处理视频进行处理，以生成多模态融合特征。具体的，本申请中可以将历史语音模态特征集和历史图像模态特征集输入至待训练视频处理模型中，以通过该待训练视频处理模型对历史语音模态特征集和历史图像模态特征集进行预测特征融合，获得多模态预测融合特征，此时可以根据多模态预测融合特征和多模态预测目标融合特征之间的差距，调整待训练视频处理模型的参数，直至满足训练截止条件，生成视频处理模型。其中多模态预测目标融合特征为专业业务人员对视频进行人工处理确定出来的融合特征。

上述过程为视频处理模型的预先生成过程，接下来介绍视频处理模型的应用过程，该应用过程包括步骤S1031-步骤S1033（需要说明的是，步骤S1031-步骤S1033未在说明书附图中示出）。其中，本申请中的视频处理模型包括特征融合模块、特征去冗余模块和多模态特征融合模块。

S1031：利用特征融合模块对语音模态特征集中的第i个语音模态特征和图像模态特征集中的第i个图像模态特征进行融合处理，获得第i个特征融合向量。

需要说明的是，语音模态特征集中包括多个语音模态特征，第i个语音模态特征可以是多个语音模态特征中的任意一个语音模态特征；图像模态特征集中包括多个图像模态特征，第i个图像模态特征可以是多个图像模态特征中的任意一个图像模态特征。

具体的，特征融合模块包括双线性特征融合层和1×1卷积层，在本申请中首先可以利用双线性特征融合层对语音模态特征集中的第i个语音模态特征和图像模态特征集中的第i个图像模态特征进行融合处理，以获得第i个融合特征，在此之后再利用1×1卷积层对第i个融合特征进行卷积处理，获得第i个特征融合向量，如此对语音模态特征和图像模态特征提前进行初步特征融合，可以更好的提升模型鲁棒性。

在一种可实现的实施方式中，在本申请中可以对语音模态特征集中的第i个语音模态特征和图像模态特征集中的第i个图像模态特征进行外积计算，获得特征外积，然后再对特征外积进行池化初步降维，获得降维矩阵，最后采用1×1卷积层将降维矩阵进行处理，以获得第i个特征融合向量。需要说明的是，对于上述过程在本申请中可以通过下述公式（1）-公式（3）获得：

公式（1）

公式（2）

公式（3）

其中，表示图像模态特征集，/>表示语音模态特征集，/>表示图像模态特征集中的第i个图像模态特征，/>表示语音模态特征集中的第i个语音模态特征，y表示第i个特征融合向量，i表示第i个语音模态特征处于语音模态特征集中的位置数值，/>表示图像模态特征的线性映射函数，/>表示语音模态特征的线性映射函数，/>表示第i个图像模态特征和第i个语音模态特征的外积特征图，/>表示采用求和池化降维获得的外积特征图（即降维矩阵），/>表示在T时间内对第i个经过线性映射后获得的图像模态特征和语音模态特征的外积操作，/>表示对降维矩阵进行卷积处理操作。

进一步的，由于特征计算外积过程中维度增长明显，因此需要对融合特征方式进行降维优化，在本申请中可以采用核函数进行降维计算，并结合傅里叶变换实现特征融合，对于上述过程本申请可以通过下述公式（4）获得：

公式（4）

其中，表示图像模态特征和语音模态特征的融合特征，/>表示对图像模态特征进行降维，/>表示对语音模态特征进行降维，/>表示傅里叶变换，/>为低维投影函数，如此再次进行降维计算可以减少计算量，以获得近似融合特征。

如图2所示，图2为本申请实施例提供的一种视频处理方法中降维计算的示意图。在图2中示出了将图像模态特征集和语音模态特征集在低维投影函数的作用下结合傅里叶变换获得低维特征的过程。

S1032：利用特征去冗余模块对第i个特征融合向量和第i个语音模态特征进行去冗余处理，获得第i个语音去冗余模态特征，以及利用特征去冗余模块对第i个特征融合向量和第i个图像模态特征进行去冗余处理，获得第i个图像去冗余模态特征。

具体的，在本申请中特征去冗余模块包括感知层、全连接层和注意力层，感知层可以包括softmax函数，首先可以利用感知层对第i个语音模态特征进行处理，获得第i个语音模态特征对应的权重，然后利用全连接层和注意力层对第i个特征融合向量和第i个语音模态特征对应的权重进行处理，获得第i个语音去冗余模态特征。

以及在本申请中还可以利用感知层对第i个图像模态特征进行处理，获得第i个图像模态特征对应的权重，然后利用全连接层和注意力层对第i个特征融合向量和第i个图像模态特征对应的权重进行处理，获得第i个图像去冗余模态特征。如此本申请通过感知层对单一的语音模态特征和图像模态特征进行重要通道提权，以实现后续过程中去除冗余通道特征信息，进一步提高了下游任务的效果。

进一步的，本申请还可以利用感知层对第i个特征融合向量进行处理，获得第i个特征融合向量对应的权重，然后利用全连接层和注意力层对第i个语音模态特征和第i个特征融合向量对应的权重进行加权处理，获得第i个语音去冗余模态特征。以及本申请还可利用全连接层和注意力层对第i个图像模态特征和第i个特征融合向量对应的权重进行加权处理，获得第i个图像去冗余模态特征。

在一种可实现的实施方式中，在本申请中可以利用下述公式（5）和公式（6）获得语音去冗余模态特征和图像去冗余模态特征：

公式（5）

公式（6）

其中，表示语音去冗余模态特征，/>表示图像去冗余模态特征，为softmax函数（即感知层）的分子，代表第d组图像模态特征和语音模态特征的初步融合特征对应的指数运算结果（即可以理解为第i个特征融合向量对应的指数运算结果），/>为softmax函数的分母，代表全部图像模态特征和语音模态特征的初步融合特征集合对应的指数运算结果；这两部分组合代表注意力层分别在图像和语音上的特征权重。

S1033：利用多模态特征融合模块对第i个语音去冗余模态特征和第i个图像去冗余模态特征进行特征融合，获得多模态融合特征。

在本步骤中，可以利用多模态特征融合模块对第i个语音去冗余模态特征和第i个图像去冗余模态特征进行特征融合，获得第i个多模态融合特征。在另一种可实现的实施方式中，本申请可以利用下述公式（7）获得多模态融合特征：

公式（7）

其中，表示多模态融合特征，/>表示对语音去冗余模态特征和图像去冗余模态特征进行特征融合操作。

需要说明的是，本申请在利用多模态特征融合模块对第i个语音去冗余模态特征和第i个图像去冗余模态特征进行特征融合之后，还需要利用视频处理模型对语音模态特征集中的第i+1个语音模态特征和图像模态特征集中的第i+1个图像模态特征进行处理，获得第i+1个多模态融合特征。其中获得第i+1个多模态融合特征的具体流程同上述获得第i个多模态融合特征的过程相似，在此不再具体赘述。

在此之后，本申请可以对第i+1个多模态融合特征和所述第i个多模态融合特征进行融合处理，以获得多模态融合特征。如此，本申请可以对不同尺度特征进行特征去冗余，使得在多次级特征融合中，获得更高效的多模态融合特征。

如图3所示，图3为本申请实施例提供的一种视频处理方法中获得多模态融合特征的示意图。在图3中示出了通过待处理视频获得语音模态特征集和图像模态特征集后，可以对不同尺度的语音模态特征和图像模态特征进行特征融合，直至融合至第n个语音模态特征和图像模态特征，以此来获得多模态融合特征，提高了后续过程中获得待处理视频的处理结果的效果。

如图4所示，图4为本申请实施例提供的一种视频处理方法中视频处理模型的应用过程。在图4中示出了在图像模态特征融合方面，逐一与语音模态特征进行融合，并单一的对图像模态特征进行特征去冗余处理，以及在语音模态特征融合方面，逐一与图像模态特征进行融合，并单一的对语音模态特征进行特征去冗余处理，最终获得多模态融合特征的过程。

S104：根据所述多模态融合特征对所述待处理视频进行处理，获得所述待处理视频的处理结果。

在本步骤中，处理结果包括对于待处理视频的分类结果、对于待处理视频的主题生成结果和对于待处理视频的标签提取结果。可以理解的，在本申请中可以通过多模态融合特征确定待处理视频的分类结果、主题生成结果和标签提取结果。

如图5所示，图5为本申请实施例提供的一种视频处理方法中生成处理结果的示意图。在图5中示出了语音模态特征集和图像模态特征集在经过视频处理模型处理后，获得待处理视频的视频标签、视频分类和视频主题的过程。

还需要说明的是，在相关技术中还提出可以通过concat-shortcut（残差连接-特征连接）融合和最大池化融合等方式来获得多模态融合特征。但通过concat-shortcut融合和最大池化融合方式，最终获得的对于待处理视频的分类结果的效果均低于通过本申请方案获得的对于待处理视频的分类结果的效果。其中通过concat-shortcut融合方式获得的分类结果的准确性为72.11%，通过最大池化融合方式获得的分类结果的准确性为75.42%，通过本申请技术方案获得的分类结果的准确性为85.20%。如此，相较于相关技术，本申请提高了视频的处理效果。

综上，在本实施例中提出对待处理视频中的语音模态特征集和图像模态特征集进行特征融合，以获得多模态融合特征，此时便可以根据该多模态融合特征确定视频的分类、标签提取等结果。如此，本申请采用对多种模态特征进行融合的方式来确定视频的处理结果，提高了视频处理效果。

下面对本申请实施例提供的一种视频处理装置进行介绍，下文描述的一种视频处理装置与上文描述的一种视频处理方法可相互对应参照。参见图6，该图为本申请实施例提供的一种视频处理装置的结构示意图，如图6所示，该视频处理装置包括：

待处理视频获取单元601，用于获取待处理视频；

待处理视频解析单元602，用于对所述待处理视频进行解析，获得语音模态特征集和图像模态特征集；

多模态融合特征获得单元603，用于利用视频处理模型对所述语音模态特征集和所述图像模态特征集进行特征融合，获得多模态融合特征，其中所述视频处理模型用于生成多模态融合特征；

处理结果获得单元604，用于根据所述多模态融合特征对所述待处理视频进行处理，获得所述待处理视频的处理结果，其中所述处理结果包括对于所述待处理视频的分类结果、对于所述待处理视频的主题生成结果和对于所述待处理视频的标签提取结果。

可选的，所述多模态融合特征获得单元603，包括：

可选的，所述融合向量获得单元，具体用于：

可选的，所述去冗余模态特征获得单元，具体用于：

可选的，所述装置还包括：

所述特征融合单元，具体用于：

可选的，所述待处理视频解析单元602，具体用于：

可选的，所述语音特征提取模型包括BERT模型，所述图像特征提取模型包括3D卷积网络。

本申请实施例所提供的视频处理装置与上述实施例提供的视频处理方法具有相同的有益效果，因此不再赘述。

电子设备实施例

参见图7，该图为本申请实施例提供的一种电子设备结构示意图，如图7所示，包括：

存储器11，用于存储计算机程序；

处理器12，用于执行所述计算机程序时实现上述任意方法实施例所述视频处理方法的步骤。

在本实施例中，设备可以是车载电脑、PC（Personal Computer，个人电脑），也可以是智能手机、平板电脑、掌上电脑、便携计算机等终端设备。

该设备可以包括存储器11、处理器12和总线13。其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是设备的内部存储单元，例如该设备的硬盘。存储器11在另一些实施例中也可以是设备的外部存储设备，例如设备上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（SecureDigital, SD）卡，闪存卡（Flash Card）等。进一步地，存储器11还可以既包括设备的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于设备的应用软件及各类数据，例如执行视频处理方法的程序代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行视频处理方法的程序代码等。

该总线13可以是外设部件互连标准（peripheral component interconnect，简称PCI）总线或扩展工业标准结构（extended industry standard architecture，简称EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

进一步地，设备还可以包括网络接口14，网络接口14可选的可以包括有线接口和/或无线接口（如WI-FI接口、蓝牙接口等），通常用于在该设备与其他电子设备之间建立通信连接。

可选地，该设备还可以包括用户接口15，用户接口15可以包括显示器（Display）、输入单元比如键盘（Keyboard），可选的用户接口15还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在设备中处理的信息以及用于显示可视化的用户界面。

图7仅示出了具有组件11-15的设备，本领域技术人员可以理解的是，图7示出的结构并不构成对设备的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

可读存储介质实施例

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例所述视频处理方法的步骤。其中，该存储介质可以包括：U盘、移动硬盘、只读存储器（Read-Only Memory ，ROM）、随机存取存储器（Random Access Memory ，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

还需要说明的是，本申请实施例中提到的 “第一”、“第二”（若存在）等名称中的“第一”、“第二”只是用来做名字标识，并不代表顺序上的第一、第二。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种视频处理方法、装置及相关产品进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待处理视频；

2.根据权利要求1所述的方法，其特征在于，所述视频处理模型包括特征融合模块、特征去冗余模块和多模态特征融合模块，所述利用视频处理模型对所述语音模态特征集和所述图像模态特征集进行特征融合，获得多模态融合特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述特征融合模块包括双线性特征融合层和1×1卷积层，所述利用所述特征融合模块对所述语音模态特征集中的第i个语音模态特征和所述图像模态特征集中的第i个图像模态特征进行融合处理，获得第i个特征融合向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述特征去冗余模块包括感知层和注意力层，所述利用所述特征去冗余模块对所述第i个特征融合向量和所述第i个语音模态特征进行去冗余处理，获得第i个语音去冗余模态特征，以及利用所述特征去冗余模块对所述第i个特征融合向量和所述第i个图像模态特征进行去冗余处理，获得第i个图像去冗余模态特征，包括：

5.根据权利要求4所述的方法，其特征在于，在所述利用所述多模态特征融合模块对所述第i个语音去冗余模态特征和所述第i个图像去冗余模态特征进行特征融合之后，还包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述待处理视频进行解析，获得语音模态特征集和图像模态特征集，包括：

7.根据权利要求6所述的方法，其特征在于，所述语音特征提取模型包括预训练语言BERT模型，所述图像特征提取模型包括3D卷积网络。

8.一种视频处理装置，其特征在于，包括：

待处理视频获取单元，用于获取待处理视频；

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述视频处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述视频处理方法的步骤。