CN113705315B

CN113705315B - 视频处理方法、装置、设备及存储介质

Info

Publication number: CN113705315B
Application number: CN202110382265.2A
Authority: CN
Inventors: 刘敬禹; 霍浩岩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2024-05-14
Anticipated expiration: 2041-04-08
Also published as: CN113705315A

Abstract

本发明实施例公开了一种视频处理方法、装置、设备及存储介质，涉及人工智能中的自然语言处理技术，其中方法可包括：获取待处理视频包括的多个模态信息，每个模态信息通过一种信息类型反映所述待处理视频中内容；对多个模态信息进行特征提取处理得到多个特征向量，一个模态信息对应一个特征向量；确定各个特征向量对应的相似度集合，任一特征向量对应的相似度集合包括任一特征向量与多个特征向量中各个特征向量之间的相似度；基于各个特征向量对应相似度集合进行融合处理得到融合特征向量，并基于融合特征向量对待处理视频进行类别预测，得到待处理视频所属类别。采用本发明实施例，可以提高视频分类的准确性。

Description

视频处理方法、装置、设备及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种视频处理方法、装置、设备及存储介质。

背景技术

视频分类是指给定一个视频片段，对其包括的内容进行分类，比如手工类视频、记录生活类视频、杂技类视频等等。视频分类有助于视频资源管理和个性化视频推荐，尤其是在短视频应用中。例如，通过分析用户经常浏览的短视频所属视频类别，向用户推荐相关类别的视频；再如，通过分析用户在短视频应用中发布的视频所属类别，向用户推荐相关类别的视频。

最常用的视频分类方法可以是人工分类，比如用户在发布一个视频片段后，工作人员可以通过对该视频片段中内容进行分析审核，以确定该视频片段所属类别；再如，如果用户在发布一个视频片段时添加了类别主题，工作人员可以根据该类别主题对该视频片段进行分类。这种视频分类方法主要依靠人力审核，不仅耗费人力，而且容易出错。因此，如何对视频进行分类成为当今研究的热点问题之一。

发明内容

本发明实施例提供了一种视频处理方法、装置、设备及存储介质，根据待处理视频的多个模态信息对该视频进行分类处理，可以提高视频分类处理的准确性。

一方面，本发明实施例提供了一种视频处理方法，包括：

获取待处理视频包括的多个模态信息，每个模态信息通过一种信息类型反映待处理视频中内容；

对多个模态信息进行特征提取处理得到多个特征向量，一个模态信息对应一个特征向量；

确定各个特征向量对应的相似度集合，任一特征向量对应的相似度集合包括任一特征向量与多个特征向量中各个特征向量之间的相似度；

基于各个特征向量对应的相似度集合进行融合处理得到融合特征向量，并基于融合特征向量对待处理视频进行类别预测，得到待处理视频所属类别。

一方面，本发明实施例提供了一种视频处理装置，包括：

获取单元，用于获取待处理视频包括的多个模态信息，每个模态信息通过一种信息类型反映待处理视频中内容；

处理单元，用于对多个模态信息进行特征提取处理得到多个特征向量，一个模态信息对应一个特征向量；

确定单元，用于确定各个特征向量对应的相似度集合，任一特征向量对应的相似度集合包括任一特征向量与多个特征向量中各个特征向量之间的相似度；

处理单元，还用于基于各个特征向量对应的相似度集合进行融合处理得到融合特征向量，并基于融合特征向量对待处理视频进行类别预测，得到待处理视频所属类别。

一方面，本发明实施例提供了一种视频处理设备，其特征在于，包括：

处理器，适于实现一条或多条指令，以及

计算机存储介质，计算机存储介质存储有一条或多条指令，一条或多条指令适于由处理器加载并执行：

获取待处理视频包括的多个模态信息，每个模态信息通过一种信息类型反映待处理视频中内容；对多个模态信息进行特征提取处理得到多个特征向量，一个模态信息对应一个特征向量；确定各个特征向量对应的相似度集合，任一特征向量对应的相似度集合包括任一特征向量与多个特征向量中各个特征向量之间的相似度；基于各个特征向量对应的相似度集合进行融合处理得到融合特征向量，并基于融合特征向量对待处理视频进行类别预测，得到待处理视频所属类别。

一方面，本发明实施例提供了一种计算机存储介质，其特征在于，计算机存储介质中存储有计算机程序指令，计算机程序指令被处理器执行时，用于执行：

一方面，本发明实施例提供了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中；视频处理设备的处理器从计算机存储介质中读取计算机指令执行：

本发明实施例中，当需要对待处理视频进行分类时，获取待处理视频的多个模态信息，每个模态信息通过一种信息类型反映该待处理视频中内容，比如多个模态信息可以包括音频模态信息和文本模态信息，音频模态信息通过语音反映待处理视频中内容比如该视频对应的配音内容或者台词，文本模态信息通过文本反映待处理视频中内容比如该视频对应的字幕。进一步的，对每个模态信息进行特征提取，得到每个模态信息对应的特征向量，然后，计算各个模态信息对应的相似度集合，该相似度集合反映了各个模态信息与多个模态信息中每个模态信息的相似度；基于各个特征向量对应的相似度集合对多个特征向量进行融合，最后基于融合特征向量对待处理视频进行类别预测，从而得到该待处理视频所属类别。在上述视频处理过程中，每个模态信息可以从一个方面或者说从一个角度用来反映待处理视频中内容，通过将多个模态信息进行特征提取后融合，融合后的特征能够更加全面的反映视频内容，从而基于该融合后的特征进行视频类别预测时，可以提高视频分类的准确性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的为各个模态信息训练一种分类模型的示意图；

图1b是本发明实施例提供的对任一分类模型进行特征拼接再训练示意图；

图2是本发明实施例提供的一种视频处理方法的流程示意图；

图3是本发明实施例提供的另一种视频处理方法的流程示意图；

图4是本发明实施例提供的一种中文停用表的示意图；

图5是为本发明实施例提供的一种为视频模态信息添加对抗噪声的示意图；

图6是本发明实施例提供的一种自注意力模块的结构示意图；

图7是本发明实施例提供的一种自注意力模块的工作原理的示意图；

图8a是本发明实施例提供的一种类别预测模型的应用场景图；

图8b是本发明实施例提供的一种类别预测模型的工作原理的示意图；

图9是本发明实施例提供的一种视频处理装置的结构示意图；

图10是本发明实施例提供的一种视频处理设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答(也可以理解为人机会话)、知识图谱等技术。

在对视频分类进行研究时发现一个视频可以包括多个模态信息，目前通常是以任意一种模态信息为参考对视频进行分类的，一个模态信息只能从一个角度反映待处理视频中的内容。如果将多个模态信息进行融合处理，能够更加全面的反映视频内容，基于融合处理后的多个模态信息进行视频预测，便可以提高视频分类的准确性。基于此，构思了三种基于融合处理后的多模态信息进行视频预测的方案：

第一种：为每个模态信息训练一个对应的分类模型，将每个分类模型提取的特征向量进行拼接融合，基于拼接融合的特征向量后任意一个分类模型进行再训练，在实际应用中使用再训练后的分类模型进行视频类别预测。具体地，首先，对于每个模态信息进行嵌入特征向量embedding学习，针对每个特征向量进行单独训练，得到每个模态信息对应的分类模型，任一模态信息对应的分类模型可以通过任意视频包括的该任一模态信息对任意视频进行分类预测。例如，一个视频包括的多个模态信息可以指音频模态信息、视频模态信息以及文本模态信息，音频模态信息对应分类模型1，视频模态信息对应分类模型2，文本模态信息对应分类模型3，分类模型1可以基于任意视频包括的音频模态信息对该任意视频进行类别预测，分类模型2可以基于任意视频包括的视频模态信息对该任意视频进行类别预测，同理的，分类模型3可以基于任意视频包括的文本模态信息对该任意视频进行类别预测。

然后，将各个模态信息对应的特征拼接后输入到任意一个分类模型中，对该分类模型进行微调，使其能够拼接后的特征进行类别预测。下面通过图1a和图1b举例说明上述第一种方案。

应当理解的，在对各个模型进行训练时所用到的损失函数不做具体限定，可以是任意一种损失函数，为了方便描述统一使用分类损失loss表示。假设一个视频包括的多个模态信息可以为音频模态信息、视频模态信息和文本模态信息，参见图1a为本发明实施例提供的一种为各个模态信息训练一种分类模型的示意图，假设对音频模态信息进行特征提取得到特征向量embedding1并基于embedding1训练得到一个与音频模态信息对应的分类模型1如图1a中101所示；对视频模态信息进行特征提取得到特征向量embddding2并基于embedding2训练一个与视频模态信息对应的分类模型2如图1a中102所示；对文本模态信息进行特征提取得到特征向量embedding3并基于embedding3训练一个与文本模态信息对应的分类模型3如图1a中103所示。进一步的，将embedding1，embedding2以及embedding3进行拼接，将拼接后的特征向量输入到分类模型1中再训练，如图1b所示。

第二种：为每个模态信息训练一个对应的分类模型，在实际应用中，将待处理视频的每个模态信息输入到相应的分类模型中得到分类结果，将各个分类模型的分类结果进行取平均运算得到待视频所属类别。

第三种：对每个模态信息进行特征提取得到多个特征向量，然后计算每个特征向量对应的相似度集合，任一特征向量对应的相似度集合中包括该任一特征向量与每个特征向量之间的相似度；最后，根据各个特征向量对应的相似度集合将多个特征向量进行融合，基于融合后的特征向量对待处理视频进行类别预测。

对比三种方案可知，第一种方案中模型数量较多，训练模型的周期长，未充分融合多个模态信息，并且在实际应用中时间和计算资源消耗大，实现繁琐；第二种方案没有将多个模态信息进行融合。第三种方案，基于多个模态信息之间的相似度，将多个模态信息进行充分融合，有益于提高视频分类的准确性。

因此，本发明实施例中主要采用第三种方案作为主要的视频处理方案，当需要对待处理视频进行分类时，获取待处理视频的多个模态信息，进一步的，对每个模态信息进行特征提取，得到每个模态信息对应的特征向量，然后，计算各个模态信息对应的相似度集合，该相似度集合反映了各个模态信息与多个模态信息中每个模态信息的相似度；基于各个特征向量对应的相似度集合对多个特征向量进行融合，最后基于融合特征向量对待处理视频进行类别预测，从而得到该视频所属类别。在上述视频处理过程中，每个模态信息可以从一个方面或者说从一个角度用来反映待处理视频中内容，通过将多个模态信息进行特征提取后融合，融合后的特征能够更加全面的反映视频内容，从而基于该融合后的特征进行视频类别预测时，可以提高视频分类的准确性。

本发明实施例提出的视频处理方案可以应用在任何需要对视频进行分类处理的应用场景中，比如对短视频应用程序中的短视频进行分类、对新闻类视频拆条后分类等等。

例如，假设用户甲在短视频应用程序中发布了一段视频A，视频处理设备获取该视频A中三种模态信息，分别为音频模态信息、视频模态信息以及文本模态信息；进而采用本申请的视频处理方案基于这三种模态信息对视频A进行分类预测，假设预测视频A属于歌曲表演类视频，则将可以为视频A添加一个歌曲表演标签。若用户乙在短视频应用程序中搜索歌曲表演有关的视频，则视频处理设备可以将视频A推荐给用户乙。

再如，一段新闻视频可包括多个视频片段，每个视频片段对应一个视频主题，为了方便对新闻视频的分类整理，通常会将新闻视频进行拆条处理，所谓拆条处理是指将一段新闻视频中同一个视频主题的多帧图像组成一个视频片段。所以，拆条处理后每一个视频片段可对应一个视频主题，然后采用本发明实施例提供的视频处理方案识别每个视频片段对应的视频主题，通过视频主题判断每个视频片段所属视频分类。

基于上述描述的视频处理方案，本发明实施例提供了一种视频处理方法，参见图2，为本发明实施例提供的一种视频处理方法的流程示意图。图2所示的视频处理方法由视频处理设备执行，具体可由视频处理设备的处理器执行。所述视频处理设备可以是终端或者服务器，终端可以包括但不限于智能手机、平板电脑、膝上计算机、可穿戴设备、台式计算机，等等。服务器可以是独立的物理服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、内容分发网络(Content Delivery Network，CDN)、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器，等等。图2所示的视频处理方法可包括如下步骤：

步骤S201、获取待处理视频包括的多个模态信息。

在一个实施例中，待处理视频可以是视频处理设备通过摄像装置录制的，也可以是其他任何设备发送给视频处理设备的，还可以是视频处理设备根据多帧连续的图像拼接生成的。

在一个实施例中，多个模态信息可以包括音频模态信息、文本模态信息以及视频模态信息中任意两种或多种，其中，文本模态信息可以是通过对待处理视频进行语音识别和/或文本识别处理得到的，语音识别是用于识别待处理视频中的台词，以将台词转换成为文本模态信息；文本识别主要是用于识别待处理视频中的字幕或者其他文字类信息比如标题等等，以获取文本模态信息。一个模态信息通过一种信息类型反映该待处理视频中内容，换句话说，一个模态信息是指从一个角度反映该待处理视频中内容。例如，音频模态信息可以是待处理视频中的台词，音频模态信息是从语音的角度反映待处理视频中内容；文本模态信息可以是通过文字的形式反映待处理视频中内容，比如文本模态信息可以是待处理视频中的字幕、主题名称或者其他出现在待处理视频中的文本；视频模态信息可以是通过多帧连续的图像来反映待处理视频中内容。

步骤S202、对多个模态信息进行特征提取处理得到多个特征向量。

其中，一个模态信息对应一个特征向量，对多个模态信息进行特征提取处理得到多个特征向量是指对每个模态信息进行特征提取处理，得到每个模态信息对应的特征向量。

在一个实施例中，以对任一模态信息进行特征提取处理得到任一模态信息对应的特征向量为例，介绍如何对每个模态信息进行特征提取处理得到每个模态信息对应的特征向量。具体地，对多个模态信息中任一模态信息进行特征提取处理，得到任一模态信息对应的特征向量，包括：(1)对任一模态信息进行编码处理得到任一模态信息的编码信息；(2)获取任一模态信息对应的特征向量提取策略，并采用任一模态信息对应的特征向量提取策略对任一模态信息进行特征提取处理，得到任一模态信息对应的初始特征向量；(3)将任一模态信息的编码信息转换为向量表示，并将初始特征向量和转换为向量表示的编码信息进行相加运算，得到任一模态信息对应的特征向量。

其中，在(1)中任一模态信息的编码信息可以包括类别编码，类别编码用于反映任一模态信息所属的信息类别，比如对于音频模态信息，类别编码可以为3；对于视频模态信息，类别编码可以为2；对于文本模态信息，类别编码可以为1。

应当理解的，任一模态信息中可以包括至少一个信息内容，一个信息内容也可以称为一个信息特征，任一模态信息中多个信息内容是按照出现的先后顺序排列的。例如，文本模态信息中包括的多个信息内容是指多个字词，多个字词是按照每个字词在待视频处理中出现的先后顺序排列的，假设文本模态信息表示为w_i表示文本模态信息中的一个信息内容，i大于等于1且小于等于n_w，i表示文本模态信息中一个信息内容在文本模态信息序列中的位置。再如，音频模态信息中包括的多个信息内容是指多帧语音，多帧语音是按照在待处理视频中出现的先后顺序排列的，假设音频模态信息可以表示为a_j表示音频模态信息中的一个信息内容，j大于等于1且小于等于n_a，j表示音频模态信息中一个信息内容在音频模态信息序列中的位置；又如，视频模态信息中包括的多个信息内容是指多帧图像，多帧图像是按照在待处理视频中出现的先后顺序排列的，假设视频模态信息可以表示为/>v_x表示视频模态信息中一个信息内容，x大于等于1小于等于n_v，x表示视频模态信息中一个信息内容在视频模态信息中的位置。

为了保证后续各个特征向量融合的准确性和充分性，本发明实施例中，任一模态信息对应的编码信息还可以包括位置编码，以此避免由于信息内容处于不同位置，对特征向量融合的影响。可选的，基于上述举例，文本模态信息对应的位置编码可以表示为{1,2...n_w}；音频模态信息对应的位置编码可以表示为{1,2,...n_a}；视频模态信息对应的位置编码可以表示为{1,2...n_v}。

得到任一模态信息对应的编码信息后，进一步，通过步骤(2)获取该任一模态信息对应的特征提取策略，并采用任一模态信息对应的特征向量提取策略对任一模态信息特征提取得到该任一模态信息对应的初始特征向量。具体实现中，若任一模态信息是音频模态信息，则任一模态信息对应的特征向量提取策略是采用音频特征提取网络进行特征提取，音频特征提取网络可以是VGGish网络，VGGish网络将音频输入转化为具有语义和有意义的高维度特征向量；

若任一模态信息是视频模态信息，则任一模态信息对应的特征向量提取策略是采用图像特征提取网络进行特征提取，图像特征提取网络可以是卷积神经网络(Convolutional Neural Network,CNN)，卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一，主要是用于对图像进行特征提取。在使用卷积神经网络CNN对视频模态信息进行特征提取时，可以是采取CNN网络中resnest-101以视频模态信息中以8帧为一个单位进行特征提取；

若任一模态信息是文本模态信息，则任一模态信息对应的特征提取策略时采用词向量技术进行特征提取。词向量，又叫Word嵌入式自然语言处理中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲，词向量涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。

步骤S203、确定各个特征向量对应的相似度集合。

在一个实施例中，每个特征向量对应的相似度集合中包括该特征向量与多个特征向量中各个特征向量之间的相似度，例如多个特征向量包括第一特征向量、第二特征向量和第三特征向量，第一特征向量对应的相似度集合中包括第一特征向量与第一特征向量之间的相似度、第一特征向量与第二特征向量之间的相似度，以及第一特征向量与第三特征向量之间的相似度；第二特征向量对应的相似度集合中包括第二特征向量与第一特征向量之间的相似度、第二特征向量与第二特征向量之间的相似度，以及第二特征向量与第三特征向量之间的相似度。

在一个实施例中，下面以任一特征向量为例介绍如何确定各个特征向量对应的相似度集合，具体地：计算任一特征向量与多个特征向量中每个特征向量之间的距离，得到任一特征向量与每个特征向量之间的相似度，将任一特征向量与每个特征向量之间的相似度存入到该任一特征向量对应的相似度集合中。

另一个实施例中，确定各个特征向量对应的相似度集合还可以是通过自注意力机制实现的，这部分内容将在后面的实施例中具体介绍。

步骤S204、基于各个特征向量对应的相似度集合进行融合处理得到融合特征向量，并基于融合特征向量对待处理视频进行类别预测，得到待处理视频所属类别。

在一个实施例中，基于各个特征向量对应的相似度集合进行融合处理得到融合特征向量，可以包括：将任一特征向量与各个特征向量之间的相似度作为任一特征向量与相应特征向量进行相乘运算的权重系数，将任一特征向量与各个特征向量按照各自对应的权重系数进行相乘运算，然后将各个相乘运算结果进行相加处理，得到任一特征向量的待融合向量；将多个特征向量对应的待融合向量组成了融合特征向量。

举例来说，假设多个特征向量包括特征向量1、特征向量2以及特征向量3，特征向量1对应的相似度集合中包括特征向量1与特征向量1之间的相似度为相似度11，特征向量1与特征向量2之间的相似度为相似度12，特征向量1与特征向量3之间的相似度为相似度13，那么特征向量1对应的待融合向量计算公式如下：特征向量1*相似度11+特征向量2*相似度12+特征向量3*相似度13。应当理解的，上述是以任一特征向量的数量是1个为例，在实际应用中，任一特征向量的数量可能为多个，如果任一特征向量的数量为多个，那么在确定任一特征向量对应的待融合向量时，是将各个任一特征向量进行上述相同的相乘后相加运算，得到每个任一特征向量对应的待融合向量，这些待融合向量拼接在一起作为任一特征向量对应的待融合向量。

在另一个实施例中，基于各个特征向量对应的相似度集合进行融合处理得到融合特征向量可以是基于自注意机制实现的，具体实现方式可参见后面实施例中具体描述，此处不再赘述。

本发明实施例中，当需要对待处理视频进行分类时，获取待处理视频的多个模态信息，每个模态信息通过一种信息类型反映该待处理视频中内容；进一步的，对每个模态信息进行特征提取，得到每个模态信息对应的特征向量，然后，计算每个模态信息对应的相似度集合，该相似度集合中反映了各个模态信息与多个模态信息中每个模态信息的相似度；基于各个特征向量对应的相似度集合对多个特征向量进行融合，最后基于融合特征向量对待处理视频进行类别预测，从而得到该待处理视频所属类别。在上述视频处理过程中，每个模态信息可以从一个方面或者说从一个角度用来反映待处理视频中内容，通过将多个模态信息进行特征提取后融合，融合后的特征能够更加全面的反映视频内容，从而基于该融合后的特征进行视频类别预测时，可以提高视频分类的准确性。

基于上述视频处理方法的实施例，本发明实施例基于Transformer的算法框架提出了一种类别预测模型，又可以称为BLENDer模型，该类别预测模型可以包括特征编码模块、自注意力模块以及模态分析输出模块。基于类别预测模型和上述视频处理方法，本发明实施例提供了另一种视频处理方法。参见图3，为本发明上述提供的另一种视频处理方法的流程示意图。图3所示的视频处理方法可由视频处理设备执行，具体可由视频处理设备的处理器执行，该视频处理设备可以是终端或者服务器，终端可以包括但不限于智能手机、平板电脑、膝上计算机、可穿戴设备、台式计算机，等等。服务器可以是独立的物理服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、内容分发网络(Content Delivery Network，CDN)、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器，等等。

图3所示的视频处理方法主要介绍如何对类别预测模型进行训练以及如何基于类别预测模型对待处理视频进行类别预测处理。图3所示的视频处理方法可包括如下步骤：

步骤S301、获取训练样本集合，训练样本集合包括第一样本视频、第二样本视频以及第二样本视频对应的类别标签。

在一个实施例中，训练样本集合用于对类别预测模型进行训练以使训练完成后的类别预测模型可以对待处理视频进行类别预测。其中，第一样本视频和第二样本视频的数量均可以是至少一个，第一样本视频和第二样本视频可以是相同的，也可以是不同的。第二样本视频对应的类别标签用于指示第二样本视频所属类别，比如手工品、杂技以及书法等等。

步骤S302、获取第一样本视频包括的多个样本模态信息，并基于多个样本模态信息对类别预测模型进行预训练。

在一个实施例中，第一样本视频包括的多个样本模态信息可以包括音频模态信息、视频模态信息以及文本模态信息，音频模态信息可以是对第一样本视频进行语音信息提取得到的，视频模态信息可以包括组成第一样本视频的多帧连续图像，文本模态信息可以是对第一样本视频进行语音识别处理和文本识别处理得到的。

作为一种可选的实施方式，基于多个样本模态信息对类别预测模型进行预训练的主要目的是使类别预测模型基于同一个视频包括的多个模态信息之间的关联预测任意一个模态信息中被掩膜掉的内容。具体实现中，基于多个样本模态信息对类别预测模型进行预训练，包括如下步骤：

S1：从任一样本模态信息中确定待掩膜处理的参考内容，并为该参考内容添加掩膜。

其中，由前述可知，任一模态信息中可以包括至少一个信息内容，同样的，任一样本模态信息中也可以包括至少一个信息内容。在一个实施例中，从任一样本模态信息中确定待掩膜处理的参考内容可以是将任一样本模态信息中任一信息内容确定为参考内容。比如，任一样本模态信息是指文本模态信息，文本模态信息包括的信息内容可以是字词，文本模态信息包括的字词可以为多个，具体可以为“家常”“XX菜”“制作”“方法”，可以将上述任意一个字词确定为该文本模态信息中待掩膜处理的参考内容，比如，将“XX菜”作为待掩膜处理的参考内容；再如，任一样本模态信息是指视频模态信息，视频模态信息中包括的信息内容是指多帧图像，假设视频模态信息包括5帧图像，那么可以将这5帧图像中任意一帧作为待掩膜处理的参考内容。

任一模态信息中可能包括无意义的信息内容，这部分信息内容可能不需要进行掩膜处理，以及预测，比如，对于文本模态信息中，“啊”、“的”、“然后”等这些信息内容是无意义的。为了提高类别预测模型的训练效率，使得类别预测模型能够更加高效的训练，本发明实施例在确定参考内容时，可以过滤掉这些信息内容。

因此，作为另一种可选的实施方式，本发明实施例可以为每一种模态信息设置一个掩膜处理条件，然后基于掩膜处理条件来确定任一模态信息中待掩膜处理的参考内容。具体实现中，从任一样本模态信息中确定待掩膜出来的参考内容，包括：确定任一模态信息中符合掩膜处理条件的信息内容，从符合掩膜处理条件的信息内容中选择任一信息内容作为参考内容。

对于文本模态信息，预先设置一个中文停用词表如图4所示，符合掩膜条件的信息内容是不在中文停用词表中的字词；对于音频模态信息，可以预先设置一个语音停用表，符合掩膜条件的信息内容是指不在语音停用表中的语音；对于视频模态信息，可以预先设置一个图像停用表，符合掩膜条件的信息内容可以指不在图像停用表中的图像。

S2：将添加掩膜的任一样本模态信息和其他样本模态信息组成一个预训练样本，并调用所述类别预测模型基于该训练样本预测被掩膜任一样本模态信息中被掩膜处理的预测内容。

其中，第一样本视频包括的多个样本模态信息的数量为多少，基于多个样本模态信息得到的预训练样本的数量为多少。比如，多个样本模态信息包括3个模态信息，分别为音频模态信息、视频模态信息和文本模态信息，对音频模态信息中参考内容进行掩膜处理，将掩膜处理后的音频模态信息与视频模态信息和文本模态信息组成一个预训练样本；对视频模态信息中参考内容进行掩膜处理，将掩膜处理后的视频模态信息与音频模态信息和文本模态信息又组成一个预训练样本；再如，将文本模态信息中参考内容进行掩膜处理，将掩膜处理后的文本模态信息、视频模态信息和音频模态信息又组成一个预训练样本。

在一个实施例中，调用所述类别预测模型基于所述预训练样本预测所述任一样本模态信息中被掩膜处理的预测内容的实质是调用类别预模型中的自注意力模块在基于多个模态信息还原被掩膜掉的内容时，寻找自注意力分数较高的关联内容，作为被掩膜处理的预测内容。

应当理解的，上述只以如何得到任意一个预训练样本，以及得到任意一个预训练样本对应的预测内容为例，本发明实施例中可以采用上述方法得到多个预训练样本以及多个预训练样本对应的预测内容。

S3：根据预测内容和参考内容训练类别预测模型。

具体实现中，获取类别预测模型对应的损失函数；根据参考内容和预测内容确定损失函数的值；按照减小损失函数的值方向更新类别预测模型的模型参数，以对类别预测模型进行训练。其中，类别预测模型对应的损失函数可以是交叉熵函数，可以表示为如下公式(1)所示：

在公式(1)中，k表示预训练样本的数量，由前述可知，对于一个第一样本视频每次输入到类别预测模型中的多个模态信息中只对一个模态信息进行掩膜处理，如果第一样本视频包括的样本模态信息的数量为3个，那么一个第一样本视频可以拆分成三个样本输入到类别预测模型中进行预训练，每一个样本对应一个预测内容。因此，此处预训练样本的数量也可以理解为是输出预测内容的数量。Y_k表示第k个预训练样本对应的参考内容，k为任意一个值，表示第k个预训练样本对应的预测内容。

将预测内容和参考内容带入到上述公式中进行运算，便可得到损失函数的值。应当理解的，本发明实施例中只是以预训练样本数量为一个为例，如果预训练样本数量为多个，则会得到多个预测内容和多个参考内容，那么将多个预测内容和多个参考内容带入到上述损失函数中进行运算，得到损失函数的值。

得到损失函数的值后，按照减小损失函数的值方向更新类别预测模型的模型参数直至损失函数的值满足某个阈值，则确定类别预测模型收敛，可结束对类别预测模型的预训练。

本发明实施例中，为了提高类别预测模型的鲁棒性，在调用类别预测模型对预训练样本进行分析处理，预测任一样本模态信息中被掩膜处理的预测内容时，还可以在类别预测模型中输入对抗噪声。具体实现中，若多个样本模态信息包括音频模态信息、视频模态信息以及文本模态，则调用所述类别预测模型对所述预训练样本进行分析处理，得到任一样本模态信息中被掩膜处理的预测内容，包括：获取文本模态信息对应的第一对抗噪声以及视频模态信息对应的第二对抗噪声；调用类别预测模型基于第一对抗噪声、第二对抗噪声以及预训练样本，预测任一样本模态信息中被掩膜处理的预测内容。其中，文本模态信息的第一对抗噪声以及视频模态信息第二对抗噪声可以是在训练的每一次迭代过程中通过几步更新得到的，可以采用现有产生对抗噪声的方法生成对抗噪声，本发明实施例不展开介绍。

举例来说，假设视频模态信息包括多帧连续图像如图5中501所示，对视频模态信息进行特征提取处理得到视频模态信息对应的特征向量可以表示为502所示；视频模态信息对应的第二对抗噪声可以表示为503所示。

为了进一步提高类别预测模型的准确性和鲁棒性，视频处理设备还可以采用反向翻译技术来扩充第一样本视频的文本模态信息。反向翻译技术是将源语种翻译到目标语种再翻译回源语种。例如，源语种为英文，源语种的文本模态信息为：“A boy is riding abike”，将其翻译成中文文本“一个男孩骑着自行车”，然后再将中文文本翻译回英文，得到扩充的文本模态信息为“A boy is riding abicycle”；再如，将源语种的文本模态信息翻译为俄语文本“мальчикедетнавелосипеде”，然后再将俄语文本翻译回英文，得到扩充的文本模态信息为“Boy riding a bike”。

由上述可见，翻译回来的文本模态信息和源文本模态信息含义相同，但形式不同，这样就达到了文本模态信息扩充的目的。

另一个实施例中，可以采用文本生成技术来扩充第一样本视频的文本模态信息，具体地，可以使用类似于GPT-2(一种用于文本生成的算法模型)模型中的因果语言模型(Causal Language Modeling，CLM)文本生成方法生成多样化的文本模态信息。反向翻译技术和文本生成技术这两项文本模态信息的扩充可以增进类别预测模型BLENDer对同义词、同义句的理解，避免类别预测模型将不同模态信息关联到不想干的词语、语法以及句法上，进一步提升了类别预测模型的鲁棒性。

基于此，第一样本视频的文本模态信息包括第一类文本模态信息和第二类文本模态信息，第一类文本模态信息是通过下述任意一种或多种方式得到的：样本视频进行文本识别、对样本视频进行语音识别；第二类文本模态信息是通过对第一类文本模态信息进行反向翻译处理得到的。

在一个实施例中，本发明实施中，将Roberta，而不是BERT(Bidrectional EncoderRepresentations from Transformer一种自然语言理解的算法模型)作为类别预测模型的主干网络，Roberta是基于BERT的，但是Roberta采用了更优的训练策略，更多的训练文本和更长的训练时间，经过测试，Roberta在长文本、非常用语言上具有更高的鲁棒性，显著提升了下游多模态信息理解任务的性能。

步骤S303、基于第二样本视频和和第二样本视频对应的类别标签对预训练后的类别预测模型进行更新训练。

在一个实施例中，第二样本视频和第一样本视频可以是相同的，也可以是不同的，采用第二样本视频和第二样本视频对应的类别标签对预训练后的类别预测模型进行更新训练的目的是为了使得类别预测模型可以用于对视频进行分类。第二样本视频对应的类别标签用于指示第二样本视频所属类别。

可选的，基于第二样本视频和第二样本视频对应的类别标签对预训练后的类别预测模型进行更新训练，可以包括：获取第二样本视频的多个模态信息；采用类别预测模型中的特征编码模块对多个模态信息进行特征提取处理得到多个特征向量；调用类别预测模型包括的自注意力模块确定每个特征向量对应的相似度集合，以及基于每个特征向量对应的相似度集合进行特征融合处理得到融合特征向量；调用类别预测模型中的模态分析输出模块基于融合特征向量对第二样本视频进行类别预测，得到第二样本视频所属预测类别；基于预测类别和类别标签调整类别预测模型的模型参数，直至模型达到收敛。

其中，获取第二样本视频的多个模态信息，以及对多个模态信息进行特征提取处理得到多个特征向量的实施方式，与获取待处理视频的多个模态信息以及对多个模态信息进行特征提取得到多个特征向量的实施例方式相同，具体可参见图2实施例中相关步骤描述，在此不再赘述。

可选的，基于预测类别和类别标签调整类别预测模型的参数的实施方式，与基于预测内容和参考内容调整类别预测模型的模型参数的实施方式相同，均是基于交叉熵损失函数实现的，具体可参见前述描述，此处不再赘述。

步骤S304、获取待处理视频包括的多个模态信息。

步骤S305、调用类别预测模型中的特征编码模块对多个模态信息进行特征提取处理得到多个特征向量。

在一个实施例中，步骤S304和步骤S305中包括的一些可行实施例可参见图2实施例中相关步骤的描述，此处不再赘述。

步骤S306、调用类别预测模型中的自注意力模块确定各个特征向量对应的相似度集合。

在一个实施例中，确定各个特征向量对应的相似度集合可以是调用类别预测模型中的自注意力模块执行的，自注意力模块的数量可以为一个或多个，下面以一个自注意力模块为例，介绍如何基于自注意力模块确定各个特征向量对应的相似度集合：将每个特征向量分别与查询参考矩阵和关键参考矩阵进行相乘运算，得到每个特征向量对应的查询向量和关键向量；将任一特征向量对应的查询向量分别与各个特征向量对应的关键向量进行点积运算得到任一特征向量与各个特征向量之间的相似度，并将得到的相似度存入任一特征向量对应的相似度集合中。

在一个实施例中，本发明实施例每个自注意力模块中可以是多头自意力结构，多头自注意力结构如图6所示，假设多头注意力结构包括h个自注意力模块，每个特征向量得到的K，Q，V进行一个线性变换，然后输入到放缩点积进行多次运算得到多个某个特征向量与各个特征向量之间的相似度，得到的运算结果进行拼接，然后将拼接的结果再进行一次线性变换得到多头自注意力机制的输出结果。这样做的好处是可以允许模型在不同的表示子空间里学习到相关的信息。

步骤S307、调用类别预测模型中的自注意力模块基于各个特征向量对应的相似度集合进行融合处理得到融合特征向量，并调用类别预测模型中的模态分析输出模块基于融合特征向量对待处理视频进行类别预测，得到待处理视频所属类别。

在一个实施例中，多个特征向量的数量为N，任一特征向量对应的相似度集合中包括N个相似度，基于各个特征向量对应的相似度集合进行融合处理得到融合特征向量，包括：确定多个特征向量中各个特征向量对应的待融合特征向量；将各个特征向量对应的待融合特征向量进行拼接得到融合特征向量。下面以多个特征向量中第n个特征向量为例，介绍如何得到每个特征向量对应的待融合特征向量。

可选的，基于第n个特征向量对应的相似度集合以及每个特征向量对应的值向量，确定第n个特征向量对应的待融合特征向量，包括：从第n个特征向量对应的相似度集合中选取第i个相似度，以及获取第i个相似度对应的第i个特征向量，并获取第i个特征向量对应的值向量；其中，第i个特征向量与第n个特征向量之间的相似度等于第i个相似度；i为大于等于1且小于等于N的整数；将第i个相似度与第i个特征向量对应的值向量进行相乘运算，得到相乘运算结果，并存入相乘运算结果集合中；若相似度集合中存在未被选取的相似度，则将未被选取的相似度作为第i个相似度，并触发执行获取第i个相似度对应的第i个特征向量的步骤；若相似度集合中不存在未被选取的相似度，则将相乘运算结果集合中的相乘运算结果进行加权平均运算，得到第n个特征向量对应的融合特征向量。

综上所述，调用自注意模块得到融合特征向量的原理可以概括为：每个自注意力模块对每个特征向量计算关键向量K、查询向量Q以及值向量V，并以K和Q向量的点积作为每个特征向量与各个特征向量之间的注意力分数，也可以理解为相似度，进一步的，计算不同特征向量的值向量的加权平均作为融合特征向量，该过程可参见图7所示，得到每个特征向量的K，Q，V后，将K和Q进行矩阵乘法运算MatMul，运算后进行放缩scale处理和掩膜MASK处理，然后进行归一化处理后再与各个特征向量的V进行矩阵乘法运算，最后输出一个融合特征向量。

图3实施例中所述的视频处理方法在视频类别预测时，具体的应用具体应用的场景图可参见图8a和图8b所示，提取一段视频的视频模态信息visual feature、文本模态信息text以及音频模态信息audio feature，并将提取到的多模态信息输入到类别预测模型BLENDer中进行预测处理，最后输出该待处理视频所属的视频类别，比如可以是书法类、杂技类以及手工艺类等等。

本发明实施例中，预先训练一个具备视频分类能力的类别预测模块，当需要对待处理视频进行分类时，获取待处理视频的多个模态信息，每个模态信息通过一种信息类型反映该待处理视频中内容；进一步的，调用类别预测模型中的特征编码模块对每个模态信息进行特征提取，得到每个模态信息对应的特征向量，然后，调用类别预测模型中的自注意力模块计算每个模态信息对应的相似度集合，该相似度集合中反映了各个模态信息与多个模态信息中每个模态信息的相似度，并基于各个特征向量对应的相似度集合对多个特征向量进行融合，最后调用类别预测模型中的模态分析模块基于融合特征向量对待处理视频进行类别预测，从而得到该待处理视频所属类别。在上述视频处理过程中，类别预测模型是预先训练好的，每个模态信息可以从一个方面或者说从一个角度用来反映待处理视频中内容，通过将多个模态信息进行特征提取后融合，融合后的特征能够更加全面的反映视频内容，从而调用类别预测模型基于该融合后的特征进行视频类别预测时，可以提高视频分类的准确性。

基于上述的视频处理方法的实施例，本发明实施例提供了一种视频处理装置。参见图9，为本发明实施例提供的一种视频处理装置的结构示意图。图9所示的视频处理装置可运行如下单元：

获取单元901，用于获取待处理视频包括的多个模态信息，每个模态信息通过一种信息类型反映所述待处理视频中内容；

处理单元902，用于对所述多个模态信息进行特征提取处理得到多个特征向量，一个模态信息对应一个特征向量；

确定单元903，用于确定各个特征向量对应的相似度集合，任一特征向量对应的相似度集合包括所述任一特征向量与所述多个特征向量中各个特征向量之间的相似度；

所述处理单元902，还用于基于所述各个特征向量对应的相似度集合进行融合处理得到融合特征向量，并基于融合特征向量对所述待处理视频进行类别预测，得到所述待处理视频所属类别。

在一个实施例中，确定单元903在确定各个特征向量对应的相似度集合时，执行如下步骤：将每个特征向量分别与查询参考矩阵和关键参考矩阵进行相乘运算，得到每个特征向量对应的查询向量和关键向量；将所述任一特征向量对应的查询向量分别与各个特征向量对应的关键向量进行放缩点积运算得到所述任一特征向量与各个特征向量之间的相似度，并将得到的相似度存入所述任一特征向量对应的相似度集合中。

在一个实施例中，处理单元902在于所述各个特征向量对应的相似度集合进行融合处理得到融合特征向量时，执行如下步骤：基于所述各个特征向量对应的相似度集合确定所述多个特征向量中各个特征向量对应的待融合特征向量；将所述各个特征向量对应的待融合特征向量进行拼接得到融合特征向量。

在一个实施例中，所述多个特征向量的数量为N，任一特征向量对应的相似度集合中包括N个相似度，所述多个特征向量中包括第n个特征向量，n为大于等于1且小于等于N个的任意整数；所述处理单元902在基于所述各个特征向量对应的相似度集合确定所述多个特征向量中各个特征向量对应的待融合的特征向量时，执行如下步骤：

从所述第n个特征向量对应的相似度集合中选取第i个相似度，以及获取所述第i个相似度对应的第i个特征向量，并获取所述第i个特征向量对应的值向量；其中，所述第i个特征向量与所述第n个特征向量之间的相似度等于第i个相似度；i为大于等于1且小于等于N的整数；

将所述第i个相似度与所述第i个特征向量对应的值向量进行相乘运算，得到相乘运算结果，并存入相乘运算结果集合中；若所述相似度集合中存在未被选取的相似度，则将未被选取的相似度作为第i个相似度，并触发执行获取所述第i个相似度对应的第i个特征向量的步骤；若所述相似度集合中不存在未被选取的相似度，则将所述相乘运算结果集合中的相乘运算结果进行加权平均运算，得到所述第n个特征向量对应的待融合特征向量。

在一个实施例中，处理单元902在对所述多个模态信息中任一模态信息进行特征提取处理，得到所述任一模态信息对应的特征向量时，执行如下步骤：对所述任一模态信息进行编码处理得到所述任一模态信息的编码信息；获取所述任一模态信息对应的特征向量提取策略，并采用所述任一模态信息对应的特征向量提取策略对所述任一模态信息进行特征提取处理，得到所述任一模态信息对应的初始特征向量；将所述任一模态信息的编码信息转换为向量表示，并将所述初始特征向量和转换为向量表示的编码信息进行相加运算，得到所述任一模态信息对应的特征向量。

在一个实施例中，多个模态信息包括音频模态信息、视频模态信息以及文本模态信息中任意两种或三种；所述音频模态信息对应的特征向量提取策略是采用音频特征提取网络进行特征提取；所述视频模态信息对应的特征向量提取策略是采用图像特征提取网络进行特征提取；所述文本模态信息对应的特征提取策略是采用词向量技术进行特征提取。

在一个实施例中，对所述多个模态信息中每个模态信息进行特征提取处理得到多个特征向量是调用类别预测模型中的特征编码模块执行的；所述确定各个特征向量对应的相似度集合以及所述基于各个特征向量对应的相似度集合进行融合处理得到融合特征向量是调用类别预测模型中的自注意力模块执行的；所述基于融合特征向量对所述待处理视频进行类别预测得到所述待处理视频所属类别是调用所述类别预测模型中的模态分析输出模块执行的。

在一个实施例中，获取单元901，还用于获取训练样本集合，所述训练样本集合包括第一样本视频、第二样本视频以及所述第二样本视频对应的类别标签，所述第二样本视频对应的类别标签用于指示所述第二样本视频所属类别；获取所述第一样本视频对应的多个样本模态信息，并基于所述多个样本模态信息对所述类别预测模型进行预训练；处理单元902，还用于基于所述第二样本视频和所述第二样本视频对应的类别标签对预训练后的类别预测模型进行更新训练。

在一个实施例中，处理单元902在基于所述多个样本模态信息对所述类别预测模型进行预训练时，执行如下步骤：

从任一样本模态信息中确定待掩膜处理的参考内容，并为所述参考内容添加掩膜；将添加掩膜的任一样本模态信息和其他样本模态信息组成一个预训练样本，并调用所述类别预测模型对所述预训练样本进行分析处理，得到所述任一样本模态信息中被掩膜处理的预测内容；根据所述参考内容和所述预测内容训练所述类别预测模型。

在一个实施例中，处理单元902在根据所述参考内容与所述预测内容训练所述类别预测模型时，执行如下步骤：获取所述类别预测模型对应的损失函数；根据所述参考内容和所述预测内容确定所述损失函数的值；按照减小所述损失函数的值方向更新所述类别预测模型的模型参数。

在一个实施例中，若所述多个样本模态信息包括音频模态信息、视频模态信息以及文本模态信息，则处理单元902在调用所述类别预测模型对所述预训练样本进行分析处理，得到所述任一样本模态信息中被掩膜处理的预测内容时，执行如下步骤：

获取所述文本模态信息对应的第一对抗噪声以及所述视频模态信息对应的第二对抗噪声；调用所述类别预测模型基于所述第一对抗噪声、所述第二对抗噪声以及所述预训练样本，预测所述任一样本模态信息中被掩膜处理的预测内容。

在一个实施例中，所述文本模态信息包括第一类文本模态信息和第二类文本模态信息，所述第一类文本模态信息是通过下述任意一种或多种方式得到的：所述样本视频进行文本识别、对所述样本视频进行语音识别；所述第二类文本模态信息是通过对所述第一类文本模态信息进行反向翻译处理得到的。

根据本发明的一个实施例，图2以及图3所示的视频处理方法所涉及各个步骤可以是由图9所示的视频处理装置中的各个单元来执行的。例如，图2所述的步骤S201可由图9中所述的视频处理装置中的获取单元901来执行，步骤S202和步骤S204可由图9所示的视频处理装置中处理单元902来执行，步骤S203可由图9所示的视频处理装置中确定单元903来执行；再如，图3所述的步骤S301、步骤S302和步骤S304可由图9所述的视频处理装置中获取单元901来执行，步骤S303和步骤S305-步骤S307可由图9所述的视频处理装置中处理单元902来执行。

根据本发明的另一个实施例，图9所示的视频处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于视频处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本发明的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2和图3所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图9中所示的视频处理装置，以及来实现本发明实施例视频处理方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述计算设备中，并在其中运行。

基于上述的视频处理方法实施例以及视频处理装置实施例，本发明实施例提供了一种视频处理设备。参见图10，为本发明实施例提供的一种视频处理设备的结构示意图，图10所示的视频处理设备可至少包括处理器1001、输入接口1002、输出接口1003以及计算机存储介质1004。其中，处理器1001、输入接口1002、输出接口1003以及计算机存储介质1004可通过总线或其他方式连接。

计算机存储介质1004可以存储在视频处理设备的存储器中，所述计算机存储介质1004用于存储计算机程序，所述处理器1001用于执行所述计算机存储介质1004存储的程序计算机程序。处理器1001(或称CPU(Central Processing Unit，中央处理器))是视频处理设备的计算核心以及控制核心，其适于实现一条或多条计算机程序，具体适于加载并执行一条或多条计算机程序从而执行：

获取待处理视频包括的多个模态信息，每个模态信息通过一种信息类型反映所述待处理视频中内容；对所述多个模态信息进行特征提取处理得到多个特征向量，一个模态信息对应一个特征向量；确定各个特征向量对应的相似度集合，任一特征向量对应的相似度集合包括所述任一特征向量与所述多个特征向量中各个特征向量之间的相似度；基于所述各个特征向量对应的相似度集合进行融合处理得到融合特征向量，并基于融合特征向量对所述待处理视频进行类别预测，得到所述待处理视频所属类别。

本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是视频处理设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括视频处理设备中的内置存储介质，当然也可以包括视频处理设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了视频处理设备的操作系统。并且，在该存储空间中还存放了适于被处理器1001加载并执行的一条或多条的计算机程序。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，计算机存储介质中存储的计算机程序可由处理器1001加载并执行，以实现上述有关图2以及图3的视频处理方法实施例中的相应步骤，具体实现中，计算机存储介质中的一条或多条计算机程序由处理器1001加载并执行如下步骤：

在一个实施例中，所述处理器1001在确定各个特征向量对应的相似度集合时，执行如下步骤：

将每个特征向量分别与查询参考矩阵和关键参考矩阵进行相乘运算，得到每个特征向量对应的查询向量和关键向量；将所述任一特征向量对应的查询向量分别与各个特征向量对应的关键向量进行放缩点积运算得到所述任一特征向量与各个特征向量之间的相似度，并将得到的相似度存入所述任一特征向量对应的相似度集合中。

在一个实施例中，所述处理器1001在基于所述各个特征向量对应的相似度集合进行融合处理得到融合特征向量时，执行如下步骤：

基于所述各个特征向量对应的相似度集合确定所述多个特征向量中各个特征向量对应的待融合特征向量；将所述各个特征向量对应的待融合特征向量进行拼接得到融合特征向量。

在一个实施例中，所述多个特征向量的数量为N，任一特征向量对应的相似度集合中包括N个相似度，所述多个特征向量中包括第n个特征向量，n为大于等于1且小于等于N个的任意整数，所述处理器1001在基于所述各个特征向量对应的相似度集合确定所述多个特征向量中各个特征向量对应的待融合的特征向量时，执行如下步骤：

将所述第i个相似度与所述第i个特征向量对应的值向量进行相乘运算，得到相乘运算结果，并存入相乘运算结果集合中；

若所述相似度集合中存在未被选取的相似度，则将未被选取的相似度作为第i个相似度，并触发执行获取所述第i个相似度对应的第i个特征向量的步骤；

若所述相似度集合中不存在未被选取的相似度，则将所述相乘运算结果集合中的相乘运算结果进行加权平均运算，得到所述第n个特征向量对应的待融合特征向量。

在一个实施例中，所述处理器1001在对所述多个模态信息中任一模态信息进行特征提取处理，得到所述任一模态信息对应的特征向量时，执行如下步骤：

对所述任一模态信息进行编码处理得到所述任一模态信息的编码信息；获取所述任一模态信息对应的特征向量提取策略，并采用所述任一模态信息对应的特征向量提取策略对所述任一模态信息进行特征提取处理，得到所述任一模态信息对应的初始特征向量；将所述任一模态信息的编码信息转换为向量表示，并将所述初始特征向量和转换为向量表示的编码信息进行相加运算，得到所述任一模态信息对应的特征向量。

在一个实施例中，所述处理器1001还用于执行：

获取训练样本集合，所述训练样本集合包括第一样本视频、第二样本视频以及所述第二样本视频对应的类别标签，所述第二样本视频对应的类别标签用于指示所述第二样本视频所属类别；获取所述第一样本视频对应的多个样本模态信息，并基于所述多个样本模态信息对所述类别预测模型进行预训练；基于所述第二样本视频和所述第二样本视频对应的类别标签对预训练后的类别预测模型进行更新训练。

在一个实施例中，所述处理器1001在基于所述多个样本模态信息对所述类别预测模型进行预训练时，执行如下步骤：从任一样本模态信息中确定待掩膜处理的参考内容，并为所述参考内容添加掩膜；将添加掩膜的任一样本模态信息和其他样本模态信息组成一个预训练样本，并调用所述类别预测模型对所述预训练样本进行分析处理，得到所述任一样本模态信息中被掩膜处理的预测内容；根据所述参考内容和所述预测内容训练所述类别预测模型。

在一个实施例中，所述处理器1001在根据所述参考内容与所述预测内容训练所述类别预测模型时，执行如下步骤：获取所述类别预测模型对应的损失函数；根据所述参考内容和所述预测内容确定所述损失函数的值；按照减小所述损失函数的值方向更新所述类别预测模型的模型参数。

在一个实施例中，若所述多个样本模态信息包括音频模态信息、视频模态信息以及文本模态信息，则所述处理器1001在调用所述类别预测模型对所述预训练样本进行分析处理，得到所述任一样本模态信息中被掩膜处理的预测内容时，执行如下步骤：

本发明实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序存储在计算机可读存储介质中。视频处理设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该视频处理设备执行上述如图2或图3所示的视频处理方法实施例。其中，计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待处理视频包括的多个模态信息，每个模态信息通过一种信息类型反映所述待处理视频中内容；

对所述多个模态信息进行特征提取处理得到多个特征向量，一个模态信息对应一个特征向量；

确定各个特征向量对应的相似度集合，任一特征向量对应的相似度集合包括所述任一特征向量与所述多个特征向量中各个特征向量之间的相似度；

基于所述各个特征向量对应的相似度集合确定所述多个特征向量中各个特征向量对应的待融合特征向量；

将所述各个特征向量对应的待融合特征向量进行融合处理得到融合特征向量，并基于融合特征向量对所述待处理视频进行类别预测，得到所述待处理视频所属类别；

其中，所述多个特征向量的数量为N，任一特征向量对应的相似度集合中包括N个相似度，所述多个特征向量中包括第n个特征向量，n为大于等于1且小于等于N个的任意整数，所述基于所述各个特征向量对应的相似度集合确定所述多个特征向量中各个特征向量对应的待融合的特征向量，包括：从所述第n个特征向量对应的相似度集合中选取第i个相似度，以及获取所述第i个相似度对应的第i个特征向量，并获取所述第i个特征向量对应的值向量；其中，所述第i个特征向量与所述第n个特征向量之间的相似度等于第i个相似度；i为大于等于1且小于等于N的整数；

2.如权利要求1所述的方法，其特征在于，所述确定各个特征向量对应的相似度集合，包括：

将每个特征向量分别与查询参考矩阵和关键参考矩阵进行相乘运算，得到每个特征向量对应的查询向量和关键向量；

将所述任一特征向量对应的查询向量分别与各个特征向量对应的关键向量进行放缩点积运算得到所述任一特征向量与各个特征向量之间的相似度，并将得到的相似度存入所述任一特征向量对应的相似度集合中。

3.如权利要求2所述的方法，其特征在于，所述将所述各个特征向量对应的待融合特征向量进行融合处理得到融合特征向量，包括：

将所述各个特征向量对应的待融合特征向量进行拼接得到融合特征向量。

4.如权利要求1所述的方法，其特征在于，对所述多个模态信息中任一模态信息进行特征提取处理，得到所述任一模态信息对应的特征向量，包括：

对所述任一模态信息进行编码处理得到所述任一模态信息的编码信息；

获取所述任一模态信息对应的特征向量提取策略，并采用所述任一模态信息对应的特征向量提取策略对所述任一模态信息进行特征提取处理，得到所述任一模态信息对应的初始特征向量；

将所述任一模态信息的编码信息转换为向量表示，并将所述初始特征向量和转换为向量表示的编码信息进行相加运算，得到所述任一模态信息对应的特征向量。

5.如权利要求4所述的方法，其特征在于，所述多个模态信息包括音频模态信息、视频模态信息以及文本模态信息中任意两种或三种；

所述音频模态信息对应的特征向量提取策略是采用音频特征提取网络进行特征提取；所述视频模态信息对应的特征向量提取策略是采用图像特征提取网络进行特征提取；所述文本模态信息对应的特征提取策略是采用词向量技术进行特征提取。

6.如权利要求1所述的方法，其特征在于，所述对所述多个模态信息中每个模态信息进行特征提取处理得到多个特征向量是调用类别预测模型中的特征编码模块执行的；所述确定各个特征向量对应的相似度集合以及所述基于各个特征向量对应的相似度集合进行融合处理得到融合特征向量是调用类别预测模型中的自注意力模块执行的；所述基于融合特征向量对所述待处理视频进行类别预测得到所述待处理视频所属类别是调用所述类别预测模型中的模态分析输出模块执行的。

7.如权利要求6所述的方法，其特征在于，所述方法还包括：

获取训练样本集合，所述训练样本集合包括第一样本视频、第二样本视频以及所述第二样本视频对应的类别标签，所述第二样本视频对应的类别标签用于指示所述第二样本视频所属类别；

获取所述第一样本视频对应的多个样本模态信息，并基于所述多个样本模态信息对所述类别预测模型进行预训练；

基于所述第二样本视频和所述第二样本视频对应的类别标签对预训练后的类别预测模型进行更新训练。

8.如权利要求7所述的方法，其特征在于，所述基于所述多个样本模态信息对所述类别预测模型进行预训练，包括：

从任一样本模态信息中确定待掩膜处理的参考内容，并为所述参考内容添加掩膜；

将添加掩膜的任一样本模态信息和其他样本模态信息组成一个预训练样本，并调用所述类别预测模型对所述预训练样本进行分析处理，得到所述任一样本模态信息中被掩膜处理的预测内容；

根据所述参考内容和所述预测内容训练所述类别预测模型。

9.如权利要求8所述的方法，其特征在于，所述根据所述参考内容与所述预测内容训练所述类别预测模型，包括：

获取所述类别预测模型对应的损失函数；

根据所述参考内容和所述预测内容确定所述损失函数的值；

按照减小所述损失函数的值方向更新所述类别预测模型的模型参数。

10.如权利要求8所述的方法，其特征在于，若所述多个样本模态信息包括音频模态信息、视频模态信息以及文本模态信息，则所述调用所述类别预测模型对所述预训练样本进行分析处理，得到所述任一样本模态信息中被掩膜处理的预测内容，包括：

获取所述文本模态信息对应的第一对抗噪声以及所述视频模态信息对应的第二对抗噪声；

调用所述类别预测模型基于所述第一对抗噪声、所述第二对抗噪声以及所述预训练样本，预测所述任一样本模态信息中被掩膜处理的预测内容。

11.如权利要求10所述的方法，其特征在于，所述文本模态信息包括第一类文本模态信息和第二类文本模态信息，所述第一类文本模态信息是通过下述任意一种或多种方式得到的：所述样本视频进行文本识别、对所述样本视频进行语音识别；所述第二类文本模态信息是通过对所述第一类文本模态信息进行反向翻译处理得到的。

12.一种视频处理装置，其特征在于，包括：

获取单元，用于获取待处理视频包括的多个模态信息，每个模态信息通过一种信息类型反映所述待处理视频中内容；

处理单元，用于对所述多个模态信息进行特征提取处理得到多个特征向量，一个模态信息对应一个特征向量；

确定单元，用于确定各个特征向量对应的相似度集合，任一特征向量对应的相似度集合包括所述任一特征向量与所述多个特征向量中各个特征向量之间的相似度；

所述处理单元，还用于基于所述各个特征向量对应的相似度集合确定所述多个特征向量中各个特征向量对应的待融合特征向量；将所述各个特征向量对应的待融合特征向量进行融合处理得到融合特征向量，并基于融合特征向量对所述待处理视频进行类别预测，得到所述待处理视频所属类别；其中，所述多个特征向量的数量为N，任一特征向量对应的相似度集合中包括N个相似度，所述多个特征向量中包括第n个特征向量，n为大于等于1且小于等于N个的任意整数；

所述处理单元，在所述基于所述各个特征向量对应的相似度集合确定所述多个特征向量中各个特征向量对应的待融合的特征向量时，具体用于：

13.一种视频处理设备，其特征在于，包括：

处理器，适于实现一条或多条指令，以及

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-11任一项所述的视频处理方法。

14.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如权利要求1-11任一项所述的视频处理方法。