CN112348111B

CN112348111B - 视频中的多模态特征融合方法、装置、电子设备及介质

Info

Publication number: CN112348111B
Application number: CN202011326975.5A
Authority: CN
Inventors: 张胜卓
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2022-07-08
Anticipated expiration: 2040-11-24
Also published as: CN112348111A

Abstract

本公开关于一种多模态特征融合方法、装置、电子设备及介质，该方法包括：获取视频样本集合；对视频样本集合中每一视频样本分别生成文本特征样本和视频特征样本；将视频样本集合中每一视频样本的文本特征样本和视频特征样本作为正样本，并将视频样本集合中每一视频样本的文本特征样本和其他视频样本的视频特征样本作为负样本；通过正样本和负样本对二分模型进行训练，直至二分模型的网络参数收敛，训练完成的二分模型用于通过中间层对待融合视频的文本特征和视频特征进行特征融合。本公开通过正样本和负样本实现了对二分模型的自监督训练，从而避免了人工的大规模标注，能够很好的应用于具有巨大数据量的视频处理中。

Description

视频中的多模态特征融合方法、装置、电子设备及介质

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频中的多模态特征融合方法、装置、电子设备及介质。

背景技术

随着4G/5G网络的高速发展，视频化的信息传播走向主流，短视频不断改变着人们的生活方式。近年来，综合性短视频平台发展迅猛，短视频的应用中同时提供有视频图像、语音、文本标签等多模态信息，对人们意图的表达更加丰富和立体，但是由于短视频数据本身的非结构化特点，给短视频的特征提取、信息检索、个性化推荐等需求带来较大难题，其中最大的问题是如何构建一种有效的方法，可以提取短视频的多模态信息到一个特征向量中，用该特征向量来表征多媒体的短视频综合信息，这为基于特征向量的短视频召回、相似性检索、个性化推荐提供了简便方式，因此短视频的特征提取方法变的越来越重要。

相关技术中，短视频的特征提取方法主要有通过人工标注数据进行的有监督训练和通过视频的图像信息进行无监督训练两大类方法，其中对于海量的视频信息而言，人工标注困难，工作量非常巨大，因此主要基于视频编解码技术或者无监督训练为主。但是，视频编解码技术只能利用短视频自身的图像在时间序列上做关键特征提取，而没有考虑短视频中图像、语音、文本等多模态信息间的关联；无监督训练是对视频图像进行聚类或对文本进行聚类，而视频图像和文本是各自独立的，无法进行两者间的融合。可见，相关技术中在海量的视频信息中无法提取视频中的多模态融合特征。

发明内容

本公开提供一种视频中的多模态特征融合方法、装置、电子设备及介质，以至少解决相关技术中无法对海量视频提取多模态融合特征的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种多模态特征融合的训练方法，包括：

获取视频样本集合；

对所述视频样本集合中每一视频样本分别生成结构化的文本特征样本和视频特征样本；

将所述视频样本集合中每一视频样本的文本特征样本和视频特征样本作为正样本，并将所述视频样本集合中每一视频样本的文本特征样本和其他视频样本的视频特征样本作为负样本；

通过所述正样本和所述负样本对二分模型进行训练，直至所述二分模型的网络参数收敛，得到训练完成的二分模型，所述训练完成的二分模型用于通过中间层对待融合视频的文本特征和视频特征进行特征融合。

可选的，所述对所述视频样本集合中每一视频样本分别生成结构化的文本特征样本和视频特征样本，包括：

获取所述视频样本集合中每一视频样本的视频文件、视频标题、分类标签和评论列表；

根据所述每一视频样本的视频文件中的文本信息、视频标题、分类标签和评论列表，生成每一视频样本的文本特征样本，所述文本特征样本的特征维度为预设维度；

对所述每一视频样本的视频文件中的视频帧进行对象特征和RGB语义特征的提取，根据所述每一视频样本中视频帧的对象特征和RGB语义特征生成每一视频样本的视频特征样本。

可选的，所述根据所述每一视频样本的视频文件中的文本信息、视频标题、分类标签和评论列表，生成每一视频样本的文本特征样本，包括：

针对当前视频样本，将所述当前视频样本的分类标签拼接为预设标签维度的标签文本，得到拼接标签；

将所述当前视频样本的视频标题处理为预设标题维度的视频标题，得到处理后标题；

将所述当前视频样本的评论列表中的评论文本处理为预设评论维度的评论文本，得到处理后评论文本；

从所述当前视频样本的视频文件中提取文本信息，并将该文本信息处理为预设视频文本维度的视频文本；

将所述拼接标签、处理后标签、处理后评论文本和视频文本拼接为文本序列，并对所述文本序列进行编码，得到当前视频样本的文本特征样本；所述预设维度为所述预设标签维度、预设标题维度、预设评论维度和预设视频文本维度之和；

针对每一视频样本，分别按照上述方式生成对应的文本特征样本。

可选的，将所述当前视频样本的评论列表中的评论文本处理为预设评论维度的评论，得到处理后评论文本，包括：

将所述当前视频样本的评论列表中的评论文本按照点赞量进行降序排列，选取排序在前的预设数量的评论文本；

将所述预设数量的评论文本连接为整体文本，并将所述整体文本截取或填充到长度为所述预设评论维度，得到处理后评论文本。

可选的，从所述当前视频样本的视频文件中提取文本信息，并将该文本信息处理为预设视频文本维度的视频文本，包括：

通过语音识别模型将所述当前视频样本的视频文件中的视频语音信息转换为文本信息，并将该文本信息处理为预设语音文本维度的语音文本；

通过光学字符识别OCR模型对所述当前视频样本的视频文件中的视频按帧提取文本信息，并将该文本信息处理为预设OCR维度的OCR文本；

将所述语音文本和所述OCR文本作为所述视频文本，所述预设视频文本维度为所述预设语音文本维度和所述预设OCR维度之和。

可选的，对所述每一视频样本的视频文件中的视频帧进行对象特征和RGB语义特征的提取，根据所述每一视频样本中视频帧的对象特征和RGB语义特征生成每一视频样本的视频特征样本，包括：

针对当前视频样本，从当前视频样本的视频文件中抽取预设数量的视频帧；

通过对象检测模型对抽取到的视频帧分别进行对象检测，对所述预设数量的视频帧中检测到的对象进行去重，得到所述当前视频样本在每个视频帧的对象特征；

通过分类模型对抽取到的视频帧分别进行RGB语义特征的提取，得到所述当前视频样本在每个视频帧的RGB语义特征；

按照视频帧，将所述对象特征和RGB语义特征拼接为当前视频样本的视频特征样本；

针对每一视频样本，分别按照上述方式生成对应的视频特征样本。

可选的，在对所述视频样本集合中每一视频样本分别生成结构化的文本特征样本和视频特征样本之后，还包括：

对应保存所述每一视频样本的文本特征样本和视频特征样本。

根据本公开实施例的第二方面，提供一种多模态特征融合方法，包括：

生成待融合视频的文本特征和视频特征；

将所述文本特征和视频特征输入训练完成的二分模型，通过所述二分模型的中间层将所述文本特征和视频特征进行特征融合；

获取所述中间层中最后预设层的输出特征；

融合所述最后预设层的输出特征，得到所述文本特征和所述视频特征的融合特征。

可选的，所述生成待融合视频的文本特征和视频特征，包括：

获取所述待融合视频的视频文件、视频标题、分类标签和评论列表；

根据所述待融合视频的视频文件中的文本信息、视频标题、分类标签和评论列表，生成速所述待融合视频的文本特征，所述文本特征的特征维度为预设维度；

对所述待融合视频的视频文件中的视频帧进行对象特征和RGB语义特征的提取，将所述对象特征和RGB语义特征作为所述待融合视频的视频特征。

可选的，所述根据所述待融合视频的视频文件中的文本信息、视频标题、分类标签和评论列表，生成速所述待融合视频的文本特征，包括：

将所述待融合视频的分类标签拼接为预设标签维度的标签文本，得到拼接标签；

将所述待融合视频的视频标题处理为预设标题维度的视频标题，得到处理后标题；

将所述待融合视频的评论列表中的评论文本处理为预设评论维度的评论文本，得到处理后评论文本；

从所述待融合视频的视频文件中提取文本信息，并将该文本信息处理为预设视频文本维度的视频文本；

将所述拼接标签、处理后标签、处理后评论文本和视频文本拼接为文本序列，并对所述文本序列进行编码，得到待融合视频的文本特征，所述预设维度为所述预设标签维度、预设标题维度、预设评论维度和预设视频文本维度之和。

可选的，将所述待融合视频的评论列表中的评论文本处理为预设评论维度的评论文本，得到处理后评论文本，包括：

将所述待融合视频的评论列表中的评论文本按照点赞量进行降序排列，选取排序在前的预设数量的评论文本；

可选的，从所述待融合视频的视频文件中提取文本信息，并将该文本信息处理为预设视频文本维度的视频文本，包括：

通过语音识别模型将所述待融合视频的视频文件中的视频语音信息转换为文本信息，并将该文本信息处理为预设语音文本维度的语音文本；

通过OCR模型对所述待融合视频的视频文件中的视频按帧提取文本信息，并将该文本信息处理为预设OCR维度的OCR文本；

可选的，对所述待融合视频的视频文件中的视频帧进行对象特征和RGB语义特征的提取，将所述对象特征和RGB语义特征作为所述待融合视频的视频特征，包括：

从所述待融合视频的视频文件中抽取预设数量的视频帧；

通过对象检测模型对抽取到的视频帧分别进行对象检测，对所述预设数量的视频帧中检测到的对象进行去重，得到所述待融合视频在每个视频帧的对象特征；

通过分类模型对抽取到的视频帧分别进行RGB语义特征的提取，得到所述待融合视频在每个视频帧的RGB语义特征；

按照视频帧，将所述对象特征和RGB语义特征拼接为待融合视频的视频特征。

可选的，所述融合所述最后预设层的输出特征，得到所述文本特征和所述视频特征的融合特征，包括：

对所述最后预设层的输出特征进行拼接处理或者预设运算，得到所述文本特征和所述视频特征的融合特征。

可选的，所述预设运算包括相加运算或者求平均运算。

根据本公开实施例的第三方面，提供一种多模态特征融合的训练装置，包括：

视频样本获取模块，被配置为获取视频样本集合；

特征样本生成模块，被配置为对所述视频样本集合中每一视频样本分别生成结构化的文本特征样本和视频特征样本；

正负样本确定模块，被配置为将所述视频样本集合中每一视频样本的文本特征样本和视频特征样本作为正样本，并将所述视频样本集合中每一视频样本的文本特征样本和其他视频样本的视频特征样本作为负样本；

模型训练模块，被配置为通过所述正样本和所述负样本对二分模型进行训练，直至所述二分模型的网络参数收敛，得到训练完成的二分模型，所述训练完成的二分模型用于通过中间层对待融合视频的文本特征和视频特征进行特征融合。

可选的，所述特征样本生成模块包括：

样本视频信息获取单元，被配置为获取所述视频样本集合中每一视频样本的视频文件、视频标题、分类标签和评论列表；

文本特征样本生成单元，被配置为根据所述每一视频样本的视频文件中的文本信息、视频标题、分类标签和评论列表，生成每一视频样本的文本特征样本，所述文本特征样本的特征维度为预设维度；

视频特征样本生成单元，被配置为对所述每一视频样本的视频文件中的视频帧进行对象特征和RGB语义特征的提取，根据所述每一视频样本中视频帧的对象特征和RGB语义特征生成每一视频样本的视频特征样本。

可选的，所述文本特征样本生成单元包括：

标签处理子单元，被配置为针对当前视频样本，将所述当前视频样本的分类标签拼接为预设标签维度的标签文本，得到拼接标签；

标题处理子单元，被配置为将所述当前视频样本的视频标题处理为预设标题维度的视频标题，得到处理后标题；

评论处理子单元，被配置为将所述当前视频样本的评论列表中的评论文本处理为预设评论维度的评论文本，得到处理后评论文本；

视频文本提取子单元，被配置为从所述当前视频样本的视频文件中提取文本信息，并将该文本信息处理为预设视频文本维度的视频文本；

文本特征样本生成子单元，被配置为将所述拼接标签、处理后标签、处理后评论文本和视频文本拼接为文本序列，并对所述文本序列进行编码，得到当前视频样本的文本特征样本；所述预设维度为所述预设标签维度、预设标题维度、预设评论维度和预设视频文本维度之和；

控制单元，被配置为针对每一视频样本，分别按照上述方式生成对应的文本特征样本。

可选的，所述评论处理子单元具体被配置为：

可选的，所述视频文本提取子单元具体被配置为：

可选的，所述视频特征样本生成单元具体被配置为：

可选的，所述装置还包括：

特征样本对应保存模块，被配置为对应保存所述每一视频样本的文本特征样本和视频特征样本。

根据本公开实施例的第四方面，提供一种多模态特征融合装置，包括：

特征生成模块，被配置为生成待融合视频的文本特征和视频特征；

特征融合模块，被配置为将所述文本特征和视频特征输入训练完成的二分模型，通过所述二分模型的中间层将所述文本特征和视频特征进行特征融合；

中间层特征获取模块，被配置为获取所述中间层中最后预设层的输出特征；

融合特征确定模块，被配置为融合所述最后预设层的输出特征，得到所述文本特征和所述视频特征的融合特征。

可选的，所述特征生成模块包括：

视频信息获取单元，被配置为获取所述待融合视频的视频文件、视频标题、分类标签和评论列表；

文本特征生成单元，被配置为根据所述待融合视频的视频文件中的文本信息、视频标题、分类标签和评论列表，生成速所述待融合视频的文本特征，所述文本特征的特征维度为预设维度；

视频特征生成单元，被配置为对所述待融合视频的视频文件中的视频帧进行对象特征和RGB语义特征的提取，将所述对象特征和RGB语义特征作为所述待融合视频的视频特征。

可选的，所述文本特征生成单元包括：

标签处理子单元，被配置为将所述待融合视频的分类标签拼接为预设标签维度的标签文本，得到拼接标签；

标题处理子单元，被配置为将所述待融合视频的视频标题处理为预设标题维度的视频标题，得到处理后标题；

评论处理子单元，被配置为将所述待融合视频的评论列表中的评论文本处理为预设评论维度的评论文本，得到处理后评论文本；

视频文本提取子单元，被配置为从所述待融合视频的视频文件中提取文本信息，并将该文本信息处理为预设视频文本维度的视频文本；

文本特征生成子单元，被配置为将所述拼接标签、处理后标签、处理后评论文本和视频文本拼接为文本序列，并对所述文本序列进行编码，得到待融合视频的文本特征，所述预设维度为所述预设标签维度、预设标题维度、预设评论维度和预设视频文本维度之和。

可选的，所述评论处理子单元具体被配置为：

可选的，所述视频文本提取子单元具体被配置为：

可选的，所述视频特征生成单元具体被配置为：

从所述待融合视频的视频文件中抽取预设数量的视频帧；

可选的，所述融合特征确定模块具体被配置为：

可选的，所述预设运算包括相加运算或者求平均运算。

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的视频中的多模态特征融合的训练方法，或者实现如第二方面所述的视频中的多模态特征融合方法。

根据本公开实施例的第六方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的多模态特征融合的训练方法，或者执行如第二方面所述的视频中的多模态特征融合方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，该计算机程序产品包括可读性程序代码，该可读性程序代码由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的多模态特征融合的训练方法，或者执行第二方面所述的视频中的多模态特征融合方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例通过对视频样本进行处理，生成了对应的文本特征样本和视频特征样本，并对视频样本集合中的视频样本的文本特征样本和视频特征样本进行组合，构造了正样本和负样本，通过正样本和负样本实现了对二分模型的自监督训练，即通过样本中的文本特征样本和视频特征样本在文本语义空间与视觉空间的一致性进行相互监督，从而避免了人工的大规模标注，能够很好的应用于具有巨大数据量的视频处理中，而且二分模型在训练过程中将正样本和负样本融合为同一语义空间的不同特征，并基于融合得到的特征实现不同分类的目的，从而训练完成的二分模型可以将文本特征和视频特征进行融合，实现了对视频的多模态特征的融合。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频中的多模态特征融合的训练方法的流程图；

图2是根据一示例性实施例示出的一种视频中的多模态特征融合方法的流程图；

图3是根据一示例性实施例示出的一种视频中的多模态特征融合的训练装置的框图；

图4是根据一示例性实施例示出的一种视频中的多模态特征融合装置的框图；

图5是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种视频中的多模态特征融合的训练方法的流程图，如图1所示，该视频中的多模态特征融合的训练方法可以用于计算机等电子设备中，包括以下步骤。

在步骤S11中，获取视频样本集合。

从数据库中获取大量的视频的相关信息，每个视频的相关信息作为一个视频样本，从而得到视频样本集合。其中的视频可以是短视频，当然也可以是长视频。

在步骤S12中，对所述视频样本集合中每一视频样本分别生成结构化的文本特征样本和视频特征样本。

对视频样本集合中每一视频样本的文本和视频图像分别进行处理，以根据每一视频样本的文本生成结构化的文本特征样本，根据每一视频样本的视频图像生成结构化的视频特征样本。可以通过预先设置的文本特征的维度，将视频样本的文本生成结构化的文本特征样本；通过预先设置的视频特征的维度，将视频样本的视频图像生成结构化的视频特征样本。

在步骤S13中，将所述视频样本集合中每一视频样本的文本特征样本和视频特征样本作为正样本，并将所述视频样本集合中每一视频样本的文本特征样本和其他视频样本的视频特征样本作为负样本。

一个视频样本的文本特征样本和视频特征样本是对该视频样本在两种方向的语义表达，描述的是同一视频样本，从而视频样本集合中每一视频样本的文本特征样本和该视频样本的视频特征样本作为一个正样本，该正样本的标注(label)为1，表明文本和视频在语义空间上是一致的；而视频样本集合中一个视频样本的文本特征样本和其他视频样本的视频特征样本是对不同视频样本在两种方向的语义表达，描述的是不同的视频样本，从而可以通过负采样技术从视频样本集合的视频样本中随机选取不匹配的文本特征样本和视频特征样本，即随机选取一个视频样本的文本特征样本和另一个视频样本的视频特征样本，将一个视频样本的文本特征样本和另一个视频样本的视频特征样本作为负样本，该负样本的标注(label)为0，表明文本特征样本和视频特征样本是不一致的。

在步骤S14中，通过所述正样本和所述负样本对二分模型进行训练，直至所述二分模型的网络参数收敛，得到训练完成的二分模型，所述训练完成的二分模型用于通过中间层对待融合视频的文本特征和视频特征进行特征融合。

其中，所述二分模型是一个二分类模型，例如可以是BERT模型。BERT全称是来自变换器的双向编码器表征量(Bidirectional Encoder Representations fromTransformers)，它是Google于2018年末开发并发布的一种新型语言模型。BERT模型基于变换器架构，是一种具有双向深度的神经网络模型。本公开中，BERT模型可以是基础的BERT模型，也可以是BERT的各类优化变体模型，比如RoBERTa或ALBERT等。

首先在对二分模型进行训练之前，将二分模型的网络参数初始化为预训练参数，之后根据正样本和负样本对二分模型进行二分类训练，即将正样本和负样本中文本特征样本和视频特征样本组成的样本对分别输入二分模型，对二分模型进行二分类训练，基于正样本和负样本的标注与二分模型的二分类输出结果对二分模型的网络参数进行调整，直至二分模型的网络参数收敛，得到训练完成的二分模型。由于通过正样本和负样本中的文本特征样本和视频特征样本组成的样本对来对二分模型进行训练，每一样本的文本特征样本和视频特征样本可以相互监督，从而实现模型的自监督学习，直至模型训练稳定收敛。在二分模型的训练过程中，由于正样本中的文本特征样本和视频特征样本来自于同一视频样本，负样本中的文本特征样本和视频特征样本来自于不同视频样本，从而通过二分模型的中间层对文本特征样本和视频特征样本的处理，使得正样本中的文本特征样本和视频特征样本，与负样本中的文本特征样本和视频特征样本融合为不同的特征，从而基于该融合后的特征实现对正样本和负样本的分类，从而通过二分模型的中间层实现了对待融合视频的文本特征和视频特征的融合。

在将待融合视频的文本特征和视频特征输入训练完成的二分模型时，二分模型的中间层可以对文本特征和视频特征进行融合，得到文本特征和视频特征的融合特征，从而输出层基于融合特征给出文本特征和视频特征是否属于同一视频的分类。本公开中，由于输入二分模型的数据是同一个待融合视频的文本特征和视频特征，从而不需要二分模型的输出结果，需要获取二分模型的中间层的输出结果，并根据中间层的输出结果，确定待融合视频的文本特征和视频特征的融合特征。

本示例性实施例提供的视频中的多模态特征融合的训练方法，通过对视频样本集合中每一视频样本分别生成结构化的文本特征样本和视频特征样本，将视频样本集合中每一视频样本的文本特征样本和视频特征样本作为正样本，将视频样本集合中每一视频样本的文本特征样本和其他视频样本的视频特征样本作为负样本，通过正样本和负样本对二分模型进行二分类训练，直至二分模型的网络参数收敛，得到训练完成的二分模型，由于通过对视频样本进行处理，生成了对应的文本特征样本和视频特征样本，并对视频样本集合中的视频样本的文本特征样本和视频特征样本进行组合，构造了正样本和负样本，通过正样本和负样本实现了对二分模型的自监督训练，即通过样本中的文本特征样本和视频特征样本在文本语义空间与视觉空间的一致性进行相互监督，从而避免了人工的大规模标注，能够很好的应用于具有巨大数据量的视频处理中，而且二分模型在训练过程中将正样本和负样本融合为同一语义空间的不同特征，并基于融合得到的特征实现不同分类的目的，从而训练完成的二分模型可以将文本特征和视频特征进行融合，实现了对视频的多模态特征的融合。

在上述技术方案的基础上，所述对所述视频样本集合中每一视频样本分别生成结构化的文本特征样本和视频特征样本，包括：获取所述视频样本集合中每一视频样本的视频文件、视频标题、分类标签和评论列表；根据所述每一视频样本的视频文件中的文本信息、视频标题、分类标签和评论列表，生成每一视频样本的文本特征样本，所述文本特征样本的特征维度为预设维度；对所述每一视频样本的视频文件中的视频帧进行对象特征和RGB语义特征的提取，根据所述每一视频样本中视频帧的对象特征和RGB语义特征生成每一视频样本的视频特征样本。

每一视频样本的相关信息包括视频文件、视频标题、分类标签和评论列表，文本信息包括视频标题、分类标签、评论列表以及视频文件中的文本信息，视频文件中的文本信息可以从语音信息转换而来，也可以是视频图像中的文字信息；视频信息包括视频文件中视频帧中的对象信息和RGB语义信息。对每一视频样本的视频文件中的文本信息、视频标题、分类标签和评论列表进行截取或填充处理，使得每种文本信息的长度为对应的预设维度，从而将处理后的视频文件中的文本信息、视频标题、分类标签和评论列表拼接为预设维度的文本，并对该文本进行编码，得到预设维度的文本特征样本。对每一视频样本的视频文件中的视频帧进行抽取，对抽取到的视频帧进行对象特征和RGB语义特征的提取，得到每个抽取到的视频帧的对象特征和RGB语义特征，对每一视频样本中视频帧的对象特征和RGB语义特征进行拼接处理，生成每一视频样本的视频特征样本。通过对视频样本集合中的每一视频样本分别进行处理，生成了每一视频样本对应的文本特征样本和视频特征样本，为后续的二分模型的训练提供样本。

在一种可选的实施方式中，所述根据所述每一视频样本的视频文件中的文本信息、视频标题、分类标签和评论列表，生成每一视频样本的文本特征样本，包括：针对当前视频样本，将所述当前视频样本的分类标签拼接为预设标签维度的标签文本，得到拼接标签；将所述当前视频样本的视频标题处理为预设标题维度的视频标题，得到处理后标题；将所述当前视频样本的评论列表中的评论文本处理为预设评论维度的评论文本，得到处理后评论文本；从所述当前视频样本的视频文件中提取文本信息，并将该文本信息处理为预设视频文本维度的视频文本；将所述拼接标签、处理后标签、处理后评论文本和视频文本拼接为文本序列，并对所述文本序列进行编码，得到当前视频样本的文本特征样本；所述预设维度为所述预设标签维度、预设标题维度、预设评论维度和预设视频文本维度之和；针对每一视频样本，分别按照上述方式生成对应的文本特征样本。

从视频样本集合中选取一个视频样本，作为当前视频样本，对当前视频样本的各种文本信息分别进行处理，将各种文本信息处理为对应预设维度的文本。一个视频样本可以有多个分类标签，在对分类标签进行处理时，将各个分类标签进行拼接，如果拼接后的标签文本长度小于预设标签维度，则进行填充处理使得填充处理后的标签文本长度为所述预设标签维度，将填充处理后的标签文本作为拼接标签，如果拼接后的标签文本长度大于预设标签维度，则从拼接后的标签文本的开始位置截取预设标签维度的标签文本，将截取到的标签文本作为拼接标签。对视频标题进行分词处理，得到各个分词结果，去除无效的分词结果，并合并重复的分词结果，并将剩余的各个分词结果拼接后进行填充或者截取处理，使之处理后的标题文本的长度为预设标题维度，得到处理后标题。一个视频样本的评论列表中可能会有多条评论文本，可以从中选取预设条数的评论文本，对这预设条数的评论文本进行拼接处理，对拼接后的评论文本进行填充或者截取处理，使之处理后的评论文本的长度为预设评论维度，得到处理后评论文本；在对拼接后的评论文本进行填充或者截取处理时，如果拼接后的评论文本的长度大于预设评论维度，则从拼接后的评论文本的开始位置开始截取预设评论维度的评论文本，作为处理后评论文本，如果拼接后的评论文本的长度小于预设评论维度，则对拼接后的评论文本的尾部进行填充处理，使之填充处理后的评论文本的长度为预设评论维度，得到处理后评论文本。当前视频样本的视频文件中也会存在一些文本信息，例如视频文件中的语音信息转换的文本信息，或者视频图像中的文本信息等等，这时，可以从当前视频样本的视频文件中提取出文本信息，并将该文本信息处理为预设视频文本维度的视频文本，实现对视频文件中文本信息的结构化处理。将拼接标签、处理后标签、处理后评论文本和视频文本拼接为文本序列，对该文本序列进行编码，得到当前视频样本的文本特征样本，每种类型的文本的长度均是固定的长度，从而得到的文本特征样本为结构化的数据，文本特征样本的维度为预设维度，预设维度为预设标签维度、预设标题维度、预设评论维度和预设视频文本维度之和。针对每一视频样本，分别按照上述方式生成对应的文本特征样本。由于每种文本信息的维度是固定的，从而得到的文本特征样本是结构化的数据，实现了对视频中的各种文本数据的结构化。

在一种可选的实施方式中，将所述当前视频样本的评论列表中的评论文本处理为预设评论维度的评论，得到处理后评论文本，包括：将所述当前视频样本的评论列表中的评论文本按照点赞量进行降序排列，选取排序在前的预设数量的评论文本；将所述预设数量的评论文本连接为整体文本，并将所述整体文本截取或填充到长度为所述预设评论维度，得到处理后评论文本。

将当前视频样本的评论列表中的评论文本按照点赞量进行降序排列，在当前视频样本的评论列表中的评论文本的条数大于预设数量时，选取排序在前的预设数量的评论文本，将这预设数量的评论文本连接为整体文本，在整体文本的长度大于预设评论维度时，从整体文本的开始位置开始截取预设评论维度的文本，得到处理后评论文本，在整体文本的长度小于预设评论维度时，将整体文本填充为预设评论维度的文本，得到处理后评论文本。通过按照点赞量来选取评论文本可以得到更加有价值的评论文本，更能体现出评论文本的特征。

在一种可选的实施方式中，从所述当前视频样本的视频文件中提取文本信息，并将该文本信息处理为预设视频文本维度的视频文本，包括：通过语音识别模型将所述当前视频样本的视频文件中的视频语音信息转换为文本信息，并将该文本信息处理为预设语音文本维度的语音文本；通过OCR模型对所述当前视频样本的视频文件中的视频按帧提取文本信息，并将该文本信息处理为预设OCR维度的OCR文本；将所述语音文本和所述OCR文本作为所述视频文本，所述预设视频文本维度为所述预设语音文本维度和所述预设OCR维度之和。

当前视频样本的视频文件中视频语音信息可以转换为文本信息，这时通过基于ASR(Automatic Speech Recognition，自动语音识别技术)的语音识别模型将当前视频样本的视频文件中的视频语音信息转换为文本信息，如果该文本信息的长度大于预设语音文本长度，则从该文本信息的开始位置开始截取预设语音文本长度的文本信息，作为语音文本，如果该文本信息的长度小于预设语音文本长度，则将该文本信息填充为预设语音文本长度的文本信息，作为语音文本。视频样本的图像中也会包括一些文本信息，例如字幕或者图像说明等，这时可以使用OCR(Optical Character Recognition，光学字符识别)模型对当前视频样本的视频文件中的视频按帧提取文本信息，对每一帧提取的文本信息进行分词处理，得到每一帧的分词结果，将所有帧的分词结果进行去重，将去重后的分词结果进行拼接处理，将拼接处理后的分词结果填充或者截取为预设OCR长度的OCR文本。语音文本和OCR文本进行拼接处理后得到视频文本，从而视频文本维度为预设语音文本维度和预设OCR维度之和。通过将视频文件中的视频语音信息转换为文本信息，并从视频图像中提取文本信息，从而得到更为丰富的视频文本，丰富了视频的文本信息。

在一种可选的实施方式中，对所述每一视频样本的视频文件中的视频帧进行对象特征和RGB语义特征的提取，根据所述每一视频样本中视频帧的对象特征和RGB语义特征生成每一视频样本的视频特征样本，包括：针对当前视频样本，从当前视频样本的视频文件中抽取预设数量的视频帧；通过对象检测模型对抽取到的视频帧分别进行对象检测，对所述预设数量的视频帧中检测到的对象进行去重，得到所述当前视频样本在每个视频帧的对象特征；通过分类模型对抽取到的视频帧分别进行RGB语义特征的提取，得到所述当前视频样本在每个视频帧的RGB语义特征；按照视频帧，将所述对象特征和RGB语义特征拼接为当前视频样本的视频特征样本；针对每一视频样本，分别按照上述方式生成对应的视频特征样本。

从视频样本集合中选取一个视频样本，作为当前视频样本，在确定当前视频样本中视频帧的对象特征和RGB语义特征时，可以从当前视频样本的视频文件中抽取预设数量的视频帧，对抽取到的视频帧进行对象检测和RGB语义特征的提取。通过训练完成的基于卷积神经网络的对象检测模型对抽取到的视频帧分别进行对象检测，将所有抽取到的视频帧中检测到的对象进行去重，得到当前视频样本在每个视频帧的对象列表，将每个视频帧的对象列表中的各个对象编码为当前视频样本的对象特征，该对象特征的数据维度为(z,d_obj*m)，z为抽帧数，即所述预设数量，m为对象个数，d_obj为对象编码长度。使用预训练的卷积神经网络分类模型对抽取到的视频帧分别进行RGB语义特征的提取，得到当前视频样本在每个视频帧的RGB语义特征，当前视频样本的RGB语义特征的数据维度为(z,l)，其中l为每帧图像编码长度，例如可以为32，z为抽帧数，即所述预设数量。将在同一视频帧中的对象特征和RGB语义特征进行拼接之后，再将各个视频帧中拼接后的对象特征和RGB语义特征进行拼接，得到当前视频样本的视频特征样本，该视频特征样本的数据维度为[z,(l+d_obj*m)]。由于对象特征中每个对象的编码长度是固定的，而且抽帧数也是固定的，RGB语义特征中每帧图像编码长度也是固定的，从而得到的视频特征样本是结构化的数据，实现了对视频特征的结构化。

在上述技术方案的基础上，在对所述视频样本集合中每一视频样本分别生成结构化的文本特征样本和视频特征样本之后，还包括：对应保存所述每一视频样本的文本特征样本和视频特征样本。

对应保存每一视频样本的文本特征样本和视频特征样本，即将每一视频样本的文本特征样本和视频特征样本进行成对保存，通过成对保存文本特征样本和视频特征样本表明文本特征样本和视频特征样本是对同一视频样本在两种方向的语义表达，在语义上是一致的，可以作为对二分模型分类训练的正样本，而且通过负采样技术可以方便的从成对保存的文本特征样本和视频特征样本中确定负样本。

图2是根据一示例性实施例示出的一种视频中的多模态特征融合方法的流程图，如图2所示，该视频中的多模态特征融合方法可以用于计算机、移动终端或服务器等电子设备中，包括以下步骤。

在步骤S21中，生成待融合视频的文本特征和视频特征。

其中，所述待融合视频是需要进行多模态信息特征融合的视频。

对待融合视频的文本信息和视频图像信息分别进行处理，以将文本信息转化为结构化的文本特征，将视频图像信息转化为结构化的视频特征。可以通过预先设置的文本特征的维度，将待融合视频的文本信息生成结构化的文本特征；通过预先设置的视频特征的维度的，将待融合视频的视频图像信息生成结构化的视频特征。

在步骤S22中，将所述文本特征和视频特征输入训练完成的二分模型，通过所述二分模型的中间层将所述文本特征和视频特征进行特征融合。

其中，所述二分模型为通过上述实施例提供的视频中的多模态特征融合的训练方法训练得到的。

在得到待融合视频的文本特征和视频特征后，可以将文本特征和视频特征输入通过二分类训练得到的训练完成的二分模型，通过二分模型的中间层的处理，可以对文本特征和视频特征进行特征融合，将文本特征和视频特征融合同一语义空间中的融合特征。二分模型训练完成后，并不需要通过训练完成的二分模型来获取预测结果，而是能够获取到二分模型的中间层的输出特征，因为中间层的输出特征是融合了文本特征和视频特征的特征。

在步骤S23中，获取所述中间层中最后预设层的输出特征。

二分模型的每个中间层都会输出一个特征，而中间层的输出特征是同时对文本特征和视频特征进行处理后得到的，从而中间层的输出特征是对文本特征和视频特征进行融合处理得到的特征，即通过中间层的处理融合了文本特征和视频特征，即融合了视频的多模态信息特征。获取中间层中最后预设层的输出特征，通过最后预设层的输出特征来得到最后的文本特征和视频特征的融合特征。其中，最后预设层例如可以是最后一层，或者还可以是最后的多层。

在步骤S24中，融合所述最后预设层的输出特征，得到所述文本特征和所述视频特征的融合特征。

可以通过预设融合方式，对最后预设层的输出特征进行融合处理，来得到文本特征和视频特征的融合特征。融合特征包含了视频的空间和时间上的信息，也包含了人类语言空间的语义信息，可广泛应用于视频检索、个性化推荐等场景。

在一种可选的实施方式中，所述融合所述最后预设层的输出特征，得到所述文本特征和所述视频特征的融合特征，包括：对所述最后预设层的输出特征进行拼接处理或者预设运算，得到所述文本特征和所述视频特征的融合特征。

其中，所述预设运算包括相加运算或者求平均运算。

融合处理可以是进行拼接处理或者进行预设运算处理。因为二分模型每个中间层的输出特征的向量维度是相同的，所以可以对最后预设层的输出特征进行加减等数学运算来进行融合，得到文本特征和视频特征的融合特征，即得到待融合视频的多模态融合特征。在通过预设运算处理来对最后预设层的输出特征进行融合时，可以使用相加运算或者求平均运算来进行融合，这样相对于减法运算可以更好的保留有用特征，避免特征的损失。

本示例性实施例提供的视频中的多模态特征融合方法，通过生成待融合视频的文本特征和视频特征，将文本特征和视频特征输入训练完成的二分模型，通过二分模型的中间层可以对文本特征和视频特征进行特征融合，获取中间层中最后预设层的输出特征，融合最后预设层的输出特征，得到文本特征和视频特征的融合特征。由于通过训练完成的二分模型的中间层实现了对视频中的文本特征和视频特征的融合，即实现了对视频的多模态特征的融合，而且中间层的输出特征能够更好的强化文本特征和视频特征的空间一致性，由此得到的融合特征更加的准确，特征突出。

在上述技术方案的基础上，所述生成待融合视频的文本特征和视频特征，包括：获取所述待融合视频的视频文件、视频标题、分类标签和评论列表；根据所述待融合视频的视频文件中的文本信息、视频标题、分类标签和评论列表，生成速所述待融合视频的文本特征，所述文本特征的特征维度为预设维度；对所述待融合视频的视频文件中的视频帧进行对象特征和RGB语义特征的提取，将所述对象特征和RGB语义特征作为所述待融合视频的视频特征。

待融合视频的相关信息包括视频文件、视频标题、分类标签和评论列表，文本信息包括视频标题、分类标签、评论列表以及视频文件中的文本信息，视频文件中的文本信息可以从语音信息转换而来，也可以是视频图像中的文字信息；视频信息包括视频文件中视频帧中的对象信息和RGB语义信息。对待融合视频的视频文件中的文本信息、视频标题、分类标签和评论列表进行截取或填充处理，使得每种文本信息的长度为对应的预设维度，从而将处理后的视频文件中的文本信息、视频标题、分类标签和评论列表拼接为预设维度的文本，并对该文本进行编码，得到预设维度的文本特征。对待融合视频的视频文件中的视频帧进行抽取，对抽取到的视频帧进行对象特征和RGB语义特征的提取，得到每个抽取到的视频帧的对象特征和RGB语义特征，对待融合视频中视频帧的对象特征和RGB语义特征进行拼接处理，生成待融合视频的视频特征。这样生成的文本特征和视频特征包含了视频中的多模态信息，从而为多模态特征融合提供了数据基础。

在一种可选的实施方式中，所述根据所述待融合视频的视频文件中的文本信息、视频标题、分类标签和评论列表，生成速所述待融合视频的文本特征，包括：将所述待融合视频的分类标签拼接为预设标签维度的标签文本，得到拼接标签；将所述待融合视频的视频标题处理为预设标题维度的视频标题，得到处理后标题；将所述待融合视频的评论列表中的评论文本处理为预设评论维度的评论文本，得到处理后评论文本；从所述待融合视频的视频文件中提取文本信息，并将该文本信息处理为预设视频文本维度的视频文本；将所述拼接标签、处理后标签、处理后评论文本和视频文本拼接为文本序列，并对所述文本序列进行编码，得到待融合视频的文本特征，所述预设维度为所述预设标签维度、预设标题维度、预设评论维度和预设视频文本维度之和。

对待融合视频的各种文本信息分别进行处理，将各种文本信息处理为对应预设维度的文本。待融合视频可以有多个分类标签，在对分类标签进行处理时，将各个分类标签进行拼接，如果拼接后的标签文本长度小于预设标签维度，则进行填充处理使得填充处理后的标签文本长度为所述预设标签维度，将填充处理后的标签文本作为拼接标签，如果拼接后的标签文本长度大于预设标签维度，则从拼接后的标签文本的开始位置截取预设标签维度的标签文本，将截取到的标签文本作为拼接标签。对视频标题进行分词处理，得到各个分词结果，并将各个分词结果拼接后进行填充或者截取处理，使之处理后的标题文本的长度为预设标题维度，得到处理后标题。待融合视频的评论列表中可能会有多条评论文本，可以从中选取预设条数的评论文本，对这预设条数的评论文本进行拼接处理，对拼接后的评论文本进行填充或者截取处理，使之处理后的评论文本的长度为预设评论维度，得到处理后评论文本；在对拼接后的评论文本进行填充或者截取处理时，如果拼接后的评论文本的长度大于预设评论维度，则从拼接后的评论文本的开始位置开始截取预设评论维度的评论文本，作为处理后评论文本，如果拼接后的评论文本的长度小于预设评论维度，则对拼接后的评论文本的尾部进行填充处理，使之填充处理后的评论文本的长度为预设评论维度，得到处理后评论文本。待融合视频的视频文件中也会存在一些文本信息，例如视频文件中的语音信息转换的文本信息，或者视频图像中的文本信息等等，这时，可以从待融合视频的视频文件中提取出文本信息，并将该文本信息处理为预设视频文本维度的视频文本，实现对视频文件中文本信息的结构化处理。将拼接标签、处理后标签、处理后评论文本和视频文本拼接为文本序列，对该文本序列进行编码，得到待融合视频的文本特征，每种类型的文本的长度均是固定的长度，从而得到的文本特征为结构化的数据，文本特征的维度为预设维度，预设维度为预设标签维度、预设标题维度、预设评论维度和预设视频文本维度之和。由于每种文本信息的维度是固定的，从而得到的文本特征是结构化的数据，实现了对视频中的各种文本数据的结构化。

在一种可选的实施方式中，将所述待融合视频的评论列表中的评论文本处理为预设评论维度的评论文本，得到处理后评论文本，包括：将所述待融合视频的评论列表中的评论文本按照点赞量进行降序排列，选取排序在前的预设数量的评论文本；将所述预设数量的评论文本连接为整体文本，并将所述整体文本截取或填充到长度为所述预设评论维度，得到处理后评论文本。

将待融合视频的评论列表中的评论文本按照点赞量进行降序排列，在待融合视频的评论列表中的评论文本的条数大于预设数量时，选取排序在前的预设数量的评论文本，将这预设数量的评论文本连接为整体文本，在整体文本的长度大于预设评论维度时，从整体文本的开始位置开始截取预设评论维度的文本，得到处理后评论文本，在整体文本的长度小于预设评论维度时，将整体文本填充为预设评论维度的文本，得到处理后评论文本。通过按照点赞量来选取评论文本可以得到更加有价值的评论文本，更能体现出评论文本的特征。

在一种可选的实施方式中，从所述待融合视频的视频文件中提取文本信息，并将该文本信息处理为预设视频文本维度的视频文本，包括：通过语音识别模型将所述待融合视频的视频文件中的视频语音信息转换为文本信息，并将该文本信息处理为预设语音文本维度的语音文本；通过OCR模型对所述待融合视频的视频文件中的视频按帧提取文本信息，并将该文本信息处理为预设OCR维度的OCR文本；将所述语音文本和所述OCR文本作为所述视频文本，所述预设视频文本维度为所述预设语音文本维度和所述预设OCR维度之和。

待融合视频的视频文件中视频语音信息可以转换为文本信息，这时通过基于ASR(Automatic Speech Recognition，自动语音识别技术)的语音识别模型将待融合视频的视频文件中的视频语音信息转换为文本信息，如果该文本信息的长度大于预设语音文本长度，则从该文本信息的开始位置开始截取预设语音文本长度的文本信息，作为语音文本，如果该文本信息的长度小于预设语音文本长度，则将该文本信息填充为预设语音文本长度的文本信息，作为语音文本。待融合视频的视频图像中也会包括一些文本信息，例如字幕或者图像说明等，这时可以使用OCR(Optical Character Recognition，光学字符识别)模型对待融合视频的视频文件中的视频按帧提取文本信息，对每一帧提取的文本信息进行分词处理，得到每一帧的分词结果，将所有帧的分词结果进行去重，将去重后的分词结果进行拼接处理，将拼接处理后的分词结果填充或者截取为预设OCR长度的OCR文本。语音文本和OCR文本进行拼接处理后得到视频文本，从而视频文本维度为预设语音文本维度和预设OCR维度之和。通过将视频文件中的视频语音信息转换为文本信息，并从视频图像中提取文本信息，从而得到更为丰富的视频文本，丰富了视频的文本信息。

在一种可选的实施方式中，对所述待融合视频的视频文件中的视频帧进行对象特征和RGB语义特征的提取，将所述对象特征和RGB语义特征作为所述待融合视频的视频特征，包括：从所述待融合视频的视频文件中抽取预设数量的视频帧；通过对象检测模型对抽取到的视频帧分别进行对象检测，对所述预设数量的视频帧中检测到的对象进行去重，得到所述待融合视频在每个视频帧的对象特征；通过分类模型对抽取到的视频帧分别进行RGB语义特征的提取，得到所述待融合视频在每个视频帧的RGB语义特征；按照视频帧，将所述对象特征和RGB语义特征拼接为待融合视频的视频特征。

在确定待融合视频中视频帧的对象特征和RGB语义特征时，可以从待融合视频的视频文件中抽取预设数量的视频帧，对抽取到的视频帧进行对象检测和RGB语义特征的提取。通过训练完成的基于卷积神经网络的对象检测模型对抽取到的视频帧分别进行对象检测，将所有抽取到的视频帧中检测到的对象进行去重，得到待融合视频在每个视频帧的对象列表，将每个视频帧的对象列表中的各个对象编码为待融合视频的对象特征，该对象特征的数据维度为(z,d_obj*m)，z为抽帧数，即所述预设数量，m为对象个数，d_obj为对象编码长度。使用预训练的卷积神经网络分类模型对抽取到的视频帧分别进行RGB语义特征的提取，得到待融合视频在每个视频帧的RGB语义特征，待融合视频的RGB语义特征的数据维度为(z,l)，其中l为每帧图像编码长度，例如可以为32，z为抽帧数，即所述预设数量。将在同一视频帧中的对象特征和RGB语义特征进行拼接之后，再将各个视频帧中拼接后的对象特征和RGB语义特征进行拼接，得到待融合视频的视频特征，该视频特征的数据维度为[z,(l+d_obj*m)]。由于对象特征中每个对象的编码长度是固定的，而且抽帧数也是固定的，RGB语义特征中每帧图像编码长度也是固定的，从而得到的视频特征是结构化的数据，实现了对视频特征的结构化。

图3是根据一示例性实施例示出的一种视频中的多模态特征融合的训练装置的框图。参照图3，该装置包括视频样本获取模块31、特征样本生成模块32、正负样本确定模块33和模型训练模块34。

该视频样本获取模块31被配置为获取视频样本集合；

该特征样本生成模块32被配置为对所述视频样本集合中每一视频样本分别生成结构化的文本特征样本和视频特征样本；

该正负样本确定模块33被配置为将所述视频样本集合中每一视频样本的文本特征样本和视频特征样本作为正样本，并将所述视频样本集合中每一视频样本的文本特征样本和其他视频样本的视频特征样本作为负样本；

该模型训练模块34被配置为通过所述正样本和所述负样本对二分模型进行训练，直至所述二分模型的网络参数收敛，得到训练完成的二分模型，所述训练完成的二分模型用于通过中间层对待融合视频的文本特征和视频特征进行特征融合。

可选的，所述特征样本生成模块包括：

可选的，所述文本特征样本生成单元包括：

可选的，所述评论处理子单元具体被配置为：

可选的，所述视频文本提取子单元具体被配置为：

可选的，所述视频特征样本生成单元具体被配置为：

可选的，所述装置还包括：

图4是根据一示例性实施例示出的一种视频中的多模态特征融合装置的框图。参照图4，该装置包括特征生成模块41、特征融合模块42、中间层特征获取模块43和融合特征确定模块44。

该特征生成模块41被配置为生成待融合视频的文本特征和视频特征；

该特征融合模块42被配置为将所述文本特征和视频特征输入训练完成的二分模型，通过所述二分模型的中间层将所述文本特征和视频特征进行特征融合；

该中间层特征获取模块43被配置为获取所述中间层中最后预设层的输出特征；

该融合特征确定模块44被配置为融合所述最后预设层的输出特征，得到所述文本特征和所述视频特征的融合特征。

可选的，所述特征生成模块包括：

可选的，所述文本特征生成单元包括：

可选的，所述评论处理子单元具体被配置为：

可选的，所述视频文本提取子单元具体被配置为：

可选的，所述视频特征生成单元具体被配置为：

从所述待融合视频的视频文件中抽取预设数量的视频帧；

可选的，所述融合特征确定模块具体被配置为：

可选的，所述预设运算包括相加运算或者求平均运算。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种电子设备的框图。例如，电子设备500可以被提供为一服务器。参照图5，电子设备500包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理组件522的执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行上述视频中的多模态特征融合的训练方法或者视频中的多模态特征融合方法。

电子设备500还可以包括一个电源组件526被配置为执行电子设备500的电源管理，一个有线或无线网络接口550被配置为将电子设备500连接到网络，和一个输入输出(I/O)接口558。电子设备500可以操作基于存储在存储器532的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器532，上述指令可由电子设备500的处理组件522执行以完成上述视频中的多模态特征融合的训练方法或者视频中的多模态特征融合方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种视频中的多模态特征融合的训练方法，其特征在于，包括：

获取视频样本集合；

对所述视频样本集合中每一视频样本分别生成结构化的文本特征样本和视频特征样本；所述结构化的文本特征样本是通过预先设置的文本特征的维度生成的；

2.根据权利要求1所述的方法，其特征在于，所述对所述视频样本集合中每一视频样本分别生成结构化的文本特征样本和视频特征样本，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述每一视频样本的视频文件中的文本信息、视频标题、分类标签和评论列表，生成每一视频样本的文本特征样本，包括：

4.根据权利要求3所述的方法，其特征在于，将所述当前视频样本的评论列表中的评论文本处理为预设评论维度的评论，得到处理后评论文本，包括：

5.根据权利要求3所述的方法，其特征在于，从所述当前视频样本的视频文件中提取文本信息，并将该文本信息处理为预设视频文本维度的视频文本，包括：

6.根据权利要求2所述的方法，其特征在于，对所述每一视频样本的视频文件中的视频帧进行对象特征和RGB语义特征的提取，根据所述每一视频样本中视频帧的对象特征和RGB语义特征生成每一视频样本的视频特征样本，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，在对所述视频样本集合中每一视频样本分别生成结构化的文本特征样本和视频特征样本之后，还包括：

8.一种视频中的多模态特征融合方法，其特征在于，包括：

生成待融合视频的文本特征和视频特征；

将所述文本特征和视频特征输入训练完成的二分模型，通过所述二分模型的中间层将所述文本特征和视频特征进行特征融合，且通过输出层基于融合特征给出待融合文本特征和待融合视频特征是否属于同一视频的分类；

获取所述中间层中最后预设层的输出特征；

9.根据权利要求8所述的方法，其特征在于，所述生成待融合视频的文本特征和视频特征，包括：

10.根据权利要求9所述的方法，其特征在于，所述根据所述待融合视频的视频文件中的文本信息、视频标题、分类标签和评论列表，生成速所述待融合视频的文本特征，包括：

11.根据权利要求10所述的方法，其特征在于，将所述待融合视频的评论列表中的评论文本处理为预设评论维度的评论文本，得到处理后评论文本，包括：

12.根据权利要求10所述的方法，其特征在于，从所述待融合视频的视频文件中提取文本信息，并将该文本信息处理为预设视频文本维度的视频文本，包括：

13.根据权利要求9所述的方法，其特征在于，对所述待融合视频的视频文件中的视频帧进行对象特征和RGB语义特征的提取，将所述对象特征和RGB语义特征作为所述待融合视频的视频特征，包括：

从所述待融合视频的视频文件中抽取预设数量的视频帧；

14.根据权利要求8-13任一项所述的方法，其特征在于，所述融合所述最后预设层的输出特征，得到所述文本特征和所述视频特征的融合特征，包括：

15.根据权利要求14所述的方法，其特征在于，所述预设运算包括相加运算或者求平均运算。

16.一种视频中的多模态特征融合的训练装置，其特征在于，包括：

视频样本获取模块，被配置为获取视频样本集合；

特征样本生成模块，被配置为对所述视频样本集合中每一视频样本分别生成结构化的文本特征样本和视频特征样本；所述结构化的文本特征样本是通过预先设置的文本特征的维度生成的；

模型训练模块，被配置为通过所述正样本和所述负样本对二分模型进行训练，直至所述二分模型的网络参数收敛，得到训练完成的二分模型，所述训练完成的二分模型用于通过中间层对待融合视频的文本特征和视频特征进行特征融合，且通过输出层基于融合特征给出待融合文本特征和待融合视频特征是否属于同一视频的分类。

17.根据权利要求16所述的装置，其特征在于，所述特征样本生成模块包括：

18.根据权利要求17所述的装置，其特征在于，所述文本特征样本生成单元包括：

19.根据权利要求18所述的装置，其特征在于，所述评论处理子单元具体被配置为：

20.根据权利要求18所述的装置，其特征在于，所述视频文本提取子单元具体被配置为：

21.根据权利要求17所述的装置，其特征在于，所述视频特征样本生成单元具体被配置为：

22.根据权利要求16-21任一项所述的装置，其特征在于，所述装置还包括：

23.一种视频中的多模态特征融合装置，其特征在于，包括：

特征融合模块，被配置为将所述文本特征和视频特征输入训练完成的二分模型，通过所述二分模型的中间层将所述文本特征和视频特征进行特征融合，且通过输出层基于融合特征给出待融合文本特征和待融合视频特征是否属于同一视频的分类；

24.根据权利要求23所述的装置，其特征在于，所述特征生成模块包括：

25.根据权利要求24所述的装置，其特征在于，所述文本特征生成单元包括：

26.根据权利要求25所述的装置，其特征在于，所述评论处理子单元具体被配置为：

27.根据权利要求25所述的装置，其特征在于，所述视频文本提取子单元具体被配置为：

28.根据权利要求24所述的装置，其特征在于，所述视频特征生成单元具体被配置为：

从所述待融合视频的视频文件中抽取预设数量的视频帧；

29.根据权利要求23-28任一项所述的装置，其特征在于，所述融合特征确定模块具体被配置为：

30.根据权利要求29所述的装置，其特征在于，所述预设运算包括相加运算或者求平均运算。

31.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的视频中的多模态特征融合的训练方法，或者实现如权利要求8至15中任一项所述的视频中的多模态特征融合方法。

32.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7中任一项所述的多模态特征融合的训练方法，或者执行如权利要求8至15中任一项所述的视频中的多模态特征融合方法。