CN114328988A

CN114328988A - 多媒体数据的特征提取方法、多媒体数据检索方法及装置

Info

Publication number: CN114328988A
Application number: CN202111404192.9A
Authority: CN
Inventors: 王佑芯; 孔伟杰; 蒋杰; 田上萱; 王红法; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-04-12

Abstract

本申请公开了一种多媒体数据的特征提取方法、多媒体数据检索方法及装置，其中多媒体数据的特征提取方法通过对目标多媒体数据进行图像特征提取，得到目标多媒体数据的图像特征序列；对目标多媒体数据中的音频数据进行语音识别，并对语音识别结果进行文本特征提取，得到目标多媒体数据的文本特征序列；将图像特征序列和文本特征序列进行融合，得到融合特征序列；对融合特征序列进行自注意力计算，得到目标特征序列；根据目标特征序列确定目标多媒体数据的目标特征。该方法可以提高对多媒体数据进行特征提取的准确性。

Description

多媒体数据的特征提取方法、多媒体数据检索方法及装置

技术领域

本申请涉及多媒体技术领域，具体涉及一种多媒体数据的特征提取方法、多媒体数据检索方法及装置。

背景技术

近年来，互联网技术发展迅速，目前人们的生活已经与互联网密不可分。伴随着互联网技术和通信技术的日趋成熟，多媒体产业也迎来了蓬勃的发展，各类视频、短视频等多媒体内容提供应用也层出不穷。

在一些情况下，例如需要进行多媒体数据去重，或者进行著作权维权的情况下，需要对多媒体数据进行检索。

相关技术中对多媒体数据的检索方法多采用特征提取和比对方法进行检索，而目前对多媒体数据的特征提取的方法提取得到的多媒体数据特征的准确性较差，导致目前多媒体数据检索方法的检索结果准确性较差。

发明内容

本申请实施例提供一种多媒体数据的特征提取方法、多媒体数据检索方法及装置，该多媒体数据的特征提取方法可以有效提升多媒体数据特征提取的准确性，进而可以提高多媒体数据检索结果的准确性。

本申请第一方面提供一种多媒体数据的特征提取方法，方法包括：

对目标多媒体数据进行图像特征提取，得到所述目标多媒体数据的图像特征序列；

对目标多媒体数据中的音频数据进行语音识别，并对语音识别结果进行文本特征提取，得到所述目标多媒体数据的文本特征序列；

将所述图像特征序列和所述文本特征序列进行融合，得到融合特征序列；

对所述融合特征序列进行自注意力计算，得到目标特征序列；

根据所述目标特征序列确定所述目标多媒体数据的目标特征。

相应的，本申请第二方面提供一种多媒体数据检索装置，装置包括：

第一提取单元，用于对目标多媒体数据进行图像特征提取，得到所述目标多媒体数据的图像特征序列；

第二提取单元，用于对目标多媒体数据中的音频数据进行语音识别，并对语音识别结果进行文本特征提取，得到所述目标多媒体数据的文本特征序列；

融合单元，用于将所述图像特征序列和所述文本特征序列进行融合，得到融合特征序列；

第一计算单元，用于对所述融合特征序列进行自注意力计算，得到目标特征序列；

第一确定单元，用于根据所述目标特征序列确定所述目标多媒体数据的目标特征。

在一些实施例中，所述融合单元，包括：

第一处理子单元，用于对所述图像特征序列进行局部池化处理，得到目标图像特征序列；

第二处理子单元，用于对所述文本特征序列进行局部池化处理，得到目标文本特征序列；

融合子单元，用于将所述目标图像特征序列和所述目标文本特征序列进行融合，得到融合特征序列。

在一些实施例中，所述融合子单元，包括：

第一获取模块，用于获取预设的类别令牌特征；

拼接模块，用于将所述类别令牌特征、所述目标图像特征序列以及所述目标文本特征序列进行拼接，得到拼接特征序列；

第二获取模块，用于获取所述拼接特征序列对应的位置编码序列以及维度编码序列；

融合模块，用于对所述拼接特征序列、所述位置编码序列以及所述维度编码序列进行融合，得到融合特征序列。

在一些实施例中，所述第一计算单元，包括：

第一计算子单元，用于将所述融合特征序列映射到查询特征、键特征以及值特征的空间中，得到查询特征序列、键特征序列以及值特征序列，并计算所述查询特征序列与所述键特征序列的相关性矩阵；

确定子单元，用于确定所述融合特征序列中与所述类别令牌特征对应的类别融合特征、与所述目标图像特征序列对应的图像融合特征序列以及与所述目标文本特征序列对应的文本融合特征序列；

第二计算子单元，用于基于所述类别融合特征与所述融合特征序列中每一特征的交互结果、所述图像融合特征序列中每一特征与所述文本融合特征序列中每一特征之间的交互结果以及所述相关性矩阵计算自注意力权重矩阵；

第三处理子单元，用于基于所述自注意力权重矩阵对所述值特征序列进行加权处理，得到目标特征序列。

在一些实施例中，所述第一处理子单元，包括：

第一划分模块，用于将所述图像特征序列中的图像特征按照图像采样顺序划分为多个子图像特征序列；

第一处理模块，用于对每个子图像特征序列进行平均池化处理，得到多个第一平均池化特征，所述多个第一平均池化特征构成目标图像特征序列。

在一些实施例中，所述第二处理子单元，包括：

第三获取模块，用于获取所述语音识别结果中的目标标点信息；

第二划分模块，用于根据所述目标标点信息将所述文本特征序列划分为多个子文本特征序列；

第二处理模块，用于对每个子文本特征序列进行平均池化处理，得到多个第二平均池化特征，所述多个第二平均池化特征构成目标文本特征序列。

在一些实施例中，所述第一确定单元，包括：

提取子单元，用于从所述目标特征序列中提取出所述类别令牌特征对应的目标类别令牌特征；

第四处理子单元，用于对所述目标类别令牌特征进行第一次残差连接和归一化处理，得到第一过渡特征；

第五处理子单元，用于采用预设的前馈神经网络对所述第一过渡特征进行处理，得到第二过渡特征；

第六处理子单元，用于对所述第二过渡特征进行第二次残差连接和归一化处理，得到目标多媒体数据的目标特征。

在一些实施例中，所述第一计算单元，包括：

第三计算子单元，用于对所述融合特征序列进行至少一次自注意力计算，得到至少一个子目标特征序列；

拼接子单元，用于对所述至少一个子目标特征序列进行拼接，得到目标特征序列。

在一些实施例中，所述多媒体特征提取装置可以搭载多媒体特征提取模型，方法应用于多媒体特征提取模型，所述多媒体特征提取模型包括图像特征提取模块、文本特征提取模块以及多维度特征融合模块，所述第一提取子单元，还用于：

基于所述多媒体特征提取模型的图像特征提取模块对所述目标多媒体数据进行特征提取，得到所述目标多媒体数据的图像特征序列；

所述第二提取子单元，还用于基于所述多媒体特征提取模型的文本特征提取模块对所述目标多媒体数据进行特征提取，得到所述目标多媒体数据的文本特征序列；

所述融合单元、第一计算单元以及第一确定单元，还用于：

基于所述多媒体特征提取模型的多维度特征融合模块对所述图像特征序列和所述文本特征序列进行融合，得到所述目标多媒体数据的目标特征。

在一些实施例中，对所述多媒体特征提取模型进行训练的训练装置包括：

获取单元，用于获取训练样本集合，并对所述训练样本集合中的训练样本进行样本增广，得到增广训练样本集合；

第四提取单元，用于采用待训练的第一神经网络模型对所述训练样本集合进行特征提取，得到第一多媒体特征序列；

第五提取单元，用于采用待训练的第二神经网络模型对所述增广训练样本集合进行特征提取，得到第二多媒体特征序列，所述第一神经网络模型、所述第二神经网络模型的模型结构与所述多媒体特征提取模型的模型结构相同，所述第一神经网络模型、所述第二神经网络模型的初始模型参数相同；

采样单元，用于基于所述第二多媒体特征序列更新预设的增广特征序列，并从所述增广特征序列中采样预设数量的多媒体特征，得到第三多媒体特征序列；

第三计算单元，用于根据所述第一多媒体特征序列、所述第二多媒体特征序列以及所述第三多媒体特征序列计算对比损失；

训练单元，用于基于所述对比损失对所述第一神经网络模型和所述第二神经网络模型进行迭代训练，得到训练后的第一神经网络模型，所述训练后的第一神经网络模型为训练后的多媒体特征提取模型。

在一些实施例中，所述训练单元，包括：

第一更新子单元，用于基于所述对比损失进行反向传播更新所述第一神经网络模型的模型参数；

第二更新子单元，用于根据更新后的第一神经网络模型，采用动量更新方法对所述第二神经网络模型的参数进行更新；

执行子单元，用于返回执行采用第一神经网络模型对训练样本集合进行特征提取以及采用第二神经网络模型对增广样本集合进行特征提取的步骤，直至所述第一神经网络模型的模型参数收敛。

在一些实施例中，所述获取单元，包括：

获取子单元，用于获取预设多媒体数据集合，所述多媒体数据集合包括多个多媒体数据；

划分子单元，用于基于每个多媒体数据的文本特征序列中有效特征的数量将所述多媒体数据集合划分为第一子集合和第二子集合；

采样子单元，用于从所述第一子集合和所述第二子集合中分别采样预设数量的多媒体数据，得到训练样本集合；

增广子单元，用于采用第一样本增广方法对所述训练样本集合中的第一样本进行样本增广，采用第二样本增广方法对所述训练样本集合中的第二样本进行样本增广，所述第一样本为从所述第一子集合中采样的样本，所述第二样本为从所述第二子集合中采样的样本。

本申请第三方面提供一种多媒体数据检索方法，所述方法包括：

采用第一方面提供的任一项多媒体数据的特征提取方法提取待检索多媒体数据的第一特征以及候选多媒体数据库中每一多媒体数据的第二特征；

计算所述第一特征与每一第二特征的余弦相似度；

基于所述余弦相似度确定与所述待检索多媒体数据相似的目标多媒体数据。

相应地，本申请第四方面提供一种多媒体数据检索装置，所述装置包括：

第三提取单元，用于第一方面提供的任一项多媒体数据的特征提取方法提取待检索多媒体数据的第一特征以及候选多媒体数据库中每一多媒体数据的第二特征；

第二计算单元，用于计算所述第一特征与每一第二特征的余弦相似度；

第二确定单元，用于基于所述余弦相似度确定与所述待检索多媒体数据相似的目标多媒体数据。

本申请第五方面还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请第一方面所提供的多媒体数据的特征提取方法或者多媒体数据检索方法中的步骤。

本申请第六方面提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请第一方面所提供的多媒体数据的特征提取方法或者多媒体数据检索方法中的步骤。

本申请第七方面提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现本申请第一方面所提供的多媒体数据的特征提取方法或者多媒体数据检索方法中的步骤。

本申请实施例提供的多媒体数据的特征提取方法，通过对目标多媒体数据进行图像特征提取，得到目标多媒体数据的图像特征序列；对目标多媒体数据中的音频数据进行语音识别，并对语音识别结果进行文本特征提取，得到目标多媒体数据的文本特征序列；将图像特征序列和文本特征序列进行融合，得到融合特征序列；对融合特征序列进行自注意力计算，得到目标特征序列；根据目标特征序列确定目标多媒体数据的目标特征。

以此，本申请提供的多媒体数据的特征提取方法，通过对多媒体数据的图像特征以及多媒体数据中音频数据的语音识别结果对应的文本特征进行多维度特征的提取；然后将多维度特征进行融合以及对融合后的特征进行进一步的自注意力处理，并基于自注意力处理结果确定对多媒体数据进行描述的目标特征。由于采用了融合了多媒体数据的图像特征和音频数据对应的文本特征这两个维度的特征的目标特征对多媒体数据进行描述，使得目标特征对多媒体数据的描述更为准确，从而提高了对多媒体数据进行特征提取的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请中多媒体数据的特征提取的一个场景示意图；

图1b是本申请中多媒体数据的特征提取的另一个场景示意图；

图2是本申请提供的多媒体数据的特征提取方法的流程示意图；

图3是本申请提供的多媒体特征提取模型的模型结构示意图；

图4是本申请提供的多媒体特征提取模型的多维度特征融合模块的结构示意图；

图5是本申请提供的多媒体数据的特征提取方法的另一流程示意图；

图6是本申请提供的多媒体数据检索方法的流程示意图；

图7是本申请提供的多媒体数据检索装置的结构示意图；

图8是本申请提供的计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1a，为本申请提供的多媒体数据的特征提取方法的一场景示意图。如图所示，从多媒体数据中进行图像和文本这两个维度的特征提取，得到图像特征序列和文本特征序列。然后，对这图像特征序列和文本特征序列进行特征融合，得到融合后的融合特征序列。然后，对该融合特征序列进行自注意力计算，得到目标特征序列，基于目标特征序列确定多媒体数据的目标特征，从而完成对多媒体数据的特征提取。

请参阅图1b，为本申请提供的多媒体数据的特征提取方法的另一场景示意图。在该场景中，多媒体数据可以为视频数据。如图所示，终端B将需要进行视频特征提取的目标视频数据发送给服务器A，服务器A接收到终端B发送的目标视频数据后，对该目标视频数据进行图像特征的提取，得到该目标视频数据的图像特征序列。

进一步地，服务器A对目标视频数据中的音频数据进行语音识别，得到语音识别结果，并对语音识别结果进行文本特征提取，得到目标视频数据的文本特征序列。

然后，服务器A继续将提取得到的图像特征序列和文本特征序列进行融合，得到融合特征序列。然后对融合特征序列进行自注意力计算，得到目标特征序列。在得到目标视频的目标特征序列后，服务器A进一步根据目标特征序列确定目标视频数据的目标特征。

服务器A在提取得到目标视频数据的目标特征后，可以将目标特征发送给终端B。终端B可以进一步根据目标特征对目标视频数据进行进一步的检索操作。

需要说明的是，图1a及图1b所示的多媒体数据的特征提取的场景示意图仅仅是两个示例，本申请实施例描述的多媒体数据的特征提取的场景是为了更加清楚地说明本申请的技术方案，并不构成对于本申请提供的技术方案的限定。本领域普通技术人员可知，随着多媒体数据特征提取的场景的演变和新业务场景的出现，本申请提供的技术方案对于类似的技术问题，同样适用。

基于上述实施场景以下分别进行详细说明。

在相关技术中，在对多媒体数据进行检索、比对、查询以及分类的场景中，都需要对多媒体数据进行特征提取。目前，对多媒体数据进行特征提取，往往只提取多媒体数据的图像特征，并不考虑多媒体数据其他维度的特征，如此由于对多媒体数据的特征提取维度单一，使得提取得到的多媒体数据的特征对多媒体数据的描述能力不足，即提取的多媒体数据的特征的准确性不高。具体地，例如当多媒体数据为视频数据时，而且视频数据的内容为线上教学内容，当同一个教师教授不同的内容时，仅靠从视频数据中提取的图像特征难以将不同视频进行区分。

因此，本申请提供了一种多媒体数据的特征提取方法，该方法可以从图像特征和文本特征两个维度对多媒体数据进行特征提取，从而提升提取到的多媒体数据特征对多媒体数据的描述能力，即提高了多媒体数据的特征提取的准确性。

本申请实施例将从多媒体数据的特征提取装置的角度进行描述，该多媒体数据的特征提取装置可以集成在计算机设备中。其中，计算机设备可以是终端也可以是服务器。其中，终端可以为手机、平板电脑、笔记本电脑、智能电视、穿戴式智能设备、个人计算机(PC，Personal Computer)以及车载终端等设备。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。如图2所示，为本申请提供的多媒体数据的特征提取方法的流程示意图，该方法包括：

步骤101，对目标多媒体数据进行图像特征提取，得到目标多媒体数据的图像特征序列。

其中，目标多媒体数据为需要进行特征提取的多媒体数据。多媒体数据可以为视频数据，包括但不限于长视频数据、短视频数据；多媒体数据也可以为其他包含图像与音频的多媒体数据，例如多帧相同的图像与音频数据编辑生成的多媒体数据。

其中，对目标多媒体数据进行图像特征提取，可以先对多媒体数据进行图像帧采样，得到多帧图像。对目标多媒体数据进行图像帧采样，可以按照预设的采样频率对进行图像帧采样，其中，预设的采样频率可以由用户自行设定，具体例如设置为每秒一帧；也可以不按照预设的采样频率进行图像帧采样，例如可以由多媒体数据的特征提取装置根据图像帧之间的相似度情况自行调整采样频率。

无论是按照预设的采样频率对目标多媒体数据进行图像帧采样，还是不按照预设的固定采样频率对目标多媒体数据进行图像帧采样，都可以对多媒体数据进行采样得到多帧图像，此处多帧可以为至少一帧。然后，可以基于这多帧图像提取目标多媒体数据图像维度的特征。

其中，对多帧图像进行图像特征提取，可以为提取每一帧图像的灰度特征，也可以为提取每一帧图像的纹理特征，还可以为提取每一帧图像的形状特征或不变矩特征。当然，图像特征也可以为其他能够进行图像间区分的特征。对不同帧图像进行图像特征提取，可以采用同一种图像特征提取方法，也可以采用多种图像特征提取方法进行提取。

当对多帧图像进行灰度特征提取时，可以采用灰度平均值或者灰度方差方法进行提取。当对多帧图像进行纹理特征提取时，可以采用灰度差分统计法、灰度共生矩阵或者灰度-梯度共生矩阵方法进行提取。当对多帧图像进行形状特征提取时，可以采用对应的不变矩特征提取算法进行提取。

采用上述方法对多帧图像的图像特征进行提取，得到每帧图像对应的图像特征，这些图像特征构成了多媒体数据的图像特征序列。其中，提取出的图像帧特征可以是一个特征向量，也可以是一个特征矩阵。

在本申请实施例中，可以采用一个单独的图像特征提取模型对多媒体数据进行图像特征提取，也可以采用包含图像特征提取模块的多媒体特征提取模型来对多媒体数据进行图像特征提取。

步骤102，对目标多媒体数据中的音频数据进行语音识别，并对语音识别结果进行文本特征提取，得到目标多媒体数据的文本特征序列。

其中，在本申请实施例中，不仅可以对多媒体数据的图像维度的特征进行提取，还可以进一步对多媒体数据的音频维度的特征进行提取。

具体地，可以先从多媒体数据的音频流中获取到多媒体数据的音频数据。然后，对该音频数据进行自动语音识别(Automatic Speech Recognition，ASR)，得到语音识别结果，并将语音识别结果以文本形式进行输出，得到音频数据对应的文本数据。

然后，可以按照预设的分词方法对文本数据进行分词，得到多个词语。其中，预设的分词方法可以为按照文本语义进行划分，也可以按照文字单元进行划分。

对每一词语进行词特征提取，可以为采用词嵌入方法将每一词语映射到向量空间，得到每一词语的词特征。也可以从预设的映射关系表中获取每一词语对应的标识数据，再基于该标识数据进行词特征提取，得到每一词语的词特征。这些词语的词特征构成了目标多媒体数据的文本特征序列。

同样地，在本申请实施例中，可以采用单独的文本特征提取模型提取多媒体数据的文本特征序列，也可以采用包含文本特征提取模块的多媒体数据特征提取模型对多媒体数据进行文本特征提取，得到多媒体数据的文本特征序列。

步骤103，将图像特征序列和文本特征序列进行融合，得到融合特征序列。

其中，将多媒体数据的图像特征对应的特征序列和文本特征对应的特征序列进行融合处理，具体可以是对两个特征序列进行一定的运算，或者进行一定的拼接操作，得到新的特征序列，再进一步根据新的特征序列确定目标多媒体数据的目标特征。该目标特征可以从图像和音频两个维度对多媒体数据进行描述，对多媒体数据的表征更为准确。

在一些实施例中，将图像特征序列和文本特征序列进行融合，得到融合特征序列，包括：

1、对图像特征序列进行局部池化处理，得到目标图像特征序列；

2、对文本特征序列进行局部池化处理，得到目标文本特征序列；

3、将目标图像特征序列和目标文本特征序列进行融合，得到融合特征序列。

其中，在本申请实施例中，可以对多媒体数据的图像特征序列和文本特征序列分别进行局部池化，此举可以缩小图像特征序列和文本特征序列中特征的数量，减小运算量，从而提升多媒体数据的特征提取效率。

具体地，对图像特征序列进行局部池化处理，得到目标图像特征序列；对文本特征序列进行局部池化处理，得到目标文本特征序列。然后可以将目标图像特征序列和目标文本特征序列进行融合处理，得到融合特征序列。该方法大大降低了融合特征序列中特征数量，降低了运算效率，提升了多媒体数据特征提取效率。

其中，池化处理可以为加权池化、平均池化等。

在一些实施例中，对图像特征序列进行局部池化处理，得到目标图像特征序列，包括：

1.1、将图像特征序列中的图像特征按照图像采样顺序划分为多个子图像特征序列；

1.2、对每个子图像特征序列进行平均池化处理，得到多个第一平均池化特征，多个第一平均池化特征构成目标图像特征序列。

在本申请实施例中，可以采用平均池化方法对图像特征序列进行局部池化。具体地，可以先将图像特征序列划分为多个子图像特征序列，每个子图像特征序列中可以包含相同数量个图像特征。然后，对每一子图像特征序列进行平均池化，得到每一子图像特征序列对应的平均池化特征，为与本申请中其他平均池化特征作区分，此处可以称为第一平均池化特征。多个第一平均池化特征重新组成特征序列，得到目标图像特征序列。

例如，图像特征序列中包含100个图像特征，这100个图像特征在图像特征序列中按照其对应的图像的采样顺序进行排序。如此，可以按顺序将这100个图像特征划分为10个子图像特征序列，每个子图像特征序列中包含10个顺序上连续的图像特征。对每个子图像特征序列中的10个图像特征进行平均池化，得到每个子图像特征序列对应的第一平均池化特征。多个第一平均池化特征构成了新的图像特征序列，即目标图像特征序列。

在一些实施例中，对文本特征序列进行局部池化处理，得到目标文本特征序列，包括：

2.1、获取语音识别结果中的目标标点信息；

2.2、根据目标标点信息将文本特征序列划分为多个子文本特征序列；

2.3、对每个子文本特征序列进行平均池化处理，得到多个第二平均池化特征，多个第二平均池化特征构成目标文本特征序列。

在本申请实施例中，对文本特征序列进行平均池化，不再是按等量特征进行平均池化，而是按照文本中的标点符号来确定进行平均池化的特征。具体地，由于在文本中，不同的句子之间一般采用句号来进行分句。因此，可以先对语音识别得到的语音识别结果，即文本数据进行句号的查找，获取到文本中句号的位置。然后，根据这些句号的位置将文本特征序列划分为多个子文本特征序列，一个句子中的不同词对应的词特征属于同一子文本特征序列。

然后，再进一步对每一子文本特征序列中的多个词特征进行平均池化处理，得到每一子文本特征序列对应的第二平均池化特征，多个第二平均池化特征构成了目标文本特征序列。

在一些实施例中，将目标图像特征序列和目标文本特征序列进行融合，得到融合特征序列，包括：

3.1、获取预设的类别令牌特征；

3.2、将类别令牌特征、目标图像特征序列以及目标文本特征序列进行拼接，得到拼接特征序列；

3.3、获取拼接特征序列对应的位置编码序列以及维度编码序列；

3.4、对拼接特征序列、位置编码序列以及维度编码序列进行融合，得到融合特征序列。

其中，预设的类别令牌特征可以为辅助进行特征融合的特征，该特征可以为随机生成并可以进行训练的参数。

将类别令牌特征、目标图像特征序列以及目标文本特征序列进行拼接，可以为将令牌特征、目标图像特征序列和目标文本特征序列组合成一个包含所有特征的序列。例如，当目标图像特征序列包含m个特征，目标文本特征序列包含n个特征，那么拼接得到的拼接特征序列便可以包括m+n+1个特征。这些特征在拼接特征序列中可以为按照一定的顺序进行排列，也可以按照任意顺序进行排列。

进一步地，可以获取拼接特征序列对应的位置编码序列以及维度编码序列。其中，位置编码序列中的编码数量和拼接特征序列中的特征数量相同，位置编码为对拼接特征序列中的特征的位置进行描述的编码数据。维度编码序列中的编码数量也和拼接特征序列中的特征数量相同，维度编码为对拼接特征序列中的特征的维度进行描述的编码数据。其中，可以理解的是，由于拼接特征序列中每一特征的位置均不相同，因此位置编码序列中的每一位置编码数据也不相同。拼接特征序列中包含三个维度的特征，因此维度编码序列中包含三种维度编码数据。具体地，可以设置类别令牌特征对应的维度编码数据为0，图像特征对应的维度编码数据为1，文本特征对应的维度编码数据为2。此处仅为示例，维度编码数据也可以为维度编码向量等其他表现形式。

对拼接特征序列、位置编码序列以及维度编码序列进行融合，可以为对三个序列进行特征维度的加权处理，得到融合特征序列。

其中，在本申请实施例中，对图像特征序列和文本特征序列进行特征融合的过程，可以由独立的特征融合模型进行实现，也可以由包含特征融合模块的多媒体特征提取模型对图像特征序列和文本特征序列进行特征融合，得到融合特征序列。

步骤104，对融合特征序列进行自注意力计算，得到目标特征序列。

其中，由于融合特征序列中的各个特征之间仍然是独立的，对此，本申请提出采用自注意力机制的方法对融合特征序列中的特征进行进一步的交互和融合，输出的每一特征都是融合特征序列中所有特征进行自注意力得分加权得到的，以此完成对图像特征和文本特征的进一步融合，输出的多个特征组成了目标特征序列。

在一些实施例中，对融合特征序列进行自注意力计算，得到目标特征序列，包括：

1、对融合特征序列进行至少一次自注意力计算，得到至少一个子目标特征序列；

2、对至少一个子目标特征序列进行拼接，得到目标特征序列。

其中，在本申请实施例中，可以采用多头自注意力结构对融合特征序列进行处理，即对融合特征序列进行多次的自注意力计算，得到多个自注意力计算后的融合特征序列，此处可以称为子目标特征序列。

进一步地，可以对多次自注意力计算得到的多个子目标特征序列进行组合，得到目标特征序列。其中，对多个子目标特征序列进行组合，可以为对多个子目标特征序列进行拼接。

A、将融合特征序列映射到查询特征、键特征以及值特征的空间中，得到查询特征序列、键特征序列以及值特征序列，并计算查询特征序列与键特征序列的相关性矩阵；

B、确定融合特征序列中与类别令牌特征对应的类别融合特征、与目标图像特征序列对应的图像融合特征序列以及与目标文本特征序列对应的文本融合特征序列；

C、基于类别融合特征与融合特征序列中每一特征的交互结果、图像融合特征序列中每一特征与文本融合特征序列中每一特征之间的交互结果以及相关性矩阵计算自注意力权重矩阵；

D、基于自注意力权重矩阵对值特征序列进行加权处理，得到目标特征序列。

其中，在本申请实施例中，对融合特征序列进行自注意力计算，可以先将融合特征序列中每一特征映射到查询特征、键特征以及值特征对应的特征空间中，得到查询特征序列、键特征序列以及值特征序列。然后，计算查询特征序列和键特征序列的相关性矩阵。具体地，可以确定查询特征序列对应的第一矩阵和键特征序列对应的第二矩阵，然后计算第一矩阵和第二矩阵的转置矩阵之间的矩阵乘积，得到相关性矩阵。

如前所述，融合特征序列可以是拼接特征序列与位置编码序列、维度编码序列进行融合得到的特征序列，而拼接特征序列是由类别令牌特征与目标图像特征以及目标文本特征进行拼接得到的。因此，融合特征序列中包含了类别令牌特征对应的类别融合特征、与目标图像特征序列对应的图像融合特征序列以及与目标文本特征序列对应的文本融合特征序列。

然后，基于类别融合特征与融合特征序列中每一特征的交互结果、图像融合特征序列中每一特征与文本融合特征序列中每一特征之间的交互结果以及前述相关性矩阵计算自注意力权重矩阵。

具体地，可以先基于类别融合特征与融合特征序列中每一特征的交互结果、图像融合特征序列中每一特征与文本融合特征序列中每一特征之间的交互结果计算自注意力掩码矩阵，然后基于自注意力掩码矩阵和相关性矩阵计算自注意力权重矩阵。

进一步可以采用自注意力权重矩阵对值特征矩阵进行加权处理，得到目标特征序列。

步骤105，根据目标特征序列确定目标多媒体数据的目标特征。

其中，在对融合特征序列进行自注意力计算，得到目标特征序列后，可以进一步基于目标特征序列计算目标多媒体数据的目标特征。

具体地，在一些实施例中，根据目标特征序列确定目标多媒体数据的目标特征，包括：

1、从目标特征序列中提取出类别令牌特征对应的目标类别令牌特征序列；

2、对目标类别令牌特征序列进行第一次残差连接和归一化处理，得到第一过渡特征；

3、采用预设的前馈神经网络对第一过渡特征进行处理，得到第二过渡特征；

4、对第二过渡特征进行第二次残差连接和归一化处理，得到目标多媒体数据的目标特征。

其中，从目标特征序列中提取出类别令牌特征对应的目标类别令牌特征，即计算跨纬度信息交互后的类别令牌特征序列。然后，将类别令牌特征序列先通过一次残差链接与融合特征序列相加，然后将相加的结果进行归一化处理，接着将归一化处理后的结果经前馈神经网络处理后，再次进行残差链接和归一化处理，得到目标多媒体数据的目标特征。

在一些实施例中，本申请提供的多媒体数据的特征提取方法可以应用于多媒体特征提取模型中，该多媒体特征提取模型包括图像特征提取模块、文本特征提取模块以及多维度特征融合模块，那么对目标多媒体数据进行图像特征提取，得到目标多媒体数据的图像特征序列，可以是：

基于多媒体特征提取模型的图像特征提取模块对目标多媒体数据进行特征提取，得到目标多媒体数据的图像特征序列；

对目标多媒体数据中的音频数据进行语音识别，并对语音识别结果进行文本特征提取，得到目标多媒体数据的文本特征序列，可以是：

基于多媒体特征提取模型的文本特征提取模块对目标多媒体数据进行特征提取，得到目标多媒体数据的文本特征序列；

将图像特征序列和文本特征序列进行融合，得到融合特征序列，对融合特征序列进行自注意力计算，得到目标特征序列，根据目标特征序列确定目标多媒体数据的目标特征，可以是：

基于多媒体特征提取模型的多维度特征融合模块对图像特征序列和文本特征序列进行融合，得到目标多媒体数据的目标特征。

如图3所示，为本申请提供的多媒体特征提取模型的模型结构示意图。多媒体数据经多媒体特征提取模型中的图像特征提取模块提取出图像特征序列，经文本特征提取模型提取出文本特征序列，然后将文本特征序列和图像特征序列输入值多媒体特征提取模型的多维度特征融合模块中进行融合，输出多媒体特征，此多媒体特征即为多媒体数据的目标特征。

如图4所示，为本申请提供的多媒体特征提取模型的多维度特征融合模块的结构示意图。其中，多维度特征融合模块包括一个多维度变换编码器，该多维度变换编码器包括多头自注意力层、两个残差连接和归一化层以及一个前馈神经网络层。当图像特征序列和文本特征序列输入至多维度特征融合模块时，多维度特征融合模块先将图像特征序列、文本特征序列以及预设的类别令牌特征融合成融合特征序列，并为融合特征序列生成其对应的位置编码序列以及维度编码序列，然后将融合特征序列、位置编码序列以及维度编码序列输入至多维度变换编码器中进行进一步特征融合，得到多媒体特征，即目标多媒体数据的目标特征。

为了使得上述多媒体特征提取模型能够提取出更为准确的多媒体特征，即使得多媒体特征提取模型具有更好的模型效果，需要对多媒体特征提取模型进行模型训练。

在本申请实施例中，对上述多媒体特征提取模型进行训练可以采用动量对比学习的方法进行训练。其中，动量对比学习(Momentum Contrast，MoCo)是一种自监督学习框架。该模型训练的方法包括如下步骤：

A、获取训练样本集合，并对训练样本集合中的训练样本进行样本增广，得到增广训练样本集合；

B、采用待训练的第一神经网络模型对训练样本集合进行特征提取，得到第一多媒体特征序列；

C、采用待训练的第二神经网络模型对增广训练样本集合进行特征提取，得到第二多媒体特征序列，第一神经网络模型、第二神经网络模型的模型结构与多媒体特征提取模型的模型结构相同，第一神经网络模型、第二神经网络模型的初始模型参数相同；

D、基于第二多媒体特征序列更新预设的增广特征序列，并从增广特征序列中采样预设数量的多媒体特征，得到第三多媒体特征序列；

E、根据第一多媒体特征序列、第二多媒体特征序列以及第三多媒体特征序列计算对比损失；

F、基于对比损失对第一神经网络模型和第二神经网络模型进行迭代训练，得到训练后的第一神经网络模型，训练后的第一神经网络模型为训练后的多媒体特征提取模型。

其中，本申请实施例中采用基于MoCo框架的自监督模型训练方法对多媒体特征提取模型进行训练。具体地，先获取训练样本集合，训练样本集合中包括了多个多媒体数据。然后对训练样本集合进行增广，得到增广训练样本集合。然后使用训练样本集合和增广训练样本集合对多媒体特征提取模型进行训练。

在一些实施例中，所述获取训练样本集合，并对所述训练样本集合中的训练样本进行样本增广，得到增广训练样本集合，包括：

A1、获取预设多媒体数据集合，所述多媒体数据集合包括多个多媒体数据；

A2、基于每个多媒体数据的文本特征序列中有效特征的数量将所述多媒体数据集合划分为第一子集合和第二子集合；

A3、从所述第一子集合和所述第二子集合中分别采样预设数量的多媒体数据，得到训练样本集合；

A4、采用第一样本增广方法对所述训练样本集合中的第一样本进行样本增广，采用第二样本增广方法对所述训练样本集合中的第二样本进行样本增广，所述第一样本为从所述第一子集合中采样的样本，所述第二样本为从所述第二子集合中采样的样本。

其中，在本申请实施例中，对训练样本数据的获取，可以为从预设多媒体数据集合中采样得到。具体地，可以先对多媒体数据集合中的每一多媒体数据进行文本特征序列的提取，此处可以采用本申请提供的多媒体特征提取模型的文本特征提取模块进行提取，也可以采用其他方式进行提取。

然后，对每一多媒体数据对应的文本特征序列中有效特征的数量进行获取，当有效特征数量大于预设第一数量时，确定对应的多媒体数据组成第一子集合；当有效特征数量小于预设第二数量时，确定对应的多媒体数据组成第二子集合。

然后，在第一子集合和第二子集合中分别采样第三预设数量的多媒体数据，组成训练样本集合。其中，从第一子集合中采样的多媒体数据为第一样本，从第二子集合中采样的多媒体数据为第二样本。即训练样本集合中包含了多个第一样本和同样数量的第二样本。

进一步地，对训练样本集合进行增广，可以为对第一样本和第二样本进行分别增广。而且，在本申请实施例中，可以采用两种不同的数据增广方法对第一样本和第二样本进行分别增广。具体地，对样本进行增广可以包括图像增广和文本增广这两部分，对第一样本可以采用随机的颜色变换、仿射变换、局部擦除处理图像帧进行图像增广，采用低比例文本丢弃和随机增加噪声方式来进行文本增广；对第二样本也可以采用随机的颜色变换、仿射变换、局部擦除处理图像帧进行图像增广，但在对文本进行增广时，可以采用随机交换文本中所有样本的文本数据来实现。

其中，增广样本的数量与训练样本集合中的样本数量相同，且训练样本集合中的样本与增广样本集合中的样本一一对应组成正样本对。

然后，采用两个初始模型参数相同但模型参数不共用的多媒体特征提取模型分别对训练样本集合和增广样本集合中的样本进行多媒体特征提取。其中，这两个多媒体特征提取模型为具有图3结构的神经网络模型，分别记为第一神经网络模型和第二神经网络模型，或者第一多媒体特征提取模型和第二多媒体特征提取模型。

具体地，采用第一多媒体特征提取模型对训练样本集合进行特征提取，得到第一多媒体特征序列；采用第二多媒体特征提取模型对增广样本进行特征提取，得到第二多媒体特征序列。

然后，初始化增广特征序列，其中，增广特征序列为用于提取与第一多媒体特征序列组成负特征对的特征的序列。增广特征序列初始不存在特征，可以使用第二多媒体特征序列对其进行更新，即将第二多媒体特征序列加入至增广特征序列中。然后，在模型进行循环训练的过程中，每次循环都将当前次生成的第二多媒体特征序列加入至增广特征序列中，以对增广特征序列进行持续更新。

在分别提取出训练样本的第一多媒体特征序列和增广样本的第二多媒体特征序列后，可以从增广样本特征序列中采样增广特征序列，该增广特征序列可以称为第三多媒体特征序列。该第三多媒体特征序列中的特征与第一多媒体特征序列中的特征组成负特征对。

进一步地，可以根据第一多媒体特征序列、第二多媒体特征序列以及第三多媒体特征序列计算对比损失。然后基于对比损失对第一多媒体特征提取模型和第二多媒体特征提取模型进行迭代训练，得到训练后的第一多媒体特征提取模型和第二多媒体特征提取模型。其中第一多媒体特征提取模型便为训练后的多媒体特征提取模型。

在一些实施例中，基于对比损失对第一神经网络模型和第二神经网络模型进行迭代训练，包括：

F1、基于对比损失进行反向传播更新第一神经网络模型的模型参数；

F2、根据更新后的第一神经网络模型，采用动量更新方法对第二神经网络模型的参数进行更新；

F3、返回执行采用第一神经网络模型对训练样本集合进行特征提取以及采用第二神经网络模型对增广样本集合进行特征提取的步骤，直至第一神经网络模型的模型参数收敛。

其中，对求得的对比损失可以进行梯度下降求解，并据此进行反向传播更新第一多媒体特征提取模型中的模型参数。此时第二多媒体特征提取模型中的模型参数并不与第一多媒体特征提取模型的模型参数进行同步更新，而是采用动量更新方法对第二神经网络模型的参数进行更新。然后再返回至对训练样本集合与增广样本集合进行特征提取的步骤，循环迭代直至第一多媒体特征提取模型和第二多媒体特征提取模型收敛。

根据上述描述可知，本申请实施例提供的多媒体数据的特征提取方法，通过对目标多媒体数据进行图像特征提取，得到目标多媒体数据的图像特征序列；对目标多媒体数据中的音频数据进行语音识别，并对语音识别结果进行文本特征提取，得到目标多媒体数据的文本特征序列；将图像特征序列和文本特征序列进行融合，得到融合特征序列；对融合特征序列进行自注意力计算，得到目标特征序列；根据目标特征序列确定目标多媒体数据的目标特征。

而且，本申请提供的多媒体特征提取模型，可以将图像特征提取模块和文本特征提取模块一起加入到模型中进行训练，可以进一步提高图像特征与文本特征提取的准确性，从而进一步提高了多媒体特征提取模型的模型性能，也就进一步提高了对多媒体数据进行特征提取的准确性。

另外，本申请提供的多媒体特征提取模型的训练方法，可以在缺少标注数据的情况下得到更好的模型训练效果，而且由于训练过程中增广了训练样本，引入了更多的训练数据，从而可以提高多媒体特征提取模型的鲁棒性。

本申请还提供了一种多媒体数据的特征提取方法，该方法可以使用于计算机设备中，该计算机设备可以为终端也可以为服务器。如图5所示，为本申请提供的多媒体数据的特征提取方法的另一流程示意图，在本申请实施例中，多媒体数据具体可以为视频数据，该方法具体包括：

步骤201，计算机设备获取训练样本集合。

其中，训练样本集合中可以包括多个视频数据。这多个视频数据可以为随机获取到的视频数据。其中，每一视频数据包括图像流数据和音频流数据。

步骤202，计算机设备对每一视频数据进行文本特征提取。

其中，在本申请实施例中，可以采用本申请中的视频特征提取模型对每一视频数据进行文本特征提取，也可以采用单独的文本特征提取器对每一视频数据的文本特征进行提取。其中，对视频数据的文本特征进行提取的过程，包括对视频数据中包含的音频流数据进行语音识别，得到文本数据，然后对该文本数据进行文本特征提取，得到每一视频数据对应的文本特征。其中，每一视频数据对应的文本特征可以有多个，这多个文本特征构成了文本特征序列。

其中，采用本申请提供的视频特征提取模型对视频的文本特征进行提取，可以为每个视频的ASR文本生成对应的词id序列(w₁,…,w_m)与注意力掩码(attention mask)，id序列用于为视频特征提取模型中的文本特征提取模块初始化词向量，注意力掩码用于标识id序列中的填充词。

步骤203，计算机设备基于文本特征中有效信息数量将训练样本集合分为第一样本集合和第二样本集合。

其中，本申请提供的视频特征提取模型在对每一视频进行文本特征提取得到文本序列时，可以控制提取得到的文本序列的长度一致。即每个视频对应的文本特征序列中包含的文本特征的数量一致，以便后续进行训练。然而，每个视频数据对应的ASR文本中能够提取出的有效词特征的数量是不一定相同的，此时可以采用注意力掩码填充的方法来使得文本特征序列的长度一致。其中，从视频数据的ASR文本中提取出的词特征为有效特征，或称为有效信息，注意力掩码为非有效的文本特征，或者称为无效信息。

此时，便可以获取到每个视频数据对应提取出的文本特征序列中有效文本特征的数量。并基于该有效文本特征或者有效信息的数量将训练样本集合进行分类。具体地，可以设置有效文本特征的数量大于32的视频组成第一样本集合，记为S1；有效文本特征的数量少于16的视频组成第二样本集合，记为S2。

步骤204，计算机设备从第一样本集合和第二样本集合中分别采样第一数量的视频数据，得到组合训练样本集合。

其中，从S1和S2中分别采样n/2个训练样本，组成组合训练样本集合。其中，n是2的整数倍。从S1和S2中进行训练样本采样，可以是随机采样也可以是按照预设规则进行采样。组合训练样本集合可以记为

步骤205，计算机设备对组合训练样本集合进行数据增广，得到增广样本集合。

其中，对于组合训练样本集合中的两类样本d¹和d²，可以采用不同的数据增广方法分别进行增广。其中，由于两类样本都是视频数据，而视频数据都包含了视觉特征(即图像特征)和听觉特征(即音频特征)，而且在本申请中，以音频的ASR对应的文本特征来表征音频特征。即对每个视频数据进行数据增广，可以从图像和文本两个角度进行。

在本申请实施例中，对于d¹中的视频数据进行数据增广可以采用随机的颜色变换、放射变换、局部擦除处理视频帧进行图像处理，使用低比例的文本丢弃和随机增加噪声两种方式对ASR文本进行处理，得到对应的增广视频数据。对于d²中的视频数据进行数据增广可以采用随机的颜色变换、放射变换、局部擦除处理视频帧进行图像处理，使用随机交换d²中的视频数据的ASR文本的方式得到多个增广视频数据。

其中，在本申请实施例中，可以控制增广样本集合中的增广视频数据与组合训练样本集合中的视频数据的数量保持一致，此时每个组合训练样本中的视频数据与一个增广视频数据可以组成一个正样本对。

步骤206，计算机设备采用第一特征提取模型对组合训练样本集合中的视频数据进行特征提取，得到第一视频特征序列。

其中，第一特征提取模型为本申请提供的具有如图3所示的模型结构的视频特征提取模型。该模型为需要进行模型训练的模型，在对组合训练样本集合中的视频数据进行特征提取前，模型的参数可以进行初始化处理。

采用第一特征提取模型对组合训练样本集合中的每一视频数据进行特征提取的过程，可以包括三个大的步骤，分别为：采用第一特征提取模型的图像特征提取模块V(f_i)提取视频数据的图像特征序列；采用第一特征提取模型的文本特征提取模块T(w_i)提取视频数据的文本特征序列；采用第一特征提取模型的多维度特征融合模块F(c_i)对视频数据的图像特征序列和文本特征序列进行特征融合，得到视频特征。

此处可以对上述三个步骤进行详细介绍：

1、视频帧采样，采用1帧每秒的频率从原始视频帧序列中采集一组稀疏的图像序列(f₁,…,f_n)，用作图像特征提取模块V(f_i)的输入。

2、ASR分词，对视频数据中的音频流进行ASR识别，得到ASR文本，然后对ASR文本进行分词得到词id序列。该过程在步骤202中已经详细介绍，此处不再赘述。

3、图像特征提取。采用图像特征提取模块V(f_i)对图像序列(f₁,…,f_n)中的每一帧图像进行编码，输出等长的图像特征序列(v₁,…,v_n)。

4、ASR文本的词级别特征提取。采用文本特征提取模块T(w_i)对文本序列(w₁,…,w_m)进行词特征提取，输出与文本序列的序列长度等长的文本特征序列(t₁,…,t_n)。

5、对图像特征序列和文本特征序列进行聚合。采用局部池化的方法对提取到的全量图像特征序列和文本特征序列进行聚合。

图像特征聚合序列时，首先采用定长划分策略将图像特征序列(v₁,…,v_n)划分为若干等长子序列，然后根据公式(1)对子序列进行平均池化。

其中，

为聚合后的图像特征序列中第j个图像特征，l是子序列的长度，c∈R^d,v∈R^d表示聚合前后的图像特征都是维度为d的特征向量。

文本特征序列聚合时，可以采用特殊标识符划分策略将文本特征序列中的多个文本特征划分为多个子序列，这些子序列中的特征数量可以相同也可以不同。其中，在ASR文本中，往往以句号进行不同句子之间的区分，因此特殊标识符可以是句号。即对文本特征序列进行聚合时，可以采用句号为标识符进行标识符不定长划分策略。具体的划分与特征聚合方式可以如公式(2)所示：

其中，

为聚合后的文本特征序列中第j个文本特征，p_j为第j个句号在聚合前的文本特征序列中的坐标。

6、将聚合后的图像特征序列和文本特征序列融合成新的融合特征序列。其中，在本申请实施例中，可以采用一个类别令牌特征(cls token)与聚合后的图像特征序列以及聚合后的文本特征序列进行融合，得到融合后的特征序列。融合后的特征序列可以表示为

其中，l是融合后的图像特征序列中图像特征的数量，w是融合后的文本特征序列中文本特征的数量。

7、对融合后的特征序列进行编码。进一步地，对于融合后的特征序列，获取其对应的位置编码特征序列和维度编码特征序列。位置编码序列用不同的位置编码向量p_i对融合后的特征序列中的每一特征的位置信息进行表征；维度编码用每一类维度独立的维度编码向量m^*对融合后的特征序列中每一特征的维度信息进行表征。本申请中包括三种维度编码特征：m^cls、m^v和m^t，其中，m^cls是cls token对应的维度编码特征，m^v是聚合后的图像特征序列中每一特征对应的维度编码特征，m^t是聚合后的文本特征序列中每一特征对应的维度编码特征。其中，聚合后的图像特征序列中不同图像特征对应的维度编码特征相同，聚合后的文本特征序列中不同文本特征对应的维度编码特征也相同。

然后，根据位置编码特征序列和维度编码特征序列对融合后的特征序列进行编码，具体可以按照公式(3)进行处理：

其中，x_i为编码后的特征序列中的第i个特征，

是融合后的特征序列中第i个特征，p_i是融合后的特征序列中第i个特征对应的位置特征，m^*是融合后的特征序列中第i个特征对应的维度特征。*∈{cls,v,t}表示*为集合{cls,v,t}中的一个元素，其具体值可以根据i的具体值确定。

8、将编码后的特征序列输入至多头自注意力层中进行跨维度的自注意力处理。其中，编码后的特征序列中cls token对应的特征与每一特征进行交互，而图像特征对应的特征只与图像特征以外的其他特征进行交互。具体过程可以如下：

8.1、确定自注意力层的输入，包括：编码后的特征序列

其中特征序列的长度为n，特征维度为d₁；掩码向量v^mask∈Rⁿ；以及维度标识向量v^modal∈Rⁿ。

8.2、确定查询特征Q、键特征K以及值特征V维度的空间映射参数

其中，W^Q为Q空间的权重矩阵，b^Q为Q空间对应的偏移参数。权重矩阵为d₁×d₂维的矩阵，偏移参数为d₂维的向量。

8.3、将特征序列X映射到Q、K、V三个特征空间，得到每个空间对应的特征序列：

其中，*∈{Q,K,V}。

8.4、计算特征空间Q和特征空间K对应的特征序列之间的相关性矩阵，具体可以按照公式(4)进行计算：

其中，

为特征空间K对应的特征序列的转置矩阵。

8.5、计算跨维度自注意力掩码矩阵。计算过程如下：

M^O＝Onehot(v^modal)，M^O∈R^n×3 公式(5)

其中，Onehot(v^modal)是对维度特征向量进行以为有效编码处理。M_i是自注意力掩码矩阵M的第i个行向量，diag(n)表示以n构造对角矩阵，

表示计算特征向量之间的张量积。

8.6、根据自注意力掩码矩阵计算自注意力权重矩阵，具体计算过程如下：

其中，A_i是自注意力权重矩阵的第i个行向量。

8.7、根据自注意力权重矩阵计算输出令牌序列，具体计算过程如下：

其中，X^O为输出token序列，其中V为输入特征序列X在特征空间V上的映射特征序列。然后输出跨维度信息交互后的token序列X^O。

8.8、根据多头自注意力层输出结果确定最终输出结果。其中，上述X^O为一个自注意力层的输出结果，本申请采用多头自注意力层，可以输出多个X^O，对这多个输出结果在特征维度进行拼接，可以得到最终的输出结果，得到自注意力处理后的输出特征序列。

9、对多头自注意力层的输出特征序列进行处理，得到第一视频特征Q。

具体地，可以先对多头自注意力层输出的特征序列X^O通过残差连接与原始特征序列X相加，然后经过一个由全连接层组成的前馈神经网络层进行处理，最后再重复一次残差连接与归一化处理。具体处理可以按照如下公式进行：

X′＝(X^O+X) 公式(9)

X″＝LayerNorm(X′+FFN(X′))

公式(10)

其中，X′为经过一次残差处理后的特征序列；X″为经过两次残差处理后的特征序列。FFN(X′)表示采用全连接层组成的前馈神经网络对一次残差处理后的特征序列进行处理，LayerNorm表示对特征序列进行归一化处理。

步骤207，计算机设备采用第二特征提取模型对增广样本集合中的视频数据进行特征提取，得到第二视频特征序列。

其中，第二特征提取模型和第一特征提取模型为具有相同结构和相同初始化参数的神经网络模型。但是，第一特征提取模型和第二特征提取模型的模型参数并不公用，即在训练过程中，当第一特征提取模型的模型参数发生更新时，第二特征提取模型的模型参数并不随之同步更新。即第一特征提取模型和第二特征提取模型为相同但又相互独立的两个模型。

第二特征提取模型对增广样本集合中的视频数据进行特征提取，得到第二视频特征K⁺的具体特征提取过程，与第一特征提取模型对组合训练样本集合中的视频数据进行特征提取的过程相同，此处不再予以赘述。其中，Q,K⁺∈R^n×d。由于增广样本集合中的视频数据与组合样本集合中的视频数据组成了正样本对，因此第二视频特征K⁺又称为正样本特征。Q与K⁺组成正特征对。

步骤208，计算机设备从增广特征序列中采样第二数量的特征，得到第三视频特征序列。

其中，增广特征序列queueK为基于从增广样本集合中提取出的第二视频特征K⁺进行更新的特征序列。初始化时，增广特征序列不存在，即为0。在每次更新的循环中，将新生成的K⁺加入至queueK中以对其进行更新。queueK的数量可以设置一个上限，该上限为增广样本集合中视频数量的整数倍。

其中，从增广特征序列中进行采样，将采样得到的特征作为负样本特征K^-，此处K^-可以称为第三视频特征序列。采样数量可以是增广样本中视频数据数量的f倍，则K^-∈R^fn ^×d，Q与K^-组成了负特征对。

步骤209，计算机设备根据第一视频特征序列、第二视频特征序列以及第三视频特征序列计算对比损失。

其中，可以根据正特征对和负特征对来计算对比损失(即Info NCE损失)，具体计算公式如下：

其中，L_q为特征序列Q中的任一视频特征对应的对比损失，q为特征序列Q中的任一视频特征，k⁺为第二特征序列K⁺中与特征q对应的特征，k^-为第三特征序列K^-中与特征q对应的特征。其中，k^-总计有f个，

为其中的第i个。

步骤210，计算机设备根据对比损失对第一特征提取模型的模型参数进行更新，并基于更新后的第一特征提取模型更新第二特征提取模型。

其中，基于对比损失的损失函数，对损失函数进行梯度下降处理并进行梯度反向传播，从而实现对第一特征提取模型的参数的更新。

进一步地，可以采用动量更新的方法对第二特征提取模型的参数进行更新，动量更新方法的公式如下：

θ_K＝gθ_K+(1-g)θ_Q

公式(12)

其中，g为动量更新系数，θ_K为第二特征提取模型的模型参数，θ_Q为第一特征提取模型的模型参数。

步骤211，计算机设备基于第二视频特征序列更新增广特征序列。

其中，在此步骤中，可以基于第二视频特征序列对增广特征序列进行更新，即将第二视频特征序列加入至增广特征序列中。

在一些实施例中，也可以控制增广特征序列的数量，即对该序列的数量进行检测，当数量未达到预设数量时，采用第二视频特征序列进行更新；若数量已经达到预设数量，则不对增广特征序列进行更新。

步骤212，计算机设备判断第一特征提取模型是否收敛。

其中，判断第一特征提取模型是否收敛，具体可以为判断迭代次数是否达到预设次数，或者判断对比损失的值是否小于预设值等。

当确定第一特征提取模型收敛，则进入步骤213，若确定第一特征提取模型尚未收敛，则返回执行步骤204，进行循环迭代，直至第一特征提取模型收敛，完成对第一特征提取模型的训练。

步骤213，计算机设备采用训练后的第一特征提取模型对目标视频进行特征提取。

其中，完成了对第一特征提取模型的训练后，便可以采用训练后的第一特征提取模型对待进行特征提取的目标视频进行特征提取，得到目标视频的目标特征。

根据上述描述可知，本申请提供的多媒体数据的特征提取方法，通过对多媒体数据的图像特征以及多媒体数据中音频数据的语音识别结果对应的文本特征进行多维度特征的提取；然后将多维度特征进行融合以及对融合后的特征进行进一步的自注意力处理，并基于自注意力处理结果确定对多媒体数据进行描述的目标特征。由于采用了融合了多媒体数据的图像特征和音频数据对应的文本特征这两个维度的特征的目标特征对多媒体数据进行描述，使得目标特征对多媒体数据的描述更为准确，从而提高了对多媒体数据进行特征提取的准确性。

本申请实施例还提供一种多媒体数据检索方法，该方法可应用于多媒体数据检索装置中，该多媒体数据检索装置可以集成在终端或服务器中。其中，计算机设备可以是终端也可以是服务器。其中，终端可以为手机、平板电脑、笔记本电脑、智能电视、穿戴式智能设备、个人计算机(PC，Personal Computer)以及车载终端等设备。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。如图6所示，为本申请提供的多媒体数据检索方法的流程示意图，该方法包括：

步骤301，对待检索多媒体数据进行特征提取，得到第一特征。

其中，在本申请实施例中，对待检索多媒体数据进行特征提取的方法，可以为本申请中前述实施例中提供的多媒体数据的特征提取方法中的任一种。具体地可以采用图2实施例中提供的特征提取方法对待检索多媒体数据进行特征提取，提取得到能够从多个维度对多媒体数据进行表征的多媒体数据的特征数据。即提取得到待检索多媒体数据的第一特征。

步骤302，对候选多媒体数据库中每一多媒体数据进行特征提取，得到第二特征。

其中，对多媒体数据库中的每一多媒体数据进行特征提取的方法，与步骤301中对待检索多媒体数据进行特征提取的提取方法相同。提取得到多媒体数据库中每一多媒体数据对应的第二特征。

步骤303，计算第一特征与每一第二特征的余弦相似度。

其中，第一特征和第二特征均可以以特征向量的形式进行表示。在本申请中，对多媒体数据进行特征提取，可以得到多媒体数据对应的特征向量，即第一特征与第二特征均为特征向量，多个第二特征可以组成特征矩阵。

进一步地，可以计算第一特征与每一第二特征对应的向量之间的余弦相似度，得到多个余弦相似度值。

步骤304，基于余弦相似度确定与待检索多媒体数据相似的目标多媒体数据。

其中，可以设置一个预设阈值，当余弦相似度值高于预设阈值时，确定该第二特征对应的视频数据为与待检索多媒体数据相似的目标多媒体数据；当余弦相似度低于预设阈值时，则确定该第二特征对应的视频数据为与待检索多媒体数据不相似的目标多媒体数据。

根据上述描述可知，本申请提供的多媒体数据检索方法，通过采用本申请中提供的的多媒体数据的特征提取方法提取待检索多媒体数据的第一特征以及候选多媒体数据库中每一多媒体数据的第二特征；计算第一特征与每一第二特征的余弦相似度；基于余弦相似度确定与待检索多媒体数据相似的目标多媒体数据。以此，由于从图像维度和文本维度这两个维度对多媒体数据进行特征提取，并对分别提取的特征进行融合，得到能够从多维度对多媒体数据进行表征的多媒体数据的特征数据。基于该特征数据对多媒体数据进行检索，可以得到更为准确的检索结果。

为了更好地实施以上方法，本申请实施例还提供一种多媒体数据的特征提取装置，该多媒体数据的特征提取装置可以集成在终端或服务器中。

例如，如图6所示，为本申请实施例提供的多媒体数据的特征提取装置的结构示意图，该多媒体数据的特征提取装置可以包括第一提取单元401、第二提取单元402、融合单元403、第一计算单元404以及第一确定单元405，如下：

第一提取单元401，用于对目标多媒体数据进行图像特征提取，得到目标多媒体数据的图像特征序列；

第二提取单元402，用于对目标多媒体数据中的音频数据进行语音识别，并对语音识别结果进行文本特征提取，得到目标多媒体数据的文本特征序列；

融合单元403，用于将图像特征序列和文本特征序列进行融合，得到融合特征序列；

第一计算单元404，用于对融合特征序列进行自注意力计算，得到目标特征序列；

第一确定单元405，用于根据目标特征序列确定目标多媒体数据的目标特征。

在一些实施例中，融合单元，包括：

第一处理子单元，用于对图像特征序列进行局部池化处理，得到目标图像特征序列；

第二处理子单元，用于对文本特征序列进行局部池化处理，得到目标文本特征序列；

融合子单元，用于将目标图像特征序列和目标文本特征序列进行融合，得到融合特征序列。

在一些实施例中，融合子单元，包括：

第一获取模块，用于获取预设的类别令牌特征；

拼接模块，用于将类别令牌特征、目标图像特征序列以及目标文本特征序列进行拼接，得到拼接特征序列；

第二获取模块，用于获取拼接特征序列对应的位置编码序列以及维度编码序列；

融合模块，用于对拼接特征序列、位置编码序列以及维度编码序列进行融合，得到融合特征序列。

在一些实施例中，第一计算单元，包括：

第一计算子单元，用于将融合特征序列映射到查询特征、键特征以及值特征的空间中，得到查询特征序列、键特征序列以及值特征序列，并计算查询特征序列与键特征序列的相关性矩阵；

确定子单元，用于确定融合特征序列中与类别令牌特征对应的类别融合特征、与目标图像特征序列对应的图像融合特征序列以及与目标文本特征序列对应的文本融合特征序列；

第二计算子单元，用于基于类别融合特征与融合特征序列中每一特征的交互结果、图像融合特征序列中每一特征与文本融合特征序列中每一特征之间的交互结果以及相关性矩阵计算自注意力权重矩阵；

第三处理子单元，用于基于自注意力权重矩阵对值特征序列进行加权处理，得到目标特征序列。

在一些实施例中，第一处理子单元，包括：

第一划分模块，用于将图像特征序列中的图像特征按照图像采样顺序划分为多个子图像特征序列；

第一处理模块，用于对每个子图像特征序列进行平均池化处理，得到多个第一平均池化特征，多个第一平均池化特征构成目标图像特征序列。

在一些实施例中，第二处理子单元，包括：

第三获取模块，用于获取语音识别结果中的目标标点信息；

第二划分模块，用于根据目标标点信息将文本特征序列划分为多个子文本特征序列；

第二处理模块，用于对每个子文本特征序列进行平均池化处理，得到多个第二平均池化特征，多个第二平均池化特征构成目标文本特征序列。

在一些实施例中，第一确定单元，包括：

提取子单元，用于从目标特征序列中提取出类别令牌特征对应的目标类别令牌特征；

第四处理子单元，用于对目标类别令牌特征进行第一次残差连接和归一化处理，得到第一过渡特征；

第五处理子单元，用于采用预设的前馈神经网络对第一过渡特征进行处理，得到第二过渡特征；

第六处理子单元，用于对第二过渡特征进行第二次残差连接和归一化处理，得到目标多媒体数据的目标特征。

在一些实施例中，第一计算单元，包括：

第三计算子单元，用于对融合特征序列进行至少一次自注意力计算，得到至少一个子目标特征序列；

拼接子单元，用于对至少一个子目标特征序列进行拼接，得到目标特征序列。

在一些实施例中，多媒体特征提取装置可以搭载多媒体特征提取模型，方法应用于多媒体特征提取模型，多媒体特征提取模型包括图像特征提取模块、文本特征提取模块以及多维度特征融合模块，第一提取子单元，还用于：

第二提取子单元，还用于基于多媒体特征提取模型的文本特征提取模块对目标多媒体数据进行特征提取，得到目标多媒体数据的文本特征序列；

融合单元、第一计算单元以及第一确定单元，还用于：

在一些实施例中，对多媒体特征提取模型进行训练的训练装置包括：

获取单元，用于获取训练样本集合，并对训练样本集合中的训练样本进行样本增广，得到增广训练样本集合；

第四提取单元，用于采用待训练的第一神经网络模型对训练样本集合进行特征提取，得到第一多媒体特征序列；

第五提取单元，用于采用待训练的第二神经网络模型对增广训练样本集合进行特征提取，得到第二多媒体特征序列，第一神经网络模型、第二神经网络模型的模型结构与多媒体特征提取模型的模型结构相同，第一神经网络模型、第二神经网络模型的初始模型参数相同；

采样单元，用于基于第二多媒体特征序列更新预设的增广特征序列，并从增广特征序列中采样预设数量的多媒体特征，得到第三多媒体特征序列；

第三计算单元，用于根据第一多媒体特征序列、第二多媒体特征序列以及第三多媒体特征序列计算对比损失；

训练单元，用于基于对比损失对第一神经网络模型和第二神经网络模型进行迭代训练，得到训练后的第一神经网络模型，训练后的第一神经网络模型为训练后的多媒体特征提取模型。

在一些实施例中，训练单元，包括：

第一更新子单元，用于基于对比损失进行反向传播更新第一神经网络模型的模型参数；

第二更新子单元，用于根据更新后的第一神经网络模型，采用动量更新方法对第二神经网络模型的参数进行更新；

执行子单元，用于返回执行采用第一神经网络模型对训练样本集合进行特征提取以及采用第二神经网络模型对增广样本集合进行特征提取的步骤，直至第一神经网络模型的模型参数收敛。

在一些实施例中，获取单元，包括：

获取子单元，用于获取预设多媒体数据集合，多媒体数据集合包括多个多媒体数据；

划分子单元，用于基于每个多媒体数据的文本特征序列中有效特征的数量将多媒体数据集合划分为第一子集合和第二子集合；

采样子单元，用于从第一子集合和第二子集合中分别采样预设数量的多媒体数据，得到训练样本集合；

增广子单元，用于采用第一样本增广方法对训练样本集合中的第一样本进行样本增广，采用第二样本增广方法对训练样本集合中的第二样本进行样本增广，第一样本为从第一子集合中采样的样本，第二样本为从第二子集合中采样的样本。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

根据上述描述可知，本申请实施例提供的多媒体数据的特征提取装置，通过第一提取单元401对目标多媒体数据进行图像特征提取，得到目标多媒体数据的图像特征序列；第二提取单元402对目标多媒体数据中的音频数据进行语音识别，并对语音识别结果进行文本特征提取，得到目标多媒体数据的文本特征序列；融合单元403将图像特征序列和文本特征序列进行融合，得到融合特征序列；第一计算单元404对融合特征序列进行自注意力计算，得到目标特征序列；第一确定单元405根据目标特征序列确定目标多媒体数据的目标特征。

以此，本申请提供的多媒体数据的特征提取装置，通过对多媒体数据的图像特征以及多媒体数据中音频数据的语音识别结果对应的文本特征进行多维度特征的提取；然后将多维度特征进行融合以及对融合后的特征进行进一步的自注意力处理，并基于自注意力处理结果确定对多媒体数据进行描述的目标特征。由于采用了融合了多媒体数据的图像特征和音频数据对应的文本特征这两个维度的特征的目标特征对多媒体数据进行描述，使得目标特征对多媒体数据的描述更为准确，从而提高了对多媒体数据进行特征提取的准确性。

为了更好地实施以上方法，本申请实施例还提供一种多媒体数据检索装置，该多媒体数据的特征提取装置可以集成在终端或服务器中。

例如，如图7所示，为本申请提供的多媒体数据检索装置的结构示意图，该多媒体数据检索装置可以包括：第三提取单元501、第四提取单元502、第二计算单元503以及第二确定单元504。具体如下：

第三提取单元501，用于对待检索多媒体数据进行特征提取，得到第一特征。

第四提取单元502，用于对候选多媒体数据库中每一多媒体数据进行特征提取，得到第二特征。

第二计算单元503，用于计算第一特征与每一第二特征的余弦相似度；

第二确定单元504，用于基于余弦相似度确定与待检索多媒体数据相似的目标多媒体数据。

根据上述描述可知，本申请提供的多媒体数据检索装置，通过第三提取单元501采用本申请中提供的的多媒体数据的特征提取方法提取待检索多媒体数据的第一特征；第四提取单元502采用本申请中提供的的多媒体数据的特征提取方法提取候选多媒体数据库中每一多媒体数据的第二特征；第二计算单元503计算第一特征与每一第二特征的余弦相似度；第二确定单元504基于余弦相似度确定与待检索多媒体数据相似的目标多媒体数据。

以此，本申请提供的多媒体数据检索装置，由于从图像维度和文本维度这两个维度对多媒体数据进行特征提取，并对分别提取的特征进行融合，得到能够从多维度对多媒体数据进行表征的多媒体数据的特征数据。基于该特征数据对多媒体数据进行检索，可以得到更为准确的检索结果。

本申请实施例还提供一种计算机设备，该计算机设备可以为终端或服务器，如图8所示，为本申请提供的计算机设备的结构示意图。具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理单元601、一个或一个以上存储介质的存储单元602、电源模块603和输入模块604等部件。本领域技术人员可以理解，图7中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理单元601是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储单元602内的软件程序和/或模块，以及调用存储在存储单元602内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理单元601可包括一个或多个处理核心；优选的，处理单元601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理单元601中。

存储单元602可用于存储软件程序以及模块，处理单元601通过运行存储在存储单元602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储单元602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能以及网页访问等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储单元602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储单元602还可以包括存储器控制器，以提供处理单元601对存储单元602的访问。

计算机设备还包括给各个部件供电的电源模块603，优选的，电源模块603可以通过电源管理系统与处理单元601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源模块603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入模块604，该输入模块604可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理单元601会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储单元602中，并由处理单元601来运行存储在存储单元602中的应用程序，从而实现各种功能，如下：

对目标多媒体数据进行图像特征提取，得到目标多媒体数据的图像特征序列；对目标多媒体数据中的音频数据进行语音识别，并对语音识别结果进行文本特征提取，得到目标多媒体数据的文本特征序列；将图像特征序列和文本特征序列进行融合，得到融合特征序列；对融合特征序列进行自注意力计算，得到目标特征序列；根据目标特征序列确定目标多媒体数据的目标特征。

或者，采用本申请中提供的的多媒体数据的特征提取方法提取待检索多媒体数据的第一特征以及候选多媒体数据库中每一多媒体数据的第二特征；计算第一特征与每一第二特征的余弦相似度；基于余弦相似度确定与待检索多媒体数据相似的目标多媒体数据。

应当说明的是，本申请实施例提供的计算机设备与上文实施例中的方法属于同一构思，以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本发明实施例所提供的任一种方法中的步骤，因此，可以实现本发明实施例所提供的任一种方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述多媒体数据的特征提取方法或多媒体数据检索方法中各种可选实现方式中提供的方法。

以上对本发明实施例所提供的多媒体数据的特征提取方法、多媒体数据检索方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多媒体数据的特征提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述图像特征序列和所述文本特征序列进行融合，得到融合特征序列，包括：

对所述图像特征序列进行局部池化处理，得到目标图像特征序列；

对所述文本特征序列进行局部池化处理，得到目标文本特征序列；

将所述目标图像特征序列和所述目标文本特征序列进行融合，得到融合特征序列。

3.根据权利要求2所述的方法，其特征在于，所述将所述目标图像特征序列和所述目标文本特征序列进行融合，得到融合特征序列，包括：

获取预设的类别令牌特征；

将所述类别令牌特征、所述目标图像特征序列以及所述目标文本特征序列进行拼接，得到拼接特征序列；

获取所述拼接特征序列对应的位置编码序列以及维度编码序列；

对所述拼接特征序列、所述位置编码序列以及所述维度编码序列进行融合，得到融合特征序列。

4.根据权利要求3所述的方法，其特征在于，所述对所述融合特征序列进行自注意力计算，得到目标特征序列，包括：

将所述融合特征序列映射到查询特征、键特征以及值特征的空间中，得到查询特征序列、键特征序列以及值特征序列，并计算所述查询特征序列与所述键特征序列的相关性矩阵；

确定所述融合特征序列中与所述类别令牌特征对应的类别融合特征、与所述目标图像特征序列对应的图像融合特征序列以及与所述目标文本特征序列对应的文本融合特征序列；

基于所述类别融合特征与所述融合特征序列中每一特征的交互结果、所述图像融合特征序列中每一特征与所述文本融合特征序列中每一特征之间的交互结果以及所述相关性矩阵计算自注意力权重矩阵；

基于所述自注意力权重矩阵对所述值特征序列进行加权处理，得到目标特征序列。

5.根据权利要求2所述的方法，其特征在于，所述对所述图像特征序列进行局部池化处理，得到目标图像特征序列，包括：

将所述图像特征序列中的图像特征按照图像采样顺序划分为多个子图像特征序列；

对每个子图像特征序列进行平均池化处理，得到多个第一平均池化特征，所述多个第一平均池化特征构成目标图像特征序列。

6.根据权利要求2所述的方法，其特征在于，所述对所述文本特征序列进行局部池化处理，得到目标文本特征序列，包括：

获取所述语音识别结果中的目标标点信息；

根据所述目标标点信息将所述文本特征序列划分为多个子文本特征序列；

对每个子文本特征序列进行平均池化处理，得到多个第二平均池化特征，所述多个第二平均池化特征构成目标文本特征序列。

7.根据权利要求1所述的方法，其特征在于，所述根据所述目标特征序列确定所述目标多媒体数据的目标特征，包括：

从所述目标特征序列中提取出所述类别令牌特征对应的目标类别令牌特征序列；

对所述目标类别令牌特征序列进行第一次残差连接和归一化处理，得到第一过渡特征；

采用预设的前馈神经网络对所述第一过渡特征进行处理，得到第二过渡特征；

对所述第二过渡特征进行第二次残差连接和归一化处理，得到目标多媒体数据的目标特征。

8.根据权利要求1所述的方法，其特征在于，所述对所述融合特征序列进行自注意力计算，得到目标特征序列，包括：

对所述融合特征序列进行至少一次自注意力计算，得到至少一个子目标特征序列；

对所述至少一个子目标特征序列进行拼接，得到目标特征序列。

9.根据权利要求1所述的方法，其特征在于，所述方法应用于多媒体特征提取模型，所述多媒体特征提取模型包括图像特征提取模块、文本特征提取模块以及多维度特征融合模块，所述对目标多媒体数据进行图像特征提取，得到所述目标多媒体数据的图像特征序列，包括：

所述对目标多媒体数据中的音频数据进行语音识别，并对语音识别结果进行文本特征提取，得到所述目标多媒体数据的文本特征序列，包括：

基于所述多媒体特征提取模型的文本特征提取模块对所述目标多媒体数据进行特征提取，得到所述目标多媒体数据的文本特征序列；

所述将所述图像特征序列和所述文本特征序列进行融合，得到融合特征序列，对所述融合特征序列进行自注意力计算，得到目标特征序列，根据所述目标特征序列确定所述目标多媒体数据的目标特征，包括：

10.根据权利要求9所述的方法，其特征在于，所述多媒体特征提取模型的训练过程包括如下步骤：

获取训练样本集合，并对所述训练样本集合中的训练样本进行样本增广，得到增广训练样本集合；

采用待训练的第一神经网络模型对所述训练样本集合进行特征提取，得到第一多媒体特征序列；

采用待训练的第二神经网络模型对所述增广训练样本集合进行特征提取，得到第二多媒体特征序列，所述第一神经网络模型、所述第二神经网络模型的模型结构与所述多媒体特征提取模型的模型结构相同，所述第一神经网络模型、所述第二神经网络模型的初始模型参数相同；

基于所述第二多媒体特征序列更新预设的增广特征序列，并从所述增广特征序列中采样预设数量的多媒体特征，得到第三多媒体特征序列；

根据所述第一多媒体特征序列、所述第二多媒体特征序列以及所述第三多媒体特征序列计算对比损失；

基于所述对比损失对所述第一神经网络模型和所述第二神经网络模型进行迭代训练，得到训练后的第一神经网络模型，所述训练后的第一神经网络模型为训练后的多媒体特征提取模型。

11.根据权利要求10所述的方法，其特征在于，所述基于所述对比损失对所述第一神经网络模型和所述第二神经网络模型进行迭代训练，包括：

基于所述对比损失进行反向传播更新所述第一神经网络模型的模型参数；

根据更新后的第一神经网络模型，采用动量更新方法对所述第二神经网络模型的参数进行更新；

返回执行采用第一神经网络模型对训练样本集合进行特征提取以及采用第二神经网络模型对增广样本集合进行特征提取的步骤，直至所述第一神经网络模型的模型参数收敛。

12.根据权利要求10所述的方法，其特征在于，所述获取训练样本集合，并对所述训练样本集合中的训练样本进行样本增广，得到增广训练样本集合，包括：

获取预设多媒体数据集合，所述多媒体数据集合包括多个多媒体数据；

基于每个多媒体数据的文本特征序列中有效特征的数量将所述多媒体数据集合划分为第一子集合和第二子集合；

从所述第一子集合和所述第二子集合中分别采样预设数量的多媒体数据，得到训练样本集合；

采用第一样本增广方法对所述训练样本集合中的第一样本进行样本增广，采用第二样本增广方法对所述训练样本集合中的第二样本进行样本增广，所述第一样本为从所述第一子集合中采样的样本，所述第二样本为从所述第二子集合中采样的样本。

13.一种多媒体数据检索方法，其特征在于，所述方法包括：

采用权利要求1～12中任一项所述的多媒体数据的特征提取方法提取待检索多媒体数据的第一特征以及候选多媒体数据库中每一多媒体数据的第二特征；

计算所述第一特征与每一第二特征的余弦相似度；

14.一种多媒体数据的特征提取装置，其特征在于，所述装置包括：

15.一种多媒体数据检索装置，其特征在于，所述装置包括：

第三提取单元，用于采用权利要求1～12中任一项所述的多媒体数据的特征提取方法提取待检索多媒体数据的第一特征以及候选多媒体数据库中每一多媒体数据的第二特征；

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至12中任一项所述的多媒体数据的特征提取方法或权利要求13所述的多媒体数据检索方法中的步骤。

17.一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的多媒体数据的特征提取方法或权利要求13所述的多媒体数据检索方法中的步骤。