CN115359383B

CN115359383B - 跨模态特征提取、检索以及模型的训练方法、装置及介质

Info

Publication number: CN115359383B
Application number: CN202210803045.7A
Authority: CN
Inventors: 汪浩然; 何栋梁; 李甫; 丁二锐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2023-07-25
Anticipated expiration: 2042-07-07
Also published as: CN115359383A; US20240013558A1

Abstract

本公开提供了一种跨模态特征提取、检索以及模型的训练方法、装置及介质，涉及人工智能技术领域，具体涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为：获取待处理数据，所述待处理数据对应至少两类第一模态；在述待处理数据中确定第二模态的第一数据，所述第二模态为所述第一模态中的任一类模态；对所述第一数据进行语义实体提取，得到语义实体；基于所述第一数据和所述语义实体，并采用预先训练的跨模态特征提取模型，获取所述第一数据的语义编码特征。本公开的技术，能够有效地提高跨模态应用中的特征提取的准确性，进而提高跨模态应用如跨模态检索的效率。

Description

跨模态特征提取、检索以及模型的训练方法、装置及介质

技术领域

本公开涉及人工智能技术领域，具体涉及深度学习、图像处理、计算机视觉技术领域，尤其涉及一种跨模态特征提取、检索以及模型的训练方法、装置及介质。

背景技术

近年来短视频应用吸引了互联网中的一大部分流量，这一现象一方面使得互联网中产生了大量的视频内容，有了大量的数据积累，另一方面如何从海量的视频中检索到用户所需的对应内容，以及如何识别用户生产的视频内容，使其在后续能够被更好的利用，获得更加准确的流量引流和内容分类管理等，都对视频理解和视频领域的跨模态检索技术都提出了新的要求。

基于视频和文本的跨模态的检索方案中，需要分别获取视频的特征和对应的文本的特征，进而实现跨模态检索。其中视频的特征基于视频特征融合的方法来实现。例如，可以先提取视频的不同类型特征，如音频、自动语音识别(Automatic Speech Recognition；ASR)文本、物体检测、动作识别等特征。对于每种类型的特征使用专用的特征提取器来提取。接下来，再通过多种类型特征融合，得到视频的全局特征。与此同时，使用专用编码器提取文本的特征。最后，在公共的全局语义空间进行语义特征对齐，得到跨模态的语义相似度，进而实现检索。

发明内容

本公开提供了一种跨模态特征提取、检索以及模型的训练方法、装置及介质。

根据本公开的一方面，提供了一种跨模态特征提取方法，包括：

获取待处理数据，所述待处理数据对应至少两类第一模态；所述至少两类第一模态包括视频模态、文本模态、语音模态、以及图片模态中的至少两类；

在所述待处理数据中确定第二模态的第一数据，所述第二模态为所述第一模态中的任一类模态；

对所述第一数据进行语义实体提取，得到语义实体；

基于所述第一数据和所述语义实体，并采用预先训练的跨模态特征提取模型，获取所述第一数据的语义编码特征。

根据本公开的另一方面，提供了一种跨模态检索方法，包括：

对查询信息进行语义实体提取，得到至少两个第一语义实体；所述查询信息对应第一模态；

从数据库中获取第二模态的第一信息；所述第二模态与所述第一模态不相同；

基于所述查询信息、所述第一语义实体、所述第一信息、和预先训练的跨模态特征提取模型，在所述数据库中进行跨模态的检索，得到与所述查询信息对应的检索结果信息，所述检索结果信息对应所述第二模态。

根据本公开的再一方面，提供了一种跨模态特征提取模型的训练方法，包括：

获取包括至少两条训练数据的训练数据组，所述训练数据对应至少两类第一模态；所述至少两类第一模态包括视频模态、文本模态、语音模态、以及图片模态中的至少两类；

在所述训练数据组中确定第二模态的第一数据和第三模态的第二数据，所述第二模态和所述第三模态分别为所述第一模态的任一类模态；

且所述第二模态与所述第三模态不同；

对所述第一数据和所述第二数据分别进行语义实体抽取，得到至少两个第一训练语义实体和至少两个第二训练语义实体；

基于所述第一数据、所述至少两个第一训练语义实体、所述第二数据和所述至少两个第二训练语义实体，对跨模态特征提取模型进行训练。

根据本公开的再另一方面，提供了一种跨模态特征提取装置，包括：

数据获取模块，用于获取待处理数据，所述待处理数据对应至少两类第一模态；所述至少两类第一模态包括视频模态、文本模态、语音模态、以及图片模态中的至少两类；

数据确定模块，用于在所述待处理数据中确定第二模态的第一数据，所述第二模态为所述第一模态中的任一类模态；

实体提取模块，用于对所述第一数据进行语义实体提取，得到语义实体；

特征获取模块，用于基于所述第一数据和所述语义实体，并采用预先训练的跨模态特征提取模型，获取所述第一数据的语义编码特征。

根据本公开的再另一方面，提供了一种跨模态检索装置，包括：

实体提取模块，用于对查询信息进行语义实体提取，得到至少两个第一语义实体；所述查询信息对应第一模态；

信息获取模块，用于从数据库中获取第二模态的第一信息；所述第二模态与所述第一模态不相同；

检索模块，用于基于所述查询信息、所述第一语义实体、所述第一信息、和预先训练的跨模态特征提取模型，在所述数据库中进行跨模态的检索，得到与所述查询信息对应的检索结果信息，所述检索结果信息对应所述第二模态。

根据本公开的再另一方面，提供了一种跨模态特征提取模型的训练装置，包括：

获取模块，用于获取包括至少两条训练数据的训练数据组，所述训练数据对应至少两类第一模态；所述至少两类第一模态包括视频模态、文本模态、语音模态、以及图片模态中的至少两类；

确定模块，用于在所述训练数据组中确定第二模态的第一数据和第三模态的第二数据，所述第二模态和所述第三模态分别为所述第一模态的任一类模态；且所述第二模态与所述第三模态不同；

实体抽取模块，用于对所述第一数据和所述第二数据分别进行语义实体抽取，得到至少两个第一训练语义实体和至少两个第二训练语义实体；

训练模块，用于基于所述第一数据、所述至少两个第一训练语义实体、所述第二数据和所述至少两个第二训练语义实体，对跨模态特征提取模型进行训练。

根据本公开的再另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。

根据本公开的再另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。

根据本公开的再另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。

根据本公开的技术，能够有效地提高跨模态应用中的特征提取的准确性，进而提高跨模态应用如跨模态检索的效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是根据本公开第五实施例的示意图；

图6是根据本公开第六实施例的示意图；

图7是本公开提供的基于视频和文本的跨模态特征提取模型的训练架构图；

图8是根据本公开第七实施例的示意图；

图9是根据本公开第八实施例的示意图；

图10是根据本公开第九实施例的示意图；

图11是根据本公开第十实施例的示意图；

图12是用来实现本公开实施例的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

需要说明的是，本公开实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(TabletComputer)等智能设备；显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

但是，现有技术的基于视频和文本的跨模态的检索中，通过不同类型的特征提取器来提取视频中对应类型的特征，进而融合得到视频的全局特征；文本也是采用预先训练编码器提取文本的特征。这些特征提取过程中，提取的都是整体视频或者文本的特征，而未考虑对应模态下更细粒度的信息，导致得到的特征准确性欠佳。

图1是根据本公开第一实施例的示意图；如图1所示，本实施例提供一种跨模态应用中的特征提取方法，例如可以应用于跨模态检索时，提取各模态的特征。具体可以包括如下步骤：

S101、获取待处理数据，待处理数据对应至少两类第一模态；

S102、在待处理数据中确定第二模态的第一数据，第二模态为第一模态中的任一类模态；

S103、对第一数据进行语义实体提取，得到语义实体；

S104、基于第一数据和语义实体，并采用预先训练的跨模态特征提取模型，获取第一数据的语义编码特征。

本实施例的待处理的数据可以涉及至少两类第一模态，例如基于视频和文本的跨模态场景下，可以包括视频模态和文本模态。可选地，在实际应用中，还可以扩展到包括语音等其他模态信息，在此不做限定。

本实施例中，可以第一数据进行语义实体提取，得到语义实体，该语义实体的数量可以为一个、两个或者多个。语义实体为该第二模态下的一些细粒度信息，也能够在一定程度上表征该第一数据的第二模态的信息。

本实施例中，对于待处理数据的每个第二模态的第一数据，可以参考该第一数据和第一数据中包括的语义实体，采用预先训练的跨模态特征提取模型，可以提取该第一数据对应的语义编码特征。由于该编码特征的提取过程中，参考了该第二模态的第一数据的细粒度信息，如语义实体，可以提高得到的语义编码特征的准确性。

本实施例的跨模态应用中的特征提取方法，可以参考第二模态的第一数据的细粒度信息，如语义实体，结合第一数据，一起进行语义编码特征的提取，由于参考了细粒度信息，能够有效地提高得到的该模态的数据对应的语义编码特征的准确性。

图2是根据本公开第二实施例的示意图；本实施例的跨模态应用中的特征提取方法，在上述图1所示实施例的技术方案的基础上，进一步更加详细地没描述本公开的技术方案。如图2所示，本实施例的跨模态应用中的特征提取方法，具体可以包括如下步骤：

S201、获取待处理数据；该待处理数据中对应至少两类第一模态；

S202、在待处理数据中确定第二模态的第一数据，第二模态为第一模态中的任一类模态；

S203、对于第一数据进行语义实体提取，得到语义实体；

例如，在基于视频和文本的跨模态的场景下，对于第二模态为视频模态，即第一数据为视频，可以采用预先训练的语义实体提取模型，提取第一数据中的各视频帧的语义实体，最终得到该第一数据即视频的多个语义实体。

具体地，可以采用该语义实体提取模型提取视频中的各视频帧的语义实体，并将该视频中的所有视频帧的语义实体组合起来，构成该视频的多个语义实体。

该语义实体提取模型是一种结合了自下而上和自上而下的组合注意机制，通过一个编码-解码(encoder-decocer)的框架实现。编码阶段使用自下而上的注意力机制来得到视频帧的图像的感兴趣区域特征，解码阶段则通过学习不同感兴趣区域的权重，实现对视频帧的图像内容的关注，并且逐词生成描述。

首先，该语义实体提取模型中的自下而上模块是一个纯粹的视觉前馈网络，使用Faster R-CNN检测物体。Faster R-CNN分两阶段实现这一过程，首先使用区域提案网络(Region Proposal Network；RPN)得到对象提案，同时每个位置预测目标边界和objectness得分，使用具有交叉结合(Intersection over Union；IoU)阈值的贪心非最大抑制，选择顶部框提议作为第二阶段的输入。第二阶段，感兴趣区域(Region Of Interest；ROI)池用于为每个框提取小特征图，然后将这些特征图一起输入卷积神经网络(Convolutional Neural Network；CNN)，模型的最终输出包括类标签上的softmax分布和每个框提议的类特定边界框重建。自下而上的模块主要是为了得到一组显著的感兴趣区域(Region Of Interest；ROI)特征以及它们在图象中的位置信息，如bbox坐标。

而自上而下机制则使用任务特定的上下文，即上述自下而上模块得到的输出序列，来预测图像区域上的注意力分布，并输出得到的文本描述，此时可以将ROI特征、bbox坐标以及文本描述融合在一起，作为视频中的语义实体。按照上述方式对视频中各视频帧进行处理，可以得到该视频对应的多个语义实体。采用该方式，能够准确地提取到视频的多个语义实体。

对于第二模态为文本模态，即第一数据为文本，可以对第一数据的各词语进行语义角色标注；然后基于各词语的语义角色，获取语义实体，最终得到文本对应的多个语义实体。

具体地，通过对文本语句的语义角色标注(semantic role labeling；SRL)，可以得到文本的句法结构，以及每个词的语义角色。然后以句子中的谓词为中心，用语义角色来描述它们之间的关系，并抽取出其中的谓语动词、作为动作实体，还可以抽取其中主语和宾语等名词实体。采用该方式，能够准确地提取到文本的多个语义实体。

例如：A man is driving，这句话可以得到如下标注：[ARG0:a man][V:is][V:driving]，可以抽取其中的man这个名词实体和driving这个动作实体。

例如，对于第二模态为图片模态，可以参考上述各视频帧图像的实体提取方法，提取图片的语义实体。对于第二模态为音频模态，可以先将音频识别为文本。然后参考上述文本信息的语义实体的提取方式，提取相应的语义实体。

S204、基于语义实体，并采用跨模态特征提取模型中的实体编码模块，获取该第一数据的语义实体编码特征；

例如，在具体实现时，语义实体的数量包括至少两个时，对于第二模态的第一数据，可以先基于该第一数据的语义实体，采用跨模态特征提取模型中的实体编码模块，获取各语义实体的编码特征和对应的注意力信息；然后基于各语义实体的编码特征和对应的注意力信息，获取第一数据的语义实体编码特征。其中注意力信息具体可以为注意力分数，以体现各语义实体在第一数据的所有语义实体中的重要程度。

为了充分利用从第二模态的第一数据中抽取出的至少两个语义实体，可以使用自注意力机制让同一模态信息对应的不同语义实体之间进行交互，以得到各语义实体的编码特征的同时，也能够计算到各语义实体与该模态信息对应的其他实体的注意力分数。

例如，在具体实现时，可以预先为每个语义实体配置有lookup表，该lookup表类似于词典的功能，在语义实体输入至实体编码模块时，通过查询该lookup表，可以获取到该语义实体的自身初始编码。随后使用Transformer encoder block对语义实体表征进行增强，让每个实体都能与其他实体进行交互，以获取各语义实体更加准确地编码特征。具体地，Transformer encoder block的具体计算过程，可以如下：

FEN(x)＝max (0,xW₁+b₁)W₂+b₂ (3)

假设Transformer输入向量为X。其中公式(1)是self-attention计算过程，Q对应当前语义实体的query矩阵，K对应同一模态信息对应的其他实语义体的key矩阵，V同一模态信息对应的其他实语义体的value矩阵，是特征维度；其中K和V为它语义实体的不同表征矩阵。通过点乘操作得到当前语义实体的query矩阵和其他实语义体的key矩阵的注意力权重，为了避免训练时梯度太低，通过除以进/>行放缩，之后进行softmax处理，再对其他实语义体的value矩阵进行加权，得到当前语义实体增强后的编码特征，即得到各语义实体的编码特征。公式(2)表示在计算过程中使用多个self-attention的多头注意力机制(multi-head attention)。其中，W_i ^Q、W_i ^K、W_i ^K分别表示multi-head attention机制中第i个head中Q矩阵、K矩阵和K矩阵所对应的映射矩阵，W^O表示将串联后的multi-head attention输出映射回Transformer Encoder输入向量X的原始维度的映射矩阵。公式(3)为多层感知器(Multilayer Perception；MLP)前馈神经网络，其中W₁和W₂代表全连接层映射矩阵，b₁和b₂代表偏置常数。

在经过Transformer encoder block对实体表征增强后，还可以对每个实体计算了注意力分数，也可以称为权重分数，用来表示它对整体的重要性。

由于第二模态的第一数据中对应的语义实体有很多，但是不同语义实体的重要程度不同。例如，基于视频和文本的跨模态场景下，视频和文本中的实体有很多，在视频内容和文本句子中的角色也不同。例如人物往往比背景树木要更加重要，汽车要比路上的石头重要等。所以，需要基于各语义实体的编码特征和对应的注意力分数，获取模态信息的语义实体编码特征。具体地，可以将各语义实体的编码特征对应的注意力分数，对各语义实体的编码特征进行加权，并求和，得到整体的语义实体编码特征。采用该方式得到的语义实体编码特征，综合参考了各语义实体的编码特征以及注意力分数，使得得到的语义实体编码特征更加准确。

S205、基于第一数据，并采用跨模态特征提取模型中的全局语义特征提取模块，获取该第一数据的全局语义特征；

不同模态的信息尽管在底层特征上存在异构性，但是在高层语义上仍然具有很强的相关性。为了使高层特征编码具有更强的语义表示，例如，在基于视频和文本的跨模态场景中，可以使用对比语言图像预训练(Contrastive Language-Image Pre-Training,；CLIP)模型对视频帧和文本进行编码。CLIP模型在训练时使用了四亿个的文本和图片对进行对比学习训练，对视频图像和文本的编码和跨模态检索都具有很强的zero-shot能力。然而，视频和图像有着不同的形式，视频由连续的视频帧组成，相比图片具有时序性，这一特性往往能够和文本中的动作相匹配。基于此，本实施例，可以在CLIP模型中加入时序编码模块，对每个视频帧添加时序位置编码后进行时序特征提取，最终，基于具有时序关系的所有视频帧的编码，得到视频的全局语义特征。

对于文本模态的全局语义特征的提取，实现较为简单，采用预先训练的语义表示模型，对整个文本进行编码，即可得到相应额的全局语义特征。

对于图片模态的全局语义特征的提取，可以参考上述CLIP模型即可实现。而对于音频模态的全局语义特征的提取，将音频转换为文本，参考文本模态的全局语义特征的提取即可。

S206、基于该第一数据的语义实体编码特征和该第一数据的全局语义特征、和预设的权重配比，并采用跨模态特征提取模型中的融合模块，获取该第一数据的语义编码特征。

步骤S204-S206为上述图1所示实施例的步骤S103的一种实现方式，详细展示了各模态信息的语义编码特征的获取过程。

首先，本实施例中，对于第二模态的第一数据，先基于对应的语义实体，获取该第一数据的语义实体编码特征，作为该第一数据的细粒度特征信息。然后再获取该第一数据的全局语义特征，作为该第一数据的整体的特征信息。最后将该第一数据的语义实体编码特征和该第一数据的全局语义特征融合，以对该第一数据的全局语义特征进行补充和增强，以得到更加准确地该第一数据的语义编码特征。

本实施例中，在融合时，可以基于预设的权重配比来将两者融合起来。具体地，该权重配比可以根据实际经验来设置，例如1:9，或者2:8或者其他，在此不做限定。由于第一数据的全局语义特征更能够从整体上表征该模态信息，在权重配比中占据的权重可以更大一些。而作为细粒度信息的语义实体编码特征仅作为补充和增强，在权重配置中占据的权重可以小一些。

在本公开的一个实施例中，跨模态特征提取模型在训练时，采用的训练数据中可以包括N种模态，N为大于等于2的正整数。其中N种模态可以为视频、文本、语音、以及图片等等模态。对应在特征提取时，便可以实现对包括N种模态的数据中的任一种模态信息的特征提取。由于跨模态特征提取模型在训练时，已经能够将不同模态的信息在特征空间对齐，表征的各模态的语义编码特征，已经参考了其他模态的信息，所以得到的各模态的语义编码特征的准确性非常高。

例如，在视频和文本的跨模态检索中，对应的视频样本和文本是有很强的语义相关性的，如语句“An egg has been broken and dropped into the cup and water isboiling in the sauce pan”，句子中出现了egg、cup、water，pan等名词实体，同时出现了如drop、boiling这样的动词实体，由于文本是对视频内容的描述，因此在视频内容中，也会对应出现这些egg、cup等这些实体。从直觉上来讲，这些实体是应该能够对应匹配上的，基于此，本公开的技术方案中，可以分别抽取了视频和文本两个模态的多个语义实体，通过独立的编码模块得到各自的语义实体编码特征，并将其融入视频和文本各自的全局语义特征中，进行特征的补充和编码的增强，进而得到准确性更高的语义编码特征。

本实施例的跨模态应用中的特征提取方法，通过采用上述方式，能够各模态信息的语义实体编码特征和各模态信息的全局语义特征、获取该模态信息的语义编码特征，各模态信息的语义实体编码特征能够表征该模态信息的细粒度信息，对全局语义特征进行补充和增强，进而可以使得提取的各模态信息的语义编码特征的准确性非常高，进而可以提高基于各模态信息的语义编码特征进行检索的检索效率。

图3是根据本公开第三实施例的示意图；如图3所示，本实施例提供一种跨模态检索方法，具体可以包括如下步骤：

S301、对查询信息进行语义实体提取，得到至少两个第一语义实体；该查询信息对应第一模态；

S302、从数据库中获取第二模态的第一信息；第二模态与第一模态不相同；

S303、基于查询信息、第一语义实体、第一信息和预先训练的跨模态特征提取模型，在数据库中进行跨模态的检索，得到与查询信息对应的检索结果信息，该检索结果信息对应第二模态。

本实施例的跨模态检索方法，可以应用在跨模态检索系统中。

本实施例的跨模态检索即标识查询语句Query的模态与检索时参考的数据库中的数据的模态不同，当然，得到的检索结果信息模态与Query的模态也可以不同。

例如，在基于视频和文本的跨模态检索时，可以基于视频检索文本，也可以基于文本检索视频。

本实施例中的跨模态检索中，为了提高检索效率，也要考虑语义实体信息。具体地，首先，对查询信息进行语义实体提取，得到至少两个第一语义实体。具体地语义实体提取方法，基于查询信息的模态不同而不同。本实施例的查询信息对应第一模态。例如，该第一模态可以为视频模态、文本模态，或者也可以为图片模态或者音频模态。具体可以参考上述图2所示实施例相应类型的模态的语义实体的提取方法，在此不再赘述。

本实施例的数据库中的每一条数据可以包括有多个模态的信息，如可以包括视频和文本，进而可以实现基于视频和文本的跨模态检索。

本实施例的跨模态检索方法，在数据库中进行跨模态的检索时，可以根据查询信息和对应的至少两个第一语义实体、以及数据库中的各条数据的第二模态的第一信息和预先训练的跨模态特征提取模型来实现，尤其是参考了语义实体方面的信息，能够起到特征增强的效果，能够有效地提高跨模态检索的效率。

图4是根据本公开第四实施例的示意图；如图4所示，本实施例的跨模态检索方法，在上述图3所示实施例的技术方案的基础上，进一步更加详细地介绍本公开的技术方案。如图4所示，本实施例的跨模态检索方法，具体可以包括如下步骤：

S401、对查询信息进行语义实体提取，得到至少两个第一语义实体；该查询信息对应第一模态；

S402、基于查询信息和第一语义实体，并采用跨模态特征提取模型，获取查询信息的第一语义编码特征；

例如，可以基于查询信息的至少两个语义实体，采用跨模态特征提取模型中的实体编码模块，获取查询信息的语义实体编码特征；并基于查询信息，采用跨模态特征提取模型中的全局语义特征提取模块，获取该模态信息的全局语义特征；基于该查询信息的语义实体编码特征和该查询信息的全局语义特征、以及预设的权重配比，采用跨模态特征提取模型中的融合模块，获取该查询信息的第一语义编码特征，采用该方式，能够进一步提高查询信息的语义编码特征的准确性。

S403、从数据库中获取第二模态的第一信息；

例如，可以获取数据库中的每条数据的第二模态的第一信息。

S404、对第一信息进行语义实体提取，得到至少两个第二语义实体；

S405、基于第一信息和第二语义实体，采用跨模态特征提取模型，获取第一信息的第二语义编码特征；

在该实现方式中，跨模态检索时，需要数据库中各条数据的哪个模态的信息的语义编码特征，都是采用步骤S404和步骤S405实时获取。其中对各数据的第二模态的第一信息进行语义实体提取，基于模态的不同，具体地提取方式也不同，详细可以参考上述图2所示实施例的相关记载，在此不再赘述。

另外，可选地，本实施例中，也可以预先提取数据库中各数据的各个模态的信息的语义编码特征，并存储在数据库中。使用时，直接获取即可。例如，具体实现时，直接从数据库中获取各条数据的第二模态的第一信息的第二语义编码特征即可。

此时，对应地，在从数据库中获取各条数据的第二模态的第一信息的语义编码特征之前，还可以包括如下步骤：

(1)对第一信息进行语义实体提取，得到第二语义实体；

(2)基于第一信息和第二语义实体，并采用跨模态特征提取模型，获取第一信息的第二语义编码特征；

(3)将第一信息的第二语义编码特征，存储在数据库。

步骤(1)和(2)的实现方式可以参考上述步骤S404-S405，区别仅在于，步骤(1)-(3)是在跨模态检索之前进行的，可以提前在数据库中存储各条数据的第二模态的第一信息的第二语义编码特征，使用时直接获取，可以进一步缩短检索时间，提高检索效率。

当然，按照此方式，可以实现对数据库中各条数据的其他模态信息对应的语义编码特征的提前获取，并预存储。例如，还可以包括如下步骤：

(4)在数据库中获取第一模态对应的第二信息；

(5)对第二信息进行语义实体提取，得到至少两个第三语义实体；

(5)基于第二信息和第三语义实体，并采用跨模态特征提取模型，获取第二信息的第三语义编码特征；

(6)将第二信息的第三语义编码特征，存储在数据库。

步骤(4)-(6)是在跨模态检索之前进行的，可以提前在数据库中存储各条数据的第一模态的第二信息的语义编码特征，使用时直接获取，可以进一步缩短检索时间，提高检索效率。若数据库中的各条数据还包括其他模态的信息，处理方式相同，在此不再赘述。

基于第一信息和第二语义实体，采用跨模态特征提取模型，获取第一信息的第二语义编码特征时，可以先基于第二模态的第一信息，先提取第二模态的第一信息的语义实体，采用跨模态特征提取模型中的实体编码模块，获取第二模态的第一信息的语义实体编码特征；并基于第二模态的第一信息，采用跨模态特征提取模型中的全局语义特征提取模块，获取该第二模态的第一信息的全局语义特征；基于第二模态的第一信息的语义实体编码特征和全局语义特征、以及预设的权重配比，采用跨模态特征提取模型中的融合模块，获取第二模态的第一信息的第二语义编码特征，采用该方式，能够进一步提高第二模态的第一信息的语义编码特征的准确性。采用该方式，可以提取到数据库中各数据的第二模态的第一信息的第二语义编码特征。

S406、基于查询信息的第一语义编码特征和第一信息的第二语义编码特征，在数据库中进行跨模态的检索，得到检索结果信息。

其中第一信息的第二语义编码特征可以指的是数据库中各条数据的第二模态的第一信息的第二语义编码特征。具体地，可以计算查询信息的语义编码特征与各数据中的第二模态的第一信息的语义编码特征的相似度，然后基于相似度筛选检索结果，得到检索结果信息。例如，可以基于相似度的大小，获取相似度最高的前N条第一信息的第二语义编码特征对应的数据，作为检索结果信息，其中N可以基于需求来设置，可以为1，或者也可以为大于1的正整数。

图5是根据本公开第五实施例的示意图；如图5所示，本实施例提供一种跨模态特征提取模型的训练方法，具体可以包括如下步骤：

S501、获取包括至少两条训练数据的训练数据组，训练数据对应至少两类第一模态；

S502、在训练数据组中确定第二模态的第一数据和第三模态的第二数据，第二模态和第三模态分别为第一模态的任一类模态；且第二模态与第三模态不同；

例如，具体地，可以取训练数据组中每一条训练数据的第二模态的第一数据和第三模态的第二数据。

S503、对第一数据和第二数据分别进行语义实体抽取，得到至少两个第一训练语义实体和至少两个第二训练语义实体；

S504、基于第一数据、至少两个第一训练语义实体、第二数据和至少两个第二训练语义实体，对跨模态特征提取模型进行训练。

本实施例的跨模态特征提取模型的训练方法，即用于对上述图1-图4所示实施例中的跨模态特征提取模型进行训练。

本实施例中，训练数据中可以包括两个以上模态信息。例如，要训练基于视频和文本的跨模态特征提取模型，对应的训练数据中需要包括视频和文本两个模态的数据。而若要训练文本和图片的跨模态特征提取模型，对应的训练数据中需要包括文本和图片两个模态的数据。实际应用中，也可以跨模态特征提取模型也可以实现跨三个及以上的模态的特征提取，原理与跨两个模态相同，在此不做赘述。

本实施例的跨模态特征提取模型的训练方法，对于各训练数据中的各模态的数据，都需要提取相应的多个训练语义实体，结合各训练数据中的各模态的数据，一起对跨模态特征提取模型进行训练，由于增加了各模态信息的训练语义实体，使得跨模态特征提取模型可以关注到各模态信息的细粒度信息，进一步可以提高跨模态特征提取模型的准确性。

图6是根据本公开第六实施例的示意图；如图6所示，本实施例的跨模态特征提取模型的训练方法，在上述图5所示实施例的技术方案的基础上，进一步更加详细地介绍本公开的技术方案。如图6所示，本实施例的跨模态特征提取模型的训练方法，具体可以包括如下步骤：

S601、获取包括至少两条训练数据的训练数据组，训练数据对应至少两类第一模态；

S602、在训练数据组中确定第二模态的第一数据和第三模态的第二数据，第二模态和第三模态分别为第一模态的任一类模态；且第二模态与第三模态不同；

S603、基于第一数据和至少两个第一训练语义实体，采用跨模态特征提取模型，获取第一数据的语义编码特征；

S604、基于第二数据和至少两个第二训练语义实体，采用跨模态特征提取模型，获取第二数据的语义编码特征；

例如，本实施例中，对于第一数据和至少两个第一训练语义实体，采用跨模态特征提取模型中的实体编码模块，获取该第一数据的语义实体编码特征；然后基于该第一数据，采用跨模态特征提取模型中的全局语义特征提取模块，获取该第一数据的全局语义特征；最后基于该第一数据的语义实体编码特征和该模态信息的全局语义特征、以及预设的权重配比，采用跨模态特征提取模型中的融合模块，获取该第一数据的语义编码特征，详细可以参考上述图2所示实施例的相关记载，在此不再赘述。同理，按照相同的方式，可以获取到第二数据的语义编码特征。

S605、基于第一数据的语义编码特征和第二数据的语义编码特征，构建跨模态检索的损失函数；

例如，具体可以包括：基于第一数据的语义编码特征和第二数据的语义编码特征，，分别构建第二模态到第三模态进行信息检索的第一子损失函数和第三模态到第二模态进行信息检索的第二子损失函数；将第一子损失函数和第二子损失函数相加，得到跨模态检索的损失函数。该跨模态检索的损失函数的构建是基于训练数据组中的所有训练数据构建的，若训练数据组中包括两条以上的训练数据时，此时，可以基于每条训练数据中的第一数据的语义编码特征和每条训练数据中的第二数据的语义编码特征，构建所有的第一子损失函数和所有的第二子损失函数；并将所有的第一子损失函数相加，所有的第二子损失函数也相加。最后将相加后的第一子损失函数之和、与相加后的第二子损失函数之和，再相加，得到跨模态检索的损失函数。

S606、检测跨模态检索的损失函数是否收敛，若不收敛，执行步骤S607；若收敛，执行步骤S608；

S607、调整跨模态特征提取模型的参数；返回步骤S601，选取下一个训练数据组继续进行训练。

本实施例中调整跨模态特征提取模型的参数的方向，是向着跨模态检索的损失函数收敛的方向进行调整。

S608、检测是否满足训练终止条件，若满足，训练完毕，确定跨模态特征提取模型的参数，进而确定跨模态特征提取模型，结束。若不满足，返回步骤S601，选取下一个训练数据组继续进行训练。

本实施例的训练终止条件可以为训练次数达到预设次数阈值。或者在连续预设轮数的训练中，跨模态检索的损失函数是否始终收敛，若始终收敛，确定满足训练终止条件，否则不满足训练终止条件。

本实施例的跨模态特征提取模型的训练方法，可以实现任意的至少两种模态之间的跨模态的特征提取，例如可以实现基于视频和文本的跨模态特征提取模型的提取。

例如，基于上述实施例的记载，对于基于视频和文本的跨模态特征提取模型的训练，可以得到图7所示的基于视频和文本的跨模态特征提取模型的训练架构图。如图7所示，可以按照上述实施例的记载，分别提取视频的多个语义实体和文本的多个语义实体。

对于视频，可以采用基于视频和文本的跨模态特征提取模型中的实体编码模块，获取视频的语义实体编码特征。具体实现时，可以先基于视频的多个语义实体，采用基于视频和文本的跨模态特征提取模型中的实体编码模块，获取各语义实体的编码特征和对应的注意力分数；然后基于各语义实体的编码特征和对应的注意力分数，获取视频的语义实体编码特征。

同理，对于文本，也可以采用基于视频和文本的跨模态特征提取模型中的实体编码模块，获取文本的语义实体编码特征。具体实现时，可以先基于文本的多个语义实体，采用基于视频和文本的跨模态特征提取模型中的实体编码模块，获取各语义实体的编码特征和对应的注意力分数；然后基于各语义实体的编码特征和对应的注意力分数，获取文本的语义实体编码特征。

另外，还需要采用基于视频和文本的跨模态特征提取模型中的全局语义特征提取模块，分别获取视频的全局语义特征和文本的全局语义特征。

然后，对于视频，基于该视频的语义实体编码特征和视频的全局语义特征、以及预设的权重配比，采用基于视频和文本的跨模态特征提取模型中的融合模块，获取视频的语义编码特征。同理，对于文本，基于该文本的语义实体编码特征和文本的全局语义特征、以及预设的权重配比，采用基于视频和文本的跨模态特征提取模型中的融合模块，获取文本的语义编码特征。

基于视频和文本的跨模态特征提取模型的训练过程中，可以构建视频到文本的检索的第一子损失函数、和文本到视频的检索的第二子损失函数；反过来也可以。并取跨模态检索的损失函数等于第一子损失函数和第二子损失函数之和。

本实施例的训练过程中，是基于对比学习的InfoNCE loss来对两个模态的高层语义编码进行约束，其计算公式如下：

其中，w_j是文本t_j的语义编码特征，是视频v_i的语义编码特征，通过公式(4)计算两个模态编码的余弦相似s(v_i，t_j)，L_v2t是视频到文本检索的第一子损失函数，L_t2是文本到视频检索的第二子损失函数。整体的损失函数L定义为公式(7)，对L_v2t和L_t2v进行求和得到。

本实施例的跨模态特征提取模型的训练方法，对于各训练数据中的各模态信息，都需要提取相应的多个训练语义实体，结合各训练数据中的各模态信息，一起对跨模态特征提取模型进行训练，由于增加了各模态信息的训练语义实体，使得跨模态特征提取模型可以关注到各模态信息的细粒度信息，进一步可以提高跨模态特征提取模型的准确性。而且，可以构建损失函数的时候，可以基于对比学习的方式，构建跨模态检索的相关的损失函数作为监督，能够使得不同模态的信息在语义编码特征空间对齐，能够有效地提高跨模态特征提取模型对各模态信息的语义编码特征表达的准确性。

图8是根据本公开第七实施例的示意图；如图8所示，本实施例提供一种跨模态应用中的特征提取装置800，包括：

数据获取模块801，用于获取待处理数据，所述待处理数据对应至少两类第一模态；

数据确定模块802，用于在所述待处理数据中确定第二模态的第一数据，所述第二模态为所述第一模态中的任一类模态；

实体提取模块803，用于对所述第一数据进行语义实体提取，得到语义实体；

特征获取模块804，用于基于所述第一数据和所述语义实体，并采用预先训练的跨模态特征提取模型，获取所述第一数据的语义编码特征。

本实施例的跨模态应用中的特征提取装置800，通过采用上述模块实现跨模态应用中的特征提取的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

进一步可选地，在本公开的一个实施例中，实体提取模块803，用于：

所述第二模态为视频模态；采用预先训练的语义实体提取模型，提取所述第一数据中各视频帧的所述语义实体。

所述第二模态为文本模态；对所述第一数据中各词语进行语义角色标注；

基于所述语义角色，获取所述语义实体。进一步可选地，在本公开的一个实施例中，特征获取模块804，用于：

基于所述模态信息的所述多个语义实体，采用所述跨模态特征提取模型中的实体编码模块，获取所述模态信息的语义实体编码特征；

基于所述模态信息，采用所述跨模态特征提取模型中的全局语义特征提取模块，获取所述模态信息的全局语义特征；

基于所述模态信息的语义实体编码特征和所述模态信息的全局语义特征、以及预设的权重配比，采用所述跨模态特征提取模型中的融合模块，获取所述模态信息的语义编码特征基于所述语义实体，并采用所述跨模态特征提取模型中的实体编码模块，获取所述第一数据的语义实体编码特征；

基于所述第一数据，并采用所述跨模态特征提取模型中的全局语义特征提取模块，获取所述第一数据的全局语义特征；

基于所述语义实体编码特征、所述全局语义特征、和预设的权重配比，并采用所述跨模态特征提取模型中的融合模块，获取所述第一数据的语义编码特征。

进一步可选地，在本公开的一个实施例中，特征获取模块804，用于：

基于各所述语义实体，并采用所述实体编码模块，获取各所述语义实体的编码特征和对应的注意力信息；

基于各所述语义实体的编码特征和对应的注意力信息，获取所述第一数据的语义实体编码特征。

上述实施例的跨模态应用中的特征提取装置800，通过采用上述模块实现跨模态特征提取的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图9是根据本公开第八实施例的示意图；如图9所示，本实施例提供一种跨模态检索装置900，包括：

实体提取模块901，用于对查询信息进行语义实体提取，得到至少两个第一语义实体；所述查询信息对应第一模态

信息获取模块902，用于从数据库中获取第二模态的第一信息；所述第二模态与所述第一模态不相同；

检索模块903，用于基于所述查询信息、所述第一语义实体、所述第一信息、和预先训练的跨模态特征提取模型，在所述数据库中进行跨模态的检索，得到与所述查询信息对应的检索结果信息，所述检索结果信息对应所述第二模态。

本实施例的跨模态检索装置900，通过采用上述模块实现跨模检索的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图10是根据本公开第九实施例的示意图；如图10所示，本实施例提供一种跨模态检索装置1000，包括上述图9所示的同名同功能模块，实体提取模块1001、信息获取模块1002和检索模块1003。

如图10所示，检索模块1003，包括：

特征提取单元10031，用于基于所述查询信息和所述第一语义实体，并采用所述跨模态特征提取模型，获取所述查询信息的第一语义编码特征；

特征提取单元10031，还用于获取所述第一信息的第二语义编码特征；

检索单元10032，用于基于所述第一语义编码特征和所述第二语义编码特征，在所述数据库中进行跨模态的检索，得到所述检索结果信息。

进一步可选地，在本公开的一个实施例中，特征提取单元10031，用于：

对所述第一信息进行语义实体提取，得到至少两个第二语义实体；

基于所述第一信息和所述第二语义实体，并采用所述跨模态特征提取模型，获取所述第二语义编码特征。

从所述数据库中获取所述第二语义编码特征。

进一步可选地，如图10所示，在本公开的一个实施例中，跨模态检索装置1000，还包括存储模块1004；

实体提取模块1001，还用于对所述第一信息进行语义实体提取，得到所述第二语义实体；

特征提取单元10031，还用于基于所述第一信息和所述第二语义实体，并采用所述跨模态特征提取模型，获取所述第二语义编码特征；

存储模块1004，用于将所述语义编码特征存储在所述数据库中。

进一步可选地，在本公开的一个实施例中，实体提取模块1001，还用于在所述数据库中获取所述第一模态对应的第二信息；

对所述第二信息进行语义实体提取，得到至少两个第三语义实体；

对于所述数据库中的各条所述数据，对对应的第一模态的信息进行语义实体提取，得到多个第三语义实体；

特征提取单元10031，还用于基于所述第二信息和所述第三语义实体，并采用所述跨模态特征提取模型，获取所述第二信息的第三语义编码特征；

存储模块1004，用于将所述第三语义编码特征存储在所述数据库中。

本实施例的跨模态检索装置1000，通过采用上述模块实现跨模检索的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图11是根据本公开第十实施例的示意图；如图11所示，本实施例提供一种跨模态特征提取模型的训练装置1100，包括：

获取模块1101，用于获取包括至少两条训练数据的训练数据组，所述训练数据对应至少两类第一模态；

实体抽取模块1102，用于对于各所述训练数据中的各所述模态信息，对所述模态信息进行语义实体抽取，得到多个训练语义实体；对所述第一数据和所述第二数据分别进行语义实体抽取，得到至少两个第一训练语义实体和至少两个第二训练语义实体；

训练模块1103，用于基于所述第一数据、所述至少两个第一训练语义实体、所述第二数据和所述至少两个第二训练语义实体，对跨模态特征提取模型进行训练。

本实施例的跨模态特征提取模型的训练装置1100，通过采用上述模块实现跨模态特征提取模型的训练的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

进一步可选地，在本公开的一个实施例中，训练模块1103，用于：

基于所述第一数据和所述至少两个第一训练语义实体，采用所述跨模态特征提取模型，获取所述第一数据的语义编码特征；

基于所述第二数据和所述至少两个第二训练语义实体，采用所述跨模态特征提取模型，获取所述第二数据的语义编码特征；

基于所述第一数据的语义编码特征和所述第二数据的语义编码特征，构建跨模态检索的损失函数。

进一步可选地，在本公开的一个实施例中，训练模块，用于：

基于所述第一数据的语义编码特征和所述第二数据的语义编码特征，分别构建第二模态到第三模态进行信息检索的第一子损失函数和第三模态到第二模态进行信息检索的第二子损失函数；

将所述第一子损失函数和所述第二子损失函数相加，得到所述跨模态检索的损失函数。

上述跨模态特征提取模型的训练装置1100，通过采用上述模块实现跨模态特征提取模型的训练的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如本公开的上述方法。例如，在一些实施例中，本公开的上述方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的本公开的上述方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行本公开的上述方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种跨模态应用中的特征提取方法，包括：

对所述第一数据进行语义实体提取，得到语义实体；

基于所述第一数据和所述语义实体，并采用预先训练的跨模态特征提取模型，获取所述第一数据的语义编码特征；

所述基于所述第一数据和所述语义实体，并采用预先训练的跨模态特征提取模型，获取所述第一数据的语义编码特征，包括：

基于所述语义实体，并采用所述跨模态特征提取模型中的实体编码模块，获取所述第一数据的语义实体编码特征；

2.根据权利要求1所述的方法，其中，所述第二模态为视频模态；所述对所述第一数据进行语义实体提取，得到语义实体，包括：

采用预先训练的语义实体提取模型，提取所述第一数据中各视频帧的所述语义实体。

3.根据权利要求1所述的方法，其中，所述第二模态为文本模态；所述对所述第一数据进行语义实体提取，得到语义实体，包括：

对所述第一数据中各词语进行语义角色标注；

基于所述语义角色，获取所述语义实体。

4.根据权利要求1所述的方法，其中，若所述语义实体的数量包括至少两个时，所述基于所述语义实体，并采用所述跨模态特征提取模型中的实体编码模块，获取所述第一数据的语义实体编码特征，包括：

5.一种跨模态特征提取模型的训练方法，包括：

在所述训练数据组中确定第二模态的第一数据和第三模态的第二数据，所述第二模态和所述第三模态分别为所述第一模态的任一类模态；且所述第二模态与所述第三模态不同；

基于所述第一数据、所述至少两个第一训练语义实体、所述第二数据和所述至少两个第二训练语义实体，对跨模态特征提取模型进行训练；

基于所述第一数据、所述至少两个第一训练语义实体、所述第二数据和所述至少两个第二训练语义实体，对跨模态特征提取模型进行训练，包括：

基于所述第一数据的语义编码特征和所述第二数据的语义编码特征，构建跨模态检索的损失函数；

若所述损失函数不收敛，调整所述跨模态特征提取模型的参数。

6.根据权利要求5所述的方法，其中，基于所述第一数据的语义编码特征和所述第二数据的语义编码特征，构建跨模态检索的损失函数，包括：

7.一种跨模态检索方法，包括：

基于所述查询信息、所述第一语义实体、所述第一信息、和预先训练的跨模态特征提取模型，在所述数据库中进行跨模态的检索，得到与所述查询信息对应的检索结果信息，所述检索结果信息对应所述第二模态；所述跨模态特征提取模型采用权利要求5或者6所述的方法训练的。

8.根据权利要求7所述的方法，其中，所述基于所述查询信息、所述第一语义实体、所述第一信息、和预先训练的跨模态特征提取模型，在所述数据库中进行跨模态的检索，得到与所述查询信息对应的检索结果信息，包括：

基于所述查询信息和所述第一语义实体，并采用所述跨模态特征提取模型，获取所述查询信息的第一语义编码特征；

获取所述第一信息的第二语义编码特征；

基于所述第一语义编码特征和所述第二语义编码特征，在所述数据库中进行跨模态的检索，得到所述检索结果信息。

9.根据权利要求8所述的方法，其中，所述获取所述第一信息的第二语义编码特征，包括：

10.根据权利要求8所述的方法，其中，所述获取所述第一信息的第二语义编码特征，包括：

从所述数据库中获取所述第二语义编码特征。

11.根据权利要求10所述的方法，其中，所述方法还包括：

对所述第一信息进行语义实体提取，得到所述第二语义实体；

基于所述第一信息和所述第二语义实体，并采用所述跨模态特征提取模型，获取所述第二语义编码特征；

将所述语义编码特征存储在所述数据库中。

12.根据权利要求11所述的方法，其中，所述方法还包括：

在所述数据库中获取所述第一模态对应的第二信息；

基于所述第二信息和所述第三语义实体，并采用所述跨模态特征提取模型，获取所述第二信息的第三语义编码特征；

将所述第三语义编码特征存储在所述数据库中。

13.一种跨模态应用中的特征提取装置，包括：

特征获取模块，用于基于所述第一数据和所述语义实体，并采用预先训练的跨模态特征提取模型，获取所述第一数据的语义编码特征；

所述特征获取模块，用于：

14.根据权利要求13所述的装置，其中，所述实体提取模块，用于：

15.根据权利要求13所述的装置，其中，所述实体提取模块，用于：

基于所述语义角色，获取所述语义实体。

16.根据权利要求13所述的装置，其中，所述特征获取模块，用于：

若所述语义实体的数量包括至少两个时，

17.一种跨模态特征提取模型的训练装置，包括：

训练模块，用于基于所述第一数据、所述至少两个第一训练语义实体、所述第二数据和所述至少两个第二训练语义实体，对跨模态特征提取模型进行训练；

所述训练模块，用于：

18.根据权利要求17所述的装置，其中，所述训练模块，用于：

19.一种跨模态检索装置，包括：

检索模块，用于基于所述查询信息、所述第一语义实体、所述第一信息、和预先训练的跨模态特征提取模型，在所述数据库中进行跨模态的检索，得到与所述查询信息对应的检索结果信息，所述检索结果信息对应所述第二模态；所述跨模态特征提取模型采用权利要求17或者18所述的装置训练的。

20.根据权利要求19所述的装置，其中，所述检索模块，包括：

特征提取单元，用于基于所述查询信息和所述第一语义实体，并采用所述跨模态特征提取模型，获取所述查询信息的第一语义编码特征；所述特征提取单元，还用于获取所述第一信息的第二语义编码特征；检索单元，用于基于所述第一语义编码特征和所述第二语义编码特征，在所述数据库中进行跨模态的检索，得到所述检索结果信息。

21.根据权利要求20所述的装置，其中，所述特征提取单元，用于：

22.根据权利要求20所述的装置，其中，所述特征提取单元，用于：

从所述数据库中获取所述第二语义编码特征。

23.根据权利要求22所述的装置，其中，所述装置还包括存储模块；

将所述语义编码特征存储在所述数据库中。

24.根据权利要求23所述的装置，其中：

所述实体提取模块，还用于：

在所述数据库中获取所述第一模态对应的第二信息；

所述特征提取单元，还用于基于所述第二信息和所述第三语义实体，并采用所述跨模态特征提取模型，获取所述第二信息的第三语义编码特征；

所述存储模块，用于将所述第三语义编码特征存储在所述数据库中。

25.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4、5-6或者7-12中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-4、5-6或者7-12中任一项所述的方法。