CN116431886A

CN116431886A - 内容查询方法、装置、电子设备、存储介质和程序产品

Info

Publication number: CN116431886A
Application number: CN202111640518.8A
Authority: CN
Inventors: 程瑞; 张金超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2023-07-14

Abstract

本发明实施例公开了内容查询方法、装置、电子设备、存储介质和程序产品；可以获取待查询内容，确定待查询内容的内容类型，通过内容类型对应的目标特征提取模型对待查询内容进行特征提取，得到第一查询内容特征，将第一查询内容特征映射到多种类型内容共享的内容特征空间中，得到第二查询内容特征，计算待查询内容特征与内容特征空间中第二候选内容特征的相似度，第二候选内容特征所源于的内容类型有至少两种，根据相似度确定至少一个目标内容特征，从目标内容特征来源的候选内容中，确定待查询内容的查询结果；对于不同内容类型的内容无需分别构建数据集，可以降低数据标注成本，提高查询效率和准确度。

Description

内容查询方法、装置、电子设备、存储介质和程序产品

技术领域

本发明涉及搜索技术领域，具体涉及内容查询方法、装置、电子设备、存储介质和程序产品。

背景技术

随着当前互联网的快速发展，互联网中的信息越来越多，人们可以通过关键词、图像等内容，从海量的信息中查询到自己需要的信息。比如，人们可以通过文字查询图像或者音频等。

目前，以通过文字查询图像为例，在进行查询时采取的主要方法是，将查询用户输入的文字，与预先设置的图像数据集中各个图像的文字描述标签进行匹配。采用这种方案，在构建图像数据集时，需要定义好图像的类目体系，对图像进行分类并标注文字描述标签，但是，在这种方案中，需要构建完整且细致的图像分类体系，对于大规模的图像数据来说，数据标注成本高昂，且图像与用户输入的文字之间并没有直接的联系，影响文字查询图像的准确度，且对于不同内容类型的文字、图像，需要构建不同的数据集以满足查询需求。

发明内容

本发明实施例提供内容查询方法、装置、电子设备、存储介质和程序产品，无需对图像等内容进行分类，对于不同内容类型的内容无需分别构建数据集，可以降低数据标注成本，直接根据用户输入的内容得到相应的查询结果，提高查询效率和准确度。

本发明实施例提供一种内容查询方法，包括：

获取待查询内容，确定所述待查询内容的内容类型；

通过所述内容类型对应的目标特征提取模型，对所述待查询内容进行特征提取，得到所述待查询内容的第一查询内容特征；

将所述第一查询内容特征映射到多种类型内容共享的内容特征空间中，得到第二查询内容特征；

计算所述待查询内容特征与所述内容特征空间中第二候选内容特征的相似度，所述第二候选内容特征所源于的内容类型有至少两种，第二候选内容特征对应的内容类型不同，则采用的特征提取模型不同；

根据所述相似度，确定所述待查询内容对应的至少一个目标内容特征；

从所述目标内容特征来源的候选内容中，确定所述待查询内容的查询结果。

相应的，本发明实施例还提供一种内容查询装置，包括：

内容获取单元，用于获取待查询内容，确定所述待查询内容的内容类型；

特征提取单元，用于通过所述内容类型对应的目标特征提取模型，对所述待查询内容进行特征提取，得到所述待查询内容的第一查询内容特征；

特征映射单元，用于将所述第一查询内容特征映射到多种类型内容共享的内容特征空间中，得到第二查询内容特征；

相似度计算单元，用于计算所述待查询内容特征与所述内容特征空间中第二候选内容特征的相似度，所述第二候选内容特征所源于的内容类型有至少两种，第二候选内容特征对应的内容类型不同，则采用的特征提取模型不同；

特征确定单元，用于根据所述相似度，确定所述待查询内容对应的至少一个目标内容特征；

查询结果确定单元，用于从所述目标内容特征来源的候选内容中，确定所述待查询内容的查询结果。

可选的，本发明实施例提供的内容查询装置，还包括空间构建单元，所述空间构建单元包括内容对获取单元、候选特征提取单元和候选特征映射单元；

所述内容对获取单元，用于获取至少一个候选内容对，同一个所述候选内容对中的候选内容之间的语义相同且内容类型不同；

所述候选特征提取单元，用于通过各所述内容类型对应的特征提取模型，分别对各所述候选内容进行特征提取，得到各所述候选内容的第一候选内容特征；

所述候选特征映射单元，用于将各所述第一候选内容特征进行映射，得到第二候选内容特征共享的内容特征空间，所述内容特征空间中，同一所述候选内容对对应的第二候选内容特征之间的相似度，大于不同候选内容对对应的第二候选内容特征之间的相似度。

可选的，所述候选内容对中包括候选图像和候选文本，所述候选文本的文本语义与针对所述候选图像的图像语义相同；

对应的，所述候选特征提取单元，用于通过文本类型对应的文本特征提取模型，对各所述候选内容对中的候选文本进行特征提取，得到各所述候选文本的第一文本内容特征；

通过图像类型对应的图像特征提取模型，对各所述候选内容对中的候选图像进行特征提取，得到各所述候选图像的第一图像内容特征。

可选的，所述图像特征提取模型包括区域特征提取层和序列特征编码层，所述候选特征提取单元，用于根据所述区域特征提取层的区域划分参数，将各所述候选图像分别划分为至少两个子区域；

将各所述子区域通过所述区域特征提取层的区域特征提取参数进行特征提取，得到各所述子区域的区域特征；

分别将同一所述候选图像的各所述区域特征构成区域特征序列，基于所述序列特征编码层的编码参数对各所述区域特征序列进行编码，得到各所述候选图像的第一图像内容特征。

可选的，所述文本特征提取模型包括词嵌入模块和注意力映射模块，所述通过文本特征提取模型的词嵌入模块，对各所述候选内容对中的候选文本进行词嵌入处理，得到各所述候选文本的词嵌入特征；

分别将各所述候选文本的词嵌入特征，通过所述注意力映射模块进行注意力处理，得到各所述候选文本的第一文本内容特征。

可选的，所述候选特征映射单元，用于将各所述第一候选内容特征进行正则化处理，得到各所述第一候选内容特征对应的第二候选内容特征；

根据各所述第二候选内容特征，构建各所述第二候选内容特征共享的内容特征空间。

可选的，本发明实施例提供的内容查询装置，还包括模型训练单元，用于获取至少两个训练内容对，同一个所述训练内容对中的训练内容之间的语义相同且内容类型不同；

根据所述训练内容以及各所述训练内容的训练类型，构建负训练内容对，所述负训练内容对中的训练内容所源于的训练内容对不同，且所述训练内容的内容类型不同；

通过各所述内容类型对应的待训练的特征提取模型，分别对各所述训练内容对和所述负训练内容对中的训练内容进行特征提取，得到各所述训练内容的第一训练内容特征；

基于各所述训练内容的第一训练内容特征，对各所述待训练的特征提取模型的参数进行调整，得到训练后的特征提取模型。

可选的，所述模型训练单元，用于基于各所述训练内容的第一训练内容特征进行特征映射，得到各所述训练内容的第二候选内容特征，各所述第二候选内容特征共享内容特征空间；

计算所述训练内容对中训练内容的第一训练内容特征之间的第一内容相似度；

计算所述负训练内容对中训练内容的第一训练内容特征之间的第二内容相似度；

根据所述第一内容相似度和所述第二内容相似度，对各所述待训练的特征提取模型的参数进行调整，得到训练后的特征提取模型。

可选的，本发明实施例提供的内容查询装置，还包括候选相似度计算单元，用于计算所述内容特征空间中，源于同一所述候选内容对的第二候选内容特征之间的候选相似度；

根据所述候选相似度，为各所述第二候选内容特征添加特征标识；

对应的，所述特征确定单元，用于根据所述相似度，确定所述待查询内容对应的至少一个第一目标内容特征；

根据所述第一目标内容特征的特征标识，在所述内容特征空间中查找所述第一目标内容特征对应的第二目标内容特征；

将所述第一目标内容特征和所述第二目标内容特征作为目标内容特征。

可选的，所述目标内容特征来源的候选内容源于目标候选内容对，所述目标候选内容对中的候选内容之间的语义相同且内容类型不同，本发明实施例提供的内容查询装置，还包括目标类型获取单元，用于获取所述待查询内容对应的目标查询内容类型；

所述查询结果确定单元，用于确定所述目标内容特征来源的候选内容的候选内容类型；

当所述候选内容类型与所述目标查询内容类型相同时，将所述目标内容特征来源的候选内容作为所述待查询内容的查询结果；

当所述候选内容类型与所述目标查询内容类型不同时，从目标候选内容对中，查找与所述目标查询内容类型相同的候选内容，作为所述待查询内容的查询结果。

可选的，本发明实施例提供的内容查询装置，还包括参考信息获取单元，用于获取所述待查询内容的查询参考信息；

所述特征提取单元，用于通过所述内容类型对应的目标特征提取模型，对所述待查询内容进行特征提取，得到所述待查询内容的查询内容特征；

通过参考信息映射模型，对所述查询参考信息进行特征映射，得到所述待查询内容的查询参考特征；

将所述查询内容特征和所述查询参考特征进行特征融合，得到所述待查询内容的第一查询内容特征。

相应的，本发明实施例还提供一种电子设备，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行本发明实施例所提供的任一种内容查询方法中的步骤。

相应的，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种内容查询方法中的步骤。

此外，本发明实施例还提供一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被处理器执行时实现本发明实施例所提供的任一种内容查询方法中的步骤。

采用本发明实施例的方案，可以获取待查询内容，确定该待查询内容的内容类型，通过该内容类型对应的目标特征提取模型，对该待查询内容进行特征提取，得到该待查询内容的第一查询内容特征，将该第一查询内容特征映射到多种类型内容共享的内容特征空间中，得到第二查询内容特征，计算该待查询内容特征与该内容特征空间中第二候选内容特征的相似度，该第二候选内容特征所源于的内容类型有至少两种，第二候选内容特征对应的内容类型不同，则采用的特征提取模型不同，根据该相似度，确定该待查询内容对应的至少一个目标内容特征，从该目标内容特征来源的候选内容中，确定该待查询内容的查询结果；由于在本发明实施例中，不同内容类型的候选内容共享同一内容特征空间，在进行内容查询时，将待查询内容映射到内容特征空间中，可以直接查询待查询内容对应的目标内容特征，因此，对于不同内容类型的内容无需分别构建数据库，只需不同内容类型的候选内容映射到同一内容特征空间中，可以降低数据标注成本，直接根据用户输入的内容得到相应的查询结果，提高查询效率和准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的内容查询方法的场景示意图；

图2是本发明实施例提供的内容查询方法的流程图；

图3是本发明实施例提供的图像特征提取模型的技术实现示意图；

图4是本发明实施例提供的候选相似度的计算过程示意图；

图5是本发明实施例提供的内容查询方法的另一示意图；

图6是本发明实施例提供的内容查询装置的结构示意图；

图7是本发明实施例提供的内容查询装置的另一结构示意图；

图8是本发明实施例提供的空间构建单元的结构示意图；

图9是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种内容查询方法、装置、电子设备和计算机可读存储介质。具体地，本发明实施例提供适用于内容查询装置的内容查询方法，该内容查询装置可以集成在电子设备中。

该电子设备可以为终端等设备，包括但不限于移动终端和固定终端，例如移动终端包括但不限于智能手机、智能手表、平板电脑、笔记本电脑、智能车载等，其中，固定终端包括但不限于台式电脑、智能电视等。

该电子设备还可以为服务器等设备，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。

本发明实施例的内容查询方法，可以由服务器实现，也可以由终端和服务器共同实现。

下面以终端和服务器共同实现该内容查询方法为例，对该方法进行说明。

如图1所示，本发明实施例提供的内容查询系统包括终端10和服务器20等；终端10与服务器20之间通过网络连接，比如，通过有线或无线网络连接等，其中，终端10可以作为用户向服务器20发送待查询内容的终端存在。

其中，终端10可以为用户发起内容查询的终端，用于向服务器20发送待查询内容。

服务器20，可以用于获取待查询内容，确定待查询内容的内容类型，通过内容类型对应的目标特征提取模型，对待查询内容进行特征提取，得到待查询内容的第一查询内容特征，将第一查询内容特征映射到多种类型内容共享的内容特征空间中，得到第二查询内容特征。

服务器20可以计算待查询内容特征与内容特征空间中第二候选内容特征的相似度，第二候选内容特征所源于的内容类型有至少两种，第二候选内容特征对应的内容类型不同，则采用的特征提取模型不同，根据相似度，确定待查询内容对应的至少一个目标内容特征，从目标内容特征来源的候选内容中，确定待查询内容的查询结果。

在一些可选的示例中，服务器20可以将查询结果发送给终端10，终端10可以基于查询结果进行显示。

可以理解的是，上述服务器20进行内容查询的步骤，也可以由终端10执行。

以下分别进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本发明实施例将从内容查询装置的角度进行描述，该内容查询装置具体可以集成在服务器或终端中。

如图2所示，本实施例的内容查询方法的具体流程可以如下：

201、获取待查询内容，确定待查询内容的内容类型。

其中，待查询内容为在内容查询过程中用户所提供的内容。具体的，待查询内容的内容类型可以为文本、图像、音频或视频等各种类型，本发明实施例对此不做限定。

需要说明的是，待查询内容的内容类型与用户期望查询到的内容的内容类型可以相同，也可以不同。

例如，用户可以通过输入文本搜索相应的文本，输入图像搜索相应的图像，输入文本搜索相应的图像，输入图像搜索相应的文本或者输入图像搜索相应的视频，等等。

202、通过内容类型对应的目标特征提取模型，对待查询内容进行特征提取，得到待查询内容的第一查询内容特征。

在本发明实施例中，针对不同内容类型的内容设置了不同的特征提取模型，以对内容进行特征提取。

其中，目标特征提取模型是可以针对待查询内容的内容类型进行特征提取的特征提取模型。

比如，特征提取模型可以包括对文本进行特征提取的文本特征提取模型、对图像进行特征提取的图像特征提取模型、对音频进行特征提取的音频特征提取模型，等等。相应的，当待查询内容为文本类型时，目标特征提取模型即为文本特征提取模型。

其中，第一查询内容特征为通过目标特征提取模型对待查询内容进行特征提取后得到的特征。

具体的，图像特征提取模型可以是直接将若干个卷积层连接得到的模型，也可以是对图像中的不同颜色模块进行感知并提取特征的目标检测模型，例如RCNN(Regionswith CNN features)、YOLO模型等等。

但是，采用上述的相关方案，存在受限于原本视觉检测任务的目标类别，对于不在视觉检测任务预先定义类目中的目标无法有效识别，进而忽略重要的视觉信息；忽略了非目标区域中对于上下文理解的重要信息，图片中的背景、目标之间的位置关系和联系都被忽略，无法进行有效的利用等问题。

因此，当待查询内容为图像类型(即待查询内容为待查询图像)时，目标特征提取模型即为图像特征提取模型，本发明实施例提供的图像特征提取模型包括区域特征提取层和序列特征编码层；

此时，步骤“通过内容类型对应的目标特征提取模型，对待查询内容进行特征提取，得到待查询内容的第一查询内容特征”，具体可以包括：

根据区域特征提取层的区域划分参数，将待查询图像划分为至少两个子区域；

将各子区域通过区域特征提取层的区域特征提取参数进行特征提取，得到各子区域的区域特征；

将各区域特征构成区域特征序列，基于序列特征编码层的编码参数对各区域特征序列进行编码，得到待查询图像的图像内容特征作为第一查询内容特征。

如图3所示，图像特征提取模型可以首先对输入的待查询图像划分为N*N的相同大小区域，分别对每个区域图像进行特征抽取得到每个区域的特征表示Imgi，将各区域的特征表示进行顺序拼接或者任意拼接等处理，得到长度为N*N一维序列，使用序列特征编码层对序列进行编码得到图像的表示向量(第一查询内容特征)。

其中，序列特征编码层可以是任意的现有模型中的编码器(encoder)，例如Seq2Seq模型或者Transformer模型等等。

其中，区域特征序列可以是在输入序列特征编码层之前对各区域特征进行拼接处理得到，也可以是依次输入序列特征编码层的区域特征自动构成区域特征序列，本发明实施例对此不做限定。

具体的，文本特征提取模型可以是词袋模型、FastText、Word2vec等模型。但是，采用上述的相关方案，存在长期依赖的问题。为了解决这个问题，在本发明实施例中，文本特征提取模型包括词嵌入模块和注意力映射模块；

此时，待查询内容为文本类型(即待查询内容为待查询文本)时，目标特征提取模型即为文本特征提取模型，步骤“通过内容类型对应的目标特征提取模型，对待查询内容进行特征提取，得到待查询内容的第一查询内容特征”，具体可以包括：

通过文本特征提取模型的词嵌入模块，对待查询文本进行词嵌入处理，得到待查询文本的词嵌入特征；

将各词嵌入特征，通过注意力映射模块进行注意力处理，得到待查询文本的文本内容特征作为第一查询内容特征。

其中，词嵌入模块可以对待查询文本进行分词、插入分词标记等处理后，对待查询文本的分词进行词嵌入处理，可以将待查询文本中的字、词映射为特征向量。

在一些可选的实施例中，为了使表示出的词嵌入特征不仅仅是各个字词意思的累加，词嵌入模块可以包括词义嵌入层和词位置嵌入层，步骤“通过文本特征提取模型的词嵌入模块，对待查询文本进行词嵌入处理，得到待查询文本的词嵌入特征”，具体可以包括：

对待查询文本进行分词处理，得到待查询文本的至少一个查询分词；

通过词嵌入模块的词义嵌入层，对各查询分词进行词义提取，得到各查询分词的词义特征；

通过词嵌入模块的词位置嵌入层，对各查询分词进行分词位置特征表示，得到各查询分词的词位置特征；

基于各查询分词的词义特征和词位置特征，得到待查询文本的词嵌入特征。

例如，可以将每个查询分词的词义特征和词位置特征相加，作为每个查询分词的特征，将所有查询分词的特征相加、拼接或者加权融合，得到待查询文本的词嵌入特征。

通过词位置嵌入层，可以学习到词位置特征，词位置特征能决定当前词的位置，或者说在一个句子中不同的词之间的距离。词位置特征的具体计算方法有很多种，在一些示例中，可以根据当前查询分词在句子中的位置进行编码，例如在偶数位置，使用正弦编码，在奇数位置，使用余弦编码等。

其中，为了更好的提取待查询文本的语义信息，注意力映射模块可以通过多头注意力网络(Multi-HeadAttention)和/或自注意力网络(self-attention)对待查询文本进行上下文语义处理。

203、将第一查询内容特征映射到多种类型内容共享的内容特征空间中，得到第二查询内容特征。

可以理解的是，第一查询内容特征的特征维度与内容特征空间的空间维度可以相同，也可以不同。在本发明实施例中，可以对第一查询内容特征进行特征映射，以便于与内容特征空间中的第二候选内容特征进行相似度计算。经过映射后，第二查询内容特征的特征维度与内容特征空间的空间维度相同。

其中，内容特征空间一般理解为根据第二候选内容特征的维度构建的向量空间。具体的，内容特征空间可以通过如下的方式构建：

获取至少一个候选内容对，同一个候选内容对中的候选内容之间的语义相同且内容类型不同；

通过各内容类型对应的特征提取模型，分别对各候选内容进行特征提取，得到各候选内容的第一候选内容特征；

将各第一候选内容特征进行映射，得到第二候选内容特征共享的内容特征空间，内容特征空间中，同一候选内容对对应的第二候选内容特征之间的相似度，大于不同候选内容对对应的第二候选内容特征之间的相似度。

其中，候选内容对中包括至少两个内容类型不同的候选内容。比如，候选内容对中可以包括候选图像、候选文本，或者，候选内容对中可以包括候选图像、候选文本和候选视频，等等。

需要说明的是，同一个候选内容对中的候选内容，实际上是对同一语义通过不同形式进行描述得到的。比如，一个候选内容对中可以包括对“绿色的松树”这一语义进行描述的候选内容，具体可以是一张绿色的松树的图片和一句“绿色的松树”的候选文本。

或者，候选内容对可以是(候选图像，候选文本，候选视频)的形式，其中的候选图像、候选文本和候选视频都是对“星空”的展示，等等。

其中，候选内容对中的候选内容的内容类型及内容大小均不限。以某一候选内容对中的候选文本为例，候选文本的文本长度不限，比如，样本文本可以是一篇文章，也可以是一个段落，还可以是一个词语，等等，本实施例对此不作限制。

其中，第一候选内容特征可以是通过特征提取模型对候选内容进行特征提取后得到的特征。需要说明的是，在对候选内容进行特征提取时，需要根据候选内容的内容类型，选择内容类型对应的特征提取模型对候选内容进行特征提取。

具体的，第一候选内容特征的提取过程与第一查询内容特征的提取过程类似，本发明实施例对此不再赘述。

在一些可选的实施例中，候选内容对中可以包括候选图像和候选文本，候选文本的文本语义与针对候选图像的图像语义相同，相应的，步骤“通过各内容类型对应的特征提取模型，分别对各候选内容进行特征提取，得到各候选内容的第一候选内容特征”，具体可以包括：

通过文本类型对应的文本特征提取模型，对各候选内容对中的候选文本进行特征提取，得到各候选文本的第一文本内容特征；

通过图像类型对应的图像特征提取模型，对各候选内容对中的候选图像进行特征提取，得到各候选图像的第一图像内容特征。

具体的，文本特征提取模型可以是长短期记忆网络(LSTM，Long Short-TermMemory)、双向长短期记忆网络(BiLSTM，Bi-directional Long Short-Term Memory)、循环神经网络(RNN，Recurrent Neural Network)等等，需要说明的是，本发明实施例的文本特征提取模型并不仅限于上述列举的几种类型。

比如在一些可选的示例中，文本特征提取模型可以包括词嵌入模块和注意力映射模块，步骤“通过文本类型对应的文本特征提取模型，对各候选内容对中的候选文本进行特征提取，得到各候选文本的第一文本内容特征”，具体可以包括：

通过文本特征提取模型的词嵌入模块，对各候选内容对中的候选文本进行词嵌入处理，得到各候选文本的词嵌入特征；

分别将各候选文本的词嵌入特征，通过注意力映射模块进行注意力处理，得到各候选文本的第一文本内容特征。

其中，对候选文本进行特征提取的文本特征提取模型与前述对待查询文本进行特征提取的文本特征提取模型可以是相同或者相似的。文本特征提取模型的实现细节在之前的实施例中已进行具体的阐释，在此不再赘述。

例如，词嵌入模块可以包括词义嵌入层和词位置嵌入层。可以理解的是，可选的，鉴于不同的候选文本在句子结构和句义上可能存在较大差别，如果使用的词义嵌入层只有一层，可能导致对词义特征提取效果不理想。因此，可采用具有至少两个词义嵌入层的词嵌入模块对候选文本进行词义特征提取。

其中，不同的词义嵌入层用于提取候选文本不同维度的词义特征，为了提升对于词义表征的准确性，可以将多个词义嵌入层的向量进行融合得到语义表征向量，使得词义表征中可以包括例如词义、句法、句义等信息，提升词义表征的丰富性和准确度。

又例如，注意力映射模块可以通过多头注意力网络(Multi-Head Attention)和/或自注意力网络(self-attention)对待查询文本进行上下文语义处理。比如，多头注意力网络一般是采用基于点积操作计算权重矩阵，在多头注意力网络中，每个词有3个不同的向量：Query(查询)向量、Key(键)向量和Value(值)向量。在进行注意力处理的过程中，每一transformer层都需要将每个词的Query向量、Key向量和Value向量与其他位置的词的Query向量、Key向量和Value向量进行点积操作，从而确定每个词与其他位置的词的语义关系，得到每个词的特征向量。

比如在一些可选的示例中，图像特征提取模型包括区域特征提取层和序列特征编码层；

步骤“通过图像类型对应的图像特征提取模型，对各候选内容对中的候选图像进行特征提取，得到各候选图像的第一图像内容特征”，具体可以包括：

根据区域特征提取层的区域划分参数，将各候选图像分别划分为至少两个子区域；

分别将同一候选图像的各区域特征构成区域特征序列，基于序列特征编码层的编码参数对各区域特征序列进行编码，得到各候选图像的第一图像内容特征。

其中，对候选图像进行特征提取的图像特征提取模型与前述对待查询图像进行特征提取的图像特征提取模型可以是相同或者相似的。图像特征提取模型的实现细节在之前的实施例中已进行具体的阐释，在此不再赘述。

可以理解的是，第一候选内容特征的特征维度与内容特征空间的空间维度可以相同，也可以不同。在本发明实施例中，可以对第一候选内容特征进行特征映射，以便于在进行内容查询时可以与相同维度的第二查询内容特征进行相似度计算。

也就是说，步骤“将各第一候选内容特征进行映射，得到第二候选内容特征共享的内容特征空间”，具体可以包括：

将各第一候选内容特征进行正则化处理，得到各第一候选内容特征对应的第二候选内容特征；

根据各第二候选内容特征，构建各第二候选内容特征共享的内容特征空间。

具体的，正则化处理可以是进行L1正则化、L2正则化等等。以使用L2正则化方式将不同的特征映射到同一内容特征空间为例，L2正则化方式可以如下式所示：

其中，v表示待正则化向量(即第一候选内容特征)，p表示正则化范数，采用L2正则化可以表示范数p等于2，||v||2表示对向量v各元素平方求和然后取平方根，ε是避免除0参数，默认是1e-l2。

经过映射后，第二候选内容特征的特征维度与内容特征空间的空间维度相同。

在本发明实施例中，第一查询内容特征映射到内容特征空间的步骤与上述步骤相似，本发明实施例对此不再赘述。

204、计算待查询内容特征与内容特征空间中第二候选内容特征的相似度，第二候选内容特征所源于的内容类型有至少两种，第二候选内容特征对应的内容类型不同，则采用的特征提取模型不同。

具体的，待查询内容特征与第二候选内容特征的相似度，具体可以是计算待查询内容特征与第二候选内容特征在内容特征空间中的向量距离，向量距离可以用于表征相似度的大小，向量距离越大，相似度越小；反之，向量距离越小，相似度越大。其中，向量距离的计算可以采用余弦距离、欧式距离等，本实施例对此不作限制。

例如，可以计算两个特征之间的余弦距离sim，sim＝cos(待查询内容特征，第二候选内容特征)。

可以理解的是，为了保证各内容类型对应的特征提取模型对候选内容以及待查询内容进行特征提取时的准确性，可以预先对各特征提取模型进行训练。在本发明实施例中可以通过正负样本来训练模型，其中正样本对中的样本语义一致，负样本对中的样本语义不一致，普通的训练方式是监督学习，需要人工构造语义不一致的负样本对，并且训练的时间较长。对比学习是新型的自监督学习方式，不需要人工构造负样本对，在训练过程中自动构造正负样本对，提高训练速度。

也就是说，本发明实施例提供的内容查询方法还可以包括：

获取至少两个训练内容对，同一个训练内容对中的训练内容之间的语义相同且内容类型不同；

根据训练内容以及各训练内容的训练类型，构建负训练内容对，负训练内容对中的训练内容所源于的训练内容对不同，且训练内容的内容类型不同；

通过各内容类型对应的待训练的特征提取模型，分别对各训练内容对和负训练内容对中的训练内容进行特征提取，得到各训练内容的第一训练内容特征；

基于各训练内容的第一训练内容特征，对各待训练的特征提取模型的参数进行调整，得到训练后的特征提取模型。

其中，若某个内容对中的训练内容的语义不同，则该内容对为负训练内容对。

需要说明的是，训练内容对和候选内容对可以相同，也可以不同，本发明实施例对此不做限定。

例如，在模型训练过程中一个训练批次可以包含N个训练内容对，每个训练内容对中包括一个训练图片和训练文本，即有N个图片(Image1,Image2,Image3,…,Image N)和N个文本(Text1,Text2,Text3,…,TextN)，其中Imagei与Texti构成一个训练内容对，Imagei与Texti的语义一致。

可以使用待训练的图片特征提取模型和文本特征提取模型分别对每个图片和文本进行特征提取，得到N个图片内容特征(ImageVector1,ImageVector2,ImageVector3,…,ImageVectorN)和N个文本内容特征(TextVector1,TextVector2,TextVector3,…,TextVectorN)，则构成了N*N个样本，其中正样本N个，负样本N*(N-1)个，在多显卡大批次训练方式中，极大扩充了负样本数据，有效提高模型的特征提取能力并且加速训练过程。

再比如，训练内容对1可以是(候选图像1，候选视频1)，训练内容对2可以是(候选图像2，候选视频2)，可以构建出负训练内容对(候选图像1，候选视频2)、(候选图像2，候选视频1)。

具体的，可以根据训练内容对中的第一训练内容特征之间的相似度以及负训练内容对中的第二训练内容特征之间的相似度，对特征提取模型进行参数调整。即，步骤“基于各训练内容的第一训练内容特征，对各待训练的特征提取模型的参数进行调整，得到训练后的特征提取模型”，具体可以包括：

基于各训练内容的第一训练内容特征进行特征映射，得到各训练内容的第二候选内容特征，各第二候选内容特征共享内容特征空间；

计算训练内容对中训练内容的第二训练内容特征之间的第一内容相似度；

计算负训练内容对中训练内容的第二训练内容特征之间的第二内容相似度；

根据第一内容相似度和第二内容相似度，对各待训练的特征提取模型的参数进行调整，得到训练后的特征提取模型。

一般来说，在本发明实施例中，训练内容对中的训练内容之间的语义应当最相似，负训练内容对中的训练内容之间的向量距离则应当尽可能大，即语义表示具有区分度。

可以理解的是，不同的训练内容对中的训练内容一般是不相同的，或者说是相似度较低的。

本发明实施例提供的特征提取模型的训练方法涉及人工智能领域中的机器学习技术以及自然语言处理、计算机视觉等技术。

其中，人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

205、根据相似度，确定待查询内容对应的至少一个目标内容特征。

例如，可以将内容特征空间中与第二查询内容特征相似度最高的一个或者N个第二候选内容特征作为目标内容特征。

或者，由于第二候选内容特征是源于候选内容对中的候选内容，因此，可以将能够作为目标内容特征的第二候选内容特征，以及与其源于同一候选内容对的第二候选内容特征共同作为目标内容特征。

在一些可选的实施例中，本发明实施例提供的内容查询方法还可以包括：

计算内容特征空间中，源于同一候选内容对的第二候选内容特征之间的候选相似度；

根据候选相似度，为各第二候选内容特征添加特征标识；

相应的，步骤“根据相似度，确定待查询内容对应的至少一个目标内容特征”，具体可以包括：

根据相似度，确定待查询内容对应的至少一个第一目标内容特征；

根据第一目标内容特征的特征标识，在内容特征空间中查找第一目标内容特征对应的第二目标内容特征；

将第一目标内容特征和第二目标内容特征作为目标内容特征。

在本发明实施例中，计算候选相似度的过程可以如图4所示。

其中，特征标识可以是第二候选内容特征之间的候选相似度，或者是第二候选内容特征源于的候选内容对的序号等等，本发明实施例对此不做限定。

206、从目标内容特征来源的候选内容中，确定待查询内容的查询结果。

在一些可选的示例中，可以将目标内容特征来源的候选内容作为待查询内容的查询结果。

可以理解的是，用户在进行内容查询时，一般都是有想要查询到的内容类型。比如，用户想要通过一句话找到一张图像，此时，图像类型才是用户想要得到的查询结果的内容类型。

因此，步骤“从目标内容特征来源的候选内容中，确定待查询内容的查询结果”之前，本发明实施例提供的内容查询方法还可以包括：

获取待查询内容对应的目标查询内容类型；

其中，目标查询内容类型即为查询结果的内容类型。

相应的，步骤“从目标内容特征来源的候选内容中，确定待查询内容的查询结果”，包括：

确定目标内容特征来源的候选内容的候选内容类型；

当候选内容类型与目标查询内容类型相同时，将目标内容特征来源的候选内容作为待查询内容的查询结果；

当候选内容类型与目标查询内容类型不同时，从目标候选内容对中，查找与目标查询内容类型相同的候选内容，作为待查询内容的查询结果。

其中，目标内容特征来源的候选内容源于目标候选内容对，目标候选内容对中的候选内容之间的语义相同且内容类型不同。

例如，用户想要通过一句话找到一张图像，此时，图像类型才是用户想要得到的查询结果的内容类型。当目标内容特征来源的候选内容的候选内容类型为图像类型时，可以直接将目标内容特征来源的候选图像作为待查询内容的查询结果。

当目标内容特征来源的候选内容的候选内容类型为文本类型时，可以从目标内容特征来源的候选内容对中，查找候选图像作为待查询内容的查询结果。

在实际应用过程中，为了提升查询结果的准确性，可以结合用户在输入待查询内容时的相关信息进行查询，步骤“获取待查询内容”之后，本发明实施例提供的内容查询方法还可以包括：

获取待查询内容的查询参考信息。

其中，查询参考信息可以包括但不限于用户输入待查询内容的时间、用户所在地的天气、用户的历史查询偏好，等等。

通过内容类型对应的目标特征提取模型，对待查询内容进行特征提取，得到待查询内容的查询内容特征；

通过参考信息映射模型，对查询参考信息进行特征映射，得到待查询内容的查询参考特征；

将查询内容特征和查询参考特征进行特征融合，得到待查询内容的第一查询内容特征。

其中，参考信息映射模型可以将查询参考信息映射为可以与查询内容特征融合的特征形式。在一些示例中，参考信息映射模型可以为文本特征提取模型，或者，参考信息映射模型可以是基于随机生成的天气、地理位置等查询参考信息训练得到的模型，等等。

例如，用户可以在内容分享平台中输入文字分享自己的心情，此时，可以将用户输入的文字作为待查询内容，将用户所在地以及用户所在地的天气等作为查询参考信息，为用户查询与文字匹配的音乐、图片等等。

由上可知，本发明实施例可以获取待查询内容，确定待查询内容的内容类型，通过内容类型对应的目标特征提取模型，对待查询内容进行特征提取，得到待查询内容的第一查询内容特征，将第一查询内容特征映射到多种类型内容共享的内容特征空间中，得到第二查询内容特征，计算待查询内容特征与内容特征空间中第二候选内容特征的相似度，第二候选内容特征所源于的内容类型有至少两种，第二候选内容特征对应的内容类型不同，则采用的特征提取模型不同，根据相似度，确定待查询内容对应的至少一个目标内容特征，从目标内容特征来源的候选内容中，确定待查询内容的查询结果；由于在本发明实施例中，不同内容类型的候选内容共享同一内容特征空间，在进行内容查询时，将待查询内容映射到内容特征空间中，可以直接查询待查询内容对应的目标内容特征，因此，对于不同内容类型的内容无需分别构建数据库，只需不同内容类型的候选内容映射到同一内容特征空间中，可以降低数据标注成本，直接根据用户输入的内容得到相应的查询结果，提高查询效率和准确度。

根据前面实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将结合图1的系统进行说明。

如图5所示，本发明实施例的内容查询方法，具体流程可以如下：

501、服务器获取至少两个候选内容对，根据候选内容对中的候选内容以及各候选内容的候选类型，构建负候选内容对。

同一个候选内容对中的候选内容之间的语义相同且内容类型不同，负候选内容对中的候选内容所源于的候选内容对不同，且候选内容的内容类型不同。

502、服务器通过各内容类型对应的待候选的特征提取模型，分别对各候选内容对和负候选内容对中的候选内容进行特征提取，得到各候选内容的第一候选内容特征。

503、服务器基于各候选内容的第一候选内容特征，对各待候选的特征提取模型的参数进行调整，得到候选后的特征提取模型。

具体的，步骤503可以包括：基于各候选内容的第一候选内容特征进行特征映射，得到各候选内容的第二候选内容特征，各第二候选内容特征共享内容特征空间；

计算候选内容对中候选内容的第一候选内容特征之间的第一内容相似度；

计算负候选内容对中候选内容的第一候选内容特征之间的第二内容相似度；

根据第一内容相似度和第二内容相似度，对各待候选的特征提取模型的参数进行调整，得到候选后的特征提取模型。

504、服务器通过各内容类型对应的特征提取模型，分别对各候选内容进行特征提取，得到各候选内容的第一候选内容特征。

比如，特征提取模型可以包括但不限于对文本进行特征提取的文本特征提取模型、对图像进行特征提取的图像特征提取模型。

在本发明实施例中，图像特征提取模型可以是Vision Transformer模型，能够完整保留并利用了图像的视觉信息，并且无需训练目标检测模型，有效提高图像视觉特征的表示效果和抽取速度。Vision Transformer首先对图像划分为N*N的相同大小区域，分别对每个区域图像进行特征抽取得到每个区域的表示向量Imgi，得到长度为N*N一维序列，并使用Transformer模型对序列编码得到图像的第一候选内容特征。

在一些示例中，可以使用BERT作为文本特征提取模型，BERT的网络架构使用的是多层Transformer结构，其最大的特点是抛弃了传统的RNN和CNN，通过Attention机制将任意位置的两个单词的距离转换成1，有效的解决了NLP中棘手的长期依赖问题。使用预训练的BERT模型对检索的文本进行编码，得到文本的第一候选内容特征。

505、服务器将各第一候选内容特征进行映射，得到第二候选内容特征共享的内容特征空间。

具体的，正则化处理可以是进行L1正则化、L2正则化等等。以使用L2正则化方式将不同的特征映射到同一内容特征空间为例，L2正则化方式如下式所示：

506、终端接收用户提交的待查询内容，将待查询内容发送给服务器。

507、服务器获取待查询内容，确定待查询内容的内容类型。

其中，待查询内容为在内容查询过程中用户所提供的内容。具体的，待查询内容的内容类型可以包括但不限于文本、图像、音频或视频等各种类型。

508、服务器通过内容类型对应的目标特征提取模型，对待查询内容进行特征提取，得到待查询内容的第一查询内容特征。

例如，当待查询内容为图像类型(即待查询内容为待查询图像)时，目标特征提取模型即为图像特征提取模型；当待查询内容为文本类型(即待查询内容为待查询文本)时，目标特征提取模型即为文本特征提取模型。

509、服务器将第一查询内容特征映射到多种类型内容共享的内容特征空间中，得到第二查询内容特征。

经过映射后，第一查询内容特征的特征维度与内容特征空间的空间维度相同。

510、服务器计算待查询内容特征与内容特征空间中第二候选内容特征的相似度。

511、服务器根据相似度，确定待查询内容对应的至少一个目标内容特征。

512、服务器从目标内容特征来源的候选内容中，确定待查询内容的查询结果。

为了更好地实施以上方法，相应的，本发明实施例还提供一种内容查询装置。

参考图6，该装置可以包括：

内容获取单元601，可以用于获取待查询内容，确定待查询内容的内容类型；

特征提取单元602，可以用于通过内容类型对应的目标特征提取模型，对待查询内容进行特征提取，得到待查询内容的第一查询内容特征；

特征映射单元603，可以用于将第一查询内容特征映射到多种类型内容共享的内容特征空间中，得到第二查询内容特征；

相似度计算单元604，可以用于计算待查询内容特征与内容特征空间中第二候选内容特征的相似度，第二候选内容特征所源于的内容类型有至少两种，第二候选内容特征对应的内容类型不同，则采用的特征提取模型不同；

特征确定单元605，可以用于根据相似度，确定待查询内容对应的至少一个目标内容特征；

查询结果确定单元606，可以用于从目标内容特征来源的候选内容中，确定待查询内容的查询结果。

在一些可选的实施例中，如图7所示，本发明实施例提供的内容查询装置，还可以包括空间构建单元607，如图8所示，空间构建单元607可以包括内容对获取单元6071、候选特征提取单元6072和候选特征映射单元6073；

内容对获取单元6071，可以用于获取至少一个候选内容对，同一个候选内容对中的候选内容之间的语义相同且内容类型不同；

候选特征提取单元6072，可以用于通过各内容类型对应的特征提取模型，分别对各候选内容进行特征提取，得到各候选内容的第一候选内容特征；

候选特征映射单元6073，可以用于将各第一候选内容特征进行映射，得到第二候选内容特征共享的内容特征空间，内容特征空间中，同一候选内容对对应的第二候选内容特征之间的相似度，大于不同候选内容对对应的第二候选内容特征之间的相似度。

在一些可选的实施例中，候选内容对中可以包括候选图像和候选文本，候选文本的文本语义与针对候选图像的图像语义相同；

对应的，候选特征提取单元6072，可以用于通过文本类型对应的文本特征提取模型，对各候选内容对中的候选文本进行特征提取，得到各候选文本的第一文本内容特征；

在一些可选的实施例中，图像特征提取模型可以包括区域特征提取层和序列特征编码层，候选特征提取单元6072，可以用于根据区域特征提取层的区域划分参数，将各候选图像分别划分为至少两个子区域；

在一些可选的实施例中，文本特征提取模型可以包括词嵌入模块和注意力映射模块，通过文本特征提取模型的词嵌入模块，对各候选内容对中的候选文本进行词嵌入处理，得到各候选文本的词嵌入特征；

在一些可选的实施例中，候选特征映射单元6073，可以用于将各第一候选内容特征进行正则化处理，得到各第一候选内容特征对应的第二候选内容特征；

在一些可选的实施例中，本发明实施例提供的内容查询装置，还可以包括模型训练单元608，可以用于获取至少两个训练内容对，同一个训练内容对中的训练内容之间的语义相同且内容类型不同；

在一些可选的实施例中，模型训练单元608，可以用于计算训练内容对中训练内容的第一训练内容特征之间的第一内容相似度；

计算负训练内容对中训练内容的第一训练内容特征之间的第二内容相似度；

在一些可选的实施例中，本发明实施例提供的内容查询装置，还可以包括候选相似度计算单元609，可以用于计算内容特征空间中，源于同一候选内容对的第二候选内容特征之间的候选相似度；

根据候选相似度，为各第二候选内容特征添加特征标识；

对应的，特征确定单元，可以用于根据相似度，确定待查询内容对应的至少一个第一目标内容特征；

在一些可选的实施例中，目标内容特征来源的候选内容源于目标候选内容对，目标候选内容对中的候选内容之间的语义相同且内容类型不同，本发明实施例提供的内容查询装置，还可以包括目标类型获取单元610，可以用于获取待查询内容对应的目标查询内容类型；

查询结果确定单元606，可以用于确定目标内容特征来源的候选内容的候选内容类型；

在一些可选的实施例中，本发明实施例提供的内容查询装置，还可以包括参考信息获取单元611，可以用于获取待查询内容的查询参考信息；

特征提取单元602，可以用于通过内容类型对应的目标特征提取模型，对待查询内容进行特征提取，得到待查询内容的查询内容特征；

由上可知，通过内容查询装置，可以获取待查询内容，确定待查询内容的内容类型，通过内容类型对应的目标特征提取模型，对待查询内容进行特征提取，得到待查询内容的第一查询内容特征，将第一查询内容特征映射到多种类型内容共享的内容特征空间中，得到第二查询内容特征，计算待查询内容特征与内容特征空间中第二候选内容特征的相似度，第二候选内容特征所源于的内容类型有至少两种，第二候选内容特征对应的内容类型不同，则采用的特征提取模型不同，根据相似度，确定待查询内容对应的至少一个目标内容特征，从目标内容特征来源的候选内容中，确定待查询内容的查询结果；由于在本发明实施例中，不同内容类型的候选内容共享同一内容特征空间，在进行内容查询时，将待查询内容映射到内容特征空间中，可以直接查询待查询内容对应的目标内容特征，因此，对于不同内容类型的内容无需分别构建数据库，只需不同内容类型的候选内容映射到同一内容特征空间中，可以降低数据标注成本，直接根据用户输入的内容得到相应的查询结果，提高查询效率和准确度。

此外，本发明实施例还提供一种电子设备，该电子设备可以为终端或者服务器等等，如图9所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括射频(RF，Radio Frequency)电路901、包括有一个或一个以上计算机可读存储介质的存储器902、输入单元903、显示单元904、传感器905、音频电路906、无线保真(WiFi，Wireless Fidelity)模块907、包括有一个或者一个以上处理核心的处理器908、以及电源909等部件。本领域技术人员可以理解，图9中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路901可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器908处理；另外，将涉及上行的数据发送给基站。通常，RF电路901包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber IdentityModule)卡、收发信机、耦合器、低噪声放大器(LNA，LowNoiseAmplifier)、双工器等。此外，RF电路901还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System ofMobile communication)、通用分组无线服务(GPRS，General PacketRadio Service)、码分多址(CDMA，Code Division MultipleAccess)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器902可用于存储软件程序以及模块，处理器908通过运行存储在存储器902的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器902可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器902可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器902还可以包括存储器控制器，以提供处理器908和输入单元903对存储器902的访问。

输入单元903可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元903可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器908，并能接收处理器908发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元903还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元904可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元904可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid CrystalDisplay)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器908以确定触摸事件的类型，随后处理器908根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图9中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

电子设备还可包括至少一种传感器905，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在电子设备移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于电子设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路906、扬声器，传声器可提供用户与电子设备之间的音频接口。音频电路906可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路906接收后转换为音频数据，再将音频数据输出处理器908处理后，经RF电路901以发送给比如另一电子设备，或者将音频数据输出至存储器902以便进一步处理。音频电路906还可能包括耳塞插孔，以提供外设耳机与电子设备的通信。

WiFi属于短距离无线传输技术，电子设备通过WiFi模块907可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块907，但是可以理解的是，其并不属于电子设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器908是电子设备的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器902内的软件程序和/或模块，以及调用存储在存储器902内的数据，执行电子设备的各种功能和处理数据。可选的，处理器908可包括一个或多个处理核心；优选的，处理器908可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器908中。

电子设备还包括给各个部件供电的电源909(比如电池)，优选的，电源可以通过电源管理系统与处理器908逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源909还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，电子设备还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，电子设备中的处理器908会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器902中，并由处理器908来运行存储在存储器902中的应用程序，从而实现各种功能，如下：

获取待查询内容，确定待查询内容的内容类型；

通过内容类型对应的目标特征提取模型，对待查询内容进行特征提取，得到待查询内容的第一查询内容特征；

将第一查询内容特征映射到多种类型内容共享的内容特征空间中，得到第二查询内容特征；

计算待查询内容特征与内容特征空间中第二候选内容特征的相似度，第二候选内容特征所源于的内容类型有至少两种，第二候选内容特征对应的内容类型不同，则采用的特征提取模型不同；

根据相似度，确定待查询内容对应的至少一个目标内容特征；

从目标内容特征来源的候选内容中，确定待查询内容的查询结果。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种内容查询方法中的步骤。例如，该指令可以执行如下步骤：

获取待查询内容，确定待查询内容的内容类型；

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本发明实施例所提供的任一种内容查询方法中的步骤，因此，可以实现本发明实施例所提供的任一种内容查询方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

根据本申请的一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述实施例中的各种可选实现方式中提供的方法。

以上对本发明实施例所提供的内容查询方法、装置、电子设备、存储介质和程序产品进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种内容查询方法，其特征在于，包括：

获取待查询内容，确定所述待查询内容的内容类型；

2.根据权利要求1所述的内容查询方法，其特征在于，所述将所述第一查询内容特征映射到多种类型内容共享的内容特征空间中之前，所述方法还包括：

获取至少一个候选内容对，同一个所述候选内容对中的候选内容之间的语义相同且内容类型不同；

通过各所述内容类型对应的特征提取模型，分别对各所述候选内容进行特征提取，得到各所述候选内容的第一候选内容特征；

将各所述第一候选内容特征进行映射，得到第二候选内容特征共享的内容特征空间，所述内容特征空间中，同一所述候选内容对对应的第二候选内容特征之间的相似度，大于不同候选内容对对应的第二候选内容特征之间的相似度。

3.根据权利要求2所述的内容查询方法，其特征在于，所述候选内容对中包括候选图像和候选文本，所述候选文本的文本语义与针对所述候选图像的图像语义相同；

所述通过各所述内容类型对应的特征提取模型，分别对各所述候选内容进行特征提取，得到各所述候选内容的第一候选内容特征，包括：

通过文本类型对应的文本特征提取模型，对各所述候选内容对中的候选文本进行特征提取，得到各所述候选文本的第一文本内容特征；

4.根据权利要求3所述的内容查询方法，其特征在于，所述图像特征提取模型包括区域特征提取层和序列特征编码层；

所述通过图像类型对应的图像特征提取模型，对各所述候选内容对中的候选图像进行特征提取，得到各所述候选图像的第一图像内容特征，包括：

根据所述区域特征提取层的区域划分参数，将各所述候选图像分别划分为至少两个子区域；

5.根据权利要求3所述的内容查询方法，其特征在于，所述文本特征提取模型包括词嵌入模块和注意力映射模块；

所述通过文本类型对应的文本特征提取模型，对各所述候选内容对中的候选文本进行特征提取，得到各所述候选文本的第一文本内容特征，包括：

通过文本特征提取模型的词嵌入模块，对各所述候选内容对中的候选文本进行词嵌入处理，得到各所述候选文本的词嵌入特征；

6.根据权利要求2所述的内容查询方法，其特征在于，所述将各所述第一候选内容特征进行映射，得到第二候选内容特征共享的内容特征空间，包括：

将各所述第一候选内容特征进行正则化处理，得到各所述第一候选内容特征对应的第二候选内容特征；

7.根据权利要求1所述的内容查询方法，其特征在于，所述方法还包括：

获取至少两个训练内容对，同一个所述训练内容对中的训练内容之间的语义相同且内容类型不同；

8.根据权利要求7所述的内容查询方法，其特征在于，所述基于各所述训练内容的第一训练内容特征，对各所述待训练的特征提取模型的参数进行调整，得到训练后的特征提取模型，包括：

基于各所述训练内容的第一训练内容特征进行特征映射，得到各所述训练内容的第二候选内容特征，各所述第二候选内容特征共享内容特征空间；

9.根据权利要求2所述的内容查询方法，其特征在于，所述方法还包括：

计算所述内容特征空间中，源于同一所述候选内容对的第二候选内容特征之间的候选相似度；

所述根据所述相似度，确定所述待查询内容对应的至少一个目标内容特征，包括：

根据所述相似度，确定所述待查询内容对应的至少一个第一目标内容特征；

10.根据权利要求1所述的内容查询方法，其特征在于，所述目标内容特征来源的候选内容源于目标候选内容对，所述目标候选内容对中的候选内容之间的语义相同且内容类型不同；

所述从所述目标内容特征来源的候选内容中，确定所述待查询内容的查询结果之前，所述方法还包括：

获取所述待查询内容对应的目标查询内容类型；

所述从所述目标内容特征来源的候选内容中，确定所述待查询内容的查询结果，包括：

确定所述目标内容特征来源的候选内容的候选内容类型；

11.根据权利要求1所述的内容查询方法，其特征在于，所述获取待查询内容之后，还包括：

获取所述待查询内容的查询参考信息；

所述通过所述内容类型对应的目标特征提取模型，对所述待查询内容进行特征提取，得到所述待查询内容的第一查询内容特征，包括：

通过所述内容类型对应的目标特征提取模型，对所述待查询内容进行特征提取，得到所述待查询内容的查询内容特征；

12.一种内容查询装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至11任一项所述的内容查询方法中的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至11任一项所述的内容查询方法中的步骤。

15.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时实现如权利要求1至11中任一项所述的内容查询方法的步骤。