CN113435206A

CN113435206A - 一种图文检索方法、装置和电子设备

Info

Publication number: CN113435206A
Application number: CN202110578468.9A
Authority: CN
Inventors: 李涵
Original assignee: Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Current assignee: Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2021-09-24
Anticipated expiration: 2041-05-26
Also published as: CN113435206B

Abstract

本发明提供了一种图文检索方法、装置和电子设备，其中，该方法包括：获取检索指令，检索指令中携带有检索条件；将检索条件分别映射到语义空间和转换语义空间中，分别得到检索条件在语义空间的第一向量和检索条件在转换语义空间的第二向量；对第一向量和第二向量进行处理，得到检索条件的检索结果。通过本发明实施例提供的图文检索方法、装置和电子设备，可以得到与检索条件相似度高的检索结果，提高了图文检索的准确度。

Description

一种图文检索方法、装置和电子设备

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种图文检索方法、装置和电子设备。

背景技术

目前，图文检索方法中，目标函数包括分类任务和融合任务。由于各个模态的特征空间需要在完成分类的同时，还要考虑其它模态的函数分布，因此会导致最终学习出来的特征空间出现精度损失和无法拟合函数分布的情况，影响跨模态检索结果。

发明内容

为解决上述问题，本发明实施例的目的在于提供一种图文检索方法、装置和电子设备。

第一方面，本发明实施例提供了一种图文检索方法，包括：

获取检索指令，所述检索指令中携带有检索条件；

将所述检索条件分别映射到语义空间和转换语义空间中，分别得到所述检索条件在语义空间的第一向量和所述检索条件在转换语义空间的第二向量；

对所述第一向量和所述第二向量进行处理，得到所述检索条件的检索结果。

第二方面，本发明实施例还提供了一种图文检索装置，包括：

获取模块，用于获取检索指令，所述检索指令中携带有检索条件；

映射模块，用于将所述检索条件分别映射到语义空间和转换语义空间中，分别得到所述检索条件在语义空间的第一向量和所述检索条件在转换语义空间的第二向量；

处理模块，用于对所述第一向量和所述第二向量进行处理，得到所述检索条件的检索结果。

第三方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面所述的方法的步骤。

第四方面，本发明实施例还提供了一种电子设备，所述电子设备包括有存储器，处理器以及一个或者一个以上的程序，其中所述一个或者一个以上程序存储于所述存储器中，且经配置以由所述处理器执行上述第一方面所述的方法的步骤。

本发明实施例上述第一方面至第四方面提供的方案中，在获取到检索指令时，将检索指令中的检索条件分别映射到语义空间和转换语义空间中，分别得到所述检索条件在语义空间的第一向量和所述检索条件在转换语义空间的第二向量；从而根据得到的第一向量和第二向量进行处理，得到检索条件的检索结果，与相关技术中图文检索时，目标函数需要执行多任务的方式相比，利用所述检索条件在语义空间的第一向量和所述检索条件在转换语义空间的第二向量，就可以得到与检索条件相似度高的检索结果，提高了图文检索的准确度。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的一种图文检索方法、装置和电子设备中，从语义通过训练得到真实语义空间的示意图；

图2示出了本发明实施例1所提供的图文检索方法的流程图；

图3示出了本发明实施例2所提供的一种图文检索装置的结构示意图；

图4示出了本发明实施例3所提供的一种电子设备的结构示意图。

具体实施方式

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、 “长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、 “连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

基于此，本申请各实施例提出一种图文检索方法、装置和电子设备，在获取到检索指令时，将检索指令中的检索条件分别映射到语义空间和转换语义空间中，分别得到所述检索条件在语义空间的第一向量和所述检索条件在转换语义空间的第二向量；从而根据得到的第一向量和第二向量进行处理，得到检索条件的检索结果，与相关技术中图文检索时，目标函数需要执行多任务的方式相比，利用所述检索条件在语义空间的第一向量和所述检索条件在转换语义空间的第二向量，就可以得到与检索条件相似度高的检索结果，提高了图文检索的准确度。

在本申请各实施例，为了实现图文检索方法、装置和电子设备中描述的过程，需要预先构建语义空间和转换语义空间。

在本申请以下各实施例中，术语“语义空间”与术语“真实语义空间” 的含义相同。

在本申请各实施例中，模态就是指：图像或者文字。

其中，所述语义空间，包括：图像语义空间和文本语义空间；所述转换语义空间，包括：图像转换语义空间和文本转换语义空间。

首先，需要构建真实语义空间，即在识别单模态标签上具有很好的效果的完备语义空间。然后构建转换语义空间，转换语义空间是两种模态真实语义空间的桥梁，具有自身模态的语义和待检索模态的函数分布。在检索时，两个模态分别将该模态的转换空间特征和另一种模态的真实空间特征相比较，计算相似度，综合结果，完成检索。

其中，单模态标签就是指某一个特定模态上的语义标签。

所述特定模态，可以是：图像或者文字。

所述完备语义空间，是一个向量空间，而且在这个空间中能对模态标签很好的分类。

所述转换语义空间，是在真实语义空间的基础上构建的，用于跨模态检索的空间。能够在不影响语义的情况下，将一个模态的特征表达成为另一个模态。

所述跨模态检索，就是指利用图像作为检索条件，对图像中的物体的语义表达的文字进行检索的过程；或者，指利用文字作为检索条件，对文字描述的物体的图像进行检索的过程。

所述模态真实语义空间，在识别单模态标签上具有很好的效果的完备语义空间。

模态的语义，就是该模态的媒体数据具象后的物体的语义表达。比如说图像里面可能包含着“蓝天、白云、草坪、房屋”等物体，这些就是图像中物体的语义表达。这样所有图像的语义表达放在一起，就构成了图像语义空间。

所述待检索模态，如用图像检索文字，那么文字就是待检索的模态；如用文字检索图像，那么图像就是待检索的模态。

所述转换空间特征，就是转换语义空间中的特征向量。将一个模态的样本数据的特征映射到转换语义空间就得到了转换空间特征。

所述真实空间特征，就是真实语义空间中的特征向量。将一个模态的样本数据的特征映射到真实语义空间就得到了真实空间特征。

构建真实语义空间的过程：真实语义空间结合了标签预测和结构保存。标签预测是真实语义空间的主要功能，即对每种模态，给定语义标签，在真实语义空间中确保能够被区分。结构保存过程意味着在完成识别模态语义的情况下，能将其抽取出来用于生成转换语义空间。真实语义空间的目的是保证在学习模态内特征时不受其它模态的影响，提高自身的语义分类精度。

为了确保特征投影之后保留模态内区分，使用分类器来预测真实语义空间中投影的语义标签。因此，在每个模态的真实语义空间的顶部都添加一个softmax的前馈神经网络。

所述特征投影，是指样本映射到语义空间的过程。

所述模态内区分，就是该模态的语义空间,能够对不同语义进行区分。比如输入了2张图像，能够区分出第一张图像是“猫、狗，人”这些语义表达，而第二张图像表达的是“足球、草坪”这些语义表达。这些语义表达，也可以称作第一张图像和第二张图像在语义空间中投影的语义标签。

(1)对于图像语义空间，分类器将图像的样本O_i作为训练样本，则分类器的损失函数如下：

其中，L_{cla_v}表示所有图像实例O_i，i＝1,...,n的语义类别的交叉熵损失，θ_v表示分类器的参数，n是每个小批(mini-batch)中的样本数，y_i是每个样本的标注正确的标签，而

是样本O_i的每次迭代的生成概率分布，v_i表示图像样本的特征向量。

另外，由于数据集较小，引入下述正则化项，防止学习到的参数过拟合：

其中F代表着Frobenius正则，

代表着神经网络的各层参数，L_{reg_v}代表着图像模型的正则项损失函数，L代表神经网络的层数，1代表[1，L]的任意数值，上述L_{reg_v}的公式表达的意思是从第1层到第L层，每一层的参数的 Frobenius正则结果求和。

最终生成图像语义空间的损失函数为：

L_v＝L_{cla_v}+L_{reg_v}

(2)同理，对于文本语义空间，该分类器将文本的样本O_t作为训练样本，则分类器的损失函数如下：

其中，L_{cla_t}表示所有文本实例O_t，i＝1,...,n的语义类别的交叉熵损失，θ_t表示分类器的参数，n是每个小批(mini-batch)中的样本数，y_i是每个样本的标注正确的标签，而

是样本O_t的每次迭代的生成概率分布，t_i表示文本样本的特征向量。

其中F代表着Frobenius正则，

代表着神经网络的各层参数，L_{reg_t}代表着文本模型的正则项损失函数。L代表神经网络的层数，1代表[1，L]的任意数值，上述L_{reg_t}的公式表达的意思是从第1层到第L层，每一层的参数的 Frobenius正则结果求和。

最终生成文本真实语义空间的损失函数为：

L_t＝L_{cla_t}+L_{reg_t}

如图1所示，左侧语义为[1,2,3,4]某个模态数据，通过训练，得到右侧真实语义空间，在该空间中媒体信息能得到正确分类，且不会受到其它目标函数影响，损失分类精确度。

其中，在左侧的空间中，不同语义的样本数据是混在一起无法区分的；而在右侧的空间中，相同语义的样本数据聚集在一起。不同语义的相隔较远。

然后，构建转换语义空间，用于检索的转换语义空间，分担真实语义空间的融合任务。如图3所示，转换语义空间从真实语义空间网络的最后一层4096的全连接层接入，通过3层LSTM进行得到。LSTM 的隐藏层有8个存储块(time steps)，存储块的维度是512，为了加速训练，在隐藏层之间使用层归一化(Layer normalization,LN)。在训练完图像转换语义空间和文本转换语义空间后，固定其参数。然后再训练上述结构中的参数，就可以得到转换语义空间。

待检索模态的转换语义空间应尽量和目标模态的真实语义空间服从同一分布。用三元组损失函数训练图像和文本的转换空间。对于图像转换语义空间：

l_v2t＝||f_v(v；θ_v2)-f_t(t；θ_t)||

其中，l_v2t代表着提前标注好的图像-文本对中，图像在转换空间中的映射f_v(v；θ_v2)与文本在真实空间的映射f_t(t；θ_t)的欧氏距离，

代表与vi语义相关的文本特征向量；

代表与vi语义无关的文本特征向量；λ和μ是设置的参数；θ_v2为图像转换语义空间分类器参数；θ_t为文本真实语义空间分类器参数。

映射之间的欧氏距离的计算过程如下：在空间中的映射结果是一个向量，计算欧氏距离就是求两个向量之间的欧氏距离。

对于文本转换语义空间：

l_t2v＝||f_t(t；θ_t2)-f_v(v；θ_v)||

其中，l_t2v代表着提前标注好的图像-文本对中，文本在转换空间中的映射f_t(t；θ_t2)与图像在真实空间的映射f_v(v；θ_v)的欧氏距离，

代表与 ti语义相关的图像特征向量；

代表与ti语义无关的文本特征向量；λ 和μ是设置的参数；θ_t2为文本转换语义空间分类器参数；θ_v为图像真实语义空间分类器参数。

转换语义空间和真实语义空间的关系和区别。真实语义空间保留着特征提取阶段的丰富语义，转换语义空间则将两个真实空间的对齐语义抽取出来，并学习出带检索模态的函数分布。例如，图像转换空间的函数分布与文本真实空间相同，文本转换空间的函数分布与图像真实空间相同。

在通过以上内容对构建语义空间和转换语义空间的构建完成后，可以他通过以下各实施例对图文检索方法、装置和电子设备的内容进行描述。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请做进一步详细的说明。

实施例1

本实施提出的图文检索方法的执行主体是服务器。

参见图2所示的一种图文检索方法的流程图，本实施例提出的图文检索方法，包括以下具体步骤：

步骤100、获取检索指令，所述检索指令中携带有检索条件。

其中，所述检索条件，包括：图像信息和文本信息。

步骤102、将所述检索条件分别映射到语义空间和转换语义空间中，分别得到所述检索条件在语义空间的第一向量和所述检索条件在转换语义空间的第二向量。

在上述步骤102中，将所述检索条件分别映射到语义空间和转换语义空间中，得到所述检索条件在语义空间的第一向量和所述检索条件在转换语义空间的第二向量的具体过程是现有技术，这里不再赘述。

当所述检索条件为图像信息时，服务器可以确定所述第一向量是图像语义空间对所述检索条件的特征进行映射后得到的，并确定所述第二向量是图像转换语义空间对所述检索条件的特征进行映射后得到的。

当所述检索条件为文本信息时，服务器可以确定所述第一向量是文本语义空间对所述检索条件的特征进行映射后得到的，并确定所述第二向量是文本转换语义空间对所述检索条件的特征进行映射后得到的。

步骤104、对所述第一向量和所述第二向量进行处理，得到所述检索条件的检索结果。

在上述步骤104中，当所述检索条件为图像信息时，对所述第一向量和所述第二向量进行处理，得到所述检索条件的检索结果，包括以下步骤(1)至步骤(6)：

(1)当所述检索条件为图像信息时，确定所述第一向量是图像语义空间对所述检索条件的特征进行映射后得到的，并确定所述第二向量是图像转换语义空间对所述检索条件的特征进行映射后得到的；

(2)计算所述第一向量分别与所述文本转换语义空间中各向量的距离；

(3)从所述文本转换语义空间的各向量中选择与所述第一向量的距离小于距离阈值的向量作为第一候选向量；

(4)计算所述第二向量分别与所述文本语义空间中各向量的距离；

(5)从所述文本语义空间的各向量中选择与所述第二向量的距离小于距离阈值的向量作为第二候选向量；

(6)对所述第一候选向量和所述第二候选向量进行处理，得到所述检索条件的检索结果。

在上述步骤(2)中，计算所述第一向量分别与所述文本转换语义空间中各向量的距离是欧氏距离。而计算向量间的欧氏距离的过程是现有技术，这里不再赘述。

当所述检索条件为文本信息时，对所述第一向量和所述第二向量进行处理，得到所述检索条件的检索结果，还包括以下步骤(11)至步骤(16)：

(11)当所述检索条件为文本信息时，确定所述第一向量是文本语义空间对所述检索条件的特征进行映射后得到的，并确定所述第二向量是文本转换语义空间对所述检索条件的特征进行映射后得到的；

(12)计算所述第一向量分别与所述图像转换语义空间中各向量的距离；

(13)从所述图像转换语义空间的各向量中选择与所述第一向量的距离小于距离阈值的向量作为第一候选向量；

(14)计算所述第二向量分别与所述图像语义空间中各向量的距离；

(15)从所述图像语义空间的各向量中选择与所述第二向量的距离小于距离阈值的向量作为第二候选向量；

(16)对所述第一候选向量和所述第二候选向量进行处理，得到所述检索条件的检索结果。

在上述步骤(6)和上述步骤(16)中，为了得到所述检索条件的检索结果，可以执行以下步骤(61)至步骤(64)：

(61)将所述第一候选向量和所述第二候选向量合并，得到所述检索条件的候选向量集合；

(62)计算所述候选向量集合中各向量和所述第一向量的距离与所述候选向量集合中各向量和所述第二向量的距离的平均距离值；

(63)当所述检索条件为图像信息时，从所述候选向量集合中的各向量中选择所述平均距离值较小的多个向量对应的文本信息作为所述检索条件的检索结果；

(64)当所述检索条件为文本信息时，从所述候选向量集合中的各向量中选择所述平均距离值较小的多个向量对应的图像信息作为所述检索条件的检索结果。

通过以上的内容可以看出：对图像和文字分别构建了在模态内具有完备语义空间的真实语义空间和在模态间相同特征分布的转换语义空间。在检索时，一种模态的转换空间特征和另一种模态的真实空间特征相比较，计算相似度，完成检索并反馈检索结果。避免了图文检索时，目标函数需要执行多任务导致精度下降的问题，提高了图文检索的准确度。

综上所述，本实施例提出一种图文检索方法，在获取到检索指令时，将检索指令中的检索条件分别映射到语义空间和转换语义空间中，分别得到所述检索条件在语义空间的第一向量和所述检索条件在转换语义空间的第二向量；从而根据得到的第一向量和第二向量进行处理，得到检索条件的检索结果，与相关技术中图文检索时，目标函数需要执行多任务的方式相比，利用所述检索条件在语义空间的第一向量和所述检索条件在转换语义空间的第二向量，就可以得到与检索条件相似度高的检索结果，提高了图文检索的准确度。

实施例2

本实施例提出一种图文检索装置，用于执行上述实施例1提出的图文检索方法。

参见图3所示的一种图文检索装置的结构示意图，本实施例提出一种图文检索装置，包括：

获取模块200，用于获取检索指令，所述检索指令中携带有检索条件；

映射模块202，用于将所述检索条件分别映射到语义空间和转换语义空间中，分别得到所述检索条件在语义空间的第一向量和所述检索条件在转换语义空间的第二向量；

处理模块204，用于对所述第一向量和所述第二向量进行处理，得到所述检索条件的检索结果。

所述检索条件，包括：图像信息和文本信息；所述语义空间，包括：图像语义空间和文本语义空间；所述转换语义空间，包括：图像转换语义空间和文本转换语义空间。

具体地，所述处理模块204，具体用于：

当所述检索条件为图像信息时，确定所述第一向量是图像语义空间对所述检索条件的特征进行映射后得到的，并确定所述第二向量是图像转换语义空间对所述检索条件的特征进行映射后得到的；

计算所述第一向量分别与所述文本转换语义空间中各向量的距离；

从所述文本转换语义空间的各向量中选择与所述第一向量的距离小于距离阈值的向量作为第一候选向量；

计算所述第二向量分别与所述文本语义空间中各向量的距离；

从所述文本语义空间的各向量中选择与所述第二向量的距离小于距离阈值的向量作为第二候选向量；

对所述第一候选向量和所述第二候选向量进行处理，得到所述检索条件的检索结果。

进一步地，所述处理模块204，还具体用于：

当所述检索条件为文本信息时，确定所述第一向量是文本语义空间对所述检索条件的特征进行映射后得到的，并确定所述第二向量是文本转换语义空间对所述检索条件的特征进行映射后得到的；

计算所述第一向量分别与所述图像转换语义空间中各向量的距离；

从所述图像转换语义空间的各向量中选择与所述第一向量的距离小于距离阈值的向量作为第一候选向量；

计算所述第二向量分别与所述图像语义空间中各向量的距离；

从所述图像语义空间的各向量中选择与所述第二向量的距离小于距离阈值的向量作为第二候选向量；

具体地，所述处理模块204，用于对所述第一候选向量和所述第二候选向量进行处理，得到所述检索条件的检索结果，包括：

将所述第一候选向量和所述第二候选向量合并，得到所述检索条件的候选向量集合；

计算所述候选向量集合中各向量和所述第一向量的距离与所述候选向量集合中各向量和所述第二向量的距离的平均距离值；

当所述检索条件为图像信息时，从所述候选向量集合中的各向量中选择所述平均距离值较小的多个向量对应的文本信息作为所述检索条件的检索结果；

当所述检索条件为文本信息时，从所述候选向量集合中的各向量中选择所述平均距离值较小的多个向量对应的图像信息作为所述检索条件的检索结果。

综上所述，本实施例提出一种图文检索装置，在获取到检索指令时，将检索指令中的检索条件分别映射到语义空间和转换语义空间中，分别得到所述检索条件在语义空间的第一向量和所述检索条件在转换语义空间的第二向量；从而根据得到的第一向量和第二向量进行处理，得到检索条件的检索结果，与相关技术中图文检索时，目标函数需要执行多任务的方式相比，利用所述检索条件在语义空间的第一向量和所述检索条件在转换语义空间的第二向量，就可以得到与检索条件相似度高的检索结果，提高了图文检索的准确度。

实施例3

本实施例提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述实施例1描述的图文检索方法的步骤。具体实现可参见方法实施例1，在此不再赘述。

此外，参见图4所示的一种电子设备的结构示意图，本实施例还提出一种电子设备，上述电子设备包括总线51、处理器52、收发机 53、总线接口54、存储器55和用户接口56。上述电子设备包括有存储器55。

本实施例中，上述电子设备还包括：存储在存储器55上并可在处理器52上运行的一个或者一个以上的程序，经配置以由上述处理器执行上述一个或者一个以上程序用于进行以下步骤(1)至步骤(3)：

(1)获取检索指令，所述检索指令中携带有检索条件；

(2)将所述检索条件分别映射到语义空间和转换语义空间中，分别得到所述检索条件在语义空间的第一向量和所述检索条件在转换语义空间的第二向量；

(3)对所述第一向量和所述第二向量进行处理，得到所述检索条件的检索结果。

收发机53，用于在处理器52的控制下接收和发送数据。

其中，总线架构(用总线51来代表)，总线51可以包括任意数量的互联的总线和桥，总线51将包括由处理器52代表的一个或多个处理器和存储器55代表的存储器的各种电路链接在一起。总线51还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本实施例不再对其进行进一步描述。总线接口54在总线51和收发机53之间提供接口。收发机53可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。例如：收发机53 从其他设备接收外部数据。收发机53用于将处理器52处理后的数据发送给其他设备。取决于计算系统的性质，还可以提供用户接口56，例如小键盘、显示器、扬声器、麦克风、操纵杆。

处理器52负责管理总线51和通常的处理，如前述上述运行通用操作系统。而存储器55可以被用于存储处理器52在执行操作时所使用的数据。

可选的，处理器52可以是但不限于：中央处理器、单片机、微处理器或者可编程逻辑器件。

可以理解，本发明实施例中的存储器55可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器 (Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器 (Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM， DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleData Rate SDRAM， DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM， SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM， DRRAM)。本实施例描述的系统和方法的存储器55旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器55存储了如下的元素，可执行模块或者数据结构，或者它们的子集，或者它们的扩展集：操作系统551和应用程序552。

其中，操作系统551，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序552，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序552中。

综上所述，本实施例提出一种计算机可读存储介质和电子设备，在获取到检索指令时，将检索指令中的检索条件分别映射到语义空间和转换语义空间中，分别得到所述检索条件在语义空间的第一向量和所述检索条件在转换语义空间的第二向量；从而根据得到的第一向量和第二向量进行处理，得到检索条件的检索结果，与相关技术中图文检索时，目标函数需要执行多任务的方式相比，利用所述检索条件在语义空间的第一向量和所述检索条件在转换语义空间的第二向量，就可以得到与检索条件相似度高的检索结果，提高了图文检索的准确度。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图文检索方法，其特征在于，包括：

获取检索指令，所述检索指令中携带有检索条件；

2.根据权利要求1所述的方法，其特征在于，所述检索条件，包括：图像信息和文本信息；所述语义空间，包括：图像语义空间和文本语义空间；所述转换语义空间，包括：图像转换语义空间和文本转换语义空间；

对所述第一向量和所述第二向量进行处理，得到所述检索条件的检索结果，包括：

3.根据权利要求2所述的方法，其特征在于，对所述第一向量和所述第二向量进行处理，得到所述检索条件的检索结果，还包括：

4.根据权利要求2或者3所述的方法，其特征在于，对所述第一候选向量和所述第二候选向量进行处理，得到所述检索条件的检索结果，包括：

5.一种图文检索装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述检索条件，包括：图像信息和文本信息；所述语义空间，包括：图像语义空间和文本语义空间；所述转换语义空间，包括：图像转换语义空间和文本转换语义空间；

所述处理模块，具体用于：

7.根据权利要求6所述的装置，其特征在于，所述处理模块，还具体用于：

8.根据权利要求6或者7所述的装置，其特征在于，所述处理模块，用于对所述第一候选向量和所述第二候选向量进行处理，得到所述检索条件的检索结果，包括：

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1-4任一项所述的方法的步骤。

10.一种电子设备，其特征在于，所述电子设备包括有存储器，处理器以及一个或者一个以上的程序，其中所述一个或者一个以上程序存储于所述存储器中，且经配置以由所述处理器执行权利要求1-4任一项所述的方法的步骤。