CN113435206A - 一种图文检索方法、装置和电子设备 - Google Patents

一种图文检索方法、装置和电子设备 Download PDF

Info

Publication number
CN113435206A
CN113435206A CN202110578468.9A CN202110578468A CN113435206A CN 113435206 A CN113435206 A CN 113435206A CN 202110578468 A CN202110578468 A CN 202110578468A CN 113435206 A CN113435206 A CN 113435206A
Authority
CN
China
Prior art keywords
vector
semantic space
retrieval
text
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110578468.9A
Other languages
English (en)
Other versions
CN113435206B (zh
Inventor
李涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Original Assignee
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuo Erzhi Lian Wuhan Research Institute Co Ltd filed Critical Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority to CN202110578468.9A priority Critical patent/CN113435206B/zh
Publication of CN113435206A publication Critical patent/CN113435206A/zh
Application granted granted Critical
Publication of CN113435206B publication Critical patent/CN113435206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种图文检索方法、装置和电子设备,其中,该方法包括:获取检索指令,检索指令中携带有检索条件;将检索条件分别映射到语义空间和转换语义空间中,分别得到检索条件在语义空间的第一向量和检索条件在转换语义空间的第二向量;对第一向量和第二向量进行处理,得到检索条件的检索结果。通过本发明实施例提供的图文检索方法、装置和电子设备,可以得到与检索条件相似度高的检索结果,提高了图文检索的准确度。

Description

一种图文检索方法、装置和电子设备
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种图文检索方法、 装置和电子设备。
背景技术
目前,图文检索方法中,目标函数包括分类任务和融合任务。由 于各个模态的特征空间需要在完成分类的同时,还要考虑其它模态的 函数分布,因此会导致最终学习出来的特征空间出现精度损失和无法 拟合函数分布的情况,影响跨模态检索结果。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种图文检索方 法、装置和电子设备。
第一方面,本发明实施例提供了一种图文检索方法,包括:
获取检索指令,所述检索指令中携带有检索条件;
将所述检索条件分别映射到语义空间和转换语义空间中,分别得 到所述检索条件在语义空间的第一向量和所述检索条件在转换语义空 间的第二向量;
对所述第一向量和所述第二向量进行处理,得到所述检索条件的 检索结果。
第二方面,本发明实施例还提供了一种图文检索装置,包括:
获取模块,用于获取检索指令,所述检索指令中携带有检索条件;
映射模块,用于将所述检索条件分别映射到语义空间和转换语义 空间中,分别得到所述检索条件在语义空间的第一向量和所述检索条 件在转换语义空间的第二向量;
处理模块,用于对所述第一向量和所述第二向量进行处理,得到 所述检索条件的检索结果。
第三方面,本发明实施例还提供了一种计算机可读存储介质,所 述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理 器运行时执行上述第一方面所述的方法的步骤。
第四方面,本发明实施例还提供了一种电子设备,所述电子设备 包括有存储器,处理器以及一个或者一个以上的程序,其中所述一个 或者一个以上程序存储于所述存储器中,且经配置以由所述处理器执 行上述第一方面所述的方法的步骤。
本发明实施例上述第一方面至第四方面提供的方案中,在获取到 检索指令时,将检索指令中的检索条件分别映射到语义空间和转换语 义空间中,分别得到所述检索条件在语义空间的第一向量和所述检索 条件在转换语义空间的第二向量;从而根据得到的第一向量和第二向 量进行处理,得到检索条件的检索结果,与相关技术中图文检索时, 目标函数需要执行多任务的方式相比,利用所述检索条件在语义空间 的第一向量和所述检索条件在转换语义空间的第二向量,就可以得到 与检索条件相似度高的检索结果,提高了图文检索的准确度。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较 佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面 将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而 易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域 普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些 附图获得其他的附图。
图1示出了本发明实施例所提供的一种图文检索方法、装置和电 子设备中,从语义通过训练得到真实语义空间的示意图;
图2示出了本发明实施例1所提供的图文检索方法的流程图;
图3示出了本发明实施例2所提供的一种图文检索装置的结构示 意图;
图4示出了本发明实施例3所提供的一种电子设备的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、 “长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖 直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的 方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描 述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有 特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的 限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示 或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限 定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个 该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非 另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、 “连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可 以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接; 可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内 部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解 上述术语在本发明中的具体含义。
目前,图文检索方法中,目标函数包括分类任务和融合任务。由 于各个模态的特征空间需要在完成分类的同时,还要考虑其它模态的 函数分布,因此会导致最终学习出来的特征空间出现精度损失和无法 拟合函数分布的情况,影响跨模态检索结果。
基于此,本申请各实施例提出一种图文检索方法、装置和电子设 备,在获取到检索指令时,将检索指令中的检索条件分别映射到语义 空间和转换语义空间中,分别得到所述检索条件在语义空间的第一向 量和所述检索条件在转换语义空间的第二向量;从而根据得到的第一 向量和第二向量进行处理,得到检索条件的检索结果,与相关技术中 图文检索时,目标函数需要执行多任务的方式相比,利用所述检索条 件在语义空间的第一向量和所述检索条件在转换语义空间的第二向量, 就可以得到与检索条件相似度高的检索结果,提高了图文检索的准确 度。
在本申请各实施例,为了实现图文检索方法、装置和电子设备中 描述的过程,需要预先构建语义空间和转换语义空间。
在本申请以下各实施例中,术语“语义空间”与术语“真实语义空间” 的含义相同。
在本申请各实施例中,模态就是指:图像或者文字。
其中,所述语义空间,包括:图像语义空间和文本语义空间;所 述转换语义空间,包括:图像转换语义空间和文本转换语义空间。
首先,需要构建真实语义空间,即在识别单模态标签上具有很好 的效果的完备语义空间。然后构建转换语义空间,转换语义空间是两 种模态真实语义空间的桥梁,具有自身模态的语义和待检索模态的函 数分布。在检索时,两个模态分别将该模态的转换空间特征和另一种 模态的真实空间特征相比较,计算相似度,综合结果,完成检索。
其中,单模态标签就是指某一个特定模态上的语义标签。
所述特定模态,可以是:图像或者文字。
所述完备语义空间,是一个向量空间,而且在这个空间中能对模 态标签很好的分类。
所述转换语义空间,是在真实语义空间的基础上构建的,用于跨 模态检索的空间。能够在不影响语义的情况下,将一个模态的特征表 达成为另一个模态。
所述跨模态检索,就是指利用图像作为检索条件,对图像中的物 体的语义表达的文字进行检索的过程;或者,指利用文字作为检索条 件,对文字描述的物体的图像进行检索的过程。
所述模态真实语义空间,在识别单模态标签上具有很好的效果的 完备语义空间。
模态的语义,就是该模态的媒体数据具象后的物体的语义表达。 比如说图像里面可能包含着“蓝天、白云、草坪、房屋”等物体,这些 就是图像中物体的语义表达。这样所有图像的语义表达放在一起,就 构成了图像语义空间。
所述待检索模态,如用图像检索文字,那么文字就是待检索的模 态;如用文字检索图像,那么图像就是待检索的模态。
所述转换空间特征,就是转换语义空间中的特征向量。将一个模 态的样本数据的特征映射到转换语义空间就得到了转换空间特征。
所述真实空间特征,就是真实语义空间中的特征向量。将一个模 态的样本数据的特征映射到真实语义空间就得到了真实空间特征。
构建真实语义空间的过程:真实语义空间结合了标签预测和结构 保存。标签预测是真实语义空间的主要功能,即对每种模态,给定语 义标签,在真实语义空间中确保能够被区分。结构保存过程意味着在 完成识别模态语义的情况下,能将其抽取出来用于生成转换语义空间。 真实语义空间的目的是保证在学习模态内特征时不受其它模态的影响, 提高自身的语义分类精度。
为了确保特征投影之后保留模态内区分,使用分类器来预测真实 语义空间中投影的语义标签。因此,在每个模态的真实语义空间的顶 部都添加一个softmax的前馈神经网络。
所述特征投影,是指样本映射到语义空间的过程。
所述模态内区分,就是该模态的语义空间,能够对不同语义进行区 分。比如输入了2张图像,能够区分出第一张图像是“猫、狗,人”这 些语义表达,而第二张图像表达的是“足球、草坪”这些语义表达。这 些语义表达,也可以称作第一张图像和第二张图像在语义空间中投影 的语义标签。
(1)对于图像语义空间,分类器将图像的样本Oi作为训练样本, 则分类器的损失函数如下:
Figure BDA0003085160940000061
其中,Lcla_v表示所有图像实例Oi,i=1,...,n的语义类别的交叉熵损 失,θv表示分类器的参数,n是每个小批(mini-batch)中的样本数,yi是每个样本的标注正确的标签,而
Figure BDA0003085160940000062
是样本Oi的每次迭代的生成概率 分布,vi表示图像样本的特征向量。
另外,由于数据集较小,引入下述正则化项,防止学习到的参数 过拟合:
Figure BDA0003085160940000063
其中F代表着Frobenius正则,
Figure RE-GDA0003227110470000065
代表着神经网络的各层参数,Lreg_v代表 着图像模型的正则项损失函数,L代表神经网络的层数,1代表[1,L]的任意 数值,上述Lreg_v的公式表达的意思是从第1层到第L层,每一层的参数的 Frobenius正则结果求和。
最终生成图像语义空间的损失函数为:
Lv=Lcla_v+Lreg_v
(2)同理,对于文本语义空间,该分类器将文本的样本Ot作为训 练样本,则分类器的损失函数如下:
Figure BDA0003085160940000065
其中,Lcla_t表示所有文本实例Ot,i=1,...,n的语义类别的交叉熵损 失,θt表示分类器的参数,n是每个小批(mini-batch)中的样本数,yi是每个样本的标注正确的标签,而
Figure BDA0003085160940000071
是样本Ot的每次迭代的生成概率 分布,ti表示文本样本的特征向量。
另外,由于数据集较小,引入下述正则化项,防止学习到的参数 过拟合:
Figure BDA0003085160940000072
其中F代表着Frobenius正则,
Figure RE-GDA0003227110470000064
代表着神经网络的各层参数,Lreg_t代表 着文本模型的正则项损失函数。L代表神经网络的层数,1代表[1,L]的任意 数值,上述Lreg_t的公式表达的意思是从第1层到第L层,每一层的参数的 Frobenius正则结果求和。
最终生成文本真实语义空间的损失函数为:
Lt=Lcla_t+Lreg_t
如图1所示,左侧语义为[1,2,3,4]某个模态数据,通过训练,得到 右侧真实语义空间,在该空间中媒体信息能得到正确分类,且不会受 到其它目标函数影响,损失分类精确度。
其中,在左侧的空间中,不同语义的样本数据是混在一起无法区 分的;而在右侧的空间中,相同语义的样本数据聚集在一起。不同语 义的相隔较远。
然后,构建转换语义空间,用于检索的转换语义空间,分担真实 语义空间的融合任务。如图3所示,转换语义空间从真实语义空间网 络的最后一层4096的全连接层接入,通过3层LSTM进行得到。LSTM 的隐藏层有8个存储块(time steps),存储块的维度是512,为了加速 训练,在隐藏层之间使用层归一化(Layer normalization,LN)。在 训练完图像转换语义空间和文本转换语义空间后,固定其参数。然后 再训练上述结构中的参数,就可以得到转换语义空间。
待检索模态的转换语义空间应尽量和目标模态的真实语义空间 服从同一分布。用三元组损失函数训练图像和文本的转换空间。对于 图像转换语义空间:
Figure BDA0003085160940000081
lv2t=||fv(v;θv2)-ft(t;θt)||
其中,lv2t代表着提前标注好的图像-文本对中,图像在转换空间中的映 射fv(v;θv2)与文本在真实空间的映射ft(t;θt)的欧氏距离,
Figure BDA0003085160940000082
代表与vi语义 相关的文本特征向量;
Figure BDA0003085160940000083
代表与vi语义无关的文本特征向量;λ和μ是 设置的参数;θv2为图像转换语义空间分类器参数;θt为文本真实语义 空间分类器参数。
映射之间的欧氏距离的计算过程如下:在空间中的映射结果是一 个向量,计算欧氏距离就是求两个向量之间的欧氏距离。
对于文本转换语义空间:
Figure BDA0003085160940000084
lt2v=||ft(t;θt2)-fv(v;θv)||
其中,lt2v代表着提前标注好的图像-文本对中,文本在转换空间中 的映射ft(t;θt2)与图像在真实空间的映射fv(v;θv)的欧氏距离,
Figure BDA0003085160940000085
代表与 ti语义相关的图像特征向量;
Figure BDA0003085160940000086
代表与ti语义无关的文本特征向量;λ 和μ是设置的参数;θt2为文本转换语义空间分类器参数;θv为图像真 实语义空间分类器参数。
转换语义空间和真实语义空间的关系和区别。真实语义空间保留 着特征提取阶段的丰富语义,转换语义空间则将两个真实空间的对齐 语义抽取出来,并学习出带检索模态的函数分布。例如,图像转换空 间的函数分布与文本真实空间相同,文本转换空间的函数分布与图像 真实空间相同。
在通过以上内容对构建语义空间和转换语义空间的构建完成后, 可以他通过以下各实施例对图文检索方法、装置和电子设备的内容进 行描述。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结 合附图和具体实施方式对本申请做进一步详细的说明。
实施例1
本实施提出的图文检索方法的执行主体是服务器。
参见图2所示的一种图文检索方法的流程图,本实施例提出的图 文检索方法,包括以下具体步骤:
步骤100、获取检索指令,所述检索指令中携带有检索条件。
其中,所述检索条件,包括:图像信息和文本信息。
步骤102、将所述检索条件分别映射到语义空间和转换语义空间 中,分别得到所述检索条件在语义空间的第一向量和所述检索条件在 转换语义空间的第二向量。
在上述步骤102中,将所述检索条件分别映射到语义空间和转换 语义空间中,得到所述检索条件在语义空间的第一向量和所述检索条 件在转换语义空间的第二向量的具体过程是现有技术,这里不再赘述。
当所述检索条件为图像信息时,服务器可以确定所述第一向量是 图像语义空间对所述检索条件的特征进行映射后得到的,并确定所述 第二向量是图像转换语义空间对所述检索条件的特征进行映射后得到 的。
当所述检索条件为文本信息时,服务器可以确定所述第一向量是 文本语义空间对所述检索条件的特征进行映射后得到的,并确定所述 第二向量是文本转换语义空间对所述检索条件的特征进行映射后得到 的。
步骤104、对所述第一向量和所述第二向量进行处理,得到所述 检索条件的检索结果。
在上述步骤104中,当所述检索条件为图像信息时,对所述第一 向量和所述第二向量进行处理,得到所述检索条件的检索结果,包括 以下步骤(1)至步骤(6):
(1)当所述检索条件为图像信息时,确定所述第一向量是图像语 义空间对所述检索条件的特征进行映射后得到的,并确定所述第二向 量是图像转换语义空间对所述检索条件的特征进行映射后得到的;
(2)计算所述第一向量分别与所述文本转换语义空间中各向量 的距离;
(3)从所述文本转换语义空间的各向量中选择与所述第一向量 的距离小于距离阈值的向量作为第一候选向量;
(4)计算所述第二向量分别与所述文本语义空间中各向量的距 离;
(5)从所述文本语义空间的各向量中选择与所述第二向量的距 离小于距离阈值的向量作为第二候选向量;
(6)对所述第一候选向量和所述第二候选向量进行处理,得到所 述检索条件的检索结果。
在上述步骤(2)中,计算所述第一向量分别与所述文本转换语义 空间中各向量的距离是欧氏距离。而计算向量间的欧氏距离的过程是 现有技术,这里不再赘述。
当所述检索条件为文本信息时,对所述第一向量和所述第二向量 进行处理,得到所述检索条件的检索结果,还包括以下步骤(11)至 步骤(16):
(11)当所述检索条件为文本信息时,确定所述第一向量是文本 语义空间对所述检索条件的特征进行映射后得到的,并确定所述第二 向量是文本转换语义空间对所述检索条件的特征进行映射后得到的;
(12)计算所述第一向量分别与所述图像转换语义空间中各向量 的距离;
(13)从所述图像转换语义空间的各向量中选择与所述第一向量 的距离小于距离阈值的向量作为第一候选向量;
(14)计算所述第二向量分别与所述图像语义空间中各向量的距 离;
(15)从所述图像语义空间的各向量中选择与所述第二向量的距 离小于距离阈值的向量作为第二候选向量;
(16)对所述第一候选向量和所述第二候选向量进行处理,得到 所述检索条件的检索结果。
在上述步骤(6)和上述步骤(16)中,为了得到所述检索条件的 检索结果,可以执行以下步骤(61)至步骤(64):
(61)将所述第一候选向量和所述第二候选向量合并,得到所述 检索条件的候选向量集合;
(62)计算所述候选向量集合中各向量和所述第一向量的距离与 所述候选向量集合中各向量和所述第二向量的距离的平均距离值;
(63)当所述检索条件为图像信息时,从所述候选向量集合中的 各向量中选择所述平均距离值较小的多个向量对应的文本信息作为所 述检索条件的检索结果;
(64)当所述检索条件为文本信息时,从所述候选向量集合中的 各向量中选择所述平均距离值较小的多个向量对应的图像信息作为所 述检索条件的检索结果。
通过以上的内容可以看出:对图像和文字分别构建了在模态内具 有完备语义空间的真实语义空间和在模态间相同特征分布的转换语义 空间。在检索时,一种模态的转换空间特征和另一种模态的真实空间 特征相比较,计算相似度,完成检索并反馈检索结果。避免了图文检 索时,目标函数需要执行多任务导致精度下降的问题,提高了图文检 索的准确度。
综上所述,本实施例提出一种图文检索方法,在获取到检索指令 时,将检索指令中的检索条件分别映射到语义空间和转换语义空间中, 分别得到所述检索条件在语义空间的第一向量和所述检索条件在转换 语义空间的第二向量;从而根据得到的第一向量和第二向量进行处理, 得到检索条件的检索结果,与相关技术中图文检索时,目标函数需要执行多任务的方式相比,利用所述检索条件在语义空间的第一向量和 所述检索条件在转换语义空间的第二向量,就可以得到与检索条件相 似度高的检索结果,提高了图文检索的准确度。
实施例2
本实施例提出一种图文检索装置,用于执行上述实施例1提出的 图文检索方法。
参见图3所示的一种图文检索装置的结构示意图,本实施例提出 一种图文检索装置,包括:
获取模块200,用于获取检索指令,所述检索指令中携带有检索 条件;
映射模块202,用于将所述检索条件分别映射到语义空间和转换 语义空间中,分别得到所述检索条件在语义空间的第一向量和所述检 索条件在转换语义空间的第二向量;
处理模块204,用于对所述第一向量和所述第二向量进行处理, 得到所述检索条件的检索结果。
所述检索条件,包括:图像信息和文本信息;所述语义空间,包 括:图像语义空间和文本语义空间;所述转换语义空间,包括:图像 转换语义空间和文本转换语义空间。
具体地,所述处理模块204,具体用于:
当所述检索条件为图像信息时,确定所述第一向量是图像语义空 间对所述检索条件的特征进行映射后得到的,并确定所述第二向量是 图像转换语义空间对所述检索条件的特征进行映射后得到的;
计算所述第一向量分别与所述文本转换语义空间中各向量的距 离;
从所述文本转换语义空间的各向量中选择与所述第一向量的距 离小于距离阈值的向量作为第一候选向量;
计算所述第二向量分别与所述文本语义空间中各向量的距离;
从所述文本语义空间的各向量中选择与所述第二向量的距离小 于距离阈值的向量作为第二候选向量;
对所述第一候选向量和所述第二候选向量进行处理,得到所述检 索条件的检索结果。
进一步地,所述处理模块204,还具体用于:
当所述检索条件为文本信息时,确定所述第一向量是文本语义空 间对所述检索条件的特征进行映射后得到的,并确定所述第二向量是 文本转换语义空间对所述检索条件的特征进行映射后得到的;
计算所述第一向量分别与所述图像转换语义空间中各向量的距 离;
从所述图像转换语义空间的各向量中选择与所述第一向量的距 离小于距离阈值的向量作为第一候选向量;
计算所述第二向量分别与所述图像语义空间中各向量的距离;
从所述图像语义空间的各向量中选择与所述第二向量的距离小 于距离阈值的向量作为第二候选向量;
对所述第一候选向量和所述第二候选向量进行处理,得到所述检 索条件的检索结果。
具体地,所述处理模块204,用于对所述第一候选向量和所述第 二候选向量进行处理,得到所述检索条件的检索结果,包括:
将所述第一候选向量和所述第二候选向量合并,得到所述检索条 件的候选向量集合;
计算所述候选向量集合中各向量和所述第一向量的距离与所述 候选向量集合中各向量和所述第二向量的距离的平均距离值;
当所述检索条件为图像信息时,从所述候选向量集合中的各向量 中选择所述平均距离值较小的多个向量对应的文本信息作为所述检索 条件的检索结果;
当所述检索条件为文本信息时,从所述候选向量集合中的各向量 中选择所述平均距离值较小的多个向量对应的图像信息作为所述检索 条件的检索结果。
综上所述,本实施例提出一种图文检索装置,在获取到检索指令 时,将检索指令中的检索条件分别映射到语义空间和转换语义空间中, 分别得到所述检索条件在语义空间的第一向量和所述检索条件在转换 语义空间的第二向量;从而根据得到的第一向量和第二向量进行处理, 得到检索条件的检索结果,与相关技术中图文检索时,目标函数需要执行多任务的方式相比,利用所述检索条件在语义空间的第一向量和 所述检索条件在转换语义空间的第二向量,就可以得到与检索条件相 似度高的检索结果,提高了图文检索的准确度。
实施例3
本实施例提出一种计算机可读存储介质,所述计算机可读存储介 质上存储有计算机程序,所述计算机程序被处理器运行时执行上述实 施例1描述的图文检索方法的步骤。具体实现可参见方法实施例1, 在此不再赘述。
此外,参见图4所示的一种电子设备的结构示意图,本实施例还 提出一种电子设备,上述电子设备包括总线51、处理器52、收发机 53、总线接口54、存储器55和用户接口56。上述电子设备包括有存 储器55。
本实施例中,上述电子设备还包括:存储在存储器55上并可在处 理器52上运行的一个或者一个以上的程序,经配置以由上述处理器执 行上述一个或者一个以上程序用于进行以下步骤(1)至步骤(3):
(1)获取检索指令,所述检索指令中携带有检索条件;
(2)将所述检索条件分别映射到语义空间和转换语义空间中,分 别得到所述检索条件在语义空间的第一向量和所述检索条件在转换语 义空间的第二向量;
(3)对所述第一向量和所述第二向量进行处理,得到所述检索条 件的检索结果。
收发机53,用于在处理器52的控制下接收和发送数据。
其中,总线架构(用总线51来代表),总线51可以包括任意数量 的互联的总线和桥,总线51将包括由处理器52代表的一个或多个处 理器和存储器55代表的存储器的各种电路链接在一起。总线51还可 以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链 接在一起,这些都是本领域所公知的,因此,本实施例不再对其进行 进一步描述。总线接口54在总线51和收发机53之间提供接口。收发 机53可以是一个元件,也可以是多个元件,比如多个接收器和发送器, 提供用于在传输介质上与各种其他装置通信的单元。例如:收发机53 从其他设备接收外部数据。收发机53用于将处理器52处理后的数据 发送给其他设备。取决于计算系统的性质,还可以提供用户接口56, 例如小键盘、显示器、扬声器、麦克风、操纵杆。
处理器52负责管理总线51和通常的处理,如前述上述运行通用 操作系统。而存储器55可以被用于存储处理器52在执行操作时所使 用的数据。
可选的,处理器52可以是但不限于:中央处理器、单片机、微处 理器或者可编程逻辑器件。
可以理解,本发明实施例中的存储器55可以是易失性存储器或非 易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易 失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只 读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器 (Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器 (Random Access Memory,RAM),其用作外部高速缓存。通过示例性 但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储 器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM, DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、 双倍数据速率同步动态随机存取存储器(DoubleData Rate SDRAM, DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM, SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM, DRRAM)。本实施例描述的系统和方法的存储器55旨在包括但不限于 这些和任意其它适合类型的存储器。
在一些实施方式中,存储器55存储了如下的元素,可执行模块或 者数据结构,或者它们的子集,或者它们的扩展集:操作系统551和 应用程序552。
其中,操作系统551,包含各种系统程序,例如框架层、核心库 层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应 用程序552,包含各种应用程序,例如媒体播放器(Media Player)、浏 览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的 程序可以包含在应用程序552中。
综上所述,本实施例提出一种计算机可读存储介质和电子设备, 在获取到检索指令时,将检索指令中的检索条件分别映射到语义空间 和转换语义空间中,分别得到所述检索条件在语义空间的第一向量和 所述检索条件在转换语义空间的第二向量;从而根据得到的第一向量 和第二向量进行处理,得到检索条件的检索结果,与相关技术中图文 检索时,目标函数需要执行多任务的方式相比,利用所述检索条件在 语义空间的第一向量和所述检索条件在转换语义空间的第二向量,就 可以得到与检索条件相似度高的检索结果,提高了图文检索的准确度。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并 不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范 围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。 因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种图文检索方法,其特征在于,包括:
获取检索指令,所述检索指令中携带有检索条件;
将所述检索条件分别映射到语义空间和转换语义空间中,分别得到所述检索条件在语义空间的第一向量和所述检索条件在转换语义空间的第二向量;
对所述第一向量和所述第二向量进行处理,得到所述检索条件的检索结果。
2.根据权利要求1所述的方法,其特征在于,所述检索条件,包括:图像信息和文本信息;所述语义空间,包括:图像语义空间和文本语义空间;所述转换语义空间,包括:图像转换语义空间和文本转换语义空间;
对所述第一向量和所述第二向量进行处理,得到所述检索条件的检索结果,包括:
当所述检索条件为图像信息时,确定所述第一向量是图像语义空间对所述检索条件的特征进行映射后得到的,并确定所述第二向量是图像转换语义空间对所述检索条件的特征进行映射后得到的;
计算所述第一向量分别与所述文本转换语义空间中各向量的距离;
从所述文本转换语义空间的各向量中选择与所述第一向量的距离小于距离阈值的向量作为第一候选向量;
计算所述第二向量分别与所述文本语义空间中各向量的距离;
从所述文本语义空间的各向量中选择与所述第二向量的距离小于距离阈值的向量作为第二候选向量;
对所述第一候选向量和所述第二候选向量进行处理,得到所述检索条件的检索结果。
3.根据权利要求2所述的方法,其特征在于,对所述第一向量和所述第二向量进行处理,得到所述检索条件的检索结果,还包括:
当所述检索条件为文本信息时,确定所述第一向量是文本语义空间对所述检索条件的特征进行映射后得到的,并确定所述第二向量是文本转换语义空间对所述检索条件的特征进行映射后得到的;
计算所述第一向量分别与所述图像转换语义空间中各向量的距离;
从所述图像转换语义空间的各向量中选择与所述第一向量的距离小于距离阈值的向量作为第一候选向量;
计算所述第二向量分别与所述图像语义空间中各向量的距离;
从所述图像语义空间的各向量中选择与所述第二向量的距离小于距离阈值的向量作为第二候选向量;
对所述第一候选向量和所述第二候选向量进行处理,得到所述检索条件的检索结果。
4.根据权利要求2或者3所述的方法,其特征在于,对所述第一候选向量和所述第二候选向量进行处理,得到所述检索条件的检索结果,包括:
将所述第一候选向量和所述第二候选向量合并,得到所述检索条件的候选向量集合;
计算所述候选向量集合中各向量和所述第一向量的距离与所述候选向量集合中各向量和所述第二向量的距离的平均距离值;
当所述检索条件为图像信息时,从所述候选向量集合中的各向量中选择所述平均距离值较小的多个向量对应的文本信息作为所述检索条件的检索结果;
当所述检索条件为文本信息时,从所述候选向量集合中的各向量中选择所述平均距离值较小的多个向量对应的图像信息作为所述检索条件的检索结果。
5.一种图文检索装置,其特征在于,包括:
获取模块,用于获取检索指令,所述检索指令中携带有检索条件;
映射模块,用于将所述检索条件分别映射到语义空间和转换语义空间中,分别得到所述检索条件在语义空间的第一向量和所述检索条件在转换语义空间的第二向量;
处理模块,用于对所述第一向量和所述第二向量进行处理,得到所述检索条件的检索结果。
6.根据权利要求5所述的装置,其特征在于,所述检索条件,包括:图像信息和文本信息;所述语义空间,包括:图像语义空间和文本语义空间;所述转换语义空间,包括:图像转换语义空间和文本转换语义空间;
所述处理模块,具体用于:
当所述检索条件为图像信息时,确定所述第一向量是图像语义空间对所述检索条件的特征进行映射后得到的,并确定所述第二向量是图像转换语义空间对所述检索条件的特征进行映射后得到的;
计算所述第一向量分别与所述文本转换语义空间中各向量的距离;
从所述文本转换语义空间的各向量中选择与所述第一向量的距离小于距离阈值的向量作为第一候选向量;
计算所述第二向量分别与所述文本语义空间中各向量的距离;
从所述文本语义空间的各向量中选择与所述第二向量的距离小于距离阈值的向量作为第二候选向量;
对所述第一候选向量和所述第二候选向量进行处理,得到所述检索条件的检索结果。
7.根据权利要求6所述的装置,其特征在于,所述处理模块,还具体用于:
当所述检索条件为文本信息时,确定所述第一向量是文本语义空间对所述检索条件的特征进行映射后得到的,并确定所述第二向量是文本转换语义空间对所述检索条件的特征进行映射后得到的;
计算所述第一向量分别与所述图像转换语义空间中各向量的距离;
从所述图像转换语义空间的各向量中选择与所述第一向量的距离小于距离阈值的向量作为第一候选向量;
计算所述第二向量分别与所述图像语义空间中各向量的距离;
从所述图像语义空间的各向量中选择与所述第二向量的距离小于距离阈值的向量作为第二候选向量;
对所述第一候选向量和所述第二候选向量进行处理,得到所述检索条件的检索结果。
8.根据权利要求6或者7所述的装置,其特征在于,所述处理模块,用于对所述第一候选向量和所述第二候选向量进行处理,得到所述检索条件的检索结果,包括:
将所述第一候选向量和所述第二候选向量合并,得到所述检索条件的候选向量集合;
计算所述候选向量集合中各向量和所述第一向量的距离与所述候选向量集合中各向量和所述第二向量的距离的平均距离值;
当所述检索条件为图像信息时,从所述候选向量集合中的各向量中选择所述平均距离值较小的多个向量对应的文本信息作为所述检索条件的检索结果;
当所述检索条件为文本信息时,从所述候选向量集合中的各向量中选择所述平均距离值较小的多个向量对应的图像信息作为所述检索条件的检索结果。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-4任一项所述的方法的步骤。
10.一种电子设备,其特征在于,所述电子设备包括有存储器,处理器以及一个或者一个以上的程序,其中所述一个或者一个以上程序存储于所述存储器中,且经配置以由所述处理器执行权利要求1-4任一项所述的方法的步骤。
CN202110578468.9A 2021-05-26 2021-05-26 一种图文检索方法、装置和电子设备 Active CN113435206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110578468.9A CN113435206B (zh) 2021-05-26 2021-05-26 一种图文检索方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110578468.9A CN113435206B (zh) 2021-05-26 2021-05-26 一种图文检索方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN113435206A true CN113435206A (zh) 2021-09-24
CN113435206B CN113435206B (zh) 2023-08-01

Family

ID=77802983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110578468.9A Active CN113435206B (zh) 2021-05-26 2021-05-26 一种图文检索方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN113435206B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822776A (zh) * 2021-09-29 2021-12-21 中国平安财产保险股份有限公司 课程推荐方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170061250A1 (en) * 2015-08-28 2017-03-02 Microsoft Technology Licensing, Llc Discovery of semantic similarities between images and text
CN107357884A (zh) * 2017-07-10 2017-11-17 中国人民解放军国防科学技术大学 一种基于双向学习排序的跨媒体的不同距离度量方法
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN109213876A (zh) * 2018-08-02 2019-01-15 宁夏大学 基于生成对抗网络的跨模态检索方法
CN109344266A (zh) * 2018-06-29 2019-02-15 北京大学深圳研究生院 一种基于双语义空间的对抗性跨媒体检索方法
CN109992686A (zh) * 2019-02-24 2019-07-09 复旦大学 基于多角度自注意力机制的图像-文本检索系统及方法
CN110442736A (zh) * 2019-08-16 2019-11-12 北京工商大学 一种基于二次判别分析的语义增强子空间跨媒体检索方法
CN112749291A (zh) * 2020-08-25 2021-05-04 腾讯科技(深圳)有限公司 一种图文匹配的方法和装置
CN112818135A (zh) * 2021-02-24 2021-05-18 华侨大学 一种基于公共语义空间学习构建图文知识图谱方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170061250A1 (en) * 2015-08-28 2017-03-02 Microsoft Technology Licensing, Llc Discovery of semantic similarities between images and text
CN107357884A (zh) * 2017-07-10 2017-11-17 中国人民解放军国防科学技术大学 一种基于双向学习排序的跨媒体的不同距离度量方法
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN109344266A (zh) * 2018-06-29 2019-02-15 北京大学深圳研究生院 一种基于双语义空间的对抗性跨媒体检索方法
CN109213876A (zh) * 2018-08-02 2019-01-15 宁夏大学 基于生成对抗网络的跨模态检索方法
CN109992686A (zh) * 2019-02-24 2019-07-09 复旦大学 基于多角度自注意力机制的图像-文本检索系统及方法
CN110442736A (zh) * 2019-08-16 2019-11-12 北京工商大学 一种基于二次判别分析的语义增强子空间跨媒体检索方法
CN112749291A (zh) * 2020-08-25 2021-05-04 腾讯科技(深圳)有限公司 一种图文匹配的方法和装置
CN112818135A (zh) * 2021-02-24 2021-05-18 华侨大学 一种基于公共语义空间学习构建图文知识图谱方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAN LI 等: "An Overview of Image-Text Retrieval Methods Based on Deep Learning", 《LECTURE NOTES IN ECONOMICS, MANAGEMENT AND SOCIAL SCIENCES》 *
SHAILY MALIK 等: "Semantic Space Autoencoder for Cross-Modal Data Retrieval", 《INTERNATIONAL CONFERENCE ON INNOVATIVE COMPUTING AND COMMUNICATIONS》 *
刘晨璐: "基于领域自适应的跨媒体检索研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822776A (zh) * 2021-09-29 2021-12-21 中国平安财产保险股份有限公司 课程推荐方法、装置、设备及存储介质
CN113822776B (zh) * 2021-09-29 2023-11-03 中国平安财产保险股份有限公司 课程推荐方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113435206B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN111797893B (zh) 一种神经网络的训练方法、图像分类系统及相关设备
US20210012198A1 (en) Method for training deep neural network and apparatus
CN111353076B (zh) 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
CN112559784B (zh) 基于增量学习的图像分类方法及系统
CN110555481B (zh) 一种人像风格识别方法、装置和计算机可读存储介质
CN111026861B (zh) 文本摘要的生成方法、训练方法、装置、设备及介质
WO2021203865A1 (zh) 分子结合位点检测方法、装置、电子设备及存储介质
CN113761153B (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN110929802A (zh) 基于信息熵的细分类识别模型训练、图像识别方法及装置
US20200218932A1 (en) Method and system for classification of data
CN115186133A (zh) 视频生成方法、装置、电子设备及介质
CN110009017A (zh) 一种基于视角类属特征学习的多视角多标记分类方法
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN106021402A (zh) 用于跨模态检索的多模态多类Boosting框架构建方法及装置
CN115827954A (zh) 动态加权的跨模态融合网络检索方法、系统、电子设备
CN112613451A (zh) 一种跨模态文本图片检索模型的建模方法
CN114764865A (zh) 数据分类模型训练方法、数据分类方法和装置
CN116108363A (zh) 基于标签引导的不完备多视图多标签分类方法和系统
CN116385937A (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
Mohammadi et al. On parameter tuning in meta-learning for computer vision
CN114926716A (zh) 一种学习参与度识别方法、装置、设备及可读存储介质
CN113435206B (zh) 一种图文检索方法、装置和电子设备
US20220253630A1 (en) Optimized policy-based active learning for content detection
Ou et al. Improving person re-identification by multi-task learning
CN116151192A (zh) 训练方法、版面分析、质量评估方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant