CN110059157A - 一种图文跨模态检索方法、系统、装置和存储介质 - Google Patents

一种图文跨模态检索方法、系统、装置和存储介质 Download PDF

Info

Publication number
CN110059157A
CN110059157A CN201910204688.8A CN201910204688A CN110059157A CN 110059157 A CN110059157 A CN 110059157A CN 201910204688 A CN201910204688 A CN 201910204688A CN 110059157 A CN110059157 A CN 110059157A
Authority
CN
China
Prior art keywords
picture
text
loss function
retrieval
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910204688.8A
Other languages
English (en)
Inventor
肖菁
简杨沃
李晶晶
朱佳
曹阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN201910204688.8A priority Critical patent/CN110059157A/zh
Publication of CN110059157A publication Critical patent/CN110059157A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种图文跨模态检索方法、系统、装置和存储介质,其中方法包括以下步骤:获取待检索的文字/图片数据后,结合文字/图片数据和采用组合损失函数训练后的检索模型获取相似度信息;根据相似度信息获取对应的图片/文字数据。本发明将待检索的文字/图片数据输入检索模型计算相似度矩阵,并根据相似度矩阵获取对应的图片/文字数据,由于所述检索模型经过组合损失函数训练,能够保持相关图片和文本之间更近的距离,并远离不相关的数据,极大地提高了在图片和文本相互之间检索的精确度,可广泛应用于多媒体信息检索技术领域。

Description

一种图文跨模态检索方法、系统、装置和存储介质
技术领域
本发明涉及多媒体信息检索技术领域,尤其涉及一种图文跨模态检索方法、系统、装置和存储介质。
背景技术
在过去的十年中,随着互联网,社交媒体和其他信息技术的迅速发展,各种形式的数据已经爆炸式增长。通常,不同的媒体使用不同类型的数据来描述相同的对象或主题。例如,在文本中描述的狗和狗的图片具有相同的“狗”的语义。当然,在图片和文本的跨模态检索中,给定文本,应查询到最相关的图片,或者给定图片,应该检索到最相关的描述图片的文本列表。该研究领域面临两个主要问题:首先,如何有效地选择图片和文本的特征;其次,如何最大化图片和文本之间的相关性。
为了最大化图片和文本之间的相关性,已经开发了许多方法来通过学习多个转换以将不同模态映射到公共子空间来解决该问题。这些方法可分为无监督方法和监督方法。像规范相关分析(Canonical Correlation Analysis,简称CCA)这样的无监督的跨模态方法旨在将原始模态的特征投射到公共子空间中。此外,像广义多视图分析(GeneralizedMultiview Analysis,简称GMA)这样的有监督方法使用多标签信息来增强多模态数据中公共子空间的学习。尽管这些方法在跨模态检索中取得了一些成功,但它们的效果在实际应用中并不满意。大部分方法更关注共同子空间中的多标签信息或相关图片和文本,而忽略了无关图片和文本的重要信息。例如,给定图片,应该检索到与图片最相关的文本,但是同时也检索到不相关的文本,因为它们在共同子空间的距离是最近的,直接影响了图片和文本之间的相关性,降低了跨模态检索的精度。
名词解释:
模态:每一种信息的来源或者形式,都可以称为一种模态。
跨模态检索:跨模态检索是对一种模态的查询词,返回与之相关的其他不同模态检索结果的新型检索方法。
深度配对排序:深度强调的是基于深度神经网络框架训练模型的,配对排序是从训练集的角度来说的,每次训练集输入到框架中是成对出现;在图片文本的跨模态检索中,通过计算图片文本对之间的距离来进行排序。
多标签信息:多标签信息是指数据集的标签有多种,在图片文本的跨模态检索中,一对图片文本属于一种或多种标签,这样组成的信息简称为多标签信息。
发明内容
为了解决上述技术问题,本发明的目的是提供提出一种能够保持相关图片和文本之间更近的距离,并远离不相关的图片和文本的跨模态检索方法、系统、装置和存储介质。
本发明所采用的第一技术方案是:
一种图文跨模态检索方法,包括以下步骤:
获取待检索的文字/图片数据后,结合文字/图片数据和采用组合损失函数训练后的检索模型获取相似度信息;
根据相似度信息获取对应的图片/文字数据。
进一步,还包括建立检索模型的步骤,所述建立检索模型的步骤具体包括以下步骤:
获取文字训练集和图片训练集后,根据预设方式获取文字训练集的文字特征和图片训练集的图片特征;
将文字特征和图片特征输入神经网络模型的嵌入层后,将文字特征和图片特征分别投射到公共子空间;
采用组合损失函数对神经网络模型进行训练后,获得检索模型。
进一步,所述组合损失函数包括分类损失函数和双向三元组损失函数,所述组合损失函数的公式如下:
L=λL4+(1-λ)[μJ1+(1-μ)J2]
其中所述L为组合损失函数,所述λ是平衡分类损失函数和双向三元组损失函数的系数,所述L4为双向三元组损失函数,所述J1为根据图片检索相应文本的分类损失函数,所述J2为根据文本检索相应图片的分类损失函数,所述μ为平衡分类损失函数J1和分类损失函数J2的系数。
进一步,所述双向三元组损失函数的公式为:
L4=βL2+(1-β)L3
其中L2为根据图片检索相应文本的三元组损失函数,L3为根据文本检索相应图片的三元组损失函数,所述β为平衡这两个三元组损失函数的系数。
进一步,所述根据图片检索相应文本的三元组损失函数L2的主要公式为:
所述根据文本检索相应图片的三元组损失函数L3的主要公式为:
其中V是三元组所有的训练集的集合,用N表示其总数,K为在总数N中随机抽取的样本数,fI(.)是图片的嵌入层函数,fT(.)是文本的嵌入层函数,xi代表每个图片,所述yi代表每个文本,α为检索样本与正样本之间的距离和指定的检索样本与负样本之间的距离的一个最小间隔参数,a为检索样本的标志,为正样本的标志,n为负样本的标志,G为由K个样本组成的训练集的集合。
进一步,所述根据图片检索相应文本的分类损失函数J1的公式为:
所述根据文本检索相应图片的分类损失函数J2的公式为:
其中H={z1,z2,…,zn,}表示样本集中的标签的集合,m表示小批量的数目,k表示样本集合中总共的类别数目,θ表示嵌入层的参数,1{.}表示一个指示函数,1表示示性函数,只有当大括号内的值为真时才取值为1,否则为0。
进一步,所述根据预设方式获取文字训练集的文字特征和图片训练集的图片特征这一步骤,具体包括以下步骤:
采用预设的配对排序方式将文字训练集和图片训练集进行配对,并获取相应的文字特征和图片特征;
采用预设的多标签信息对文字特征和图片特征进行处理。
本发明所采用的第二技术方案是:
一种图文跨模态检索系统,包括:
计算模块,用于获取待检索的文字/图片数据后,结合文字/图片数据和采用组合损失函数训练后的检索模型获取相似度信息;
获取模块,用于根据相似度信息获取对应的图片/文字数据。
本发明所采用的第三技术方案是:
一种计算机代码自动生成装置,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行上述方法。
本发明所采用的第四技术方案是:
一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明将待检索的文字/图片数据输入检索模型计算相似度矩阵,并根据相似度矩阵获取对应的图片/文字数据,由于所述检索模型经过组合损失函数训练,能够保持相关图片和文本之间更近的距离,并远离不相关的数据,极大地提高了在图片和文本相互之间检索的精确度。
附图说明
图1是本发明一种图文跨模态检索方法的步骤流程图;
图2是具体实施例中检索模型的结构示意图;
图3是具体实施例中建立检索模型的步骤流程图;
图4是本发明一种图文跨模态检索系统的结构框图;
图5是本实施例的方法与现有的图文跨模态检索方法在Wikipedia数据集上的对比示意图;
图6是本实施例的方法与现有的图文跨模态检索方法在Pascal数据集上的对比示意图;
图7是本实施例的方法与现有的图文跨模态检索方法在NUS-WIDE数据集上的对比示意图。
具体实施方式
实施例一
如图1所示,本实施例提供了一种图文跨模态检索方法,包括以下步骤:
S1、结合训练集和组合损失函数建立检索模型。
S2、获取待检索的文字/图片数据后,结合文字/图片数据和采用组合损失函数训练后的检索模型获取相似度信息。
S3、根据相似度信息获取对应的图片/文字数据。
所述训练集包括文字训练集和图片训练集,将训练集输入深度神经网络框架进行训练,得到模型,再通过组合损失函数对模型进行分类训练,捕获到图片和文本之间的潜在信息,最终生成检索模型。当需要根据文字检索图片时,将文字输入检索模型中,经过计算获得相似度信息,并根据相似度信息获取相应的图片;同理,当需要根据图片检索文字时,将图片输入检索模型中,经过计算获得相似度信息,并根据相似度信息获取相应的文字。由于所述检索模型经过损失函数进行训练,能够捕获到图片和文本之间的潜在信息,能够最大化图片与文本之间的相关性,极大地提高图片和文本相互之间检索的精确度。
其中,S1包括步骤S11~S13:
S11、获取文字训练集和图片训练集后,根据预设方式获取文字训练集的文字特征和图片训练集的图片特征;
S12、将文字特征和图片特征输入神经网络模型的嵌入层后,将文字特征和图片特征分别投射到公共子空间;
S13、采用组合损失函数对神经网络模型进行训练后,获得检索模型。
所述嵌入层作为可直接计算跨模态数据相似度的子空间,通过神经和图片特征投射到公共子空间,建立获得模型,在通过组合损失函数对模型进行训练,提高模型的检索能力,最终获得检索模型。
其中,所述组合损失函数包括分类损失函数和双向三元组损失函数,所述组合损失函数的公式如下:
L=λL4+(1-λ)[μJ1+(1-μ)J2]
其中所述L为组合损失函数,所述λ是平衡分类损失函数和双向三元组损失函数的系数,所述L4为双向三元组损失函数,所述J1为根据图片检索相应文本的分类损失函数,所述J2为根据文本检索相应图片的分类损失函数,所述μ为平衡分类损失函数J1和分类损失函数J2的系数。
所述双向三元组损失函数的公式为:
L4=βL2+(1-β)L3
其中L2为根据图片检索相应文本的三元组损失函数,L3为根据文本检索相应图片的三元组损失函数,所述β为平衡这两个三元组损失函数的系数。
所述根据图片检索相应文本的三元组损失函数L2的主要公式为:
所述根据文本检索相应图片的三元组损失函数L3的主要公式为:
其中V是三元组所有的训练集的集合,用N表示其总数,K为在总数N中随机抽取的样本数,fI(.)是图片的嵌入层函数,fT(.)是文本的嵌入层函数,xi代表每个图片,所述yi代表每个文本,α为检索样本与正样本之间的距离和指定的检索样本与负样本之间的距离的一个最小间隔参数,a为检索样本的标志,为正样本的标志,n为负样本的标志,G为由K个样本组成的训练集的集合。为了减少模型训练的时间,我们随机挑选负样本的文本而不是把所有的负样本的文本作为模型的训练。
进一步,所述根据图片检索相应文本的分类损失函数J1的公式为:
所述根据文本检索相应图片的分类损失函数J2的公式为:
其中H={z1,z2,…,zn,}表示样本集中的标签的集合,m表示小批量的数目,k表示样本集合中总共的类别数目,θ表示嵌入层的参数,1{.}表示一个指示函数,1表示示性函数,只有当大括号内的值为真时才取值为1,否则为0。
其中,步骤S2具体包括步骤S21~S22:
S21、采用预设的配对排序方式将文字训练集和图片训练集进行配对,并获取相应的文字特征和图片特征;
S22、采用预设的多标签信息对文字特征和图片特征进行处理。
采用配对排序方式对图片和文本进行匹配,并学习图片和文本之间的相似度矩阵,提高了模型的准确度;为了让模型更好地学习到图片和文本之间的潜在信息和提高结果的精确度,模型在训练的时候增加了多标签信息。
具体实施例
以下,结合图2和图3对建立检测模型的步骤进行详细的讲解。
首先,假设图片集合用I={x1,x2,…,xn,}表示,文本集合用T={y1,y2,…,yn,}表示。配对的图片文本集合用R={P1,P2,…,Pn,}表示,每一对图片和文本Pi=(zi,yi)包含xi图片的dI维图片特征和yi文本的dT维文本特征。接着用欧几里德距离定义图片和文本之间的相似度,公式如下:
其中fI(.)是欧几里德距离的图片的嵌入层函数,fT(.)是文本的嵌入层函数。D(.,.)是欧几里德空间的距离度量。D(fI(xi),fT(yi))的距离越小,表明图片xi和文本yi越相似。我们采用配对排序模型去学习图片和文本之间的相似度矩阵。如图2所示,模型将图片特征和文本特征经过嵌入层后得出的更深的特征映射到共同的子空间,并通过分类损失函数和双向三元组损失函数训练模型,最后求解到图片和文本的相似度矩阵。
假设我们通过给定的图片搜索文本。我们选择一张图片作为Anchor,与图片对应的文本作为Positive,与图片不对应的文本作为Negative。三元组损失函数可用以下公式表示:
其中,V是所有可能的三元组的训练的集合,用N表示其总数。为了减少模型训练的时间,我们随机挑选负样本的文本而不是把所有的负样本的文本作为模型的训练。因此,修改后的三元组损失函数可用以下公式表示:
图片和文本之间的跨模态检索是相互的,除了图片能检索到文本,文本也应该能搜索到图片。因此,本方案提出了双向的三元组损失函数来解决图片和文本之间的相互检索。仿照上述公式,当给定文本去搜索相应的图片,其三元组损失函数公式如下所示:
结合上述两个三元组损失函数,我们提出来的双向三元组损失函数的公式如下所示:
L4=βL2+(1-β)L3 (8)
其中β是平衡这两个三元组损失函数的强度。
此外,为了让模型更好地学习到图片和文本之间的潜在信息和提高结果的精确度,模型在训练的时候增加了多标签信息。正如图2所展示,我们在模型的输出端增加了图片和文本的分类损失函数。分类损失函数使用的是softmax交叉熵损失函数。当通过给定图片去搜索相应的文本,softmax交叉熵损失函数的公式如下所示:
其中H={z1,z2,…,zn,}表示样本集中的标签的集合。m表示小批量的数目,k表示样本集合中总共的类别数目。θ表示嵌入层的参数。另外1{.}表示一个指示函数,1表示示性函数,只有当大括号内的值为真时才取值为1,否则为0。
仿照上述公式,当通过给定文本去搜索相应的图片,softmax交叉熵损失函数的公式如下所示:
最后,我们提出的模型的损失函数如下所示:
L=λL4+(1-λ)[μJ1+(1-μ)J2] (11)
其中λ是平衡双向三元组损失函数与softmax交叉熵损失函数的强度。
结合上述公式、现有的神经网络和训练集,即可获得实施例一的检索模型。具体步骤如图3所示。随机获取小批量的图片和文本,并按照预设的方式处理图片和文本后,比如进行多标签信息处理,将文本特征和图片特征输入神经网络的嵌入层,进行学习后,技术输出端的损失函数的值L,所述损失函数采用的是上述的组合损失函数,判断L是否小于阈值,若是,模型建立完毕,并采用测试进行测试。计算测试集中图片和文本的相似度矩阵,并根据相似度矩阵返回检索结果。
本实施例的方法,先通过深度神经网络框架将特征投射到公共子空间,接着采用基于双向配对的思想和多标签信息结合的方法,能够在有效地时间内求解图片和文本之间的相似度矩阵,并利用修改后的双向三元组损失函数和多标签损失函数自动学习和捕获到图片和文本之间的潜在信息,最终提高了在图片和文本相互之间检索的精确度。
将本实施例的图文跨模态检索方法(以下简称DPRCM)与现有的图文跨模态检索方法的性能进行实验对比,现有的图文跨模态检索方法包括CCA、基于本地群的一致性特征学习(Local Group based Consistent Feature Learning,简称LGCFL)和跨媒体多重深度网络(the cross-media multiple deep network,简称CMDN)等方法,分别选择三个跨模态检索领域公开测试数据集Wikipedia、Pascal和NUS-WIDE。
其中,Wikipedia数据集由2866个图片文本对组成,并分为10个语义类。在我们的实验中,我们遵循其他方法对数据集的划分,其中2000对作为训练集,866对被选为测试集。另外,我们选择了4096维的图片特征和100维的文本特征作为模型的输入。Pascal数据集由9963个图片文本对组成,并分为20个语义类。与其他方法一样,其中的5000对作为训练集,4919对作为测试集。另外,我们选择了512维的图片特征和399维的文本特征作为模型的输入。NUS-WIDE数据集由269,648个图片文本对组成,并分为81个语义类。与其他方法一样,其中的25,600对作为训练集,9600对作为测试集。另外,我们选择了500维的图片特征和1000维的文本特征作为模型的输入。
实验中采用平均AP值(MAP)作为性能评价指标。AP值,即平均精确度。求AP值的公式如下所示:
其中U表示检索集合中相关对象的数量,P(k)是前k个检索对象的精度,r(k)是指标函数。如果r(k)=1,则k个检索对象是相关的;否则是不相关的。通过对来自查询集中的所有查询的AP值来求平均并计算MAP值。图5为本实施例的DPRCM方法与其它方法在Wikipedia数据集上的MAP值;图6为本实施例的DPRCM方法与其它方法在在Pascal数据集上的MAP值;图7为本实施例的DPRCM方法与其它方法在NUS-WIDE数据集上的MAP值。从图5,图6和图7中可以看出,本发明无论从图片检索文本还是文本检索图片,MAP值都比其他算法要高几个百分点。本发明在图片和文本检索中返回的结果的相关性比较高,进一步说明本发明在跨模态检索领域中有比较好的效果。
实施例二
如图4所示,本实施例提供一种图文跨模态检索系统,包括:
计算模块,用于获取待检索的文字/图片数据后,结合文字/图片数据和采用组合损失函数训练后的检索模型获取相似度信息;
获取模块,用于根据相似度信息获取对应的图片/文字数据。
本实施例的一种图文跨模态检索系统,可执行本发明方法实施例一所提供的一种图文跨模态检索方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
实施例三
一种计算机代码自动生成装置,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行实施例一所述方法。
本实施例的一种计算机代码自动生成装置,可执行本发明方法实施例一所提供的一种图文跨模态检索方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
实施例四
一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如实施例一所述方法。
本实施例的一种存储介质,可执行本发明方法实施例一所提供的一种图文跨模态检索方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种图文跨模态检索方法,其特征在于,包括以下步骤:
获取待检索的文字/图片数据后,结合文字/图片数据和采用组合损失函数训练后的检索模型获取相似度信息;
根据相似度信息获取对应的图片/文字数据。
2.根据权利要求1所述的一种图文跨模态检索方法,其特征在于,还包括建立检索模型的步骤,所述建立检索模型的步骤具体包括以下步骤:
获取文字训练集和图片训练集后,根据预设方式获取文字训练集的文字特征和图片训练集的图片特征;
将文字特征和图片特征输入神经网络模型的嵌入层后,将文字特征和图片特征分别投射到公共子空间;
采用组合损失函数对神经网络模型进行训练后,获得检索模型。
3.根据权利要求2所述的一种图文跨模态检索方法,其特征在于,所述组合损失函数包括分类损失函数和双向三元组损失函数,所述组合损失函数的公式如下:
L=λL4+(1-λ)[μJ1+(1-μ)J2]
其中所述L为组合损失函数,所述λ是平衡分类损失函数和双向三元组损失函数的系数,所述L4为双向三元组损失函数,所述J1为根据图片检索相应文本的分类损失函数,所述J2为根据文本检索相应图片的分类损失函数,所述μ为平衡分类损失函数J1和分类损失函数J2的系数。
4.根据权利要求3所述的一种图文跨模态检索方法,其特征在于,所述双向三元组损失函数的公式为:
L4=βL2+(1-β)L3
其中L2为根据图片检索相应文本的三元组损失函数,L3为根据文本检索相应图片的三元组损失函数,所述B为平衡这两个三元组损失函数的系数。
5.根据权利要求4所述的一种图文跨模态检索方法,其特征在于,所述根据图片检索相应文本的三元组损失函数L2的主要公式为:
所述根据文本检索相应图片的三元组损失函数L3的主要公式为:
其中V是三元组所有的训练集的集合,用N表示其总数,K为在总数N中随机抽取的样本数,fI(.)是图片的嵌入层函数,fT(.)是文本的嵌入层函数,xi代表每个图片,所述yi代表每个文本,α为检索样本与正样本之间的距离和指定的检索样本与负样本之间的距离的一个最小间隔参数,a为检索样本的标志,p为正样本的标志,n为负样本的标志,G为由K个样本组成的训练集的集合。
6.根据权利要求5所述的一种图文跨模态检索方法,其特征在于,所述根据图片检索相应文本的分类损失函数J1的公式为:
所述根据文本检索相应图片的分类损失函数J2的公式为:
其中H={z1,z2,…,zn,}表示样本集中的标签的集合,m表示小批量的数目,k表示样本集合中总共的类别数目,θ表示嵌入层的参数,1{.}表示一个指示函数,1表示示性函数,只有当大括号内的值为真时才取值为1,否则为0。
7.权利要求2所述的一种图文跨模态检索方法,其特征在于,所述根据预设方式获取文字训练集的文字特征和图片训练集的图片特征这一步骤,具体包括以下步骤:
采用预设的配对排序方式将文字训练集和图片训练集进行配对,并获取相应的文字特征和图片特征;
采用预设的多标签信息对文字特征和图片特征进行处理。
8.一种图文跨模态检索系统,其特征在于,包括:
计算模块,用于获取待检索的文字/图片数据后,结合文字/图片数据和采用组合损失函数训练后的检索模型获取相似度信息;
获取模块,用于根据相似度信息获取对应的图片/文字数据。
9.一种计算机代码自动生成装置,其特征在于,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行权利要求1-7任一项所述方法。
10.一种存储介质,其中存储有处理器可执行的指令,其特征在于,所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-7任一项所述方法。
CN201910204688.8A 2019-03-18 2019-03-18 一种图文跨模态检索方法、系统、装置和存储介质 Pending CN110059157A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910204688.8A CN110059157A (zh) 2019-03-18 2019-03-18 一种图文跨模态检索方法、系统、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910204688.8A CN110059157A (zh) 2019-03-18 2019-03-18 一种图文跨模态检索方法、系统、装置和存储介质

Publications (1)

Publication Number Publication Date
CN110059157A true CN110059157A (zh) 2019-07-26

Family

ID=67317050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910204688.8A Pending CN110059157A (zh) 2019-03-18 2019-03-18 一种图文跨模态检索方法、系统、装置和存储介质

Country Status (1)

Country Link
CN (1) CN110059157A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674688A (zh) * 2019-08-19 2020-01-10 深圳力维智联技术有限公司 用于视频监控场景的人脸识别模型获取方法、系统和介质
CN110704637A (zh) * 2019-09-29 2020-01-17 出门问问信息科技有限公司 一种多模态知识库的构建方法、装置及计算机可读介质
CN111078952A (zh) * 2019-11-20 2020-04-28 重庆邮电大学 一种基于层次结构的跨模态可变长度哈希检索方法
CN111598712A (zh) * 2020-05-18 2020-08-28 北京邮电大学 社交媒体跨模态搜索中数据特征生成器训练及搜索方法
CN112199462A (zh) * 2020-09-30 2021-01-08 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置
CN112488133A (zh) * 2020-12-18 2021-03-12 贵州大学 一种视频/图片-文本跨模态检索方法
CN112488131A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于自监督对抗的图片文本跨模态检索方法
CN112905540A (zh) * 2021-02-05 2021-06-04 智慧芽信息科技(苏州)有限公司 检索文件的方法和装置
CN112925935A (zh) * 2021-04-13 2021-06-08 电子科技大学 基于模态内及模态间混合融合的图像菜谱检索方法
CN113157739A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 跨模态检索方法、装置、电子设备及存储介质
CN113627262A (zh) * 2021-07-13 2021-11-09 深圳力维智联技术有限公司 文字识别方法、装置及设备
CN113723070A (zh) * 2021-08-20 2021-11-30 上海浦东发展银行股份有限公司 文本相似度模型训练方法、文本相似度检测方法及装置
CN113822224A (zh) * 2021-10-12 2021-12-21 中国人民解放军国防科技大学 融合多模态学习与多粒度结构学习的谣言检测方法及装置
WO2024011814A1 (zh) * 2022-07-12 2024-01-18 苏州元脑智能科技有限公司 一种图文互检方法、系统、设备及非易失性可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778170A (zh) * 2014-01-09 2015-07-15 阿里巴巴集团控股有限公司 搜索展示商品图像的方法和装置
CN106503853A (zh) * 2016-11-02 2017-03-15 华南师范大学 一种基于多标度卷积神经网络的外汇交易预测模型
CN106777125A (zh) * 2016-12-16 2017-05-31 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于神经网络及图像关注点的图像描述生成方法
CN106897390A (zh) * 2017-01-24 2017-06-27 北京大学 基于深度度量学习的目标精确检索方法
CN106951911A (zh) * 2017-02-13 2017-07-14 北京飞搜科技有限公司 一种快速的多标签图片检索系统及实现方法
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和系统
CN109299342A (zh) * 2018-11-30 2019-02-01 武汉大学 一种基于循环生成式对抗网络的跨模态检索方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778170A (zh) * 2014-01-09 2015-07-15 阿里巴巴集团控股有限公司 搜索展示商品图像的方法和装置
CN106503853A (zh) * 2016-11-02 2017-03-15 华南师范大学 一种基于多标度卷积神经网络的外汇交易预测模型
CN106777125A (zh) * 2016-12-16 2017-05-31 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于神经网络及图像关注点的图像描述生成方法
CN106897390A (zh) * 2017-01-24 2017-06-27 北京大学 基于深度度量学习的目标精确检索方法
CN106951911A (zh) * 2017-02-13 2017-07-14 北京飞搜科技有限公司 一种快速的多标签图片检索系统及实现方法
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和系统
CN109299342A (zh) * 2018-11-30 2019-02-01 武汉大学 一种基于循环生成式对抗网络的跨模态检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YUE CAO 等: "Deep Visual-Semantic Hashing for Cross-Modal Retrieval", 《KDD "16: PROCEEDINGS OF THE 22ND ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 *
闭蓉: "基于深度哈希的图片检索系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陈兆佳: "基于三元组深度哈希的跨模态检索方法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674688B (zh) * 2019-08-19 2023-10-31 深圳力维智联技术有限公司 用于视频监控场景的人脸识别模型获取方法、系统和介质
CN110674688A (zh) * 2019-08-19 2020-01-10 深圳力维智联技术有限公司 用于视频监控场景的人脸识别模型获取方法、系统和介质
CN110704637A (zh) * 2019-09-29 2020-01-17 出门问问信息科技有限公司 一种多模态知识库的构建方法、装置及计算机可读介质
CN111078952A (zh) * 2019-11-20 2020-04-28 重庆邮电大学 一种基于层次结构的跨模态可变长度哈希检索方法
CN111078952B (zh) * 2019-11-20 2023-07-21 重庆邮电大学 一种基于层次结构的跨模态可变长度哈希检索方法
CN111598712A (zh) * 2020-05-18 2020-08-28 北京邮电大学 社交媒体跨模态搜索中数据特征生成器训练及搜索方法
CN111598712B (zh) * 2020-05-18 2023-04-18 北京邮电大学 社交媒体跨模态搜索中数据特征生成器训练及搜索方法
WO2022068195A1 (zh) * 2020-09-30 2022-04-07 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置
CN112199462A (zh) * 2020-09-30 2021-01-08 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置
CN112488131A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于自监督对抗的图片文本跨模态检索方法
CN112488133A (zh) * 2020-12-18 2021-03-12 贵州大学 一种视频/图片-文本跨模态检索方法
CN112488131B (zh) * 2020-12-18 2022-06-14 贵州大学 一种基于自监督对抗的图片文本跨模态检索方法
CN112488133B (zh) * 2020-12-18 2022-06-14 贵州大学 一种视频/图片-文本跨模态检索方法
CN112905540A (zh) * 2021-02-05 2021-06-04 智慧芽信息科技(苏州)有限公司 检索文件的方法和装置
CN112925935B (zh) * 2021-04-13 2022-05-06 电子科技大学 基于模态内及模态间混合融合的图像菜谱检索方法
CN112925935A (zh) * 2021-04-13 2021-06-08 电子科技大学 基于模态内及模态间混合融合的图像菜谱检索方法
CN113157739A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 跨模态检索方法、装置、电子设备及存储介质
CN113157739B (zh) * 2021-04-23 2024-01-09 平安科技(深圳)有限公司 跨模态检索方法、装置、电子设备及存储介质
CN113627262A (zh) * 2021-07-13 2021-11-09 深圳力维智联技术有限公司 文字识别方法、装置及设备
CN113723070A (zh) * 2021-08-20 2021-11-30 上海浦东发展银行股份有限公司 文本相似度模型训练方法、文本相似度检测方法及装置
CN113723070B (zh) * 2021-08-20 2024-01-23 上海浦东发展银行股份有限公司 文本相似度模型训练方法、文本相似度检测方法及装置
CN113822224A (zh) * 2021-10-12 2021-12-21 中国人民解放军国防科技大学 融合多模态学习与多粒度结构学习的谣言检测方法及装置
CN113822224B (zh) * 2021-10-12 2023-12-26 中国人民解放军国防科技大学 融合多模态学习与多粒度结构学习的谣言检测方法及装置
WO2024011814A1 (zh) * 2022-07-12 2024-01-18 苏州元脑智能科技有限公司 一种图文互检方法、系统、设备及非易失性可读存储介质

Similar Documents

Publication Publication Date Title
CN110059157A (zh) 一种图文跨模态检索方法、系统、装置和存储介质
Pan et al. Prerequisite relation learning for concepts in moocs
CN112329016B (zh) 一种基于深度神经网络的可视化恶意软件检测装置及方法
CN106095893B (zh) 一种跨媒体检索方法
WO2020177432A1 (zh) 基于目标检测网络的多标签物体检测方法、系统、装置
Zhang et al. Dual mutual learning for cross-modality person re-identification
CN109271401A (zh) 一种题目搜索、批改方法、装置、电子设备和存储介质
CN110472090A (zh) 基于语义标签的图像检索方法以及相关装置、存储介质
Hu et al. Defect identification method for poplar veneer based on progressive growing generated adversarial network and MASK R-CNN model
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN110210625A (zh) 基于迁移学习的建模方法、装置、计算机设备和存储介质
CN105320764A (zh) 一种基于增量慢特征的3d模型检索方法及其检索装置
CN108830236A (zh) 一种基于深度特征的行人重识别方法
CN112784921A (zh) 任务注意力引导的小样本图像互补学习分类算法
CN110866564A (zh) 多重半监督图像的季节分类方法、系统、电子设备和介质
CN115861738A (zh) 一种类别语义信息引导的遥感目标检测主动采样方法
CN116306863A (zh) 基于对比学习的协同知识追踪建模方法及系统
CN110264392B (zh) 一种基于多gpu的强连通图检测方法
CN110941976A (zh) 一种基于卷积神经网络的学生课堂行为识别方法
CN115438152B (zh) 一种基于多神经网络与知识图谱的简答题评分方法及系统
CN114971425B (zh) 数据库信息监控方法、装置、设备及存储介质
Liu et al. Fuzzy c-mean algorithm based on Mahalanobis distances and better initial values
CN116071609A (zh) 基于目标特征动态自适应提取的小样本图像分类方法
CN115861729A (zh) 基于深度学习算法的小样本林业害虫识别方法
CN113887653B (zh) 一种基于三元网络的紧耦合弱监督学习的定位方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190726