CN116089645A - 一种基于层次化风格的条件文本-电商图片检索方法和系统 - Google Patents

一种基于层次化风格的条件文本-电商图片检索方法和系统 Download PDF

Info

Publication number
CN116089645A
CN116089645A CN202211665322.9A CN202211665322A CN116089645A CN 116089645 A CN116089645 A CN 116089645A CN 202211665322 A CN202211665322 A CN 202211665322A CN 116089645 A CN116089645 A CN 116089645A
Authority
CN
China
Prior art keywords
features
text
picture
style
image block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211665322.9A
Other languages
English (en)
Inventor
彭宇新
陈彦哲
何相腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202211665322.9A priority Critical patent/CN116089645A/zh
Publication of CN116089645A publication Critical patent/CN116089645A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于层次化风格的条件文本‑电商图片的检索方法和系统。该方法包括以下步骤:1.建立条件文本‑电商图片数据库。2.通过滑动窗口机制和双阶段自注意机制将图像块的平均特征与图像块特征之间进行交互,得到图像块的共性特征。3.将共性特征通过图推理网络与图像块特征进行融合,并通过局部区域过滤网络过滤掉无用图像块特征,得到图像块的差异特征。4.将共性特征与差异特征通过低层‑高层交互融合得到风格特征。5.以风格特征作为查询样例,根据查询样例检索目标图片。本发明能够充分挖掘图像细粒度信息以及空间上下文信息,并学习包含风格的视觉特征与修改文本之间的融合对齐,比现有方法达到更高的检索准确率。

Description

一种基于层次化风格的条件文本-电商图片检索方法和系统
技术领域
本发明涉及多媒体检索领域,具体涉及一种基于层次化风格的条件文本-电商图片检索方法和系统。
背景技术
条件文本-图片检索是一种高度灵活的检索方式,用户可以根据参考图片,提出针对该图片的修改意见,检索符合用户需求的目标图片。传统的图像单模态检索,只能返回与参考图片接近的目标,无法契合用户的自定义需求;传统的文本-图像跨媒体检索,难以针对用户简短的修改意见精准检索目标。与以上两者不同的是,条件文本-图片检索更加方便灵活,可结合文本、图像两个模态的信息查询检索得到符合用户需求的结果。
条件文本-图片检索的挑战是如何应对文本与图片两种模态的不一致性,并学习其内在关联。由于图像与文本数据具有不同的的表示形式以及分布特性,且包含不对等的语义信息量,导致不同模态间的特征难以融合利用。
针对上述问题,现有方法往往将文本与图片模态数据的特征投射到统一语义空间来学习跨模态融合表征,并根据该融合特征检索最接近的目标图像。例如,Chen等人提出VAL方法,通过视觉与文本模态之间的多层级交互,将模态内包含的语义信息更充分地对齐,提高了检索的准确率。Kim等人提出DCNet方法(Jongseok Kim,Youngjae Yu,HoeseongKim,and Gunhee Kim.Dual compositional learning in interactive imageretrieval.In Thirty-Fifth AAAI Conference on Artificial Intelligence,AAAI2021.),通过引入文本查询最小化统一空间中参考图片和目标图片之间的差异,提升了条件文本-图片的检索效率。此外,挖掘图片中包含的丰富的语义信息,有助于跨模态融合表征与目标图片表征之间的对齐。例如,Baldrati等人提出了CLIP4Cir方法(AlbertoBaldrati,Marco Bertini,Tiberio Uricchio,and Alberto Del Bimbo.Effectiveconditioned and composed image retrieval combining clip-based features.InIEEE/CVF Conference on Computer Vision and Pattern Recognition,CVPR 2022),通过引入CLIP模型提取图像与文本的特征,设计了简洁高效的融合模型将两种模态的特征映射到同一表征空间。
然而,上述方法都没有考虑到电商图片中包含的风格信息,例如都市风、运动风、校园风等。而这些风格信息对满足用户的修改需求、提高用户检索体验至关重要。
发明内容
针对现有技术的不足,本发明提出了一种基于层次化风格的条件文本-电商图片的检索方法和系统。定义电商图片的风格为图片局部区域之间的共性和差异。根据此定义,本发明利用双阶段自注意机制,以及图推理网络和局部区域过滤网络分别学习图像局部区域的共性特征和差异特征,从而建模图像风格。本发明通过模态内-模态间两种方式融合风格强化的图像特征与文本特征,进一步将融合特征与目标特征对齐,取得了更好的检索准确率。
为达到以上目的,本发明采用的技术方案如下:
一种基于层次化风格的条件文本-电商图片的检索方法,包括以下步骤,其中步骤(1)-(3)得到包含电商图片风格的语义信息,步骤(4)进一步实现参考图片特征和修改文本的融合,检索目标商品图片:
(1)建立条件文本-电商图片数据库,包含参考图片-修改文本-目标图片的三元组数据;
(2)通过滑动窗口机制获得条件文本-电商图片数据库中参考图片的图像块,通过双阶段自注意机制将图像块的平均特征与图像块特征之间进行交互,得到图像块的共性特征;
(3)将步骤(2)中得到的共性特征通过图推理网络与图像块特征进行融合,并利用局部区域过滤网络过滤掉无用图像块特征,得到图像块的差异特征;
(4)将步骤(2)中共性特征与步骤(3)中差异特征通过低层-高层交互融合得到风格特征,将其作为查询样例,根据查询样例检索目标图片,即将条件文本-电商图片数据库中目标图片的特征作为查询目标,计算查询样例和查询目标的相似性,根据相似性得到目标模态数据的相关结果列表。
进一步,上述一种基于层次化风格的条件文本-电商图片的检索方法,所述步骤(1)条件文本-电商图片数据库包含图像、文本两种模态,可以包含多种服装种类和风格。
进一步,上述一种基于层次化风格的条件文本-电商图片的检索方法,所述步骤(2)的双阶段自注意力机制,对图像块特征训练双阶段自注意力网络,将每个图像块映射到共有的语义空间,得到图像块的共性特征。
进一步,上述一种基于层次化风格的条件文本-电商图片的检索方法,所述步骤(3)中图推理网络和局部区域过滤网络,使用多层图推理的方式将从不同图像块蕴含的语义信息进行关联,并自适应地过滤关联性弱的无用图像块特征,得到图像块的差异特征。
进一步,上述一种基于层次化风格的条件文本-电商图片的检索方法,所述步骤(4)的检索方式是,使用风格特征作为查询样例,目标图片的特征作为查询目标。对于每个查询样例,与查询目标的所有数据计算相似性,然后按照相似性从大到小排序,得到相关结果列表。
与上面方法对应的,本发明还提供一种基于层次化风格的条件文本-电商图片的检索系统,其包括:
共性特征提取模块,用于使用滑动窗口机制和双阶段自注意机制将图像块的平均特征与图像块特征之间进行交互,得到图像块的共性特征;
差异特征提取模块,用于将共性特征通过图推理网络与图像块特征进行融合,并利用局部区域过滤网络过滤掉无用图像块特征,得到图像块的差异特征;
特征融合模块,用于将共性特征与差异特征通过低层-高层交互融合得到风格特征;
检索模块,用于将风格特征作为查询样例,将目标图片作为查询目标,计算查询样例和查询目标的相似性,将相似性按照从大到小排序,根据相似性得到目标模态图片数据的相关结果列表。
本发明的效果在于:与现有方法相比,本方法通过显式地定义电商图片的风格,分别建模电商图片局部区域的共性特征和差异特征,能够充分挖掘图像细粒度信息以及空间上下文信息。此外,本发明通过基于域内与域间跨模态对齐,充分融合基于图像的风格特征与基于修改文本的文本特征之间的关联信息,提高了条件文本-电商图片的检索准确率。
本方法之所以具有上述发明效果,其原因在于:针对具有多种风格的电商图片显式地将风格定义为图像块的共性和差异。基于上述定义,利用双阶段自注意力机制以及多层图推理网络分别建模共性特征和差异特征,充分挖掘图片模态内部的细粒度信息以及空间上下文信息,提高关联区域块之间的建模能力。利用局部区域过滤网络自适应地过滤交互信息弱的图像块,降低了交互性弱的图像块对结果的影响,增加了建模风格特征的鲁棒性。其次,本方法通过对域内和域间跨模态特征之间的关联进行挖掘,取得了更好地检索性能。
附图说明
图1是本发明的一种基于层次化风格的条件文本-电商图片的检索方法流程图。
图2是本发明的完整网络结构的示意图。其中,α表示
Figure BDA0004014541080000031
特征的权重,β表示
Figure BDA0004014541080000032
特征的权重,Q表示查询特征。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述。
本发明的一种基于层次化风格的条件文本-电商图片的检索方法,其流程如图1所示,包含以下步骤:
(1)建立条件文本-电商图片数据库,包含参考图片-修改文本-目标图片的三元组数据。
其中,参考图片为电商产品图片;修改文本为针对颜色、尺寸、风格等方面的修改意见;目标图片为以参考图片为基础,最接近修改文本要求的电商产品图片。
图像特征向量具体为:使用CLIP预训练模型中的RN50x4模型,输入图像尺寸为288×288,输出图像特征向量为640维;文本特征向量具体为:CLIP预训练模型中的Transformer模型,其包含12层,输出文本特征向量T为640维。
(2)通过滑动窗口机制和双阶段自注意机制将图像块的平均特征与图像块特征之间进行交互,得到图像块的共性特征。
本发明首先基于滑动窗口机制,将条件文本-电商图片数据库中参考图片按照2×2以及3×3等大小获得13个图像块。每个图像块通过(1)中图像模型提取特征得到图像块特征pi。本发明设计了一种双阶段自注意力机制得到图像块的共性特征。第一步,使用简单自注意力机制,将所有图像块特征的平均作为pr;第二步,对第一步中的pr使用多头注意力机制得到pm。进一步,通过如下公式计算图像块的共性特征pc
pc=fc([pm,fq(pr)])
其中,fc和fq都为全连接层。
(3)将共性特征通过图推理网络与图像块特征进行融合,并通过局部区域过滤网络过滤掉无用图像块特征,得到图像块的差异特征。
本发明设计了一种图连接网络来关联图像块特征从而获得图像块差异特征。具体地,将步骤(2)获得的每个图像块特征pi以及共性特征pc作为图节点,通过如下公式分别建立图推理网络中的节点
Figure BDA0004014541080000041
和边e:
Figure BDA0004014541080000042
Figure BDA0004014541080000043
其中,Win和Wout为全连接层,在入节点vin和出节点vout之间之间传递关联信息。
在构建图推理网络后,通过如下公式更新图推理网络中的节点与边:
Figure BDA0004014541080000044
其中,L表示图推理网络的层数,
Figure BDA0004014541080000045
表示全连接层。经过图推理网络后,共性特征pc与图像块特征之间充分关联完成信息交互,初步得到差异特征
Figure BDA0004014541080000046
为了减小不重要图像块对结果的干扰,本发明设计了过滤网络自适应地计算图像块的重要权重并更新得到过滤后的差异特征
Figure BDA0004014541080000051
计算过程如下:
Figure BDA0004014541080000052
Figure BDA0004014541080000053
其中,σ为Sigmoid函数,BN为批标准化操作,Wf为全连接层,vi为图像块特征。
考虑到不同电商产品包含的不重要图像块比例是不同的,为了提高本发明的鲁邦性,本发明通过引入两个自学习参数α和β来平衡
Figure BDA0004014541080000054
Figure BDA0004014541080000055
的重要程度,并得到差异特征pd,如以下公式所示:
Figure BDA0004014541080000056
(4)将目标图片的图片特征作为查询目标。将共性特征和差异特征融合得到的风格特征作为查询样例,计算查询样例和查询目标的相似性,根据相似性得到目标模态数据的相关结果列表。
本发明设计了一种图像风格特征与文本跨模态对齐的融合方法,称为域内域间跨模态对齐的方式。第一阶段,将图像块共性特征与图像块差异特征融合。首先通过如下公式得到低层交互特征pl
pl=fl([fc(pc),fd(pd)])
其中,fl、fc和fd为全连接层。通过学习自适应的参数θ,将共性特征与差异特征融合得到基于图像块的风格特征ph如以下公式所示:
θ=fθ([fc(pc),fd(pd)])
ph=fh(pl)+θ·pc+(1-θ)·pd
fθ、fc、fd、fh为全连接层映射网络。
第二阶段,将风格特征ph与全局图像特征拼接得到视觉特征V。使用域内域间跨模态对齐的方式将包含风格的视觉特征V和修改文本的文本特征T进行融合。首先通过自注意力机制获得域内注意力特征V′和T′,如以下公式所示:
Figure BDA0004014541080000057
Figure BDA0004014541080000058
其中,MLP为全连接层网络,m为参考图片和修改文本的数量,T为修改文本的文本特征,ti为每条修改文本的文本特征。分别采用类似第一阶段的融合方式学习两个自适应权重θself和θcom,并得到融合特征如以下公式所示:
Figure BDA0004014541080000061
Figure BDA0004014541080000062
Ffinal=Fself+Fcom
其中,
Figure BDA0004014541080000063
Figure BDA0004014541080000064
为全连接层网络,
Figure BDA0004014541080000065
为低层域内交互特征,
Figure BDA0004014541080000066
为低层域间交互特征,Fself为高层域内交互特征,Fcom为高层域间交互特征。
下面的实验结果表明,与现有方法相比,本发明的基于层次化风格的条件文本-电商图片的检索方法,可以取得更高的检索准确率。
本实施例采用了FashionIQ条件文本-电商图片数据集进行实验,该数据集由文献“Fashion iq:A new dataset towards retrieving images by natural languagefeedback”(作者Hui Wu,Yupeng Gao,Xiaoxiao Guo,Ziad Al-Halah,Steven Rennie,Kristen Grauman和Rogerio Feris,发表在2021年的CVPR)提出,其中共有三个大类类,训练集包含18000对参考图片-修改文本-目标图片三元组,验证集包含6017对,测试集包含6119对。测试了以下3种方法作为实验对比:
现有方法一:文献“Image Search with Text Feedback by VisiolinguisticAttention Learning”(作者Yanbei Chen,Shaogang Gong和Loris Bazzani)中的VAL方法。
现有方法二:文献“Dual compositional learning in interactive imageretrieval”(作者Jongseok Kim,Youngjae Yu,Hoeseong Kim和Gunhee Kim)中的DCNet方法。
现有方法三:文献“Effective conditioned and composed image retrievalcombining clip-based features.”(作者Alberto Baldrati,Marco Bertini,TiberioUricchio和Alberto Del Bimbo)中的CLIP4Cir方法。
本发明:本实施例的方法。
实验采用信息检索领域常用的Recall@10、Recall@50以及两者的平均值指标来评测检索的准确性。对于一组参考图片以及修改文本,搜索k个最接近的目标图片,如果其中包含目标图片,则记此次查询的分数为1,否则为0。Recall@K是指测试集中所有查询的分数的平均。Recall值越大,说明检索的结果就越好。
从表1可以看出,本发明在R@10和平均指标上有较大提高。三种现有方法都没有充分利用电商图片中包含的丰富的风格信息。本发明通过双阶段注意力机制,以及图推理网络和过滤网络建模电商图片的风格特征,并利用域内域间跨模态对齐挖掘参考图片-修改文本-目标图片三元组之间的关联,因此能取得更好的检索准确率。
表1.本发明的实验结果展示
R@10 R@50 平均
现有方法一 24.15 46.61 35.40
现有方法二 27.78 53.89 40.84
现有方法三 35.39 59.03 47.21
本发明 37.78 60.64 49.21
在其它实施例中,本发明步骤(1)中提取文本特征的方法,使用CLIP预训练模型建模文本特征,同样可以采用LSTM(Long-Short Term Memory,长短期记忆)神经网络,以及循环神经网络(Recurrent Neural Network,简称RNN)神经网络作为替代。
本发明的另一实施例提供一种基于层次化风格的条件文本-电商图片的检索系统,其包括:
共性特征提取模块,用于使用滑动窗口机制和双阶段自注意机制将图像块的平均特征与图像块特征之间进行交互,得到图像块的共性特征;
差异特征提取模块,用于将共性特征通过图推理网络与图像块特征进行融合,并利用局部区域过滤网络过滤掉无用图像块特征,得到图像块的差异特征;
特征融合模块,用于将共性特征与差异特征通过低层-高层交互融合得到风格特征;
检索模块,用于将风格特征作为查询样例,将目标图片作为查询目标,计算查询样例和查询目标的相似性,将相似性按照从大到小排序,根据相似性得到目标模态图片数据的相关结果列表。
其中各模块的具体实施过程参见前文对本发明方法的描述。
本发明的另一实施例提供一种计算机设备(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于层次化风格的条件文本-电商图片的检索方法,包括以下步骤:
建立条件文本-电商图片数据库,包含参考图片-修改文本-目标图片的三元组数据;
通过滑动窗口机制获得条件文本-电商图片数据库中参考图片的图像块,通过双阶段自注意机制将图像块的平均特征与图像块特征之间进行交互,得到图像块的共性特征;
将共性特征通过图推理网络与图像块特征进行融合,并利用局部区域过滤网络过滤掉无用图像块特征,得到图像块的差异特征;
将共性特征与差异特征通过低层-高层交互融合得到风格特征,将其作为查询样例,根据查询样例检索目标图片。
2.如权利要求1所述的方法,其特征在于,所述条件文本-电商图片数据库,包含参考图片-修改文本-目标图片的三元组数据;参考图片为电商产品图片;修改文本为针对颜色、尺寸、风格等方面的修改意见;目标图片为以参考图片为基础,最接近修改文本要求的电商产品图片。
3.如权利要求1所述的方法,其特征在于,所述双阶段自注意力机制对图像块特征训练双阶段自注意力网络,将每个图像块映射到共有的语义空间,得到图像块的共性特征。
4.如权利要求1所述的方法,其特征在于,所述双阶段自注意机制为:
a)将图片分割为多个图像块,并提取特征得到图像块特征pi
b)使用简单自注意力机制,将所有图像块特征pi的平均作为pr
c)对pr使用多头注意力机制得到pm,通过如下公式计算图像块的共性特征pc
pc=fc([pm,fq(pr)])
其中,fc和fq都为全连接层。
5.如权利要求4所述的方法,其特征在于,所述图像块的差异特征的构造方法为:
a)将每个图像块特征pi以及共性特征pc作为图节点,通过如下公式分别建立图推理网络中的点
Figure FDA0004014541070000011
和边e:
Figure FDA0004014541070000012
Figure FDA0004014541070000013
其中,Win和Wout为全连接层,在入节点vin和出节点vout之间之间传递关联信息;
b)构建图推理网络后,通过如下公式更新图推理网络中的节点与边:
Figure FDA0004014541070000014
其中,L表示图推理网络的层数,
Figure FDA0004014541070000021
表示全连接层;经过图推理网络后,共性特征pc与图像块特征之间充分关联完成信息交互,初步得到差异特征
Figure FDA0004014541070000022
c)为了减小不重要图像块对结果的干扰,设计过滤网络自适应地计算图像块的权重并更新得到过滤后的差异特征
Figure FDA0004014541070000023
计算过程如下:
Figure FDA0004014541070000024
Figure FDA0004014541070000025
其中,σ为Sigmoid函数,BN为批标准化操作,Wf为全连接层,vi为图像块特征;
d)引入两个自学习参数α和β来平衡
Figure FDA0004014541070000026
Figure FDA0004014541070000027
的重要程度,并得到差异特征pd,如以下公式所示:
Figure FDA0004014541070000028
6.如权利要求5所述的方法,其特征在于,所述将共性特征与差异特征通过低层-高层交互融合得到风格特征,是使用域内域间跨模态对齐的方式将包含风格的视觉特征和修改文本的文本特征进行融合,包括以下步骤:
a)将图像块共性特征与图像块差异特征融合,通过如下公式得到低层交互特征pl
pl=fl([fc(pc),fd(pd])
其中,fl、fc和fd为全连接层;
b)通过学习自适应的参数θ,将共性特征与差异特征融合得到基于图像块的风格特征ph
如以下公式所示:
θ=fθ([fc(pc),fd(pd])
ph=fh(pl)+θ·pc+(1-θ)·pd
其中,fθ、fh为全连接层;
c)将风格特征ph与全局图像特征拼接得到视觉特征V,使用域内域间跨模态对齐的方式将包含风格的视觉特征V和修改文本的文本特征T进行融合,通过自注意力机制获得域内注意力特征V′和T′,如以下公式所示:
Figure FDA0004014541070000029
Figure FDA0004014541070000031
其中,MLP为全连接层网络,m为参考图片和修改文本的数量,T为修改文本的文本特征,ti为每条修改文本的文本特征;
d)分别采用a)和b)的融合方式学习两个自适应权重θself和θcom,并得到融合特征Ffinal如以下公式所示:
Figure FDA0004014541070000032
Figure FDA0004014541070000033
Ffinal=Fself+Fcom
其中,
Figure FDA0004014541070000034
Figure FDA0004014541070000035
为全连接层网络,
Figure FDA0004014541070000036
为低层域内交互特征,
Figure FDA0004014541070000037
为低层域间交互特征,Fself为高层域内交互特征,Fcom为高层域间交互特征。
7.如权利要求1所述的方法,其特征在于,所述根据查询样例检索目标图片,是将条件文本-电商图片数据库中目标图片的特征作为查询目标,计算查询样例和查询目标的相似性,根据相似性得到目标模态数据的相关结果列表。
8.一种基于层次化风格的条件文本-电商图片的检索系统,其特征包括:
共性特征提取模块,使用滑动窗口机制和双阶段自注意机制将图像块的平均特征与图像块特征之间进行交互,得到图像块的共性特征;
差异特征提取模块,将共性特征通过图推理网络与图像块特征进行融合,并利用局部区域过滤网络过滤掉无用图像块特征,得到图像块的差异特征;
特征融合模块,用于将共性特征与差异特征通过低层-高层交互融合得到风格特征;
检索模块,将风格特征作为查询样例,将目标图片作为查询目标,计算查询样例和查询目标的相似性,将相似性按照从大到小排序,根据相似性得到目标模态图片数据的相关结果列表。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~7中任一项所述方法的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~7中任一项所述的方法。
CN202211665322.9A 2022-12-23 2022-12-23 一种基于层次化风格的条件文本-电商图片检索方法和系统 Pending CN116089645A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211665322.9A CN116089645A (zh) 2022-12-23 2022-12-23 一种基于层次化风格的条件文本-电商图片检索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211665322.9A CN116089645A (zh) 2022-12-23 2022-12-23 一种基于层次化风格的条件文本-电商图片检索方法和系统

Publications (1)

Publication Number Publication Date
CN116089645A true CN116089645A (zh) 2023-05-09

Family

ID=86212943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211665322.9A Pending CN116089645A (zh) 2022-12-23 2022-12-23 一种基于层次化风格的条件文本-电商图片检索方法和系统

Country Status (1)

Country Link
CN (1) CN116089645A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578734A (zh) * 2023-05-20 2023-08-11 重庆师范大学 一种基于clip的概率嵌入组合检索方法
CN117218453A (zh) * 2023-11-06 2023-12-12 中国科学院大学 一种不完备多模态医学影像学习方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578734A (zh) * 2023-05-20 2023-08-11 重庆师范大学 一种基于clip的概率嵌入组合检索方法
CN116578734B (zh) * 2023-05-20 2024-04-30 重庆师范大学 一种基于clip的概率嵌入组合检索方法
CN117218453A (zh) * 2023-11-06 2023-12-12 中国科学院大学 一种不完备多模态医学影像学习方法
CN117218453B (zh) * 2023-11-06 2024-01-16 中国科学院大学 一种不完备多模态医学影像学习方法

Similar Documents

Publication Publication Date Title
CN111488734B (zh) 基于全局交互和句法依赖的情感特征表示学习系统及方法
CN112966127B (zh) 一种基于多层语义对齐的跨模态检索方法
Oza et al. Unsupervised domain adaptation of object detectors: A survey
CN113822494B (zh) 风险预测方法、装置、设备及存储介质
CN110956185B (zh) 一种图像显著目标的检测方法
CN112784092A (zh) 一种混合融合模型的跨模态图像文本检索方法
CN113065577A (zh) 一种面向目标的多模态情感分类方法
CN116089645A (zh) 一种基于层次化风格的条件文本-电商图片检索方法和系统
CN112380435A (zh) 基于异构图神经网络的文献推荐方法及推荐系统
KR20200075114A (ko) 이미지와 텍스트간 유사도 매칭 시스템 및 방법
CN110826639B (zh) 一种利用全量数据训练零样本图像分类方法
CN111046275A (zh) 基于人工智能的用户标签确定方法及装置、存储介质
CN111611367B (zh) 一种引入外部知识的视觉问答方法
CN113360621A (zh) 一种基于模态推理图神经网络的场景文本视觉问答方法
CN113761250A (zh) 模型训练方法、商户分类方法及装置
CN111783903A (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN111522979B (zh) 图片排序推荐方法、装置、电子设备、存储介质
CN116431914A (zh) 一种基于个性化偏好转移模型的跨域推荐方法及系统
Lonij et al. Open-world visual recognition using knowledge graphs
CN111125318B (zh) 基于义原-义项信息提升知识图谱关系预测性能的方法
CN114579769A (zh) 小样本知识图谱补全方法、系统、设备及存储介质
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN113239219B (zh) 一种基于多模态查询的图像检索方法、系统、介质及设备
CN113516118A (zh) 一种图像与文本联合嵌入的多模态文化资源加工方法
Zhang et al. Mutual purification for unsupervised domain adaptation in person re-identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination