CN115168634A - 一种基于多层级表征的面料跨模态图文检索方法 - Google Patents

一种基于多层级表征的面料跨模态图文检索方法 Download PDF

Info

Publication number
CN115168634A
CN115168634A CN202210922659.7A CN202210922659A CN115168634A CN 115168634 A CN115168634 A CN 115168634A CN 202210922659 A CN202210922659 A CN 202210922659A CN 115168634 A CN115168634 A CN 115168634A
Authority
CN
China
Prior art keywords
text
image
retrieval
fabric
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210922659.7A
Other languages
English (en)
Inventor
潘如如
张宁
向军
周建
王蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202210922659.7A priority Critical patent/CN115168634A/zh
Publication of CN115168634A publication Critical patent/CN115168634A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于面料检索方法领域,涉及一种基于多层级表征的面料跨模态图文检索方法。所述方法步骤如下:建立包含图像和文本数据的产品库;构建图像多层级表征模型处理图像;构建文本多层级表征模型处理文本,得到产品库中文本数据的多层级特征描述,与图像数据的多层级特征描述形成对应关系;构建图文层级特征匹配模型,处理得到的图文多层级特征描述,进行图文特征的层级匹配;制定检索策略,进行图文特征的相似性度量,并根据相似性的大小将相应的文本或图像按顺序进行显示;将检索结果中图像对应的织物工艺单或文本对应的图像调出,以指导生产。本发明具有较高的检索准确率和灵活性,在跨模态检索的工业应用领域具有非常大的潜力。

Description

一种基于多层级表征的面料跨模态图文检索方法
技术领域
本发明属于面料检索方法领域,涉及一种基于多层级表征的面料跨模态图文检索方法。
背景技术
日益提升的消费水平促使面料款式和风格日新月异。为了适应面料市场变化,面料生产企业逐步转向小批量、多品种的生产模式。此模式下的面料产品快速更新换代,使得企业面临已有产品信息查询困难的问题,难以发挥历史生产经验优势。基于内容的图像检索在一定程度上解决了面料查询困难的问题,但难以应对文本查询意向图像和图像查询文本工艺单这两大需求。基于文本的图像检索可解决前一需求,但面料产品通常细分难度大,人工标注耗时费力、关键词的主观性较强。随着多源异构数据的发展,面料图文之间的互查已经成为纺织企业亟待解决的问题。跨模态图文检索技术通过建立图像与文本特征间的匹配关系,可快速获得相对应的文本描述或意向图像,对于解决面料产品图文互查问题具有重要的研究价值。
目前,尚未有面料跨模态检索的相关报道。现有通用的跨模态图文检索未结合面料产品的特点,其表征方法难以充分表征异构性强的面料图文层级信息,且应对面料图文模态部分信息缺失的情形。通过建立一种基于多层级表征的面料跨模态图文检索方法,可满足面料图像或文本作为查询条件的检索需求,提高面料检索灵活性,快速获取所需的文本工艺单或意向图像。
发明内容
本发明的目的在于提出一种高效精确、鲁棒性强的基于多层级表征的面料跨模态图文检索方法,灵活地检索意向图像或产品工艺单,用于指导生产。
基于上述目的本发明提供了一种基于多层级表征的面料跨模态图文检索方法,包括以下步骤:
S1:建立包含图像和文本数据的产品库;
从所述的产品库中选择成对的图像和文本数据构建跨模态图文检索数据集,用于模型训练和验证,主要包括训练集、验证集和测试集。
S2:构建图像多层级表征模型处理图像,得到产品库中图像数据的多层级特征描述;
所述的图像多层级表征模型以卷积神经网络作为底层框架,从多个视角构建多任务图像分类模型,挖掘图像不同层级的特征。
S3:构建文本多层级表征模型处理文本,得到产品库中文本数据的多层级特征描述,与图像数据的多层级特征描述形成对应关系;
所述的文本多层级表征模型以双向循环神经网络作为底层框架,结合注意力机制抽取文本关键词对复杂的语义依存信息进行简化,并增加全局约束进行层级表征。
S4:构建图文层级特征匹配模型,处理S2和S3得到的图文多层级特征描述,进行图文特征的层级匹配;
所述的图文层级特征匹配模型通过设计双向掩蔽修复模型来匹配不同层级的图文特征,并在联合嵌入空间约束全局相似性,减小图文匹配的粒度,进一步弥合图文异构差异。
S5:制定检索策略,进行图文特征的相似性度量,并根据相似性的大小将相应的文本或图像按顺序进行显示;
所述的检索策略根据S2和S3构建的图像和文本多层级表征模型的层级类别预测对产品库中的数据进行检索池划分,逐级细化搜索空间,并根据类别分布概率确定检索场景,判断是否跨池检索以及跨池的数量。
S6:将检索结果中图像对应的产品工艺单或文本对应的图像调出,以指导生产。
所述的产品工艺单包括产品标题、描述和属性信息。
本发明的有益效果:
本发明从面料生产企业的检索需求出发,提出一种基于多层级表征的面料跨模态图文检索方法。基于面料图文信息模态内的层级特性和模态间的强异构性,构建层级特征对应的面料图像和文本表征模型,充分表达图像和文本数据的层级信息。通过构建图文层级特征匹配模型,利用双向掩蔽修复的思想实现图文特征的层级匹配,以便于后续的图文特征相似性度量。制定跨模态图文检索策略,构建检索池并判断是否跨池检索,度量图文特征的相似性,以解决面料部分模态信息缺失的问题。面料图像和文本数据的跨模态互查,可满足不同用户的灵活检索需求,提高柔性制造中的设计、生产和运营效率,从而推动制造业的数字化、智能化转型。
附图说明
图1为本发明优选实施例的基于多层级表征的面料跨模态图文检索方法流程图。
图2为成对的图像和文本数据。
图3为图像多层级表征模型。
图4为图文层级特征匹配模型。
图5为跨模态图文检索示例。(a)为文本查询图像,(b)为图像查询文本。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明实施例提供了一种基于多层级表征的面料跨模态图文检索方法,包括以下步骤:
S1:建立包含图像和文本数据的产品库;
S2:构建图像多层级表征模型处理图像,得到产品库中图像数据的多层级特征描述;
S3:构建文本多层级表征模型处理文本,得到产品库中文本数据的多层级特征描述,与图像数据的多层级特征描述形成对应关系;
S4:构建图文层级特征匹配模型,处理S2和S3得到的图文多层级特征描述,进行图文特征的层级匹配;
S5:制定检索策略,进行图文特征的相似性度量,并根据相似性的大小将相应的文本或图像按顺序进行显示;
S6:将检索结果中图像对应的织物工艺单或文本对应的图像调出,以指导生产。
为了详细说明本发明的具体实施方式,本发明在从面料生产企业采集的超8万幅面料图像和文本数据作为产品数据库,并选择相对应的图像对构建跨模态图文检索数据集,检索性能优于现有跨模态图文检索方法。作为优选实施例,参考图1,为本发明优选实施例的基于多层级表征的面料跨模态图文检索方法流程图。
本实施例的方法包括以下步骤:
步骤S1:建立包含图像和文本数据的产品库。
于本步骤中,从所述的产品库中选择成对的图像和文本数据构建跨模态图文检索数据集,用于模型训练和验证,主要包括训练集、验证集和测试集。成对的图像和文本数据参考图2。
步骤S2:构建图像多层级表征模型处理图像,得到产品库中图像数据的多层级特征描述。
于本步骤中,构建的图像多层级表征模型以卷积神经网络作为底层结构,从多个视角构建多任务分类模型引导学习图像的多层级特征描述。
进一步地,本实施例选用VGG-16网络作为底层结构,从面料花型、组织、风格、颜色和品类五个视角构建模型,参考图3。以两个任务的面料表征模型为例,本发明设计的损失函数定义如下:
Figure BDA0003778268640000041
其中,
Figure BDA0003778268640000042
Figure BDA0003778268640000043
表示交叉熵损失函数,{W,s1,s2}为网络学习参数。
步骤S3:构建文本多层级表征模型处理文本,得到产品库中文本数据的多层级特征描述,与图像数据的多层级特征描述形成对应关系;
于本步骤中,构建的文本多层级表征模型以双向卷积神经网络作为底层结构,结合注意力机制抽取文本关键词对复杂的语义依存信息进行简化,并增加全局约束进行层级表征。
进一步地,本实施例选用双向长短时记忆网络(bi-LSTM)作为底层结构,其在第n个单词的隐藏层输出为V,通过词级池化操作获得词向量为
Figure BDA0003778268640000051
在文本类别注意力模块,通过Hadamard乘积获得引入上一层级信息ωh-1的特征
Figure BDA0003778268640000052
假设
Figure BDA0003778268640000053
表示权重矩阵,采用类别层h的特征表示Sh执行不同类别|Ch|的注意力,获取文本类别注意力矩阵
Figure BDA0003778268640000054
得到关联文本类别的特征表示
Figure BDA0003778268640000055
假设
Figure BDA0003778268640000056
Figure BDA0003778268640000057
分别为权重矩阵和偏置,
Figure BDA0003778268640000058
表示非线性激活函数,则h层的特征表示Ah如下式所示。
Figure BDA0003778268640000059
对于全局特征
Figure BDA00037782686400000510
可通过层级池化操作聚合所有层的特征获得。
步骤S4:构建图文层级特征匹配模型,处理S2和S3得到的图文多层级特征描述,进行图文特征的层级匹配;
于本步骤中,所构建的图文层级特征匹配模型参考图4。通过设计双向掩蔽修复模型来匹配不同层级的图文特征,并在联合嵌入空间约束全局相似性,每次对图像或文本特征的某一层级下的特征进行掩蔽,采用对应的文本或图像特征进行修复,实现图文层级特征的匹配。
进一步地,全局约束将图文特征I和T映射到联合嵌入空间,使得匹配图文对的相似性和非匹配图文对的相似性的差异尽可能大。本实施例采用三元组损失函数
Figure BDA00037782686400000511
作为全局优化目标。
Figure BDA00037782686400000512
其中,d(.)表示相似性度量函数,α表示margin参数,[x]+=max(x,0)。(I,T)表示匹配的图文对,(I′,T)和(I,T′)表示非匹配的图文对。
对于双向掩蔽修复模型,假设修复后的图像和文本特征向量分别为
Figure BDA00037782686400000513
Figure BDA00037782686400000514
特征维度为D,则图像和文本掩蔽修复的损失函数
Figure BDA00037782686400000515
Figure BDA00037782686400000516
设计如下:
Figure BDA0003778268640000061
Figure BDA0003778268640000062
其中,λ为超参数,M为二进制掩码,0表示掩蔽部分,1表示原始部分。
通过综合全局匹配和层级匹配的损失函数进行模型训练,并设置相应权重β1、β2和β3,得到最终的目标函数
Figure BDA0003778268640000063
Figure BDA0003778268640000064
步骤S5:制定检索策略,进行图文特征的相似性度量,并根据相似性的大小将相应的文本或图像按顺序进行显示;
于本步骤中,所述的检索策略根据S2和S3构建的图像和文本多层级表征模型的层级类别预测对产品库中的数据进行检索池划分,逐级细化搜索空间,并根据类别分布概率确定检索场景,判断是否跨池检索以及跨池的数量。
假设模型输出的排序前三的类别分布概率分别为P1,P2和P3,设定P2/P1和P3/P1表示待查询图像或文本与其他类别图像或文本的差异,用于判断是否跨池检索以及跨池数量的检索场景。给定不同检索场景Rs的阈值λ1和λ2,Rs的定义如下:
Figure BDA0003778268640000065
本实施例的面料跨模态图文检索示例参考图5。对于文本检索图像,给定待查询面料文本,根据面料文本多层级表征模型抽取层级概念词组Wn,并从语义依存信息库获取依存信息,提取文本特征Tn,获取检索池内图像对应类别的片段特征In,度量文本特征与池内所有图像特征各片段g之间的相似性Sg=d(Tg,Ig)。设定权重α1、α2和αn表达层级特征的权重,融合各片段的相似性形成最终的相似性Sti=α1S12S2+...+αnSn。对于图像检索文本,根据构建的面料图像多层级表征模型进行多分类,在检索池内度量图像特征
Figure BDA0003778268640000066
与文本特征
Figure BDA0003778268640000067
的层级相似性
Figure BDA0003778268640000068
和全局相似性SG=d(IQ,TP),其中h表示层级数,并通过权重γh和γ融合形成最终的相似性Sit=γhSh+γSG
S6:将检索结果中图像对应的织物工艺单或文本对应的图像调出,以指导生产。
于本步骤中,所述的产品工艺单包括产品标题、描述和属性信息。
所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于多层级表征的面料跨模态图文检索方法,其特征在于,包括以下步骤:
S1:建立包含图像和文本数据的产品库;
从所述的产品库中选择成对的图像和文本数据构建跨模态图文检索数据集,用于模型训练和验证,主要包括训练集、验证集和测试集;
S2:构建图像多层级表征模型处理图像,得到产品库中图像数据的多层级特征描述;
所述的图像多层级表征模型以卷积神经网络作为底层框架,从多个视角构建多任务图像分类模型,挖掘图像不同层级的特征;
S3:构建文本多层级表征模型处理文本,得到产品库中文本数据的多层级特征描述,与图像数据的多层级特征描述形成对应关系;
所述的文本多层级表征模型以双向循环神经网络作为底层框架,结合注意力机制抽取文本关键词对复杂的语义依存信息进行简化,并增加全局约束进行层级表征;
S4:构建图文层级特征匹配模型,处理S2和S3得到的图文多层级特征描述,进行图文特征的层级匹配;
于本步骤中,所构建的图文层级特征匹配模型,通过设计双向掩蔽修复模型来匹配不同层级的图文特征,并在联合嵌入空间约束全局相似性,每次对图像或文本特征的某一层级下的特征进行掩蔽,采用对应的文本或图像特征进行修复,实现图文层级特征的匹配;
全局约束将图文特征I和T映射到联合嵌入空间,使得匹配图文对的相似性和非匹配图文对的相似性的差异尽可能大;本发明采用三元组损失函数
Figure FDA0003778268630000012
作为全局优化目标;
Figure FDA0003778268630000011
其中,d(.)表示相似性度量函数,β表示margin参数,[x]+=max(x,0);(I,T)表示匹配的图文对,(I′,T)和(I,T′)表示非匹配的图文对;
对于双向掩蔽修复模型,假设修复后的图像和文本特征向量分别为
Figure FDA0003778268630000029
Figure FDA0003778268630000021
特征维度为D,则图像和文本掩蔽修复的损失函数
Figure FDA0003778268630000022
Figure FDA0003778268630000023
设计如下:
Figure FDA0003778268630000024
Figure FDA0003778268630000025
其中,λ为超参数,M为二进制掩码,0表示掩蔽部分,1表示原始部分;
通过综合全局匹配和层级匹配的损失函数进行模型训练,并设置相应权重α1、β2和β3,得到最终的目标函数
Figure FDA0003778268630000026
Figure FDA0003778268630000027
S5:制定检索策略,进行图文特征的相似性度量,并根据相似性的大小将相应的文本或图像按顺序进行显示;
所述的检索策略根据S2和S3构建的图像和文本多层级表征模型的层级类别预测对产品库中的数据进行检索池划分,逐级细化搜索空间,并根据类别分布概率确定检索场景,判断是否跨池检索以及跨池的数量;
S6:将检索结果中图像对应的产品工艺单或文本对应的图像调出,以指导生产。
2.如权利要求1所述的基于多层级表征的面料跨模态图文检索方法,其特征在于,所述的步骤S3中,构建的文本多层级表征模型以双向卷积神经网络作为底层结构,结合注意力机制抽取文本关键词对复杂的语义依存信息进行简化,并增加全局约束进行层级表征;
本发明选用双向长短时记忆网络(bi-LSTM)作为底层结构,其在第n个单词的隐藏层输出为V,通过词级池化操作获得词向量为
Figure FDA0003778268630000028
在文本类别注意力模块,通过Hadamard乘积获得引入上一层级信息ωh-1的特征
Figure FDA0003778268630000031
假设
Figure FDA0003778268630000032
表示权重矩阵,采用类别层h的特征表示Sh执行不同类别|Ch|的注意力,获取文本类别注意力矩阵
Figure FDA0003778268630000033
得到关联文本类别的特征表示
Figure FDA0003778268630000034
假设
Figure FDA0003778268630000035
Figure FDA0003778268630000036
分别为权重矩阵和偏置,
Figure FDA0003778268630000037
表示非线性激活函数,则h层的特征表示Ah如下式所示;
Figure FDA0003778268630000038
对于全局特征
Figure FDA0003778268630000039
可通过层级池化操作聚合所有层的特征获得。
3.如权利要求1或2所述的基于多层级表征的面料跨模态图文检索方法,其特征在于,所述的步骤S2中,构建的图像多层级表征模型以卷积神经网络作为底层结构,从多个视角构建多任务分类模型引导学习图像的多层级特征描述;
本发明选用VGG-16网络作为底层结构,从面料花型、组织、风格、颜色和品类五个视角构建模型,以两个任务的面料表征模型为例,本发明设计的损失函数定义如下:
Figure FDA00037782686300000310
其中,
Figure FDA00037782686300000311
Figure FDA00037782686300000312
表示交叉熵损失函数,{W,s1,s2}为网络学习参数。
4.如权利要求1或2所述的基于多层级表征的面料跨模态图文检索方法,其特征在于,所述的步骤S5中,所述的检索策略根据S2和S3构建的图像和文本多层级表征模型的层级类别预测对产品库中的数据进行检索池划分,逐级细化搜索空间,并根据类别分布概率确定检索场景,判断是否跨池检索以及跨池的数量;
设模型输出的排序前三的类别分布概率分别为P1,P2和P3,设定P2/P1和P3/P1表示待查询图像或文本与其他类别图像或文本的差异,用于判断是否跨池检索以及跨池数量的检索场景;给定不同检索场景Rs的阈值λ1和λ2,Rs的定义如下:
Figure FDA0003778268630000041
5.如权利要求3所述的基于多层级表征的面料跨模态图文检索方法,其特征在于,所述的步骤S5中,所述的检索策略根据S2和S3构建的图像和文本多层级表征模型的层级类别预测对产品库中的数据进行检索池划分,逐级细化搜索空间,并根据类别分布概率确定检索场景,判断是否跨池检索以及跨池的数量;
设模型输出的排序前三的类别分布概率分别为P1,P2和P3,设定P2/P1和P3/P1表示待查询图像或文本与其他类别图像或文本的差异,用于判断是否跨池检索以及跨池数量的检索场景;给定不同检索场景Rs的阈值λ1和λ2,Rs的定义如下:
Figure FDA0003778268630000042
6.如权利要求4所述的基于多层级表征的面料跨模态图文检索方法,其特征在于,所述的步骤S5中,对于文本检索图像,给定待查询面料文本,根据面料文本多层级表征模型抽取层级概念词组Wn,并从语义依存信息库获取依存信息,提取文本特征Tn,获取检索池内图像对应类别的片段特征In,度量文本特征与池内所有图像特征各片段g之间的相似性Sg=d(Tg,Ig);设定权重α1、α2和αn表达层级特征的权重,融合各片段的相似性形成最终的相似性Sti=α1S12S2+...+αnSn;对于图像检索文本,根据构建的面料图像多层级表征模型进行多分类,在检索池内度量图像特征
Figure FDA0003778268630000043
与文本特征
Figure FDA0003778268630000046
的层级相似性
Figure FDA0003778268630000044
Figure FDA0003778268630000045
和全局相似性SG=d(IQ,TP),其中h表示层级数,并通过权重γh和γ融合形成最终的相似性Sit=γhSh+γSG
7.如权利要求5所述的基于多层级表征的面料跨模态图文检索方法,其特征在于,所述的步骤S5中,对于文本检索图像,给定待查询面料文本,根据面料文本多层级表征模型抽取层级概念词组Wn,并从语义依存信息库获取依存信息,提取文本特征Tn,获取检索池内图像对应类别的片段特征In,度量文本特征与池内所有图像特征各片段g之间的相似性Sg=d(Tg,Ig);设定权重α1、α2和αn表达层级特征的权重,融合各片段的相似性形成最终的相似性Sti=α1S12S2+...+αnSn;对于图像检索文本,根据构建的面料图像多层级表征模型进行多分类,在检索池内度量图像特征
Figure FDA0003778268630000054
与文本特征
Figure FDA0003778268630000053
的层级相似性
Figure FDA0003778268630000051
Figure FDA0003778268630000052
和全局相似性SG=d(IQ,TP),其中h表示层级数,并通过权重γh和γ融合形成最终的相似性Sit=γhSh+γSG
CN202210922659.7A 2022-08-02 2022-08-02 一种基于多层级表征的面料跨模态图文检索方法 Pending CN115168634A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210922659.7A CN115168634A (zh) 2022-08-02 2022-08-02 一种基于多层级表征的面料跨模态图文检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210922659.7A CN115168634A (zh) 2022-08-02 2022-08-02 一种基于多层级表征的面料跨模态图文检索方法

Publications (1)

Publication Number Publication Date
CN115168634A true CN115168634A (zh) 2022-10-11

Family

ID=83477177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210922659.7A Pending CN115168634A (zh) 2022-08-02 2022-08-02 一种基于多层级表征的面料跨模态图文检索方法

Country Status (1)

Country Link
CN (1) CN115168634A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117951330A (zh) * 2024-03-27 2024-04-30 吉林大学 一种基于人工智能的医疗数据检索方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117951330A (zh) * 2024-03-27 2024-04-30 吉林大学 一种基于人工智能的医疗数据检索方法

Similar Documents

Publication Publication Date Title
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN110728541B (zh) 信息流媒体广告创意推荐方法及装置
CN106599226A (zh) 一种内容推荐方法及内容推荐系统
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN112308115B (zh) 一种多标签图像深度学习分类方法及设备
CN111125530A (zh) 一种基于多类型特征深度学习的信息流推荐方法
CN115934990B (zh) 基于内容理解的遥感影像推荐方法
CN110175235A (zh) 基于神经网络的智能商品税分类编码方法及系统
CN103853792B (zh) 一种图片语义自动标注方法与系统
CN114547298A (zh) 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
CN113947161A (zh) 一种基于注意力机制的多标签文本分类方法及系统
CN112015902A (zh) 基于度量的元学习框架下的少次文本分类方法
CN110704510A (zh) 一种结合用户画像的题目推荐方法及系统
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN115248876A (zh) 基于内容理解的遥感影像统筹推荐方法
CN115168634A (zh) 一种基于多层级表征的面料跨模态图文检索方法
CN114840745A (zh) 一种基于图表征学习和深度语义匹配模型的个性化推荐方法及系统
CN112364852B (zh) 融合全局信息的动作视频段提取方法
CN114067215B (zh) 基于节点注意力机制图神经网络的遥感图像检索方法
CN114972959B (zh) 深度学习中样本生成和类内排序损失的遥感图像检索方法
CN116340569A (zh) 一种基于语义一致性的半监督短视频分类方法
CN115934966A (zh) 基于遥感影像推荐信息的自动标注方法
CN113297385B (zh) 基于改进GraphRNN的多标签文本分类系统及分类方法
CN114170460A (zh) 一种基于多模态融合的艺术品分类方法及系统
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination