CN115168634A - 一种基于多层级表征的面料跨模态图文检索方法 - Google Patents
一种基于多层级表征的面料跨模态图文检索方法 Download PDFInfo
- Publication number
- CN115168634A CN115168634A CN202210922659.7A CN202210922659A CN115168634A CN 115168634 A CN115168634 A CN 115168634A CN 202210922659 A CN202210922659 A CN 202210922659A CN 115168634 A CN115168634 A CN 115168634A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- retrieval
- fabric
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于面料检索方法领域,涉及一种基于多层级表征的面料跨模态图文检索方法。所述方法步骤如下:建立包含图像和文本数据的产品库;构建图像多层级表征模型处理图像;构建文本多层级表征模型处理文本,得到产品库中文本数据的多层级特征描述,与图像数据的多层级特征描述形成对应关系;构建图文层级特征匹配模型,处理得到的图文多层级特征描述,进行图文特征的层级匹配;制定检索策略,进行图文特征的相似性度量,并根据相似性的大小将相应的文本或图像按顺序进行显示;将检索结果中图像对应的织物工艺单或文本对应的图像调出,以指导生产。本发明具有较高的检索准确率和灵活性,在跨模态检索的工业应用领域具有非常大的潜力。
Description
技术领域
本发明属于面料检索方法领域,涉及一种基于多层级表征的面料跨模态图文检索方法。
背景技术
日益提升的消费水平促使面料款式和风格日新月异。为了适应面料市场变化,面料生产企业逐步转向小批量、多品种的生产模式。此模式下的面料产品快速更新换代,使得企业面临已有产品信息查询困难的问题,难以发挥历史生产经验优势。基于内容的图像检索在一定程度上解决了面料查询困难的问题,但难以应对文本查询意向图像和图像查询文本工艺单这两大需求。基于文本的图像检索可解决前一需求,但面料产品通常细分难度大,人工标注耗时费力、关键词的主观性较强。随着多源异构数据的发展,面料图文之间的互查已经成为纺织企业亟待解决的问题。跨模态图文检索技术通过建立图像与文本特征间的匹配关系,可快速获得相对应的文本描述或意向图像,对于解决面料产品图文互查问题具有重要的研究价值。
目前,尚未有面料跨模态检索的相关报道。现有通用的跨模态图文检索未结合面料产品的特点,其表征方法难以充分表征异构性强的面料图文层级信息,且应对面料图文模态部分信息缺失的情形。通过建立一种基于多层级表征的面料跨模态图文检索方法,可满足面料图像或文本作为查询条件的检索需求,提高面料检索灵活性,快速获取所需的文本工艺单或意向图像。
发明内容
本发明的目的在于提出一种高效精确、鲁棒性强的基于多层级表征的面料跨模态图文检索方法,灵活地检索意向图像或产品工艺单,用于指导生产。
基于上述目的本发明提供了一种基于多层级表征的面料跨模态图文检索方法,包括以下步骤:
S1:建立包含图像和文本数据的产品库;
从所述的产品库中选择成对的图像和文本数据构建跨模态图文检索数据集,用于模型训练和验证,主要包括训练集、验证集和测试集。
S2:构建图像多层级表征模型处理图像,得到产品库中图像数据的多层级特征描述;
所述的图像多层级表征模型以卷积神经网络作为底层框架,从多个视角构建多任务图像分类模型,挖掘图像不同层级的特征。
S3:构建文本多层级表征模型处理文本,得到产品库中文本数据的多层级特征描述,与图像数据的多层级特征描述形成对应关系;
所述的文本多层级表征模型以双向循环神经网络作为底层框架,结合注意力机制抽取文本关键词对复杂的语义依存信息进行简化,并增加全局约束进行层级表征。
S4:构建图文层级特征匹配模型,处理S2和S3得到的图文多层级特征描述,进行图文特征的层级匹配;
所述的图文层级特征匹配模型通过设计双向掩蔽修复模型来匹配不同层级的图文特征,并在联合嵌入空间约束全局相似性,减小图文匹配的粒度,进一步弥合图文异构差异。
S5:制定检索策略,进行图文特征的相似性度量,并根据相似性的大小将相应的文本或图像按顺序进行显示;
所述的检索策略根据S2和S3构建的图像和文本多层级表征模型的层级类别预测对产品库中的数据进行检索池划分,逐级细化搜索空间,并根据类别分布概率确定检索场景,判断是否跨池检索以及跨池的数量。
S6:将检索结果中图像对应的产品工艺单或文本对应的图像调出,以指导生产。
所述的产品工艺单包括产品标题、描述和属性信息。
本发明的有益效果:
本发明从面料生产企业的检索需求出发,提出一种基于多层级表征的面料跨模态图文检索方法。基于面料图文信息模态内的层级特性和模态间的强异构性,构建层级特征对应的面料图像和文本表征模型,充分表达图像和文本数据的层级信息。通过构建图文层级特征匹配模型,利用双向掩蔽修复的思想实现图文特征的层级匹配,以便于后续的图文特征相似性度量。制定跨模态图文检索策略,构建检索池并判断是否跨池检索,度量图文特征的相似性,以解决面料部分模态信息缺失的问题。面料图像和文本数据的跨模态互查,可满足不同用户的灵活检索需求,提高柔性制造中的设计、生产和运营效率,从而推动制造业的数字化、智能化转型。
附图说明
图1为本发明优选实施例的基于多层级表征的面料跨模态图文检索方法流程图。
图2为成对的图像和文本数据。
图3为图像多层级表征模型。
图4为图文层级特征匹配模型。
图5为跨模态图文检索示例。(a)为文本查询图像,(b)为图像查询文本。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明实施例提供了一种基于多层级表征的面料跨模态图文检索方法,包括以下步骤:
S1:建立包含图像和文本数据的产品库;
S2:构建图像多层级表征模型处理图像,得到产品库中图像数据的多层级特征描述;
S3:构建文本多层级表征模型处理文本,得到产品库中文本数据的多层级特征描述,与图像数据的多层级特征描述形成对应关系;
S4:构建图文层级特征匹配模型,处理S2和S3得到的图文多层级特征描述,进行图文特征的层级匹配;
S5:制定检索策略,进行图文特征的相似性度量,并根据相似性的大小将相应的文本或图像按顺序进行显示;
S6:将检索结果中图像对应的织物工艺单或文本对应的图像调出,以指导生产。
为了详细说明本发明的具体实施方式,本发明在从面料生产企业采集的超8万幅面料图像和文本数据作为产品数据库,并选择相对应的图像对构建跨模态图文检索数据集,检索性能优于现有跨模态图文检索方法。作为优选实施例,参考图1,为本发明优选实施例的基于多层级表征的面料跨模态图文检索方法流程图。
本实施例的方法包括以下步骤:
步骤S1:建立包含图像和文本数据的产品库。
于本步骤中,从所述的产品库中选择成对的图像和文本数据构建跨模态图文检索数据集,用于模型训练和验证,主要包括训练集、验证集和测试集。成对的图像和文本数据参考图2。
步骤S2:构建图像多层级表征模型处理图像,得到产品库中图像数据的多层级特征描述。
于本步骤中,构建的图像多层级表征模型以卷积神经网络作为底层结构,从多个视角构建多任务分类模型引导学习图像的多层级特征描述。
进一步地,本实施例选用VGG-16网络作为底层结构,从面料花型、组织、风格、颜色和品类五个视角构建模型,参考图3。以两个任务的面料表征模型为例,本发明设计的损失函数定义如下:
步骤S3:构建文本多层级表征模型处理文本,得到产品库中文本数据的多层级特征描述,与图像数据的多层级特征描述形成对应关系;
于本步骤中,构建的文本多层级表征模型以双向卷积神经网络作为底层结构,结合注意力机制抽取文本关键词对复杂的语义依存信息进行简化,并增加全局约束进行层级表征。
进一步地,本实施例选用双向长短时记忆网络(bi-LSTM)作为底层结构,其在第n个单词的隐藏层输出为V,通过词级池化操作获得词向量为在文本类别注意力模块,通过Hadamard乘积获得引入上一层级信息ωh-1的特征假设表示权重矩阵,采用类别层h的特征表示Sh执行不同类别|Ch|的注意力,获取文本类别注意力矩阵得到关联文本类别的特征表示假设和分别为权重矩阵和偏置,表示非线性激活函数,则h层的特征表示Ah如下式所示。
步骤S4:构建图文层级特征匹配模型,处理S2和S3得到的图文多层级特征描述,进行图文特征的层级匹配;
于本步骤中,所构建的图文层级特征匹配模型参考图4。通过设计双向掩蔽修复模型来匹配不同层级的图文特征,并在联合嵌入空间约束全局相似性,每次对图像或文本特征的某一层级下的特征进行掩蔽,采用对应的文本或图像特征进行修复,实现图文层级特征的匹配。
其中,d(.)表示相似性度量函数,α表示margin参数,[x]+=max(x,0)。(I,T)表示匹配的图文对,(I′,T)和(I,T′)表示非匹配的图文对。
其中,λ为超参数,M为二进制掩码,0表示掩蔽部分,1表示原始部分。
步骤S5:制定检索策略,进行图文特征的相似性度量,并根据相似性的大小将相应的文本或图像按顺序进行显示;
于本步骤中,所述的检索策略根据S2和S3构建的图像和文本多层级表征模型的层级类别预测对产品库中的数据进行检索池划分,逐级细化搜索空间,并根据类别分布概率确定检索场景,判断是否跨池检索以及跨池的数量。
假设模型输出的排序前三的类别分布概率分别为P1,P2和P3,设定P2/P1和P3/P1表示待查询图像或文本与其他类别图像或文本的差异,用于判断是否跨池检索以及跨池数量的检索场景。给定不同检索场景Rs的阈值λ1和λ2,Rs的定义如下:
本实施例的面料跨模态图文检索示例参考图5。对于文本检索图像,给定待查询面料文本,根据面料文本多层级表征模型抽取层级概念词组Wn,并从语义依存信息库获取依存信息,提取文本特征Tn,获取检索池内图像对应类别的片段特征In,度量文本特征与池内所有图像特征各片段g之间的相似性Sg=d(Tg,Ig)。设定权重α1、α2和αn表达层级特征的权重,融合各片段的相似性形成最终的相似性Sti=α1S1+α2S2+...+αnSn。对于图像检索文本,根据构建的面料图像多层级表征模型进行多分类,在检索池内度量图像特征与文本特征的层级相似性和全局相似性SG=d(IQ,TP),其中h表示层级数,并通过权重γh和γ融合形成最终的相似性Sit=γhSh+γSG。
S6:将检索结果中图像对应的织物工艺单或文本对应的图像调出,以指导生产。
于本步骤中,所述的产品工艺单包括产品标题、描述和属性信息。
所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于多层级表征的面料跨模态图文检索方法,其特征在于,包括以下步骤:
S1:建立包含图像和文本数据的产品库;
从所述的产品库中选择成对的图像和文本数据构建跨模态图文检索数据集,用于模型训练和验证,主要包括训练集、验证集和测试集;
S2:构建图像多层级表征模型处理图像,得到产品库中图像数据的多层级特征描述;
所述的图像多层级表征模型以卷积神经网络作为底层框架,从多个视角构建多任务图像分类模型,挖掘图像不同层级的特征;
S3:构建文本多层级表征模型处理文本,得到产品库中文本数据的多层级特征描述,与图像数据的多层级特征描述形成对应关系;
所述的文本多层级表征模型以双向循环神经网络作为底层框架,结合注意力机制抽取文本关键词对复杂的语义依存信息进行简化,并增加全局约束进行层级表征;
S4:构建图文层级特征匹配模型,处理S2和S3得到的图文多层级特征描述,进行图文特征的层级匹配;
于本步骤中,所构建的图文层级特征匹配模型,通过设计双向掩蔽修复模型来匹配不同层级的图文特征,并在联合嵌入空间约束全局相似性,每次对图像或文本特征的某一层级下的特征进行掩蔽,采用对应的文本或图像特征进行修复,实现图文层级特征的匹配;
其中,d(.)表示相似性度量函数,β表示margin参数,[x]+=max(x,0);(I,T)表示匹配的图文对,(I′,T)和(I,T′)表示非匹配的图文对;
其中,λ为超参数,M为二进制掩码,0表示掩蔽部分,1表示原始部分;
S5:制定检索策略,进行图文特征的相似性度量,并根据相似性的大小将相应的文本或图像按顺序进行显示;
所述的检索策略根据S2和S3构建的图像和文本多层级表征模型的层级类别预测对产品库中的数据进行检索池划分,逐级细化搜索空间,并根据类别分布概率确定检索场景,判断是否跨池检索以及跨池的数量;
S6:将检索结果中图像对应的产品工艺单或文本对应的图像调出,以指导生产。
2.如权利要求1所述的基于多层级表征的面料跨模态图文检索方法,其特征在于,所述的步骤S3中,构建的文本多层级表征模型以双向卷积神经网络作为底层结构,结合注意力机制抽取文本关键词对复杂的语义依存信息进行简化,并增加全局约束进行层级表征;
本发明选用双向长短时记忆网络(bi-LSTM)作为底层结构,其在第n个单词的隐藏层输出为V,通过词级池化操作获得词向量为在文本类别注意力模块,通过Hadamard乘积获得引入上一层级信息ωh-1的特征假设表示权重矩阵,采用类别层h的特征表示Sh执行不同类别|Ch|的注意力,获取文本类别注意力矩阵得到关联文本类别的特征表示假设和分别为权重矩阵和偏置,表示非线性激活函数,则h层的特征表示Ah如下式所示;
6.如权利要求4所述的基于多层级表征的面料跨模态图文检索方法,其特征在于,所述的步骤S5中,对于文本检索图像,给定待查询面料文本,根据面料文本多层级表征模型抽取层级概念词组Wn,并从语义依存信息库获取依存信息,提取文本特征Tn,获取检索池内图像对应类别的片段特征In,度量文本特征与池内所有图像特征各片段g之间的相似性Sg=d(Tg,Ig);设定权重α1、α2和αn表达层级特征的权重,融合各片段的相似性形成最终的相似性Sti=α1S1+α2S2+...+αnSn;对于图像检索文本,根据构建的面料图像多层级表征模型进行多分类,在检索池内度量图像特征与文本特征的层级相似性 和全局相似性SG=d(IQ,TP),其中h表示层级数,并通过权重γh和γ融合形成最终的相似性Sit=γhSh+γSG。
7.如权利要求5所述的基于多层级表征的面料跨模态图文检索方法,其特征在于,所述的步骤S5中,对于文本检索图像,给定待查询面料文本,根据面料文本多层级表征模型抽取层级概念词组Wn,并从语义依存信息库获取依存信息,提取文本特征Tn,获取检索池内图像对应类别的片段特征In,度量文本特征与池内所有图像特征各片段g之间的相似性Sg=d(Tg,Ig);设定权重α1、α2和αn表达层级特征的权重,融合各片段的相似性形成最终的相似性Sti=α1S1+α2S2+...+αnSn;对于图像检索文本,根据构建的面料图像多层级表征模型进行多分类,在检索池内度量图像特征与文本特征的层级相似性 和全局相似性SG=d(IQ,TP),其中h表示层级数,并通过权重γh和γ融合形成最终的相似性Sit=γhSh+γSG。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210922659.7A CN115168634A (zh) | 2022-08-02 | 2022-08-02 | 一种基于多层级表征的面料跨模态图文检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210922659.7A CN115168634A (zh) | 2022-08-02 | 2022-08-02 | 一种基于多层级表征的面料跨模态图文检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115168634A true CN115168634A (zh) | 2022-10-11 |
Family
ID=83477177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210922659.7A Pending CN115168634A (zh) | 2022-08-02 | 2022-08-02 | 一种基于多层级表征的面料跨模态图文检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115168634A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117951330A (zh) * | 2024-03-27 | 2024-04-30 | 吉林大学 | 一种基于人工智能的医疗数据检索方法 |
-
2022
- 2022-08-02 CN CN202210922659.7A patent/CN115168634A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117951330A (zh) * | 2024-03-27 | 2024-04-30 | 吉林大学 | 一种基于人工智能的医疗数据检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111858954B (zh) | 面向任务的文本生成图像网络模型 | |
CN110728541B (zh) | 信息流媒体广告创意推荐方法及装置 | |
CN106599226A (zh) | 一种内容推荐方法及内容推荐系统 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN112308115B (zh) | 一种多标签图像深度学习分类方法及设备 | |
CN111125530A (zh) | 一种基于多类型特征深度学习的信息流推荐方法 | |
CN115934990B (zh) | 基于内容理解的遥感影像推荐方法 | |
CN110175235A (zh) | 基于神经网络的智能商品税分类编码方法及系统 | |
CN103853792B (zh) | 一种图片语义自动标注方法与系统 | |
CN114547298A (zh) | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 | |
CN113947161A (zh) | 一种基于注意力机制的多标签文本分类方法及系统 | |
CN112015902A (zh) | 基于度量的元学习框架下的少次文本分类方法 | |
CN110704510A (zh) | 一种结合用户画像的题目推荐方法及系统 | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
CN115248876A (zh) | 基于内容理解的遥感影像统筹推荐方法 | |
CN115168634A (zh) | 一种基于多层级表征的面料跨模态图文检索方法 | |
CN114840745A (zh) | 一种基于图表征学习和深度语义匹配模型的个性化推荐方法及系统 | |
CN112364852B (zh) | 融合全局信息的动作视频段提取方法 | |
CN114067215B (zh) | 基于节点注意力机制图神经网络的遥感图像检索方法 | |
CN114972959B (zh) | 深度学习中样本生成和类内排序损失的遥感图像检索方法 | |
CN116340569A (zh) | 一种基于语义一致性的半监督短视频分类方法 | |
CN115934966A (zh) | 基于遥感影像推荐信息的自动标注方法 | |
CN113297385B (zh) | 基于改进GraphRNN的多标签文本分类系统及分类方法 | |
CN114170460A (zh) | 一种基于多模态融合的艺术品分类方法及系统 | |
CN111259176B (zh) | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |