CN115168634A

CN115168634A - 一种基于多层级表征的面料跨模态图文检索方法

Info

Publication number: CN115168634A
Application number: CN202210922659.7A
Authority: CN
Inventors: 潘如如; 张宁; 向军; 周建; 王蕾
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2022-10-11

Abstract

本发明属于面料检索方法领域，涉及一种基于多层级表征的面料跨模态图文检索方法。所述方法步骤如下：建立包含图像和文本数据的产品库；构建图像多层级表征模型处理图像；构建文本多层级表征模型处理文本，得到产品库中文本数据的多层级特征描述，与图像数据的多层级特征描述形成对应关系；构建图文层级特征匹配模型，处理得到的图文多层级特征描述，进行图文特征的层级匹配；制定检索策略，进行图文特征的相似性度量，并根据相似性的大小将相应的文本或图像按顺序进行显示；将检索结果中图像对应的织物工艺单或文本对应的图像调出，以指导生产。本发明具有较高的检索准确率和灵活性，在跨模态检索的工业应用领域具有非常大的潜力。

Description

一种基于多层级表征的面料跨模态图文检索方法

技术领域

本发明属于面料检索方法领域，涉及一种基于多层级表征的面料跨模态图文检索方法。

背景技术

日益提升的消费水平促使面料款式和风格日新月异。为了适应面料市场变化，面料生产企业逐步转向小批量、多品种的生产模式。此模式下的面料产品快速更新换代，使得企业面临已有产品信息查询困难的问题，难以发挥历史生产经验优势。基于内容的图像检索在一定程度上解决了面料查询困难的问题，但难以应对文本查询意向图像和图像查询文本工艺单这两大需求。基于文本的图像检索可解决前一需求，但面料产品通常细分难度大，人工标注耗时费力、关键词的主观性较强。随着多源异构数据的发展，面料图文之间的互查已经成为纺织企业亟待解决的问题。跨模态图文检索技术通过建立图像与文本特征间的匹配关系，可快速获得相对应的文本描述或意向图像，对于解决面料产品图文互查问题具有重要的研究价值。

目前，尚未有面料跨模态检索的相关报道。现有通用的跨模态图文检索未结合面料产品的特点，其表征方法难以充分表征异构性强的面料图文层级信息，且应对面料图文模态部分信息缺失的情形。通过建立一种基于多层级表征的面料跨模态图文检索方法，可满足面料图像或文本作为查询条件的检索需求，提高面料检索灵活性，快速获取所需的文本工艺单或意向图像。

发明内容

本发明的目的在于提出一种高效精确、鲁棒性强的基于多层级表征的面料跨模态图文检索方法，灵活地检索意向图像或产品工艺单，用于指导生产。

基于上述目的本发明提供了一种基于多层级表征的面料跨模态图文检索方法，包括以下步骤：

S1：建立包含图像和文本数据的产品库；

从所述的产品库中选择成对的图像和文本数据构建跨模态图文检索数据集，用于模型训练和验证，主要包括训练集、验证集和测试集。

S2：构建图像多层级表征模型处理图像，得到产品库中图像数据的多层级特征描述；

所述的图像多层级表征模型以卷积神经网络作为底层框架，从多个视角构建多任务图像分类模型，挖掘图像不同层级的特征。

S3：构建文本多层级表征模型处理文本，得到产品库中文本数据的多层级特征描述，与图像数据的多层级特征描述形成对应关系；

所述的文本多层级表征模型以双向循环神经网络作为底层框架，结合注意力机制抽取文本关键词对复杂的语义依存信息进行简化，并增加全局约束进行层级表征。

S4：构建图文层级特征匹配模型，处理S2和S3得到的图文多层级特征描述，进行图文特征的层级匹配；

所述的图文层级特征匹配模型通过设计双向掩蔽修复模型来匹配不同层级的图文特征，并在联合嵌入空间约束全局相似性，减小图文匹配的粒度，进一步弥合图文异构差异。

S5：制定检索策略，进行图文特征的相似性度量，并根据相似性的大小将相应的文本或图像按顺序进行显示；

所述的检索策略根据S2和S3构建的图像和文本多层级表征模型的层级类别预测对产品库中的数据进行检索池划分，逐级细化搜索空间，并根据类别分布概率确定检索场景，判断是否跨池检索以及跨池的数量。

S6：将检索结果中图像对应的产品工艺单或文本对应的图像调出，以指导生产。

所述的产品工艺单包括产品标题、描述和属性信息。

本发明的有益效果：

本发明从面料生产企业的检索需求出发，提出一种基于多层级表征的面料跨模态图文检索方法。基于面料图文信息模态内的层级特性和模态间的强异构性，构建层级特征对应的面料图像和文本表征模型，充分表达图像和文本数据的层级信息。通过构建图文层级特征匹配模型，利用双向掩蔽修复的思想实现图文特征的层级匹配，以便于后续的图文特征相似性度量。制定跨模态图文检索策略，构建检索池并判断是否跨池检索，度量图文特征的相似性，以解决面料部分模态信息缺失的问题。面料图像和文本数据的跨模态互查，可满足不同用户的灵活检索需求，提高柔性制造中的设计、生产和运营效率，从而推动制造业的数字化、智能化转型。

附图说明

图1为本发明优选实施例的基于多层级表征的面料跨模态图文检索方法流程图。

图2为成对的图像和文本数据。

图3为图像多层级表征模型。

图4为图文层级特征匹配模型。

图5为跨模态图文检索示例。(a)为文本查询图像，(b)为图像查询文本。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明实施例提供了一种基于多层级表征的面料跨模态图文检索方法，包括以下步骤：

S1：建立包含图像和文本数据的产品库；

S6：将检索结果中图像对应的织物工艺单或文本对应的图像调出，以指导生产。

为了详细说明本发明的具体实施方式，本发明在从面料生产企业采集的超8万幅面料图像和文本数据作为产品数据库，并选择相对应的图像对构建跨模态图文检索数据集，检索性能优于现有跨模态图文检索方法。作为优选实施例，参考图1，为本发明优选实施例的基于多层级表征的面料跨模态图文检索方法流程图。

本实施例的方法包括以下步骤：

步骤S1：建立包含图像和文本数据的产品库。

于本步骤中，从所述的产品库中选择成对的图像和文本数据构建跨模态图文检索数据集，用于模型训练和验证，主要包括训练集、验证集和测试集。成对的图像和文本数据参考图2。

步骤S2：构建图像多层级表征模型处理图像，得到产品库中图像数据的多层级特征描述。

于本步骤中，构建的图像多层级表征模型以卷积神经网络作为底层结构，从多个视角构建多任务分类模型引导学习图像的多层级特征描述。

进一步地，本实施例选用VGG-16网络作为底层结构，从面料花型、组织、风格、颜色和品类五个视角构建模型，参考图3。以两个任务的面料表征模型为例，本发明设计的损失函数定义如下：

其中，

和

表示交叉熵损失函数，{W,s₁,s₂}为网络学习参数。

步骤S3：构建文本多层级表征模型处理文本，得到产品库中文本数据的多层级特征描述，与图像数据的多层级特征描述形成对应关系；

于本步骤中，构建的文本多层级表征模型以双向卷积神经网络作为底层结构，结合注意力机制抽取文本关键词对复杂的语义依存信息进行简化，并增加全局约束进行层级表征。

进一步地，本实施例选用双向长短时记忆网络(bi-LSTM)作为底层结构，其在第n个单词的隐藏层输出为V，通过词级池化操作获得词向量为

在文本类别注意力模块，通过Hadamard乘积获得引入上一层级信息ω_h-1的特征

假设

表示权重矩阵，采用类别层h的特征表示S_h执行不同类别|C^h|的注意力，获取文本类别注意力矩阵

得到关联文本类别的特征表示

假设

和

分别为权重矩阵和偏置，

表示非线性激活函数，则h层的特征表示A^h如下式所示。

对于全局特征

可通过层级池化操作聚合所有层的特征获得。

步骤S4：构建图文层级特征匹配模型，处理S2和S3得到的图文多层级特征描述，进行图文特征的层级匹配；

于本步骤中，所构建的图文层级特征匹配模型参考图4。通过设计双向掩蔽修复模型来匹配不同层级的图文特征，并在联合嵌入空间约束全局相似性，每次对图像或文本特征的某一层级下的特征进行掩蔽，采用对应的文本或图像特征进行修复，实现图文层级特征的匹配。

进一步地，全局约束将图文特征I和T映射到联合嵌入空间，使得匹配图文对的相似性和非匹配图文对的相似性的差异尽可能大。本实施例采用三元组损失函数

作为全局优化目标。

其中，d(.)表示相似性度量函数，α表示margin参数，[x]₊＝max(x,0)。(I,T)表示匹配的图文对，(I′,T)和(I,T′)表示非匹配的图文对。

对于双向掩蔽修复模型，假设修复后的图像和文本特征向量分别为

和

特征维度为D，则图像和文本掩蔽修复的损失函数

和

设计如下：

其中，λ为超参数，M为二进制掩码，0表示掩蔽部分，1表示原始部分。

通过综合全局匹配和层级匹配的损失函数进行模型训练，并设置相应权重β₁、β₂和β₃，得到最终的目标函数

步骤S5：制定检索策略，进行图文特征的相似性度量，并根据相似性的大小将相应的文本或图像按顺序进行显示；

于本步骤中，所述的检索策略根据S2和S3构建的图像和文本多层级表征模型的层级类别预测对产品库中的数据进行检索池划分，逐级细化搜索空间，并根据类别分布概率确定检索场景，判断是否跨池检索以及跨池的数量。

假设模型输出的排序前三的类别分布概率分别为P₁，P₂和P₃，设定P₂/P₁和P₃/P₁表示待查询图像或文本与其他类别图像或文本的差异，用于判断是否跨池检索以及跨池数量的检索场景。给定不同检索场景R_s的阈值λ₁和λ₂，R_s的定义如下：

本实施例的面料跨模态图文检索示例参考图5。对于文本检索图像，给定待查询面料文本，根据面料文本多层级表征模型抽取层级概念词组W_n，并从语义依存信息库获取依存信息，提取文本特征T_n，获取检索池内图像对应类别的片段特征I_n，度量文本特征与池内所有图像特征各片段g之间的相似性S_g＝d(T_g,I_g)。设定权重α₁、α₂和α_n表达层级特征的权重，融合各片段的相似性形成最终的相似性S_ti＝α₁S₁+α₂S₂+...+α_nS_n。对于图像检索文本，根据构建的面料图像多层级表征模型进行多分类，在检索池内度量图像特征

与文本特征

的层级相似性

和全局相似性S_G＝d(I_Q,T_P)，其中h表示层级数，并通过权重γ_h和γ融合形成最终的相似性S_it＝γ_hS_h+γS_G。

于本步骤中，所述的产品工艺单包括产品标题、描述和属性信息。

所属领域的普通技术人员应当理解：以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多层级表征的面料跨模态图文检索方法，其特征在于，包括以下步骤：

S1：建立包含图像和文本数据的产品库；

从所述的产品库中选择成对的图像和文本数据构建跨模态图文检索数据集，用于模型训练和验证，主要包括训练集、验证集和测试集；

所述的图像多层级表征模型以卷积神经网络作为底层框架，从多个视角构建多任务图像分类模型，挖掘图像不同层级的特征；

所述的文本多层级表征模型以双向循环神经网络作为底层框架，结合注意力机制抽取文本关键词对复杂的语义依存信息进行简化，并增加全局约束进行层级表征；

于本步骤中，所构建的图文层级特征匹配模型，通过设计双向掩蔽修复模型来匹配不同层级的图文特征，并在联合嵌入空间约束全局相似性，每次对图像或文本特征的某一层级下的特征进行掩蔽，采用对应的文本或图像特征进行修复，实现图文层级特征的匹配；

全局约束将图文特征I和T映射到联合嵌入空间，使得匹配图文对的相似性和非匹配图文对的相似性的差异尽可能大；本发明采用三元组损失函数

作为全局优化目标；

其中，d(.)表示相似性度量函数，β表示margin参数，[x]₊＝max(x,0)；(I,T)表示匹配的图文对，(I′,T)和(I,T′)表示非匹配的图文对；

和

特征维度为D，则图像和文本掩蔽修复的损失函数

和

设计如下：

其中，λ为超参数，M为二进制掩码，0表示掩蔽部分，1表示原始部分；

通过综合全局匹配和层级匹配的损失函数进行模型训练，并设置相应权重α₁、β₂和β₃，得到最终的目标函数

所述的检索策略根据S2和S3构建的图像和文本多层级表征模型的层级类别预测对产品库中的数据进行检索池划分，逐级细化搜索空间，并根据类别分布概率确定检索场景，判断是否跨池检索以及跨池的数量；

2.如权利要求1所述的基于多层级表征的面料跨模态图文检索方法，其特征在于，所述的步骤S3中，构建的文本多层级表征模型以双向卷积神经网络作为底层结构，结合注意力机制抽取文本关键词对复杂的语义依存信息进行简化，并增加全局约束进行层级表征；

本发明选用双向长短时记忆网络(bi-LSTM)作为底层结构，其在第n个单词的隐藏层输出为V，通过词级池化操作获得词向量为

假设

得到关联文本类别的特征表示

假设

和

分别为权重矩阵和偏置，

表示非线性激活函数，则h层的特征表示A^h如下式所示；

对于全局特征

可通过层级池化操作聚合所有层的特征获得。

3.如权利要求1或2所述的基于多层级表征的面料跨模态图文检索方法，其特征在于，所述的步骤S2中，构建的图像多层级表征模型以卷积神经网络作为底层结构，从多个视角构建多任务分类模型引导学习图像的多层级特征描述；

本发明选用VGG-16网络作为底层结构，从面料花型、组织、风格、颜色和品类五个视角构建模型，以两个任务的面料表征模型为例，本发明设计的损失函数定义如下：

其中，

和

表示交叉熵损失函数，{W,s₁,s₂}为网络学习参数。

4.如权利要求1或2所述的基于多层级表征的面料跨模态图文检索方法，其特征在于，所述的步骤S5中，所述的检索策略根据S2和S3构建的图像和文本多层级表征模型的层级类别预测对产品库中的数据进行检索池划分，逐级细化搜索空间，并根据类别分布概率确定检索场景，判断是否跨池检索以及跨池的数量；

设模型输出的排序前三的类别分布概率分别为P₁，P₂和P₃，设定P₂/P₁和P₃/P₁表示待查询图像或文本与其他类别图像或文本的差异，用于判断是否跨池检索以及跨池数量的检索场景；给定不同检索场景R_s的阈值λ₁和λ₂，R_s的定义如下：

5.如权利要求3所述的基于多层级表征的面料跨模态图文检索方法，其特征在于，所述的步骤S5中，所述的检索策略根据S2和S3构建的图像和文本多层级表征模型的层级类别预测对产品库中的数据进行检索池划分，逐级细化搜索空间，并根据类别分布概率确定检索场景，判断是否跨池检索以及跨池的数量；

6.如权利要求4所述的基于多层级表征的面料跨模态图文检索方法，其特征在于，所述的步骤S5中，对于文本检索图像，给定待查询面料文本，根据面料文本多层级表征模型抽取层级概念词组W_n，并从语义依存信息库获取依存信息，提取文本特征T_n，获取检索池内图像对应类别的片段特征I_n，度量文本特征与池内所有图像特征各片段g之间的相似性S_g＝d(T_g,I_g)；设定权重α₁、α₂和α_n表达层级特征的权重，融合各片段的相似性形成最终的相似性S_ti＝α₁S₁+α₂S₂+...+α_nS_n；对于图像检索文本，根据构建的面料图像多层级表征模型进行多分类，在检索池内度量图像特征

与文本特征

的层级相似性

7.如权利要求5所述的基于多层级表征的面料跨模态图文检索方法，其特征在于，所述的步骤S5中，对于文本检索图像，给定待查询面料文本，根据面料文本多层级表征模型抽取层级概念词组W_n，并从语义依存信息库获取依存信息，提取文本特征T_n，获取检索池内图像对应类别的片段特征I_n，度量文本特征与池内所有图像特征各片段g之间的相似性S_g＝d(T_g,I_g)；设定权重α₁、α₂和α_n表达层级特征的权重，融合各片段的相似性形成最终的相似性S_ti＝α₁S₁+α₂S₂+...+α_nS_n；对于图像检索文本，根据构建的面料图像多层级表征模型进行多分类，在检索池内度量图像特征

与文本特征

的层级相似性