CN116089645A

CN116089645A - 一种基于层次化风格的条件文本-电商图片检索方法和系统

Info

Publication number: CN116089645A
Application number: CN202211665322.9A
Authority: CN
Inventors: 彭宇新; 陈彦哲; 何相腾
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-05-09

Abstract

本发明涉及一种基于层次化风格的条件文本‑电商图片的检索方法和系统。该方法包括以下步骤：1.建立条件文本‑电商图片数据库。2.通过滑动窗口机制和双阶段自注意机制将图像块的平均特征与图像块特征之间进行交互，得到图像块的共性特征。3.将共性特征通过图推理网络与图像块特征进行融合，并通过局部区域过滤网络过滤掉无用图像块特征，得到图像块的差异特征。4.将共性特征与差异特征通过低层‑高层交互融合得到风格特征。5.以风格特征作为查询样例，根据查询样例检索目标图片。本发明能够充分挖掘图像细粒度信息以及空间上下文信息，并学习包含风格的视觉特征与修改文本之间的融合对齐，比现有方法达到更高的检索准确率。

Description

一种基于层次化风格的条件文本-电商图片检索方法和系统

技术领域

本发明涉及多媒体检索领域，具体涉及一种基于层次化风格的条件文本-电商图片检索方法和系统。

背景技术

条件文本-图片检索是一种高度灵活的检索方式，用户可以根据参考图片，提出针对该图片的修改意见，检索符合用户需求的目标图片。传统的图像单模态检索，只能返回与参考图片接近的目标，无法契合用户的自定义需求；传统的文本-图像跨媒体检索，难以针对用户简短的修改意见精准检索目标。与以上两者不同的是，条件文本-图片检索更加方便灵活，可结合文本、图像两个模态的信息查询检索得到符合用户需求的结果。

条件文本-图片检索的挑战是如何应对文本与图片两种模态的不一致性，并学习其内在关联。由于图像与文本数据具有不同的的表示形式以及分布特性，且包含不对等的语义信息量，导致不同模态间的特征难以融合利用。

针对上述问题，现有方法往往将文本与图片模态数据的特征投射到统一语义空间来学习跨模态融合表征，并根据该融合特征检索最接近的目标图像。例如，Chen等人提出VAL方法，通过视觉与文本模态之间的多层级交互，将模态内包含的语义信息更充分地对齐，提高了检索的准确率。Kim等人提出DCNet方法(Jongseok Kim,Youngjae Yu,HoeseongKim,and Gunhee Kim.Dual compositional learning in interactive imageretrieval.In Thirty-Fifth AAAI Conference on Artificial Intelligence,AAAI2021.)，通过引入文本查询最小化统一空间中参考图片和目标图片之间的差异，提升了条件文本-图片的检索效率。此外，挖掘图片中包含的丰富的语义信息，有助于跨模态融合表征与目标图片表征之间的对齐。例如，Baldrati等人提出了CLIP4Cir方法(AlbertoBaldrati,Marco Bertini,Tiberio Uricchio,and Alberto Del Bimbo.Effectiveconditioned and composed image retrieval combining clip-based features.InIEEE/CVF Conference on Computer Vision and Pattern Recognition,CVPR 2022)，通过引入CLIP模型提取图像与文本的特征，设计了简洁高效的融合模型将两种模态的特征映射到同一表征空间。

然而，上述方法都没有考虑到电商图片中包含的风格信息，例如都市风、运动风、校园风等。而这些风格信息对满足用户的修改需求、提高用户检索体验至关重要。

发明内容

针对现有技术的不足，本发明提出了一种基于层次化风格的条件文本-电商图片的检索方法和系统。定义电商图片的风格为图片局部区域之间的共性和差异。根据此定义，本发明利用双阶段自注意机制，以及图推理网络和局部区域过滤网络分别学习图像局部区域的共性特征和差异特征，从而建模图像风格。本发明通过模态内-模态间两种方式融合风格强化的图像特征与文本特征，进一步将融合特征与目标特征对齐，取得了更好的检索准确率。

为达到以上目的，本发明采用的技术方案如下：

一种基于层次化风格的条件文本-电商图片的检索方法，包括以下步骤，其中步骤(1)-(3)得到包含电商图片风格的语义信息，步骤(4)进一步实现参考图片特征和修改文本的融合，检索目标商品图片：

(1)建立条件文本-电商图片数据库，包含参考图片-修改文本-目标图片的三元组数据；

(2)通过滑动窗口机制获得条件文本-电商图片数据库中参考图片的图像块，通过双阶段自注意机制将图像块的平均特征与图像块特征之间进行交互，得到图像块的共性特征；

(3)将步骤(2)中得到的共性特征通过图推理网络与图像块特征进行融合，并利用局部区域过滤网络过滤掉无用图像块特征，得到图像块的差异特征；

(4)将步骤(2)中共性特征与步骤(3)中差异特征通过低层-高层交互融合得到风格特征，将其作为查询样例，根据查询样例检索目标图片，即将条件文本-电商图片数据库中目标图片的特征作为查询目标，计算查询样例和查询目标的相似性，根据相似性得到目标模态数据的相关结果列表。

进一步，上述一种基于层次化风格的条件文本-电商图片的检索方法，所述步骤(1)条件文本-电商图片数据库包含图像、文本两种模态，可以包含多种服装种类和风格。

进一步，上述一种基于层次化风格的条件文本-电商图片的检索方法，所述步骤(2)的双阶段自注意力机制，对图像块特征训练双阶段自注意力网络，将每个图像块映射到共有的语义空间，得到图像块的共性特征。

进一步，上述一种基于层次化风格的条件文本-电商图片的检索方法，所述步骤(3)中图推理网络和局部区域过滤网络，使用多层图推理的方式将从不同图像块蕴含的语义信息进行关联，并自适应地过滤关联性弱的无用图像块特征，得到图像块的差异特征。

进一步，上述一种基于层次化风格的条件文本-电商图片的检索方法，所述步骤(4)的检索方式是，使用风格特征作为查询样例，目标图片的特征作为查询目标。对于每个查询样例，与查询目标的所有数据计算相似性，然后按照相似性从大到小排序，得到相关结果列表。

与上面方法对应的，本发明还提供一种基于层次化风格的条件文本-电商图片的检索系统，其包括：

共性特征提取模块，用于使用滑动窗口机制和双阶段自注意机制将图像块的平均特征与图像块特征之间进行交互，得到图像块的共性特征；

差异特征提取模块，用于将共性特征通过图推理网络与图像块特征进行融合，并利用局部区域过滤网络过滤掉无用图像块特征，得到图像块的差异特征；

特征融合模块，用于将共性特征与差异特征通过低层-高层交互融合得到风格特征；

检索模块，用于将风格特征作为查询样例，将目标图片作为查询目标，计算查询样例和查询目标的相似性，将相似性按照从大到小排序，根据相似性得到目标模态图片数据的相关结果列表。

本发明的效果在于：与现有方法相比，本方法通过显式地定义电商图片的风格，分别建模电商图片局部区域的共性特征和差异特征，能够充分挖掘图像细粒度信息以及空间上下文信息。此外，本发明通过基于域内与域间跨模态对齐，充分融合基于图像的风格特征与基于修改文本的文本特征之间的关联信息，提高了条件文本-电商图片的检索准确率。

本方法之所以具有上述发明效果，其原因在于：针对具有多种风格的电商图片显式地将风格定义为图像块的共性和差异。基于上述定义，利用双阶段自注意力机制以及多层图推理网络分别建模共性特征和差异特征，充分挖掘图片模态内部的细粒度信息以及空间上下文信息，提高关联区域块之间的建模能力。利用局部区域过滤网络自适应地过滤交互信息弱的图像块，降低了交互性弱的图像块对结果的影响，增加了建模风格特征的鲁棒性。其次，本方法通过对域内和域间跨模态特征之间的关联进行挖掘，取得了更好地检索性能。

附图说明

图1是本发明的一种基于层次化风格的条件文本-电商图片的检索方法流程图。

图2是本发明的完整网络结构的示意图。其中，α表示

特征的权重，β表示

特征的权重，Q表示查询特征。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述。

本发明的一种基于层次化风格的条件文本-电商图片的检索方法，其流程如图1所示，包含以下步骤：

(1)建立条件文本-电商图片数据库，包含参考图片-修改文本-目标图片的三元组数据。

其中，参考图片为电商产品图片；修改文本为针对颜色、尺寸、风格等方面的修改意见；目标图片为以参考图片为基础，最接近修改文本要求的电商产品图片。

图像特征向量具体为：使用CLIP预训练模型中的RN50x4模型，输入图像尺寸为288×288，输出图像特征向量为640维；文本特征向量具体为：CLIP预训练模型中的Transformer模型，其包含12层，输出文本特征向量T为640维。

(2)通过滑动窗口机制和双阶段自注意机制将图像块的平均特征与图像块特征之间进行交互，得到图像块的共性特征。

本发明首先基于滑动窗口机制，将条件文本-电商图片数据库中参考图片按照2×2以及3×3等大小获得13个图像块。每个图像块通过(1)中图像模型提取特征得到图像块特征p_i。本发明设计了一种双阶段自注意力机制得到图像块的共性特征。第一步，使用简单自注意力机制，将所有图像块特征的平均作为p_r；第二步，对第一步中的p_r使用多头注意力机制得到p_m。进一步，通过如下公式计算图像块的共性特征p_c：

p_c＝f_c([p_m,f_q(p_r)])

其中，f_c和f_q都为全连接层。

(3)将共性特征通过图推理网络与图像块特征进行融合，并通过局部区域过滤网络过滤掉无用图像块特征，得到图像块的差异特征。

本发明设计了一种图连接网络来关联图像块特征从而获得图像块差异特征。具体地，将步骤(2)获得的每个图像块特征p_i以及共性特征p_c作为图节点，通过如下公式分别建立图推理网络中的节点

和边e：

其中，W_in和W_out为全连接层，在入节点v_in和出节点v_out之间之间传递关联信息。

在构建图推理网络后，通过如下公式更新图推理网络中的节点与边：

其中，L表示图推理网络的层数，

表示全连接层。经过图推理网络后，共性特征p_c与图像块特征之间充分关联完成信息交互，初步得到差异特征

为了减小不重要图像块对结果的干扰，本发明设计了过滤网络自适应地计算图像块的重要权重并更新得到过滤后的差异特征

计算过程如下：

其中，σ为Sigmoid函数，BN为批标准化操作，W_f为全连接层，v_i为图像块特征。

考虑到不同电商产品包含的不重要图像块比例是不同的，为了提高本发明的鲁邦性，本发明通过引入两个自学习参数α和β来平衡

与

的重要程度，并得到差异特征p_d，如以下公式所示：

(4)将目标图片的图片特征作为查询目标。将共性特征和差异特征融合得到的风格特征作为查询样例，计算查询样例和查询目标的相似性，根据相似性得到目标模态数据的相关结果列表。

本发明设计了一种图像风格特征与文本跨模态对齐的融合方法，称为域内域间跨模态对齐的方式。第一阶段，将图像块共性特征与图像块差异特征融合。首先通过如下公式得到低层交互特征p_l：

p_l＝f_l([f_c(p_c),f_d(p_d)])

其中，f_l、f_c和f_d为全连接层。通过学习自适应的参数θ，将共性特征与差异特征融合得到基于图像块的风格特征p_h如以下公式所示：

θ＝f_θ([f_c(p_c),f_d(p_d)])

p_h＝f_h(p_l)+θ·p_c+(1-θ)·p_d

f_θ、f_c、f_d、f_h为全连接层映射网络。

第二阶段，将风格特征p_h与全局图像特征拼接得到视觉特征V。使用域内域间跨模态对齐的方式将包含风格的视觉特征V和修改文本的文本特征T进行融合。首先通过自注意力机制获得域内注意力特征V′和T′，如以下公式所示：

其中，MLP为全连接层网络，m为参考图片和修改文本的数量，T为修改文本的文本特征，t_i为每条修改文本的文本特征。分别采用类似第一阶段的融合方式学习两个自适应权重θ_self和θ_com，并得到融合特征如以下公式所示：

F_final＝F_self+F_com

其中，

和

为全连接层网络，

为低层域内交互特征，

为低层域间交互特征，F_self为高层域内交互特征，F_com为高层域间交互特征。

下面的实验结果表明，与现有方法相比，本发明的基于层次化风格的条件文本-电商图片的检索方法，可以取得更高的检索准确率。

本实施例采用了FashionIQ条件文本-电商图片数据集进行实验，该数据集由文献“Fashion iq:A new dataset towards retrieving images by natural languagefeedback”(作者Hui Wu,Yupeng Gao,Xiaoxiao Guo,Ziad Al-Halah,Steven Rennie,Kristen Grauman和Rogerio Feris，发表在2021年的CVPR)提出，其中共有三个大类类，训练集包含18000对参考图片-修改文本-目标图片三元组，验证集包含6017对，测试集包含6119对。测试了以下3种方法作为实验对比：

现有方法一：文献“Image Search with Text Feedback by VisiolinguisticAttention Learning”(作者Yanbei Chen，Shaogang Gong和Loris Bazzani)中的VAL方法。

现有方法二：文献“Dual compositional learning in interactive imageretrieval”(作者Jongseok Kim,Youngjae Yu,Hoeseong Kim和Gunhee Kim)中的DCNet方法。

现有方法三：文献“Effective conditioned and composed image retrievalcombining clip-based features.”(作者Alberto Baldrati,Marco Bertini,TiberioUricchio和Alberto Del Bimbo)中的CLIP4Cir方法。

本发明：本实施例的方法。

实验采用信息检索领域常用的Recall@10、Recall@50以及两者的平均值指标来评测检索的准确性。对于一组参考图片以及修改文本，搜索k个最接近的目标图片，如果其中包含目标图片，则记此次查询的分数为1，否则为0。Recall@K是指测试集中所有查询的分数的平均。Recall值越大，说明检索的结果就越好。

从表1可以看出，本发明在R@10和平均指标上有较大提高。三种现有方法都没有充分利用电商图片中包含的丰富的风格信息。本发明通过双阶段注意力机制，以及图推理网络和过滤网络建模电商图片的风格特征，并利用域内域间跨模态对齐挖掘参考图片-修改文本-目标图片三元组之间的关联，因此能取得更好的检索准确率。

表1.本发明的实验结果展示

	R@10	R@50	平均
				现有方法一	24.15	46.61	35.40
现有方法二	27.78	53.89	40.84
				现有方法三	35.39	59.03	47.21
本发明	37.78	60.64	49.21

在其它实施例中，本发明步骤(1)中提取文本特征的方法，使用CLIP预训练模型建模文本特征，同样可以采用LSTM(Long-Short Term Memory,长短期记忆)神经网络，以及循环神经网络(Recurrent Neural Network，简称RNN)神经网络作为替代。

本发明的另一实施例提供一种基于层次化风格的条件文本-电商图片的检索系统，其包括：

其中各模块的具体实施过程参见前文对本发明方法的描述。

本发明的另一实施例提供一种计算机设备(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于层次化风格的条件文本-电商图片的检索方法，包括以下步骤：

建立条件文本-电商图片数据库，包含参考图片-修改文本-目标图片的三元组数据；

通过滑动窗口机制获得条件文本-电商图片数据库中参考图片的图像块，通过双阶段自注意机制将图像块的平均特征与图像块特征之间进行交互，得到图像块的共性特征；

将共性特征通过图推理网络与图像块特征进行融合，并利用局部区域过滤网络过滤掉无用图像块特征，得到图像块的差异特征；

将共性特征与差异特征通过低层-高层交互融合得到风格特征，将其作为查询样例，根据查询样例检索目标图片。

2.如权利要求1所述的方法，其特征在于，所述条件文本-电商图片数据库，包含参考图片-修改文本-目标图片的三元组数据；参考图片为电商产品图片；修改文本为针对颜色、尺寸、风格等方面的修改意见；目标图片为以参考图片为基础，最接近修改文本要求的电商产品图片。

3.如权利要求1所述的方法，其特征在于，所述双阶段自注意力机制对图像块特征训练双阶段自注意力网络，将每个图像块映射到共有的语义空间，得到图像块的共性特征。

4.如权利要求1所述的方法，其特征在于，所述双阶段自注意机制为：

a)将图片分割为多个图像块，并提取特征得到图像块特征p_i；

b)使用简单自注意力机制，将所有图像块特征p_i的平均作为p_r；

c)对p_r使用多头注意力机制得到p_m，通过如下公式计算图像块的共性特征p_c：

p_c＝f_c([p_m，f_q(p_r)])

其中，f_c和f_q都为全连接层。

5.如权利要求4所述的方法，其特征在于，所述图像块的差异特征的构造方法为：

a)将每个图像块特征p_i以及共性特征p_c作为图节点，通过如下公式分别建立图推理网络中的点

和边e：

其中，W_in和W_out为全连接层，在入节点v_in和出节点v_out之间之间传递关联信息；

b)构建图推理网络后，通过如下公式更新图推理网络中的节点与边：

其中，L表示图推理网络的层数，

表示全连接层；经过图推理网络后，共性特征p_c与图像块特征之间充分关联完成信息交互，初步得到差异特征

c)为了减小不重要图像块对结果的干扰，设计过滤网络自适应地计算图像块的权重并更新得到过滤后的差异特征

计算过程如下：

其中，σ为Sigmoid函数，BN为批标准化操作，W_f为全连接层，v_i为图像块特征；

d)引入两个自学习参数α和β来平衡

与

的重要程度，并得到差异特征p_d，如以下公式所示：

6.如权利要求5所述的方法，其特征在于，所述将共性特征与差异特征通过低层-高层交互融合得到风格特征，是使用域内域间跨模态对齐的方式将包含风格的视觉特征和修改文本的文本特征进行融合，包括以下步骤：

a)将图像块共性特征与图像块差异特征融合，通过如下公式得到低层交互特征p_l：

p_l＝f_l([f_c(p_c)，f_d(p_d])

其中，f_l、f_c和f_d为全连接层；

b)通过学习自适应的参数θ，将共性特征与差异特征融合得到基于图像块的风格特征p_h，

如以下公式所示：

θ＝f_θ([f_c(p_c)，f_d(p_d])

p_h＝f_h(p_l)+θ·p_c+(1-θ)·p_d

其中，f_θ、f_h为全连接层；

c)将风格特征p_h与全局图像特征拼接得到视觉特征V，使用域内域间跨模态对齐的方式将包含风格的视觉特征V和修改文本的文本特征T进行融合，通过自注意力机制获得域内注意力特征V′和T′，如以下公式所示：

其中，MLP为全连接层网络，m为参考图片和修改文本的数量，T为修改文本的文本特征，t_i为每条修改文本的文本特征；

d)分别采用a)和b)的融合方式学习两个自适应权重θ_self和θ_com，并得到融合特征F_final如以下公式所示：

F_final＝F_self+F_com

其中，

和

为全连接层网络，

为低层域内交互特征，

7.如权利要求1所述的方法，其特征在于，所述根据查询样例检索目标图片，是将条件文本-电商图片数据库中目标图片的特征作为查询目标，计算查询样例和查询目标的相似性，根据相似性得到目标模态数据的相关结果列表。

8.一种基于层次化风格的条件文本-电商图片的检索系统，其特征包括：

共性特征提取模块，使用滑动窗口机制和双阶段自注意机制将图像块的平均特征与图像块特征之间进行交互，得到图像块的共性特征；

差异特征提取模块，将共性特征通过图推理网络与图像块特征进行融合，并利用局部区域过滤网络过滤掉无用图像块特征，得到图像块的差异特征；

检索模块，将风格特征作为查询样例，将目标图片作为查询目标，计算查询样例和查询目标的相似性，将相似性按照从大到小排序，根据相似性得到目标模态图片数据的相关结果列表。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一项所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一项所述的方法。