CN107870992A

CN107870992A - 基于多通道主题模型的可编辑服装图像搜索方法

Info

Publication number: CN107870992A
Application number: CN201711024040.XA
Authority: CN
Inventors: 周正中; 张丽清
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2018-04-03

Abstract

一种基于多通道主题模型的可编辑服装图像搜索方法，首先使用物体检测方法找到图片中服饰商品的主体区域，并在主体区域上提取多种描述子并使用词袋模型量化成词袋形式向量；然后根据搜索条件对视觉词的权重进行编辑修改，使用预训练的多通道主题模型将词袋形式向量融合成能够描述服装商品高层语义的检索特征并建立索引；当在线检测时，通过计算待查询商品样图和数据库图像的向量相似度，以相似度最高的商品作为搜索结果。本发明能对待查询商品的视觉、商品文本属性等信息进行再编辑，更准确刻画用户对商品的需求，通过多通道主题模型查找用户期望的商品。

Description

基于多通道主题模型的可编辑服装图像搜索方法

技术领域

本发明涉及的是一种图像处理领域的技术，具体是一种基于多通道主题模型的可编辑服装图像搜索方法。

背景技术

近年来基于内容的图像搜索(CBIR)技术来检索服饰类商品成为研究热点，由于以图搜图的模式很难提取用户的检索意向，从视觉图像中提取特征的模型过于简单、无法建立图像视觉特征和语义信息的有效关联。这导致用户依然需要输入额外的文本信息来弥补缺损语义。目前针对基于内容的服装检索已有不少工作，主要集中在三个问题上：1)如何在没有额外文本信息的情况下判断服装样图的种类和属性；2)如何提取融合底层视觉信息和高层语义信息的服装特征；3)如何自定义查询条件，改善用户与系统间的交互性。

发明内容

本发明针对现有技术提取的特征形式单一、无法有效表达语义信息等不足，提出一种基于多通道主题模型的可编辑服装图像搜索方法，能对待查询商品的视觉、商品文本属性等信息进行再编辑，更准确刻画用户对商品的需求，通过多通道主题模型查找用户期望的商品。

本发明是通过以下技术方案实现的：

本发明首先使用物体检测方法找到图片中服饰商品的主体区域，并在主体区域上提取多种描述子并使用词袋模型量化成词袋形式向量；然后根据搜索条件对视觉词的权重进行编辑修改，使用预训练的多通道主题模型将词袋形式向量融合成能够描述服装商品高层语义的检索特征并建立索引；当在线检测时，通过计算待查询商品样图和数据库图像的向量相似度，以相似度最高的商品作为搜索结果。

本发明涉及一种实现上述方法的系统，包括：物体检测模块、特征提取模块、用户交互模块、相似度匹配模块以及图像特征数据库，其中：物体检测模块与特征提取模块相连并传输图像中服装主体区域的位置信息，用户交互模块与特征提取模块相连并传输用户自定义检索条件信息，特征提取模块与相似度匹配模块相连并传输查询图的图像特征信息，图像特征数据库与相似度匹配模块相连并传输数据库中商品的图像特征信息。

技术效果

与现有技术相比，本发明提取的检索特征兼顾视觉语义一致性，一定程度上克服了“语义鸿沟”(Semantic Gap)问题，优化了服装检索的精度；此外本发明支持用户对查询条件再编辑，允许修改原图的局部细节后进行检索，具有很强的系统交互性。

本发明通过提取不同种类的图像特征(包括颜色、形状、纹理及文本属性)，并采用“多通道主题模型”对其进行概率建模，得到能够表达款式、风格等高层语义概念的服装表征，从而更加准确地描述用户对服装的视觉效果和服装属性的需求。与目前主流的深度神经网络方法相比，使用该方法检索语义相似度有显著的提高。采用这种特征提取方案的另一优势是可以很方便地对查询图部分视觉或文本特征做替换和修改。用户在进行检索的同时能够不断修正查询条件，从而找到他们理想中的服饰商品。这大大改善了系统交互体验。

附图说明

图1为服装主体区域识别与子区域划分示意图；

图2为多通道主题模型的图模型示意图；

图3为实施例中测试集上的检索结果示意图。

具体实施方式

本实施例包括以下步骤：

步骤1)图像预处理：在提取服装样图的视觉描述子前，要对服装区域进行定位，这样可以减小图像背景带来的噪音并增强算法鲁棒性。这里通过训练R-CNN检测器来识别图像中的服装主体区域与模特躯干区域。进一步的，使用不同尺度的滑动窗口将该区域分割成多个相符重叠的子区域，如图1所示。

步骤2)特征提取：对于每个图像子区域，提取如SIFT特征、FilterBank特征和颜色直方图特征等视觉特征，它们分别描述了服装的形状、纹理和颜色信息。同时从服装的产品描述中提取关键字作为文本特征。进一步地，利用K-means聚类和局部线性编码(LLC)，将上述描述子转化成词袋(BOW)形式的向量。这样做便于后续使用主题模型对图像进行建模。

所述的词袋形式向量具体是指：将图像的特征词以统计直方图形式表征为定长的向量。

步骤3)编辑特征权重：已经将图像分割成多个子区域，并提取了多种不同服装特征。根据用户自定义搜索条件，首先确定要修改的是哪一种特征：如果是文本特征，重新编辑描述关键字即可；如果是视觉特征，还要确定修改部分的位置。在包含该位置的局部区域上重新计算视觉特征，并转化成词袋向量。例如，用户提出要把衬衫的下摆部分的颜色改为绿色。首先找到包含下摆的多个子区域，然后重新修改这些区域上的颜色直方图特征使之接近绿色，最后再进行词袋向量转化。这样，就可以将用户的需求充分结合到检索过程中。

步骤4)训练多通道主题模型：提出一种多通道主题模型用于对服饰商品的视觉和文本信息进行建模并提取有效的检索特征。

如图2所示，为本实施例所采用的多通道主题模型：

当数据集中有数据集中的M张图像I_m，由于主题模型起初适用于对文本进行分析的工具，所以把每张图像看做一篇“文档”，而每张“文档”是由N个短语p_r,r＝(m,n)构成的。每个短语则有一组不同特征通道上的特征词组成，这里记特征词为w_r ^j,r＝(m,n),j∈{s(SIFT),f(FB),c(COL),t(TEXT)}。

对于每篇“文档”用一个混合主题概率分布来表示它的高层语义。对于每个短语p_r分配一个主题z_r,r＝(m,n)来表示它的含义。设和服从先验为和的多项式分布。同时和又是服从先验为与的狄利克雷分布。

记为属于主题为k的短语的特征词的个数(i是特征词在词典D^j中的序号)，记为I_m中主题为k的短语个数，给定参数得到和的联合概率分布：其中：是狄利克雷delta函数。

由上述公式可以得到多通道主题模型的Gibbs采样规则：

其中：表示从图像或主题中去除短语p_r后的统计量，(·)是省略的隐参数。利用上述公式，对不断迭代估计。待收敛后，可由下述公式求得参数和

为了得到服装商品的有效表征，在每一个子区域上训练一个独立的多通道主题模型。把模型提取的主题分布作为服装的局部描述特征，并串联所有的得到服装商品的整体检索特征。

步骤5)建立服装特征索引：这里使用局部线性哈希(LSH)得到高效的索引结构。通过索引结构过滤与查询样图明显不相关的图像，之后不再计算他们间的相似度，这样可以提高检索速度。

所述的索引结构具体通过提取数据库中图像特征的哈希值建立哈希列表得到。

步骤6)当在线检测时，通过计算待查询商品样图和数据库图像的向量相似度，以相似度最高的商品作为搜索结果。

所述的向量相似度通过计算两个服装检索特征间的欧几里得距离得到。

本实施例中搜集了超过20万服装样图和与之对应的商品描述作为数据集。这些样图中包含了多种不同的模特姿势及复杂背景。为了训练Faster R-CNN检测器，人工标注了其中1万中图像。

随机将数据集分为同等大小的两部分，分别用于训练和测试。在训练中设N＝100,K＝50，检索特征长度为850。在测试过程中，选取“K.Lin,H.F.Yang,K.H.Liu,J.H.Hsiao,and C.S.Chen.Rapid clothing retrieval via deep learning of binary codes andhierarchical search,ICMR2015.”及“J.Huang,W.Xia,and S.Yan.Deep search withattribute-aware deep network,ACM MM2014.”两种方法来和的方法作比较。

邀请10位测试用户，每人在的检索系统上进行100次查询任务。每个任务中，用户上传一张服装样图，并根据他们个人的喜好编辑修改原图的颜色、形状、纹理、文本属性。系统需要返回数据集中最贴近用户需求的商品作为检索结果。这里使用NDCG(NormalizedDiscounted Cumulative Cain)：NDCG@作为评价指标。如果第j张图像满足用户需求，则r(j)＝1，否则r(j)＝0。结果见表1。图3是的方法在测试数据集上的一些检索样例。

表1:各种服装商品检索算法的精度。

方法	NDCG@20
		Deep Search	0.374
Hierarchical Search	0.365
		Multi-Channel Topic Model	0.648

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于多通道主题模型的可编辑服装图像搜索方法，其特征在于，首先使用物体检测方法找到图片中服饰商品的主体区域，并在主体区域上提取多种描述子并使用词袋模型量化成词袋形式向量；然后根据搜索条件对视觉词的权重进行编辑修改，使用预训练的多通道主题模型将词袋形式向量融合成能够描述服装商品高层语义的检索特征并建立索引；当在线检测时，通过计算待查询商品样图和数据库图像的向量相似度，以相似度最高的商品作为搜索结果。

2.根据权利要求1所述的方法，其特征是，所述的主体区域，通过训练R-CNN检测器来识别图像中的服装主体区域与模特躯干区域。

3.根据权利要求1或2所述的方法，其特征是，所述的主体区域，使用不同尺度的滑动窗口将该区域分割成多个相符重叠的子区域。

4.根据权利要求1所述的方法，其特征是，所述的描述子包括：视觉特征和文本特征，其中：视觉特征包括SIFT特征、FilterBank特征和颜色直方图特征，文本特征包括产品描述。

5.根据权利要求1所述的方法，其特征是，所述的词袋形式向量，利用K-means聚类和局部线性编码，将描述子转化成词袋形式，即将图像的特征词以统计直方图形式表征为定长的向量。

6.根据权利要求1所述的方法，其特征是，所述的多通道主题模型的Gibbs采样规则为：

其中：表示从图像或主题中去除短语p_r后的统计量，(·)是省略的隐参数；为属于主题为k的短语的特征词的个数，i为特征词在词典D^j中的序号，为I_m中主题为k的短语个数，Δ(·)是狄利克雷delta函数；主题z_r,r＝(m,n)为表示短语p_r的含义，和服从先验为和的多项式分布；和又是服从先验为与的狄利克雷分布；

通过对不断迭代估计并在收敛后，通过：

求得参数和

7.根据权利要求1所述的方法，其特征是，所述的索引的结构具体通过提取数据库中图像特征的哈希值建立哈希列表得到。

8.根据权利要求1所述的方法，其特征是，所述的向量相似度，通过计算两个服装检索特征间的欧几里得距离得到。

9.一种实现上述任一权利要求所述方法的系统，其特征在于，包括：物体检测模块、特征提取模块、用户交互模块、相似度匹配模块以及图像特征数据库，其中：物体检测模块与特征提取模块相连并传输图像中服装主体区域的位置信息，用户交互模块与特征提取模块相连并传输用户自定义检索条件信息，特征提取模块与相似度匹配模块相连并传输查询图的图像特征信息，图像特征数据库与相似度匹配模块相连并传输数据库中商品的图像特征信息。