CN107870992A - 基于多通道主题模型的可编辑服装图像搜索方法 - Google Patents
基于多通道主题模型的可编辑服装图像搜索方法 Download PDFInfo
- Publication number
- CN107870992A CN107870992A CN201711024040.XA CN201711024040A CN107870992A CN 107870992 A CN107870992 A CN 107870992A CN 201711024040 A CN201711024040 A CN 201711024040A CN 107870992 A CN107870992 A CN 107870992A
- Authority
- CN
- China
- Prior art keywords
- commodity
- image
- feature
- multichannel
- bag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
Abstract
一种基于多通道主题模型的可编辑服装图像搜索方法,首先使用物体检测方法找到图片中服饰商品的主体区域,并在主体区域上提取多种描述子并使用词袋模型量化成词袋形式向量;然后根据搜索条件对视觉词的权重进行编辑修改,使用预训练的多通道主题模型将词袋形式向量融合成能够描述服装商品高层语义的检索特征并建立索引;当在线检测时,通过计算待查询商品样图和数据库图像的向量相似度,以相似度最高的商品作为搜索结果。本发明能对待查询商品的视觉、商品文本属性等信息进行再编辑,更准确刻画用户对商品的需求,通过多通道主题模型查找用户期望的商品。
Description
技术领域
本发明涉及的是一种图像处理领域的技术,具体是一种基于多通道主题模型的可编辑服装图像搜索方法。
背景技术
近年来基于内容的图像搜索(CBIR)技术来检索服饰类商品成为研究热点,由于以图搜图的模式很难提取用户的检索意向,从视觉图像中提取特征的模型过于简单、无法建立图像视觉特征和语义信息的有效关联。这导致用户依然需要输入额外的文本信息来弥补缺损语义。目前针对基于内容的服装检索已有不少工作,主要集中在三个问题上:1)如何在没有额外文本信息的情况下判断服装样图的种类和属性;2)如何提取融合底层视觉信息和高层语义信息的服装特征;3)如何自定义查询条件,改善用户与系统间的交互性。
发明内容
本发明针对现有技术提取的特征形式单一、无法有效表达语义信息等不足,提出一种基于多通道主题模型的可编辑服装图像搜索方法,能对待查询商品的视觉、商品文本属性等信息进行再编辑,更准确刻画用户对商品的需求,通过多通道主题模型查找用户期望的商品。
本发明是通过以下技术方案实现的:
本发明首先使用物体检测方法找到图片中服饰商品的主体区域,并在主体区域上提取多种描述子并使用词袋模型量化成词袋形式向量;然后根据搜索条件对视觉词的权重进行编辑修改,使用预训练的多通道主题模型将词袋形式向量融合成能够描述服装商品高层语义的检索特征并建立索引;当在线检测时,通过计算待查询商品样图和数据库图像的向量相似度,以相似度最高的商品作为搜索结果。
本发明涉及一种实现上述方法的系统,包括:物体检测模块、特征提取模块、用户交互模块、相似度匹配模块以及图像特征数据库,其中:物体检测模块与特征提取模块相连并传输图像中服装主体区域的位置信息,用户交互模块与特征提取模块相连并传输用户自定义检索条件信息,特征提取模块与相似度匹配模块相连并传输查询图的图像特征信息,图像特征数据库与相似度匹配模块相连并传输数据库中商品的图像特征信息。
技术效果
与现有技术相比,本发明提取的检索特征兼顾视觉语义一致性,一定程度上克服了“语义鸿沟”(Semantic Gap)问题,优化了服装检索的精度;此外本发明支持用户对查询条件再编辑,允许修改原图的局部细节后进行检索,具有很强的系统交互性。
本发明通过提取不同种类的图像特征(包括颜色、形状、纹理及文本属性),并采用“多通道主题模型”对其进行概率建模,得到能够表达款式、风格等高层语义概念的服装表征,从而更加准确地描述用户对服装的视觉效果和服装属性的需求。与目前主流的深度神经网络方法相比,使用该方法检索语义相似度有显著的提高。采用这种特征提取方案的另一优势是可以很方便地对查询图部分视觉或文本特征做替换和修改。用户在进行检索的同时能够不断修正查询条件,从而找到他们理想中的服饰商品。这大大改善了系统交互体验。
附图说明
图1为服装主体区域识别与子区域划分示意图;
图2为多通道主题模型的图模型示意图;
图3为实施例中测试集上的检索结果示意图。
具体实施方式
本实施例包括以下步骤:
步骤1)图像预处理:在提取服装样图的视觉描述子前,要对服装区域进行定位,这样可以减小图像背景带来的噪音并增强算法鲁棒性。这里通过训练R-CNN检测器来识别图像中的服装主体区域与模特躯干区域。进一步的,使用不同尺度的滑动窗口将该区域分割成多个相符重叠的子区域,如图1所示。
步骤2)特征提取:对于每个图像子区域,提取如SIFT特征、FilterBank特征和颜色直方图特征等视觉特征,它们分别描述了服装的形状、纹理和颜色信息。同时从服装的产品描述中提取关键字作为文本特征。进一步地,利用K-means聚类和局部线性编码(LLC),将上述描述子转化成词袋(BOW)形式的向量。这样做便于后续使用主题模型对图像进行建模。
所述的词袋形式向量具体是指:将图像的特征词以统计直方图形式表征为定长的向量。
步骤3)编辑特征权重:已经将图像分割成多个子区域,并提取了多种不同服装特征。根据用户自定义搜索条件,首先确定要修改的是哪一种特征:如果是文本特征,重新编辑描述关键字即可;如果是视觉特征,还要确定修改部分的位置。在包含该位置的局部区域上重新计算视觉特征,并转化成词袋向量。例如,用户提出要把衬衫的下摆部分的颜色改为绿色。首先找到包含下摆的多个子区域,然后重新修改这些区域上的颜色直方图特征使之接近绿色,最后再进行词袋向量转化。这样,就可以将用户的需求充分结合到检索过程中。
步骤4)训练多通道主题模型:提出一种多通道主题模型用于对服饰商品的视觉和文本信息进行建模并提取有效的检索特征。
如图2所示,为本实施例所采用的多通道主题模型:
当数据集中有数据集中的M张图像Im,由于主题模型起初适用于对文本进行分析的工具,所以把每张图像看做一篇“文档”,而每张“文档”是由N个短语pr,r=(m,n)构成的。每个短语则有一组不同特征通道上的特征词组成,这里记特征词为wr j,r=(m,n),j∈{s(SIFT),f(FB),c(COL),t(TEXT)}。
对于每篇“文档”用一个混合主题概率分布来表示它的高层语义。对于每个短语pr分配一个主题zr,r=(m,n)来表示它的含义。设和服从先验为和的多项式分布。同时和又是服从先验为与的狄利克雷分布。
记为属于主题为k的短语的特征词的个数(i是特征词在词典Dj中的序号),记为Im中主题为k的短语个数,给定参数得到和的联合概率分布:其中:是狄利克雷delta函数。
由上述公式可以得到多通道主题模型的Gibbs采样规则:
其中:表示从图像或主题中去除短语pr后的统计量,(·)是省略的隐参数。利用上述公式,对不断迭代估计。待收敛后,可由下述公式求得参数和
为了得到服装商品的有效表征,在每一个子区域上训练一个独立的多通道主题模型。把模型提取的主题分布作为服装的局部描述特征,并串联所有的得到服装商品的整体检索特征。
步骤5)建立服装特征索引:这里使用局部线性哈希(LSH)得到高效的索引结构。通过索引结构过滤与查询样图明显不相关的图像,之后不再计算他们间的相似度,这样可以提高检索速度。
所述的索引结构具体通过提取数据库中图像特征的哈希值建立哈希列表得到。
步骤6)当在线检测时,通过计算待查询商品样图和数据库图像的向量相似度,以相似度最高的商品作为搜索结果。
所述的向量相似度通过计算两个服装检索特征间的欧几里得距离得到。
本实施例中搜集了超过20万服装样图和与之对应的商品描述作为数据集。这些样图中包含了多种不同的模特姿势及复杂背景。为了训练Faster R-CNN检测器,人工标注了其中1万中图像。
随机将数据集分为同等大小的两部分,分别用于训练和测试。在训练中设N=100,K=50,检索特征长度为850。在测试过程中,选取“K.Lin,H.F.Yang,K.H.Liu,J.H.Hsiao,and C.S.Chen.Rapid clothing retrieval via deep learning of binary codes andhierarchical search,ICMR2015.”及“J.Huang,W.Xia,and S.Yan.Deep search withattribute-aware deep network,ACM MM2014.”两种方法来和的方法作比较。
邀请10位测试用户,每人在的检索系统上进行100次查询任务。每个任务中,用户上传一张服装样图,并根据他们个人的喜好编辑修改原图的颜色、形状、纹理、文本属性。系统需要返回数据集中最贴近用户需求的商品作为检索结果。这里使用NDCG(NormalizedDiscounted Cumulative Cain):NDCG@作为评价指标。如果第j张图像满足用户需求,则r(j)=1,否则r(j)=0。结果见表1。图3是的方法在测试数据集上的一些检索样例。
表1:各种服装商品检索算法的精度。
方法 | NDCG@20 |
Deep Search | 0.374 |
Hierarchical Search | 0.365 |
Multi-Channel Topic Model | 0.648 |
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
Claims (9)
1.一种基于多通道主题模型的可编辑服装图像搜索方法,其特征在于,首先使用物体检测方法找到图片中服饰商品的主体区域,并在主体区域上提取多种描述子并使用词袋模型量化成词袋形式向量;然后根据搜索条件对视觉词的权重进行编辑修改,使用预训练的多通道主题模型将词袋形式向量融合成能够描述服装商品高层语义的检索特征并建立索引;当在线检测时,通过计算待查询商品样图和数据库图像的向量相似度,以相似度最高的商品作为搜索结果。
2.根据权利要求1所述的方法,其特征是,所述的主体区域,通过训练R-CNN检测器来识别图像中的服装主体区域与模特躯干区域。
3.根据权利要求1或2所述的方法,其特征是,所述的主体区域,使用不同尺度的滑动窗口将该区域分割成多个相符重叠的子区域。
4.根据权利要求1所述的方法,其特征是,所述的描述子包括:视觉特征和文本特征,其中:视觉特征包括SIFT特征、FilterBank特征和颜色直方图特征,文本特征包括产品描述。
5.根据权利要求1所述的方法,其特征是,所述的词袋形式向量,利用K-means聚类和局部线性编码,将描述子转化成词袋形式,即将图像的特征词以统计直方图形式表征为定长的向量。
6.根据权利要求1所述的方法,其特征是,所述的多通道主题模型的Gibbs采样规则为:
其中:表示从图像或主题中去除短语pr后的统计量,(·)是省略的隐参数;为属于主题为k的短语的特征词的个数,i为特征词在词典Dj中的序号,为Im中主题为k的短语个数,Δ(·)是狄利克雷delta函数;主题zr,r=(m,n)为表示短语pr的含义,和服从先验为和的多项式分布;和又是服从先验为与的狄利克雷分布;
通过对不断迭代估计并在收敛后,通过:
求得参数和
7.根据权利要求1所述的方法,其特征是,所述的索引的结构具体通过提取数据库中图像特征的哈希值建立哈希列表得到。
8.根据权利要求1所述的方法,其特征是,所述的向量相似度,通过计算两个服装检索特征间的欧几里得距离得到。
9.一种实现上述任一权利要求所述方法的系统,其特征在于,包括:物体检测模块、特征提取模块、用户交互模块、相似度匹配模块以及图像特征数据库,其中:物体检测模块与特征提取模块相连并传输图像中服装主体区域的位置信息,用户交互模块与特征提取模块相连并传输用户自定义检索条件信息,特征提取模块与相似度匹配模块相连并传输查询图的图像特征信息,图像特征数据库与相似度匹配模块相连并传输数据库中商品的图像特征信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711024040.XA CN107870992A (zh) | 2017-10-27 | 2017-10-27 | 基于多通道主题模型的可编辑服装图像搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711024040.XA CN107870992A (zh) | 2017-10-27 | 2017-10-27 | 基于多通道主题模型的可编辑服装图像搜索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107870992A true CN107870992A (zh) | 2018-04-03 |
Family
ID=61753510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711024040.XA Pending CN107870992A (zh) | 2017-10-27 | 2017-10-27 | 基于多通道主题模型的可编辑服装图像搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107870992A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829847A (zh) * | 2018-06-20 | 2018-11-16 | 山东大学 | 基于多模态购物偏好的商品检索方法及系统 |
CN108960959A (zh) * | 2018-05-23 | 2018-12-07 | 山东大学 | 基于神经网络的多模态互补服装搭配方法、系统及介质 |
CN109064249A (zh) * | 2018-06-28 | 2018-12-21 | 中山大学 | 一种基于特征个性化修改的服装推荐优化方法及其系统 |
CN109146640A (zh) * | 2018-08-30 | 2019-01-04 | 湖北工业大学 | 一种线上商品搜索方法及系统 |
CN109685001A (zh) * | 2018-12-24 | 2019-04-26 | 石狮市森科智能科技有限公司 | 人体三围数据获得方法及智能售衣系统及智能无人售衣机 |
CN110472108A (zh) * | 2019-06-05 | 2019-11-19 | 东华大学 | 基于文本描述匹配的服装面料样品检索方法 |
CN111159456A (zh) * | 2019-12-30 | 2020-05-15 | 云南大学 | 基于深度学习与传统特征的多尺度服装检索方法及系统 |
CN112966715A (zh) * | 2021-02-02 | 2021-06-15 | 哈尔滨商业大学 | 一种基于多尺度视觉词包模型的商品图像特征描述方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778227A (zh) * | 2014-01-23 | 2014-05-07 | 西安电子科技大学 | 从检索图像中筛选有用图像的方法 |
CN105760507A (zh) * | 2016-02-23 | 2016-07-13 | 复旦大学 | 基于深度学习的跨模态主题相关性建模方法 |
CN106227827A (zh) * | 2016-07-25 | 2016-12-14 | 华南师范大学 | 服装图像前景颜色特征提取方法及服装检索方法和系统 |
-
2017
- 2017-10-27 CN CN201711024040.XA patent/CN107870992A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778227A (zh) * | 2014-01-23 | 2014-05-07 | 西安电子科技大学 | 从检索图像中筛选有用图像的方法 |
CN105760507A (zh) * | 2016-02-23 | 2016-07-13 | 复旦大学 | 基于深度学习的跨模态主题相关性建模方法 |
CN106227827A (zh) * | 2016-07-25 | 2016-12-14 | 华南师范大学 | 服装图像前景颜色特征提取方法及服装检索方法和系统 |
Non-Patent Citations (1)
Title |
---|
ZHENGZHONG ZHOU 等: ""Demand-adaptive Clothing Image Retrieval Using Hybrid"", 《PROCESS OF THE 24TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960959B (zh) * | 2018-05-23 | 2020-05-12 | 山东大学 | 基于神经网络的多模态互补服装搭配方法、系统及介质 |
CN108960959A (zh) * | 2018-05-23 | 2018-12-07 | 山东大学 | 基于神经网络的多模态互补服装搭配方法、系统及介质 |
CN108829847B (zh) * | 2018-06-20 | 2020-11-17 | 山东大学 | 基于翻译的多模态建模方法及其在商品检索中的应用 |
CN108829847A (zh) * | 2018-06-20 | 2018-11-16 | 山东大学 | 基于多模态购物偏好的商品检索方法及系统 |
CN109064249A (zh) * | 2018-06-28 | 2018-12-21 | 中山大学 | 一种基于特征个性化修改的服装推荐优化方法及其系统 |
CN109146640A (zh) * | 2018-08-30 | 2019-01-04 | 湖北工业大学 | 一种线上商品搜索方法及系统 |
CN109146640B (zh) * | 2018-08-30 | 2020-06-19 | 湖北工业大学 | 一种线上商品搜索方法及系统 |
CN109685001A (zh) * | 2018-12-24 | 2019-04-26 | 石狮市森科智能科技有限公司 | 人体三围数据获得方法及智能售衣系统及智能无人售衣机 |
CN110472108A (zh) * | 2019-06-05 | 2019-11-19 | 东华大学 | 基于文本描述匹配的服装面料样品检索方法 |
CN110472108B (zh) * | 2019-06-05 | 2023-08-29 | 东华大学 | 基于文本描述匹配的服装面料样品检索方法 |
CN111159456A (zh) * | 2019-12-30 | 2020-05-15 | 云南大学 | 基于深度学习与传统特征的多尺度服装检索方法及系统 |
CN111159456B (zh) * | 2019-12-30 | 2022-09-06 | 云南大学 | 基于深度学习与传统特征的多尺度服装检索方法及系统 |
CN112966715A (zh) * | 2021-02-02 | 2021-06-15 | 哈尔滨商业大学 | 一种基于多尺度视觉词包模型的商品图像特征描述方法 |
CN112966715B (zh) * | 2021-02-02 | 2021-09-07 | 哈尔滨商业大学 | 一种基于多尺度视觉词包模型的商品图像特征描述方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107870992A (zh) | 基于多通道主题模型的可编辑服装图像搜索方法 | |
CN107330451B (zh) | 基于深度卷积神经网络的服装属性检索方法 | |
CN110825899B (zh) | 融合颜色特征和残差网络深度特征的服装图像检索方法 | |
CN104834693B (zh) | 基于深度搜索的视觉图像检索方法及系统 | |
Wang et al. | Matching user photos to online products with robust deep features | |
CN109614508B (zh) | 一种基于深度学习的服装图像搜索方法 | |
CN106126581A (zh) | 基于深度学习的手绘草图图像检索方法 | |
CN103258037A (zh) | 一种针对多组合内容的商标识别检索方法 | |
CN108109055B (zh) | 一种基于图像渲染的跨场景服装检索方法 | |
CN108537240A (zh) | 基于领域本体的商品图像语义标注方法 | |
CN103186538A (zh) | 一种图像分类方法和装置、图像检索方法和装置 | |
CN107729900A (zh) | 一种利用图片属性提取完成录入信息补全的方法及设备 | |
CN110598017B (zh) | 一种基于自学习的商品详情页的生成方法 | |
CN101493887A (zh) | 基于半监督学习和哈希索引的眉毛图像分割方法 | |
CN105678244B (zh) | 一种基于改进编辑距离的近似视频检索方法 | |
Xiong et al. | An asian face dataset and how race influences face recognition | |
Seidl et al. | Automated classification of petroglyphs | |
CN106874421A (zh) | 基于自适应矩形窗口的图像检索方法 | |
Zhan et al. | Pose-normalized and appearance-preserved street-to-shop clothing image generation and feature learning | |
Li et al. | Multi-label pattern image retrieval via attention mechanism driven graph convolutional network | |
Shi et al. | Using artificial intelligence to analyze fashion trends | |
CN102402508A (zh) | 一种近似图像检索装置及检索方法 | |
CN110287369A (zh) | 一种基于语义的视频检索方法及系统 | |
Papadopoulos et al. | Attentive hierarchical label sharing for enhanced garment and attribute classification of fashion imagery | |
Wang | Classification and identification of garment images based on deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180403 |