CN115049695B - 一种自适应生成三分图及融合语义的电商产品抠图方法 - Google Patents
一种自适应生成三分图及融合语义的电商产品抠图方法 Download PDFInfo
- Publication number
- CN115049695B CN115049695B CN202210697567.3A CN202210697567A CN115049695B CN 115049695 B CN115049695 B CN 115049695B CN 202210697567 A CN202210697567 A CN 202210697567A CN 115049695 B CN115049695 B CN 115049695B
- Authority
- CN
- China
- Prior art keywords
- image
- product
- map
- matting
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 30
- 230000004927 fusion Effects 0.000 title claims description 5
- 238000012549 training Methods 0.000 claims abstract description 68
- 238000001514 detection method Methods 0.000 claims abstract description 48
- 210000004209 hair Anatomy 0.000 claims abstract description 22
- 238000010586 diagram Methods 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 13
- 230000007797 corrosion Effects 0.000 claims description 10
- 238000005260 corrosion Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000007717 exclusion Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007500 overflow downdraw method Methods 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 2
- 241000221931 Hypomyces rosellus Species 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种自适应生成三分图及融合语义的电商产品抠图方法,利用显著性检测模型自适应生成三分图,用于辅助训练语义模型和抠图模型;利用尖锐和毛发两种边缘的产品图,对其RGB图和三分图使用多尺度滑动窗口进行分块操作,用于训练语义模型,得到的语义图用于辅助训练抠图模型;将待抠产品图及其对应的三分图和语义图输入抠图模型,得到抠图结果。本发明通过构造显著图注意力引导模块实现三分图的自适应生成,并使用此三分图训练抠图模型,有效解决了不考虑产品结构的传统三分图易导致Alpha预测错误的问题;语义模型的加入可实现对抠图模型的正则化,使其能够针对不同边缘类型做出更准确的预测。
Description
技术领域
本发明属于图像处理领域,尤其涉及一种自适应生成三分图及融合语义的电商产品抠图方法。
背景技术
抠图是一项从图片中将目标前景高精度提取出来的图像处理技术,在电商平台中,无论是店铺内部的商品展示,还是自动生成商品推荐海报,都需要非常精细的抠图结果才能保证良好的展示效果。但是精细抠图对于设计人员来说需要消耗大量的时间,效率很低,难以满足海量商品图像的抠图需求。目前大部分抠图方法主要是针对人体抠图,或者专注于对较难物品的抠图,如玻璃杯、婚纱、网状物体等。而商品种类繁多,拍摄场景复杂多变,除真实拍摄图像外,还有很多被二次加工后的商品图像,如带有横幅、边框、商标等元素的电商主图,多变的商品种类和背景元素给商品通用抠图模型的开发增加了难度。
常用的抠图方法通常需要使用精确的三分图作为抠图模型的辅助输入,近几年也逐渐出现了不需要三分图的端到端的抠图模型,如MODNet、MGMatting等。虽然端到端的模型结构简单,训练成本较低,但是其将粗糙的主体检测和精细边缘抠图集成到一个模型,其应用到商品领域时无法应对多变的商品形状及背景元素,常会导致商品主体内部缺失,边缘预测较差。若选择使用显著性检测模型做商品主体检测,则可以使模型专注主体检测的训练,不会被抠图边缘细化训练所影响。因此可使用显著性检测模型与带三分图的抠图模型相结合,这种两阶段的抠图方法更适用于通用商品抠图领域。
而对于两阶段的抠图模型来说,三分图的生成是一个难点。三分图通常是对显著性检测模型输出的Mask进行形态学腐蚀膨胀生成,其腐蚀膨胀的参数比较固定,腐蚀膨胀的效果和产品边缘类型、显著图结果好坏和显著图的阈值选择都有较大的相关性,若三分图不够准确,则会进一步导致抠图结果变差。另外,虽然三分图可用来标识未知区域,降低抠图难度,但是三分图没有考虑不同类型边界的问题,即无边缘语义信息。SIMMatting对生活中常见物体的边缘归为20个类别,利用20类边缘语义信息指导抠图模型,但是其类别包含很多自然景物,如蜘蛛网、水滴、火焰等,并不适合商品抠图。
发明内容
本发明所解决的技术问题是克服现有技术的不足,提供一种自适应生成三分图及融合语义的电商产品抠图方法,通过对显著性检测模型的输出加以改造,使用显著性检测模型自适应生成三分图,使用语义模型提供语义信息及语义正则化损失,从而提高商品通用抠图模型的抠图精度加入显著图注意力引导模块实现三分图的自适应生成;通过尖锐和毛发两种可覆盖大部分商品的边缘类型,训练边缘语义模型,得到语义图后作为边缘语义信息输入抠图模型,并在训练期间使用语义模型计算Alpha预测的语义正则化损失,使得抠图模型能够针对不同类型的边缘做出最佳预测。
为解决上述技术问题,本发明提供一种自适应生成三分图及融合语义的电商产品抠图方法,包括以下步骤:
步骤1:准备用于训练显著性检测模型的第一数据集,所述第一数据集包括产品RGB图与产品Mask标签,对Mask标签进行随机参数的腐蚀膨胀处理,生成三分图标签;利用产品RGB图、产品Mask标签与三分图标签训练加入显著图注意力引导模块的显著性检测模型,得到预测三分图;
步骤2:准备用于训练语义模型的第二数据集,所述第二数据集包括具有尖锐和毛发两种代表性边缘的产品RGB图,将RGB图输入训练好的显著性检测模型得到预测三分图,对RGB图和预测三分图进行通道叠加后进行多尺度滑动窗口,得到多个图像块,利用每个图像块的显著图梯度均值进行尖锐和毛发类别的分类,使用分类后的图像块训练语义模型;对所有的图像块的类激活映射图进行融合,得到整张图像的语义图;
步骤3:准备用于训练抠图模型的第三数据集,所述第三数据集包括产品RGB图、产品Alpha标签、前景图和背景图,将原始图像、显著性模型预测的三分图、语义模型预测的语义图做通道叠加后输入抠图模型,利用产品Alpha标签、前景图和背景图计算抠图损失,并利用判别器为Alpha预测提供语义级别的正则化损失,辅助抠图模型的训练;最后对预测前景图和预测Alpha图的通道进行合并得到最终抠图结果。
步骤1具体包括:
步骤1-1:准备用于训练显著性检测模型的第一数据集,所述产品RGB图包括真实拍摄的、经过二次加工的和利用随机背景合成的产品图像;所述Mask标签是产品图像中产品主体的二值掩膜图像;所述三分图标签在训练过程中在线生成,在生成时从5、7、9、11、13中随机选择一个数作为结构化元素的尺寸参数,对Mask图像进行迭代次数为1的腐蚀膨胀操作,得到的三分图标签为使用黑白灰颜色表示的三值单通道图像;
步骤1-2:利用产品RGB图、产品Mask标签与生成的三分图标签,训练带有显著图注意力引导模块的显著性检测模型,得到预测三分图。
步骤2具体包括:
步骤2-1:准备用于训练语义模型的第二数据集,将产品RGB图输入已训练好的显著性检测模型,得到预测三分图后,将产品RGB图和预测三分图缩放至1024*1024像素大小;
步骤2-2:将产品RGB图及预测三分图进行通道叠加后输入到多尺度滑动窗口进行分块操作,得到多个图像块;多尺度滑动窗口使用320和512两个尺寸,步长为窗口长度的一半;得到的图像块缩放至320*320像素大小;
步骤2-3:在训练语义模型前,对得到的图像块进行机器筛选,机器筛选即通过三分图统计图像块的白色像素比例,当比例在(0.1,0.75)之间时作为有效图像块;利用显著性检测模型获得有效图像块的显著图,根据梯度均值完成类别标注,得到边缘类别标签;
步骤2-4:使用标注好的图像块训练语义模型,对预测结果使用多分类交叉熵计算损失;在推理阶段,对各滑窗图像块的类激活映射图进行加权平均,权重为单个像素在滑窗中出现的频率;对类激活映射图进行最大最小值归一化,取未知区域部分的类激活映射图作为语义图;得到两通道语义图,用于分别代表每个未知像素是尖锐和毛发类别的概率。
步骤3具体包括:
步骤3-1:准备用于训练抠图模型的第三数据集,包括产品RGB图、产品Alpha标签、前景图和背景图;对于合成图像,直接利用其前景图和所使用的合成背景图;对于其他无完整背景信息的图像,则根据其Alpha标签使用pymatting中封装的Closed-Form方法进行前景预估,得到前景图和背景图;
步骤3-2:将产品RGB图、预测的三分图以及预测的语义图进行通道叠加,得到6通道图像,将6通道图像输入抠图模型,得到预测前景图、预测背景图和预测Alpha图,使用Alpha标签、前景图和背景图联合计算抠图损失,具体的抠图损失包括Alpha损失Lα、前背景损失LFB、梯度约束损失Lg、前背景互斥损失Le;
步骤3-3:将预测Alpha和产品Alpha标签分别与前景图进行通道叠加后,将4通道图输入判别器,判别器的结构与语义模型相同,其参数由语义模型共享;利用判别器输出的各层特征图及预测向量分别计算特征重建损失Lf和类别损失Lc,用于为Alpha预测提供语义级别的正则化,辅助抠图模型的训练;
步骤3-4:将抠图损失和语义正则化损失按比例相加,根据总损失对抠图模型参数进行迭代更新;
步骤3-5:在模型推理时,将输出的预测前景图和预测Alpha图进行通道合并,得到4通道的抠图结果。
所述步骤1-2中,产品RGB图、产品Mask标签与生成的三分图标签在输入模型前需经过数据增强操作,所述数据增强操作包括随机翻转、随机裁剪,并缩放至512*512像素大小;显著性检测模型中的编码器使用ResNet-50作为主干网络;显著图注意力引导模块的具体计算流程为:对解码器最后输出的特征图FM进行3×3卷积,经过Sigmoid激活函数,得到显著图S,利用显著图S引导特征图FM,进行注意力融合操作:FMatt=FM×S+S;对显著性注意力特征FMatt进行3×3卷积运算输出3通道图,对3通道图经过Softmax函数激活,即T=Softmax(FMatt),其中,T代表预测三分图;训练显著性检测网络时,对显著图S使用产品Mask标签计算显著性损失,对预测三分图使用三分图标签计算多分类交叉熵损失,所述显著性损失包括BCE损失、IOU损失和F-Measure损失,将产品Mask标签用GS表示,图像的高度和宽度分别用H和W表示,图像像素点数量用N表示,(i,j)代表图像的每个像素点,则BCE损失和IOU损失表示为:
为计算F-Measure损失,通过显著图及Mask标签计算真阳性TP、假阴性FN、假阳性FP:
则F-Measure损失表示为:
式中β2是准确率和召回率之间的平衡因子,值为0.3;
对预测三分图T使用三分图标签GT计算多分类交叉熵损失:
显著性检测模型总损失表达式为LS=Lbce+Liou+Lfm+Ltrimap,每轮训练时根据LS对显著性检测模型参数进行迭代更新。
所述步骤2-3中,根据梯度均值完成分类的初步标注具体为:使用3*3的椭圆形结构元素,对像素范围在[0,255]的显著图进行膨胀和腐蚀,膨胀图与腐蚀图的差值即为边缘梯度图,对每个图像块内不为0的像素计算均值,在完成尖锐和毛发类别的初步标注时,将梯度均值大于60的图像块初步归为尖锐,将梯度均值小于40的图像块初步归为毛发,将梯度均值在40至60之间的图像块初步归为同时出现尖锐和毛发类别。
所述步骤3中,前景图用F表示,背景图用B表示,产品Alpha标签用α表示,则根据抠图公式,产品RGB图像I表示为I=αF+(1-α)B,则Alpha损失Lα的表达式为:
其中U为图像的未知像素区域,p代表当前选中像素,为预测Alpha图,设预测前景和预测背景分别为/>和/>则预测图像/>Llap是拉普拉斯损失,其将Alpha图分解到5层高斯金字塔层级上,之后再在各个层级上做L1损失,用于监督局部与全局Alpha输出,数学表达形式为:
前背景损失LFB表示为:
其中,
梯度约束损失Lg表示为:
其中,λ1和λ2为可学习参数,
前背景互斥损失Le表示为:
对于步骤3-3中的判别器,设第一判别器中每层输出特征为第二判别器中每层输出特征为fk,特征重建损失Lf表示为:
对类别预测向量进行BCE损失计算:
步骤3-4中,总损失Lmatting=Lα+0.1(LFB+Lg+Le+Lf+Lc)。
本发明主要用于提供一种自适应生成三分图及融合语义的电商产品抠图方法,使用显著性检测模型自适应生成三分图,有效解决了不考虑产品结构的传统三分图易导致Alpha预测错误的问题。使用梯度均值完成图像块的边缘类别标注,大大节省了人工标注的时间。优选使用尖锐和毛发的语义信息,更适用于电商产品抠图,语义信息可辅助抠图模型训练,实现对抠图模型的正则化,使其能够针对不同边缘类型做出更准确的预测。
附图说明
图1是本发明实施例的方法流程简图;
图2是本发明实施例的总体流程图;
图3是本发明实施例的显著性检测模型结构示意图;
图4是本发明实施例的对显著图使用不同三分图生成方法的结果对比示意图;
图5是本发明实施例的语义模型结构与语义图生成流程的示意图;
图6是本发明实施例的边缘梯度示意图;
图7是本发明实施例的抠图模型结构与抠图结果生成流程的示意图;
图8是本发明实施例的判别器结构与计算语义正则化损失的示意图;
图9是本发明实施例的显著性Mask预测和抠图Alpha预测对比示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
如图1所示的本发明实施例的一种自适应生成三分图及融合语义的电商产品抠图方法的流程简图,主要包括:
步骤1,准备用于训练显著性检测模型的第一数据集,训练显著性检测模型,得到预测三分图,用于辅助训练语义模型和抠图模型。
步骤2,准备用于训练语义模型的第二数据集,训练语义模型,得到表示产品边缘所属类别的语义图,用于辅助训练抠图模型。
步骤3,准备用于训练抠图模型的第三数据集,训练抠图模型,得到产品的抠图结果。
其更具体的步骤流程如图2的总体流程图所示,包括以下步骤:
步骤1:准备用于训练显著性检测模型的第一数据集,所述显著性检测模型的结构如图3所示,所述第一数据集包括产品RGB图与产品Mask标签,对Mask标签进行随机参数的腐蚀膨胀处理,生成三分图标签;利用产品RGB图、产品Mask标签与三分图标签训练加入显著图注意力引导模块的显著性检测模型,得到预测三分图,用于辅助训练语义模型和抠图模型。
步骤1-1:准备用于训练显著性检测模型的第一数据集,所述产品RGB图包括真实拍摄的、经过二次加工的和利用随机背景合成的产品图像;所述Mask标签是产品图像中产品主体的二值掩膜图像;所述三分图标签在训练过程中在线生成,在生成时随机选择一个作为结构化元素的尺寸参数,所述尺寸参数包括5,7,9,11,13,对Mask图像进行迭代次数为1的腐蚀膨胀操作,得到的三分图标签为使用黑白灰颜色表示的三值单通道图像。
步骤1-2:利用产品RGB图、产品Mask标签与生成的三分图标签,训练带有显著图注意力引导模块的显著性检测模型,得到预测三分图。
具体地,产品RGB图、产品Mask标签与生成的三分图标签在输入模型前需经过随机翻转、随机裁剪等数据增强操作,并缩放至512*512像素大小。
具体地,显著性检测模型中的编码器使用ResNet-50作为主干网络。
具体地,显著图注意力引导模块的结构如图3虚线框内所示,具体计算流程为:
对解码器最后输出的特征图FM进行3×3卷积,随后经过Sigmoid激活函数,得到显著图S,即
S=Sigmoid(FM)
利用显著图S引导特征图FM,进行注意力融合操作,即对显著图S和特征图FM进行逐元素相乘后,再与显著图S进行逐元素相加
FMatt=FM×S+S
对显著性注意力特征FMatt进行3×3卷积运算输出3通道图,对3通道图经过Softmax函数激活,即
T=Softmax(FMatt)
其中,T代表预测三分图。
使用显著图注意力引导模块自适应生成三分图时,不需要进行二值化阈值的选择,也不需要无差别地对产品边缘进行腐蚀膨胀操作,可更大限度地保持三分图的准确性,因此对不用的显著图结果更具鲁棒性,如图4所示,第4列图像是由本发明自适应生成的三分图。与传统方法生成的三分图进行对比可知,本发明可生成更为准确的三分图。
具体地,训练显著性检测网络时,对显著图使用产品Mask标签计算显著性损失,对预测三分图使用三分图标签计算多分类交叉熵损失。
其中,显著性损失包括BCE损失、IOU损失和F-Measure损失。将产品Mask标签用GS表示,图像的高度和宽度分别用H和W表示,图像像素点数量用N表示,(i,j)代表图像的每个像素点,则BCE损失和IOU损失可表示为:
为计算F-Measure损失,需要通过显著图及Mask标签计算真阳性TP、假阴性FN、假阳性FP:
则F-Measure损失可表示为:
式中β2是准确率和召回率之间的平衡因子,值为0.3。
其中,对预测三分图T使用三分图标签GT计算多分类交叉熵损失:
具体地,显著性检测模型总损失表达式为LS=Lbce+Liou+Lfm+Ltrimap,每轮训练时根据LS对显著性检测模型参数进行迭代更新。
步骤2:准备用于训练语义模型的第二数据集,所述第二数据集包括具有尖锐和毛发两种代表性边缘的产品RGB图,将RGB图输入训练好的显著性检测模型得到预测三分图,对RGB图和预测三分图进行通道叠加后进行多尺度滑动窗口,得到多个图像块,利用每个图像块的显著图梯度均值进行尖锐和毛发类别的分类,使用分类后的图像块训练语义模型;对所有的图像块的类激活映射图进行融合,得到整张图像的语义图,用于辅助训练抠图模型;语义模型的结构与语义图生成流程如图5所示。
步骤2-1:准备用于训练语义模型的第二数据集,将产品的RGB图输入已训练好的显著性检测模型,得到预测三分图,将产品的RGB图输入已训练好的显著性检测模型,得到预测三分图后,将RGB图和预测三分图缩放至1024*1024像素大小。
步骤2-2:将产品RGB图及预测三分图进行通道叠加后输入到多尺度滑动窗口进行分块操作,得到多个图像块;多尺度滑动窗口使用320和512两个尺寸,步长为窗口长度的一半;对得到的图像块缩放至320*320像素大小。
具体地,利用多尺度滑动窗口对通道叠加后的产品RGB图及预测三分图进行分块,可保证分块区域的一致性,合并操作也可减少两次单独操作的计算量,因此所述图像块本质上是RGB块和三分图块的结合体,可参考图2示意图。
具体地,使用320和512两个尺寸的滑动窗口,可以获得多尺度的图像块,增大提取图像块的有效性。
步骤2-3:在训练语义模型前,对得到的图像块进行机器筛选,机器筛选即通过三分图统计图像块的白色像素比例,当比例在(0.1,0.75)之间时作为有效图像块;利用显著性检测模型获得有效图像块的显著图,根据梯度均值完成类别标注,得到边缘类别标签
具体地,梯度均值的计算方法为,使用3*3的椭圆形结构元素,对像素范围在[0,255]的显著图进行膨胀和腐蚀,膨胀图与腐蚀图的差值即为边缘梯度图,边缘梯度图如图6所示,对每个图像块内不为0的像素计算均值。
具体地,在完成尖锐边缘和毛发边缘的初步标注时,将梯度均值大于60的图像块初步归为尖锐边缘,小于40的图像块初步归为毛发边缘。
由于毛发边缘过渡缓慢梯度较小,尖锐边缘过渡急促梯度较大,而既具有尖锐边缘也具有毛发边缘的图像块的梯度均值很可能在40至60之间,因此将可利用梯度均值进行图像块筛选,丢弃同时出现尖锐和毛发类别的图像块。
具体地,图2示意图的类别标注部分,只在语义模型训练前需要进行,在语义模型推理阶段不进行。
步骤2-4:使用标注好的图像块训练语义模型,对预测结果使用多分类交叉熵计算损失;在推理阶段,对各滑窗图像块的类激活映射图进行加权平均,权重为单个像素在滑窗中出现的频率;最后对类激活映射图进行最大最小值归一化,取未知区域部分的类激活映射图作为语义图;最终得到两通道语义图,分别代表每个未知像素是尖锐和毛发类别的概率。
步骤3:准备用于训练抠图模型的第三数据集,所述第三数据集包括产品RGB图、产品Alpha标签、前景图和背景图,将原始图像、显著性模型预测的三分图、语义模型预测的语义图做通道叠加后输入抠图模型,利用产品Alpha标签、前景图和背景图计算抠图损失,并利用判别器为Alpha预测提供语义级别的正则化损失,辅助抠图模型的训练;最后对预测前景图和预测Alpha图的通道进行合并得到最终抠图结果,抠图模型的结构与抠图结果生成流程如图7所示,可见抠图效果非常好。
步骤3-1:准备用于训练抠图模型的第三数据集,包括产品RGB图、产品Alpha标签、前景图和背景图;对于合成图像,直接利用其前景图和所使用的合成背景图;对于其他无完整背景信息的图像,则根据其Alpha标签使用pymatting中封装的Closed-Form方法进行前景预估,得到前景图和背景图。
步骤3-2:将产品RGB图、预测的三分图以及预测的语义图进行通道叠加,得到6通道图像,将6通道图像输入抠图模型,得到预测前景图、预测背景图和预测Alpha图,使用Alpha标签、前景图和背景图联合计算抠图损失,具体的抠图损失包括Alpha损失Lα、前背景损失LFB、梯度约束损失Lg、前背景互斥损失Le。
具体地,设前景图用F表示,背景图用B表示,产品Alpha标签用α表示,则根据抠图公式,产品RGB图像I可表示为I=αF+(1-α)B,则Alpha损失Lα的表达式为
其中U为图像的未知像素区域,为预测Alpha图,设预测前景和预测背景分别为/>和/>则预测图像/>Llap是拉普拉斯损失,其将Alpha图分解到5层高斯金字塔层级上,之后再在各个层级上做L1损失,用于监督局部与全局Alpha输出,数学表达形式为:
前背景损失LFB可表示为:
其中,
梯度约束损失Lg可表示为:
其中,λ1和λ2为可学习参数。
前背景互斥损失Le可表示为:
步骤3-3:将预测Alpha和产品Alpha标签分别与前景图进行通道叠加后,将4通道图输入判别器,该判别器的结构与语义模型相同,其参数由语义模型共享;判别器结构与计算语义正则化损失的流程如图8所示,利用判别器输出的各层特征图及预测向量分别计算特征重建损失Lf和类别损失Lc,为Alpha预测提供语义级别的正则化,辅助抠图模型的训练。
具体地,如图8所示,设判别器1中每层输出特征为判别器2中每层输出特征为fk,特征重建损失Lf可表示为:
对类别预测向量进行BCE损失计算,即
步骤3-4:将抠图损失和语义正则化损失按比例相加,
即Lmatting=Lα+0.1(LFB+Lg+Le+Lf+Lc),根据总损失对抠图模型参数进行迭代更新。
步骤3-5:在模型推理时,将输出的预测前景图和预测Alpha图进行通道合并,得到4通道的抠图结果。
显著性Mask预测和抠图Alpha预测对比结果如图9所示,可知基于产品RGB图,显著性Mask预测能得到粗略边缘的产品主体,而抠图Alpha预测在边缘预测上更加精细,使得抠图结果更加自然。
本发明主要用于提供一种自适应生成三分图及融合语义的电商产品抠图方法,使用显著性检测模型自适应生成三分图,有效解决了不考虑产品结构的传统三分图易导致Alpha预测错误的问题。使用梯度均值完成图像块的边缘类别标注,大大节省了人工标注的时间。使用尖锐和毛发的语义信息更适用于电商产品抠图,语义信息可辅助抠图模型训练,实现对抠图模型的正则化,使其能够针对不同边缘类型做出更准确的预测。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。
Claims (7)
1.一种自适应生成三分图及融合语义的电商产品抠图方法,其特征在于,包括以下步骤:
步骤1:准备用于训练显著性检测模型的第一数据集,所述第一数据集包括产品RGB图与产品Mask标签,对Mask标签进行随机参数的腐蚀膨胀处理,生成三分图标签;利用产品RGB图、产品Mask标签与三分图标签训练加入显著图注意力引导模块的显著性检测模型,得到预测三分图;
步骤2:准备用于训练语义模型的第二数据集,所述第二数据集包括具有尖锐和毛发两种代表性边缘的产品RGB图,将RGB图输入训练好的显著性检测模型得到预测三分图,对RGB图和预测三分图进行通道叠加后进行多尺度滑动窗口,得到多个图像块,利用每个图像块的显著图梯度均值进行尖锐和毛发类别的分类,使用分类后的图像块训练语义模型;对所有的图像块的类激活映射图进行融合,得到整张图像的语义图;
步骤3:准备用于训练抠图模型的第三数据集,所述第三数据集包括产品RGB图、产品Alpha标签、前景图和背景图,将原始图像、显著性模型预测的三分图、语义模型预测的语义图做通道叠加后输入抠图模型,利用产品Alpha标签、前景图和背景图计算抠图损失,并利用判别器为Alpha预测提供语义级别的正则化损失,辅助抠图模型的训练;最后对预测前景图和预测Alpha图的通道进行合并得到最终抠图结果。
2.根据权利要求1所述的一种自适应生成三分图及融合语义的电商产品抠图方法,其特征在于,步骤1具体包括:
步骤1-1:准备用于训练显著性检测模型的第一数据集,所述产品RGB图包括真实拍摄的、经过二次加工的和利用随机背景合成的产品图像;所述Mask标签是产品图像中产品主体的二值掩膜图像;所述三分图标签在训练过程中在线生成,在生成时从5、7、9、11、13中随机选择一个数作为结构化元素的尺寸参数,对Mask图像进行迭代次数为1的腐蚀膨胀操作,得到的三分图标签为使用黑白灰颜色表示的三值单通道图像;
步骤1-2:利用产品RGB图、产品Mask标签与生成的三分图标签,训练带有显著图注意力引导模块的显著性检测模型,得到预测三分图。
3.根据权利要求2所述的一种自适应生成三分图及融合语义的电商产品抠图方法,其特征在于,步骤2具体包括:
步骤2-1:准备用于训练语义模型的第二数据集,将产品RGB图输入已训练好的显著性检测模型,得到预测三分图后,将产品RGB图和预测三分图缩放至1024*1024像素大小;
步骤2-2:将产品RGB图及预测三分图进行通道叠加后输入到多尺度滑动窗口进行分块操作,得到多个图像块;多尺度滑动窗口使用320和512两个尺寸,步长为窗口长度的一半;得到的图像块缩放至320*320像素大小;
步骤2-3:在训练语义模型前,对得到的图像块进行机器筛选,机器筛选即通过三分图统计图像块的白色像素比例,当比例在(0.1,0.75)之间时作为有效图像块;利用显著性检测模型获得有效图像块的显著图,根据梯度均值完成类别标注,得到边缘类别标签;
步骤2-4:使用标注好的图像块训练语义模型,对预测结果使用多分类交叉熵计算损失;在推理阶段,对各滑窗图像块的类激活映射图进行加权平均,权重为单个像素在滑窗中出现的频率;对类激活映射图进行最大最小值归一化,取未知区域部分的类激活映射图作为语义图;得到两通道语义图,用于分别代表每个未知像素是尖锐和毛发类别的概率。
4.根据权利要求3所述的一种自适应生成三分图及融合语义的电商产品抠图方法,其特征在于,步骤3具体包括:
步骤3-1:准备用于训练抠图模型的第三数据集,包括产品RGB图、产品Alpha标签、前景图和背景图;对于合成图像,直接利用其前景图和所使用的合成背景图;对于其他无完整背景信息的图像,则根据其Alpha标签使用pymatting中封装的Closed-Form方法进行前景预估,得到前景图和背景图;
步骤3-2:将产品RGB图、预测的三分图以及预测的语义图进行通道叠加,得到6通道图像,将6通道图像输入抠图模型,得到预测前景图、预测背景图和预测Alpha图,使用Alpha标签、前景图和背景图联合计算抠图损失,具体的抠图损失包括Alpha损失Lα、前背景损失LFB、梯度约束损失Lg、前背景互斥损失Le;
步骤3-3:将预测Alpha和产品Alpha标签分别与前景图进行通道叠加后,将4通道图输入判别器,判别器的结构与语义模型相同,其参数由语义模型共享;利用判别器输出的各层特征图及预测向量分别计算特征重建损失Lf和类别损失Lc,用于为Alpha预测提供语义级别的正则化,辅助抠图模型的训练;
步骤3-4:将抠图损失和语义正则化损失按比例相加,根据总损失对抠图模型参数进行迭代更新;
步骤3-5:在模型推理时,将输出的预测前景图和预测Alpha图进行通道合并,得到4通道的抠图结果。
5.根据权利要求4所述的一种自适应生成三分图及融合语义的电商产品抠图方法,其特征在于,所述步骤1-2中,产品RGB图、产品Mask标签与生成的三分图标签在输入模型前需经过数据增强操作,所述数据增强操作包括随机翻转、随机裁剪,并缩放至512*512像素大小;显著性检测模型中的编码器使用ResNet-50作为主干网络;显著图注意力引导模块的具体计算流程为:对解码器最后输出的特征图FM进行3×3卷积,经过Sigmoid激活函数,得到显著图S,利用显著图S引导特征图FM,进行注意力融合操作:FMatt=FM×S+S;对显著性注意力特征FMatt进行3×3卷积运算输出3通道图,对3通道图经过Softmax函数激活,即T=Softmax(FMatt),其中,T代表预测三分图;训练显著性检测网络时,对显著图S使用产品Mask标签计算显著性损失,对预测三分图使用三分图标签计算多分类交叉熵损失,所述显著性损失包括BCE损失、IOU损失和F-Measure损失,将产品Mask标签用GS表示,图像的高度和宽度分别用H和W表示,图像像素点数量用N表示,(i,j)代表图像的每个像素点,则BCE损失和IOU损失表示为:
为计算F-Measure损失,通过显著图及Mask标签计算真阳性TP、假阴性FN、假阳性FP:
则F-Measure损失表示为:
式中β2是准确率和召回率之间的平衡因子,值为0.3;
对预测三分图T使用三分图标签GT计算多分类交叉熵损失:
显著性检测模型总损失表达式为LS=Lbce+Liou+Lfm+Ltrimap,每轮训练时根据LS对显著性检测模型参数进行迭代更新。
6.根据权利要求5所述的一种自适应生成三分图及融合语义的电商产品抠图方法,其特征在于,所述步骤2-3中,根据梯度均值完成分类的初步标注具体为:使用3*3的椭圆形结构元素,对像素范围在[0,255]的显著图进行膨胀和腐蚀,膨胀图与腐蚀图的差值即为边缘梯度图,对每个图像块内不为0的像素计算均值,在完成尖锐和毛发类别的初步标注时,将梯度均值大于60的图像块初步归为尖锐,将梯度均值小于40的图像块初步归为毛发,将梯度均值在40至60之间的图像块初步归为同时出现尖锐和毛发类别。
7.根据权利要求6所述的一种自适应生成三分图及融合语义的电商产品抠图方法,其特征在于,所述步骤3中,前景图用F表示,背景图用B表示,产品Alpha标签用α表示,则根据抠图公式,产品RGB图像I表示为I=αF+(1-α)B,则Alpha损失Lα的表达式为:
其中U为图像的未知像素区域,p代表当前选中像素,为预测Alpha图,设预测前景和预测背景分别为/>和/>则预测图像/>Llap是拉普拉斯损失,其将Alpha图分解到5层高斯金字塔层级上,之后再在各个层级上做L1损失,用于监督局部与全局Alpha输出,数学表达形式为:
前背景损失LFB表示为:
其中,
梯度约束损失Lg表示为:
其中,λ1和λ2为可学习参数,
前背景互斥损失Le表示为:
对于步骤3-3中的判别器,设第一判别器中每层输出特征为第二判别器中每层输出特征为fk,特征重建损失Lf表示为:
对类别预测向量进行BCE损失计算:
步骤3-4中,总损失Lmatting=Lα+0.1(LFB+Lg+Le+Lf+Lc)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210697567.3A CN115049695B (zh) | 2022-06-20 | 2022-06-20 | 一种自适应生成三分图及融合语义的电商产品抠图方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210697567.3A CN115049695B (zh) | 2022-06-20 | 2022-06-20 | 一种自适应生成三分图及融合语义的电商产品抠图方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115049695A CN115049695A (zh) | 2022-09-13 |
CN115049695B true CN115049695B (zh) | 2024-05-03 |
Family
ID=83163808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210697567.3A Active CN115049695B (zh) | 2022-06-20 | 2022-06-20 | 一种自适应生成三分图及融合语义的电商产品抠图方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115049695B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751655A (zh) * | 2019-09-16 | 2020-02-04 | 南京工程学院 | 一种基于语义分割和显著性分析的自动抠图方法 |
CN112884776A (zh) * | 2021-01-22 | 2021-06-01 | 浙江大学 | 一种基于合成数据集增广的深度学习抠图方法 |
CN112967292A (zh) * | 2021-03-01 | 2021-06-15 | 焦点科技股份有限公司 | 一种针对电商产品的自动抠图与评分方法及系统 |
WO2021139062A1 (zh) * | 2020-01-12 | 2021-07-15 | 大连理工大学 | 一种全自动自然图像抠图方法 |
CN114022493A (zh) * | 2021-11-05 | 2022-02-08 | 中山大学 | 一种自动生成三分图的人像图抠图方法与系统 |
WO2022109922A1 (zh) * | 2020-11-26 | 2022-06-02 | 广州视源电子科技股份有限公司 | 抠图实现方法、装置、设备及存储介质 |
-
2022
- 2022-06-20 CN CN202210697567.3A patent/CN115049695B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751655A (zh) * | 2019-09-16 | 2020-02-04 | 南京工程学院 | 一种基于语义分割和显著性分析的自动抠图方法 |
WO2021139062A1 (zh) * | 2020-01-12 | 2021-07-15 | 大连理工大学 | 一种全自动自然图像抠图方法 |
WO2022109922A1 (zh) * | 2020-11-26 | 2022-06-02 | 广州视源电子科技股份有限公司 | 抠图实现方法、装置、设备及存储介质 |
CN112884776A (zh) * | 2021-01-22 | 2021-06-01 | 浙江大学 | 一种基于合成数据集增广的深度学习抠图方法 |
CN112967292A (zh) * | 2021-03-01 | 2021-06-15 | 焦点科技股份有限公司 | 一种针对电商产品的自动抠图与评分方法及系统 |
CN114022493A (zh) * | 2021-11-05 | 2022-02-08 | 中山大学 | 一种自动生成三分图的人像图抠图方法与系统 |
Non-Patent Citations (2)
Title |
---|
人体前景的自动抠图算法;冉清;冯结青;;计算机辅助设计与图形学学报;20200215(第02期);全文 * |
注意力机制和特征融合的自动抠图算法;王欣;王琦琦;杨国威;郭肖勇;;计算机辅助设计与图形学学报;20201231(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115049695A (zh) | 2022-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027493B (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
CN110322495B (zh) | 一种基于弱监督深度学习的场景文本分割方法 | |
CN112116599B (zh) | 基于弱监督学习的痰涂片结核杆菌语义分割方法及系统 | |
CN113673338B (zh) | 自然场景文本图像字符像素弱监督自动标注方法、系统及介质 | |
CN116258719B (zh) | 基于多模态数据融合的浮选泡沫图像分割方法和装置 | |
CN112287941B (zh) | 一种基于自动字符区域感知的车牌识别方法 | |
CN107506792B (zh) | 一种半监督的显著对象检测方法 | |
CN111274981B (zh) | 目标检测网络构建方法及装置、目标检测方法 | |
CN110610509A (zh) | 可指定类别的优化抠图方法及系统 | |
CN111986125A (zh) | 一种用于多目标任务实例分割的方法 | |
CN108595558B (zh) | 一种数据均衡策略和多特征融合的图像标注方法 | |
CN114648665A (zh) | 一种弱监督目标检测方法及系统 | |
Wang et al. | A feature-supervised generative adversarial network for environmental monitoring during hazy days | |
CN112561926A (zh) | 三维图像分割方法、系统、存储介质及电子设备 | |
CN115131797A (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
Salem | A Survey on Various Image Inpainting Techniques. | |
Li et al. | Gated auxiliary edge detection task for road extraction with weight-balanced loss | |
CN117058546A (zh) | 全局局部细节感知条件随机场的高分辨率遥感影像建筑物提取方法 | |
Golts et al. | Deep energy: Task driven training of deep neural networks | |
CN115049695B (zh) | 一种自适应生成三分图及融合语义的电商产品抠图方法 | |
CN114049567B (zh) | 自适应软标签生成方法以及在高光谱图像分类中的应用 | |
CN113192018B (zh) | 基于快速分割卷积神经网络的水冷壁表面缺陷视频识别方法 | |
CN114549833A (zh) | 一种实例分割方法、装置、电子设备及存储介质 | |
CN115272378A (zh) | 一种基于特征轮廓的人物图像分割方法 | |
CN114820423A (zh) | 一种基于显著性目标检测的自动抠图方法及其配套系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |