CN109325952B - 基于深度学习的时尚服装图像分割方法 - Google Patents

基于深度学习的时尚服装图像分割方法 Download PDF

Info

Publication number
CN109325952B
CN109325952B CN201811082187.9A CN201811082187A CN109325952B CN 109325952 B CN109325952 B CN 109325952B CN 201811082187 A CN201811082187 A CN 201811082187A CN 109325952 B CN109325952 B CN 109325952B
Authority
CN
China
Prior art keywords
clothing
key point
feature extraction
image
extraction module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811082187.9A
Other languages
English (en)
Other versions
CN109325952A (zh
Inventor
胡玉琛
章俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Baozun eCommerce Ltd
Original Assignee
Shanghai Baozun eCommerce Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Baozun eCommerce Ltd filed Critical Shanghai Baozun eCommerce Ltd
Priority to CN201811082187.9A priority Critical patent/CN109325952B/zh
Publication of CN109325952A publication Critical patent/CN109325952A/zh
Application granted granted Critical
Publication of CN109325952B publication Critical patent/CN109325952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明涉及一种基于深度学习的时尚服装图像分割方法,所述的基于深度学习的时尚服装分割方法包括以下步骤:深度神经网络服装模型的构建、反向误差传播的损失函数设计和模型训练策略;所述的深度神经网络服装分割模型包括特征提取模块、服装语义信息提取模块和服装分割预测模块;所述的损失函数包括关键点位置的回归函数、关键可见性损失函数、带权重的服装预测类别交叉熵损失函数以及服装位置的回归损失函数;所述的模型训练策略包括权重参数初始化方法、数据的预处理、优化算法以及训练步骤。其优点表现在:能够对复杂图像中人物上半身衣服、下半身衣服,以及全身衣服搭配进行自动分割识别,有利于针对时尚服装领域设计的深度学习和网络训练。

Description

基于深度学习的时尚服装图像分割方法
技术领域
本发明涉及时尚服装技术领域,具体地说,是一种基于深度学习的时尚服装图像分割方法。
背景技术
图像分割在计算机视觉处理中是最基础的操作,计算机视觉的后续处理都依赖于图像中感兴趣区域分割的质量。现有的图像分割技术大多采用传统的算法进行处理,比如统计图像能量直方图、边沿检测(梯度)切割。或者加入对图像的数学形态学处理环节以提升分割的准确率,比如膨胀腐蚀等降噪处理。传统的图像分割算法在处理场景单一、像素连续性强的图像时,分割的准确率与效率尚可;但是在处理复杂的时尚服装图像,尤其是场景复杂的环境下,想要分割出图像中人物所穿的上装、下装,则准确率直线下滑,几乎不可用。
随着近些年深度学习的兴起,卷积神经网络在计算机视觉领域中得到充分应用,出现了各种深度卷积神经网络模型。由于数据量的积累和计算能力的提升,神经网络模型对特定的计算机视觉问题表现的特别优秀。但是当前的深度神经网络模型主要针对医疗领域、交通领域的特定物体进行识别,但是在时尚服装这样一个特定领域中的应用较为少见。如果将现有的针对其他领域的神经网络模型直接应用在时尚服装领域中,效果非常差。因此,针对时尚服装领域分析系统,对图像中人物的上下服装进行分割而言,需要重新设计深度卷积神经网络模型。而且对于深度学习而言,想要训练出高质量的神经网络模型,需要海量的源数据和监督标签数据。如果指望人工给出海量的服装数据,效率既低下成本又非常高昂,因此我们需要有一种方法能够智能地从复杂的图像中自动地分割出服装,包括上身服装、下身服装,以及全身服装搭配。
中国专利文献:CN201710508705.8,申请日2017.06.28,专利名称为:一种结合深度学习形状先验的MRF图像分割方法。公开了了一种结合深度学习形状先验的MRF图像分割方法,所述方法图像分割问题以能量函数的形式表示,当其最小时对应的则是最优分割结果,且易于以新能量项形式添加其他约束信息。但在基于MRF模型的图像分割研究中,由于自然图像存在阴影、杂乱背景等各种干扰因素,不仅增加了分割的难度,而且分割的效果往往也不好。本方法通过深度学习模型组合底层的特征形成高层的数据抽象特征,引入对目标形状的约束信息和先验信息以更好地解决图像分割问题。对于形状表示,本方法采用研究较多的水平集中的方式,将先验形状表示成符号距离函数,然后经过变换将其以形状能量项添加到分割能量函数中。
中国专利文献:CN201610844032.9,申请日2016.09.22,专利名称为:基于深度学习的眼底图像视网膜血管分割方法及系统。公开了一种基于深度学习的眼底图像视网膜血管分割方法及系统,包括:对训练集进行数据扩增,并对图像进行增强,用训练集训练卷积神经网络,先使用卷积神经网络分割模型对图像进行分割得到一个分割结果,用卷积神经网络的特征训练随机森林分类器,从卷积神经网络模型中抽取最后一层卷积层输出,并作为随机森林分类器的输入进行像素分类,得到另外一个分割结果。
上述专利文献CN201710508705.8中的一种结合深度学习形状先验的MRF图像分割方法,通过深度学习模型组合底层的特征形成高层的数据抽象特征,引入对目标形状的约束信息和先验信息以更好地解决图像分割问题。对于形状表示,本方法采用研究较多的水平集中的方式,将先验形状表示成符号距离函数,然后经过变换将其以形状能量项添加到分割能量函数中。而专利文献CN201610844032.9中的基于深度学习的眼底图像视网膜血管分割方法及系统,通过对两个分割结构进行融合得到最终的分割图像,与传统的血管分割方法相比,本方法用很深的卷积神经网络进行特征提取,提取的特征更加充分,分割的准确率和效率也更高。但是关于一种针对时尚服装分析系统中的前期处理,即从复杂场景中识别出上身服装、下身服装以及全身服装搭配,然后应用于后期人工智能时尚服装分析处理,通过给定上身服装、下身服装的语义信息,将源图像输入专门针对时尚服装领域设计的深度学习网络进行训练,自动识别出图像中上身服装、下身服装,以及全身服装搭配的一种基于深度学习的时尚服装图像分割方法目前则没有相关的报道。
综上所述,亟需一种针对时尚服装分析系统中的前期处理,即从复杂场景中识别出上身服装、下身服装以及全身服装搭配,然后应用于后期人工智能时尚服装分析处理,通过给定上身服装、下身服装的语义信息,将源图像输入专门针对时尚服装领域设计的深度学习网络进行训练,自动识别出图像中上身服装、下身服装,以及全身服装搭配的一种基于深度学习的时尚服装图像分割方法。
发明内容
本发明的目的是针对现有技术中的不足,提供一种针对时尚服装分析系统中的前期处理,即从复杂场景中识别出上身服装、下身服装以及全身服装搭配,然后应用于后期人工智能时尚服装分析处理,通过给定上身服装、下身服装的语义信息,将源图像输入专门针对时尚服装领域设计的深度学习网络进行训练,自动识别出图像中上身服装、下身服装,以及全身服装搭配的一种基于深度学习的时尚服装图像分割方法。
为实现上述目的,本发明采取的技术方案是:
一种基于深度学习的时尚服装图像分割方法,其特征在于,所述的基于深度学习的释放服装图像分割方法包括以下步骤:
S1、深度神经网络服装分割模型的构建:
S11、所述深度神经网络服装分割模型包括图像特征提取模块、服装语义信息提取模块、服装分割预测模块;
S12、所述的图像特征提取模块包含卷积层、最大池化层、批量归一化、激活层,所述的激活层在批量归一化层之后,所述的卷积层在激活层之后,批量归一化层、激活层、卷积层组成一个特征提取块,共有24个特征提取块;每一个特征之间接一个最大池化层,除了图像特征提取模块的最后一个层,其采用了平均池化层。在前向传播过程中,图像特征提取模块的数据流每次都会跨过三个特征提取块,并与经过该三个特征提取块的输出进行拼接,在反向传播过程中,误差会跨层传播到离输出层更远的层;
S13、所述的服装语义信息提取模块包括服装关键点预估模块、服装局部特征提取模块、服装全局特征提取模块;所述的服装关键点预估模块由一个卷积层和两个全连接层组成,其输入为图像特征提取模块的输出;其输出包含两个分支,其一为预测的服装关键点位置信息,其二为服装关键点的可见性信息;这两个分支的输出都作为服装局部特征提取模块的输入;所述的服装局部特征提取模块包括一个卷积层和一个全连接层,其输入除了如前所述的服装关键点位置信息和关键点可视化信息外,还有图像特征提取模块的输入;所述的服装全局特征提取模块包含一个卷积层和全连接层,其进一步地优化了从图像特征提取模块所提取的全局特征;
S14、所述的服装分割预测模块包含一个全连接层,一个softmax模块,一个regression模块;所述的softmax模块输出类别的概率,即分类为上身服装,下身服装或者全身服装的概率。所述的regression模块输出上身服装、下身服装、全身服装的具体位置;
S2、反向误差传播的损失函数设计:
本发明中的损失函数包括关键点位置的回归损失函数、关键点可见性损失函数、带权重的服装预测类别交叉熵损失函数以及服装位置的回归损失函数;
S21、首先是关键点位置的回归损失函数,将图像作为RGB三通道数据输入深度神经网络服装分割模型,利用关键点数据标注以及服装关键点预估模块计算关键点预估损失,该损失是经过了L2正则化的回归修正,关键点位置的回归损失函数定义如下:
Figure BDA0001802249710000041
其中m表示训练集样本的数量,
Figure BDA0001802249710000042
表示第i个样本的关键点位置的真实标注,li表示第i个样本的关键点位置的预测估计,vi表示关键点可见性的向量。值得一提的是,关键点可见性变量弥补了关键点真实位置标注的缺失,在反向传播中,如果关键点被遮挡了,也就是vi向量对应位置的值为0,则误差就不会进行反传;
S22、其次是关键点可见性损失函数,关键点可见性信息的意义在于当图片中的服装有变形或者被东西遮挡,关键点可见性信息可以让服装依然可以被准确的分割识别出来。关键点可见性损失函数同样经过了L2正则化的回归修正,其定义如下:
Figure BDA0001802249710000043
其中m表示训练集体样本的数量,
Figure BDA0001802249710000044
表示第i个样本的真实可见性标注向量,vi表示第i个样本的预测可见性标注向量;
Figure BDA0001802249710000045
S23、带权重的服装预测类别交叉熵损失函数,其具体定义如下:
其中m表示训练集样本的数量,xi表示第i张时尚服装图像,ci表示第i张时尚服装图像的类别标签向量。cofpos和cofneg是两个权重系数,主要由训练集中正负样本的比例决定;
S24、服装位置的回归损失函数定义与关键点位置的回归损失函数、关键点可见性损失函数相似,也是经过了L2正则化的回归修正,其定义如下:
Figure BDA0001802249710000051
其中m表示训练集样本的数量,
Figure BDA0001802249710000052
表示第i张时尚服装图像的类别真实位置向量,loci表示第i张时尚图像的类别预测位置向量;
S3、模型训练策略:
模型训练的策略包括权重参数初始化方法、数据集的预处理、优化算法以及训练步骤;
S31、所述的权重参数初始化方法,本发明中采用了Xavier方法对深度神经网络服装分割模型进行初始化;
S32、所述的数据集预处理表示在数据喂给深度神经网络服装分割模型进行训练前,采用图像增强技术对训练数据进行扩充,使用的图像增强技术有水平翻转、垂直翻转、镜像翻转、亮度变化、色度变化、饱和度变化,通过这些增强技术使得训练集比初始的增加了6倍,然后采用交叉验证的方法将数据集分割为6:2:2,其中六成作为训练数据,两成作为验证数据,两成作为测试数据;
S33、所述的优化算法,本发明中使用了Adam优化算法;
S34、所述的训练步骤中,在训练时需要将上述四个损失函数带一定的权重结合起来进行优化;第一步,将服装关键点预估模块的训练作为主任务,其他模块作为辅任务;完成这一步操作后,得到了关键点位置预估和关键点可见性向量预告,此时给Llandmarks和Lvisibility分配较大的权重,而其他模块的输出的损失分配较小的权重;关键点预估的训练用其他任务来进行辅助的原因是它们之间有相关性,结合优化会导致更好的更快的收敛效果;第二步,深度神经网络服装分割模型最终的输出是服装类别的概率,分类为上身服装,下身服装或者全身服装和上身服装、下身服装、全身服装的具体位置,这一步中使用了预估的关键点和可见性进行池化局部特征,此时给这两个输出的损失Lclothes和Lloc分配较大的权重;以上这两步交替佚代,知道总的损失收敛。
作为一种优选的技术方案,所述步骤S12中,在图像特征提取模块的前向传播中数据流每次都会跨过三个特征提取块,并与经过该三个特征提取块的输出进行拼接,拼接之后加入一个丢弃层,丢弃率设置为0.5。
作为一种优选的技术方案,所述步骤S12中,在图像特征提取模块的反向误差传播过程中,图像特征提取模块采用跨层反传,优选为24层。
作为一种优选的技术方案,所述步骤S13中,采用了服装全局特征提取模块和服装局部特征提取模块,尤其是关键点预估模块,它首先预测服装的关键点位置和可见性,然后采用预估的关键点位置和可见性对图像特征提取模块输出的特征图进行关键点的池化,得到局部特征;对于每一个关键点位置loc,首先先确定它的可见性v;对于不可见的关键点,特征池化为0;然后对于关键点loc周围的区域内执行max-pooling来获得局部特征图;这些局部特征图会进行堆叠,以此来捕获服装关键点之间的相互作用。
作为一种优选的技术方案,所述步骤S34中,在训练的步骤中,需要将步骤S2中所述的4个损失函数结合起来,并且在不同的步骤中分配不同的权重,然后计算总的损失并进行迭代,直到收敛。
本发明优点在于:
1、经过大量的实验验证,本发明在分割复杂场景中的时尚图像(将上装、下装、全身服装分割出来)方面比用传统复杂图像处理方法的精度提高了约10个百分点,这为后续时尚AI分析系统的准确性和稳定性带来了极大的提升。
2、本方法也可作为给时尚图像做数据标注的方法使用。相比传统数据标注只是给出目标区域的边界框不同,本方法在时尚图像中给出了语义信息极为丰富的服装关键点信息,大大优于边界框信息。此外,经过实验验证,人工每分钟大约能给3张时尚图像完成数据标注,而本方法大约每0.02秒便能完成一张时尚图像的标注,效率提高了整整1000倍左右。
3、针对时尚服装领域设计的深度学习网络提供有效的训练方法。
附图说明
附图1为本发明的技术方案实施流程图。
附图2为图像特征提取模块的示意图。
附图3为图像特征提取模块的实施细节示意图。
附图4为服装语义信息提取模块的内部示意图。
附图5为采用预估关键点和可视化信息对局部特征进行池化的示意图。
附图6为服装分割预测模块的内部示意图。
附图7为训练步骤流程示意图。
具体实施方式
为了实现以上时尚服装分割目的,本发明设计了一种基于深度学习的时尚服装上下半身分割方法,主要是设计专用的深度学习神经网络模型。通过将三维图像数据,以及表征图像中代表上身服装、下身服装的关键点语义信息以及可见化信息,输入神经网络模型,进行前向传播,得到输出结果。并采用后向传播,设计相应损失函数进行误差反传,使得损失函数最小化,以得到最优解,即将复杂时尚图像中分割出人物的上身服装、下身服装以及全身服装搭配。本发明的主要实现过程如下:
步骤S1,获取海量时尚图像,该图像中可能包含单独的上身服装(如皮夹克)、单独的下身服装(如牛仔裤)、全身的服装搭配或者是模特穿着各种服装搭配等。同时包含时尚图像对应的标注数据,该标注数据对于上身服装有左领、右领、左袖、右袖、左下摆、右下摆,共6个坐标点;对于下身服装有左腰围、右腰围、左下摆、右下摆,共4个坐标点;对于全身服装有左领、右领、左袖、右袖、左腰围、右腰围、左下摆、右下摆,共8个坐标点;
步骤S2,将时尚图像进行预处理,提取为RGB色空间的三维特征数据;
步骤S3,将图像的三维特征数据输入针对时尚服装开发的深度学习网络进行前向传播输出;
步骤S4,针对输出层设计损失函数,采用后向误差反传进行训练,使用优化算法加速训练,优化的目标为使得损失函数能够尽量获得全局最优解;
步骤S5,通过步骤S4获得深度学习网络之间的权重值,将待分割的时装图像输入预测模型(该预测模型即带有权重的深度学习网络),经过前向传播后,输出时装图像中的上装区域、下装区域、全身区域,以及服装类别的概率值。
为了使用本发明方法来分割出时尚服装图像的上下装、全身服装,下面将使用具体图示结合实施实例进行详细地说明,使得本发明方法能够易于理解。特别地,这里所描述的实施示例仅仅是本发明的一部分实施示例。本发明提供的一种基于深度学习的时尚服装图像分割方法的实现,包括以下主要步骤:
S1、深度神经网络服装分割模型的构建:
S11、请参看附图1,图1是本发明的技术方案流程图。所述深度神经网络服装分割模型包括图像特征提取模块、服装语义信息提取模块、服装分割预测模块;
S12、请参看附图2、3,图2为图像提取模块的示意图,图3为图像特征提取模块的实施细节示意图。所述的图像特征提取模块包含卷积层、最大池化层、批量归一化、激活层,所述的激活层在批量归一化层之后,所述的卷积层在激活层之后,批量归一化层、激活层、卷积层组成一个特征提取块,共有24个特征提取块。每一个特征之间接一个最大池化层,除了图像特征提取模块的最后一个层,其采用了平均池化层。在前向传播过程中,图像特征提取模块的数据流每次都会跨过三个特征提取块,并与经过该三个特征提取块的输出进行拼接,在反向传播过程中,误差会跨层传播到离输出层更远的层;
S13、请参看附图4、5,图4为服装语义信息提取模块的内部示意图,图5为采用预估关键点和可视化信息对局部特征进行池化的示意图。所述的服装语义信息提取模块包括服装关键点预估模块、服装局部特征提取模块、服装全局特征提取模块。所述的服装关键点预估模块由一个卷积层和两个全连接层组成,其输入为图像特征提取模块的输出。其输出包含两个分支,其一为预测的服装关键点位置信息,其二为服装关键点的可见性信息。这两个分支的输出都作为服装局部特征提取模块的输入。所述的服装局部特征提取模块包括一个卷积层和一个全连接层,其输入除了如前所述的服装关键点位置信息和关键点可视化信息外,还有图像特征提取模块的输入。在服装局部特征提取模块中,使用服装关键点信息和关键点可视化信息对由图像特征提取模块输入的图像全局特征在关键点位置周围进行池化,得到局部特征,该局部特征与服装的变形与遮挡无关,因此极大地提升了服装的识别分割精度。所述的服装全局特征提取模块包含一个卷积层和全连接层,其进一步地优化了从图像特征提取模块所提取的全局特征;
S14、请参看附图6,图6为服装分割预测模块的内部示意图。所述的服装分割预测模块包含一个全连接层,一个softmax模块,一个regression模块。所述的全连接层的作用是融合服装全局特征提取模块提取的全局特征,以及服装局部特征提取模块提取的局部特征。所述的softmax模块输出类别的概率,即分类为上身服装,下身服装或者全身服装的概率。所述的regression模块输出上身服装、下身服装、全身服装的具体位置;
S2、反向误差传播的损失函数设计:
在深度学习中为了得到最优化的结果,需要在反向误差传播中设计合理的损失函数。本发明中的损失函数包括关键点位置的回归损失函数、关键点可见性损失函数、带权重的服装预测类别交叉熵损失函数以及服装位置的回归损失函数;
S21、首先是关键点位置的回归损失函数,将图像作为RGB三通道数据输入深度神经网络服装分割模型,利用关键点数据标注以及服装关键点预估模块计算关键点预估损失,该损失是经过了L2正则化的回归修正,关键点位置的回归损失函数定义如下:
Figure BDA0001802249710000091
其中m表示训练集样本的数量,
Figure BDA0001802249710000092
表示第i个样本的关键点位置的真实标注,li表示第i个样本的关键点位置的预测估计,vi表示关键点可见性的向量。值得一提的是,关键点可见性变量弥补了关键点真实位置标注的缺失,在反向传播中,如果关键点被遮挡了,也就是vi向量对应位置的值为0,则误差就不会进行反传;
S22、其次是关键点可见性损失函数,关键点可见性信息的意义在于当图片中的服装有变形或者被东西遮挡,关键点可见性信息可以让服装依然可以被准确的分割识别出来。关键点可见性损失函数同样经过了L2正则化的回归修正,其定义如下:
Figure BDA0001802249710000093
其中m表示训练集体样本的数量,
Figure BDA0001802249710000094
表示第i个样本的真实可见性标注向量,vi表示第i个样本的预测可见性标注向量;
Figure BDA0001802249710000095
S23、带权重的服装预测类别交叉熵损失函数,其具体定义如下:
其中m表示训练集样本的数量,xi表示第i张时尚服装图像,ci表示第i张时尚服装图像的类别标签向量。cofpos和cofneg是两个权重系数,主要由训练集中正负样本的比例决定;
S24、服装位置的回归损失函数定义与关键点位置的回归损失函数、关键点可见性损失函数相似,也是经过了L2正则化的回归修正,其定义如下:
Figure BDA0001802249710000096
其中m表示训练集样本的数量,
Figure BDA0001802249710000101
表示第i张时尚服装图像的类别真实位置向量,loci表示第i张时尚图像的类别预测位置向量;
S3、模型训练策略:
模型训练的策略包括权重参数初始化方法、数据集的预处理、优化算法以及训练步骤;
S31、所述的权重参数初始化方法,本发明中采用了Xavier方法对深度神经网络服装分割模型进行初始化;
S32、所述的数据集预处理表示在数据喂给深度神经网络服装分割模型进行训练前,采用图像增强技术对训练数据进行扩充,使用的图像增强技术有水平翻转、垂直翻转、镜像翻转、亮度变化、色度变化、饱和度变化,通过这些增强技术使得训练集比初始的增加了6倍,然后采用交叉验证的方法将数据集分割为6:2:2,其中六成作为训练数据,两成作为验证数据,两成作为测试数据;
S33、所述的优化算法,本发明中使用了Adam优化算法;
S34、所述的训练步骤中,在训练时需要将上述四个损失函数带一定的权重结合起来进行优化。第一步,将服装关键点预估模块的训练作为主任务,其他模块作为辅任务。完成这一步操作后,得到了关键点位置预估和关键点可见性向量预告,此时给Llandmarks和Lvisibility分配较大的权重,而其他模块的输出的损失分配较小的权重。关键点预估的训练用其他任务来进行辅助的原因是它们之间有相关性,结合优化会导致更好的更快的收敛效果。第二步,深度神经网络服装分割模型最终的输出是服装类别的概率(即分类为上身服装,下身服装或者全身服装)和上身服装。下身服装、全身服装的具体位置,这一步中使用了预估的关键点和可见性进行池化局部特征,此时给这两个输出的损失Lclothes和Lloc分配较大的权重。以上这两步交替佚代,知道总的损失收敛。其主要流程如图7所示。
需要说明的是:所述步骤S12中,图像特征提取模块对输入的图像使用全卷积层对图像进行全局特征提取,同时经过池化、批量归一等操作,得到了图像感兴趣区域的高级语义特征;在图像特征提取模块的前向传播中数据流每次都会跨过三个特征提取块,并与经过该三个特征提取块的输出进行拼接,如此会得到丰富的特征,但是带来的问题是模型会容易过拟合,因此在拼接之后加入一个丢弃层,使之既能保留足够的特征,也避免过拟合,丢弃率设置为0.5;在图像特征提取模块的反向误差传播过程中,由于网络非常深,那么误差会被离输出最近的层慢慢吸收,使得误差传播到离输出层越远的层时会非常小,常常接近于0,如此一来对梯度就基本上不再进行更新,也就无法再进行优化;而本发明方法设计的图像特征提取模块采用了跨层反传,使得误差能够被反传到离输出层更远的层,从另一个角度来讲,模型可以做得更深,本发明方法采用24层作为实施示例;
所述步骤13中,服装关键点预估模块通过卷积层与全连接层相连运算后输出服装的关键点预估位置和关键点可视化信息;服装局部特征提取模块利用关键点预估模块进行服装局部特征的提取;服装全局特征提取模块对图像特征提取模块的输出进一步地采用卷积和池化提取更高级的服装全局语义特征;服装分割预测模块对服装语义信息提取模块的输出拉到全连接层进行softmax输出类别概率(即上身服装、下身服装或是全身服装)以及回归计算出上身服装、下身服装、全身服装的具体位置;本发明中采用了服装全局特征提取模块和服装局部特征提取模块,尤其是关键点预估模块,它首先预测服装的关键点位置和可见性,然后采用预估的关键点位置和可见性对图像特征提取模块输出的特征图进行关键点的池化,得到局部特征;对于每一个关键点位置loc,首先先确定它的可见性v;对于不可见的关键点,特征池化为0;然后对于关键点loc周围的区域内执行max-pooling来获得局部特征图;这些局部特征图会进行堆叠,以此来捕获服装关键点之间的相互作用;
所述步骤S34中,在训练的步骤中,需要将步骤S2中所述的4个损失函数结合起来,并且在不同的步骤中分配不同的权重,然后计算总的损失并进行迭代,直到收敛。
本发明一旦投入应用,可以实现以下技术效果:
1、经过大量的实验验证,本发明在分割复杂场景中的时尚图像(将上装、下装、全身服装分割出来)方面比用传统复杂图像处理方法的精度提高了约10个百分点,这为后续时尚AI分析系统的准确性和稳定性带来了极大的提升。
2、本方法也可作为给时尚图像做数据标注的方法使用。相比传统数据标注只是给出目标区域的边界框不同,本方法在时尚图像中给出了语义信息极为丰富的服装关键点信息,大大优于边界框信息。此外,经过实验验证,人工每分钟大约能给3张时尚图像完成数据标注,而本方法大约每0.02秒便能完成一张时尚图像的标注,效率提高了整整1000倍左右。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。

Claims (5)

1.一种基于深度学习的时尚服装图像分割方法,其特征在于,所述的基于深度学习的释放服装图像分割方法包括以下步骤:
S1、深度神经网络服装分割模型的构建:
S11、所述深度神经网络服装分割模型包括图像特征提取模块、服装语义信息提取模块、服装分割预测模块;
S12、所述的图像特征提取模块包含卷积层、最大池化层、批量归一化、激活层,所述的激活层在批量归一化层之后,所述的卷积层在激活层之后,批量归一化层、激活层、卷积层组成一个特征提取块,共有24个特征提取块;每一个特征之间接一个最大池化层,除了图像特征提取模块的最后一个层,其采用了平均池化层;在前向传播过程中,图像特征提取模块的数据流每次都会跨过三个特征提取块,并与经过该三个特征提取块的输出进行拼接,在反向传播过程中,误差会跨层传播到离输出层更远的层;
S13、所述的服装语义信息提取模块包括服装关键点预估模块、服装局部特征提取模块、服装全局特征提取模块;所述的服装关键点预估模块由一个卷积层和两个全连接层组成,其输入为图像特征提取模块的输出;其输出包含两个分支,其一为预测的服装关键点位置信息,其二为服装关键点的可见性信息;这两个分支的输出都作为服装局部特征提取模块的输入;所述的服装局部特征提取模块包括一个卷积层和一个全连接层,其输入除了如前所述的服装关键点位置信息和关键点可视化信息外,还有图像特征提取模块的输入;所述的服装全局特征提取模块包含一个卷积层和全连接层,其进一步地优化了从图像特征提取模块所提取的全局特征;
S14、所述的服装分割预测模块包含一个全连接层,一个softmax模块,一个regression模块;所述的softmax模块输出类别的概率,即分类为上身服装,下身服装或者全身服装的概率;所述的regression模块输出上身服装、下身服装、全身服装的具体位置;
S2、反向误差传播的损失函数设计:
本发明中的损失函数包括关键点位置的回归损失函数、关键点可见性损失函数、带权重的服装预测类别交叉熵损失函数以及服装位置的回归损失函数;
S21、首先是关键点位置的回归损失函数,将图像作为RGB三通道数据输入深度神经网络服装分割模型,利用关键点数据标注以及服装关键点预估模块计算关键点预估损失,该损失是经过了L2正则化的回归修正,关键点位置的回归损失函数定义如下:
Figure FDA0003552855420000021
其中m表示训练集样本的数量,
Figure FDA0003552855420000022
表示第i个样本的关键点位置的真实标注,li表示第i个样本的关键点位置的预测估计,vi表示关键点可见性的向量;值得一提的是,关键点可见性变量弥补了关键点真实位置标注的缺失,在反向传播中,如果关键点被遮挡了,也就是vi向量对应位置的值为0,则误差就不会进行反传;
S22、其次是关键点可见性损失函数,关键点可见性信息的意义在于当图片中的服装有变形或者被东西遮挡,关键点可见性信息可以让服装依然可以被准确的分割识别出来;关键点可见性损失函数同样经过了L2正则化的回归修正,其定义如下:
Figure FDA0003552855420000023
其中m表示训练集体样本的数量,
Figure FDA0003552855420000024
表示第i个样本的真实可见性标注向量,vi表示第i个样本的预测可见性标注向量;
S23、带权重的服装预测类别交叉熵损失函数,其具体定义如下:
Figure FDA0003552855420000025
其中m表示训练集样本的数量,xi表示第i张时尚服装图像,ci表示第i张时尚服装图像的类别标签向量;cofpos和cofneg是两个权重系数,主要由训练集中正负样本的比例决定;
S24、服装位置的回归损失函数定义与关键点位置的回归损失函数、关键点可见性损失函数相似,也是经过了L2正则化的回归修正,其定义如下:
Figure FDA0003552855420000026
其中m表示训练集样本的数量,
Figure FDA0003552855420000027
表示第i张时尚服装图像的类别真实位置向量,loci表示第i张时尚图像的类别预测位置向量;
S3、模型训练策略:
模型训练的策略包括权重参数初始化方法、数据集的预处理、优化算法以及训练步骤;
S31、所述的权重参数初始化方法,本发明中采用了Xavier方法对深度神经网络服装分割模型进行初始化;
S32、所述的数据集预处理表示在数据喂给深度神经网络服装分割模型进行训练前,采用图像增强技术对训练数据进行扩充,使用的图像增强技术有水平翻转、垂直翻转、镜像翻转、亮度变化、色度变化、饱和度变化,通过这些增强技术使得训练集比初始的增加了6倍,然后采用交叉验证的方法将数据集分割为6:2:2,其中六成作为训练数据,两成作为验证数据,两成作为测试数据;
S33、所述的优化算法,本发明中使用了Adam优化算法;
S34、所述的训练步骤中,在训练时需要将上述四个损失函数带一定的权重结合起来进行优化;第一步,将服装关键点预估模块的训练作为主任务,其他模块作为辅任务;完成这一步操作后,得到了关键点位置预估和关键点可见性向量预告,此时给Llandmarks和Lvisibility分配较大的权重,而其他模块的输出的损失分配较小的权重;关键点预估的训练用其他任务来进行辅助的原因是它们之间有相关性,结合优化会导致更好的更快的收敛效果;第二步,深度神经网络服装分割模型最终的输出是服装类别的概率,分类为上身服装,下身服装或者全身服装和上身服装、下身服装、全身服装的具体位置,这一步中使用了预估的关键点和可见性进行池化局部特征,此时给这两个输出的损失Lclothes和Lloc分配较大的权重;以上这两步交替迭 代,直到总的损失收敛。
2.根据权利要求1所述的基于深度学习的时尚服装图像分割方法,其特征在于,所述步骤S12中,在图像特征提取模块的前向传播中数据流每次都会跨过三个特征提取块,并与经过该三个特征提取块的输出进行拼接,拼接之后加入一个丢弃层,丢弃率设置为0.5。
3.根据权利要求1所述的基于深度学习的时尚服装图像分割方法,其特征在于,所述步骤S12中,在图像特征提取模块的反向误差传播过程中,图像特征提取模块采用跨层反传。
4.根据权利要求1所述的基于深度学习的时尚服装图像分割方法,其特征在于,所述步骤S13中,采用了服装全局特征提取模块和服装局部特征提取模块,尤其是关键点预估模块,它首先预测服装的关键点位置和可见性,然后采用预估的关键点位置和可见性对图像特征提取模块输出的特征图进行关键点的池化,得到局部特征;对于每一个关键点位置loc,首先先确定它的可见性v;对于不可见的关键点,特征池化为0;然后对于关键点loc周围的区域内执行max-pooling来获得局部特征图;这些局部特征图会进行堆叠,以此来捕获服装关键点之间的相互作用。
5.根据权利要求1所述的基于深度学习的时尚服装图像分割方法,其特征在于,所述步骤S34中,在训练的步骤中,需要将步骤S2中所述的4个损失函数结合起来,并且在不同的步骤中分配不同的权重,然后计算总的损失并进行迭代,直到收敛。
CN201811082187.9A 2018-09-17 2018-09-17 基于深度学习的时尚服装图像分割方法 Active CN109325952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811082187.9A CN109325952B (zh) 2018-09-17 2018-09-17 基于深度学习的时尚服装图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811082187.9A CN109325952B (zh) 2018-09-17 2018-09-17 基于深度学习的时尚服装图像分割方法

Publications (2)

Publication Number Publication Date
CN109325952A CN109325952A (zh) 2019-02-12
CN109325952B true CN109325952B (zh) 2022-07-08

Family

ID=65266044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811082187.9A Active CN109325952B (zh) 2018-09-17 2018-09-17 基于深度学习的时尚服装图像分割方法

Country Status (1)

Country Link
CN (1) CN109325952B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581414B (zh) * 2019-02-18 2024-01-16 北京京东尚科信息技术有限公司 服饰识别、分类及检索的方法、装置、设备及存储介质
CN109948469B (zh) * 2019-03-01 2022-11-29 吉林大学 基于深度学习的巡检机器人仪表自动检测识别方法
CN110009051A (zh) * 2019-04-11 2019-07-12 浙江立元通信技术股份有限公司 特征提取单元及方法、dcnn模型、识别方法及介质
CN110135428B (zh) * 2019-04-11 2021-06-04 北京航空航天大学 图像分割处理方法和装置
CN110070147B (zh) * 2019-05-07 2023-10-17 上海宝尊电子商务有限公司 一种基于神经网络的服装图案纹理识别方法与系统
CN110084319B (zh) * 2019-05-07 2023-06-30 上海宝尊电子商务有限公司 基于深度神经网络的时尚图像服装领型识别方法与系统
CN110363728A (zh) * 2019-07-25 2019-10-22 上海尊溢商务信息咨询有限公司 一种基于语义分割的图像trimap生成方法
CN110598711B (zh) * 2019-08-31 2022-12-16 华南理工大学 一种结合分类任务的目标分割方法
CN110705755A (zh) * 2019-09-07 2020-01-17 创新奇智(广州)科技有限公司 一种基于深度学习的服装流行趋势预测方法与装置
CN110874595A (zh) * 2019-10-22 2020-03-10 杭州效准智能科技有限公司 一种基于深度学习的多菜品餐盘智能分割方法
CN110852733A (zh) * 2019-10-22 2020-02-28 杭州效准智能科技有限公司 一种基于rfid融合菜品图像匹配识别的智能餐饮结算系统
CN111028249A (zh) * 2019-12-23 2020-04-17 杭州知衣科技有限公司 一种基于深度学习的服装图像分割方法
CN111325806A (zh) * 2020-02-18 2020-06-23 苏州科达科技股份有限公司 基于语义分割的服装颜色识别方法、装置和系统
CN113393550B (zh) * 2021-06-15 2022-09-20 杭州电子科技大学 一种姿态和纹理引导的时尚服装设计合成方法
CN115218798B (zh) * 2022-09-20 2022-12-09 西安中科慧远视觉技术有限公司 测量板材孔和/或槽尺寸的光学测量系统、方法及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126579A (zh) * 2016-06-17 2016-11-16 北京市商汤科技开发有限公司 物体识别方法和装置、数据处理装置和终端设备
CN107918780A (zh) * 2017-09-01 2018-04-17 中山大学 一种基于关键点检测的衣服种类和属性分类方法
CN108229496A (zh) * 2017-07-11 2018-06-29 北京市商汤科技开发有限公司 服饰关键点的检测方法和装置、电子设备、存储介质和程序

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10614506B2 (en) * 2017-01-27 2020-04-07 Color Butler, Inc. System and method for fashion recommendations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126579A (zh) * 2016-06-17 2016-11-16 北京市商汤科技开发有限公司 物体识别方法和装置、数据处理装置和终端设备
CN108229496A (zh) * 2017-07-11 2018-06-29 北京市商汤科技开发有限公司 服饰关键点的检测方法和装置、电子设备、存储介质和程序
CN107918780A (zh) * 2017-09-01 2018-04-17 中山大学 一种基于关键点检测的衣服种类和属性分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations;Ziwei Liu等;《2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20161212;1096-1104 *
FaceNet: A Unified Embedding for Face Recognition and Clustering;Florian Schroff等;《2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20151015;815-823 *
基于HOG和几何特征的服装细节要素识别与分类;纪娟等;《图学学报》;20160229;第37卷(第1期);84-90 *
基于关键点的服装检索;陈嫒嫒等;《计算机应用》;20171110;第37卷(第11期);3249-3255 *

Also Published As

Publication number Publication date
CN109325952A (zh) 2019-02-12

Similar Documents

Publication Publication Date Title
CN109325952B (zh) 基于深度学习的时尚服装图像分割方法
CN110135375B (zh) 基于全局信息整合的多人姿态估计方法
US10152655B2 (en) Deep-learning network architecture for object detection
CN110033007B (zh) 基于深度姿态预估和多特征融合的行人衣着属性识别方法
CN109829356B (zh) 神经网络的训练方法及基于神经网络的行人属性识别方法
CN111325111A (zh) 一种融合逆注意力和多尺度深度监督的行人重识别方法
CN106022343B (zh) 一种基于傅里叶描述子和bp神经网络的服装款式识别方法
CN112800903B (zh) 一种基于时空图卷积神经网络的动态表情识别方法及系统
CN109102024B (zh) 一种用于物体精细识别的层次语义嵌入模型及其实现方法
WO2020015752A1 (zh) 一种对象属性识别方法、装置、计算设备及系统
CN111862119A (zh) 基于Mask-RCNN的语义信息提取方法
CN112446302B (zh) 一种人体姿态检测方法、系统、电子设备和存储介质
CN112288011A (zh) 一种基于自注意力深度神经网络的图像匹配方法
CN108073851A (zh) 一种抓取手势识别的方法、装置及电子设备
Liang et al. Comparison detector for cervical cell/clumps detection in the limited data scenario
CN114170410A (zh) 基于PointNet的图卷积与KNN搜索的点云零件级分割方法
CN111967930A (zh) 一种基于多网络融合的服装风格识别推荐方法
CN112669343A (zh) 一种基于深度学习的壮族少数民族服饰分割方法
CN109255382A (zh) 用于图片匹配定位的神经网络系统,方法及装置
CN110349176B (zh) 基于三重卷积网络和感知干扰学习的目标跟踪方法和系统
CN111582154A (zh) 基于多任务骨架姿态划分部件的行人重识别方法
CN111985332A (zh) 一种基于深度学习的改进损失函数的步态识别方法
CN115223239A (zh) 一种手势识别方法、系统、计算机设备以及可读存储介质
CN111275694A (zh) 一种注意力机制引导的递进式划分人体解析模型及方法
CN108765384B (zh) 一种联合流形排序和改进凸包的显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant