CN112669343A - 一种基于深度学习的壮族少数民族服饰分割方法 - Google Patents

一种基于深度学习的壮族少数民族服饰分割方法 Download PDF

Info

Publication number
CN112669343A
CN112669343A CN202110003510.4A CN202110003510A CN112669343A CN 112669343 A CN112669343 A CN 112669343A CN 202110003510 A CN202110003510 A CN 202110003510A CN 112669343 A CN112669343 A CN 112669343A
Authority
CN
China
Prior art keywords
zhuang
minority
clothing
image data
dress
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110003510.4A
Other languages
English (en)
Inventor
覃琴
颜靖柯
王鑫
李黄河
王逸轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202110003510.4A priority Critical patent/CN112669343A/zh
Publication of CN112669343A publication Critical patent/CN112669343A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的壮族少数民族服饰分割方法,通过构建少数民族服饰图像库,建立语义分割模型训练模型,对需要识别的图像进行使用Mosaic数据增强预处理,不仅能够识别到比较小的物体,丰富检测物体的背景,通过图像标签平滑操作,减少了过拟合的情形,降低了模型过于相信预测类别的风险,同时使用辅佐分支结构,获得更合理的语义分割模型训练模型,提高了机器识别效率,解决了现有技术中的壮族少数民族服饰使用机器识别效率不高的技术问题。

Description

一种基于深度学习的壮族少数民族服饰分割方法
技术领域
本发明涉及图像语义分割领域和深度学习技术领域,尤其涉及一种基于深度学习的壮族少数民族服饰分割方法。
背景技术
民族服饰通常包括饰品、袖子、上衣、裙子、护腿、裤子和腰带等,种类繁多。
人们对于服饰的区分主要通过人为的观察进行识别,通常将少数民族上的饰品、袖子、上衣、裙子、护腿、裤子和腰带等区分开进行识别,因此非常依赖识别者的经验与阅历。
但单纯依赖人工对大批量的服饰进行识别,容易使识别者产生疲劳,识别效率低,依靠人工监督与决策常常出现识别效率较低等问题。
发明内容
本发明的目的在于提供一种基于深度学习的壮族少数民族服饰分割方法,旨在解决现有技术中的壮族少数民族服饰使用机器识别效率不高的技术问题。
为实现上述目的,本发明采用的一种基于深度学习的壮族少数民族服饰分割方法,包括下列步骤:
构建壮族服饰分割模型;
获取原始壮族少数民族服饰图像数据,进行预处理,获得壮族少数民族服饰预处理图像数据;
将所述壮族少数民族服饰预处理图像数据输入所述壮族服饰分割模型,对所述壮族服饰分割模型进行训练;
选择需判断的少数民族服饰数据集输入训练后的所述壮族服饰分割模型,输出分割判断结果。
其中,在对所述少数民族服饰预处理图像数据输入所述壮族服饰分割模型的过程中,对输入的所述少数民族服饰预处理图像数据进行初始化,通过编码器进行特征的提取,并利用解码器进行图像的处理并恢复到原始少数民族服饰图片,通过全连接网络进行图片的分割,分割出壮族服饰,获得壮族服饰数据集。
其中,在获得壮族服饰数据集的具体步骤为,将所述少数民族服饰预处理图像数据初始化固定到512×512像素,传入编码器进行上采样操作提取特征,将上采样的特征图输入解码器,解码器融合特征图进行全卷积处理,并用双线性差值恢复原始图像分割出壮族服饰数据集。
其中,在选择需判断的少数民族服饰数据集输入训练后的所述壮族服饰分割模型的判断过程中,将需判断的少数民族服饰数据集与训练后的所述壮族服饰分割模型的壮族服饰数据集进行判断,端到端的输出语义分割结果,确定是否为壮族服饰。
其中,原始少数民族服饰图像数据由贵州民族服饰博物馆拍摄获得,包含了几何纹、动物纹、植物纹的特征采集整理,分别从不同的角度进行拍摄,构建原始少数民族服饰图像数据。
其中,所述编码器采用Resnet50结构和Atrous Spatial Pyramid Pooling结构,所述Resnet50结构采用Conv Block结构和Identity Block结构,所述Conv Block结构包括4个卷积层,所述IdentityBlock结构包括3个卷积层。
其中,所述Atrous Spatial Pyramid Pooling结构,包括1×1卷积核的卷积层、空洞率为6的3×3卷积核的卷积层、空洞率为12的3×3卷积核的卷积层、空洞率为18的3×3卷积核的卷积层和全局平均池化层,所述Atrous Spatial Pyramid Pooling结构中每个卷积核的数量为256。
本发明的一种基于深度学习的壮族少数民族服饰分割方法,通过建立语义分割模型训练模型,对需要识别的图像进行增强预处理,不仅能够识别到比较小的物体,丰富检测物体的背景,通过图像标签平滑操作,减少了过拟合的情形,降低了模型过于相信预测类别的风险,同时使用辅佐分支结构,获得更合理的语义分割模型训练模型,提高了机器识别效率,解决了现有技术中的壮族少数民族服饰使用机器识别效率不高的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种基于深度学习的壮族少数民族服饰分割方法的流程示意图。
图2是本发明实施例的编码器的Conv Block和Identity Block结构示意图。
图3是本发明实施例的编码器的Atrous Spatial Pyramid Pooling结构示意图。
图4是本发明实施例的Resnet50结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
请参阅图1,本发明提供了一种基于深度学习的壮族少数民族服饰分割方法,包括下列步骤:
构建壮族服饰分割模型;
获取原始壮族少数民族服饰图像数据,进行预处理,获得壮族少数民族服饰预处理图像数据;
将所述少数民族服饰预处理图像数据输入所述壮族服饰分割模型,对所述壮族服饰分割模型进行训练;
选择需判断的少数民族服饰数据集输入训练后的所述壮族服饰分割模型,输出分割判断结果。
可选的,所述编码器采用Resnet50结构和Atrous Spatial Pyramid Pooling结构,所述Resnet50结构采用Conv Block结构和Identity Block结构,所述Conv Block结构包括4个卷积层,所述Identity Block结构包括3个卷积层。
进一步可选的,所述Atrous Spatial Pyramid Pooling结构,包括1×1卷积核的卷积层、空洞率为6的3×3卷积核的卷积层、空洞率为12的3×3卷积核的卷积层、空洞率为18的3×3卷积核的卷积层和全局平均池化层,所述Atrous Spatial Pyramid Pooling结构中每个卷积核的数量为256。
进一步可选的,获取所述特征的步骤包括:
对所述预处理图像以不同的采样率采样;
在所述Atrous Spatial Pyramid Pooling结构的卷积层之间进行归一化;
使用ReLU(Rectified LinearUnit)激活函数,获取所述特征。
本发明还提供了一种采用所述的基于深度学习的壮族少数民族服饰分割方法的语义分割模型,在初始化输入的壮族少数民族服饰图像,获得预处理图像的过程中,对所述壮族少数民族服饰图像进行数据增强和图像标签平滑操作。
其中,在所述Resnet50结构中使用辅佐分支。
请参阅图2至图4,本发明就基于深度学习的壮族少数民族服饰分割方法提供了一个具体实施例:
选择的少数民族服饰数据集是依托于贵州民族服饰博物馆拍摄获得,其中包含了几何纹、动物纹、植物纹采集整理,并分别从不同的角度进行图片拍摄,构建少数民族服饰图像库。
首先对输入的少数民族服饰图片进行初始化,然后将图片输入到编码器进行特征的提取,通过解码器进行图像的处理并恢复到原始图像,接着通过全连接网络进行图片的分割,最终得到输出结果。
选择壮族服饰数据集,输入构建的壮族少数民族服饰分割模型,并对少数民族服饰分割模型进行训练,模型训练过程中,对训练数据集中的图像进行预处理,将图片裁剪到512×512大小,对图像数据增强、图像标签平滑操作,图像的数据增强包括有Mosaic、翻转,旋转,缩放,随机裁剪或补零,色彩抖动,加噪声。图片标签平滑把图片对应的标签加上权重。如果模型在训练过程中,不使用标签平滑可能会导致模型的泛化能力减弱,容易过拟合,导致样本属于某个类别的概率非常大,模型太过自信自己的判断。在使用了标签平滑后,可以缓解上述问题,公式所示:
Figure BDA0002882491860000051
其中δk,y为Dirac函数分布的真实标签,u(k)表示类别总数,∈是惩罚项,q(k|x)是使用标签平滑后的真实标签。
其中Mosaic数据增强是利用4张图片进行拼接,将4张图片拼接之后会获得一张新的图片。然后将拼接后的图片传入神经网络中,相当于传入了四张图片进行学习,这样极大地丰富了背景,而且在训练的时候,同时提取四张图片的特征。
将预处理后的训练集传入到编码器操作,编码器采用了Resnet50和AtrousSpatial Pyramid Pooling结构,在Resnet50里面采用了Conv Block和Identity Block结构,其中Conv Block包括4个卷积层,它的输入和输出的维度是不一样的,所以不能连续串联,它的作用是改变网络的维度,从而达到间接加深网络深度;Identity Block包括3个卷积层,输入维度和输出维度相同,可以串联,用于直接加深网络的。在Restnet50总共使用了1个Convolution层、1个maxpool、4个Conv Block和4个Identity Block。
在Atrous Spatial Pyramid Pooling结构中,利用了一个1×1的卷积核的卷积层、空洞率为6的3×3卷积核的卷积层、空洞率为12的3×3卷积核的卷积层、空洞率为18的3×3卷积核的卷积层、1个全局平均池化层,其中每个卷积核的数量为256,对所给的输入图像以不同的采样率进行采样,并且在卷积层之间进行归一化,并使用ReLU(RectifiedLinearUnit)激活函数增加非线性表达能力,这样做相当于多个尺度获取上下文特征。利用并行结构,整合多尺度信息,融合为一张特征图。
除了使用Softmax训练最终分类器的主要分支外,在ResNet-50中还利用了另一个分支分类器。编码器中Resnet50中的输出结果Conv_identity 1.7传入辅佐分支中进行,构建辅助损失函数,优化学习过程。使用辅佐分支,增加了辅助损失函数分支。因为神经网络的反向传播会阻塞辅助损失函数传递到较浅的网络层。所以,增加了辅佐分支,让这两个损失函数通过在其之前的所有网络层。辅助损失函数有助于优化学习过程,而主分支损失函数承担起了最大的优化责任。
在解码器部分,Conv_identity 1.7利用1×1的卷积核的卷积层改变通道数,然后Atrous Spatial Pyramid Pooling结构获得的结果特征融合在一起,经过2个空洞率为1的3×3卷积核的卷积层和1个1×1普通卷积核的卷积层,利用双线性差值恢复到原始图像输入大小,得到输出结果。
在语义分割中使用交叉熵做误差函数,评估模型。交叉熵损失函数在多分类的问题中计算方式的如下所示:
Figure BDA0002882491860000061
其中y表示样本的标签,正类为1,负类为0,p表示样本预测为正的概率,但Crossentropy loss经常会陷入局部极小值,使模型偏向于背景,最终导致前景区域常常丢失或者部分被检测到。Dice loss就是为了解决这些问题而提出来的,其中Dice loss计算式如下:
Figure BDA0002882491860000062
其中p为预测值,g为真实值,N为p和g的总数。
Dice loss能够产生的梯度如下所示:
Figure BDA0002882491860000063
极端场景下,当p和g的值都非常小时,计算得到的梯度值可能会非常大,可能导致训练更加不稳定,所以我们采用了Cross entropy loss和Dice loss的损失值相加来解决这个问题,最终联合损失函数如下所示:
Figure BDA0002882491860000064
其中p为预测值,g为真实值,N为p和g的总数。
损失函数的构建,计算辅佐分支的损失值lossno_empty,计算经过编码器和解码器的整体的损失值lossfinal,训练过程中的总损失误差记为losstotal=lossfinal+0.5*lossno_empty,根据总损失误差losstotal使用随机梯度下降算法进行误差反向传播,在学习率策略使用余弦退火函数,更新模型参数,得到训练好的语义分割模型。
在优化目标函数的时候,可能存在很多峰值,除了全局最优解外还有很多局部最优解。在训练的时候很有可能陷入局部最优解,此时可以通过突然增加学习率来跳出局部最优解。余弦退火函数。在余弦退火函数中学习率并非只下降一次,余弦退火的计算方式如式:
Figure BDA0002882491860000071
其中i表示运行了几次,ηmax和ηmin分别表示学习率的最大值和最小值,定义了学习率的范围。Tcur则表示当前执行了多少个epoch,但是Tcur是在每个批次运行之后就会更新。Ti表示第i次运行中总的epoch数。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (7)

1.一种基于深度学习的壮族少数民族服饰分割方法,其特征在于,包括下列步骤:
构建壮族服饰分割模型;
获取原始壮族少数民族服饰图像数据,进行预处理,获得壮族少数民族服饰预处理图像数据;
将所述壮族少数民族服饰预处理图像数据输入所述壮族服饰分割模型,对所述壮族服饰分割模型进行训练;
选择需判断的少数民族服饰数据集输入训练后的所述壮族服饰分割模型,输出分割判断结果。
2.如权利要求1所述的基于深度学习的壮族少数民族服饰分割方法,其特征在于,在对所述少数民族服饰预处理图像数据输入所述壮族服饰分割模型的过程中,
对输入的所述少数民族服饰预处理图像数据进行初始化,通过编码器进行特征的提取,并利用解码器进行图像的处理并恢复到原始少数民族服饰图片,通过全连接网络进行图片的分割,分割出壮族服饰,获得壮族服饰数据集。
3.如权利要求2所述的基于深度学习的壮族少数民族服饰分割方法,其特征在于,在获得壮族服饰数据集的具体步骤为,将所述少数民族服饰预处理图像数据初始化固定到512×512像素,传入编码器进行上采样操作提取特征,将上采样的特征图输入解码器,解码器融合特征图进行全卷积处理,并用双线性差值恢复原始图像分割出壮族服饰数据集。
4.如权利要求3所述的基于深度学习的壮族少数民族服饰分割方法,其特征在于,在选择需判断的少数民族服饰数据集输入训练后的所述壮族服饰分割模型的判断过程中,将需要判断的少数民族服饰数据集与训练后的所述壮族服饰分割模型的壮族服饰数据集进行判断,端到端的输出语义分割结果,确定是否为壮族服饰。
5.如权利要求1所述的基于深度学习的壮族少数民族服饰分割方法,其特征在于,原始少数民族服饰图像数据由贵州民族服饰博物馆拍摄获得,包含了几何纹、动物纹、植物纹的特征采集整理,分别从不同的角度进行拍摄,构建原始少数民族服饰图像数据。
6.如权利要求4所述的基于深度学习的壮族少数民族服饰分割方法,其特征在于,所述编码器采用Resnet50结构和Atrous Spatial Pyramid Pooling结构,所述Resnet50结构采用Conv Block结构和Identity Block结构,所述Conv Block结构包括4个卷积层,所述IdentityBlock结构包括3个卷积层。
7.如权利要求6所述的基于深度学习的壮族少数民族服饰分割方法,其特征在于,所述Atrous Spatial Pyramid Pooling结构,包括1×1卷积核的卷积层、空洞率为6的3×3卷积核的卷积层、空洞率为12的3×3卷积核的卷积层、空洞率为18的3×3卷积核的卷积层和全局平均池化层,所述Atrous SpatialPyramid Pooling结构中每个卷积核的数量为256。
CN202110003510.4A 2021-01-04 2021-01-04 一种基于深度学习的壮族少数民族服饰分割方法 Pending CN112669343A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110003510.4A CN112669343A (zh) 2021-01-04 2021-01-04 一种基于深度学习的壮族少数民族服饰分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110003510.4A CN112669343A (zh) 2021-01-04 2021-01-04 一种基于深度学习的壮族少数民族服饰分割方法

Publications (1)

Publication Number Publication Date
CN112669343A true CN112669343A (zh) 2021-04-16

Family

ID=75412687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110003510.4A Pending CN112669343A (zh) 2021-01-04 2021-01-04 一种基于深度学习的壮族少数民族服饰分割方法

Country Status (1)

Country Link
CN (1) CN112669343A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114037833A (zh) * 2021-11-18 2022-02-11 桂林电子科技大学 一种苗族服饰图像语义分割方法
CN115147508A (zh) * 2022-06-30 2022-10-04 北京百度网讯科技有限公司 服饰生成模型的训练、生成服饰图像的方法和装置
CN115218798A (zh) * 2022-09-20 2022-10-21 西安中科慧远视觉技术有限公司 测量板材孔和/或槽尺寸的光学测量系统、方法及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106791438A (zh) * 2017-01-20 2017-05-31 维沃移动通信有限公司 一种拍照方法及移动终端
CN107437099A (zh) * 2017-08-03 2017-12-05 哈尔滨工业大学 一种基于机器学习的特定服饰图像识别与检测方法
CN109241972A (zh) * 2018-08-20 2019-01-18 电子科技大学 基于深度学习的图像语义分割方法
CN109344872A (zh) * 2018-08-31 2019-02-15 昆明理工大学 一种少数民族服装图像的识别方法
CN110322499A (zh) * 2019-07-09 2019-10-11 浙江科技学院 一种基于多层特征的单目图像深度估计方法
CN110544258A (zh) * 2019-08-30 2019-12-06 北京海益同展信息科技有限公司 图像分割的方法、装置、电子设备和存储介质
CN111274922A (zh) * 2020-01-17 2020-06-12 山东师范大学 基于多层次深度学习网络的行人重识别方法及系统
CN112163602A (zh) * 2020-09-14 2021-01-01 湖北工业大学 一种基于深度神经网络的目标检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106791438A (zh) * 2017-01-20 2017-05-31 维沃移动通信有限公司 一种拍照方法及移动终端
CN107437099A (zh) * 2017-08-03 2017-12-05 哈尔滨工业大学 一种基于机器学习的特定服饰图像识别与检测方法
CN109241972A (zh) * 2018-08-20 2019-01-18 电子科技大学 基于深度学习的图像语义分割方法
CN109344872A (zh) * 2018-08-31 2019-02-15 昆明理工大学 一种少数民族服装图像的识别方法
CN110322499A (zh) * 2019-07-09 2019-10-11 浙江科技学院 一种基于多层特征的单目图像深度估计方法
CN110544258A (zh) * 2019-08-30 2019-12-06 北京海益同展信息科技有限公司 图像分割的方法、装置、电子设备和存储介质
CN111274922A (zh) * 2020-01-17 2020-06-12 山东师范大学 基于多层次深度学习网络的行人重识别方法及系统
CN112163602A (zh) * 2020-09-14 2021-01-01 湖北工业大学 一种基于深度神经网络的目标检测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114037833A (zh) * 2021-11-18 2022-02-11 桂林电子科技大学 一种苗族服饰图像语义分割方法
CN114037833B (zh) * 2021-11-18 2024-03-19 桂林电子科技大学 一种苗族服饰图像语义分割方法
CN115147508A (zh) * 2022-06-30 2022-10-04 北京百度网讯科技有限公司 服饰生成模型的训练、生成服饰图像的方法和装置
CN115147508B (zh) * 2022-06-30 2023-09-22 北京百度网讯科技有限公司 服饰生成模型的训练、生成服饰图像的方法和装置
CN115218798A (zh) * 2022-09-20 2022-10-21 西安中科慧远视觉技术有限公司 测量板材孔和/或槽尺寸的光学测量系统、方法及介质

Similar Documents

Publication Publication Date Title
CN110427867B (zh) 基于残差注意力机制的面部表情识别方法及系统
CN109325952B (zh) 基于深度学习的时尚服装图像分割方法
CN113221639B (zh) 一种基于多任务学习的代表性au区域提取的微表情识别方法
CN107038448B (zh) 目标检测模型构建方法
CN107229904B (zh) 一种基于深度学习的目标检测与识别方法
CN112926396B (zh) 一种基于双流卷积注意力的动作识别方法
CN110210551A (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN112669343A (zh) 一种基于深度学习的壮族少数民族服饰分割方法
CN112084866A (zh) 一种基于改进YOLO v4算法的目标检测方法
CN106815566A (zh) 一种基于多任务卷积神经网络的人脸检索方法
CN110276248B (zh) 一种基于样本权值分配和深度学习的人脸表情识别方法
CN110222718B (zh) 图像处理的方法及装置
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN109817276A (zh) 一种基于深度神经网络的蛋白质二级结构预测方法
CN112150493A (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN112801015A (zh) 一种基于注意力机制的多模态人脸识别方法
CN112950477A (zh) 一种基于双路径处理的高分辨率显著性目标检测方法
CN107818299A (zh) 基于融合hog特征和深度信念网络的人脸识别算法
KR20210100592A (ko) 휴리스틱 가우스 클라우드 변환에 기반하는 얼굴인식 기술
CN111931908A (zh) 一种基于人脸轮廓的人脸图像自动生成方法
CN111985332A (zh) 一种基于深度学习的改进损失函数的步态识别方法
CN112883931A (zh) 基于长短期记忆网络的实时真假运动判断方法
CN114511798B (zh) 基于transformer的驾驶员分心检测方法及装置
CN112364705A (zh) 基于多层次特征融合的轻量型cnn的表情识别方法
CN114782979A (zh) 一种行人重识别模型的训练方法、装置、存储介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210416

RJ01 Rejection of invention patent application after publication