CN112669343A

CN112669343A - 一种基于深度学习的壮族少数民族服饰分割方法

Info

Publication number: CN112669343A
Application number: CN202110003510.4A
Authority: CN
Inventors: 覃琴; 颜靖柯; 王鑫; 李黄河; 王逸轩
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-04-16

Abstract

本发明公开了一种基于深度学习的壮族少数民族服饰分割方法，通过构建少数民族服饰图像库，建立语义分割模型训练模型，对需要识别的图像进行使用Mosaic数据增强预处理，不仅能够识别到比较小的物体，丰富检测物体的背景，通过图像标签平滑操作，减少了过拟合的情形，降低了模型过于相信预测类别的风险，同时使用辅佐分支结构，获得更合理的语义分割模型训练模型，提高了机器识别效率，解决了现有技术中的壮族少数民族服饰使用机器识别效率不高的技术问题。

Description

一种基于深度学习的壮族少数民族服饰分割方法

技术领域

本发明涉及图像语义分割领域和深度学习技术领域，尤其涉及一种基于深度学习的壮族少数民族服饰分割方法。

背景技术

民族服饰通常包括饰品、袖子、上衣、裙子、护腿、裤子和腰带等，种类繁多。

人们对于服饰的区分主要通过人为的观察进行识别，通常将少数民族上的饰品、袖子、上衣、裙子、护腿、裤子和腰带等区分开进行识别，因此非常依赖识别者的经验与阅历。

但单纯依赖人工对大批量的服饰进行识别，容易使识别者产生疲劳，识别效率低，依靠人工监督与决策常常出现识别效率较低等问题。

发明内容

本发明的目的在于提供一种基于深度学习的壮族少数民族服饰分割方法，旨在解决现有技术中的壮族少数民族服饰使用机器识别效率不高的技术问题。

为实现上述目的，本发明采用的一种基于深度学习的壮族少数民族服饰分割方法，包括下列步骤：

构建壮族服饰分割模型；

获取原始壮族少数民族服饰图像数据，进行预处理，获得壮族少数民族服饰预处理图像数据；

将所述壮族少数民族服饰预处理图像数据输入所述壮族服饰分割模型，对所述壮族服饰分割模型进行训练；

选择需判断的少数民族服饰数据集输入训练后的所述壮族服饰分割模型，输出分割判断结果。

其中，在对所述少数民族服饰预处理图像数据输入所述壮族服饰分割模型的过程中，对输入的所述少数民族服饰预处理图像数据进行初始化，通过编码器进行特征的提取，并利用解码器进行图像的处理并恢复到原始少数民族服饰图片，通过全连接网络进行图片的分割，分割出壮族服饰，获得壮族服饰数据集。

其中，在获得壮族服饰数据集的具体步骤为，将所述少数民族服饰预处理图像数据初始化固定到512×512像素，传入编码器进行上采样操作提取特征，将上采样的特征图输入解码器，解码器融合特征图进行全卷积处理，并用双线性差值恢复原始图像分割出壮族服饰数据集。

其中，在选择需判断的少数民族服饰数据集输入训练后的所述壮族服饰分割模型的判断过程中，将需判断的少数民族服饰数据集与训练后的所述壮族服饰分割模型的壮族服饰数据集进行判断，端到端的输出语义分割结果，确定是否为壮族服饰。

其中，原始少数民族服饰图像数据由贵州民族服饰博物馆拍摄获得，包含了几何纹、动物纹、植物纹的特征采集整理，分别从不同的角度进行拍摄，构建原始少数民族服饰图像数据。

其中，所述编码器采用Resnet50结构和Atrous Spatial Pyramid Pooling结构，所述Resnet50结构采用Conv Block结构和Identity Block结构，所述Conv Block结构包括4个卷积层，所述IdentityBlock结构包括3个卷积层。

其中，所述Atrous Spatial Pyramid Pooling结构，包括1×1卷积核的卷积层、空洞率为6的3×3卷积核的卷积层、空洞率为12的3×3卷积核的卷积层、空洞率为18的3×3卷积核的卷积层和全局平均池化层，所述Atrous Spatial Pyramid Pooling结构中每个卷积核的数量为256。

本发明的一种基于深度学习的壮族少数民族服饰分割方法，通过建立语义分割模型训练模型，对需要识别的图像进行增强预处理，不仅能够识别到比较小的物体，丰富检测物体的背景，通过图像标签平滑操作，减少了过拟合的情形，降低了模型过于相信预测类别的风险，同时使用辅佐分支结构，获得更合理的语义分割模型训练模型，提高了机器识别效率，解决了现有技术中的壮族少数民族服饰使用机器识别效率不高的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种基于深度学习的壮族少数民族服饰分割方法的流程示意图。

图2是本发明实施例的编码器的Conv Block和Identity Block结构示意图。

图3是本发明实施例的编码器的Atrous Spatial Pyramid Pooling结构示意图。

图4是本发明实施例的Resnet50结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

请参阅图1，本发明提供了一种基于深度学习的壮族少数民族服饰分割方法，包括下列步骤：

构建壮族服饰分割模型；

将所述少数民族服饰预处理图像数据输入所述壮族服饰分割模型，对所述壮族服饰分割模型进行训练；

可选的，所述编码器采用Resnet50结构和Atrous Spatial Pyramid Pooling结构，所述Resnet50结构采用Conv Block结构和Identity Block结构，所述Conv Block结构包括4个卷积层，所述Identity Block结构包括3个卷积层。

进一步可选的，所述Atrous Spatial Pyramid Pooling结构，包括1×1卷积核的卷积层、空洞率为6的3×3卷积核的卷积层、空洞率为12的3×3卷积核的卷积层、空洞率为18的3×3卷积核的卷积层和全局平均池化层，所述Atrous Spatial Pyramid Pooling结构中每个卷积核的数量为256。

进一步可选的，获取所述特征的步骤包括：

对所述预处理图像以不同的采样率采样；

在所述Atrous Spatial Pyramid Pooling结构的卷积层之间进行归一化；

使用ReLU(Rectified LinearUnit)激活函数，获取所述特征。

本发明还提供了一种采用所述的基于深度学习的壮族少数民族服饰分割方法的语义分割模型，在初始化输入的壮族少数民族服饰图像，获得预处理图像的过程中，对所述壮族少数民族服饰图像进行数据增强和图像标签平滑操作。

其中，在所述Resnet50结构中使用辅佐分支。

请参阅图2至图4，本发明就基于深度学习的壮族少数民族服饰分割方法提供了一个具体实施例：

选择的少数民族服饰数据集是依托于贵州民族服饰博物馆拍摄获得，其中包含了几何纹、动物纹、植物纹采集整理，并分别从不同的角度进行图片拍摄，构建少数民族服饰图像库。

首先对输入的少数民族服饰图片进行初始化，然后将图片输入到编码器进行特征的提取，通过解码器进行图像的处理并恢复到原始图像，接着通过全连接网络进行图片的分割，最终得到输出结果。

选择壮族服饰数据集，输入构建的壮族少数民族服饰分割模型，并对少数民族服饰分割模型进行训练，模型训练过程中，对训练数据集中的图像进行预处理，将图片裁剪到512×512大小，对图像数据增强、图像标签平滑操作，图像的数据增强包括有Mosaic、翻转，旋转，缩放，随机裁剪或补零，色彩抖动，加噪声。图片标签平滑把图片对应的标签加上权重。如果模型在训练过程中，不使用标签平滑可能会导致模型的泛化能力减弱，容易过拟合，导致样本属于某个类别的概率非常大，模型太过自信自己的判断。在使用了标签平滑后，可以缓解上述问题，公式所示：

其中δ_k,y为Dirac函数分布的真实标签，u(k)表示类别总数，∈是惩罚项，q(k|x)是使用标签平滑后的真实标签。

其中Mosaic数据增强是利用4张图片进行拼接，将4张图片拼接之后会获得一张新的图片。然后将拼接后的图片传入神经网络中，相当于传入了四张图片进行学习，这样极大地丰富了背景，而且在训练的时候，同时提取四张图片的特征。

将预处理后的训练集传入到编码器操作，编码器采用了Resnet50和AtrousSpatial Pyramid Pooling结构，在Resnet50里面采用了Conv Block和Identity Block结构，其中Conv Block包括4个卷积层，它的输入和输出的维度是不一样的，所以不能连续串联，它的作用是改变网络的维度，从而达到间接加深网络深度；Identity Block包括3个卷积层，输入维度和输出维度相同，可以串联，用于直接加深网络的。在Restnet50总共使用了1个Convolution层、1个maxpool、4个Conv Block和4个Identity Block。

在Atrous Spatial Pyramid Pooling结构中，利用了一个1×1的卷积核的卷积层、空洞率为6的3×3卷积核的卷积层、空洞率为12的3×3卷积核的卷积层、空洞率为18的3×3卷积核的卷积层、1个全局平均池化层，其中每个卷积核的数量为256，对所给的输入图像以不同的采样率进行采样，并且在卷积层之间进行归一化，并使用ReLU(RectifiedLinearUnit)激活函数增加非线性表达能力，这样做相当于多个尺度获取上下文特征。利用并行结构，整合多尺度信息，融合为一张特征图。

除了使用Softmax训练最终分类器的主要分支外，在ResNet-50中还利用了另一个分支分类器。编码器中Resnet50中的输出结果Conv_identity 1.7传入辅佐分支中进行，构建辅助损失函数，优化学习过程。使用辅佐分支，增加了辅助损失函数分支。因为神经网络的反向传播会阻塞辅助损失函数传递到较浅的网络层。所以，增加了辅佐分支，让这两个损失函数通过在其之前的所有网络层。辅助损失函数有助于优化学习过程，而主分支损失函数承担起了最大的优化责任。

在解码器部分，Conv_identity 1.7利用1×1的卷积核的卷积层改变通道数，然后Atrous Spatial Pyramid Pooling结构获得的结果特征融合在一起，经过2个空洞率为1的3×3卷积核的卷积层和1个1×1普通卷积核的卷积层，利用双线性差值恢复到原始图像输入大小，得到输出结果。

在语义分割中使用交叉熵做误差函数，评估模型。交叉熵损失函数在多分类的问题中计算方式的如下所示：

其中y表示样本的标签，正类为1，负类为0，p表示样本预测为正的概率，但Crossentropy loss经常会陷入局部极小值，使模型偏向于背景，最终导致前景区域常常丢失或者部分被检测到。Dice loss就是为了解决这些问题而提出来的，其中Dice loss计算式如下：

其中p为预测值，g为真实值，N为p和g的总数。

Dice loss能够产生的梯度如下所示：

极端场景下，当p和g的值都非常小时，计算得到的梯度值可能会非常大，可能导致训练更加不稳定，所以我们采用了Cross entropy loss和Dice loss的损失值相加来解决这个问题，最终联合损失函数如下所示：

其中p为预测值，g为真实值，N为p和g的总数。

损失函数的构建，计算辅佐分支的损失值lossno_empty，计算经过编码器和解码器的整体的损失值lossfinal，训练过程中的总损失误差记为losstotal＝lossfinal+0.5*lossno_empty，根据总损失误差losstotal使用随机梯度下降算法进行误差反向传播，在学习率策略使用余弦退火函数，更新模型参数，得到训练好的语义分割模型。

在优化目标函数的时候，可能存在很多峰值，除了全局最优解外还有很多局部最优解。在训练的时候很有可能陷入局部最优解，此时可以通过突然增加学习率来跳出局部最优解。余弦退火函数。在余弦退火函数中学习率并非只下降一次，余弦退火的计算方式如式：

其中i表示运行了几次，η_max和η_min分别表示学习率的最大值和最小值，定义了学习率的范围。T_cur则表示当前执行了多少个epoch，但是T_cur是在每个批次运行之后就会更新。T_i表示第i次运行中总的epoch数。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于深度学习的壮族少数民族服饰分割方法，其特征在于，包括下列步骤：

构建壮族服饰分割模型；

2.如权利要求1所述的基于深度学习的壮族少数民族服饰分割方法，其特征在于，在对所述少数民族服饰预处理图像数据输入所述壮族服饰分割模型的过程中，

对输入的所述少数民族服饰预处理图像数据进行初始化，通过编码器进行特征的提取，并利用解码器进行图像的处理并恢复到原始少数民族服饰图片，通过全连接网络进行图片的分割，分割出壮族服饰，获得壮族服饰数据集。

3.如权利要求2所述的基于深度学习的壮族少数民族服饰分割方法，其特征在于，在获得壮族服饰数据集的具体步骤为，将所述少数民族服饰预处理图像数据初始化固定到512×512像素，传入编码器进行上采样操作提取特征，将上采样的特征图输入解码器，解码器融合特征图进行全卷积处理，并用双线性差值恢复原始图像分割出壮族服饰数据集。

4.如权利要求3所述的基于深度学习的壮族少数民族服饰分割方法，其特征在于，在选择需判断的少数民族服饰数据集输入训练后的所述壮族服饰分割模型的判断过程中，将需要判断的少数民族服饰数据集与训练后的所述壮族服饰分割模型的壮族服饰数据集进行判断，端到端的输出语义分割结果，确定是否为壮族服饰。

5.如权利要求1所述的基于深度学习的壮族少数民族服饰分割方法，其特征在于，原始少数民族服饰图像数据由贵州民族服饰博物馆拍摄获得，包含了几何纹、动物纹、植物纹的特征采集整理，分别从不同的角度进行拍摄，构建原始少数民族服饰图像数据。

6.如权利要求4所述的基于深度学习的壮族少数民族服饰分割方法，其特征在于，所述编码器采用Resnet50结构和Atrous Spatial Pyramid Pooling结构，所述Resnet50结构采用Conv Block结构和Identity Block结构，所述Conv Block结构包括4个卷积层，所述IdentityBlock结构包括3个卷积层。

7.如权利要求6所述的基于深度学习的壮族少数民族服饰分割方法，其特征在于，所述Atrous Spatial Pyramid Pooling结构，包括1×1卷积核的卷积层、空洞率为6的3×3卷积核的卷积层、空洞率为12的3×3卷积核的卷积层、空洞率为18的3×3卷积核的卷积层和全局平均池化层，所述Atrous SpatialPyramid Pooling结构中每个卷积核的数量为256。