CN114037833B

CN114037833B - 一种苗族服饰图像语义分割方法

Info

Publication number: CN114037833B
Application number: CN202111371509.3A
Authority: CN
Inventors: 覃琴; 冯意; 王鑫; 许文全; 颜靖柯
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2024-03-19
Anticipated expiration: 2041-11-18
Also published as: CN114037833A

Abstract

本发明公开了一种苗族服饰图像语义分割方法，其特征在于，包括如下步骤：1）数据增强；2）编码；3）解码；4）辅助分支结构；5）实现语义分割。这种方法能提取到少数民族服饰的大尺度高级语义信息，而且提取的特征包含更多低级纹理的重要细节、迁移和融合少数民族服饰之间自相似性与跨尺度相似性的特征，能提高苗族服饰图像语义分割的准确度。

Description

一种苗族服饰图像语义分割方法

技术领域

本发明涉及图像处理和机器视觉技术，具体是一种苗族服饰图像语义分割方法。

背景技术

少数民族将自己的宗教文化、图腾文化体现在服饰的纹样和建筑的装饰上，这样不仅起到美化自身的作用，还能够传达特殊的文化意义。我国少数民族种类繁多，民族服饰多姿多彩，如何正确、高效地分割少数民族服饰的图案，对于辅助研究人员研究少数民族文化具有重要的意义。

图像语义分割Semantic Segmentation是图像处理和是机器视觉技术中关于图像理解的重要一环，也是AI领域中一个重要的分支。语义分割即是对图像中每一个像素点进行分类，确定每个点的类别，如属于背景、人或车，从而进行区域划分。目前，语义分割已经被广泛应用于自动驾驶、无人机落点判定等场景中。

虽然已经有学者对民族服饰图像进行了研究，但在民族服饰图像分割的自动优化、提取、分类、识别等方面的研究还很少，这影响了从大量民族服饰图像中快速检索和识别。区别于时尚服饰，少数民族服装具有以下特点：(1)服饰图案结构复杂；(2)服饰饰品繁多，同时存在很多小饰品；(3)同一款式服饰饰品之间颜色细节属性差异不大。因此，现有的语义分割模型只能用于时尚服装识别，难于分割出少数民族服饰局部信息。

服饰图像的语义分割侧重于解析细粒度服饰分割项目，消除服饰标签的语义信息混淆歧义。现有技术中基于超像素分割和姿态估计模型，提出了一种分割时尚服饰的方法，该方法对分割结果不断优化，得到了精确的分割结果；基于检索的模型从带有标记的时尚图像数据库进行模版匹配，找到相似的分割服饰样式，进而对服饰进行分割；基于一种图像协同分割的模型，该方法第一阶段使用支持向量机迭代图像和数据库中的服饰一致区域，并细化图像所有区域，第二阶段通过分割区域的顶点，结合服饰图像的上下文信息，细化分割区域。然而上述方法只针对时尚服装分割，并未考虑少数民族服饰结构复杂、佩饰繁多且存在小饰品等因素，影响了少数民族服饰分割图像的语义分割效果。

为了提高语义分割的准确率，近期的研究侧重于采用深度神经网络来对服饰图像进行分割。Liang等基于主动模版回归(ATR)模型，利用深度神经网络学习每个语义区域的位置和可见性，生成掩码系数和服饰分割形状的参数，得到很好地分割结果；Khurana等基于SegNet模型，提出了一种用于时尚服饰图像分割的双阶段深度神经网络架构，该架构第一阶段使用全卷积网络分割出了服饰图像，第二阶段利用Gabor提取服饰纹样特征，确定服饰类型；Guo等利用CPN网络、MFN网络、CRN网络从粗到细分割服饰；Liu等基于K最邻近KNN(k-nearest neighbor，简称KNN)的方法，提出了具有参数匹配的卷积神经网络(M-CNN)来预测图像中特定语义的最佳匹配区域置信度和位置信息。虽然目前基于神经网络的语义分割模型的研究在时尚服饰数据集上取得了一定的成功，但是模型提取的特征向量维度较大，且随着网络的层数增加，不同尺度特征信息存在丢失，底层特征与高层属性间存在语义鸿沟，使得少数民族服饰分割仍然存在以下问题：(1)由于少数民族服饰的结构复杂，现有的服饰分割模型难以描述少数民族服饰的局部细节；(2)少数民族服饰色彩鲜明、纹理图案多样、款式种类繁多、饰品丰富，如何解决高层视觉语义属性与低层特征语义属性鸿沟，成为了提高分割准确率的关键。

发明内容

本发明的目的是针对现有技术的不足，而提供一种苗族服饰图像语义分割方法。这种方法能提取到少数民族服饰的大尺度高级语义信息，而且提取的特征包含更多低级纹理的重要细节、迁移和融合少数民族服饰之间自相似性与跨尺度相似性的特征，能提高苗族服饰图像语义分割的准确度。

实现本发明目的的技术方案是：

一种苗族服饰图像语义分割方法，包括如下步骤：

1)数据增强：采用Mosaic数据增强的方法，将苗族服饰四张图像合成一张图像、提取四张图像特征信息，所述数据增强是指对图片裁剪、翻转、旋转、缩放、扭曲几何变换及像素扰动、添加噪声、光照调节、对比度调节、样本加和或插值、分割补丁，数据增强提高了数据的多样性、增强了模拟的鲁棒性、降低了模型对参数的敏感度，提升了模型的泛化能力；

2)编码：采用基于多尺度渐进式注意力学习金字塔网络模型(Multi-scalepyramidal network of progressive attentional learning，简称MutilPPL)将输入的服饰图片经过卷积的3次下采样操作，每次下采样操作将特征图的长和宽缩小2倍、通道数扩大2倍，然后将卷积输出的特征图逐层传入不同尺度的特征层进行特征融合；

3)解码：将MutilPPL模型中的编码器和解码器的特征层进行密集跨级连接，使MutilPPL模型提取服饰多尺度特征信息，再采用金字塔结构融合特征局部与全局信息，最后在解码器中进行3次转置卷积逐步恢复高分辨率图像，得到语义分割结果，MutilPPL模型中的解码器结构与编码器结构对称，解码器每次采用转置卷积操作，将特征图尺寸扩大2倍、通道数缩小2倍；

4)辅助分支结构：MutilPPL模型的深层卷积感受野大，特征映射具有较强的语义特征信息，有利于分割识别大目标，但是随着网络的加深，在深层卷积映射的特征中小目标特征信息容易丢失，少数苗族服饰分割任务中输入的图片通常包含大小不同的目标，在这种情况下，只使用深层的特征映射进行预测，很可能导致较小的目标分割精度不高，而中层和浅层的特征映射包含更多的特性信息，能让模型学习到更多鉴别信息，有利于小目标的分割，受此启发，基于浅层、中层和深层的特征信息的融合作为分割结果，提出了辅助分支结构，辅助分支结构由Conv-Classes模块、渐进式注意力学习金字塔结构(PPL)模块、Softmax分类器3个部分组成，定义编码器中的Layer6、Layer 7、Layer 8作为辅助分支结构的输入，其中，Conv-Classes模块设有转置卷积和1×1卷积，且在每个1×1卷积后面都会加上实例化归一化(Instance Normalization，简称IN)和ACON激活函数，将Layer6、Layer 7、Layer 8输入到Conv-Classes模块中得到不同类别的置信系数，然后将不同置信系数的通道进行连接并进行1×1卷积操作，并将它们的特征信息交叉输入到两个PPL模块中，每个PPL模块的输出都进行一次1×1卷积操作，最后将PPL模块聚合的多层特征输入到Softmax分类器实现最终的输出，该结构加深了对小目标特征的提取，能够在输出结果的性能改善中起到一定的作用，

具体是：Layer 6和Layer 7对应浅和中层网络，虽然它们只包含较浅的语义信息，但是包含了更多的小目标特征信息，而Layer 8对应深层网络，包含了更多的高语义特征信息，能够对复杂背景的大物体进行分割，在辅助分支结构中，首先，解码器根据不同层次的深度的卷积层Layer 6、Layer 7、Layer 8划分不同的阶段，获得不同语义的特征信息，每个阶段通过转置卷积得到相同大小的特征图，并经过卷积，得到不同阶段的不同类别置信系数；然后，将不同置信系数的通道进行连接，同时将它们的特征信息交叉输入到渐进式注意力学习金字塔结构(PPL)，使网络能够合理利用不同阶段学习的特征，专注有效特征提取，丢弃冗余特征；最后，将渐进式注意力学习金字塔结构聚合的多层特征输入到Softmax分类器实现最终的输出，辅助分支中采用渐进式注意力学习金字塔结构，可以渐进式迁移学习不同分支获得的结果的重要权重，降低了网络深度选择特征的难度，缓解深层网络造成的网络退化，辅助分支结构在解码过程中分别提取三次转置卷积的输出特征，利用1×1卷积层将特征通道减少为7，并将卷积的结果进行融合；

5)实现语义分割：采用Softmax激活函数对特征图进行分类，实现语义分割。

所述MutilPPL模型为中密集跨级连接网络采用两级结构，第一级结构在编码器部分将低尺度和中等尺度的特征图进行融合，第二级结构将融合后的结果作为整体再与高尺度特征图进行融合，密集跨级连接网络具体实现过程为：首先，在编码器路径上将下采样的输入与前特征层输出连接，经过两次卷积运算、并行高语义特征在编码器上；然后，在解码器路径上将编码器路径和解码器路径的特征连接在一起，通过渐进式注意力学习金字塔结构提取自相似性特征，并聚合相似物体外观、位置特征，对于连接不同尺寸和通道数的特征，采用最大池化(3×3、5×5、9×9)和卷积(3×3)，确保分辨率相同和通道数一致，其中，在MutilPPL模型中设有5个渐进式注意力学习金字塔结构，渐进式注意力学习金字塔结构(PPL)由特征提取模块和特征聚合模块组成，定义一对相同大小的跨尺度特征层和作为PPL的输入，其中特征提取模块采用了可变形卷积，可变形卷积可以学习到更多不规则的自相似性特征，计算方式如公式(1)所示：

其中表示可变形卷积运算，F₁ ^m表示当前第m层输入的特征图，/>表示前i层渐进式注意力学习金字塔结构输出的特征图，可变形卷积学习的偏移offset根据输入的F₁ ^m和/>进行计算，计算方式如公式(2)所示：

其中(ΔP)^m表示m层的可变卷积偏移，||表示通道连接，表示卷积运算，将计算得到的可变形卷积偏移作用到可变形卷积运算上得到/>然后，采用Softmax生成Mask特征级掩码，Mask用于渐进式注意力学习金字塔结构聚集学习最相关的特征，计算方式如公式(3)所示：

采用Softmax对卷积后F₁ ^m减去卷积后的结果进行计算，得到m层的Mask特征级掩码，所计算的掩码Mask进一步与可变形卷积的输出相乘聚焦更多的相关特征，计算方式如公式(4)所示：

其中表示矩阵元素乘法运算，掩码Mask与/>相乘后与F₁ ^m进行通道连接，再对其得到的结果进行卷积运算后映射到F₁ ^m上得到具有自相似性和跨尺度相似性特征的特征图F^m，至此，模型完成了自相似性和跨尺度相似性特征提取，

特征聚合过程采用像素级运算集成权重和3D卷积计算融合提取的特征，对于像素级运算集成权重，采用空域注意力机制计算权重，计算方式如公式(5)所示：

其中⊙表示点积运算，(Θ)^m表示空域注意力机制计算所得的权重，将F₁ ^m的转置与F^m分别卷积后再进行点积运算，然后利用Sigmoid生成权重，利用空域注意力机制计算的权重将输入的特征进行加权融合，并采用额外融合卷积层来聚合注意力调制的特征计算方式如公式(6)公式(7)所示：

采用3D卷积融合特征、并计算融合特征后的空域注意力掩码，通过掩码对融合特征进行最后调制得到最终的输出结果，计算方式如公式(8)所示：

特征聚合模过程在保持通道数不变的情况下利用从粗到细的方式提高了信息聚合的有效性，渐进式注意力学习金字塔结构采用可变形卷积，每个渐进式注意力学习金字塔结构输入包括一对相同大小的跨尺度特征层和，在完成特征信息提取后赋予特征像素级权重，并通过3D卷积聚合所有特征信息。

由于苗族服饰背景复杂度高、拍摄光照不均匀、物体类别之间存在难分类和错误分类的情况，会导致语义分割模型精度低，该结构能对场景中受光照和背景影响大的物体的深度信息区域进行互补，提取到相似外观和相近位置物体特征，降低物体的分割错误率，渐进式注意力学习金字塔结构采用可变形卷积，可变形卷积可以学习到更多不规则的自相似性特征，每个渐进式注意力学习金字塔结构输入包括一对相同大小的跨尺度特征层和，渐进式注意力学习金字塔结构主要利用了金字塔结构渐进式学习自相似性与跨尺度特征信息，在完成特征信息提取后赋予特征像素级权重，并通过3D卷积聚合所有特征信息，在MutilPPL模型中采用不断卷积和转置卷积的方法，有效地使得每一级下采样操作的特征图都通过渐进式注意力学习金字塔结构进行迁移学习，达到提取跨尺度相似性的目的，在苗族服饰分割的实验过程中，发现很多小饰品的轮廓没有被很好地分割、外观相似的物体也存在分类错误等问题，这些问题与模型不同尺度下获得的感受野语境和整体信息都有关，因此，具有合适尺度的模型可以极大增强模型复杂场景下的分割能力，为了对多模态特征进行增强，使模型更加有效地捕获上下文信息，进一步避免丢失不同表征之间关系的语义信息，本技术方案在编码器和解码器的路径上考虑多尺度特征信息，采用密集跨级连接网络来融合不同尺度的特征图，密集跨级连接网络能够通过使用密集跨连接策略达到控制模型对不同尺度特征学习能力的目的。

本技术方案具有以下优点：

1)密集跨级连接网络是将编码器和解码器的网络层中不同尺度的特征进行合并连接，使每一层网络层包含高视觉语义特征和浅语义特征，得到丰富的特征表示；

2)渐进式注意力学习金字塔结构是将转置卷积和卷积操作得到的特征进行物体相似外观和相近位置的特征提取，该方式能融合全局和局部的特征信息，提高对图像全局特征的利用率；

3)辅助分支结构能够学习中层和浅层的浅语义特征，能学习到更多鉴别信息，有利于小目标的分割。

这种方法能提取到少数民族服饰的大尺度高级语义信息，而且提取的特征包含更多低级纹理的重要细节、迁移和融合少数民族服饰之间自相似性与跨尺度相似性的特征，能提高苗族服饰图像语义分割的准确度。

附图说明

图1为实施例中的渐进式注意力学习金字塔结构的示意图；

图2为实施例中的方法流程示意图；

图3为实施例中的基于MutilDeepPPL苗族服饰分割模型，其中，(a)编码器，(b)解码器，(c)辅助分支结构；

图4为实施例中的辅助分支结构的结构示意图。

具体实施方式

下面结合附图和实施例对本发明的内容做进一步的阐述，但不是对本发明的限定。

实施例：

参照图2，一种苗族服饰图像语义分割方法，包括如下步骤：

2)编码：如图3所示，采用基于多尺度渐进式注意力学习金字塔网络模型MutilPPL将输入的服饰图片经过卷积的3次下采样操作，每次下采样操作将特征图的长和宽缩小2倍、通道数扩大2倍，然后将卷积输出的特征图逐层传入不同尺度的特征层进行特征融合；

4)辅助分支结构：MutilPPL模型的深层卷积感受野大，特征映射具有较强的语义特征信息，有利于分割识别大目标，但是随着网络的加深，在深层卷积映射的特征中小目标特征信息容易丢失，少数苗族服饰分割任务中输入的图片通常包含大小不同的目标，在这种情况下，只使用深层的特征映射进行预测，很可能导致较小的目标分割精度不高，而中层和浅层的特征映射包含更多的特性信息，能让模型学习到更多鉴别信息，有利于小目标的分割，受此启发，基于浅层、中层和深层的特征信息的融合作为分割结果，提出了辅助分支结构，如图4所示，辅助分支结构由Conv-Classes模块、渐进式注意力学习金字塔结构(PPL)模块、Softmax分类器3个部分组成，定义编码器中的Layer6、Layer 7、Layer 8作为辅助分支结构的输入，其中，Conv-Classes模块设有转置卷积和1×1卷积，且在每个1×1卷积后面都会加上实例化归一化IN和ACON激活函数，如图3所示，将Layer6、Layer 7、Layer 8输入到Conv-Classes模块中得到不同类别的置信系数，然后将不同置信系数的通道进行连接并进行1×1卷积操作，并将它们的特征信息交叉输入到两个PPL模块中，每个PPL模块的输出都进行一次1×1卷积操作，最后将PPL模块聚合的多层特征输入到Softmax分类器实现最终的输出，该结构加深了对小目标特征的提取，能够在输出结果的性能改善中起到一定的作用，

所述MutilPPL模型为中密集跨级连接网络采用两级结构，第一级结构在编码器部分将低尺度和中等尺度的特征图进行融合，第二级结构将融合后的结果作为整体再与高尺度特征图进行融合，密集跨级连接网络具体实现过程为：首先，在编码器路径上将下采样的输入与前特征层输出连接，经过两次卷积运算、并行高语义特征在编码器上；然后，在解码器路径上将编码器路径和解码器路径的特征连接在一起，通过渐进式注意力学习金字塔结构提取自相似性特征，并聚合相似物体外观、位置特征，对于连接不同尺寸和通道数的特征，采用最大池化(3×3、5×5、9×9)和卷积(3×3)，确保分辨率相同和通道数一致，其中，在MutilPPL模型中设有5个渐进式注意力学习金字塔结构，如图1所示，渐进式注意力学习金字塔结构(PPL)由特征提取模块和特征聚合模块组成，定义一对相同大小的跨尺度特征层和作为PPL的输入，其中特征提取模块采用了可变形卷积，可变形卷积可以学习到更多不规则的自相似性特征，计算方式如公式(1)所示：

其中(ΔP)^m表示m层的可变卷积偏移，‖表示通道连接，表示卷积运算，将计算得到的可变形卷积偏移作用到可变形卷积运算上得到/>然后，采用Softmax生成Mask特征级掩码，Mask用于渐进式注意力学习金字塔结构聚集学习最相关的特征，计算方式如公式(3)所示：

Claims

1.一种苗族服饰图像语义分割方法，其特征在于，包括如下步骤：

1)数据增强：采用Mosaic数据增强的方法，将苗族服饰四张图像合成一张图像、提取四张图像特征信息，所述数据增强是指对图片裁剪、翻转、旋转、缩放、扭曲几何变换及像素扰动、添加噪声、光照调节、对比度调节、样本加和或插值、分割补丁；

2)编码：采用基于多尺度渐进式注意力学习金字塔网络模型MutilPPL将输入的服饰图片经过卷积的3次下采样操作，每次下采样操作将特征图的长和宽缩小2倍、通道数扩大2倍，然后将卷积输出的特征图逐层传入不同尺度的特征层进行特征融合；

4)辅助分支结构：辅助分支结构由Conv-Classes模块、渐进式注意力学习金字塔结构(PPL)模块、Softmax分类器3个部分组成，定义编码器中的Layer6、Layer 7、Layer 8作为辅助分支结构的输入，其中，Conv-Classes模块设有转置卷积和1×1卷积，且在每个1×1卷积后面都加上实例化归一化(Instance Normalization，简称IN)和ACON激活函数，将Layer6、Layer 7、Layer 8输入到Conv-Classes模块中得到不同类别的置信系数，然后将不同置信系数的通道进行连接并进行1×1卷积操作，并将它们的特征信息交叉输入到两个PPL模块中，每个PPL模块的输出都进行一次1×1卷积操作，最后将PPL模块聚合的多层特征输入到Softmax分类器实现最终的输出，

具体是：Layer 6和Layer 7对应浅和中层网络，而Layer 8对应深层网络，首先，解码器根据不同层次的深度的卷积层Layer 6、Layer 7、Layer 8划分不同的阶段，获得不同语义的特征信息，每个阶段通过转置卷积得到相同大小的特征图，并经过卷积，得到不同阶段的不同类别置信系数；然后，将不同置信系数的通道进行连接，同时将它们的特征信息交叉输入到渐进式注意力学习金字塔结构(PPL)，使网络能够合理利用不同阶段学习的特征，专注有效特征提取，丢弃冗余特征；最后，将渐进式注意力学习金字塔结构聚合的多层特征输入到Softmax分类器实现最终的输出，辅助分支结构在解码过程中分别提取三次转置卷积的输出特征，利用1×1卷积层将特征通道减少为7，并将卷积的结果进行融合；

2.根据权利要求1所述的苗族服饰图像语义分割方法，其特征在于，所述MutilPPL模型为中密集跨级连接网络采用两级结构，第一级结构在编码器部分将低尺度和中等尺度的特征图进行融合，第二级结构将融合后的结果作为整体再与高尺度特征图进行融合，密集跨级连接网络具体实现过程为：首先，在编码器路径上将下采样的输入与前特征层输出连接，经过两次卷积运算、并行高语义特征在编码器上；然后，在解码器路径上将编码器路径和解码器路径的特征连接在一起，通过渐进式注意力学习金字塔结构提取自相似性特征，并聚合相似物体外观、位置特征，对于连接不同尺寸和通道数的特征，采用最大池化(3×3、5×5、9×9)和卷积(3×3)，确保分辨率相同和通道数一致，其中，在MutilPPL模型中设有5个渐进式注意力学习金字塔结构，渐进式注意力学习金字塔结构(PPL)由特征提取模块和特征聚合模块组成，定义一对相同大小的跨尺度特征层和作为PPL的输入，其中特征提取模块采用了可变形卷积，计算方式如公式(1)所示：

其中表示可变形卷积运算，/>表示当前第m层输入的特征图，/>表示前i层渐进式注意力学习金字塔结构输出的特征图，可变形卷积学习的偏移offset根据输入的/>和进行计算，计算方式如公式(2)所示：

采用Softmax对卷积后减去卷积后/>的结果进行计算，得到m层的Mask特征级掩码，所计算的掩码Mask进一步与可变形卷积的输出相乘聚焦更多的相关特征，计算方式如公式(4)所示：

其中表示矩阵元素乘法运算，掩码Mask与/>相乘后与/>进行通道连接，再对其得到的结果进行卷积运算后映射到/>上得到具有自相似性和跨尺度相似性特征的特征图F^m，至此，模型完成了自相似性和跨尺度相似性特征提取，

其中⊙表示点积运算，(Θ)^m表示空域注意力机制计算所得的权重，将的转置与F^m分别卷积后再进行点积运算，然后利用Sigmoid生成权重，利用空域注意力机制计算的权重将输入的特征进行加权融合，并采用额外融合卷积层来聚合注意力调制的特征/>计算方式如公式(6)公式(7)所示：

渐进式注意力学习金字塔结构采用可变形卷积，每个渐进式注意力学习金字塔结构输入包括一对相同大小的跨尺度特征层和，在完成特征信息提取后赋予特征像素级权重，并通过3D卷积聚合所有特征信息。