CN118097158A

CN118097158A - 基于编解码器的服装语义分割方法

Info

Publication number: CN118097158A
Application number: CN202410528266.7A
Authority: CN
Inventors: 陆丹妮; 李依凡; 何哲玉; 廖晴; 范芳莉; 田佳濠; 肖梦; 余锋; 姜明华
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2024-04-29
Filing date: 2024-04-29
Publication date: 2024-05-28
Anticipated expiration: 2044-04-29
Also published as: CN118097158B

Abstract

本发明公开了基于编解码器的服装语义分割方法，所述方法包括以下步骤：S1：设计适用于解析噪声服装图像的编码解码服装图像语义分割模型；编码解码服装图像语义分割模型包括交互编码模块、交互解码模块、交互瓶颈层模块和交叉注意力模块；S2：训练设计好的编码解码服装图像语义分割模型；S3：使用训练好的编码解码服装图像语义分割模型来解析噪声服装图像，生成像素级的预测图像。本发明通过编码解码算法解析服装图片中的服装信息，首先通过交互编码模块、交互解码模块和交互瓶颈层模块来进行全局交互，再通过交叉注意力模块来进行局部交互，提高对图像中服装信息分割的准确度。

Description

基于编解码器的服装语义分割方法

技术领域

本发明涉及服装图像分割领域，尤其涉及基于编解码器的服装语义分割方法。

背景技术

在服装行业中，服装图像语义分割是一项至关重要的技术。例如，在虚拟试衣间、智能购物助手等应用场景中，需要对服装图像进行实时的语义分割，以准确地识别服装的不同部分，为用户提供丰富的交互和信息。

噪声图像中存在各种类型的噪声，如高斯噪声、椒盐噪声等，这些噪声会干扰图像的视觉信息，降低语义分割的精度。特别是对于细节部分的服装，噪声可能会导致分割错误或模糊不清的边界。噪声图像的复杂度较高，传统的语义分割模型可能无法有效处理。因为噪声会引入额外的不确定性和变化，导致模型难以准确地捕捉服装图像的特征，从而增加了计算复杂度。对于噪声图像，需要进行更复杂的预处理步骤以消除或减弱噪声的影响。然而，这种预处理往往需要额外的计算资源和时间，并且可能会引入新的误差或失真。噪声图像的语义分割任务往往需要更长的处理时间，因为模型需要花费更多的时间来应对图像中的噪声和不确定性。这会影响实时性能，特别是在需要在短时间内完成分割任务的场景下，如虚拟试衣间或实时监控系统。

传统去除噪声语义分割方法主要解决了噪声图像中存在的干扰和噪声对语义分割任务的影响，其核心目标是提高图像分割的精度和准确性。具体来说，传统去除噪声语义分割方法通常采用图像去除噪声技术，如滤波器、小波变换、非局部均值去除噪声（NLM）等，以消除或减弱图像中的噪声，并提取出干净的图像特征用于后续的语义分割任务。这些方法在一定程度上改善了分割结果，增强了模型对图像的理解能力，提高了分割的精度和准确性。但某些编码解码方法可能会导致图像信息的丢失或模糊，特别是在处理复杂噪声时，会影响到图像的细节和边缘信息，从而降低了语义分割的准确性。

公开号为CN112233038B的中国专利公开了“基于多尺度融合及边缘增强的真实图像去噪方法”，在图像输入阶段，为提高模型的泛化能力，设计了数据增强，把输入噪声图的内容随机选取部分像素替换为对应的无噪声图；利用三个不同感受野大小的卷积核，对输入噪声图像进行多层次的平滑处理，得到三个不同尺度的初步平滑结果；利用通道注意力机制对多尺度的编码解码结果进行自适应表达，进而融合；通过拉普拉斯算子提取边缘，引入原始噪声图像的边缘及纹理信息，对融合后的平滑图像做一个细节增强，提升视觉效果；但是对于服装图像分割而言，无法适合分割场景，且无法提高分割的准确性。

发明内容

针对现有技术的以上缺陷或者改进需求，本发明提供了基于编解码器的服装语义分割方法，其目的在于通过编码解码算法解析的服装图片中的服装信息，提高对图像中服装信息分割的准确度。

为了实现上述目的，本发明采用了如下技术方案：

本发明第一方面提供了基于编解码器的服装语义分割方法，所述方法包括以下步骤：

S1：设计适用于解析噪声服装图像的编码解码服装图像语义分割模型；所述编码解码服装图像语义分割模型包括交互编码模块、交互解码模块、交互瓶颈层模块和交叉注意力模块，具体步骤包括：

S11：将图像送入交互编码模块来提取和表示图像中的特征信息；

S12：将交互编码模块提取的特征信息送入交互瓶颈层模块并输出特征信息；

S13：将交互瓶颈层模块输出的特征信息送入交互解码模块并输出特征信息；

S14：将交互编码模块提取的特征信息和交互瓶颈层模块输出的特征信息送到交叉注意力模块，将交叉注意力模块输出结果送入交互解码模块；

S15：交互解码模块输出特征信息，得出最终预测结果；

S2：训练设计好的编码解码服装图像语义分割模型，得到训练好的编码解码服装语义分割模型；

S3：使用训练好的编码解码服装图像语义分割模型来解析噪声服装图像，生成像素级的预测图像。

作为本申请的一实施例，所述步骤S11中交互编码模块包括3个金字塔多层感知器单元和3个残差卷积注意力块，具体步骤包括：

S111：将图像输入到金字塔多层感知器单元，将输入的图像进行上采样2倍和下采样2倍，将三个分支都经过多层感知器头，再将三个分支输出结果进行特征融合得到特征融合后的特征图；

S112：然后将特征融合后的特征图送入残差卷积注意力块，先经过一个卷积层，再经过激活函数，再经过一个卷积层，再经过通道注意力，将特征融合后的特征图和经过通道注意力的特征图进行残差连接；

S113：将金字塔多层感知器单元和残差卷积注意力块再重复两次并输出结果。

作为本申请的一实施例，所述步骤S12中交互瓶颈层模块包括1个金字塔多层感知器单元和1个残差卷积注意力块，具体步骤包括：

S121：将所述交互编码器模块输出的特征信息输入到金字塔多层感知器单元，将输入的特征信息进行上采样2倍和下采样2倍，将三个分支都经过多层感知器头，再将三个分支输出结果进行特征融合得到特征融合后的特征图；

S122：然后将所述特征融合后的特征图送入残差卷积注意力块，先经过一个卷积层，再经过激活函数，再经过一个卷积层，再经过通道注意力，将特征融合后的特征图和经过通道注意力的特征图进行残差连接并输出结果。

作为本申请的一实施例，所述步骤S13中交互解码模块包括3个金字塔多层感知器单元和3个残差卷积注意力块，具体步骤包括：

S131：将所述交互瓶颈层模块输出的特征信息输入到金字塔多层感知器单元，将输入的图像进行上采样2倍和下采样2倍，将三个分支都经过多层感知器头，再将三个分支输出结果进行特征融合得到特征融合后的特征图；

S132：然后将所述特征融合后的特征图送入残差卷积注意力块，先经过一个卷积层，再经过激活函数，再经过一个卷积层，再经过通道注意力，将特征融合后的特征图和经过通道注意力的特征图进行残差连接；

S133：将金字塔多层感知器单元和残差卷积注意力块再重复两次并输出结果。

作为本申请的一实施例，所述步骤S14中交叉注意力模块帮助不同模块之间进行特征交互，具体步骤包括：

S141：交叉注意力模块接收交互编码模块和交互瓶颈层模块结果作为输入，分别为特征向量A和特征向量B；

S142：对特征向量A和特征向量B分别进行三个线性变换，将它们映射到不同的表示空间；

S143：通过计算特征向量A和特征向量B之间的相似度，得到一个相似度矩阵；利用相似度矩阵计算注意力权重，用于对特征向量B进行加权求和，将特征向量B与注意力权重相乘，得到对特征向量B的加权融合表示，将特征融合后的表示作为交叉注意力模块的输出，最后输出分割结果并送入交互解码模块。

作为本申请的一实施例，所述步骤2中使用交互编码模块损失函数、交互瓶颈层模块损失函数/>、注意力模块损失函数/>和交叉注意力模块损失函数/>对编码解码服装语义分割模型进行训练，所述交互编码模块损失函数/>、交互瓶颈层模块损失函数、注意力模块损失函数/>和交叉注意力模块损失函数/>组合形成一个总体损失函数/>，其计算公式如下：

其中，是权衡各损失项的超参数。

作为本申请的一实施例，所述交互编码模块损失函数计算公式如下：

其中，表示图像中像素的总数，/>表示类别的数量，/>表示真实标签中第/>个像素的第/>个类别的值，/>表示交互编码模块输出的第/>个像素的第/>个类别的预测概率。

作为本申请的一实施例，所述交互瓶颈层模块损失函数计算公式如下：

其中，表示输入图像，/>表示交互瓶颈层模块输出的特征表示。

作为本申请的一实施例，所述注意力模块损失函数计算公式如下：

其中，表示输入图像，/>表示交互解码模块输出的特征表。

作为本申请的一实施例，所述交叉注意力模块损失函数计算公式如下：

其中，表示交叉注意力模块输出的特征表示，/>表示对抗网络判别器，用于区分真实特征与生成特征。

本发明的有益效果为：

（1）本发明首先通过交互编码模块、交互解码模块和交互瓶颈层模块来进行全局交互，再通过交叉注意力模块来进行局部交互，提高模型对图像中服装信息分割的准确率；

（2）本发明通过使用创新的损失函数对编码解码服装图像语义分割模型进行训练，使模型训练的更加缓和噪声区域，同时训练效果更好，更加符合服装图像场景；

（3）本发明通过加载预先训练好的编码解码服装图像语义分割模型，对待解析的服装图片进行图像预处理和模型推理，生成像素级的语义分割预测，生成标注图片的方法大大节省了人工成本，对于后续虚拟试衣等技术提供高质量的标注图片。

附图说明

图1为本发明实施例中提供的基于编解码器的服装语义分割方法的技术方案流程图；

图2为本发明实施例中提供的基于编解码器的服装语义分割方法的交互瓶颈层模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示（诸如上、下、左、右、前、后……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，全文中出现的“和/或”的含义，包括三个并列的方案，以“A和/或B”为例，包括A方案、或B方案、或A和B同时满足的方案。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

实施例

参照图1至图2，本发明第一方面提供了基于编解码器的服装语义分割方法，所述方法包括以下步骤：

S14：将交互编码模块提取的特征信息和交互瓶颈层模块输出的特征信息送到交叉注意力模块并输出特征信息，将交叉注意力模块输出的特征信息送入交互解码模块；

S15：交互解码模块输出特征信息，得出最终预测结果，即分割后的图像；

S3：使用训练好的编码解码服装图像语义分割模型来解析噪声服装图像，生成像素级的预测图像，后续对模型输出进行必要的后处理，最终可选择可视化或保存分割结果，以获得对服装图像的精细语义分割。

本发明通过加载预先训练好的编码解码服装图像语义分割模型，对待解析的服装图片进行图像预处理和模型推理，最后生成像素级的语义分割预测，生成标注图片的方法大大节省了人工成本，对于后续虚拟试衣等技术提供高质量的标注图片。

作为本申请的一实施例，所述步骤S11中交互编码模块包括3个金字塔多层感知器单元和3个残差卷积注意力块，其具体步骤包括：

S111：将图像输入到金字塔多层感知器单元，将输入的图像进行上采样2倍和下采样2倍，所述上采样2倍和下采样2倍是将特征信息即特征图放大两倍和缩小两倍，将三个分支都经过多层感知器头，再将三个分支的输出结果进行特征融合得到特征融合后的特征图；

S112：然后将特征融合后的特征图送入残差卷积注意力块，先经过一个卷积层，再经过激活函数，再经过一个卷积层，最后再经过通道注意力；为了防止信息丢失和梯度消失，将特征融合后的特征图和经过通道注意力的特征图进行残差连接。

具体的，所述交互编码模块通常由多个堆叠的编码块组成，用于提取输入图像的特征，且具有全局感受野，所述交互编码模块负责从输入图像中提取特征表示，主要目的是捕捉输入图像中的上下文信息，并将其编码为更高级别的特征表示。

作为本申请的一实施例，所述步骤S12中交互瓶颈层模块包括1个金字塔多层感知器单元和1个残差卷积注意力块，其具体步骤包括：

S121：将所述交互编码模块输出的特征信息输入到金字塔多层感知器单元，将输入的特征信息进行上采样2倍和下采样2倍，所述上采样2倍和下采样2倍是将特征信息即特征图放大两倍和缩小两倍，所述将三个分支都经过多层感知器头，再将三个分支输出结果特征融合得到特征融合后的特征图；

S122：然后将特征融合后的特征图送入残差卷积注意力块，先经过一个卷积层，再经过激活函数，再经过一个卷积层，再经过通道注意力；为了防止信息丢失和梯度消失，将特征融合后的特征图和经过通道注意力的特征图进行残差连接并输出结果。

具体的，所述交互瓶颈层模块位于交互编码模块和交互解码模块之间，具有类似于UNet结构的层次结构，通常由多个堆叠的瓶颈块组成；其主要作用是允许网络进行跨特征条件建模，通过交叉注意力，将来自交互编码模块的特征与来自交互解码模块的特征进行交互，用于减少参数量；这种跨特征条件建模有助于更好地捕捉图像中的不同尺度和语义信息。

S131：将所述交互瓶颈层模块输出的特征图输入到金字塔多层感知器单元，将输入的图像上采样2倍和下采样2倍，所述上采样2倍和下采样2倍是将特征信息即特征图放大两倍和缩小两倍，将三个分支都经过多层感知器头，再将三个分支输出结果进行特征融合得到特征融合后的特征图；

S132：然后将特征融合后的特征图送入残差卷积注意力块，先经过一个卷积层，再经过激活函数，再经过一个卷积层，最后再经过通道注意力；为了防止信息丢失和梯度消失，将特征融合后的特征图和经过通道注意力的特征图进行残差连接；

S133：将金字塔多层感知器单元和残差卷积注意力块再重复两次，且在最后一个金字塔多层感知器单元和残差卷积注意力块时将所述交叉注意力模块输出的特征图输入并输出结果即分割后的图像。

具体的，所述交互解码模块通常由多个堆叠的解码块组成，负责将经过交互编码模块和交互瓶颈层处理的特征重新映射到图像空间，以生成最终的输出，且具有全局感受野；所述交互解码模块利用交互编码模块和交互瓶颈层模块中提取的特征表示，通过逆向的操作逐步恢复图像的细节和结构。

本发明通过交互编码模块用于提取输入图像的特征表示，交互瓶颈层模块用于跨特征条件建模和信息交互，而交互解码模块用于恢复图像的细节和结构。尽管它们的步骤相似，但它们在网络中的位置和功能使它们具有不同的作用，进一步提高模型的准确率。

S141：交叉注意力模块接收所述交互编码模块和交互瓶颈层模块的结果作为输入，分别为特征向量A和特征向量B；

S142：对所述特征向量A和特征向量B分别进行三个线性变换，将它们映射到不同的表示空间；

S143：通过计算所述特征向量A和特征向量B之间的相似度，得到一个相似度矩阵；利用相似度矩阵计算注意力权重，用于对特征向量B进行加权求和，将特征向量B与注意力权重相乘，得到对特征向量B的加权融合表示，将特征融合后的表示作为交叉注意力模块的输出，最后输出分割结果并送入交互解码模块。

具体的，本发明通过所述交互编码模块、交互瓶颈层模块和交互解码模块来进行全局交互，所述交叉注意力模块可以帮助不同模块之间进行有效的特征交互，从而提高对图像各个部分的语义理解和分割准确性，进而提高了模型的准确率。

其中，是权衡各损失项的超参数。

其中，表示输入图像，/>表示交互解码模块输出的特征表。

具体的，使用上述损失函数对编码解码服装图像语义分割模型进行训练，可以使模型训练的更加缓和噪声区域，同时训练效果更好，更加符合服装图像场景。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.基于编解码器的服装语义分割方法，其特征在于，所述方法包括以下步骤：

S15：交互解码模块输出特征信息，得出最终预测结果；

2.根据权利要求1所述的基于编解码器的服装语义分割方法，其特征在于，所述步骤S11中交互编码模块包括3个金字塔多层感知器单元和3个残差卷积注意力块，具体步骤包括：

3.根据权利要求1所述的基于编解码器的服装语义分割方法，其特征在于，所述步骤S12中交互瓶颈层模块包括1个金字塔多层感知器单元和1个残差卷积注意力块，具体步骤包括：

4.根据权利要求1所述的基于编解码器的服装语义分割方法，其特征在于，所述步骤S13中交互解码模块包括3个金字塔多层感知器单元和3个残差卷积注意力块，具体步骤包括：

S131：将所述交互瓶颈层输出的特征信息输入到金字塔多层感知器单元，将输入的特征信息进行上采样2倍和下采样2倍，将三个分支都经过多层感知器头，再将三个分支输出结果进行特征融合得到特征融合后的特征图；

5.根据权利要求1所述的基于编解码器的服装语义分割方法，其特征在于，所述步骤S14中交叉注意力模块帮助不同模块之间进行特征交互，具体步骤包括：

S141：交叉注意力模块接收所述交互编码模块和交互瓶颈层模块结果作为输入，分别为特征向量A和特征向量B；

6.根据权利要求1所述的基于编解码器的服装语义分割方法，其特征在于，所述步骤S2中使用交互编码模块损失函数、交互瓶颈层模块损失函数/>、注意力模块损失函数和交叉注意力模块损失函数/>对编码解码服装语义分割模型进行训练，所述交互编码模块损失函数/>、交互瓶颈层模块损失函数/>、注意力模块损失函数/>和交叉注意力模块损失函数/>组合形成一个总体损失函数/>，其计算公式如下：

其中，是权衡各损失项的超参数。

7.根据权利要求6所述的基于编解码器的服装语义分割方法，其特征在于，所述交互编码模块损失函数计算公式如下：

8.根据权利要求6所述的基于编解码器的服装语义分割方法，其特征在于，所述交互瓶颈层模块损失函数计算公式如下：

9.根据权利要求6所述的基于编解码器的服装语义分割方法，其特征在于，所述注意力模块损失函数计算公式如下：

其中，表示输入图像，/>表示交互解码模块输出的特征表。

10.根据权利要求6所述的基于编解码器的服装语义分割方法，其特征在于，所述交叉注意力模块损失函数计算公式如下：/>