CN113192073A

CN113192073A - 基于交叉融合网络的服装语义分割方法

Info

Publication number: CN113192073A
Application number: CN202110368207.4A
Authority: CN
Inventors: 周武杰; 徐高; 叶绿; 雷景生; 万健; 甘兴利; 钱小鸿; 许彩娥; 强芳芳
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2021-07-30

Abstract

本发明公开了一种基于交叉融合网络的服装语义分割方法。本发明包括训练阶段和测试阶段两个过程；训练阶段：1_1选取Q幅原始服装场景图像及对应的深度图像和真实语义分割图像，并构成训练集；1_2构建卷积神经网络；1_3将训练集进行数据增强，获得初始输入图像，将初始输入图像输入到卷积神经网络中进行训练，得到对应的语义分割预测图；1_4计算语义分割预测图与对应的真实语义分割图像之间的损失函数值；1_5重复执行1_3和1_4，获得卷积神经网络分类训练模型；测试阶段：2将待语义分割的服装场景图像和对应的深度图像输入到卷积神经网络分类训练模型中，获得对应的预测语义分割图像。本发明提高了RGB‑D服装图像的语义分割效率和准确度。

Description

基于交叉融合网络的服装语义分割方法

技术领域

本发明涉及了一种深度学习的语义分割方法，尤其是涉及一种基于交叉融合网络的服装语义分割方法。

背景技术

人工智能领域的迅速发展，使得语义分割在服装领域中有着越来越多的应用，从服装解析和自动产品标签到虚拟试衣都可借由语义分割技术实现。目前，最常用的语义分割方法包括支持向量机、随机森林等算法。这些算法主要集中在二分类任务上，用于检测和识别特定物体，如夹克、裙子等。这些传统的机器学习方法往往需要通过高复杂度的特征来实现，而使用深度学习来对服装场景进行语义分割简单方便，更重要的是，深度学习的应用极大地提高了图像像素级分类任务的精度。

采用深度学习的语义分割方法，直接进行像素级别端到端(End-to-End)的语义分割，其只需要将训练集中的图像输入进模型框架中训练，得到权重与模型，即可在测试集进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征，并且可以学习到多个层次的特征。目前，基于深度学习语义分割的方法分为两种，第一种是编码-译码架构。编码过程通过池化层逐渐减少位置信息、抽取抽象特征；译码过程逐渐恢复位置信息。一般译码与编码间有直接的连接。第二种架构是带孔卷积(Dilated Convolutions)，抛弃了池化层，通过带孔卷积的方式扩大感知域，较小值的带孔卷积感知域较小，学习到一些部分具体的特征；较大值的带孔卷积层具有较大的感知域，能够学习到更加抽象的特征，这些抽象的特征对物体的大小、位置和方向等鲁棒性更好。

现有的服装语义分割方法大多采用深度学习的方法，利用卷积层与池化层相结合的模型较多，然而单纯利用池化操作与卷积操作获得的特征图单一且不具有代表性，从而会导致得到的图像的特征信息减少，最终导致还原的效果信息比较粗糙，分割精度低。

发明内容

为了背景技术中提到的技术问题，本发明提供了一种基于交叉融合网络的服装语义分割方法，其分割效率高，且分割准确度高。

本发明解决上述技术问题所采用的技术方案为：

本发明包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取Q幅原始服装场景图像及每幅原始服装场景图像对应的深度图像和真实语义分割图像，并构成训练集；

步骤1_2：构建卷积神经网络；

步骤1_3：将训练集中每幅原始服装场景图像和对应深度图像分别进行数据增强，获得数据增强后的原始服装场景图像和对应深度图像并作为初始输入图像，将初始输入图像输入到卷积神经网络中进行训练，得到训练集中的每幅原始服装场景图像对应的语义分割预测图；

步骤1_4：计算语义分割预测图与对应的真实语义分割图像之间的损失函数值；

步骤1_5：重复执行步骤1_3和步骤1_4共V次，损失函数值降至最小，获得卷积神经网络分类训练模型；

所述的测试阶段过程的具体步骤为：

步骤2：将待语义分割的服装场景图像和对应的深度图像输入到卷积神经网络分类训练模型中，获得对应的预测语义分割图像。

所述卷积神经网络包括编码阶段和解码阶段；编码阶段和解码阶段相连；

编码阶段包括RGB图像输入层、深度图像输入层、10个卷积块、5个交叉融合模块和空洞空间卷积池化金字塔模块，RGB图像输入层依次经第一卷积块、第二卷积块、第三卷积块、第四卷积块和第五卷积块后与第五交叉融合模块相连，深度图像输入层依次经第六卷积块、第七卷积块、第八卷积块、第九卷积块和第十卷积块后与第五交叉融合模块相连；

第一卷积块的输出分别输入到第一交叉融合模块和第二交叉融合模块的第一输入端，第二卷积块的输出分别输入到第一交叉融合模块和第二交叉融合模块的第二输入端，第六卷积块的输出分别输入到第一交叉融合模块和第二交叉融合模块的第三输入端，第七卷积块的输出分别输入到第一交叉融合模块和第二交叉融合模块的第四输入端，第三卷积块的输出分别输入到第三交叉融合模块和第四交叉融合模块的第一输入端，第四卷积块的输出分别输入到第三交叉融合模块和第四交叉融合模块的第二输入端，第八卷积块的输出分别输入到第三交叉融合模块和第四交叉融合模块的第三输入端，第九卷积块的输出分别输入到第三交叉融合模块和第四交叉融合模块的第四输入端，第五交叉融合模块与空洞空间卷积池化金字塔模块相连，第一交叉融合模块和第二交叉融合模块的输出进行连接操作后的输出作为第一交叉融合输出，第三交叉融合模块和第四交叉融合模块的输出进行连接操作后的输出作为第二交叉融合输出，空洞空间卷积池化金字塔模块的输出、第一交叉融合输出和第二交叉融合输出分别输入到解码阶段；

所述解码阶段包括第一卷积解码模块、第二卷积解码模块和第三卷积解码模块；空洞空间卷积池化金字塔模块的输出输入到第一卷积解码模块，第一卷积解码模块的输出和第二交叉融合输出进行连接操作后的输出输入到第二卷积解码模块，第二卷积解码模块的输出和第一交叉融合输出进行连接操作后的输出输入到第三卷积解码模块；

第十卷积块的输出作为卷积神经网络的第一输出，第一卷积解码模块的输出作为卷积神经网络的第二输出，第二卷积解码模块的输出作为卷积神经网络的第三输出，第三卷积解码模块的输出作为卷积神经网络的第四输出。

所述5个交叉融合模块结构相同，具体为：

包括4个特征增强模块；交叉融合模块的第一输入端分别与第一特征增强模块和第二特征增强模块的第一输入端相连，交叉融合模块的第二输入端分别与第一特征增强模块和第二特征增强模块的第二输入端相连，交叉融合模块的第三输入端分别与第三特征增强模块和第四特征增强模块的第一输入端相连，交叉融合模块的第四输入端分别与第三特征增强模块和第四特征增强模块的第二输入端相连；第一特征增强模块的输出和第三特征增强模块的输出进行相乘后的输出作为第一特征增强输出，交叉融合模块的第一输入端的输入、第一特征增强模块的输出、第一特征增强输出和第三特征增强模块的输出进行相加后的输出作为第二特征增强输出；

第二特征增强模块的输出和第四特征增强模块的输出进行相乘后的输出作为第三特征增强输出，交叉融合模块的第二输入端的输入、第二特征增强模块的输出、第三特征增强输出和第四特征增强模块的输出进行相加后的输出作为第四特征增强输出；第二特征增强输出和第四特征增强输出进行按通道相加后的输出作为交叉融合模块的输出。

所述4个特征增强模块结构相同，具体为：

包括5个卷积模块、第一通道注意力模块、第二通道注意力模块、第一空间注意力模块、第二空间注意力模块和第一激活层；特征增强模块的第一输入端与第一卷积模块相连，第一卷积模块的输出与特征增强模块第一输入端的输入进行相加后的输出输入到第二卷积模块，第二卷积模块与第一通道注意力模块相连，第一通道注意力模块的输出与特征增强模块第一输入端的输入进行相乘后的输出作为第一通道特征输出，第一通道特征输出输入到第一空间注意力模块，第一通道特征输出和第一空间注意力模块的输出经相乘后的输出作为第一空间特征输出；

特征增强模块的第二输入端与第三卷积模块相连，第三卷积模块的输出与特征增强模块第二输入端的输入进行相加后的输出输入到第四卷积模块，第四卷积模块与第二通道注意力模块相连，第二通道注意力模块的输出与特征增强模块第二输入端的输入进行相乘后的输出作为第二通道特征输出，第二通道特征输出输入到第二空间注意力模块，第二通道特征输出和第二空间注意力模块的输出经相乘后的输出作为第二空间特征输出；第二卷积模块的输出、第四卷积模块的输出、第一空间特征输出和第二空间特征输出进行相加后输入到第五卷积模块，第五卷积模块与第一激活层相连，第一激活层的输出作为特征增强模块的输出。

第一卷积解码模块、第二卷积解码模块和第三卷积解码模块结构相同，具体为：

每个卷积解码模块包括三个卷积模块、转置卷积层和第二激活层；卷积解码模块的输入输入到第六卷积模块，第六卷积模块依次经第七卷积模块、第八卷积模块和转置卷积层后与第二激活层相连，第二激活层的输出作为卷积解码模块的输出。

所述第一卷积块和第六卷积块结构相同，均主要由第九卷积层、第一批归一化层和第三激活层依次连接组成；第二卷积块和第七卷积块结构相同，具体为：均主要由最大池化层和3个残差单元依次连接组成；第三卷积块和第八卷积块结构相同，具体为：均主要由4个残差单元依次连接组成；第四卷积块和第九卷积块结构相同，具体为：均主要由6个残差单元依次连接组成；第五卷积块和第十卷积块结构相同，具体为：均主要由3个残差单元依次连接组成。

所述每个卷积模块结构相同，均主要由第六卷积层、第七批归一化层和第八激活层依次连接组成，卷积模块的输入输入到第六卷积层，第八激活层的输出作为卷积模块的输出。

每个所述残差单元结构相同，残差单元包括第十卷积层、第十一卷积层、第二批归一化层、第三批归一化层、第四激活层和第五激活层；

残差单元的输入输入到第十卷积层，第十卷积层依次经第二批归一化层、第四激活层和第十一卷积层后与第三批归一化层相连，第三批归一化层的输出与残差单元的输入进行相加后输入到第五激活层，第五激活层的输出作为残差单元的输出。

与现有技术相比，本发明的优点在于：

1)本发明方法构建卷积神经网络，使用训练集中的RGB-D服装场景图像输入到卷积神经网络中进行训练，得到卷积神经网络分类训练模型；再将待语义分割的服装场景图像输入到卷积神经网络分类训练模型中，预测得到对应的预测语义分割图像，由于本发明方法在构建卷积神经网络时将网络特征分级成了低中高三部分，并分别在低中部分中将前后两个特征交叉融合，因此能够比较准确地描述服装中各种分类目标，从而有效地提高了服装场景图像的语义分割精确度。

2)本发明方法采用空间注意力和通道注意力串联并含有残差连接使得特征图拥有更丰富的特征细节，减少了细节特征丢失，物体边缘能更好还原。

3)本发明方法在搭建卷积神经网络中的解码阶段中使用了连续的卷积模块来还原更为丰富的语义信息，进而在训练集与测试集上都能得到较好效果。

附图说明

图1为本发明方法的总体实现框图；

图2为编码阶段的交叉融合模块CFRD；

图3为编码阶段的特征增强模块FE；

图4为解码阶段的卷积解码模块CD；

图5为编码阶段的残差单元；

图6a为同一场景的第1幅原始服装场景图像；

图6b为利用本发明方法对图6a所示的原始服装场景图像进行预测，得到的预测语义分割图像；

图7a为同一场景的第2幅原始服装场景图像；

图7b为利用本发明方法对图7a所示的原始服装场景图像进行预测，得到的预测语义分割图像；

图8a为同一场景的第3幅原始服装场景图像；

图8b为利用本发明方法对图8a所示的原始服装场景图像进行预测，得到的预测语义分割图像；

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明包括训练阶段和测试阶段两个过程；

训练阶段过程的具体步骤为：

步骤1_1：选取Q幅原始服装场景图像及每幅原始服装场景图像对应的深度图像(Depth)和真实语义分割图像，并构成训练集；将训练集中的第q幅原始服装场景图像记为{I^q(i,j)}，将训练集中与第q幅原始服装场景图像{I^q(i,j)}对应的真实语义分割图像记为

然后采用独热编码技术(one-hot)将训练集中的每幅原始服装场景图像对应的真实语义分割图像处理成9幅独热编码图像，将真实语义分割图像

处理成的9幅独热编码图像构成的集合记为

其中，原始服装场景图像为RGB彩色图像，Q为正整数，取Q＝42543，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示第q幅原始服装场景图像{I^q(i,j)}的宽度，H表示第q幅原始服装场景图像{I^q(i,j)}的高度，取W＝320、H＝320，I^q(i,j)表示第q幅原始服装场景图像{I^q(i,j)}中坐标位置为(i,j)的像素点的像素值，

表示真实语义分割图像

中坐标位置为(i,j)的像素点的像素值；

步骤1_2：构建卷积神经网络；

如图1所示，卷积神经网络包括编码阶段(Encode)和解码阶段(Decode)，编码阶段和解码阶段分别对图像进行特征提取操作和上采样操作；编码阶段和解码阶段相连；

编码阶段包括RGB图像输入层、深度图像输入层、10个卷积块、5个交叉融合模块(CFRD)和空洞空间卷积池化金字塔模块(ASPP)，RGB图像输入层依次经第一卷积块、第二卷积块、第三卷积块、第四卷积块和第五卷积块后与第五交叉融合模块相连，深度图像输入层依次经第六卷积块、第七卷积块、第八卷积块、第九卷积块和第十卷积块后与第五交叉融合模块相连；

第一卷积块的输出分别输入到第一交叉融合模块和第二交叉融合模块的第一输入端，第二卷积块的输出分别输入到第一交叉融合模块和第二交叉融合模块的第二输入端，第六卷积块的输出分别输入到第一交叉融合模块和第二交叉融合模块的第三输入端，第七卷积块的输出分别输入到第一交叉融合模块和第二交叉融合模块的第四输入端，第三卷积块的输出分别输入到第三交叉融合模块和第四交叉融合模块的第一输入端，第四卷积块的输出分别输入到第三交叉融合模块和第四交叉融合模块的第二输入端，第八卷积块的输出分别输入到第三交叉融合模块和第四交叉融合模块的第三输入端，第九卷积块的输出分别输入到第三交叉融合模块和第四交叉融合模块的第四输入端，第五交叉融合模块与空洞空间卷积池化金字塔模块相连，第一交叉融合模块和第二交叉融合模块的输出进行连接操作后的输出作为第一交叉融合输出，第三交叉融合模块和第四交叉融合模块的输出进行连接操作后的输出作为第二交叉融合输出，空洞空间卷积池化金字塔模块的输出、第一交叉融合输出和第二交叉融合输出分别输入到解码阶段；连接操作具体为将特征图进行横向拼接。

编码阶段中，因包含原始服装场景图像(R、G、B三通道分量的彩色图像)和对应的深度图像(单通道的深度图像)两种不同模态的输入，卷积神经网络分为两支结构相同的编码流分别对输入的原始服装场景图像和深度图像进行编码，编码流包括RGB编码流和Depth编码流，两支编码流都使用了ResNet-34作为主干网络，即后面介绍的5个卷积块。RGB编码流包含5个卷积块，并定义第一卷积块和第二卷积块为第一低级特征块，第三卷积块和第四卷积块为第一中级特征块，第五卷积块为第一高级特征块。Depth编码流包含5个卷积块，并定义第六卷积块和第七卷积块为第二低级特征块，第八卷积块和第九卷积块为第二中级特征块，第十卷积块为第二高级特征块。同时在两支编码流的低级特征块和中级特征块之间还有4个RGB和Depth交叉融合模块(CFRD)，在交叉融合之前对每个输入图像还做了特征增强处理(FE)，高级特征块之间有1个RGB和Depth交叉融合模块，高级特征经过融合之后再经过空洞空间卷积池化金字塔(ASPP)得到高级特征图。其中，两支编码流接收的原始输入图像的宽度都为W、高度都为H。

解码阶段包括第一卷积解码模块(CD)、第二卷积解码模块和第三卷积解码模块；空洞空间卷积池化金字塔模块的输出输入到第一卷积解码模块，第一卷积解码模块的输出和第二交叉融合输出进行按通道相加后的输出输入到第二卷积解码模块，第二卷积解码模块的输出和第一交叉融合输出进行按通道相加后的输出输入到第三卷积解码模块；

第十卷积块的输出作为卷积神经网络的第一输出，第一卷积解码模块的输出作为卷积神经网络的第二输出，第二卷积解码模块的输出作为卷积神经网络的第三输出，第三卷积解码模块的输出作为卷积神经网络的第四输出。在训练时，卷积神经网络的第一输出输出第一语义分割预测图，卷积神经网络的第二输出输出第二语义分割预测图，卷积神经网络的第三输出输出第三语义分割预测图，卷积神经网络的第四输出输出第四语义分割预测图；在预测时，第四语义分割预测图作为预测语义分割图像。

如图2所示，5个交叉融合模块结构相同，具体为：

如图3所示，4个特征增强模块结构相同，具体为：

如图4所示，第一卷积解码模块、第二卷积解码模块和第三卷积解码模块结构相同，具体为：

每个卷积模块结构相同，均主要由第六卷积层、第七批归一化层和第八激活层依次连接组成，卷积模块的输入输入到第六卷积层，第八激活层的输出作为卷积模块的输出。

如图5所示，每个残差单元结构相同，残差单元包括第十卷积层、第十一卷积层、第二批归一化层、第三批归一化层、第四激活层和第五激活层；

第一卷积块和第六卷积块结构相同，主要由第九卷积层、第一批归一化层和第三激活层依次连接组成。第九卷积层采用卷积核(kernel_size)大小为7，步长(stride)为2、边缘填充(padding)为3、卷积核个数为64，经过第一批量归一化层的归一化操作之后再经过第三激活层(激活方式为Relu)输出64幅特征图，将第1和6个卷积块输出64幅特征图构成的集合分别记为

其中每幅特征图的宽度为

高度为

第二卷积块和第七卷积块结构相同，具体为：主要由最大池化层和3个残差单元依次连接组成；最大池化层的池化尺寸(pool_size)为2。残差单元中，第十卷积层和第十一卷积层的卷积核均为3、步长均为1、卷积核个数均为64，第五激活层的激活函数为Relu函数。记第二卷积块和第七卷积块的最终输出分别为

和

其中每幅特征图的宽度为

高度为

第三卷积块和第八卷积块结构相同，具体为：主要由4个残差单元依次连接组成；残差单元中，第十卷积层和第十一卷积层的卷积核均为3、步长均为1，第五激活层的激活函数为Relu函数。第三卷积块和第八卷积块的最终输出通道数为128，记第三卷积块和第八卷积块的最终输出分别为

和

其中每幅特征图的宽度为

高度为

第四卷积块和第九卷积块结构相同，具体为：主要由6个残差单元依次连接组成；第五卷积块和第十卷积块结构相同，具体为：均主要由3个残差单元依次连接组成。第四卷积块、第五卷积块、第九卷积块和第十卷积块相应的参数与第三卷积块和第八卷积块中相应的参数相同。第四卷积块和第九卷积块的最终输出通道数为256，记最终输出分别为

和

每幅特征图的宽度为

高度为

第五卷积块和第十卷积块的最终输出通道数为512，记最终输出分别为

和

每幅特征图的宽度为

高度为

对于第1，2个卷积块和第6，7个卷积块之间的RGB和Depth交叉融合模块。首先分别记第1个卷积块输出的RGB特征图为R1，第6个卷积块输出Depth特征图分别为D1，第2个卷积块输出的RGB特征图为R2，第7个卷积块输出Depth特征图为D2。接着对于深度图的强化模块，D1经过第一卷积层，卷积核为3，步长为1，通道数为64，第一归一化层，第一激活层之后的输出和D1相加再经过第二卷积层，参数与第一卷积相同，第二归一化层，第二激活层并通过第一个通道注意力操作得到输出

然后将原始的D1和

进行相乘操作并通过第一个空间注意力操作得到输出

接着将

与

进行相乘得到对深度信息增强后的输出

同理D2经过第三卷积层，卷积核为3，步长为1，通道数为64，第三归一化层，第三激活层之后的输出和D2相加再经过第四卷积层，参数与第三卷积相同，第四归一化层，第四激活层并通过第二个通道注意力操作得到输出

然后将原始的D2和

进行相乘操作并通过第二个空间注意力操作得到输出

接着将

与

进行相乘得到对深度信息增强后的输出

并最后将经过残差单元的D1和D2，

相加然后经过第五卷积，卷积核为3，步长为1和Sigmoid激活函数操作分别得到宽度为

高度为

的输出

和宽度为

高度为

的输出

需要注意的是，在最后的相加操作时因为特征图大小不一致的原因，在得到输出

时对D2和

进行了双线性插值操作将大小调整为了D1的大小，在得到输出

时对D1和

进行了双线性插值操作将大小调整为了D2的大小。对于RGB图的强化模块，R1，R2，分别和D1，D2一样进行了相同的操作得到输出

和

接着，将

和

相乘得到新的特征图

将

和

相乘得到新的特征图

之后将R1，

相加得到宽度为

高度为

的新特征图P₁ ^out，将R2，

相加并经过卷积核为2，步长为2的转置卷积得到宽度为

高度为

的新特征图

最后将P₁ ^out和

进行连接操作得到交叉融合后的宽度为

高度为

的输出特征图

对于第3，4个卷积块和第8，9个卷积块之间的RGB和Depth交叉融合模块。首先分别记第3个卷积块输出的RGB特征图为R3，第8个卷积块输出Depth特征图分别为D3，第4个卷积块输出的RGB特征图为R4，第9个卷积块输出Depth特征图为D4。接着对于深度图的强化模块，与第6，7个卷积块不同的是因为D3的通道数为128，D4的通道数为256，因此在第3个卷积块的交叉融合模块中，D4在第一卷积时将通道数从256降为了128，在第4个卷积块的交叉融合模块中，D3在第一卷积时将通道数从128升为了256。首先D3经过第一卷积层，卷积核为3，步长为1，通道数为64，第一归一化层，第一激活层之后的输出和D3相加再经过第二卷积层，参数与第一卷积相同，第二归一化层，第二激活层并通过第一个通道注意力操作得到输出

然后将原始的D3和

进行相乘操作并通过第一个空间注意力操作得到输出

接着将

与

进行相乘得到对深度信息增强后的输出

同理D4经过第三卷积层，卷积核为3，步长为1，通道数为64，第三归一化层，第三激活层之后的输出和D4相加再经过第四卷积层，参数与第三卷积相同，第四归一化层，第四激活层并通过第二个通道注意力操作得到输出

然后将原始的D4和

进行相乘操作并通过第二个空间注意力操作得到输出

接着将

与

进行相乘得到对深度信息增强后的输出

并最后将经过残差单元的D3和D4，

高度为

的输出

和宽度为

高度为

的输出

同时需要注意的是，在最后的相加操作时因为特征图大小不一致的原因，在得到输出

时对D4和

进行了双线性插值操作将大小调整为了D3的大小，在得到输出

时对D3和

进行了双线性插值操作将大小调整为了D4的大小。对于RGB图的强化模块，R3，R4，分别和D3，D4一样进行了相同的操作得到输出

和

接着，将

和

相乘得到新的特征图

将

和

相乘得到新的特征图

之后将R3，

相加得到宽度为

高度为

的新特征图

将R4，

相加并经过卷积核为2，步长为2的转置卷积得到宽度为

高度为

的新特征图

最后将

和

进行连接操作得到交叉融合后的宽度为

高度为

的输出特征图

对于第5个和第10个卷积块之间的RGB和Depth融合模块。分别记第5个卷积块输出的RGB为R5，第10个卷积块输出的DepthD5。首先D5经过第一卷积层，卷积核为3，步长为1，通道数为64，第一归一化层，第一激活层之后的输出和D3相加再经过第二卷积层，参数与第一卷积相同，第二归一化层，第二激活层并进行通道注意力操作得到输出

然后将原始的D5和

进行相乘操作并进行空间注意力操作得到输出

接着将

与

进行相乘得到对深度信息增强后的输出

对于RGB图的强化模块，R5一样进行了相同的操作得到输出

接着，将

和

相乘得到新的特征图

之后将R5，

相加得到宽度为

高度为

的新特征图

最后将

进行扩张率分别为12，24，36的空洞空间卷积池化金字塔(ASPP)操作得到语义更加准确，丰富的特征图

在解码阶段，首先将

进行3个卷积核为3，步长为1的卷积操作，第1，2，3个卷积操作后都有批归一化操作和Relu激活函数，接着进行1个卷积核为4，步长为4的转置卷积操作，得到宽度为

高度为

的输出特征图

接着将

和

进行连接操作并进行3个卷积核为3，步长为1的卷积操作，每个卷积操作后都有批归一化操作和Relu激活函数，接着进行1个卷积核为4，步长为4的转置卷积操作，得到宽度为

高度为

的输出特征图

同样的将

和

进行连接操作并进行3个卷积核为3，步长为1的卷积操作，接着进行1个卷积核为3，步长为1，输出通道为类别数的卷积操作得到最终的预测图

且每个卷积操作后都有批归一化操作和Relu激活函数。

步骤1_3：将训练集中每幅原始服装场景图像和对应深度图像分别通过色彩饱和度、明亮度调节、翻转方式进行数据增强，获得数据增强后的原始服装场景图像和对应深度图像并作为初始输入图像，数据增强后的原始服装场景图像输入RGB图像输入层，数据增强后的深度图像输入深度图像输入层，批次大小为6。将初始输入图像输入到卷积神经网络中进行训练，得到训练集中的每幅原始服装场景图像对应的语义分割预测图；语义分割预测图包括第四语义分割预测图、第三语义分割预测图、第二语义分割预测图和第一语义分割预测图；第四语义分割预测图的大小为原始服装场景图像的大小，第四语义分割预测图构成的集合记为Jpre1，此外，为了辅助训练，在训练时卷积神经网络还将

R5分别通过一层卷积核为1，步长为1的卷积输出得到第三语义分割预测图、第二语义分割预测图和第一语义分割预测图，第三语义分割预测图、第二语义分割预测图和第一语义分割预测图构成的集合分别记为Jpre2，Jpre3，Jpre4，大小依次为

步骤1_4：计算语义分割预测图与对应的真实语义分割图像之间的损失函数值；采用交叉熵损失函数(Cross Entropy Loss)分别计算真实语义分割图像

处理成的独热编码图像构成的集合

与第四语义分割预测图、第三语义分割预测图、第二语义分割预测图和第一语义分割预测图构成的集合Jpre1、Jpre2、Jpre3和Jpre4之间的子损失函数值Loss(Jprei，Jtrue)，其中i＝1，2，3，4，对四个子损失函数值求和后再求平均作为损失函数值。其中，真实语义分割图像

处理成独热编码图像之前，真实语义分割图像会先通过最邻近插值(Interpolate)方法将自身图像尺寸调节为对应语义分割预测图的尺寸，即与第三语义分割预测图、第二语义分割预测图和第一语义分割预测图构成的集合Jpre2、Jpre3、Jpre4大小匹配。

步骤1_5：重复执行步骤1_3和步骤1_4共V次，直到卷积神经网络收敛达到饱和，即训练损失值波动很难下降，损失函数值降至最小，将此时得到的卷积神经网络的权值矢量和偏置作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，获得卷积神经网络分类训练模型；在训练期间还取了5297幅服装场景图像和对应深度图像以及相应的真实语义分割图像作为验证集。在本例中，选取V＝40。

测试阶段过程的具体步骤为：

步骤2：将待语义分割的服装场景图像和对应的深度图像输入到卷积神经网络分类训练模型中，获得对应的预测语义分割图像。取5514幅原始服装场景和对应的深度图像作为待语义分割的服装场景图像和对应的深度图像，并构成测试集。令

表示待语义分割的服装场景图像；其中，1≤i'≤W'，1≤j'≤H'，W'表示待语义分割的服装场景图像

的宽度，H'表示待语义分割的服装场景图像

的高度，

表示待语义分割的服装场景图像

中坐标位置为(i',j')的像素点的像素值。测试时没有对待语义分割的服装场景图像和对应的深度图像进行数据增强。

将待语义分割的服装场景图像

的R通道分量、G通道分量和B通道分量及其对应的深度图像输入到卷积神经网络分类训练模型中，并利用最优权值矢量W^best和最优偏置项b^best进行预测，得到待语义分割的服装场景图像

对应的预测语义分割图像，记为

其中，

表示预测语义分割图像

中坐标位置为(i',j')的像素点的像素值。第三卷积解码模块输出预测语义分割图像，预测语义分割图像主要由第四语义分割预测图组成。

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于Python的深度学习库Pytorch搭建卷积神经网络的架构。采用服装场景图像数据库RGB-D Clothing Dataset的测试集来分析利用本发明方法预测得到的服装场景图像(取5514幅服装场景图像)的分割效果如何。这里，利用评估语义分割方法的4个常用客观参量作为评价指标，即类别精确度(Class Acurracy，Acc)、平均类别准确率(MeanClass Acurracy，mAcc)、每个类别分割图像与标签图像交集与并集的比值(Intersectionover Union，IoU)，分割图像与标签图像交集与并集的平均比值(Mean Intersection overUnion，MIoU)来评价预测语义分割图像的分割性能。

利用本发明方法对服装场景图像数据库RGB-D Clothing Dataset测试集中的每幅服装场景图像进行预测，得到每幅服装场景图像对应的预测语义分割图像，反映本发明方法的语义分割效果的类精确度Acc、平均类别准确率mAcc、每个类别分割图像与标签图像交集与并集的比值IoU、分割图像与标签图像交集与并集的平均比值MIoU如表1所列。从表1所列的数据可知，按本发明方法得到的服装场景图像的分割结果是较好的，表明利用本发明方法来获取服装场景图像对应的预测语义分割图像是可行性且有效的。

表1利用本发明方法在测试集上的评测结果

图6a给出了同一场景的第1幅原始服装场景图像；图6b给出了利用本发明方法对图6a所示的原始服装场景图像进行预测，得到的预测语义分割图像；图7a给出了同一场景的第2幅原始服装场景图像；图7b给出了利用本发明方法对图7a所示的原始服装场景图像进行预测，得到的预测语义分割图像；图8a给出了同一场景的第3幅原始服装场景图像；图8b给出了利用本发明方法对图8a所示的原始服装场景图像进行预测，得到的预测语义分割图像；对比图6a和图6b，对比图7a和图7b，对比图8a和图8b，可以看出利用本发明方法得到的预测语义分割图像的分割精度较高。

Claims

1.一种基于交叉融合网络的服装语义分割方法，其特征在于：包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_2：构建卷积神经网络；

所述的测试阶段过程的具体步骤为：

2.根据权利要求1所述的一种基于交叉融合网络的服装语义分割方法，其特征在于：所述卷积神经网络包括编码阶段和解码阶段；编码阶段和解码阶段相连；

3.根据权利要求2所述的一种基于交叉融合网络的服装语义分割方法，其特征在于：所述5个交叉融合模块结构相同，具体为：

4.根据权利要求3所述的一种基于交叉融合网络的服装语义分割方法，其特征在于：所述4个特征增强模块结构相同，具体为：

5.根据权利要求2所述的一种基于交叉融合网络的服装语义分割方法，其特征在于：所述第一卷积解码模块、第二卷积解码模块和第三卷积解码模块结构相同，具体为：

6.根据权利要求2所述的一种基于交叉融合网络的服装语义分割方法，其特征在于：所述第一卷积块和第六卷积块结构相同，均主要由第九卷积层、第一批归一化层和第三激活层依次连接组成；第二卷积块和第七卷积块结构相同，具体为：均主要由最大池化层和3个残差单元依次连接组成；第三卷积块和第八卷积块结构相同，具体为：均主要由4个残差单元依次连接组成；第四卷积块和第九卷积块结构相同，具体为：均主要由6个残差单元依次连接组成；第五卷积块和第十卷积块结构相同，具体为：均主要由3个残差单元依次连接组成。

7.根据权利要求4或5任一所述的一种基于交叉融合网络的服装语义分割方法，其特征在于：每个所述卷积模块结构相同，均主要由第六卷积层、第七批归一化层和第八激活层依次连接组成，卷积模块的输入输入到第六卷积层，第八激活层的输出作为卷积模块的输出。

8.根据权利要求6任一所述的一种基于交叉融合网络的服装语义分割方法，其特征在于：每个所述残差单元结构相同，残差单元包括第十卷积层、第十一卷积层、第二批归一化层、第三批归一化层、第四激活层和第五激活层；