CN113192073A - 基于交叉融合网络的服装语义分割方法 - Google Patents

基于交叉融合网络的服装语义分割方法 Download PDF

Info

Publication number
CN113192073A
CN113192073A CN202110368207.4A CN202110368207A CN113192073A CN 113192073 A CN113192073 A CN 113192073A CN 202110368207 A CN202110368207 A CN 202110368207A CN 113192073 A CN113192073 A CN 113192073A
Authority
CN
China
Prior art keywords
module
output
convolution
input
cross fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110368207.4A
Other languages
English (en)
Inventor
周武杰
徐高
叶绿
雷景生
万健
甘兴利
钱小鸿
许彩娥
强芳芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202110368207.4A priority Critical patent/CN113192073A/zh
Publication of CN113192073A publication Critical patent/CN113192073A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4038Scaling the whole image or part thereof for image mosaicing, i.e. plane images composed of plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于交叉融合网络的服装语义分割方法。本发明包括训练阶段和测试阶段两个过程;训练阶段:1_1选取Q幅原始服装场景图像及对应的深度图像和真实语义分割图像,并构成训练集;1_2构建卷积神经网络;1_3将训练集进行数据增强,获得初始输入图像,将初始输入图像输入到卷积神经网络中进行训练,得到对应的语义分割预测图;1_4计算语义分割预测图与对应的真实语义分割图像之间的损失函数值;1_5重复执行1_3和1_4,获得卷积神经网络分类训练模型;测试阶段:2将待语义分割的服装场景图像和对应的深度图像输入到卷积神经网络分类训练模型中,获得对应的预测语义分割图像。本发明提高了RGB‑D服装图像的语义分割效率和准确度。

Description

基于交叉融合网络的服装语义分割方法
技术领域
本发明涉及了一种深度学习的语义分割方法,尤其是涉及一种基于交叉融合网络的服装语义分割方法。
背景技术
人工智能领域的迅速发展,使得语义分割在服装领域中有着越来越多的应用,从服装解析和自动产品标签到虚拟试衣都可借由语义分割技术实现。目前,最常用的语义分割方法包括支持向量机、随机森林等算法。这些算法主要集中在二分类任务上,用于检测和识别特定物体,如夹克、裙子等。这些传统的机器学习方法往往需要通过高复杂度的特征来实现,而使用深度学习来对服装场景进行语义分割简单方便,更重要的是,深度学习的应用极大地提高了图像像素级分类任务的精度。
采用深度学习的语义分割方法,直接进行像素级别端到端(End-to-End)的语义分割,其只需要将训练集中的图像输入进模型框架中训练,得到权重与模型,即可在测试集进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征。目前,基于深度学习语义分割的方法分为两种,第一种是编码-译码架构。编码过程通过池化层逐渐减少位置信息、抽取抽象特征;译码过程逐渐恢复位置信息。一般译码与编码间有直接的连接。第二种架构是带孔卷积(Dilated Convolutions),抛弃了池化层,通过带孔卷积的方式扩大感知域,较小值的带孔卷积感知域较小,学习到一些部分具体的特征;较大值的带孔卷积层具有较大的感知域,能够学习到更加抽象的特征,这些抽象的特征对物体的大小、位置和方向等鲁棒性更好。
现有的服装语义分割方法大多采用深度学习的方法,利用卷积层与池化层相结合的模型较多,然而单纯利用池化操作与卷积操作获得的特征图单一且不具有代表性,从而会导致得到的图像的特征信息减少,最终导致还原的效果信息比较粗糙,分割精度低。
发明内容
为了背景技术中提到的技术问题,本发明提供了一种基于交叉融合网络的服装语义分割方法,其分割效率高,且分割准确度高。
本发明解决上述技术问题所采用的技术方案为:
本发明包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始服装场景图像及每幅原始服装场景图像对应的深度图像和真实语义分割图像,并构成训练集;
步骤1_2:构建卷积神经网络;
步骤1_3:将训练集中每幅原始服装场景图像和对应深度图像分别进行数据增强,获得数据增强后的原始服装场景图像和对应深度图像并作为初始输入图像,将初始输入图像输入到卷积神经网络中进行训练,得到训练集中的每幅原始服装场景图像对应的语义分割预测图;
步骤1_4:计算语义分割预测图与对应的真实语义分割图像之间的损失函数值;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,损失函数值降至最小,获得卷积神经网络分类训练模型;
所述的测试阶段过程的具体步骤为:
步骤2:将待语义分割的服装场景图像和对应的深度图像输入到卷积神经网络分类训练模型中,获得对应的预测语义分割图像。
所述卷积神经网络包括编码阶段和解码阶段;编码阶段和解码阶段相连;
编码阶段包括RGB图像输入层、深度图像输入层、10个卷积块、5个交叉融合模块和空洞空间卷积池化金字塔模块,RGB图像输入层依次经第一卷积块、第二卷积块、第三卷积块、第四卷积块和第五卷积块后与第五交叉融合模块相连,深度图像输入层依次经第六卷积块、第七卷积块、第八卷积块、第九卷积块和第十卷积块后与第五交叉融合模块相连;
第一卷积块的输出分别输入到第一交叉融合模块和第二交叉融合模块的第一输入端,第二卷积块的输出分别输入到第一交叉融合模块和第二交叉融合模块的第二输入端,第六卷积块的输出分别输入到第一交叉融合模块和第二交叉融合模块的第三输入端,第七卷积块的输出分别输入到第一交叉融合模块和第二交叉融合模块的第四输入端,第三卷积块的输出分别输入到第三交叉融合模块和第四交叉融合模块的第一输入端,第四卷积块的输出分别输入到第三交叉融合模块和第四交叉融合模块的第二输入端,第八卷积块的输出分别输入到第三交叉融合模块和第四交叉融合模块的第三输入端,第九卷积块的输出分别输入到第三交叉融合模块和第四交叉融合模块的第四输入端,第五交叉融合模块与空洞空间卷积池化金字塔模块相连,第一交叉融合模块和第二交叉融合模块的输出进行连接操作后的输出作为第一交叉融合输出,第三交叉融合模块和第四交叉融合模块的输出进行连接操作后的输出作为第二交叉融合输出,空洞空间卷积池化金字塔模块的输出、第一交叉融合输出和第二交叉融合输出分别输入到解码阶段;
所述解码阶段包括第一卷积解码模块、第二卷积解码模块和第三卷积解码模块;空洞空间卷积池化金字塔模块的输出输入到第一卷积解码模块,第一卷积解码模块的输出和第二交叉融合输出进行连接操作后的输出输入到第二卷积解码模块,第二卷积解码模块的输出和第一交叉融合输出进行连接操作后的输出输入到第三卷积解码模块;
第十卷积块的输出作为卷积神经网络的第一输出,第一卷积解码模块的输出作为卷积神经网络的第二输出,第二卷积解码模块的输出作为卷积神经网络的第三输出,第三卷积解码模块的输出作为卷积神经网络的第四输出。
所述5个交叉融合模块结构相同,具体为:
包括4个特征增强模块;交叉融合模块的第一输入端分别与第一特征增强模块和第二特征增强模块的第一输入端相连,交叉融合模块的第二输入端分别与第一特征增强模块和第二特征增强模块的第二输入端相连,交叉融合模块的第三输入端分别与第三特征增强模块和第四特征增强模块的第一输入端相连,交叉融合模块的第四输入端分别与第三特征增强模块和第四特征增强模块的第二输入端相连;第一特征增强模块的输出和第三特征增强模块的输出进行相乘后的输出作为第一特征增强输出,交叉融合模块的第一输入端的输入、第一特征增强模块的输出、第一特征增强输出和第三特征增强模块的输出进行相加后的输出作为第二特征增强输出;
第二特征增强模块的输出和第四特征增强模块的输出进行相乘后的输出作为第三特征增强输出,交叉融合模块的第二输入端的输入、第二特征增强模块的输出、第三特征增强输出和第四特征增强模块的输出进行相加后的输出作为第四特征增强输出;第二特征增强输出和第四特征增强输出进行按通道相加后的输出作为交叉融合模块的输出。
所述4个特征增强模块结构相同,具体为:
包括5个卷积模块、第一通道注意力模块、第二通道注意力模块、第一空间注意力模块、第二空间注意力模块和第一激活层;特征增强模块的第一输入端与第一卷积模块相连,第一卷积模块的输出与特征增强模块第一输入端的输入进行相加后的输出输入到第二卷积模块,第二卷积模块与第一通道注意力模块相连,第一通道注意力模块的输出与特征增强模块第一输入端的输入进行相乘后的输出作为第一通道特征输出,第一通道特征输出输入到第一空间注意力模块,第一通道特征输出和第一空间注意力模块的输出经相乘后的输出作为第一空间特征输出;
特征增强模块的第二输入端与第三卷积模块相连,第三卷积模块的输出与特征增强模块第二输入端的输入进行相加后的输出输入到第四卷积模块,第四卷积模块与第二通道注意力模块相连,第二通道注意力模块的输出与特征增强模块第二输入端的输入进行相乘后的输出作为第二通道特征输出,第二通道特征输出输入到第二空间注意力模块,第二通道特征输出和第二空间注意力模块的输出经相乘后的输出作为第二空间特征输出;第二卷积模块的输出、第四卷积模块的输出、第一空间特征输出和第二空间特征输出进行相加后输入到第五卷积模块,第五卷积模块与第一激活层相连,第一激活层的输出作为特征增强模块的输出。
第一卷积解码模块、第二卷积解码模块和第三卷积解码模块结构相同,具体为:
每个卷积解码模块包括三个卷积模块、转置卷积层和第二激活层;卷积解码模块的输入输入到第六卷积模块,第六卷积模块依次经第七卷积模块、第八卷积模块和转置卷积层后与第二激活层相连,第二激活层的输出作为卷积解码模块的输出。
所述第一卷积块和第六卷积块结构相同,均主要由第九卷积层、第一批归一化层和第三激活层依次连接组成;第二卷积块和第七卷积块结构相同,具体为:均主要由最大池化层和3个残差单元依次连接组成;第三卷积块和第八卷积块结构相同,具体为:均主要由4个残差单元依次连接组成;第四卷积块和第九卷积块结构相同,具体为:均主要由6个残差单元依次连接组成;第五卷积块和第十卷积块结构相同,具体为:均主要由3个残差单元依次连接组成。
所述每个卷积模块结构相同,均主要由第六卷积层、第七批归一化层和第八激活层依次连接组成,卷积模块的输入输入到第六卷积层,第八激活层的输出作为卷积模块的输出。
每个所述残差单元结构相同,残差单元包括第十卷积层、第十一卷积层、第二批归一化层、第三批归一化层、第四激活层和第五激活层;
残差单元的输入输入到第十卷积层,第十卷积层依次经第二批归一化层、第四激活层和第十一卷积层后与第三批归一化层相连,第三批归一化层的输出与残差单元的输入进行相加后输入到第五激活层,第五激活层的输出作为残差单元的输出。
与现有技术相比,本发明的优点在于:
1)本发明方法构建卷积神经网络,使用训练集中的RGB-D服装场景图像输入到卷积神经网络中进行训练,得到卷积神经网络分类训练模型;再将待语义分割的服装场景图像输入到卷积神经网络分类训练模型中,预测得到对应的预测语义分割图像,由于本发明方法在构建卷积神经网络时将网络特征分级成了低中高三部分,并分别在低中部分中将前后两个特征交叉融合,因此能够比较准确地描述服装中各种分类目标,从而有效地提高了服装场景图像的语义分割精确度。
2)本发明方法采用空间注意力和通道注意力串联并含有残差连接使得特征图拥有更丰富的特征细节,减少了细节特征丢失,物体边缘能更好还原。
3)本发明方法在搭建卷积神经网络中的解码阶段中使用了连续的卷积模块来还原更为丰富的语义信息,进而在训练集与测试集上都能得到较好效果。
附图说明
图1为本发明方法的总体实现框图;
图2为编码阶段的交叉融合模块CFRD;
图3为编码阶段的特征增强模块FE;
图4为解码阶段的卷积解码模块CD;
图5为编码阶段的残差单元;
图6a为同一场景的第1幅原始服装场景图像;
图6b为利用本发明方法对图6a所示的原始服装场景图像进行预测,得到的预测语义分割图像;
图7a为同一场景的第2幅原始服装场景图像;
图7b为利用本发明方法对图7a所示的原始服装场景图像进行预测,得到的预测语义分割图像;
图8a为同一场景的第3幅原始服装场景图像;
图8b为利用本发明方法对图8a所示的原始服装场景图像进行预测,得到的预测语义分割图像;
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明包括训练阶段和测试阶段两个过程;
训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始服装场景图像及每幅原始服装场景图像对应的深度图像(Depth)和真实语义分割图像,并构成训练集;将训练集中的第q幅原始服装场景图像记为{Iq(i,j)},将训练集中与第q幅原始服装场景图像{Iq(i,j)}对应的真实语义分割图像记为
Figure BDA0003008294650000061
然后采用独热编码技术(one-hot)将训练集中的每幅原始服装场景图像对应的真实语义分割图像处理成9幅独热编码图像,将真实语义分割图像
Figure BDA0003008294650000062
处理成的9幅独热编码图像构成的集合记为
Figure BDA0003008294650000063
其中,原始服装场景图像为RGB彩色图像,Q为正整数,取Q=42543,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示第q幅原始服装场景图像{Iq(i,j)}的宽度,H表示第q幅原始服装场景图像{Iq(i,j)}的高度,取W=320、H=320,Iq(i,j)表示第q幅原始服装场景图像{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure BDA0003008294650000064
表示真实语义分割图像
Figure BDA0003008294650000065
中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建卷积神经网络;
如图1所示,卷积神经网络包括编码阶段(Encode)和解码阶段(Decode),编码阶段和解码阶段分别对图像进行特征提取操作和上采样操作;编码阶段和解码阶段相连;
编码阶段包括RGB图像输入层、深度图像输入层、10个卷积块、5个交叉融合模块(CFRD)和空洞空间卷积池化金字塔模块(ASPP),RGB图像输入层依次经第一卷积块、第二卷积块、第三卷积块、第四卷积块和第五卷积块后与第五交叉融合模块相连,深度图像输入层依次经第六卷积块、第七卷积块、第八卷积块、第九卷积块和第十卷积块后与第五交叉融合模块相连;
第一卷积块的输出分别输入到第一交叉融合模块和第二交叉融合模块的第一输入端,第二卷积块的输出分别输入到第一交叉融合模块和第二交叉融合模块的第二输入端,第六卷积块的输出分别输入到第一交叉融合模块和第二交叉融合模块的第三输入端,第七卷积块的输出分别输入到第一交叉融合模块和第二交叉融合模块的第四输入端,第三卷积块的输出分别输入到第三交叉融合模块和第四交叉融合模块的第一输入端,第四卷积块的输出分别输入到第三交叉融合模块和第四交叉融合模块的第二输入端,第八卷积块的输出分别输入到第三交叉融合模块和第四交叉融合模块的第三输入端,第九卷积块的输出分别输入到第三交叉融合模块和第四交叉融合模块的第四输入端,第五交叉融合模块与空洞空间卷积池化金字塔模块相连,第一交叉融合模块和第二交叉融合模块的输出进行连接操作后的输出作为第一交叉融合输出,第三交叉融合模块和第四交叉融合模块的输出进行连接操作后的输出作为第二交叉融合输出,空洞空间卷积池化金字塔模块的输出、第一交叉融合输出和第二交叉融合输出分别输入到解码阶段;连接操作具体为将特征图进行横向拼接。
编码阶段中,因包含原始服装场景图像(R、G、B三通道分量的彩色图像)和对应的深度图像(单通道的深度图像)两种不同模态的输入,卷积神经网络分为两支结构相同的编码流分别对输入的原始服装场景图像和深度图像进行编码,编码流包括RGB编码流和Depth编码流,两支编码流都使用了ResNet-34作为主干网络,即后面介绍的5个卷积块。RGB编码流包含5个卷积块,并定义第一卷积块和第二卷积块为第一低级特征块,第三卷积块和第四卷积块为第一中级特征块,第五卷积块为第一高级特征块。Depth编码流包含5个卷积块,并定义第六卷积块和第七卷积块为第二低级特征块,第八卷积块和第九卷积块为第二中级特征块,第十卷积块为第二高级特征块。同时在两支编码流的低级特征块和中级特征块之间还有4个RGB和Depth交叉融合模块(CFRD),在交叉融合之前对每个输入图像还做了特征增强处理(FE),高级特征块之间有1个RGB和Depth交叉融合模块,高级特征经过融合之后再经过空洞空间卷积池化金字塔(ASPP)得到高级特征图。其中,两支编码流接收的原始输入图像的宽度都为W、高度都为H。
解码阶段包括第一卷积解码模块(CD)、第二卷积解码模块和第三卷积解码模块;空洞空间卷积池化金字塔模块的输出输入到第一卷积解码模块,第一卷积解码模块的输出和第二交叉融合输出进行按通道相加后的输出输入到第二卷积解码模块,第二卷积解码模块的输出和第一交叉融合输出进行按通道相加后的输出输入到第三卷积解码模块;
第十卷积块的输出作为卷积神经网络的第一输出,第一卷积解码模块的输出作为卷积神经网络的第二输出,第二卷积解码模块的输出作为卷积神经网络的第三输出,第三卷积解码模块的输出作为卷积神经网络的第四输出。在训练时,卷积神经网络的第一输出输出第一语义分割预测图,卷积神经网络的第二输出输出第二语义分割预测图,卷积神经网络的第三输出输出第三语义分割预测图,卷积神经网络的第四输出输出第四语义分割预测图;在预测时,第四语义分割预测图作为预测语义分割图像。
如图2所示,5个交叉融合模块结构相同,具体为:
包括4个特征增强模块;交叉融合模块的第一输入端分别与第一特征增强模块和第二特征增强模块的第一输入端相连,交叉融合模块的第二输入端分别与第一特征增强模块和第二特征增强模块的第二输入端相连,交叉融合模块的第三输入端分别与第三特征增强模块和第四特征增强模块的第一输入端相连,交叉融合模块的第四输入端分别与第三特征增强模块和第四特征增强模块的第二输入端相连;第一特征增强模块的输出和第三特征增强模块的输出进行相乘后的输出作为第一特征增强输出,交叉融合模块的第一输入端的输入、第一特征增强模块的输出、第一特征增强输出和第三特征增强模块的输出进行相加后的输出作为第二特征增强输出;
第二特征增强模块的输出和第四特征增强模块的输出进行相乘后的输出作为第三特征增强输出,交叉融合模块的第二输入端的输入、第二特征增强模块的输出、第三特征增强输出和第四特征增强模块的输出进行相加后的输出作为第四特征增强输出;第二特征增强输出和第四特征增强输出进行按通道相加后的输出作为交叉融合模块的输出。
如图3所示,4个特征增强模块结构相同,具体为:
包括5个卷积模块、第一通道注意力模块、第二通道注意力模块、第一空间注意力模块、第二空间注意力模块和第一激活层;特征增强模块的第一输入端与第一卷积模块相连,第一卷积模块的输出与特征增强模块第一输入端的输入进行相加后的输出输入到第二卷积模块,第二卷积模块与第一通道注意力模块相连,第一通道注意力模块的输出与特征增强模块第一输入端的输入进行相乘后的输出作为第一通道特征输出,第一通道特征输出输入到第一空间注意力模块,第一通道特征输出和第一空间注意力模块的输出经相乘后的输出作为第一空间特征输出;
特征增强模块的第二输入端与第三卷积模块相连,第三卷积模块的输出与特征增强模块第二输入端的输入进行相加后的输出输入到第四卷积模块,第四卷积模块与第二通道注意力模块相连,第二通道注意力模块的输出与特征增强模块第二输入端的输入进行相乘后的输出作为第二通道特征输出,第二通道特征输出输入到第二空间注意力模块,第二通道特征输出和第二空间注意力模块的输出经相乘后的输出作为第二空间特征输出;第二卷积模块的输出、第四卷积模块的输出、第一空间特征输出和第二空间特征输出进行相加后输入到第五卷积模块,第五卷积模块与第一激活层相连,第一激活层的输出作为特征增强模块的输出。
如图4所示,第一卷积解码模块、第二卷积解码模块和第三卷积解码模块结构相同,具体为:
每个卷积解码模块包括三个卷积模块、转置卷积层和第二激活层;卷积解码模块的输入输入到第六卷积模块,第六卷积模块依次经第七卷积模块、第八卷积模块和转置卷积层后与第二激活层相连,第二激活层的输出作为卷积解码模块的输出。
每个卷积模块结构相同,均主要由第六卷积层、第七批归一化层和第八激活层依次连接组成,卷积模块的输入输入到第六卷积层,第八激活层的输出作为卷积模块的输出。
如图5所示,每个残差单元结构相同,残差单元包括第十卷积层、第十一卷积层、第二批归一化层、第三批归一化层、第四激活层和第五激活层;
残差单元的输入输入到第十卷积层,第十卷积层依次经第二批归一化层、第四激活层和第十一卷积层后与第三批归一化层相连,第三批归一化层的输出与残差单元的输入进行相加后输入到第五激活层,第五激活层的输出作为残差单元的输出。
第一卷积块和第六卷积块结构相同,主要由第九卷积层、第一批归一化层和第三激活层依次连接组成。第九卷积层采用卷积核(kernel_size)大小为7,步长(stride)为2、边缘填充(padding)为3、卷积核个数为64,经过第一批量归一化层的归一化操作之后再经过第三激活层(激活方式为Relu)输出64幅特征图,将第1和6个卷积块输出64幅特征图构成的集合分别记为
Figure BDA0003008294650000091
其中每幅特征图的宽度为
Figure BDA0003008294650000092
高度为
Figure BDA0003008294650000093
第二卷积块和第七卷积块结构相同,具体为:主要由最大池化层和3个残差单元依次连接组成;最大池化层的池化尺寸(pool_size)为2。残差单元中,第十卷积层和第十一卷积层的卷积核均为3、步长均为1、卷积核个数均为64,第五激活层的激活函数为Relu函数。记第二卷积块和第七卷积块的最终输出分别为
Figure BDA0003008294650000094
Figure BDA0003008294650000095
其中每幅特征图的宽度为
Figure BDA0003008294650000096
高度为
Figure BDA0003008294650000097
第三卷积块和第八卷积块结构相同,具体为:主要由4个残差单元依次连接组成;残差单元中,第十卷积层和第十一卷积层的卷积核均为3、步长均为1,第五激活层的激活函数为Relu函数。第三卷积块和第八卷积块的最终输出通道数为128,记第三卷积块和第八卷积块的最终输出分别为
Figure BDA0003008294650000098
Figure BDA0003008294650000099
其中每幅特征图的宽度为
Figure BDA00030082946500000910
高度为
Figure BDA00030082946500000911
第四卷积块和第九卷积块结构相同,具体为:主要由6个残差单元依次连接组成;第五卷积块和第十卷积块结构相同,具体为:均主要由3个残差单元依次连接组成。第四卷积块、第五卷积块、第九卷积块和第十卷积块相应的参数与第三卷积块和第八卷积块中相应的参数相同。第四卷积块和第九卷积块的最终输出通道数为256,记最终输出分别为
Figure BDA0003008294650000101
Figure BDA0003008294650000102
每幅特征图的宽度为
Figure BDA0003008294650000103
高度为
Figure BDA0003008294650000104
第五卷积块和第十卷积块的最终输出通道数为512,记最终输出分别为
Figure BDA0003008294650000105
Figure BDA0003008294650000106
每幅特征图的宽度为
Figure BDA0003008294650000107
高度为
Figure BDA0003008294650000108
对于第1,2个卷积块和第6,7个卷积块之间的RGB和Depth交叉融合模块。首先分别记第1个卷积块输出的RGB特征图为R1,第6个卷积块输出Depth特征图分别为D1,第2个卷积块输出的RGB特征图为R2,第7个卷积块输出Depth特征图为D2。接着对于深度图的强化模块,D1经过第一卷积层,卷积核为3,步长为1,通道数为64,第一归一化层,第一激活层之后的输出和D1相加再经过第二卷积层,参数与第一卷积相同,第二归一化层,第二激活层并通过第一个通道注意力操作得到输出
Figure BDA0003008294650000109
然后将原始的D1和
Figure BDA00030082946500001010
进行相乘操作并通过第一个空间注意力操作得到输出
Figure BDA00030082946500001011
接着将
Figure BDA00030082946500001012
Figure BDA00030082946500001013
进行相乘得到对深度信息增强后的输出
Figure BDA00030082946500001014
同理D2经过第三卷积层,卷积核为3,步长为1,通道数为64,第三归一化层,第三激活层之后的输出和D2相加再经过第四卷积层,参数与第三卷积相同,第四归一化层,第四激活层并通过第二个通道注意力操作得到输出
Figure BDA00030082946500001015
然后将原始的D2和
Figure BDA00030082946500001016
进行相乘操作并通过第二个空间注意力操作得到输出
Figure BDA00030082946500001017
接着将
Figure BDA00030082946500001018
Figure BDA00030082946500001019
进行相乘得到对深度信息增强后的输出
Figure BDA00030082946500001020
并最后将经过残差单元的D1和D2,
Figure BDA00030082946500001021
相加然后经过第五卷积,卷积核为3,步长为1和Sigmoid激活函数操作分别得到宽度为
Figure BDA00030082946500001022
高度为
Figure BDA00030082946500001023
的输出
Figure BDA00030082946500001024
和宽度为
Figure BDA00030082946500001025
高度为
Figure BDA00030082946500001026
的输出
Figure BDA00030082946500001027
需要注意的是,在最后的相加操作时因为特征图大小不一致的原因,在得到输出
Figure BDA00030082946500001028
时对D2和
Figure BDA00030082946500001029
进行了双线性插值操作将大小调整为了D1的大小,在得到输出
Figure BDA00030082946500001030
时对D1和
Figure BDA00030082946500001031
进行了双线性插值操作将大小调整为了D2的大小。对于RGB图的强化模块,R1,R2,分别和D1,D2一样进行了相同的操作得到输出
Figure BDA0003008294650000111
Figure BDA0003008294650000112
接着,将
Figure BDA0003008294650000113
Figure BDA0003008294650000114
相乘得到新的特征图
Figure BDA0003008294650000115
Figure BDA0003008294650000116
Figure BDA0003008294650000117
相乘得到新的特征图
Figure BDA0003008294650000118
之后将R1,
Figure BDA0003008294650000119
相加得到宽度为
Figure BDA00030082946500001110
高度为
Figure BDA00030082946500001111
的新特征图P1 out,将R2,
Figure BDA00030082946500001112
Figure BDA00030082946500001113
相加并经过卷积核为2,步长为2的转置卷积得到宽度为
Figure BDA00030082946500001114
高度为
Figure BDA00030082946500001115
的新特征图
Figure BDA00030082946500001116
最后将P1 out
Figure BDA00030082946500001117
进行连接操作得到交叉融合后的宽度为
Figure BDA00030082946500001118
高度为
Figure BDA00030082946500001119
的输出特征图
Figure BDA00030082946500001120
对于第3,4个卷积块和第8,9个卷积块之间的RGB和Depth交叉融合模块。首先分别记第3个卷积块输出的RGB特征图为R3,第8个卷积块输出Depth特征图分别为D3,第4个卷积块输出的RGB特征图为R4,第9个卷积块输出Depth特征图为D4。接着对于深度图的强化模块,与第6,7个卷积块不同的是因为D3的通道数为128,D4的通道数为256,因此在第3个卷积块的交叉融合模块中,D4在第一卷积时将通道数从256降为了128,在第4个卷积块的交叉融合模块中,D3在第一卷积时将通道数从128升为了256。首先D3经过第一卷积层,卷积核为3,步长为1,通道数为64,第一归一化层,第一激活层之后的输出和D3相加再经过第二卷积层,参数与第一卷积相同,第二归一化层,第二激活层并通过第一个通道注意力操作得到输出
Figure BDA00030082946500001121
然后将原始的D3和
Figure BDA00030082946500001122
进行相乘操作并通过第一个空间注意力操作得到输出
Figure BDA00030082946500001123
接着将
Figure BDA00030082946500001124
Figure BDA00030082946500001125
进行相乘得到对深度信息增强后的输出
Figure BDA00030082946500001126
同理D4经过第三卷积层,卷积核为3,步长为1,通道数为64,第三归一化层,第三激活层之后的输出和D4相加再经过第四卷积层,参数与第三卷积相同,第四归一化层,第四激活层并通过第二个通道注意力操作得到输出
Figure BDA00030082946500001127
然后将原始的D4和
Figure BDA00030082946500001128
进行相乘操作并通过第二个空间注意力操作得到输出
Figure BDA00030082946500001129
接着将
Figure BDA00030082946500001130
Figure BDA00030082946500001131
进行相乘得到对深度信息增强后的输出
Figure BDA00030082946500001132
并最后将经过残差单元的D3和D4,
Figure BDA00030082946500001133
相加然后经过第五卷积,卷积核为3,步长为1和Sigmoid激活函数操作分别得到宽度为
Figure BDA0003008294650000121
高度为
Figure BDA0003008294650000122
的输出
Figure BDA0003008294650000123
和宽度为
Figure BDA0003008294650000124
高度为
Figure BDA0003008294650000125
的输出
Figure BDA0003008294650000126
同时需要注意的是,在最后的相加操作时因为特征图大小不一致的原因,在得到输出
Figure BDA0003008294650000127
时对D4和
Figure BDA0003008294650000128
进行了双线性插值操作将大小调整为了D3的大小,在得到输出
Figure BDA0003008294650000129
时对D3和
Figure BDA00030082946500001210
进行了双线性插值操作将大小调整为了D4的大小。对于RGB图的强化模块,R3,R4,分别和D3,D4一样进行了相同的操作得到输出
Figure BDA00030082946500001211
Figure BDA00030082946500001212
接着,将
Figure BDA00030082946500001213
Figure BDA00030082946500001214
相乘得到新的特征图
Figure BDA00030082946500001215
Figure BDA00030082946500001216
Figure BDA00030082946500001217
相乘得到新的特征图
Figure BDA00030082946500001218
之后将R3,
Figure BDA00030082946500001219
相加得到宽度为
Figure BDA00030082946500001220
高度为
Figure BDA00030082946500001221
的新特征图
Figure BDA00030082946500001222
将R4,
Figure BDA00030082946500001223
相加并经过卷积核为2,步长为2的转置卷积得到宽度为
Figure BDA00030082946500001224
高度为
Figure BDA00030082946500001225
的新特征图
Figure BDA00030082946500001226
最后将
Figure BDA00030082946500001227
Figure BDA00030082946500001228
进行连接操作得到交叉融合后的宽度为
Figure BDA00030082946500001229
高度为
Figure BDA00030082946500001230
的输出特征图
Figure BDA00030082946500001231
对于第5个和第10个卷积块之间的RGB和Depth融合模块。分别记第5个卷积块输出的RGB为R5,第10个卷积块输出的DepthD5。首先D5经过第一卷积层,卷积核为3,步长为1,通道数为64,第一归一化层,第一激活层之后的输出和D3相加再经过第二卷积层,参数与第一卷积相同,第二归一化层,第二激活层并进行通道注意力操作得到输出
Figure BDA00030082946500001232
然后将原始的D5和
Figure BDA00030082946500001233
进行相乘操作并进行空间注意力操作得到输出
Figure BDA00030082946500001234
接着将
Figure BDA00030082946500001235
Figure BDA00030082946500001236
进行相乘得到对深度信息增强后的输出
Figure BDA00030082946500001237
对于RGB图的强化模块,R5一样进行了相同的操作得到输出
Figure BDA00030082946500001238
接着,将
Figure BDA00030082946500001239
Figure BDA00030082946500001240
相乘得到新的特征图
Figure BDA00030082946500001241
之后将R5,
Figure BDA00030082946500001242
Figure BDA00030082946500001243
Figure BDA00030082946500001244
相加得到宽度为
Figure BDA00030082946500001245
高度为
Figure BDA00030082946500001246
的新特征图
Figure BDA00030082946500001247
最后将
Figure BDA00030082946500001248
进行扩张率分别为12,24,36的空洞空间卷积池化金字塔(ASPP)操作得到语义更加准确,丰富的特征图
Figure BDA00030082946500001249
在解码阶段,首先将
Figure BDA00030082946500001250
进行3个卷积核为3,步长为1的卷积操作,第1,2,3个卷积操作后都有批归一化操作和Relu激活函数,接着进行1个卷积核为4,步长为4的转置卷积操作,得到宽度为
Figure BDA0003008294650000131
高度为
Figure BDA0003008294650000132
的输出特征图
Figure BDA0003008294650000133
接着将
Figure BDA0003008294650000134
Figure BDA0003008294650000135
进行连接操作并进行3个卷积核为3,步长为1的卷积操作,每个卷积操作后都有批归一化操作和Relu激活函数,接着进行1个卷积核为4,步长为4的转置卷积操作,得到宽度为
Figure BDA0003008294650000136
高度为
Figure BDA0003008294650000137
的输出特征图
Figure BDA0003008294650000138
同样的将
Figure BDA0003008294650000139
Figure BDA00030082946500001310
进行连接操作并进行3个卷积核为3,步长为1的卷积操作,接着进行1个卷积核为3,步长为1,输出通道为类别数的卷积操作得到最终的预测图
Figure BDA00030082946500001311
且每个卷积操作后都有批归一化操作和Relu激活函数。
步骤1_3:将训练集中每幅原始服装场景图像和对应深度图像分别通过色彩饱和度、明亮度调节、翻转方式进行数据增强,获得数据增强后的原始服装场景图像和对应深度图像并作为初始输入图像,数据增强后的原始服装场景图像输入RGB图像输入层,数据增强后的深度图像输入深度图像输入层,批次大小为6。将初始输入图像输入到卷积神经网络中进行训练,得到训练集中的每幅原始服装场景图像对应的语义分割预测图;语义分割预测图包括第四语义分割预测图、第三语义分割预测图、第二语义分割预测图和第一语义分割预测图;第四语义分割预测图的大小为原始服装场景图像的大小,第四语义分割预测图构成的集合记为Jpre1,此外,为了辅助训练,在训练时卷积神经网络还将
Figure BDA00030082946500001312
R5分别通过一层卷积核为1,步长为1的卷积输出得到第三语义分割预测图、第二语义分割预测图和第一语义分割预测图,第三语义分割预测图、第二语义分割预测图和第一语义分割预测图构成的集合分别记为Jpre2,Jpre3,Jpre4,大小依次为
Figure BDA00030082946500001313
步骤1_4:计算语义分割预测图与对应的真实语义分割图像之间的损失函数值;采用交叉熵损失函数(Cross Entropy Loss)分别计算真实语义分割图像
Figure BDA00030082946500001314
处理成的独热编码图像构成的集合
Figure BDA00030082946500001315
与第四语义分割预测图、第三语义分割预测图、第二语义分割预测图和第一语义分割预测图构成的集合Jpre1、Jpre2、Jpre3和Jpre4之间的子损失函数值Loss(Jprei,Jtrue),其中i=1,2,3,4,对四个子损失函数值求和后再求平均作为损失函数值。其中,真实语义分割图像
Figure BDA0003008294650000141
处理成独热编码图像之前,真实语义分割图像会先通过最邻近插值(Interpolate)方法将自身图像尺寸调节为对应语义分割预测图的尺寸,即与第三语义分割预测图、第二语义分割预测图和第一语义分割预测图构成的集合Jpre2、Jpre3、Jpre4大小匹配。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,直到卷积神经网络收敛达到饱和,即训练损失值波动很难下降,损失函数值降至最小,将此时得到的卷积神经网络的权值矢量和偏置作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,获得卷积神经网络分类训练模型;在训练期间还取了5297幅服装场景图像和对应深度图像以及相应的真实语义分割图像作为验证集。在本例中,选取V=40。
测试阶段过程的具体步骤为:
步骤2:将待语义分割的服装场景图像和对应的深度图像输入到卷积神经网络分类训练模型中,获得对应的预测语义分割图像。取5514幅原始服装场景和对应的深度图像作为待语义分割的服装场景图像和对应的深度图像,并构成测试集。令
Figure BDA0003008294650000142
表示待语义分割的服装场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示待语义分割的服装场景图像
Figure BDA0003008294650000143
的宽度,H'表示待语义分割的服装场景图像
Figure BDA0003008294650000144
的高度,
Figure BDA0003008294650000145
表示待语义分割的服装场景图像
Figure BDA0003008294650000146
中坐标位置为(i',j')的像素点的像素值。测试时没有对待语义分割的服装场景图像和对应的深度图像进行数据增强。
将待语义分割的服装场景图像
Figure BDA0003008294650000147
的R通道分量、G通道分量和B通道分量及其对应的深度图像输入到卷积神经网络分类训练模型中,并利用最优权值矢量Wbest和最优偏置项bbest进行预测,得到待语义分割的服装场景图像
Figure BDA0003008294650000148
对应的预测语义分割图像,记为
Figure BDA0003008294650000149
其中,
Figure BDA00030082946500001410
表示预测语义分割图像
Figure BDA00030082946500001411
中坐标位置为(i',j')的像素点的像素值。第三卷积解码模块输出预测语义分割图像,预测语义分割图像主要由第四语义分割预测图组成。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于Python的深度学习库Pytorch搭建卷积神经网络的架构。采用服装场景图像数据库RGB-D Clothing Dataset的测试集来分析利用本发明方法预测得到的服装场景图像(取5514幅服装场景图像)的分割效果如何。这里,利用评估语义分割方法的4个常用客观参量作为评价指标,即类别精确度(Class Acurracy,Acc)、平均类别准确率(MeanClass Acurracy,mAcc)、每个类别分割图像与标签图像交集与并集的比值(Intersectionover Union,IoU),分割图像与标签图像交集与并集的平均比值(Mean Intersection overUnion,MIoU)来评价预测语义分割图像的分割性能。
利用本发明方法对服装场景图像数据库RGB-D Clothing Dataset测试集中的每幅服装场景图像进行预测,得到每幅服装场景图像对应的预测语义分割图像,反映本发明方法的语义分割效果的类精确度Acc、平均类别准确率mAcc、每个类别分割图像与标签图像交集与并集的比值IoU、分割图像与标签图像交集与并集的平均比值MIoU如表1所列。从表1所列的数据可知,按本发明方法得到的服装场景图像的分割结果是较好的,表明利用本发明方法来获取服装场景图像对应的预测语义分割图像是可行性且有效的。
表1利用本发明方法在测试集上的评测结果
Figure BDA0003008294650000151
图6a给出了同一场景的第1幅原始服装场景图像;图6b给出了利用本发明方法对图6a所示的原始服装场景图像进行预测,得到的预测语义分割图像;图7a给出了同一场景的第2幅原始服装场景图像;图7b给出了利用本发明方法对图7a所示的原始服装场景图像进行预测,得到的预测语义分割图像;图8a给出了同一场景的第3幅原始服装场景图像;图8b给出了利用本发明方法对图8a所示的原始服装场景图像进行预测,得到的预测语义分割图像;对比图6a和图6b,对比图7a和图7b,对比图8a和图8b,可以看出利用本发明方法得到的预测语义分割图像的分割精度较高。

Claims (8)

1.一种基于交叉融合网络的服装语义分割方法,其特征在于:包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始服装场景图像及每幅原始服装场景图像对应的深度图像和真实语义分割图像,并构成训练集;
步骤1_2:构建卷积神经网络;
步骤1_3:将训练集中每幅原始服装场景图像和对应深度图像分别进行数据增强,获得数据增强后的原始服装场景图像和对应深度图像并作为初始输入图像,将初始输入图像输入到卷积神经网络中进行训练,得到训练集中的每幅原始服装场景图像对应的语义分割预测图;
步骤1_4:计算语义分割预测图与对应的真实语义分割图像之间的损失函数值;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,损失函数值降至最小,获得卷积神经网络分类训练模型;
所述的测试阶段过程的具体步骤为:
步骤2:将待语义分割的服装场景图像和对应的深度图像输入到卷积神经网络分类训练模型中,获得对应的预测语义分割图像。
2.根据权利要求1所述的一种基于交叉融合网络的服装语义分割方法,其特征在于:所述卷积神经网络包括编码阶段和解码阶段;编码阶段和解码阶段相连;
编码阶段包括RGB图像输入层、深度图像输入层、10个卷积块、5个交叉融合模块和空洞空间卷积池化金字塔模块,RGB图像输入层依次经第一卷积块、第二卷积块、第三卷积块、第四卷积块和第五卷积块后与第五交叉融合模块相连,深度图像输入层依次经第六卷积块、第七卷积块、第八卷积块、第九卷积块和第十卷积块后与第五交叉融合模块相连;
第一卷积块的输出分别输入到第一交叉融合模块和第二交叉融合模块的第一输入端,第二卷积块的输出分别输入到第一交叉融合模块和第二交叉融合模块的第二输入端,第六卷积块的输出分别输入到第一交叉融合模块和第二交叉融合模块的第三输入端,第七卷积块的输出分别输入到第一交叉融合模块和第二交叉融合模块的第四输入端,第三卷积块的输出分别输入到第三交叉融合模块和第四交叉融合模块的第一输入端,第四卷积块的输出分别输入到第三交叉融合模块和第四交叉融合模块的第二输入端,第八卷积块的输出分别输入到第三交叉融合模块和第四交叉融合模块的第三输入端,第九卷积块的输出分别输入到第三交叉融合模块和第四交叉融合模块的第四输入端,第五交叉融合模块与空洞空间卷积池化金字塔模块相连,第一交叉融合模块和第二交叉融合模块的输出进行连接操作后的输出作为第一交叉融合输出,第三交叉融合模块和第四交叉融合模块的输出进行连接操作后的输出作为第二交叉融合输出,空洞空间卷积池化金字塔模块的输出、第一交叉融合输出和第二交叉融合输出分别输入到解码阶段;
所述解码阶段包括第一卷积解码模块、第二卷积解码模块和第三卷积解码模块;空洞空间卷积池化金字塔模块的输出输入到第一卷积解码模块,第一卷积解码模块的输出和第二交叉融合输出进行连接操作后的输出输入到第二卷积解码模块,第二卷积解码模块的输出和第一交叉融合输出进行连接操作后的输出输入到第三卷积解码模块;
第十卷积块的输出作为卷积神经网络的第一输出,第一卷积解码模块的输出作为卷积神经网络的第二输出,第二卷积解码模块的输出作为卷积神经网络的第三输出,第三卷积解码模块的输出作为卷积神经网络的第四输出。
3.根据权利要求2所述的一种基于交叉融合网络的服装语义分割方法,其特征在于:所述5个交叉融合模块结构相同,具体为:
包括4个特征增强模块;交叉融合模块的第一输入端分别与第一特征增强模块和第二特征增强模块的第一输入端相连,交叉融合模块的第二输入端分别与第一特征增强模块和第二特征增强模块的第二输入端相连,交叉融合模块的第三输入端分别与第三特征增强模块和第四特征增强模块的第一输入端相连,交叉融合模块的第四输入端分别与第三特征增强模块和第四特征增强模块的第二输入端相连;第一特征增强模块的输出和第三特征增强模块的输出进行相乘后的输出作为第一特征增强输出,交叉融合模块的第一输入端的输入、第一特征增强模块的输出、第一特征增强输出和第三特征增强模块的输出进行相加后的输出作为第二特征增强输出;
第二特征增强模块的输出和第四特征增强模块的输出进行相乘后的输出作为第三特征增强输出,交叉融合模块的第二输入端的输入、第二特征增强模块的输出、第三特征增强输出和第四特征增强模块的输出进行相加后的输出作为第四特征增强输出;第二特征增强输出和第四特征增强输出进行按通道相加后的输出作为交叉融合模块的输出。
4.根据权利要求3所述的一种基于交叉融合网络的服装语义分割方法,其特征在于:所述4个特征增强模块结构相同,具体为:
包括5个卷积模块、第一通道注意力模块、第二通道注意力模块、第一空间注意力模块、第二空间注意力模块和第一激活层;特征增强模块的第一输入端与第一卷积模块相连,第一卷积模块的输出与特征增强模块第一输入端的输入进行相加后的输出输入到第二卷积模块,第二卷积模块与第一通道注意力模块相连,第一通道注意力模块的输出与特征增强模块第一输入端的输入进行相乘后的输出作为第一通道特征输出,第一通道特征输出输入到第一空间注意力模块,第一通道特征输出和第一空间注意力模块的输出经相乘后的输出作为第一空间特征输出;
特征增强模块的第二输入端与第三卷积模块相连,第三卷积模块的输出与特征增强模块第二输入端的输入进行相加后的输出输入到第四卷积模块,第四卷积模块与第二通道注意力模块相连,第二通道注意力模块的输出与特征增强模块第二输入端的输入进行相乘后的输出作为第二通道特征输出,第二通道特征输出输入到第二空间注意力模块,第二通道特征输出和第二空间注意力模块的输出经相乘后的输出作为第二空间特征输出;第二卷积模块的输出、第四卷积模块的输出、第一空间特征输出和第二空间特征输出进行相加后输入到第五卷积模块,第五卷积模块与第一激活层相连,第一激活层的输出作为特征增强模块的输出。
5.根据权利要求2所述的一种基于交叉融合网络的服装语义分割方法,其特征在于:所述第一卷积解码模块、第二卷积解码模块和第三卷积解码模块结构相同,具体为:
每个卷积解码模块包括三个卷积模块、转置卷积层和第二激活层;卷积解码模块的输入输入到第六卷积模块,第六卷积模块依次经第七卷积模块、第八卷积模块和转置卷积层后与第二激活层相连,第二激活层的输出作为卷积解码模块的输出。
6.根据权利要求2所述的一种基于交叉融合网络的服装语义分割方法,其特征在于:所述第一卷积块和第六卷积块结构相同,均主要由第九卷积层、第一批归一化层和第三激活层依次连接组成;第二卷积块和第七卷积块结构相同,具体为:均主要由最大池化层和3个残差单元依次连接组成;第三卷积块和第八卷积块结构相同,具体为:均主要由4个残差单元依次连接组成;第四卷积块和第九卷积块结构相同,具体为:均主要由6个残差单元依次连接组成;第五卷积块和第十卷积块结构相同,具体为:均主要由3个残差单元依次连接组成。
7.根据权利要求4或5任一所述的一种基于交叉融合网络的服装语义分割方法,其特征在于:每个所述卷积模块结构相同,均主要由第六卷积层、第七批归一化层和第八激活层依次连接组成,卷积模块的输入输入到第六卷积层,第八激活层的输出作为卷积模块的输出。
8.根据权利要求6任一所述的一种基于交叉融合网络的服装语义分割方法,其特征在于:每个所述残差单元结构相同,残差单元包括第十卷积层、第十一卷积层、第二批归一化层、第三批归一化层、第四激活层和第五激活层;
残差单元的输入输入到第十卷积层,第十卷积层依次经第二批归一化层、第四激活层和第十一卷积层后与第三批归一化层相连,第三批归一化层的输出与残差单元的输入进行相加后输入到第五激活层,第五激活层的输出作为残差单元的输出。
CN202110368207.4A 2021-04-06 2021-04-06 基于交叉融合网络的服装语义分割方法 Withdrawn CN113192073A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110368207.4A CN113192073A (zh) 2021-04-06 2021-04-06 基于交叉融合网络的服装语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110368207.4A CN113192073A (zh) 2021-04-06 2021-04-06 基于交叉融合网络的服装语义分割方法

Publications (1)

Publication Number Publication Date
CN113192073A true CN113192073A (zh) 2021-07-30

Family

ID=76975457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110368207.4A Withdrawn CN113192073A (zh) 2021-04-06 2021-04-06 基于交叉融合网络的服装语义分割方法

Country Status (1)

Country Link
CN (1) CN113192073A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642581A (zh) * 2021-08-12 2021-11-12 福州大学 基于编码多路径语义交叉网络的图像语义分割方法及系统
CN114219811A (zh) * 2021-11-26 2022-03-22 华南理工大学 基于特征金字塔和神经网络的轨道钢表面缺陷分割方法
CN114445442A (zh) * 2022-01-28 2022-05-06 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN114742917A (zh) * 2022-04-25 2022-07-12 桂林电子科技大学 一种基于卷积神经网络的ct图像分割方法
CN116363134A (zh) * 2023-06-01 2023-06-30 深圳海清智元科技股份有限公司 煤与矸石的识别与分割方法、装置及电子设备
CN117409208A (zh) * 2023-12-14 2024-01-16 武汉纺织大学 一种实时服装图像语义分割方法及系统
CN114742917B (zh) * 2022-04-25 2024-04-26 桂林电子科技大学 一种基于卷积神经网络的ct图像分割方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190087726A1 (en) * 2017-08-30 2019-03-21 The Board Of Regents Of The University Of Texas System Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications
CN110176016A (zh) * 2019-05-28 2019-08-27 哈工大新材料智能装备技术研究院(招远)有限公司 一种基于人体轮廓分割与骨骼识别的虚拟试衣方法
CN110175986A (zh) * 2019-04-23 2019-08-27 浙江科技学院 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN110414674A (zh) * 2019-07-31 2019-11-05 浙江科技学院 一种基于残差网络及局部细化的单目深度估计方法
CN110490082A (zh) * 2019-07-23 2019-11-22 浙江科技学院 一种有效融合神经网络特征的道路场景语义分割方法
CN110782462A (zh) * 2019-10-30 2020-02-11 浙江科技学院 一种基于双流特征融合的语义分割方法
CN111563507A (zh) * 2020-04-14 2020-08-21 浙江科技学院 一种基于卷积神经网络的室内场景语义分割方法
CN112508956A (zh) * 2020-11-05 2021-03-16 浙江科技学院 一种基于卷积神经网络的道路场景语义分割方法
CN112529862A (zh) * 2020-12-07 2021-03-19 浙江科技学院 一种交互循环特征重塑的显著性图像检测方法
CN112598675A (zh) * 2020-12-25 2021-04-02 浙江科技学院 基于改进全卷积神经网络的室内场景语义分割方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190087726A1 (en) * 2017-08-30 2019-03-21 The Board Of Regents Of The University Of Texas System Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications
CN110175986A (zh) * 2019-04-23 2019-08-27 浙江科技学院 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN110176016A (zh) * 2019-05-28 2019-08-27 哈工大新材料智能装备技术研究院(招远)有限公司 一种基于人体轮廓分割与骨骼识别的虚拟试衣方法
CN110490082A (zh) * 2019-07-23 2019-11-22 浙江科技学院 一种有效融合神经网络特征的道路场景语义分割方法
CN110414674A (zh) * 2019-07-31 2019-11-05 浙江科技学院 一种基于残差网络及局部细化的单目深度估计方法
CN110782462A (zh) * 2019-10-30 2020-02-11 浙江科技学院 一种基于双流特征融合的语义分割方法
CN111563507A (zh) * 2020-04-14 2020-08-21 浙江科技学院 一种基于卷积神经网络的室内场景语义分割方法
CN112508956A (zh) * 2020-11-05 2021-03-16 浙江科技学院 一种基于卷积神经网络的道路场景语义分割方法
CN112529862A (zh) * 2020-12-07 2021-03-19 浙江科技学院 一种交互循环特征重塑的显著性图像检测方法
CN112598675A (zh) * 2020-12-25 2021-04-02 浙江科技学院 基于改进全卷积神经网络的室内场景语义分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐慧等: "基于深度学习的服装图像语义分析与检索推荐", 《纺织高校基础科学学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642581A (zh) * 2021-08-12 2021-11-12 福州大学 基于编码多路径语义交叉网络的图像语义分割方法及系统
CN113642581B (zh) * 2021-08-12 2023-09-22 福州大学 基于编码多路径语义交叉网络的图像语义分割方法及系统
CN114219811A (zh) * 2021-11-26 2022-03-22 华南理工大学 基于特征金字塔和神经网络的轨道钢表面缺陷分割方法
CN114445442A (zh) * 2022-01-28 2022-05-06 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN114445442B (zh) * 2022-01-28 2022-12-02 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN114742917A (zh) * 2022-04-25 2022-07-12 桂林电子科技大学 一种基于卷积神经网络的ct图像分割方法
CN114742917B (zh) * 2022-04-25 2024-04-26 桂林电子科技大学 一种基于卷积神经网络的ct图像分割方法
CN116363134A (zh) * 2023-06-01 2023-06-30 深圳海清智元科技股份有限公司 煤与矸石的识别与分割方法、装置及电子设备
CN116363134B (zh) * 2023-06-01 2023-09-05 深圳海清智元科技股份有限公司 煤与矸石的识别与分割方法、装置及电子设备
CN117409208A (zh) * 2023-12-14 2024-01-16 武汉纺织大学 一种实时服装图像语义分割方法及系统
CN117409208B (zh) * 2023-12-14 2024-03-08 武汉纺织大学 一种实时服装图像语义分割方法及系统

Similar Documents

Publication Publication Date Title
CN113192073A (zh) 基于交叉融合网络的服装语义分割方法
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN110490082B (zh) 一种有效融合神经网络特征的道路场景语义分割方法
CN110490205B (zh) 基于全残差空洞卷积神经网络的道路场景语义分割方法
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN113269787A (zh) 一种基于门控融合的遥感图像语义分割方法
CN111401436B (zh) 一种融合网络和双通道注意力机制的街景图像分割方法
CN105930402A (zh) 基于卷积神经网络的视频检索方法及系统
CN112150450B (zh) 一种基于双通道U-Net模型的图像篡改检测方法及装置
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN111563418A (zh) 一种基于注意力机制的非对称多模态融合显著性检测方法
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN112070753A (zh) 多尺度信息增强双目卷积神经网络显著性图像检测方法
CN111563507A (zh) 一种基于卷积神经网络的室内场景语义分割方法
CN110782458B (zh) 一种非对称编码网络的物体图像3d语义预测分割方法
Yang et al. Deep feature importance awareness based no-reference image quality prediction
CN110826609A (zh) 一种基于强化学习的双流特征融合图像识别方法
CN111860116B (zh) 一种基于深度学习和特权信息的场景识别方法
CN112529862A (zh) 一种交互循环特征重塑的显著性图像检测方法
CN115908772A (zh) 一种基于Transformer和融合注意力机制的目标检测方法及系统
CN116310305A (zh) 一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型
CN113034506A (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
Wang et al. TF-SOD: a novel transformer framework for salient object detection
CN109446933B (zh) 一种基于卷积神经网络的道路场景语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210730

WW01 Invention patent application withdrawn after publication