CN112488115B - 一种基于two-stream架构的语义分割方法 - Google Patents

一种基于two-stream架构的语义分割方法 Download PDF

Info

Publication number
CN112488115B
CN112488115B CN202011319049.5A CN202011319049A CN112488115B CN 112488115 B CN112488115 B CN 112488115B CN 202011319049 A CN202011319049 A CN 202011319049A CN 112488115 B CN112488115 B CN 112488115B
Authority
CN
China
Prior art keywords
stream
stream structure
denseblock
output
attention module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011319049.5A
Other languages
English (en)
Other versions
CN112488115A (zh
Inventor
尚艳亮
耿鹏
罗俊
吴薇娜
党宏倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shijiazhuang Tiedao University
Shijiazhuang Institute of Railway Technology
Original Assignee
Shijiazhuang Tiedao University
Shijiazhuang Institute of Railway Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shijiazhuang Tiedao University, Shijiazhuang Institute of Railway Technology filed Critical Shijiazhuang Tiedao University
Priority to CN202011319049.5A priority Critical patent/CN112488115B/zh
Publication of CN112488115A publication Critical patent/CN112488115A/zh
Application granted granted Critical
Publication of CN112488115B publication Critical patent/CN112488115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于two‑stream架构的语义分割方法,其包括如下步骤:(1)收集语义分割需要的数据集并完成标注;(2)将经步骤(1)处理后得到的数据集输入two‑stream结构,得到预测结果;所述two‑stream结构包括第一stream结构和第二stream结构,所述第一stream结构和第二stream结构分别从步骤(1)处理后的数据集中获取原特征图。本发明无需下采样和上采样,即特征图一直保留原图尺寸并且需要的参数量少的情况下,同样能得到比较好预测结果。

Description

一种基于two-stream架构的语义分割方法
技术领域
本发明涉及一种基于two-stream架构的语义分割方法。
背景技术
语义分割是计算机视觉的一项重要任务。其可以视为是一种特定的图像处理技术,可用于将图像分为两个或多个有意义的区域。具体来说就是为图像中各个像素分配人为定义的类别标签。
语义分割在如今运用场景十分广泛,如自动驾驶汽车、人机交互、虚拟现实、医学图像分割等等。语义分割分为传统的方法和深度学习的方法。
传统方法有如灰度分割、条件随机场等等。现在随着深度学习时代的来临,传统方法已渐渐被深度学习的方法所代替或作为深度学习方法的一个补充手段。
现如今的深度学习的方法基本上都是基于全卷积网络(FCN)的。在其上做出了各种改进。但总的来说都是一样的原理,即首先对原图进行特征提取,然后将提取到的特征图放大分类。在特征提取阶段会有一系列的卷积以及池化层,池化层用于减少特征图的尺寸(达到减少计算量的效果)以及增大感受野。在特征提取阶段,由于特征图尺寸变小,所以会丢失许多细节,那么在特征图恢复成原图后边缘会变得不那么准确。若是在特征提取阶段不缩小特征图的尺寸,那么计算量会很大并且提取不到具有较大感受野的特征,最后也不能对像素点做到很好的分类。
针对这个问题,有不少人提出了各种解决方案,如提出在上采样过程中融合低层的大分辨率特征图以获得更多的细节信息(FPN)、在能获得较大感受野和较多语义信息的同时还能保持图片较大的分辨率(空洞卷积、ASPP)。另外针对特征图在进行双线性上采样和融合低层特征图的特征不对齐的问题也有人提出了使用语义流来指导图像进行上采样以达到特征对其的目的。
发明内容
针对现有基于深度学习的语义分割都是在将原特征图慢慢缩小然后再放大为原尺寸会出现一些问题,本发明提出一种无需下采样和上采样即特征图一直保留原图尺寸并且需要的参数量少也能得到比较好预测结果的基于two-stream架构的语义分割方法。
本发明采用如下技术方案:
一种基于two-stream架构的语义分割方法,其包括如下步骤:
(1)收集语义分割需要的数据集并完成标注;
(2)将经步骤(1)处理后得到的数据集输入two-stream网络结构,得到预测结果;
所述two-stream网络结构包括第一stream结构和第二stream结构,所述第一stream结构和第二stream结构分别从步骤(1)处理后的数据集中获取原特征图。
其中,所述two-stream网络结构为3*3的卷积。
其中,所述第一stream结构包括依次连接的DenseBlock、Transition layer、DenseBlock、Transition layer和DenseBlock,所述Transition layer由一个3*3的卷积层和一个池化层组成。
其中,所述第二stream结构包括依次连接的门控网络、改进的DenseBlock、门控网络和改进的DenseBlock,所述改进的DenseBlock为仅包含3个卷积块且其输入与输出的通道数相同的DenseBlock。
其中,第一stream结构的DenseBlock的输出首先经过一个1*1卷积降维,然后上采样到原图大小做为第二stream结构中门控网络的输入g;原特征图经3*3卷积后做为门控网络的输入xl,在门控网络之后是第二stream结构中改进的DenseBlock,之后再重复上述操作即再次经过一个门控网络和改进的DenseBlock后得到输出F。
其中,将输出F下采样后与第一stream结构的输出进行融合。
其中,所述融合的具体方法为,首先将输出F输入到通道注意力模块中,之后又接入空间注意力模块,然后将空间注意力模块的结果再次作为引导特征图与F再一次输入到门控网络中,得到的结果经过卷积降维,最后经过一个softmax函数得到最后的预测结果。
其中,所述通道注意力模块为Channel attention module。
其中,所述空间注意力模块采用两个criss-cross attention module串联使用。
其中,在第二stream结构中每个门控网络都再分出一个分支接上一个卷积并通过softmax函数预测出结果side-output。
本发明的有益效果在于:本发明的方法能够使特征图在一直保留原图尺寸的情况下,使用参数量少也能得到比较好语义分割结果。
本发明将通道注意力与空间注意力模块串联使用,更好的融合来自两个分支的特征图。
本发明可应用于各种二维的语义分割场景。如可用于裂缝的检测,行人的检测,医学图像分割。对自动驾驶、人机交互、虚拟现实等都有着重要的意义。
附图说明
图1为本发明的网络结构示意图。
图2为本发明的门控网络示意图。
图3为本发明的通道注意力模块示意图。
图4为criss-cross attention module的结构示意图。
图5为两个criss-cross attention module串联的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述。
一种基于two-stream架构的语义分割方法,其包括如下步骤:
(1)收集语义分割需要的数据集并完成标注;
(2)将经步骤(1)处理后得到的数据集输入two-stream网络结构,得到预测结果。
如图1所示,所述two-stream网络结构为一个3*3的卷积,接着是一个two-stream结构。
第一stream结构用于进行常规的特征提取,其可以是普通的分类网络,用它们来提取丰富的语义信息,如VGG、Resnet。但由于DenseNet提取特征的高效性以及较少的计算量,故选用的特征提取网路是DenseNet,一共用了3个DenseBlock。其提取到的特征图称为引导特征图,因为其主要作用并不是用于直接预测最后的结果,而是用于引导第二条分支的特征图除去噪声。前面的两个DenseBlock后面都接有一个Transition layer,其是由一个3*3的卷积和一个池化层组成。
第二stream结构在整个过程中不对特征图进行池化操作,特征图都维持原尺寸,因此会保留有较为丰富的细节信息。第二个stream首先对前面来的特征图进行一次普通的3*3的卷积。接下来是一个门控网络(Attention Gates),Attention Gates源自AttentionU-Net,具体结构如上图2所示。
第一stream结构的DenseBlock的输出(即引导特征图)首先经过一个1*1的卷积降维,然后上采样到原图大小做为Attention Gates的输入g,而第二个stream来的特征图将做为其输入xl。在Attention Gates之后是一个改进的DenseBlock,只包含3个卷积块,并且其输入与输出的通道数是一样的。之后再重复上述操作即再次经过一个Attention Gates和改进的DenseBlock得到输出F。
接着是将F下采样后与第一个stream的输出进行融合。首先将其通道连接后输入到一个通道注意力模块中,用于融合不同通道之间的相关信息,这里参考的是DANet中的Channel attention module(CAM),结构如图3。之后后面又接入一个空间注意力模块,为了有较少计算量,使用的是CCNet中的criss-cross attention module(如图4所示)作为空间注意力模块,参考CCNet中的配置,使用了两个criss-cross attention module串联使用,结构如图5。
然后将上面融合模块的结果再次作为引导特征图与F再一次输入到AttentionGate中,之后得到的结果先经过一个3*3卷积和一个1*1卷积,最后在经过一个softmax函数就能得到最后的预测结果last-output。
在之前的第二stream结构中每个Attention Gate再都分出一个分支接上一个1*1的卷积和softmax函数预测出结果side-output。
而关于损失函数,一般场景可直接选用crossentropy,而对于特殊的情况如在裂缝分割中会存在前后景像素个数失衡,此时一般可选用Focal Loss、Dice Loss、WeightsCrossEntropy Loss等。在本发明中,使用了深度监督学习,除最后的预测结果last-output外,各side-outputs也都使用了损失函数进行监督,最后总的损失函数就是各个损失函数的加权和。
本发明的整体构思可概括为:基于一种two-stream的架构,在其中一条用于预测的stream中的,特征图一直保有原图尺寸并且具有较少通道数,因此参数量较少。其重点在于通过使用另一条stream的高层特征图引导其去噪以并加强有用的特征表示,因此本身需要的通道数比较少。
本发明的two-stream网络结构数据训练过程和分割原理为:
数据首先会进入tow-stream结构中,在第一stream中,数据会经过一系列的卷积池化层提取到高层特征。而在第二stream中,不存在池化层,其要去噪的特征图会与第一stream提取到的引导特征图一同送入一个门控网络,在门控网络中会得到一个权重得分图,将其与要去噪的特征图相乘,由于噪声得到的权重很小,所以其在第二stream中经过下一个Relu激活函数时不会被激活从而达到去噪的目的,并且重要的特征会因为被分配到较重的权重从而得到加强。就这样取第一个分支网络中多个不同Block输出的引导特征图重复进行这样的去噪操作,第二个分支最后得到的特征图只会含有极少噪声和较为精确的边界。
接着将第二个分支最后得到的特征图下采样后与第一个分支的DenseNet最后得到的特征图进行融合。首先是进行通道连接,然后是进行一个通道注意力模块,目的是为了更好地让这两个stream的不同通道的特征图融合到一起。出来后再加上一个空间注意力模块,空间注意力模块用于捕捉空间长距离的像素点之间的关系并以该权重融合全局信息。
最后将这次得到的引导特征图再次用于引导第二个stream的特征图去除多余的信息,接着将得到的结果再经过一个卷积层和softmax函数后就能最后的结果。
另外,除了网络的最后会预测出结果(last-output),在第二stream中每次去噪后也会预测出一个结果,即side-outputs。除了last-output外,各side-outputs也都加上损失函数,即在网络中使用深度监督,其可让浅层网络能够得到更加充分的训练。
以上实施方式仅为本发明的优选实施例,而并非本发明可行实施的穷举。对于本领域一般技术人员而言,在不背离本发明原理和精神的前提下对其所做出的任何显而易见的改动,都应当被认为包含在本发明的权利要求保护范围之内。

Claims (2)

1.一种基于two-stream架构的语义分割方法,其特征在于,其包括如下步骤:
(1)收集语义分割需要的数据集并完成标注;
(2)将经步骤(1)处理后得到的数据集输入two-stream结构,得到预测结果;
所述two-stream结构包括第一stream结构和第二stream结构,所述第一stream结构和第二stream结构分别从步骤(1)处理后的数据集中获取原特征图;
所述第一stream结构包括依次连接的DenseBlock、Transition layer、DenseBlock、Transition layer和DenseBlock,所述Transition layer由一个卷积和一个池化层组成;
所述第二stream结构包括依次连接的门控网络、改进的DenseBlock、门控网络和改进的DenseBlock,所述改进的DenseBlock为仅包含3个卷积块且其输入与输出的通道数相同的DenseBlock;
第一stream结构的DenseBlock的输出首先经过一个卷积降维,然后上采样到原图大小做为第二stream结构中门控网络的输入g;原特征图经卷积后做为门控网络的输入xl,在门控网络之后是第二stream结构中改进的DenseBlock,之后再重复上述操作即再次经过一个门控网络和改进的DenseBlock后得到输出F;
将输出F下采样后与第一stream结构的输出进行融合;
所述融合的具体方法为,首先将输出F输入到通道注意力模块中,之后又接入空间注意力模块,然后将空间注意力模块的结果再次作为引导特征图与F再一次输入到门控网络中,得到的结果经过卷积降维,最后经过一个softmax函数得到最后的预测结果;
所述通道注意力模块为Channel attention module;
所述空间注意力模块采用两个criss-cross attention module串联使用。
2.根据权利要求1所述的基于two-stream架构的语义分割方法,其特征在于,在第二stream结构中每个门控网络都再分出一个分支接上一个卷积并通过softmax函数预测出结果side-output。
CN202011319049.5A 2020-11-23 2020-11-23 一种基于two-stream架构的语义分割方法 Active CN112488115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011319049.5A CN112488115B (zh) 2020-11-23 2020-11-23 一种基于two-stream架构的语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011319049.5A CN112488115B (zh) 2020-11-23 2020-11-23 一种基于two-stream架构的语义分割方法

Publications (2)

Publication Number Publication Date
CN112488115A CN112488115A (zh) 2021-03-12
CN112488115B true CN112488115B (zh) 2023-07-25

Family

ID=74932937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011319049.5A Active CN112488115B (zh) 2020-11-23 2020-11-23 一种基于two-stream架构的语义分割方法

Country Status (1)

Country Link
CN (1) CN112488115B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435284B (zh) * 2021-06-18 2022-06-28 武汉理工大学 基于动态过滤与多方向关注融合的灾后道路提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160311A (zh) * 2020-01-02 2020-05-15 西北工业大学 基于多注意力机制双流融合网络的黄河冰凌语义分割方法
CN111340812A (zh) * 2020-02-20 2020-06-26 中南大学 基于深度神经网络的交互式肝脏图像分割方法
CN111680695A (zh) * 2020-06-08 2020-09-18 河南工业大学 一种基于反向注意力模型的语义分割方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160311A (zh) * 2020-01-02 2020-05-15 西北工业大学 基于多注意力机制双流融合网络的黄河冰凌语义分割方法
CN111340812A (zh) * 2020-02-20 2020-06-26 中南大学 基于深度神经网络的交互式肝脏图像分割方法
CN111680695A (zh) * 2020-06-08 2020-09-18 河南工业大学 一种基于反向注意力模型的语义分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"CCNet: Criss-Cross Attention for Semantic Segmentation";Zilong Huang等;《2019IEEE/CVF International Conference on Computer Vision》;20191231;第603-612页 *
"Gated-SCNN: Gated Shape CNNs for Semantic Segmentation";Towaki Takikawa等;《arXiv》;20190712;第1-10页 *
Towaki Takikawa等."Gated-SCNN: Gated Shape CNNs for Semantic Segmentation".《arXiv》.2019, *

Also Published As

Publication number Publication date
CN112488115A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
CN111210443B (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN111325751B (zh) 基于注意力卷积神经网络的ct图像分割系统
CN108596330B (zh) 一种并行特征全卷积神经网络装置及其构建方法
CN112163449B (zh) 一种轻量化的多分支特征跨层融合图像语义分割方法
CN111563909B (zh) 一种复杂街景图像语义分割方法
CN113033570B (zh) 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
CN114973049B (zh) 一种统一卷积与自注意力的轻量视频分类方法
CN110781850A (zh) 道路识别的语义分割系统和方法、计算机存储介质
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN110569851A (zh) 门控多层融合的实时语义分割方法
CN111832453A (zh) 基于双路深度神经网络的无人驾驶场景实时语义分割方法
CN111652081A (zh) 一种基于光流特征融合的视频语义分割方法
CN111914654A (zh) 一种文本版面分析方法、装置、设备和介质
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络
CN112699889A (zh) 基于多任务监督的无人驾驶实时道路场景语义分割方法
CN113850135A (zh) 一种基于时间移位框架的动态手势识别方法及系统
CN117409412A (zh) 一种基于细节增强的双分辨率实时语义分割方法
Lu et al. Mfnet: Multi-feature fusion network for real-time semantic segmentation in road scenes
CN113705575B (zh) 一种图像分割方法、装置、设备及存储介质
CN112488115B (zh) 一种基于two-stream架构的语义分割方法
CN114266952A (zh) 基于深监督的实时语义分割方法
CN112700450A (zh) 一种基于集成学习的图像分割方法及其系统
CN115601542B (zh) 基于全尺度密集连接的图像语义分割方法、系统及设备
CN116363361A (zh) 基于实时语义分割网络的自动驾驶方法
CN113255675B (zh) 基于扩张卷积和残差路径的图像语义分割网络结构及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant