CN111523546A - 图像语义分割方法、系统及计算机存储介质 - Google Patents
图像语义分割方法、系统及计算机存储介质 Download PDFInfo
- Publication number
- CN111523546A CN111523546A CN202010297870.5A CN202010297870A CN111523546A CN 111523546 A CN111523546 A CN 111523546A CN 202010297870 A CN202010297870 A CN 202010297870A CN 111523546 A CN111523546 A CN 111523546A
- Authority
- CN
- China
- Prior art keywords
- convolution
- semantic segmentation
- result
- output
- hole
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 33
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 238000005070 sampling Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 32
- 238000010586 diagram Methods 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011800 void material Substances 0.000 claims description 3
- 239000002184 metal Substances 0.000 claims 1
- 238000002203 pretreatment Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000005065 mining Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 17
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图像语义分割方法、系统及计算机存储介质,对输入图像进行预处理;使用卷积神经网络捕捉通用特征,并在其适当位置分别嵌入空间CNN和注意力模型;利用SCNN算法对所述的通用特征进行挖掘,获得深层次特征信息;通过注意力模型对得到的通用特征以及深层特征进行多尺度特征信息的提取;融合网络将SCNN算法与注意力模型得到的结果进行融合,生成最终预测的语义分割结果。该方法用于解决现有技术中存在的图像分辨率降低、难以正确识别和分割多尺度对象的问题,有利于提高语义分割网络的精确性。
Description
技术领域
本发明涉及计算机视觉技术领域,特别是一种图像语义分割方法、系统及计算机存储介质。
背景技术
图像语义分割是计算机视觉中一个非常重要的领域,它可以根据图像中存在的语义含义对像素点进行分组,即标记每个像素点属于图像中的哪种对象类别。图像语义分割具有广泛的应用领域,如自动驾驶中的街景识别和理解、机器人视觉、环境建模等领域。目前,基于深度学习的语义分割方法是图像语义分割领域的主流技术,尤其是基于卷积神经网络(Convolutional Neural Networks,简称CNN)的语义分割方法已取得了显著的成功。
然而,卷积神经网络结构自身存在着固有缺陷:重复的池化和下采样操作使得原始的输入图像在特征提取过程中不断降低特征图的分辨率,导致大量空间信息的丢失,这对网络的分割性能产生了严重的消极影响。为解决图像分辨率降低的问题,学者们提出了各种各样的解决方案。这些方案大致上可以分为3类:第一类方案是利用双线性插值、反池化等方法对特征图进行上采样操作,但上采样后的特征图并不能完全还原出原始图像中每个像素点的位置信息,并且依然存在丢失细节信息的情况。第二类方案是利用跳跃连接操作,将浅层和深层特征图进行融合合并,但只能在一定程度上恢复细节信息。第三类方案是利用空洞卷积操作,在保持特征图分辨率不变的情况下,增大卷积核的感受野,从而避免图像分辨率降低的问题。DeepLab方法使用空洞卷积结构以及用作后处理的条件随机场操作,取得了较好的语义分割结果。但该方法有着明显的缺陷:设计出的空洞卷积结构可能会带来“网格化”的感受野,这对小物体对象的分割效果是差的。这种“网格化”现象也是空洞卷积结构自身固有的缺陷。
图像语义分割中存在的另一个关键问题是如何正确识别和分割图像中存在的大量的多尺度的对象。大量研究表明大采样率的空洞卷积对大物体的分割效果更好,反之,小采样率的空洞卷积对小物体有更好的分割效果。鉴于此,有的学者们提出利用空洞卷积结构,通过设置不同的采样率来提取多尺度特征信息,实现对多尺度对象的分割效果,如带孔的空间金字塔池化技术,但是这些方法在分割不同尺度的对象时仍然不具有很好的鲁棒性。因此,如何进一步改善图像语义分割的性能是目前亟待解决的问题。
发明内容
本发明所要解决的技术问题是,针对现有技术中存在的图像分辨率低、难以正确识别图像细节和难以分割多尺度对象的问题,提供一种图像语义分割方法、系统及计算机存储介质,提高图像语义分割的精确性。
为解决上述技术问题,本发明所采用的技术方案是:一种图像语义分割方法,包括以下步骤:
1)利用卷积神经网络获取预训练集图像的通用特征;
2)将所述通用特征输入空间卷积神经网络,获取深层次特征信息,即特征图;
3)将所述通用特征和所述特征图作为注意力模型的输入,得到权重图;
4)融合所述特征图和所述权重图,生成语义分割模型。
本发明的方法融合了卷积神经网络、空间卷积神经网络和注意力模型,使用SCNN算法可以学习到深层特征具有的结构化空间关系,浅层特征通过注意力模型,可以提取到丰富的语义信息,因此本发明的方法使得语义分割模型不仅可以学习到深层特征具有的结构化空间关系,还可以捕捉到浅层特征包含的丰富的语义信息,解决了现有语义分割方法存在的图像分辨率低、难以正确识别图像和难以分割多尺度对象的问题,提高了图像语义分割的精确度。
优选地,步骤4)之后,为了进一步提高语义分割模型的精确性,本发明的方法还包括:
5)训练所述语义分割模型,得到最终的语义分割模型。
为了进一步提高语义分割后图像的识别度和分辨率,步骤1)之前,还进行如下操作,对所述训练集图像进行预处理;本发明预处理过程包括:调整所述训练集图像的尺寸,并将每一幅调整后的训练集图像每一个像素点值减去该训练集图像的像素均值,得到预处理后的训练集图像。
步骤2)中,获取所述特征图的具体实现过程包括:
2A)对所述通用特征按照设定方向进行卷积操作,提取所述特征图的深层特征,并获取所述设定方向的特征图;
2B)拼接步骤2A)获得的深层特征,得到最终的特征图;
使用SCNN算法能够更好地提取训练集图像中行与列之间的空间关系,从而获得更深层的结构化空间特征信息。
其中,为了缩短计算时间,可以将设定方向设置为向下、向上、向右或向左中的一种或多种的组合。为了提高获取的特征图的准确度,可以对所述通用特征依次按照向下、向上、向右和向左四个方向进行卷积操作。
以向下进行卷积操作为例,步骤2A)的具体实现过程包括:
I)将所述通用特征表示为张量形式,按照向下方向对表示为张量形式的通用特征进行切片操作,获得多个切片;
II)对当前切片进行卷积操作,并将卷积操作后得到的结果输入激活函数,获得当前切片的输出结果;
III)合并当前切片的输出结果与下一切片,对于合并后的切片,执行步骤II)和步骤III)的操作;
IV)重复步骤III),直至所有切片执行完毕,获得深层特征。
本发明利用SCNN算法将传统的卷积层逐层(layer-by-layer)的卷积形式转变为特征图中逐片(slice-by-slice)的卷积形式,使得特征信息可以在同层的神经元上进行传播,从而获得更强的结构化空间信息。
当对通用特征依次按照向下、向上、向右和向左四个方向进行卷积操作时,将向下方向得到的输出结果作为向上卷积操作的输入,将最后提取到的深层特征(即向左方向上的深层特征)作用于注意力模型产生的权重图上。
步骤3)中,所述权重图的获取过程包括:
3A)获取所述特征图的多尺度特征信息和所述通用特征的多尺度特征信息;
3B)融合所述特征图的多尺度特征信息和所述通用特征的多尺度特征信息,得到所述权重图。
通过步骤3)的步骤,捕捉不同尺度的特征信息,产生更合适的权重,进而获得更加有效的权重图。
上述步骤3A)中,为了进一步增强深层神经网络特征表达能力,获取所述通用特征的多尺度特征信息之前,还对所述通用特征进行卷积操作,并利用Relu激活函数对卷积操作后的结果施加非线性因素,得到施加非线性因素的通用特征;优选地,步骤3B)的具体实现过程包括:
A)连接所述通用特征的多尺度特征信息;
B)拼接步骤A)的连接结果与所述特征图的多尺度特征信息;
C)对步骤B)的拼接结果进行卷积操作,将卷积操作后的结果输入激活函数,得到所述权重图。
上述步骤3B)使得特征信息前后向传播更加方便和顺畅,从而获得更加有效的权重图。
优选地,步骤A)中,连接所述通用特征的多尺度特征信息和所述施加非线性因素的通用特征,进而有效地融合更丰富的多尺度语义信息。
步骤4)的具体实现过程包括:
4A)将所述特征图与所述权重图相乘,相乘的结果与所述特征图相加;
4B)对步骤4A)得到的相加结果进行卷积操作,并对卷积操作后的结果进行正则化处理;
4C)对正则化处理后的结果进行卷积操作和上采样操作,得到语义分割模型。
通过上述步骤4A)~步骤4C)的操作,解决了融合后特征值降低的问题,同时保持了骨干网自身的良好特性。
为了实现方便,减小计算量,本发明步骤5)的具体实现过程包括:利用反向传播算法更新步骤4)得到的所述语义分割模型的参数,同时计算所述语义分割模型与预先标准好的语义分割信息的交叉熵损失,当所述交叉熵损失满足预设的收敛条件时,固化满足所述收敛条件时的语义分割模型的参数,对应的语义分割模型即为最终的语义分割模型;优选地,还利用F1-Mesure、准确率和mIoU衡量最终的语义分割模型的预测性能,进一步提高模型的准确性。
本发明还提供了一种图像语义分割系统,包括:
卷积神经网络,用于获取训练集图像的通用特征;
空间卷积神经网络,用于利用所述卷积神经网络输出的通用特征获取深层次特征信息,即特征图;
注意力模型,用于利用所述卷积神经网络输出的通用特征和所述空间卷积神经网络输出的特征图得到权重图;
融合网络,用于融合所述特征图和所述权重图,生成语义分割模型。
本发明的系统使得语义分割模型不仅可以学习到深层特征具有的结构化空间关系,还可以捕捉到浅层特征包含的丰富的语义信息。
优选地,为了进一步图像语义分割的准确性,本发明的系统还包括预处理模块,用于对所述训练集图像进行预处理;
优选地,为了进一步提高语义分割模型的精准性,本发明的系统还包括训练模块,用于对所述语义分割模型进行训练,得到最终的语义分割模型。
本发明的注意力模型包括:
第一空洞卷积模块,用于提取所述空间卷积神经网络输出的特征图的多尺度特征信息;
第二空洞卷积模块,用于提取所述卷积神经网络输出的通用特征的多尺度信息;残差模块,用于融合所述特征图的多尺度特征信息和所述通用特征的多尺度特征信息,得到所述权重图。
所述第一空洞卷积模块包括多个第一空洞卷积层;第一个第二空洞卷积层的输入为所述通用特征,第一个所述第一空洞卷积层的输入为所述第一个第二空洞卷积层的输出和所述特征图;第二个第二空洞卷积层的输入为所述第一个第一空洞卷积层的输出,第二个第一空洞卷积层的输入为所述第二个第二空洞卷积层的输出和所述特征图;依此类推;其中,前N-1个第一空洞卷积层、所有的第二空洞卷积层连接构成所述第二空洞卷积模块;N≥2。注意力模型使用交互式(串联(第二空洞卷积模块)+并行(第一空洞卷积模块))方式部署空洞卷积单元,使用这种交互式方式可以将串联和并行方式得到的不同尺度特征图更加方便且有效地进行融合。
为了增强深层神经网络特征表达能力,本发明的注意力模型还包括输入模块,所述输入模块连接所述卷积神经网络和所述第二空洞卷积模块的第一个第二空洞卷积层,用于对所述通用特征进行卷积操作,并利用Relu激活函数对卷积操作后的结果施加非线性因素,得到施加非线性因素的通用特征,并将该施加非线性因素的通用特征输入所述第二空洞卷积模块和所述残差模块。
本发明的所述残差模块包括:
连接单元,用于连接所述施加非线性因素的通用特征、所有第二空洞卷积层的输出和第二空洞卷积模块中最后一个第一空洞卷积层的输出,得到连接结果;
拼接单元,用于拼接所述连接结果和所有第一空洞卷积层的输出;
卷积单元,用于所述拼接单元输出的拼接结果进行卷积操作;
激活函数,用于对卷积单元输出的卷积结果进行映射操作,输出权重图。
本发明的残差模块使得特征信息前后向传播更加方便和顺畅,从而获得更加有效的权重图。
本发明中,N个卷积核大小为K×K第二空洞卷积层对应的采样率分别为[r1,…,ri,…,rn],,当i<n时,Mi=max(Mi+1-2ri,2ri-Mi+1,ri),当i=n时,Mn=rn,目的是要满足M2≤K,Mi为第二空洞卷积层的卷积核中两个非零像素间的距离;其中,n=N,i=1,2,……,n。将所述第二空洞卷积模块中N个第二空洞卷积层均分为两组,每一组内空洞卷积层的采样率公因子均小于或等于1。设置合理的采样率,对深层特征与浅层特征有效地进行多尺度特征提取,从而能够更好地处理图像中存在的多尺度对象。
本发明所述融合网络包括:
乘法单元,用于将所述特征图与所述权重图相乘;
加法单元,用于将乘法单元输出的相乘的结果与所述特征图相加;
第一卷积单元,用于所述加法单元输出的相加结果进行卷积操作;
第二卷积单元,用于所述第一卷积单元输出的结果进行卷积操作;
正则化处理单元,用于对第二卷积单元输出的结果进行正则化处理;
第三卷积单元,用于对正则化处理后的结果进行卷积操作;
上采样单元,用于对所述第三卷积单元输出的结果进行上采样操作,得到语义分割模型。
作为一个发明构思,本发明还提供了一种计算机存储介质,其存储有程序;该程序用于执行权利要求1~7之一所述方法的步骤。
与现有技术相比,本发明所具有的有益效果为:
(1)本发明的方法使得语义分割模型不仅可以学习到深层特征具有的结构化空间关系,还可以捕捉到浅层特征包含的丰富的语义信息;
(2)本发明中设计的注意力模型,使用交互式(串联+并行)方式部署空洞卷积单元,同时,遵循一定的规则设置合理的采样率,对深层特征与浅层特征有效地进行多尺度特征提取,从而能够更好地处理图像中存在的多尺度对象;
(3)本发明中设计的融合网络,解决了融合后特征值降低的问题(权重图中每个权重值的取值范围为[0,1],若仅有相乘操作,则特征图中的特征值可能会降低。融合网络将特征图和权重图先相乘,然后将相乘的结果与特征图进行相加,这等价于将权重图中的每个权重值加1,扩大了取值范围,然后再将加1后的结果与特征图进行相乘,从而解决了融合后特征值降低的问题),同时保持了骨干网自身的良好特性。
附图说明
图1是本发明提供的图像语义分割方法流程图;
图2是本发明提供的图像语义分割网络示意图。
具体实施方式
下面结合附图和具体实施方式对本发明的技术方案作进一步说明。
参考图1,本发明提供了一种面向街景理解的基于注意力模型的语义分割方法,其包括以下步骤:
步骤S1:对输入的训练集图像作预处理,首先对输入图像的尺寸进行统一调整,之后进行标准化处理,即让调整后的图像减去其像素均值。
步骤S2:使用卷积神经网络(CNN)捕捉通用特征,并在CNN网络的适当位置分别嵌入空间CNN(SCNN)和注意力模型。在CNN网络的合适位置添加SCNN和注意力模型,有利于提取到更丰富的特征信息,提高分割准确度。本步骤的具体实现过程包括以下步骤:
步骤S21:所述CNN网络具体可以使用LargeFOV或ResNet-101网络结构,对步骤S1预处理后的图像进行特征提取,得到所需要的通用特征。需要说明的是,对于LargeFOV网络,使用在ImageNet数据集上训练的VGG-16为网络中的前13个卷积层提供适当的初始权重。
步骤S22:所述的SCNN算法嵌入的位置可以是:基于LargeFOV网络,首先对网络中的“fc6”层进行修改,将空洞卷积的采样率设置为4,其次对网络中的“fc7”层进行修改,将该层的通道数设置为128,最后将SCNN算法添加其后(即,直接将SCNN嵌入到修改后的LargeFOV网络中的“fc7”层后面即可,需要说明的是:SCNN和注意力模型可以嵌入到任意流行的先进的网络结构中)。基于ResNet-101网络,首先在该网络的pool4阶段输出结果的后面,添加1×1卷积操作,并将通道数设置为128,然后再在其后添加SCNN算法。
步骤S23:所述的注意力模型嵌入的位置可以为:基于LargeFOV网络,在该网络的pool3阶段的输出结果之后,直接添加注意力模型。基于ResNet-101网络,可以选择在该网络的pool3或pool4阶段的输出结果之后,添加注意力模型。需要注意的是,若是选择在pool3阶段后添加注意力模型,则需要对主干网络增加上采样操作(即将经SCNN算法得到的特征图,进行上采样操作(如双线性插值法),得到扩大2倍的特征图)。
步骤S3:利用SCNN算法对所述的通用特征进行挖掘,获得深层次特征信息,即特征图。本步骤的具体实现过程包括以下步骤:
步骤S31:所述的SCNN算法依次按照向下、向上、向右和向左,共4个不同的方向,对所述的通用特征进行卷积操作,提取到不同方向的深层特征。如图2所示,SCNN_D、SCNN_U、SCNN_R以及SCNN_L表示使用SCNN算法依次在向下、向上、向右和向左方向上得到的深层特征。步骤S31具体执行过程如下所述:
步骤S31.1:所述的通用特征先表示成张量形式,再按照向下方向对其进行切片操作。
步骤S31.2:按照向下的方向,对步骤S31得到的每个切片结果进行卷积操作,并将得到的卷积结果再输入到激活函数(如修正线性单元)中,获得当前切片的输出结果,并将其输入到下一个切片中。
步骤S31.3:将步骤S31.2的输出结果与下一个切片自身的切片结果先进行合并,然后将合并后的结果作为下一个切片的输入,再继续重复执行步骤S3.2至步骤S3.3的操作过程,直至向下方向的所有切片执行完毕,并将向下方向得到的结果用于后续向上方向的执行过程中。
步骤S31.4:采用类似于向下方向的操作过程,再依次按照向上、向右和向左方向执行卷积操作,将最后提取到的深层特征(即向左方向上的深层特征)作用于注意力模型产生的权重图上。
以向下方向的卷积过程为例,其表示形式如下:
其中,Xi,j,k表示三维特征图X的元素,而i,j,k分别表示通道、行和列的索引,X′ i,j,k表示对Xi,j,k进行更新而得到的新元素;f是非线性激活函数,如修正线性单元Relu;Km,i,n表示上个切片的通道m中的元素与当前切片的通道i中的元素之间的权重,并且这两个元素间的偏移量为k个列;H既是行数又是切片数(特征图分割成H个切片)。需说明的是,所有切片中卷积核共享。
步骤S32:在所述的SCNN算法从所述的4个方向提取深层特征的过程中,依次获得这4个方向的特征图,再使用Concatenating操作(拼接操作),即图2中“C”),将这4个方向的特征图进行拼接,之后将拼接后的特征图输入到注意力模型中。步骤S4:通过注意力模型对所述的通用特征以及深层特征进行多尺度特征信息的提取,以计算出所述训练图像中每个像素点的权重,得到权重图。本步骤的具体实现过程包括以下步骤:
步骤S41:构建所述的注意力模型,如图2所示,该模型主要包含三部分:并行的空洞卷积模块(用黑色长方块表示)、串联的空洞卷积模块(用虚线框圈住的部分表示)以及残差模块(注意力模型方框中,从最左边的第一个“+”操作开始向右一直到“Sigmoid”操作为止,这些操作构成了残差模块)。
步骤S42:使用并行的空洞卷积模块(第一空洞卷积模块)作用在步骤S32得到的拼接后的特征图,以对深层特征进行多尺度特征信息的提取。并行的空洞卷积模块由4个空洞卷积单元(即第一空洞卷积层)以并联的方式构成,每个空洞卷积单元包括了具有采样率的空洞卷积核、BN(批标准化)、非线性的Relu函数,并且对这些空洞卷积单元设置合适的采样率。步骤S42具体执行过程如下所述:步骤S42.1:每个并行的空洞卷积单元的输入由两部分组成:一个输入是拼接后的特征图(即SCNN输出的不同方向的特征图,进行拼接操作获得的特征图),另一个输入是前一个空洞卷积单元输出的特征图。首先,使用element-wiseaddition操作将这两部分进行合并,之后将合并后的结果依次执行空洞卷积操作、BN操作、Relu操作,得到空洞卷积单元的输出特征图。
步骤S42.2:对这些并行的空洞卷积单元倾向于设置较大的采样率,以更容易捕捉具有结构化空间关系的对象或图像中的较大尺度的对象。
步骤S42.3:每个并行的空洞卷积单元(除了最后一个)包含两个输出流:第一个输出流是将步骤S42.1的输出特征图直接输入到后一个空洞卷积单元中,第二个输出流是将步骤S42.1的输出特征图输入到残差模块中。最后一个并行的空洞卷积单元仅有第二个输出流。
步骤S43:使用串联的空洞卷积模块(即第二空洞卷积模块)对步骤S21得到的通用特征进行多尺度特征信息的捕捉。串联的空洞卷积模块由6个空洞卷积单元(第二空洞卷积层)以串联的方式构成,每个空洞卷积单元包括了具有采样率的空洞卷积核、BN(批标准化)、非线性的Relu函数,并且对这些空洞卷积单元设置合适的采样率。需要说明的是,串联的空洞卷积模块中包含有3个并行的空洞卷积单元,这3个特殊的空洞卷积单元在注意力模型中扮演者串联和并联双重身份。步骤S43具体执行过程如下所述:
步骤S43.1:首先使用一个带有采样率为1的空洞卷积核对所述的通用特征进行卷积操作,接着再使用Relu激活函数对得到的卷积结果施加非线性因素,最后将得到的激活结果输入到串联的空洞卷积模块中。
步骤S43.2:将步骤S43.1得到的激活结果依次通过6个具有不同采样率的空洞卷积单元。
步骤S43.3:将步骤S43.2中得到的卷积结果和Relu函数输出的结果输入到残差模块中。
步骤S44:使用残差模块将步骤S42和步骤S43得到的输出结果先进行合并,再进行卷积操作,最后得出所述注意力模型的权重图。残差模块由残差连接操作、拼接操作、卷积操作以及激活函数构成。步骤S44具体执行过程如下所述:
步骤S44.1:将步骤S43.1得到的激活结果和步骤S43.3得到的卷积结果输入到残差模块,并对这些输入结果进行残差连接操作。
步骤S44.2:使用Concatenating方法对步骤S44.1得到的连接结果与步骤S42.1中4个并行的空洞卷积单元输出的特征图进行拼接操作。
步骤S44.3:将步骤S44.2得到的拼接结果依次通过连续的两个1×1卷积操作和一个Sigmoid函数,最后就可以得到所述注意力模型的权重图。
在本实施例设计的注意力模型中,采样率在遵循采样规则的同时,还需要在串联的空洞卷积模块和并行的空洞卷积模块之间取得平衡,即其既不能太大,也不能太小。综合考虑这些因素,为注意力模型设计合理且有效的采样率方案,即:对步骤S43.2中所述的空洞卷积单元进行分组,前三个为一组,后三个为一组,然后对分组后的空洞卷积单元设置合适的采样率。这些采样率的设置须遵循以下规则:
若有N个卷积核大小为K×K的空洞卷积,其对应的采样率为[r1,…,ri,…,rn],则定义卷积核中两个非零像素间的距离为:Mi=max(Mi+1-2ri,2ri-Mi+1,ri),当i<n时,Mi=max(Mi+1-2ri,2ri-Mi+1,ri),当i=n时,Mn=rn,目的是要满足M2≤K,。另外,还要求在一个组内中,这些空洞卷积的采样率不应该具有大于1的公因子关系。之所以这样设计采样率,是为了降低“网格”效应,这对于捕捉小型目标很重要。n=N,i=1,2,……,n。
步骤S5:如图2所示,融合网络将SCNN算法产生的特征图与注意力模型产生的权重图进行融合,并生成预测的语义分割结果。本步骤的具体实现过程包括以下步骤:
步骤S51:SCNN算法产生的特征图与注意力模型产生的权重图,先进行相乘,相乘结果与SCNN算法产生的特征图再进行相加。
步骤S52:将步骤S51得到的结果依次通过连续的两个1×1卷积操作,再使用Dropout方法进行正则化处理。
步骤S53:对步骤S52的输出结果进行卷积和上采样操作,得到预测的语义分割结果。
步骤S6:采用交叉熵损失函数对网络进行迭代训练,并使用合适的度量指标来评价模型性能。本步骤的具体实现过程包括以下步骤:
步骤S61:依据生成的预测语义分割结果与预先标注好的语义分割信息,计算二者的交叉熵损失,利用反向传播算法更新网络的参数,直至网络的迭代训练次数达到预设的数值为止。
步骤S62:对网络的训练完成后,使用F1-Measure、准确率和mIoU(平均交并比)来衡量网络的预测性能(度量指标的值越大,说明网络得到的分割结果越精确,网络性能越好。)。
如图2,本发明的系统包括:
卷积神经网络CNN,用于获取训练集图像的通用特征;
空间卷积神经网络(SCNN_D、SCNN_U、SCNN_R、SCNN_L),用于利用所述卷积神经网络CNN输出的通用特征获取深层次特征信息,即特征图;
注意力模型,用于利用所述卷积神经网络输出的通用特征和所述空间卷积神经网络输出的特征图得到权重图;
融合网络,用于融合所述特征图和所述权重图,生成语义分割模型;
卷积神经网络的输入端与预处理模块连接,预处理模块用于对所述训练集图像进行预处理;
融合网络输出端与训练模块连接,训练模块用于对所述语义分割模型进行训练,得到最终的语义分割模型。
注意力模型包括:
第一空洞卷积模块,用于提取所述空间卷积神经网络输出的特征图的多尺度特征信息;
第二空洞卷积模块,用于提取所述卷积神经网络输出的通用特征的多尺度信息;残差模块,用于融合所述特征图的多尺度特征信息和所述通用特征的多尺度特征信息,得到所述权重图;
所述第一空洞卷积模块包括多个第一空洞卷积层Dilated_Conv(图2中注意力模型内的四个黑色方框);第一个第二空洞卷积层的输入为所述通用特征,第一个所述第一空洞卷积层的输入为所述第一个第二空洞卷积层Dilated_Conv(图2中注意力模型虚框内的白底方框)的输出和所述特征图;第二个第二空洞卷积层的输入为所述第一个第一空洞卷积层的输出,第二个第一空洞卷积层的输入为所述第二个第二空洞卷积层的输出和所述特征图;依此类推;其中,前N-1个第一空洞卷积层、所有的第二空洞卷积层连接构成所述第二空洞卷积模块;N≥2;
本实施例的注意力模型还包括输入模块,所述输入模块连接所述卷积神经网络和所述第二空洞卷积模块的第一个第二空洞卷积层,用于对所述通用特征进行卷积操作,并利用Relu激活函数对卷积操作后的结果施加非线性因素,得到施加非线性因素的通用特征,并将该施加非线性因素的通用特征输入所述第二空洞卷积模块和所述残差模块。图2中,与CNN连接的Dilated_Conv、Relu即输入模块。
本实施例的残差模块包括:
连接单元(图2中注意力模型中激活函数Relu右侧的四个“+”号),用于连接所述施加非线性因素的通用特征、所有第二空洞卷积层的输出和第二空洞卷积模块中最后一个第一空洞卷积层的输出,得到连接结果;
拼接单元(图2中注意力模型中四个“+”号后的“C”),用于拼接所述连接结果和所有第一空洞卷积层的输出;
卷积单元1×1_ConV(2个),用于所述拼接单元输出的拼接结果进行卷积操作;激活函数Sigmoid,用于对卷积单元输出的卷积结果进行映射操作,输出权重图。
本实施例的融合网络包括:
乘法单元(“×”),用于将所述特征图与所述权重图相乘;
加法单元(“×”后的“+”),用于将乘法单元输出的相乘的结果与所述特征图相加;
第一卷积单元1×1_ConV,用于所述加法单元输出的相加结果进行卷积操作;
第二卷积单元1×1_ConV,用于所述第一卷积单元输出的结果进行卷积操作;正则化处理单元Droupout,用于对所述第二卷积单元输出的结果进行正则化处理;第三卷积单元1×1_ConV,用对正则化处理后的结果进行卷积操作;
上采样单元Upsampling,用于对所述第三卷积单元输出的结果进行上采样操作,得到语义分割模型。
本实施例还提供了一种计算机存储介质,其存储有程序;该程序用于执行本发明实施例的步骤。
下面依据本发明提出的方法进行实验,验证所提方法的有效性。
测试数据集:所使用的数据集是公开使用的CULane和Camvid数据集。
评价指标:对于CULane数据集,本发明使用F1–Measure指标;对于Camvid数据集,本发明使用平均交并比(Mean IoU,简称mIoU)和准确率(Global Accuracy,简称GC)指标。
实验结果如下:
表1.本发明在采用不同采样率方案下的性能对比
方案 | 串联采样率 | 并行采样率 | 采样规则 | F1–Measure |
M1 | 222,222 | 2222 | 不满足 | 69.0 |
M2 | 121,121 | 2114 | 不满足 | 69.3 |
M3 | 123,123 | 2134 | 满足 | 69.4 |
M4 | 123,123 | 2138 | 满足 | 70.3 |
M5 | 125,125 | 2154 | 满足 | 70.0 |
M6 | 125,125 | 2158 | 满足 | 69.5 |
M7 | 123,125 | 2154 | 满足 | 69.1 |
M8 | 123,125 | 2158 | 满足 | 69.3 |
表1中的“串联采样率”和“并行采样率”分别指得是串联的空洞卷积模块使用的采样率和并行的空洞卷积模块使用的采样率。
表2.本发明基于融合网络结构下的性能对比
方案 | 融合网络结构 | F1–Measure |
M4 | 不符合 | 69.0 |
M4 | 符合 | 70.3 |
M5 | 不符合 | 69.2 |
M5 | 符合 | 70.0 |
表3.本发明与其他方法在CULane数据集下的性能比较
驾驶场景 | ReNet | DenseCRF | SCNN | 本发明 |
Normal | 83.3 | 81.3 | 84.2 | 88.7 |
Crowded | 60.5 | 58.8 | 64.7 | 69.0 |
Night | 56.3 | 54.2 | 58.5 | 63.3 |
No line | 34.5 | 31.9 | 39.5 | 41.7 |
Shadow | 55.0 | 56.3 | 61.3 | 68.0 |
Arrow | 74.1 | 71.2 | 76.2 | 83.0 |
Dazzle light | 48.2 | 46.2 | 57.0 | 59.2 |
Curve | 59.9 | 57.8 | 57.2 | 58.4 |
Crossroad | 2296 | 2253 | 1434 | 1729 |
Total | 62.9 | 61.0 | 66.0 | 70.3 |
表4.本发明与其他方法在CamVid数据集下的性能比较
从以上实验结果中可以看出,与现有算法相比,本发明提出的语义分割方法实现了更高的分割精度。
Claims (13)
1.一种图像语义分割方法,其特征在于,包括以下步骤:
1)利用卷积神经网络获取预训练集图像的通用特征;
2)将所述通用特征输入空间卷积神经网络,获取深层次特征信息,即特征图;
3)将所述通用特征和所述特征图作为注意力模型的输入,得到权重图;
4)融合所述特征图和所述权重图,生成语义分割模型;
优选地,步骤4)之后,还包括:
5)训练所述语义分割模型,得到最终的语义分割模型。
2.根据权利要求1所述的图像语义分割方法,其特征在于,步骤1)之前,还进行如下操作,对所述训练集图像进行预处理;优选地,所述预处理包括:调整所述训练集图像的尺寸,并将每一幅调整后的训练集图像每一个像素点值减去该训练集图像的像素均值,得到预处理后的训练集图像。
3.根据权利要求1所述的图像语义分割方法,其特征在于,步骤2)中,获取所述特征图的具体实现过程包括:
2A)对所述通用特征按照设定方向进行卷积操作,提取所述特征图的深层特征,并获取所述设定方向的特征图;
2B)拼接步骤2A)获得的深层特征,得到最终的特征图;
其中,所述设定方向是指向下、向上、向右或向左中的一种或多种的组合,优选地,对所述通用特征依次按照向下、向上、向右和向左四个方向进行卷积操作;
优选地,步骤2A)的具体实现过程包括:
I)将所述通用特征表示为张量形式,按照向下方向对表示为张量形式的通用特征进行切片操作,获得多个切片;
II)对当前切片进行卷积操作,并将卷积操作后得到的结果输入激活函数,获得当前切片的输出结果;
III)合并当前切片的输出结果与下一切片,对于合并后的切片,执行步骤II)和步骤III)的操作;
IV)重复步骤III),直至所有切片执行完毕。
4.根据权利要求1所述的图像语义分割方法,其特征在于,步骤3)中,所述权重图的获取过程包括:
3A)获取所述特征图的多尺度特征信息和所述通用特征的多尺度特征信息;
3B)融合所述特征图的多尺度特征信息和所述通用特征的多尺度特征信息,得到所述权重图。
5.根据权利要求4所述的图像语义分割方法,其特征在于,步骤3A)中,获取所述通用特征的多尺度特征信息之前,还对所述通用特征进行卷积操作,并利用Relu激活函数对卷积操作后的结果施加非线性因素,得到施加非线性因素的通用特征;
优选地,步骤3B)的具体实现过程包括:
A)连接所述通用特征的多尺度特征信息;
B)拼接步骤A)的连接结果与所述特征图的多尺度特征信息;
C)对步骤B)的拼接结果进行卷积操作,将卷积操作后的结果输入激活函数,得到所述权重图;
优选地,步骤A)中,连接所述通用特征的多尺度特征信息和所述施加非线性因素的通用特征。
6.根据权利要求1所述的图像语义分割方法,其特征在于,步骤4)的具体实现过程包括:
4A)将所述特征图与所述权重图相乘,相乘的结果与所述特征图相加;
4B)对步骤4A)得到的相加结果进行卷积操作,并对卷积操作后的结果进行正则化处理;
4C)对正则化处理后的结果进行卷积操作和上采样操作,得到语义分割模型。
7.根据权利要求1~6之一所述的图像语义分割方法,其特征在于,步骤5)的具体实现过程包括:利用反向传播算法更新步骤4)得到的所述语义分割模型的参数,同时计算所述语义分割模型与预先标注好的语义分割信息的交叉熵损失,当所述交叉熵损失满足预设的收敛条件时,固化满足所述收敛条件时的语义分割模型的参数,对应的语义分割模型即为最终的语义分割模型;优选地,利用F1-Mesure、准确率和mIoU衡量最终的语义分割模型的预测性能。
8.一种图像语义分割系统,其特征在于,包括:
卷积神经网络,用于获取训练集图像的通用特征;
空间卷积神经网络,用于利用所述卷积神经网络输出的通用特征获取深层次特征信息,即特征图;
注意力模型,用于利用所述卷积神经网络输出的通用特征和所述空间卷积神经网络输出的特征图得到权重图;
融合网络,用于融合所述特征图和所述权重图,生成语义分割模型;
优选地,还包括预处理模块,用于对所述训练集图像进行预处理;
优选地,还包括训练模块,用于对所述语义分割模型进行训练,得到最终的语义分割模型。
9.根据权利要求8所述的图像语义分割系统,其特征在于,所述注意力模型包括:
第一空洞卷积模块,用于提取所述空间卷积神经网络输出的特征图的多尺度特征信息;
第二空洞卷积模块,用于提取所述卷积神经网络输出的通用特征的多尺度信息;
残差模块,用于融合所述特征图的多尺度特征信息和所述通用特征的多尺度特征信息,得到所述权重图;
优选地,
所述第一空洞卷积模块包括多个第一空洞卷积层;第一个第二空洞卷积层的输入为所述通用特征,第一个所述第一空洞卷积层的输入为所述第一个第二空洞卷积层的输出和所述特征图;第二个第二空洞卷积层的输入为所述第一个第一空洞卷积层的输出,第二个第一空洞卷积层的输入为所述第二个第二空洞卷积层的输出和所述特征图;依此类推;其中,前N-1个第一空洞卷积层、所有的第二空洞卷积层连接构成所述第二空洞卷积模块;N≥2;
优选地,还包括输入模块,所述输入模块连接所述卷积神经网络和所述第二空洞卷积模块的第一个第二空洞卷积层,用于对所述通用特征进行卷积操作,并利用Relu激活函数对卷积操作后的结果施加非线性因素,得到施加非线性因素的通用特征,并将该施加非线性因素的通用特征输入所述第二空洞卷积模块和所述残差模块。
10.根据权利要求9所述的图像语义分割系统,其特征在于,所述残差模块包括:
连接单元,用于连接所述施加非线性因素的通用特征、所有第二空洞卷积层的输出和第二空洞卷积模块中最后一个第一空洞卷积层的输出,得到连接结果;
拼接单元,用于拼接所述连接结果和所有第一空洞卷积层的输出;
卷积单元,用于所述拼接单元输出的拼接结果进行卷积操作;
激活函数,用于对卷积单元输出的卷积结果进行映射操作,输出权重图。
11.根据权利要求9所述的图像语义分割系统,其特征在于,N个卷积核大小为K×K的第二空洞卷积层对应的采样率分别为[r1,…,ri,…,rn],,当i<n时,Mi=max(Mi+1-2ri,2ri-Mi+1,ri),当i=n时,Mn=rn,且M2≤K,Mi为第二空洞卷积层的卷积核中两个非零像素间的距离;其中,n=N,i=1,2,……,n;
优选地,将所述第二空洞卷积模块中N个第二空洞卷积层均分为两组,每一组内空洞卷积层的采样率公因子均小于或等于1。
12.根据权利要求9~11之一所述的图像语义分割系统,其特征在于,所述融合网络包括:
乘法单元,用于将所述特征图与所述权重图相乘;
加法单元,用于将乘法单元输出的相乘的结果与所述特征图相加;
第一卷积单元,用于所述加法单元输出的相加结果进行卷积操作;
第二卷积单元,用于所述第一卷积单元输出的结果进行卷积操作;
正则化处理单元,用于对第二卷积单元输出的结果进行正则化处理;
第三卷积单元,用于对正则化处理后的结果进行卷积操作;
上采样单元,用于对所述第三卷积单元输出的结果进行上采样操作,得到语义分割模型。
13.一种计算机存储介质,其特征在于,其存储有程序;该程序用于执行权利要求1~7之一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010297870.5A CN111523546B (zh) | 2020-04-16 | 2020-04-16 | 图像语义分割方法、系统及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010297870.5A CN111523546B (zh) | 2020-04-16 | 2020-04-16 | 图像语义分割方法、系统及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111523546A true CN111523546A (zh) | 2020-08-11 |
CN111523546B CN111523546B (zh) | 2023-06-16 |
Family
ID=71901351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010297870.5A Active CN111523546B (zh) | 2020-04-16 | 2020-04-16 | 图像语义分割方法、系统及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111523546B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016639A (zh) * | 2020-11-02 | 2020-12-01 | 四川大学 | 灵活可分离卷积框架和特征提取方法及其在VGG和ResNet中应用 |
CN112184686A (zh) * | 2020-10-10 | 2021-01-05 | 深圳大学 | 一种用于检测动力电池安全阀激光焊接缺陷的分割算法 |
CN112200818A (zh) * | 2020-10-15 | 2021-01-08 | 广州华多网络科技有限公司 | 基于图像的着装区域分割和着装替换方法、装置及设备 |
CN112529098A (zh) * | 2020-12-24 | 2021-03-19 | 上海九紫璃火智能科技有限公司 | 密集多尺度目标检测系统及方法 |
CN112633177A (zh) * | 2020-12-24 | 2021-04-09 | 浙江大学 | 一种基于注意力空间卷积神经网络的车道线检测分割方法 |
CN113095279A (zh) * | 2021-04-28 | 2021-07-09 | 华南农业大学 | 果树花量智能视觉识别方法、装置、系统及存储介质 |
CN113129319A (zh) * | 2021-04-29 | 2021-07-16 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN113239954A (zh) * | 2021-04-01 | 2021-08-10 | 河海大学 | 基于注意力机制的图像语义分割特征融合方法 |
CN113469041A (zh) * | 2021-06-30 | 2021-10-01 | 北京市商汤科技开发有限公司 | 一种图像处理方法、装置、计算机设备和存储介质 |
CN113610032A (zh) * | 2021-08-16 | 2021-11-05 | 北京市城市规划设计研究院 | 基于遥感影像的建筑物识别方法和装置 |
CN113674300A (zh) * | 2021-08-24 | 2021-11-19 | 苏州天准软件有限公司 | 用于cnc自动测量的模型训练方法、测量方法及系统、设备、介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345887A (zh) * | 2018-01-29 | 2018-07-31 | 清华大学深圳研究生院 | 图像语义分割模型的训练方法及图像语义分割方法 |
CN109145920A (zh) * | 2018-08-21 | 2019-01-04 | 电子科技大学 | 一种基于深度神经网络的图像语义分割方法 |
CN109461157A (zh) * | 2018-10-19 | 2019-03-12 | 苏州大学 | 基于多级特征融合及高斯条件随机场的图像语义分割方法 |
CN110111335A (zh) * | 2019-05-08 | 2019-08-09 | 南昌航空大学 | 一种自适应对抗学习的城市交通场景语义分割方法及系统 |
CN110119728A (zh) * | 2019-05-23 | 2019-08-13 | 哈尔滨工业大学 | 基于多尺度融合语义分割网络的遥感图像云检测方法 |
CN110188765A (zh) * | 2019-06-05 | 2019-08-30 | 京东方科技集团股份有限公司 | 图像语义分割模型生成方法、装置、设备及存储介质 |
CN110232394A (zh) * | 2018-03-06 | 2019-09-13 | 华南理工大学 | 一种多尺度图像语义分割方法 |
US10430946B1 (en) * | 2019-03-14 | 2019-10-01 | Inception Institute of Artificial Intelligence, Ltd. | Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques |
CN110378484A (zh) * | 2019-04-28 | 2019-10-25 | 清华大学 | 一种基于注意力机制的空洞卷积空间金字塔池化上下文学习方法 |
CN110490205A (zh) * | 2019-07-23 | 2019-11-22 | 浙江科技学院 | 基于全残差空洞卷积神经网络的道路场景语义分割方法 |
CN110781895A (zh) * | 2019-10-10 | 2020-02-11 | 湖北工业大学 | 一种基于卷积神经网络的图像语义分割方法 |
CN110782462A (zh) * | 2019-10-30 | 2020-02-11 | 浙江科技学院 | 一种基于双流特征融合的语义分割方法 |
-
2020
- 2020-04-16 CN CN202010297870.5A patent/CN111523546B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345887A (zh) * | 2018-01-29 | 2018-07-31 | 清华大学深圳研究生院 | 图像语义分割模型的训练方法及图像语义分割方法 |
CN110232394A (zh) * | 2018-03-06 | 2019-09-13 | 华南理工大学 | 一种多尺度图像语义分割方法 |
CN109145920A (zh) * | 2018-08-21 | 2019-01-04 | 电子科技大学 | 一种基于深度神经网络的图像语义分割方法 |
CN109461157A (zh) * | 2018-10-19 | 2019-03-12 | 苏州大学 | 基于多级特征融合及高斯条件随机场的图像语义分割方法 |
US10430946B1 (en) * | 2019-03-14 | 2019-10-01 | Inception Institute of Artificial Intelligence, Ltd. | Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques |
CN110378484A (zh) * | 2019-04-28 | 2019-10-25 | 清华大学 | 一种基于注意力机制的空洞卷积空间金字塔池化上下文学习方法 |
CN110111335A (zh) * | 2019-05-08 | 2019-08-09 | 南昌航空大学 | 一种自适应对抗学习的城市交通场景语义分割方法及系统 |
CN110119728A (zh) * | 2019-05-23 | 2019-08-13 | 哈尔滨工业大学 | 基于多尺度融合语义分割网络的遥感图像云检测方法 |
CN110188765A (zh) * | 2019-06-05 | 2019-08-30 | 京东方科技集团股份有限公司 | 图像语义分割模型生成方法、装置、设备及存储介质 |
CN110490205A (zh) * | 2019-07-23 | 2019-11-22 | 浙江科技学院 | 基于全残差空洞卷积神经网络的道路场景语义分割方法 |
CN110781895A (zh) * | 2019-10-10 | 2020-02-11 | 湖北工业大学 | 一种基于卷积神经网络的图像语义分割方法 |
CN110782462A (zh) * | 2019-10-30 | 2020-02-11 | 浙江科技学院 | 一种基于双流特征融合的语义分割方法 |
Non-Patent Citations (7)
Title |
---|
DAFANG ZHANG: "An improved parallel maximum flow approach for vulnerability analysis of power system" * |
TOWAKI TAKIKAWA: "Gated-SCNN: Gated Shape CNNs for Semantic Segmentation" * |
XINXIN HU: "ACNET: Attention Based Network to Exploit Complementary Features for RGBD Semantic Segmentation" * |
严广宇;刘正熙;: "基于混合注意力的实时语义分割算法", no. 10 * |
肖朝霞;陈胜;: "图像语义分割问题研究综述", no. 08 * |
陈洪云;孙作雷;孔薇;: "融合深度神经网络和空洞卷积的语义图像分割研究", 小型微型计算机系统, no. 01 * |
马冬梅;杨彩锋;李鹏辉;: "多尺度特征融合的图像语义分割", no. 01 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112184686B (zh) * | 2020-10-10 | 2022-08-23 | 深圳大学 | 一种用于检测动力电池安全阀激光焊接缺陷的分割算法 |
CN112184686A (zh) * | 2020-10-10 | 2021-01-05 | 深圳大学 | 一种用于检测动力电池安全阀激光焊接缺陷的分割算法 |
CN112200818A (zh) * | 2020-10-15 | 2021-01-08 | 广州华多网络科技有限公司 | 基于图像的着装区域分割和着装替换方法、装置及设备 |
CN112016639A (zh) * | 2020-11-02 | 2020-12-01 | 四川大学 | 灵活可分离卷积框架和特征提取方法及其在VGG和ResNet中应用 |
CN112529098A (zh) * | 2020-12-24 | 2021-03-19 | 上海九紫璃火智能科技有限公司 | 密集多尺度目标检测系统及方法 |
CN112633177A (zh) * | 2020-12-24 | 2021-04-09 | 浙江大学 | 一种基于注意力空间卷积神经网络的车道线检测分割方法 |
CN112529098B (zh) * | 2020-12-24 | 2023-06-27 | 上海华浩原益生物科技有限公司 | 密集多尺度目标检测系统及方法 |
CN113239954B (zh) * | 2021-04-01 | 2022-10-25 | 河海大学 | 基于注意力机制的图像语义分割特征融合方法 |
CN113239954A (zh) * | 2021-04-01 | 2021-08-10 | 河海大学 | 基于注意力机制的图像语义分割特征融合方法 |
CN113095279A (zh) * | 2021-04-28 | 2021-07-09 | 华南农业大学 | 果树花量智能视觉识别方法、装置、系统及存储介质 |
CN113095279B (zh) * | 2021-04-28 | 2023-10-24 | 华南农业大学 | 果树花量智能视觉识别方法、装置、系统及存储介质 |
CN113129319A (zh) * | 2021-04-29 | 2021-07-16 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN113469041A (zh) * | 2021-06-30 | 2021-10-01 | 北京市商汤科技开发有限公司 | 一种图像处理方法、装置、计算机设备和存储介质 |
CN113610032A (zh) * | 2021-08-16 | 2021-11-05 | 北京市城市规划设计研究院 | 基于遥感影像的建筑物识别方法和装置 |
CN113674300A (zh) * | 2021-08-24 | 2021-11-19 | 苏州天准软件有限公司 | 用于cnc自动测量的模型训练方法、测量方法及系统、设备、介质 |
CN113674300B (zh) * | 2021-08-24 | 2022-10-28 | 苏州天准软件有限公司 | 用于cnc自动测量的模型训练方法、测量方法及系统、设备、介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111523546B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111523546B (zh) | 图像语义分割方法、系统及计算机存储介质 | |
CN112651973B (zh) | 基于特征金字塔注意力和混合注意力级联的语义分割方法 | |
CN107564025B (zh) | 一种基于深度神经网络的电力设备红外图像语义分割方法 | |
CN111612807B (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
CN107229757B (zh) | 基于深度学习和哈希编码的视频检索方法 | |
CN112541503A (zh) | 基于上下文注意力机制和信息融合的实时语义分割方法 | |
CN111340814A (zh) | 一种基于多模态自适应卷积的rgb-d图像语义分割方法 | |
CN113870335A (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN111563507A (zh) | 一种基于卷积神经网络的室内场景语义分割方法 | |
CN112365514A (zh) | 基于改进PSPNet的语义分割方法 | |
CN111310766A (zh) | 基于编解码和二维注意力机制的车牌识别方法 | |
CN111382759A (zh) | 一种像素级分类方法、装置、设备及存储介质 | |
CN110738663A (zh) | 双域适应模块金字塔型网络及无监督域适应图像分割方法 | |
CN113269224A (zh) | 一种场景图像分类方法、系统及存储介质 | |
CN114821058A (zh) | 一种图像语义分割方法、装置、电子设备及存储介质 | |
CN112861727A (zh) | 一种基于混合深度可分离卷积的实时语义分割方法 | |
CN115937693A (zh) | 一种基于遥感图像的道路识别方法及系统 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
CN115222750A (zh) | 基于多尺度融合注意力的遥感图像分割方法及系统 | |
CN111739037A (zh) | 一种针对室内场景rgb-d图像的语义分割方法 | |
CN113538402B (zh) | 一种基于密度估计的人群计数方法及系统 | |
CN114581789A (zh) | 一种高光谱图像分类方法及系统 | |
CN113096133A (zh) | 一种基于注意力机制的语义分割网络的构建方法 | |
CN117011943A (zh) | 基于多尺度自注意力机制的解耦的3d网络的动作识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |