CN111860411A - 一种基于注意力残差学习的道路场景语义分割方法 - Google Patents
一种基于注意力残差学习的道路场景语义分割方法 Download PDFInfo
- Publication number
- CN111860411A CN111860411A CN202010745354.4A CN202010745354A CN111860411A CN 111860411 A CN111860411 A CN 111860411A CN 202010745354 A CN202010745354 A CN 202010745354A CN 111860411 A CN111860411 A CN 111860411A
- Authority
- CN
- China
- Prior art keywords
- neural network
- input
- output
- network layer
- attention residual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013528 artificial neural network Methods 0.000 claims abstract description 117
- 238000012549 training Methods 0.000 claims abstract description 34
- 230000006870 function Effects 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000004913 activation Effects 0.000 description 10
- 238000010606 normalization Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000019771 cognition Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101100002888 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) asa-1 gene Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力残差学习的道路场景语义分割方法,应用于图像处理领域,具体步骤在于:选取训练集;构建神经网络,所述神经网络包括RGB图像通道和热图像通道,分别获取所述RGB图像和所述热图像的特征,并将所述特征依次经控制门模块和注意力残差模块处理;将选取的图像输入到所述神经网络中进行训练,得到训练集中对应的每幅分割预测图;计算训练集中的每幅所述RGB图像对应的所述分割预测图构成的集合与对应的所述真实标签图像构成的集合之间的损失函数值;重复训练并计算损失函数值,确定最优权值矢量和最优偏置项。本发明其具有较高的分割准确性,并且适用范围广。
Description
技术领域
本发明涉及图像处理技术领域,更具体的说是涉及一种基于注意力残差学习的道路场景语义分割方法。
背景技术
语义分割在智能交通系统中有许多重要的应用,从交通场景理解、多目标障碍检测到视觉导航。目前最常用的语义分割方法有SVM、AdaBoost、random forest等算法。这些算法主要针对二值化分类任务,对特定物体进行检测和识别,如路面、车辆、行人。这些传统的机器学习方法往往需要专家进行特征工程,从而阻碍了不同场景下语义分割机器学习技术的快速发展。近年来,深度学习取得了突破性进展,在图像处理领域得到了广泛的应用。深度学习方法的一个优点是,它们有助于避免设计特征提取器。这使得它们可以应用于不同的任务,如语义分割,目标检测,图像分类。研究表明,深度学习技术特别适用于涉及复杂自然数据的任务,包括来自交通场景的图像数据。基于GPU的并行计算技术的发展有助于解决这一问题深度学习方法需要高计算复杂度的问题,从而使基于像素的交通场景语义分割成为可能。目前,深度学习的应用大大提高了图像分类任务的准确率。许多深度神经网络如AlexNet,VGG net,GoogLeNet在图像分类任务上都取得了很好的效果;最近的算法已经尝试使这些深度网络适应语义像素明智的分割任务,并且取得了一定的成就,考虑到为了实现户外交通场景分割存在的挑战在于交通场景更加复杂多变,系统需要获取更大距离上的深度信息,在恶劣的光照条件或者距离较远,深度相机受到限制。大多数已有的方法都需要精确的深度图作为场景分割的输入,这严重限制了方法的应用。
因此,如何提供一种适用范围广、分割准确性高的道路场景语义分割方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于注意力残差学习的道路场景语义分割方法,其具有较高的分割准确性,并且适用范围广。
为了达到上述目的,本发明采用如下技术方案:
一种基于注意力残差学习的道路场景语义分割方法,具体步骤在于:
选取N幅RGB图像以及对应的热图像和真实标签图像,并构成训练集;
构建神经网络,所述神经网络包括RGB图像通道和热图像通道,分别获取RGB图像和热图像的特征,并将所述特征依次经控制门模块和注意力残差模块处理;
将训练集中的每幅RGB图像和热图像作为原始输入图像,输入到所述神经网络中进行训练,得到训练集中对应的每幅分割预测图;
计算训练集中的每幅RGB图像对应的分割预测图构成的集合与对应的真实标签图像构成的集合之间的损失函数值;
重复训练并计算损失函数值,确定损失函数值中最小值;所述最小值对应的权值矢量和偏置项对应作为所述神经网络的最优权值矢量和最优偏置项。
进一步,所述RGB图像通道包括五个第一神经网络块;五个所述第一神经网络块依次连接,上一级所述第一神经网络块的输出,作为下一级所述第一神经网络块的输入。
进一步,所述热图像通道包括五个第二神经网络块;上一级所述第二神经网络块经所述控制门模块处理分别作为下一级所述第二神经网络块的输入和所述注意力残差模块的输入。
进一步,所述控制门模块包括五个;第一级所述控制门模块以获取RGB图像和热图像的特征作为第一级输入;第一级所述控制门模块的输出作为第一级注意力残差模块的输入;同时经第二神经网络块作为下一级所述控制门模块的输入。
进一步,所述注意力残差模块包括四个;第一级所述控制门模块的输出和所述第二级注意力残差模块的输出作为第一级注意力残差模块的输入。
进一步,所述控制门模块包括依次设置的第1神经网络层、第2神经网络层、第3神经网络层;
其中,第一输入和第二输入的叠连结果分别输入到所述第1神经网络层和所述第2神经网络层;所述第1神经网络层与所述叠连结果相乘再加上所述第一输入,得到第一输出;所述叠连结果输入所述第2神经网络层,所述第2神经网络层的输出与叠连结果相乘再加上所述第二输入,得到第二输出;同时所述第2神经网络层的输出作为所述第3神经网络层的输入;所述第3神经网络层的输出与第二输出相乘再加上第一输出为所述控制门模块的输出。
进一步,所述注意力残差模块,其输入包括第三输入和第四输入,由依次设置的第4神经网络层、第5神经网络层、第6神经网络层,第7神经网络层和第8个神经网络层;将所述第三输入和所述第四输入的叠连结果分别作为所述第4神经网络层、所述第5神经网络层、所述第6神经网络层的输入,将其三者的输出叠连在一起输入到所述第7神经网络层,得到第三输出;所述第四输入作为第8神经网络层的输入,其输出与所述第三输出相乘,得到第四输出,将第四输入与所述第四输出加和。
进一步,所述损失函数值采用交叉熵函数作为损失函数获得。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于注意力残差学习的道路场景语义分割方法,本发明方法是通过加载预训练模型MobileNetv2的参数来学习多级语义信息,使模型提取到的特征包含了更多的上下文信息的同时又具有很高的分割效率,并提高了模型的分割性能;本发明方法在RGB通道嵌入了控制门模块,控制门模块使跨模态信息有效融合,通过自适应地对热图像的信息进行过滤,极大地缩小了特征融合的难度,并且控制门模块可以与任何前馈模型一起以端到端的方式进行训练;本发明方法中注意力残差模块的使用,使模型对于图像语义的高级认知得以保留,避免了在上采样融合过程中低级特征对高级特征的抵消作用,并且多尺度的带孔卷积有效解决了网络学习内容的匮乏、单一等问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明的总体实现图框图;
图2为本发明的控制门模块的框图;
图3为本发明的注意力残差模块的框图;
图4为本发明的方法流程图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于注意力残差学习的道路场景语义分割方法,如图4所示,该方法流程具体步骤如下:
步骤S101:选取N幅RGB图像以及对应的热图像和真实标签图像,并构成训练集;
步骤S102:构建神经网络,所述神经网络包括RGB图像通道和热图像通道,分别获取RGB图像和热图像的特征,并将所述特征依次经控制门模块和注意力残差模块处理;
步骤S103:将训练集中的每幅RGB图像和热图像作为原始输入图像,输入到所述神经网络中进行训练,得到训练集中对应的每幅分割预测图;
步骤S104:计算训练集中的每幅RGB图像对应的分割预测图构成的集合与对应的真实标签图像构成的集合之间的损失函数值;
步骤S105:重复训练并计算损失函数值,确定损失函数值中最小值;所述最小值对应的权值矢量和偏置项对应作为所述神经网络的最优权值矢量和最优偏置项。
通过上述步骤,解决了分割效率低,性能差的问题,通过学习学习多级语义信息,使模型提取到的特征包含了更多的上下文信息的同时又具有很高的分割效率,并提高了模型的分割性能;在RGB通道嵌入了控制门模块,极大地缩小了特征融合的难度;注意力残差模块的使用,使模型对于图像语义的高级认知得以保留,避免了在上采样融合过程中低级特征对高级特征的抵消作用,并且多尺度的带孔卷积有效解决了网络学习内容的匮乏、单一等问题。
在本实施例中,步骤S101,选取N幅RGB图像以及对应的热图像和真实标签图像,并构成训练集;
具体地,首先选取N幅RGB图像以及对应的热图像和真实标签图像,并构成训练集,将训练集中的第n幅RGB图像记为热图像记为{Dn(x,y)},真实的标签图像记为{Gn(x,y)},其中,1≤x≤W,1≤y≤H,W表示的宽度,H表示的高度,表示中坐标位置为(x,y)的像素点的像素值,Dn(x,y)表示{Dn(x,y)}中坐标位置为(x,y)的像素点的像素值,Gn(x,y)表示{Gn(x,y)}中坐标位置为(x,y)的像素点的像素值。
在本实施例中,步骤S102,构建神经网络,神经网络包括RGB图像通道和热图像通道,分别获取RGB图像和热图像的特征,并将特征依次经控制门模块和注意力残差模块处理;
其中,在本实施例中,RGB图像通道包括五个第一神经网络块;五个第一神经网络块依次连接,上一级第一神经网络块的输出,作为下一级第一神经网络块的输入。
其中,在本实施例中,热图像通道包括五个第二神经网络块;上一级第二神经网络块经控制门模块处理分别作为下一级第二神经网络块的输入和注意力残差模块的输入。
其中,在本实施例中,控制门模块包括五个;第一级控制门模块以获取RGB图像和热图像的特征作为第一级输入;第一级控制门模块的输出作为第一级注意力残差模块的输入;同时经第二神经网络块作为下一级控制门模块的输入。
其中,在本实施例中,注意力残差模块包括四个;第一级控制门模块的输出和第二级注意力残差模块的输出作为第一级注意力残差模块的输入。
进一步,构建神经网络,该网络采用双流模型来分别处理RGB图像和热图像的分层特征,RGB图像输入的通道包括第1、2、3、4、5个神经网络块分别来自MobileNetv2的features0-3,4-6,7-10,11-13,14-16,热图像通道包括第6、7、8、9、10个神经网络块也分别来自MobileNetv2的features0-3,4-6,7-10,11-13,14-16。其结构参数与MobileNetv2中相同。五个控制门模块,即第1,2,3,4,5个控制门模块;四个注意力残差模块,即第1,2,3,4个注意力残差模块;最后是一个输出模块。
对于第1个神经网络块,其输入为热图像,其尺寸为480×640(W×H),输出24幅特征图,大小为H/4×W/4,记为P1。
对于第2个神经网络块,其输入为P1,输出32幅特征图,大小为H/8×W/8,记为P2。
对于第3个神经网络块,其输入为P2,输出64幅特征图,大小为H/16×W/16,记为P3。
对于第4个神经网络块,其输入为P3,输出96幅特征图,大小为H/16×W/16,记为P4。
对于第5个神经网络块,其输入为P4,输出160幅特征图,大小为H/16×W/16,记为P5。
对于第6个神经网络块,其输入为RGB图像,其尺寸为480×640(W×H),输出24幅特征图,大小为H/4×W/4,记为P6。而第6个神经网络块的输出P6和第1个神经网络块的输出P1是第1个控制门模块的输入,所有的控制门模块不改变输入的尺寸和个数,将其输出记为G1。
对于第7个神经网络块,其输入为G1,输出32幅特征图,大小为H/8×W/8,记为P7。P7和P2作为第2个控制门模块的输入,将其输出记为G2。
对于第8个神经网络块,其输入为G2,输出64幅特征图,大小为H/16×W/16,记为P8。P8和P3作为第3个控制门模块的输入,将其输出记为G3。
对于第9个神经网络块,其输入为G3,输出96幅特征图,大小为H/16×W/16,记为P9。P9和P4作为第4个控制门模块的输入,将其输出记为G4。
对于第10个神经网络块,其输入为G4,输出64幅特征图,大小为H/16×W/16,记为P10。P10和P5作为第5个控制门模块的输入,将其输出记为G5。将G5输入到第4个注意力残差模块。
对于第1、2、3、4、5个控制门模块,其结构都相同,均由依次设置的第1个神经网络层、第2个神经网络层、第3个神经网络层构成;以第1个控制门模块为例,如图2所示,其中P1和P6的叠连分别输入到第1个神经网络层和第2个神经网络层,第1个神经网络层由第1卷积层、第1批标准化层、第1激活层组成,第1卷积层的卷积核大小为3×3,步幅为1,卷积核个数为24,输出24幅特征图,与P1和P6的叠连相乘再加上P1,将此结果记为D1;第2个神经网络层由第2卷积层、第2批标准化层、第2激活层组成,第2卷积层的卷积核大小为3×3,步幅为1,卷积核个数为24,将其输出做两步操作,操作1输入到第3个神经网络层,操作2是与P1和P6的叠连相乘再加上P6,将此结果记为D2;第3个神经网络层由全局均值池化层、全连接层和Sigmoid激活层组成,其输出与D2相乘再加上D1为第1个控制门模块的输出G1。
以此类推,第2、3、4、5个控制门模块结构与第1个控制门模块结构相同,其中卷积层的个数分别为32,64,96,160。
对于第4个注意力残差模块,如图3所示,其输入包括G4和G5,由依次设置的第4个神经网络层、第5个神经网络层、第6个神经网络层,第7个神经网络层,第8个神经网络层构成,将G4和G5的叠连分别为第4个神经网络层、第5个神经网络层、第6个神经网络层的输入,再将其三者的输出叠连在一起输入到第7个神经网络层,输出记为L1;G5作为第8个神经网络层的输入,其输出与L1相乘,记为A1,将G5与A1之和记为A2。其中第4个神经网络层由第3卷积层、第3批标准化层、第3激活层组成,第3卷积层的卷积核大小为3×3,步幅为1,扩张为1,卷积核个数为96;第5个神经网络层由第4卷积层、第4批标准化层、第4激活层组成,第4卷积层的卷积核大小为3×3,步幅为1,扩张为2,卷积核个数为96;第6个神经网络层由第5卷积层、第5批标准化层、第5激活层组成,第5卷积层的卷积核大小为3×3,步幅为1,扩张为4,卷积核个数为96;
第7个神经网络层由第6卷积层、第6批标准化层、第6激活层组成,第6卷积层的卷积核大小为1×1,步幅为1,卷积核个数为96;第8个神经网络层由第7卷积层、第7批标准化层、第7激活层组成,第7卷积层的卷积核大小为1×1,步幅为1,卷积核个数为96;激活层均采用ReLU激活函数。第4个注意力残差模块的输出为A1和A1加A2记为A11,其尺寸均为H/16×W/16,特征图个数均为96。
对于第3个注意力残差模块,其输入包括G3,A1和A11,其结构与第4个注意力残差模块相同,其中用到的卷积核的个数均为64。将第3个注意力残差模块的输出为记为A2和A22,其尺寸均为H/16×W/16,特征图个数均为64。
对于第2个注意力残差模块,其输入包括G2,A2和A22,其结构与第3个注意力残差模块相同,其中用到的卷积核的个数均为32。将第2个注意力残差模块的输出为记为A3和A33,其尺寸均为H/8×W/8,特征图个数均为32。
对于第1个注意力残差模块,其输入包括G2,A2和A22,其结构与第2个注意力残差模块相同,其中用到的卷积核的个数均为24。将第1个注意力残差模块的输出为记为A4和A44,其尺寸均为H/4×W/4,特征图个数均为24。
对于输出模块,由依次设置的第8卷积层、第8批标准化层、第8激活层、第9卷积层组成,第8卷积层的卷积核大小为1×1,步幅为1,卷积核个数为216;第9卷积层的卷积核大小为3×3,步幅为1,卷积核个数为41;输出模块的输入为A11,A22,A33,A44,利用双线性上采样将A11,A22尺寸扩大4倍,A33尺寸扩大2倍,然后将扩大后的特征图与A44叠连为输出模块的输入,得到寸均为H/4×W/4的特征图个数均为41。最后利用双线性上采样其扩大4倍得到寸均为H×W的输出结果。
在本实施例中,步骤S105中,重复执行步骤S103和步骤S104共V次,得到卷积神经网络分类训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1。
进一步,测试阶段过程的具体步骤为:
步骤201:令表示待分割的RGB图像,其中,1≤x'≤W',1≤y'≤H',W'表示的宽度,H'表示的高度,表示中坐标位置为(x′,y′)的像素点的像素值;对应的热图像记为表示中坐标位置为(x′,y′)的像素点的像素值。
为了验证本发明方法的可行性和有效性,进行实验。
在此,使用的是Ha Qishen等人在MFNet中发布的公共数据集。它的记录是在城市街景中,其中包含了常见的对象:汽车、人、自行车、曲线(车道)、停车、护栏、色锥、凹凸。由InfReC R500相机拍摄的图像分辨率为480×640,可以同时提供RGB和热成像。数据集中登记的RGB和thermal图像1569张,其中夜间749张,白天820张。该数据集提供了手工标记的像素真实标签,包括上述8类公共对象和一个未标记的背景类。这里,利用评估图像分割方法的3个常用客观参量作为评价指标,即像素精度(PixAcc.),平均精度(mAcc.),以及平均交并比(mIoU)。
利用本发明方法获取上述数据集中测试集的每幅图像的最终分割图,并与这个数据集中的每幅图像的实际标签图进行比较PixAcc.,mAcc.以及mIoU值越高说明本发明方法提取的最终分割图与实际标签图的一致性越好。反映本发明方法的分割性能的mAcc.,mIoU相关指标如表1所列。从表1所列的数据可知,按本发明方法提取得到的最终分割图与实际标签图的准确性和稳定性是很好的,足以说明本发明方法的可行性和有效性。
表1利用本发明方法提取得到的最终分割图与实际标签图的准确性和稳定性
性能指标 | PixAcc. | mAcc. | mIoU |
结果 | 0.963 | 0.889 | 0.764 |
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种基于注意力残差学习的道路场景语义分割方法,其特征在于,具体步骤在于:
选取N幅RGB图像以及对应的热图像和真实标签图像,并构成训练集;
构建神经网络,所述神经网络包括RGB图像通道和热图像通道,分别获取所述RGB图像和所述热图像的特征,并将所述特征依次经控制门模块和注意力残差模块处理;
将所述训练集中的每幅所述RGB图像和所述热图像作为原始输入图像,输入到所述神经网络中进行训练,得到所述训练集中对应的每幅分割预测图;
计算所述训练集中的每幅所述RGB图像对应的所述分割预测图构成的集合与对应的所述真实标签图像构成的集合之间的损失函数值;
重复训练并计算损失函数值,确定最优权值矢量和最优偏置项。
2.根据权利要求1所述的一种基于注意力残差学习的道路场景语义分割方法,其特征在于,所述RGB图像通道包括五个第一神经网络块;五个所述第一神经网络块依次连接,上一级所述第一神经网络块的输出,作为下一级所述第一神经网络块的输入。
3.根据权利要求2所述的一种基于注意力残差学习的道路场景语义分割方法,其特征在于,所述热图像通道包括五个第二神经网络块;上一级所述第二神经网络块经所述控制门模块处理分别作为下一级所述第二神经网络块的输入和所述注意力残差模块的输入。
4.根据权利要求3所述的一种基于注意力残差学习的道路场景语义分割方法,其特征在于,所述控制门模块包括五个;第一级所述控制门模块以获取RGB图像和热图像的特征作为第一级输入;第一级所述控制门模块的输出作为第一级注意力残差模块的输入;同时经第二神经网络块作为下一级所述控制门模块的输入。
5.根据权利要求4所述的一种基于注意力残差学习的道路场景语义分割方法,其特征在于,所述注意力残差模块包括四个;第一级所述控制门模块的输出和所述第二级注意力残差模块的输出作为第一级注意力残差模块的输入。
6.根据权利要求1-5任一项所述的一种基于注意力残差学习的道路场景语义分割方法,其特征在于,所述控制门模块包括依次设置的第1神经网络层、第2神经网络层和第3神经网络层;
其中,第一输入和第二输入的叠连结果分别输入到所述第1神经网络层和所述第2神经网络层;所述第1神经网络层与所述叠连结果相乘再加上所述第一输入,得到第一输出;所述叠连结果输入所述第2神经网络层,所述第2神经网络层的输出与叠连结果相乘再加上所述第二输入,得到第二输出;同时所述第2神经网络层的输出作为所述第3神经网络层的输入;所述第3神经网络层的输出与第二输出相乘再加上第一输出为所述控制门模块的输出。
7.根据权利要求1-5任一项所述的一种基于注意力残差学习的道路场景语义分割方法,其特征在于,所述注意力残差模块,其输入包括第三输入和第四输入,由依次设置的第4神经网络层、第5神经网络层、第6神经网络层,第7神经网络层和第8个神经网络层;将所述第三输入和所述第四输入的叠连结果分别作为所述第4神经网络层、所述第5神经网络层、所述第6神经网络层的输入,将其三者的输出叠连在一起输入到所述第7神经网络层,得到第三输出;所述第四输入作为第8神经网络层的输入,其输出与所述第三输出相乘,得到第四输出,将第四输入与所述第四输出加和。
8.根据权利要求1所述的一种基于注意力残差学习的道路场景语义分割方法,其特征在于,所述损失函数值采用交叉熵函数作为损失函数获得。
9.根据权利要求1所述的一种基于注意力残差学习的道路场景语义分割方法,其特征在于,重复训练并计算损失函数值,确定损失函数值中最小值;所述最小值对应的权值矢量和偏置项对应作为所述神经网络的最优权值矢量和最优偏置项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010745354.4A CN111860411A (zh) | 2020-07-29 | 2020-07-29 | 一种基于注意力残差学习的道路场景语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010745354.4A CN111860411A (zh) | 2020-07-29 | 2020-07-29 | 一种基于注意力残差学习的道路场景语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111860411A true CN111860411A (zh) | 2020-10-30 |
Family
ID=72945294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010745354.4A Pending CN111860411A (zh) | 2020-07-29 | 2020-07-29 | 一种基于注意力残差学习的道路场景语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860411A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487143A (zh) * | 2020-11-30 | 2021-03-12 | 重庆邮电大学 | 一种基于舆情大数据分析的多标签文本分类方法 |
CN112733934A (zh) * | 2021-01-08 | 2021-04-30 | 浙江科技学院 | 复杂环境下的多模态特征融合道路场景语义分割方法 |
CN112837321A (zh) * | 2021-02-09 | 2021-05-25 | 北京航空航天大学 | 一种基于光场的场景语义分割系统及方法 |
CN113837192A (zh) * | 2021-09-22 | 2021-12-24 | 推想医疗科技股份有限公司 | 图像分割方法及装置,神经网络的训练方法及装置 |
CN118485835A (zh) * | 2024-07-16 | 2024-08-13 | 杭州电子科技大学 | 基于模态分歧差异融合的多光谱图像语义分割方法 |
CN118485834A (zh) * | 2024-07-12 | 2024-08-13 | 西南医科大学附属医院 | 一种基于人工智能的肿瘤分割方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110189334A (zh) * | 2019-05-28 | 2019-08-30 | 南京邮电大学 | 基于注意力机制的残差型全卷积神经网络的医学图像分割方法 |
CN110619638A (zh) * | 2019-08-22 | 2019-12-27 | 浙江科技学院 | 一种基于卷积块注意模块的多模态融合显著性检测方法 |
-
2020
- 2020-07-29 CN CN202010745354.4A patent/CN111860411A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110189334A (zh) * | 2019-05-28 | 2019-08-30 | 南京邮电大学 | 基于注意力机制的残差型全卷积神经网络的医学图像分割方法 |
CN110619638A (zh) * | 2019-08-22 | 2019-12-27 | 浙江科技学院 | 一种基于卷积块注意模块的多模态融合显著性检测方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487143A (zh) * | 2020-11-30 | 2021-03-12 | 重庆邮电大学 | 一种基于舆情大数据分析的多标签文本分类方法 |
CN112487143B (zh) * | 2020-11-30 | 2022-11-18 | 重庆邮电大学 | 一种基于舆情大数据分析的多标签文本分类方法 |
CN112733934A (zh) * | 2021-01-08 | 2021-04-30 | 浙江科技学院 | 复杂环境下的多模态特征融合道路场景语义分割方法 |
CN112837321A (zh) * | 2021-02-09 | 2021-05-25 | 北京航空航天大学 | 一种基于光场的场景语义分割系统及方法 |
CN112837321B (zh) * | 2021-02-09 | 2022-10-11 | 北京航空航天大学 | 一种基于光场的场景语义分割系统及方法 |
CN113837192A (zh) * | 2021-09-22 | 2021-12-24 | 推想医疗科技股份有限公司 | 图像分割方法及装置,神经网络的训练方法及装置 |
CN113837192B (zh) * | 2021-09-22 | 2024-04-19 | 推想医疗科技股份有限公司 | 图像分割方法及装置,神经网络的训练方法及装置 |
CN118485834A (zh) * | 2024-07-12 | 2024-08-13 | 西南医科大学附属医院 | 一种基于人工智能的肿瘤分割方法 |
CN118485835A (zh) * | 2024-07-16 | 2024-08-13 | 杭州电子科技大学 | 基于模态分歧差异融合的多光谱图像语义分割方法 |
CN118485835B (zh) * | 2024-07-16 | 2024-10-01 | 杭州电子科技大学 | 基于模态分歧差异融合的多光谱图像语义分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111860411A (zh) | 一种基于注意力残差学习的道路场景语义分割方法 | |
CN108596330B (zh) | 一种并行特征全卷积神经网络装置及其构建方法 | |
CN111738110A (zh) | 基于多尺度注意力机制的遥感图像车辆目标检测方法 | |
WO2021218786A1 (zh) | 一种数据处理系统、物体检测方法及其装置 | |
CN111401436B (zh) | 一种融合网络和双通道注意力机制的街景图像分割方法 | |
CN111782838A (zh) | 图像问答方法、装置、计算机设备和介质 | |
CN113468967A (zh) | 基于注意力机制的车道线检测方法、装置、设备及介质 | |
CN112488025B (zh) | 基于多模态特征融合的双时相遥感影像语义变化检测方法 | |
CN111563507A (zh) | 一种基于卷积神经网络的室内场景语义分割方法 | |
CN111208818B (zh) | 基于视觉时空特征的智能车预测控制方法 | |
CN112991364A (zh) | 基于卷积神经网络跨模态融合的道路场景语义分割方法 | |
CN115482518A (zh) | 一种面向交通场景的可扩展多任务视觉感知方法 | |
CN112990065A (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN111832453A (zh) | 基于双路深度神经网络的无人驾驶场景实时语义分割方法 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
CN113111740A (zh) | 一种遥感图像目标检测的特征编织方法 | |
CN114926722A (zh) | 基于YOLOv5的尺度自适应目标检测的方法及存储介质 | |
Liang et al. | Car detection and classification using cascade model | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN117611994A (zh) | 基于注意力机制加权特征融合的遥感图像目标检测方法 | |
Chen et al. | Research on object detection algorithm based on multilayer information fusion | |
CN115115915A (zh) | 基于智能路口的斑马线检测方法以及系统 | |
CN114332780A (zh) | 一种针对小目标的交通人车非目标检测方法 | |
CN118298399A (zh) | 一种基于YOLOv8模型优化的夜间车辆目标检测方法 | |
CN117011819A (zh) | 基于特征引导注意力的车道线检测方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |