CN113392711B - 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统 - Google Patents
一种基于高层语义与噪声抑制的烟雾语义分割方法及系统 Download PDFInfo
- Publication number
- CN113392711B CN113392711B CN202110544873.9A CN202110544873A CN113392711B CN 113392711 B CN113392711 B CN 113392711B CN 202110544873 A CN202110544873 A CN 202110544873A CN 113392711 B CN113392711 B CN 113392711B
- Authority
- CN
- China
- Prior art keywords
- layer
- semantic
- smoke
- level
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000779 smoke Substances 0.000 title claims abstract description 94
- 230000011218 segmentation Effects 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000001629 suppression Effects 0.000 title claims abstract description 20
- 230000004927 fusion Effects 0.000 claims abstract description 47
- 230000007246 mechanism Effects 0.000 claims abstract description 35
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 238000010606 normalization Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000010586 diagram Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 230000004931 aggregating effect Effects 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 230000002708 enhancing effect Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000003213 activating effect Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 230000008447 perception Effects 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000000750 progressive effect Effects 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 6
- 238000013461 design Methods 0.000 description 6
- 239000000243 solution Substances 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于高层语义与噪声抑制的烟雾语义分割系统及方法,该方法利用高层语义信息的全局感知能力指导底层特征重构,纠正底层烟雾特征偏移并抑制噪声。编码器首先生成包含空间细节信息和全局抽象语义信息的层级特征。然后基于渐进式解码对层级特征进行解码,得到最终特征输出。解码时,为解决底层烟雾特征偏移并抑制背景噪声,采用高层语义信息构建全局语义注意力指导底层空间信息重构。渐进式融合底层空间信息会引入新的噪声影响分割结果。为此,基于多头注意力构建了一种高效的特征融合机制,多头注意力针对不同位置产生不同的可学习权重,通过该权重矩阵实现渐进式解码噪声抑制。最后,通过归一化函数实现烟雾语义分割。
Description
技术领域
本发明涉及机器视觉及深度学习技术领域,特别涉及一种基于高层语义与噪声抑制的烟雾语义分割方法及系统。
背景技术
在各种灾害中,火灾是最频繁、最普遍的威胁公众安全和社会发展的主要灾害之一,不仅严重威胁着人们的生命财产安全,而且大规模的火灾会严重破坏生态平衡。及时而准确地发现火灾,能够为救援人员争取宝贵的扑救时间,减轻火灾的危害。由于烟雾可以提供比火焰更早的线索,基于烟雾的火灾探测可以更有效地减少火灾造成的损失,因此,许多研究人员致力于烟雾检测的研究。
语义分割在烟雾检测中被广泛使用,传统的烟雾语义分割需手工设计特征来进行检测。但是,由于不同场景下烟雾的外观差异大,手工设计特征非常复杂、繁琐,并且在天气和光线变化的情况下,手工设计的特征非常不稳定。最近,基于深度学习的方法在烟雾语义分割中取得了显著成果。然而,现有方法无法有效捕获具有强表示能力的高层语义信息,导致部分光线不明显或背景与烟雾类似的场景分割效果较差。渐进式地融合底层特征能够大幅度提升烟雾语义分割空间细节信息的恢复。简单的特征融合会进一步引入附加噪声,通过为融合特征的每个位置产生可学习的权重可以有效抑制附加噪声的影响。另外,底层特征由于只能关注到局部空间,从而会有大量的噪声影响烟雾边缘分割结果。高层语义信息具有全局感知能力,能够有效抑制噪声的干扰。值得说明的是,通过高层语义信息还能够纠正底层烟雾特征的偏移,从而进一步优化烟雾语义分割结果。基于这些思想,本发明引入了基于图像金字塔的高层语义信息增强模块,构建了基于高层上下文信息的全局语义注意力模块,基于多头注意力机制设计了一种高效的特征融合模块,最后引入通道注意力机制改善了解码特征内部差异,提升了烟雾语义分割性能。
发明内容
本发明的目的在于克服现有烟雾语义分割方法存在的技术缺陷,提出了基于高层语义与噪声抑制的烟雾语义分割方法,该方法能够有效纠正底层烟雾特征偏移并抑制底层特征中的噪声,此外,对于解码过程中引入的附加噪声也能起到良好的抑制作用。基于该方法,能够得到较好的烟雾语义分割结果,实现精准的烟雾定位。
为了实现上述目的,本发明提出了一种基于高层语义与噪声抑制的烟雾语义分割方法;所述方法包括:
步骤1)数据预处理,将训练集按预设数量进行随机分组;
步骤2)随机读取一组图片,由具有n层结构的编码器对输入图像进行多层次特征提取,得到分别包含空间细节信息和全局抽象语义信息的多尺度特征fi,i∈[1,n];
步骤3)将步骤2)编码器中最后一层高层语义特征fn输入至语义特征金字塔模块进行处理,捕获多尺度语义信息,增强高层语义特征的全局上下文信息表示能力,该多尺度语义信息可以表示为f′n;
步骤4)将基于多尺度高层语义信息f′n构建全局注意力机制并将其作用于编码器各个阶段的输出fi,i∈[1,n-1];所述全局注意力机制将高层语义信息f′n与不同层次编码特征fi进行融合得到交叉语义信息并通过多头注意力机制实现特征重构;所述全局注意力机制能够有效缓解烟雾特征偏移并抑制底层特征中包含的噪声。
步骤5)将基于多头注意力机制构建高效的特征融合模块;所述特征融合模块首先将解码器第i层解码后的输出fi d(i∈[1,n-1])进行2倍上采样得到特征fi d'并与步骤4输出的交叉语义特征进行融合,渐进式地聚合多尺度高级上下文信息和底层空间细节信息,然后通过多头注意力重构得到噪声经大幅度抑制的融合特征最后由通道注意力模块对进行处理,增强特征的内部相关性,得到解码器第i+1 层的输出特征图
其中,第一层解码器的输入为步骤3)得到的多尺度高层语义信息f′n,并直接经由双线性插值和通道注意力模块处理得到输出f1 d;
步骤6)对所述解码器最后一层的输出fn d进行上采样,得到与原始输入图像相同分辨率的输出特征;
步骤7)对输出特征进行特征映射并采用交叉熵计算预测结果与真实值之间的损失,并采用梯度下降法对模型中的参数进行更新;反复迭代,直至训练出最优参数组合;
步骤8)基于最优参数模型实现烟雾语义分割。在上述技术方案的基础上,所述步骤1)具体包括:
步骤1-1)采用双线性插值的方法对输入图片进行裁剪,使得其满足模型输入所需大小224×224×3;
步骤1-2)将所有图片按每组16张进行随机划分成N个组。
在上述技术方案的基础上,所述语义特征金字塔模块包括4个分支,第一分支为卷积核大小为1*1,膨胀率为0的空洞卷积层;第二分支为卷积核大小为3*3,膨胀率为3的空洞卷积层;第三分支为卷积核大小为3*3,膨胀率为5的空洞卷积层;第四分支为卷积核大小为3*3,膨胀率为7的空洞卷积层;
所述步骤3)具体包括:
步骤3-1)将编码器最后一层输出的层级语义特征fn分别经过语义特征金字塔模块的4个分支进行运算,得到对应的4组特征图;
步骤3-2)将所述4组特征图进行级联,得到多尺度特征f′n,计算公式如下:
f′n=concat[dc0(fn),dc3(fn),dc5(fn),dc7(fn)]
其中,dcr表示膨胀率为r的空洞卷积函数。
在上述技术方案的基础上,所述步骤4)具体包括:
其中,通过双线性插值运算实现上采样,计算过程如下:
f(x,y)=p(x,y)/((x2-x1)*(y2-y1))
p(x,y)=f(Q11)*T(x2,y2)-f(Q21)*T(x1,y2)-f(Q12)*T(x2,y1)+f(Q22)*T(x1,y1)
T(xi,yi)=(xi-x)*(yi-y),i,j∈{1,2}
其中xi,yi代表与像素(x,y)相邻的像素位置,f(Qij)=f(xi,yj);
步骤4-3)将所述fi cc经多头注意力机制运算,得到包含烟雾特征优化和噪声抑制在内的重构矩阵W;
其中,多头注意力机制的计算过程如下:
MHA(Q,K,V)=C(head1,head2,...,headn)W
headi=Attn(QWi Q,KWi K,VWi V)
另外,所述第一卷积层、第二卷积层及第三卷积层均包括256个大小为1*1卷积核。
在上述技术方案的基础上,所述步骤5)具体包括:
步骤5-2)将经解码器第一层解码后的输出f1 d与步骤4)得到的特征经由特征融合模块处理,得到多尺度融合特征然后经多头注意力机制处理得到重构矩阵,实现噪声抑制,最后由通道注意力模块对进行处理,得到特征作为解码器第二层的输入;
在上述技术方案的基础上,步骤5)中特征融合模块处理过程包括:
将fi'输入至多头注意力模块为多尺度融合特征每个位置产生可学习的权重,得到自适应重构矩阵wi,通过自适应重构矩阵wi的重构作用抑制特征融合过程引入的附加噪声,即由fi'与wi进行按位置相乘计算得到特征计算公式如下:
在上述技术方案的基础上,所述步骤5)中的通道注意力模块处理过程包括:
将vc经过一个全连接层之后采用Sigmoid函数进行激活,之后经过1个一维卷积层并采用ReLU函数进行激活;
将ReLU函数进行激活后的输出,经过softmax函数进行通道向量归一化,得到权重矩阵A;
计算公式如下:
A=softmax(σ(conv1d(δ(h1(vc,w1)),w2)))
其中,wi指通道注意模块的权重,σ表示ReLU函数,δ表示Sigmoid函数,h 表示全连接层,conv1d表示1维卷积层。
在上述技术方案的基础上,所述特征映射包括1个3×3卷积层和1个Sigmoid 函数;所述3×3卷积层实现解码特征向烟雾语义分割输出结果的特征映射;采用 Sigmoid归一化函数进行归一化处理,得到图像的像素级分类结果,表示为:
其中,i表示第i个得分值,∑jej表示所有特征值的总和;选取概率最大值对应的类别作为像素级烟雾检测的判别结果。
在上述技术方案的基础上,所述步骤7)具体包括:
步骤7-1)将模型输出的结果与真实标签进行误差求取;所述误差求取采用交叉熵,其可以表示为:
步骤7-2)采用步骤7-1)得到的参数作为本次迭代的权重值;从剩余的图片中随机选取一组图片,经步骤1)、步骤2)、步骤3)、步骤4)、步骤5)、步骤6) 和步骤7-1),得到新的参数组合;反复迭代,直至完成一次epoch;
步骤7-3)对训练图片进行重新洗牌,转至步骤1);反复执行,直至训练出最优参数组合。
在上述技术方案的基础上,所述步骤8)具体包括:
步骤8-1)对于待检测的图片,利用双线性插值将待测图片的尺寸调整至模型输入所需大小320×320×3;
步骤8-2)将调整后的图片输入至最优参数模型,经模型前向传输得到预测结果;
步骤8-3)将每一像素的预测结果最大概率值所对应的类别是与真实标签进行比较,若一致,则预测正确,反之,则预测错误;
步骤8-4)执行步骤8-1)、步骤8-2)和步骤8-3),直到全部待测图片检测完毕。
本发明还提供一种基于高层语义与噪声抑制的烟雾语义分割系统,根据上述任一方法构建的烟雾语义分割模型实现,所述系统包括:
数据预处理模块,用于对将被输入至模型的图片进行尺寸调整;
编码器,用于对输入图像进行多层次特征的提取,得到分别包含空间细节信息和全局抽象语义信息的层级特征;
解码器,用于聚合高层上下文特征和底层空间细节特征,实现烟雾语义分割;
语义特征金字塔模块,用捕获更大范围内的语义信息,增强特征的全局上下文信息的表示能力;
全局语义注意力模块,用于纠正烟雾底层特征偏移并抑制噪声,得到交叉语义特征;
特征融合模块,用于聚合高级上下文信息和低级空间细节特征,得到多尺度融合特征;
通道注意力模块,用于增强特征的内部相关性,重构多尺度融合特征。
与现有方法相比,本发明的技术优势在于:
本发明提供的烟雾语义分割技术方案,利用高层语义信息的全局感知能力指导底层特征重构,纠正底层烟雾特征偏移并抑制噪声。基于渐进式解码对层级特征进行解码能够有效融合烟雾的高层语义和底层空间细节,使最终的解码特征中包含丰富的空间细节和高层语义信息,优化烟雾语义分割结果。解码时,为解决底层烟雾特征偏移并抑制背景噪声,采用高层语义信息构建全局语义注意力指导底层空间信息重构。渐进式融合底层空间信息会引入新的噪声影响分割结果。为此,基于多头注意力构建了一种高效的特征融合机制,多头注意力针对不同位置产生不同的可学习权重,通过该权重矩阵实现渐进式解码噪声抑制。最后通过通道注意力模块处理可以更好地学习到特征之间的相关性,改善特征之间的差异。
本发明提供的烟雾语义分割技术方案,对烟雾具有更强的学习能力,实现了像素级别的烟雾语义分割,能够对烟雾进行像素级别的精准定位,检测不同场景中差别大的烟雾时,表现出较强的鲁棒性。在测试基准数据集时,本发明所提供的方法取得了超过现有方法的性能。
附图说明
图1为本发明提供的烟雾语义分割模型示意图;
图2为本发明提供的基于图像金字塔的高层语义特征增强结构示意图;
图3为本发明提供的全局语义注意力模块结构示意图;
图4为本发明提供的基于多头注意力的特征融合模块结构示意图;
图5为本发明提供的通道注意力模块结构示意图。
具体实施方式
下面结合附图和具体实施来对本发明作进一步描述。
图1为本发明提供的基于多网融合的烟雾语义分割网络模型示意图,如图1所示,其中,“SFE”表示基于图像金字塔的高层语义特征增强模块,“GAM”表示全局语义注意力模块,“FFM”表示基于多头注意力的特征融合模块,“CA”表示通道注意力模块,“MHA”表示多头注意力机制,骨干网络可以采用ResNet50。
如图1所示的烟雾语义分割网络由对称的编码器-解码器、高层语义特征增强模块SFE,全局语义注意力模块GAM,特征融合模块FFM和通道注意力模块CA构成。该网络的数据处理过程具体包括:
步骤1)数据预处理,将训练集按预设数量进行随机分组;
步骤2)随机读取一组图片,由具有n层结构的编码器对输入图像进行多层次特征提取,得到分别包含空间细节信息和全局抽象语义信息的层级特征fi,i∈[1,n];
步骤3)将步骤2)编码器中最后一层高层语义特征fn输入至语义特征金字塔模块进行处理,捕获多尺度语义信息,增强高层语义特征的全局上下文信息表示能力,该多尺度高层语义信息可以表示为f′n;
步骤4)将基于多尺度高层语义信息f′n构建全局注意力机制并将其作用于编码器各个阶段的输出fi,i∈[1,n-1];所述全局注意力机制将多尺度高层语义信息f′n与不同层次编码特征fi进行融合得到交叉语义信息fi cc并通过多头注意力机制实现特征重构;所述全局注意力机制通过具有全局感知能力的高层语义信息纠正底层烟雾特征偏移并抑制底层特征中包含的噪声。
步骤5)将基于多头注意力机制构建高效的特征融合模块;所述特征融合模块首先将解码器第i层解码后的输出fi d(i∈[1,n-1])进行2倍上采样得到特征fi d'并与步骤4输出的交叉语义特征进行融合,渐进式地聚合多尺度高级上下文信息和底层空间细节信息,然后通过多头注意力重构,得到噪声经大幅度抑制的融合特征最后由通道注意力模块对进行处理,增强特征的内部相关性,得到解码器第i+1 层的输出特征图
其中,第一层解码器的输入为步骤3)得到的多尺度高层语义信息f′n,并直接经由双线性插值和通道注意力模块处理得到输出f1 d;
步骤7)对输出特征进行特征映射并采用交叉熵计算预测结果与真实值之间的损失,并采用梯度下降法对模型中的参数进行更新;反复迭代,直至训练出最优参数组合;
步骤8)基于最优参数模型实现烟雾语义分割。
将得到的特征图上采样为与原始输入图像相同的分辨率,则可以通过后续特征映射,确定出与原始图片各像素点位置对应的每一特征图像素点是否为烟雾,实现像素级别的烟雾检测。当获取到所有像素点是否为烟雾的检测结果后,以像素点为单位就可以确定出烟雾在图片中的边界,烟雾在图片中的位置,以及烟雾覆盖的区域等信息。
为实现烟雾语义分割,一种做法是直接将编码后的高级语义特征上采样到输入图像的原始分辨率,但是直接上采样将会丢失大量空间细节信息,从而导致边界分割模糊。本发明利用高层语义信息的全局感知能力指导底层特征重构,纠正底层烟雾特征偏移并抑制噪声。基于渐进式解码对层级特征进行解码能够有效融合烟雾的高层语义和底层空间细节,使最终的解码特征中包含丰富的空间细节和高层语义信息,优化烟雾语义分割结果。解码时,为解决底层烟雾特征偏移并抑制背景噪声,采用高层语义信息构建全局语义注意力指导底层空间信息重构。渐进式融合底层空间信息会引入新的噪声影响分割结果。为此,基于多头注意力构建了一种高效的特征融合机制,多头注意力针对不同位置产生不同的可学习权重,通过该权重矩阵实现渐进式解码噪声抑制。最后通过通道注意力模块处理可以更好地学习到特征之间的相关性,改善特征之间的差异。本发明提供的烟雾语义分割技术方案,对烟雾具有更强的学习能力,实现了像素级别的烟雾语义分割,能够对烟雾进行像素级别的精准定位,检测不同场景中差别大的烟雾时,表现出较强的鲁棒性。在测试基准数据集时,本发明所提供的方法取得了超过现有方法的性能。
具体的,上述步骤5)具体包括:
步骤5-2)将经解码器第一层解码后的输出f1 d与步骤4)得到的特征经由特征融合模块处理,得到多尺度融合特征然后经多头注意力机制处理得到重构矩阵,实现噪声抑制,最后由通道注意力模块对进行处理,得到特征作为解码器第二层的输入;
图2为本发明提供的基于图像金字塔的高层语义特征增强模块结构示意图,如图2所示的高层语义特征增强模块包括4个分支,第一分支为卷积核大小为1*1,膨胀率为0的空洞卷积层;第二分支为卷积核大小为3*3,膨胀率为3的空洞卷积层;第三分支为卷积核大小为3*3,膨胀率为5的空洞卷积层;第四分支为卷积核大小为 3*3,膨胀率为7的空洞卷积层;
上述步骤3)具体包括:
步骤3-1)将编码器最后一层输出的层级语义特征fn分别经过语义特征金字塔模块的4个分支进行运算,得到对应的4组特征图;
步骤3-2)将所述4组特征图进行级联,得到多尺度特征f′n,计算公式如下:
f′n=concat[dc0(fn),dc3(fn),dc5(fn),dc7(fn)]
其中,dcr表示膨胀率为r的空洞卷积函数。
视觉上下文信息对于烟雾的语义分割非常重要。基于CNN的深度学习模型通常通过堆叠多个卷积层来捕获被检测对象的上下文信息。另外,不同场景中,烟雾外观的质地、颜色和形状存在较大差异,使得烟雾语义分割更具挑战性。本发明基于图像金字塔原理设计了高层语义特征增强模块SFE。通过采用4组具有不同膨胀率的空洞卷积,可以捕获到表示烟雾的尺度和形状不变性的多感知域上下文信息,通过级联操作实现特征聚合,获得具有多尺度全局上下文感知信息的特征。从而有效克服由于烟雾外观(纹理、颜色和形状等)和背景等差异造成分割效果较差的问题。
图3为本发明提供的全局注意力模块结构示意图,其中“U”表示上采样,“MHA”表示多头注意力机制,如图3所示,上述步骤4)具体包括:
其中,通过双线性插值运算实现上采样,计算过程如下:
f(x,y)=p(x,y)/((x2-x1)*(y2-y1))
p(x,y)=f(Q11)*T(x2,y2)-f(Q21)*T(x1,y2)-f(Q12)*T(x2,y1)+f(Q22)*T(x1,y1)
T(xi,yi)=(xi-x)*(yi-y),i,j∈{1,2}
其中xi,yi代表与像素(x,y)相邻的像素位置,f(Qij)=f(xi,yj);
步骤4-3)将所述fi cc经多头注意力机制运算,得到包含烟雾特征优化和噪声抑制在内的重构矩阵W;
其中,多头注意力机制的计算过程如下:
MHA(Q,K,V)=C(head1,head2,...,headn)W
headi=Attn(QWi Q,KWi K,VWi V)
另外,所述第一卷积层、第二卷积层及第三卷积层均包括256个大小为1*1卷积核。
在解码阶段,渐进式融合底层空间细节信息可以增强不同分辨率特征对被检测对象的表达能力,从而优化目标对象边缘分割效果。但是,简单的融合方式存在以下问题:1)底层烟雾特征由于不具备全局信息产生特征偏移;2)底层空间特征包含大量噪声。此外,上采样操作还会导致高层抽象语义信息被稀释。
本发明设计了上述全局语义注意力机制,该机制采用两个1×1卷积分别对输入的底层空间细节特征和多尺度高层语义特征进行卷积计算,将它们的通道压缩至256,然后利用双线性插值对高层语义特征进行上采样并按通道聚合高层语义和底层空间信息。然而,简单的融合并不能完全发掘高层语义纠正底层烟雾特征偏移和抑制背景噪声。本发明为此采用多头注意力机制为每个位置生成可学习权重来通过高层语义指导底层空间细节特征的重构,从而实现了特征偏移纠正和噪声抑制。另外减轻了渐进式上采样过程中全局信息稀释的影响,使得解码特征输出对烟雾具有更强的表达能力。
图4为本发明提供的基于多头注意力的特征融合模块结构示意图,如图4所示,“MHA”表示多头注意力机制,“W”为多头注意力机制计算出的权重矩阵,上述步骤5)中特征融合模块处理过程包括:
将fi'输入至多头注意力模块为多尺度融合特征每个位置产生可学习的权重,得到自适应重构矩阵wi,通过自适应重构矩阵wi的重构作用抑制特征融合过程引入的附加噪声,即由fi'与wi进行按位置相乘计算得到特征计算公式如下:
通过该特征融合模块,可以更加有效地聚合底层空间细节信息并抑制附加噪声,实现高效的特征融合。
图5为本发明提供的通道注意力模块结构示意图,其中,“GAP”表示全局平均池化,“C”表示特征图通道数,“H”表示特征图的高度,“W”表示特征图的宽度。如图5所示,上述步骤5)中的通道注意力模块处理过程包括:
将vc经过一个全连接层之后采用Sigmoid函数进行激活,之后经过1个一维卷积层并采用ReLU函数进行激活;
将ReLU函数进行激活后的输出,经过softmax函数进行通道向量归一化,得到权重矩阵A;
计算公式如下:
A=softmax(σ(conv1d(δ(h1(vc,w1)),w2)))
其中,wi指通道注意模块的权重,σ表示ReLU函数,δ表示Sigmoid函数,h 表示全连接层,conv1d表示1维卷积层。
在CNN中不同的特征通道对不同语义或空间信息的响应不同。在解码阶段,将高级和低级的特征进行聚合,可以获得被检测对象的多尺度特征表达。为获取烟雾语义分割图,最直接的一种方法使应用softmax层,但这样做存在一些缺点。例如,不同层级特征之间的互相影响可能导致边界模糊和不完整。为此,本发明设计了通道注意力(CA)模块,在CA模块中通过全局平均池化操作将融合特征进行压缩,之后可采用两个连续的全连接层来捕获逐通道间的相关性,但仅采用全连接方式会丢失特征图的内部相关性,所以本发明采用了一维卷积来替换通用的全连接。通过使用非线性函数,如ReLU和Sigmoid,将vc转换为可学习的参数。经过CA模块的运算,会将更大的权重分配给对烟雾反应强烈的通道,重构融合特征,进一步增强所提取的特征对烟雾的表达能力。
可选的,上述特征映射包括1个3×3卷积层和1个Sigmoid函数;所述3×3 卷积层实现解码特征向烟雾语义分割输出结果的特征映射;采用Sigmoid归一化函数进行归一化处理,得到图像的像素级分类结果,表示为:
其中,i表示第i个得分值,∑jej表示所有特征值的总和;选取概率最大值对应的类别作为像素级烟雾检测的判别结果;
可选的,上述步骤7)具体包括:
步骤7-1)将模型输出的结果与真实标签进行误差求取;所述误差求取采用交叉熵,其可以表示为:
步骤7-2)采用步骤7-1)得到的参数作为本次迭代的权重值;从剩余的图片中随机选取一组图片,经步骤2)、步骤3)、步骤4)、步骤5)、步骤6)和步骤7-1),得到新的参数组合;反复迭代,直至完成一个训练周期(epoch);
步骤7-3)对训练图片进行重新洗牌,转至步骤1);反复执行,直至训练出最优参数组合。
可选的,上述步骤8)具体包括:
步骤8-1)对于待检测的图片,利用双线性插值将待测图片的尺寸调整至模型输入所需大小224×224×3;
步骤8-2)将调整后的图片输入至最优参数模型,经模型前向传输得到预测结果;
步骤8-3)将每一像素的预测结果最大概率值所对应的类别是与真实标签进行比较,若一致,则预测正确,反之,则预测错误;
步骤8-4)执行步骤8-1)、步骤8-2)和步骤8-3),直到全部待测图片检测完毕。
本发明还提供一种基于高层语义和噪声抑制的烟雾语义分割系统,根据上述实施例提供的任意方法构建的烟雾语义分割网络实现,该系统包括:
数据预处理模块,用于对将被输入至模型的图片进行尺寸调整;
编码器,用于对输入图像进行多层次特征的提取,得到分别包含空间细节信息和全局抽象语义信息的层级特征;
解码器,用于聚合高层上下文特征和底层空间细节特征,实现烟雾语义分割;
语义特征金字塔模块,用捕获更大范围内的语义信息,增强特征的全局上下文信息的表示能力;
全局语义注意力模块,用于纠正烟雾底层特征偏移并抑制噪声,得到交叉语义特征;
特征融合模块,用于聚合高级上下文信息和低级空间细节特征,得到多尺度融合特征;
通道注意力模块,用于增强特征的内部相关性,重构多尺度融合特征。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于高层语义与噪声抑制的烟雾语义分割方法,所述方法包括:
步骤1)数据预处理,将训练集按预设数量进行随机分组;
步骤2)随机读取一组图片,由具有n层结构的编码器对输入图像进行多层次特征提取,得到分别包含空间细节信息和全局抽象语义信息的层级特征fi,i∈[1,n];
步骤3)将步骤2)编码器中最后一层高层语义特征fn输入至语义特征金字塔模块进行处理,捕获多尺度语义信息,增强高层语义特征的全局上下文信息表示能力,得到多尺度高层语义信息,表示为f'n;
步骤4)将基于多尺度高层语义信息f'n构建全局注意力机制并将其作用于编码器各个阶段的输出fi,i∈[1,n-1];所述全局注意力机制将高层语义信息f'n与不同层次编码特征fi进行融合得到交叉语义信息fi cc并通过多头注意力机制实现特征重构;所述全局注意力机制通过具有全局感知能力的高层语义信息纠正底层烟雾特征偏移并抑制底层特征中包含的噪声;
步骤5)将基于多头注意力机制构建高效的特征融合模块;所述特征融合模块首先将解码器第i层解码后的输出fi d(i∈[1,n-1])进行2倍上采样得到特征fi d'并与步骤4输出的交叉语义特征进行融合,渐进式地聚合多尺度高级上下文信息和底层空间细节信息,然后通过多头注意力重构,得到噪声经大幅度抑制的融合特征最后由通道注意力模块对进行处理,增强特征的内部相关性,得到解码器第i+1层的输出特征图
其中,第一层解码器的输入为步骤3)得到的多尺度高层语义信息fn',并直接经由双线性插值和通道注意力模块处理得到输出f1 d;
步骤7)对输出特征进行特征映射并采用交叉熵计算预测结果与真实值之间的损失,并采用梯度下降法对模型中的参数进行更新;反复迭代,直至训练出最优参数组合;
步骤8)基于最优参数模型实现烟雾语义分割。
2.根据权利要求1所述的方法,其特征在于,所述语义特征金字塔模块包括4个分支,第一分支为卷积核大小为1*1,膨胀率为0的空洞卷积层;第二分支为卷积核大小为3*3,膨胀率为3的空洞卷积层;第三分支为卷积核大小为3*3,膨胀率为5的空洞卷积层;第四分支为卷积核大小为3*3,膨胀率为7的空洞卷积层;
所述步骤3)具体包括:
步骤3-1)将编码器最后一层输出的层级语义特征fn分别经过语义特征金字塔模块的4个分支进行运算,得到对应的4组特征图;
步骤3-2)将所述4组特征图进行级联,得到多尺度特征f'n,计算公式如下:
f'n=concat[dc0(fn),dc3(fn),dc5(fn),dc7(fn)]
其中,dcr表示膨胀率为r的空洞卷积函数。
3.根据权利要求1所述的方法,其特征在于,所述步骤4)具体包括:
其中,通过双线性插值运算实现上采样,计算过程如下:
f(x,y)=p(x,y)/((x2-x1)*(y2-y1))
p(x,y)=f(Q11)*T(x2,y2)-f(Q21)*T(x1,y2)-f(Q12)*T(x2,y1)+f(Q22)*T(x1,y1)
T(xi,yi)=(xi-x)*(yi-y),i,j∈{1,2}
其中xi,yi代表与像素(x,y)相邻的像素位置,f(Qij)=f(xi,yj);
步骤4-3)将所述fi cc经多头注意力机制运算,得到包含烟雾特征优化和噪声抑制在内的重构矩阵W;
其中,多头注意力机制的计算过程如下:
MHA(Q,K,V)=C(head1,head2,...,headn)W
headi=Attn(QWi Q,KWi K,VWi V)
另外,所述第一卷积层、第二卷积层及第三卷积层均包括256个大小为1*1卷积核。
9.根据权利要求1所述的方法,其特征在于,所述步骤8)具体包括:
步骤8-1)对于待检测的图片,利用双线性插值将待测图片的尺寸调整至模型输入所需大小320×320×3;
步骤8-2)将调整后的图片输入至最优参数模型,经模型前向传输得到预测结果;
步骤8-3)将每一像素的预测结果最大概率值所对应的类别与真实标签进行比较,若一致,则预测正确,反之,则预测错误;
步骤8-4)执行步骤8-1)、步骤8-2)和步骤8-3),直到全部待测图片检测完毕。
10.一种基于高层语义与噪声抑制的烟雾语义分割系统,根据权利要求1-9任一项所述的方法构建的烟雾语义分割模型实现,所述系统包括:
数据预处理模块,用于对将被输入至模型的图片进行尺寸调整;
编码器,用于对输入图像进行多层次特征的提取,得到分别包含空间细节信息和全局抽象语义信息的层级特征;
解码器,用于聚合高层上下文特征和底层空间细节特征,实现烟雾语义分割;
语义特征金字塔模块,用于捕获更大范围内的语义信息,增强特征的全局上下文信息的表示能力;
全局语义注意力模块,用于纠正烟雾底层特征偏移并抑制噪声,得到交叉语义特征;
特征融合模块,用于聚合高级上下文信息和低级空间细节特征,得到多尺度融合特征;
通道注意力模块,用于增强特征的内部相关性,重构多尺度融合特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110544873.9A CN113392711B (zh) | 2021-05-19 | 2021-05-19 | 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110544873.9A CN113392711B (zh) | 2021-05-19 | 2021-05-19 | 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113392711A CN113392711A (zh) | 2021-09-14 |
CN113392711B true CN113392711B (zh) | 2023-01-06 |
Family
ID=77617228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110544873.9A Active CN113392711B (zh) | 2021-05-19 | 2021-05-19 | 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392711B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114037833B (zh) * | 2021-11-18 | 2024-03-19 | 桂林电子科技大学 | 一种苗族服饰图像语义分割方法 |
CN114358283A (zh) * | 2022-01-12 | 2022-04-15 | 深圳大学 | 气体识别神经网络模型的优化方法及相关设备 |
CN115019039B (zh) * | 2022-05-26 | 2024-04-16 | 湖北工业大学 | 一种结合自监督和全局信息增强的实例分割方法及系统 |
CN115631153A (zh) * | 2022-10-14 | 2023-01-20 | 佳源科技股份有限公司 | 一种基于感知学习结构的管廊视觉缺陷检测方法及系统 |
CN115393598A (zh) * | 2022-10-31 | 2022-11-25 | 南京理工大学 | 一种基于非显著区域对象挖掘的弱监督语义分割方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680695A (zh) * | 2020-06-08 | 2020-09-18 | 河南工业大学 | 一种基于反向注意力模型的语义分割方法 |
CN112084336A (zh) * | 2020-09-09 | 2020-12-15 | 浙江综合交通大数据中心有限公司 | 一种高速公路突发事件的实体提取和事件分类方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11526808B2 (en) * | 2019-05-29 | 2022-12-13 | The Board Of Trustees Of The Leland Stanford Junior University | Machine learning based generation of ontology for structural and functional mapping |
CN111563909B (zh) * | 2020-05-10 | 2023-05-05 | 中国人民解放军91550部队 | 一种复杂街景图像语义分割方法 |
-
2021
- 2021-05-19 CN CN202110544873.9A patent/CN113392711B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680695A (zh) * | 2020-06-08 | 2020-09-18 | 河南工业大学 | 一种基于反向注意力模型的语义分割方法 |
CN112084336A (zh) * | 2020-09-09 | 2020-12-15 | 浙江综合交通大数据中心有限公司 | 一种高速公路突发事件的实体提取和事件分类方法及装置 |
Non-Patent Citations (3)
Title |
---|
An Efficient Fire Detection Method Based on Multiscale Feature Extraction, Implicit Deep Supervision and Channel Attention Mechanism;Songbin Li等;《IEEE TRANSACTIONS ON IMAGE PROCESSING》;20200819;第8467-8475页 * |
MS-Pointer Network: Abstractive Text Summary Based on Multi-Head Self-Attention;Qian Guo等;《IEEE Access》;20190917;第138603-138613页 * |
基于生成对抗网络的一阶段目标检测算法研究;郑群;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20210115;I138-1577 * |
Also Published As
Publication number | Publication date |
---|---|
CN113392711A (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113392711B (zh) | 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统 | |
CN111275637B (zh) | 一种基于注意力模型的非均匀运动模糊图像自适应复原方法 | |
CN111798400B (zh) | 基于生成对抗网络的无参考低光照图像增强方法及系统 | |
CN111915530B (zh) | 一种基于端到端的雾霾浓度自适应神经网络图像去雾方法 | |
CN109447907B (zh) | 一种基于全卷积神经网络的单图像增强方法 | |
CN111161178A (zh) | 基于生成式对抗网络的单幅低光图像增强方法 | |
CN113076957A (zh) | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 | |
CN112651917A (zh) | 一种基于生成对抗网络的空间卫星低照度图像增强方法 | |
CN115565056A (zh) | 基于条件生成对抗网络的水下图像增强方法及系统 | |
CN115063318A (zh) | 自适应频率分解的低光照图像增强方法与相关设备 | |
CN115908789A (zh) | 跨模态特征融合及渐近解码的显著性目标检测方法及装置 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN115641391A (zh) | 一种基于密集残差和双流注意力的红外图像彩色化方法 | |
CN111145277A (zh) | 一种深度语义感知与bpg压缩工具的图像压缩方法 | |
CN117151990B (zh) | 一种基于自注意力编码解码的图像去雾方法 | |
CN115457568B (zh) | 一种基于生成对抗网络的历史文档图像降噪方法及系统 | |
CN116523794A (zh) | 一种基于卷积神经网络的低光照图像增强方法 | |
CN116485654A (zh) | 卷积神经网络与Transformer相结合的轻量级单图像超分辨率重建方法 | |
CN113313721B (zh) | 基于多尺度结构的实时语义分割方法 | |
CN115578638A (zh) | 一种基于U-Net的多层次特征交互去雾网络的构建方法 | |
CN115641445A (zh) | 一种非对称内卷积与Transformer相融合的遥感图像阴影检测方法 | |
CN111597847A (zh) | 一种二维码识别方法、装置、设备及可读存储介质 | |
CN113256528B (zh) | 基于多尺度级联深度残差网络的低照度视频增强方法 | |
CN114299091A (zh) | 一种基于DA-Net的杂草自动分割方法 | |
CN117635645B (zh) | 一种复杂稠密网络下的并置多尺度融合边缘检测模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |