CN113393521B - 一种基于双语义注意力机制的高精度火焰定位方法及系统 - Google Patents
一种基于双语义注意力机制的高精度火焰定位方法及系统 Download PDFInfo
- Publication number
- CN113393521B CN113393521B CN202110545613.3A CN202110545613A CN113393521B CN 113393521 B CN113393521 B CN 113393521B CN 202110545613 A CN202110545613 A CN 202110545613A CN 113393521 B CN113393521 B CN 113393521B
- Authority
- CN
- China
- Prior art keywords
- layer
- features
- local
- global
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000009977 dual effect Effects 0.000 title claims abstract description 13
- 230000004927 fusion Effects 0.000 claims abstract description 36
- 238000005457 optimization Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 230000008447 perception Effects 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims description 39
- 238000004364 calculation method Methods 0.000 claims description 34
- 238000011176 pooling Methods 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 230000006835 compression Effects 0.000 claims description 9
- 238000007906 compression Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims 1
- 230000011218 segmentation Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 241000134916 Amanita Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双语义注意力机制的高精度火焰定位方法及系统,该方法包括:通过编码器对输入图像进行多层次特征提取,得到对应的空间细节和高级上下文特征。解码器用于逐步聚合高级上下文特征和低级空间细节,并生成火焰分割图。在解码操作之前,对编码器得到的层级特征进行全局和局部感知注意机制处理,来捕获更完整的高级语义和全局上下文信息,之后采用具有双线性插值的四个交叉语义注意机制获取优化后的局部空间细节信息,采用特征融合策略来聚合高级上下文特征和低级的空间细节特征,并通过自优化机制来捕获每个解码层内部特征图之间的异同并逐步生成火焰分割图,实现对火焰像素级别的精准定位。
Description
技术领域
本发明涉及机器视觉及深度学习技术领域,特别涉及一种基于双语义注意力机制的高精度火焰定位方法及系统。
背景技术
火灾作为一个高度频发、破环性极大的自然灾害,严重威胁着人们的生命财产安全,大规模的火灾还会给生态平衡造成巨大的创伤。如2019年以来亚马孙森林火灾数量超过7.2万起,火灾频发严重影响着周边居民的生产生活。2109年澳大利亚大火事件对全球经济和生态环境造成重大影响,截至2020年7月28日,澳大利亚丛林大火或已致30亿动物死亡。2019年4月,法国巴黎圣母院发生火灾,其标志性尖顶被烧断,坍塌倒下,整座建筑损毁严重。因此,为避免火灾大规模蔓延造成的严重损失,及时准确的火灾探测和定位至关重要。
随着科学技术的进步,现有的火灾探测方法可以分为传统的接触式传感器和计算机视觉两大类。前者包括烟雾传感器,颗粒传感器和温度传感器等。受部署密度的限制,基于接触传感器的方法无法覆盖较大的区域。基于视觉的火灾探测方法具有覆盖范围广和响应速度快的优点,受到社会各界的广泛关注。在2015年之前,基于视觉的火灾探测主要依靠手工设计的特征,例如颜色、形状、纹理和动态特征等。该类方法的主要缺点手工设计特征非常复杂繁琐,较高的错误检测率以及缺乏鲁棒性。近年来,随着将深度学习技术引入基于视觉的火灾探测中,使得火灾探测技术取得了长足的进步。但是,现有方法均属于图像级别的火灾检测,仅能识别图像中是否有火灾,而无法获得火灾的方向、位置和范围大小等信息。
发明内容
本发明的目的在于克服现有火灾检测方法存在的技术缺陷,提出了一种基于双语义注意力机制的高精度火焰定位方法及系统,该方法能够进行像素级别的火焰检测,实现对火焰的定位,大大提高了火灾的检测精度,也更适用于复杂情况下的火灾检测。
为了实现上述目的,本发明提出了一种基于双语义注意力机制的高精度火焰定位方法;所述方法包括:
步骤1)数据预处理,将训练所需图片按每组a张随机分成m组;
步骤2)随机读取一组图片,由具有n层结构的编码器对输入图像进行多层次特征提取,得到每一层对应的层级特征fi,i∈[1,n];
步骤3)将步骤2)中最后一层的层级特征fn,进行全局和局部感知注意机制处理,捕获更丰富的高级语义和全局上下文信息,得到全局及局部语义融合特征f'n;
步骤5)将编码器第n-i层的局部空间细节优化特征与对应的第i层解码器的输出fi-d进行特征融合机制处理后,得到解码器每层的输出特征i∈[1,n-1],对进行自优化机制处理,得到自优化输出结果oi,其中,所述解码器第1层的输入为所述全局及局部语义融合特征f'n经自优化机制处理后的输出fin-d;
步骤6)对所述解码器最后一层的输出fn-d,进行上采样,得到与原始输入图像相同分辨率的输出特征;
步骤7)对输出特征进行特征映射,并采用梯度下降法对模型中的参数进行更新;反复迭代,直至训练出最优参数组合;
步骤8)基于最优参数模型实现火焰定位。
进一步的,所述全局和局部感知注意机制包括全局上下文分支和局部上下文分支;所述步骤3)具体包括:
其中,“gp”表示自适应最大池化处理,“⊙”表示通道乘法,“conv”表示卷积操作,“δ”表示ReLU激活函数;
其中,staked_conv表示堆叠的卷积层;
步骤3-4)利用wlc对进行特征增强,得到增强后的特征fglc,将fglc进行卷积核大小为1*1的卷积运算,进行特征压缩,同时根据生成局部偏差b,由卷积运算的输出结果与局部偏差b计算得到所述全局及局部语义融合特征f'n,计算公式如下:
f'n=δ(conv(fglc))+b
其中,“⊙”表示点乘。
进一步的,上述步骤4)具体包括:
步骤4-1)将所述编码器第i层的输出fi进行卷积运算得到特征fi-256,卷积核大小为1*1,通道数为256;
步骤4-2)将f'n进行卷积运算,卷积核大小为1*1,通道数为256,之后进行双线性插值上采样计算,得到特征f'n-256;
步骤4-3)对fi-256和f'n-256按照通道维度进行级联,得到能够表示空间细节及全局上下文的特征fi-cc,计算公式如下:
fi-cc=[conv(fi),u(conv(f'n))]
其中,“u”表示线性插值上采样,“[]”表示级联;
其中,ECA表示通道注意机制,“⊙”表示点乘。
进一步的,所述步骤5)具体包括:
步骤5-1)将编码器部分得到的所述全局及局部语义融合特征f'n经自优化处理后得到特征fin-d,作为解码器第一层的输入;
步骤5-2)将fin-d经解码器第一层解码后的输出f1-d与编码器第n-1层得到的局部空间细节优化特征进行特征融合机制处理,得到特征将进行自优化机制处理,得到第一层的自优化输出结果o1,作为解码器第二层的输入;
步骤5-3)将编码器前一层的自优化输出结果作为后一层的输入,执行与步骤5-2)相同的计算。
进一步的,所述自优化处理机制,包括:
进一步的,所述编码器包括:多尺度特征提取、隐式深度监督和通道注意力机制三个部分;
多尺度特征提取计算过程如下:
其中,A为输入图像,A∈RC*H*W,C表示通道数,H为图像的高度,W为图像的宽度,[]表示级联,hn*n表示卷积核大小为n*n的卷积,每个卷积之后都进行批归一化和激活函数处理,hpooling表示3*3最大池化;
隐式深度监督处理的输出特征设置为256;
通道注意力机制的计算过程如下:
fi=x'*xlb
进一步的,所述特征映射包括1个全连接层和1个Sigmoid函数;所述全连接层包括两个神经元,实现高层抽象特征向输出层输出结果的特征映射;采用Sigmoid归一化函数进行归一化处理,得到图像的像素级分类结果,表示为:
其中i表示第i个得分值,∑jej表示所有特征值的总和;选取概率最大值对应的类别作为像素级火焰检测的判别结果。
进一步的,所述步骤7)具体包括:
步骤7-1)将模型输出的结果与真实标签进行误差求取;所述误差求取采用交叉熵,其可以表示为:
步骤7-2)采用步骤7-1)得到的参数作为本次迭代的权重值;从剩余的图片中随机选取一组图片,经步骤2)、步骤3)、步骤4)、步骤5)、步骤6)和步骤7-1),得到新的参数组合;反复迭代,直至完成一个迭代周期;
步骤7-3)对训练图片进行重新洗牌,转至步骤1);反复执行,直至训练出最优参数组合。
进一步的,所述步骤8)具体包括:
步骤8-1)对于待检测的图片,利用双线性插值将待测图片的尺寸调整至模型输入所需大小224×224×3;
步骤8-2)将调整后的图片输入至最优参数模型,经模型前向传输得到预测结果;
步骤8-3)将每一像素的预测结果最大概率值所对应的类别是与真实标签进行比较,若一致,则预测正确,反之,则预测错误;
步骤8-4)执行步骤8-1)、步骤8-2)和步骤8-3),直到全部待测图片检测完毕。
本发明还提供了一种基于双语义注意力机制的高精度火焰定位系统,根据上述任一方法构建的双重情境注意网络模型实现,所述系统包括:
数据预处理模块,用于对输入图像进行尺寸调整;
编码器,用于对输入图像进行多层次特征的提取;
全局和局部感知注意模块,用于对输入特征进行全局和局部感知注意机制处理,捕获更丰富的高级语义和全局上下文信息,得到全局及局部语义融合特征;
交叉语义注意模块,用于对输入特征进行交叉语义注意机制处理,优化局部空间细节信息,得到局部空间细节优化特征;
特征融合模块,用于对输入特征进行融合,实现多层次特征的融合;
自优化模块,用于进行自优化机制处理,优化融合特征;
解码器,用于聚合高级上下文特征和低级空间细节特征。
与现有方法相比,本发明的技术优势在于:
本发明提供的火焰定位技术方案,通过编码器对输入图像进行多级别特征提取,得到对应的层级特征。解码器用于逐步聚合高级上下文特征和低级空间细节,并生成火焰分割图。在解码操作之前,对编码器得到的层级特征进行全局和局部感知注意机制处理,来捕获更完整的高级语义和全局上下文信息,之后采用具有双线性插值的四个交叉语义注意机制获取跨上下文的重构特征,还采用了简单的特征融合策略来聚合高级上下文特征和低级的空间细节特征,并通过自优化机制来捕获每个特征图的内部特征逐步生成火焰分割图,使得深度学习模型对火焰具有更强的学习能力,可以实现对火焰像素级别的精准定位。在测试基准数据集时,本发明取得了超过现有方法的性能。
附图说明
图1为本发明提供的基于双语义注意力机制的高精度火焰定位网络结构示意图;
图2为本发明提供的全局和局部上下文注意模块结构示意图;
图3为本发明提供的交叉语义注意模块结构示意图;
图4为本发明提供的自优化模块结构示意图。
具体实施方式
下面结合附图和具体实施来对本发明作进一步描述。
图1为本发明提供的基于双语义注意力机制的高精度火焰定位网络结构示意图,图1中“G”表示全局和局部感知注意机制(模块),“C”表示交叉语义注意机制(模块),“F”表示特征融合机制(模块),“S”表示自优化机制(模块),Li代表损失值,“U”代表上采样,“+”表示拼接,“*”表示乘法计算。
如图1所示,本发明提出的火焰定位网络结构由对称的编码器-解码器、全局和局部上下文注意模块G,四个交叉语义注意模块C,四个特征融合模块F和五个自优化模块S构成。其中,图1中编码器与解码器均以n=5为例进行展示。该模型的数据处理过程具体包括:
步骤1)数据预处理,将训练所需图片按每组a张随机分成m组;
步骤2)随机读取一组图片,由具有n层结构的编码器对输入图像进行多层次特征提取,得到每一层对应的层级特征fi,i∈[1,n];
步骤3)将步骤2)中最后一层的层级特征fn,进行全局和局部感知注意机制处理,捕获更丰富的高级语义和全局上下文信息,得到全局及局部语义融合特征f'n;
步骤5)将编码器第n-i层的局部空间细节优化特征与对应的第i层解码器的输出fi-d进行特征融合机制处理后,得到解码器每层的输出特征i∈[1,n-1],对进行自优化机制处理,得到自优化输出结果oi,其中,所述解码器第1层的输入为所述全局及局部语义融合特征f'n经自优化机制处理后的输出fin-d;
步骤6)对所述解码器最后一层的输出fn-d,进行上采样,得到与原始输入图像相同分辨率的输出特征;
步骤7)对输出特征进行特征映射,并采用梯度下降法对模型中的参数进行更新;反复迭代,直至训练出最优参数组合;
步骤8)基于最优参数模型实现火焰定位。
通过将解码器最后一层的输出fn-d上采样到与原始输入图像相同分辨率,则得到了与原始输入图像每个像素点一一对应的输出特征图像素点,通过后续对输出特征图上各像素点是否为火焰的判定,可以得到输入图像中每个像素点是否为火焰的判定结果,从而以像素点为单位,获取到火焰的形状、出现的位置以及火焰区域等信息。
本发明设计的火焰定位方法,通过编码器对输入图像进行多层次特征提取,得到对应的空间细节和高层上下文特征。解码器用于逐步聚合高级上下文特征和低级空间细节,并生成火焰分割图。在解码操作之前,对编码器得到的层级特征进行全局和局部感知注意机制处理,来捕获更完整的高级语义和全局上下文信息,之后采用具有双线性插值的四个交叉语义注意机制获取跨上下文的重构特征,还采用特征融合策略来聚合高级上下文特征和低级的空间细节特征,并通过自优化机制来捕获每个解码层内部特征图之间的异同并逐步生成火焰分割图,实现对火焰像素级别的精准定位。
本发明提出了一种新的编码器,可以增强模型对火焰特征的提取。编码器主要由三部分构成:多尺度特征提取模块,隐式深度监督和通道注意力机制。多尺度特征提取计算过程如下:
其中,A为输入图像,A∈RC*H*W,C表示通道数,H为图像的高度,W为图像的宽度,[]表示级联,hn*n表示n*n卷积,每个卷积之后都进行批归一化和激活函数处理,hpooling表示3*3最大池化;
对于编码器而言,丰富的空间细节不仅可以为高级语义特征和全局上下文提取建立良好的特征基础,还可以有效地还原火焰的边缘细节。本发明采用了三个多尺度特征提取模块来对输入图像进行特征提取,可以获得丰富的空间细节特征。
隐式深度监督处理的输出特征设置为256。隐式深度监督处理可以使梯度直接流到较早的层,能够显著改善编码器的特征表示。
通道注意力机制的计算过程如下:
fi=x'*xlb
图2为本发明提供的全局和局部上下文注意模块结构示意图,即图1中的“G”。如图2所示,所述全局和局部感知注意机制包括全局上下文分支和局部上下文分支;
所述步骤3)具体包括:
其中,“gp”表示最大池化处理,“⊙”表示通道乘法,“conv”表示卷积操作,“δ”表示ReLU激活函数;
其中,staked_conv表示堆叠的卷积层;
步骤3-4)利用wlc对进行特征增强,得到增强后的特征fglc,将fglc进行大小为1*1的卷积运算,进行特征压缩,同时根据生成局部偏差b,由卷积运算的输出结果与偏差b计算得到所述全局及局部语义融合特征f'n,计算公式如下:
f'n=δ(conv(fglc))+b
其中,“⊙”表示点乘。
与语义分割任务不同,由于气流的影响,火焰没有固定的形状信息。因此,编码器所提取特征中的全局上下文和局部语义信息对于火焰的语义分割是多余的。为此,本发明提出了一种全局和局部感知注意机制,对编码器最后一层输出的层级特征fn进行1*1卷积运算,将其压缩为具有256个通道的特征,可以得到更紧密的特征表示,之后利用两个不同的分支来获取全局上下文特征和局部上下文特征,实现了火焰特征的增强。最后使用1*1卷积将增强后的特征通道压缩为256,并采用矩阵加法实现对所提取火焰特征的进一步优化,可以提取适用于火焰检测的更具代表性的全局上下文和高级语义信息。
图3为本发明提供的交叉语义注意模块结构示意图,即图1中的“C”。如图3所示,所述步骤4)具体包括:
步骤4-1)将所述编码器第i层的输出fi进行卷积运算得到特征fi-256,卷积核大小为1*1,通道数为256;
步骤4-2)将f'n进行卷积运算,卷积核大小为1*1,通道数为256,之后进行双线性插值上采样计算,得到特征f'n-256;
步骤4-3)对fi-256和f'n-256按照通道维度进行级联,得到能够表示空间细节特征及全局上下文的特征fi-cc,计算公式如下:
fi-cc=[conv(fi),u(conv(f'n))]
其中,“u”表示线性插值上采样,“[]”表示级联;
其中,ECA表示通道注意机制,“⊙”表示点乘。
在解码过程中,通过逐步融合多层次特征可以增强不同分辨率特征的表达能力,从而优化火焰的语义分割。但是,低级空间特征不仅缺乏丰富的语义信息,还可能包括噪声。另外,上采样操作会导致高级语义特征被削弱。因此,本发明提出了交叉语义注意机制,通过双线性插值上采样计算,可以恢复f'n的特征分辨率,通过将fi-256和f'n-256按照通道维度进行级联,可以形成表示空间细节和全局上下文的新特征,通过加入有效的通道注意机制ECA,可以自适应地选择更有效的特征,进一步增强模型的跨上下文表示能力,实现抑制噪声并降低全局信息被削弱的影响。
在上述实施例的基础上,步骤5)具体包括:
步骤5-1)将编码器部分得到的所述全局及局部语义融合特征f'n经自优化处理后得到特征fin-d,作为解码器第一层的输入;
步骤5-2)将fin-d经解码器第一层解码后的输出f1-d与编码器第n-1层得到的局部空间细节优化特征进行特征融合机制处理,得到特征将进行自优化机制处理,得到第一层的自优化输出结果o1,作为解码器第二层的输入;
步骤5-3)将编码器前一层的自优化输出结果作为后一层的输入,执行与步骤5-2)相同的计算。
图4为本发明提供的自优化模块结构示意图,即图1中的“S”。如图4所示,所述自优化处理机制,包括:
在解码器的解码过程中,本发明使用简单的特征聚合策略来融合多层次特征。但由于网络不同层具有不同响应,以及每一层中特征的内部差异,使得融合后的特征表现欠佳。因此,本发明提出了自优化机制,进一步优化了融合特征,使得优化后的特征更适用于火焰定位任务。
本发明中的特征映射包括1个全连接层和1个Sigmoid函数;所述全连接层包括两个神经元,实现高层抽象特征向输出层输出结果的特征映射;采用Sigmoid归一化函数进行归一化处理,得到图像的像素级分类结果,表示为:
其中i表示第i个得分值,∑jej表示所有特征值的总和;选取概率最大值对应的类别作为火焰检测的判别结果。
在上述实施例的基础上,步骤7)具体包括:
步骤7-1)将模型输出的结果与真实标签进行误差求取;所述误差求取采用交叉熵,其可以表示为:
步骤7-2)采用步骤7-1)得到的参数作为本次迭代的权重值;从剩余的图片中随机选取一组图片,经步骤2)、步骤3)、步骤4)、步骤5)、步骤6)和步骤7-1),得到新的参数组合;反复迭代,直至完成一个迭代周期(epoch);
步骤7-3)对训练图片进行重新洗牌,转至步骤1);反复执行,直至训练出最优参数组合。
在上述实施例的基础上,步骤8)具体包括:
步骤8-1)对于待检测的图片,利用双线性插值将待测图片的尺寸调整至模型输入所需大小224×224×3;
步骤8-2)将调整后的图片输入至最优参数模型,经模型前向传输得到预测结果;
步骤8-3)将每一像素的预测结果最大概率值所对应的类别是与真实标签进行比较,若一致,则预测正确,反之,则预测错误;
步骤8-4)执行步骤8-1)、步骤8-2)和步骤8-3),直到全部待测图片检测完毕。
本发明还提供一种基于双语义注意力机制的高精度火焰定位系统,基于上述实施例提供的任意方法构建的双重情境注意网络模型实现,该系统包括:
数据预处理模块,用于对输入图像进行尺寸调整;
编码器,用于对输入图像进行多层次特征的提取;
全局和局部感知注意模块,用于对输入特征进行全局和局部感知注意机制处理,捕获更丰富的高级语义和全局上下文信息,得到全局及局部语义融合特征;
交叉语义注意模块,用于对输入特征进行交叉语义注意机制处理,优化局部空间细节信息,得到局部空间细节优化特征;
特征融合模块,用于对输入特征进行融合,实现多层次特征的融合;
自优化模块,用于进行自优化机制处理,优化融合特征;
解码器,用于聚合高级上下文特征和低级空间细节特征。
另外,上述各模块可执行方法实施例种对应的方法流程,此处不再赘述。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (9)
1.一种基于双语义注意力机制的高精度火焰定位方法,所述方法包括:
步骤1)数据预处理,将训练所需图片按每组a张随机分成m组;
步骤2)随机读取一组图片,由具有n层结构的编码器对输入图像进行多层次特征提取,得到每一层对应的层级特征fi,i∈[1,n];
步骤3)将步骤2)中最后一层的层级特征fn,进行全局和局部感知注意机制处理,捕获更丰富的高级语义和全局上下文信息,得到全局及局部语义融合特征f′n;
步骤4)将编码器第i层输出的所述层级特征fi,i∈[1,n-1],与所述全局及局部语义融合特征f′n进行交叉语义注意机制处理,优化局部空间细节信息,得到第i层的局部空间细节优化特征fi cc;
步骤5)将编码器第n-i层的局部空间细节优化特征与对应的第i层解码器的输出fi-d进行融合处理后,得到解码器每层的输出特征对进行自优化机制处理,得到自优化输出结果oi,其中,所述解码器第1层的输入为所述全局及局部语义融合特征f′n经自优化机制处理后的输出fin-d;
步骤6)对所述解码器最后一层的输出fn-d,进行上采样,得到与原始输入图像相同分辨率的输出特征;
步骤7)对输出特征进行特征映射,并采用梯度下降法对模型中的参数进行更新;反复迭代,直至训练出最优参数组合;
步骤8)基于最优参数模型实现火焰定位;
所述步骤5)具体包括:
步骤5-1)将编码器部分得到的所述全局及局部语义融合特征f′n经自优化处理后得到特征fin-d,作为解码器第一层的输入;
步骤5-2)将fin-d经解码器第一层解码后的输出f1-d与编码器第n-1层得到的局部空间细节优化特征进行特征融合机制处理,得到特征将进行自优化机制处理,得到第一层的自优化输出结果o1,作为解码器第二层的输入;
步骤5-3)将解码器前一层的自优化输出结果作为后一层的输入,执行与步骤5-2)相同的计算。
2.根据权利要求1所述的方法,其特征在于,所述全局和局部感知注意机制包括全局上下文分支和局部上下文分支;
所述步骤3)具体包括:
其中,“gp”表示自适应最大池化处理,“⊙”表示通道乘法,“conv”表示卷积操作,“δ”表示ReLU激活函数;
其中,stacked_conv表示堆叠的卷积层;
步骤3-4)利用wlc对fn gc进行特征增强,得到增强后的特征fglc,将fglc进行卷积核大小为1*1的卷积运算,进行特征压缩,同时根据生成局部偏差b,由卷积运算的输出结果与局部偏差b计算得到所述全局及局部语义融合特征f′n,计算公式如下:
f′n=δ(conv(fglc))+b
其中,“⊙”表示点乘。
3.根据权利要求1所述的方法,其特征在于,所述步骤4)具体包括:
步骤4-1)将所述编码器第i层的输出fi进行卷积运算得到特征fi-256,卷积核大小为1*1,通道数为256;
步骤4-2)将f′n进行卷积运算,卷积核大小为1*1,通道数为256,之后进行双线性插值上采样计算,得到特征f′n-256;
步骤4-3)对fi-256和f′n-256按照通道维度进行级联,得到能够表示空间细节及全局上下文的特征fi-cc,计算公式如下:
fi-cc=[conv(fi),u(conv(f′n))]
其中,“u”表示线性插值上采样,“[]”表示级联;
步骤4-3)对fi-cc进行卷积运算,卷积核大小为1*1,通道数为256,将卷积运算结果进行有效通道注意机制处理,将所得结果与fi-256进行点乘运算,得到第i层的局部空间细节优化特征fi cc,计算公式如下:
fi cc=fi-256⊙ECA(fi-cc)
其中,ECA表示通道注意机制,“⊙”表示点乘。
5.根据权利要求1所述的方法,其特征在于,所述编码器包括:多尺度特征提取、隐式深度监督和通道注意力机制三个部分;
多尺度特征提取计算过程如下:
B=M(A)=[h1*1(A),h3*3(A),h5*5(A),hpooling(A)]
其中,A为输入图像,A∈RC*H*W,C表示通道数,H为图像的高度,W为图像的宽度,[]表示级联,hn*n表示卷积核大小为n*n的卷积,每个卷积之后都进行批归一化和激活函数处理,hpooling表示3*3最大池化;
隐式深度监督处理的输出特征设置为256;
通道注意力机制的计算过程如下:
fi=x′*xlb
8.根据权利要求1所述的方法,其特征在于,所述步骤8)具体包括:
步骤8-1)对于待检测的图片,利用双线性插值将待测图片的尺寸调整至模型输入所需大小224×224×3;
步骤8-2)将调整后的图片输入至最优参数模型,经模型前向传输得到预测结果;
步骤8-3)将每一像素的预测结果最大概率值所对应的类别与真实标签进行比较,若一致,则预测正确,反之,则预测错误;
步骤8-4)执行步骤8-1)、步骤8-2)和步骤8-3),直到全部待测图片检测完毕。
9.一种基于双语义注意力机制的高精度火焰定位系统,根据权利要求1-8任一项所述的方法构建的双重情境注意网络模型实现,所述系统包括:
数据预处理模块,用于对输入图像进行尺寸调整;
编码器,用于对输入图像进行多层次特征的提取;
全局和局部感知注意模块,用于对输入特征进行全局和局部感知注意机制处理,捕获更丰富的高级语义和全局上下文信息,得到全局及局部语义融合特征;
交叉语义注意模块,用于对输入特征进行交叉语义注意机制处理,优化局部空间细节信息,得到局部空间细节优化特征;
特征融合模块,用于对输入特征进行融合,实现多层次特征的融合;
自优化模块,用于进行自优化机制处理,优化融合特征;
解码器,用于聚合高级上下文特征和低级空间细节特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110545613.3A CN113393521B (zh) | 2021-05-19 | 2021-05-19 | 一种基于双语义注意力机制的高精度火焰定位方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110545613.3A CN113393521B (zh) | 2021-05-19 | 2021-05-19 | 一种基于双语义注意力机制的高精度火焰定位方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113393521A CN113393521A (zh) | 2021-09-14 |
CN113393521B true CN113393521B (zh) | 2023-05-05 |
Family
ID=77618062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110545613.3A Active CN113393521B (zh) | 2021-05-19 | 2021-05-19 | 一种基于双语义注意力机制的高精度火焰定位方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113393521B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210485A (zh) * | 2019-05-13 | 2019-09-06 | 常熟理工学院 | 基于注意力机制指导特征融合的图像语义分割方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581966B (zh) * | 2020-04-30 | 2023-04-21 | 华南师范大学 | 一种融合上下文特征方面级情感分类方法和装置 |
CN111709306B (zh) * | 2020-05-22 | 2023-06-09 | 江南大学 | 基于多层次时空特征融合增强的双流网络行为识别方法 |
CN112150429B (zh) * | 2020-09-18 | 2024-08-09 | 南京师范大学 | 一种注意力机制引导的肾ct图像分割方法 |
-
2021
- 2021-05-19 CN CN202110545613.3A patent/CN113393521B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210485A (zh) * | 2019-05-13 | 2019-09-06 | 常熟理工学院 | 基于注意力机制指导特征融合的图像语义分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113393521A (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108805200B (zh) | 基于深度孪生残差网络的光学遥感场景分类方法及装置 | |
CN117078943B (zh) | 融合多尺度特征和双注意力机制的遥感影像道路分割方法 | |
CN108734210B (zh) | 一种基于跨模态多尺度特征融合的对象检测方法 | |
CN113850824A (zh) | 一种基于多尺度特征融合的遥感图像路网提取方法 | |
CN110287777B (zh) | 一种自然场景下的金丝猴躯体分割算法 | |
CN113392711B (zh) | 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统 | |
CN113870286B (zh) | 一种基于多级特征和掩码融合的前景分割方法 | |
CN114283120B (zh) | 一种基于领域自适应的端到端多源异质遥感影像变化检测方法 | |
CN115222998B (zh) | 一种图像分类方法 | |
CN112329771B (zh) | 一种基于深度学习的建筑材料样本识别方法 | |
CN113298817A (zh) | 一种准确率高的遥感图像语义分割方法 | |
CN115830596A (zh) | 基于融合金字塔注意力的遥感图像语义分割方法 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
CN114662605A (zh) | 基于改进的YOLOv5模型的火焰检测方法 | |
CN114926734B (zh) | 基于特征聚合和注意融合的固体废弃物检测装置及方法 | |
CN116778318A (zh) | 一种卷积神经网络遥感影像道路提取模型及方法 | |
CN110728186B (zh) | 一种基于多网融合的火灾检测方法 | |
CN117611994A (zh) | 基于注意力机制加权特征融合的遥感图像目标检测方法 | |
CN117292117A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN113554655B (zh) | 基于多特征增强的光学遥感图像分割方法及装置 | |
CN116778346B (zh) | 一种基于改进自注意力机制的管线识别方法及系统 | |
CN113780140A (zh) | 基于深度学习的手势图像分割与识别方法以及装置 | |
CN117911394A (zh) | 基于改进YOLOv5的钢材表面缺陷检测方法及系统 | |
CN117523333A (zh) | 一种基于注意力机制的地表覆盖分类方法 | |
CN115641445B (zh) | 一种非对称内卷积与Transformer相融合的遥感图像阴影检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |