CN113393521B - 一种基于双语义注意力机制的高精度火焰定位方法及系统 - Google Patents

一种基于双语义注意力机制的高精度火焰定位方法及系统 Download PDF

Info

Publication number
CN113393521B
CN113393521B CN202110545613.3A CN202110545613A CN113393521B CN 113393521 B CN113393521 B CN 113393521B CN 202110545613 A CN202110545613 A CN 202110545613A CN 113393521 B CN113393521 B CN 113393521B
Authority
CN
China
Prior art keywords
layer
features
local
global
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110545613.3A
Other languages
English (en)
Other versions
CN113393521A (zh
Inventor
李松斌
晏黔东
刘鹏
张遥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanhai Research Station Institute Of Acoustics Chinese Academy Of Sciences
Original Assignee
Nanhai Research Station Institute Of Acoustics Chinese Academy Of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanhai Research Station Institute Of Acoustics Chinese Academy Of Sciences filed Critical Nanhai Research Station Institute Of Acoustics Chinese Academy Of Sciences
Priority to CN202110545613.3A priority Critical patent/CN113393521B/zh
Publication of CN113393521A publication Critical patent/CN113393521A/zh
Application granted granted Critical
Publication of CN113393521B publication Critical patent/CN113393521B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双语义注意力机制的高精度火焰定位方法及系统,该方法包括:通过编码器对输入图像进行多层次特征提取,得到对应的空间细节和高级上下文特征。解码器用于逐步聚合高级上下文特征和低级空间细节,并生成火焰分割图。在解码操作之前,对编码器得到的层级特征进行全局和局部感知注意机制处理,来捕获更完整的高级语义和全局上下文信息,之后采用具有双线性插值的四个交叉语义注意机制获取优化后的局部空间细节信息,采用特征融合策略来聚合高级上下文特征和低级的空间细节特征,并通过自优化机制来捕获每个解码层内部特征图之间的异同并逐步生成火焰分割图,实现对火焰像素级别的精准定位。

Description

一种基于双语义注意力机制的高精度火焰定位方法及系统
技术领域
本发明涉及机器视觉及深度学习技术领域,特别涉及一种基于双语义注意力机制的高精度火焰定位方法及系统。
背景技术
火灾作为一个高度频发、破环性极大的自然灾害,严重威胁着人们的生命财产安全,大规模的火灾还会给生态平衡造成巨大的创伤。如2019年以来亚马孙森林火灾数量超过7.2万起,火灾频发严重影响着周边居民的生产生活。2109年澳大利亚大火事件对全球经济和生态环境造成重大影响,截至2020年7月28日,澳大利亚丛林大火或已致30亿动物死亡。2019年4月,法国巴黎圣母院发生火灾,其标志性尖顶被烧断,坍塌倒下,整座建筑损毁严重。因此,为避免火灾大规模蔓延造成的严重损失,及时准确的火灾探测和定位至关重要。
随着科学技术的进步,现有的火灾探测方法可以分为传统的接触式传感器和计算机视觉两大类。前者包括烟雾传感器,颗粒传感器和温度传感器等。受部署密度的限制,基于接触传感器的方法无法覆盖较大的区域。基于视觉的火灾探测方法具有覆盖范围广和响应速度快的优点,受到社会各界的广泛关注。在2015年之前,基于视觉的火灾探测主要依靠手工设计的特征,例如颜色、形状、纹理和动态特征等。该类方法的主要缺点手工设计特征非常复杂繁琐,较高的错误检测率以及缺乏鲁棒性。近年来,随着将深度学习技术引入基于视觉的火灾探测中,使得火灾探测技术取得了长足的进步。但是,现有方法均属于图像级别的火灾检测,仅能识别图像中是否有火灾,而无法获得火灾的方向、位置和范围大小等信息。
发明内容
本发明的目的在于克服现有火灾检测方法存在的技术缺陷,提出了一种基于双语义注意力机制的高精度火焰定位方法及系统,该方法能够进行像素级别的火焰检测,实现对火焰的定位,大大提高了火灾的检测精度,也更适用于复杂情况下的火灾检测。
为了实现上述目的,本发明提出了一种基于双语义注意力机制的高精度火焰定位方法;所述方法包括:
步骤1)数据预处理,将训练所需图片按每组a张随机分成m组;
步骤2)随机读取一组图片,由具有n层结构的编码器对输入图像进行多层次特征提取,得到每一层对应的层级特征fi,i∈[1,n];
步骤3)将步骤2)中最后一层的层级特征fn,进行全局和局部感知注意机制处理,捕获更丰富的高级语义和全局上下文信息,得到全局及局部语义融合特征f'n
步骤4)将编码器第i层输出的所述层级特征fi,i∈[1,n-1],与所述全局及局部语义融合特征f'n进行交叉语义注意机制处理,优化局部空间细节信息,得到第i层的局部空间细节优化特征
Figure BDA0003073399490000026
步骤5)将编码器第n-i层的局部空间细节优化特征
Figure BDA0003073399490000024
与对应的第i层解码器的输出fi-d进行特征融合机制处理后,得到解码器每层的输出特征
Figure BDA0003073399490000025
i∈[1,n-1],对
Figure BDA0003073399490000027
进行自优化机制处理,得到自优化输出结果oi,其中,所述解码器第1层的输入为所述全局及局部语义融合特征f'n经自优化机制处理后的输出fin-d
步骤6)对所述解码器最后一层的输出fn-d,进行上采样,得到与原始输入图像相同分辨率的输出特征;
步骤7)对输出特征进行特征映射,并采用梯度下降法对模型中的参数进行更新;反复迭代,直至训练出最优参数组合;
步骤8)基于最优参数模型实现火焰定位。
进一步的,所述全局和局部感知注意机制包括全局上下文分支和局部上下文分支;所述步骤3)具体包括:
步骤3-1)利用卷积层对所述层级特征fn进行特征压缩,得到密集特征
Figure BDA0003073399490000021
所述卷积层的卷积核大小为3*3,步长为1,通道数为256;
步骤3-2)所述全局上下文分支包括自适应最大池化层和卷积核大小为1*1的卷积层,由所述自适应最大池化层将
Figure BDA0003073399490000022
转换为语义向量vs,vs
Figure BDA0003073399490000023
进行通道乘法及卷积运算,得到全局上下文信息
Figure BDA0003073399490000031
计算公式如下:
Figure BDA0003073399490000032
Figure BDA0003073399490000033
其中,“gp”表示自适应最大池化处理,“⊙”表示通道乘法,“conv”表示卷积操作,“δ”表示ReLU激活函数;
步骤3-3)所述局部上下文分支由n个卷积核大小为3*3的卷积层堆叠而成,由所述局部上下文分支将
Figure BDA0003073399490000034
转换为局部上下文权重wlc,计算公式如下:
Figure BDA0003073399490000035
其中,staked_conv表示堆叠的卷积层;
步骤3-4)利用wlc
Figure BDA0003073399490000036
进行特征增强,得到增强后的特征fglc,将fglc进行卷积核大小为1*1的卷积运算,进行特征压缩,同时根据
Figure BDA0003073399490000037
生成局部偏差b,由卷积运算的输出结果与局部偏差b计算得到所述全局及局部语义融合特征f'n,计算公式如下:
Figure BDA0003073399490000038
f'n=δ(conv(fglc))+b
其中,“⊙”表示点乘。
进一步的,上述步骤4)具体包括:
步骤4-1)将所述编码器第i层的输出fi进行卷积运算得到特征fi-256,卷积核大小为1*1,通道数为256;
步骤4-2)将f'n进行卷积运算,卷积核大小为1*1,通道数为256,之后进行双线性插值上采样计算,得到特征f'n-256
步骤4-3)对fi-256和f'n-256按照通道维度进行级联,得到能够表示空间细节及全局上下文的特征fi-cc,计算公式如下:
fi-cc=[conv(fi),u(conv(f'n))]
其中,“u”表示线性插值上采样,“[]”表示级联;
步骤4-3)对fi-cc进行卷积运算,卷积核大小为1*1,通道数为256,将卷积运算结果进行有效通道注意机制处理,将所得结果与fi-256进行点乘运算,得到第i层的局部空间细节优化特征
Figure BDA0003073399490000049
计算公式如下:
Figure BDA00030733994900000410
其中,ECA表示通道注意机制,“⊙”表示点乘。
进一步的,所述步骤5)具体包括:
步骤5-1)将编码器部分得到的所述全局及局部语义融合特征f'n经自优化处理后得到特征fin-d,作为解码器第一层的输入;
步骤5-2)将fin-d经解码器第一层解码后的输出f1-d与编码器第n-1层得到的局部空间细节优化特征
Figure BDA0003073399490000041
进行特征融合机制处理,得到特征
Figure BDA0003073399490000042
Figure BDA0003073399490000043
进行自优化机制处理,得到第一层的自优化输出结果o1,作为解码器第二层的输入;
步骤5-3)将编码器前一层的自优化输出结果作为后一层的输入,执行与步骤5-2)相同的计算。
进一步的,所述自优化处理机制,包括:
步骤5-2-1)对解码器第i层的输出
Figure BDA0003073399490000044
经过两个卷积运算,分别得到位置权重Wi和位置偏置bi;其中两个卷积运算的卷积核大小均为3*3,通道数为256;
步骤5-2-2)利用位置权重Wi和位置偏置bi
Figure BDA0003073399490000045
进行自优化,得到输出结果oi,计算公式如下:
Figure BDA0003073399490000046
Figure BDA0003073399490000047
Figure BDA0003073399490000048
进一步的,所述编码器包括:多尺度特征提取、隐式深度监督和通道注意力机制三个部分;
多尺度特征提取计算过程如下:
Figure BDA00030733994900000411
其中,A为输入图像,A∈RC*H*W,C表示通道数,H为图像的高度,W为图像的宽度,[]表示级联,hn*n表示卷积核大小为n*n的卷积,每个卷积之后都进行批归一化和激活函数处理,hpooling表示3*3最大池化;
隐式深度监督处理的输出特征设置为256;
通道注意力机制的计算过程如下:
Figure BDA0003073399490000051
Figure BDA0003073399490000052
fi=x'*xlb
其中,gp表示全局平均池化,x(i,j)表示x的特征值,w1和w2表示权重矩阵,δ表示ReLU激活,σ表示Sigmoid激活,
Figure BDA0003073399490000053
表示卷积运算,xlb表示可学习参数。
进一步的,所述特征映射包括1个全连接层和1个Sigmoid函数;所述全连接层包括两个神经元,实现高层抽象特征向输出层输出结果的特征映射;采用Sigmoid归一化函数进行归一化处理,得到图像的像素级分类结果,表示为:
Figure BDA0003073399490000054
其中i表示第i个得分值,∑jej表示所有特征值的总和;选取概率最大值对应的类别作为像素级火焰检测的判别结果。
进一步的,所述步骤7)具体包括:
步骤7-1)将模型输出的结果与真实标签进行误差求取;所述误差求取采用交叉熵,其可以表示为:
Figure BDA0003073399490000055
其中,
Figure BDA0003073399490000056
表示真实标签
Figure BDA0003073399490000057
与预测结果y之间的误差,p(xi)表示模型的前向输出结果,q(xi)表示真实标签,∑表示求和;
步骤7-2)采用步骤7-1)得到的参数作为本次迭代的权重值;从剩余的图片中随机选取一组图片,经步骤2)、步骤3)、步骤4)、步骤5)、步骤6)和步骤7-1),得到新的参数组合;反复迭代,直至完成一个迭代周期;
步骤7-3)对训练图片进行重新洗牌,转至步骤1);反复执行,直至训练出最优参数组合。
进一步的,所述步骤8)具体包括:
步骤8-1)对于待检测的图片,利用双线性插值将待测图片的尺寸调整至模型输入所需大小224×224×3;
步骤8-2)将调整后的图片输入至最优参数模型,经模型前向传输得到预测结果;
步骤8-3)将每一像素的预测结果最大概率值所对应的类别是与真实标签进行比较,若一致,则预测正确,反之,则预测错误;
步骤8-4)执行步骤8-1)、步骤8-2)和步骤8-3),直到全部待测图片检测完毕。
本发明还提供了一种基于双语义注意力机制的高精度火焰定位系统,根据上述任一方法构建的双重情境注意网络模型实现,所述系统包括:
数据预处理模块,用于对输入图像进行尺寸调整;
编码器,用于对输入图像进行多层次特征的提取;
全局和局部感知注意模块,用于对输入特征进行全局和局部感知注意机制处理,捕获更丰富的高级语义和全局上下文信息,得到全局及局部语义融合特征;
交叉语义注意模块,用于对输入特征进行交叉语义注意机制处理,优化局部空间细节信息,得到局部空间细节优化特征;
特征融合模块,用于对输入特征进行融合,实现多层次特征的融合;
自优化模块,用于进行自优化机制处理,优化融合特征;
解码器,用于聚合高级上下文特征和低级空间细节特征。
与现有方法相比,本发明的技术优势在于:
本发明提供的火焰定位技术方案,通过编码器对输入图像进行多级别特征提取,得到对应的层级特征。解码器用于逐步聚合高级上下文特征和低级空间细节,并生成火焰分割图。在解码操作之前,对编码器得到的层级特征进行全局和局部感知注意机制处理,来捕获更完整的高级语义和全局上下文信息,之后采用具有双线性插值的四个交叉语义注意机制获取跨上下文的重构特征,还采用了简单的特征融合策略来聚合高级上下文特征和低级的空间细节特征,并通过自优化机制来捕获每个特征图的内部特征逐步生成火焰分割图,使得深度学习模型对火焰具有更强的学习能力,可以实现对火焰像素级别的精准定位。在测试基准数据集时,本发明取得了超过现有方法的性能。
附图说明
图1为本发明提供的基于双语义注意力机制的高精度火焰定位网络结构示意图;
图2为本发明提供的全局和局部上下文注意模块结构示意图;
图3为本发明提供的交叉语义注意模块结构示意图;
图4为本发明提供的自优化模块结构示意图。
具体实施方式
下面结合附图和具体实施来对本发明作进一步描述。
图1为本发明提供的基于双语义注意力机制的高精度火焰定位网络结构示意图,图1中“G”表示全局和局部感知注意机制(模块),“C”表示交叉语义注意机制(模块),“F”表示特征融合机制(模块),“S”表示自优化机制(模块),Li代表损失值,“U”代表上采样,“+”表示拼接,“*”表示乘法计算。
如图1所示,本发明提出的火焰定位网络结构由对称的编码器-解码器、全局和局部上下文注意模块G,四个交叉语义注意模块C,四个特征融合模块F和五个自优化模块S构成。其中,图1中编码器与解码器均以n=5为例进行展示。该模型的数据处理过程具体包括:
步骤1)数据预处理,将训练所需图片按每组a张随机分成m组;
步骤2)随机读取一组图片,由具有n层结构的编码器对输入图像进行多层次特征提取,得到每一层对应的层级特征fi,i∈[1,n];
步骤3)将步骤2)中最后一层的层级特征fn,进行全局和局部感知注意机制处理,捕获更丰富的高级语义和全局上下文信息,得到全局及局部语义融合特征f'n
步骤4)将编码器第i层输出的所述层级特征fi,i∈[1,n-1],与所述全局及局部语义融合特征f'n进行交叉语义注意机制处理,优化局部空间细节信息,得到第i层的局部空间细节优化特征
Figure BDA0003073399490000071
步骤5)将编码器第n-i层的局部空间细节优化特征
Figure BDA0003073399490000081
与对应的第i层解码器的输出fi-d进行特征融合机制处理后,得到解码器每层的输出特征
Figure BDA0003073399490000082
i∈[1,n-1],对
Figure BDA0003073399490000083
进行自优化机制处理,得到自优化输出结果oi,其中,所述解码器第1层的输入为所述全局及局部语义融合特征f'n经自优化机制处理后的输出fin-d
步骤6)对所述解码器最后一层的输出fn-d,进行上采样,得到与原始输入图像相同分辨率的输出特征;
步骤7)对输出特征进行特征映射,并采用梯度下降法对模型中的参数进行更新;反复迭代,直至训练出最优参数组合;
步骤8)基于最优参数模型实现火焰定位。
通过将解码器最后一层的输出fn-d上采样到与原始输入图像相同分辨率,则得到了与原始输入图像每个像素点一一对应的输出特征图像素点,通过后续对输出特征图上各像素点是否为火焰的判定,可以得到输入图像中每个像素点是否为火焰的判定结果,从而以像素点为单位,获取到火焰的形状、出现的位置以及火焰区域等信息。
本发明设计的火焰定位方法,通过编码器对输入图像进行多层次特征提取,得到对应的空间细节和高层上下文特征。解码器用于逐步聚合高级上下文特征和低级空间细节,并生成火焰分割图。在解码操作之前,对编码器得到的层级特征进行全局和局部感知注意机制处理,来捕获更完整的高级语义和全局上下文信息,之后采用具有双线性插值的四个交叉语义注意机制获取跨上下文的重构特征,还采用特征融合策略来聚合高级上下文特征和低级的空间细节特征,并通过自优化机制来捕获每个解码层内部特征图之间的异同并逐步生成火焰分割图,实现对火焰像素级别的精准定位。
其中,采用特征融合机制对编码器第n-i层的局部空间细节优化特征
Figure BDA0003073399490000084
与对应的第i层解码器的输出fi-d进行拼接,之后采用卷积核大小为1*1的卷积层将拼接后的特征图压缩为256通道,得到解码器每层的输出特征
Figure BDA0003073399490000085
本发明提出了一种新的编码器,可以增强模型对火焰特征的提取。编码器主要由三部分构成:多尺度特征提取模块,隐式深度监督和通道注意力机制。多尺度特征提取计算过程如下:
Figure BDA00030733994900000910
其中,A为输入图像,A∈RC*H*W,C表示通道数,H为图像的高度,W为图像的宽度,[]表示级联,hn*n表示n*n卷积,每个卷积之后都进行批归一化和激活函数处理,hpooling表示3*3最大池化;
对于编码器而言,丰富的空间细节不仅可以为高级语义特征和全局上下文提取建立良好的特征基础,还可以有效地还原火焰的边缘细节。本发明采用了三个多尺度特征提取模块来对输入图像进行特征提取,可以获得丰富的空间细节特征。
隐式深度监督处理的输出特征设置为256。隐式深度监督处理可以使梯度直接流到较早的层,能够显著改善编码器的特征表示。
通道注意力机制的计算过程如下:
Figure BDA0003073399490000091
Figure BDA0003073399490000092
fi=x'*xlb
其中,gp表示全局平均池化,x(i,j)表示x的特征值,w1和w2表示权重矩阵,δ表示ReLU激活,σ表示Sigmoid激活,
Figure BDA0003073399490000093
表示卷积运算,xlb表示可学习参数。
图2为本发明提供的全局和局部上下文注意模块结构示意图,即图1中的“G”。如图2所示,所述全局和局部感知注意机制包括全局上下文分支和局部上下文分支;
所述步骤3)具体包括:
步骤3-1)利用卷积层对所述层级特征fn进行特征压缩,得到密集特征
Figure BDA0003073399490000094
所述卷积层的卷积核大小为3*3,步长为1,通道数为256;
步骤3-2)所述全局上下文分支包括自适应最大池化层和大小为1*1的卷积层,由所述自适应最大池化层将
Figure BDA0003073399490000095
转换为语义向量vs,vs
Figure BDA0003073399490000096
进行通道乘法及卷积运算,得到全局上下文信息
Figure BDA0003073399490000097
计算公式如下:
Figure BDA0003073399490000098
Figure BDA0003073399490000099
其中,“gp”表示最大池化处理,“⊙”表示通道乘法,“conv”表示卷积操作,“δ”表示ReLU激活函数;
步骤3-3)所述局部上下文分支由n个大小为3*3的卷积层堆叠而成,由所述局部上下文分支将
Figure BDA0003073399490000105
转换为局部上下文权重wlc,计算公式如下:
Figure BDA0003073399490000101
其中,staked_conv表示堆叠的卷积层;
步骤3-4)利用wlc
Figure BDA0003073399490000102
进行特征增强,得到增强后的特征fglc,将fglc进行大小为1*1的卷积运算,进行特征压缩,同时根据
Figure BDA0003073399490000103
生成局部偏差b,由卷积运算的输出结果与偏差b计算得到所述全局及局部语义融合特征f'n,计算公式如下:
Figure BDA0003073399490000104
f'n=δ(conv(fglc))+b
其中,“⊙”表示点乘。
与语义分割任务不同,由于气流的影响,火焰没有固定的形状信息。因此,编码器所提取特征中的全局上下文和局部语义信息对于火焰的语义分割是多余的。为此,本发明提出了一种全局和局部感知注意机制,对编码器最后一层输出的层级特征fn进行1*1卷积运算,将其压缩为具有256个通道的特征,可以得到更紧密的特征表示,之后利用两个不同的分支来获取全局上下文特征和局部上下文特征,实现了火焰特征的增强。最后使用1*1卷积将增强后的特征通道压缩为256,并采用矩阵加法实现对所提取火焰特征的进一步优化,可以提取适用于火焰检测的更具代表性的全局上下文和高级语义信息。
图3为本发明提供的交叉语义注意模块结构示意图,即图1中的“C”。如图3所示,所述步骤4)具体包括:
步骤4-1)将所述编码器第i层的输出fi进行卷积运算得到特征fi-256,卷积核大小为1*1,通道数为256;
步骤4-2)将f'n进行卷积运算,卷积核大小为1*1,通道数为256,之后进行双线性插值上采样计算,得到特征f'n-256
步骤4-3)对fi-256和f'n-256按照通道维度进行级联,得到能够表示空间细节特征及全局上下文的特征fi-cc,计算公式如下:
fi-cc=[conv(fi),u(conv(f'n))]
其中,“u”表示线性插值上采样,“[]”表示级联;
步骤4-3)对fi-cc进行卷积运算,卷积核大小为1*1,通道数为256,将卷积运算结果进行有效通道注意机制处理,将所得结果与fi-256进行点乘运算,得到第i层的局部空间细节优化特征
Figure BDA0003073399490000114
计算公式如下:
Figure BDA0003073399490000115
其中,ECA表示通道注意机制,“⊙”表示点乘。
在解码过程中,通过逐步融合多层次特征可以增强不同分辨率特征的表达能力,从而优化火焰的语义分割。但是,低级空间特征不仅缺乏丰富的语义信息,还可能包括噪声。另外,上采样操作会导致高级语义特征被削弱。因此,本发明提出了交叉语义注意机制,通过双线性插值上采样计算,可以恢复f'n的特征分辨率,通过将fi-256和f'n-256按照通道维度进行级联,可以形成表示空间细节和全局上下文的新特征,通过加入有效的通道注意机制ECA,可以自适应地选择更有效的特征,进一步增强模型的跨上下文表示能力,实现抑制噪声并降低全局信息被削弱的影响。
在上述实施例的基础上,步骤5)具体包括:
步骤5-1)将编码器部分得到的所述全局及局部语义融合特征f'n经自优化处理后得到特征fin-d,作为解码器第一层的输入;
步骤5-2)将fin-d经解码器第一层解码后的输出f1-d与编码器第n-1层得到的局部空间细节优化特征
Figure BDA0003073399490000111
进行特征融合机制处理,得到特征
Figure BDA0003073399490000112
Figure BDA0003073399490000113
进行自优化机制处理,得到第一层的自优化输出结果o1,作为解码器第二层的输入;
步骤5-3)将编码器前一层的自优化输出结果作为后一层的输入,执行与步骤5-2)相同的计算。
图4为本发明提供的自优化模块结构示意图,即图1中的“S”。如图4所示,所述自优化处理机制,包括:
步骤5-2-1)对解码器第i层的输出
Figure BDA0003073399490000121
经过两个卷积运算,分别得到位置权重Wi和位置偏置bi;其中两个卷积运算的卷积核大小均为3*3,通道数为256;
步骤5-2-2)利用位置权重Wi和位置偏置bi
Figure BDA0003073399490000122
进行自优化,得到输出结果oi,计算公式如下:
Figure BDA0003073399490000123
Figure BDA0003073399490000124
Figure BDA0003073399490000125
在解码器的解码过程中,本发明使用简单的特征聚合策略来融合多层次特征。但由于网络不同层具有不同响应,以及每一层中特征的内部差异,使得融合后的特征表现欠佳。因此,本发明提出了自优化机制,进一步优化了融合特征,使得优化后的特征更适用于火焰定位任务。
本发明中的特征映射包括1个全连接层和1个Sigmoid函数;所述全连接层包括两个神经元,实现高层抽象特征向输出层输出结果的特征映射;采用Sigmoid归一化函数进行归一化处理,得到图像的像素级分类结果,表示为:
Figure BDA0003073399490000126
其中i表示第i个得分值,∑jej表示所有特征值的总和;选取概率最大值对应的类别作为火焰检测的判别结果。
在上述实施例的基础上,步骤7)具体包括:
步骤7-1)将模型输出的结果与真实标签进行误差求取;所述误差求取采用交叉熵,其可以表示为:
Figure BDA0003073399490000127
其中,
Figure BDA0003073399490000129
表示真实标签
Figure BDA0003073399490000128
与预测结果y之间的误差,p(xi)表示模型的前向输出结果,q(xi)表示真实标签,∑表示求和;
步骤7-2)采用步骤7-1)得到的参数作为本次迭代的权重值;从剩余的图片中随机选取一组图片,经步骤2)、步骤3)、步骤4)、步骤5)、步骤6)和步骤7-1),得到新的参数组合;反复迭代,直至完成一个迭代周期(epoch);
步骤7-3)对训练图片进行重新洗牌,转至步骤1);反复执行,直至训练出最优参数组合。
在上述实施例的基础上,步骤8)具体包括:
步骤8-1)对于待检测的图片,利用双线性插值将待测图片的尺寸调整至模型输入所需大小224×224×3;
步骤8-2)将调整后的图片输入至最优参数模型,经模型前向传输得到预测结果;
步骤8-3)将每一像素的预测结果最大概率值所对应的类别是与真实标签进行比较,若一致,则预测正确,反之,则预测错误;
步骤8-4)执行步骤8-1)、步骤8-2)和步骤8-3),直到全部待测图片检测完毕。
本发明还提供一种基于双语义注意力机制的高精度火焰定位系统,基于上述实施例提供的任意方法构建的双重情境注意网络模型实现,该系统包括:
数据预处理模块,用于对输入图像进行尺寸调整;
编码器,用于对输入图像进行多层次特征的提取;
全局和局部感知注意模块,用于对输入特征进行全局和局部感知注意机制处理,捕获更丰富的高级语义和全局上下文信息,得到全局及局部语义融合特征;
交叉语义注意模块,用于对输入特征进行交叉语义注意机制处理,优化局部空间细节信息,得到局部空间细节优化特征;
特征融合模块,用于对输入特征进行融合,实现多层次特征的融合;
自优化模块,用于进行自优化机制处理,优化融合特征;
解码器,用于聚合高级上下文特征和低级空间细节特征。
另外,上述各模块可执行方法实施例种对应的方法流程,此处不再赘述。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于双语义注意力机制的高精度火焰定位方法,所述方法包括:
步骤1)数据预处理,将训练所需图片按每组a张随机分成m组;
步骤2)随机读取一组图片,由具有n层结构的编码器对输入图像进行多层次特征提取,得到每一层对应的层级特征fi,i∈[1,n];
步骤3)将步骤2)中最后一层的层级特征fn,进行全局和局部感知注意机制处理,捕获更丰富的高级语义和全局上下文信息,得到全局及局部语义融合特征f′n
步骤4)将编码器第i层输出的所述层级特征fi,i∈[1,n-1],与所述全局及局部语义融合特征f′n进行交叉语义注意机制处理,优化局部空间细节信息,得到第i层的局部空间细节优化特征fi cc
步骤5)将编码器第n-i层的局部空间细节优化特征
Figure QLYQS_1
与对应的第i层解码器的输出fi-d进行融合处理后,得到解码器每层的输出特征
Figure QLYQS_2
Figure QLYQS_3
进行自优化机制处理,得到自优化输出结果oi,其中,所述解码器第1层的输入为所述全局及局部语义融合特征f′n经自优化机制处理后的输出fin-d
步骤6)对所述解码器最后一层的输出fn-d,进行上采样,得到与原始输入图像相同分辨率的输出特征;
步骤7)对输出特征进行特征映射,并采用梯度下降法对模型中的参数进行更新;反复迭代,直至训练出最优参数组合;
步骤8)基于最优参数模型实现火焰定位;
所述步骤5)具体包括:
步骤5-1)将编码器部分得到的所述全局及局部语义融合特征f′n经自优化处理后得到特征fin-d,作为解码器第一层的输入;
步骤5-2)将fin-d经解码器第一层解码后的输出f1-d与编码器第n-1层得到的局部空间细节优化特征
Figure QLYQS_4
进行特征融合机制处理,得到特征
Figure QLYQS_5
Figure QLYQS_6
进行自优化机制处理,得到第一层的自优化输出结果o1,作为解码器第二层的输入;
步骤5-3)将解码器前一层的自优化输出结果作为后一层的输入,执行与步骤5-2)相同的计算。
2.根据权利要求1所述的方法,其特征在于,所述全局和局部感知注意机制包括全局上下文分支和局部上下文分支;
所述步骤3)具体包括:
步骤3-1)利用卷积层对所述层级特征fn进行特征压缩,得到密集特征
Figure QLYQS_7
所述卷积层的卷积核大小为3*3,步长为1,通道数为256;
步骤3-2)所述全局上下文分支包括自适应最大池化层和卷积核大小为1*1的卷积层,由所述自适应最大池化层将
Figure QLYQS_8
转换为语义向量vs,vs
Figure QLYQS_9
进行通道乘法及卷积运算,得到全局上下文信息fn gc,计算公式如下:
Figure QLYQS_10
Figure QLYQS_11
其中,“gp”表示自适应最大池化处理,“⊙”表示通道乘法,“conv”表示卷积操作,“δ”表示ReLU激活函数;
步骤3-3)所述局部上下文分支由n个卷积核大小为3*3的卷积层堆叠而成,由所述局部上下文分支将
Figure QLYQS_12
转换为局部上下文权重wlc,计算公式如下:
Figure QLYQS_13
其中,stacked_conv表示堆叠的卷积层;
步骤3-4)利用wlc对fn gc进行特征增强,得到增强后的特征fglc,将fglc进行卷积核大小为1*1的卷积运算,进行特征压缩,同时根据
Figure QLYQS_14
生成局部偏差b,由卷积运算的输出结果与局部偏差b计算得到所述全局及局部语义融合特征f′n,计算公式如下:
Figure QLYQS_15
f′n=δ(conv(fglc))+b
其中,“⊙”表示点乘。
3.根据权利要求1所述的方法,其特征在于,所述步骤4)具体包括:
步骤4-1)将所述编码器第i层的输出fi进行卷积运算得到特征fi-256,卷积核大小为1*1,通道数为256;
步骤4-2)将f′n进行卷积运算,卷积核大小为1*1,通道数为256,之后进行双线性插值上采样计算,得到特征f′n-256
步骤4-3)对fi-256和f′n-256按照通道维度进行级联,得到能够表示空间细节及全局上下文的特征fi-cc,计算公式如下:
fi-cc=[conv(fi),u(conv(f′n))]
其中,“u”表示线性插值上采样,“[]”表示级联;
步骤4-3)对fi-cc进行卷积运算,卷积核大小为1*1,通道数为256,将卷积运算结果进行有效通道注意机制处理,将所得结果与fi-256进行点乘运算,得到第i层的局部空间细节优化特征fi cc,计算公式如下:
fi cc=fi-256⊙ECA(fi-cc)
其中,ECA表示通道注意机制,“⊙”表示点乘。
4.根据权利要求1所述的方法,其特征在于,所述自优化处理机制,包括:
步骤5-2-1)对解码器第i层的输出
Figure QLYQS_16
经过两个卷积运算,分别得到位置权重Wi和位置偏置bi;其中两个卷积运算的卷积核大小均为3*3,通道数为256;
步骤5-2-2)利用位置权重Wi和位置偏置bi
Figure QLYQS_17
进行自优化,得到输出结果oi,计算公式如下:
Figure QLYQS_18
Figure QLYQS_19
Figure QLYQS_20
其中,“⊙”表示点乘。
5.根据权利要求1所述的方法,其特征在于,所述编码器包括:多尺度特征提取、隐式深度监督和通道注意力机制三个部分;
多尺度特征提取计算过程如下:
B=M(A)=[h1*1(A),h3*3(A),h5*5(A),hpooling(A)]
其中,A为输入图像,A∈RC*H*W,C表示通道数,H为图像的高度,W为图像的宽度,[]表示级联,hn*n表示卷积核大小为n*n的卷积,每个卷积之后都进行批归一化和激活函数处理,hpooling表示3*3最大池化;
隐式深度监督处理的输出特征设置为256;
通道注意力机制的计算过程如下:
Figure QLYQS_21
Figure QLYQS_22
fi=x′*xlb
其中,gp表示全局平均池化,x(i,j)表示x的特征值,w1和w2表示权重矩阵,δ表示ReLU激活,σ表示Sigmoid激活,
Figure QLYQS_23
表示卷积运算,xlb表示可学习参数。
6.根据权利要求1所述的方法,其特征在于,所述特征映射包括1个全连接层和1个Sigmoid函数;所述全连接层包括两个神经元,实现高层抽象特征向输出层输出结果的特征映射;采用Sigmoid归一化函数进行归一化处理,得到图像的像素级分类结果,表示为:
Figure QLYQS_24
其中i表示第i个得分值,∑jej表示所有特征值的总和;选取概率最大值对应的类别作为像素级火焰检测的判别结果。
7.根据权利要求1所述的方法,其特征在于,所述步骤7)具体包括:
步骤7-1)将模型输出的结果与真实标签进行误差求取;所述误差求取采用交叉熵,其可以表示为:
Figure QLYQS_25
其中,
Figure QLYQS_26
表示真实标签
Figure QLYQS_27
与预测结果y之间的误差,p(xi)表示模型的前向输出结果,q(xi)表示真实标签,Σ表示求和;
步骤7-2)采用步骤7-1)得到的参数作为本次迭代的权重值;从剩余的图片中随机选取一组图片,经步骤2)、步骤3)、步骤4)、步骤5)、步骤6)和步骤7-1),得到新的参数组合;反复迭代,直至完成一个迭代周期;
步骤7-3)对训练图片进行重新洗牌,转至步骤1);反复执行,直至训练出最优参数组合。
8.根据权利要求1所述的方法,其特征在于,所述步骤8)具体包括:
步骤8-1)对于待检测的图片,利用双线性插值将待测图片的尺寸调整至模型输入所需大小224×224×3;
步骤8-2)将调整后的图片输入至最优参数模型,经模型前向传输得到预测结果;
步骤8-3)将每一像素的预测结果最大概率值所对应的类别与真实标签进行比较,若一致,则预测正确,反之,则预测错误;
步骤8-4)执行步骤8-1)、步骤8-2)和步骤8-3),直到全部待测图片检测完毕。
9.一种基于双语义注意力机制的高精度火焰定位系统,根据权利要求1-8任一项所述的方法构建的双重情境注意网络模型实现,所述系统包括:
数据预处理模块,用于对输入图像进行尺寸调整;
编码器,用于对输入图像进行多层次特征的提取;
全局和局部感知注意模块,用于对输入特征进行全局和局部感知注意机制处理,捕获更丰富的高级语义和全局上下文信息,得到全局及局部语义融合特征;
交叉语义注意模块,用于对输入特征进行交叉语义注意机制处理,优化局部空间细节信息,得到局部空间细节优化特征;
特征融合模块,用于对输入特征进行融合,实现多层次特征的融合;
自优化模块,用于进行自优化机制处理,优化融合特征;
解码器,用于聚合高级上下文特征和低级空间细节特征。
CN202110545613.3A 2021-05-19 2021-05-19 一种基于双语义注意力机制的高精度火焰定位方法及系统 Active CN113393521B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110545613.3A CN113393521B (zh) 2021-05-19 2021-05-19 一种基于双语义注意力机制的高精度火焰定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110545613.3A CN113393521B (zh) 2021-05-19 2021-05-19 一种基于双语义注意力机制的高精度火焰定位方法及系统

Publications (2)

Publication Number Publication Date
CN113393521A CN113393521A (zh) 2021-09-14
CN113393521B true CN113393521B (zh) 2023-05-05

Family

ID=77618062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110545613.3A Active CN113393521B (zh) 2021-05-19 2021-05-19 一种基于双语义注意力机制的高精度火焰定位方法及系统

Country Status (1)

Country Link
CN (1) CN113393521B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210485A (zh) * 2019-05-13 2019-09-06 常熟理工学院 基于注意力机制指导特征融合的图像语义分割方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581966B (zh) * 2020-04-30 2023-04-21 华南师范大学 一种融合上下文特征方面级情感分类方法和装置
CN111709306B (zh) * 2020-05-22 2023-06-09 江南大学 基于多层次时空特征融合增强的双流网络行为识别方法
CN112150429B (zh) * 2020-09-18 2024-08-09 南京师范大学 一种注意力机制引导的肾ct图像分割方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210485A (zh) * 2019-05-13 2019-09-06 常熟理工学院 基于注意力机制指导特征融合的图像语义分割方法

Also Published As

Publication number Publication date
CN113393521A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN108805200B (zh) 基于深度孪生残差网络的光学遥感场景分类方法及装置
CN117078943B (zh) 融合多尺度特征和双注意力机制的遥感影像道路分割方法
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN113850824A (zh) 一种基于多尺度特征融合的遥感图像路网提取方法
CN110287777B (zh) 一种自然场景下的金丝猴躯体分割算法
CN113392711B (zh) 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统
CN113870286B (zh) 一种基于多级特征和掩码融合的前景分割方法
CN114283120B (zh) 一种基于领域自适应的端到端多源异质遥感影像变化检测方法
CN115222998B (zh) 一种图像分类方法
CN112329771B (zh) 一种基于深度学习的建筑材料样本识别方法
CN113298817A (zh) 一种准确率高的遥感图像语义分割方法
CN115830596A (zh) 基于融合金字塔注意力的遥感图像语义分割方法
CN116524189A (zh) 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法
CN114662605A (zh) 基于改进的YOLOv5模型的火焰检测方法
CN114926734B (zh) 基于特征聚合和注意融合的固体废弃物检测装置及方法
CN116778318A (zh) 一种卷积神经网络遥感影像道路提取模型及方法
CN110728186B (zh) 一种基于多网融合的火灾检测方法
CN117611994A (zh) 基于注意力机制加权特征融合的遥感图像目标检测方法
CN117292117A (zh) 一种基于注意力机制的小目标检测方法
CN113554655B (zh) 基于多特征增强的光学遥感图像分割方法及装置
CN116778346B (zh) 一种基于改进自注意力机制的管线识别方法及系统
CN113780140A (zh) 基于深度学习的手势图像分割与识别方法以及装置
CN117911394A (zh) 基于改进YOLOv5的钢材表面缺陷检测方法及系统
CN117523333A (zh) 一种基于注意力机制的地表覆盖分类方法
CN115641445B (zh) 一种非对称内卷积与Transformer相融合的遥感图像阴影检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant