CN116152254B - 工业泄露目标气体检测模型训练方法、检测方法、电子设备 - Google Patents
工业泄露目标气体检测模型训练方法、检测方法、电子设备 Download PDFInfo
- Publication number
- CN116152254B CN116152254B CN202310428798.9A CN202310428798A CN116152254B CN 116152254 B CN116152254 B CN 116152254B CN 202310428798 A CN202310428798 A CN 202310428798A CN 116152254 B CN116152254 B CN 116152254B
- Authority
- CN
- China
- Prior art keywords
- image
- gas
- industrial
- feature
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
本公开涉及工业泄露目标气体检测模型训练方法、检测方法、电子设备。该训练方法包括:响应于接收到待训练气体图像,对待训练气体图像进行特征提取;基于可变形卷积和通道注意力对待训练气体图像进行图像特征增强,以得到针对待训练气体图像的深层特征图像;对深层特征图像进行特征预测,得到多个输出特征图;基于置信度筛选正负样本预测框;利用完整损失函数计算经筛选的正负样本预测框的目标边框回归损失;以及至少基于多个输出特征图和目标边框回归损失,更新工业泄露目标气体检测模型。以此方式,能够对工业泄漏气体进行实时和准确的检测,提升工业气体使用安全。
Description
技术领域
本公开一般地涉及计算机领域,特别地涉及工业泄露目标气体检测模型训练方法、检测方法、电子设备。
背景技术
21世纪以来,我国工业生产规模大幅增加、进程逐步提速。在工业生产过程中,特别是在化工、钢铁、石油、煤炭等能源领域行业,不可避免地产生大量的废气。这些排放的工业废气不仅会导致严重大气污染,其中掺杂的有毒有害成分还会对人民群众的生命财产安全造成极大的威胁和挑战。
深度学习是一类能够通过监督、半监督或无监督的训练方法,自动学习训练数据中隐藏的内部结构的一类多层神经网络算法。随着卷积神经网络在深度学习中的广泛应用,深度学习方法在目标检测方面发挥了重要作用,能更好地进行图像的特征提取。相比于传统目标检测方法,基于深度学习和CNN的目标检测方法在准确率方面体现出了明显优势,能够提取到图像深层次的语义特征,且已被应用于具有模糊特征物体(如气体、烟雾等)的目标检测
YOLO系列算法在目标检测领域迭代迅速同时表现出较好的检测性能,目前已初步应用于气体检测领域,但主要存在以下几个问题:目前的模型很难准确实现对形状不规则、稀疏性以及多尺度等气体目标特有特征的描述与提取;模型在反向传播优化过程中因目标边框损失未能完全衡量预测边框与真实目标边框之间的差异,导致气体检测准确性不高;数据集场景不够丰富,不能很好地应对多场景条件下工业危险气体泄漏问题。
因此,急需一种工业泄露目标气体检测模型训练方法、检测方法、电子设备,以至少部分地介绍上述问题。
发明内容
根据本公开的示例实施例,提供了一种用于提升工业泄漏气体检测精度的方案。
在本公开的第一方面中,提供了一种工业泄露目标气体检测模型训练方法。该方法包括:响应于接收到待训练气体图像,基于CSPNet和Swin Transformer Block对待训练气体图像进行特征提取,其中待训练气体图像包括一个或多个工业泄露目标气体;基于可变形卷积和通道注意力SENet对待训练气体图像进行图像特征增强,以得到针对待训练气体图像的深层特征图像;对深层特征图像进行特征预测,得到多个输出特征图,多个输出特征图的每个输出特征图具有不同的尺寸并且包括针对一个或多个工业泄露目标气体的类别、置信度以及正负样本预测框;基于置信度筛选正负样本预测框;利用完整损失函数计算经筛选的正负样本预测框的目标边框回归损失,其中完整损失函数基于中心点和目标边框而修正;以及至少基于多个输出特征图和目标边框回归损失,更新工业泄露目标气体检测模型,以检测一个或多个工业泄露目标气体。
在一些实施例中,方法还可以包括:对待训练气体图像进行图像标注,得到xml注释文件;将xml注释文件进行标注转换,得到txt注释文件;对txt注释文件使用HSV、Flip、MixUp和Mosaic中的一者或多者进行数据增强;以及对经数据增强的待训练气体图像进行信息建模。
在一些实施例中,基于可变形卷积和通道注意力SENet对待训练气体图像进行图像特征增强,以得到针对待训练气体图像的深层特征图像可以包括:融合可变形卷积和通道注意力SENet,以得到特征加权提取结构块CBL_D;以及至少基于特征加权提取结构块CBL_D,得到针对待训练气体图像的深层特征图像。
在一些实施例中,基于置信度筛选正负样本预测框可以包括:确定置信度的置信分阈值;以及基于置信分阈值筛选出正负样本预测框。
在一些实施例中,方法还可以包括:基于交叉熵损失函数计算与一个或多个工业泄露目标气体相关联的类别损失和分类损失。
在一些实施例中,至少基于多个输出特征图和目标边框回归损失,更新工业泄露目标气体检测模型可以包括:基于随机梯度下降算法更新工业泄露目标气体检测模型的参数。
在一些实施例中,工业泄露目标气体包括尺度变化大于阈值工业气体、形状不规则工业气体以及稀疏性工业气体中的一者或多者。
在本公开的第二方面中,提供了一种检测工业泄露目标气体的方法。该方法包括:获取待检测图像;以及利用工业泄露目标气体检测模型检测待检测图像,以得到针对工业泄露目标气体的目标检测结果,其中工业泄露目标气体检测模型采用根据本公开第一方面的方法被训练。
在本公开的第三方面中,提供了一种电子设备。该电子设备包括处理器以及与处理器耦合的存储器,存储器具有存储于其中的指令,指令在被处理器执行时使设备执行动作。动作包括:响应于接收到待训练气体图像,基于CSPNet和Swin Transformer Block对待训练气体图像进行特征提取,其中待训练气体图像包括一个或多个工业泄露目标气体;基于可变形卷积和通道注意力SENet对待训练气体图像进行图像特征增强,以得到针对待训练气体图像的深层特征图像;对深层特征图像进行特征预测,得到多个输出特征图,多个输出特征图的每个输出特征图具有不同的尺寸并且包括针对一个或多个工业泄露目标气体的类别、置信度以及正负样本预测框;基于置信度筛选正负样本预测框;利用完整损失函数计算经筛选的正负样本预测框的目标边框回归损失,其中完整损失函数基于中心点和目标边框而修正;以及至少基于多个输出特征图和目标边框回归损失,更新工业泄露目标气体检测模型,以检测一个或多个工业泄露目标气体。
在一些实施例中,输入图像首先经过模型特征提取得到预测框,再根据置信分阈值剔除负样本预测框,最后利用非极大值抑制算法剔除冗余预测框,得到最终检测结果。
在本公开的第四方面中,提供一种电子设备。该电子设备包括:处理器以及与处理器耦合的存储器,存储器具有存储于其中的指令,指令在被处理器执行时使设备执行动作。动作包括:获取待检测图像;以及利用工业泄露目标气体检测模型检测待检测图像,以得到针对工业泄露目标气体的目标检测结果,其中工业泄露目标气体检测模型采用根据本公开第一方面的方法被训练。
在本公开的第五方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
在本公开的第六方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第二方面的方法。
在本公开的第七方面中,提供了一种计算机程序产品,包括计算机可执行指令,所述计算机可执行指令在被处理器执行时,使计算机实现根据本公开的第一方面或第二方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素。附图用于更好地理解本方案,不构成对本公开的限定,其中:
图1示出了用于检测工业泄露目标气体的模型训练过程和模型推理过程的示意流程图;
图2示出了根据本公开的一些实施例的Swin Transformer示意模型图;
图3示出了根据本公开的一些实施例的可变性卷积和常规卷积采样点和感受野对比示意图;
图4示出了根据本公开的一些实施例的SENet模块的整体结构示意图;
图5示出了根据本公开的一些实施例的基于Swin Transformer结构与改进CIoU损失函数的工业泄露气体工业泄露目标气体检测模型整体结构示意图;
图6示出了能够实施本公开的多个实施例的计算设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如前文所描述,目前的模型很难准确实现对形状不规则、稀疏性以及多尺度等气体目标特有特征的描述与提取;模型在反向传播优化过程中因目标边框损失未能完全衡量预测边框与真实目标边框之间的差异,导致气体检测准确性不高;模型数据集场景不够丰富,不能很好地应对多场景条件下工业危险气体泄漏问题。
更具体地,利用红外成像技术将气体信号表征为图像形式,以基于深度学习的单阶段目标检测算法(如YOLO)为基准框架对红外气体图像进行目标检测。但在实践过程中发现,模型对于一些尺度变化较大、形状极其不规则以及较为稀疏的气体仍未能成功检测。这主要源于基准模型(如YOLO)的特征提取网络对这类目标的特征提取能力较弱,以及在模型优化过程中使用的边框回归损失函数CIoU难以准确衡量预测边框与真实目标框之间的差异,导致训练损失下降慢且不稳定。
至少针对以上问题,本公开的各个实施例提供了基于Swin Transformer结构与改进CIoU损失函数的工业泄露目标气体检测模型,例如基于YOLO模型进行气体识别。在图像特征提取阶段,将CSPNet与Swin Transformer Block结合来加强气体图像的特征提取;在图像特征增强阶段,采用特征加权提取结构块,将可变形卷积与通道注意力SENet并行用于挖掘气体的显著性语义特征;进一步,基于中心点和目标边框尺寸的修正完整损失函数MCIoU,用以更加精确地衡量两边框的位置差异,进而促使模型在训练过程中损失下降的更快且更稳定。根据本公开提出的方法模型在自建数据集上的mAP0.5:0.95能够达到85.91%,能够对工业泄漏气体进行实时准确地检测,提升工业气体使用安全。
下文将结合图1至图6介绍本公开的示例性实施例。下文将以YOLOv4模型为例介绍根据本公开的示例性实施例。
图1示出了用于检测工业泄露目标气体的模型训练过程和模型推理过程的示意流程图。整体地,图1示出了模型训练过程和模型推理过程。
在一个实施例中,模型训练过程和模型推理过程可以是现在计算设备中。计算设备可以是任何具有计算能力的设备。作为非限制性示例,计算设备可以是任意类型的固定计算设备、移动计算设备或便携式计算设备,包括但不限于台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、多媒体计算机、移动电话等;计算设备的全部组件或一部分组件可以分布在云端。计算设备至少包含处理器、存储器以及其他通常存在于通用计算机中的组件,以便实现计算、存储、通信、控制等功能。模型训练过程和模型推理过程可以实现在一个计算设备或者分别实现在单独的计算设备中。
在一个实施例中,在模型训练阶段,响应于接收到待训练气体图像,计算装置基于CSPNet和Swin Transformer Block对待训练气体图像进行特征提取,其中待训练气体图像包括一个或多个工业泄露目标气体;基于可变形卷积和通道注意力SENet对待训练气体图像进行图像特征增强,以得到针对待训练气体图像的深层特征图像;对深层特征图像进行特征预测,得到多个输出特征图,多个输出特征图的每个输出特征图具有不同的尺寸并且包括针对一个或多个工业泄露目标气体的类别、置信度以及正负样本预测框;基于置信度筛选正负样本预测框;利用完整损失函数计算经筛选的正负样本预测框的目标边框回归损失,其中完整损失函数基于中心点和目标边框而修正(即MCIoU);以及至少基于多个输出特征图和目标边框回归损失,更新工业泄露目标气体检测模型,以检测一个或多个工业泄露目标气体。
在一个实施例中,具体地,参照图1,在模型训练阶段,可以首先进行数据集的预处理。预处理可以包括图像标注、标签转换和数据增强三个步骤。在一个实施例中,例如可以使用LabelImg标注工具对图像进行标注得到xml注释文件,再转换为YOLOv4模型训练要求的txt注释文件,并可以对训练数据集使用HSV、Flip、MixUp和Mosaic等一个或多个数据增强方法,增加样本数据集的数量与多样性,进而提高模型收敛速度。
在一个实施例中,继续参照图1,进一步地,模型特征提取网络可以对图像进行信息建模,并且依次送入CSPNet和Swin Transformer Block结构块。随后,可以利用可变形卷积和通道注意力SENet进一步筛选与过滤目标语义特征信息,再将得到的深层特征图送入预测输出层中,完成对不同尺寸目标的预测。具体地,可以融合可变形卷积和通道注意力SENet,以得到特征加权提取结构块CBL_D,并且基于所述特征加权提取结构块CBL_D,得到针对所述待训练气体图像的深层特征图像。另外,特征增强还可以结合SPP以及CBL模块。在一个实施例中,可以通过串联相应模块后进行重新组合的方式融合可变形卷积和通道注意力SENet,具体实现包含两个阶段:第一阶段包含两个分支,一分支依次串联CBL模块、可变形卷积模块和CBL模块,另一分支仅包含可变形卷积;第二阶段依次通过CBL模块、通道注意力SENet、CBL模块,两阶段依次组合得到特征加权提取结构块CBL_D。
继续参照图1,进一步,可以根据交并比阈值(例如默认设置为0.5)筛选出正负样本预测框,使用MCIoU计算目标边框回归损失以及交叉熵损失计算目标类别和分类损失,利用随机梯度下降算法更新模型参数完成一次迭代,之后模型不断迭代训练直至收敛。
在一个实施例中,MCIoU是一种在CIoU基础上进行改进的损失函数。与CIoU不同的是,MCIoU新增边框面积损失的计算项,利用两个边框的相交面积、最小相邻矩形面积以及真实目标的面积计算预测边框与真实目标框之间的差异信息,这样模型在面对无规则气体目标时,能依靠边框面积损失来有效计算损失差异,进而在训练过程中准确描述边框损失差异与稳定模型训练过程,具体公式如下:
其中IoU是真实目标框与预测目标框之间的交并比值,b和bgt代表了预测框与真实框的中心点坐标,c是连接预测框与真实框的最小外接矩形的对角线距离,p2(b,bgt)是计算欧式距离的函数,dc、ds和s分别表示预测边框与真实目标框之间最小邻接矩形面积、预测边框与真实目标框之间的相交面积以及真实目标框的面积,α和β是两个控制参数(取值例如可以为0.5和0.5),γ是衡量长度比一致性的参数,v是权衡参数。
继续参考图1,在模型推理阶段,可以首先输入待检测图像到检测模型,检测模型对图像进行特征提取、特征增强后,输出分类、置信度以及边界框,随后根据置信度的置信分阈值筛选出预测框,并进行MCIoU计算以及交叉熵损失计算,最后得到预测结果而输出。
在一个具体实施例中,输入图像首先经过模型特征提取得到预测框,再根据置信分阈值(例如默认设置为0.01)剔除负样本预测框,最后利用非极大值抑制算法剔除冗余预测框,得到最终检测结果。
图2示出了根据本公开的一些实施例的Swin Transformer示意模型图。
参照图2,在Patch Partition(画片分割)阶段,可以首先给定一张输入图像,通过Patch Partition将输入图像分割成不重叠的图像块,此时输入图像尺寸由H×W×3变为(H/4)×(W/4)×48。接着这些图像块依次送入Linear Embedding(线性嵌入)和SwinTransformer Block模块中。
在一个实施例中,在Linear Embedding阶段,对前期得到的特征图先执行升维操作,将得到(H/4)×(W/4)×96的特征图,其中96是线性嵌入层的输出层数量;随后通过调整特征图维度,将特征图尺寸由(b,96,H/4,w/4)调整为(b,h×w/16,96),其中b是批次大小。
在一个实施例中,继续参照图2,在Swin Transformer模块中,尺寸为(b,h×w/16,96)的输入特征图经过Swin Transformer Block模块得到的输出特征图尺寸依旧是(b,h×w/16,96),但在计算自注意力过程中添加了先验位置与关键目标信息。
继续参照图2,在一个实施例中,在Swin Transformer Block模块之后,输出特征图都会进入Patch Merging结构中,在每个阶段都会实现特征图的降维与通道数的翻倍。最后,模型会连接不同的输出头完成不同的视觉任务。对于分类任务,模型最后采取全连接层预测目标类别;对于目标检测任务,模型最后输出分类预测头和回归预测头来预测目标类别和边框坐标信息。
图3示出了根据本公开的一些实施例的可变性卷积和常规卷积采样点和感受野对比示意图。
目前的工业泄露目标气体检测模型的特征提取模块通常采用传统卷积操作对图像进行采样与特征提取,且传统卷积操作是对图像的固定位置进行采样处理,其感受野是固定的。鉴于红外图像中气体往往呈现出不规则形状,普通的卷积操作受限于感受野大小而对气体的特征提取能力较弱。
为有效解决该问题,提高真实场景下气体的准确识别能力,可以采用可变形卷积,在特征提取的过程中调整感受野尺寸,使得模型在目标特征提取过程中能关注图像的整体信息,完整地描述与提取形状不规则气体的特征信息。常规卷积采样和可变形卷积采样的结构图可以参照图3,其中a为普通卷积,b和c为可变形卷积。从图3的示例性实施例能够看出,相对于普通卷积,可变形卷积对特征提取过程中有着更丰富的感受野。
在一个实施例中,参照图3,常规卷积操作在输入特征图上使用规则网格R进行采样,再使用卷积核对采样点进行加权运算,R表示感受野的大小和扩张:
对于特征图上每个点的卷积操作结果,等式为:
其中pn表示特征图的位置信息,x为输入特征图,w为卷积核权重,y为输出特征图。
可变形卷积是在常规卷积的基础上添加一个偏移量进行扩张,同样的位置p0做如下变换:
其中pn表示特征图的位置信息,x、w和y分别为输入特征图、卷积核权重和输出特征图,△pn为网格偏移。
由于偏移量的存在,采样位置变为不规则位置,可以通过双线性插值方法实现,等式为:
其中x为输入特征图,q为输入特征图x的所有位置点,p为输入特征图中的任意位置,G(q,p)是双线性插值的核函数。
图4示出了根据本公开的一些实施例的SENet模块的整体结构示意图。
在一些实施例中,SENet模块的作用是对通道维度进行加权,利用加权函数对特征图的通道信息进行筛选,过滤掉不重要的信息,着重关注响应值较大、特征信息较丰富的特征图通道。对于气体目标检测任务,SENet关注稀疏性气体目标细粒度特征信息的学习,在特征提取阶段注重结合图像整体语义,进而筛选特征图重要通道维度信息。
在一个实施例中,参照图4,可以首先对卷积得到的特征图进行Squeeze操作,在空间维度缩小特征图,从而得到宽高尺寸为1×1的特征图,每个通道内汇集了对应的空间位置信息。Squeeze操作具体实现方式是采取全局池化操作,具体操作如下:
其中,H和W分别为特征图的高和宽;zc和wc分别为多通道输出特征图和多通道输入特征图;uc为单通道输入特征图;Fsq为Squeeze操作函数。
进一步,继续参照图4,对全局特征进行激励操作,学习各通道间关联性,得到特征图不同通道的权重,最后再和原来的特征图以“逐元素相乘”方式得到结果特征图。激励操作采用Sigmoid函数进行实现:
其中,W1和W2分别代表不同的权重系数;z和s分别为输入特征图和输出特征图;σ为Sigmoid函数;Fex为激励操作函数;ReLU为非线性激活函数。
为了降低模型复杂度、提升模型的泛化能力,这里采用包含两个全连接层的bottleneck结构,其中第一个FC层起到降维的作用,降维系数为r是个超参数,然后采用ReLU激活,最后一个FC层恢复原始的维度。最后将学习到的各个通道的激活值与特征图上的原始特征逐元素相乘,输出结果特征图xc:
其中,uc和sc分别是输入的同维度特征图,其中uc是原始特征图,sc是经过激励操作得到的输出注意力图;Fscale为特征图逐元素相乘函数。
需要说明,上述通道注意力SENet仅仅是示意性的,还可以采用其他合适的通道注意力模型,本公开对此不作限制。
图5示出了根据本公开的一些实施例的基于Swin Transformer结构与改进CIoU损失函数的工业泄露目标气体检测模型整体结构示意图。
在一个实施例中,如图5所示,基准特征提取网络Backbone阶段包含CBM模块、两个CSP模块以及三个C_Swin_Block模块,其中C_Swin_Block模块中可以包含两个CBM子模块以及Swin Transformer Block结构块。
在一个实施例中,在特征融合网络Neck阶段,通过PANet进一步优化特征筛选操作,针对气体目标提出了一种融合可变形卷积与通道注意力模型SENet的特征加权提取结构块CBL_D。CBL_D模块的结构包含两个阶段。第一阶段可以是基于可变形卷积的富感受野特征增强,其中包含两个分支:一个分支依次串联CBL模块、可变形卷积模块和CBL模块;另一分支仅包含可变形卷积。在该阶段,以Concat连接方式聚合两分支的特征图,进而得到同时涵盖整体图像语义信息与局部特征提取块细粒度特征的特征图。第二阶段可以依次通过CBL模块、通道注意力SENet、CBL模块。
继续参照图5,在预测输出阶段,可以输出三个尺寸不同的特征图,宽高尺寸可以分别为80×64、40×32和20×16(输入训练图像宽高尺寸为640×512像素),分别接一个四通道的卷积层来回归目标框的坐标偏移值、一个二通道的卷积层来预测输出框中目标为前景和背景的概率以及一个单通道的卷积层来预测目标框的置信分,得到预测结果。
根据本公开各个实施例的基于Swin Transfomer结构与改进CIOU损失函数的工业泄漏目标气体检测模型用作检测工业危险气体泄漏情况,在精度上明显优于其它目标检测算法,且有较快的推理速度,能够基本实现实时检测,适宜应用于泄漏气体检测的实际场景中,从而保障工业气体使用安全。
图6示出了能够实施本公开的多个实施例的计算设备600的框图。设备600例如可以用于实现图1的计算设备。
如图6所示,设备600包括计算单元(例如CPU 601),其可以根据存储在只读存储器(ROM 602)中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM 603)中的计算机程序指令,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元的一些示例包括但不限于中央处理单元(CPU 601)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元执行上文所描述的各个方法和处理。例如,在一些实施例中,上文所描述的各个方法和过程可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元执行时,可以执行上文描述的方法的一个或多个步骤。备选地,在其他实施例中,计算单元可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上文描述的方法。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (8)
1.一种工业泄露目标气体检测模型训练方法,其特征在于,包括:
响应于接收到待训练气体图像,基于CSPNet和Swin Transformer Block对所述待训练气体图像进行特征提取,其中所述待训练气体图像包括一个或多个工业泄露目标气体,其中所述工业泄露目标气体包括尺度变化大于阈值工业气体、形状不规则工业气体以及稀疏性工业气体中的一者或多者;
基于并行的可变形卷积和通道注意力SENet对所述待训练气体图像进行图像特征增强,以得到针对所述待训练气体图像的深层特征图像;
对所述深层特征图像进行特征预测,得到多个输出特征图,多个所述输出特征图的每个输出特征图具有不同的尺寸并且包括针对一个或多个所述工业泄露目标气体的类别、置信度以及正负样本预测框;
基于所述置信度筛选所述正负样本预测框;
利用修正完整损失函数MCIoU计算经筛选的所述正负样本预测框的目标边框回归损失,其中所述修正完整损失函数MCIoU基于中心点和目标边框而修正;以及
至少基于多个所述输出特征图和所述目标边框回归损失,更新所述工业泄露目标气体检测模型,以实时地检测一个或多个所述工业泄露目标气体,提升工业气体使用安全;
其中基于并行的可变形卷积和通道注意力SENet对所述待训练气体图像进行图像特征增强,以得到针对所述待训练气体图像的深层特征图像包括:
融合所述可变形卷积和所述通道注意力SENet,以得到特征加权提取结构块CBL_D,其中特征加权提取结构块CBL_D包括第一阶段和第二阶段,所述第一阶段为基于可变形卷积的富感受野特征增强并且包括第一分支和第二分支,所述第一分支依次串联CBL模块、可变形卷积模块和CBL模块并且所述第二分支仅包含可变形卷积,所述第二阶段依次通过CBL模块、通道注意力SENet、CBL模块;以及
至少基于所述特征加权提取结构块CBL_D,得到针对所述待训练气体图像的深层特征图像。
2.根据权利要求1所述的训练方法,其特征在于,所述方法还包括:
对所述待训练气体图像进行图像标注,得到xml注释文件;
将所述xml注释文件进行标注转换,得到txt注释文件;
对所述txt注释文件使用HSV、Flip、MixUp和Mosaic中的一者或多者进行数据增强;以及
对经数据增强的所述待训练气体图像进行信息建模。
3. 根据权利要求1所述的训练方法,其特征在于,基于所述置信度筛选所述正负样本预测框包括:
确定所述置信度的置信分阈值;以及
基于所述置信分阈值筛选出所述正负样本预测框。
4.根据权利要求1所述的训练方法,其特征在于,所述方法还包括:
基于交叉熵损失函数计算与一个或多个所述工业泄露目标气体相关联的类别损失和分类损失。
5.根据权利要求4所述的训练方法,其特征在于,至少基于多个所述输出特征图和所述目标边框回归损失,更新所述工业泄露目标气体检测模型包括:
基于随机梯度下降算法更新所述工业泄露目标气体检测模型的参数。
6. 一种检测工业泄露目标气体的方法,其特征在于,包括:
获取待检测图像;以及
利用工业泄露目标气体检测模型检测所述待检测图像,以得到针对所述工业泄露目标气体的目标检测结果,其中所述工业泄露目标气体检测模型采用根据权利要求1至5中任一项所述的训练方法被训练。
7.一种电子设备,包括:
处理器;
以及
与所述处理器耦合的存储器,所述存储器具有存储于其中的指令,所述指令在被处理器执行时使所述电子设备执行动作,所述动作包括:响应于接收到待训练气体图像,基于CSPNet和Swin Transformer Block对所述待训练气体图像进行特征提取,其中所述待训练气体图像包括一个或多个工业泄露目标气体,其中所述工业泄露目标气体包括尺度变化大于阈值工业气体、形状不规则工业气体以及稀疏性工业气体中的一者或多者;
基于并行的可变形卷积和通道注意力SENet对所述待训练气体图像进行图像特征增强,以得到针对所述待训练气体图像的深层特征图像;
对所述深层特征图像进行特征预测,得到多个输出特征图,多个所述输出特征图的每个输出特征图具有不同的尺寸并且包括针对一个或多个所述工业泄露目标气体的类别、置信度以及正负样本预测框;
基于所述置信度筛选所述正负样本预测框;
利用修正完整损失函数MCIoU计算经筛选的所述正负样本预测框的目标边框回归损失,其中所述修正完整损失函数MCIoU基于中心点和目标边框而修正;以及
至少基于多个所述输出特征图和所述目标边框回归损失,更新所述工业泄露目标气体检测模型,以实时地检测一个或多个所述工业泄露目标气体,提升工业气体使用安全;
其中基于并行的可变形卷积和通道注意力SENet对所述待训练气体图像进行图像特征增强,以得到针对所述待训练气体图像的深层特征图像包括:
融合所述可变形卷积和所述通道注意力SENet,以得到特征加权提取结构块CBL_D,其中特征加权提取结构块CBL_D包括第一阶段和第二阶段,所述第一阶段为基于可变形卷积的富感受野特征增强并且包括第一分支和第二分支,所述第一分支依次串联CBL模块、可变形卷积模块和CBL模块并且所述第二分支仅包含可变形卷积,所述第二阶段依次通过CBL模块、通道注意力SENet、CBL模块;以及
至少基于所述特征加权提取结构块CBL_D,得到针对所述待训练气体图像的深层特征图像。
8.一种电子设备,包括:
处理器;
以及
与所述处理器耦合的存储器,所述存储器具有存储于其中的指令,所述指令在被处理器执行时使所述电子设备执行动作,所述动作包括:
获取待检测图像;
利用工业泄露目标气体检测模型检测所述待检测图像,以得到针对所述工业泄露目标气体的目标检测结果,其中所述工业泄露目标气体检测模型采用根据权利要求1至5中任一项所述的训练方法被训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310428798.9A CN116152254B (zh) | 2023-04-20 | 2023-04-20 | 工业泄露目标气体检测模型训练方法、检测方法、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310428798.9A CN116152254B (zh) | 2023-04-20 | 2023-04-20 | 工业泄露目标气体检测模型训练方法、检测方法、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116152254A CN116152254A (zh) | 2023-05-23 |
CN116152254B true CN116152254B (zh) | 2023-07-28 |
Family
ID=86374009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310428798.9A Active CN116152254B (zh) | 2023-04-20 | 2023-04-20 | 工业泄露目标气体检测模型训练方法、检测方法、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116152254B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116543241B (zh) * | 2023-07-07 | 2023-09-15 | 杭州海康威视数字技术股份有限公司 | 泄露气体云团的检测方法、装置、存储介质和电子设备 |
CN117037895B (zh) * | 2023-10-09 | 2024-02-20 | 苏州元脑智能科技有限公司 | 模型训练方法、装置、电子设备及存储介质 |
CN117593194A (zh) * | 2023-10-26 | 2024-02-23 | 广州科易光电技术有限公司 | 气体特征图生成方法、装置、电子设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898744A (zh) * | 2020-08-10 | 2020-11-06 | 维森视觉丹阳有限公司 | 基于池化lstm的tdlas痕量气体浓度检测方法 |
CN114627052A (zh) * | 2022-02-08 | 2022-06-14 | 南京邮电大学 | 一种基于深度学习的红外图像漏气漏液检测方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9881234B2 (en) * | 2015-11-25 | 2018-01-30 | Baidu Usa Llc. | Systems and methods for end-to-end object detection |
CN113192040B (zh) * | 2021-05-10 | 2023-09-22 | 浙江理工大学 | 一种基于YOLO v4改进算法的织物瑕疵检测方法 |
CN114544693A (zh) * | 2022-02-16 | 2022-05-27 | 山东融瓴科技集团有限公司 | 一种基于目标检测的多种室内有害气体浓度异常检测方法及系统 |
CN115861922B (zh) * | 2022-11-23 | 2023-10-03 | 南京恩博科技有限公司 | 一种稀疏烟火检测方法、装置、计算机设备及存储介质 |
-
2023
- 2023-04-20 CN CN202310428798.9A patent/CN116152254B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898744A (zh) * | 2020-08-10 | 2020-11-06 | 维森视觉丹阳有限公司 | 基于池化lstm的tdlas痕量气体浓度检测方法 |
CN114627052A (zh) * | 2022-02-08 | 2022-06-14 | 南京邮电大学 | 一种基于深度学习的红外图像漏气漏液检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116152254A (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116152254B (zh) | 工业泄露目标气体检测模型训练方法、检测方法、电子设备 | |
CN110991311A (zh) | 一种基于密集连接深度网络的目标检测方法 | |
CN110751195B (zh) | 一种基于改进YOLOv3的细粒度图像分类方法 | |
CN111612017A (zh) | 一种基于信息增强的目标检测方法 | |
CN111753682B (zh) | 一种基于目标检测算法的吊装区域动态监控方法 | |
CN113177560A (zh) | 一种普适性轻量级深度学习车辆检测方法 | |
WO2023116632A1 (zh) | 基于时空记忆信息的视频实例分割方法和分割装置 | |
CN114782734A (zh) | 一种阀冷系统管道渗漏视觉检测方法及计算机与存储介质 | |
CN115294563A (zh) | 一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置 | |
CN115063833A (zh) | 一种基于图像分层视觉的机房人员检测方法 | |
Qian et al. | FESSD: SSD target detection based on feature fusion and feature enhancement | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
Zhao et al. | Building instance segmentation and boundary regularization from high-resolution remote sensing images | |
Zhang et al. | Research on surface defect detection of rare-earth magnetic materials based on improved SSD | |
CN112288084B (zh) | 基于特征图通道重要性的深度学习目标检测网络压缩方法 | |
CN116579616B (zh) | 一种基于深度学习的风险识别方法 | |
CN116310850A (zh) | 基于改进型RetinaNet的遥感图像目标检测方法 | |
Cao et al. | Wafer surface defect detection based on improved YOLOv3 network | |
CN112668643B (zh) | 一种基于格式塔法则的半监督显著性检测方法 | |
CN113344005B (zh) | 一种基于优化小尺度特征的图像边缘检测方法 | |
CN115240163A (zh) | 一种基于一阶段检测网络的交通标志检测方法及系统 | |
Zhou et al. | Lite-YOLOv3: a real-time object detector based on multi-scale slice depthwise convolution and lightweight attention mechanism | |
CN114677568B (zh) | 一种基于神经网络的线性目标检测方法、模块及系统 | |
Li | An improved algorithm for object detection based on deep learning | |
CN117475405A (zh) | 基于深度学习的无人机航道巡检异物识别定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |