CN113283419B - 基于注意力的卷积神经网络指针式仪表图像读数识别方法 - Google Patents

基于注意力的卷积神经网络指针式仪表图像读数识别方法 Download PDF

Info

Publication number
CN113283419B
CN113283419B CN202110479232.XA CN202110479232A CN113283419B CN 113283419 B CN113283419 B CN 113283419B CN 202110479232 A CN202110479232 A CN 202110479232A CN 113283419 B CN113283419 B CN 113283419B
Authority
CN
China
Prior art keywords
convolutional neural
neural network
attention
training
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110479232.XA
Other languages
English (en)
Other versions
CN113283419A (zh
Inventor
管敏渊
李凡
归宇
王涤
徐凯
杨斌
戴则维
杜鹏远
赵崇娟
王瑶
黄宇宙
闻俊义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Huzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd filed Critical Huzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority to CN202110479232.XA priority Critical patent/CN113283419B/zh
Publication of CN113283419A publication Critical patent/CN113283419A/zh
Application granted granted Critical
Publication of CN113283419B publication Critical patent/CN113283419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/02Recognising information on displays, dials, clocks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力的卷积神经网络指针式仪表图像读数识别方法,首先利用Faster R‑CNN检测仪表图像的表盘,建立指针式仪表图片的Faster‑CNN数据集,同时得到表盘的类型,然后使用基于注意力的卷积神经网络模型数据集进行训练和测试,训练结束后,将所述基于注意力机制的卷积神经网络分级回归出指针读数。本发明在卷积神经网络中引入注意力模块,采用双路异构卷积神经网络强化了对仪表图像特征的提取,加入卷积注意力模块改善了提取特征的类型和分布。卷积神经网络采取分级回归的策略,极大简化模型体积。卷积注意力模块改善了提取特征的类型和分布提高了仪表读数的精确度。

Description

基于注意力的卷积神经网络指针式仪表图像读数识别方法
技术领域
本发明涉及一种数据识别领域,尤其涉及一种基于注意力的卷积神经网络指针式仪表图像读数识别方法。
背景技术
由于变电站环境中存在大量电磁干扰以及指针式仪表具有价格优势等原因,目前变电站中依然存在着大量的指针式仪表。而巡检机器人在变电站的推广极大方便了指针式仪表图像的获取。为了进一步节约人力成本、提升变电站的自动化、智能化水平,提高变电站巡检图像中指针式仪表读数识别的准确率和效率是非常必要的。
通常指针式仪表读数自动识别流程大致分为校准表盘和识别指针位置两个步骤。因为两部分所使用的算法原理不同,因此通常两部分各需要设计一个完整模型分别实现各自部分的任务。常见的表盘校准方法通常都是关键点检测,然后通过数学方法,将倾斜的图像矫正为正面图像。在指针检测方面,传统采用的方法为霍夫线变换,不过霍夫线变换对参数的依赖性强、灵活性差,并且处理背景复杂的仪表图像时,霍夫线变换边缘检测结果中会出现非常多的干扰图形,因而其实用性受限。而现有的基于深度学习的方法则需要一个规模较大的神经网络才能实现任务要求。因此传统特征检测方法效果不佳,而深度学习的方法需要规模较大的规模,限制了应用情况。
例如,一种在中国专利文献上公开的“一种利用颜色快速识别仪表读数的方法”,其公告号CN102799861A,其步骤:(1)采用摄像头拍摄仪表,得到表盘读数图像;(2)采用中值滤波对表盘读数图像去噪;(3)将步骤(2)得到排序后的图像分成L个读数位区域Ωi;(4)从第i个读数位区域Ωi中筛选出所有背景像素点;(5)分别计算第i个区域Ωi中背景像素点的色相角Hi和第i个区域的色相角均值;(6)设置仪表表盘读数分别为0,1,2,3,----8,9,根据步骤(5)所述第i个区域的色相角均值识别表盘的背景像素点区域的颜色,确定表盘颜色所对应的表盘数字,实现了利用颜色快速识别仪表读数。但是上述方案利用颜色粗略识别仪表读数存在识别方式比较粗糙,识别结果精度低且识别方法不适用于市面普通仪表的问题。
发明内容
本发明是为了克服现有技术的卷积神经网络识别仪表读数难以直接依赖表盘区域信息,识别仪表的读数方式比较粗造,模型的参数量和空间复杂度大的问题,提供一种构建模型体积小、易部署、效率高,预测精度高的基于注意力的卷积神经网络指针式仪表图像读数识别方法。
为实现上述目的,本发明采用以下技术方案:
一种基于注意力的卷积神经网络指针式仪表图像读数识别方法,其特征是,包括以下步骤:
S1:建立指针式仪表图片的Faster-CNN数据集,数据集包括训练接和测试集,将训练集图片分为表盘区域和指针区域两份文件;将采集的指针式仪表图像数据集按比例分为训练集和测试集,对于训练集的每张图片,制作成两份XML文件,两份XML文件将分别用于训练Faster R-CNN网络检测识别表盘区域和指针区域。
S2:建立Faster R-CNN网络;其中卷积模块采用ResNet50.
S3:将训练集图片和表盘区文件输入到Faster R-CNN模型中进行训练,训练完成后,将测试集中的图片数据输入到Faster R-CNN模型中进行测试;训练时适当调整学习率及训练轮数。
S4:建立基于注意力的卷积神经数据集;根据Faster-CNN数据集中的仪表图像数据集来获取仪表盘图像,然后经过裁剪缩放后,每张表盘图像的分辨率为256×256,将指针式仪表图片数据集按照训练集和测试集4∶1区分。
S5:构建基于注意力机制的卷积神经网络,将输入特征图F∈RC×H×W经过空间最大池化得到
Figure BDA0003046796790000021
和空间平均池化得到
Figure BDA0003046796790000022
然后将空间最大池化和空间平均池化用多层感知机制处理后逐元素相加,后使用Sigmoid函数激活后得到通道注意力特征图;将基于注意力机制的卷积神经网络采用分级回归,其中C为通道数,H为特征图高度,W为特征图宽度;通道注意力特征图中加入了对全局特征的分析,因而能够对F的特征进行一定程度的修正。
S6:将基于注意力的卷积神经数据集输入到基于注意力机制的卷积神经网络中进行训练,当损失函数在迭代过程中不再减少时结束训练;
S7:Faster R-CNN和基于注意力机制的卷积神经网络均已训练完成后,经过步骤3可以得到表盘的类型,经过基于注意力机制的卷积神经网络可以得到指针式仪表读数识别的最终结果。
作为优选,步骤S5中所述的将注意力机制的卷积神经网络分级回归包括如下步骤:
S5.1:将分级回归转化为分类任务,用分类任务各类别的期望值来表示回归预测值
Figure BDA0003046796790000023
构建双路卷积网络模型,在双路卷积网络模型中引入注意力机制,提升卷积神经网络识别指针的准确性。
S5.2:假设仪表读数Y分布的区间为[0,V],将区间细分为S个无重叠的子区间,每个子区间宽度
Figure BDA0003046796790000024
第i个子区间的代表值
Figure BDA0003046796790000025
S5.3:预测值
Figure BDA0003046796790000031
满足如下计算方法:
Figure BDA0003046796790000032
其中,向量
Figure BDA0003046796790000033
表示预测值
Figure BDA0003046796790000034
在各子区间的分布概率。降低模型部署的难度,极大简化了模型体积。
作为优选,步骤S5中所述的将注意力机制的卷积神经网络分级回归包括如下步骤:
S5.1.1:将预测过程分为K层级,每一个层级k有Sk个子区间,该层子区间的概率分布为:
Figure BDA0003046796790000035
S5.1.2:预测值
Figure BDA0003046796790000036
满足如下计算方法:
Figure BDA0003046796790000037
其中:仪表读数Y分布的区间为[0,V],向量
Figure BDA0003046796790000038
表示预测值
Figure BDA0003046796790000039
在各子区间的分布概率。采用由粗到细分级回归的策略,提升预测精度。分级回归将预测过程划分成多个层级,每一级只对前一级的预测结果进行微调,这种方式能够大幅减少每个层级需要预测的类别数,从而能够极大减少模型的参数量、降低模型的复杂度。
作为优选,所述空间注意力特征图MS∈R1×H×W满足如下关系:
Ms(F)=σ(Conv([MaxPool(F) AvgPool(F)])),
其中,F为输入特征图,MaxPool表示卷积神经网络中的最大池化,AvgPool表示卷积神经网络中的平均池化,σ表示Sigmoid函数。
输入特征图中的中间特征图中的每一层可以理解为某一类型的特征。为了提取更有效的特征,通道注意力模块的核心思想是使用全局最大池化和全局平均池化来改善特征图中的局部特征。
作为优选,步骤S5中所述的通道注意力特征图MC∈RC×1×1满足如下关系:
Mc(F)=σ(MLP(MaxPool(F))+MLP(AvgPool(F))),
其中,Maxpool表示卷积神经网络中的最大池化,Avgpool表示卷积神经网络中的平均池化,
Figure BDA00030467967900000312
表示Sigmoid函数。
基于F的宽高尺寸分别经过空间最大池化和空间平均池化得到
Figure BDA00030467967900000310
Figure BDA00030467967900000311
然后将两者用同一个多层感知机Multi-layer perceptron,MLP处理后逐元素相加,最后使用Sigmoid函数激活后得到通道注意力特征图MC∈RC×1×1,Mc重新计算了特征图平面上各个位置的权重,与F逐元素相乘即可得到特征空间分布改善后的特征图。
作为优选,步骤S1中所述的训练集和测试集的比例为4∶1。
作为优选,所述训练集的图片分为第一XML文件和第二XML文件,第一XML文件记录表盘区域的位置和标签,第二XML文件记录的是指针区域的位置和标签。第一XML文件中的标签还包括指明仪表的具体型号。第二XML文件中的标签统一注明为指针。
因此,本发明具有如下有益效果:(1)本发明在卷积神经网络中引入注意力模块,采用双路异构卷积神经网络强化了对仪表图像特征的提取,加入卷积注意力模块改善了提取特征的类型和分布。(2)卷积神经网络采取分级回归的策略,极大简化模型体积。(3)卷积注意力模块改善了提取特征的类型和分布提高了仪表读数的精确度。
附图说明
图1是本发明一实施例基于注意力的卷积神经网络的指针式仪表读数自动识别流程。
图2是本发明一实施例Faster R-CNN网络结构示意图。
图3是本发明一实施例双路卷积神经网络结构框图。
图4是本发明一实施例注意力模块结构框图。
图5是本发明一实施例基于注意力的卷积神经网络结构框图。
具体实施方式
下面结合附图与具体实施方式对本发明做进一步的描述。
实施例1:
如图1~5所示的一种基于注意力的卷积神经网络指针式仪表图像读数识别方法,包括如下步骤:
步骤1:制作Faster R-CNN数据集。将机器人采集的指针式仪表图像数据集按照4∶1比例分为训练集和测试集。对于训练集的每张图片,制作两份XML文件:第一份XML文件记录表盘区域的位置和标签,为了后期能够正确得到仪表种类,表盘的标签需要指明仪表的具体型号,如SF6压力表;第二份XML文件记录指针区域的位置和标签,标签统一注明为指针即可。这两份XML文件将分别用于训练Faster R-CNN网络检测识别表盘区域和指针区域。
步骤2:建立Faster R-CNN网络。如图2所示建立Faster R-CNN网络,其中卷积模块采用ResNet50。
步骤3:训练并测试Faster R-CNN检测表盘区域的效果。将训练集图片和步骤1中记录表盘区域位置和标签信息的XML文件输入到Faster R-CNN模型,并适当调整参数如学习率以及训练轮数。训练完成后需要对模型的检测效果进行测试,测试阶段需要输入测试集中的图片数据。
步骤4:制作基于注意力的卷积神经网络数据集。根据之前步骤的模型处理机器人采集的指针式仪表图像数据集来获取仪表盘图像,然后经过裁剪缩放后,每张表盘图像的分辨率为256×256。将指针式仪表图片数据集按照比例4∶1分成训练集和测试集。
步骤5:构建注意力的卷积神经网络网络。如图的设计构建双路卷积网络模型,同时针对仪表指针附近区域占据整个表盘区域的面积比例往往很小,卷积神经网络识别仪表读数难以直接依赖表盘区域信息的问题。本发明在改进的双路卷积网络模型的隐含层中引入注意力机制;如图3所示。
中间特征图中的每一层可以理解为某一类型的特征。为了提取更有效的特征,通道注意力模块的核心思想是使用全局最大池化和全局平均池化来改善特征图中的局部特征。具体来说,对于输入特征图F∈RC×H×W,其中C为通道数,H为特征图高度,W为特征图宽度,首先基于F的宽高尺寸分别经过空间最大池化和空间平均池化得到
Figure BDA0003046796790000051
Figure BDA0003046796790000052
然后将两者用同一个多层感知机即Multi-layer perceptron,MLP,处理后逐元素相加,最后使用Sigmoid函数激活后得到通道注意力特征图MC∈RC×1×1,即:
Mc(F)=σ(MLP(MaxPool(F))+MLP(AvgPool(F)))
其中,MaxPool和AvgPool分别表示卷积神经网络中的最大池化和平均池化,σ表示Sigmoid函数。由于通道注意力特征图Mc加入了对全局特征的分析,因而能够对F的特征进行一定程度的修正。Mc与F逐元素相乘即可得到特征类型改善后的特征图。
空间注意力模块是引导模型在特征图中寻找对最终预测结果影响最大的特征所在的位置。具体来说,对于输入特征图F∈RC×H×W,基于F的通道分别进行最大池化和平均池化得到
Figure BDA0003046796790000053
Figure BDA0003046796790000054
然后将两者进行融合连接操作后输入到卷积层,最后使用Sigmoid函数激活后得到空间注意力特征图MS∈R1×H×W,即:
Ms(F)=σ(Conv([MaxPool(F) AvgPool(F)]))
Ms重新计算了特征图平面上各个位置的权重,与F逐元素相乘即可得到特征空间分布改善后的特征图。
该模型结构的最后部分使用多个全连接层的方式直接回归仪表读数,而全连接层参数冗余,因此模型的参数量和空间复杂度较大。要降低模型部署的难度,势必要减少模型体积。将原卷积神经网络模型采用分级回归,极大简化了模型的体积。
分级回归首先将回归任务转化为分类任务,用各类别的期望值来表示回归预测值。具体来说,当仪表读数Y分布在[0,V]区间时,将该区间细分为S个无重叠的子区间,每个子区间的宽度
Figure BDA0003046796790000061
并且每个子区间都有一个代表值,如选取子区间的左值为其代表值时,第i个子区间的代表值
Figure BDA0003046796790000062
对于输入图像x,模型将输出一组向量
Figure BDA0003046796790000063
表示预测值
Figure BDA0003046796790000064
在各子区间分布的概率,
Figure BDA0003046796790000065
的计算方法为:
Figure BDA0003046796790000066
为了提升预测精度,可以进一步采取由粗到细、分级回归的策略。假设预测过程共分为K个层级,每一层级k有sk个子区间,该层级子区间的概率分布为
Figure BDA0003046796790000067
Figure BDA0003046796790000068
的计算方法为:
Figure BDA0003046796790000069
分级回归将预测过程划分成多个层级,每一级只对前一级的预测结果进行微调,这种方式能够大幅减少每个层级需要预测的类别数,从而能够极大减少模型的参数量、降低模型的复杂度。
步骤6:训练并测试注意力的卷积神经网络的效果。将步骤4的训练图片输入到步骤5设计的基于注意力机制的卷积神经网络进行训练,训练过程中为了防止过拟合现象,当损失函数经历若干迭代次数不再减少时应结束训练过程。训练结束后需要对回归读数效果进行测试,测试阶段需要输入测试集中的图像数据。
步骤7:指针式仪表读数自动识别。当Faster R-CNN和基于注意力机制的卷积神经网络均已训练完成后,经过步骤3可以得到表盘的类型,经过基于注意力机制的卷积神经网络可以得到指针式仪表读数识别的最终结果。
实施例2:一种基于注意力的卷积神经网络变电站仪表图像读数识别方法,选取某变电站的1106张SF6压力表图像作为指针式仪表读数自动识别的实验数据集,每张图像分辨率均为256*256。将实验数据集按照约4∶1比例分为884张图片作为训练集和222张图片作为测试集。测试平台CPU为Core i7-9700K,GPU为单核GEFORCE RTX 3090 Ti。
定义读数识别的准确率为读数识别相对误差绝对值在一个单位刻度范围内的图像数量与总图像数量之比;定义偏差率为读数识别相对误差绝对值在一个单位到两个单位刻度的区间中的图像数量与总图像数量之比;定义误差率为读数识别相对误差绝对值高于两个单位刻度的图像数量与总图像数量之比。定义平均绝对误差即Mean Absolute Error,MAE,为测试集中预测值与真实值的绝对误差的平均值。
为了说明本专利的融合注意力的卷积神经网络算法识别指针式仪表读数的效果,设置了6个对照组。其中,前5个是基于图像特征映射的读数识别方法,分别为基于HOG特征的支持向量机模型SVM、基于HOG特征的随机森林模型RF、基于卷积神经网络模型CNN、加入卷积注意力模块的卷积神经网络模型“CNN+CBAM”、基于软区间分级回归方法的双路异构卷积神经网络“2-CNN”;第6个为基于仪表指针检测的深度学习方法,具体是表现优秀的基于U-Net图像分割的模型即U-Net。
表1
模型 准确率/% 偏差率/% 误差率/% MAE/Mpa 总耗时/s 模型体积/MB
SVM 50.45 9.01 40.54 0.04331 0.294 17.4
RF 48.65 21.62 29.73 0.02965 0.023 2.4
CNN 62.16 22.52 15.32 0.02007 1.278 49.7
CNN+CBAM 66.67 26.13 7.20 0.01811 1.387 49.9
2-CNN 72.07 20.27 7.66 0.01426 2.322 0.6
U-Net 85.58 5.41 9.01 0.01203 66.477 355.3
本文模型 75.68 17.11 7.21 0.01375 2.534 0.9
分析表中数据可以发现:
与其他基于图像特征映射的读数识别方法相比,本专利模型在读数识别准确率、读数识别误差率、平均绝对误差等指标均为最优,表明本专利模型提取的图像特征质量更高,更适合映射仪表读数。其中,SVM、RF等机器学习模型的优势在于模型结构相对简单,识别消耗时间更少,但读数识别准确率、读数识别误差率、平均绝对误差等指标均远低于以卷积神经网络为代表的深度学习模型。CNN+CBAM模型与CNN模型的识别结果对比可以发现,卷积注意力模块在不明显增加模型大小和识别耗时的情况下,能够提高读数识别准确率、降低误差率、减小平均绝对误差,说明了卷积注意力模块能够对模型提取的中间特征进行优化,改善了模型的整体性能。2-CNN模型与CNN模型的识别结果对比可以发现,由于采用分级回归方法减少了每一层级需要预测的类别数,因此大幅减少了全连接层的参数冗余,极大简化了双路异构卷积神经网络模型体积,在读数识别准确率、读数识别误差率、平均绝对误差等指标也相对更好,说明了双路卷积神经网络的设计以及软区间分级回归的方式比堆叠全连接层直接回归的方式更优。
与基于仪表指针检测的读数识别方法相比,本专利算法在识别准确率上虽然不如基于仪表指针检测的U-Net深度学习算法,然而准确率与偏差率之和还是本专利方法最优,且平均绝对误差指标非常接近。同时,基于仪表指针检测的算法流程多、耗时长,识别总耗时为本专利模型的26倍,并且该算法模型体积大,将近本发明模型的400倍,算法部署难度非常大。因此,本专利算法在仪表读数识别准确率、识别效率、算法部署难度中取得了较好的平衡。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管本文较多地使用了数据集、卷积、预测值、分级回归等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims (5)

1.一种基于注意力的卷积神经网络指针式仪表图像读数识别方法,其特征是,包括以下步骤:
S1:建立指针式仪表图片的Faster-CNN数据集,数据集包括训练接和测试集,将训练集图片分为表盘区域和指针区域两份文件;
S2:建立Faster R-CNN网络;
S3:将训练集图片和表盘区文件输入到Faster R-CNN模型中进行训练,训练完成后,将测试集中的图片数据输入到Faster R-CNN模型中进行测试;
S4:建立基于注意力的卷积神经数据集;
S5:构建基于注意力机制的卷积神经网络,将输入特征图F∈RC×H×W经过空间最大池化得到
Figure FDA0003569370490000011
和空间平均池化得到
Figure FDA0003569370490000012
然后将空间最大池化和空间平均池化用多层感知机制处理后逐元素相加,后使用Sigmoid函数激活后得到通道注意力特征图;将基于注意力机制的卷积神经网络采用分级回归,其中C为通道数,H为特征图高度,W为特征图宽度;
S6:将基于注意力的卷积神经数据集输入到基于注意力机制的卷积神经网络中进行训练,当损失函数在迭代过程中不再减少时结束训练;
S7:Faster R-CNN和基于注意力机制的卷积神经网络均已训练完成后,经过步骤3可以得到表盘的类型,经过基于注意力机制的卷积神经网络可以得到指针式仪表读数识别的最终结果;步骤S5中所述的将基于注意力机制的卷积神经网络分级回归包括如下步骤:
S5.1:将分级回归转化为分类任务,用分类任务各类别的期望值来表示回归预测值
Figure FDA0003569370490000013
S5.2:假设仪表读数Y分布的区间为[0,V],将区间细分为s个无重叠的子区间,每个子区间宽度
Figure FDA0003569370490000014
第i个子区间的代表值
Figure FDA0003569370490000015
S5.3:预测值
Figure FDA0003569370490000016
满足如下计算方法:
Figure FDA0003569370490000017
其中,向量
Figure FDA0003569370490000018
表示预测值
Figure FDA0003569370490000019
在各子区间的分布概率;
步骤S5中所述的将基于注意力机制的卷积神经网络分级回归包括如下步骤:
S5.1.1:将预测过程分为K层级,每一个层级k有Sk个子区间,该层子区间的概率分布为:
Figure FDA0003569370490000021
S5.1.2:预测值
Figure FDA0003569370490000022
满足如下计算方法:
Figure FDA0003569370490000023
其中:仪表读数Y分布的区间为[0,V],向量
Figure FDA0003569370490000024
表示预测值
Figure FDA0003569370490000025
在各子区间的分布概率。
2.根据权利要求1所述的基于注意力的卷积神经网络指针式仪表图像读数识别方法,其特征是,所述空间注意力特征图Ms∈R1×H×W满足如下关系:
Ms(F)=σ(Conv([MaxPool(F) AvgPool(F)])),
其中,F为输入特征图,MaxPool表示卷积神经网络中的最大池化,AvgPool表示卷积神经网络中的平均池化,σ表示Sigmoid函数。
3.根据权利要求2所述的基于注意力的卷积神经网络指针式仪表图像读数识别方法,其特征是,步骤S5中所述的通道注意力特征图Mc∈Rc×1×1满足如下关系:
Mc(F)=σ(MLP(MaxPool(F))+MLP(AvgPool(F))),
其中,Maxpool表示卷积神经网络中的最大池化,Avgpool表示卷积神经网络中的平均池化,б表示Sigmoid函数。
4.根据权利要求2所述的基于注意力的卷积神经网络指针式仪表图像读数识别方法,其特征是,步骤S1中所述的训练集和测试集的比例为4:1。
5.根据权利要求3所述的基于注意力的卷积神经网络指针式仪表图像读数识别方法,其特征是,步骤S1中所述训练集的图片分为两份文件包括第一XML文件和第二XML文件,第一XML文件记录表盘区域的位置和标签,第二XML文件记录的是指针区域的位置和标签。
CN202110479232.XA 2021-04-29 2021-04-29 基于注意力的卷积神经网络指针式仪表图像读数识别方法 Active CN113283419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110479232.XA CN113283419B (zh) 2021-04-29 2021-04-29 基于注意力的卷积神经网络指针式仪表图像读数识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110479232.XA CN113283419B (zh) 2021-04-29 2021-04-29 基于注意力的卷积神经网络指针式仪表图像读数识别方法

Publications (2)

Publication Number Publication Date
CN113283419A CN113283419A (zh) 2021-08-20
CN113283419B true CN113283419B (zh) 2022-07-05

Family

ID=77277793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110479232.XA Active CN113283419B (zh) 2021-04-29 2021-04-29 基于注意力的卷积神经网络指针式仪表图像读数识别方法

Country Status (1)

Country Link
CN (1) CN113283419B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113721162B (zh) * 2021-08-27 2023-10-24 中国科学院合肥物质科学研究院 一种基于深度学习的聚变磁体电源故障智能诊断方法
CN113610085B (zh) * 2021-10-10 2021-12-07 成都千嘉科技有限公司 基于注意力机制的字轮图像识别方法
CN114092813B (zh) * 2021-11-25 2022-08-05 中国科学院空天信息创新研究院 一种工业园区图像提取方法、系统、电子设备和存储介质
CN114842240A (zh) * 2022-04-06 2022-08-02 盐城工学院 融合ghost模块和注意力机制的MobileNetV2农作物叶片图像分类方法
CN115311447A (zh) * 2022-08-02 2022-11-08 大连海事大学 一种基于深度卷积神经网络的指针式仪表示数识别方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH048042A (ja) * 1990-04-26 1992-01-13 Yuseisho Tsushin Sogo Kenkyusho 畳込み符号化直交fm・ビタビ受信方式
CN105809179A (zh) * 2014-12-31 2016-07-27 中国科学院深圳先进技术研究院 一种指针式仪表的读数识别方法及装置
CN108764257A (zh) * 2018-05-23 2018-11-06 郑州金惠计算机系统工程有限公司 一种多视角的指针式仪表识别方法
CN108921203A (zh) * 2018-06-13 2018-11-30 深圳市云识科技有限公司 一种指针式水表的检测与识别方法
CN109934221A (zh) * 2019-02-22 2019-06-25 山东大学 基于注意力机制的电力设备自动分析识别监控方法及系统
CN110383292A (zh) * 2017-04-07 2019-10-25 英特尔公司 用于深度神经网络的经预算和经简化的训练的方法和系统
CN110427943A (zh) * 2019-08-27 2019-11-08 国家电网有限公司 一种基于r-cnn的智能电表数值识别方法
US10492981B1 (en) * 2015-07-17 2019-12-03 Bao Tran Systems and methods for computer assisted operation
CN110826549A (zh) * 2019-11-04 2020-02-21 山东欧玛嘉宝电气科技有限公司 基于计算机视觉的巡检机器人仪表图像识别方法及系统
CN110929723A (zh) * 2019-11-20 2020-03-27 汕头大学 一种基于卷积神经网络的变电站指针式仪表的识别方法
CN111414934A (zh) * 2020-01-21 2020-07-14 国网浙江省电力有限公司湖州供电公司 一种基于Faster R-CNN和U-Net的指针式仪表读数自动识别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH048042A (ja) * 1990-04-26 1992-01-13 Yuseisho Tsushin Sogo Kenkyusho 畳込み符号化直交fm・ビタビ受信方式
CN105809179A (zh) * 2014-12-31 2016-07-27 中国科学院深圳先进技术研究院 一种指针式仪表的读数识别方法及装置
US10492981B1 (en) * 2015-07-17 2019-12-03 Bao Tran Systems and methods for computer assisted operation
CN110383292A (zh) * 2017-04-07 2019-10-25 英特尔公司 用于深度神经网络的经预算和经简化的训练的方法和系统
CN108764257A (zh) * 2018-05-23 2018-11-06 郑州金惠计算机系统工程有限公司 一种多视角的指针式仪表识别方法
CN108921203A (zh) * 2018-06-13 2018-11-30 深圳市云识科技有限公司 一种指针式水表的检测与识别方法
CN109934221A (zh) * 2019-02-22 2019-06-25 山东大学 基于注意力机制的电力设备自动分析识别监控方法及系统
CN110427943A (zh) * 2019-08-27 2019-11-08 国家电网有限公司 一种基于r-cnn的智能电表数值识别方法
CN110826549A (zh) * 2019-11-04 2020-02-21 山东欧玛嘉宝电气科技有限公司 基于计算机视觉的巡检机器人仪表图像识别方法及系统
CN110929723A (zh) * 2019-11-20 2020-03-27 汕头大学 一种基于卷积神经网络的变电站指针式仪表的识别方法
CN111414934A (zh) * 2020-01-21 2020-07-14 国网浙江省电力有限公司湖州供电公司 一种基于Faster R-CNN和U-Net的指针式仪表读数自动识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CBAM:convolutional block attention module;Woo S et al;《Proceedings of the European Conference on Computer Vision》;20181231;全文 *
基于Faster R-CNN和U-Net的变电站指针式仪表读数自动识别方法;万吉林等;《电网技术》;20201231;第44卷(第08期);全文 *
基于细节注意力卷积神经网络的仪表自动化识别方法;董云龙等;《中国科学:技术科学》;20201231;第50卷(第11期);全文 *

Also Published As

Publication number Publication date
CN113283419A (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
CN113283419B (zh) 基于注意力的卷积神经网络指针式仪表图像读数识别方法
US11875500B2 (en) Failure diagnosis method for power transformer winding based on GSMallat-NIN-CNN network
CN111401307B (zh) 基于深度度量学习的卫星遥感图像目标关联方法和装置
CN112052755B (zh) 基于多路注意力机制的语义卷积高光谱图像分类方法
CN113095409B (zh) 基于注意力机制和权值共享的高光谱图像分类方法
CN107590498A (zh) 一种基于字符分割级联二分类器的自适应汽车仪表检测方法
CN113313164B (zh) 一种基于超像素分割与图卷积的数字病理图像分类方法及系统
CN112101278A (zh) 基于k近邻特征提取和深度学习的宅基地点云分类方法
CN110532894A (zh) 基于边界约束CenterNet的遥感目标检测方法
CN112132012B (zh) 基于生成对抗网络的高分辨率sar船舶图像生成方法
CN112699717A (zh) 基于gan网络的sar图像生成方法及生成装置
CN110161480B (zh) 基于半监督深度概率模型的雷达目标识别方法
CN116128839A (zh) 晶圆缺陷识别方法、装置、电子设备以及存储介质
CN112270285B (zh) 一种基于稀疏表示和胶囊网络的sar图像变化检测方法
CN114926693A (zh) 基于加权距离的sar图像小样本识别方法及装置
CN112884721A (zh) 一种异常检测方法、系统及计算机可读存储介质
Oga et al. River state classification combining patch-based processing and CNN
CN114782821A (zh) 一种联合多种迁移学习策略的滨海湿地植被遥感识别方法
CN107316296A (zh) 一种基于对数变换的遥感图像变化检测方法及装置
CN107944474A (zh) 基于局部自适应字典的多尺度协作表达高光谱分类方法
CN109344837B (zh) 一种基于深度卷积网络和弱监督学习的sar图像语义分割方法
CN115588196A (zh) 基于机器视觉的指针型仪表读数方法和装置
CN113657526A (zh) 一种多分类ert流型识别方法
CN110276755B (zh) 一种肿瘤位置定位系统及相关装置
CN112001388A (zh) 一种基于YOLOv3改进模型的用于检测PCB中圆形目标的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant