CN113283419B

CN113283419B - 基于注意力的卷积神经网络指针式仪表图像读数识别方法

Info

Publication number: CN113283419B
Application number: CN202110479232.XA
Authority: CN
Inventors: 管敏渊; 李凡; 归宇; 王涤; 徐凯; 杨斌; 戴则维; 杜鹏远; 赵崇娟; 王瑶; 黄宇宙; 闻俊义
Original assignee: Huzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Huzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2022-07-05
Anticipated expiration: 2041-04-29
Also published as: CN113283419A

Abstract

本发明公开了一种基于注意力的卷积神经网络指针式仪表图像读数识别方法，首先利用Faster R‑CNN检测仪表图像的表盘，建立指针式仪表图片的Faster‑CNN数据集，同时得到表盘的类型，然后使用基于注意力的卷积神经网络模型数据集进行训练和测试，训练结束后，将所述基于注意力机制的卷积神经网络分级回归出指针读数。本发明在卷积神经网络中引入注意力模块，采用双路异构卷积神经网络强化了对仪表图像特征的提取，加入卷积注意力模块改善了提取特征的类型和分布。卷积神经网络采取分级回归的策略，极大简化模型体积。卷积注意力模块改善了提取特征的类型和分布提高了仪表读数的精确度。

Description

基于注意力的卷积神经网络指针式仪表图像读数识别方法

技术领域

本发明涉及一种数据识别领域，尤其涉及一种基于注意力的卷积神经网络指针式仪表图像读数识别方法。

背景技术

由于变电站环境中存在大量电磁干扰以及指针式仪表具有价格优势等原因，目前变电站中依然存在着大量的指针式仪表。而巡检机器人在变电站的推广极大方便了指针式仪表图像的获取。为了进一步节约人力成本、提升变电站的自动化、智能化水平，提高变电站巡检图像中指针式仪表读数识别的准确率和效率是非常必要的。

通常指针式仪表读数自动识别流程大致分为校准表盘和识别指针位置两个步骤。因为两部分所使用的算法原理不同，因此通常两部分各需要设计一个完整模型分别实现各自部分的任务。常见的表盘校准方法通常都是关键点检测，然后通过数学方法，将倾斜的图像矫正为正面图像。在指针检测方面，传统采用的方法为霍夫线变换，不过霍夫线变换对参数的依赖性强、灵活性差，并且处理背景复杂的仪表图像时，霍夫线变换边缘检测结果中会出现非常多的干扰图形，因而其实用性受限。而现有的基于深度学习的方法则需要一个规模较大的神经网络才能实现任务要求。因此传统特征检测方法效果不佳，而深度学习的方法需要规模较大的规模，限制了应用情况。

例如，一种在中国专利文献上公开的“一种利用颜色快速识别仪表读数的方法”，其公告号CN102799861A，其步骤：(1)采用摄像头拍摄仪表，得到表盘读数图像；(2)采用中值滤波对表盘读数图像去噪；(3)将步骤(2)得到排序后的图像分成L个读数位区域Ωi；(4)从第i个读数位区域Ωi中筛选出所有背景像素点；(5)分别计算第i个区域Ωi中背景像素点的色相角Hi和第i个区域的色相角均值；(6)设置仪表表盘读数分别为0，1，2，3，----8，9，根据步骤(5)所述第i个区域的色相角均值识别表盘的背景像素点区域的颜色，确定表盘颜色所对应的表盘数字，实现了利用颜色快速识别仪表读数。但是上述方案利用颜色粗略识别仪表读数存在识别方式比较粗糙，识别结果精度低且识别方法不适用于市面普通仪表的问题。

发明内容

本发明是为了克服现有技术的卷积神经网络识别仪表读数难以直接依赖表盘区域信息，识别仪表的读数方式比较粗造，模型的参数量和空间复杂度大的问题，提供一种构建模型体积小、易部署、效率高，预测精度高的基于注意力的卷积神经网络指针式仪表图像读数识别方法。

为实现上述目的，本发明采用以下技术方案：

一种基于注意力的卷积神经网络指针式仪表图像读数识别方法，其特征是，包括以下步骤：

S1：建立指针式仪表图片的Faster-CNN数据集，数据集包括训练接和测试集，将训练集图片分为表盘区域和指针区域两份文件；将采集的指针式仪表图像数据集按比例分为训练集和测试集，对于训练集的每张图片，制作成两份XML文件，两份XML文件将分别用于训练Faster R-CNN网络检测识别表盘区域和指针区域。

S2：建立Faster R-CNN网络；其中卷积模块采用ResNet50.

S3：将训练集图片和表盘区文件输入到Faster R-CNN模型中进行训练，训练完成后，将测试集中的图片数据输入到Faster R-CNN模型中进行测试；训练时适当调整学习率及训练轮数。

S4：建立基于注意力的卷积神经数据集；根据Faster-CNN数据集中的仪表图像数据集来获取仪表盘图像，然后经过裁剪缩放后，每张表盘图像的分辨率为256×256，将指针式仪表图片数据集按照训练集和测试集4∶1区分。

S5：构建基于注意力机制的卷积神经网络，将输入特征图F∈R^C×H×W经过空间最大池化得到

和空间平均池化得到

然后将空间最大池化和空间平均池化用多层感知机制处理后逐元素相加，后使用Sigmoid函数激活后得到通道注意力特征图；将基于注意力机制的卷积神经网络采用分级回归，其中C为通道数，H为特征图高度，W为特征图宽度；通道注意力特征图中加入了对全局特征的分析，因而能够对F的特征进行一定程度的修正。

S6：将基于注意力的卷积神经数据集输入到基于注意力机制的卷积神经网络中进行训练，当损失函数在迭代过程中不再减少时结束训练；

S7：Faster R-CNN和基于注意力机制的卷积神经网络均已训练完成后，经过步骤3可以得到表盘的类型，经过基于注意力机制的卷积神经网络可以得到指针式仪表读数识别的最终结果。

作为优选，步骤S5中所述的将注意力机制的卷积神经网络分级回归包括如下步骤：

S5.1：将分级回归转化为分类任务，用分类任务各类别的期望值来表示回归预测值

构建双路卷积网络模型，在双路卷积网络模型中引入注意力机制，提升卷积神经网络识别指针的准确性。

S5.2：假设仪表读数Y分布的区间为[0，V]，将区间细分为S个无重叠的子区间，每个子区间宽度

第i个子区间的代表值

S5.3：预测值

满足如下计算方法：

其中，向量

表示预测值

在各子区间的分布概率。降低模型部署的难度，极大简化了模型体积。

S5.1.1：将预测过程分为K层级，每一个层级k有Sk个子区间，该层子区间的概率分布为：

S5.1.2：预测值

满足如下计算方法：

其中：仪表读数Y分布的区间为[0，V]，向量

表示预测值

在各子区间的分布概率。采用由粗到细分级回归的策略，提升预测精度。分级回归将预测过程划分成多个层级，每一级只对前一级的预测结果进行微调，这种方式能够大幅减少每个层级需要预测的类别数，从而能够极大减少模型的参数量、降低模型的复杂度。

作为优选，所述空间注意力特征图M_S∈R^1×H×W满足如下关系：

M_s(F)＝σ(Conv([MaxPool(F) AvgPool(F)]))，

其中，F为输入特征图，MaxPool表示卷积神经网络中的最大池化，AvgPool表示卷积神经网络中的平均池化，σ表示Sigmoid函数。

输入特征图中的中间特征图中的每一层可以理解为某一类型的特征。为了提取更有效的特征，通道注意力模块的核心思想是使用全局最大池化和全局平均池化来改善特征图中的局部特征。

作为优选，步骤S5中所述的通道注意力特征图M_C∈R^C×1×1满足如下关系：

M_c(F)＝σ(MLP(MaxPool(F))+MLP(AvgPool(F)))，

其中，Maxpool表示卷积神经网络中的最大池化，Avgpool表示卷积神经网络中的平均池化，

表示Sigmoid函数。

基于F的宽高尺寸分别经过空间最大池化和空间平均池化得到

和

然后将两者用同一个多层感知机Multi-layer perceptron，MLP处理后逐元素相加，最后使用Sigmoid函数激活后得到通道注意力特征图M_C∈R^C×1×1，M_c重新计算了特征图平面上各个位置的权重，与F逐元素相乘即可得到特征空间分布改善后的特征图。

作为优选，步骤S1中所述的训练集和测试集的比例为4∶1。

作为优选，所述训练集的图片分为第一XML文件和第二XML文件，第一XML文件记录表盘区域的位置和标签，第二XML文件记录的是指针区域的位置和标签。第一XML文件中的标签还包括指明仪表的具体型号。第二XML文件中的标签统一注明为指针。

因此，本发明具有如下有益效果：(1)本发明在卷积神经网络中引入注意力模块，采用双路异构卷积神经网络强化了对仪表图像特征的提取，加入卷积注意力模块改善了提取特征的类型和分布。(2)卷积神经网络采取分级回归的策略，极大简化模型体积。(3)卷积注意力模块改善了提取特征的类型和分布提高了仪表读数的精确度。

附图说明

图1是本发明一实施例基于注意力的卷积神经网络的指针式仪表读数自动识别流程。

图2是本发明一实施例Faster R-CNN网络结构示意图。

图3是本发明一实施例双路卷积神经网络结构框图。

图4是本发明一实施例注意力模块结构框图。

图5是本发明一实施例基于注意力的卷积神经网络结构框图。

具体实施方式

下面结合附图与具体实施方式对本发明做进一步的描述。

实施例1：

如图1～5所示的一种基于注意力的卷积神经网络指针式仪表图像读数识别方法，包括如下步骤：

步骤1：制作Faster R-CNN数据集。将机器人采集的指针式仪表图像数据集按照4∶1比例分为训练集和测试集。对于训练集的每张图片，制作两份XML文件：第一份XML文件记录表盘区域的位置和标签，为了后期能够正确得到仪表种类，表盘的标签需要指明仪表的具体型号，如SF6压力表；第二份XML文件记录指针区域的位置和标签，标签统一注明为指针即可。这两份XML文件将分别用于训练Faster R-CNN网络检测识别表盘区域和指针区域。

步骤2：建立Faster R-CNN网络。如图2所示建立Faster R-CNN网络，其中卷积模块采用ResNet50。

步骤3：训练并测试Faster R-CNN检测表盘区域的效果。将训练集图片和步骤1中记录表盘区域位置和标签信息的XML文件输入到Faster R-CNN模型，并适当调整参数如学习率以及训练轮数。训练完成后需要对模型的检测效果进行测试，测试阶段需要输入测试集中的图片数据。

步骤4：制作基于注意力的卷积神经网络数据集。根据之前步骤的模型处理机器人采集的指针式仪表图像数据集来获取仪表盘图像，然后经过裁剪缩放后，每张表盘图像的分辨率为256×256。将指针式仪表图片数据集按照比例4∶1分成训练集和测试集。

步骤5：构建注意力的卷积神经网络网络。如图的设计构建双路卷积网络模型，同时针对仪表指针附近区域占据整个表盘区域的面积比例往往很小，卷积神经网络识别仪表读数难以直接依赖表盘区域信息的问题。本发明在改进的双路卷积网络模型的隐含层中引入注意力机制；如图3所示。

中间特征图中的每一层可以理解为某一类型的特征。为了提取更有效的特征，通道注意力模块的核心思想是使用全局最大池化和全局平均池化来改善特征图中的局部特征。具体来说，对于输入特征图F∈R^C×H×W，其中C为通道数，H为特征图高度，W为特征图宽度，首先基于F的宽高尺寸分别经过空间最大池化和空间平均池化得到

和

然后将两者用同一个多层感知机即Multi-layer perceptron，MLP，处理后逐元素相加，最后使用Sigmoid函数激活后得到通道注意力特征图M_C∈R^C×1×1，即：

M_c(F)＝σ(MLP(MaxPool(F))+MLP(AvgPool(F)))

其中，MaxPool和AvgPool分别表示卷积神经网络中的最大池化和平均池化，σ表示Sigmoid函数。由于通道注意力特征图M_c加入了对全局特征的分析，因而能够对F的特征进行一定程度的修正。M_c与F逐元素相乘即可得到特征类型改善后的特征图。

空间注意力模块是引导模型在特征图中寻找对最终预测结果影响最大的特征所在的位置。具体来说，对于输入特征图F∈R^C×H×W，基于F的通道分别进行最大池化和平均池化得到

和

然后将两者进行融合连接操作后输入到卷积层，最后使用Sigmoid函数激活后得到空间注意力特征图M_S∈R^1×H×W，即：

M_s(F)＝σ(Conv([MaxPool(F) AvgPool(F)]))

M_s重新计算了特征图平面上各个位置的权重，与F逐元素相乘即可得到特征空间分布改善后的特征图。

该模型结构的最后部分使用多个全连接层的方式直接回归仪表读数，而全连接层参数冗余，因此模型的参数量和空间复杂度较大。要降低模型部署的难度，势必要减少模型体积。将原卷积神经网络模型采用分级回归，极大简化了模型的体积。

分级回归首先将回归任务转化为分类任务，用各类别的期望值来表示回归预测值。具体来说，当仪表读数Y分布在[0，V]区间时，将该区间细分为S个无重叠的子区间，每个子区间的宽度

并且每个子区间都有一个代表值，如选取子区间的左值为其代表值时，第i个子区间的代表值

对于输入图像x，模型将输出一组向量

表示预测值

在各子区间分布的概率，

的计算方法为：

为了提升预测精度，可以进一步采取由粗到细、分级回归的策略。假设预测过程共分为K个层级，每一层级k有s_k个子区间，该层级子区间的概率分布为

则

的计算方法为：

分级回归将预测过程划分成多个层级，每一级只对前一级的预测结果进行微调，这种方式能够大幅减少每个层级需要预测的类别数，从而能够极大减少模型的参数量、降低模型的复杂度。

步骤6：训练并测试注意力的卷积神经网络的效果。将步骤4的训练图片输入到步骤5设计的基于注意力机制的卷积神经网络进行训练，训练过程中为了防止过拟合现象，当损失函数经历若干迭代次数不再减少时应结束训练过程。训练结束后需要对回归读数效果进行测试，测试阶段需要输入测试集中的图像数据。

步骤7：指针式仪表读数自动识别。当Faster R-CNN和基于注意力机制的卷积神经网络均已训练完成后，经过步骤3可以得到表盘的类型，经过基于注意力机制的卷积神经网络可以得到指针式仪表读数识别的最终结果。

实施例2：一种基于注意力的卷积神经网络变电站仪表图像读数识别方法，选取某变电站的1106张SF6压力表图像作为指针式仪表读数自动识别的实验数据集，每张图像分辨率均为256*256。将实验数据集按照约4∶1比例分为884张图片作为训练集和222张图片作为测试集。测试平台CPU为Core i7-9700K，GPU为单核GEFORCE RTX 3090 Ti。

定义读数识别的准确率为读数识别相对误差绝对值在一个单位刻度范围内的图像数量与总图像数量之比；定义偏差率为读数识别相对误差绝对值在一个单位到两个单位刻度的区间中的图像数量与总图像数量之比；定义误差率为读数识别相对误差绝对值高于两个单位刻度的图像数量与总图像数量之比。定义平均绝对误差即Mean Absolute Error，MAE，为测试集中预测值与真实值的绝对误差的平均值。

为了说明本专利的融合注意力的卷积神经网络算法识别指针式仪表读数的效果，设置了6个对照组。其中，前5个是基于图像特征映射的读数识别方法，分别为基于HOG特征的支持向量机模型SVM、基于HOG特征的随机森林模型RF、基于卷积神经网络模型CNN、加入卷积注意力模块的卷积神经网络模型“CNN+CBAM”、基于软区间分级回归方法的双路异构卷积神经网络“2-CNN”；第6个为基于仪表指针检测的深度学习方法，具体是表现优秀的基于U-Net图像分割的模型即U-Net。

表1

模型	准确率/％	偏差率/％	误差率/％	MAE/Mpa	总耗时/s	模型体积/MB
							SVM	50.45	9.01	40.54	0.04331	0.294	17.4
RF	48.65	21.62	29.73	0.02965	0.023	2.4
							CNN	62.16	22.52	15.32	0.02007	1.278	49.7
CNN+CBAM	66.67	26.13	7.20	0.01811	1.387	49.9
							2-CNN	72.07	20.27	7.66	0.01426	2.322	0.6
U-Net	85.58	5.41	9.01	0.01203	66.477	355.3
							本文模型	75.68	17.11	7.21	0.01375	2.534	0.9

分析表中数据可以发现：

与其他基于图像特征映射的读数识别方法相比，本专利模型在读数识别准确率、读数识别误差率、平均绝对误差等指标均为最优，表明本专利模型提取的图像特征质量更高，更适合映射仪表读数。其中，SVM、RF等机器学习模型的优势在于模型结构相对简单，识别消耗时间更少，但读数识别准确率、读数识别误差率、平均绝对误差等指标均远低于以卷积神经网络为代表的深度学习模型。CNN+CBAM模型与CNN模型的识别结果对比可以发现，卷积注意力模块在不明显增加模型大小和识别耗时的情况下，能够提高读数识别准确率、降低误差率、减小平均绝对误差，说明了卷积注意力模块能够对模型提取的中间特征进行优化，改善了模型的整体性能。2-CNN模型与CNN模型的识别结果对比可以发现，由于采用分级回归方法减少了每一层级需要预测的类别数，因此大幅减少了全连接层的参数冗余，极大简化了双路异构卷积神经网络模型体积，在读数识别准确率、读数识别误差率、平均绝对误差等指标也相对更好，说明了双路卷积神经网络的设计以及软区间分级回归的方式比堆叠全连接层直接回归的方式更优。

与基于仪表指针检测的读数识别方法相比，本专利算法在识别准确率上虽然不如基于仪表指针检测的U-Net深度学习算法，然而准确率与偏差率之和还是本专利方法最优，且平均绝对误差指标非常接近。同时，基于仪表指针检测的算法流程多、耗时长，识别总耗时为本专利模型的26倍，并且该算法模型体积大，将近本发明模型的400倍，算法部署难度非常大。因此，本专利算法在仪表读数识别准确率、识别效率、算法部署难度中取得了较好的平衡。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管本文较多地使用了数据集、卷积、预测值、分级回归等术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。