CN116129417A

CN116129417A - 一种基于低质量图像的数字仪表读数检测方法

Info

Publication number: CN116129417A
Application number: CN202310086124.5A
Authority: CN
Inventors: 饶云波; 郭航瑞
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-01-19
Filing date: 2023-01-19
Publication date: 2023-05-16

Abstract

本发明公开了一种基于低质量图像的数字仪表读数检测方法，属于工业设备的智能化检测与识别技术领域。本发明首先采集数字仪表图像数据集，并进行预处理；基于特征提取网络提取多尺度特征图，在FPN模块中使用了自底向上的增强路径在下采样结束后将含有更多位置信息的浅层信息直接向上进行传递，提高浅层位置信息的利用率。并在FPN的相邻层中添加融合因子以推动浅层集中学习模糊目标，进而提高分割网络鲁棒性。所设置的近似二值化函数为能在训练过程中自动调整并逼近标准二值化函数的二值量化函数。本发明解决了因失焦、晃动产生的图像模糊和因阴影、异物遮挡导致仪表示数区域检测困难的情况下的鲁棒性。在低质量图像的检测上，本发明的检测性能更优。

Description

一种基于低质量图像的数字仪表读数检测方法

技术领域

本发明属于工业设备的智能化检测与识别技术领域，具体涉及一种基于低质量图像的数字仪表读数检测方法。

背景技术

过去十年见证了计算机视觉在许多领域的快速发展，基于深度学习的图像检测识别技术越来越多地被应用到工业智能化生产中。数字仪表的读数识别就是其中一项应用广泛的任务。

作为数字仪表读数识别的第一步，读数检测的目标是定位仪表示数的边界框或边界区域，这在实际应用场景下仍然是一项具有挑战性的任务。因为在实际应用时，作为算法输入的图像可能会因对焦失败、晃动产生图像模糊以及因阴影、异物遮挡导致示数区域检测困难。而目前大多数的场景文本检测方法没有针对低质量图像进行优化，使得实际检测效果不够理想。

基于像素级分割的文本检测方法近年来开始逐渐流行，因为它可以类似图像分割方法生成预测图以指示原始图像中的每个像素是否属于任何文本实例。然而，大多数的基于分割的检测方法(如：PSENet和SAE)需要复杂的后处理过程来将像素级预测结果分组到检测到的文本实例中，这会增大推理过程中的计算开销影响实时处理效率。研究人员提出了一种可微分的近似二值化函数，将其与分割网络一起训练从而减少后处理的计算开销从而满足实际应用中实时推理需求。但是，可微二值化算法的近似二值化函数事实上是曲率被固定为50的sigmoid函数，它并不是总能很好地适应各种不同类型的数据集。

发明内容

本发明提供了一种基于低质量图像的数字仪表读数检测方法，以解决因失焦、晃动产生的图像模糊和因阴影、异物遮挡导致仪表示数区域检测困难的技术问题。

本发明采用的技术方案为：

一种基于低质量图像的数字仪表读数检测方法，所述方法包括：

步骤S1，获取数字仪表的采集图像，并进行图像预处理，得到数字仪表的图像数据集；

步骤S2，将图像数据集中图像输入特征提取网络进行多尺度特征提取；

步骤S3，将特征提取网络提取到多尺度特征图输入特征金字塔网络FPN模块进行特征融合得到特征图F；

步骤S4，通过特征图F预测生成概率图P和阈值图T；

步骤S5，将概率图P和阈值图T送入自适应可微分二值化模块计算出近似二值图

步骤S6，通过边界框生成模块获得数字仪表采集图像的文本边界框，基于文本边界框从近似二值图

中提取出示数区域图像。

进一步的，步骤S2中，按照自下向上的方向，定义C_i表示第i层的特征图，采用自上向下的顺序，根据公式

获取第i层的第一融合结果，其中，P_M＝C_M，M表示特征提取网络提取的尺度数量，且第一融合结果仅计算到第2层；f_chn(表示用于通道匹配的1×1卷积操作，f_up(表示用于尺寸匹配的2倍上采样操作，

表示从第i+1层到第i层的融合因子；

采用自下向上的顺序生成第二融合结果N_i，其中，N₂＝P₂，将第i层的N_i经下采样后与第i+1层的第一融合结果P_i+1进行逐元素相加，得到第i+1层的第二融合结果N_i+1。

进一步的，步骤S2中，采用ResNet-18或ResNet-50的骨干网作为特征提取网络。

进一步的，步骤S2中，特征提取网络提取四个尺度特征图，各特征图尺寸分别为特征提取网络的输入图像的1/2，1/4，1/8，1/16和1/32。

进一步的，步骤S2中，FPN模块采用自底向上的路径增强结构对多尺度特征图进行特征融合。

进一步的，步骤S5中，近似二值图

具体为：

其中，δ表示相似度因子，δ∈(0,1)，

P_i,j、T_i,j分别表示近似二值图

概率图P、阈值图T在像素点(i,j)处值。

进一步的，步骤S6中，对概率图P或者近似二值图

通过边界框生成模块获得数字仪表采集图像的文本边界框。

本发明提供的技术方案至少带来如下有益效果：

(1)兼具准确性和实时性，能满足工业应用环境的实际需求。

(2)能够检测在不理想成像条件下生成的低质量图像。

(3)在通用数据集和数字仪表读数数据集上取得了比以往的方法更好的检测准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种基于低质量图像的数字仪表读数检测方法的处理流程图；

图2是本发明实施例中，骨干网和FPN模块的结构示意图。

图3是本发明实施例中，特征金字塔模块示意图。

图4为本发明实施例中，自底向上的路径增强单元示意图。

图5为本发明实施例中，标准二值化与近似二值化函数图像对比示意图。

图6为本发明实施例中，相同近似二值函数在不同曲率下的函数图像示意图。

图7为本发明实施例中，不同近似二值函数在相同曲率下的函数图像示意图。

图8为本发明实施例中，数字仪表的采集图像示意图。

图9为本发明实施例中，数字仪表的采集图像的处理结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

数字仪表读数识别的第一步是仪表示数区域检测，进而可以对检测到的示数区域进行读数识别，即图像的数字识别处理。而能否正确检测出示数区域直接关系到读数识别准确率。基于像素级分割的方法在场景文本检测中相当流行，这类方法在准确率和效率上都有不错表现，适合用于数字仪表示数检测实时场景文本检测任务。

自不同层次的特征可以进行融合形成特征金字塔从而应用于目标检测、图像分割等任务，对于提高模型性能具有非常好的表现。特征金字塔具有在不同尺度下有不同分辨率的特点，不同大小的目标都可以在相应的尺度下拥有合适的特征表示。通过融合多尺度信息，在不同尺度下对不同大小的目标进行预测，从而能很好地提升模型的性能。

构建特征金字塔通常有两种方式：一种是通过多次下采样生成不同分辨率的层来构建特征金字塔，有代表性的有SSD(Single Shot MultiBox Detector)、FPN(FeaturePyramid Networks)、YOLOv3等。另一种是通过多条具有不同空洞率的空洞卷积的支路来构建，如ASPP，RFP等。

对于构建后的处理，目前有多种方法提出了不同的改进。FPN通过在金字塔中增加一条自上而下的路径使低层的特征图具有更好的语义信息。PANet基于缩短信息流动路径和增加不同分支来增加信息流动路径的思想，提出了在FPN中自上而下的路径的基础上增加了一条自下而上的路径。NAS-FPN利用神经架构搜索方法(Neural ArchitectureSearch,NAS)对骨干网络提取的特征图进行组合和更新，并使用了搜索出来的不规则的拓扑结构作为金字塔的构成，以获得更好的检测精度。BiFPN对PANet进行了简化，建立了一条从低层到高层的干净的横向连接路径。CBNet利用相邻骨干网络之间的复合连接来组装多个骨干网络，从而形成一个强大的骨干网络。

标准二值化函数是类似于符号函数sign的函数，但遗憾的是标准二值化函数的梯度是不连续且不可导的，这就导致卷积神经网络在训练时无法进行反向传播，从而使得二值化步骤无法加入到网络训练中。为了解决标准二值化函数梯度不可导的问题，通常采用直通估计器(Straight Through Estimator)来对梯度进行近似。但由于标准二值化函数的实际梯度与STE之间存在明显的梯度不匹配，极易导致反向传播误差积累的问题，致使网络训练偏离正常的极值点，使得网络优化不足，从而严重降低性能。因此，研究者提出了各种精心设计的近似二值化函数来缓解反向传播中的梯度失配问题。

Bi-Real Net提供了一个自定义的近似二值化函数ApproxSign来替换sign函数以进行反向传播的梯度计算。BNN+提出用swish-sign函数对sign函数进行近似来获取更优近似梯度。DSQ方法提出了DSQ函数来模拟round取整函数，通过引入可自适应的相似度因子来尽可能逼近round函数。DB Net则直接使用固定曲率的sigmoid函数来近似sign函数，从而将二值化过程加入到网络训练中。

由于在实际使用时经常会出现因采集到的图像质量较差导致检测效果不够理想的问题。本发明基于DBNet网络框架提出了Retina DB算法，解决因失焦、晃动产生的图像模糊和因阴影、异物遮挡导致仪表示数区域检测困难的情况下不能展现出优秀的鲁棒性。本发明在FPN模块中使用了自底向上的增强路径在下采样结束后将含有更多位置信息的浅层信息直接向上进行传递，提高浅层位置信息的利用率。并且在FPN的相邻层中添加融合因子以推动浅层集中学习模糊目标，进而提高分割网络鲁棒性。Retina DB(RetinaDifferentiable Binarization)的近似二值化函数修改为能在训练过程中自动调整并逼近标准二值化函数的二值量化函数。在低质量图像的检测上，本发明比大多数现有方法的检测效果更好。

如图1所示，作为一种可能的实现方式，本发明实施例提供的一种基于低质量图像的数字仪表读数检测方法包括下列步骤：

步骤S1，获取数字仪表数据集(即获取数字仪表的采集图像)，并进行数据标注，预处理(数据增强，归一化，格式化)操作。数据标注和数据增强是用于网络参数的训练。

步骤S2，将预处理后的数据集送入骨干网络(可微二值化网络的骨干网络，优选Resnet-18)提取特征，如图2所示。

其中，可微二值化网络是指本发明在DB Net(Differentiable BinarizationNet)框架的基础上，对特征金字塔模块和(自适应)可微分二值化模块进行了改进。

步骤S3，将获得到的特征图输入FPN模块进行特征融合得到特征图F，如图2和图3所示。

步骤S4，用特征图F预测生成概率图P和阈值图T。

中提取出示数区域图像。进而可以基于图像的数字识别对示数区域图像进行数字识别，识别出对应的读数。

即本发明方法中，涉及到的网络结构包括：骨干网(特征提取网络)、特征融合网络(基于FPN模块获取特征图F)和分割网络网络(获取近似二值图

)，各网络的相关参数可基于学习训练进行优化。

优选的，步骤S3中，将获得到的特征图输入FPN模块进行特征融合得到特征图F，具体包括：

步骤S301，FPN模块的自底向上的路径增强结构如下：

一般来说，网络的高层中含有更多的语义特征信息，而低层中含有更多的位置特征信息。FPN的通常做法是在下采样结束后，再返回来进行上采样，并通过横向连接获取同级下采样层的信息。这样做的目的是通过将高层的语义信息回向传递以达到利用高层语义信息增强所有层特征的效果。

因为低层位置信息含有更多的边缘、形状等特征，这对于像素级分割非常重要。所以在DB Net的FPN模块中引入了自底向上的路径增强结构，让特征图F中包含更多的文本位置信息从而提高网络的检测性能。

本发明实施例的FPN模块如图3所示，C₁～C₅来自于骨干网络提取的特征图，C₁～C₅的尺寸分别为原始图片的1/2，1/4，1/8，1/16，1/32。特征图O_i由O_i+1经2倍上采样后与C_i逐元素相加得到。其中O₅和C₅是相同的，没有经过任何处理。特征图N₂～N₅由如图4所示的自底向上路径增强单元生成。每个单元由较大尺寸的特征图N_i和较小尺寸的P_i+1经过融合连接后生成新的特征图N_i+1。每张特征图N_i都需要先使用卷积核大小为3×3，步长为2的卷积进行下采样，然后将P_i+1和下采样得到的特征图进行逐元素相加从而得到用于特征图连接的N_i+1。需要注意的是，P₂和N₂是相同的，不需要任何处理。在特征融合阶段，始终保持特征图的通道数不变，每个卷积层后都会加入一个ReLU激活层。

把特征融合后得到的特征图N₂～N₅的通道数减小到原来的1/4，然后分别对N₅、N₄、N₃进行8倍、4倍、2倍上采样，最后进行特征图连接从而得到用于文本检测任务的特征图F。特征图F的大小为输入图片的1/4，通道数和骨干网络输出的特征图一致。

步骤S302中，FPN融合因子计算如下：

FPN的高层由于特征图尺寸更小，所含有更多的大目标特征信息，而低层拥有更大的特征图，能包含更多的小目标特征。因为文本检测任务中目标字符往往是以小目标的形式出现在图像中，所以本发明更希望在低层中集中学习小目标从而提高网络对微小目标的检测能力。因此，在FPN自顶向下路径进行特征融合时加入了融合因子σ，用于控制高层传递到低层的信息，推动浅层集中学习微小物体，使FPN适应于微小目标的检测。

有了融合因子σ，相邻层P_i和P_i+1之间的特征融合过程可以用如下公式表达：

其中，f_chn是一个用于通道匹配的1×1卷积操作，f_up是一个用于尺寸匹配的2倍上采样操作，

代表从P_i+1层到P_i层特征融合的融合因子。

优选的，步骤S5中，将概率图P和阈值图T送入自适应可微分二值化模块计算出近似二值图

具体实现如下：

步骤S501中，近似二值化函数：

DB Net通过用一个近似二值化函数替换标准二值化函数把分割阈值加入到训练中，提高了模型性能。认为如果近似二值化函数(DB)越接近标准二值化函数(SB)，那么模型的检测性能就会越好，如图5，6，7所示。

标准二值化通常使用sign函数作为二值化函数，

以DB Net的近似二值化函数

为例，

函数的不同曲率k会直接影响二值化的近似程度，图6显示，当k取值逐渐增大(k＝1,10,50,100)时，其函数图像越接近标准二值化函数。同时，不同的近似二值化函数在相同曲率时对标准二值化函数的接近程度也不同。图7展示了近似二值化函数

在曲率相同(k＝10)的情况下比

更贴近标准二值化函数。

步骤S502中，自适应近似二值化函数：

本发明中，设计了一个自适应地逼近标准二值化函数的近似二值化函数。

其中，δ是相似度因子，δ∈(0,1)，当δ足够小，近似函数就能够接近标准二值化函数。这也意味着一个合适的δ能够提升模型的检测准确率。因此，为了自适应地确定δ，本发明把δ作为一个可优化的变量加入到分割网络的训练。这样，就可以自适应地调整δ并使近似函数在训练过程中向标准二值化函数演变。

在形式上，可以将自适应训练过程作为分割网络的损失最小化问题，如公式(6)所示，x作为网络的输入，y作为网络的输出：

其中，λ表示预置参数。

由此，也可以计算出δ在反向传播时的梯度并对其使用L2正则化约束进行自动调整。

因此在可微二值化模块中，可以将公式(5)转化为公式(8)作为本发明的近似二值化函数。

其中，

表示近似二值图，P表示概率图，T表示阈值图，而i,j代表三张图中的每个横纵坐标值，即图像的像素点位置。

步骤S6中，通过边界框生成模块获得文本边界框具体为：

文本边界框可以由推理阶段的边界框生成模块构建。事实上，概率图和近似二值图可以生成几乎相同的文本边界框。考虑到效率问题，采用概率图来构建文本边界框。边界框的形成主要包括三个步骤：

1)使用一个固定阈值0.1将概率图或近似二值图转化为二值图；

2)根据二值图生成联通区域；

3)使用Vatti Clipping算法得到的偏移量Δ^′来扩张联通区域。Δ^′的计算公式如下：

其中，A^′是被缩小多边形区域的面积，L^′是被缩小多边形区域的周长，r^′是可根据不同数据集进行调节的超参数，调节范围为1.5到2.5。

实施例

为了进一步验证本发明方法的处理性能，通过相关验证数据进行进一步的说明。

首先，数据集设置为：

ICDAR 2015是一个包含许多微小的和低分辨率的文本实例的公开文本数据集。它是由1500张使用Google glasses拍摄的分辨率为720×1280的自然场景图片组成，分为1000张训练集图片和500张测试集图片。数据集的文本实例是以单词级别标注。

数字仪表数据集为使用Android移动终端在电力行业生产环境中采集(如图8所示)，总计1400张图片。所有图像的分辨率被统一缩放为1080×1920，包含1000张训练集图片和400张测试集图片。NRSS方法判断为低质量的图片数量为1150张，其中，训练集820张，测试集330张。考虑到实际需求，文本实例只标注了某些指定的示数区域，其余文本实例均当作背景处理。

使用在ImageNet 1K分类数据集上预训练好的ResNet-18_vd和ResNet-50_vd作为骨干网络。所有模型均在两个数据集上训练2000个epoch，训练的batch size设置为16。训练中遵循Cosine学习率衰减策略，初始学习率设置为0.001。并且采用Adam优化器进行优化，第一次指数衰减率β₁设置为0.9，第二次指数衰减率β₂设置为0.999。

训练阶段，采用了以下的数据增强策略对训练集数据进行数据增强：(1)在[-10°，10°]范围内随机旋转；(2)随机伸缩；(3)随机左右翻转。为了提高训练效率，所有调整过的图片大小统一调整为640×640。

推理阶段，测试集输入图片大小统一调整为736×1280。推理的batch size设置为1，使用一个3090GPU的单线程进行测试。推理时间包括了模型前向计算耗时和后处理操作耗时，后处理操作耗时约占推理时间的30％。

在本实施例中使用了NRSS和NIQE两种无参考评价方法进行数字仪表图像质量评价指标实验。

表1：对数字仪表数据集使用NRSS方法进行图像质量评价。输出结果NRSS Score被划分为均匀的10个区间。结合NRSS Score和人眼主观判断将图像质量分为了高、中、低三个等级。结合人眼主观判断，当NRSS Score大于0.4时图像开始变得模糊。查看原图像后发现造成图像低质量的原因有：没对上焦，画面部分被遮挡，拍摄时镜头晃动，仪表面板反光及阴影。这些因素正是导致产生低质量图像的原因。

表1

表2：对数字仪表数据集使用另一种无参考评价方法NIQE得到的NIQE Score分布区间。NIQE Score最大值为20.98，最小值为5.46。

表2

通过对比NRSS方法和NIQE方法可以发现，NIQE方法的输出没有边界限制，输出结果区分度不大。与之相对应地，得益于NRSS输出结果的有界性(结果进行了归一化处理)，使用NRSS方法可以更清楚地掌握数据集的图像质量分布情况。

实验表明，NRSS能够对数字仪表数据集的图像质量进行有效地划分，并且输出结果和人眼主观判断结果一致，因此可以使用NRSS方法作为本文数字仪表低质量图像的评价方法。

表3

在表3中，可以看到在DB Net的FPN结构中增加一条自底向上路径后，在ICDAR2015上F1-measure有0.55％的性能提升。在路径增强的基础上，在P₅～P₂四个相邻层间加入特征融合因子

并为其选择合适的值(如表3中

)后，F1-measure有0.83％的提升，召回率也有2.69％的提升。本发明提出的方法在DB Net结构上增加了融合路径，使得网络结构复杂度提高，但推理速度却没有明显的下降(推理速度为50.85FPS，比DB Net仅降低了0.5FPS)，完全可以达到实时推理。使用ResNet-18作为骨干网络，在数据集ICDAR 2015上进行FPN模块的有效性验证实验。融合因子共3个从左到右依次为

本实施例在实验中设置了

和

两个约束条件，并在约束下人工搜索了若干组合，得到了3组用于比较的融合因子参数。

表4

在ICDAR 2015上使用不同的骨干网络进行自适应近似二值化函数有效性验证实验。当使用ResNet-18时，曲率设置为50时sigmoid型近似函数比tanh型近似函数分别在F1-measure、准确率和召回率上低0.15％、0.05％和0.24％。而使用同一tanh型近似函数时，随着曲率的增加，F1-measure、准确率和召回率也都有所增加。这一结果证实了在方法部分关于近似二值化函数的讨论时提出的观点。

在以ResNet-50为骨干网络的实验中，本发明的自适应近似二值化函数比DB Net的近似二值化函数在F1-measure指标上高出1.85％，在准确率指标上高出1.29％，在召回率指标上高出2.31％，并且在推理速度上快了1.63FPS。

表5

将本发明提出的方法在ICDAR 2015上和现有的方法进行对比实验。从表5的实验结果可以看到，本发明方法比现有的方法在F1-measure和召回率指标上取得了最好的结果，F1-measure超过现有最好方法1.06％，召回率超过现有最好方法2.06％。

表6

在数字仪表数据集上对比了本发明提出的方法和现有方法的检测结果，其中，基于ResNet-50骨干网络的Retina DB在所有方法中效果最好，部分可视化结果如图9。从表6可以看到，本发明方法在F1-measure、准确率和召回率指标上均达到最高水平。当使用ResNet-18作为骨干网络时，我们的方法也超过了DB Net实现了最快的推理速度，达到了47.13FPS，能够满足数据仪表读数实时检测的需求。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。