CN116958998A

CN116958998A - 一种基于深度学习的数字仪表读数的识别方法

Info

Publication number: CN116958998A
Application number: CN202311211271.7A
Authority: CN
Inventors: 岑亮; 贺亮; 易炜; 吴雷; 刘云川
Original assignee: Chongqing Hongbao Technology Co ltd; Sichuan Hongbaorunye Engineering Technology Co ltd
Current assignee: Chongqing Hongbao Technology Co ltd; Sichuan Hongbaorunye Engineering Technology Co ltd
Priority date: 2023-09-20
Filing date: 2023-09-20
Publication date: 2023-10-27
Anticipated expiration: 2043-09-20
Also published as: CN116958998B

Abstract

本发明涉及图像处理、人工智能技术领域，公开了一种基于深度学习的数字仪表读数的识别方法，包括步骤：由工厂巡检机器人定时采集数字仪表图像；利用改进的SSD神经网络模型从包含数字仪表的复杂环境图像中检测出数字仪表框图像；利用DBNet神经网络模型对数字仪表表框图像的每个像素进行自适应二值化检测，得到数字仪表中的文本区域信息；采用卷积循环神经网络模型对文本区域信息进行字符识别，并对照统计词表获得数字仪表的读数。本发明修改SSD、MobilenetV2神经网络模型的同时还引入字符替换表，能降低计算资源的需求，准确而高效的识别数字仪表读数，尤其适用于现场环境中的边缘设备。

Description

一种基于深度学习的数字仪表读数的识别方法

技术领域

本发明属于图像处理、人工智能技术领域，尤其涉及一种基于深度学习的数字仪表读数的识别方法。

背景技术

工业生产过程中需要用到大量数字仪表装置来实施监测，由于仪表安装位置分布广泛，且部分区域人无法轻易到达，同时工厂环境可能会存在高温、高压、高辐射等不良影响。采用人工巡检读数耗时耗力，而人工读数不仅成本高昂，还存在人为主观误差，不利于工厂构建统一的智能化管理服务。

目前对数字仪表的识别大部分采用的是传统图像方法，预处理强化数字仪表边缘，然后根据图像梯度信息查找数字仪表轮廓，再根据阈值进行二值化操作识别出数字。这类方法存在对环境光线要求较高、需要人工设置大量参数、鲁棒性较差、结果不稳定、读数精度较低等问题。

发明内容

为了解决上述技术问题，本发明揭示了一种基于深度学习的数字仪表读数的识别方法，所述方法包括如下步骤：

S100：由工厂巡检机器人定时采集包含数字仪表的复杂环境图像；

S200：利用改进的SSD神经网络模型从包含数字仪表的复杂环境图像中检测出数字仪表框图像；其中，

对SSD神经网络模型添加注意力机制SE模块形成改进的SSD神经网络模型，以提高对数字仪表的识别率；

S300：利用DBNet神经网络模型对所述数字仪表框图像的每个像素进行自适应二值化检测，得到数字仪表中的文本区域信息；

S400：采用卷积循环神经网络模型对所述文本区域信息进行字符识别，并对照统计词表获得数字仪表的读数；其中，

卷积循环神经网络模型包括精简的MobilenetV2网络模型，其中，通过去掉MobilenetV2网络模型中最后两层的深度可分离卷积层以形成精简的MobilenetV2网络模型，在不降低文字识别率的情况下减少模型复杂度；

字符识别时，针对数字仪表中部分中英文字符不一致的情形，制作字符替换表，以替换成统一字符进行字符识别。

优选的，

所述步骤S200中进一步包括：

S2011：将包含数字仪表的复杂环境图像进行标注，并对标注好的数据进行数据增强操作，包括：旋转、缩放；

S2012：将标注好的数据分为训练集和测试集；

S2013：采用所述改进的SSD神经网络模型作为目标检测网络模型，利用所述训练集中的数据进行网络模型训练；

S2021：将测试集中的待测图像输入训练好的目标检测网络模型中，并对目标检测网络模型的输出结果进行解析；

S2022：将解析后的结果进行NMS非极大值抑制处理，从多个目标框中筛选出最准确的目标框。

优选的，

所述步骤S2022进一步包括：

S20221：将所有检测的目标框按照置信度得分进行排序，选出最高置信度和对应的目标框；

S20222：遍历剩下的目标框，如果和最高置信度对应的目标框交并比大于设定的阈值则将其删除；

S20223：从剩下的目标框中选择最高置信度的目标框，重复上述步骤S20222，直到所有检测的目标框都遍历过为止，以筛选出最准确的目标框。

优选的，

所述步骤S300中进一步包括：

S3011：将所述数字仪表框图像进行标注，对标注好的数据进行数据增强操作，包括：旋转、模糊和偏色；

S3012：将标注好的数据分为训练集和测试集；

S3013：采用DBNet网络模型作为文本检测网络模型；

S3014：采用所述训练集中的数据对所述文本检测网络模型进行网络模型训练；

S302：将测试集中的数据输入训练好的文本检测网络模型中，并对模型的输出结果进行后处理解析。

优选的，

所述步骤S400中进一步包括：

S4011：将所述文本区域信息中的字符进行标注，对标注好的数据进行数据增强操作，包括：旋转、模糊和偏色；

S4012：将标注好的数据分为训练集和测试集；

S4013：采用所述精简的MobilenetV2网络模型作为字符识别网络模型，以用于特征提取；

S4014：采用训练集中的数据对字符识别网络模型进行网络模型训练；

S402：将测试集中的待测文本区域信息中的字符输入训练好的字符识别网络模型中，并对模型的输出结果进行后处理解析。

优选的，

所述步骤S4011中进一步包括：

文本区域信息中的字符先在字符替换表进行字符替换，然后按照统计词表中的顺序进行标注。

优选的，

步骤S400之后还包括如下步骤：

S501：将训练好的所述改进的SSD神经网络模型、DBNet神经网络模型、卷积循环神经网络模型三个神经网络模型从PyTorch深度学习框架转换为ONNX格式的相应模型；

S502：使用TensorRT的ONNX解析器将ONNX格式的相应模型转换为TensorRT格式的相应模型；

S503：将TensorRT格式的相应模型部署到目标边缘设备上。

优选的，

所述步骤S502中，

转换过程中还对模型进行优化和加速，包括模型简化、FP16精度量化处理和INT8量化处理。

优选的，

所述步骤S501使用PyTorch提供的函数实现，

所述步骤S502和步骤S503使用TensorRT提供的Python接口实现。

相比现有技术，本方法具有如下特点：

修改已知的SSD神经网络模型，添加注意力机制，以提高对数字仪表的识别率；修改已知的MobilenetV2神经网络模型，去掉最后两层深度可分离卷积层，在不降低文字识别率的情况下减少模型复杂度；由于识别的字符中部分中英文字符不一致，直接识别可能造成误差，而通过字符替换表替换成统一字符，既不影响阅读，也可以减少识别难度，最终对模型识别效果也有较大提升；

为提高工厂户外复杂环境下的数字仪表识别效率，将整套数字仪表识别算法的3个网络模型均转换为TensorRT模型部署，这样既可以满足精度要求，也可以满足速度及部署硬件要求。

综上，本发明能于户外复杂环境下，降低计算资源的需求，准确而高效的识别数字仪表读数，尤其适用于现场环境中的边缘设备。

附图说明

图1是本发明一个实施例中所提供的一种基于深度学习的数字仪表读数的识别方法流程图；

图2是本发明一个实施例中所提供的数字仪表框检测网络模型之改进的SSD神经网络模型结构图；

图3是本发明一个实施例中所提供的数字仪表框检测网络模型预测模块结构图；

图4是本发明一个实施例中所提供的卷积操作原理示意图；

图5是本发明一个实施例中所提供的注意力机制SE模块示意图；

图6是本发明一个实施例中所提供的残差结构示意图；

图7是本发明一个实施例中所提供的数字仪表框检测网络模型中间特征图；

图8是本发明一个实施例中所提供的模型训练过程示意图；

图9是本发明一个实施例中所提供的目标检测网络模型评估P-R曲线图；

图10是本发明一个实施例中所提供的文本区域检测网络模型DBNet模型结构图；

图11是本发明一个实施例中所提供的字符识别网络模型结构示意图；

图12是本发明一个实施例中所提供的DW深度可分离卷积示意图；

图13是本发明一个实施例中所提供的ReLU激活函数示意图；

图14是本发明一个实施例中所提供的字符替换表，其总计3大列，每1大列的左侧均为仪表对应图像显示的原始信息，每1大列的右侧为现今统一的仪表标准字体下显示的图像信息。

具体实施方式

为了使本领域技术人员理解本发明所披露的技术方案，下面将结合实施例及有关附图1至图14，对各个实施例的技术方案进行描述，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员可以理解的是，本文所描述的实施例可以与其他实施例相结合。

参见图1，在一个实施例中，本发明揭示了一种基于深度学习的数字仪表读数的识别方法，所述方法包括如下步骤：

就该实施例而言，该方法能于户外复杂环境下准确而高效的识别数字仪表读数，具体的：

由工厂巡检机器人定时采集数字仪表图像。采集的图像包含白天黑夜，各类天气、灯光，各类场景等因素。工厂巡检机器人每天按顺序定时对工厂内所有数字仪表进行采集，并将采集的图像进行存储，这样就会得到一个包含各种天气，光照等各种复杂环境因素的数字仪表图像集。

针对一张包含数字仪表的复杂环境图像，为减少复杂环境的干扰，也为后续读数识别做好准备，需要先将数字仪表框识别出来。采用的是优化后的SSD(Single ShotMultiBox Detector)神经网络模型，该神经网络模型需要用标注的数据进行训练，其中，

标注数据的制作：对采集的每张图像标注出数字仪表所在的像素坐标及仪表长、宽，并标明仪表类型。将标注的数据分为训练集和测试集。用训练集数据训练初始模型，测试集数据计算模型精度，最后即可得到满足模型精度要求的训练好的模型。通过改进的SSD神经网络从包含数字仪表的复杂环境图像中检测出数字仪表框图像。

采用DBNet(Differentiable Binarization)作为文本检测模型，对所述数字仪表框图像的每个像素进行自适应二值化检测，得到数字仪表中文本区域的信息。该模型的训练同样需要先对数据进行标注，对识别的数字仪表框进行文字区域标注。后将标注的数据分为训练集和测试集，用训练集数据训练初始模型，测试集数据计算模型精度，最后即可得到满足要求的文本区域检测模型。

采用卷积循环神经网络模型进行字符识别，其中特征提取使用的是前述精简的MobilenetV2神经网络模型，然后对照统计词表输出读数结果。标注数据的制作：按照实际情况标注文字区域信息，其主要包括数字、字母、常见字符等。后将标注的数据分为训练集和测试集，用训练集数据训练初始模型，测试集数据计算模型精度，最后即可得到满足要求的字符识别模型。

其中，统计词表，主要包括数字、字母、特殊符号等。

需要说明的是，本发明还能够将所有模型转换为TensorRT格式的模型，便于工厂低配置硬件运行，尤其适用于边缘设备。

在另一个实施例中，所述步骤S200中进一步包括：

S201：目标检测网络模型训练，该步骤又具体包括如下步骤：

S2011：将包含数字仪表的复杂环境图像进行标注，并对所述标注好的数据进行数据增强操作，包括：旋转、缩放；

S2012：将标注好的数据分为训练集和测试集；

S202：目标检测网络模型预测，该步骤又具体包括如下步骤：

就该实施例而言，目标检测网络模型训练包括：

1）数据制作

深度学习网络模型的成功离不开数据，网络模型训练之前需要先将采集的图像数据进行标注，标注内容包括【目标类别，目标框中心坐标，目标框宽高】。将标注好的数据分为两部分：训练集和测试集，比例为10:1。

2）数据预处理

实际采集的图像数据也不能完全涵盖自然环境下所有的情况，所有为了让最终模型适应更多复杂环境下的数字仪表，这里将训练集数据进行增强。使用旋转、缩放、模糊、拼接、偏色、添加噪声等数据增强方法。

3）网络模型结构介绍

目标识别网络模型采用的是修改后的SSD神经网络模型，添加了SE注意力机制。网络模型结构如图2所示；该目标网络模型包括6层Backbone所组成的主干网络模块，用于提取图像中特征信息，供后面的网络模型使用；6层Neck所组成的特征提取网络模块，用于更好的融合/提取backbone输入的feature，再加一层Detect预测模块和一层非极大值抑制以实现输出，其中，图3示意了Detect预测模块，以类别数class=1为例，示例了Detect预测模块在预测时所涉及的特征层、先验框数量Num、先验框数量Num*4卷积以及先验框数量Num*类别数class卷积。

图2中的基础模块介绍如下：

Maxpool：最大池化，例如将输入张量已2*2尺寸进行最大池化操作。

conv：卷积操作,具体操作如图4示，卷积参数示例为：Conv:[c_out, kernel,stride, padding]，其中，c_out表示输出特征通道数，其数量与卷积核数量相同。kernel为核算子大小，stride为核滑动步长；padding为图像周围填充数，为空则自动补齐。

图2 中还示意了Conv1、Conv2、Conv3、Conv4等操作的含义。

关于本发明改进SSD神经网络模型的关键，在于SE：注意力机制模块，详见图5所示，其主要包括Residual层、Global pooling层、FC层、ReLU层、FC层、Sigmoid层以及Scale层。能够以高权重去聚焦重要信息，以低权重去忽略不相关的信息，并且还可以不断调整权重，使得在不同情况下也可以选取重要的信息，因此具有较好的可扩展性和鲁棒性。

SE的目的是为了解决在卷积池化的过程中特征图的不同通道所占重要性不同带来的损失问题。因为在传统的卷积池化过程中，默认特征图的每个通道是同等重要的，但是在实际问题中，不同通道的重要性是有差异的，需要根据不同情况来分开对待。

在一个实施例中，图6示意了残差结构即Residual层的结构。其中，通过跳接在激活函数前，将上面一层（或上面几层）的输出x与本层输出F(x)相加，将求和的结果输入到激活函数作为本层的对外整体输出。示例性的，本层对外整体输出之前，其内部可以包括2个卷积层操作，2个卷积层操作之间同样经由激活函数处理，残差就相当于中间有一个激活的双层权重，双层权重由这2个卷积层提供。

4）网络模型训练过程

这里讲述单张图像一次训练的完整过程，实际上训练是多张重复批次训练。如图7所示展示一张输入图在模型每一层的特征输出（图像仅显示一个通道的图片）。

具体操作为取上述准备好的训练集中数据，大小缩放到224*224*3，后将图像输入Backbone主干网络模型第一个模块Conv1,经过2个3*3卷积层和一个2*2的最大池化层操作后，输出尺寸为(150*150*64);后输入第二个Conv1，同样经过2个3*3的卷积层和一个2*2的最大池化，输出尺寸为(75*75*128);后输入第一个Conv2，经过3个3*3的卷积层和一个2*2的最大池化，输出尺寸为(38*38*256);后输入第二个Conv2，同样经过3个3*3的卷积层输出为(38*38*512)这是第一个预测输出，再进行一个2*2的最大池化，输出尺寸为(19*19*512);输入第三个Conv2，同样经过3个3*3的卷积层和一个2*2的最大池化，输出尺寸为(19*19*512);后输入SE模块，得到输出尺寸(19*19*512)；

后输入两个FCV层，均为2个3*3的卷积核，代替全连接层，输出尺寸为(19*19*1024)，这是第二个预测输出；后输入第一个Conv3模块，经过1个1*1卷积层，一个滑动步长为2的3*3卷积层，得到输出尺寸为(10*10*512)，这是第三个预测输出；后输入第二个Conv3模块，同样经过1个1*1卷积层，一个滑动步长为2的3*3卷积层，得到输出尺寸为(5*5*256)，这是第四个预测输出；后输入第一个Conv4模块，经过1个1*1卷积层，一个填充数为2的3*3卷积层，得到输出尺寸(3*3*256)，这是第五个预测输出；后输入第二个Conv4模块，同样经过1*1卷积，一个填充数为2的3*3卷积层，得到输出尺寸(1*1*256)，这是第六个预测输出；

最后即可得到(38*38*512)，(19*19*1024)，(10*10*512)，(5*5*256)，(3*3*256)，(1*1*256) 6个预测输出。

将得到的6个预测张量与标注的实际值进行损失计算，这里共采用了3种损失函数。分别是：分类损失cls_loss(计算计算锚框与对应的标定分类是否正确)；定位损失box_loss(预测框与标定框之间的误差)；置信度损失obj_loss(计算网络模型的置信度)。总的损失函数=分类损失+定位损失+置信度损失。分类损失和置信度损失的和loss使用二元交叉熵损失函数BCEWithLogitsLoss计算，其中BCEWithLogitsLoss计算公式如下：

其中，loss表示分类损失与置信度损失的和，n表示样本总量，表示一个样本的预测输出，是一个样本的标签值。

定位损失loss_CIOU 用来衡量矩形框的损失，其通过如下多个公式计算：

其中，loss_CIOU表示定位损失，IOU表示A，B两个框的交并比（即两个框相交区域面积与相并区域面积的比值），为框A与框B中心点的距离，c为框A和框B最小包围矩形的对角线长度，分别为标签框B的宽高和预测框A的宽高，、为影响因子，其中：与A和B的宽高比相似度有关；CIOU则表示中间量，其正如上述CIOU公式所示的那样，由IOU，，c，、确定。

通过数据训练计算loss以及loss_CIOU损失，损失越小，模型准确率越高。如图8模型训练过程示意图所示，如果损失值一直偏大，不能收敛，则需要采用修改网络模型参数或者检测数据标签等方法再重新训练。最终损失减少到一个较好的区间后，用测试集对模型检测能力进行评估，评估公式如下：

其中，Precision表示精度，Recall表示召回率，TP表示预测值为正实际为正的样本数；FN表示预测为负实际为正的样本数；FP表示预测为负实际为负的样本数；再画出Precision-Recall曲线即精度-召回率曲线，简称P-R曲线。如图9所示，P-R曲线上通过计算每一个召回率值对应的Precision精度值的平均值可以获得一个数值形式的评估指标AP，可以用于衡量训练出来模型检测能力的好坏，再结合人眼对结果的观察即可判断最终模型准确率是否合格，如果不合格则需要采用修改训练参数，添加针对性数据等方法再重新训练。

工厂巡检机器定时采集单张图像后立刻传入数字仪表框识别模型中，预测过程和上述训练过程一致，只是最后对网络模型输出的(38*38*512)，(19*19*1024)，(10*10*512)，(5*5*256)，(3*3*256)，(1*1*256) 的特征，不是进行计算损失，而是直接进行解析。目标检测网络模型预测包括：

1）模型结果解析

取一张224*224*3的待测图像，输入上述训练好的模型中，模型各层输出与训练相同，最后得到(38*38*512)，(19*19*1024)，(10*10*512)，(5*5*256)，(3*3*256)，(1*1*256)6个特征输出，分别对应【4，6，6，6，4，4】个先验框。

如特征输出(38*38*512)，就是将整个图像分成38*38的网格。每个网格中心建立4个先验框，其他的特征输出也是同样对应各自的先验框。

再将特征层进行detect模块，如图3所示，分别进行两个卷积操作。

特征输出进行（先验框*4）的卷积层，得到(38*38*4*(4))，(19*19*6*(4))，(10*10*6*(4))，(5*5*6*(4))，(3*3*4*(4))，(1*1*4*(4))，括号中的4指的是目标框的【中心横坐标，中心纵坐标，宽，高】。

再将特征输出进行(先验框*class)的卷积层，数字仪表框检测中class=1，即可得到(38*38*4*(1))，(19*19*6*(1))，(10*10*6*(1))，(5*5*6*(1))，(3*3*4*(1))，(1*1*4*(1))，括号中的1指的是目标类别。

2）NMS目标框筛选

将上述步骤识别的结果进行NMS非极大值抑制处理，从多个目标框中筛选出最准确的目标框。

到此，数字仪表目标检测过程已经完成，最后得到采集的图像上所有数字仪表的位置和置信度得分，并将这些结果作为下一步的输入。

在另一个实施例中，所述步骤S2022进一步包括：

在另一个实施例中，所述步骤S300中进一步包括：

S301：文本检测网络模型训练，该步骤又具体包括如下步骤：

S3012：将标注好的数据分为训练集和测试集；

S3013：采用DBNet网络模型作为文本检测网络模型；

S302：文本检测网络模型预测：将测试集中的数据输入训练好的文本检测网络模型中，并对模型的输出结果进行后处理解析。

就该实施例而言，文本检测模型训练包括：

1）数据制作

数字仪表文字区域检测采用的是文本检测模型，模型输入为仪表框检测结果。标注的数据为包含文本的区域，具体是指每一个文本区域由数个点集形成一个不规则区域，要求每个区域标注的点不少于4个。

标注的数据同样分为训练集和数据集，比例为10:1。

2）数据预处理

为使得训练的模型鲁棒性更好，同样采用旋转、模糊、偏色等数据增强操作。

3）网络模型结构介绍

采用DBNet网络模型作为文本检测网络模型，网络模型结构如下图10所示。该网络模型的Backbone主干网络模块包括5层初始特征提取层，Neck特征提取模块包括4层特征融合层，最后是结果解析和输出部分。

下面对网络模型的基础模块进行介绍：

conv：卷积操作。

add:张量相加操作，尺寸不变，数值相加。

ReLU:激活函数，如下图13所示。公式如下：

f(x₁)=max(0,x₁)

其中，f(x₁)表示ReLU激活函数的输出值，x₁为ReLU激活函数的输入值。

Up*n: n倍上采样，采用最邻近插值。

Con-cat：张量拼接操作，通道数增加，用于融合特征图。

FCN：全卷积网络模型，以得到概率图（probability map P）和阈值图(thresholdmap T)。

BD：近似二值图计算方法，通过probability map和threshold map计算，最后得到文本区域。公式如下：

其中表示概率图的坐标(i,j)位置的像素点；表示与概率图的坐标(i,j)完全对应的、阈值图上同一坐标(i,j)位置的像素点；表示最后得到的近似二值图，e为自然常数。

本质上代表一个带系数k的sigmoid函数，取值范围为（0，1）；k是膨胀因子，通常设置为50。

box：后处理过程，最终得到真实文本区域，示例性的，其通过文本检测模型预测内容。

Input：输入640*640*3的图像。

Backbone：主干网络模型，用于提取图像中特征信息，供后面的网络模型使用。

Neck：用于更好的融合/提取backbone输入的feature。

Head：计算文本概率、以及文本区域阈值。

预测模块：神经网络模型的预测输出。

4）网络模型训练过程

这里讲述单张图像一次训练的完整过程，实际上训练是多张重复批次训练。下图10中有显示一张输入图在模型每一层的特征输出（图像仅显示多张特征通道的图片中的一张）。

具体操作为取上述准备好的训练集中的一张图像，大小缩放到640*640*3，后将图像输入网络模型第一个层C1中,经过conv卷积模块[32,3,2,0]（输出特征通道数c_out为32，卷积核尺寸kernel为3*3，步长stride为2，周围填充数padding为0）操作后输出尺寸为(320*320*32);后输入C2：conv[64,3,2,0]操作后输出尺寸(160*160*64);后输入C3：conv[128,3,2,0]操作后输出尺寸(80*80*128);后输入C4：conv[256,3,2,0]操作后输出尺寸(40*40*256);后将C4的输出输入C5：conv[512,3,2,0]操作后输出尺寸(20*20*516);

再将C5的输出两倍上采样得到[40*40*512],与C4的输出各自执行conv1[64,3,1,1]操作进行通道数统一,最后将两者的输出像素相加得到P4，输出尺寸为(40*40*64)；再将P4两倍上采样得到[80*80*64],C3进行conv1[64,3,1,1]卷积,最后将两者的输出像素相加得到P3，输出尺寸为(80*80*64)；再将P3两倍上采样得到[160*160*64],C2进行conv1[64,3,1,1]卷积,最后将两者的输出像素相加得到P2，输出尺寸为(160*160*64)。

将P2、P3两倍上采样、P4四倍上采样、C5八倍上采样结果分别进行conv1[64,3,1,1]得到4份特征图输出，尺寸均为(160*160*64)；最后将这四份特征图融合，得到输出(160*160*256)。

将上述的输出(160*160*256)进行FCN(全卷积神经网络模型)操作，卷积核算子均为conv[N,3,2,0]，N表示输出通道。分别得到中间层输出为(80*80*64)、(40*40*128)、(20*20*256)。最后进行卷积核为[2,15,1,0]的最终卷积操作，得到输出(640*640*2)即为概率图（probability map P）和阈值图(threshold map T)，最后利用前述近似二值图计算方法的公式得到近似二值图(binarization map B)。

将得到的3个预测图与标注好的数据进行loss计算，总的损失函数公式定义如下：

其中，L为总的损失；为近似二值图的损失；为概率图损失；为阈值图损失。 α₁，β₁为权重系数，分别设置为1和10。

和具体计算方式为：

其中，表示样本集，i则在该样本集中取值，其中，样本集的正负样本比例是1:3；表示一个样本的预测输出，是一个样本的标签值。

其中概率图和近似二值图的标签值需要根据真实标注的数据进行构建。将真实标签的文字区域进行收缩即可得到，收缩的偏移量D按照下面的公式计算：

其中L为真实标签区域的周长，A为标签区域的面积；r为收缩因子，通常设置为0.4。

的具体计算方式为：

其中，是扩展阈值图标签内的像素索引，i则在该索引中取值，表示阈值图标签值，表示阈值图预测值。

阈值图标签的构建方法如下：

将文本框分别向内向外收缩和扩张D(上述的偏移量D)个像素，然后计算收缩框和扩张框之间差集部分里每个像素点到原始图像边界的归一化距离。最后的数据呈现出文字区域边缘接近1，其他地方接近0，具体效果如图中threshold map所示。

通过数据计算总的损失，总的损失越小，模型准确率越高。如图9所示，仪表框与总类别分类均为0.959得以在图9上完全重合。如果损失函数不能收敛，则需要采用修改网络模型参数或者检测数据标签等方法再重新训练。最终loss减少到一个较好的区间后，用测试集对模型检测能力进行评估。评估方式为计算预测文本与真实文本区域的交并比，大于50%则表示正确。最后即可计算得到训练的网络模型在测试集上取得的识别率，可以用于衡量训练出来模型检测能力的好坏，再结合人眼对结果的观察即可判断最终模型识别率是否合格，如果不合格则需要采用修改训练参数，添加针对性数据等方法再重新训练。

数字仪表框模型输出结果作为此步骤的输入，模型预测过程和训练过程大体一致，只是最后只需要用概率图probability map来进行后处理解析结果即可。文本检测模型预测包括：

模型结果后处理解析：首先对概率图进行固定阈值（0.5）处理得到分割图。对分割图计算轮廓，遍历每个轮廓，去除太小的预测轮廓。对每个轮廓计算包围矩形，再利用偏移量D进行反向收缩，即可得到最终预测的文本区域，最后还原到原图尺寸即可。

在另一个实施例中，所述步骤S400中进一步包括：

S401：字符识别网络模型训练，该步骤又具体包括如下步骤：

S4012：将标注好的数据分为训练集和测试集；

就该实施例而言，字符识别网络模型训练包括：

1）数据制作

数字仪表文字区域识别采用的是字符识别模型，模型输入为步骤3中文本检测结果。

制作统计词表，含空格共80类：0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz%+-=,./\÷Ω°∑ *#!:卍

标注的数据为该文本区域信息中的字符，字符先在字符替换表进行字符替换，然后按照统计词表中的顺序进行标注，例如所示数字表实际上的读数为2.96，统计词表中字符从0开始计数，则标注文件则为：3 67 10 7。

标注的数据同样分为训练集和数据集，比例为10:1。

2）数据预处理

3）网络模型结构介绍

字符识别特征提取采用的是修改后的MobilenetV2网络模型，网络模型结构如下图11所示。该网络模型的Backbone主干网络模块包括6层初始特征提取层，然后是结果解析和输出部分。相比于已知的MobilenetV2网络模型，本方法去掉了最后两层可分离卷积层，减少了模型训练参数，降低了模型的复杂度，同时不影响识别效果。

下面对修改后的网络模型基础模块进行介绍：

Conv_X：卷积操作，X表示卷积核算子尺寸。

ReLU6:激活函数，效果图与图13基本一致，不同之处在于ReLU6的输出不能超过6。公式如下：

f(x₂)=min((ma(0,x₂),6)

其中，f(x₂)为ReLU6激活函数的输出值，x₂为ReLU6激活函数的输入值；min和max分别表示取最小值和取最大值。

linear:线性转换，公式如下：

其中，x₃是输入张量，y₃是输出张量，是权重矩阵的转置，b是偏置向量。

Classifier：将特征转成目标数，具使用的是linear，将输出转换为80类字符。

add：向量相加操作，尺寸不变，数值相加。

DW_X：深度可分离卷积（depthwise separable convolution），卷积核尺寸为X*X，示例如图12所示。

4）网络模型训练过程

这里讲述单张图像一次训练的完整过程，实际上训练是多张重复批次训练。图11展示一张输入图在模型每一层的特征输出（图像仅显示多张特征通道的图片中的一张）。

具体操作为取上述准备好的训练集中的一张图像，大小缩放到40*360*3，后将图像输入网络模型第一个层Conv_3中,经过conv卷积模块[32,3,2,0]（输出特征通道数c_out为32，卷积核尺寸kernel为3*3，步长stride为2，周围填充数padding为0）操作后输出尺寸为(20*180*32);后输入InvRes1操作后输出尺寸(20*180*16);后输入InvRes2操作后输出尺寸(10*90*24);后输入InvRes3操作后输出尺寸(5*45*32);后输入InvRes4操作后输出尺寸(5*45*64);后输入InvRes5操作后输出尺寸(5*45*96)。

再将上述特征图输入到Conv_1[192,1,1,0]得到5*45*192；最后将结果输入到Classifier中得到(45*80*1)。

将得到的特征图(45*80*1)进行特征图损失计算，这里采用的是CTCLoss（Connectionist Temporal Classification），它将一个输入序列映射到一个输出序列，其中输入核输出的长度可以不同。

CTCLoss的优点是它不需要对齐输入序列和输出序列，因此它可以处理长度不同的序列，它还可以处理重复字符和空白字符。

具体实现是CTCLoss将每个输入时间步与每个输出时间步对应，并计算它们之间的对数概率。然后使用动态规划算法计算所有可能的输出序列对应的概率，并将它们相加，作为最终的损失函数。公式如下：

其中，CTCLoss用于表示特征图损失，表示所有可能对应于输出序列/>的输入序列的集合，P(y₄|x₄)表示给定输入序列x₄和输出序列y₄的条件概率。该公式的含义是将所有可能的输出序列的概率相加，并取对数后取负数作为损失函数。这样做可以确保模型对预测输出序列的准确性进行有效的优化。

通过数据计算CTCLoss损失函数，损失越小，模型准确率越高。如图8所示，如果损失函数不能收敛，则需要采用修改网络模型参数或者检测数据标签等方法再重新训练。最终损失减少到一个较好的区间后，用测试集对模型检测能力进行评估。评估方式为预测字符与真实字符的是否一致，一致则表示正确。最后即可计算得到训练的网络模型在测试集上取得的识别率，可以用于衡量训练出来模型检测能力的好坏，再结合人眼对结果的观察即可判断最终模型识别率是否合格，如果不合格则需要采用修改训练参数，添加针对性数据等方法再重新训练。

字符识别网络模型预测包括：

文本区域检测模型输出结果作为此步骤的输入，模型预测过程和训练过程大体一致，只是最后将MobilenetV2网络模型得到的输出（45*80*1）展平为一个长度为3600的向量，再使用softmax激活函数将其转换为概率分布，最终输出的80个数值分别表示输入图像属于每个类别的概率。再根据统计字符表，即可得到最终数字仪表的读数。

其中Softmax公式如下：

其中，softmax表示激活函数，为第i个节点的输出值，Z表示所有节点的输出值所组成的向量，C为类别数，通过softmax函数就可以将多分类的输出值转换为范围在[0, 1]，且和为1的概率分布，e为自然常数。

在另一个实施例中，所述步骤S4011中进一步包括：文本区域信息中的字符先在字符替换表进行字符替换，然后按照统计词表中的顺序进行标注。

在另一个实施例中，所述字符替换表解决中英文和各类字体中符号字符的不同带来的识别错误。

就该实施例而言，制作字符替换表如图14所示。

替换表用于解决中英文，各类字体中符号字符的不同带来的识别错误，这类字符替换后也不影响表意，还可以大大地降低识别难度。

在另一个实施例中，还包括：

S503：将TensorRT格式的相应模型部署到目标边缘设备上。

就该实施例而言，为了在工厂户外复杂环境下准确识别到数字仪表，避免光线、天气、周边环境的影响，本方法共使用了改进的SSD、DBNet、卷积循环神经网络模型等三种不同的神经网络模型，这些模型在准确性和速度方面都有很好的表现。目标边缘设备用来进行算法部署的机器，采集到的图像会被推送到这里，经过算法处理后再将结果输出到客户端或者显示设备上。

但是，将这些模型实际应用时需要考虑模型大小，推理速度，和资源利用率等问题。因此，为了更好地应用，本方法使用了TensorRT进行部署，TensorRT是一种高效的深度学习推理引擎，可以大大提高推理速度和资源利用率。将上述训练好的深度学习模型转换为TensorRT可部署模型包括以下步骤：

首先，将上述三个模型从PyTorch深度学习框架转换为ONNX（Open NeuralNetwork Exchange）格式，可以利用PyTorch官方提供的函数进行实现。ONNX是一种开放式的神经网络模型互相操作格式，使用了一种中间表示形式，旨在解决不同深度学习框架和推理引擎之间的模型转换和部署问题；

然后使用TensorRT的ONNX解析器将上述三个算法的ONNX模型转换为TensorRT格式。这一过程可以使用TensorRT提供的Python接口实现；

最后将转换好的模型部署到目标边缘设备上，使用TensorRT提供的Python接口实现模型输出即可。

将上述模型进行高效部署，大大提高推理速度和资源利用率。此外TensorRT支持多种硬件平台，可以使得模型在不同设备上实现高效的检测和识别。

在另一个实施例中，所述步骤S502中TensorRT在转换过程中还对模型进行优化和加速，包括模型简化、FP16精度量化处理和INT8量化处理。

就该实施例而言，同时TensorRT在转换过程中可以对模型进行优化和加速，包括模型简化、使用FP16精度（半精度浮点数）量化、使用INT8（8位整型）等，以提高模型的推理速度和性能。

在另一个实施例中，所述步骤S501使用PyTorch提供的函数实现，所述步骤S502和步骤S503使用TensorRT提供的Python接口实现。

最后，需要说明的是，本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式变化，这些均属于本发明保护之列。

Claims

1.一种基于深度学习的数字仪表读数的识别方法，其特征在于，所述方法包括如下步骤：

2.如权利要求1所述的方法，其特征在于，所述步骤S200中进一步包括：

S2012：将标注好的数据分为训练集和测试集；

3.如权利要求2所述的方法，其特征在于，所述步骤S2022进一步包括：

4.如权利要求1所述的方法，其特征在于，所述步骤S300中进一步包括：

S3012：将标注好的数据分为训练集和测试集；

S3013：采用DBNet网络模型作为文本检测网络模型；

5.如权利要求1所述的方法，其特征在于，所述步骤S400中进一步包括：

S4012：将标注好的数据分为训练集和测试集；

6.如权利要求5所述的方法，其特征在于，所述步骤S4011中进一步包括：

7.如权利要求1所述的方法，其特征在于，步骤S400之后还包括如下步骤：

S503：将TensorRT格式的相应模型部署到目标边缘设备上。

8.如权利要求7所述的方法，其特征在于，所述步骤S502中，

9.如权利要求7所述的方法，其特征在于，

所述步骤S501使用PyTorch提供的函数实现，

所述步骤S502和步骤S503使用TensorRT提供的Python接口实现。