CN112529003A

CN112529003A - 一种基于Faster-RCNN的仪表盘数字识别方法

Info

Publication number: CN112529003A
Application number: CN202011426623.7A
Authority: CN
Inventors: 徐向荣; 周攀; 刘雪飞; 朱永飞
Original assignee: Anhui University of Technology AHUT
Current assignee: Anhui University of Technology AHUT
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-03-19

Abstract

本发明公开了一种基于Faster‑RCNN的仪表盘数字识别方法，属于计算机视觉技术的目标检测领域。它具体包括以下步骤：S1、数据获取，获得仪表盘的原始图片；S2、数据预处理，用于制作训练集；S3、示数盘识别模型训练以及模型识别，获得示数盘图片；S4、示数识别模型训练以及模型识别，得到确切示数。采用本发明的技术方案能够有效识别工业厂房中仪表盘的示数，避免了传统采用人工读数费时费力、易失误且存在安全风险的问题，实用性好。

Description

一种基于Faster-RCNN的仪表盘数字识别方法

技术领域

本发明属于计算机视觉技术的目标检测领域，特别是涉及一种基于Faster-RCNN的仪表盘数字识别方法。

背景技术

仪表是工业厂房中的重要设备，专业人员可以根据仪表盘示数了解设备的运行状态。数字式仪表是常规仪表中很重要的分类，它可以和各种检测仪表相配合，用来显示温度、压力和流量等过程变量，其使用是十分广泛的。目前，常规的数字式仪表通常需要人工进行读数操作，但是由于工业厂房中仪表众多，且存在很多潜在的危险区域，人工读数不仅费时费力，容易出现失误，而且也会产生不必要的风险。

随着以卷积神经网络为代表的深度学习技术以及GPU硬件技术的发展，人工智能也被运用在计算机视觉领域，目标检测正是其中运用最为广泛的技术，可用来识别仪表盘的示数，但工厂中的仪表所处的环境一般光照较暗，为数字识别带来很大的挑战，传统的计算机视觉技术无法完成识别工作。

经检索，关于水表检测的相关专利已有公开，如中国专利申请号为201810847125.6的申请案公开了一种基于Faster-rcnn的水表自动检测方法，具体包括如下步骤：(1)数据获取：用手机拍摄50000多张水表读书照片，涵盖多种水表；(2)数据处理：对照片进行裁剪，处理后大小为480*200；(3)label制作：采用有监督的方法来检测水表，通过人工用软件手动标定水表读数边框；(4)训练网络：把准备好的训练数据及label输入到Faster-rcnn网络中训练；(5)测试网络：输入测试数据到已训练网络中，最后得到水表检测结果和概率。该申请案虽然能够实现了水表的自动检测，但该申请案检测的准确率相对较低，其整体检测方法有待进一步改进。

发明内容

1.要解决的问题

本发明的目的在于解决目前工业厂房中的仪表采用人工读数时费时费力，容易出现失误，且会产生不必要的风险，而采用传统的计算机视觉技术无法完成识别或无法保证识别精度的问题，提供了一种基于Faster-RCNN的仪表盘数字识别方法。采用本发明的技术方案能够有效识别工业厂房中仪表盘的示数，避免了传统采用人工读数费时费力、易失误且存在安全风险的问题，实用性好。

2.技术方案

为了解决上述问题，本发明所采用的技术方案如下：

本发明的一种基于Faster-RCNN的仪表盘数字识别方法，具体包括以下几个步骤：

S1、数据获取：利用工厂的监控视频采集仪表盘的原始图片；

S2、数据预处理：首先裁剪原图获得对应的示数盘图片，然后裁剪示数盘图片获得数字和小数点的图片；

S3、示数盘识别模型训练以及模型识别：基于改进版Faster-RCNN模型训练示数盘识别模型，然后利用该模型进行示数盘识别过程，获得示数盘图片；

S4、示数识别模型训练以及模型识别：基于ResNet模型训练数字以及小数点分类模型，然后将步骤S3得到的示数盘图片中的元素分割后传入该示数识别模型中，分类识别后最终得到确切示数。

更进一步的，所述步骤S2利用截图工具裁剪原图获得仪表盘图片，然后可裁剪仪表盘图片中的示数盘部分图片，获得各个数字和小数点图片，图片保存为“jpg”格式。

更进一步的，所述步骤S3的具体步骤如下：

S3.1、Faster-RCNN数据集制作；

S3.2、将示数盘图片缩放至固定大小，然后传入特征提取网络，特征提取网络采取深度残差网络ResNet和GoogLeNet的综合体ResNext，得到特征图；

S3.3、将得到的特征图传入RPN网络部分，生成anchor box，将其传入分类网络和回归网络，得到先验框；

S3.4、将S3.2过程得到的特征图和S3.3过程得到的先验框传入ROI Polling层，得到含有先验框的固定大小特征图；

S3.5、将S3.4过程得到的固定大小先验框的特征图送入后续的classification层和regression层，进行分类和回归操作，得到目标的具体位置；

S3.6、将现场拍摄到的图片进行直方图均衡化预处理，然后送入已训练好的示数盘识别模型中，进行示数盘识别过程，即可得到示数盘图片。

更进一步的，步骤S3.5进行分类和回归操作时，训练损失函数分为分类损失和回归损失，其计算公式如下：

L_cls(p_i,p_i ^*)和L_reg(t_i,t_i ^*)的计算公式如下：

其中R是Smooth L1函数，计算公式如下：

式中，i代表anchor的索引，p_i代表第i个anchor属于前景的概率值，p_i ^*代表该anchor对应的Ground Truth的概率，t_i是预测框的坐标向量，ti*是真实框的坐标向量，N_cls代表分类项的归一化大小，N_reg代表回归项的归一化大小，λ表示的是回归损失部分的权重。

更进一步的，步骤S3.1具体包括如下操作：对S2过程得到的仪表盘图片进行数据增广操作，利用Labelme工具进行示数盘边框标注，标签类别是“shishupan”，生成xml文件，根据xml文件和对应的图片制作“train.txt”、“val.txt”、“trainval.txt”文件，将txt文件和图片以及xml文件制作成VOC2007数据集的格式。

更进一步的，所述步骤S4的具体步骤如下：

S4.1、将步骤S2得到的各个数字以及小数点图片分别制作成数字图片训练集以及小数点图片训练集；

S4.2、将步骤S4.1得到的训练集图片传入基于ResNet网络的示数识别模型中，进行训练；

S4.3、将步骤S3过程识别得到具体位置的示数盘图片进行预处理；

S4.4、对示数盘图像进行元素分割，取出示数的各个数字以及小数点；

S4.5、将步骤S4.4过程得到的各个元素传入ResNet网络，对每个字符进行分类，类别是数字0-9以及小数点，最终得到仪表示数。

更进一步的，所述步骤S4.3的预处理操作为高斯滤波和直方图均衡。

更进一步的，所述步骤S4.4具体步骤如下：首先对示数盘的图片进行仿射变换矫正其倾斜状态，然后利用直方图求出图片的各个波峰，每个波峰即为一个元素；利用波峰求出各个元素的区间，实现元素分割。

3.有益效果

相比于现有技术，本发明的有益效果为：

(1)本发明的一种基于Faster-RCNN的仪表盘数字识别方法，通过采用目标检测算法来识别仪表盘的示数，并对该方法的具体操作进行优化，通过采用“两步法”的方式识别仪表盘示数，先利用训练好的示数盘识别模型对仪表盘中示数盘的具体位置进行识别，获得示数盘图片，再利用训练好的示数识别模型最终获得仪表示数，从而能够有效识别工业厂房中仪表盘的示数，提高了仪表示数识别的准确率，避免了采用人工读数费时费力、容易失误且存在安全风险的问题，同时也解决了传统计算机视觉技术由于仪表所处环境较暗而无法完成识别工作的问题，实用性好。

(2)本发明的一种基于Faster-RCNN的仪表盘数字识别方法，通过在采用“两步法”方式的基础上，采用ResNext作为特征提取网络，通过利用ResNext提取特征，先确定示数盘的具体位置，获取示数盘图片，最终再确定仪表示数，从而能够在提高仪表示数识别的准确率基础上，提高仪表示数识别的速度，保证能够又快又准地识别仪表示数，进而提高其识别效率，其实用性强，便于使用及推广。

附图说明

图1为本发明的基于Faster-RCNN的仪表盘数字识别方法的流程图；

图2为本发明的步骤S3中训练示数盘识别模型的算法流程图；

图3为本发明的步骤S4中训练示数识别模型的算法流程图。

具体实施方式

仪表是工业厂房中的重要设备，目前，由于工业厂房中仪表众多，且存在很多潜在的危险区域，采用人工对厂房中数字式仪表进行读数的操作不仅费时费力，会产生不必要的风险，同时也容易出现失误。

近年来，研究人员提出了众多基于深度学习的目标检测算法，如Faster-RCNN、YOLOV3、SSD等，由于Faster-RCNN具有检测精度高和速度快的优点，可用于识别仪表盘的示数。但由于厂房中仪表所处的环境光照较暗，传统的计算机视觉技术也无法完成识别工作。基于上述问题，如图1-图3所示，本发明提供了一种基于改进Faster-RCNN的仪表盘数字识别方法，实现仪表示数的自动识别，其具体步骤如下：

S1、数据获取：利用工厂摄像头获得的监控视频采集包含仪表盘的原始图片，图片种类要涵盖多种光照场景和示数种类，共采集3000张。

S2、数据预处理：首先利用截图工具裁剪原图获得仪表盘图片，然后可以裁剪仪表盘图片中的示数盘部分图片，获得各个数字和小数点的图片，图片保存为“jpg”格式，用于制作仪表盘图片训练集，以及各个数字和小数点图片的训练集，其训练集的制作过程在步骤S3.1中有具体叙述。

S3、示数盘识别模型训练以及模型识别：基于改进版Faster-RCNN模型训练示数盘识别模型，然后利用该训练好的模型进行示数盘识别过程。该步骤具体包含以下步骤：

S3.1、Faster-RCNN数据集制作：对步骤S2过程得到的仪表盘图片进行旋转、高斯噪声、剪切等数据增广操作。利用Labelme工具对仪表盘图片进行示数盘边框标注，标签类别是“shishupan”，生成xml文件，根据xml文件和对应的图片制作“train.txt”、“val.txt”、“trainval.txt”文件。将txt文件和图片以及xml文件制作成VOC2007数据集的格式。该过程便是仪表盘图片训练集的制作过程，该训练集的图片实际为标注了示数盘边框的仪表盘图片。

S3.2、完成步骤S3.1过程Faster-RCNN数据集制作后，将该训练集图片缩放至固定大小，然后传入特征提取网络，特征提取网络采取深度残差网络ResNet和GoogLeNet综合体ResNext，得到特征图。

S3.3、将上述步骤S3.2过程得到的特征图传入RPN网络部分，首先经过3*3的卷积层，然后生成anchor box，将其传入分类网络和回归网络，分类网络判断anchor属于前景或者背景，回归网络对anchor进行修正，得到较为精确的先验框。

S3.4、将上述步骤S3.2过程得到的特征图和步骤S3.3过程得到的先验框传入ROIPolling层，得到含有先验框的固定大小特征图。

S3.5、将固定大小先验框的特征图送入后续的classification层和regression层，进行分类和回归操作，前者利用全连接层和softmax函数判断proposal具体的类别，后者利用L1 loss修正边框得到目标(即示数盘)的具体位置。

训练损失函数分为分类损失和回归损失，计算公式如下：

L_cls(p_i,p_i ^*)和L_reg(t_i,t_i ^*)的计算公式如下：

其中R是Smooth L1函数(x仅为这个分段函数的自变量，此处无实际意义)，其计算公式如下：

式中，i代表的是anchor的索引，p_i代表的是第i个anchor属于前景的概率值，p_i ^*代表该anchor对应的Ground Truth的概率(即当第i个anchor与Ground Truth间IOU≧0.7时，认为该anchor是positive，则p_i ^*＝1；反之IOU≦0.3时，认为该anchor是negative，则p_i ^*＝0；当0.3<IOU<0.7时，该anchor则不参与训练)。t_i是预测框的坐标向量，即{t_x,t_y,t_w,t_h,}，ti*是真实框的坐标向量，N_cls代表分类项的归一化大小，N_reg代表回归项的归一化大小，λ表示的是回归损失部分的权重，目的是为了平衡N_cls和N_reg。

S3.6、利用上述过程将示数盘识别模型训练好后，再将现场拍摄到的图片进行直方图均衡化预处理，然后送入上述已训练好的示数盘识别模型(目标检测模型)中，进行示数盘识别过程，即可获得具体位置的示数盘图片。

S4、示数识别模型训练及模型识别：基于ResNet模型训练数字以及小数点分类模型，然后然后将步骤S3得到的示数盘图片元素分割后传入该示数识别模型中，该示数识别模型(元素分类网络)是使用基于ResNet的网络模型，用于后续元素分类，其类别包括数字0-9和小数点，分类识别后最终得到确切示数。该步骤具体包括以下步骤：

S4.1、数字以及小数点图片训练集制作：将S2步骤剪裁分割得到的数字以及小数点元素作为分类网络的训练集，即对步骤S2过程得到的各个数字以及小数点图片进行裁剪、旋转、高斯噪声等数据增广操作，将其分别制作成数字图片训练集以及小数点图片训练集。

S4.2、将上述步骤S4.1过程得到的训练集图片传入示数识别模型，该示数识别模型(及分类网络)采用基于ResNet的网络模型，如图3所示，该模型的具体训练过程即为输入训练集、ResNet提取特征、全连接层映射、SoftMax函数分类、计算交叉熵损失函数以及反向梯度传播。

S4.3、将S3过程的Faste RCNN模型识别得到具体位置的示数盘图片进行预处理，主要操作是高斯滤波和直方图均衡，作用是去噪和增加图像的全局对比度。

S4.4、对示数盘图像进行分割，目的是取出示数的各个数字以及小数点，首先对示数盘的图片进行仿射变换矫正其倾斜状态，然后利用直方图求出图片的各个波峰，每个波峰即为一个元素。利用波峰求出各个元素的区间，实现元素分割。

S4.5、将S4.4过程得到的各个元素传入上述步骤S4.2已训练好的示数识别模型(ResNet网络)中，对每个字符进行分类，类别是数字0-9以及小数点，最终得到仪表示数。

本发明是基于Faster-RCNN实现仪表示数的自动识别，通过采用目标检测算法来识别仪表盘的示数，并对该方法的具体操作进行优化，通过采用“两步法”的方式识别仪表盘示数，将采集得到的仪表盘原始图片裁剪处理后制成训练集，先进行示数盘识别模型训练后，利用示数盘识别模型对仪表盘中示数盘的具体位置进行识别，再进行示数识别模型训练，然后将示数盘识别模型识别得到的示数盘图片进行元素分割，取出示数的各个数字以及小数点，将各元素传入基于ResNet网络的示数识别模型，利用该示数识别模型对示数盘上分割得到的元素进行分类，最终得到仪表示数，从而能够有效识别工业厂房中仪表盘的示数，实现了仪表示数的自动识别，并提高了仪表示数识别的准确率，避免了采用人工读数费时费力、容易失误且存在安全风险的问题，并解决了传统计算机视觉技术由于仪表所处环境较暗而无法完成识别工作的问题，有效保证了识别出的仪表示数的准确性，其实用性好。

另外，本发明在采用“两步法”方式的基础上，还采用ResNext作为特征提取网络，通过利用ResNext提取特征，先确定示数盘的具体位置，最终再确定仪表示数，从而能够在提高仪表示数识别的准确率基础上，提高仪表示数识别的速度，保证能够又快又准地识别仪表示数，相比于传统采用vgg16网络而言，其识别效率得到了提高，实用性更好，便于使用及推广。

Claims

1.一种基于Faster-RCNN的仪表盘数字识别方法，其特征在于，包括以下几个步骤：

2.根据权利要求1所述的一种基于Faster-RCNN的仪表盘数字识别方法，其特征在于：所述步骤S2利用截图工具裁剪原图获得仪表盘图片，然后可裁剪仪表盘图片中的示数盘部分图片，获得各个数字和小数点图片，图片保存为“jpg”格式。

3.根据权利要求1或2所述的一种基于Faster-RCNN的仪表盘数字识别方法，其特征在于，所述步骤S3的具体步骤如下：

S3.1、Faster-RCNN数据集制作；

S3.4、将S3.2过程得到的特征图和S3.3过程得到的先验框传入ROI Polling层，得到固定大小先验框的特征图；

4.根据权利要求3所述的一种基于Faster-RCNN的仪表盘数字识别方法，其特征在于：步骤S3.5进行分类和回归操作时，训练损失函数分为分类损失和回归损失，其计算公式如下：

L_cls(p_i,p_i ^*)和L_reg(t_i,t_i ^*)的计算公式如下：

其中R是Smooth L1函数，计算公式如下：

5.根据权利要求3所述的一种基于Faster-RCNN的仪表盘数字识别方法，其特征在于，步骤S3.1具体包括如下操作：对S2过程得到的仪表盘图片进行数据增广操作，利用Labelme工具进行示数盘边框标注，标签类别是“shishupan”，生成xml文件，根据xml文件和对应的图片制作“train.txt”、“val.txt”、“trainval.txt”文件，将txt文件和图片以及xml文件制作成VOC2007数据集的格式。

6.根据权利要求5所述的一种基于Faster-RCNN的仪表盘数字识别方法，其特征在于，所述步骤S4的具体步骤如下：

7.根据权利要求6所述的一种基于Faster-RCNN的仪表盘数字识别方法，其特征在于：所述步骤S4.3的预处理操作为高斯滤波和直方图均衡。

8.根据权利要求7所述的一种基于Faster-RCNN的仪表盘数字识别方法，其特征在于，所述步骤S4.4具体步骤如下：首先对示数盘的图片进行仿射变换矫正其倾斜状态，然后利用直方图求出图片的各个波峰，每个波峰即为一个元素；利用波峰求出各个元素的区间，实现元素分割。