CN115546794A

CN115546794A - 一种基于深度学习和ocr技术的圆形仪表表盘校正方法

Info

Publication number: CN115546794A
Application number: CN202211144560.5A
Authority: CN
Inventors: 曲烽瑞; 安毅; 杜启亮; 王昭霖; 田联房
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2022-12-30

Abstract

本发明公开了一种基于深度学习和OCR技术的圆形仪表表盘校正方法，包括：利用实例分割深度学习模型获取仪表的表盘ROI图像和对应的图像掩膜，通过检测图像掩膜的中的表盘轮廓并进行椭圆拟合，按照将椭圆表盘映射为圆形的思路，利用射影变换实现仪表表盘的倾斜校正，再利用OCR文本检测深度学习模型获取仪表图像中的字符区域信息并进一步计算仪表表盘斜率，从而实现仪表图像的旋转校正。本发明具有不依赖模板、通用性强、充分利用仪表自动读数系统中的现有模型等优点，为解决仪表自动读数识别问题中的仪表表盘校正问题提供了一种通用、有效的解决方案。

Description

一种基于深度学习和OCR技术的圆形仪表表盘校正方法

技术领域

本发明涉及圆形仪表表盘校正的技术领域，尤其是指一种基于深度学习和OCR技术的圆形仪表表盘校正方法。

背景技术

指针式仪表是通过指针和刻度的关系来显示数值的仪器总称，常见于工业生产的各类测量环境中，对于人们了解环境状态有着重要的作用。目前的指针式仪表读数获取多依靠人工抄录，效率低下且易出现疏漏，随着计算机和数字图像处理技术的不断发展，越来越多的研究者试图通过巡检机器人自动完成仪表读数抄录的工作。

目前的巡检机器人通常使用可见光相机采集仪表现场的场景图像。受限于移动定位精度和可见光相机的拍摄角度，巡检机器人直接采集到的图像中中很难保证仪表能够正对相机，即场景图像中的仪表是倾斜的。这种倾斜状态会给后续的仪表读数带来很多不利影响，因此有必要在仪表读数系统中设计一个表盘校正的系统。

现有多数表盘校正系统通常是基于模板匹配的方法，获取一个标准视角下仪表表盘的模板图像，提取模板和现场图像的具有局部不变性的关键点作为特征点，并构建两图对应的特征点对，进而计算图像变换矩阵，通过图像变换实施校正。这类方法具有通依赖参照物多、通用性差、提取特征点计算量大的特点，而其余的方法则通常难以实现较佳的校正效果。设计一种尽可能具有通用性的仪表表盘校正方法，仍然是一项有待解决的问题。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于深度学习和OCR技术的圆形仪表表盘校正方法，能够在不依赖任何模板的情况下直接对巡检场景图像中获取的圆形仪表图像进行校正，获取水平正对状态下的仪表表盘图像。

为实现上述目的，本发明所提供的技术方案为：一种基于深度学习和OCR技术的圆形仪表表盘校正方法，包括以下步骤：

1)收集巡检场景图像，对其中的仪表表盘进行实例分割数据标注，制作数据集并训练用于提取仪表表盘的实例分割深度学习模型；收集仪表表盘图像，对表盘上的字符进行OCR数据标注，制作数据集并训练用于提取仪表图像字符区域的OCR文本检测深度学习模型；

2)输入巡检场景图像于实例分割深度学习模型，模型推理得到仪表表盘中字符区域的矩形边界框和图像掩膜，利用所述矩形边界框对巡检场景图像和图像掩膜进行裁剪，得到仅包括仪表表盘部分对应的子图，称为表盘ROI图像和掩膜ROI图像；

3)对所述掩膜ROI图像进行表盘轮廓提取，并对得到的表盘轮廓进行椭圆拟合；利用平面几何知识，基于椭圆拟合结果得到的参数计算该椭圆的长轴点和短轴点坐标；

4)沿短轴方向寻找距离椭圆圆心为半长轴距离的两点作为两短轴点校正后的期望特征点，求得射影变换矩阵；

5)利用上述射影变换矩阵对表盘ROI图像进行射影变换，以实现仪表表盘的倾斜校正；

6)将倾斜校正后的表盘ROI图像输入OCR文本检测深度学习模型，推理得到表盘ROI图像中字符区域的四边形边界框，依据所述四边形边界框的参数计算仪表表盘斜率；

7)将仪表表盘斜率转化为角度值，称为仪表表盘旋转角，以仪表表盘的圆心为旋转中心，对表盘ROI图像反向旋转仪表表盘旋转角的角度，即可得到旋转校正的表盘ROI图像，从而实现仪表表盘的旋转校正；

8)对旋转校正的表盘ROI图像进行后处理，得到最终校正后的表盘ROI图像。

进一步，在步骤1)中，所述实例分割深度学习模型为卷积神经网络，输入一幅巡检场景图像，输出巡检场景图像中待检测仪表的仪表表盘区域矩形边界框和图像掩膜，所述图像掩膜指对仪表表盘能够进行覆盖和实现像素级分割的二值图像；所述矩形边界框指包含仪表表盘的最小外接矩形，用矩形边界框中心点坐标(x,y)和矩形边界框的宽W、高H来表示，描述了输入实例分割深度学习模型的巡检场景图像中子图区域的边界；在图像掩膜中获取所述矩形边界框内的子图，得到的图像定义为掩膜ROI图像；在巡检场景图像中获取所述矩形边界框内的子图，并用掩膜ROI图像的与所述巡检场景图像的子图做图像按位与运算，得到的图像为表盘ROI图像。

进一步，在步骤1)中，所述OCR文本检测深度学习模型为卷积神经网络，输入一幅表盘ROI图像，输出表盘ROI图像中所有仪表图像字符区域的四边形边界框；每一个四边形边界框表示一个仪表图像字符区域的最小外接四边形，用四边形边界框的四个顶点坐标描述。

进一步，在步骤2)中，为了保证能够获得完整仪表表盘轮廓，将巡检场景图像输入实例分割深度学习模型获取矩形边界框参数后，在分割表盘ROI图像和掩膜ROI图像区域时需要向外扩大剪切区域。

进一步，在步骤3)中，所述椭圆拟合的结果得到的参数包括椭圆中心点、椭圆的长轴长度和短轴长度、椭圆旋转角度，所述椭圆旋转角度指椭圆长轴与椭圆方向参考线的夹角，所述椭圆方向参考线指从椭圆圆心出发竖直向上的射线。

进一步，在步骤4)中，寻找校正后的期望特征点，具体如下：

利用平面几何知识计算校正后原始特征点；校正前特征点包括椭圆两长轴点和两短轴点，两长轴点的校正后原始特征点与校正前一致，两短轴点的校正后原始特征点为短轴所在方向上到椭圆中心点的距离为半长轴长度的点；

在工程实践中还需要将校正后原始特征点整体向图像右下方平移一段距离，目的是为了保证校正后的表盘ROI图像完整，得到的结果为最终校正后的期望特征点。

进一步，在步骤4)中，所述射影变换矩阵的求解公式如下：

式中，(x₁,y₁)表示一个校正前特征点的坐标、(x₂,y₂)表示对应校正后的期望特征点坐标，H₁₁～H₃₃所描述的矩阵为射影变换矩阵，记为H；利用上述校正前后的特征点能够构建方程组，并由方程组解得H₁₁～H₃₃这9个参数，即得到射影变换矩阵H。

进一步，在步骤6)中，所述仪表表盘的斜率定义为表盘ROI图像内的所有字符区域斜率的平均值，所述字符区域斜率定义为字符区域的四边形边界框上下两边斜率的平均值。

进一步，在步骤8)中，所述后处理是为了去除图像尺寸扩张过程中造成的多余黑边，具体步骤包括：

8.1)将校正后表盘ROI图像从彩色图像变为灰度图像，然后设定分割阈值进行图像二值化分割，获得表盘ROI图像的输出图像掩膜；

8.2)检测上述输出图像掩膜的轮廓，该轮廓代表表盘ROI图像的外部轮廓，并对该轮廓进行最小外接矩形拟合，得到的最小外接矩形即为仪表表盘的矩形边界框，矩形边界框参数包括其中心点坐标和宽度高度；

8.3)利用该矩形边界框参数对校正后的表盘ROI图像进行分割，获取矩形边界框内部的子图，该子图就是最终的校正后的表盘ROI图像。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明提供的方法完全不依赖仪表的模板图像，可以基本覆盖所有圆形指针式仪表的校正任务，针对于任意角度拍摄造成的仪表表盘失真均具备良好的校正效果，在通用性上相比其它依赖模板的方法具有显著的优势。

2、本发明提供的方法所用到的深度学习模型本身也在仪表自动读数任务中还起到其它基础性作用，并非为了表盘校正本身而单独使。如步骤2)所使用的实例分割深度学习模型主要作用体现在获取仪表ROI图像，步骤6)所使用的OCR文本检测深度学习模型主要作用体现在获取仪表有效信息。提高了这些模型的利用效率，同时相比模板匹配方法节省了一定的计算开销。

3、引入OCR文本检测深度学习模型，实现旋转校正，相比单纯使用了仿射变换或射影变换的校正算法，在校正效果上具有很大提升。

4、本发明提供的方法对整个实施过程进行了非常细致的论述，并且已经经过测试，取得了良好的效果，可以快速实施于需要应用的项目中，在可行性方面具备优势。

5、本发明可推广至所有需要进行校正的圆形目标物体，只要图像足够清晰可以利用实例分割深度学习模型对其椭圆轮廓进行掩膜提取；若该目标上有字符，也可以实现旋转校正，校正至最优状态。

附图说明

图1为本发明方法的总体流程图。

图2为本发明方法的具体实施流程图。

图3为表盘ROI图像分割提取示意图。

图4为椭圆几何分析示意图。

图5为字符斜率计算辅助实例示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本实施例公开了一种基于深度学习和OCR技术的圆形仪表表盘校正方法，首先，该方法需要提前训练两个深度学习模型，这个两个深度学习模型本身也都可以在仪表自动读数识别系统中发挥更多作用。

采集大量包含仪表的巡检场景图像，构建仪表表盘的实例分割数据集。利用labelme等图像标注工具，使用多边形标注的方法对巡检场景图像中的仪表表盘区域进行实例分割数据标注，制作成实例分割数据集。利用该数据集训练一个实例分割深度学习模型(Mask RCNN模型)，用于从巡检场景图像中获取仪表表盘区域的矩形边界框和图像掩膜。

收集大量不同类型的仪表表盘图像(近距离正对仪表拍摄)，使用OCR标注工具如PPOCRLabel，对仪表表盘图像中各个字符进行OCR数据标注，制作成OCR文本检测数据集。利用该数据集训练一个OCR文本检测深度学习模型(DB模型)，用于提取仪表图像字符区域，并基于这些仪表图像字符区域的信息分析仪表的旋转信息。

在训练获取上述两个模型的基础上，进一步详细介绍所述圆形仪表表盘校正方法的具体实施方案。

如图1和图2所示，首先进行仪表表盘提取以及倾斜校正，具体内容包括：

如图3所示，输入包含待识别的仪表场景图像T1于训练好的实例分割深度学习模型中，模型输出仪表表盘区域的矩形边界框参数和相应的图像掩膜，如图3中T2所示。利用所述矩形边界框参数计算能够得到矩形边界框左上角和右下角坐标，分别记为(x₁，y₁)和(x₂，y₂)。为保证得到的图像掩膜有完整的椭圆形轮廓，在原矩形边界框的基础上向外扩充1个单位的像素，即新的矩形边界框左上角和右下角坐标分别为(x₁-1，y₁-1)和(x₂+1，y₂+1)，利用这两个坐标能够从巡检场景图像和图像掩膜中分别分割下仪表矩形边界框内的子图T3和掩膜ROI图像T4，两者是对齐的，将T3和T4做图像按位与运算，图像按位与运算实现的视觉效果为T3中的黑色区域部分将T4中的对应位置“覆盖”，仅仅保留T3图像白色区域在T4图像中的对应部分，由此得到仅包括仪表表盘区域的图像T5，即为所述表盘ROI图像。

使用数字图像处理技术，提取掩膜ROI图像T4中的表盘轮廓，即掩膜ROI图像中黑白区域分界线的轮廓，并且使用椭圆拟合技术，得到所述表盘轮廓的拟合椭圆。

如图4所示，常见的数字图像处理算法框架可以直接得到拟合椭圆的中心点O的坐标(x，y)，长轴长度AC、短轴长度BD，椭圆旋转角度θ。易得拟合椭圆半短轴和拟合椭圆半长轴的长度，分别记为a和b，易得a＝AC/2＝AO，b＝BD/2＝BO。所述拟合椭圆长轴点和短轴点分别如图5中A、B、C、D这4点所示，由三角函数公式，可以计算坐标A(x_A,y_A)、B(x_B,y_B)、C(x_C,y_C)、D(x_D,y_D)分别为：

x_A＝x+a*sin(θ)

y_A＝y+a*cos(θ)

x_B＝x+b*cos(θ)

y_B＝y-b*sin(θ)

x_C＝x-a*sin(θ)

y_C＝y-a*cos(θ)

x_D＝x-b*cos(θ)

y_D＝y+b*sin(θ)

巡检场景图像中仪表表盘呈现椭圆形的原因在于拍摄视角并非正对着仪表表盘的平面，通过射影变换可以实现拍摄视角的校正。选取拟合椭圆短轴方向上距离椭圆中心点为半长轴长度距离的两点分别作为仪表短轴上两点的校正后原始特征点，通过三角函数关系得两点B′(x_B′,y_B′)、D′(x_D′,y_D′)的计算公式为：

x_B′＝x+a*cos(θ)

y_B′＝y-a*sin(θ)

x_D′＝x-a*cos(θ)

y_D′＝y+a*sin(θ)

仪表长轴上的校正后原始特征点和校正前一致，其坐标分别为A′(x_A,y_A)、C′(x_C,y_C)。

在利用OpenCv等常用图像处理库进行射影变换实现的过程中，由于射影变换的相关函数需要手动设定变换后图像尺寸，因此为保证射影变换后的表盘ROI图像完整，需要注意实施细节，具体设定包括：

1)得到四个校正后原始特征点A'B'C'D'后，再对这四个特征点进行平移，具体包括：将所有校正后原始特征点在表盘ROI图像x轴和y轴方向各平移椭圆半长轴之差(AO-BO)的长度，得到最终的校正后期望特征点A₁B₁C₁D₁；

2)需要将新图像的宽高适度扩大，为尽可能不造成内存浪费，校正后的表盘ROI图像宽高为原始表盘ROI图像的宽高分别加上3*(AO-BO)的长度(考虑椭圆长轴或短轴为水平或者竖直这样射影变换导致图像不完整的极限情况)。

利用上述的四对特征点ABCD，A₁B₁C₁D₁可以构建方程组即可解得唯一的射影变换矩阵H(也常被称作单应矩阵)，所述射影变换矩阵的计算公式如下：

式中，(x₁,y₁)表示一个校正前特征点坐标、(x₂,y₂)表示所对应的校正后期望特征点坐标，H₁₁至H₃₃均为H矩阵的参数。所述四对特征点由上述计算公式可以联立方程组，H矩阵的9个参数均可通过求解此方程组得到。

经过上述射影变换处理之后，实现了仪表表盘的倾斜校正。

在获取了经过仪表表盘倾斜校正的表盘ROI图像之后，使用训练好的OCR文本检测深度学习模型对表盘ROI图像的表盘ROI图像字符区域进行识别并进一步实现仪表表盘的旋转校正，具体步骤如下：

如图5所示，将倾斜校正后的表盘ROI图像输入OCR文本检测深度学习模型，模型的输出结果为各个字符区域的四边形边界框，每个四边形边界框都由四个顶点坐标描述，分别记作M，N，P，Q。(图5为一个模型输出的实例，其中被识别的字符区域字符内容为“表盘ROI图像字符区域”，模型的输出结果是该字符区域的四边形边界框MNPQ)

记M点和N点的坐标分别为(x_M，y_M)和(x_N，y_N)，则易得字符区域的上边沿MN线段的斜率为k_MN＝(y_M-y_N)/(x_M-x_N)，同理得字符区域下边沿PQ的斜率k_PQ，计算两斜率的均值k＝(k_MN+k_PQ)/2，该k值为该字符区域的斜率。

按照上述计算原则计算表盘上每一个字符区域的斜率，求这些字符区域斜率的均值，然后将换算为角度值，该角度值即作为仪表表盘旋转角。

以表盘ROI图像的仪表表盘中心点(原拟合椭圆中心点在校正后所对应的点)为旋转中心点，反向仪表表盘旋转角大小的角度，即实现了仪表表盘的旋转校正。

对校正后图像求最小外接矩形，利用该最小外接矩形的参数对旋转校正后的表盘ROI图像进行分割，去除周围多余的黑边。

最终得到的校正后表盘ROI图像的效果为字符均为水平状态的正圆形仪表表盘，且图像的四边均与圆形仪表ROI相切、没有多余黑边，最大限度的还原了待检测仪表的最佳拍摄状态，便于仪表读数系统的后续处理过程。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度学习和OCR技术的圆形仪表表盘校正方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度学习和OCR技术的圆形仪表表盘校正方法，其特征在于，在步骤1)中，所述实例分割深度学习模型为卷积神经网络，输入一幅巡检场景图像，输出巡检场景图像中待检测仪表的仪表表盘区域矩形边界框和图像掩膜，所述图像掩膜指对仪表表盘能够进行覆盖和实现像素级分割的二值图像；所述矩形边界框指包含仪表表盘的最小外接矩形，用矩形边界框中心点坐标(x,y)和矩形边界框的宽W、高H来表示，描述了输入实例分割深度学习模型的巡检场景图像中子图区域的边界；在图像掩膜中获取所述矩形边界框内的子图，得到的图像定义为掩膜ROI图像；在巡检场景图像中获取所述矩形边界框内的子图，并用掩膜ROI图像的与所述巡检场景图像的子图做图像按位与运算，得到的图像为表盘ROI图像。

3.根据权利要求2所述的一种基于深度学习和OCR技术的圆形仪表表盘校正方法，其特征在于，在步骤1)中，所述OCR文本检测深度学习模型为卷积神经网络，输入一幅表盘ROI图像，输出表盘ROI图像中所有仪表图像字符区域的四边形边界框；每一个四边形边界框表示一个仪表图像字符区域的最小外接四边形，用四边形边界框的四个顶点坐标描述。

4.根据权利要求3所述的一种基于深度学习和OCR技术的圆形仪表表盘校正方法，其特征在于，在步骤2)中，为了保证能够获得完整仪表表盘轮廓，将巡检场景图像输入实例分割深度学习模型获取矩形边界框参数后，在分割表盘ROI图像和掩膜ROI图像区域时需要向外扩大剪切区域。

5.根据权利要求4所述的一种基于深度学习和OCR技术的圆形仪表表盘校正方法，其特征在于，在步骤3)中，所述椭圆拟合的结果得到的参数包括椭圆中心点、椭圆的长轴长度和短轴长度、椭圆旋转角度，所述椭圆旋转角度指椭圆长轴与椭圆方向参考线的夹角，所述椭圆方向参考线指从椭圆圆心出发竖直向上的射线。

6.根据权利要求5所述的一种基于深度学习和OCR技术的圆形仪表表盘校正方法，其特征在于，在步骤4)中，寻找校正后的期望特征点，具体如下：

7.根据权利要求6所述的一种基于深度学习和OCR技术的圆形仪表表盘校正方法，其特征在于，在步骤4)中，所述射影变换矩阵的求解公式如下：

8.根据权利要求7所述的一种基于深度学习和OCR技术的圆形仪表表盘校正方法，其特征在于，在步骤6)中，所述仪表表盘的斜率定义为表盘ROI图像内的所有字符区域斜率的平均值，所述字符区域斜率定义为字符区域的四边形边界框上下两边斜率的平均值。

9.根据权利要求8所述的一种基于深度学习和OCR技术的圆形仪表表盘校正方法，其特征在于，在步骤8)中，所述后处理是为了去除图像尺寸扩张过程中造成的多余黑边，具体步骤包括：