CN109508714B

CN109508714B - 一种低成本多通道实时数字仪表盘视觉识别方法及系统

Info

Publication number: CN109508714B
Application number: CN201810967846.0A
Authority: CN
Inventors: 罗晓忠; 毛子靖; 蒋晟龙; 林清华
Original assignee: Xinjian Intelligent Control Shenzhen Technology Co ltd
Current assignee: Xinjian Intelligent Control Shenzhen Technology Co ltd
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2021-02-09
Anticipated expiration: 2038-08-23
Also published as: CN109508714A

Abstract

本发明提供了一种低成本多通道实时数字仪表盘视觉识别方法及系统，包括：S1、数字区域配置；包括数码管区域配置和数码管小数点信息配置S2：子区域ROI预处理；S3：子区域识别；S4：子区域后处理；S5：对数字识别模型进行训练、更新、测试；S6：发布完成模型。本发明针对仪表盘的识别难点逐一解决，从而更好的应用于工业生产监控中。

Description

一种低成本多通道实时数字仪表盘视觉识别方法及系统

技术领域

本发明属于工业生产监控领域，特别是涉及到一种低成本多通道实时数字仪表盘视觉识别方法及系统。

背景技术

识别各种仪器仪表示数任务不同于传统的光学字符识别(OCR)问题，更接近于自然场景的文本识别问题，这方面的研究从整体上可以分为检测(Detection)和识别(Recognition)两个部分；与文档类的OCR问题不同的是，各种仪器仪表示数中的数字检测本身是一件十分困难的事情，许多学者进行了很多的尝试。

在深度学习方法出现之前，基于传统的手工设计特征(Handcraft Features)，包括基于连通区域，以及基于HOG的检测框描述的方法是比较主流的；如通过最大稳定极值区域(MSER-Maximally Stable Extremal Regions)得到字符的候选，并将这些字符候选看作连通图(graph)的顶点，此时就可以将文本行的寻找过程视为聚类(clustering)的过程，因为来自相同文本行的文本通常具有相同的方向、颜色、字体以及形状。在OPENCV中实现了MSER的场景文字检测和识别的算法。

在基于深度学习的办法中，目前看到的大多数解决办法还是检测和识别分开来研究，并没有真正的看检测和识别的端到端完成识别的成果。

Detection部分大多数也是基于备选框(proposal)的，一般先借助Faster R-CNN算法或者SSD算法得到许多个proposal，然后训练分类器对proposal进行分类，最后再做细致处理得到精细的文本区域；这个过程中学者们也解决了文字的方向，大小等的问题。同时，也有基于图像分割来做的，但不是很多，具体可见参考文献。

如果已经检测到了稳定的文本区域，Recognition部分可以采用比较通用的做法：对字符进行分割后单独识别，也可以进行序列识别。CNN+RNN+CTC算法是常用在验证码的自动识别上面。在Detection方面，比较常用的算法是Connectionist Text ProposalNetwork(CPTN)。将CPTN作为Detection算法和将CRNN作为Recognition算法想结合应用于文字识别中，也是常用的一种方式，但该种方法需要大量的训练数据来提高准确率，且算法计算量过大导致文字无法快速的被识别，同样不适用于前期缺乏数据样本的仪器仪表示数任务。

这些算法总结下来有如下问题需要解决：

1.仪器仪表示数任务大多以数码二极管的形式展示，数码二极管有固定的刷新频率，这会导致在连续拍摄一段视频的时候存在较多的图片中显示原本应该被点亮的二极管应为刷新到该频率而变暗，增加了识别稳定性的难度；

2.仪器仪表在实际拍摄中的噪声很大，每一帧图像的前后差异非常高，如图1所示，尽管人的肉眼无法察觉但计算机需要保证在噪声较大的环境中稳定识别仪表盘中的数值依然有很大的难度；

3.实时数据更新有速度要求，在实际生产数据记录中，数字变化的频率较快，如何保证高速实时的识别出拍摄数据对于目前较为综合的OCR算法依然有难度；

4.成本限制下分辨率要求，对于工业上数字仪表盘的监控有大量的需求，但如果采用过高分辨率的相机尽管可以提升准确率，但是速度下降，成本上升对于实际应用也不可接受，因此如何在低分辨率下识别数字也是本算法较其他OCR算法的一个创新之处；

5.在实际生产线上需要同时监控多个仪表盘，因此必然导致拍摄中大多仪表盘并非完全正对，存在各种扭曲情况，如何保证对于各种扭曲情况下仪表盘数字的识别是该项任务的难点之一。

综上所述，如何实现数字仪表视频识别为到正确有意义的输出还有许多的工作要做。

发明内容

有鉴于此，本发明提供一种低成本多通道实时数字仪表盘视觉识别方法及系统，针对仪表盘的识别难点逐一解决，从而更好的应用于工业生产监控中。

为达到上述目的，本发明的技术方案是这样实现的：

一种低成本多通道实时数字仪表盘视觉识别方法，包括：

S1、数字区域配置：其中包括数码管区域配置和数码管小数点信息配置；

数码管区域配置：假设有N个数字仪表盘，相机拍摄的分辨率为W×H，每个仪表盘占据的像素点为W_n×H_n，n＝1，2，...，N，针对每个仪表盘，设置4个点分别表示仪表盘读数的四个角，P_1n＝(w_1n，h_1n)，P_2n＝(w_2n，h_2n)，P_3n＝(w_3n，h_3n)，P_4n＝(w_4n，h_4n)，其中四个角因为拍摄角度不一定为矩形，因此：

数码管小数点信息配置：针对每个数字仪表盘预先设置小数点位置信息，得到位置信息数据dot_n，n＝1，2，...，N，其中dot_n∈[0，dig_n)，

dig_n为每个数码管最大位数；

S2：子区域ROI预处理，分割为长宽相等的数字图片R_ni；所述预处理为并行运算，对每一个ROI_n，通过多核处理器并行运行；

S3：子区域识别，得到数字标签r_ni，将r_ni组合成ROI_n的数字字符串l′_n；所述子区域识别为并行运算，对每一个ROI_n中的每个数字图片R_ni，通过多核处理器并行运行；

S4：子区域后处理，ROI子串识别、ROI中值滤波、ROI数字截取保存；所述子区域后处理为并行运算，对每一个ROI_n，通过多核处理器并行运行；

S5：对数字识别模型进行训练、更新、测试；

S6：发布完成模型。

进一步的，步骤S2所述预处理的方法为：

S2.1：ROI透视算法转换；包括：

数码管区域点排序：根据P_1n＝(w_1n，h_1n)，P_2n＝(w_2n，h_2n)，P_3n＝(w_3n，h_3n)，P_4n＝(w_4n，h_4n)给出的信息，找到

和

两个点，截取这两个点对应的矩形图片

并对坐标点进行排序，确保每次获取的坐标信息在顺序上保持一致；其中s_i＝w_in+h_in，d_i＝|w_in-h_in|，

ROI透视转换：根据排序后的坐标进行透视转换，转换后的图像为

S2.2：ROI对比度亮度调整：对每一个像素点

执行

的操作，扩大亮度对比度，其中γ通常取值为[4，8]之间；转换后的图像为

S2.3：ROI灰度图转化，转化后的ROI标注为

S2.4：ROI二值化，对每一个像素点

执行

的操作，扩大亮度对比度，其中α通常取值为[20,50]之间；转换后的图像为

S2.5：ROI数字分割：根据每一个dig_n将ROI_n分割为长宽相等的数字图片R_ni。

进一步的，步骤S3所述子区域识别的方法包括：

S3.1：模型识别特征：判断是否存在已训练好的数字识别模型，如果是，则通过数字识别模型对数码管数字进行识别，得到数字标签r_ni，将r_ni组合成ROI_n的数字字符串l_n，如果否，则跳到3.2；

S3.2：ROI二极管截取法识别特征，得到数字标签r_ni，将r_ni组合成ROI_n的数字字符串l′_n。

进一步的，步骤S4所述子区域后处理的具体方法包括：

S4.1：ROI子串识别算法，判断当前ROI_n所识别出的数字d_n(t)，t-1＞0与前一帧的数字d_n(t-1)进行对比，如当前帧t显示的数字为前一帧t-1的数字的子字符串，则说明数字识别变化为二极管刷新变暗导致，设置d_n(t)＝d_n(t-1)；否则，说明数字识别变化为数字真实变化，d_n(t)保持不变；

S4.2：ROI中值滤波算法，针对给定时间点t和时间段Δt，给定区域ROI_n，保留所有该时间段的数字

对

取中位数得到

有效过滤掉视频噪声对数码管数字识别的影响；

S4.3：ROI数字截取保存，每个ROI_n所获得的数字图片R_ni和其对应的标签r_ni，即(R_ni，r_ni)，与数据匹配保存；

S4.4：数字结果展示。

进一步的，步骤S5所述数字识别模型的训练、更新、测试的方法包括：

S5.1：CNN模型数字训练：将所有带标签的数据(R_ni，r_ni)输入数字识别CNN模型中进行训练，得到数字识别模型DiodeNet_CNN；

S5.2：DiodeNet_CNN模型更新：如已存在DiodeNet_CNN模型，则通过迁移学习进行再训练，发布最新的DiodeNet_CNN模型；

S5.3：DiodeNet_CNN模型测试：将从步骤S3获取得到的最新还未进行训练的数据用于测试模型的精度，如果测试精度超过99.9％，则进入步骤S6，否则不发布模型。

本发明的另一方面，还提供了一种低成本多通道实时数字仪表盘视觉识别系统，包括：

数字区域配置模块：用于数码管区域配置和数码管小数点信息配置；数码管区域配置：假设有N个数字仪表盘，相机拍摄的分辨率为W×H，每个仪表盘占据的像素点为W_n×H_n，n＝1，2，...，N，针对每个仪表盘，设置4个点分别表示仪表盘读数的四个角，P_1n＝(w_1n，h_1n)，P_2n＝(w_2n，h_2n)，P_3n＝(w_3n，h_3n)，P_4n＝(w_4n，h_4n)，其中四个角因为拍摄角度不一定为矩形，因此：

dig_n为每个数码管最大位数；

子区域ROI预处理模块：用于子区域ROI预处理，分割为长宽相等的数字图片R_ni；所述预处理为并行运算，对每一个ROI_n，通过多核处理器并行运行；

子区域识别模块：用于子区域识别，得到数字标签r_ni，将r_ni组合成ROI_n的数字字符串l′_n；所述子区域识别为并行运算，对每一个ROI_n中的每个数字图片R_ni，通过多核处理器并行运行；

子区域后处理模块：用于子区域后处理，ROI子串识别、ROI中值滤波、ROI数字截取保存；所述子区域后处理为并行运算，对每一个ROI_n，通过多核处理器并行运行；

模型模块：用于对数字识别模型进行训练、更新、测试；

发布模块：用于发布完成模型。

进一步的，子区域ROI预处理模块包括：

ROI透视算法转换单元；用于：数码管区域点排序：根据P_1n＝(w_1n，h_1n)，P_2n＝(w_2n，h_2n)，P_3n＝(w_3n，h_3n)，P_4n＝(w_4n，h_4n)给出的信息，找到

和

两个点，截取这两个点对应的矩形图片

ROI对比度亮度调整单元：用于对每一个像素点

执行

ROI灰度图转化单元：用于转化后的ROI标注为

ROI二值化单元，用于对每一个像素点

执行

ROI数字分割单元：根据每一个dig_n将ROI_n分割为长宽相等的数字图片R_ni。

进一步的，子区域识别模块包括：

模型识别特征单元：用于判断是否存在已训练好的数字识别模型，如果是，则通过数字识别模型对数码管数字进行识别，得到数字标签r_ni，将r_ni组合成ROI_n的数字字符串l_n，如果否，则跳到ROI二极管截取法识别特征单元；

ROI二极管截取法识别特征单元：用于ROI二极管截取法得到数字标签r_ni，将r_ni组合成ROI_n的数字字符串l′_n。

进一步的，子区域后处理模块包括：

ROI子串识别单元：用于判断当前ROI_n所识别出的数字d_n(t)，t-1＞0与前一帧的数字d_n(t-1)进行对比，如当前帧t显示的数字为前一帧t-1的数字的子字符串，则说明数字识别变化为二极管刷新变暗导致，设置d_n(t)＝d_n(t-1)；否则，说明数字识别变化为数字真实变化，d_n(t)保持不变；

ROI中值滤波单元：用于针对给定时间点t和时间段Δt，给定区域ROI_n，保留所有该时间段的数字

对

取中位数得到

有效过滤掉视频噪声对数码管数字识别的影响；

ROI数字截取保存单元：用于每个ROI_n所获得的数字图片R_ni和其对应的标签r_ni，即(R_ni，r_ni)，与数据匹配保存；

数字结果展示：用于数字结果展示。

进一步的，模型模块包括：

CNN模型数字训练单元：将所有带标签的数据(R_ni，r_ni)输入数字识别CNN模型中进行训练，得到数字识别模型DiodeNet_CNN；

DiodeNet_CNN模型更新单元：如已存在DiodeNet_CNN模型，则通过迁移学习进行再训练，发布最新的DiodeNet_CNN模型；

DiodeNet_CNN模型测试单元：将从子区域识别模块获取得到的最新还未进行训练的数据用于测试模型的精度，如果测试精度超过99.9％，则进入步骤S6，否则不发布模型。

与现有技术相比，本发明的有益效果为：

1.在识别识别数码管变暗是因为数码管刷新，还是因为数码管数字变化，本发明采用的子字符串对比法可以保证每一帧识别的稳定性上本算法较现有的技术更加稳定，且针对不同的刷新频率的二极管均可稳定是识别数字。

2.相较于传统视觉识别，本发明采用的数值区中值滤波算法可以保证在数字仪表盘的视频检测上更加稳定，能有效过滤视频噪声，从每一帧识别出数字的精度更高。

3.在数码管数字识别中，本发明与现有算法不同，并不直接采用深度学习算法进行识别，而是先通过二极管截取法对数字特征进行识别，同时进行数据的采集记录，再通过深度学习算法模型进行训练识别，从而保证数字识别的稳定性和精度。

4.同样在该过程中，数字截取法和训练算法可以支持非常低分辨率的数字识别与训练，从而让每个数字的分辨率最低可以达到375个像素点，较现有的算法的识别所需分辨率需求低了1倍，可以进一步降低对相机分辨率的要求。

5.针对仪表盘因镜头出现扭曲的情况，本发明对扭曲仪表盘进行的区域透视(Regional Perspection)算法较现有的Radon或Hough变换方法的速度更快，且无需检测数字区域，缩短了识别的时间，更加容易保证数字在实时情况下的监测。

6.在相较于现有的OCR算法进行数字识别中，本发明通过二极管截取法先将数字进行一轮标注，从而免去了人工标注数据的过程，大大节省了训练神经网络的时间，同时简化了神经网络算法的复杂度，增加了通过本发明实时识别数字仪表盘的效率。

附图说明

图1是现有技术中噪声影响仪表盘拍摄的示意图；

图2是本发明实施例有效区分二极管由于刷新变暗的示意图；

图3是本发明实施例采用简单的核心算法模型识别每个二极；管数字的示意图

图4是本发明实施例在简单CNN模型下对二极管数字的有效识别的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

本发明提出了一种低成本且多通道(多个仪表盘同时识别)实时数字仪表盘识别算法：DiodeNet，针对仪表盘的识别难点逐一解决，从而更好的应用于工业生产监控中。

具体包括：

步骤一、数字区域配置

1.1.数码管区域配置：假设有N个数字仪表盘N通常大于10，相机拍摄的分辨率为W×H，W通常为1920，H通常为1080，每个仪表盘占据的像素点为W_n×H_n，n＝1，2，...，N，针对每个仪表盘，我们设置4个点分别表示仪表盘读数的四个角，P_1n＝(w_1n，h_1n)，P_2n＝(w_2n，h_2n)，P_3n＝(w_3n，h_3n)，P_4n＝(w_4n，h_4n)，其中四个角因为拍摄角度不一定为矩形，因此我们有

1.2.数码管小数点信息配置：针对每个数字仪表盘预先设置小数点位置信息，得到位置信息数据dot_n，n＝1，2，...，N，其中dot_n∈[0，dig_n)，

dig_n为每个数码管最大位数。

步骤二、子区域(ROI)预处理(并行运算)：对每一个ROI_n，通过多核处理器并行运行，执行如下操作。

2.1.ROI透视算法转换

2.1.1.数码管区域点排序：根据P_1n＝(w_1n，h_1n)，P_2n＝(w_2n，h_2n)，P_3n＝(w_3n，h_3n)，P_4n＝(w_4n，h_4n)给出的信息，找到

和

两个点，截取这两个点对应的矩形图片

并对坐标点进行排序，确保每次获取的坐标信息在顺序上保持一致。其中s_i＝w_in+h_in，d_i＝|w_in-h_in|，

2.1.2.ROI透视转换算法：根据排序后的坐标进行透视转换，转换后的图像为

2.2.ROI对比度亮度调整：对每一个像素点

执行

的操作，扩大亮度对比度，其中γ通常取值为[4，8]之间。转换后的图像为

2.3.ROI灰度图转化，转化后的ROI标注为

2.4.ROI二值化，对每一个像素点

执行

的操作，扩大亮度对比度，其中α通常取值为[20,50]之间。转换后的图像为

2.5.ROI数字分割：根据每一个dig_n将ROI_n分割为长宽相等的数字图片R_ni。

步骤三、子区域识别(并行运算)：对每一个ROI_n中的每个数字图片R_ni，通过多核处理器并行运行，执行如下操作。

3.1.DiodeNet_CNN模型识别特征：判断是否存在已训练好的DiodeNet_CNN模型，如果是，则通过DiodeNet_CNN模型对数码管数字进行识别，得到数字标签r_ni，将r_ni组合成ROI_n的数字字符串l_n，如果否，则跳到3.2。

3.2.ROI二极管截取法识别特征，得到数字标签r_ni，将r_ni组合成ROI_n的数字字符串l′_n。

步骤四、子区域后处理(并行运算)：对每一个ROI_n，通过多核处理器并行运行，执行如下操作。

4.1.ROI子串识别算法：判断当前ROI_n所识别出的数字d_n(t)，t-1＞0与前一帧的数字d_n(t-1)进行对比，如当前帧t显示的数字为前一帧t-1的数字的子字符串，则说明数字识别变化为二极管刷新变暗导致，设置d_n(t)＝d_n(t-1)；否则，说明数字识别变化为数字真实变化，d_n(t)保持不变。

4.2.ROI中值滤波算法：针对给定时间点t和时间段Δt，通常Δt取值为150ms至300ms，给定区域ROI_n，保留所有该时间段的数字

对

取中位数得到的值

可以有效过滤掉视频噪声对数码管数字识别的影响，从而保证数字的稳定性。

4.3.ROI数字截取保存：将每个ROI_n所获得的数字图片R_ni和其对应的标签r_ni，即(R_ni，r_ni)，并将标签与数据匹配保存。

4.4.数字结果展示

步骤五、训练DiodeNet

5.1.DiodeNet中CNN模型数字训练：将所有带标签的数据(R_ni,r_ni)输入数字识别CNN模型中进行训练，得到DiodeNet_CNN。

5.2.DiodeNet_CNN模型更新：如已存在DiodeNet_CNN模型，则通过迁移学习进行再训练，发布最新的DiodeNet_CNN模型。

5.3.DiodeNet_CNN模型测试：将从3.2获取得到的最新数据(还未进行训练)用于测试模型的精度，如果测试精度超过99.9％，则进入步骤六，否则则不发布模型。

步骤六、发布完成模型

CNN模型发布：根据步骤五得到的DiodeNet_CNN的测试结果给出数字模型的识别精度，并且保存冻结每一级DiodeNet_CNN的权重W_I，发布对应的DiodeNet_CNN模型。

本发明的关键技术点如下：

1.DiodeNet采用的子字符串对比算法可以保证每一帧识别的稳定性上本算法较现有的技术更加稳定，且针对不同的刷新频率的二极管均可稳定是识别数字，如图2所示。

2.DiodeNet采用的ROI中值滤波算法可以保证在数字仪表盘的视频检测上更加稳定，能有效过滤视频噪声，从每一帧识别出数字的精度更高。

3.如图3所示，DiodeNet先通过二极管截取法对数字特征进行识别，同时进行数据的采集记录，再通过CNN算法模型进行训练识别，可保证CNN模型不稳定是的检测效果依然有效，同时在实际产线中还可积累数据进行模型升级，保证数字识别算法能越来越稳定和精确。

4.DiodeNet采用数字截取法和CNN相结合的算法可以支持非常低分辨率的数字识别与训练，从而让每个数字的分辨率最低可以达到375个像素点，较现有的算法的识别所需分辨率需求低了1倍。

5.DiodeNet对扭曲仪表盘进行的区域透视(Regional Perspection)算法较现有的Radon或Hough变换方法的速度更快，且无需检测数字区域，缩短了识别的时间，更加容易保证数字在实时情况下的监测。

6.如图4所示，DiodeNet通过二极管截取法先将数字进行一轮标注，从而免去了人工标注数据的过程，大大节省了训练神经网络的时间，同时简化了神经网络算法的复杂度，增加了通过DiodeNet实时识别数字仪表盘的效率。

以上描述了本发明的基本原理、主要特征和实施方案等信息，但是本发明不受上述实施过程的限制，在不脱离发明精神和范围的前提下，本发明还可以有各种变化和改进。因此，除非这种变化和改进脱离了本发明的范围，它们应该被看作包含在本发明中。

Claims

1.一种低成本多通道实时数字仪表盘视觉识别方法，其特征在于，包括：

数码管区域配置：有N个数字仪表盘，相机拍摄的分辨率为W×H，每个仪表盘占据的像素点为W_n×H_n，n＝1，2，...，N，针对每个仪表盘，设置4个点分别表示仪表盘读数的四个角，P_1n＝(w_1n，h_1n)，P_2n＝(w_2n，h_2n)，P_3n＝(w_3n，h_3n)，P_4n＝(w_4n，h_4n)，其中四个角因为拍摄角度不一定为矩形，因此：

dig_n为每个数码管最大位数；

S2：子区域ROI预处理，分割为长宽相等的数字图片R_ni；所述预处理为并行运算，对每一个ROIn，通过多核处理器并行运行；

S5：对数字识别模型进行训练、更新、测试；

S6：发布完成模型；

步骤S2所述预处理的方法为：

S2.1：ROI透视算法转换；包括：

和

两个点，截取这两个点对应的矩形图片

S2.2：ROI对比度亮度调整：对每一个像素点

执行

S2.3：ROI灰度图转化，转化后的ROI标注为

S2.4：ROI二值化，对每一个像素点

执行

的操作，扩大亮度对比度，其中α通常取值为[20，50]之间；转换后的图像为

S2.5：ROI数字分割：根据每一个dig_n将ROI_n分割为长宽相等的数字图片R_ni；

步骤S4所述子区域后处理的具体方法包括：

对

取中位数得到

有效过滤掉视频噪声对数码管数字识别的影响；

S4.4：数字结果展示。

2.根据权利要求1所述的方法，其特征在于，步骤S3所述子区域识别的方法包括：

3.根据权利要求1所述的方法，其特征在于，步骤S5所述数字识别模型的训练、更新、测试的方法包括：

4.一种低成本多通道实时数字仪表盘视觉识别系统，其特征在于，包括：

数字区域配置模块：用于数码管区域配置和数码管小数点信息配置；数码管区域配置：有N个数字仪表盘，相机拍摄的分辨率为W×H，每个仪表盘占据的像素点为W_n×H_n，n＝1，2，...，N，针对每个仪表盘，设置4个点分别表示仪表盘读数的四个角，P_1n＝(w_1n，h_1n)，P_2n＝(w_2n，h_2n)，P_3n＝(w_3n，h_3n)，P_4n＝(w_4n，h_4n)，其中四个角因为拍摄角度不一定为矩形，因此：