CN110287963B

CN110287963B - 用于综合性能试验的ocr识别方法

Info

Publication number: CN110287963B
Application number: CN201910501843.2A
Authority: CN
Inventors: 王国举; 刘慧林
Original assignee: Suzhou Jiuwu Interchange Intelligent Technology Co ltd
Current assignee: Suzhou Jiuwu Intelligent Technology Co ltd
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2021-11-23
Anticipated expiration: 2039-06-11
Also published as: WO2020248513A1; CN110287963A

Abstract

本发明涉及图像识别领域，涉及一种用于综合性能试验的OCR识别方法。本发明时基于动态范围HSV、RGB六通道的颜色分割方法提取待识别文字，通过朴素贝叶斯分类器进行OCR快速训练与识别，识别特定区域环境中的屏幕上的文字，实现数字快速的分类和识别，识别准确率达到99％以上，识别速率为0.2‑0.3s/fps，其运行速度以及准确率相比传统的基于神经网络方法更快、更准确；不需要太高的硬件来支撑既可以达到较好的分类结果，极大地降低了硬件成本。

Description

用于综合性能试验的OCR识别方法

技术领域

本发明涉及图像识别领域，涉及一种用于综合性能试验的OCR识别方法。

背景技术

OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

目前主流的OCR都是基于卷积神经网路(CNN)的方法来实现的，如CNN+RNN+CTC、CNN+RNN基于Attention的方法等，目前主要的方法虽然准确率很高，理论上经过训练可以实现任意文字的识别。但是基于神经网络的算法都需要较高的硬件配置，需要GPU的加速，并且实时性较差。

目前开源的OCR项目有tesseract(离线)、百度OCR API(在线)等，虽然他们通用型挺好，但是特定环境(显示器上文字)中的识别率还是很低，针对性不强，而且实时性也很差，基本是在1s以上，而且网络API弱申请次数太多还存在网络不稳定等情况，对于工业上的识别要求还有一段距离。

发明内容

本发明要解决的技术问题是提供一种在识别特定区域环境中的屏幕上的文字，实现数字快速的分类和识别的用于综合性能试验的OCR识别方法。

为了解决上述技术问题，本发明解决其技术问题所采用的技术方案是：

一种用于综合性能试验的OCR识别方法，具体步骤包括:

S1、获取图像信息，通过采用RGB与HSV六通道范围提取数字区域轮廓并对带有数字的图片进行分割处理，得到待识别图片数据集；

S2、将待识别图片数据集进行预处理后得到数字样本作为训练集，将训练集输入朴素贝叶斯分类器中训练，得到每个数字训练好的训练模型；

S3、将待识别图片数据集输入搭建好的训练模型，将训练模型输出的数字与每个数字训练模型做对比，概率最大的即为识别的最终数字。

优选的，步骤S2中，对待识别图片数据集预处理具体为：对待识别图片数据集进行裁剪后统一大小与格式，然后将图片灰度处理并二值化，使得每张图片的长宽一致，且每个像素值都为0或者255。

优选的，步骤S1中，对带有数字的图片进行分割处理具体为：通过设定RGB与HSV的阈值，通过形态学方法粗提取数字区域轮廓，再筛选出具有文字区域的图片，并分割带有数字的图片，分类排序后得到待识别图片数据集。

优选的，步骤S2中，将训练集输入朴素贝叶斯分类器中训练，通过训练集数据由发生频率总结出概率，得到每个数字的计算模型：

其中M_i为数字值为i的数学模型，N_{i_jk}为数值为i的数字在像素坐标为j的值上像素值为k的训练图片个数，N_i总为数字值为i的总训练图片个数。

优选的，步骤S1中，对获取的图像，计算其当前帧与上一帧间的对应像素值变化，检测当前帧与上一帧间的变化区域，并对动态区域的数值进行提取。

优选的，检测当前帧与上一帧间的变化区域，对当前帧的下两帧不进行识别处理，对第三帧图片通过RGB与HSV的阈值判定，小于阈值，则该图像作为待识别图片；反之，则该图像不作为待识别图片。

优选的，获取S1中未识别图像以及训练模型输出的数字判断异常值，对异常值进行存储，并将未识别图像以及数字异常值通过互联网报警信息发出。

本发明的有益效果：

本发明时基于动态范围HSV、RGB六通道的颜色分割方法提取待识别文字，通过朴素贝叶斯分类器进行OCR快速训练与识别，识别特定区域环境中的屏幕上的文字，实现数字快速的分类和识别，识别准确率达到99％以上，识别速率为0.2-0.3s/fps，其运行速度以及准确率相比传统的基于神经网络方法更快、更准确；不需要太高的硬件来支撑既可以达到较好的分类结果，极大地降低了硬件成本。

附图说明

图1是本发明的硬件结构示意图。

图2是本发明的OCR识别流程图。

图3是本发明的OCR识别流程示意图。

图4是本发明的数字提取流程图。

图5是本发明的按需分配流程图。

图6是本发明的帧间差分流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

参照图1-6所示，本发明用于实现OCR识别方法的硬件包括USB摄像头、PC机电脑、网络交换机与稳压直流电源等，USB摄像头与PC机电脑通讯连接，PC机电脑与交换机通讯连接，交换机连接互联网或者局域网。

本发明的应用环境是识别液晶显示器上的电压和电流信息，在7寸的屏幕上以1Hz的刷新率刷新屏幕上的电压电流，具体利用一台PC机电脑、五个USB摄像头识别10块屏幕，40个设备的电压电流信息。

本发明主要数据分析工具

Python(常用包：OpenCV,numpy,matplotlib等等)

C++(常用包：opencv等)

一种用于综合性能试验的OCR识别方法，具体步骤包括:

步骤S2中，对待识别图片数据集预处理具体为：对待识别图片数据集进行裁剪后统一大小与格式，然后将图片灰度处理并二值化，使得每张图片的长宽一致，且每个像素值都为0或者255。

步骤S1中，对带有数字的图片进行分割处理具体为：通过设定RGB与HSV的阈值，通过形态学方法粗提取数字区域轮廓，再筛选出具有文字区域的图片，并分割带有数字的图片，分类排序后得到待识别图片数据集。

首先在待识别环境中，利用项目相同的USB摄像头利用上述方法分割图片采集大量的数字数据，并分割保存，可用于模型学习字体；采集的数据大致为0到9数字各一万张。

步骤S2中，将训练集输入朴素贝叶斯分类器中训练，

朴素贝叶斯的原理：

假设各个条件是独立的，例如X和Y是相互独立的，那么：

P(X,Y)＝P(X)P(Y)

条件概率的公式如下：

P(Y|X)＝P(X,Y)/P(X)

P(X|Y)＝P(X,Y)/P(Y)

全概率的公式：

其中，

贝叶斯公式：

通过电压电流数字的训练，也就是0到9十个数字，得到相应的灰度图模型，通过训练集数据由发生频率总结出概率，得到每个数字的计算模型：

其中M_i为数字值为i的数学模型，N_{i_jk}为数值为i的数字在像素坐标(一维化后)为j的值上像素值为k的训练图片个数，N_i总为数字值为i的总训练图片个数。

步骤S1中，对获取的图像，计算其当前帧与上一帧间的对应像素值变化，检测当前帧与上一帧间的变化区域，并对动态区域的数值进行提取。

上述方法为“按需分配的方法”，即合理的分配了多个摄像头获取图像数据之间处理中电脑计算资源的占用，使得多USB摄像头同时识别图片数据。

检测当前帧与上一帧间的变化区域，对当前帧的下两帧不进行识别处理，对第三帧图片通过RGB与HSV的阈值判定，小于阈值，则该图像作为待识别图片；反之，则该图像不作为待识别图片。

由于液晶屏的显示原理限制，在液晶屏刷新时会有残留的影像存在(液晶屏的延迟性)，会干扰识别，针对这一现象，通过上述隔帧检测与阈值判断(帧间差分)，修正由于液晶屏延时性产生的残影误差，保证识别的准确性。

获取S1中未识别图像以及训练模型输出的数字判断异常值，对异常值进行存储，并将未识别图像以及数字异常值通过互联网报警信息发出。

对未识别图像以及识别区域异常值的判断与处理，通过互联网的报警系统及时发出，保证系统正常运行。

本发明利用帧间差分与模式学习等方法来优化算法与异常值的判断。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种用于综合性能试验的OCR识别方法，用于识别液晶显示器上的电压和电流信息，其特征在于，具体步骤包括:

S1、同时获取多摄像头的图像信息，对获取的图像，计算其当前帧与上一帧间的对应像素值变化，检测当前帧与上一帧间的变化区域，并对动态区域的数值进行提取；其中，检测当前帧与上一帧间的变化区域，对当前帧的下两帧不进行识别处理，对第三帧图片通过RGB与HSV的阈值判定，小于阈值，则该图像作为待识别图片；反之，则该图像不作为待识别图片；

通过采用RGB与HSV六通道范围提取数字区域轮廓并对带有数字的图片进行分割处理，得到待识别图片数据集；对带有数字的图片进行分割处理具体为：通过设定RGB与HSV的阈值，通过形态学方法粗提取数字区域轮廓，再筛选出具有文字区域的图片，并分割带有数字的图片，分类排序后得到待识别图片数据集；

S2、将待识别图片数据集进行预处理后得到数字样本作为训练集，将训练集输入朴素贝叶斯分类器中训练，得到每个数字训练好的训练模型；对待识别图片数据集预处理具体为：对待识别图片数据集进行裁剪后统一大小与格式，然后将图片灰度处理并二值化，使得每张图片的长宽一致，且每个像素值都为0或者255；其中，将训练集输入朴素贝叶斯分类器中训练，通过训练集数据由发生频率总结出概率，得到每个数字的计算模型：

其中M_i为数字值为i的数学模型，N_{i_jk}为数值为i的数字在像素坐标为j的值上像素值为k的训练图片个数，N_i总为数字值为i的总训练图片个数；pixel_num为一帧图像中的像素总数；∏为连乘；

S3、将待识别图片数据集输入搭建好的训练模型，将训练模型输出的数字与每个数字训练模型做对比，概率最大的即为识别的最终数字；

还包括，获取S1中未识别图像以及训练模型输出的数字判断异常值，对异常值进行存储，并将未识别图像以及数字异常值通过互联网报警信息发出。