CN111539414B

CN111539414B - 一种ocr图像字符识别和字符校正的方法及系统

Info

Publication number: CN111539414B
Application number: CN202010338812.2A
Authority: CN
Inventors: 宋国梁; 颜长华
Original assignee: Lianghua Intelligent Technology Shanghai Co ltd
Current assignee: Lianghua Intelligent Technology Shanghai Co ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2023-05-23
Anticipated expiration: 2040-04-26
Also published as: CN111539414A

Abstract

本发明公开了一种OCR图像字符识别和字符校正的方法，在字符识别模块中：采用多级神经网络构造并拟合了汉字变形度Pr函数，该网络以图像CNN数据以及横竖撇捺四个额外特征作为为变量，以不同程度的GAN识别度作为“变形度”的训练值，反映目标汉字的变形度Pr；在字符校正模块中：增设第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行高精度的相似字区分，二级网络的设置可以降低第一级网络的复杂度提高网络整体的泛化能力。本方法和系统主要针对机打发票、各种表格、单证进行识别，识别精度高，识别速度快，适应性强，对于部分信息缺失以及识别错误有很强的纠正能力；能够相对传统OCR识别技术的识别效果，大大提升识别准确度。

Description

一种OCR图像字符识别和字符校正的方法及系统

技术领域

本发明涉及汉字识别技术领域，具体而言，为一种OCR图像字符识别和字符校正的方法及系统。

背景技术

OCR(Optical Character Recognition，光学字符识别)技术是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。

随着图像传感器的不断发展，尤其是各种手机和专业(如安防)摄像头数目的指数增加，计算机图像数据在飞速增加；但图像质量则相对传统扫描仪或各种专业相机又相对降低；传统汉字OCR技术面临源图像数据质量不高，污染严重时，识别率会剧烈下降的问题。

计算机图像的汉字内容识别(汉字OCR)是图像识别中的难点问题，相对于英文字符识别，汉字数量众多，基本字符相似度高，易受干扰，分辨困难。对于票据，还会受到各种票据底纹、打印位置、打印清晰程度、覆盖污染物(章)的剧烈影响。根据2018年的相关市场调查，针对手机拍照的各种票据，市场上多家传统OCR厂商的测试效果均不理想，虽然新一代以深度神经网络为基础的端到端的OCR的方案在西方字符OCR领域取得了较好效果，但汉字由于基数庞大，需要的训练数据集要超过西方字符集的上千倍(保守估算)，因此至今开放AI平台上的汉字OCR在较差的图像上表现相当不理想，并且，端到端的深度神经网络存在天然的误识别，易受到攻击。

有鉴于此，特提出本发明。

发明内容

针对现有技术中的缺陷，本发明提供一种OCR图像字符识别和字符校正的方法及系统，以提高OCR的准确率。

为实现上述目的，本发明的技术方案如下：

一种OCR图像字符识别和字符校正的方法，包括

通过训练网络对待识别图像进行字符识别，获得字符识别信息；

预设校正规则对所述字符识别信息进行检验，获得字符校正结果；

其中所述通过训练网络对待识别图像进行字符识别包括：

通过构造和拟合Pr函数，以横竖撇捺四个特征为变量，构造训练网络，计算汉字变形度；

并增设第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行相似字区分。

进一步的，上述的OCR图像字符识别和字符校正的方法中，所述通过训练网络对待识别图像进行字符识别，获得字符识别信息，包括：

S11.设置神经网络训练已知的汉字图像库及其对应的汉字的横竖撇捺的数目；

S12.通过不同程度的GAN构造训练网络，计算汉字变形度。

进一步的，上述的OCR图像字符识别和字符校正的方法中，所述构造训练网络，计算汉字变形度，包括

构造包括所述神经网络和标准CNN神经网络的训练网络，通过训练网络获取待识别图像、待检测的汉字及训练获得的该目标汉字中横竖撇捺的数目，计算定量化误差函数Pr。

进一步的，上述的OCR图像字符识别和字符校正的方法中，所述训练网络的训练数据从原始标准汉字图片数据加工得到；首先设置五个层次不同的GAN网络，五个GAN网络的数据集对应于形近字广度扩散的五重数据，则GAN1数据源于该汉字的形近字增强得到；GAN2的数据源于该汉字及其形近字以及其形近字的形近字的数据集增强得到；以此类推，获得五种类型的GAN网络：GAN1～GAN5。

则，Pr值定义为：

0.0：原始图像；

0.1：5种均不可区分；

0.2：4种不可区分，1种可区分；

0.4：3种不可区分，2种可区分；

0.6：2种不可区分，3种可区分；

0.8：1种不可区分，4种可区分；

0.9：均可区分；

1.0：无关噪点图像或者其他动植物图像；

确定Pr值后，使用所述训练网络结构训练每个目标汉字的Pr值的网络，构成数据库。

进一步的，上述的OCR图像字符识别和字符校正的方法中，所述第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行相似字精确区分，包括

训练网络第一次确定的最佳识别结果，调取该字所在相似字库进行匹配对比，如果匹配到相似字，调用预先训练好的所述第二级相似字区分网络，对匹配的相似字进行区分。

进一步的，上述的OCR图像字符识别和字符校正的方法中，所述预设校正规则对所述字符识别信息进行检验，获得字符校正结果，包括

预置校正规则，对所述字符识别信息进行验证；

构造反馈模型，用于根据所述校正规则验证的符合程度，向上反馈可靠程度信息并给出进一步处理建议信息。

一种OCR图像识别的系统中，包括文字识别模块以及文字校正模块；其中

图像校正模块，用于通过训练网络对待识别图像进行字符识别，获得字符识别信息；其中通过训练网络对待识别图像进行字符识别包括：

并增设第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行相似字区分；

文字校正模块，用于预设校正规则对所述字符识别信息进行检验，获得字符校正结果。

进一步的，上述的OCR图像识别的系统中，文字识别模块的执行步骤包括：

设置神经网络训练已知的汉字图像库及其对应的汉字的横竖撇捺的数目；

还包括通过不同程度的GAN构造训练网络，计算汉字变形度；其包括：

进一步的，上述的OCR图像识别的系统中，文字识别模块执行所述第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行相似字区分，包括

进一步的，上述的OCR图像识别的系统中，所述文字校正模块的执行步骤包括

预置校正规则，对所述字符识别模块输出的字符识别信息进行验证；

与现有技术相比，本发明的有益效果体现在：

本发明通过构造和拟合Pr函数的方式确定识别准确度，其基于横竖撇捺变量计算标准汉字的变形程度，经过训练网络处理，便于之后的识别中，每次只需要输入待识别图像、待检测的汉字及训练获得该目标汉字中横竖撇捺四种基础笔画的数目，即可以通过这个网络计算出识别为该目标汉字的可靠程度Pr，确认当前次识别效果的优劣，对于判断异常图片和攻击性图片处理也非常有效；并且基于理解度的反馈算法(即反馈模型)可以提高OCR的准确率，对于部分信息缺失以及识别错误有很强的纠正能力；能够相对传统OCR识别技术的识别效果，大大提升识别准确度。尤其适用于针对机打发票、各种表格、单证进行识别，识别精度高，识别速度快，适应性强。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明OCR图像字符识别和字符校正的方法一个具体实施例的流程图；

图2为本发明OCR图像识别的系统的逻辑框图；

图3为图2中所示的系统的文字识别模块中构建的训练网络的逻辑框图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

实施例1

如图1所示，一种OCR图像字符识别和字符校正的方法，包括

其中所述通过训练网络对待识别图像进行字符识别包括：

并增设第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行相似字精确区分。

本发明方法中，是针对进过预处理后的待识别图像信息进行字符识别和校正，通过高效的处理算法，获得准确的OCR识别结果。其中预处理包括图像降噪、基于3*3的9点校正法的初步校正等，提高待识别图像的像素质量。

本发明方法为了提高识别正确率构建了训练网络以获得一个可以定量化误差的函数Pr，该函数可以计算某次OCR结果和标准汉字的变形程度Pr值，以横竖撇捺四个特征为变量；具体的：

S1.通过训练网络对待识别图像进行字符识别，获得字符识别信息，包括：

S11.设置神经网络训练已知的汉字图像库及其对应的汉字的横竖撇捺的数目

设置四个小的神经网络，对已知的汉字图像库及其对应的汉字的横竖撇捺的数目训练；这部分的训练网络较为简单，对数据量的要求也比较低，很容易达到较高精度，训练获得的横竖撇捺数目可以看作是对应汉字的一部分基本特征。

S12.通过不同程度的GAN构造训练网络，计算汉字变形度

该训练网络包括所述四个神经网络和标准CNN神经网络，即上述获得横竖撇捺数目特征的四个神经网络和所述标准CNN神经网络(Convolutional Neural Networks,CNN，卷积神经网络)，以计算汉字变形度(变形程度)。

其中所述训练网络的训练数据从原始标准汉字图片数据加工得到；首先设置五个层次不同的GAN网络，五个GAN网络的数据集对应于形近字广度扩散的五重数据，即GAN1数据源于该汉字的形近字增强得到；GAN2的数据源于该汉字及其形近字以及其形近字的形近字的数据集增强得到；以此类推，获得五种类型的GAN网络：GAN1～GAN5。

则，Pr值定义为：

0.0：原始图像；

0.1：5种均不可区分；

0.2：4种不可区分，1种可区分；

0.4：3种不可区分，2种可区分；

0.6：2种不可区分，3种可区分；

0.8：1种不可区分，4种可区分；

0.9：均可区分；

1.0：无关噪点图像或者其他动植物图像。

如图3所示的，确定Pr值后，使用所述训练网络结构训练每个目标汉字的Pr值的网络，构成数据库，在之后的识别中，每次只需要输入待识别图像、待检测的汉字及训练获得该目标汉字中横竖撇捺四种基础笔画的数目，即可以通过这个网络计算出识别为该目标汉字的可靠程度Pr。

训练网络得出的Pr值可以用于确认当前次识别效果的好坏，对于后期字符校正，内容分析和数据转换有很大作用；此外，经过实践验证，本发明方法中Pr值的计算对于判断异常图片和攻击性图片处理也非常有效。

S13.在另一优选实施例中，该步骤中还增加了第二级相似字区分网络。

第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行相似字精确区分；具体的

训练网络第一次确定的最佳识别结果(最佳字)，调取该字所在相似字库进行匹配对比，如果匹配到相似字，会调用预先训练好的所述第二级相似字区分网络，对匹配的相似字进行精确区分，获得更为准确的识别结果。

由于相似字区分这部分的开销不大，利于并行，大大提高了精确度。

第二级相似字区分网络还可计算出针对每个同形字的Pr值，用于后续对所述字符识别信息进行检验。

S2.预设校正规则对所述字符识别信息进行检验，获得字符校正结果

对字符的识别结果，如果待识别图像质量非常好的时候，理论上无需校正；但是对于打印出来的有污染的或者未完整输出的发票，各种表格文档，各种中英数字及符号文混排的文档等，其直接识别输出的识别结果正确率总是不能得到保障的，例如10.00可能将中间的10识别成lO,即英文字符L和O。

因此本发明该步骤中，包括

S21.预置校正规则：包括

格式校正(数字，金额，日期等)；即按照数据内容所述类型设置固定格式，进行匹配识别校正；

成词校正(常用词库、专用词库等)；即通过相关数据库内的词汇数据匹配识别校正；

成短语校正(词语搭配、关键词和对应内容搭配，关键词和数值搭配)；即通过相关数据库内的词语搭配、关键词和对应内容搭配，关键词和数值搭配等固定短语数据匹配识别校正；

还包括成句校正、修饰关系校正、语法关系校正等；对于输出的字符序列需要在上述规则下逐一验证，找出最佳匹配序列，逐步递归确认每个字符的可靠性。

S22.构建反馈模型

进一步的，本发明方法还构建了反馈模型，即对于规则符合程度很高或者很低的数据，向上反馈可靠程度信息并给出数据进一步挖掘的建议。反馈模型的反馈规则包括：

1).如果校正规则符合程度高于预设值，反馈确定的字符序列位置信息，返回至预处理阶段，进行图像校正步骤，以重新调整优化图像整体校正。

2).如果通过距离规则验证缺失一个或者两个字符，反馈寻找信息，返回至字符识别步骤，要求验证特定同形字并返回Pr值；例如文字校正模块通过校正规则识别出“金额36.G8”，根据金额的格式规则，倒数第二位的“G”不符合规则，则将向上级OCR模块(即文字识别模块)索取该位置0～9九个数字的Pr值。

S23.识别内容的串行处理；

对识别内容进行串行处理，串行目标函数最小化，误差小，输出结果精确度高。

本发明方法通过构造和拟合Pr函数的方式确定识别准确度，其基于横竖撇捺变量计算标准汉字的变形程度，经过训练网络处理，便于之后的识别中，每次只需要输入待识别图像、待检测的汉字及训练获得该目标汉字中横竖撇捺四种基础笔画的数目，即可以通过这个网络计算出识别为该目标汉字的可靠程度Pr，确认当前次识别效果的优劣，对于判断异常图片和攻击性图片处理也非常有效；并且基于理解度的反馈算法(即反馈模型)可以提高OCR的准确率，对于部分信息缺失以及识别错误有很强的纠正能力；能够相对传统OCR识别技术的识别效果，大大提升识别准确度。尤其适用于针对机打发票、各种表格、单证进行识别，识别精度高，识别速度快，适应性强。

实施例2

如图2所示，本发明还提供一种OCR识别系统，包括文字识别模块以及文字校正模块；其中

文字识别模块，用于通过训练网络对待识别图像进行字符识别，获得字符识别信息；其中通过训练网络对待识别图像进行字符识别包括：

并增设第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行相似字精确区分；

本发明系统获取待识别图像进行预处理校正以输出符合预设规范的图像数据，如图像降噪、基于3*3的9点校正法等的图像校正等以利于后续其他识别处理，以获得更为准确的识别结果。

本系统还包括文字识别模块，用于获取模板识别模块输出的待识别图像数据，进一步进行字符识别。作为OCR技术的核心模块，本发明为了提高识别正确率构建了训练网络以获得一个可以定量化误差的函数Pr，该函数可以计算某次OCR结果和标准汉字的变形程度Pr值，以横竖撇捺四个特征为变量。具体的文字识别模块的执行步骤包括：

C1.设置神经网络训练已知的汉字图像库及其对应的汉字的横竖撇捺的数目

在该模块中设置四个小的神经网络，对已知的汉字图像库及其对应的汉字的横竖撇捺的数目训练；这部分的训练网络较为简单，对数据量的要求也比较低，很容易达到较高精度，输出的横竖撇捺数目可以看作是对应汉字的一部分基本特征。

C2.通过不同程度的GAN构造训练网络，计算汉字变形度

该训练网络包括所述四个神经网络和标准CNN神经网络，用于输出横竖撇捺数目特征的四个神经网络和所述标准CNN神经网络(Convolutional Neural Networks,CNN，卷积神经网络)，用于计算汉字变形度(变形程度)。

则，Pr值定义为：

0.0：原始图像；

0.1：5种均不可区分；

0.2：4种不可区分，1种可区分；

0.4：3种不可区分，2种可区分；

0.6：2种不可区分，3种可区分；

0.8：1种不可区分，4种可区分；

0.9：均可区分；

1.0：无关噪点图像或者其他动植物图像。

如图3所示的，确定Pr值后，使用所述训练网络结构训练每个目标汉字的Pr值的网络，构成数据库，在之后的识别中，每次只需要输入待识别图像、待检测的汉字及训练获得该目标汉字中横竖撇捺四种基础笔画的数量，即可以通过这个网络计算出识别为该目标汉字的可靠程度Pr。

训练网络得出的Pr值可以用于确认当前次识别效果的好坏，对于后期字符校正，内容分析和数据转换有很大作用；此外，经过实践验证，Pr值的计算对于判断异常图片和攻击性图片处理也非常有效。

C3.在另一实施例中，所述文字识别模块中增加了第二级相似字区分网络。

第二级相似字区分网络还可计算出针对每个同形字的Pr值，输出给文字校正模块。

本发明系统中，所述文字校正模块用于预设校正规则对所述字符识别信息进行检验，获得字符校正结果并输出。对于文字识别模块对字符的识别结果，如果待识别图像质量非常好的时候，理论上无需校正；但是对于打印出来的有污染的或者未完整输出的发票，各种表格文档，各种中英数字及符号文混排的文档等，其直接识别输出的识别结果正确率总是不能得到保障的，例如10.00可能将中间的10识别成lO,即英文字符L和O。这部分差错需要在字符校正模块中进行处理。

文字校正模块中，进行D1.预置校正规则：

字校正模块中，还包括D2.构建反馈模型

进一步的，本发明系统所述文字校正模块中还构建了反馈模型，即对于规则符合程度很高或者很低的数据，向上反馈可靠程度信息并给出数据进一步挖掘的建议。反馈模型的反馈规则包括：

1).如果校正规则符合程度高于预设值，向图像校正模块反馈确定的字符序列位置信息，以重新调整优化图像整体校正。

2).如果通过距离规则验证错误一个或两个字符，向文字识别模块反馈信息，要求验证特定同形字并返回Pr值；例如文字校正模块通过校正规则识别出“金额36.G8”，根据金额的格式规则，倒数第二位的“G”不符合规则，则将向上级OCR模块(即文字识别模块)索取该位置0～9九个数字的Pr值。

D3.识别内容的串行处理；

本发明系统用于实施上述本发明的OCR图像识别方法，其实施原理可参考上述方法实施例1的描述；本发明系统主要针对机打发票、各种表格、单证进行识别；当输入图片质量不高、打印差错严重，例如有严重的漏线导致字符某些像素缺失，又如打印位置叠加到其他字符上，打印污染，拖影等等，这些均会导致传统识别技术中的字符定位完全失效，字符识别错误百出，本发明系统会通过构建的模块、规则与模型，不断反馈重新识别新的字符可能性，最终给出符合规则的最合理的OCR结果，因此识别效果较于通用OCR效果有很大提升。

特别的，根据本发明公开的实施例，其参考的附图(逻辑框图的功能模块、流程图的程序步骤)描述的结构可以被实现为计算机软件程序，例如上述公开的实施例中包括各模块的系统，其可以为承载在计算机可读介质上的计算机程序，该计算机程序包含用于实现附图结构中所示模块的功能的代码。

构建本发明系统的程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。构建出的所述OCR图像识别系统作为程序代码可以完全地在用户计算机/智能移动终端(如手机、pad等)上执行、部分地在用户计算机/智能移动终端(如手机、pad等)上执行、作为一个独立的软件包执行、部分在用户计算机/智能移动终端(如手机、pad等)上且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机或智能移动终端，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种OCR图像字符识别和字符校正的方法，其特征在于：包括

其中所述通过训练网络对待识别图像进行字符识别包括：

所述通过训练网络对待识别图像进行字符识别，获得字符识别信息，包括：

S12.通过不同程度的GAN构造训练网络，计算汉字变形度；

所述构造训练网络，计算汉字变形度，包括：

构造包括所述神经网络和标准CNN神经网络的训练网络，通过训练网络获取待识别图像、待检测的汉字及训练获得的目标汉字中横竖撇捺的数目，计算定量化误差函数Pr；

所述训练网络的训练数据从原始标准汉字图片数据加工得到；首先设置五个层次不同的GAN网络，五个GAN网络的数据集对应于形近字广度扩散的五重数据，则GAN1数据源于该汉字的形近字增强得到；GAN2的数据源于该汉字及其形近字以及其形近字的形近字的数据集增强得到；以此类推，获得五种类型的GAN网络：GAN1～GAN5；

则，Pr值定义为：

0.0 ：原始图像；

0.1 ： 5种均不可区分；

0.2 ： 4种不可区分，1种可区分；

0.4 ： 3种不可区分，2种可区分；

0.6 ： 2种不可区分，3种可区分；

0.8 ： 1种不可区分，4种可区分；

0.9 ：均可区分；

1.0 ：无关噪点图像或者其他动植物图像；

确定Pr值后，使用所述训练网络结构训练每个目标汉字的Pr值的网络，构成训练数据库。

2.根据权利要求1所述的OCR图像字符识别和字符校正的方法，其特征在于：所述第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行相似字精确区分，包括

训练网络第一次确定的最佳识别结果作为最佳字，调取所述最佳字所在相似字库进行匹配对比，如果匹配到相似字，调用预先训练好的所述第二级相似字区分网络，对匹配的相似字进行区分。

3.根据权利要求1-2任一项所述的OCR图像字符识别和字符校正的方法，其特征在于：所述预设校正规则对所述字符识别信息进行检验，获得字符校正结果，包括

预置校正规则，对所述字符识别信息进行验证；

4.一种OCR图像识别的系统，其特征在于：包括文字识别模块以及文字校正模块；其中

文字校正模块，用于预设校正规则对所述字符识别信息进行检验，获得字符校正结果；

文字识别模块的执行步骤包括：

还包括通过不同程度的GAN构造训练网络，计算汉字变形度，包括：

则，Pr值定义为：

0.0 ：原始图像；

0.1 ： 5种均不可区分；

0.2 ： 4种不可区分，1种可区分；

0.4 ： 3种不可区分，2种可区分；

0.6 ： 2种不可区分，3种可区分；

0.8 ： 1种不可区分，4种可区分；

0.9 ：均可区分；

1.0 ：无关噪点图像或者其他动植物图像；

5.根据权利要求4所述的OCR图像识别的系统，其特征在于：文字识别模块执行所述第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行相似字区分，包括

6.根据权利要求5所述的OCR图像识别的系统，其特征在于：所述文字校正模块的执行步骤包括

预置校正规则，对所述文字识别模块输出的字符识别信息进行验证；