CN106372632A

CN106372632A - 一种基于ocr的漏识文字自动检测的方法

Info

Publication number: CN106372632A
Application number: CN201610707049.XA
Authority: CN
Inventors: 王长征; 王龙; 刘文晓; 张保花
Original assignee: SHANXI TONGFANG ZHIWANG DIGITAL PUBLISHING TECHNOLOGY Co Ltd
Current assignee: SHANXI TONGFANG ZHIWANG DIGITAL PUBLISHING TECHNOLOGY Co Ltd
Priority date: 2016-08-23
Filing date: 2016-08-23
Publication date: 2017-02-01
Anticipated expiration: 2036-08-23
Also published as: CN106372632B

Abstract

本发明公开了一种基于OCR的漏识文字自动检测的方法，所述方法包括以下步骤：A对识别结果文件进行特征分析；B对没有问题的识别结果文件进行图像二值化处理；C检查图像非识别区域范围内是否有未识别内容，如果发现字符，存在漏识内容；否则，执行步骤D；D检查图像识别区域范围是否存在未识别内容，如果发现字符，存在漏识内容；否则，结束漏识文字检测。本发明可以通过依次检查图像的识别区域和非识别区域，自动全面检查图像识别结果是否有漏识，达到了自动化处理要求，这样解放了人力，提高了工作效率。

Description

一种基于OCR的漏识文字自动检测的方法

技术领域

本发明属于OCR技术和图像处理技术领域，尤其涉及一种基于OCR的漏识文字自动检测的方法。

背景技术

纸质论文扫描后要进行识别，而扫描后的论文的图像质量千差万别，排版形式多种多样，因此各种识别软件识别后的结果也可能存在遗漏或者误识别的情况，目前，只能通过人工来检查来判别结果是否完整可用。

因为图像质量各有好坏，所以图像经过识别软件识别以后，识别结果也存在差别，由于图像质量以及识别软件本身的问题，都可能存在漏识别和误识别(主要是指将文字区域错识别为非文字内容，如图表、表格)的情况。因为在出版行业必须保证内容的精确性，所以必须人工检查所有识别结果，这样做费时费力。因此急需一种自动检测方法把人们从这种繁琐的工作中解放出来。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于OCR的漏识文字自动检测的方法，该方法是自动检测识别后的图像是否存在未识别内容以及误识别内容。主要解决：(1)扫描的图像质量各不相同，有底纹的图像识别效果会有所下降，且更容易出现误识别(比如将文字区域识别为图表等情况)；(2)扫描的图像不清晰或者字体较大(比如横幅标题)时，容易出现漏识别的情况。

本发明的目的通过以下的技术方案来实现：

一种基于OCR的漏识文字自动检测的方法，包括：

A对识别结果文件进行特征分析；

B对没有问题的识别结果文件进行图像二值化处理；

C检查图像非识别区域范围内是否有未识别内容，如果发现字符，存在漏识内容；否则，执行步骤D；

D检查图像识别区域范围是否存在未识别内容，如果发现字符，存在漏识内容；否则，结束漏识文字检测。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

可以通过依次检查图像的识别区域和非识别区域，自动全面检查图像识别结果是否有漏识，达到了自动化处理要求，这样解放了人力，提高了工作效率。

附图说明

图1是基于OCR的漏识文字自动检测的方法流程图；

图2是没有识别结果的图片结构示意图；

图3是文字区域误识别结构示意图；

图4是识别顺序有误的结构示意图；

图5是标红数字过多的结构示意图；

图6a和图6b是二值化图像效果对比结构示意图；

图7a和图7b是非识别区域存在未识别内容结构示意图；

图8a和图8b是识别区域内存在未识别内容结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施实例及附图对本发明作进一步详细的描述。

如图1所示，为基于OCR的漏识文字自动检测的方法，该方法包括如下步骤：。

步骤10对识别结果文件进行特征分析；

步骤20对没有问题的识别结果文件进行图像二值化处理；

步骤30检查图像非识别区域范围内是否有未识别内容，如果有，存在漏识内容；否则，执行步骤40；

步骤40检查图像识别区域范围是否存在未识别内容，如果有，存在漏识内容；否则，结束检测。

上述步骤10具体包括：通过识别软件识别图像，生成识别结果文件；其中识别结果主要包含以下信息：

BlockInfo：版面信息，即识别区域信息，具体包括识别区域矩形框的left、right、top、bottom边界坐标，识别出的行数，识别区域的类型(文字、表格、图像)等信息，根据这些信息可以计算出每个识别区域在图像中的范围；

分析版面信息，是否为文字版面，如果存在表格、图表版面，则可能存在漏识内容(如图2为没有识别内容，图3为将文字区域识别为图表)。

CharInfo：字符信息，具体包括该字符的识别结果字符、height、width、字体、置信度(置信度为A表示识别准确，置信度为E表示识别可能有误，即标红)等信息。计算字符总标红率以及最大连续标红数，如果超出一定的标准，说明识别质量过低，可能存在未识别内容(如图5为标红字符数过多)。

统计并分析识别出的版面数量，每个版面的类型以及所有字符的标红信息。

如果版面数为1，且为文字版面，则无需进行合并，直接将该版面的坐标信息作为识别区域范围，剩余的部分即非识别区域范围。再按照先检查非识别区域再检查识别区域的顺序进行检查。

如果存在非文字版面，则可能识别错误，否则，继续下一步检查。

版面数大于1，先进行判断，水平方向是否存在多个识别区域，如果存在，可能识别的文字顺序错误，会对最终语义造成影响，需要人工确认(如图4，如果按照识别软件自动识别的结果，则会出现顺序错误，如果不将这类错误检测出来，到最后很难发现是错的，且会对阅读者造成歧义)。

如果分析版面没有问题，再统计所有识别字符的置信度，当置信度为A时，表示识别软件认为该字正确，当置信度为E时，表示识别软件认为该字可能识别错误(即将该字标红)。统计所有置信度为E的字符数量，如果标红字数所占比例超过一定比例，则可能存在漏识别内容(如图5存在大量识别错误的字)；或者当有连续5个字以上标红时，也可能存在漏识别。

以上检查都通过，说明特征分析没有发现问题，需要对图片本身进行检测。

上述步骤20具体包括：有的图像不是黑白的，带有背景色或底纹，所以在检查之前先对图像进行二值化，去掉噪声，这样可以提高后面检查字符的准确度。根据实际情况发现，大部分的图像即使有背景色或底纹，字体颜色和背景色差别通常也比较大，因此对图像的二值化可以采用比较经典的OTSU方法。

该方法利用聚类的思想，把图像灰度数按灰度级分为两个部分，使得两个部分之间的灰度值差异最大化。通过计算方差得到一个灰度阈值，将原图分为前景和背景两个图像。

记t为前景与背景的分割阈值，前景点数占图像比例为w0，平均灰度为u0；背景点数占图像比例为w1，平均灰度为u1。

则图像的总平均灰度为：u＝w0*u0+w1*u1。

前景和背景图像的方差为：

g＝w0*(u0-u)*(u0-u)+w1*(u1-u)*(u1-u)＝w0*w1*(u0-u1)*(u0-u1)。

图6a和6b为使用该方法二值化前后对比图。

上述步骤30具体包括：对通过步骤10得到的识别区域计算并得出合并后的识别区域范围。

合并方法采用所有识别区域取并集，即合并后的区域矩形，包含所有的原始识别区域，且面积最小。

对非识别区域进行检查，是否存在未识别内容(如图7a和7b为划分出的非识别区域范围)，合并后的区域为矩形，且占据了图像大部分面积，剩下的区域(识别区域外的范围)可分为上、下、左、右四部分。依次对四个区域进行检查，如果有任一区域存在未识别字符，则说明该图像存在漏识别内容。

如果非识别区域未检测到内容，再对识别区域进行检查。

上述步骤40具体包括：利用上一步计算得到的识别区域，检查该区域内是否有未识别字符(如图8a和8b为识别区域内存在未识别字符)。检测识别区域内是否存在未识别内容，采用了一种细分遍历检查的方法。首先将区域划分为若干小区域，再对每个小区域进行检查，如果有区域发现字符，则不再检查后面的区域。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于OCR的漏识文字自动检测的方法，其特征在于，所述方法包括以下步骤：

A对识别结果文件进行特征分析；

B对没有问题的识别结果文件进行图像二值化处理；

2.如权利要求1所述的基于OCR的漏识文字自动检测的方法，其特征在于，所述步骤A中识别结果文件特征分析包括：识别结果版面信息分析、识别结果中的字符串行信息分析及每个字符的标红信息分析，并计算总标红率和最大连续标红数。

3.如权利要求1或2所述的基于OCR的漏识文字自动检测的方法，其特征在于，当字符标红率过高或版面水平方向存在多个识别区域或发现表格图标，则判断文件中存在漏识内容。

4.如权利要求1所述的基于OCR的漏识文字自动检测的方法，其特征在于，所述步骤B具体包括：通过OTSU算法对存在背景色或底纹的图像进行二值化处理。

5.如权利要求1所述的基于OCR的漏识文字自动检测的方法，其特征在于，所述步骤C包括提取图像非识别区域范围，将非识别区域范围分为四个区域，并依次对四个区域进行检查，如果有任一区域存在未识别字符，则说明该图像存在漏识别内容。

6.如权利要求1所述的基于OCR的漏识文字自动检测的方法，其特征在于，所述步骤D具体包括提取图像识别区域范围，如果只有一个识别区域，则直接对该区域进行检查；如果存在多个识别区域，则先将多个识别区域进行合并，再进行检查。