CN106372632A - 一种基于ocr的漏识文字自动检测的方法 - Google Patents
一种基于ocr的漏识文字自动检测的方法 Download PDFInfo
- Publication number
- CN106372632A CN106372632A CN201610707049.XA CN201610707049A CN106372632A CN 106372632 A CN106372632 A CN 106372632A CN 201610707049 A CN201610707049 A CN 201610707049A CN 106372632 A CN106372632 A CN 106372632A
- Authority
- CN
- China
- Prior art keywords
- image
- leakage
- identification
- ocr
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Abstract
本发明公开了一种基于OCR的漏识文字自动检测的方法,所述方法包括以下步骤:A对识别结果文件进行特征分析;B对没有问题的识别结果文件进行图像二值化处理;C检查图像非识别区域范围内是否有未识别内容,如果发现字符,存在漏识内容;否则,执行步骤D;D检查图像识别区域范围是否存在未识别内容,如果发现字符,存在漏识内容;否则,结束漏识文字检测。本发明可以通过依次检查图像的识别区域和非识别区域,自动全面检查图像识别结果是否有漏识,达到了自动化处理要求,这样解放了人力,提高了工作效率。
Description
技术领域
本发明属于OCR技术和图像处理技术领域,尤其涉及一种基于OCR的漏识文字自动检测的方法。
背景技术
纸质论文扫描后要进行识别,而扫描后的论文的图像质量千差万别,排版形式多种多样,因此各种识别软件识别后的结果也可能存在遗漏或者误识别的情况,目前,只能通过人工来检查来判别结果是否完整可用。
因为图像质量各有好坏,所以图像经过识别软件识别以后,识别结果也存在差别,由于图像质量以及识别软件本身的问题,都可能存在漏识别和误识别(主要是指将文字区域错识别为非文字内容,如图表、表格)的情况。因为在出版行业必须保证内容的精确性,所以必须人工检查所有识别结果,这样做费时费力。因此急需一种自动检测方法把人们从这种繁琐的工作中解放出来。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于OCR的漏识文字自动检测的方法,该方法是自动检测识别后的图像是否存在未识别内容以及误识别内容。主要解决:(1)扫描的图像质量各不相同,有底纹的图像识别效果会有所下降,且更容易出现误识别(比如将文字区域识别为图表等情况);(2)扫描的图像不清晰或者字体较大(比如横幅标题)时,容易出现漏识别的情况。
本发明的目的通过以下的技术方案来实现:
一种基于OCR的漏识文字自动检测的方法,包括:
A对识别结果文件进行特征分析;
B对没有问题的识别结果文件进行图像二值化处理;
C检查图像非识别区域范围内是否有未识别内容,如果发现字符,存在漏识内容;否则,执行步骤D;
D检查图像识别区域范围是否存在未识别内容,如果发现字符,存在漏识内容;否则,结束漏识文字检测。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
可以通过依次检查图像的识别区域和非识别区域,自动全面检查图像识别结果是否有漏识,达到了自动化处理要求,这样解放了人力,提高了工作效率。
附图说明
图1是基于OCR的漏识文字自动检测的方法流程图;
图2是没有识别结果的图片结构示意图;
图3是文字区域误识别结构示意图;
图4是识别顺序有误的结构示意图;
图5是标红数字过多的结构示意图;
图6a和图6b是二值化图像效果对比结构示意图;
图7a和图7b是非识别区域存在未识别内容结构示意图;
图8a和图8b是识别区域内存在未识别内容结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施实例及附图对本发明作进一步详细的描述。
如图1所示,为基于OCR的漏识文字自动检测的方法,该方法包括如下步骤:。
步骤10对识别结果文件进行特征分析;
步骤20对没有问题的识别结果文件进行图像二值化处理;
步骤30检查图像非识别区域范围内是否有未识别内容,如果有,存在漏识内容;否则,执行步骤40;
步骤40检查图像识别区域范围是否存在未识别内容,如果有,存在漏识内容;否则,结束检测。
上述步骤10具体包括:通过识别软件识别图像,生成识别结果文件;其中识别结果主要包含以下信息:
BlockInfo:版面信息,即识别区域信息,具体包括识别区域矩形框的left、right、top、bottom边界坐标,识别出的行数,识别区域的类型(文字、表格、图像)等信息,根据这些信息可以计算出每个识别区域在图像中的范围;
分析版面信息,是否为文字版面,如果存在表格、图表版面,则可能存在漏识内容(如图2为没有识别内容,图3为将文字区域识别为图表)。
CharInfo:字符信息,具体包括该字符的识别结果字符、height、width、字体、置信度(置信度为A表示识别准确,置信度为E表示识别可能有误,即标红)等信息。计算字符总标红率以及最大连续标红数,如果超出一定的标准,说明识别质量过低,可能存在未识别内容(如图5为标红字符数过多)。
统计并分析识别出的版面数量,每个版面的类型以及所有字符的标红信息。
如果版面数为1,且为文字版面,则无需进行合并,直接将该版面的坐标信息作为识别区域范围,剩余的部分即非识别区域范围。再按照先检查非识别区域再检查识别区域的顺序进行检查。
如果存在非文字版面,则可能识别错误,否则,继续下一步检查。
版面数大于1,先进行判断,水平方向是否存在多个识别区域,如果存在,可能识别的文字顺序错误,会对最终语义造成影响,需要人工确认(如图4,如果按照识别软件自动识别的结果,则会出现顺序错误,如果不将这类错误检测出来,到最后很难发现是错的,且会对阅读者造成歧义)。
如果分析版面没有问题,再统计所有识别字符的置信度,当置信度为A时,表示识别软件认为该字正确,当置信度为E时,表示识别软件认为该字可能识别错误(即将该字标红)。统计所有置信度为E的字符数量,如果标红字数所占比例超过一定比例,则可能存在漏识别内容(如图5存在大量识别错误的字);或者当有连续5个字以上标红时,也可能存在漏识别。
以上检查都通过,说明特征分析没有发现问题,需要对图片本身进行检测。
上述步骤20具体包括:有的图像不是黑白的,带有背景色或底纹,所以在检查之前先对图像进行二值化,去掉噪声,这样可以提高后面检查字符的准确度。根据实际情况发现,大部分的图像即使有背景色或底纹,字体颜色和背景色差别通常也比较大,因此对图像的二值化可以采用比较经典的OTSU方法。
该方法利用聚类的思想,把图像灰度数按灰度级分为两个部分,使得两个部分之间的灰度值差异最大化。通过计算方差得到一个灰度阈值,将原图分为前景和背景两个图像。
记t为前景与背景的分割阈值,前景点数占图像比例为w0,平均灰度为u0;背景点数占图像比例为w1,平均灰度为u1。
则图像的总平均灰度为:u=w0*u0+w1*u1。
前景和背景图像的方差为:
g=w0*(u0-u)*(u0-u)+w1*(u1-u)*(u1-u)=w0*w1*(u0-u1)*(u0-u1)。
图6a和6b为使用该方法二值化前后对比图。
上述步骤30具体包括:对通过步骤10得到的识别区域计算并得出合并后的识别区域范围。
合并方法采用所有识别区域取并集,即合并后的区域矩形,包含所有的原始识别区域,且面积最小。
对非识别区域进行检查,是否存在未识别内容(如图7a和7b为划分出的非识别区域范围),合并后的区域为矩形,且占据了图像大部分面积,剩下的区域(识别区域外的范围)可分为上、下、左、右四部分。依次对四个区域进行检查,如果有任一区域存在未识别字符,则说明该图像存在漏识别内容。
如果非识别区域未检测到内容,再对识别区域进行检查。
上述步骤40具体包括:利用上一步计算得到的识别区域,检查该区域内是否有未识别字符(如图8a和8b为识别区域内存在未识别字符)。检测识别区域内是否存在未识别内容,采用了一种细分遍历检查的方法。首先将区域划分为若干小区域,再对每个小区域进行检查,如果有区域发现字符,则不再检查后面的区域。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (6)
1.一种基于OCR的漏识文字自动检测的方法,其特征在于,所述方法包括以下步骤:
A对识别结果文件进行特征分析;
B对没有问题的识别结果文件进行图像二值化处理;
C检查图像非识别区域范围内是否有未识别内容,如果发现字符,存在漏识内容;否则,执行步骤D;
D检查图像识别区域范围是否存在未识别内容,如果发现字符,存在漏识内容;否则,结束漏识文字检测。
2.如权利要求1所述的基于OCR的漏识文字自动检测的方法,其特征在于,所述步骤A中识别结果文件特征分析包括:识别结果版面信息分析、识别结果中的字符串行信息分析及每个字符的标红信息分析,并计算总标红率和最大连续标红数。
3.如权利要求1或2所述的基于OCR的漏识文字自动检测的方法,其特征在于,当字符标红率过高或版面水平方向存在多个识别区域或发现表格图标,则判断文件中存在漏识内容。
4.如权利要求1所述的基于OCR的漏识文字自动检测的方法,其特征在于,所述步骤B具体包括:通过OTSU算法对存在背景色或底纹的图像进行二值化处理。
5.如权利要求1所述的基于OCR的漏识文字自动检测的方法,其特征在于,所述步骤C包括提取图像非识别区域范围,将非识别区域范围分为四个区域,并依次对四个区域进行检查,如果有任一区域存在未识别字符,则说明该图像存在漏识别内容。
6.如权利要求1所述的基于OCR的漏识文字自动检测的方法,其特征在于,所述步骤D具体包括提取图像识别区域范围,如果只有一个识别区域,则直接对该区域进行检查;如果存在多个识别区域,则先将多个识别区域进行合并,再进行检查。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610707049.XA CN106372632B (zh) | 2016-08-23 | 2016-08-23 | 一种基于ocr的漏识文字自动检测的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610707049.XA CN106372632B (zh) | 2016-08-23 | 2016-08-23 | 一种基于ocr的漏识文字自动检测的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106372632A true CN106372632A (zh) | 2017-02-01 |
CN106372632B CN106372632B (zh) | 2019-04-16 |
Family
ID=57877970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610707049.XA Active CN106372632B (zh) | 2016-08-23 | 2016-08-23 | 一种基于ocr的漏识文字自动检测的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106372632B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382742A (zh) * | 2020-03-15 | 2020-07-07 | 策拉人工智能科技(云南)有限公司 | 一种云财务平台集成ocr识别软件的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102592121A (zh) * | 2011-12-28 | 2012-07-18 | 方正国际软件有限公司 | 一种ocr漏识判断方法及系统 |
CN103136521A (zh) * | 2011-11-25 | 2013-06-05 | 方正国际软件有限公司 | 一种图像区域属性的展示方法与系统 |
CN103390163A (zh) * | 2012-05-10 | 2013-11-13 | 中邮科技有限责任公司 | 一种信函地址自动采集方法 |
JP2014044470A (ja) * | 2012-08-24 | 2014-03-13 | Rakuten Inc | 画像処理装置、画像処理方法、及びプログラム |
-
2016
- 2016-08-23 CN CN201610707049.XA patent/CN106372632B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136521A (zh) * | 2011-11-25 | 2013-06-05 | 方正国际软件有限公司 | 一种图像区域属性的展示方法与系统 |
CN102592121A (zh) * | 2011-12-28 | 2012-07-18 | 方正国际软件有限公司 | 一种ocr漏识判断方法及系统 |
CN103390163A (zh) * | 2012-05-10 | 2013-11-13 | 中邮科技有限责任公司 | 一种信函地址自动采集方法 |
JP2014044470A (ja) * | 2012-08-24 | 2014-03-13 | Rakuten Inc | 画像処理装置、画像処理方法、及びプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382742A (zh) * | 2020-03-15 | 2020-07-07 | 策拉人工智能科技(云南)有限公司 | 一种云财务平台集成ocr识别软件的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106372632B (zh) | 2019-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110766014B (zh) | 票据信息定位方法、系统及计算机可读存储介质 | |
CN110210413B (zh) | 一种基于深度学习的多学科试卷内容检测与识别系统及方法 | |
US8494273B2 (en) | Adaptive optical character recognition on a document with distorted characters | |
CN104751142B (zh) | 一种基于笔划特征的自然场景文本检测方法 | |
Antonacopoulos et al. | Historical document layout analysis competition | |
dos Santos et al. | Text line segmentation based on morphology and histogram projection | |
CN103310211B (zh) | 一种基于图像处理的填注标记识别方法 | |
CN110619642B (zh) | 一种票据图像中印章与背景文字分离方法 | |
US20190019055A1 (en) | Word segmentation system, method and device | |
US20030198386A1 (en) | System and method for identifying and extracting character strings from captured image data | |
CN105654072A (zh) | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 | |
CN104361336A (zh) | 一种水下视频图像的文字识别方法 | |
CN101599125A (zh) | 复杂背景下图像处理的二值化方法 | |
CN112183038A (zh) | 一种表格识别套打方法、计算机设备及计算机可读存储介质 | |
CN102081731A (zh) | 一种从图像中提取文本的方法和装置 | |
CN103034848A (zh) | 一种表单类型的识别方法 | |
CN106980857B (zh) | 一种基于碑帖的毛笔字分割识别方法 | |
CN105719243A (zh) | 图像处理装置和方法 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN110135407B (zh) | 样本标注方法及计算机存储介质 | |
CN111241897B (zh) | 通过推断视觉关系的工业检验单数字化的系统和实现方法 | |
CN107609482B (zh) | 一种基于汉字笔画特征的中文文本图像倒置判别方法 | |
CN113569677A (zh) | 一种基于扫描件的纸质试验报告生成方法 | |
US20120250985A1 (en) | Context Constraints for Correcting Mis-Detection of Text Contents in Scanned Images | |
CN103617423B (zh) | 基于色彩参数的图像拆分识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |