CN112800824B - 扫描文件的处理方法、装置、设备及存储介质 - Google Patents
扫描文件的处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112800824B CN112800824B CN202011425385.8A CN202011425385A CN112800824B CN 112800824 B CN112800824 B CN 112800824B CN 202011425385 A CN202011425385 A CN 202011425385A CN 112800824 B CN112800824 B CN 112800824B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- file
- extracting
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 45
- 238000005260 corrosion Methods 0.000 claims abstract description 26
- 230000007797 corrosion Effects 0.000 claims abstract description 26
- 238000012163 sequencing technique Methods 0.000 claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 38
- 238000012015 optical character recognition Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 22
- 238000001228 spectrum Methods 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 16
- 238000003780 insertion Methods 0.000 claims description 15
- 230000037431 insertion Effects 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000011065 in-situ storage Methods 0.000 claims description 10
- 230000002401 inhibitory effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 21
- 201000006352 oculocerebrorenal syndrome Diseases 0.000 description 21
- 230000000694 effects Effects 0.000 description 10
- 238000012937 correction Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 8
- 240000005926 Hamelia patens Species 0.000 description 7
- 238000003672 processing method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 230000003628 erosive effect Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005587 bubbling Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
Abstract
本申请提供一种扫描文件的处理方法、装置、设备及存储介质,在该方法中,通过对待处理的扫描文件中的图像页面中的倾斜偏差进行矫正处理,得到矫正后的扫描文件。之后根据非对称腐蚀膨胀方式以及预设的表格判断条件,从矫正后的扫描文件中提取出表格轮廓,并根据表格轮廓,对表格的单元格进行提取,得到单元格的坐标信息。最后采用OCR引擎提取方法提取矫正后的扫描文件中的浮动文本和表格文本,并对浮动文本和表格文本进行排序。相较于现有技术,本方法能够正确识别扫描文件中的表格,对非理想因素有很好的抑制作用,降低了识别难度,提高了识别的精确度。
Description
技术领域
本申请涉及图像识别技术领域,尤其涉及一种扫描文件的处理方法、装置、设备及存储介质。
背景技术
表格由一行或多行单元格组成,用于显示数字和其他项以便快速引用和分析,在文件编辑过程中被广泛应用,是一种组织整理数据的手段。在各种书籍和技术文章当中,表格通常放在带有编号和标题的浮动区域内,以此区别于文章的正文部分。
现有技术中,对于一些文件,由于无法获得可编辑的原文件,当需要对文件中的表格进行编辑时,通过扫描图片形式对文件中的文字信息进行处理,提取文件中的文字和表格。
然而,在扫描文件过程中会出现歪斜、纸张扭曲、表格边缘二值化后锯齿现象等一系列非理想因素,增加了扫描表格定位和识别难度。而现有技术难以系统地对上述非理想因素进行处理,且针对如公文红头为代表的粗大文字等干扰项没有涉及,因此识别含有非理想因素扫描表格的准确度较低。
发明内容
本申请提供一种扫描文件的处理方法、装置、设备及存储介质,以解决现有技术难以系统地对非理想因素进行处理,且针对如公文红头为代表的粗大文字等干扰项没有涉及,识别含有非理想因素扫描表格的准确度较低的问题。
第一方面,本申请实施例提供一种扫描文件的处理方法,包括:
对待处理的扫描文件中的图像页面中的倾斜偏差进行矫正处理,得到矫正后的扫描文件;
根据非对称腐蚀膨胀方式以及预设的表格判断条件,从所述矫正后的扫描文件中提取出表格轮廓;
根据所述表格轮廓,对表格的单元格进行提取,得到单元格的坐标信息;
采用OCR引擎提取方法提取所述矫正后的扫描文件中的浮动文本和表格文本,并对所述浮动文本和表格文本进行排序。
在第一方面的一种可能设计中,所述对待处理的扫描文件中的图像页面中的倾斜偏差进行矫正处理,得到矫正后的扫描文件,包括:
将所述待处理的扫描文件中的图像页面进行预处理,得到预处理后的图像页面,其中,所述预处理包括:图像灰度化,等比例重置图像长宽,轮廓检测以及图像膨胀操作;
对所述预处理后的图像页面进行二维快速傅里叶变换,得到幅值谱图像;
对所述幅值谱图像进行高阈值二值化,得到高阈值黑白图像;
根据所述高阈值黑白图像,获取所述待处理的扫描文件中的图像页面的旋转角度;
根据所述旋转角度,采用原位旋转图片算法对所述待处理的扫描文件中的图像页面进行矫正处理,得到所述矫正后的扫描文件。
可选的,所述根据所述高阈值黑白图像,获取所述待处理的扫描文件中的图像页面的旋转角度,包括:
对所述高阈值黑白图像从顶端和底端分别进行向内扫描,当两端分别扫描到首个白色点时停止扫描,确定出两个端点P1和P2;
根据公式:计算获取所述待处理的扫描文件中的图像页面的旋转角度,其中,P1x和P1y为其中一个端点的横坐标和纵坐标,P2x和P2y为另一个端点的横坐标和纵坐标,k为斜率,H为所述图像页面的高度,L为所述图像页面的宽度。
在第一方面的另一种可能设计中,所述根据非对称腐蚀膨胀方式以及预设的表格判断条件,从所述矫正后的扫描文件中提取出表格轮廓,包括:
对所述矫正后的扫描文件进行非对称腐蚀膨胀操作,提取出潜在表格线;
采用角点检测法对所述潜在表格线进行表格轮廓检测,得到潜在表格轮廓;
从所述潜在表格轮廓中确定出满足预设的所述表格判断条件Y=(A+ABC)D的表格轮廓;其中,A表示长直线判断条件,B表示表格框内背景色填充条件,C表示表格框长宽的判断条件,D表示表格长宽范围判断条件。
可选的,所述方法还包括:
获取识别出的表格轮廓中的所有识别框按照面积从大到小的顺序进行排序;
若存在相邻两个识别框的面积倍数差大于预设值,则将面积较小的识别框剔除。
可选的,所述根据所述表格轮廓,对表格的单元格进行提取,得到单元格的坐标信息,包括:
采用轮廓矩形提取算法对所述表格轮廓中的单元格进行提取,得到每个单元格的坐标信息;
对得到的多个单元格的坐标信息进行容错排序处理,得到所述单元格的坐标信息。
可选的,所述采用OCR引擎提取方法所述矫正后的扫描文件中的浮动文本和表格文本,并对所述浮动文本和表格文本进行排序,包括:
根据所述单元格的坐标信息,采用OCR引擎提取方法从每个单元格中进行文本提取,得到所述表格文本;
将所述矫正后的扫描文件中的表格部分进行抹除,并从剩余部分采用OCR引擎提取方法进行文本提取,得到浮动文本;
根据队列迭代插入排序算法对所述表格文本和所述浮动文本进行排序。
第二方面,本申请实施例提供一种扫描文件的处理装置,包括:处理模块和提取模块;
所述处理模块,用于对待处理的扫描文件中的图像页面中的倾斜偏差进行矫正处理,得到矫正后的扫描文件;
所述提取模块,用于根据非对称腐蚀膨胀方式以及预设的表格判断条件,从所述矫正后的扫描文件中提取出表格轮廓;
所述提取模块,还用于根据所述表格轮廓,对表格的单元格进行提取,得到单元格的坐标信息;
所述处理模块,还用于采用OCR引擎提取方法提取所述矫正后的扫描文件中的浮动文本和表格文本,并对所述浮动文本和表格文本进行排序。
在第二方面的一种可能设计中,所述处理模块,具体用于:
将所述待处理的扫描文件中的图像页面进行预处理,得到预处理后的图像页面,其中,所述预处理包括:图像灰度化,等比例重置图像长宽,轮廓检测以及图像膨胀操作;
对所述预处理后的图像页面进行二维快速傅里叶变换,得到幅值谱图像;
对所述幅值谱图像进行高阈值二值化,得到高阈值黑白图像;
根据所述高阈值黑白图像,获取所述待处理的扫描文件中的图像页面的旋转角度;
根据所述旋转角度,采用原位旋转图片算法对所述待处理的扫描文件中的图像页面进行矫正处理,得到所述矫正后的扫描文件。
可选的,所述处理模块,具体用于:
对所述高阈值黑白图像从顶端和底端分别进行向内扫描,当两端分别扫描到首个白色点时停止扫描,确定出两个端点P1和P2;
根据公式:计算获取所述待处理的扫描文件中的图像页面的旋转角度,其中,P1x和P1y为其中一个端点的横坐标和纵坐标,P2x和P2y为另一个端点的横坐标和纵坐标,k为斜率,H为所述图像页面的高度,L为所述图像页面的宽度。
在第二方面的另一种可能设计中,所述提取模块,具体用于对所述矫正后的扫描文件进行非对称腐蚀膨胀操作,提取出潜在表格线;
采用角点检测法对所述潜在表格线进行表格轮廓检测,得到潜在表格轮廓;
从所述潜在表格轮廓中确定出满足预设的所述表格判断条件的表格轮廓;其中,A表示长直线判断条件,B表示表格框内背景色填充条件,C表示表格框长宽的判断条件,D表示表格长宽范围判断条件。
可选的,所述处理模块,还用于:
获取识别出的表格轮廓中的所有识别框按照面积从大到小的顺序进行排序;
若存在相邻两个识别框的面积倍数差大于预设值,则将面积较小的识别框剔除。
可选的,所述提取模块,具体用于:
采用轮廓矩形提取算法对所述表格轮廓中的单元格进行提取,得到每个单元格的坐标信息;
对得到的多个单元格的坐标信息进行容错排序处理,得到所述单元格的坐标信息。
可选的,所述处理模块,具体用于:
根据所述单元格的坐标信息,采用OCR引擎提取方法从每个单元格中进行文本提取,得到所述表格文本;
将所述矫正后的扫描文件中的表格部分进行抹除,并从剩余部分采用OCR引擎提取方法进行文本提取,得到浮动文本;
根据队列迭代插入排序算法对所述表格文本和所述浮动文本进行排序。
第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序指令,所述处理器执行所述计算机程序指令时实现第一方面以及各可能设计提供的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被处理器执行时用于实现第一方面以及各可能设计提供的方法。
本申请实施例提供的扫描文件的处理方法、装置、设备及存储介质,在该方法中,通过对待处理的扫描文件中的图像页面中的倾斜偏差进行矫正处理,得到矫正后的扫描文件。之后根据非对称腐蚀膨胀方式以及预设的表格判断条件,从矫正后的扫描文件中提取出表格轮廓,并根据表格轮廓,对表格的单元格进行提取,得到单元格的坐标信息。最后采用OCR引擎提取方法提取矫正后的扫描文件中的浮动文本和表格文本,并对浮动文本和表格文本进行排序。本方案中,对待处理的扫描文件中的图像页面进行矫正处理,并采用OCR引擎提取方法提取矫正后的扫描文件的浮动文本和表格文本,相较于现有技术,降低了识别难度,能够正确识别扫描文件中的表格,对非理想因素有很好的抑制作用,增强了算法的鲁棒性,从而提高了识别的精确度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本申请实施例提供的扫描文件的处理方法实施例一的流程示意图;
图2为本申请实施例提供的待判断的潜在表格长宽环状的范围示意图;
图3为本申请实施例提供的表格轮廓判断和提取的效果示意图;
图4为本申请实施例提供的排除红头等粗大文字误识别的效果示意图;
图5为本申请实施例提供的队列迭代插入排序算法的流程示意图;
图6为本申请实施例提供的扫描文件的处理方法的又一实施例的流程示意图;
图7为本申请实施例提供的扫描文件的处理方法实施例二的流程示意图;
图8为本申请实施例提供的图像页面与高阈值黑白图像实施例一的对比示意图;
图9为本申请实施例提供的图像页面与高阈值黑白图像实施例二的对比示意图;
图10为本申请实施例提供的图像页面与高阈值黑白图像实施例三的对比示意图;
图11为本申请实施例提供的图像页面与高阈值黑白图像实施例四的对比示意图;
图12为本申请实施例提供的扫描文件的处理方法又一实施例的流程示意图;
图13为本申请实施例提供的扫描文件的处理方法实施例三的流程示意图;
图14为本申请实施例提供的扫描文件的处理方法实施例四的流程示意图;
图15为本申请实施例提供的扫描文件的处理装置的结构示意图;
图16为本申请实施例提供的电子设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先对本申请实施例涉及的名词进行解释:
光学字符识别(Optical Character Recognition,OCR):利用相应算法将图片中中英文字符、数字,标点符号等识别成相应字符的过程。即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
在介绍本申请的实施例之前,首先对本申请的背景进行解释如下:
随着OCR技术的发展,从图片中提取文字信息进行后续处理的应用场合越来越多,例如智能审校,敏感词检测等。现有技术中,对于一些文件,当需要对文件中的表格进行编辑时,通过扫描图片形式对文件中的文字信息进行处理,提取文件中的文字和表格。表格由一行或多行单元格组成,用于显示数字和其他项以便快速引用和分析,在文件编辑过程中被广泛应用,是一种组织整理数据的手段。在各种书籍和技术文章当中,表格通常放在带有编号和标题的浮动区域内,以此区别于文章的正文部分。
然而,在扫描文件过程中会出现歪斜、纸张扭曲、表格边缘二值化后锯齿现象等一系列非理想因素,增加了扫描表格定位和识别难度。另外,对于公文文件中的红头等粗大文字。由于该字体较大,线条较粗,很容易将其误提取为表格,现有技术很难去处理上述情况,造成对表格信息输出时产生误差,导致识别准确度较低。
针对上述问题,本申请的发明构思如下:在对扫描文件进行扫描时,在目前的方案中,由于扫描文件存在歪斜以及纸张扭曲等问题导致扫描过程中较难对表格进行定位和识别。基于此,发明人发现,如果对扫描文件中歪斜的页面进行矫正,就可以解决现有技术在扫描过程中较难对表格进行定位和识别的问题,达到正确识别文件中的表格的目的,从而提高识别的精确度。
具体的,电子设备可以通过运行软件程序向用户提供扫描处理文件界面,便于用户通过操作扫描处理文件界面与电子设备进行交互。电子设备通过响应用户对扫描处理文件界面的操作,对扫描文件进行扫描操作。
综上所述,作为本申请提供的技术方案的执行主体的电子设备可以是手机、平板电脑、电脑,其他智能终端等等任一具备图像处理以及人机交互功能的设备,也可以是云端,或者服务器等具有处理功能实体,本申请对此不做过多限制。
下面,通过具体实施例对本申请的技术方案进行详细说明。
需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图1为本申请实施例提供的扫描文件的处理方法实施例一的流程示意图。如图1所示,该扫描文件的处理方法可以包括如下步骤:
S101:对待处理的扫描文件中的图像页面中的倾斜偏差进行矫正处理,得到矫正后的扫描文件。
在本步骤中,由于对待处理的扫描文件进行扫描过程中图像页面容易出现倾斜等情况影响表格的识别,因此需要对待处理的扫描文件进行矫正。
示例性的,电子设备可以接收用户通过扫描文件界面导入的待处理的扫描文件,提取其中的图像页面对其进行矫正处理,电子设备也可以利用图像扫描功能扫描获取待处理的扫描文件中的图像页面,并对其进行矫正处理。
其中,倾斜偏差指的是待处理的扫描文件中的图像页面由于位置倾斜而产生的偏差。
S102:根据非对称腐蚀膨胀方式以及预设的表格判断条件,从矫正后的扫描文件中提取出表格轮廓。
具体的,膨胀和腐蚀是两种基本的形态学运算,主要用来寻找矫正后的扫描文件中的图像页面中的极大区域和极小区域。膨胀是将该图像页面的高亮区域或白色部分进行扩张,其运行结果图比原图的高亮区域更大;腐蚀是将该图像页面中的高亮区域或白色部分进行缩减细化,其运行结果图比原图的高亮区域更小。将该图像页面先腐蚀后膨胀,能够有效消除细小物体,并且能够在纤细处分离物体,还能够使较大的物体边界变平滑。
在本步骤中,对矫正后的扫描文件进行非对称腐蚀膨胀操作,提取出潜在表格线。其中,非对称腐蚀膨胀指的是腐蚀矩形大小为(a1,1),膨胀矩形大小为(a2,1),且满足a1<a2。而对于对称腐蚀膨胀指的是腐蚀矩形大小与膨胀矩形大小相同,均为(a3,1)。图2为本申请实施例提供的对称腐蚀膨胀操作的效果示意图,图3为本申请实施例提供的非对称腐蚀膨胀操作的效果示意图。由图2、图3对比可知,经过非对称腐蚀操作提取出的表格线更清晰、更连续,方便后续对表格判断,能够有效减少对浮动文本识别造成干扰。
进一步的,电子设备提取潜在表格线后,采用角点检测对潜在表格线进行表格轮廓检测,并生成轮廓矩形组,然后对该轮廓矩形组进行x,y坐标排序。在排序过程中若轮廓矩形之间有交集,则对该交集部分的轮廓进行合并。合并操作具体为将包含两个轮廓矩形的最小外接矩形插入到队列中,并将原先两个轮廓矩形进行移除。最终所得到的轮廓矩形相互独立,轮廓矩形之间没有重合部分,则将轮廓矩形组作为潜在表格轮廓。
进一步的,电子设备从获取的潜在表格轮廓中确定出满足预设的表格判断条件公式(1):的表格轮廓。
其中,A表示长直线判断条件,即待判断的潜在表格轮廓框的宽和高的大小比值大于第一预设值,待判断的潜在表格轮廓框的长边与对应的矫正后的扫描文件中的图像页面的宽或高之比大于第二预设值。具体的,第一预设值为一个小于10的固定数值,第二预设值为一个大于等于0.3小于1的固定数值,可以根据实际情况进行设定,本申请实施例对此不进行具体限定。表示A的否定条件,即不满足长直线判断条件的所有情况。
B表示表格框内背景色填充条件,背景色填充为该待判断的潜在表格轮廓框内,原幅值谱图像高阈值二值化后,其白色或其背景色所占面积与待判断的潜在表格轮廓框面积的比值。预先设定一个预设表格框内背景色填充,使得满足表格框内背景色填充小于预设表格框内背景色填充。
C表示表格框长宽的判断条件,即待判断的潜在表格框长、宽均大于一个预先设定的长宽预设值,示例性的,如1cm,2cm等,本方案对此不进行具体限制。
D表示表格长宽范围判断条件。待判断的潜在表格长宽环状范围内,存在环绕黑边。图2为本申请实施例提供的待判断的潜在表格长宽环状的范围示意图。如图2所示,图中虚线框代表待判断的潜在表格框,实线框代表实际扫描得到的表格轮廓框,存在表格轮廓线扭曲以及不闭合等问题。其中待判断的潜在表格框的长和宽分别为w和h,而环状范围的长和宽分别为c×h和c×w。
具体的,可以根据公式(2):计算环形黑边在潜在表格线映射上的覆盖率来进行表格判断。
其中,d代表潜在表格线映射上的覆盖率,lblackline_mapping代表真实表格线,即所述环绕黑边映射到相应宽高后所得到的总映射长度,lc代表该待判断的潜在表格框的周长,0<c≤0.8。
预先设置一个覆盖率预设值,覆盖率预设值为20%到100%的固定数值,根据具体需求进行设置,本方案对此不进行限制。当d大于等于覆盖率预设值时,该表格轮廓框识别为表格;当d小于覆盖率预设值时,则判定该表格轮库框不为表格。
图3为本申请实施例提供的表格轮廓判断和提取的效果示意图。由图3可以看出,通过非对称腐蚀膨胀方式以及预设的表格判断条件,能够很好的判断矫正后的扫描文件中的表格信息。
进一步的,电子设备获取识别出的表格轮廓,将该表格轮廓中的所有识别框按照面积从大到小的顺序进行排序。若存在相邻两个识别框的面积倍数差大于预设值,则将面积较小的识别框剔除。其中,预设值为10到1000的固定数值,可以根据需求进行选取,本申请实施例对此不进行具体限制。
图4为本申请实施例提供的排除红头等粗大文字误识别的效果示意图。如图4所示,通过将面积较小的识别框剔除,能够很好的完成对表格轮廓的识别,同时对于红头等粗大文字不会产生误识别情况。
S103:根据表格轮廓,对表格的单元格进行提取,得到单元格的坐标信息。
在本步骤中,电子设备根据获取的表格轮廓,采用轮廓矩形提取算法对表格轮廓中的单元格进行提取,得到每个单元格的坐标信息。但由于提取出来的每个单元格的坐标信息是无序的,因此需要对单元格的坐标信息进行排序处理。
具体的,在处理矫正后的扫描文件中的图像页面时,由于存在扭曲和拉伸的情况,同一行或同一列的单元格的坐标y值或x值是不一致的,存在随机扰动,因此如果按照常规x,y坐标排序后,并不能得到单元格有序排列结果。因此,通过对得到的多个单元格的坐标信息进行容错排序处理,能够更准确的得到单元格的坐标信息。
其中,容错排序方法包括插入,冒泡,选择,堆排序等,也包括其他操作,本申请实施例对此不进行具体限制。
在对单元格x,y坐标进行二维排序时,根据公式(3):Swap@(Δx>0)Swap@(Δy>0),先对x进行排序再对y进行排序变化成公式(4):Swap@(Δy>0)Swap@(Δx>0&&Δy<M),先对y进行完美排序,再对x进行容错排序,获取进行容错排序处理后的单元格的坐标信息。其中,M代表预设容错值,可以根据需求将进行具体设置,本方案对此不进行限制。容错是指当需要判断的两个单元格同时满足x交换条件和y的容错条件(即需要判断的两个单元格y坐标差值必须小于M)时,才进行单元格交换,缺一不可。对多个单元格的坐标信息进行容错排序处理能够有效克服在处理扫描文件中的图像页面时,随机因素对单元格坐标排序效果的影响。电子设备在完成对多个单元格的坐标信息进行容错排序处理后,获取单元格的坐标信息。
S104:采用OCR引擎提取方法提取矫正后的扫描文件中的浮动文本和表格文本,并对浮动文本和表格文本进行排序。
在本步骤中,根据单元格的坐标信息,采用OCR引擎提取方法从每个单元格中进行文本提取,得到表格文本。具体的,根据单元格的坐标信息,采用OCR引擎提取方法对每个单元格中的文本进行依次提取,将提取出来的文本进行处理,从中获取表格文本。
进一步的,将矫正后的扫描文件中的表格部分进行抹除,并从剩余部分采用OCR引擎提取方法进行文本提取,得到浮动文本。其中,OCR引擎包括卷积递归神经网络(Convolutional Recurrent Neural Network,CRNN)以及Tesseract引擎,还可以包括其他引擎,本申请实施例对此不进行具体限制。
根据队列迭代插入排序算法对表格文本和浮动文本进行排序。具体的,由于表格出现的位置是不确定的,因此表格文本和浮动文本在坐标上并不是严格按照先后顺序出现,在进行跨页处理时容易出现错误。因此可以根据队列迭代插入排序算法对表格文本和浮动文本进行排序,来解决跨页处理时容易出现错误的问题。
图5为本申请实施例提供的队列迭代插入排序算法的流程示意图。如图5所示,该队列迭代插入排序算法可以包括如下步骤:
第1步,根据文件的首字符坐标,判断该文本为表格文本还是浮动文本,如果该文本为表格文本,则进入第2步,读入表格文本中的数据。之后进入第3步,对表格文本首字符纵坐标yt(1)和浮动文本首字符纵坐标yf(1)进行比较,并判断表格文本是否完成。若yt(1)<yf(1)且表格文本未完成,则进入第4步,将表格文本首字符插入队列中;若yt(1)>yf(1)且表格文本已完成,则进入第5步,将浮动文本首字符插入队列中。
之后进入第6步进行对表格文本完成情况进行判断,若表格文本未完成则进入第2步,重新读入表格文本中的数据;若表格文本已完成则进入第7步,判断浮动文本完成情况。若yt(1)>yf(1)说明浮动文本没有完成,则进入第8步插入第二个浮动文本,之后进入第2步,重新读入表格文本中的数据;若yt(1)<yf(1),说明浮动文本已经完成,则进入第9步,结束此次队列迭代插入排序算法。
同样,若第1步判断该文件为浮动文本,则进入第10步,读入表格文本中的数据。之后进入第11步,对表格文本首字符纵坐标yt(1)和浮动文本首字符纵坐标yf(1)进行比较,并判断浮动文本是否完成。若yf(1)<yt(1)且浮动文本未完成,则进入第12步,将浮动文本首字符插入队列中;若yf(1)>yt(1)且浮动文本已完成,则进入第13步,将表格文本首字符插入队列中。
之后进入第14步进行对浮动文本完成情况进行判断,若浮动文本未完成则进入第10步,重新读入表格文本中的数据;若浮动文本已完成则进入第15步,判断表格文本完成情况。若yf(1)>yt(1)说明表格文本没有完成,则进入第16步插入第二个表格文本,之后进入第10步,重新读入浮动文本中的数据;若yf(1)<yt(1),说明表格文本已经完成,则进入第9步,结束此次队列迭代插入排序算法。
该队列迭代插入排序算法的核心是将表格文本和浮动文本以页面中所有表格轮廓为基准分割成若干块,然后按照块出现的先后顺序进行插入排序。该算法不需要预先知道页面中所有表格外轮廓坐标便可以对表格文本块和浮动文本块进行块有序的排列,因此该算法能够应用于更多的场合。
图6为本申请实施例提供的扫描文件的处理方法的又一实施例的流程示意图。如图6所示,该扫描文件的处理方法可以包括如下步骤:
第1步,对待处理的扫描文件中的图像页面中的倾斜偏差进行矫正处理。
第2步,对矫正后的扫描文件进行处理,识别该扫描文件中的表格。
第3步,将表格的单元格中的内容按照一定顺序进行提取。
第4步,提取矫正后的扫描文件中的浮动文本。
第5步,将表格文本和浮动文本按照顺序进行排序。
本申请实施例提供的扫描文件的处理方法,通过对待处理的扫描文件中的图像页面中的倾斜偏差进行矫正处理,得到矫正后的扫描文件。之后根据非对称腐蚀膨胀方式以及预设的表格判断条件,从矫正后的扫描文件中提取出表格轮廓,并根据表格轮廓,对表格的单元格进行提取,得到单元格的坐标信息。最后采用OCR引擎提取方法提取矫正后的扫描文件中的浮动文本和表格文本,并对浮动文本和表格文本进行排序。通过对待处理的扫描文件中的图像页面进行矫正处理,并采用OCR引擎提取正后的扫描文件的浮动文本和表格文本,相较于现有技术,降低了识别难度,能够正确识别文件中的表格,对非理想因素有很好的抑制作用。同时,有效的解决了识别过程中对于公文中粗大文字误识别的问题,对于跨页表格内容实现连续性识别,增强了算法的鲁棒性,从而提高了识别的精确度。
示例性的,在上述实施例选取的基础上,图7为本申请实施例提供的扫描文件的处理方法实施例二的流程示意图。如图7所示,上述S101可以通过如下步骤实现:
S201:将待处理的扫描文件中的图像页面进行预处理,得到预处理后的图像页面。
在本步骤中,电子设备获取到待处理的扫描文件中的图像页面后对其进行预处理,使图像页面含有的矫正信息特征更加明显,有效提高识别的准确度。之后获取处理后的图像页面,处理后的图像页面近似为一个黑块,具有一定角度。
示例性的,矫正信息包括文本行以及分割线,也可以包括表征图像页面的其他矫正信息,本申请实施例对此不进行具体限制。
其中,预处理包括:图像灰度化,等比例重置图像长宽,轮廓检测以及图像膨胀操作。预处理还可以包括直线检测、高斯模糊、边缘锐化等其他处理,本申请实施例对此不进行具体限制。
S202:对预处理后的图像页面进行二维快速傅里叶变换,得到幅值谱图像。
在本步骤中,电子对预处理后的图像页面进行二维快速傅里叶变换,得到幅值谱信息。将获取到的幅值谱信息进行处理,组成幅值谱图像。
其中,幅值谱信息是用来表征信号幅值随频率的分布情况的信息。
S203:对幅值谱图像进行高阈值二值化,得到高阈值黑白图像。
在本步骤中,将获取到的幅值谱图像进行高阈值二值化,其中,可以设定一个预设阈值,预设阈值范围为170至220,可以根据需求进行设定,本方案对此不进行具体限定。
示例性的,利用设定的阈值将幅值谱图像进行高阈值二值化,遍历幅值谱图像中的像素值,如果像素的灰度值大于预设阈值,则将该像素设置为白点,如果像素的灰度值小于预设阈值,则将该像素设置为黑点。
图8为本申请实施例提供的图像页面与高阈值黑白图像实施例一的对比示意图。图9为本申请实施例提供的图像页面与高阈值黑白图像实施例二的对比示意图。图10为本申请实施例提供的图像页面与高阈值黑白图像实施例三的对比示意图。图11为本申请实施例提供的图像页面与高阈值黑白图像实施例四的对比示意图。结合图8、图9、图10以及图11可知,电子设备对预处理后的图像页面进行处理获取幅值谱图像,并对该图像进行高阈值二值化,得到干净的有一定角度的高阈值黑白图像。
S204:根据高阈值黑白图像,获取待处理的扫描文件中的图像页面的旋转角度。
在本步骤中,为了对图像页面进行旋转,使得图像页面得到矫正,首先需要获取图像页面的旋转角度。
具体的,根据获取的高阈值黑白图像,电子设备对高阈值黑白图像从顶端和底端分别进行向内扫描,当两端分别扫描到首个白色点时停止扫描,确定出两个端点P1和P2。也就是说,电子设备从高阈值黑白图像的顶端向底端方向扫描,同时还从高阈值黑白图像的底端向顶端方向扫描,分别扫描到第一个白色的扫描点P1和P2时,停止扫描并记录下两个扫描点P1和P2的坐标信息,并将P1和P2作为计算斜率的两个端点。
进一步的,将扫描获取的两个白色的扫描点作为两个端点,根据公式(5):计算待处理的扫描文件中的图像页面的旋转角度。
其中,P1x和P1y代表其中一个端点的横坐标和纵坐标,P2x和P2y代表另一个端点的横坐标和纵坐标,k代表斜率,H代表图像页面的高度,L代表图像页面的宽度。
示例性的,可以将高阈值黑白图像的左上角作为P1和P2所在坐标系的原点,可以将高阈值黑白图像的中心点作为P1和P2所在坐标系的原点,本申请实施例对此不进行具体限定。
S205:根据旋转角度,采用原位旋转图片算法对待处理的扫描文件中的图像页面进行矫正处理,得到矫正后的扫描文件。
在本步骤中,根据获取到的旋转角度对待处理的扫描文件中的图像页面进行旋转,通过对待处理的扫描文件中的图像页面进行矫正处理,得到矫正后的扫描文件。
具体的,可以采用原位旋转图片算法对待处理的扫描文件中的图像页面进行矫正处理,原位旋转图片算法是指以待处理的扫描文件中的图像页面的中心为旋转中心,根据旋转角度对待处理的扫描文件中的图像页面进行旋转,形成一幅新的图像的算法。
图12为本申请实施例提供的扫描文件的处理方法又一实施例的流程示意图。如图12所示,该扫描文件的处理方法可以包括如下步骤:
第1步,电子设备对扫描文件中的图像页面进行预处理。
第2步,电子设备对预处理后的图像页面进行二维快速傅里叶变换,得到幅值谱信息。电子设备将获取到的幅值谱信息进行处理,组成幅值谱图像。
第3步,电子设备将获取到的幅值谱图像进行高阈值二值化,得到高阈值黑白图像。
第4步,通过计算两个端点P1和P2的斜率,电子设备获取待处理的扫描文件中的图像页面的旋转角度。
第5步,根据获取到的旋转角度利用原位旋转图片算法将待处理的扫描文件中的图像页面进行旋转。通过对其进行矫正处理,得到矫正后的扫描文件。
本申请实施例提供的扫描文件的处理方法,通过将待处理的扫描文件中的图像页面进行预处理,得到预处理后的图像页面,之后对预处理后的图像页面进行二维快速傅里叶变换,得到幅值谱图像。然后对幅值谱图像进行高阈值二值化,得到高阈值黑白图像。最后根据高阈值黑白图像,获取待处理的扫描文件中的图像页面的旋转角度,并根据旋转角度,采用原位旋转图片算法对待处理的扫描文件中的图像页面进行矫正处理,得到矫正后的扫描文件。通过对待处理的扫描文件中的图像页面进行矫正处理,能够有效改善因为在扫描过程中存在的页面扭曲、拉伸、锯齿等非理想因素而造成表格识别困难的问题,为后续提取表格轮廓奠定了基础。同时,通过采用二维快速傅里叶变换对预处理后的图像页面进行处理,无需遍历所有像素点,简化了算法时间的复杂度,还避免了因为对斜率进行平均计算而造成的倾斜误差,保证了图像页面矫正处理的准确性。
在一种可能的实现中,图13为本申请实施例提供的扫描文件的处理方法实施例三的流程示意图。如图13所示,上述S102可以通过如下步骤实现:
第1步,电子设备对矫正后的扫描文件进行非对称腐蚀膨胀操作。
第2步,电子设备根据预设的表格判断条件,从矫正后的扫描文件中提取出表格轮廓。
第3步,电子设备对表格轮廓框进行合并。
第4步,电子设备判断识别框是否有重叠,如果没有重叠则进入第5步,结束此次提取过程;若发生重叠则进入第6步,对所有识别框按照面积从大到小的顺序进行排序。
第7步,设置一个预设值,其中,预设值为10到1000的固定数值,可以根据需求进行选取,本申请实施例对此不进行具体限制。
第8步,若存在相邻两个识别框的面积倍数差大于预设值,则将面积较小的识别框剔除。之后进入第5步,结束此次提取过程。
本申请实施例提供的扫描文件的处理方法,通过非对称腐蚀膨胀方式以及预设的表格判断条件,从矫正后的扫描文件中提取出表格轮廓,使得电子设备能够更好的判断扫描文件中的表格信息,并且能够避免对红头等粗大文字产生误识别的情况,为接下来对单元格提取奠定了基础。
示例性的,在上述实施例选取的基础上,图14为本申请实施例提供的扫描文件的处理方法实施例四的流程示意图。如图14所示,上述S201可以通过如下步骤实现:
S301:图像灰度化。
在本步骤中,将获取的待处理的扫描文件中的图像页面进行图像灰度化处理。
具体的,灰度化处理是把含有亮度和色彩的彩色图像变化成灰度图像的过程。灰度图像上每个像素的颜色值又称为灰度,指黑白图像中点的颜色深度,范围一般从0到255,白色为255,黑色为0。灰度值是指色彩的浓淡程度,灰度即为没有色彩。
S301:等比例重置图像长宽。
在本步骤中,等比例重置图像长宽指的是将图像的长和宽等比例重置为固定图像的长或者固定图像的宽,能够有效避免后续操作时参数不统一情况。
S301:轮廓检测。
在本步骤中,轮廓检测指在待处理的扫描文件中的图像页面中,忽略背景和目标内部的纹理以及噪声干扰的影响,采用一定的技术和方法来实现目标轮廓提取的过程。
具体的,可以对待处理的扫描文件中的图像页面进行Canny轮廓检测。首先应用高斯滤波来平滑图像页面,去除图像页面的噪声,然后找寻图像页面的强度梯度,应用非最大抑制技术来消除边误检。之后应用双阈值的方法来决定可能的(也就是潜在的)轮廓,最后利用滞后技术来跟踪轮廓。
S301:图像膨胀操作。
在本步骤中,图像的膨胀是基本的形态学运算,主要用来寻找图像页面中的极大区域。膨胀是将图像页面中的高亮区域或白色部分进行扩张,其运行结果图比原图的高亮区域更大,主要用于去噪。
本申请实施例提供的扫描文件的处理方法,通过对待处理的扫描文件中的图像页面进行预处理,使得图像页面的矫正信息(如文本行以及分割线等)特征更加明显,为接下来对图像页面进行进一步校正处理奠定了基础。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图15为本申请实施例提供的扫描文件的处理装置的结构示意图。如图15所示,该装置包括:处理模块151和提取模块152;
处理模块151,用于对待处理的扫描文件中的图像页面中的倾斜偏差进行矫正处理,得到矫正后的扫描文件;
提取模块152,用于根据非对称腐蚀膨胀方式以及预设的表格判断条件,从矫正后的扫描文件中提取出表格轮廓;
提取模块152,还用于根据表格轮廓,对表格的单元格进行提取,得到单元格的坐标信息;
处理模块151,还用于采用OCR引擎提取方法提取矫正后的扫描文件中的浮动文本和表格文本,并对浮动文本和表格文本进行排序。
在本申请实施例一种可能设计中,处理模块151,具体用于:
将待处理的扫描文件中的图像页面进行预处理,得到预处理后的图像页面,其中,预处理包括:图像灰度化,等比例重置图像长宽,轮廓检测以及图像膨胀操作;
对预处理后的图像页面进行二维快速傅里叶变换,得到幅值谱图像;
对幅值谱图像进行高阈值二值化,得到高阈值黑白图像;
根据高阈值黑白图像,获取待处理的扫描文件中的图像页面的旋转角度;
根据旋转角度,采用原位旋转图片算法对待处理的扫描文件中的图像页面进行矫正处理,得到矫正后的扫描文件。
可选的,处理模块151,具体用于:
对高阈值黑白图像从顶端和底端分别进行向内扫描,当两端分别扫描到首个白色点时停止扫描,确定出两个端点P1和P2;
根据公式:计算获取待处理的扫描文件中的图像页面的旋转角度,其中,P1x和P1y为其中一个端点的横坐标和纵坐标,P2x和P2y为另一个端点的横坐标和纵坐标,k为斜率,H为图像页面的高度,L为图像页面的宽度。
在本申请实施例另一种可能设计中,提取模块152,具体用于:
对矫正后的扫描文件进行非对称腐蚀膨胀操作,提取出潜在表格线;
采用角点检测法对潜在表格线进行表格轮廓检测,得到潜在表格轮廓;
从潜在表格轮廓中确定出满足预设的表格判断条件的表格轮廓;其中,A表示长直线判断条件,B表示表格框内背景色填充条件,C表示表格框长宽的判断条件,D表示表格长宽范围判断条件。
可选的,处理模块151,还用于:
获取识别出的表格轮廓中的所有识别框按照面积从大到小的顺序进行排序;
若存在相邻两个识别框的面积倍数差大于预设值,则将面积较小的识别框剔除。
可选的,提取模块152,具体用于:
采用轮廓矩形提取算法对表格轮廓中的单元格进行提取,得到每个单元格的坐标信息;
对得到的多个单元格的坐标信息进行容错排序处理,得到单元格的坐标信息。
可选的,处理模块151,具体用于:
根据单元格的坐标信息,采用OCR引擎提取方法从每个单元格中进行文本提取,得到表格文本;
将矫正后的扫描文件中的表格部分进行抹除,并从剩余部分采用OCR引擎提取方法进行文本提取,得到浮动文本;
根据队列迭代插入排序算法对表格文本和浮动文本进行排序。
本申请实施例提供的装置,可用于执行上述实施例中的扫描文件的处理方法,其实现原理和技术效果类似,在此不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,确定模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
图16为本申请实施例提供的电子设备的结构示意图。如图16所示,该电子设备可以包括:处理器161、存储器162及存储在所述存储器上并可在处理器上运行的计算机程序指令,所述处理器执行所述计算机程序指令时实现前述任一实施例提供的扫描文件的处理方法。
可选的,电子设备还可以包括与其他设备进行交互的接口。
可选的,该电子设备的上述各个器件之间可以通过系统总线连接。
存储器162可以是单独的存储单元,也可以是集成在处理器中的存储单元。处理器的数量为一个或者多个。
应理解,处理器161可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
系统总线可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。存储器可能包含随机存取存储器(randomaccess memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储器(存储介质)包括:只读存储器(英文:read-only memory,简称:ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(英文:magnetic tape)、软盘(英文:floppydisk)、光盘(英文:optical disc)及其任意组合。
本申请实施例提供的电子设备,可用于执行上述任一方法实施例提供的扫描文件的处理方法,其实现原理和技术效果类似,在此不再赘述。
本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行上述扫描文件的处理方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
可选的,将可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中,至少一个处理器可以从该计算机可读存储介质中读取该计算机程序,所述至少一个处理器执行所述计算机程序时可实现上述扫描文件的处理方法。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。
Claims (8)
1.一种扫描文件的处理方法,其特征在于,包括:
对待处理的扫描文件中的图像页面中的倾斜偏差进行矫正处理,得到矫正后的扫描文件;
根据非对称腐蚀膨胀方式以及预设的表格判断条件,从所述矫正后的扫描文件中提取出表格轮廓;
根据所述表格轮廓,对表格的单元格进行提取,得到单元格的坐标信息;
采用光学字符识别OCR引擎提取方法提取所述矫正后的扫描文件中的浮动文本和表格文本,并对所述浮动文本和表格文本进行排序;
所述对待处理的扫描文件中的图像页面中的倾斜偏差进行矫正处理,得到矫正后的扫描文件,包括:
将所述待处理的扫描文件中的图像页面进行预处理,得到预处理后的图像页面,其中,所述预处理包括:图像灰度化,等比例重置图像长宽,轮廓检测以及图像膨胀操作;
对所述预处理后的图像页面进行二维快速傅里叶变换,得到幅值谱图像;
对所述幅值谱图像进行高阈值二值化,得到高阈值黑白图像;
根据所述高阈值黑白图像,获取所述待处理的扫描文件中的图像页面的旋转角度;
根据所述旋转角度,采用原位旋转图片算法对所述待处理的扫描文件中的图像页面进行矫正处理,得到所述矫正后的扫描文件;
所述采用OCR引擎提取方法提取所述矫正后的扫描文件中的浮动文本和表格文本,并对所述浮动文本和表格文本进行排序,包括:
根据所述单元格的坐标信息,采用OCR引擎提取方法从每个单元格中进行文本提取,得到所述表格文本;
将所述矫正后的扫描文件中的表格部分进行抹除,并从剩余部分采用OCR引擎提取方法进行文本提取,得到浮动文本;
根据队列迭代插入排序算法对所述表格文本和所述浮动文本进行排序;所述队列迭代插入排序算法的核心是将表格文本和浮动文本以页面中所有表格轮廓为基准分割成若干块,按照块出现的先后顺序进行插入排序;所述队列迭代插入排序算法不需要预先知道页面中所有表格外轮廓坐标便可以对表格文本块和浮动文本块进行块有序的排列。
2.根据权利要求1所述的方法,其特征在于,所述根据所述高阈值黑白图像,获取所述待处理的扫描文件中的图像页面的旋转角度,包括:
对所述高阈值黑白图像从顶端和底端分别进行向内扫描,当两端分别扫描到首个白色点时停止扫描,确定出两个端点P1和P2;
根据公式:计算获取所述待处理的扫描文件中的图像页面的旋转角度,其中,P1x和P1y为其中一个端点的横坐标和纵坐标,P2x和P2y为另一个端点的横坐标和纵坐标,k为斜率,H为所述图像页面的高度,L为所述图像页面的宽度。
3.根据权利要求1至2任一项所述的方法,其特征在于,所述根据非对称腐蚀膨胀方式以及预设的表格判断条件,从所述矫正后的扫描文件中提取出表格轮廓,包括:
对所述矫正后的扫描文件进行非对称腐蚀膨胀操作,提取出潜在表格线;
采用角点检测法对所述潜在表格线进行表格轮廓检测,得到潜在表格轮廓;
从所述潜在表格轮廓中确定出满足预设的所述表格判断条件的表格轮廓;其中,A表示长直线判断条件,B表示表格框内背景色填充条件,C表示表格框长宽的判断条件,D表示表格长宽范围判断条件;/>表示不满足长直线判断条件的所有情况。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取识别出的表格轮廓中的所有识别框按照面积从大到小的顺序进行排序;
若存在相邻两个识别框的面积倍数差大于预设值,则将面积较小的识别框剔除。
5.根据权利要求3所述的方法,其特征在于,所述根据所述表格轮廓,对表格的单元格进行提取,得到单元格的坐标信息,包括:
采用轮廓矩形提取算法对所述表格轮廓中的单元格进行提取,得到每个单元格的坐标信息;
对得到的多个单元格的坐标信息进行容错排序处理,得到所述单元格的坐标信息。
6.一种扫描文件的处理装置,其特征在于,包括:处理模块和提取模块;
所述处理模块,用于对待处理的扫描文件中的图像页面中的倾斜偏差进行矫正处理,得到矫正后的扫描文件;
所述提取模块,用于根据非对称腐蚀膨胀方式以及预设的表格判断条件,从所述矫正后的扫描文件中提取出表格轮廓;
所述提取模块,还用于根据所述表格轮廓,对表格的单元格进行提取,得到单元格的坐标信息;
所述处理模块,还用于采用光学字符识别OCR引擎提取方法提取所述矫正后的扫描文件中的浮动文本和表格文本,并对所述浮动文本和表格文本进行排序;
所述处理模块,具体用于将所述待处理的扫描文件中的图像页面进行预处理,得到预处理后的图像页面,其中,所述预处理包括:图像灰度化,等比例重置图像长宽,轮廓检测以及图像膨胀操作;
对所述预处理后的图像页面进行二维快速傅里叶变换,得到幅值谱图像;
对所述幅值谱图像进行高阈值二值化,得到高阈值黑白图像;
根据所述高阈值黑白图像,获取所述待处理的扫描文件中的图像页面的旋转角度;
根据所述旋转角度,采用原位旋转图片算法对所述待处理的扫描文件中的图像页面进行矫正处理,得到所述矫正后的扫描文件;
所述处理模块,具体用于根据所述单元格的坐标信息,采用OCR引擎提取方法从每个单元格中进行文本提取,得到所述表格文本;
将所述矫正后的扫描文件中的表格部分进行抹除,并从剩余部分采用OCR引擎提取方法进行文本提取,得到浮动文本;
根据队列迭代插入排序算法对所述表格文本和所述浮动文本进行排序;所述队列迭代插入排序算法的核心是将表格文本和浮动文本以页面中所有表格轮廓为基准分割成若干块,按照块出现的先后顺序进行插入排序;所述队列迭代插入排序算法不需要预先知道页面中所有表格外轮廓坐标便可以对表格文本块和浮动文本块进行块有序的排列。
7.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序指令,所述处理器执行所述计算机程序指令时实现如上述权利要求1至5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011425385.8A CN112800824B (zh) | 2020-12-08 | 2020-12-08 | 扫描文件的处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011425385.8A CN112800824B (zh) | 2020-12-08 | 2020-12-08 | 扫描文件的处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800824A CN112800824A (zh) | 2021-05-14 |
CN112800824B true CN112800824B (zh) | 2024-02-02 |
Family
ID=75806543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011425385.8A Active CN112800824B (zh) | 2020-12-08 | 2020-12-08 | 扫描文件的处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800824B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569677B (zh) * | 2021-07-16 | 2024-07-16 | 国网天津市电力公司 | 一种基于扫描件的纸质试验报告生成方法 |
CN117690139B (zh) * | 2023-12-12 | 2024-06-18 | 北京蓝湾博阅科技有限公司 | 一种基于纸质图书阅览电子化后的图像前处理方法及系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5335290A (en) * | 1992-04-06 | 1994-08-02 | Ricoh Corporation | Segmentation of text, picture and lines of a document image |
CN107563380A (zh) * | 2017-09-08 | 2018-01-09 | 上海理工大学 | 一种基于mser和swt相结合的车辆车牌检测识别方法 |
US10101965B1 (en) * | 2015-10-28 | 2018-10-16 | Mbit Wireless, Inc. | Method and apparatus for high speed streaming sorter |
CN108874894A (zh) * | 2018-05-21 | 2018-11-23 | 平安科技(深圳)有限公司 | 交叉表导出方法、装置、计算机设备和存储介质 |
CN109086714A (zh) * | 2018-07-31 | 2018-12-25 | 国科赛思(北京)科技有限公司 | 表格识别方法、识别系统及计算机装置 |
CN110647795A (zh) * | 2019-07-30 | 2020-01-03 | 正和智能网络科技(广州)有限公司 | 一种表格识别方法 |
CN110717489A (zh) * | 2019-09-19 | 2020-01-21 | 平安科技(深圳)有限公司 | Osd的文字区域的识别方法、装置及存储介质 |
CN111126266A (zh) * | 2019-12-24 | 2020-05-08 | 上海智臻智能网络科技股份有限公司 | 文本处理方法、文本处理系统、设备及介质 |
CN111667556A (zh) * | 2020-06-22 | 2020-09-15 | 深圳壹账通智能科技有限公司 | 表格矫正方法及装置 |
CN111813517A (zh) * | 2020-06-29 | 2020-10-23 | 中国平安人寿保险股份有限公司 | 任务队列的分配方法、装置、计算机设备及介质 |
CN111814598A (zh) * | 2020-06-22 | 2020-10-23 | 吉林省通联信用服务有限公司 | 一种基于深度学习框架的财务报表自动识别方法 |
CN111814722A (zh) * | 2020-07-20 | 2020-10-23 | 电子科技大学 | 一种图像中的表格识别方法、装置、电子设备及存储介质 |
CN111860502A (zh) * | 2020-07-15 | 2020-10-30 | 北京思图场景数据科技服务有限公司 | 图片表格的识别方法、装置、电子设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9053364B2 (en) * | 2012-10-30 | 2015-06-09 | Authentiform, LLC | Product, image, or document authentication, verification, and item identification |
US10334011B2 (en) * | 2016-06-13 | 2019-06-25 | Microsoft Technology Licensing, Llc | Efficient sorting for a stream processing engine |
-
2020
- 2020-12-08 CN CN202011425385.8A patent/CN112800824B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5335290A (en) * | 1992-04-06 | 1994-08-02 | Ricoh Corporation | Segmentation of text, picture and lines of a document image |
US10101965B1 (en) * | 2015-10-28 | 2018-10-16 | Mbit Wireless, Inc. | Method and apparatus for high speed streaming sorter |
CN107563380A (zh) * | 2017-09-08 | 2018-01-09 | 上海理工大学 | 一种基于mser和swt相结合的车辆车牌检测识别方法 |
CN108874894A (zh) * | 2018-05-21 | 2018-11-23 | 平安科技(深圳)有限公司 | 交叉表导出方法、装置、计算机设备和存储介质 |
CN109086714A (zh) * | 2018-07-31 | 2018-12-25 | 国科赛思(北京)科技有限公司 | 表格识别方法、识别系统及计算机装置 |
CN110647795A (zh) * | 2019-07-30 | 2020-01-03 | 正和智能网络科技(广州)有限公司 | 一种表格识别方法 |
CN110717489A (zh) * | 2019-09-19 | 2020-01-21 | 平安科技(深圳)有限公司 | Osd的文字区域的识别方法、装置及存储介质 |
CN111126266A (zh) * | 2019-12-24 | 2020-05-08 | 上海智臻智能网络科技股份有限公司 | 文本处理方法、文本处理系统、设备及介质 |
CN111667556A (zh) * | 2020-06-22 | 2020-09-15 | 深圳壹账通智能科技有限公司 | 表格矫正方法及装置 |
CN111814598A (zh) * | 2020-06-22 | 2020-10-23 | 吉林省通联信用服务有限公司 | 一种基于深度学习框架的财务报表自动识别方法 |
CN111813517A (zh) * | 2020-06-29 | 2020-10-23 | 中国平安人寿保险股份有限公司 | 任务队列的分配方法、装置、计算机设备及介质 |
CN111860502A (zh) * | 2020-07-15 | 2020-10-30 | 北京思图场景数据科技服务有限公司 | 图片表格的识别方法、装置、电子设备及存储介质 |
CN111814722A (zh) * | 2020-07-20 | 2020-10-23 | 电子科技大学 | 一种图像中的表格识别方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于FPGA快速中值滤波算法的硬件实现;赵亮;刘鹏;王晓曼;刘美;;长春理工大学学报(自然科学版)(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112800824A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814722B (zh) | 一种图像中的表格识别方法、装置、电子设备及存储介质 | |
US5410611A (en) | Method for identifying word bounding boxes in text | |
CN111860502B (zh) | 图片表格的识别方法、装置、电子设备及存储介质 | |
US5539841A (en) | Method for comparing image sections to determine similarity therebetween | |
CN112183038A (zh) | 一种表格识别套打方法、计算机设备及计算机可读存储介质 | |
CN114529459B (zh) | 一种对图像边缘进行增强处理的方法和系统及介质 | |
JPH11219407A (ja) | 文書画像認識装置および文書画像認識プログラムの記憶媒体 | |
US9959475B2 (en) | Table data recovering in case of image distortion | |
CN110647882A (zh) | 图像校正方法、装置、设备及存储介质 | |
US20170309001A1 (en) | Correcting perspective distortion in double-page spread images | |
JPH0652354A (ja) | スキュー補正方法並びにスキュー角検出方法並びにドキュメントセグメンテーションシステムおよびスキュー角検出装置 | |
CN112800824B (zh) | 扫描文件的处理方法、装置、设备及存储介质 | |
CN108334879B (zh) | 一种区域提取方法、系统及终端设备 | |
CN109948521B (zh) | 图像纠偏方法和装置、设备及存储介质 | |
CN110738030A (zh) | 表格重建方法、装置、电子设备及存储介质 | |
CN115984859B (zh) | 一种图像文字识别的方法、装置及存储介质 | |
US6771842B1 (en) | Document image skew detection method | |
CN111814673A (zh) | 一种修正文本检测边界框的方法、装置、设备及存储介质 | |
CN112926421A (zh) | 图像处理方法和装置、电子设备和存储介质 | |
CN113723399A (zh) | 一种车牌图像矫正方法、车牌图像矫正装置和存储介质 | |
CN114121179B (zh) | 化学结构式的提取方法及提取装置 | |
CN110110697B (zh) | 基于方向矫正的多指纹分割提取方法、系统、设备及介质 | |
CN112733855B (zh) | 表格结构化方法、表格恢复设备及具有存储功能的装置 | |
Epshtein | Determining document skew using inter-line spaces | |
CN112507938A (zh) | 一种文本图元的几何特征计算方法及识别方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |