CN116740742A - 非完整框线表格的提取方法、装置、设备及存储介质 - Google Patents

非完整框线表格的提取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116740742A
CN116740742A CN202310612931.6A CN202310612931A CN116740742A CN 116740742 A CN116740742 A CN 116740742A CN 202310612931 A CN202310612931 A CN 202310612931A CN 116740742 A CN116740742 A CN 116740742A
Authority
CN
China
Prior art keywords
line
determining
row
lines
column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310612931.6A
Other languages
English (en)
Inventor
孙刈凡
杨青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Du Xiaoman Technology Beijing Co Ltd
Original Assignee
Du Xiaoman Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Du Xiaoman Technology Beijing Co Ltd filed Critical Du Xiaoman Technology Beijing Co Ltd
Priority to CN202310612931.6A priority Critical patent/CN116740742A/zh
Publication of CN116740742A publication Critical patent/CN116740742A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种非完整框线表格的提取方法、装置、设备及存储介质,该方法包括:基于PDF文件中表格区域的可见行列线数量确定各个表格的表格类型;将非完整框线表格栅格化获得栅格单元,并对栅格单元进行击中测试,基于击中测试结果确定栅格单元的候选行列线;基于栅格单元中文本框的对齐方式,从候选行列线中确定栅格单元的不可见行列线,以根据不可见行列线提取非完整框线表格。将非完整框线表格栅格化,对栅格化后的栅格单元进行击中测试以确定候选行列线,并结合对齐方式确定非完整框线表格的不可见行列线,如此可以提取出非完整框线表格,解决了当前非完整框线表格提取准确率不高的问题。

Description

非完整框线表格的提取方法、装置、设备及存储介质
技术领域
本发明涉及文档识别技术领域,尤其涉及一种非完整框线表格的提取方法、装置、设备及存储介质。
背景技术
PDF(便携式文件格式,Portable Document Format)是最广泛应用的文档格式之一,其核心优势在于跨平台性,能保留文件原有格式。随着文档识别技术的发展,几乎能从PDF文件中提取所有的文字、图像、公式、表格等信息。
当前PDF中的表格一般是指线条与文字、数字的结合,结构更加复杂。PDF文档中包含的表格一般可以分为两类:完整框线表格与非完整框线表格。其中,完整框线表格的识别较为简单,可以达到较高的准确率。对于非完整框线表格,由于没有框线约束,虽然肉眼可见表格的行列情况,但是机器自动识别还存在着准确率低的问题。
发明内容
本发明提供一种非完整框线表格的提取方法、装置、设备及存储介质,旨在解决PDF文件中非完整框线表格提取准确率低的问题。
为实现上述目的,本发明提供一种非完整框线表格的提取方法,所述方法应用于非完整框线表格的提取设备,所述方法包括:
基于PDF文件中表格区域的可见行列线数量确定各个表格的表格类型,其中所述表格类型包括完整框线表格、非完整框线表格;
将所述非完整框线表格栅格化获得栅格单元,并对所述栅格单元进行击中测试,基于击中测试结果确定所述栅格单元的候选行列线;
基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线,以根据所述不可见行列线提取所述非完整框线表格。
可选地,所述对所述栅格单元进行击中测试,基于击中测试结果确定所述栅格单元的候选行列线,包括:
识别所述栅格单元中的文本框,根据所述文本框确定待提取的行列,并确定初始行列线;
对所述初始行列线进行击中测试,获得测试通过的合格行列线;
将当前行列基本位置与前一行列基本位置之间的合格行列线确定为候选行列线。
可选地,所述对所述初始行列线进行击中测试,获得测试通过的合格行列线包括:
沿所述初始行列线的方向,向文本框投影,记录被击中文本框数量;
将所述被击中文本框数量小于阈值的初始行列线确定为通过测试的合格行列线。
可选地,所述不可见行列线包括不可见列线,所述基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线包括:
确定所述文本框的列对齐方式,所述对齐方式包括左对齐、居中对齐、右对齐;
确定各个候选列线与所述文本框第一左边界的第一距离,确定各个候选列线与所述文本框第一右边界的第二距离;
基于基于所述列对齐方式、所述第一距离、所述第二距离从所述候选列线中确定所述栅格单元的不可见列线。
可选地,所述不可见行列线包括不可见上行线、不可见下行线,所述基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线,包括:
确定所述文本框的行对齐方式,所述对齐方式包括靠上对齐、居中对齐;
对于靠上对齐,确定各条候选行线与上一条候选行线之间的间隔,并将各个间隔正向排序,将排序第一的间隔对应的候选行线确定为当前行线的上行线;
对于居中对齐,将上一行的下边界往下的第一条候选行线确定为当前行的上行线;
将当前行文本框下边界对应的候选行线确定为下行线。
可选地,所述基于PDF文件中表格的可见行列线数量确定表格的表格类型,包括:
确定PDF文件中表格的可见行列线;
将所述可见行列线的数量与数量阈值进行对比;
若所述可见行列线的数量小于数量阈值,则确定所述表格类型为非完整框线表格。
可选地,所述包括可见行线和可见列线,所述检测所述PDF文件中表格的可见行列线包括:
将所述PDF文件转换为图片,并确定表格的表头位置,基于所述表头位置确定感兴趣区域;
对所述感兴趣区域进行二值化处理获得二值化图像;
对所述二值化图像进行x轴方向映射获得第一连通域,基于所述第一连通域获得每一行的基本位置的文本框,以及可见行线;和
对所述二值化图像的像素沿y轴方向求和,获得每一条列线的沿y轴方向的像素总和,将像素总和与所述感兴趣区域像素值一致的线确定为可见列线
本发明实施例还提出一种非完整框线表格的提取装置,包括:
表格类型确定模块,用于基于PDF文件中表格区域的可见行列线数量确定各个表格的表格类型,其中所述表格类型包括完整框线表格、非完整框线表格;
栅格化模块,用于将所述非完整框线表格栅格化获得栅格单元,并对所述栅格单元进行击中测试,基于击中测试结果确定所述栅格单元的候选行列线;
不可见行列线确定模块,用于基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线,以根据所述不可见行列线提取所述非完整框线表格。
本发明实施例还提出一种非完整框线表格的提取设备,包括存储器、处理器以及存储在所述存储器上的非完整框线表格的提取程序,所述非完整框线表格的提取程序被所述处理器运行时实现如上任一项所述的方法的步骤:
本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有非完整框线表格的提取程序,所述非完整框线表格的提取程序被处理器运行时实现如上任一项所述的方法的步骤。
相比现有技术,本发明提出的一种非完整框线表格的提取方法、装置、设备及存储介质,基于PDF文件中表格区域的可见行列线数量确定各个表格的表格类型,其中所述表格类型包括完整框线表格、非完整框线表格;将所述非完整框线表格栅格化获得栅格单元,并对所述栅格单元进行击中测试,基于击中测试结果确定所述栅格单元的候选行列线;基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线,以根据所述不可见行列线提取所述非完整框线表格。将非完整框线表格栅格化,对栅格化后的栅格单元进行击中测试以确定候选行列线,并结合对齐方式确定非完整框线表格的不可见行列线,如此可以提取出非完整框线表格,解决了当前非完整框线表格提取准确率不高的问题。
附图说明
图1是本发明本发明各实施例涉及的非完整框线表格的提取设备的硬件结构示意图;
图2是本发明非完整框线表格的提取方法第一实施例的流程示意图;
图3是本发明非完整框线表格的提取方法一实施例涉及的栅格化示意图;
图4是本发明非完整框线表格的提取方法第二实施例的流程示意图;
图5是本发明非完整框线表格的提取方法一实施例涉及的击中测试示意图;
图6是本发明非完整框线表格的提取方法第三实施例的流程示意图;
图7是本发明非完整框线表格的提取方法一实施例涉及的列对齐方式示意图;
图8是本发明非完整框线表格的提取方法一实施例涉及的行对齐方式的第一示意图;
图9是本发明非完整框线表格的提取方法一实施例涉及的行对齐方式的第二示意图;
图10是本发明非完整框线表格的提取方法第四实施例的流程示意图;
图11是本发明非完整框线表格的提取方法一实施例涉及的像素值求和的示意图;
图12是本发明非完整框线表格的提取装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例主要涉及的非完整框线表格的提取设备是指能够实现网络连接的网络连接设备,所述非完整框线表格的提取设备可以是服务器、云平台等。
参照图1,图1是本发明各实施例涉及的非完整框线表格的提取设备的硬件结构示意图。本发明实施例中,非完整框线表格的提取设备可以包括处理器1001(例如中央处理器Central Processing Unit、CPU),通信总线1002,输入端口1003,输出端口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;输入端口1003用于数据输入;输出端口1004用于数据输出,存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图1中示出的硬件结构并不构成对本发明的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种可读存储介质的存储器1005可以包括操作系统、网络通信模块、应用程序模块以及非完整框线表格的提取程序。在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001用于调用存储器1005中存储的非完整框线表格的提取程序,并执行如下操作:
基于PDF文件中表格区域的可见行列线数量确定各个表格的表格类型,其中所述表格类型包括完整框线表格、非完整框线表格;
将所述非完整框线表格栅格化获得栅格单元,并对所述栅格单元进行击中测试,基于击中测试结果确定所述栅格单元的候选行列线;
基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线,以根据所述不可见行列线提取所述非完整框线表格。
基于上述非完整框线表格的提取设备提出本发明非完整框线表格的提取方法第一实施例。请参照图2,图2是本发明非完整框线表格的提取方法第一实施例的流程示意图。
如图1所示,本发明第一实施例提出一种非完整框线表格的提取方法,所述方法应用于非完整框线表格的提取设备,所述方法包括:
步骤S101,基于PDF文件中表格区域的可见行列线数量确定各个表格的表格类型,其中所述表格类型包括完整框线表格、非完整框线表格;
本实施例通过图像处理的方式寻找并确定表格中的可见行列线。PDF页面中可能包含短线、断线、虚线等会对行列线识别产生干扰的情况,为了最大程度地排除干扰行列线的识别,本实施例仅关注感兴趣区域。在选定感兴趣区域后,再检测可见的行线和列线。可以理解地,对于一个表格单元来说,四周的行列线均是可见的,则为完整框线表格;若四周的行列线均不可见,则为无框线表格;若四周的行列线包括可见行列线、不可见行列线,则为不完整框线表格。本实施例将无框线表格、不完整框线表格确定为非完整框线表格。
值得说明的是,本实施例提出的非完整框线表格的提取方法采取从粗到细(coarse to fine)的提取策略,本策略主要包括两个阶段:第一阶段(Coarse Stage),选定感兴趣区域后,通过图像处理的方式,确定可见的行列线;第二阶段是(Fine Stage),基于表格的栅格化提取看不见的行列线。
在Fine Stage需要根据行基本位置(行kernel)、列基本位置(列kernel)来确定行列线,因此在Coarse Stage还需要检测行列kernel,其中行列kernel包括行kernel和列kernel。行kernel,指可以代表每一行的基本位置,行线必定在它附近,且不与它重合;列kernel,指可以代表每一列的基本位置,列线必定在它附近,且不与它重合。
具体地,将PDF转换为图片后,确定表格的表头位置,基于表头位置确定感兴趣区域,对感兴趣区域进场二值化处理,然后沿x轴方向进行映射获得连通域,从连通域中抽取行kernel。在抽取行kernel时,需要对二值化后的感兴趣区域做闭运算:对图像线进行膨胀再腐蚀,使得细微连接的图块封闭在一起,然后沿着y轴方向进行映射获得连通域,从连通域中抽取列kernel。保存行kernel、列kernel,以供后续使用。
步骤S102,将所述非完整框线表格栅格化获得栅格单元,并对所述栅格单元进行击中测试,基于击中测试结果确定所述栅格单元的候选行列线;
对于非完整边框表格,由于没有框线的约束,同时表格没有固定的结构约束,虽然肉眼可见表格的行列情况,但是机器识别的准确率往往受到限制。本实施例采取基于文本框、文本框对齐方式进行非完整边框的识别,主要思想是利用文本的位置信息和对齐方式,对表格进行栅格化处理。
栅格化的概念最开始出现在图像处理中,后来随着图像技术的不断发展,栅格化概念拓展到对空间领域的描述和表示中。参考图3,图3是本发明非完整框线表格的提取方法一实施例涉及的栅格化示意图,如图3所示,a为表格中的文本,需要找到如A1,A2,A3,A4这样的栅格单元来将文本隔开,对此对非完整边框表格的还原将转换为栅格单元的行列线的确定,即A框线的确定。
本实施例通过击中测试确定栅格单元的行列线。具体地,取x轴或者y轴上某一点,沿着其垂直方向,向所有文本框进行投影,记录被击中的文本框数量,若被击中的文本框数量小于阈值,则确定该条行列线为栅格线的候选行列线。
步骤S103,基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线,以根据所述不可见行列线提取所述非完整框线表格。
表格中文本框的列对齐方式包括左对齐,居中对齐,右对齐。借鉴人们的从左到右的阅读习惯,本实施例在检测不可见行列线时,优先检测栅格单元的左边界,也即不可见左行列线。确定左行列线后,再以最右侧文本的右边界作为栅格单元的结束位置,也即栅格单元的不可见右列线。本实施例基于栅格单元中文本框的列对齐方式即可从列线候选中确定不可见左列线。
表格中文本框的行对齐方式包括靠上对齐,居中对齐,靠下对齐。而在真实场景中,主要需要考虑靠上对齐和居中对齐,在检测不可见行线时,先检测栅格单元的上边界,也即不可见上行线,然后以最下侧文本的下边界作为栅格结束位置,也即栅格单元的不可见下行线。
如此,基于可见行列线提取完整框线表格,基于获取到的不可见列线、不可见行线即可提取出非完整框线表格。
本实施例通过上述方案,基于PDF文件中表格区域的可见行列线数量确定各个表格的表格类型,其中所述表格类型包括完整框线表格、非完整框线表格;将所述非完整框线表格栅格化获得栅格单元,并对所述栅格单元进行击中测试,基于击中测试结果确定所述栅格单元的候选行列线;基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线,以根据所述不可见行列线提取所述非完整框线表格。将非完整框线表格栅格化,对栅格化后的栅格单元进行击中测试以确定候选行列线,并结合对齐方式确定非完整框线表格的不可见行列线,如此可以提取出非完整框线表格,解决了当前非完整框线表格提取准确率不高的问题。
如图4所示,本发明第二实施例提出一种非完整框线表格的提取方法,步骤S102:对所述栅格单元进行击中测试,基于击中测试结果确定所述栅格单元的候选行列线,包括:
步骤S1021:识别所述栅格单元中的文本框,根据所述文本框确定待提取的行列,并确定初始行列线;
一般地可以采用光学字符识别(OCR,optical character recognition)的方式识别栅格单元中的所有文本框。根据文本框所在的位置确定所有可能的行和列,根据已经确定的行、列,确定文本框的框线。在实际的表格中,由于同一个行或者同一列中的字符数量不相同、或者字符大小差异,会造成同一行列的文本框行列线会有略微差异,因此在并且在确定所有可能的行之后,合并重叠或几乎重叠的文本框行线。在确定所有可能的列之后,合并重叠或几乎重叠的文本框列线。然后将合并后剩下的文本框行线确定为初始行线,将合并后剩下的文本框列线确定为初始列线,如此即获得了初始行列线。
步骤S1022:对所述初始行列线进行击中测试,获得测试通过的合格行列线;
具体地,沿所述初始行列线的方向,向文本框投影,记录被击中文本框数量;将所述被击中文本框数量小于阈值的初始行列线确定为通过测试的合格行列线。
参考图5,图5是本发明非完整框线表格的提取方法一实施例涉及的击中测试示意图。如图5所示,在x轴上方的长短不一的粗线表示文本框,虚线箭头x0和x1表示沿x轴垂直方向向文本框的投影,从图中可知被投影x0击中的文本框有5个,被投影x1击中的文本框的个数也是5个。
可以理解地,被击中文本框数量越少,则对应的投影线为行列线的可能性越大,因此,将被击中文本框数量与阈值进行对比,将被击中文本框数量小于阈值的初始行列线确定为通过测试的合格行列线。其中,阈值可以根据需要设定,例如设置为5、4、3等。
步骤S1023:将当前行列基本位置与前一行列基本位置之间的合格行列线确定为候选行列线。
可以理解地,基于击中测试结果在行与行之间、列与列之间可能存在一条以上的行线或列线,本实施例将行与行、列与列之间的行线、列线确定为对应行、列的候选行列线。具体地,将当前列基本位置与前一列基本位置之间的合格列线确定为候选列线,将当前行基本位置与前一行基本位置之间的合格行线确定为候选行线。
本实施例通过上述方案,基于栅格单元对文本框就行击中测试,根据击中结果确定候选行列线,如此通过栅格化的思想将确定非完整边框表格的行列线转化成为确定栅格单元行列线,从而确定了行列线的检测对象,有助于提高非完整框线表格提取的针对性和准确率。
如图6所示,本发明第三实施例提出一种非完整框线表格的提取方法,所述不可见行列线包括不可见列线,所述基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线包括:
步骤S10311:确定所述文本框的列对齐方式,所述对齐方式包括左对齐、居中对齐、右对齐;
具体的列对齐方式参考图7,图7是本发明非完整框线表格的提取方法一实施例涉及的列对齐方式示意图,图7(a)表示左对齐,图7(b)表示居中对齐,图7(c)表示右对齐。
具体地,查找并确定目标列所对应的文本框,若该列文本框的左边界都相等,则对齐方式为左对齐;若该列文本框的右边界都相等,则对齐方式为右对齐;若该列文本框的中轴线都相等,则为居中对齐。
步骤S10312:确定各个候选列线与所述文本框左边界的第一距离,确定各个候选列线与所述文本框右边界的第二距离;
对于目标列来说,只有一个文本框左边界,但是在击中测试后能获得多个候选列线。对于左对齐,目标列文本框的左边界一致的,因此将最靠近文本框左边界的候选列线确定为对应栅格单元的不可见左列线;对于右对齐,目标列文本框的右边界一致的,但是左边界不一致,因此将最靠近最左侧文本框边界的候选列线确定为对应栅格单元的不可见左列线;对于居中对齐,目标列文本框的左边界、右边界均不一致,因此将最靠近最左侧文本框边界的候选列线确定为对应栅格单元的不可见左列线。
为了确定不可见列线,计算各个候选列线与所述文本框第一左边界的第一距离,确定各个候选列线与所述文本框第一右边界的第二距离。本实施例中的第一左边界是指目标列最左侧的边界,例如对于左对齐,一般只有一条左边界,即为第一左边界;对于居中对齐、右对齐,不同行的左边界一般不一致,因此将在获得每一行的左边界后,将最左侧的边界确定为第一左边界,也即与中轴线距离最远的左边界为第一左边界。第一右边界是指目标列最右侧的边界,例如对于右对齐,一般只有一条右边界,即为第一右边界;对于居中对齐、右对齐,不同行的右边界一般不一致,因此将在获得每一行的右边界后,将最右侧的边界确定为第一右边界,也即与中轴线距离最远的右边界为第一右边界。
步骤S10313:基于基于所述列对齐方式、所述第一距离、所述第二距离从所述候选列线中确定所述栅格单元的不可见列线。
确定第一距离、第二距离后,将目标列的多个第一距离进行排序,将目标列的多个第二距离进行排序,并从第一距离中确定最小第一距离,从第二距离中确定最小第二距离。
对于左对齐,将最小第一距离对应的候选列线确定为栅格单元的不可见左列线;将最小第二距离对应的候选列线确定为栅格单元的不可见右列线。也即将与文本框左边界重合或几乎重合的候选列线确定为不可见左列线,将与文本框最右侧的右边界重合或几乎重合的候选列线确定为不可见右列线
对于居中对齐,将最小第一距离对应的候选列线确定为栅格单元的不可见左列线,将最小第二距离对应的候选列线确定为栅格单元的不可见右列线。则将与目标列文本框的最左侧的左边界重合或几乎重合的候选列线确定为不可见左列线;将与目标列文本框的最右侧的右边界重合或几乎重合的候选列线确定为不可见右列线。
对于右对齐,将最小第一距离对应的候选列线确定为栅格单元的不可见左列线;将最小第二距离对应的候选列线确定为栅格单元的不可见右列线,也即将与右边界重合或几乎重合的候选列线确定为不可见左列线。也即将与文本框最左侧的左边界重合或几乎重合的候选列线确定为不可见左列线。
本实施例中所述不可见行列线包括不可见上行线、不可见下行线,所述基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线,包括:
步骤S10321:确定所述文本框的行对齐方式,所述对齐方式包括靠上对齐、居中对齐;
获取通过击中测试的合格行列线中的合格行线,对所有行的行kernel的上边缘进行二次击中测试,通过二次击中测试的上边缘对应的行kernel的行对齐方式确定为居中对齐;未通过二次击中测试的可认为是上对齐。
步骤S10322:对于靠上对齐,确定各条候选行线与上一条候选行线之间的间隔,并将各个间隔正向排序,将排序第一的间隔对应的候选行线确定为当前行线的上行线;
参考图8,图8是本发明非完整框线表格的提取方法一实施例涉及的行对齐方式的第一示意图,如图8所示对于第三行(最后一行)而言,可能的上行线包括Line1和Line2,很明显,Line1为该行真正的上边界。具体地,中间行与上一行的距离小于x1与中间行下一行的距离x2,即x1<x2;假设文本字符大小一致,字符高度为h,则x1+h<x2+h,,即h1<h2,其中h2为候选行线line2与上一条候选行线line2的间隔,h2为候选行线line1与上一条候选行线line2的间隔。如此,各个间隔正向排序后排序第一的间隔对应的候选行线为当前行线的上行线,也即候选行线之间间隔较大的线为上行线。
步骤S10323:对于居中对齐,将上一行的下边界往下的第一条候选行线确定为当前行的上行线;上行线是指当前行文本框的上边界。
参考图9,图9是本发明非完整框线表格的提取方法一实施例涉及的行对齐方式的第二示意图。基于行kernel找到确定候选行线。如图9所示对于最后一行而言,可能的上行线包括Line1和Line2,很明显,Line1为真正的上行线。确定Line1为行线的原因是:Line1位于Line4的下面,而Line4是Line3以上一行的行kernel为对称轴得到的下边界。也即对于当前行来说,上行线是上一行下边界的第一条线。
步骤S10324:将当前行文本框下边界对应的候选行线确定为下行线。也即文本框下边界就是栅格单元的下行线。
本实施例通过上述方案,根据对齐方式从候选行列线中确定了栅格单元的行列线,从而使得非完整框线表格的提取成为了可能。
如图10所示,本发明第四实施例提出一种非完整框线表格的提取方法,
步骤S101,所述基于PDF文件中表格的可见行列线数量确定表格的表格类型,包括:
步骤S1011,确定PDF文件中表格的可见行列线;
将所述PDF文件转换为图片,并确定表格的表头位置,基于所述表头位置确定感兴趣区域;
对所述感兴趣区域进行二值化处理获得二值化图像;本实施例中二值化,是将图像上的像素点的灰度值设置为0或255,二值化图像为黑白图像。
对所述二值化图像进行x轴方向映射获得第一连通域,基于所述第一连通域获得每一行的基本位置的文本框,以及可见行线;每一行的基本位置的文本框是指每一行的第一列的文本框。可见行线用图像识别的方式获得,一般地将x轴方向上长度大于预设长度的线条确定为可见行线。
对所述二值化图像的像素沿y轴方向求和,获得每一条线的沿y轴方向的像素总和,将像素总和与所述感兴趣区域像素值一致的线确定为可见列线。
考虑文字在水平和垂直方向的不同表现,词组在水平方向映射时,没有空隙,但是在垂直方向上映射时,由于字符和字符之间存在空格,映射存在空隙。如果检查可见行线相同的方法,则会导致出现很多冗余的列kernel,为了防止这种情况,在检测列kernel时,会对感兴趣区域做闭运算。但是这样做带来的问题是,虽然可以得到列kernel;当存在看得见的列线,且列线与文字距离较近时,闭运算也会将文本与列线连接到一起,使得列线检测失败。
为此,本实施例基于像素值进行可见列线的确定。参考图11,图11是本发明非完整框线表格的提取方法一实施例涉及的像素值求和的示意图,在y轴方向,可见列线会贯穿整个感兴趣区域的纵向;而由于文本框内的文字的存在会是的穿过文本的列线在上下或者中间出现间隔;基于此对列线沿着y轴方向求和,若二值化后的像素和等于感兴趣区域高度,则对应的线为看得见的列线。
本实施例中将沿y轴方向的像素总和表示为H。则
其中pix表示像素,x,y表示坐标位置。将获得的H与感兴趣区域像素值进行比较即可确定可见列线。
步骤S1012,将所述可见行列线的数量与数量阈值进行对比;
将可见行线的数量与可见行线的数量的总和确定为所述可见行列线的数量。本实施例中数量阈值可以为4,一般地是2条行线、2条列线。
步骤S1013,若所述可见行列线的数量小于数量阈值,则确定所述表格类型为非完整框线表格。
所述可见行列线的数量小于数量阈值,则表示该表格缺少一条或多条行列线,因此属于非完整框线表格。可见行列线的数量等于数量阈值,则表示该表格存在完整的可见行列线。
本实施例通过上述方案确定了表格的类型,以便后续直接提取完整框线表格,并将注意力放在非完整框线表格,从而可以高效、有针对性的提取到非完整边框表格。
进一步地,为实现上述目的,本发明还提供一种非完整框线表格的提取装置,具体地,参见12,图12是本发明非完整框线表格的提取装置第一实施例的功能模块示意图,所述装置包括:
表格类型确定模块10,用于基于PDF文件中表格区域的可见行列线数量确定各个表格的表格类型,其中所述表格类型包括完整框线表格、非完整框线表格;
栅格化模块20,用于将所述非完整框线表格栅格化获得栅格单元,并对所述栅格单元进行击中测试,基于击中测试结果确定所述栅格单元的候选行列线;
不可见行列线确定模块30,用于基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线,以根据所述不可见行列线提取所述非完整框线表格。
进一步地,所述栅格化模块20包括:
识别单元,用于识别所述栅格单元中的文本框,根据所述文本框确定待提取的行列,并确定初始行列线;
击中测试单元,用于对所述初始行列线进行击中测试,获得测试通过的合格行列线;
行列线确定单元,用于将当前行列基本位置与前一行列基本位置之间的合格行列线确定为候选行列线。
进一步地,所述击中测试单元包括:
记录子单元,用于沿所述初始行列线的方向,向文本框投影,记录被击中文本框数量;
合格行列线确定子单元,用于将所述被击中文本框数量小于阈值的初始行列线确定为通过测试的合格行列线。
进一步地,所述不可见行列线确定模块30包括:
列对齐方式确定单元,用于确定所述文本框的列对齐方式,所述对齐方式包括左对齐、居中对齐、右对齐;
距离确定单元,用于确定各个候选列线与所述文本框第一左边界的第一距离,确定各个候选列线与所述文本框第一右边界的第二距离;
不可见列线确定单元,用于基于基于所述列对齐方式、所述第一距离、所述第二距离从所述候选列线中确定所述栅格单元的不可见列线。
进一步地,所述不可见行列线确定模块30包括:
行对齐方式确定单元,用于确定所述文本框的行对齐方式,所述对齐方式包括靠上对齐、居中对齐;
第一上行线确定单元,用于对于靠上对齐,确定各条候选行线与上一条候选行线之间的间隔,并将各个间隔正向排序,将排序第一的间隔对应的候选行线确定为当前行线的上行线;
第二上行线确定单元,用于对于居中对齐,将上一行的下边界往下的第一条候选行线确定为当前行的上行线;
下行线确定单元,用于将当前行文本框下边界对应的候选行线确定为下行线。
进一步地,所述表格类型确定模块包括:
可见行列线确定单元,用于确定PDF文件中表格的可见行列线;
对比单元,用于将所述可见行列线的数量与数量阈值进行对比;
非完整框线表格确定单元,用于若所述可见行列线的数量小于数量阈值,则确定所述表格类型为非完整框线表格。
进一步地,所述可见行列线确定单元包括
转换子单元,用于将所述PDF文件转换为图片,并确定表格的表头位置,基于所述表头位置确定感兴趣区域;
二值化子单元,用于对所述感兴趣区域进行二值化处理获得二值化图像;
可见行线确定子单元,用于对所述二值化图像进行x轴方向映射获得第一连通域,基于所述第一连通域获得每一行的基本位置的文本框,以及可见行线;和
可见列线确定子单元,用于对所述二值化图像的像素沿y轴方向求和,获得每一条列线的沿y轴方向的像素总和,将像素总和与所述感兴趣区域像素值一致的线确定为可见列线。
此外,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有非完整框线表格的提取程序,所述非完整框线表格的提取程序被处理器运行时实现如上所述的非完整框线表格的提取方法的步骤,在此不再赘述。
相比现有技术,本发明基于PDF文件中表格区域的可见行列线数量确定各个表格的表格类型,其中所述表格类型包括完整框线表格、非完整框线表格;将所述非完整框线表格栅格化获得栅格单元,并对所述栅格单元进行击中测试,基于击中测试结果确定所述栅格单元的候选行列线;基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线,以根据所述不可见行列线提取所述非完整框线表格。将非完整框线表格栅格化,对栅格化后的栅格单元进行击中测试以确定候选行列线,并结合对齐方式确定非完整框线表格的不可见行列线,如此可以提取出非完整框线表格,解决了当前非完整框线表格提取准确率不高的问题。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种非完整框线表格的提取方法,其特征在于,所述方法包括:
基于PDF文件中表格区域的可见行列线数量确定各个表格的表格类型,其中所述表格类型包括完整框线表格、非完整框线表格;
将所述非完整框线表格栅格化获得栅格单元,并对所述栅格单元进行击中测试,基于击中测试结果确定所述栅格单元的候选行列线;
基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线,以根据所述不可见行列线提取所述非完整框线表格。
2.根据权利要求1所述的方法,其特征在于,所述对所述栅格单元进行击中测试,基于击中测试结果确定所述栅格单元的候选行列线,包括:
识别所述栅格单元中的文本框,根据所述文本框确定待提取的行列,并确定初始行列线;
对所述初始行列线进行击中测试,获得测试通过的合格行列线;
将当前行列基本位置与前一行列基本位置之间的合格行列线确定为候选行列线。
3.根据权利要求2所述的方法,其特征在于,所述对所述初始行列线进行击中测试,获得测试通过的合格行列线包括:
沿所述初始行列线的方向,向文本框投影,记录被击中文本框数量;
将所述被击中文本框数量小于阈值的初始行列线确定为通过测试的合格行列线。
4.根据权利要求1所述的方法,其特征在于,所述不可见行列线包括不可见列线,所述基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线包括:
确定所述文本框的列对齐方式,所述对齐方式包括左对齐、居中对齐、右对齐;
确定各个候选列线与所述文本框第一左边界的第一距离,确定各个候选列线与所述文本框第一右边界的第二距离;
基于基于所述列对齐方式、所述第一距离、所述第二距离从所述候选列线中确定所述栅格单元的不可见列线。
5.根据权利要求1所述的方法,其特征在于,所述不可见行列线包括不可见上行线、不可见下行线,所述基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线,包括:
确定所述文本框的行对齐方式,所述对齐方式包括靠上对齐、居中对齐;
对于靠上对齐,确定各条候选行线与上一条候选行线之间的间隔,并将各个间隔正向排序,将排序第一的间隔对应的候选行线确定为当前行线的上行线;
对于居中对齐,将上一行的下边界往下的第一条候选行线确定为当前行的上行线;
将当前行文本框下边界对应的候选行线确定为下行线。
6.根据权利要求1所述的方法,其特征在于,所述基于PDF文件中表格的可见行列线数量确定表格的表格类型,包括:
确定PDF文件中表格的可见行列线;
将所述可见行列线的数量与数量阈值进行对比;
若所述可见行列线的数量小于数量阈值,则确定所述表格类型为非完整框线表格。
7.根据权利要求6所述的方法,其特征在于,所述包括可见行线和可见列线,所述检测所述PDF文件中表格的可见行列线包括:
将所述PDF文件转换为图片,并确定表格的表头位置,基于所述表头位置确定感兴趣区域;
对所述感兴趣区域进行二值化处理获得二值化图像;
对所述二值化图像进行x轴方向映射获得第一连通域,基于所述第一连通域获得每一行的基本位置的文本框,以及可见行线;和
对所述二值化图像的像素沿y轴方向求和,获得每一条列线的沿y轴方向的像素总和,将像素总和与所述感兴趣区域像素值一致的线确定为可见列线。
8.一种非完整框线表格的提取装置,其特征在于,包括:
表格类型确定模块,用于基于PDF文件中表格区域的可见行列线数量确定各个表格的表格类型,其中所述表格类型包括完整框线表格、非完整框线表格;
栅格化模块,用于将所述非完整框线表格栅格化获得栅格单元,并对所述栅格单元进行击中测试,基于击中测试结果确定所述栅格单元的候选行列线;
不可见行列线确定模块,用于基于所述栅格单元中文本框的对齐方式,从所述候选行列线中确定所述栅格单元的不可见行列线,以根据所述不可见行列线提取所述非完整框线表格。
9.一种非完整框线表格的提取设备,其特征在于,包括存储器、处理器以及存储在所述存储器上的非完整框线表格的提取程序,所述非完整框线表格的提取程序被所述处理器运行时实现如权利要求1-7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有非完整框线表格的提取程序,所述非完整框线表格的提取程序被处理器运行时实现如权利要求1-7中任一项所述的方法的步骤。
CN202310612931.6A 2023-05-26 2023-05-26 非完整框线表格的提取方法、装置、设备及存储介质 Pending CN116740742A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310612931.6A CN116740742A (zh) 2023-05-26 2023-05-26 非完整框线表格的提取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310612931.6A CN116740742A (zh) 2023-05-26 2023-05-26 非完整框线表格的提取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116740742A true CN116740742A (zh) 2023-09-12

Family

ID=87905492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310612931.6A Pending CN116740742A (zh) 2023-05-26 2023-05-26 非完整框线表格的提取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116740742A (zh)

Similar Documents

Publication Publication Date Title
CN109902622B (zh) 一种用于登机牌信息验证的文字检测识别方法
CN109657665B (zh) 一种基于深度学习的发票批量自动识别系统
WO2020140698A1 (zh) 表格数据的获取方法、装置和服务器
JP6115323B2 (ja) 文書処理装置、文書処理方法およびスキャナー
US8155425B1 (en) Automated check detection and image cropping
US8306325B2 (en) Text character identification system and method thereof
JP2007172132A (ja) レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法
RU2581786C1 (ru) Определение преобразований изображения для повышения качества оптического распознавания символов
US11321558B2 (en) Information processing apparatus and non-transitory computer readable medium
CN112861865B (zh) 一种基于ocr技术的辅助审计方法
US8538154B2 (en) Image processing method and image processing apparatus for extracting heading region from image of document
US10643097B2 (en) Image processing apparatuses and non-transitory computer readable medium
US10121088B2 (en) System and method for straightening curved page content
CN105468732A (zh) 一种图像关键词检查方法及装置
CN114359932B (zh) 文本检测方法、文本识别方法及装置
RU2633182C1 (ru) Определение направления строк текста
CN111626145A (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN113557520A (zh) 字符处理及字符识别方法、存储介质和终端设备
RU2597163C2 (ru) Сравнение документов с использованием достоверного источника
EP4220545A1 (en) Abnormality detection device, abnormality detection method, and abnormality detection system
CN111008635A (zh) 一种基于ocr的多票据自动识别方法及识别系统
US10997407B2 (en) Detecting document objects
US20150169973A1 (en) Incomplete patterns
CN116740742A (zh) 非完整框线表格的提取方法、装置、设备及存储介质
CN114494678A (zh) 文字识别方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination