CN112818894B - 识别pdf文件中文本框的方法、装置及计算机设备及存储介质 - Google Patents

识别pdf文件中文本框的方法、装置及计算机设备及存储介质 Download PDF

Info

Publication number
CN112818894B
CN112818894B CN202110184633.2A CN202110184633A CN112818894B CN 112818894 B CN112818894 B CN 112818894B CN 202110184633 A CN202110184633 A CN 202110184633A CN 112818894 B CN112818894 B CN 112818894B
Authority
CN
China
Prior art keywords
target
preset
target object
parallel lines
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110184633.2A
Other languages
English (en)
Other versions
CN112818894A (zh
Inventor
邢振雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wondershare Software Co Ltd
Original Assignee
Shenzhen Wondershare Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wondershare Software Co Ltd filed Critical Shenzhen Wondershare Software Co Ltd
Priority to CN202110184633.2A priority Critical patent/CN112818894B/zh
Publication of CN112818894A publication Critical patent/CN112818894A/zh
Application granted granted Critical
Publication of CN112818894B publication Critical patent/CN112818894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种识别PDF文件中文本框的方法、装置、计算机设备及存储介质,其中方法包括获取目标PDF文件,并从所述目标PDF文件中获取目标对象;解析所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中,其中,所述预设图形集合包括多个对应不同形状的子集合;对所述预设图形集合进行处理以获得目标预设图形集合;解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。本发明能够识别并提取PDF文件中的文本框。

Description

识别PDF文件中文本框的方法、装置及计算机设备及存储介质
技术领域
本发明涉及文档处理技术领域,尤其涉及一种识别PDF文件中文本框的方法、装置、计算机设备及存储介质。
背景技术
PDF(Portable Document Format)是一种电子文档格式,是一种较为理想的用于电子阅读的格式。但是PDF文件并不支持编辑,所以大多数时候,需要将DPF文件转换成其它易于编辑的格式的文件,例如Word和PPT。现有的技术手段通常都是直接将PDF文件转换成其它格式的文件,其在转换的过程中无法识别PDF文件中的文本框信息,但是PDF文件是一种板式文件,其主要是由互相独立的文本、图片以及路径等信息组合而成,并不包含文本框信息,而Word和PPT等文件是包含有文本框信息的,因而当将PDF文件转换成其它格式的文件时候,会丢失文本框信息,导致文件显示异常,无法进行编辑。
发明内容
本发明实施例提供了一种识别PDF文件中文本框的方法、装置、计算机设备及存储介质,可以识别PDF文件中的文本框,提高使用者的体验。
第一方面,本发明实施例提供了一种识别PDF文件中文本框的方法,该方法具体包括:获取目标PDF文件,并从所述目标PDF文件中获取目标对象;解析所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中,其中,所述预设图形集合包括多个对应不同形状的子集合;对所述预设图形集合进行处理以获得目标预设图形集合;解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。
第二方面,本发明实施例还提供了一种识别PDF文件中文本框的装置,该装置具体包括:第一获取单元,用于获取目标PDF文件,并从所述目标PDF文件中获取目标对象;第一解析单元,用于解析所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中,其中,所述预设图形集合包括多个对应不同形状的子集合;预处理单元,用于对所述预设图形集合进行处理以获得目标预设图形集合;识别单元,用于解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
本发明实施例提供了一种识别PDF文件中文本框的方法、装置、计算机设备及存储介质。其中,所述方法包括:获取目标PDF文件,并从所述目标PDF文件中获取目标对象;解析所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中,其中,所述预设图形集合包括多个对应不同形状的子集合;对所述预设图形集合进行处理以获得目标预设图形集合;解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。本发明实施例通过从目标PDF文件中获取目标对象,并且根据目标对象的不同形状,将目标对象归类至预设图形集合中相应的子集合中以完成对目标对象的分类,之后通过对预设图形集合进行预处理从而获得目标预设图形集合,最后通过判断目标预设图形集合中的对象所对应的图形区域是否存在文本对象以便于识别目标DPF文件中的文本框,便于用户将PDF文件转换成其它格式的文件时带有文本框信息,便于用户进行编辑,提高了用户的使用体验。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的识别PDF文件中文本框的方法的流程示意图;
图2是本发明实施例提供的识别PDF文件中文本框的方法的子流程示意图
图3是本发明实施例提供的识别PDF文件中文本框的方法的子流程示意图;
图4是本发明实施例提供的识别PDF文件中文本框的方法的子流程示意图;
图5是本发明实施例提供的识别PDF文件中文本框的方法的子流程示意图;
图6是本发明实施例提供的识别PDF文件中文本框的方法的子流程示意图;
图7是本发明实施例提供的识别PDF文件中文本框的装置的示意性框图;
图8是本发明实施例提供的识别PDF文件中文本框的装置的第一解析单元的示意性框图;
图9是本发明实施例提供的识别PDF文件中文本框的装置的第一图形集合单元的示意性框图;
图10是本发明实施例提供的识别PDF文件中文本框的装置的第二图形集合单元的示意性框图;
图11是本发明实施例提供的识别PDF文件中文本框的装置的预处理单元的示意性框图;
图12是本发明实施例提供的识别PDF文件中文本框的装置的识别单元的示意性框图;
图13是本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例提供的识别PDF文件中文本框的方法的流程示意图。本发明实施例的识别PDF文件中文本框的方法可应用于计算机设备中、平板电脑以及笔记本电脑等设备中。本发明的方法可以将PDF格式的文件转换成Numbers格式的文件,从而可以通过Number软件浏览文件。如图1所示,该方法包括步骤S110~S140。
S110,获取目标PDF文件,并从所述目标PDF文件中获取目标对象。在本发明实施例中,PDF文件一般是由文本对象、路径对象以及图片对象所组成的,且文本对象、路径对象以及图片对象均是按照顺序进行排列的。其中,文本对象具体可以包括文本对象的编号、坐标、charcode(字符编码)、长度、字体以字体大小等内容,路径对象可以包括路径对象的编号、坐标、大小、边框样式、填充样式以及路径信息等内容,图片对象可以包括图片对象的编号、坐标、大小以及图片数据等内容,而文本框是由路径、图片和文字组成,其中,路径、图片用来描述文本框的外形,文字用来描述文本框的内容。目标对象可以包括路径对象或者图片对象,也可以二者均包括,其具体是根据目标PDF文件中的内容进行相应的变化。其中,每一个目标对象均可以是一个图片对象或者是一个路径对象,而在目标PDF文件中包含有多个图片对象和多个路径对象,在获取目标对象时,需要获取目标PDF文件中所有的图片对象和路径对象。在一些实施例中,在获取目标PDF文件之后,可以对目标PDF文件进行表格识别以筛选目标PDF文件中的表格,以进一步提高识别文本框的效果。
S120,解析所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中,其中,所述预设图形集合包括多个对应不同形状的子集合。在本发明实施例中,目标对象可以是图片对象或者是路径对象,而图片对象和路径对象均有对应的形状,例如一个矩形的图片对象,其对应的形状为矩形,一个圆形的路径对象,其对应的形状为圆形,因此,需要识别目标对象的形状并根据目标对象的形状,将目标对象放入预设图形集合汇总相应的子集合中。其中,预设图形集合中包括有多个不同形状子集合,例如,圆形集合、矩形集合或者多边形集合,其可以根据目标PDF文件中图像对象和路径对象的形状进行相应的设置。
在某些实施例,例如本实施例中,如图2所示,所述步骤S120可包括步骤S121-S124。
S121,解析所述目标对象并判断所述目标对象的形状。在本发明实施例中,目标对象通常是图片对象或者是路径对象,需要判断目标对象的形状,并根据不同的形状进入不同的步骤。
S122,若所述目标对象的形状为矩形,则将所述目标对象归类至所述预设图形集合中的矩形集合。在本发明实施例中,当目标对象为矩形时,将目标对象归类至矩形集合,例如,目标对象是图片对象,而图片对象的形状为矩形时,将该图片对象归类至矩形集合中。
S123,若所述目标对象为包含线条的非封闭图形,则将所述目标对象归类至所述预设图形集合中的线条集合。在本发明实施例中,当目标对象是路径对象时,该路径对象的形状可能是包含有多个线条的非封闭图形,例如由多个横线或者竖线组合而成的非封闭图形,此时,可以将该目标对象归类至线条集合中。而当目标对象是图片对象时,该图片对象可能是细条形的,则可以将该图片对象归类至线条集合中。
在某些实施例,例如本实施例中,如图3所示,所述步骤S123之后可以包括步骤S1231-S1235。
S1231,读取所述线条集合并判断所述线条集合中线条的方向,其中,所述线条集合中包含多个线条。在本发明实施例中,线条集合中包含的是形状为非封闭图形的路径对象和细条形的图片对象,而在获取目标对象时,可能存在将原本是矩形形状的路径对象或者图片对象识别为非封闭图形的路径或者细条形的图片,因此,可以对线条集合中的线条进行识别。而矩形通常是由两组互相垂直相交的平行线所围成的,因此,在识别线条集合中的线条时,需要识别线条的方向。
S1232,将沿X轴方向平行的线条两两组合为第一平行线以及将沿Y轴方向平行的线条两两组合为第二平行线以获得多组所述第一平行线和多组所述第二平行线。在本发明实施例中,判断完线条集合中的所有线条的方向之后,将沿X轴方向平行的线条,两两组合成第一平行线,例如,有四条沿X轴方向平行的线条,则将这四条线条每两条组合为一组第一平行线,共两组第一平行线。同时,将沿Y轴方向平行的线条,两两组合成一组第二平行线,其中,第一平行线与第二平行线互相垂直。
S1233,读取所述第一平行线,并对于每一组所述第一平行线,判断在所述多组第二平行线中是否存在与自身相交的第二平行线。在本发明实施例中,多组第一平行线和多组第二平行线按照先后顺去进行排列,先读取一组第一平行线,并且在所有的第二平行线里查找是否存在与当前第一平行线相交的第二平行线。而线条集合中存在多组第一平行线和多组第二平行线,因此,对每一组第一平行线均要做一次判断,判断的具体过程可以是先读取线条集合中第一组第一平行线,并在多组第二平行线判断是否存在与第一组第一平行线相交的第二平行线,若存在则进行下一步,若不存在则读取下一组第一平行线,直到读取完所有的第一平行线。
S1234,若在所述多组第二平行线中存在与自身相交的第二平行线,则确认由相交的第一平行线和第二平行线所围成的重合区域的面积。在本发明实施例中,当存在至少有一组第二平行线与当前读取的第一平行线相交时,则可以确认二者相交所围成的重合区域的面积。若存在多组第二平行线与当前读取的第一平行线相交,分别确认每组第二平行线与当前读取的第一平行线相交所围成的重合区域的面积。其中,一组第一平行线由两条沿X轴平行的线条组成,一组第二平行线由两条沿Y轴平行的线条组成,一组第一平行线与一组第二平行线相交是指每条沿X轴平行的线条与沿Y轴平行的两条线条均由交点,则他们所围成的重合区域为矩形。
S1235,若所述重合区域的面积大于预设面积,则将相交的第一平行线和第二平行线组合成矩形并归类至所述矩形集合。在本发明实施例中,当只有一组第二平行线与当前读取的第一平行线相交时,则确认重合区域的面积是否大于预设面积,其中,预设面积为提前设定好的,用以筛选面积较小的重合区域,当重合区域的面积大于预设面积,则可以判定该重合区域为矩形,并且将围成该重合区域的第一平行线和第二平行线组合为组合矩形,即组合矩形是由一组第一平行线和一组第二平行线组成的矩形的集合。当存在多组第二平行线与第一组第一平行线相交时,判断每组第二平行线与当前读取的第一平行线相交所组成的重合区域的面积,并取其中重合区域的面积最大的一组第二平行线与第一组第一平行线组成组合矩形。
S124,若所述目标对象不为矩形且不为包含线条的非封闭图形,则将所述目标对象归类至所述预设图形集合中的其它图形集合。在本发明实施例中,当目标对象为除矩形和包含线条的非封闭图形以外的其它形状,则可以将其归类至其它图形集合中,其它图形集合可以包括圆形集合和多边形集合。
在某些实施例,例如本实施例中,如图4所示,所述步骤S124可包括步骤S1241-S1242。
S1241,若所述目标对象的形状为圆形,则将所述目标对象归类至所述预设图形集合中的圆形集合。在本发明实施例中,当目标对象的形状为圆形时,将该目标对象归类至圆形集合中。
S1242,若所述目标对象的形状为多边形,则将所述目标对象归类至所述预设图形集合中的多边形集合。在本发明实施例中,当目标对象的形状为多边形时,将该目标对象归类至多边形集合中。
S130,对所述预设图形集合进行处理以获得目标预设图形集合。
在本发明实施例中,预处理可以是指对预设图形集合中的矩形集合、多边形集合以及圆形集合进行处理,例如,将矩形集合中的一些重复的矩形进行合并。
在某些实施例,例如本实施例中,如图5所示,所述步骤S130可包括步骤S131-S134。
S131,对所述矩形集合中的矩形排序以获得中间矩形集合。在本发明实施例中,由于矩形集合中包含有图片对象和路径对象中的矩形,同时还包含组合矩形,为了避免出现重复的矩形,需要对矩形集合进行去重处理,所以首先需要先对矩形集合中的所有矩形进行排序,排序规则可以是从上到下依次排序,以获得中间矩形集合。
S132,读取所述中间矩形集合中的矩形,并对于所述中间矩形集中的每一个矩形,判断在所述中间矩形集合中是否存在与其自身完全重合的矩形。在本发明实施例中,需要判断每一个矩形是否存在与其完全重合的矩形,因此,判断过程可以是,先读取第一个矩形,然后读取下一个矩形,并且判断下一个矩形是否与第一个矩形重合,若不重合则继续读取下一个矩形,直到读取完所有的矩形以完成对第一个矩形的判断,然后继续读取第二个矩形,并判断第二个矩形之后的所有矩形是否与其完全重合,以此类推,直到判断完每一个矩形。
S133,若在所述中间矩形集合中存在与自身完全重合的矩形,则将两个重合的矩形合并为一个矩形。在本发明实施例中,当存在与自身完全重合的矩形时,则将两个重合的矩形合并,并且继续判断是否存在其它的矩形与当前矩形完全重合,若存在,则继续合并,若不存在则读取下一个矩形继续判断,直到完成对所有的矩形的判断,从而完成将重复的矩形合并。
S134,若完成对所述中间矩形集合中所有矩形的判断,则将所述中间矩形集合归类至所述预设图形集合中以获得所述目标预设图形集合。在本发明实施例中,当判断完中间矩形集合中的所有矩形后,将中间矩形集合归类至预设图形集合中,并获得目标预设图形集合。也可以根据实际情况,对预设图形集合中的圆形集合或者多边形集合等集合进行处理。
S140、解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。在本发明实施例中,在前面的步骤中已经完成对目标对象的处理,之后则需要解析目标预设图形集合中的对象所对应的图形区域是否存在文本对象,例如,先读取目标预设图形集合中的一个对象,该对象可以是矩形集合中的一个图片对象或者路径对象,然后再读取文本对象中的一个子文本对象,并判断该子文本对象是否处于矩形区域内,当该子文本处于矩形区域内时,则该矩形可以标记为文本框,然后读取下一个目标预设图形集合中的对象和下一个文本对象中的子文本对象,直到读取完所有的文本对象和所有的中间预设图形集合。
在某些实施例,例如本实施例中,如图6所示,所述步骤S140可包括步骤S141-S1431。
S141、将所述目标预设图形集合中的不同形状的子集合合并到目标预设图形集合中并根据所述目标预设图形集合在所述目标PDF文件中的位置进行排序。在本发明实施例中,目标预设图形集合可以包括矩形集合、多边形集合以及圆形集合,将这些集合均合并到一个图形集合中,即目标预设图形集合。在合并到目标预设图形集合中之后,需要根据目标预设图形集合中的图形在目标PDF文件中的位置进行排序,以使得目标预设图形集合中的图形的位置与目标PDF文件中的位置一致。
S142,读取所述目标预设图形集合中的目标子图形和所述文本对象中的子文本对象,判断所述目标预设图形集合中的每一个目标子图形所对应的图形区域内是否存在所述子文本对象。在本发明实施例中,文本框是由文本框本身和文本内容组成,文本框在PDF文件中可以看做是图形,因此,需要通过判断目标图形集中的所有的目标子图形所对应的图形区域内是否存在子文本对象,具体判断过程可以是,先读取目标预设图形集合中的一个目标子图形,再读取文本对象中的一个子文本对象,并判断该子文本对象是否位于当前读取的目标子图形的图形区域内,如果不位于当前读取的目标子图形的图形区域内,则继续读取下一个子文本对象,直到读取完文本对象中的所有的子文本以完成对当前目标子图形的判断,之后继续读取下一个目标子图形,以此类推,直到完成对所有的目标子图形的判断。
S143,若所述目标子图形所对应的图形区域内存在所述子文本对象,则将所述目标子图形和所述子文本对象组合为文本框,并将所述文本框归类至文本框集合。在本发明实施例中,若当前读取的目标子图形所对应的图形区域内存在子文本对象,则说明该目标子图形符合文本框的特征,可以将该目标子图形和位于目标子图形的图形区域内的子文本对象组合为文本框,并将文本框归类至文本框集合,然后继续读取下一个目标子图形。在一些实施例中,可以对文本框进行一步的处理,将区域重合的文本框组合成为一个文本框。
S1431,根据所述目标子图形的属性设置与所述目标子图形相对应的文本框的属性。在本发明实施例中,目标子图形的属性是指其形状和大小,当识别完目标PDF文件中的所有的文本框之后,可以根据文本框相对应的目标子图形调整文本框的大小和样式。
图7是本发明实施例提供的一种识别PDF文件中文本框的装置100的示意性框图。如图7所示,对应于以上识别PDF文件中文本框的方法,本发明还提供一种识别PDF文件中文本框的装置100。该识别PDF文件中文本框的装置100包括用于执行上述识别PDF文件中文本框的方法的单元。具体地,请参阅图7,该识别PDF文件中文本框的装置100包括第一获取单元110、第一解析单元120、预处理单元130以及识别单元140。其中,第一获取单元110用于获取目标PDF文件,并从所述目标PDF文件中获取目标对象;第一解析单元120用于解析所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中,其中,所述预设图形集合包括多个对应不同形状的子集合;预处理单元130用于对所述预设图形集合进行处理以获得目标预设图形集合;识别单元140用于解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。
在某些实施例,例如本实施例中,参见图8,第一解析单元120包括第一判断单元121、矩形集合单元122、第一图形集合单元123和第二图形集合单元124。其中,第一判断单元121用于解析所述目标对象并判断所述目标对象的形状;矩形集合单元122用于若所述目标对象的形状为矩形,则将所述目标对象归类至所述预设图形集合中的矩形集合;第一图形集合单元123用于若所述目标对象为包含线条的非封闭图形,则将所述目标对象归类至所述预设图形集合中的线条集合;第二图形集合单元124用于若所述目标对象不为矩形且不为包含线条的非封闭图形,则将所述目标对象归类至所述预设图形集合中的其它图形集合。
在某些实施例,例如本实施例中,参见图9,所述第一图形集合单元123包括第一读取单元1231、第一组合单元1232、第二读取单元1233、第二判断单元1234以及第一分配单元1235。其中,第一读取单元1231用于读取所述线条集合并判断所述线条集合中线条的方向,其中,所述线条集合中包含多个线条;第一组合单元1232用于将沿X轴方向平行的线条两两组合为第一平行线以及将沿Y轴方向平行的线条两两组合为第二平行线以获得多组所述第一平行线和多组所述第二平行线;第二读取单元1233用于读取所述第一平行线,并对于每一组所述第一平行线,判断在所述多组第二平行线中是否存在与自身相交的第二平行线;第二判断单元1234用于若在所述多组第二平行线中存在与自身相交的第二平行线,则确认由相交的第一平行线和第二平行线所围成的重合区域的面积;第一分配单元1235用于若所述重合区域的面积大于预设面积,则将相交的第一平行线和第二平行线组合成矩形并归类至所述矩形集合。
在某些实施例,例如本实施例中,参见图10,所述第二图形集合单元124包括第二分配单元1241和第三分配单元1242。其中,第二分配单元1241用于若所述目标对象的形状为圆形,则将所述目标对象归类至所述预设图形集合中的圆形集合;第三分配单元1242用于若所述目标对象的形状为多边形,则将所述目标对象归类至所述预设图形集合中的多边形集合。
在某些实施例,例如本实施例中,参见图11,所述预处理单元130包括第一排序单元131、第三读取单元132、第三判断单元133以及第四分配单元单元134。其中,第一排序单元131用于对所述矩形集合中的矩形排序以获得中间矩形集合;第三读取单元132用于读取所述中间矩形集合中的矩形,并对于所述中间矩形集中的每一个矩形,判断在所述中间矩形集合中是否存在与其自身完全重合的矩形;第三判断单元133用于若在所述中间矩形集合中存在与自身完全重合的矩形,则将两个重合的矩形合并为一个矩形;第四分配单元单元134用于若完成对所述中间矩形集合中所有矩形的判断,则将所述中间矩形集合归类至所述预设图形集合中以获得所述目标预设图形集合。
在某些实施例,例如本实施例中,参见图12,所述识别单元140包括第二排序单元141、第四判断单元142、第二组合单元143以及设置单元1431。其中,识别单元140用于将所述目标预设图形集合中的不同形状的子集合合并到目标预设图形集合中并根据所述目标预设图形集合在所述目标PDF文件中的位置进行排序;第四判断单元142用于读取所述目标预设图形集合中的目标子图形和所述文本对象中的子文本对象,判断所述目标预设图形集合中的每一个目标子图形所对应的图形区域内是否存在所述子文本对象;第二组合单元143用于若所述目标子图形所对应的图形区域内存在所述子文本对象,则将所述目标子图形和所述子文本对象组合为文本框,并将所述文本框归类至文本框集合;设置单元1431用于根据所述目标子图形的属性设置与所述目标子图形相对应的文本框的属性。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述识别PDF文件中文本框的装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。上述识别PDF文件中文本框的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图13所示的计算机设备上运行。请参阅图13,图13是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500为带有感应芯片的计算机设备,例如平板电脑和笔记本。
参阅图13,该计算机设备500包括通过系统总线501连接的处理器502、存储器和接口1107,其中,存储器可以包括非易失性存储介质503和内存储器504。该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行一种识别PDF文件中文本框的方法。该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种识别PDF文件中文本框的方法。该接口505用于与其它设备进行通信。本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:获取目标PDF文件,并从所述目标PDF文件中获取目标对象;解析所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中,其中,所述预设图形集合包括多个对应不同形状的子集合;对所述预设图形集合进行处理以获得目标预设图形集合;解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。
在某些实施例,例如本实施例中,处理器502在实现所述解析所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中的步骤时,具体实现如下步骤:解析所述目标对象并判断所述目标对象的形状;若所述目标对象的形状为矩形,则将所述目标对象归类至所述预设图形集合中的矩形集合;若所述目标对象为包含线条的非封闭图形,则将所述目标对象归类至所述预设图形集合中的线条集合;若所述目标对象不为矩形且不为包含线条的非封闭图形,则将所述目标对象归类至所述预设图形集合中的其它图形集合。
在某些实施例,例如本实施例中,处理器502在实现所述若所述目标对象为包含线条的非封闭图形,则将所述目标对象归类至所述预设图形集合中的线条集合的步骤之后,还包括如下步骤:读取所述线条集合并判断所述线条集合中线条的方向,其中,所述线条集合中包含多个线条;将沿X轴方向平行的线条两两组合为第一平行线以及将沿Y轴方向平行的线条两两组合为第二平行线以获得多组所述第一平行线和多组所述第二平行线;读取所述第一平行线,并对于每一组所述第一平行线,判断在所述多组第二平行线中是否存在与自身相交的第二平行线;若在所述多组第二平行线中存在与自身相交的第二平行线,则确认由相交的第一平行线和第二平行线所围成的重合区域的面积;若所述重合区域的面积大于预设面积,则将相交的第一平行线和第二平行线组合成矩形并归类至所述矩形集合。
在某些实施例,例如本实施例中,处理器502在实现所述对所述预设图形集合进行处理以获得目标预设图形集合的步骤,具体实现如下步骤:对所述矩形集合中的矩形排序以获得中间矩形集合;读取所述中间矩形集合中的矩形,并对于所述中间矩形集中的每一个矩形,判断在所述中间矩形集合中是否存在与其自身完全重合的矩形;若在所述中间矩形集合中存在与自身完全重合的矩形,则将两个重合的矩形合并为一个矩形;若完成对所述中间矩形集合中所有矩形的判断,则将所述中间矩形集合归类至所述预设图形集合中以获得所述目标预设图形集合。
在某些实施例,例如本实施例中,处理器502在实现所述解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框的步骤时,具体实现如下步骤:将所述目标预设图形集合中的不同形状的子集合合并到目标预设图形集合中并根据所述目标预设图形集合在所述目标PDF文件中的位置进行排序;读取所述目标预设图形集合中的目标子图形和所述文本对象中的子文本对象,判断所述目标预设图形集合中的每一个目标子图形所对应的图形区域内是否存在所述子文本对象;若所述目标子图形所对应的图形区域内存在所述子文本对象,则将所述目标子图形和所述子文本对象组合为文本框,并将所述文本框归类至文本框集合。
在某些实施例,例如本实施例中,处理器502在实现所述若所述目标子图形所对应的图形区域内存在所述子文本对象,则将所述目标子图形和所述子文本对象组合为文本框,并将所述文本框归类至文本框集合的步骤时,具体实现如下步骤:根据所述目标子图形的属性设置与所述目标子图形相对应的文本框的属性。
在某些实施例,例如本实施例中,处理器502在实现所述若所述目标对象不为矩形且不为包含线条的非封闭图形,则将所述目标对象归类至所述预设图形集合中的其它图形集合的步骤时,具体实现如下步骤:若所述目标对象的形状为圆形,则将所述目标对象归类至所述预设图形集合中的圆形集合;若所述目标对象的形状为多边形,则将所述目标对象归类至所述预设图形集合中的多边形集合。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。所述存储介质可以是U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备执行本发明各个实施例所述方法的全部或部分步骤。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种识别PDF文件中文本框的方法,其特征在于,所述方法包括:
获取目标PDF文件,并从所述目标PDF文件中获取目标对象;
解析所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中,其中,所述预设图形集合包括多个对应不同形状的子集合;
对所述预设图形集合进行处理以获得目标预设图形集合;
解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框;
其中,所述解析所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中的步骤,包括:
解析所述目标对象并判断所述目标对象的形状;
若所述目标对象的形状为矩形,则将所述目标对象归类至所述预设图形集合中的矩形集合;
若所述目标对象为包含线条的非封闭图形,则将所述目标对象归类至所述预设图形集合中的线条集合;
读取所述线条集合并判断所述线条集合中线条的方向,其中,所述线条集合中包含多个线条;
将沿X轴方向平行的线条两两组合为第一平行线以及将沿Y轴方向平行的线条两两组合为第二平行线以获得多组所述第一平行线和多组所述第二平行线;
读取所述第一平行线,并对于每一组所述第一平行线,判断在所述多组第二平行线中是否存在与所读取的第一平行线相交的第二平行线;
若在所述多组第二平行线中存在与所读取的第一平行线相交的第二平行线,则确认由相交的第一平行线和第二平行线所围成的重合区域的面积;
若所述重合区域的面积大于预设面积,则将相交的第一平行线和第二平行线组合成矩形并归类至所述矩形集合;
若所述目标对象不为矩形且不为包含线条的非封闭图形,则将所述目标对象归类至所述预设图形集合中的其它图形集合。
2.如权利要求1所述的识别PDF文件中文本框的方法,其特征在于,所述对所述预设图形集合进行处理以获得目标预设图形集合的步骤,包括:
对所述矩形集合中的矩形排序以获得中间矩形集合;
读取所述中间矩形集合中的矩形,并对于所述中间矩形集中的每一个矩形,判断在所述中间矩形集合中是否存在与其自身完全重合的矩形;
若在所述中间矩形集合中存在与自身完全重合的矩形,则将两个重合的矩形合并为一个矩形;
若完成对所述中间矩形集合中所有矩形的判断,则将所述中间矩形集合归类至所述预设图形集合中以获得所述目标预设图形集合。
3.如权利要求1所述的识别PDF文件中文本框的方法,其特征在于,所述解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框的步骤,包括:
将所述目标预设图形集合中的不同形状的子集合合并到目标预设图形集合中并根据所述目标预设图形集合在所述目标PDF文件中的位置进行排序;
读取所述目标预设图形集合中的目标子图形和所述文本对象中的子文本对象,判断所述目标预设图形集合中的每一个目标子图形所对应的图形区域内是否存在所述子文本对象;
若所述目标子图形所对应的图形区域内存在所述子文本对象,则将所述目标子图形和所述子文本对象组合为文本框,并将所述文本框归类至文本框集合。
4.如权利要求3所述的识别PDF文件中文本框的方法,其特征在于,所述若所述目标子图形所对应的图形区域内存在所述子文本对象,则将所述目标子图形和所述子文本对象组合为文本框,并将所述文本框归类至文本框集合的步骤之后,还包括:
根据所述目标子图形的属性设置与所述目标子图形相对应的文本框的属性。
5.如权利要求1所述的识别PDF文件中文本框的方法,其特征在于,所述若所述目标对象不为矩形且不为包含线条的非封闭图形,则将所述目标对象归类至所述预设图形集合中的其它图形集合的步骤,包括:
若所述目标对象的形状为圆形,则将所述目标对象归类至所述预设图形集合中的圆形集合;
若所述目标对象的形状为多边形,则将所述目标对象归类至所述预设图形集合中的多边形集合。
6.一种识别PDF文件中文本框的装置,其特征在于,所述装置包括:
第一获取单元,用于获取目标PDF文件,并从所述目标PDF文件中获取目标对象;
第一解析单元,用于解析所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中,其中,所述预设图形集合包括多个对应不同形状的子集合;
预处理单元,用于对所述预设图形集合进行处理以获得目标预设图形集合;
识别单元,用于解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框;
其中,所述第一解析单元包括:
第一判断单元,用于解析所述目标对象并判断所述目标对象的形状;
矩形集合单元,用于若所述目标对象的形状为矩形,则将所述目标对象归类至所述预设图形集合中的矩形集合;
第一图形集合单元,用于若所述目标对象为包含线条的非封闭图形,则将所述目标对象归类至所述预设图形集合中的线条集合;
第一读取单元,用于读取所述线条集合并判断所述线条集合中线条的方向,其中,所述线条集合中包含多个线条;
第一组合单元,用于将沿X轴方向平行的线条两两组合为第一平行线以及将沿Y轴方向平行的线条两两组合为第二平行线以获得多组所述第一平行线和多组所述第二平行线;
第二读取单元,用于读取所述第一平行线,并对于每一组所述第一平行线,判断在所述多组第二平行线中是否存在与所读取的第一平行线相交的第二平行线;
第二判断单元,用于若在所述多组第二平行线中存在与所读取的第一平行线相交的第二平行线,则确认由相交的第一平行线和第二平行线所围成的重合区域的面积;
第一分配单元,用于若所述重合区域的面积大于预设面积,则将相交的第一平行线和第二平行线组合成矩形并归类至所述矩形集合;
第二图形集合单元,用于若所述目标对象不为矩形且不为包含线条的非封闭图形,则将所述目标对象归类至所述预设图形集合中的其它图形集合。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器以及与所述存储器相连的处理器;所述存储器用于存储计算机程序;所述处理器用于运行所述存储器中存储的计算机程序,以执行如权利要求1-5任一项所述方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可于计算机设备上实现如权利要求1-5中任一项所述方法的步骤。
CN202110184633.2A 2021-02-08 2021-02-08 识别pdf文件中文本框的方法、装置及计算机设备及存储介质 Active CN112818894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110184633.2A CN112818894B (zh) 2021-02-08 2021-02-08 识别pdf文件中文本框的方法、装置及计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110184633.2A CN112818894B (zh) 2021-02-08 2021-02-08 识别pdf文件中文本框的方法、装置及计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112818894A CN112818894A (zh) 2021-05-18
CN112818894B true CN112818894B (zh) 2023-12-15

Family

ID=75865251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110184633.2A Active CN112818894B (zh) 2021-02-08 2021-02-08 识别pdf文件中文本框的方法、装置及计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112818894B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866335A (zh) * 2010-06-14 2010-10-20 深圳市万兴软件有限公司 一种文档转换中的表格处理方法及装置
CN107133566A (zh) * 2017-03-31 2017-09-05 常诚 一种识别pdf文档中图表的方法
CN107943956A (zh) * 2017-11-24 2018-04-20 北京金堤科技有限公司 页面转换方法、装置和页面转换设备
CN110472208A (zh) * 2019-06-26 2019-11-19 上海恒生聚源数据服务有限公司 Pdf文档中表格解析的方法、系统、存储介质及电子设备
CN111130554A (zh) * 2019-12-09 2020-05-08 深圳市兴之佳科技有限公司 一种文件压缩方法、装置、电子设备及可读取存储介质
WO2020238054A1 (zh) * 2019-05-30 2020-12-03 平安科技(深圳)有限公司 Pdf文档中图表的定位方法、装置及计算机设备
CN112069991A (zh) * 2020-09-04 2020-12-11 税友软件集团股份有限公司 一种pdf的表格信息提取方法及相关装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11200413B2 (en) * 2018-07-31 2021-12-14 International Business Machines Corporation Table recognition in portable document format documents

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866335A (zh) * 2010-06-14 2010-10-20 深圳市万兴软件有限公司 一种文档转换中的表格处理方法及装置
CN107133566A (zh) * 2017-03-31 2017-09-05 常诚 一种识别pdf文档中图表的方法
CN107943956A (zh) * 2017-11-24 2018-04-20 北京金堤科技有限公司 页面转换方法、装置和页面转换设备
WO2020238054A1 (zh) * 2019-05-30 2020-12-03 平安科技(深圳)有限公司 Pdf文档中图表的定位方法、装置及计算机设备
CN110472208A (zh) * 2019-06-26 2019-11-19 上海恒生聚源数据服务有限公司 Pdf文档中表格解析的方法、系统、存储介质及电子设备
CN111130554A (zh) * 2019-12-09 2020-05-08 深圳市兴之佳科技有限公司 一种文件压缩方法、装置、电子设备及可读取存储介质
CN112069991A (zh) * 2020-09-04 2020-12-11 税友软件集团股份有限公司 一种pdf的表格信息提取方法及相关装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Data-Driven Recognition and Extraction of PDF Document Elements;Matthias Hansen等;《technologies》;全文 *
基于文本元素的PDF表格区域识别方法研究;窦方坤等;《软件导刊》;第19卷(第1期);全文 *

Also Published As

Publication number Publication date
CN112818894A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
US10699111B2 (en) Page segmentation of vector graphics documents
US8056001B2 (en) Method and apparatus for classifying elements of a document
US8548253B2 (en) Fast line linking
CN109886928B (zh) 一种目标细胞标记方法、装置、存储介质及终端设备
US9501554B2 (en) Image processing system, image processing method, and image processing program
US8687886B2 (en) Method and apparatus for document image indexing and retrieval using multi-level document image structure and local features
US10600223B2 (en) Methods and systems for determining the structure of a sorted collection list of layouts
US8027978B2 (en) Image search method, apparatus, and program
CN112100979A (zh) 基于电子书的排版处理方法、电子设备及存储介质
JP2018156517A (ja) 情報処理装置
CN109871743B (zh) 文本数据的定位方法及装置、存储介质、终端
JP6151802B2 (ja) 文書の可視オブジェクト検索のためのプレフィルタリング
CN112818894B (zh) 识别pdf文件中文本框的方法、装置及计算机设备及存储介质
Yu et al. An effective method for figures and tables detection in academic literature
CN115935928A (zh) 文档信息的提取方法和装置
CN112100978B (zh) 基于电子书的排版处理方法、电子设备及存储介质
KR102102394B1 (ko) 문자 인식을 위한 영상 전처리 장치 및 방법
CN111783180B (zh) 图纸拆分方法及相关装置
JP2015191277A (ja) データ識別方法、データ識別プログラム及びデータ識別装置
JP7252591B2 (ja) 幾何学形状のマッチングによる画像処理方法及び画像処理装置
EP0851370A1 (en) Apparatus for preparing molecular structure diagram, method for preparation, and storage medium for preparation
WO2021111704A1 (ja) 情報処理方法、情報処理システム及びプログラム
US20240127581A1 (en) Information processing device, information processing method, program, and recording medium
US9076074B2 (en) System and method for processing a digital image
JP4548062B2 (ja) 画像処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant