CN112380824A - 自动识别分栏的pdf文档处理方法、装置、设备及存储介质 - Google Patents
自动识别分栏的pdf文档处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112380824A CN112380824A CN202011074947.9A CN202011074947A CN112380824A CN 112380824 A CN112380824 A CN 112380824A CN 202011074947 A CN202011074947 A CN 202011074947A CN 112380824 A CN112380824 A CN 112380824A
- Authority
- CN
- China
- Prior art keywords
- column
- feature
- position value
- boundary position
- pdf document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Character Input (AREA)
Abstract
本公开提供了一种自动识别分栏的PDF文档处理方法,包括:S1、获取目标PDF文档的目标页面中的字符位置信息;S2、基于字符位置信息,在不连续的字符后设置标签;S3、判断标签中是否包含至少一组第一阈值数量以上的特征标签;S4、如果标签中包含至少一组第一阈值数量以上的特征标签,则判定目标页面中存在至少一个分栏特征;以及S5、获取至少一个分栏特征的左边界位置值以及右边界位置值。本公开还提供了自动识别分栏的PDF文档处理装置、电子设备以及存储介质。
Description
技术领域
本公开涉及一种自动识别分栏的PDF文档处理方法、处理装置、电子设备及存储介质,属于PDF文档解析技术领域。
背景技术
PDF为Portable Document Format的简称,意为可携带文档格式,PDF文档被广泛应用。
现有技术中针对PDF文档进行重排版方法主要分为两种,一是根据坐标等位置信息对提取出的字符做行合并和段落合并,二是将PDF文档转化为图片,应用图像处理的方法对文档进行解析。
然而,现有技术中的方法没有针对分栏的情况进行调整,由于有分栏文档的文字是按照从左到右,在栏内顺序排版的,不分栏的行合并和段落合并规则不适用于有分栏的文档。
发明内容
为了解决上述技术问题中的至少一个,本公开提供了一种自动识别分栏的PDF文档处理方法、处理装置、电子设备及存储介质。
本公开的自动识别分栏的PDF文档处理方法、处理装置、电子设备及存储介质通过以下技术方案实现。
根据本公开的一个方面,提供了一种自动识别分栏的PDF文档处理方法,包括:S1、获取目标PDF文档的目标页面中的字符位置信息;S2、基于所述字符位置信息,在不连续的字符后设置标签;S3、判断所述标签中是否包含至少一组第一阈值数量以上的特征标签;S4、如果所述标签中包含至少一组第一阈值数量以上的特征标签,则判定所述目标页面中存在至少一个分栏特征;以及S5、获取所述至少一个分栏特征的左边界位置值以及右边界位置值。
根据本公开的至少一个实施方式的自动识别分栏的PDF文档处理方法,还包括:S6、基于所述至少一个分栏特征的左边界位置值以及右边界位置值,判断所述至少一个分栏特征是否为真。
根据本公开的至少一个实施方式的自动识别分栏的PDF文档处理方法,步骤S6中,如果所述至少一个分栏特征的左边界位置值与右边界位置值的间距大于间距阈值,则所述至少一个分栏特征为真,如果所述至少一个分栏特征的左边界位置值与右边界位置值的间距不大于间距阈值,则所述至少一个分栏特征为假。
根据本公开的至少一个实施方式的自动识别分栏的PDF文档处理方法,还包括:S7、如果所述至少一个分栏特征为真,判断所述目标页面的每行中所述至少一个分栏特征的左边界位置值与所述右边界位置值之间是否存在字符,如果存在,则判定该行未分栏,如果不存在,则判定该行分栏。
根据本公开的至少一个实施方式的自动识别分栏的PDF文档处理方法,还包括:S8、基于所述目标页面中的分栏的行和/或未分栏的行,将所述目标页面划分为分栏区域和/或未分栏区域。
根据本公开的至少一个实施方式的自动识别分栏的PDF文档处理方法,还包括:S9、基于所述至少一个分栏特征的左边界位置值和/或所述右边界位置值,将所述分栏区域划分为至少两个分栏子区域。
根据本公开的至少一个实施方式的自动识别分栏的PDF文档处理方法,还包括:S9、对于所述未分栏区域,进行行合并和/或段合并。
根据本公开的至少一个实施方式的自动识别分栏的PDF文档处理方法,还包括:S9、对于所述分栏区域,在每个分栏子区域内进行行合并和/或段合并。
根据本公开的至少一个实施方式的自动识别分栏的PDF文档处理方法,还包括:步骤S10、判断每个分栏子区域的最后一行是否完整,如果不完整,则将该分栏子区域的最后一行与后续紧邻分栏子区域的第一行合并。
根据本公开的至少一个实施方式的自动识别分栏的PDF文档处理方法,步骤S5中,基于至少一组所述第一阈值数量以上的特征标签的左边缘位置值和/或基于至少一组所述第一阈值数量以上的所述特征标签前一个字符的右边缘位置值,获取所述至少一个分栏特征的左边界位置值。
根据本公开的至少一个实施方式的自动识别分栏的PDF文档处理方法,步骤S5中,判断所述目标页面中是否存在第二阈值数量以上的短句的第一个字符的左边缘位置值大于所述分栏特征的左边界位置值,如果是,则基于第二阈值数量以上的短句的第一个字符的左边缘位置值获取所述分栏特征的右边界位置值。
根据本公开的另一个方面,提供一种自动识别分栏的PDF文档处理装置,包括:字符位置信息获取模块,所述字符位置信息获取模块获取目标PDF文档的目标页面中的字符位置信息;标签设置模块,所述标签设置模块基于所述字符位置信息,在不连续的字符后设置标签;特征标签判断模块,所述特征标签判断模块判断所述标签中是否包含至少一组第一阈值数量以上的特征标签;分栏判断模块,所述分栏判断模块进行如下判断:如果所述标签中包含至少一组第一阈值数量以上的特征标签,则判定所述目标页面中存在至少一个分栏特征;以及分栏边界获取模块,所述分栏边界获取模块获取所述至少一个分栏特征的左边界位置值以及右边界位置值。
根据本公开的至少一个实施方式的自动识别分栏的PDF文档处理装置,所述分栏判断模块基于所述至少一个分栏特征的左边界位置值以及右边界位置值,判断所述至少一个分栏特征是否为真。
根据本公开的至少一个实施方式的自动识别分栏的PDF文档处理装置,所述分栏判断模块还进行以下处理:如果所述至少一个分栏特征的左边界位置值与右边界位置值的间距大于间距阈值,则所述至少一个分栏特征为真,如果所述至少一个分栏特征的左边界位置值与右边界位置值的间距不大于间距阈值,则所述至少一个分栏特征为假。
根据本公开的至少一个实施方式的自动识别分栏的PDF文档处理装置,所述分栏判断模块还进行以下处理:如果所述至少一个分栏特征为真,判断所述目标页面的每行中所述至少一个分栏特征的左边界位置值与所述右边界位置值之间是否存在字符,如果存在,则判定该行未分栏,如果不存在,则判定该行分栏。
根据本公开的至少一个实施方式的自动识别分栏的PDF文档处理装置,还包括:分栏区域划分模块,所述分栏区域划分模块基于所述目标页面中的分栏的行和/或未分栏的行,将所述目标页面划分为分栏区域和/或未分栏区域。
根据本公开的至少一个实施方式的自动识别分栏的PDF文档处理装置,所述分栏区域划分模块还基于所述至少一个分栏特征的左边界位置值和/或所述右边界位置值,将所述分栏区域划分为至少两个分栏子区域。
根据本公开的至少一个实施方式的自动识别分栏的PDF文档处理装置,还包括:合并模块,所述合并模块对于所述未分栏区域,进行行合并和/或段合并。
根据本公开的至少一个实施方式的自动识别分栏的PDF文档处理装置,所述合并模块还进行以下处理:对于所述分栏区域,在每个分栏子区域内进行行合并和/或段合并。
根据本公开的至少一个实施方式的自动识别分栏的PDF文档处理装置,所述合并模块还进行以下处理:判断每个分栏子区域的最后一行是否完整,如果不完整,则将该分栏子区域的最后一行与后续紧邻分栏子区域的第一行合并。
根据本公开的至少一个实施方式的自动识别分栏的PDF文档处理装置,所述分栏边界获取模块基于至少一组所述第一阈值数量以上的特征标签的左边缘位置值和/或基于至少一组所述第一阈值数量以上的所述特征标签前一个字符的右边缘位置值,获取所述至少一个分栏特征的左边界位置值。
根据本公开的至少一个实施方式的自动识别分栏的PDF文档处理装置,所述分栏边界获取模块判断所述目标页面中是否存在第二阈值数量以上的短句的第一个字符的左边缘位置值大于所述分栏特征的左边界位置值,如果是,则基于第二阈值数量以上的短句的第一个字符的左边缘位置值获取所述分栏特征的右边界位置值。
根据本公开的又一个方面,提供一种电子设备,包括:存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一项所述的方法。
根据本公开的再一个方面,提供一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述任一项所述的方法。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1为本公开的一个实施方式的自动识别分栏的PDF文档处理方法的流程示意图。
图2为本公开的又一个实施方式的自动识别分栏的PDF文档处理方法的流程示意图。
图3为本公开的又一个实施方式的自动识别分栏的PDF文档处理方法的流程示意图。
图4为本公开的又一个实施方式的自动识别分栏的PDF文档处理方法的流程示意图。
图5为本公开的又一个实施方式的自动识别分栏的PDF文档处理方法的流程示意图。
图6为本公开的又一个实施方式的自动识别分栏的PDF文档处理方法的流程示意图。
图7为本公开的又一个实施方式的自动识别分栏的PDF文档处理方法的流程示意图。
图8为本公开的又一个实施方式的自动识别分栏的PDF文档处理方法的流程示意图。
图9为本公开的又一个实施方式的自动识别分栏的PDF文档处理方法的流程示意图。
图10为本公开的一个实施方式的自动识别分栏的PDF文档处理装置的结构示意框图。
图11为本公开的又一个实施方式的自动识别分栏的PDF文档处理装置的结构示意框图。
图12为本公开的又一个实施方式的自动识别分栏的PDF文档处理装置的结构示意框图。
图13为本公开的一个实施方式的电子设备的结构示意框图。
附图标记说明
100 自动识别分栏的PDF文档处理装置
101 字符位置信息获取模块
102 标签设置模块
103 特征标签判断模块
104 分栏判断模块
105 分栏边界获取模块
106 分栏区域划分模块
107 合并模块
1000 通讯接口
2000 存储器
3000 处理器。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。
当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或不具有中间部件。
为了描述性目的,本公开可使用诸如“在……之下”、“在……下方”、“在……下”、“下”、“在……上方”、“上”、“在……之上”、“较高的”和“侧(例如,如在“侧壁”中)”等的空间相对术语,从而来描述如附图中示出的一个部件与另一(其它)部件的关系。除了附图中描绘的方位之外,空间相对术语还意图包含设备在使用、操作和/或制造中的不同方位。例如,如果附图中的设备被翻转,则被描述为“在”其它部件或特征“下方”或“之下”的部件将随后被定位为“在”所述其它部件或特征“上方”。因此,示例性术语“在……下方”可以包含“上方”和“下方”两种方位。此外,设备可被另外定位(例如,旋转90度或者在其它方位处),如此,相应地解释这里使用的空间相对描述语。
这里使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
图1是本公开的一个实施方式的自动识别分栏的PDF文档处理方法的流程示意图,包括:S1、获取目标PDF文档的目标页面中的字符位置信息;S2、基于字符位置信息,在不连续的字符后设置标签;S3、判断标签中是否包含至少一组第一阈值数量以上的特征标签;S4、如果标签中包含至少一组第一阈值数量以上的特征标签,则判定目标页面中存在至少一个分栏特征;以及S5、获取至少一个分栏特征的左边界位置值以及右边界位置值。
本实施方式中,字符位置信息可以是在目标页面中建立的直角坐标系中的位置坐标。
本领域技术人员应当理解,不连续的字符可以指的是某一字符后面(紧邻)不存在其他字符的情形,字符可以是汉字、英文单词、标点符号等,则在该不连续的字符后面(紧邻)设置标签,该标签可以是anno标签。
插入标签后,每个短句的末尾会存在标签,但标签不只出现在每个短句的末尾,如果是英文文档,则每个单词后都会出现标签。
特征标签为具有预定特征的标签,特征标签作为分栏特征的标识。
分栏特征可以是分栏线,也可以是空白区等。
预定特征可以是标签前一个字符的右边缘位置值在目标页面的1/2偏左(目标页面存在一个分栏特征,页面被分为两个栏)、1/3偏左(目标页面存在两个分栏特征,目标页面被分为三个栏)等等。
例如,如果目标页面存在一个分栏特征(即页面被分为两栏),则标签中会包括一组第一阈值数量以上的特征标签,特征标签前一个字符的右边缘位置值一般落在页面宽度的0.4倍到0.6倍区间内。其中第一阈值数量可以预先设定,例如5个以上特征标签。
若是存在两个分栏特征,则标签中会包括两组第一阈值数量以上的特征标签。则位置靠前的第一组特征标签前一个字符的右边缘位置值一般落在页面宽度的1/3-0.1倍至1/3+0.1倍区间,以此类推,可以获取其他组特征标签前一个字符的右边缘位置值。
进一步地,预定特征还可以是标签前一个字符的右边缘位置值的主体部分(例如整数部分)总是相等,在完整的一个页面有分栏的PDF文档中,这个整数会重复出现(例如出现5次以上)。
优选地,至少一个分栏特征的左边界位置值以及分栏特征的右边界位置值可以通过以下方法获得。图2示出了该实施方式的方法的流程示意图。
步骤S5中,基于至少一组第一阈值数量以上的特征标签的左边缘位置值和/或基于至少一组第一阈值数量以上的特征标签前一个字符的右边缘位置值,获取至少一个分栏特征的左边界位置值。
步骤S5中,判断目标页面中是否存在第二阈值数量以上的短句的第一个字符的左边缘位置值大于分栏特征的左边界位置值,如果是,则基于第二阈值数量以上的短句的第一个字符的左边缘位置值获取分栏特征的右边界位置值。
第二阈值数量可以是预先设定的,例如5以上。
步骤S5中,用于获取分栏特征的右边界位置值的短句的第一个字符的左边缘位置值总是大于分栏特征的左边界位置值。短句第一个字符的左边缘位置值一般落在页面宽度的0.6到0.7倍区间内(如果只存在一个分栏特征)。
若是存在两个以上的分栏特征的情形,假设分栏特征数目为2,则用于获取两个分栏特征中的第一个分栏特征的右边界位置值的短句第一个字符的左边缘位置值落在页面宽度的1/3+0.1到1/3+0.2倍区间内,以此类推。
而且,短句开头第一个字符的左边缘位置值的整数部分总是相等的,在完整的一页有分栏的PDF文档中,这个整数出现的次数一般大于5。
图3是本公开又一个实施方式的自动识别分栏的PDF文档处理方法的流程示意图。
如图3所示,自动识别分栏的PDF文档处理方法包括:S1、获取目标PDF文档的目标页面中的字符位置信息;S2、基于字符位置信息,在不连续的字符后设置标签;S3、判断标签中是否包含至少一组第一阈值数量以上的特征标签;S4、如果标签中包含至少一组第一阈值数量以上的特征标签,则判定目标页面中存在至少一个分栏特征;S5、获取至少一个分栏特征的左边界位置值以及右边界位置值;以及S6、基于至少一个分栏特征的左边界位置值以及右边界位置值,判断至少一个分栏特征是否为真。
图4是本公开又一个实施方式的自动识别分栏的PDF文档处理方法的流程示意图。
如图4所示,自动识别分栏的PDF文档处理方法包括:S1、获取目标PDF文档的目标页面中的字符位置信息;S2、基于字符位置信息,在不连续的字符后设置标签;S3、判断标签中是否包含至少一组第一阈值数量以上的特征标签;S4、如果标签中包含至少一组第一阈值数量以上的特征标签,则判定目标页面中存在至少一个分栏特征;S5、获取至少一个分栏特征的左边界位置值以及右边界位置值;以及S6、如果至少一个分栏特征的左边界位置值与右边界位置值的间距大于间距阈值,则至少一个分栏特征为真,如果至少一个分栏特征的左边界位置值与右边界位置值的间距不大于间距阈值,则至少一个分栏特征为假。
例如,分栏特征的左边界与右边界的差距大于间距阈值(间距阈值可以基于经验值设定),如果页面中存在表格或者不规则排版的文字,分栏特征的左边界与右边界的差距会很小(不大于间距阈值),则认为不存在分栏特征。
图5是本公开又一个实施方式的自动识别分栏的PDF文档处理方法的流程示意图。
如图5所示,自动识别分栏的PDF文档处理方法包括:S1、获取目标PDF文档的目标页面中的字符位置信息;S2、基于字符位置信息,在不连续的字符后设置标签;S3、判断标签中是否包含至少一组第一阈值数量以上的特征标签;S4、如果标签中包含至少一组第一阈值数量以上的特征标签,则判定目标页面中存在至少一个分栏特征;S5、获取至少一个分栏特征的左边界位置值以及右边界位置值;S6、如果至少一个分栏特征的左边界位置值与右边界位置值的间距大于间距阈值,则至少一个分栏特征为真,如果至少一个分栏特征的左边界位置值与右边界位置值的间距不大于间距阈值,则至少一个分栏特征为假;以及S7、如果至少一个分栏特征为真,判断目标页面的每行中至少一个分栏特征的左边界位置值与右边界位置值之间是否存在字符,如果存在,则判定该行未分栏,如果不存在,则判定该行分栏。
图6是本公开又一个实施方式的自动识别分栏的PDF文档处理方法的流程示意图。
如图6所示,自动识别分栏的PDF文档处理方法包括:S1、获取目标PDF文档的目标页面中的字符位置信息;S2、基于字符位置信息,在不连续的字符后设置标签;S3、判断标签中是否包含至少一组第一阈值数量以上的特征标签;S4、如果标签中包含至少一组第一阈值数量以上的特征标签,则判定目标页面中存在至少一个分栏特征;S5、获取至少一个分栏特征的左边界位置值以及右边界位置值;S6、如果至少一个分栏特征的左边界位置值与右边界位置值的间距大于间距阈值,则至少一个分栏特征为真,如果至少一个分栏特征的左边界位置值与右边界位置值的间距不大于间距阈值,则至少一个分栏特征为假;S7、如果至少一个分栏特征为真,判断目标页面的每行中至少一个分栏特征的左边界位置值与右边界位置值之间是否存在字符,如果存在,则判定该行未分栏,如果不存在,则判定该行分栏;以及S8、基于目标页面中的分栏的行和/或未分栏的行,将目标页面划分为分栏区域和/或未分栏区域。
图7是本公开又一个实施方式的自动识别分栏的PDF文档处理方法的流程示意图。
如图7所示,自动识别分栏的PDF文档处理方法包括:S1、获取目标PDF文档的目标页面中的字符位置信息;S2、基于字符位置信息,在不连续的字符后设置标签;S3、判断标签中是否包含至少一组第一阈值数量以上的特征标签;S4、如果标签中包含至少一组第一阈值数量以上的特征标签,则判定目标页面中存在至少一个分栏特征;S5、获取至少一个分栏特征的左边界位置值以及右边界位置值;S6、如果至少一个分栏特征的左边界位置值与右边界位置值的间距大于间距阈值,则至少一个分栏特征为真,如果至少一个分栏特征的左边界位置值与右边界位置值的间距不大于间距阈值,则至少一个分栏特征为假;S7、如果至少一个分栏特征为真,判断目标页面的每行中至少一个分栏特征的左边界位置值与右边界位置值之间是否存在字符,如果存在,则判定该行未分栏,如果不存在,则判定该行分栏;S8、基于目标页面中的分栏的行和/或未分栏的行,将目标页面划分为分栏区域和/或未分栏区域;以及S9、基于至少一个分栏特征的左边界位置值和/或右边界位置值,将分栏区域划分为至少两个分栏子区域。
图8是本公开又一个实施方式的自动识别分栏的PDF文档处理方法的流程示意图。
如图8所示,自动识别分栏的PDF文档处理方法包括:S1、获取目标PDF文档的目标页面中的字符位置信息;S2、基于字符位置信息,在不连续的字符后设置标签;S3、判断标签中是否包含至少一组第一阈值数量以上的特征标签;S4、如果标签中包含至少一组第一阈值数量以上的特征标签,则判定目标页面中存在至少一个分栏特征;S5、获取至少一个分栏特征的左边界位置值以及右边界位置值;S6、如果至少一个分栏特征的左边界位置值与右边界位置值的间距大于间距阈值,则至少一个分栏特征为真,如果至少一个分栏特征的左边界位置值与右边界位置值的间距不大于间距阈值,则至少一个分栏特征为假;S7、如果至少一个分栏特征为真,判断目标页面的每行中至少一个分栏特征的左边界位置值与右边界位置值之间是否存在字符,如果存在,则判定该行未分栏,如果不存在,则判定该行分栏;S8、基于目标页面中的分栏的行和/或未分栏的行,将目标页面划分为分栏区域和/或未分栏区域;以及S9、基于至少一个分栏特征的左边界位置值和/或右边界位置值,将分栏区域划分为至少两个分栏子区域;对于未分栏区域,进行行合并和/或段合并;对于分栏区域,在每个分栏子区域内进行行合并和/或段合并。
图9是本公开又一个实施方式的自动识别分栏的PDF文档处理方法的流程示意图。
如图9所示,自动识别分栏的PDF文档处理方法包括:S1、获取目标PDF文档的目标页面中的字符位置信息;S2、基于字符位置信息,在不连续的字符后设置标签;S3、判断标签中是否包含至少一组第一阈值数量以上的特征标签;S4、如果标签中包含至少一组第一阈值数量以上的特征标签,则判定目标页面中存在至少一个分栏特征;S5、获取至少一个分栏特征的左边界位置值以及右边界位置值;S6、如果至少一个分栏特征的左边界位置值与右边界位置值的间距大于间距阈值,则至少一个分栏特征为真,如果至少一个分栏特征的左边界位置值与右边界位置值的间距不大于间距阈值,则至少一个分栏特征为假;S7、如果至少一个分栏特征为真,判断目标页面的每行中至少一个分栏特征的左边界位置值与右边界位置值之间是否存在字符,如果存在,则判定该行未分栏,如果不存在,则判定该行分栏;S8、基于目标页面中的分栏的行和/或未分栏的行,将目标页面划分为分栏区域和/或未分栏区域;S9、基于至少一个分栏特征的左边界位置值和/或右边界位置值,将分栏区域划分为至少两个分栏子区域;对于未分栏区域,进行行合并和/或段合并;对于分栏区域,在每个分栏子区域内进行行合并和/或段合并;以及S10、判断每个分栏子区域的最后一行是否完整,如果不完整,则将该分栏子区域的最后一行与后续紧邻分栏子区域的第一行合并。
本公开的上述方法能够自动识别PDF文档中的分栏特征,避免按照单栏方法处理有分栏的文档造成的行合并和段落合并问题。例如PDF文档分为两栏的情形,如果左栏和右栏错位,会导致多行文字合并为一行,按照横坐标排序后,会有文字交叉的情况,非常影响阅读。按照本公开的上述方法进行分栏识别,有分栏的部分在栏内进行行合并,不会出现行合并错误的问题。
现有技术中,段落合并的一个重要规则是,将每行文字最后一个字符的右边缘值与页面的右边缘值对比,如果相差较小(小于阈值)认为不分段,否则分段。如果根据这种规则对有分栏的PDF文档进行段落合并,会将左栏和右栏合并为同一段落,文字顺序发生改变,非常影响阅读。按照本公开的上述方法进行分栏识别,有分栏的段落在栏内进行段落合并,能够有效避免左、右栏合并为一段。
本公开的PDF文档处理方法,可以判断PDF文档是否存在分栏,并将分栏的部分和不分栏的部分分开处理,分栏部分在栏内进行行合并和段落合并,避免了按不分栏文档处理方法对分栏文档进行行合并或段落合并出现的问题,提高了PDF文档行合并和段落合并的准确性。
图10是本公开的一个实施方式的自动识别分栏的PDF文档处理装置100的结构示意框图,包括:字符位置信息获取模块101,字符位置信息获取模块101获取目标PDF文档的目标页面中的字符位置信息;标签设置模块102,标签设置模块102基于字符位置信息,在不连续的字符后设置标签;特征标签判断模块103,特征标签判断模块103判断标签中是否包含至少一组第一阈值数量以上的特征标签;分栏判断模块104,分栏判断模块104进行如下判断:如果标签中包含至少一组第一阈值数量以上的特征标签,则判定目标页面中存在至少一个分栏特征;以及分栏边界获取模块105,分栏边界获取模块105获取至少一个分栏特征的左边界位置值以及右边界位置值。
根据本公开的优选实施方式,分栏判断模块104基于至少一个分栏特征的左边界位置值以及右边界位置值,判断至少一个分栏特征是否为真。
根据本公开的优选实施方式,分栏判断模块106还进行以下处理:如果至少一个分栏特征的左边界位置值与右边界位置值的间距大于间距阈值,则至少一个分栏特征为真,如果至少一个分栏特征的左边界位置值与右边界位置值的间距不大于间距阈值,则至少一个分栏特征为假。
根据本公开的优选实施方式,分栏判断模块106还进行以下处理:如果至少一个分栏特征为真,判断目标页面的每行中至少一个分栏特征的左边界位置值与右边界位置值之间是否存在字符,如果存在,则判定该行未分栏,如果不存在,则判定该行分栏。
图11是本公开的一个实施方式的自动识别分栏的PDF文档处理装置100的结构示意框图,在上述实施方式的自动识别分栏的PDF文档处理装置100的基础上,自动识别分栏的PDF文档处理装置100还包括分栏区域划分模块107,分栏区域划分模块107基于目标页面中的分栏的行和/或未分栏的行,将目标页面划分为分栏区域和/或未分栏区域。
根据本公开的优选实施方式,分栏区域划分模块107还基于至少一个分栏特征的左边界位置值和/或右边界位置值,将分栏区域划分为至少两个分栏子区域。
图12是本公开的一个实施方式的自动识别分栏的PDF文档处理装置100的结构示意框图,在上述实施方式的自动识别分栏的PDF文档处理装置100的基础上,自动识别分栏的PDF文档处理装置100还包括合并模块108,合并模块108对于未分栏区域,进行行合并和/或段合并。
根据本公开的优选实施方式,合并模块108还进行以下处理:对于分栏区域,在每个分栏子区域内进行行合并和/或段合并。
根据本公开的优选实施方式,合并模块108还进行以下处理:判断每个分栏子区域的最后一行是否完整,如果不完整,则将该分栏子区域的最后一行与后续紧邻分栏子区域的第一行合并。
上述实施方式中,优选地,分栏边界获取模块105基于至少一组第一阈值数量以上的特征标签的左边缘位置值和/或基于至少一组第一阈值数量以上的特征标签前一个字符的右边缘位置值,获取至少一个分栏特征的左边界位置值。
上述实施方式中,优选地,分栏边界获取模块105判断目标页面中是否存在第二阈值数量以上的短句的第一个字符的左边缘位置值大于分栏特征的左边界位置值,如果是,则基于第二阈值数量以上的短句的第一个字符的左边缘位置值获取分栏特征的右边界位置值。
本公开还提供一种电子设备,如图13所示,该设备包括:通信接口1000、存储器2000和处理器3000。通信接口1000用于与外界设备进行通信,进行数据交互传输。存储器2000内存储有可在处理器3000上运行的计算机程序。处理器3000执行计算机程序时实现上述实施方式中方法。存储器2000和处理器3000的数量可以为一个或多个。
存储器2000可以包括高速RAM存储器,也可以还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果通信接口1000、存储器2000及处理器3000独立实现,则通信接口1000、存储器2000及处理器3000可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口1000、存储器2000、及处理器3000集成在一块芯片上,则通信接口1000、存储器2000、及处理器3000可以通过内部接口完成相互间的通信。
在本说明书的描述中,参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。
Claims (10)
1.一种自动识别分栏的PDF文档处理方法,其特征在于,包括:
S1、获取目标PDF文档的目标页面中的字符位置信息;
S2、基于所述字符位置信息,在不连续的字符后设置标签;
S3、判断所述标签中是否包含至少一组第一阈值数量以上的特征标签;
S4、如果所述标签中包含至少一组第一阈值数量以上的特征标签,则判定所述目标页面中存在至少一个分栏特征;以及
S5、获取所述至少一个分栏特征的左边界位置值以及右边界位置值。
2.根据权利要求1所述的自动识别分栏的PDF文档处理方法,其特征在于,还包括:
S6、基于所述至少一个分栏特征的左边界位置值以及右边界位置值,判断所述至少一个分栏特征是否为真。
3.根据权利要求2所述的自动识别分栏的PDF文档处理方法,其特征在于,步骤S6中,如果所述至少一个分栏特征的左边界位置值与右边界位置值的间距大于间距阈值,则所述至少一个分栏特征为真,如果所述至少一个分栏特征的左边界位置值与右边界位置值的间距不大于间距阈值,则所述至少一个分栏特征为假。
4.根据权利要求2或3所述的自动识别分栏的PDF文档处理方法,其特征在于,还包括:
S7、如果所述至少一个分栏特征为真,判断所述目标页面的每行中所述至少一个分栏特征的左边界位置值与所述右边界位置值之间是否存在字符,如果存在,则判定该行未分栏,如果不存在,则判定该行分栏。
5.根据权利要求4所述的自动识别分栏的PDF文档处理方法,其特征在于,还包括:
S8、基于所述目标页面中的分栏的行和/或未分栏的行,将所述目标页面划分为分栏区域和/或未分栏区域。
6.根据权利要求5所述的自动识别分栏的PDF文档处理方法,其特征在于,还包括:
S9、基于所述至少一个分栏特征的左边界位置值和/或所述右边界位置值,将所述分栏区域划分为至少两个分栏子区域。
7.根据权利要求5所述的自动识别分栏的PDF文档处理方法,其特征在于,还包括:
S9、对于所述未分栏区域,进行行合并和/或段合并。
8.一种自动识别分栏的PDF文档处理装置,其特征在于,包括:
字符位置信息获取模块,所述字符位置信息获取模块获取目标PDF文档的目标页面中的字符位置信息;
标签设置模块,所述标签设置模块基于所述字符位置信息,在不连续的字符后设置标签;
特征标签判断模块,所述特征标签判断模块判断所述标签中是否包含至少一组第一阈值数量以上的特征标签;
分栏判断模块,所述分栏判断模块进行如下判断:如果所述标签中包含至少一组第一阈值数量以上的特征标签,则判定所述目标页面中存在至少一个分栏特征;以及
分栏边界获取模块,所述分栏边界获取模块获取所述至少一个分栏特征的左边界位置值以及右边界位置值。
9.一种电子设备,其特征在于,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行权利要求1至7中任一项所述的方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011074947.9A CN112380824B (zh) | 2020-10-09 | 2020-10-09 | 自动识别分栏的pdf文档处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011074947.9A CN112380824B (zh) | 2020-10-09 | 2020-10-09 | 自动识别分栏的pdf文档处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112380824A true CN112380824A (zh) | 2021-02-19 |
CN112380824B CN112380824B (zh) | 2022-02-22 |
Family
ID=74581160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011074947.9A Active CN112380824B (zh) | 2020-10-09 | 2020-10-09 | 自动识别分栏的pdf文档处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380824B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114495147A (zh) * | 2022-01-25 | 2022-05-13 | 北京百度网讯科技有限公司 | 识别方法、装置、设备以及存储介质 |
CN115344718A (zh) * | 2022-07-13 | 2022-11-15 | 北京庖丁科技有限公司 | 跨区域文档内容识别方法、装置、设备、介质和程序产品 |
CN116306575A (zh) * | 2023-05-10 | 2023-06-23 | 杭州恒生聚源信息技术有限公司 | 文档解析方法、文档解析模型训练方法、装置和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101540041A (zh) * | 2008-03-21 | 2009-09-23 | 中国科学院计算技术研究所 | 一种扫描文档浏览适配方法 |
CN108960210A (zh) * | 2018-08-10 | 2018-12-07 | 武汉优品楚鼎科技有限公司 | 一种研报板式识别和分割的方法、系统及装置 |
CN108959254A (zh) * | 2018-06-29 | 2018-12-07 | 中教汇据(北京)科技有限公司 | 一种用于期刊pdf文件中文章内容的解析方法 |
CN110069767A (zh) * | 2019-04-23 | 2019-07-30 | 掌阅科技股份有限公司 | 基于电子书的排版方法、电子设备及计算机存储介质 |
CN111444750A (zh) * | 2019-01-17 | 2020-07-24 | 珠海金山办公软件有限公司 | 一种pdf文档识别方法、装置及电子设备 |
-
2020
- 2020-10-09 CN CN202011074947.9A patent/CN112380824B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101540041A (zh) * | 2008-03-21 | 2009-09-23 | 中国科学院计算技术研究所 | 一种扫描文档浏览适配方法 |
CN108959254A (zh) * | 2018-06-29 | 2018-12-07 | 中教汇据(北京)科技有限公司 | 一种用于期刊pdf文件中文章内容的解析方法 |
CN108960210A (zh) * | 2018-08-10 | 2018-12-07 | 武汉优品楚鼎科技有限公司 | 一种研报板式识别和分割的方法、系统及装置 |
CN111444750A (zh) * | 2019-01-17 | 2020-07-24 | 珠海金山办公软件有限公司 | 一种pdf文档识别方法、装置及电子设备 |
CN110069767A (zh) * | 2019-04-23 | 2019-07-30 | 掌阅科技股份有限公司 | 基于电子书的排版方法、电子设备及计算机存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114495147A (zh) * | 2022-01-25 | 2022-05-13 | 北京百度网讯科技有限公司 | 识别方法、装置、设备以及存储介质 |
CN115344718A (zh) * | 2022-07-13 | 2022-11-15 | 北京庖丁科技有限公司 | 跨区域文档内容识别方法、装置、设备、介质和程序产品 |
CN115344718B (zh) * | 2022-07-13 | 2023-06-13 | 北京庖丁科技有限公司 | 跨区域文档内容识别方法、装置、设备、介质和程序产品 |
CN116306575A (zh) * | 2023-05-10 | 2023-06-23 | 杭州恒生聚源信息技术有限公司 | 文档解析方法、文档解析模型训练方法、装置和电子设备 |
CN116306575B (zh) * | 2023-05-10 | 2023-08-29 | 杭州恒生聚源信息技术有限公司 | 文档解析方法、文档解析模型训练方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112380824B (zh) | 2022-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112380824B (zh) | 自动识别分栏的pdf文档处理方法、装置、设备及存储介质 | |
EP3940589B1 (en) | Layout analysis method, electronic device and computer program product | |
CN114402354A (zh) | 一种图片识别翻译方法、装置、终端及介质 | |
CN112100979A (zh) | 基于电子书的排版处理方法、电子设备及存储介质 | |
US5832531A (en) | Method and apparatus for identifying words described in a page description language file | |
CN113343815B (zh) | 一种pdf等版式文档中识别表格的方法 | |
CN110263792B (zh) | 图像识读及数据处理方法、智能笔、系统及存储介质 | |
CN111460345B (zh) | 电子书籍加载展示方法、电子设备及存储介质 | |
CN112380812B (zh) | Pdf不完整框线表格提取方法、装置、设备及存储介质 | |
WO2021143058A1 (zh) | 基于图像的信息比对方法、装置、电子设备及计算机可读存储介质 | |
CN110956087B (zh) | 一种图片中表格的识别方法、装置、可读介质和电子设备 | |
CN104156345B (zh) | 识别便携文件格式文件中图注的方法和装置 | |
CN112100978B (zh) | 基于电子书的排版处理方法、电子设备及存储介质 | |
CN112699634B (zh) | 电子书的排版处理方法、电子设备及存储介质 | |
CN109101973B (zh) | 文字识别方法、电子设备、存储介质 | |
CN111695414A (zh) | 文档处理方法及装置、电子设备、计算机可读存储介质 | |
CN115983198A (zh) | 从pdf文档中提取页眉或者页脚的方法、装置和存储介质 | |
CN115935928A (zh) | 文档信息的提取方法和装置 | |
CN113011131B (zh) | 基于图片类电子书的排版方法、电子设备及存储介质 | |
CN112686000B (zh) | 电子书文档的格式转换方法、电子设备及存储介质 | |
CN112364640A (zh) | 实体名词链接方法、装置、计算机设备和存储介质 | |
CN113868411A (zh) | 合同比对方法、装置、存储介质及计算机设备 | |
CN113283233A (zh) | 文本纠错方法、装置、电子设备和存储介质 | |
CN113807416A (zh) | 一种模型训练方法、装置、电子设备以及存储介质 | |
CN112906347B (zh) | 文字排版方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhou Yu Inventor before: Zhou Yu Inventor before: Li Xiaoqing |