CN113807158A - 一种pdf内容提取方法、装置及设备 - Google Patents

一种pdf内容提取方法、装置及设备 Download PDF

Info

Publication number
CN113807158A
CN113807158A CN202011406023.4A CN202011406023A CN113807158A CN 113807158 A CN113807158 A CN 113807158A CN 202011406023 A CN202011406023 A CN 202011406023A CN 113807158 A CN113807158 A CN 113807158A
Authority
CN
China
Prior art keywords
information
pdf
content extraction
determining
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011406023.4A
Other languages
English (en)
Inventor
邓川
闾磊
黄甫毅
高阳
郄蓓蓓
陶鑫鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Medical Science And Technology Co ltd
Original Assignee
Sichuan Medical Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Medical Science And Technology Co ltd filed Critical Sichuan Medical Science And Technology Co ltd
Priority to CN202011406023.4A priority Critical patent/CN113807158A/zh
Publication of CN113807158A publication Critical patent/CN113807158A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种PDF内容提取方法,通过接收待处理PDF文件;根据所述待处理PDF文件确定PDF正文信息;根据所述PDF正文信息得到PDF内容提取信息。本发明通过对所述待处理PDF文件进行预处理,去除了PDF文件的页眉、页脚及页码等位于PDF文件边缘的格式信息,仅留下所述PDF正文信息,用于后续识别,相比与现有技术,缩小了后续程序要识别的图像大小,同时排除了起辅助阅读,但却不承载内容信息的页面边缘元素,仅留下与内容相关的PDF正文信息,大大提升了后续程序对内容的识别和提取效率,提升了后需内容识别的准确率。本发明同时还提供了一种具有上述有益效果的PDF内容提取装置、设备及计算机可读存储介质。

Description

一种PDF内容提取方法、装置及设备
技术领域
本发明涉及PDF识别领域,特别是涉及一种PDF内容提取方法、装置、设备及计算机可读存储介质。
背景技术
随着社会的发展,PDF(Portable Document Format)这种便携式文件格式,由于其能在常见的操作平台间迁移,且打印时能够可靠地还原文件的每一个字符及其颜色。在日常生活中,我们经常会将编辑好的文档转换为PDF格式,方便信息的可靠传播。特别是在近几十年的时间内,信息量不断攀升,大量的数据以PDF格式的形式涌现。当我们希望从海量的PDF文件中抽取感兴趣的内容时,却变得非常棘手。因为HTML、word等常见可读性较强的文件转换为PDF文件是非常容易的,而PDF文件要逆向转为可读性较强的文件就很难了。基于上面的情况,很多学者、企业都进行了PDF文字、PDF表格的提取,目前主要的工作集中在从规则引擎和深度学习的角度建立算法模型和解析系统,集中在对PDF页面的图像识别及文字识别,但往往效率较差,容易被页面上无关内容的页面元素干扰,降低内容识别及内容提取效率。
因此,如何解决PDF文档内容提取效率差及准确度低,是本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种PDF内容提取方法、装置、设备及计算机可读存储介质,以提高PDF文档的内容提取准确率及提取效率。
为解决上述技术问题,本发明提供一种PDF内容提取方法,包括:
接收待处理PDF文件;
根据所述待处理PDF文件确定PDF正文信息;
根据所述PDF正文信息得到PDF内容提取信息。
可选地,在所述的PDF内容提取方法中,所述根据所述待处理PDF文件确定PDF正文信息包括:
根据所述待处理PDF文件获取样品页面信息;
根据所述样品页面信息,利用机器学习模型获得页面信息特征图;
通过所述待处理PDF文件及所述页面信息特征图确定所述PDF 正文信息。
可选地,在所述的PDF内容提取方法中,所述根据所述PDF正文信息得到PDF内容提取信息包括:
利用所述PDF正文信息,通过预训练的页面布局模型得到待识别区块信息及与所述待识别区域信息对应的类别信息;
利用所述待识别区块,通过对应的类别信息对应的识别方法,得到所述PDF内容提取信息。
可选地,在所述的PDF内容提取方法中,所述利用所述待识别区块,通过对应的类别信息对应的识别方法,得到所述PDF内容提取信息包括:
当所述类别信息为文字块类信息时,获取所述待识别区块的段落开始信息及段落结束信息;
根据所述段落开始信息、所述段落结束信息及预设的书写顺序信息,确定所述PDF内容提取信息。
可选地,在所述的PDF内容提取方法中,所述根据所述段落开始信息、所述段落结束信息及预设的书写顺序信息,确定所述PDF内容提取信息包括:
获取文字分割线信息;
根据所述段落开始信息、所述段落结束信息、所述文字分割线信息及预设的书写顺序信息,确定所述PDF内容提取信息。
可选地,在所述的PDF内容提取方法中,所述利用所述待识别区块,通过对应的类别信息对应的识别方法,得到所述PDF内容提取信息包括:
当所述类别信息为表格类信息时,获取表格数据块坐标信息;
根据所述表格数据块信息确定单列横坐标信息;
根据所述表格数据块坐标信息及所述单列横坐标信息获得单行纵坐标信息;
根据所述表格数据块坐标信息、所述单列横坐标信息及所述单行纵坐标信息,确定所述PDF内容提取信息。
可选地,在所述的PDF内容提取方法中,所述根据所述表格数据块信息确定单列横坐标信息包括:
利用所述表格数据块信息,通过特征数为1的均值漂移算法,确定所述单列横坐标信息。
一种PDF内容提取装置,包括:
接收模块,用于接收待处理PDF文件;
正文确定模块,用于根据所述待处理PDF文件确定PDF正文信息;
提取模块,用于根据所述PDF正文信息得到PDF内容提取信息。
一种PDF内容提取设备,包括:
指令输入器,用于输入操作指令;
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述任一种所述的 PDF内容提取方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的 PDF内容提取方法的步骤。
本发明所提供的PDF内容提取方法,通过接收待处理PDF文件;根据所述待处理PDF文件确定PDF正文信息;根据所述PDF正文信息得到PDF内容提取信息。本发明通过对所述待处理PDF文件进行预处理,去除了PDF文件的页眉、页脚及页码等位于PDF文件边缘的格式信息,仅留下所述PDF正文信息,用于后续识别,相比与现有技术,缩小了后续程序要识别的图像大小,同时排除了起辅助阅读,但却不承载内容信息的页面边缘元素,仅留下与内容相关的PDF正文信息,大大提升了后续程序对内容的识别和提取效率,同时由于去除了页眉页脚等干扰信息,还提升了后需内容识别的准确率。本发明同时还提供了一种具有上述有益效果的PDF内容提取装置、设备及计算机可读存储介质。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的PDF内容提取方法的一种具体实施方式的流程示意图;
图2为本发明提供的PDF内容提取方法的另一种具体实施方式的流程示意图;
图3为本发明提供的PDF内容提取方法的又一种具体实施方式的流程示意图;
图4为本发明提供的PDF内容提取方法的还一种具体实施方式的流程示意图;
图5为本发明提供的PDF内容提取方法的再一种具体实施方式的流程示意图;
图6为本发明提供的PDF内容提取装置的一种具体实施方式的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的核心是提供一种PDF内容提取方法,其一种具体实施方式的流程示意图如图1所示,称其为具体实施方式一,包括:
S101:接收待处理PDF文件。
S102:根据所述待处理PDF文件确定PDF正文信息。
上述通过所述待处理PDF文件确定所述PDF正文信息,可通过机器学习的方法实现,如通过LSTM结构或CNN神经网络训练,实现通过对同一PDF文档中的几页样品页的学习,寻找样品页之间的共性,进而实现自动排除页眉、页脚及页码等信息,只留下PDF正文信息;或者,也可根据预设规则直接对PDF页面进行裁剪,如将PDF 页面上下两端的预设长度的图像裁去,将剩余的图像作为所述PDF正文信息,当然,也可根据实际情况采用其他方法。
S103:根据所述PDF正文信息得到PDF内容提取信息。
所述PDF正文信息可能包括正文文本、表格、标题、注释、图像等信息,可分别对其进行定位分类,并根据分类结果对其进行结构化。
本发明的目的在于使用深度学习算法对PDF的页面布局进行识别,即对正文文本、标题、注释、表格、图像等信息进行定位分类,根据分类结果对标题、正文文本区域进行文字提取并结构化;根据表格区域的位置,提取表格的元数据对表格进行结构化。PDF页面布局的深度学习模型我们使用yolov4的模型架构。为了让模型适用于PDF 文档,本发明添加了一个预处理模块,它通过卷积网络生成目标页面的特征图,通过一个LSTM的结构提取PDF的页面布局风格,这里的布局特点也是用一个特征图进行表示,然后将两个特征图融合,送入yolov4进行计算,得到页面内容的位置及其类别。基于页面的位置信息就可以进行截图,使用OCR相关的深度学习模型进行文字提取(包含文本在截图中的位置信息)。最后根据类别信息进行文本的格式化和表格的格式化。
本发明所提供的PDF内容提取方法,通过接收待处理PDF文件;根据所述待处理PDF文件确定PDF正文信息;根据所述PDF正文信息得到PDF内容提取信息。本发明通过对所述待处理PDF文件进行预处理,去除了PDF文件的页眉、页脚及页码等位于PDF文件边缘的格式信息,仅留下所述PDF正文信息,用于后续识别,相比与现有技术,缩小了后续程序要识别的图像大小,同时排除了起辅助阅读,但却不承载内容信息的页面边缘元素,仅留下与内容相关的PDF正文信息,大大提升了后续程序对内容的识别和提取效率,同时由于去除了页眉页脚等干扰信息,还提升了后需内容识别的准确率。
在具体实施方式一的基础上,进一步对所述PDF正文信息的获取方法做限定,得到具体实施方式二,其流程示意图如图2所示,包括:
S201:接收待处理PDF文件。
本具体实施方式中的待处理PDF文件,为每一页都转换为图片的 PDF文件,其中,同一PDF生成的图片文件可存储在同一路径下。所述图片可经PDFBOX、PYMUPDF等开源架构获得。
S202:根据所述待处理PDF文件获取样品页面信息。
所述样品页面信息为用于提取页面信息特征的页面图片文件,由于同一PDF文件的页眉、页脚等非正文内容大致相同,不需要过多页数就能提取到相应的页面信息特征,因此所述样品页面信息通常为 3~4页PDF页面图片的信息,为了方便,一般都为从首页开始的向后采样,即待处理PDF文件的前N页(N为大于零的正整数),当后续页面不足时可以向前采样;若都不满足,即整个PDF文档都没有N 页时,采取尽可能多地获取页面,不足的位置用<token>或page1替代。 <token>为同page1一样大小的图片对象,其读入的张量(图片对应的高维数组)元数据为0。
S203:根据所述样品页面信息,利用机器学习模型获得页面信息特征图。
所述机器学习模型包括计算机深度学习模型或知识引擎等计算机技术,其中,可利用所述计算机深度学习模型的卷积神经网络通过所述样品页面信息获得所述页面信息特征图,依旧用上文举例,如所述样品页面信息包括四页PDF,分别命名为page1、page2、page3、 page4,让page1~page4都经过CNN(卷积神经网络)的处理并合并形成layout_weight特征图,将layout_weight特征图再经过一个CNN结构的处理,使其与所述待处理PDF文件中单页图像文件经CNN处理后的大小一致,即得到所述页面信息特征图。
S204:通过所述待处理PDF文件及所述页面信息特征图确定所述 PDF正文信息。
将所述待处理PDF文件的每一页的图片文件依次与上述页面信息特征图相乘,得到page_attention_feature_map, page_attention_feature_map的主要作用是将读入的页面原始特征图降维、利用同一PDF的页面布局相关性生成了页面的区域注意力特征图,通过判断注意力分布,确定所述PDF正文信息。
S205:根据所述PDF正文信息得到PDF内容提取信息。
从所述PDF正文信息提取所述PDF内容提取信息的方法,可以采用预训练的页面布局模型,其模型可为yolov4模型。
本具体实施方式中具体给出了一种所述PDF正文信息的获取方法,通过预训练的机器学习模型获得所述待处理PDF文件的页面信息特征图,进而确定哪里是PDF的正文内容,哪里是需要舍去的页眉、页脚等元素,高准确率地提取所述PDF正文信息,且拥有较大的适用性。
在具体实施方式二的基础上,进一步对所述PDF内容提取信息的获得方法做限定,得到具体实施方式三,其流程示意图如图3所示,包括:
S301:接收待处理PDF文件。
S302:根据所述待处理PDF文件获取样品页面信息。
S303:根据所述样品页面信息,利用机器学习模型获得页面信息特征图。
S304:通过所述待处理PDF文件及所述页面信息特征图确定所述 PDF正文信息。
S305:利用所述PDF正文信息,通过预训练的页面布局模型得到待识别区块信息及与所述待识别区域信息对应的类别信息。
所述类别信息可看做对所述待识别区块信息的标注,将所述待识别区块信息分类为正文文本区块、图像区块或表格区块等。
S306:利用所述待识别区块,通过对应的类别信息对应的识别方法,得到所述PDF内容提取信息。
本具体实施方式在具体实施方式二的基础上,进一步深度展开描述了通过所述页面布局模型获得做主PDF内容提取信息的过程,其中,所述页面布局模型可通过基于本公司历史标注数据、其他领域相关的公开数据集,准备训练、验证数据集。
训练过程中可将所述机器学习模型与所述页面布局模型进行整合,统一训练,而作为一种优选实施方式,
在模型训练过程中,数据是不平衡的,而当前任务关注的重点恰好是那些数据量小的类型,如:表格、标题。为了让模型能更好地学习到这些区域的特征,在损失函数中加入一个影响因子,增大这些类别的学习能力。
此模型的损失函数主要分为三部分:边框的损失、分类的损失、置信度的损失。Yolov4的边框损失是使用的CIoU损失,这部分不需要做任何修改;置信度损失,也不需要更改,因为在置信度方面都是置信度越高越好,没有类别之间的差别;本发明要修改的就是分类造成的类别损失。
修改后的类别损失函数:
Figure BDA0002818544950000081
其中为Φ(c)类别的影响因子,
Figure BDA0002818544950000082
是属于类别c的交叉熵损失,乘以一个影响因子就是为了区分不同类别的重要度。
本具体实施方式中通过所述页面布局模型对所述PDF正文信息进行提取,将所述PDF正文信息分为一个或多个待识别区块信息,每个待识别区块信息都对应一个对其类别进行标注的类别信息,并对不同类别的待识别区块,调用不同的识别方法提取所述PDF内容提取信息。当然,当所述待处理PDF文件的PDF正文信息包括多种类别的待识别区块(如正文文本、图像、表格等),则最后输出的PDF内容提取信息可为通过各个待识别区块得到的所述PDF内容提取信息的集合。针对不同类别采用不同内容提取方法,大大提升了最后提取的所述PDF内容提取信息的准确性。
在具体实施方式三的基础上,进一步对特定类型的PDF内容提取信息的获得方法做限定,得到具体实施方式四,其流程示意图如图4 所示,包括:
S401:接收待处理PDF文件。
S402:根据所述待处理PDF文件获取样品页面信息。
S403:根据所述样品页面信息,利用机器学习模型获得页面信息特征图。
S404:通过所述待处理PDF文件及所述页面信息特征图确定所述 PDF正文信息。
S405:利用所述PDF正文信息,通过预训练的页面布局模型得到待识别区块信息及与所述待识别区域信息对应的类别信息。
S406:当所述类别信息为文字块类信息时,获取所述待识别区块的段落开始信息及段落结束信息。
可使用预训练好的OCR深度学习模型进行文字识别和区域定位,得到类别信息为正文文本的待识别区块。进一步地,将数据整理为json 类型数据方便存贮和调用。
所述段落开始信息及所述段落结束信息,为匹配文字块的开头与结尾,根据规则判断当前文字块是否是段落开始、段落结束,所述规则可为依据开头是否有首行缩进,最后是否换行等规则判断。
S407:根据所述段落开始信息、所述段落结束信息及预设的书写顺序信息,确定所述PDF内容提取信息。
所述书写顺序信息即为反应文字阅读顺序的信息,如自上而下、从左到右的顺序,程序可根据预设的书写顺序将多个文字块类信息按其在PDF页面上的位置分布排序,生成正文内容。
作为一种优选实施方式,所述根据所述段落开始信息、所述段落结束信息及预设的书写顺序信息,确定所述PDF内容提取信息包括:
获取文字分割线信息;
根据所述段落开始信息、所述段落结束信息、所述文字分割线信息及预设的书写顺序信息,确定所述PDF内容提取信息。
若存在纵向有文档区域分割的情况,那么通过识别分割、前后文字块的纵向距离等特征就可以实现横向跳跃。程序是循环执行不同的文字块匹配工作的,为了让程序能够自适应换列,本发明在规则中添加了一个deadline,若有纵向分割(比如出现宽度超过预设值的空白地带),则将deadline设置为分割的纵向中心线,匹配的下一个文字块必须是deadline之上的。若deadline之上的文字块已经取完则重置 deadline=0,一直匹配到当前页面所有目标类型的文字块连接完成,即所有文字块都被匹配了。经过上述步骤,PDF文档的每一页都是满足阅读顺序的,当然,正文文本被横向分隔的文档也同样适用,在检测到文字分割线后,结合各个待识别区域信息的位置、开始信息、结束信息,确定所述待识别区域内文本的排列顺序,举例说明如存在横向分割线将一页内的正文文本分为左右两部分,则可依据先将左侧文本块按从上到下的顺序提取,再将右侧的文本块按从上到下的顺序提取。
需要注意的是,使用OCR识别文字这个task也可以放到所述页面布局模型中的head部分,让模型进行区域定位、区域分类的同时进行文字提取。使用多个task的模型更有利于提高模型的性能,而我们需要做的只是加一个文字识别分支和添加文字识别的损失函数。
本具体实施方式中,主要是基于文本块的位置、书写顺序、文字是否是开头与结尾等信息进行整合,具体限定了所述待识别区块信息为文字块类信息,即正文文本时的内容提取方法,在识别文字的基础上,还引入了不同位置的文字块之间的读取、拼接顺序的确定方法,使最后提取到的正文文本文字通顺,不需要二次排序,大大提高了内容提取效率。
在具体实施方式三的基础上,进一步对讨论当所述PDF内容提取信息为表格时的操作方法,得到具体实施方式五,其流程示意图如图 5所示,包括:
S501:接收待处理PDF文件。
S502:根据所述待处理PDF文件获取样品页面信息。
S503:根据所述样品页面信息,利用机器学习模型获得页面信息特征图。
S504:通过所述待处理PDF文件及所述页面信息特征图确定所述 PDF正文信息。
S505:利用所述PDF正文信息,通过预训练的页面布局模型得到待识别区块信息及与所述待识别区域信息对应的类别信息。
S506:当所述类别信息为表格类信息时,获取表格数据块坐标信息。
S507:根据所述表格数据块信息确定单列横坐标信息。
作为一种优选实施方式,利用所述表格数据块信息,通过特征数为1的均值漂移算法,确定所述单列横坐标信息,其具体操作方法如下:
基于聚类算法确定表格的列数。参与聚类的数据为:表格区域的文字块横坐标起点;或者表格区域的文字块横坐标中点。聚类算法主要是根据数据的聚集性进行分类,关于两组数据的选择可以根据如下的规则进行选择:若有大量的文字块左边界对齐(边界使用软边界),则使用横坐标起点数据集进行聚类;若有大量文字块横坐标中点对齐,则使用对应的数据集进行聚类。上文中的“大量”可以根据对齐的比例阈值进行判定,对齐比例阈值不需要设置的很高,表格数据的列分割一般较明确,使用聚类算法可以将一列数据聚拢,任务本身难度不大。
如果你能知道有几列,使用K-means算法是很好的选择,但是对于一个非指定的PDF表格类型,模型必须自适应寻找表格的列数。本发明根据均值漂移算法的思想提出一种在特征数为1的均值漂移算法 Mean-models-shift1。均值漂移聚类算法主要是针对多维空间中的样本进行聚类,主要的参数有均值漂移的滑动窗口半径r,这个参数在算法中是辅助寻找均值中心的参数,实际运算中半径的设置并不会对算法结果产生较大影响。在一维特征的情况下,更改相关参数及规则得到Mean-models-shift1算法,包括:
1)确定一个一维窗口半径r,在样本分布的区间内随机生成最多 len(x)/2个中心点。
2)对每个中心点生成一个半径为r的滑动窗口开始滑动;每次滑倒一个新的区域,计算滑动窗口内的均值(或众数)作为新的中心点,并更新为当前滑窗的中心。滑窗内的样本数记为滑窗内的样本密度,则算法总是会将滑窗的中心向密度高的点移动。
3)当多个窗口重叠时,则保留高密度的滑动窗口。
4)对窗口进行更新迭代,直到窗口的密度不再发生变化。
其中,x为聚类对象,其特征数为1,len(x)即为样本量,最后输出对象为聚类后的类别中心。
另外,若使用众数models作为新的窗口,则输入的x需要进行预处理,即设置一个阈值,将相近的点进行同一化处理。
本具体实施方式主要使用聚类算法求出表格列的标识点,根据聚类结果进行分列,行的区分主要是基于表格行数据是水平对齐的,先对数据按纵坐标进行排序,然后基于规则进行行划分。
根据中心点从原始数据中获取当前列的数据块,观察是否存在同一行的数据块,若没有就保持当前的列划分,若同一行存在多个数据块的出现次数大于设定的阈值时就拆分此列,阈值与表格数据的列数相关。
S508:根据所述表格数据块坐标信息及所述单列横坐标信息获得单行纵坐标信息。
具体地,根据数据块的上边界纵坐标、下边界纵坐标,使用一个软边界误差即可判定当前数据是否为同一行,所述软边界指允许存在一定边界对齐的误差范围,不要求完全对齐。其中,所述上边界纵坐标及所述下边界纵坐标为从所述表格数据块的最上端及最下端分别向上、向下延伸预设距离确定的纵坐标。
更进一步地,需要特别注意的是,表格中可能存在跨行数据块,若某个数据块与当前行没有对齐,但是其上边界大于当前行的下边界,其下边界小于下一行的上边界,即处理两行之间的数据块,标注其为跨行数据块,并标注关联的行的行号信息。
特别需要注意的是,表格中可能存在跨列数据块,可在获得所述单行纵坐标信息后,根据中心点从原始数据中获取当前列的数据块,观察是否存在同一行的数据块,若没有就保持当前的列划分,若同一行存在多个数据块的出现次数大于设定的阈值时就拆分此列,其中,阈值与表格数据的列数相关。
S509:根据所述表格数据块坐标信息、所述单列横坐标信息及所述单行纵坐标信息,确定所述PDF内容提取信息。
现在的PDF文档排版比较复杂,没有较固定的格式,特别是表格对象在很多学科领域内都在使用三线表,对于无边框表格,目前的表格提取方法都存在很大的问题,主要表现为数据单元划分不准确、列区分很差,识别结果将列合并的情况大概率发生,而本具体实施方式中基于横坐标的聚类算法实际上是将数据进行了降维,消除了纵坐标的影响,因为分列主要是横坐标,纵坐标没有影响,所以此操作并没有损失分列任务的信息量,通过横坐标聚类算法得到的表格的列信息更加精准,同时提高了处理效率,此外,由于本具体实施方式中不再寻找标定的表格边框,而是直接根据所述表格数据块信息的坐标确定单元格的“软边框”,得到的表格排版与单元格之间的位置关系也更准确。
下面对本发明实施例提供的PDF内容提取装置进行介绍,下文描述的PDF内容提取装置与上文描述的PDF内容提取方法可相互对应参照。
图6为本发明实施例提供的PDF内容提取装置的结构框图,参照图6 PDF内容提取装置可以包括:
接收模块100,用于接收待处理PDF文件;
正文确定模块200,用于根据所述待处理PDF文件确定PDF正文信息;
提取模块300,用于根据所述PDF正文信息得到PDF内容提取信息。
作为一种优选实施方式,所述正文确定模块200包括:
样品获取单元,用于根据所述待处理PDF文件获取样品页面信息;
页面特征单元,用于根据所述样品页面信息,利用机器学习模型获得页面信息特征图;
正文单元,用于通过所述待处理PDF文件及所述页面信息特征图确定所述PDF正文信息。
作为一种优选实施方式,所述提取模块300包括:
区块类别确定单元,用于利用所述PDF正文信息,通过预训练的页面布局模型得到待识别区块信息及与所述待识别区域信息对应的类别信息;
提取单元,用于利用所述待识别区块,通过对应的类别信息对应的识别方法,得到所述PDF内容提取信息。
作为一种优选实施方式,所述提取模块300包括:
文字始终确定单元,用于当所述类别信息为文字块类信息时,获取所述待识别区块的段落开始信息及段落结束信息;
文字内容提取单元,用于根据所述段落开始信息、所述段落结束信息及预设的书写顺序信息,确定所述PDF内容提取信息。
作为一种优选实施方式,所述提取模块300包括:
分割线确定单元,用于获取文字分割线信息;
分割线文字提取单元,用于根据所述段落开始信息、所述段落结束信息、所述文字分割线信息及预设的书写顺序信息,确定所述PDF 内容提取信息。
作为一种优选实施方式,所述提取模块300包括:
表格数据块确定单元,用于当所述类别信息为表格类信息时,获取表格数据块坐标信息;
单列横坐标确定单元,用于根据所述表格数据块信息确定单列横坐标信息;
但行纵坐标确定单元,用于根据所述表格数据块坐标信息及所述单列横坐标信息获得单行纵坐标信息;
表格内容提取单元,用于根据所述表格数据块坐标信息、所述单列横坐标信息及所述单行纵坐标信息,确定所述PDF内容提取信息。
作为一种优选实施方式,所述提取模块300包括:
均值漂移单元,用于利用所述表格数据块信息,通过特征数为1 的均值漂移算法,确定所述单列横坐标信息。
本发明所提供的PDF内容提取装置,通过接收模块100,用于接收待处理PDF文件;正文确定模块200,用于根据所述待处理PDF文件确定PDF正文信息;提取模块300,用于根据所述PDF正文信息得到PDF内容提取信息。本发明通过对所述待处理PDF文件进行预处理,去除了PDF文件的页眉、页脚及页码等位于PDF文件边缘的格式信息,仅留下所述PDF正文信息,用于后续识别,相比与现有技术,缩小了后续程序要识别的图像大小,同时排除了起辅助阅读,但却不承载内容信息的页面边缘元素,仅留下与内容相关的PDF正文信息,大大提升了后续程序对内容的识别和提取效率,同时由于去除了页眉页脚等干扰信息,还提升了后需内容识别的准确率。
本实施例的PDF内容提取装置用于实现前述的PDF内容提取方法,因此PDF内容提取装置中的具体实施方式可见前文中的PDF内容提取方法的实施例部分,例如,接收模块100100,正文确定模块 200200,提取模块300300,分别用于实现上述PDF内容提取方法中步骤S101,S102和S103,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
一种PDF内容提取设备,包括:
指令输入器,用于输入操作指令;
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述任一种所述的 PDF内容提取方法的步骤。本发明所提供的PDF内容提取方法,通过接收待处理PDF文件;根据所述待处理PDF文件确定PDF正文信息;根据所述PDF正文信息得到PDF内容提取信息。本发明通过对所述待处理PDF文件进行预处理,去除了PDF文件的页眉、页脚及页码等位于PDF文件边缘的格式信息,仅留下所述PDF正文信息,用于后续识别,相比与现有技术,缩小了后续程序要识别的图像大小,同时排除了起辅助阅读,但却不承载内容信息的页面边缘元素,仅留下与内容相关的PDF正文信息,大大提升了后续程序对内容的识别和提取效率,同时由于去除了页眉页脚等干扰信息,还提升了后需内容识别的准确率。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的 PDF内容提取方法的步骤。本发明所提供的PDF内容提取方法,通过接收待处理PDF文件;根据所述待处理PDF文件确定PDF正文信息;根据所述PDF正文信息得到PDF内容提取信息。本发明通过对所述待处理PDF文件进行预处理,去除了PDF文件的页眉、页脚及页码等位于PDF文件边缘的格式信息,仅留下所述PDF正文信息,用于后续识别,相比与现有技术,缩小了后续程序要识别的图像大小,同时排除了起辅助阅读,但却不承载内容信息的页面边缘元素,仅留下与内容相关的PDF正文信息,大大提升了后续程序对内容的识别和提取效率,同时由于去除了页眉页脚等干扰信息,还提升了后需内容识别的准确率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程 ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的PDF内容提取方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种PDF内容提取方法,其特征在于,包括:
接收待处理PDF文件;
根据所述待处理PDF文件确定PDF正文信息;
根据所述PDF正文信息得到PDF内容提取信息。
2.如权利要求1所述的PDF内容提取方法,其特征在于,所述根据所述待处理PDF文件确定PDF正文信息包括:
根据所述待处理PDF文件获取样品页面信息;
根据所述样品页面信息,利用机器学习模型获得页面信息特征图;
通过所述待处理PDF文件及所述页面信息特征图确定所述PDF正文信息。
3.如权利要求1所述的PDF内容提取方法,其特征在于,所述根据所述PDF正文信息得到PDF内容提取信息包括:
利用所述PDF正文信息,通过预训练的页面布局模型得到待识别区块信息及与所述待识别区域信息对应的类别信息;
利用所述待识别区块,通过对应的类别信息对应的识别方法,得到所述PDF内容提取信息。
4.如权利要求3所述的PDF内容提取方法,其特征在于,所述利用所述待识别区块,通过对应的类别信息对应的识别方法,得到所述PDF内容提取信息包括:
当所述类别信息为文字块类信息时,获取所述待识别区块的段落开始信息及段落结束信息;
根据所述段落开始信息、所述段落结束信息及预设的书写顺序信息,确定所述PDF内容提取信息。
5.如权利要求4所述的PDF内容提取方法,其特征在于,所述根据所述段落开始信息、所述段落结束信息及预设的书写顺序信息,确定所述PDF内容提取信息包括:
获取文字分割线信息;
根据所述段落开始信息、所述段落结束信息、所述文字分割线信息及预设的书写顺序信息,确定所述PDF内容提取信息。
6.如权利要求3所述的PDF内容提取方法,其特征在于,所述利用所述待识别区块,通过对应的类别信息对应的识别方法,得到所述PDF内容提取信息包括:
当所述类别信息为表格类信息时,获取表格数据块坐标信息;
根据所述表格数据块信息确定单列横坐标信息;
根据所述表格数据块坐标信息及所述单列横坐标信息获得单行纵坐标信息;
根据所述表格数据块坐标信息、所述单列横坐标信息及所述单行纵坐标信息,确定所述PDF内容提取信息。
7.如权利要求6所述的PDF内容提取方法,其特征在于,所述根据所述表格数据块信息确定单列横坐标信息包括:
利用所述表格数据块信息,通过特征数为1的均值漂移算法,确定所述单列横坐标信息。
8.一种PDF内容提取装置,其特征在于,包括:
接收模块,用于接收待处理PDF文件;
正文确定模块,用于根据所述待处理PDF文件确定PDF正文信息;
提取模块,用于根据所述PDF正文信息得到PDF内容提取信息。
9.一种PDF内容提取设备,其特征在于,包括:
指令输入器,用于输入操作指令;
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的PDF内容提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的PDF内容提取方法的步骤。
CN202011406023.4A 2020-12-04 2020-12-04 一种pdf内容提取方法、装置及设备 Pending CN113807158A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011406023.4A CN113807158A (zh) 2020-12-04 2020-12-04 一种pdf内容提取方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011406023.4A CN113807158A (zh) 2020-12-04 2020-12-04 一种pdf内容提取方法、装置及设备

Publications (1)

Publication Number Publication Date
CN113807158A true CN113807158A (zh) 2021-12-17

Family

ID=78943556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011406023.4A Pending CN113807158A (zh) 2020-12-04 2020-12-04 一种pdf内容提取方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113807158A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115048350A (zh) * 2022-08-15 2022-09-13 国泰新点软件股份有限公司 投标文件pdf格式化自动整合的方法
CN115497115A (zh) * 2022-11-03 2022-12-20 杭州实在智能科技有限公司 基于深度学习的页眉页脚检测方法及系统
CN117473980A (zh) * 2023-11-10 2024-01-30 中国医学科学院医学信息研究所 一种便携式文档格式文件的结构化解析方法及相关产品

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101986290A (zh) * 2010-06-30 2011-03-16 汉王科技股份有限公司 电子阅读器文档排版方法及电子阅读器
US9418315B1 (en) * 2016-03-14 2016-08-16 Sageworks, Inc. Systems, methods, and computer readable media for extracting data from portable document format (PDF) files
US20160247020A1 (en) * 2013-03-19 2016-08-25 Fujian Foxit Software Development Joint Stock Co., Ltd. A method for identifying pdf document
WO2019071662A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、票据信息识别方法和计算机可读存储介质
CN109961008A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN110334585A (zh) * 2019-05-22 2019-10-15 平安科技(深圳)有限公司 表格识别方法、装置、计算机设备和存储介质
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110609998A (zh) * 2019-08-07 2019-12-24 中通服建设有限公司 一种电子文档信息的数据提取方法、电子设备及存储介质
CN110991403A (zh) * 2019-12-19 2020-04-10 同方知网(北京)技术有限公司 一种基于视觉深度学习的文档信息碎片化抽取方法
CN111680491A (zh) * 2020-05-27 2020-09-18 北京字节跳动科技有限公司 文档信息的抽取方法、装置和电子设备
CN111737969A (zh) * 2020-07-27 2020-10-02 北森云计算有限公司 一种基于深度学习的简历解析方法和系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101986290A (zh) * 2010-06-30 2011-03-16 汉王科技股份有限公司 电子阅读器文档排版方法及电子阅读器
US20160247020A1 (en) * 2013-03-19 2016-08-25 Fujian Foxit Software Development Joint Stock Co., Ltd. A method for identifying pdf document
US9418315B1 (en) * 2016-03-14 2016-08-16 Sageworks, Inc. Systems, methods, and computer readable media for extracting data from portable document format (PDF) files
WO2019071662A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、票据信息识别方法和计算机可读存储介质
CN109961008A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN110334585A (zh) * 2019-05-22 2019-10-15 平安科技(深圳)有限公司 表格识别方法、装置、计算机设备和存储介质
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110609998A (zh) * 2019-08-07 2019-12-24 中通服建设有限公司 一种电子文档信息的数据提取方法、电子设备及存储介质
CN110991403A (zh) * 2019-12-19 2020-04-10 同方知网(北京)技术有限公司 一种基于视觉深度学习的文档信息碎片化抽取方法
CN111680491A (zh) * 2020-05-27 2020-09-18 北京字节跳动科技有限公司 文档信息的抽取方法、装置和电子设备
CN111737969A (zh) * 2020-07-27 2020-10-02 北森云计算有限公司 一种基于深度学习的简历解析方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WANG XIAO-JUAN: "Extraction of text content from PDF documents based on automaton theory", JOURNAL OF COMPUTER APPLICATIONS, vol. 32, no. 9, pages 2491 - 5 *
张笑文: "基于知识图谱的OCR转换文本纠错方法研究与应用", 中国优秀硕士学位论文全文数据库(信息科技辑), no. 2020, pages 138 - 321 *
张青: "文档图像的版面分析与文本行提取算法研究", 中国优秀硕士学位论文全文数据库(信息科技辑), no. 2020, pages 138 - 1882 *
晏文坛: "半结构化中文简历的信息抽取", 中国优秀硕士学位论文全文数据库(信息科技辑), no. 2018, pages 138 - 2103 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115048350A (zh) * 2022-08-15 2022-09-13 国泰新点软件股份有限公司 投标文件pdf格式化自动整合的方法
CN115497115A (zh) * 2022-11-03 2022-12-20 杭州实在智能科技有限公司 基于深度学习的页眉页脚检测方法及系统
CN115497115B (zh) * 2022-11-03 2024-03-15 杭州实在智能科技有限公司 基于深度学习的页眉页脚检测方法及系统
CN117473980A (zh) * 2023-11-10 2024-01-30 中国医学科学院医学信息研究所 一种便携式文档格式文件的结构化解析方法及相关产品

Similar Documents

Publication Publication Date Title
CN111737969B (zh) 一种基于深度学习的简历解析方法和系统
US7899249B2 (en) Media material analysis of continuing article portions
CN107291723B (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN113807158A (zh) 一种pdf内容提取方法、装置及设备
US20090144277A1 (en) Electronic table of contents entry classification and labeling scheme
CN109858036B (zh) 一种文书划分方法及装置
US9141853B1 (en) System and method for extracting information from documents
CN111274239A (zh) 试卷结构化处理方法、装置和设备
CN101326518A (zh) 用于墨水笔记的手写体识别
CN112434496B (zh) 一种公告文档表格数据识别方法及终端
CN111797630A (zh) 一种面向pdf格式论文的生物医学实体识别方法
CN116822634A (zh) 一种基于布局感知提示的文档视觉语言推理方法
JP2006309347A (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
Yuan et al. An opencv-based framework for table information extraction
CN114155547B (zh) 一种图表识别方法、装置、设备及存储介质
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN114581934A (zh) 试卷图像的处理方法、装置及设备
CN115205881A (zh) 一种表格识别方法、设备及介质
CN110533035B (zh) 基于文本匹配的学生作业页码识别方法
CN116070596B (zh) 基于动态数据的pdf文件生成方法、装置及相关介质
CN115359495B (zh) 试卷信息处理方法和系统
CN110019761B (zh) 抽取学者学术画像基本信息的方法与装置
JP3374762B2 (ja) 文字認識方法及びその装置
CN115759020A (zh) 表格信息提取方法、表格模板配置方法和电子设备
Gray Measuring Linguistic and Cultural Evolution Using Books and Tweets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination