CN111259623A - 一种基于深度学习的pdf文档段落自动提取系统及装置 - Google Patents

一种基于深度学习的pdf文档段落自动提取系统及装置 Download PDF

Info

Publication number
CN111259623A
CN111259623A CN202010022116.0A CN202010022116A CN111259623A CN 111259623 A CN111259623 A CN 111259623A CN 202010022116 A CN202010022116 A CN 202010022116A CN 111259623 A CN111259623 A CN 111259623A
Authority
CN
China
Prior art keywords
pdf document
paragraph
initial
pdf
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010022116.0A
Other languages
English (en)
Inventor
宋永生
吴义黄
王楠
王逸飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu United Industrial Ltd By Share Ltd
Original Assignee
Jiangsu United Industrial Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu United Industrial Ltd By Share Ltd filed Critical Jiangsu United Industrial Ltd By Share Ltd
Priority to CN202010022116.0A priority Critical patent/CN111259623A/zh
Publication of CN111259623A publication Critical patent/CN111259623A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于深度学习的PDF文档段落自动提取系统及装置,通过获得一定量的初始PDF文档数据,将所述初始PDF文档数据转化为二次PDF文档;根据二次PDF文档中加入的段落结构标记符号与PDF文档解析工具,确定二次PDF文档的段落属性特征;判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小;当所述影响程度高于预定影响因子指数时,获得关键段落属性特征;根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,所述最终提取模型提取初始PDF文档数据的段落,达到了提高PDF文档段落提取的准确性,泛化性强,能够适用于不同的复杂PDF文档的技术效果。

Description

一种基于深度学习的PDF文档段落自动提取系统及装置
技术领域
本说明书实施例涉及计算机技术领域,尤其涉及一种基于深度学习的PDF文档段落自动提取系统及装置。
背景技术
PDF(Portable Document Format的简称,意为“便携式文档格式”),是由AdobeSystems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。PDF会再现原稿的每一个字符、颜色以及图像,但是PDF存储是非结构化的数据存储格式,没有记录文档的逻辑结构,没有段落、表格等逻辑元素。
在对PDF格式的文档进行内容抽取时,或对PDF格式的文档进行拷贝粘贴时,几乎不可避免的出现这样的现象:看来明明是一段完整的文字段落,但抽取出来时,被抽取的内容被划分成了多个块;选中段落,拷贝,粘贴出来时,同样的问题,完整的一段文字被分成了若干部分,并非期望的整体。行不再是完整的行,而段也不再是正常的段。目前,对PDF的段落解析主要通过以二进制文本解析方式读取PDF文档,二进制数据中包含了PDF文件结构,通过文件结构中的交叉引用表去提取段落。
但本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
现有技术中由于二进制文本解析方式读取PDF文档的准确率较低,仍存在一段文字被分成若干部分的技术问题。
发明内容
本说明书实施例提供及一种基于深度学习的PDF文档段落自动提取系统及装置,解决了现有技术中由于二进制文本解析方式读取PDF文档的准确率较低,仍存在一段文字被分成若干部分的技术问题,达到了提高PDF文档段落提取的准确性,避免人工设计规则逻辑的局限性,泛化性强,能够适用于不同的复杂PDF文档的技术效果。
鉴于上述问题,提出了本申请实施例以便提供一种基于深度学习的PDF文档段落自动提取系统及装置。
第一方面,本说明书实施例提供一种基于深度学习的PDF文档段落自动提取系统,所述系统包括:获得一定量的初始PDF文档数据,将所述初始PDF文档数据转化为二次PDF文档,其中,所述二次PDF文档中加入段落结构标记符号;根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征;判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小;当所述段落属性特征对所述二次PDF文档的段落结构的影响程度高于预定影响因子指数时,获得关键段落属性特征;根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,其中,所述最终提取模型提取所述初始PDF文档数据的段落。
优选地,所述将所述初始PDF文档数据转化为二次PDF文档,包括:将所述初始PDF文档数据一次转化为可编辑文档;二次转化所述可编辑文档,且加入段落结构标记符号获得所述二次PDF文档。
优选地,所述根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征,包括:根据所述PDF文档解析工具解析所述二次PDF文档,获得所述二次PDF文档的类别信息;根据所述段落结构标记符号与所述类别信息,构造所述二次PDF文档的行属性列表与段落标签数据集;训练所述二次PDF文档的行属性列表与段落标签数据集,获得所述二次PDF文档的段落属性特征。
优选地,所述判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小,包括:从所述PDF文档解析工具解析的所述二次PDF文档中抽取部分所述二次PDF文档获得验证文档;根据主成分分析方法计算获得所述段落属性特征对所述验证文档的段落结构的影响程度大小。
优选地,所述根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,包括:修改所述行属性列表与段落标签数据集中的行属性列表,获得训练数据集与测试数据集;将所述关键段落属性特征输入所述训练数据集,构建所述多层感知机神经网络模型;将所述初始PDF文档数据输入所述多层感知机神经网络模型,根据所述训练数据集将所述段落结构标记符号作为训练目标对所述多层感知机神经网络模型进行训练,其中,对所述多层感知机神经网络模型的训练过程中,周期性评估所述多层感知机神经网络模型在所述测试数据集的评分;当所述多层感知机神经网络模型在所述测试数据集的评分高于预定阈值时,停止对所述多层感知机神经网络模型的训练,获得最终提取模型。
第二方面,本说明书实施例提供一种基于深度学习的PDF文档段落自动提取装置,所述装置包括:
第一获得单元,用于获得一定量的初始PDF文档数据,将所述初始PDF文档数据转化为二次PDF文档,其中,所述二次PDF文档中加入段落结构标记符号;
第一确定单元,用于根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征;
第一判断单元,用于判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小;
第二获得单元,用于当所述段落属性特征对所述二次PDF文档的段落结构的影响程度高于预定影响因子指数时,获得关键段落属性特征;
第三获得单元,用于根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,其中,所述最终提取模型提取所述初始PDF文档数据的段落。
优选地,所述第一获得单元中所述将所述初始PDF文档数据转化为二次PDF文档,包括:
第一转化单元,用于将所述初始PDF文档数据一次转化为可编辑文档;
第二转化单元,用于二次转化所述可编辑文档,其中,在所述可编辑文档中加入段落结构标记符号获得所述二次PDF文档。
优选地,所述第一确定单元中所述根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征,包括:
第四获得单元,用于根据所述PDF文档解析工具解析所述二次PDF文档,获得所述二次PDF文档的类别信息;
第一构造单元,用于根据所述段落结构标记符号与所述类别信息,构造所述二次PDF文档的行属性列表与段落标签数据集;
第五获得单元,用于训练所述二次PDF文档的行属性列表与段落标签数据集,获得所述二次PDF文档的段落属性特征。
优选地,所述第一判断单元中所述判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小,包括:
第六获得单元,用于从所述PDF文档解析工具解析的所述二次PDF文档中抽取部分所述二次PDF文档获得验证文档;
第七获得单元,用于根据主成分分析方法计算获得所述段落属性特征对所述验证文档的段落结构的影响程度大小。
优选地,所述第三获得单元中所述根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,包括:
第八获得单元,用于修改所述行属性列表与段落标签数据集中的行属性列表,获得训练数据集与测试数据集;
第一构建单元,用于将所述关键段落属性特征输入所述训练数据集,构建所述多层感知机神经网络模型;
第一执行单元,用于将所述初始PDF文档数据输入所述多层感知机神经网络模型,根据所述训练数据集将所述段落结构标记符号作为训练目标对所述多层感知机神经网络模型进行训练,其中,对所述多层感知机神经网络模型的训练过程中,周期性评估所述多层感知机神经网络模型在所述测试数据集的评分;
第九获得单元,用于当所述多层感知机神经网络模型在所述测试数据集的评分高于预定阈值时,停止对所述多层感知机神经网络模型的训练,获得最终提取模型。
第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述系统的步骤。
第四方面,本说明书实施例提供一种基于深度学习的PDF文档段落自动提取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行上述任一项所述系统的步骤。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本说明书实施例提供的基于深度学习的PDF文档段落自动提取系统及装置,通过获得一定量的初始PDF文档数据,将所述初始PDF文档数据转化为二次PDF文档,其中,所述二次PDF文档中加入段落结构标记符号;根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征;判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小;当所述段落属性特征对所述二次PDF文档的段落结构的影响程度高于预定影响因子指数时,获得关键段落属性特征;根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,其中,所述最终提取模型提取所述初始PDF文档数据的段落。通过使用PDF文档解析工具及对PDF文档的转化,进而提取出影响文档段落结构的关键段落属性特征,使用神经网络学习海量PDF文档的段落特征信息,利用多层感知机来拟合复杂逻辑对PDF文档行进行段落结构标注,使用带有行属性列表与段落标签的训练数据集和测试数据集训练产生一个高准确率的段落提取模型。解决了由于二进制文本解析方式读取PDF文档的准确率较低,仍存在一段文字被分成若干部分的技术问题,达到了提高PDF文档段落提取的准确性,避免人工设计规则逻辑的局限性,泛化性强,能够适用于不同的复杂PDF文档的技术效果。
附图说明
图1为本说明书实施例中提供的一种基于深度学习的PDF文档段落自动提取系统流程图;
图2为本说明书实施例中提供的一种基于深度学习的PDF文档段落自动提取装置示意图;
图3为本说明书实施例中提供的另一种基于深度学习的PDF文档段落自动提取装置示意图。
附图标号说明:总线300,接收器301,处理器302,发送器303,存储器304,总线接口306。
具体实施方式
本发明实施例提供了一种基于深度学习的PDF文档段落自动提取系统及装置,用于解决了现有技术中由于二进制文本解析方式读取PDF文档的准确率较低,仍存在一段文字被分成若干部分的技术问题,本发明提供的技术方案总体思路如下:
在本发明实施例的技术方案中,通过获得一定量的初始PDF文档数据,将所述初始PDF文档数据转化为二次PDF文档,其中,所述二次PDF文档中加入段落结构标记符号;根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征;判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小;当所述段落属性特征对所述二次PDF文档的段落结构的影响程度高于预定影响因子指数时,获得关键段落属性特征;根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,其中,所述最终提取模型提取所述初始PDF文档数据的段落。解决了由于二进制文本解析方式读取PDF文档的准确率较低,仍存在一段文字被分成若干部分的技术问题,达到了提高PDF文档段落提取的准确性,避免人工设计规则逻辑的局限性,泛化性强,能够适用于不同的复杂PDF文档的技术效果。
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
在本文公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本文公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
实施例一
图1为本发明实施例中一种基于深度学习的PDF文档段落自动提取系统的流程示意图。如图1所示。所述系统应用于一基于深度学习的PDF文档段落自动提取设备,所述基于深度学习的PDF文档段落自动提取处理设备包括一输入设备和一显示设备,所述输入设备内部具有文档输入模块、文档处理模块、存储器、信号输入模块,所述输入设备可以与打印机或扫描仪等产生输出信号的设备进行连接,所述显示设备与所述输入设备连接,能够将所述打印机或扫描仪等输入设备处理的文档显示出来的显示屏等设备。该系统包括步骤S101-S105。
S101:获得一定量的初始PDF文档数据,将所述初始PDF文档数据转化为二次PDF文档,其中,所述二次PDF文档中加入段落结构标记符号;
进一步的,所述将所述初始PDF文档数据转化为二次PDF文档,包括:将所述初始PDF文档数据一次转化为可编辑文档;二次转化所述可编辑文档,其中,在所述可编辑文档中加入段落结构标记符号获得所述二次PDF文档。
具体而言,本申请实施例中的基于深度学习的PDF文档段落自动提取系统,通过使用PDF文档解析工具及对PDF文档的转化,进而提取出影响文档段落结构的关键段落属性特征,使用神经网络学习海量PDF文档的段落特征信息,利用多层感知机来拟合复杂逻辑对PDF文档行进行段落结构标注,使用带有行属性列表与段落标签的训练数据集和测试数据集训练产生一个高准确率的段落提取模型,避免在对文字段落抽取过程中,即选中段落、拷贝、粘贴出来时,完整的一段文字被分成了若干部分的问题,通过该系统能够提高PDF文档段落提取的准确性。首先,从网络上的文本数据库中获得海量的初始PDF文档数据,所述初始PDF文档数据为带有清晰段落结构标签的文本数据。将所述初始PDF文档数据一次转化为可编辑文档,如DOC文档。将所述可编辑文档经过二次转化成所述二次PDF文档,且在转化后的所述二次PDF文档为加入段落结构标记符号的所述二次PDF文档。
S102:根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征;
进一步的,所述根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征,包括步骤S1021-S1023:
S1021:根据所述PDF文档解析工具解析所述二次PDF文档,获得所述二次PDF文档的类别信息;
S1022:根据所述段落结构标记符号与所述类别信息,构造所述二次PDF文档的行属性列表与段落标签数据集;
S1023:训练所述二次PDF文档的行属性列表与段落标签数据集,获得所述二次PDF文档的段落属性特征。
具体而言,为了确定所述二次PDF文档的段落属性特征,首先,根据所述PDF文档解析工具解析所述二次PDF文档,获得所述二次PDF文档的类别信息,如使用开源工具PDFMiner解析所述二次PDF文档,提取所述二次PDF文档中每一行及其前后行的行首文字、行内文字坐标、行缩进、行边距、行高、行尾标点这六大类别信息。根据所述二次PDF文档中加入的所述段落结构标记符号结合所述二次PDF文档的六大类别信息,构造所述二次PDF文档的行属性列表与段落标签数据集,训练所述二次PDF文档的行属性列表与段落标签数据集,获得所述二次PDF文档的段落属性特征。
S103:判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小;
S104:当所述段落属性特征对所述二次PDF文档的段落结构的影响程度高于预定影响因子指数时,获得关键段落属性特征;
进一步的,所述判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小,包括:从所述PDF文档解析工具解析的所述二次PDF文档中抽取部分所述二次PDF文档获得验证文档;根据主成分分析方法计算获得所述段落属性特征对所述验证文档的段落结构的影响程度大小。
具体而言,从所述PDF文档解析工具解析的所述二次PDF文档中抽取部分所述二次PDF文档获得验证文档,根据主成分分析方法计算获得所述段落属性特征对所述验证文档的段落结构的影响程度大小,如所述二次PDF文档的六大类别信息包括21项段落属性特征,根据主成分分析方法计算判断出所述21项段落属性特征对所述验证文档的段落结构的影响程度大小,如首行缩进对PDF文档的段落结构的影响程度大小为0.82。当所述段落属性特征对所述二次PDF文档的段落结构的影响程度高于预定影响因子指数时,即该段落属性特征为关键段落属性特征,其中,影响因子指数为所述段落属性特征对所述二次PDF文档区分段落结构的影响程度大小的指数。如设定所述预定影响因子指数为0.55,即所述21项段落属性特征中对所述验证文档的段落结构的影响程度大小超过0.55的段落属性特征为关键段落属性特征,如所述21项段落属性特征中有11项段落属性特征对所述验证文档的段落结构的影响程度大小超过0.55,即该11项段落属性特征均为关键段落属性特征。
S105:根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,其中,所述最终提取模型提取所述初始PDF文档数据的段落。
进一步的,所述根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,包括步骤S1051-S1054:
S1051:修改所述行属性列表与段落标签数据集中的行属性列表,获得训练数据集与测试数据集;
S1052:将所述关键段落属性特征输入所述训练数据集,构建所述多层感知机神经网络模型;
S1053:将所述初始PDF文档数据输入所述多层感知机神经网络模型,根据所述训练数据集将所述段落结构标记符号作为训练目标对所述多层感知机神经网络模型进行训练,其中,对所述多层感知机神经网络模型的训练过程中,周期性评估所述多层感知机神经网络模型在所述测试数据集的评分;
S1054:当所述多层感知机神经网络模型在所述测试数据集的评分高于预定阈值时,停止对所述多层感知机神经网络模型的训练,获得最终提取模型。
具体而言,通过构建深度神经网络模块,即构建所述多层感知机神经网络模型对文本行进行段落结构标注,提高对PDF文档段落提取的准确性。通过上述步骤S104获得关键段落属性特征后,需要构建多层感知机神经网络模型,其中,构建多层感知机神经网络模型包括步骤S1051-S1054,首先,对步骤S1022中的所述行属性列表与段落标签数据集中的行属性列表做修改,即对所述二次PDF文档中段落的坐标信息做修改,获得训练数据集与测试数据集。将所述关键段落属性特征输入所述训练数据集,构建所述多层感知机神经网络模型,其中,在构建所述多层感知机神经网络模型的过程中采用了按比例抛参数、批正则化等方法提高所述多层感知机神经网络模型的泛化能力,采用了正态分布初始值来初始化所述多层感知机神经网络模型的参数,利用变化的学习率等手段加速所述多层感知机神经网络模型收敛。将80%的所述初始PDF文档数据输入所述多层感知机神经网络模型,根据所述训练数据集将所述段落结构标记符号作为训练目标对所述多层感知机神经网络模型进行训练,其中,对所述多层感知机神经网络模型的训练过程中,周期性评估所述多层感知机神经网络模型在所述测试数据集的评分。设定所述多层感知机神经网络模型在所述测试数据集中评分的预定阈值,当所述多层感知机神经网络模型在所述测试数据集的评分高于预定阈值时,停止对所述多层感知机神经网络模型的训练,获得最终提取模型,能够自动提取PDF文档段落。
实施例二
基于与前述实施例中一种基于深度学习的PDF文档段落自动提取系统同样的发明构思,本发明还提供一种基于深度学习的PDF文档段落自动提取装置,如图2所示,包括:
第一获得单元,用于获得一定量的初始PDF文档数据,将所述初始PDF文档数据转化为二次PDF文档,其中,所述二次PDF文档中加入段落结构标记符号;
第一确定单元,用于根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征;
第一判断单元,用于判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小;
第二获得单元,用于当所述段落属性特征对所述二次PDF文档的段落结构的影响程度高于预定影响因子指数时,获得关键段落属性特征;
第三获得单元,用于根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,其中,所述最终提取模型提取所述初始PDF文档数据的段落。
进一步的,所述第一获得单元中所述将所述初始PDF文档数据转化为二次PDF文档,包括:
第一转化单元,用于将所述初始PDF文档数据一次转化为可编辑文档;
第二转化单元,用于二次转化所述可编辑文档,其中,在所述可编辑文档中加入段落结构标记符号获得所述二次PDF文档。
进一步的,所述第一确定单元中所述根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征,包括:
第四获得单元,用于根据所述PDF文档解析工具解析所述二次PDF文档,获得所述二次PDF文档的类别信息;
第一构造单元,用于根据所述段落结构标记符号与所述类别信息,构造所述二次PDF文档的行属性列表与段落标签数据集;
第五获得单元,用于训练所述二次PDF文档的行属性列表与段落标签数据集,获得所述二次PDF文档的段落属性特征。
进一步的,所述第一判断单元中所述判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小,包括:
第六获得单元,用于从所述PDF文档解析工具解析的所述二次PDF文档中抽取部分所述二次PDF文档获得验证文档;
第七获得单元,用于根据主成分分析方法计算获得所述段落属性特征对所述验证文档的段落结构的影响程度大小。
进一步的,所述第三获得单元中所述根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,包括:
第八获得单元,用于修改所述行属性列表与段落标签数据集中的行属性列表,获得训练数据集与测试数据集;
第一构建单元,用于将所述关键段落属性特征输入所述训练数据集,构建所述多层感知机神经网络模型;
第一执行单元,用于将所述初始PDF文档数据输入所述多层感知机神经网络模型,根据所述训练数据集将所述段落结构标记符号作为训练目标对所述多层感知机神经网络模型进行训练,其中,对所述多层感知机神经网络模型的训练过程中,周期性评估所述多层感知机神经网络模型在所述测试数据集的评分;
第九获得单元,用于当所述多层感知机神经网络模型在所述测试数据集的评分高于预定阈值时,停止对所述多层感知机神经网络模型的训练,获得最终提取模型。
前述图1实施例一中的一种基于深度学习的PDF文档段落自动提取系统的各种变化方式和具体实例同样适用于本实施例的一种基于深度学习的PDF文档段落自动提取装置,通过前述对一种基于深度学习的PDF文档段落自动提取系统的详细描述,本领域技术人员可以清楚的知道本实施例中一种基于深度学习的PDF文档段落自动提取装置的实施系统,所以为了说明书的简洁,在此不再详述。
实施例三
基于与前述实施例一中一种基于深度学习的PDF文档段落自动提取系统同样的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种基于深度学习的PDF文档段落自动提取系统的任一系统的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本说明书实施例提供的基于深度学习的PDF文档段落自动提取系统及装置,通过获得一定量的初始PDF文档数据,将所述初始PDF文档数据转化为二次PDF文档,其中,所述二次PDF文档中加入段落结构标记符号;根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征;判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小;当所述段落属性特征对所述二次PDF文档的段落结构的影响程度高于预定影响因子指数时,获得关键段落属性特征;根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,其中,所述最终提取模型提取所述初始PDF文档数据的段落。通过使用PDF文档解析工具及对PDF文档的转化,进而提取出影响文档段落结构的关键段落属性特征,使用神经网络学习海量PDF文档的段落特征信息,利用多层感知机来拟合复杂逻辑对PDF文档行进行段落结构标注,使用带有行属性列表与段落标签的训练数据集和测试数据集训练产生一个高准确率的段落提取模型。解决了由于二进制文本解析方式读取PDF文档的准确率较低,仍存在一段文字被分成若干部分的技术问题,达到了提高PDF文档段落提取的准确性,避免人工设计规则逻辑的局限性,泛化性强,能够适用于不同的复杂PDF文档的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为系统、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的系统、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。

Claims (8)

1.一种基于深度学习的PDF文档段落自动提取系统,其特征在于,所述系统包括:
获得一定量的初始PDF文档数据,将所述初始PDF文档数据转化为二次PDF文档,其中,所述二次PDF文档中加入段落结构标记符号;
根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征;
判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小;
当所述段落属性特征对所述二次PDF文档的段落结构的影响程度高于预定影响因子指数时,获得关键段落属性特征;
根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,其中,所述最终提取模型提取所述初始PDF文档数据的段落。
2.如权利要求1所述的系统,其特征在于,所述将所述初始PDF文档数据转化为二次PDF文档,包括:
将所述初始PDF文档数据一次转化为可编辑文档;
二次转化所述可编辑文档,其中,在所述可编辑文档中加入段落结构标记符号获得所述二次PDF文档。
3.如权利要求1所述的系统,其特征在于,所述根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征,包括:
根据所述PDF文档解析工具解析所述二次PDF文档,获得所述二次PDF文档的类别信息;
根据所述段落结构标记符号与所述类别信息,构造所述二次PDF文档的行属性列表与段落标签数据集;
训练所述二次PDF文档的行属性列表与段落标签数据集,获得所述二次PDF文档的段落属性特征。
4.如权利要求3所述的系统,其特征在于,所述判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小,包括:
从所述PDF文档解析工具解析的所述二次PDF文档中抽取部分所述二次PDF文档获得验证文档;
根据主成分分析方法计算获得所述段落属性特征对所述验证文档的段落结构的影响程度大小。
5.如权利要求3所述的系统,其特征在于,所述根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,包括:
修改所述行属性列表与段落标签数据集中的行属性列表,获得训练数据集与测试数据集;
将所述关键段落属性特征输入所述训练数据集,构建所述多层感知机神经网络模型;
将所述初始PDF文档数据输入所述多层感知机神经网络模型,根据所述训练数据集将所述段落结构标记符号作为训练目标对所述多层感知机神经网络模型进行训练,其中,对所述多层感知机神经网络模型的训练过程中,周期性评估所述多层感知机神经网络模型在所述测试数据集的评分;
当所述多层感知机神经网络模型在所述测试数据集的评分高于预定阈值时,停止对所述多层感知机神经网络模型的训练,获得最终提取模型。
6.一种基于深度学习的PDF文档段落自动提取装置,其特征在于,所述装置包括:
第一获得单元,用于获得一定量的初始PDF文档数据,将所述初始PDF文档数据转化为二次PDF文档,其中,所述二次PDF文档中加入段落结构标记符号;
第一确定单元,用于根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征;
第一判断单元,用于判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小;
第二获得单元,用于当所述段落属性特征对所述二次PDF文档的段落结构的影响程度高于预定影响因子指数时,获得关键段落属性特征;
第三获得单元,用于根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,其中,所述最终提取模型提取所述初始PDF文档数据的段落。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5任一项所述系统的步骤。
8.一种基于深度学习的PDF文档段落自动提取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-5任一项所述系统的步骤。
CN202010022116.0A 2020-01-09 2020-01-09 一种基于深度学习的pdf文档段落自动提取系统及装置 Pending CN111259623A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010022116.0A CN111259623A (zh) 2020-01-09 2020-01-09 一种基于深度学习的pdf文档段落自动提取系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010022116.0A CN111259623A (zh) 2020-01-09 2020-01-09 一种基于深度学习的pdf文档段落自动提取系统及装置

Publications (1)

Publication Number Publication Date
CN111259623A true CN111259623A (zh) 2020-06-09

Family

ID=70945075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010022116.0A Pending CN111259623A (zh) 2020-01-09 2020-01-09 一种基于深度学习的pdf文档段落自动提取系统及装置

Country Status (1)

Country Link
CN (1) CN111259623A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163079A (zh) * 2020-09-30 2021-01-01 民生科技有限责任公司 一种基于阅读理解模型的智能对话方法及系统
CN112507666A (zh) * 2020-12-21 2021-03-16 北京百度网讯科技有限公司 文档转换方法、装置、电子设备及存储介质
CN114140224A (zh) * 2021-12-03 2022-03-04 中国建设银行股份有限公司 一种信用证栏位内容分段方法、装置、介质、产品和设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102782702A (zh) * 2010-03-10 2012-11-14 微软公司 在光学字符识别(ocr)过程中的段落识别
CN105740267A (zh) * 2014-12-10 2016-07-06 北大方正集团有限公司 一种处理pdf文件的方法及装置
WO2018189589A2 (en) * 2017-04-14 2018-10-18 Novabase Business Solutions, S.A. Systems and methods for document processing using machine learning
CN109657221A (zh) * 2018-12-13 2019-04-19 北京金山数字娱乐科技有限公司 一种文档段落排序方法、排序装置、电子设备及存储介质
CN109948518A (zh) * 2019-03-18 2019-06-28 武汉汉王大数据技术有限公司 一种基于神经网络的pdf文档内容文本段落聚合的方法
CN110046637A (zh) * 2018-12-25 2019-07-23 阿里巴巴集团控股有限公司 一种合同段落标注模型的训练方法、装置及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102782702A (zh) * 2010-03-10 2012-11-14 微软公司 在光学字符识别(ocr)过程中的段落识别
CN105740267A (zh) * 2014-12-10 2016-07-06 北大方正集团有限公司 一种处理pdf文件的方法及装置
WO2018189589A2 (en) * 2017-04-14 2018-10-18 Novabase Business Solutions, S.A. Systems and methods for document processing using machine learning
CN109657221A (zh) * 2018-12-13 2019-04-19 北京金山数字娱乐科技有限公司 一种文档段落排序方法、排序装置、电子设备及存储介质
CN110046637A (zh) * 2018-12-25 2019-07-23 阿里巴巴集团控股有限公司 一种合同段落标注模型的训练方法、装置及设备
CN109948518A (zh) * 2019-03-18 2019-06-28 武汉汉王大数据技术有限公司 一种基于神经网络的pdf文档内容文本段落聚合的方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163079A (zh) * 2020-09-30 2021-01-01 民生科技有限责任公司 一种基于阅读理解模型的智能对话方法及系统
CN112163079B (zh) * 2020-09-30 2024-02-20 民生科技有限责任公司 一种基于阅读理解模型的智能对话方法及系统
CN112507666A (zh) * 2020-12-21 2021-03-16 北京百度网讯科技有限公司 文档转换方法、装置、电子设备及存储介质
CN112507666B (zh) * 2020-12-21 2023-07-11 北京百度网讯科技有限公司 文档转换方法、装置、电子设备及存储介质
CN114140224A (zh) * 2021-12-03 2022-03-04 中国建设银行股份有限公司 一种信用证栏位内容分段方法、装置、介质、产品和设备

Similar Documents

Publication Publication Date Title
US20230004604A1 (en) Ai-augmented auditing platform including techniques for automated document processing
CN112070138B (zh) 多标签混合分类模型的构建方法、新闻分类方法及系统
CN111259623A (zh) 一种基于深度学习的pdf文档段落自动提取系统及装置
CN110705952A (zh) 一种合同审核方法及装置
CN112949476B (zh) 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN113032580B (zh) 关联档案推荐方法、系统及电子设备
US8804139B1 (en) Method and system for repurposing a presentation document to save paper and ink
CN116975284B (zh) 基于先验知识的实体关系抽取方法、装置及存储介质
CN113157899B (zh) 一种大数据画像分析方法、服务器及可读存储介质
CN117707922A (zh) 测试用例的生成方法、装置、终端设备和可读存储介质
CN113157871B (zh) 应用人工智能的新闻舆情文本处理方法、服务器及介质
CN114969334A (zh) 异常日志检测方法、装置、电子设备及可读存储介质
CN113283231B (zh) 获取签章位的方法、设置系统、签章系统及存储介质
CN111859862B (zh) 文本的数据标注方法和装置、存储介质及电子装置
CN117709317A (zh) 报表文件的处理方法、装置及电子设备
CN117421226A (zh) 一种基于生成式大语言模型的缺陷报告重构的方法及系统
CN112818693A (zh) 一种电子元器件型号词的自动提取方法及系统
CN112036439A (zh) 依存关系分类方法及相关设备
CN110544166A (zh) 样本生成方法、装置及存储介质
CN115640376A (zh) 文本标注方法、装置、电子设备和计算机可读存储介质
CN112860900B (zh) 文本分类方法、装置、电子设备及存储介质
CN117859122A (zh) 包括用于自动化文档处理的技术的ai增强的审计平台
CN115130437A (zh) 一种文档智能填写方法、装置及存储介质
CN114493317A (zh) 一种基于企业环境的智能采集评估方法及系统
CN113434650A (zh) 问答对扩展方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200609

RJ01 Rejection of invention patent application after publication