CN112380825B - Pdf文档跨页表格合并方法、装置、电子设备及存储介质 - Google Patents

Pdf文档跨页表格合并方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112380825B
CN112380825B CN202011290521.7A CN202011290521A CN112380825B CN 112380825 B CN112380825 B CN 112380825B CN 202011290521 A CN202011290521 A CN 202011290521A CN 112380825 B CN112380825 B CN 112380825B
Authority
CN
China
Prior art keywords
page
position information
cross
merging
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011290521.7A
Other languages
English (en)
Other versions
CN112380825A (zh
Inventor
王文浩
徐国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011290521.7A priority Critical patent/CN112380825B/zh
Publication of CN112380825A publication Critical patent/CN112380825A/zh
Priority to PCT/CN2021/096636 priority patent/WO2022105172A1/zh
Application granted granted Critical
Publication of CN112380825B publication Critical patent/CN112380825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种PDF文档跨页表格合并方法、装置、电子设备及存储介质。所述PDF文档跨页表格合并方法包括:获取至少两个PDF文档,并采集每个所述PDF文档中的至少一个表格,得到表格数据集;根据表格数据集生成跨页表格训练数据集;使用跨页表格训练数据集训练深度学习模型,得到表格合并模型,获取PDF测试文档,去除页眉和页脚,构建跨页表格测试数据利用表格合并模型预测跨页表格测试数据需要合并的二分类预测值,并根据二分类预测值判断跨页表格测试数据是否需要合并,合并并输出需要合并的跨页表格。本发明可以有效地处理PDF文档中复杂表格跨页提取的任务,对判断跨页表格是否需要合并有较高的准确率。

Description

PDF文档跨页表格合并方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能中的文本处理技术领域,具体涉及一种PDF文档跨页表格合并方法、装置、电子设备及存储介质。
背景技术
PDF格式被广泛应用于各种文件的存储和传输,常常需要从PDF文档中提取信息。由于PDF文档中经常出现表格,但是由于PDF文档格式中不存在表格格式,解析PDF文档后得到的表格只有文字和图像线,当PDF文档中某一页面底部与下一页顶部同时出现表格时,需要对是否为同一表格进行判断。现有技术中,PDF文档跨页表格合并主要利用规则判断跨页的两个表格中是否含有相同的列数,对于复杂表格跨页的情况,规则方法不能起到很好的判断效果。
发明内容
鉴于以上内容,有必要提出一种PDF文档跨页表格合并方法、装置、电子设备及存储介质以实现对复杂跨页表格是否需要合并进行判断。
本申请的第一方面提供一种PDF文档跨页表格合并方法,所述PDF文档跨页表格合并方法包括:
获取至少两个包含表格的PDF文档,并采集每个所述PDF文档中的至少一个表格的位置信息和文本信息,并根据所述表格的位置信息得到表格数据集;
对所述表格数据集中的每个表格,随机选取每个所述表格中的一行进行划分,得到每个所述表格的上半区块的位置信息和每个所述表格的下半区块的位置信息,合并所述每个表格的上半区块的位置信息和每个所述表格的下半区块的位置信息得到正样本数据,将所述正样本数据标注为第一标记,随机选择所述每个表格的上半区块的位置信息和其他表格的上半区块的位置信息得到负样本数据,将所述负样本数据标注为第二标记,所述正样本数据与所述负样本数据组成样本训练数据,所述样本训练数据与对应的标注组成跨页表格训练数据集;
构建基于深度双向变换器的预训练模型的深度学习模型,根据所述跨页表格训练数据集构造所述深度学习模型的输入数据,将所述跨页表格训练数据集中的每个所述表格中的单元格作为所述深度学习模型的输入的步长,将所述跨页表格训练数据集中每个样本训练数据标注对应的二分类预测值作为所述深度学习模型的输出,训练并优化所述深度学习模型,得到表格合并模型;
获取PDF测试文档,采集所述PDF测试文档中每个页面的文本信息和位置信息,去除所述PDF测试文档中每个页面的页眉与页脚的文本信息和位置信息,根据所述每个页面的位置信息判断每个页面的底部和顶部是否存在表格,当所述页面底部与所述页面的下一页面顶部存在表格时,合并所述页面底部的表格的位置信息与所述页面的下一页面顶部的表格的位置信息,将合并结果作为跨页表格测试数据;
根据所述跨页表格测试数据,利用所述表格合并模型预测得到二分类预测值,所述二分类预测值用于判断所述跨页表格测试数据是否需要合并;
当判断所述跨页表格测试数据需要合并时,合并所述页面底部的表格与所述下一页面顶部的表格得到结果表格,并根据指令显示所述结果表格。
优选地,所述根据所述跨页表格训练数据集构造所述深度学习模型的输入数据包括:
将所述跨页表格训练数据集中的样本训练数据和样本训练数据的标注构造为符合模型输入格式的数据,并作为所述深度学习模型的输入数据,其中,所述模型输入格式为[SEP]+table1_cell1+table1_cell2+…+table1_cellm+[SEP]+table2_cell1+table2_cell2+…+table2_celln+[SEP],其中,table1和table2表示两个区块,table_cell表示由区块中单元格位置信息构成的特征,m表示table1的单元格数量,n表示table2的单元格数量,当m大于或等于n时,[SEP]为m个“1”组成的序列,当m小于n时,[SEP]为n个“1”组成的序列,所述table_cell内的数据为[x_t,y_t,w_t,h_t,x_t+w_t,y_t+h_t,(x_t+w_t)/h_t,(y_t+h_t)/2,x_c,y_c,w_c,h_c,x_c+w_c,y_c+h_c,(x_c+w_c)/h_c,(y_c+h_c)/2,a],其中,x_t为区块左上角的x坐标,y_t为区块左上角的y坐标,w_t为区块的宽,h_t为区块的高,x_c为单元格左上角的x坐标,y_c为单元格左上角的y坐标,w_c为单元格的宽,h_c为单元格的高,a为0或1。
优选地,所述将所述跨页表格训练数据集中每个样本训练数据标注对应的二分类预测值作为所述深度学习模型的输出包括:
当所述样本训练数据的标注为所述第一标记时,所述深度学习模型的输出中[SEP]处的二分类预测值为第一预设值;
当所述样本训练数据的标注为所述第二标记时,所述深度学习模型的输出中[SEP]处的二分类预测值为第二预设值。
优选地,所述训练并优化所述深度学习模型,得到表格合并模型包括:
利用所述深度学习模型的编码层对所述输入数据进行编码;
训练所述深度学习模型的预测层,直至所述深度学习模型的预测层收敛,得到所述表格合并模型,所述表格合并模型的输出为预测所述样本训练数据是否需要合并的二分类预测值。
优选地,所述去除所述PDF测试文档中每个页面的页眉与页脚的文本信息和位置信息包括:
计算所述PDF测试文档中所有页面的页面高度均值;
取所述页面平均高度的第一分位值的高度作为页眉的候选区域,取所述页面平均高度的第二分位值的高度作为页脚的候选区域;
对所述PDF测试文档中的每个页面,提取所述页眉的候选区域中的文本信息和位置信息及所述页脚的候选区域中的文本信息和位置信息;
对所述PDF测试文档中的每个页面,计算所述页眉的候选区域中的文本与该页面前后指定数量的页面中所述页眉的候选区域中文本的第一编辑距离,并计算所述页脚的候选区域中的文本与该页面前后指定数量的页面中所述页脚的候选区域中文本的第二编辑距离;
当所述第一编辑距离小于预设的第一阈值时,判定所述候选区域中的所述文本为页眉,去除所述页眉的文本信息和位置信息,当所述第二编辑距离小于预设的第二阈值时,判定所述候选区域中的所述文本为页脚,去除所述页脚的文本信息和位置信息。
优选地,所述根据所述跨页表格测试数据,利用所述表格合并模型预测得到二分类预测值包括:
将所述跨页表格测试数据的格式转换为所述表格合并模型所要求的格式,并将格式转换后的跨页表格测试数据作为所述表格合并模型的输入数据;
所述表格合并模型根据所述输入数据预测所述跨页表格测试数据中的所述页面底部的表格与所述下一页面的顶部的表格需要合并的二分类预测值。
优选地,所述合并所述页面底部的表格与所述下一页面顶部的表格得到结果表格,并根据指令显示所述结果表格包括:
根据提取到的所述页面底部的表格的所述位置信息和所述下一页面顶部的表格的位置信息合并所述页面底部的表格与所述下一页面顶部的表格,得到结果表格;
将所述结果表格存储为表格文件,并存储所述完整的结果表格;
当接收到指令时,显示所述结果表格。
本申请的第二方面提供一种PDF文档跨页表格合并装置,所述PDF文档跨页表格合并装置包括:
表格数据获取模块,用于获取至少两个包含表格的PDF文档,并采集每个所述PDF文档中的至少一个表格的位置信息和文本信息,并根据所述表格的位置信息得到表格数据集;
训练数据集构造模块,用于对所述表格数据集中的每个表格,随机选取每个所述表格中的一行进行划分,得到每个所述表格的上半区块的位置信息和每个所述表格的下半区块的位置信息,合并所述每个表格的上半区块的位置信息和每个所述表格的下半区块的位置信息得到正样本数据,将所述正样本数据标注为第一标记,随机选择所述每个表格的上半区块的位置信息和其他表格的上半区块的位置信息得到负样本数据,将所述负样本数据标注为第二标记,所述正样本数据与所述负样本数据组成样本训练数据,所述样本训练数据与对应的标注组成跨页表格训练数据集;
模型训练模块,用于构建基于深度双向变换器的预训练模型的深度学习模型,根据所述跨页表格训练数据集构造所述深度学习模型的输入数据,将所述跨页表格训练数据集中的每个所述表格中的单元格作为所述深度学习模型的输入的步长,将所述跨页表格训练数据集中每个样本训练数据标注对应的二分类预测值作为所述深度学习模型的输出,训练并优化所述深度学习模型,得到表格合并模型;
测试数据构造模块,用于获取PDF测试文档,采集所述PDF测试文档中每个页面的文本信息和位置信息,去除所述PDF测试文档中每个页面的页眉与页脚的文本信息和位置信息,根据所述每个页面的位置信息判断每个页面的底部和顶部是否存在表格,当所述页面底部与所述页面的下一页面顶部存在表格时,合并所述页面底部的表格的位置信息与所述页面的下一页面顶部的表格的位置信息,将合并结果作为跨页表格测试数据;
预测模块,用于根据所述跨页表格测试数据,利用所述表格合并模型预测得到二分类预测值,所述二分类预测值用于判断所述跨页表格测试数据是否需要合并;
合并模块,用于当判断所述跨页表格测试数据需要合并时,合并所述页面底部的表格与所述下一页面顶部的表格得到结果表格,并根据指令显示所述结果表格。
本申请的第三方面提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现所述PDF文档跨页表格合并方法。
本申请的第四发明提供一种计算机存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现所述PDF文档跨页表格合并方法。
本发明中,获取至少两个PDF文档,并采集每个所述PDF文档中的至少一个表格,得到表格数据集;根据表格数据集生成跨页表格训练数据集;使用跨页表格训练数据集训练深度学习模型,得到表格合并模型,获取PDF测试文档,去除页眉和页脚,构建跨页表格测试数据利用表格合并模型预测跨页表格测试数据需要合并的二分类预测值,并根据二分类预测值判断跨页表格测试数据是否需要合并,合并并输出需要合并的跨页表格,可以有效地处理PDF文档中复杂表格跨页提取的任务,对判断跨页表格是否需要合并有较高的准确率。
附图说明
图1为本发明一实施方式中PDF文档跨页表格合并方法的流程图。
图2为本发明一实施方式中PDF文档跨页表格合并装置的结构图。
图3为本发明一实施方式中电子设备的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
优选地,本发明PDF文档跨页表格合并方法应用在一个或者多个电子设备中。所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述电子设备可以是桌上型计算机、笔记本电脑、平板电脑及云端服务器等计算设备。所述设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
实施例1
图1是本发明一实施方式中PDF文档跨页表格合并方法的流程图。根据不同的需求,所述流程图中步骤的顺序可以改变,某些步骤可以省略。
参阅图1所示,所述PDF文档跨页表格合并方法具体包括以下步骤:
步骤S11,获取至少两个包含表格的PDF文档,并采集每个所述PDF文档中的至少一个表格的位置信息和文本信息,并根据所述表格的位置信息得到表格数据集。
具体地,在本发明的至少一个实施例中,采集每个所述PDF文档中的至少一个表格的位置信息和文本信息,并根据所述表格的位置信息得到表格数据集包括:
使用pdfplumber库解析每个所述PDF文档得到每个所述PDF文档的位置信息和文本信息,并从所述位置信息中采集所述PDF文档中表格的位置信息以及所述表格中每个单元格的位置信息作为表格数据集。
具体地,在本发明的其他实施方式中,采集每个所述PDF文档中的至少一个表格的位置信息和文本信息,并根据所述表格的位置信息得到表格数据集包括:
使用其他PDF内容解析库,例如pdfminer、camelot等,解析每个所述PDF文档得到每个所述PDF文档的位置信息和文本信息,并从所述位置信息中采集所述PDF文档中的表格的位置信息和文本信息以及所述表格中每个单元格的位置信息。
在本发明的一个实施例中,所述PDF文档可以是涉及不同领域的、记录各类不同信息的文档,例如:金融领域、商业领域、医疗领域等不同的技术领域;所述文本信息为除图片外的所有文本信息,所述位置信息包括:页眉、页脚、标题、正文、表格的位置信息等。
步骤S12,对所述表格数据集中的每个表格,随机选取每个所述表格中的一行进行划分,得到每个所述表格的上半区块的位置信息和每个所述表格的下半区块的位置信息,合并所述每个表格的上半区块的位置信息和每个所述表格的下半区块的位置信息得到正样本数据,将所述正样本数据标注为第一标记,随机选择所述每个表格的上半区块的位置信息和其他表格的上半区块的位置信息得到负样本数据,将所述负样本数据标注为第二标记,所述正样本数据与所述负样本数据组成样本训练数据,所述样本训练数据与对应的标注组成跨页表格训练数据集。
例如,所述第一标记可以是1,所述第二标记可以是0。
又例如,当所述表格数据集包括第一表格和第二表格时,根据所述表格数据集生成跨页表格训练数据集包括:
对于所述第一表格,随机选取所述第一表格中除第一行和最后一行以外的一行进行划分,得到第一表格上半区块的位置信息和第一表格下半区块的位置信息,对于所述第二表格,随机选取所述第二表格中除第一行和最后一行以外的一行进行划分,得到第二表格上半区块的位置信息和第二表格下半区块的位置信息,所述上半区块和所述下半区块为表格划分后得到的表格上半部分和表格下半部分;
合并所述第一表格上半区块的位置信息和所述第一表格下半区块的位置信息得到第一正样本数据,合并所述第二表格上半区块的位置信息和所述第二表格下半区块的位置信息得到第二正样本数据,将所述第一正样本数据和所述第二正样本数据标注为1;
合并所述第一表格上半区块的位置信息和所述第二表格上半区块的位置信息得到第一负样本数据,合并所述第二表格上半区块的位置信息和所述第一表格上半区块的位置信息得到第二负样本数据,将所述第一负样本数据和所述第二负样本数据标注为0;
所述第一正样本数据、所述第二正样本数据、所述第一负样本数据、所述第二负样本数据组成所述样本训练数据,所述样本训练数据与对应的标注组成跨页表格训练数据集。
在本发明的一个实施例中,区块的位置信息包括:区块左上角的x坐标,区块左上角的y坐标,区块的宽,区块的高,单元格左上角的x坐标,单元格左上角的y坐标,单元格的宽,单元格的高,区块中列的数量。
步骤S13,构建基于深度双向变换器的预训练模型的深度学习模型,根据所述跨页表格训练数据集构造所述深度学习模型的输入数据,将所述跨页表格训练数据集中的每个所述表格中的单元格作为所述深度学习模型的输入的步长,将所述跨页表格训练数据集中每个样本训练数据标注对应的二分类预测值作为所述深度学习模型的输出,训练并优化所述深度学习模型,得到表格合并模型。
在本发明的至少一个实施例中,根据所述跨页表格训练数据集构造所述深度学习模型的输入数据包括:
将所述跨页表格训练数据集中的样本训练数据和样本训练数据的标注构造为符合模型输入格式的数据,并作为所述深度学习模型的输入数据,其中,所述模型输入格式为[SEP]+table1_cell1+table1_cell2+…+table1_cellm+[SEP]+table2_cell1+table2_cell2+…+table2_celln+[SEP],其中,table1和table2表示两个区块,table_cell表示由区块中单元格位置信息构成的特征,m表示table1的单元格数量,n表示table2的单元格数量,当m大于或等于n时,[SEP]为m个“1”组成的序列,当m小于n时,[SEP]为n个“1”组成的序列,所述table_cell内的数据为[x_t,y_t,w_t,h_t,x_t+w_t,y_t+h_t,(x_t+w_t)/h_t,(y_t+h_t)/2,x_c,y_c,w_c,h_c,x_c+w_c,y_c+h_c,(x_c+w_c)/h_c,(y_c+h_c)/2,a],其中,x_t为区块左上角的x坐标,y_t为区块左上角的y坐标,w_t为区块的宽,h_t为区块的高,x_c为单元格左上角的x坐标,y_c为单元格左上角的y坐标,w_c为单元格的宽,h_c为单元格的高,a为0或1。
具体地,所述table1和table2可以表示同一表格的上半区块和下半区块,也可以表示不同表格的两个上半区块;当table1和table2的列的数量相同时,a为1,当table1和table2的列的数量不同时,a为0。
在本发明的一个实施方式中,将所述跨页表格训练数据集中每个样本训练数据标注对应的二分类预测值作为所述深度学习模型的输出包括:
当所述样本训练数据的标注为所述第一标记时,所述深度学习模型的输出中[SEP]处的二分类预测值为第一预设值;
当所述样本训练数据的标注为所述第二标记时,所述深度学习模型的输出中[SEP]处的二分类预测值为第二预设值。
例如,所述第一预设值可以是1,所述第二预设值可以是0。
具体地,在本发明的至少一个实施例中,所述二分类预测值为所述样本训练数据中的两个区块来自同一表格的概率,当二分类预测值为第一预设值时,表示所述样本训练数据中的两个区块来自同一表格,所述样本训练数据需要合并的概率为1,即所述样本训练数据需要合并;当所述二分类预测值为第二预设值时,表示所述样本训练数据中的两个区块来自不同表格,所述样本训练数据需要合并的概率为0,即所述样本训练数据不需要合并。
在本发明的至少一个实施例中,所述训练并优化所述深度学习模型,得到表格合并模型包括:
利用所述编码层对所述输入数据进行编码;
训练所述预测层,直至所述预测层收敛,得到所述表格合并模型,所述表格合并模型的输出为预测所述样本训练数据是否需要合并的二分类预测值。
进一步地,在本发明的其他实施例中,若所述二分类预测值为介于0和1之间的任一数值时,可根据预设的比较值0.5来判断是否需要对某一条样本训练数据进行合并,当大于或等于0.5时,确定该条样本训练数据需要进行合并;当小于0.5时;确定该条样本训练数据不需要进行合并。
例如,当所述表格合并模型根据所述样本训练数据预测得到的二分类预测值大于或等于0.5时,所述样本训练数据中的两个区块来自同一表格的概率大于或等于0.5,那么,可确定所述样本训练数据中的两个区块需要合并;或当所述表格合并模型根据所述样本训练数据预测得到的二分类预测值小于0.5时,所述样本训练数据中的两个区块来自同一表格的概率小于0.5,那么,可确定所述样本训练数据中的两个区块不需要合并。
步骤S14,获取PDF测试文档,采集所述PDF测试文档中每个页面的文本信息和位置信息,去除所述PDF测试文档中每个页面的页眉与页脚的文本信息和位置信息,根据所述每个页面的位置信息判断每个页面的底部和顶部是否存在表格,当所述页面底部与所述页面的下一页面顶部存在表格时,合并所述页面底部的表格的位置信息与所述页面的下一页面顶部的表格的位置信息,将合并结果作为跨页表格测试数据。
在本发明的至少一个实施例中,去除所述PDF测试文档中每个页面的页眉与页脚的文本信息和位置信息包括:
计算所述PDF测试文档中所有页面的页面高度均值;
取所述页面平均高度的第一分位值的高度作为页眉的候选区域,取所述页面平均高度的第二分位值的高度作为页脚的候选区域;
对所述PDF测试文档中的每个页面,提取所述页眉的候选区域中的文本信息和位置信息及所述页脚的候选区域中的文本信息和位置信息;
对所述PDF测试文档中的每个页面,计算所述页眉的候选区域中的文本与该页面前后指定数量的页面中所述页眉的候选区域中文本的第一编辑距离,并计算所述页脚的候选区域中的文本与该页面前后指定数量的页面中所述页脚的候选区域中文本的第二编辑距离;
当所述第一编辑距离小于预设的第一阈值时,判定所述候选区域中的所述文本为页眉,去除所述页眉的文本信息和位置信息,当所述第二编辑距离小于预设的第二阈值时,判定所述候选区域中的所述文本为页脚,去除所述页脚的文本信息和位置信息。
在本发明的至少一个实施方式中,所述编辑距离是针对二个字符串的差异程度的量化量测,具体地,所述编辑距离是从一个字符串通过插入、修改、删除等操作转换为另外一个字符串所需要最小的步骤。
例如,当提取所述PDF测试文档的页眉时,计算所述PDF测试文档中所有页面的页面高度均值h_mean,取h_mean的上五分之一页面部分作为页眉的候选区域,对所述PDF测试文档中的每个页面,提取所述页眉的候选区域中的文本信息和位置信息,计算所述页眉的候选区域中的文本与该页面前后各3页候选区域中文本的编辑距离,判定编辑距离小于所述第一阈值的内容为页眉,去除所述页眉的文本信息和位置信息。
又例如,当提取所述PDF测试文档的页脚时,计算所述PDF测试文档中所有页面的页面高度均值h_mean,取h_mean的下五分之一页面部分作为页脚的候选区域,对所述PDF测试文档中的每个页面,提取所述页脚的候选区域中的文本信息和位置信息,计算所述页脚的候选区域中的文本与该页面前后各3页候选区域中文本的编辑距离,判定编辑距离小于所述第二阈值的内容为页脚,去除所述页脚的文本信息和位置信息。
步骤S15,根据所述跨页表格测试数据,利用所述表格合并模型预测得到二分类预测值,所述二分类预测值用于判断所述跨页表格测试数据是否需要合并。
在本发明的至少一个实施例中,根据所述跨页表格测试数据,利用所述表格合并模型预测得到二分类预测值包括:
将所述跨页表格测试数据的格式转换为所述表格合并模型所要求的格式,并将格式转换后的跨页表格测试数据作为所述表格合并模型的输入数据;
所述表格合并模型根据所述输入数据预测所述跨页表格测试数据中的所述页面底部的表格与所述下一页面的顶部的表格需要合并的二分类预测值。
具体地,在本发明的至少一个实施例中,当所述表格合并模型对所述跨页表格测试数据预测得到的二分类预测值大于或等于0.5时,表示所述跨页表格测试数据中的页面底部的表格与下一页面顶部的表格属于同一表格,因此判断所述页面底部的表格与所述下一页面的顶部的表格需要合并;当所述二分类预测值小于0.5时,表示所述跨页表格测试数据中的页面底部的表格与下一页面顶部的表格属于不同的表格,因此判断所述页面底部的表格与所述下一页面的顶部的表格不需要合并。
步骤S16,当判断所述跨页表格测试数据需要合并时,合并所述页面底部的表格与所述下一页面顶部的表格得到结果表格,并根据指令显示所述结果表格。
在本发明的至少一个实施例中,合并所述页面底部的表格与所述下一页面顶部的表格得到结果表格,并根据指令显示所述结果表格包括:
根据提取到的所述页面底部的表格的所述位置信息和所述下一页面顶部的表格的位置信息合并所述页面底部的表格与所述下一页面顶部的表格,得到结果表格;
将所述结果表格存储为表格文件,并存储所述完整的结果表格;
当接收到指令时,显示所述结果表格。
例如,在本发明的一个实施例中,根据提取到的所述页面底部的表格的所述位置信息和所述下一页面顶部的表格的位置信息合并所述页面底部的表格与所述下一页面顶部的表格,得到结果表格可以包括:
根据提取到的所述页面底部的表格的所述位置信息和所述下一页面顶部的表格的位置信息,获得所述页面底部的表格的图片与所述下一页面顶部的表格的图片;
缩放所述页面底部的表格的图片与所述下一页面顶部的表格的图片,使得所述页面底部的表格的图片宽度与所述下一页面顶部的表格的图片宽度相同;
合并调整宽度后的所述页面底部的表格图片与所述下一页面顶部的表格图片,得到结果表格。
又例如,在本发明的另一实施例中,根据提取到的所述页面底部的表格的所述位置信息和所述下一页面顶部的表格的位置信息合并所述页面底部的表格与所述下一页面顶部的表格,得到结果表格可以包括:
解析所述页面底部的表格的文本信息和所述下一页面顶部的表格的文本信息;
根据提取到的所述页面底部的表格的所述位置信息和所述下一页面顶部的表格的位置信息,确定与所述页面底部的表格中的列对应的所述下一页面顶部的表格的列;
根据所述页面底部的表格中的列与对应的所述下一页面顶部的表格的列,合并所述页面底部的表格中的文本信息与对应的所述下一页面顶部的表格中的文本信息,得到结果表格。
例如,当接收到指令时,显示所述结果表格可以包括:
当指令为将所述结果表格展示为单独一页文档时,从所述数据库中提取所述结果表格,根据所述文档的页面尺寸,按照所述结果表格的高度宽度比例缩放对所述结果表格的边框与文字,使所述结果表格的高度小于所述文档的高度,并使所述结果表格的宽度小于所述文档的宽度,并将所述结果表格显示在一页文档上。
又例如,当接收到指令时,显示所述结果表格可以包括:
当指令为将所述结果表格展示为单独一页文档时,从所述数据库中提取所述结果表格,根据所述文档的页面尺寸,按照所述结果表格的高度宽度比例缩放对所述结果表格的边框与文字,使所述结果表格的高度小于所述文档的高度,并使所述结果表格的宽度小于所述文档的宽度,并将所述结果表格显示在一页文档上。
需要说明的是,为保证上述处理过程中的数据和输出结果的私密性和安全性,所述处理过程中的数据和输出结果可存储于区块链中,比如所述人脸图像训练数据、所述第一特征图,所述第一几何关系矩阵、所述人脸图片测试数据、所述第二输入数据、所述人脸关键点等。
本发明获取至少两个PDF文档,并采集每个所述PDF文档中的至少一个表格,得到表格数据集;根据表格数据集生成跨页表格训练数据集;使用跨页表格训练数据集训练深度学习模型,得到表格合并模型,获取PDF测试文档,去除页眉和页脚,构建跨页表格测试数据利用表格合并模型预测跨页表格测试数据需要合并的二分类预测值,并根据二分类预测值判断跨页表格测试数据是否需要合并,合并并输出需要合并的跨页表格,可以有效地处理PDF文档中复杂表格跨页提取的任务,对判断跨页表格是否需要合并有较高的准确率。
实施例2
图2为本发明一实施方式中PDF文档跨页表格合并装置30的结构图。
在一些实施例中,所述PDF文档跨页表格合并装置30运行于电子设备中。所述PDF文档跨页表格合并装置30可以包括多个由程序代码段所组成的功能模块。所述PDF文档跨页表格合并装置30中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以PDF文档跨页表格合并功能。
本实施例中,所述PDF文档跨页表格合并装置30根据其所执行的功能,可以被划分为多个功能模块。参阅图2所示,所述PDF文档跨页表格合并装置30可以包括表格数据获取模块301、训练数据集构造模块302、模型训练模块303、测试数据构造模块304、预测模块305及合并模块306。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器中。所述在一些实施例中,关于各模块的功能将在后续的实施例中详述。
所述表格数据获取模块301获取至少两个包含表格的PDF文档,并采集每个所述PDF文档中的至少一个表格的位置信息和文本信息,并根据所述表格的位置信息得到表格数据集。
具体地,在本发明的至少一个实施例中,所述表格数据获取模块301采集每个所述PDF文档中的至少一个表格的位置信息和文本信息,并根据所述表格的位置信息得到表格数据集包括:
使用pdfplumber库解析每个所述PDF文档得到每个所述PDF文档的位置信息和文本信息,并从所述位置信息中采集所述PDF文档中表格的位置信息以及所述表格中每个单元格的位置信息作为表格数据集。
具体地,在本发明的其他实施方式中,所述表格数据获取模块301采集每个所述PDF文档中的至少一个表格的位置信息和文本信息,并根据所述表格的位置信息得到表格数据集包括:
使用其他PDF内容解析库,例如pdfminer、camelot等,解析每个所述PDF文档得到每个所述PDF文档的位置信息和文本信息,并从所述位置信息中采集所述PDF文档中的表格的位置信息和文本信息以及所述表格中每个单元格的位置信息。
在本方式的一个实施例中,所述PDF文档可以是涉及不同领域的、记录各类不同信息的文档,例如:金融领域、商业领域、医疗领域等不同的技术领域;所述文本信息为除图片外的所有文本信息,所述位置信息包括:页眉、页脚、标题、正文、表格的位置信息等。
所述训练数据集构造模块302对所述表格数据集中的每个表格,随机选取每个所述表格中的一行进行划分,得到每个所述表格的上半区块的位置信息和每个所述表格的下半区块的位置信息,合并所述每个表格的上半区块的位置信息和每个所述表格的下半区块的位置信息得到正样本数据,将所述正样本数据标注为第一标记,随机选择所述每个表格的上半区块的位置信息和其他表格的上半区块的位置信息得到负样本数据,将所述负样本数据标注为第二标记,所述正样本数据与所述负样本数据组成样本训练数据,所述样本训练数据与对应的标注组成跨页表格训练数据集。
例如,所述第一标记可以是1,所述第二标记可以是0。
又例如,当所述表格数据集包括第一表格和第二表格时,所述训练数据集构造模块302根据所述表格数据集生成跨页表格训练数据集包括:
对于所述第一表格,随机选取所述第一表格中除第一行和最后一行以外的一行进行划分,得到第一表格上半区块的位置信息和第一表格下半区块的位置信息,对于所述第二表格,随机选取所述第二表格中除第一行和最后一行以外的一行进行划分,得到第二表格上半区块的位置信息和第二表格下半区块的位置信息,所述上半区块和所述下半区块为表格划分后得到的表格上半部分和表格下半部分;
合并所述第一表格上半区块的位置信息和所述第一表格下半区块的位置信息得到第一正样本数据,合并所述第二表格上半区块的位置信息和所述第二表格下半区块的位置信息得到第二正样本数据,将所述第一正样本数据和所述第二正样本数据标注为1;
合并所述第一表格上半区块的位置信息和所述第二表格上半区块的位置信息得到第一负样本数据,合并所述第二表格上半区块的位置信息和所述第一表格上半区块的位置信息得到第二负样本数据,将所述第一负样本数据和所述第二负样本数据标注为0;
所述第一正样本数据、所述第二正样本数据、所述第一负样本数据、所述第二负样本数据组成所述样本训练数据,所述样本训练数据与对应的标注组成跨页表格训练数据集。
在本发明的一个实施例中,区块的位置信息包括:区块左上角的x坐标,区块左上角的y坐标,区块的宽,区块的高,单元格左上角的x坐标,单元格左上角的y坐标,单元格的宽,单元格的高,区块中列的数量。
所述模型训练模块303构建基于深度双向变换器的预训练模型的深度学习模型,根据所述跨页表格训练数据集构造所述深度学习模型的输入数据,将所述跨页表格训练数据集中的每个所述表格中的单元格作为所述深度学习模型的输入的步长,将所述跨页表格训练数据集中每个样本训练数据标注对应的二分类预测值作为所述深度学习模型的输出,训练并优化所述深度学习模型,得到表格合并模型。
在本发明的至少一个实施例中,根据所述跨页表格训练数据集构造所述深度学习模型的输入数据包括:
将所述跨页表格训练数据集中的样本训练数据和样本训练数据的标注构造为符合模型输入格式的数据,并作为所述深度学习模型的输入数据,其中,所述模型输入格式为[SEP]+table1_cell1+table1_cell2+…+table1_cellm+[SEP]+table2_cell1+table2_cell2+…+table2_celln+[SEP],其中,table1和table2表示两个区块,table_cell表示由区块中单元格位置信息构成的特征,m表示table1的单元格数量,n表示table2的单元格数量,当m大于或等于n时,[SEP]为m个“1”组成的序列,当m小于n时,[SEP]为n个“1”组成的序列,所述table_cell内的数据为[x_t,y_t,w_t,h_t,x_t+w_t,y_t+h_t,(x_t+w_t)/h_t,(y_t+h_t)/2,x_c,y_c,w_c,h_c,x_c+w_c,y_c+h_c,(x_c+w_c)/h_c,(y_c+h_c)/2,a],其中,x_t为区块左上角的x坐标,y_t为区块左上角的y坐标,w_t为区块的宽,h_t为区块的高,x_c为单元格左上角的x坐标,y_c为单元格左上角的y坐标,w_c为单元格的宽,h_c为单元格的高,a为0或1。
具体地,所述table1和table2可以表示同一表格的上半区块和下半区块,也可以表示不同表格的两个上半区块;当table1和table2的列的数量相同时,a为1,当table1和table2的列的数量不同时,a为0。
在本发明的一个实施方式中,将所述跨页表格训练数据集中每个样本训练数据标注对应的二分类预测值作为所述深度学习模型的输出包括:
当所述样本训练数据的标注为所述第一标记时,所述深度学习模型的输出中[SEP]处的二分类预测值为第一预设值;
当所述样本训练数据的标注为所述第二标记时,所述深度学习模型的输出中[SEP]处的二分类预测值为第二预设值。
例如,所述第一预设值可以是1,所述第二预设值可以是0。
具体地,在本发明的至少一个实施例中,所述二分类预测值为所述样本训练数据中的两个区块为同一表格的概率,当二分类预测值为第一预设值时,表示所述样本训练数据中的两个区块来自同一表格,所述样本训练数据需要合并的概率为1,即所述样本训练数据需要合并;当所述二分类预测值为第二预设值时,表示所述样本训练数据中的两个区块来自不同表格,所述样本训练数据需要合并的概率为0,即所述样本训练数据不需要合并。
在本发明的至少一个实施例中,所述训练并优化所述深度学习模型,得到表格合并模型包括:
利用所述编码层对所述输入数据进行编码;
训练所述预测层,直至所述预测层收敛,得到所述表格合并模型,所述表格合并模型的输出为预测所述样本训练数据是否需要合并的二分类预测值。
进一步地,在本发明的其他实施例中,若所述二分类预测值为介于0和1之间的任一数值时,可根据预设的比较值0.5来判断是否需要对某一条样本训练数据进行合并,当大于或等于0.5时,确定该条样本训练数据需要进行合并;当小于0.5时;确定该条样本训练数据不需要进行合并。
所述测试数据构造模块304获取PDF测试文档,采集所述PDF测试文档中每个页面的文本信息和位置信息,去除所述PDF测试文档中每个页面的页眉与页脚的文本信息和位置信息,根据所述每个页面的位置信息判断每个页面的底部和顶部是否存在表格,当所述页面底部与所述页面的下一页面顶部存在表格时,合并所述页面底部的表格的位置信息与所述页面的下一页面顶部的表格的位置信息,将合并结果作为跨页表格测试数据。
在本发明的至少一个实施例中,去除所述PDF测试文档中每个页面的页眉与页脚的文本信息和位置信息包括:
计算所述PDF测试文档中所有页面的页面高度均值;
取所述页面平均高度的第一分位值的高度作为页眉的候选区域,取所述页面平均高度的第二分位值的高度作为页脚的候选区域;
对所述PDF测试文档中的每个页面,提取所述页眉的候选区域中的文本信息和位置信息及所述页脚的候选区域中的文本信息和位置信息;
对所述PDF测试文档中的每个页面,计算所述页眉的候选区域中的文本与该页面前后指定数量的页面中所述页眉的候选区域中文本的第一编辑距离,并计算所述页脚的候选区域中的文本与该页面前后指定数量的页面中所述页脚的候选区域中文本的第二编辑距离;
当所述第一编辑距离小于预设的第一阈值时,判定所述候选区域中的所述文本为页眉,去除所述页眉的文本信息和位置信息,当所述第二编辑距离小于预设的第二阈值时,判定所述候选区域中的所述文本为页脚,去除所述页脚的文本信息和位置信息。
在本发明的至少一个实施方式中,所述编辑距离是针对二个字符串的差异程度的量化量测,具体地,所述编辑距离是从一个字符串通过插入、修改、删除等操作转换为另外一个字符串所需要最小的步骤。
所述预测模块305根据所述跨页表格测试数据,利用所述表格合并模型预测得到二分类预测值,所述二分类预测值用于判断所述跨页表格测试数据是否需要合并。
在本发明的至少一个实施例中,根据所述跨页表格测试数据,利用所述表格合并模型预测得到二分类预测值包括:
将所述跨页表格测试数据的格式转换为所述表格合并模型所要求的格式,并将格式转换后的跨页表格测试数据作为所述表格合并模型的输入数据;
所述表格合并模型根据所述输入数据预测所述跨页表格测试数据中的所述页面底部的表格与所述下一页面的顶部的表格需要合并的二分类预测值。
具体地,在本发明的至少一个实施例中,当所述表格合并模型对所述跨页表格测试数据预测得到的二分类预测值大于或等于0.5时,表示所述跨页表格测试数据中的页面底部的表格与下一页面顶部的表格属于同一表格,因此判断所述页面底部的表格与所述下一页面的顶部的表格需要合并;当所述二分类预测值小于0.5时,表示所述跨页表格测试数据中的页面底部的表格与下一页面顶部的表格属于不同的表格,因此判断所述页面底部的表格与所述下一页面的顶部的表格不需要合并。
所述合并模块306当判断所述跨页表格测试数据需要合并时,合并所述页面底部的表格与所述下一页面顶部的表格得到结果表格,并根据指令显示所述结果表格。
在本发明的至少一个实施例中,合并所述页面底部的表格与所述下一页面顶部的表格得到结果表格,并根据指令显示所述结果表格包括:
根据提取到的所述页面底部的表格的所述位置信息和所述下一页面顶部的表格的位置信息合并所述页面底部的表格与所述下一页面顶部的表格,得到结果表格;
将所述结果表格存储为表格文件,并存储所述完整的结果表格;
当接收到指令时,显示所述结果表格。
本发明获取至少两个PDF文档,并采集每个所述PDF文档中的至少一个表格,得到表格数据集;根据表格数据集生成跨页表格训练数据集;使用跨页表格训练数据集训练深度学习模型,得到表格合并模型,获取PDF测试文档,去除页眉和页脚,构建跨页表格测试数据利用表格合并模型预测跨页表格测试数据需要合并的二分类预测值,并根据二分类预测值判断跨页表格测试数据是否需要合并,合并并输出需要合并的跨页表格,可以有效地处理PDF文档中复杂表格跨页提取的任务,对判断跨页表格是否需要合并有较高的准确率。
实施例3
图3为本发明一实施方式中电子设备6的示意图。
所述电子设备6包括存储器61、处理器62以及存储在所述存储器61中并可在所述处理器62上运行的计算机可读指令。所述处理器62执行所述计算机可读指令时实现上述PDF文档跨页表格合并方法实施例中的步骤,例如图1所示的步骤S11~S16。或者,所述处理器62执行所述计算机可读指令时实现上述PDF文档跨页表格合并装置实施例中各模块/单元的功能,例如图2中的模块301~306。
示例性的,所述计算机可读指令可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器62执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,所述指令段用于描述所述计算机可读指令在所述电子设备6中的执行过程。例如,所述计算机可读指令可以被分割成图2中的表格数据获取模块301、训练数据集构造模块302、模型训练模块303、测试数据构造模块304、预测模块305及合并模块306,各模块具体功能参见实施例2。
本实施方式中,所述电子设备6可以是桌上型计算机、笔记本、掌上电脑、服务器及云端终端装置等计算设备。本领域技术人员可以理解,所述示意图仅仅是电子设备6的示例,并不构成对电子设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备6还可以包括输入输出设备、网络接入设备、总线等。
所称处理器62可以是中央处理模块(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器62也可以是任何常规的处理器等,所述处理器62是所述电子设备6的控制中心,利用各种接口和线路连接整个电子设备6的各个部分。
所述存储器61可用于存储所述计算机可读指令和/或模块/单元,所述处理器62通过运行或执行存储在所述存储器61内的计算机可读指令和/或模块/单元,以及调用存储在存储器61内的数据,实现所述电子设备6的各种功能。所述存储器61可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备6的使用所创建的数据等。此外,存储器61可以包括易失性存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。
所述电子设备6集成的模块/单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读存储介质中,所述计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机可读指令包括计算机可读指令代码,所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每个个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能模块可以集成在相同处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在相同模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标注视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他模块或步骤,单数不排除复数。电子设备权利要求中陈述的多个模块或电子设备也可以由同一个模块或电子设备通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种PDF文档跨页表格合并方法,其特征在于,所述PDF文档跨页表格合并方法包括:
获取至少两个包含表格的PDF文档,并采集每个所述PDF文档中的至少一个表格的位置信息和文本信息,并根据所述表格的位置信息得到表格数据集;
对所述表格数据集中的每个表格,随机选取每个所述表格中的一行进行划分,得到每个所述表格的上半区块的位置信息和每个所述表格的下半区块的位置信息,合并所述每个表格的上半区块的位置信息和每个所述表格的下半区块的位置信息得到正样本数据,将所述正样本数据标注为第一标记,随机选择所述每个表格的上半区块的位置信息和其他表格的上半区块的位置信息得到负样本数据,将所述负样本数据标注为第二标记,所述正样本数据与所述负样本数据组成样本训练数据,所述样本训练数据与对应的标注组成跨页表格训练数据集;
构建基于深度双向变换器的预训练模型的深度学习模型,根据所述跨页表格训练数据集构造所述深度学习模型的输入数据,将所述跨页表格训练数据集中的每个所述表格中的单元格作为所述深度学习模型的输入的步长,将所述跨页表格训练数据集中每个样本训练数据标注对应的二分类预测值作为所述深度学习模型的输出,训练并优化所述深度学习模型,得到表格合并模型;
获取PDF测试文档,采集所述PDF测试文档中每个页面的文本信息和位置信息,去除所述PDF测试文档中每个页面的页眉与页脚的文本信息和位置信息,根据所述每个页面的位置信息判断每个页面的底部和顶部是否存在表格,当所述页面底部与所述页面的下一页面顶部存在表格时,合并所述页面底部的表格的位置信息与所述页面的下一页面顶部的表格的位置信息,将合并结果作为跨页表格测试数据;
根据所述跨页表格测试数据,利用所述表格合并模型预测得到二分类预测值,所述二分类预测值用于判断所述跨页表格测试数据是否需要合并;
当判断所述跨页表格测试数据需要合并时,合并所述页面底部的表格与所述下一页面顶部的表格得到结果表格,并根据指令显示所述结果表格。
2.如权利要求1所述的PDF文档跨页表格合并方法,其特征在于,所述根据所述跨页表格训练数据集构造所述深度学习模型的输入数据包括:
将所述跨页表格训练数据集中的样本训练数据和样本训练数据的标注构造为符合模型输入格式的数据,并作为所述深度学习模型的输入数据,其中,所述模型输入格式为[SEP]+table1_cell1+table1_cell2+…+table1_cellm+[SEP]+table2_cell1+table2_cell2+…+table2_celln+[SEP],其中,table1和table2表示两个区块,table_cell表示由区块中单元格位置信息构成的特征,m表示table1的单元格数量,n表示table2的单元格数量,当m大于或等于n时,[SEP]为m个“1”组成的序列,当m小于n时,[SEP]为n个“1”组成的序列,所述table_cell内的数据为[x_t,y_t,w_t,h_t,x_t+w_t,y_t+h_t,(x_t+w_t)/h_t,(y_t+h_t)/2,x_c,y_c,w_c,h_c,x_c+w_c,y_c+h_c,(x_c+w_c)/h_c,(y_c+h_c)/2,a],其中,x_t为区块左上角的x坐标,y_t为区块左上角的y坐标,w_t为区块的宽,h_t为区块的高,x_c为单元格左上角的x坐标,y_c为单元格左上角的y坐标,w_c为单元格的宽,h_c为单元格的高,a为0或1。
3.如权利要求2所述的PDF文档跨页表格合并方法,其特征在于,所述将所述跨页表格训练数据集中每个样本训练数据标注对应的二分类预测值作为所述深度学习模型的输出包括:
当所述样本训练数据的标注为所述第一标记时,所述深度学习模型的输出中[SEP]处的二分类预测值为第一预设值;
当所述样本训练数据的标注为所述第二标记时,所述深度学习模型的输出中[SEP]处的二分类预测值为第二预设值。
4.如权利要求1所述的PDF文档跨页表格合并方法,其特征在于,所述训练并优化所述深度学习模型,得到表格合并模型包括:
利用所述深度学习模型的编码层对所述输入数据进行编码;
训练所述深度学习模型的预测层,直至所述深度学习模型的预测层收敛,得到所述表格合并模型,所述表格合并模型的输出为预测所述样本训练数据是否需要合并的二分类预测值。
5.如权利要求1所述的PDF文档跨页表格合并方法,其特征在于,所述去除所述PDF测试文档中每个页面的页眉与页脚的文本信息和位置信息包括:
计算所述PDF测试文档中所有页面的页面高度均值;
取所述页面平均高度的第一分位值的高度作为页眉的候选区域,取所述页面平均高度的第二分位值的高度作为页脚的候选区域;
对所述PDF测试文档中的每个页面,提取所述页眉的候选区域中的文本信息和位置信息及所述页脚的候选区域中的文本信息和位置信息;
对所述PDF测试文档中的每个页面,计算所述页眉的候选区域中的文本与该页面前后指定数量的页面中所述页眉的候选区域中文本的第一编辑距离,并计算所述页脚的候选区域中的文本与该页面前后指定数量的页面中所述页脚的候选区域中文本的第二编辑距离;
当所述第一编辑距离小于预设的第一阈值时,判定所述候选区域中的所述文本为页眉,去除所述页眉的文本信息和位置信息,当所述第二编辑距离小于预设的第二阈值时,判定所述候选区域中的所述文本为页脚,去除所述页脚的文本信息和位置信息。
6.如权利要求1所述的PDF文档跨页表格合并方法,其特征在于,所述根据所述跨页表格测试数据,利用所述表格合并模型预测得到二分类预测值包括:
将所述跨页表格测试数据的格式转换为所述表格合并模型所要求的格式,并将格式转换后的跨页表格测试数据作为所述表格合并模型的输入数据;
所述表格合并模型根据所述输入数据预测所述跨页表格测试数据中的所述页面底部的表格与所述下一页面的顶部的表格需要合并的二分类预测值。
7.如权利要求1所述的PDF文档跨页表格合并方法,其特征在于,所述合并所述页面底部的表格与所述下一页面顶部的表格得到结果表格,并根据指令显示所述结果表格包括:
根据提取到的所述页面底部的表格的所述位置信息和所述下一页面顶部的表格的位置信息合并所述页面底部的表格与所述下一页面顶部的表格,得到结果表格;
将所述结果表格存储为表格文件,并存储完整的结果表格;
当接收到指令时,显示所述结果表格。
8.一种PDF文档跨页表格合并装置,其特征在于,所述PDF文档跨页表格合并装置包括:
表格数据获取模块,用于获取至少两个包含表格的PDF文档,并采集每个所述PDF文档中的至少一个表格的位置信息和文本信息,并根据所述表格的位置信息得到表格数据集;
训练数据集构造模块,用于对所述表格数据集中的每个表格,随机选取每个所述表格中的一行进行划分,得到每个所述表格的上半区块的位置信息和每个所述表格的下半区块的位置信息,合并所述每个表格的上半区块的位置信息和每个所述表格的下半区块的位置信息得到正样本数据,将所述正样本数据标注为第一标记,随机选择所述每个表格的上半区块的位置信息和其他表格的上半区块的位置信息得到负样本数据,将所述负样本数据标注为第二标记,所述正样本数据与所述负样本数据组成样本训练数据,所述样本训练数据与对应的标注组成跨页表格训练数据集;
模型训练模块,用于构建基于深度双向变换器的预训练模型的深度学习模型,根据所述跨页表格训练数据集构造所述深度学习模型的输入数据,将所述跨页表格训练数据集中的每个所述表格中的单元格作为所述深度学习模型的输入的步长,将所述跨页表格训练数据集中每个样本训练数据标注对应的二分类预测值作为所述深度学习模型的输出,训练并优化所述深度学习模型,得到表格合并模型;
测试数据构造模块,用于获取PDF测试文档,采集所述PDF测试文档中每个页面的文本信息和位置信息,去除所述PDF测试文档中每个页面的页眉与页脚的文本信息和位置信息,根据所述每个页面的位置信息判断每个页面的底部和顶部是否存在表格,当所述页面底部与所述页面的下一页面顶部存在表格时,合并所述页面底部的表格的位置信息与所述页面的下一页面顶部的表格的位置信息,将合并结果作为跨页表格测试数据;
预测模块,用于根据所述跨页表格测试数据,利用所述表格合并模型预测得到二分类预测值,所述二分类预测值用于判断所述跨页表格测试数据是否需要合并;
合并模块,用于当判断所述跨页表格测试数据需要合并时,合并所述页面底部的表格与所述下一页面顶部的表格得到结果表格,并根据指令显示所述结果表格。
9.一种电子设备,其特征在于,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现如权利要求1至7中任一项所述的PDF文档跨页表格合并方法。
10.一种计算机存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的PDF文档跨页表格合并方法。
CN202011290521.7A 2020-11-17 2020-11-17 Pdf文档跨页表格合并方法、装置、电子设备及存储介质 Active CN112380825B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011290521.7A CN112380825B (zh) 2020-11-17 2020-11-17 Pdf文档跨页表格合并方法、装置、电子设备及存储介质
PCT/CN2021/096636 WO2022105172A1 (zh) 2020-11-17 2021-05-28 Pdf文档跨页表格合并方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011290521.7A CN112380825B (zh) 2020-11-17 2020-11-17 Pdf文档跨页表格合并方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112380825A CN112380825A (zh) 2021-02-19
CN112380825B true CN112380825B (zh) 2022-07-15

Family

ID=74585013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011290521.7A Active CN112380825B (zh) 2020-11-17 2020-11-17 Pdf文档跨页表格合并方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN112380825B (zh)
WO (1) WO2022105172A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380825B (zh) * 2020-11-17 2022-07-15 平安科技(深圳)有限公司 Pdf文档跨页表格合并方法、装置、电子设备及存储介质
CN113362026B (zh) * 2021-06-04 2024-08-23 北京金山数字娱乐科技有限公司 文本处理方法及装置
CN113761833A (zh) * 2021-08-16 2021-12-07 联想(北京)有限公司 一种文档内容的显示方法、装置及设备
CN115344718B (zh) * 2022-07-13 2023-06-13 北京庖丁科技有限公司 跨区域文档内容识别方法、装置、设备、介质和程序产品
CN117496545B (zh) * 2024-01-02 2024-03-15 物产中大数字科技有限公司 一种面向pdf文档的表格数据融合处理方法及装置
CN118379753B (zh) * 2024-06-25 2024-09-24 万村联网数字科技有限公司 利用ocr技术提取不良资产合同关键信息的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9430453B1 (en) * 2012-12-19 2016-08-30 Emc Corporation Multi-page document recognition in document capture
CN107818075A (zh) * 2017-10-16 2018-03-20 平安科技(深圳)有限公司 表格信息结构化提取方法、电子设备及计算机可读存储介质
CN110348294A (zh) * 2019-05-30 2019-10-18 平安科技(深圳)有限公司 Pdf文档中图表的定位方法、装置及计算机设备
CN111027297A (zh) * 2019-12-23 2020-04-17 海南港澳资讯产业股份有限公司 一种对图像型pdf财务数据关键表格信息的处理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5341388B2 (ja) * 2008-05-02 2013-11-13 キヤノン株式会社 文書処理装置及び文書処理方法
US20200234003A1 (en) * 2017-02-27 2020-07-23 Alex Bakman Method, system and apparatus for generating, editing, and deploying native mobile apps and utilizing deep learning for instant digital conversion
CN107844468A (zh) * 2017-10-16 2018-03-27 平安科技(深圳)有限公司 表格信息跨页识别方法、电子设备及计算机可读存储介质
CN109635268B (zh) * 2018-12-29 2023-05-05 南京吾道知信信息技术有限公司 Pdf文件中表格信息的提取方法
CN112380825B (zh) * 2020-11-17 2022-07-15 平安科技(深圳)有限公司 Pdf文档跨页表格合并方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9430453B1 (en) * 2012-12-19 2016-08-30 Emc Corporation Multi-page document recognition in document capture
CN107818075A (zh) * 2017-10-16 2018-03-20 平安科技(深圳)有限公司 表格信息结构化提取方法、电子设备及计算机可读存储介质
CN110348294A (zh) * 2019-05-30 2019-10-18 平安科技(深圳)有限公司 Pdf文档中图表的定位方法、装置及计算机设备
CN111027297A (zh) * 2019-12-23 2020-04-17 海南港澳资讯产业股份有限公司 一种对图像型pdf财务数据关键表格信息的处理方法

Also Published As

Publication number Publication date
CN112380825A (zh) 2021-02-19
WO2022105172A1 (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN112380825B (zh) Pdf文档跨页表格合并方法、装置、电子设备及存储介质
CN112686036B (zh) 风险文本识别方法、装置、计算机设备及存储介质
CN109933796B (zh) 一种公告文本关键信息提取方法及设备
CN111406262A (zh) 认知文档图像数字化
CN111680634A (zh) 公文文件处理方法、装置、计算机设备及存储介质
US20140212040A1 (en) Document Alteration Based on Native Text Analysis and OCR
CN109948518B (zh) 一种基于神经网络的pdf文档内容文本段落聚合的方法
CN111930976B (zh) 演示文稿生成方法、装置、设备及存储介质
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN111597309A (zh) 相似企业推荐方法、装置、电子设备及介质
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN112766268A (zh) 一种文本标注生成方法、装置、电子设备及存储介质
CN115758451A (zh) 基于人工智能的数据标注方法、装置、设备及存储介质
CN110852131B (zh) 一种考试卡的信息采集方法、系统及终端
CN116453125A (zh) 基于人工智能的数据录入方法、装置、设备及存储介质
CN109670183B (zh) 一种文本重要性的计算方法、装置、设备和存储介质
CN113065947A (zh) 数据处理方法、装置、设备及存储介质
CN112001158A (zh) 文书生成方法、装置、计算机设备及计算机可读存储介质
Van Nguyen et al. Digitalization of Administrative Documents A Digital Transformation Step in Practice
US20230023636A1 (en) Methods and systems for preparing unstructured data for statistical analysis using electronic characters
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN115690819A (zh) 一种基于大数据的识别方法及其系统
CN112989820B (zh) 法律文书定位方法、装置、设备及存储介质
CN114943474A (zh) 研发工作量检测方法、装置、设备及存储介质
CN114692573A (zh) 文本结构化处理方法、装置、计算机设备、介质和产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant