CN115588210A - 一种pdf表格内容识别方法、系统及存储介质 - Google Patents

一种pdf表格内容识别方法、系统及存储介质 Download PDF

Info

Publication number
CN115588210A
CN115588210A CN202211340773.5A CN202211340773A CN115588210A CN 115588210 A CN115588210 A CN 115588210A CN 202211340773 A CN202211340773 A CN 202211340773A CN 115588210 A CN115588210 A CN 115588210A
Authority
CN
China
Prior art keywords
document
target
content
intersection point
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202211340773.5A
Other languages
English (en)
Inventor
蔡青山
黄威威
黄鑫涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qizhidao Network Technology Co Ltd
Original Assignee
Qizhidao Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qizhidao Network Technology Co Ltd filed Critical Qizhidao Network Technology Co Ltd
Priority to CN202211340773.5A priority Critical patent/CN115588210A/zh
Publication of CN115588210A publication Critical patent/CN115588210A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种PDF表格内容识别方法、系统及存储介质,其涉及PDF内容识别技术领域,该方法包括如下步骤:获取包含表格内容的待识别PDF文档;预处理所述待识别PDF文档,得到预处理文档;通过预设的表格识别模型识别出所述预处理文档中包含所述表格内容的表格区域;从所述预处理文档中截取出所述表格区域,并基于所述表格区域生成表格图片;对所述表格图片进行图像识别,得到所述表格图片中的表格特征和文本属性;在预设的可编辑文档中基于所述表格特征生成目标表格;根据所述文本属性在所述目标表格中的各个目标单元格内填入对应的目标文字。本申请具有提取PDF文档中表格内容后可以直接对表格内容进行编辑的效果。

Description

一种PDF表格内容识别方法、系统及存储介质
技术领域
本申请涉及PDF内容识别技术领域,尤其是涉及一种PDF表格内容识别方法、系统及存储介质。
背景技术
随着计算机技术的发展,越来越多的文档格式被开发出来并被广泛使用着,比如PDF(Portable Document Format,便携式文档格式)格式的文档。其中,PDF是一种被广泛使用的电子文档格式。现在越来越多的专业资料、电子图书、产品说明和电子邮件等在开始使用PDF格式的文档。
PDF格式的文档是一种不可直接编辑的文档,若想获取并编辑PDF格式文档中表格内的特殊数据时,通常可以通过编写代码遍历PDF文档确定文档中的表格位置,再遍历表格中的各个单元格,以获取单元格属性并爬取单元格内的文本内容,根据单元格属性中的单元格行列数据生成所有文本内容之间的矩阵关系,最后将所有文本内容以矩阵形式输出至新建的可编辑文档中,即可在可编辑文档中编辑表格内容。
针对上述中的相关技术,发明人认为存在有以下缺陷:通过代码遍历爬取PDF文档的表格内容虽然可以准确爬取到表格内的所有数据,但由于表格内容的输出形式是基于单元格属性进行的矩阵输出,若部分单元格中的表格内容较多,则输出的表格内容会比较杂乱,不利于对表格内容进行编辑操作,因此在获取到输出的表格内容后需要重新整理或重新绘制表格才有利于后续的编辑操作。
发明内容
为了改善识别获取到PDF表格内容后可能难以直接对表格内容进行编辑的缺陷,本申请提供一种PDF表格内容识别方法、系统及存储介质。
第一方面,本申请提供一种PDF表格内容识别方法,包括如下步骤:
获取包含表格内容的待识别PDF文档;
预处理所述待识别PDF文档,得到预处理文档;
通过预设的表格识别模型识别出所述预处理文档中包含所述表格内容的表格区域;
从所述预处理文档中截取出所述表格区域,并基于所述表格区域生成表格图片;
对所述表格图片进行图像识别,得到所述表格图片中的表格特征和文本属性;
在预设的可编辑文档中基于所述表格特征生成目标表格;
根据所述文本属性在所述目标表格中的各个目标单元格内填入对应的目标文字。
通过采用上述技术方案,在获取到待识别PDF文档后需要先对待识别PDF文档进行预处理,以得到有利于表格区域识别的预处理文档,再通过预设的表格识别模型识别出预处理文档中的表格区域,截取表格区域并转换为表格图片,通过图像识别技术识别出表格图片中所包含表格的表格特征以及文本属性,从而在预设的可编辑文档中先根据表格特征生成目标表格,再根据文本属性在目标表格中的各个目标单元格内填入对应的目标文字。因此在可编辑文档中输出的待识别PDF文档表格数据包含可编辑的表格边框和表格边框内的可编辑数据,相较于代码爬取并输出的PDF文档表格数据,具有与待识别PDF文档中表格相同的排版和完整的边框,更有利于后续对可编辑文档中输出的表格数据进行直接编辑。
可选的,所述预处理所述待识别PDF文档,得到预处理文档包括如下步骤:
检测所述待识别PDF文档是否存在水印图层;
若存在所述水印图层,则删除所述水印图层,得到去水印文档;
对所述去水印文档进行去均值化处理,得到去均值化文档;
对所述去均值化文档进行归一化处理,得到预处理文档。
通过采用上述技术方案,先将待识别PDF文档进行解析,分析待识别PDF文档中是否存在具有干扰的水印图层,若存在,则删除水印图层,再将删除水印图层后的去水印文档进行去均值化处理和归一化处理,以增强文档中所显示内容的内容特征,最终得到预处理后的预处理文档。
可选的,所述通过预设的表格识别模型识别出所述预处理文档中包含所述表格内容的表格区域包括如下步骤:
通过预设的表格识别模型识别出所述预处理文档中的所有预选表格区域;
识别所有所述预选表格区域中表头部分的表头内容;
结合预设的表头内容数据库和所述表头内容筛选所述预选表格区域;
将筛选后剩下的所有所述预选表格区域作为识别到的表格区域。
通过采用上述技术方案,在通过预设的表格识别模型识别出预处理文档中的所有预选表格区域之后,需要结合预设的表头内容数据库和根据预选表格区域的表头内容对预选表格区域进行筛选,从而筛除不需要获取的表格区域以及表格区域中包含的表格数据。
可选的,所述结合预设的表头内容数据库和所述表头内容筛选所述预选表格区域包括如下步骤:
基于预设的表头内容数据库对所述表头内容进行语义分析,得到所述表格内容的语义契合度;
判断所述语义契合度是否超出预设的契合度阈值;
若所述语义契合度超出所述契合度阈值,则保留对应的预选表格区域;
若所述语义契合度未超出所述契合度阈值,则筛除对应的预选表格区域。
通过采用上述技术方案,通过语义分析模型可以分析出各个表头内容与表头内容数据库中数据内容之间的语义相似度,再计算得到表格内容的语义契合度,从而可以根据预设的契合度阈值判断是否保留预选表格区域,若语义契合度未超出契合度阈值,则说明对应预选表格区域中的表格内容不为所需的表格内容,因此需要筛除对应的预选表格区域。
可选的,所述对所述表格图片进行图像识别,得到所述表格图片中的表格特征和文本属性包括如下步骤:
通过预设的线段识别算法识别所述表格图片中的所有基础线段;
获取所有所述基础线段两端基础线段端点的端点坐标;
基于所述端点坐标标记出所述基础线段端点中的公共交点;
筛除所有所述基础线段中至少一端所述基础线段端点不为所述公共交点的孤立基础线段;
分别统计各个所述公共交点的端点重合数量;
将所述端点重合数量和所述公共交点的交点坐标值作为所述公共交点的交点属性;
结合筛除后的所有所述基础线段和所有所述交点属性生成表格特征;
结合预设的文本识别算法和所述交点属性获取所述表格图片中各个单元格的文本属性。
通过采用上述技术方案,图像识别包括线段识别算法和文字识别算法,先通过线段识别算法识别出表格图片中的所有基础线段,由于基础线段中可能包含不属于表格边框的线段,因此需要根据基础线段中基础线段端点的端点坐标分析出具有基础线段交汇的公共交点,再通过判断基础线段中的两个端点是否均为公共交点,以判断基础线段是否为不属于表格边框的孤立基础线段,并筛除孤立基础线段,从而根据筛除后的所有基础线段和所有交点属性生成表格特征,并结合预设的文本识别算法和交点属性获取表格图片中各个单元格的文本属性。
可选的,所述结合预设的文本识别算法和所述交点属性获取所述表格图片中各个单元格的文本属性包括如下步骤:
通过预设的文本识别算法识别所述表格图片中各个单元格内的文本内容,并根据所述文本内容生成文本内容框;
基于所述交点坐标值所在坐标系获取所述文本内容框的内容框坐标值;
结合所述交点坐标值和所述内容框坐标值选取对应文本内容框的关联公共交点;
将所述关联公共交点的关联交点属性和所述文本内容作为对应单元格的文本属性。
通过采用上述技术方案,通过文字识别算法可以识别出单元格内的文本内容,再根据文本内容生成文本内容框,以交点坐标值所在坐标系为基准,获取文本内容框所在位置的内容框坐标值,从而可以根据内容框坐标值和交点坐标值之间的关系筛选出与文本内容框距离最近的关联公共交点,因此将关联公共交点的关联交点属性和文本内容作为对应单元格的文本属性,可以有利于后续生成目标表格后对文本内容的定位。
可选的,所述在预设的可编辑文档中基于所述表格特征生成目标表格包括如下步骤:
基于所述交点坐标值从所述公共交点中选取初始生成点位;
将所述初始生成点位置于预设的可编辑文档中的初始位置;
根据所有所述公共交点与所述初始生成点位之间的坐标关系在所述可编辑文档中确定所有所述公共交点对应的交点位置;
结合所述交点位置和所述交点坐标值在所述可编辑文档中生成目标表格线段;
基于所述交点属性验证所述目标表格线段是否生成正确;
若所有所述目标表格线段均生成正确,则将所有所述目标表格线段组合生成目标表格。
通过采用上述技术方案,从所有公共交点中选取出合适的初始生成点位,再基于可编辑文档中的初始位置确定初始生成点位的位置,根据初始生成点位和其他所有公共交点的交点坐标值,确定出其他所有公共交点在可编辑文档中的位置,进而连接可编辑文档中所有相邻的公共交点形成多个目标表格线段,通过公共交点的交点属性可以对目标表格线段的生成进行验证,若验证通过,则将所有目标表格线段组合生成目标表格。
可选的,所述根据所述文本属性在所述目标表格中的各个目标单元格内填入对应的目标文字包括如下步骤:
基于所述关联公共交点的关联交点属性确定所述目标表格中各个目标单元格对应的目标文本内容;
将所述目标文本内容作为目标文字填入对应目标单元格的中间位置处。
通过采用上述技术方案,先获取组成目标单元格的单元格顶点的顶点坐标,再通过关联公共交点的关联交点坐标值匹配到坐标值相同的顶点坐标,从而确定关联坐标交点与顶点坐标的对应关系,进而将关联坐标交点对应的文本内容填入顶点坐标对应的目标单元格中。
第二方面,本申请还提供一种PDF表格内容识别系统,包括处理器和存储器,所述处理器在运行所述存储器存储的计算机指令时,执行如第一方面中所述的方法。
通过采用上述技术方案,通过程序的调取,在获取到待识别PDF文档后需要先对待识别PDF文档进行预处理,以得到有利于表格区域识别的预处理文档,再通过预设的表格识别模型识别出预处理文档中的表格区域,截取表格区域并转换为表格图片,通过图像识别技术识别出表格图片中所包含表格的表格特征以及文本属性,从而在预设的可编辑文档中先根据表格特征生成目标表格,再根据文本属性在目标表格中的各个目标单元格内填入对应的目标文字。因此在可编辑文档中输出的待识别PDF文档表格数据包含可编辑的表格边框和表格边框内的可编辑数据,相较于代码爬取并输出的PDF文档表格数据,具有与待识别PDF文档中表格相同的排版和完整的边框,更有利于后续对可编辑文档中输出的表格数据进行直接编辑。
第三方面,本申请还提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行如第一方面中所述的方法。
通过采用上述技术方案,通过程序的调取,在获取到待识别PDF文档后需要先对待识别PDF文档进行预处理,以得到有利于表格区域识别的预处理文档,再通过预设的表格识别模型识别出预处理文档中的表格区域,截取表格区域并转换为表格图片,通过图像识别技术识别出表格图片中所包含表格的表格特征以及文本属性,从而在预设的可编辑文档中先根据表格特征生成目标表格,再根据文本属性在目标表格中的各个目标单元格内填入对应的目标文字。因此在可编辑文档中输出的待识别PDF文档表格数据包含可编辑的表格边框和表格边框内的可编辑数据,相较于代码爬取并输出的PDF文档表格数据,具有与待识别PDF文档中表格相同的排版和完整的边框,更有利于后续对可编辑文档中输出的表格数据进行直接编辑。
综上所述,本申请包括以下至少一种有益技术效果:
1.在获取到待识别PDF文档后需要先对待识别PDF文档进行预处理,以得到有利于表格区域识别的预处理文档,再通过预设的表格识别模型识别出预处理文档中的表格区域,截取表格区域并转换为表格图片,通过图像识别技术识别出表格图片中所包含表格的表格特征以及文本属性,从而在预设的可编辑文档中先根据表格特征生成目标表格,再根据文本属性在目标表格中的各个目标单元格内填入对应的目标文字。因此在可编辑文档中输出的待识别PDF文档表格数据包含可编辑的表格边框和表格边框内的可编辑数据,相较于代码爬取并输出的PDF文档表格数据,具有与待识别PDF文档中表格相同的排版和完整的边框,更有利于后续对可编辑文档中输出的表格数据进行直接编辑。
2.在通过预设的表格识别模型识别出预处理文档中的所有预选表格区域之后,需要结合预设的表头内容数据库和根据预选表格区域的表头内容对预选表格区域进行筛选,从而筛除不需要获取的表格区域以及表格区域中包含的表格数据。
附图说明
图1是本申请实施例的PDF表格内容识别方法其中一种实施方式的流程示意图。
图2是本申请实施例的PDF表格内容识别方法其中一种实施方式的流程示意图。
图3是本申请实施例的PDF表格内容识别方法其中一种实施方式的流程示意图。
图4是本申请实施例的PDF表格内容识别方法其中一种实施方式的流程示意图。
图5是本申请实施例的PDF表格内容识别方法其中一种实施方式的流程示意图。
图6是本申请实施例的PDF表格内容识别方法其中一种实施方式的流程示意图。
图7是本申请实施例的PDF表格内容识别方法其中一种实施方式的流程示意图。
图8是本申请实施例的PDF表格内容识别方法其中一种实施方式的流程示意图。
具体实施方式
以下结合附图1至8对本申请作进一步详细说明。
本申请实施例公开了一种PDF表格内容识别方法。
参照图1,PDF表格内容识别方法包括如下步骤:
S101.获取包含表格内容的待识别PDF文档。
其中,待识别PDF文档可以是可提取文字内容的PDF文档,也可以是图片类的PDF文档。
S102.预处理待识别PDF文档,得到预处理文档。
其中,预处理步骤包括去水印、去均值、归一化、白化等处理步骤。
S103.通过预设的表格识别模型识别出预处理文档中包含表格内容的表格区域。
其中,通过提前构建并训练优化的表格识别模型对预处理文档中的表格内容进行识别,从而识别出包含有表格内容的表格区域。
S104.从预处理文档中截取出表格区域,并基于表格区域生成表格图片。
其中,从预处理文档中截取出表格区域后,将表格区域由PDF文档格式转换为图片格式的表格图片,图片格式可以为jpg格式或png格式。
S105.对表格图片进行图像识别,得到表格图片中的表格特征和文本属性。
其中,图像识别过程包括表格识别和文字识别,通过表格识别可以识别出表格图片中所包含表格的表格特征,而通过文字识别可以识别出表格图片中所包含表格内的表格文本内容和表格文本内容所在的表格位置。
S106.在预设的可编辑文档中基于表格特征生成目标表格。
其中,预设的可编辑文档可以为word文档,与可以为excel文档,所生成的目标表格与待识别PDF文档中对应的表格相同。
S107.根据文本属性在目标表格中的各个目标单元格内填入对应的目标文字。
其中,根据文本属性中表格文本内容所在的表格位置确定表格文本内容在目标表格中对应的目标单元格,再将文本属性中的表格文本内容填入至对应的目标单元格中。
本申请实施例其中一种实施方式的实施原理为:
在获取到待识别PDF文档后需要先对待识别PDF文档进行预处理,以得到有利于表格区域识别的预处理文档,再通过预设的表格识别模型识别出预处理文档中的表格区域,截取表格区域并转换为表格图片,通过图像识别技术识别出表格图片中所包含表格的表格特征以及文本属性,从而在预设的可编辑文档中先根据表格特征生成目标表格,再根据文本属性在目标表格中的各个目标单元格内填入对应的目标文字。因此在可编辑文档中输出的待识别PDF文档表格数据包含可编辑的表格边框和表格边框内的可编辑数据,相较于代码爬取并输出的PDF文档表格数据,具有与待识别PDF文档中表格相同的排版和完整的边框,更有利于后续对可编辑文档中输出的表格数据进行直接编辑。
在本申请实施例的其中一种实施方式中,参照图2,步骤S102即预处理待识别PDF文档,得到预处理文档具体包括如下步骤:
S201.检测待识别PDF文档是否存在水印图层,若存在水印图层,则执行步骤S202。
其中,通过解析待识别PDF文档,可以根据解析结果判断待识别PDF中是否存在水印图层。若不存在水印图层,则执行步骤S203。
S202.删除水印图层,得到去水印文档。
S203.对去水印文档进行去均值化处理,得到去均值化文档。
S204.对去均值化文档进行归一化处理,得到预处理文档。
本申请实施例其中一种实施方式的实施原理为:
先将待识别PDF文档进行解析,分析待识别PDF文档中是否存在具有干扰的水印图层,若存在,则删除水印图层,再将删除水印图层后的去水印文档进行去均值化处理和归一化处理,以增强文档中所显示内容的内容特征,最终得到预处理后的预处理文档。
在本申请实施例的其中一种实施方式中,参照图3,步骤S103即通过预设的表格识别模型识别出预处理文档中包含表格内容的表格区域具体包括如下步骤:
S301.通过预设的表格识别模型识别出预处理文档中的所有预选表格区域。
其中,可以基于YOLO模型建立初始表格识别模型,再通过大量包含表格的样本文档对建立后的初始表格识别模型进行训练优化,从而得到用于识别PDF文档中表格内容的表格识别模型。
S302.识别所有预选表格区域中表头部分的表头内容。
其中,通过文字识别技术识别所有预选表格区域中表格的第一行内容和第一列内容作为表头内容。
S303.结合预设的表头内容数据库和表头内容筛选预选表格区域。
其中,预设的表头内容数据库中预先存储有所有需要获取的表格数据中的表头文字内容,以及表头文字内容的同义词文字。
S304.将筛选后剩下的所有预选表格区域作为识别到的表格区域。
本申请实施例其中一种实施方式的实施原理为:
在通过预设的表格识别模型识别出预处理文档中的所有预选表格区域之后,需要结合预设的表头内容数据库和根据预选表格区域的表头内容对预选表格区域进行筛选,从而筛除不需要获取的表格区域以及表格区域中包含的表格数据。
在本申请实施例的其中一种实施方式中,参照图4,步骤S303即结合预设的表头内容数据库和表头内容筛选预选表格区域具体包括如下步骤:
S401.基于预设的表头内容数据库对表头内容进行语义分析,得到表格内容的语义契合度。
其中,通过预设的语义分析模型分析各个表头内容与表头内容数据库中所有数据内容之间的语义相似度,再计算所有语义相似度的平均值作为表格内容的语义契合度。
S402.判断语义契合度是否超出预设的契合度阈值,若语义契合度超出契合度阈值,则执行步骤S403;若语义契合度未超出契合度阈值,则执行步骤S404。
S403.保留对应的预选表格区域。
S404.筛除对应的预选表格区域。
本申请实施例其中一种实施方式的实施原理为:
通过语义分析模型可以分析出各个表头内容与表头内容数据库中数据内容之间的语义相似度,再计算得到表格内容的语义契合度,从而可以根据预设的契合度阈值判断是否保留预选表格区域,若语义契合度未超出契合度阈值,则说明对应预选表格区域中的表格内容不为所需的表格内容,因此需要筛除对应的预选表格区域。
在本申请实施例的其中一种实施方式中,参照图5,步骤S105即对表格图片进行图像识别,得到表格图片中的表格特征和文本属性具体包括如下步骤:
S501.通过预设的线段识别算法识别表格图片中的所有基础线段。
其中,预设的线段识别算法可以为HoughLines变换算法。
S502.获取所有基础线段两端基础线段端点的端点坐标。
其中,以任意基础线段的任一基础线段端点作为原点在表格图片中建立直角坐标系,作为原点的基础线段端点的端点坐标为(0,0),测量所有其他基础线段端点与原点之间的端点距离,并根据端点距离计算出所有基础线段端点的端点坐标。
S503.基于端点坐标标记出基础线段端点中的公共交点。
其中,遍历所有基础线段中两个基础线段端点的端点坐标,判断所有端点坐标中是否存在坐标值重复的端点坐标,若存在坐标值重复的端点坐标,则将该端点坐标所对应的所有基础线段端点标记为公共交点。
S504.筛除所有基础线段中至少一端基础线段端点不为公共交点的孤立基础线段。
其中,在标记出公共交点后,再次遍历所有基础线段,并逐个判断每个基础线段中的两个基础线段端点是否为公共交点,若某一基础线段中的两个基础线段端点均为公共交点,则保留该基础线段;若某一基础线段中的两个基础线段端点均不为公共交点或只有一个基础线段交点为公共交点,则说明该基础线段为不属于表格边框的孤立基础线段,因此需要筛除该孤立基础线段。
S505.分别统计各个公共交点的端点重合数量。
其中,在遍历所有基础线段中两个基础线段端点的端点坐标,并判断所有端点坐标中是否存在坐标值重复的端点坐标的过程中,当某一端点坐标所对应的基础线段端点被标记为公共交点时,统计该公共交点对应的所有基础线段端点的数量,并将统计到的数量作为该公共交点的端点重合数量。
S506.将端点重合数量和公共交点的交点坐标值作为公共交点的交点属性。
其中,交点属性中包含线段端点重合数量和交点坐标值两个维度的数据。
S507.结合筛除后的所有基础线段和所有交点属性生成表格特征。
S508.结合预设的文本识别算法和交点属性获取表格图片中各个单元格的文本属性。
其中,通过预设的文本识别算法可以识别出单元格内的文本内容,再根据组成单元格的各个公共交点的交点属性可以确定文本内容的文本位置。
本申请实施例其中一种实施方式的实施原理为:
图像识别包括线段识别算法和文字识别算法,先通过线段识别算法识别出表格图片中的所有基础线段,由于基础线段中可能包含不属于表格边框的线段,因此需要根据基础线段中基础线段端点的端点坐标分析出具有基础线段交汇的公共交点,再通过判断基础线段中的两个端点是否均为公共交点,以判断基础线段是否为不属于表格边框的孤立基础线段,并筛除孤立基础线段,从而根据筛除后的所有基础线段和所有交点属性生成表格特征,并结合预设的文本识别算法和交点属性获取表格图片中各个单元格的文本属性。
在本申请实施例的其中一种实施方式中,参照图6,步骤S508即结合预设的文本识别算法和交点属性获取表格图片中各个单元格的文本属性具体包括如下步骤:
S601.通过预设的文本识别算法识别表格图片中各个单元格内的文本内容,并根据文本内容生成文本内容框。
其中,预设的文本识别算法可以为OCR文字识别算法,通过文本识别算法识别出各个单元格内的文本内容后,根据各个文本内容生成对应的文本内容框,文本内容框能够完整框选对应的文本内容。
S602.基于交点坐标值所在坐标系获取文本内容框的内容框坐标值。
其中,文本内容框的内容框坐标值为文本内容框中心点的坐标值,先测量出文本内容框中心点与交点坐标值所在坐标系的坐标系原点之间的距离,再计算出文本内容框的内容框坐标值。
S603.结合交点坐标值和内容框坐标值选取对应文本内容框的关联公共交点。
其中,由于文本内容框所在的单元格由四个公共交点组成,因此可以根据交点坐标值和内容框坐标值计算文本内容框与所有公共交点之间的距离,并筛选出距离最小的四个公共交点,将筛选得到的四个公共交点作为该文本内容框的关联公共交点。
S604.将关联公共交点的关联交点属性和文本内容作为对应单元格的文本属性。
其中,关联交点属性包含关联公共交点的线段端点重合数量和交点坐标值两个维度的数据。
本申请实施例其中一种实施方式的实施原理为:
通过文字识别算法可以识别出单元格内的文本内容,再根据文本内容生成文本内容框,以交点坐标值所在坐标系为基准,获取文本内容框所在位置的内容框坐标值,从而可以根据内容框坐标值和交点坐标值之间的关系筛选出与文本内容框距离最近的关联公共交点,因此将关联公共交点的关联交点属性和文本内容作为对应单元格的文本属性,可以有利于后续生成目标表格后对文本内容的定位。
在本申请实施例的其中一种实施方式中,参照图7,步骤S106即在预设的可编辑文档中基于表格特征生成目标表格具体包括如下步骤:
S701.基于交点坐标值从公共交点中选取初始生成点位。
其中,可以将位于表格最左上角的公共交点作为目标表格生成过程中的初始生成点位,因此选取交点坐标值中X轴坐标值最小且Y轴坐标值最大的公共交点作为初始生成点位。
S702.将初始生成点位置于预设的可编辑文档中的初始位置。
其中,预设的可编辑文档可以为word文档也可以为excel文档,可编辑文档中的初始位置为用户所选取的表格内容在可编辑文档中的放置位置。
S703.根据所有公共交点与初始生成点位之间的坐标关系在可编辑文档中确定所有公共交点对应的交点位置。
其中,根据所有公共交点与初始生成点位之间的坐标关系,可以计算所有公共交点与初始生成点位之间的相隔距离和方位关系,例如,初始生成点位的坐标为(-2,5),某一公共交点的坐标为(0,5),则该公共交点位于初始生成点位右边2个距离长度的位置处。
S704.结合交点位置和交点坐标值在可编辑文档中生成目标表格线段。
其中,遍历可编辑文档中所有两两相邻的公共交点的交点坐标值,根据相邻的公共交点的交点坐标值判断交点之间目标表格线段的线段类型,若相邻公共交点的Y轴坐标值相同,则相邻公共交点之间的线段类型为横线线段,横线线段长度为相邻公共交点的X轴坐标值差值;若相邻公共交点的X轴坐标值相同,则相邻公共交点之间的线段类型为纵线线段,纵线线段长度为相邻公共交点的Y轴坐标值差值。
S705.基于交点属性验证目标表格线段是否生成正确,若所有目标表格线段均生成正确,则执行步骤S706。
其中,根据目标表格线段的生成,分析统计目标表格线段所形成的所有目标交点的重合线段数,通过交点属性中公共交点的交点坐标值找到可编辑闻到中对应的目标交点,再将交点属性中公共交点的线段端点重合数量与对应目标交点的重合线段数进行比对,若数量相同,则说明该目标交点所属的目标表格线段生成正确;若数量不同,则说明该目标交点所属的目标表格线段生成错误。
S706.将所有目标表格线段组合生成目标表格。
本申请实施例其中一种实施方式的实施原理为:
从所有公共交点中选取出合适的初始生成点位,再基于可编辑文档中的初始位置确定初始生成点位的位置,根据初始生成点位和其他所有公共交点的交点坐标值,确定出其他所有公共交点在可编辑文档中的位置,进而连接可编辑文档中所有相邻的公共交点形成多个目标表格线段,通过公共交点的交点属性可以对目标表格线段的生成进行验证,若验证通过,则将所有目标表格线段组合生成目标表格。
在本申请实施例的其中一种实施方式中,参照图8,步骤S107即根据文本属性在目标表格中的各个目标单元格内填入对应的目标文字具体包括如下步骤:
S801.基于关联公共交点的关联交点属性确定目标表格中各个目标单元格对应的目标文本内容。
其中,先获取目标表格中组成目标单元格的所有单元格顶点的顶点坐标,根据关联交点属性中的关联交点坐标值匹配坐标值相同的目标顶点坐标,则目标顶点坐标所围成的目标单元格内所包含的目标文本内容为关联交点属性对应的文本内容。
S802.将目标文本内容作为目标文字填入对应目标单元格的中间位置处。
本申请实施例其中一种实施方式的实施原理为:
先获取组成目标单元格的单元格顶点的顶点坐标,再通过关联公共交点的关联交点坐标值匹配到坐标值相同的顶点坐标,从而确定关联坐标交点与顶点坐标的对应关系,进而将关联坐标交点对应的文本内容填入顶点坐标对应的目标单元格中。
本申请实施例还公开一种PDF表格内容识别系统,包括处理器和存储器,处理器在运行存储器存储的计算机指令时,执行如图1至图8中所示的方法。
本实施例的实施原理为:
通过程序的调取,在获取到待识别PDF文档后需要先对待识别PDF文档进行预处理,以得到有利于表格区域识别的预处理文档,再通过预设的表格识别模型识别出预处理文档中的表格区域,截取表格区域并转换为表格图片,通过图像识别技术识别出表格图片中所包含表格的表格特征以及文本属性,从而在预设的可编辑文档中先根据表格特征生成目标表格,再根据文本属性在目标表格中的各个目标单元格内填入对应的目标文字。因此在可编辑文档中输出的待识别PDF文档表格数据包含可编辑的表格边框和表格边框内的可编辑数据,相较于代码爬取并输出的PDF文档表格数据,具有与待识别PDF文档中表格相同的排版和完整的边框,更有利于后续对可编辑文档中输出的表格数据进行直接编辑。
本申请实施例还公开一种计算机可读存储介质,其特征在于,包括指令,当指令在计算机上运行时,使得计算机执行如图1至图8中所示的方法。
本实施例的实施原理为:
通过程序的调取,在获取到待识别PDF文档后需要先对待识别PDF文档进行预处理,以得到有利于表格区域识别的预处理文档,再通过预设的表格识别模型识别出预处理文档中的表格区域,截取表格区域并转换为表格图片,通过图像识别技术识别出表格图片中所包含表格的表格特征以及文本属性,从而在预设的可编辑文档中先根据表格特征生成目标表格,再根据文本属性在目标表格中的各个目标单元格内填入对应的目标文字。因此在可编辑文档中输出的待识别PDF文档表格数据包含可编辑的表格边框和表格边框内的可编辑数据,相较于代码爬取并输出的PDF文档表格数据,具有与待识别PDF文档中表格相同的排版和完整的边框,更有利于后续对可编辑文档中输出的表格数据进行直接编辑。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

Claims (10)

1.一种PDF表格内容识别方法,其特征在于,包括如下步骤:
获取包含表格内容的待识别PDF文档;
预处理所述待识别PDF文档,得到预处理文档;
通过预设的表格识别模型识别出所述预处理文档中包含所述表格内容的表格区域;
从所述预处理文档中截取出所述表格区域,并基于所述表格区域生成表格图片;
对所述表格图片进行图像识别,得到所述表格图片中的表格特征和文本属性;
在预设的可编辑文档中基于所述表格特征生成目标表格;
根据所述文本属性在所述目标表格中的各个目标单元格内填入对应的目标文字。
2.根据权利要求1所述的一种PDF表格内容识别方法,其特征在于,所述预处理所述待识别PDF文档,得到预处理文档包括如下步骤:
检测所述待识别PDF文档是否存在水印图层;
若存在所述水印图层,则删除所述水印图层,得到去水印文档;
对所述去水印文档进行去均值化处理,得到去均值化文档;
对所述去均值化文档进行归一化处理,得到预处理文档。
3.根据权利要求1所述的一种PDF表格内容识别方法,其特征在于,所述通过预设的表格识别模型识别出所述预处理文档中包含所述表格内容的表格区域包括如下步骤:
通过预设的表格识别模型识别出所述预处理文档中的所有预选表格区域;
识别所有所述预选表格区域中表头部分的表头内容;
结合预设的表头内容数据库和所述表头内容筛选所述预选表格区域;
将筛选后剩下的所有所述预选表格区域作为识别到的表格区域。
4.根据权利要求3所述的一种PDF表格内容识别方法,其特征在于,所述结合预设的表头内容数据库和所述表头内容筛选所述预选表格区域包括如下步骤:
基于预设的表头内容数据库对所述表头内容进行语义分析,得到所述表格内容的语义契合度;
判断所述语义契合度是否超出预设的契合度阈值;
若所述语义契合度超出所述契合度阈值,则保留对应的预选表格区域;
若所述语义契合度未超出所述契合度阈值,则筛除对应的预选表格区域。
5.根据权利要求1所述的一种PDF表格内容识别方法,其特征在于,所述对所述表格图片进行图像识别,得到所述表格图片中的表格特征和文本属性包括如下步骤:
通过预设的线段识别算法识别所述表格图片中的所有基础线段;
获取所有所述基础线段两端基础线段端点的端点坐标;
基于所述端点坐标标记出所述基础线段端点中的公共交点;
筛除所有所述基础线段中至少一端所述基础线段端点不为所述公共交点的孤立基础线段;
分别统计各个所述公共交点的端点重合数量;
将所述端点重合数量和所述公共交点的交点坐标值作为所述公共交点的交点属性;
结合筛除后的所有所述基础线段和所有所述交点属性生成表格特征;
结合预设的文本识别算法和所述交点属性获取所述表格图片中各个单元格的文本属性。
6.根据权利要求5所述的一种PDF表格内容识别方法,其特征在于,所述结合预设的文本识别算法和所述交点属性获取所述表格图片中各个单元格的文本属性包括如下步骤:
通过预设的文本识别算法识别所述表格图片中各个单元格内的文本内容,并根据所述文本内容生成文本内容框;
基于所述交点坐标值所在坐标系获取所述文本内容框的内容框坐标值;
结合所述交点坐标值和所述内容框坐标值选取对应文本内容框的关联公共交点;
将所述关联公共交点的关联交点属性和所述文本内容作为对应单元格的文本属性。
7.根据权利要求5所述的一种PDF表格内容识别方法,其特征在于,所述在预设的可编辑文档中基于所述表格特征生成目标表格包括如下步骤:
基于所述交点坐标值从所述公共交点中选取初始生成点位;
将所述初始生成点位置于预设的可编辑文档中的初始位置;
根据所有所述公共交点与所述初始生成点位之间的坐标关系在所述可编辑文档中确定所有所述公共交点对应的交点位置;
结合所述交点位置和所述交点坐标值在所述可编辑文档中生成目标表格线段;
基于所述交点属性验证所述目标表格线段是否生成正确;
若所有所述目标表格线段均生成正确,则将所有所述目标表格线段组合生成目标表格。
8.根据权利要求6所述的一种PDF表格内容识别方法,其特征在于,所述根据所述文本属性在所述目标表格中的各个目标单元格内填入对应的目标文字包括如下步骤:
基于所述关联公共交点的关联交点属性确定所述目标表格中各个目标单元格对应的目标文本内容;
将所述目标文本内容作为目标文字填入对应目标单元格的中间位置处。
9.一种PDF表格内容识别系统,其特征在于,包括处理器和存储器,所述处理器在运行所述存储器存储的计算机指令时,执行如权利要求1至8中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至8中任一项所述的方法。
CN202211340773.5A 2022-10-29 2022-10-29 一种pdf表格内容识别方法、系统及存储介质 Withdrawn CN115588210A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211340773.5A CN115588210A (zh) 2022-10-29 2022-10-29 一种pdf表格内容识别方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211340773.5A CN115588210A (zh) 2022-10-29 2022-10-29 一种pdf表格内容识别方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN115588210A true CN115588210A (zh) 2023-01-10

Family

ID=84782000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211340773.5A Withdrawn CN115588210A (zh) 2022-10-29 2022-10-29 一种pdf表格内容识别方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN115588210A (zh)

Similar Documents

Publication Publication Date Title
US10824801B2 (en) Interactively predicting fields in a form
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JP3294995B2 (ja) 帳票読取装置
JP5665125B2 (ja) 画像処理方法、及び、画像処理システム
CN112949476B (zh) 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN104809099A (zh) 文档文件生成装置及文档文件生成方法
CN113255642A (zh) 一种用于人伤理赔的医疗票据信息整合方法
CN115240213A (zh) 表格图像识别方法、装置、电子设备及存储介质
JP3525997B2 (ja) 文字認識方法
WO2021143058A1 (zh) 基于图像的信息比对方法、装置、电子设备及计算机可读存储介质
JPH08221510A (ja) 帳票文書処理装置および帳票文書処理方法
CN115588210A (zh) 一种pdf表格内容识别方法、系统及存储介质
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN112766269B (zh) 一种图片文本检索方法、智能终端及存储介质
CN111612045B (zh) 一种获取目标检测数据集的通用方法
CN115050025A (zh) 基于公式识别的知识点抽取方法及装置
JP2023003887A (ja) 書類画像処理システム、書類画像処理方法、および書類画像処理プログラム
JP2009087378A (ja) 帳票処理装置
CN113192195B (zh) 一种受损地形坐标数据的修复方法
CN116311301B (zh) 无线表格识别方法及系统
CN117173725B (zh) 表格信息处理方法、装置、计算机设备和存储介质
JP7507331B1 (ja) レイアウト解析システム、レイアウト解析方法、及びプログラム
WO2024047764A1 (ja) レイアウト解析システム、レイアウト解析方法、及びプログラム
JPH0728935A (ja) 文書画像処理装置
JP7470264B1 (ja) レイアウト解析システム、レイアウト解析方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518000 2201, block D, building 1, Chuangzhi Yuncheng bid section 1, Liuxian Avenue, Xili community, Xili street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Qizhi Technology Co.,Ltd.

Address before: 518000 2201, block D, building 1, Chuangzhi Yuncheng bid section 1, Liuxian Avenue, Xili community, Xili street, Nanshan District, Shenzhen City, Guangdong Province

Applicant before: Qizhi Network Technology Co.,Ltd.

WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20230110