CN116861912B

CN116861912B - 一种基于深度学习的表格实体抽取方法及系统

Info

Publication number: CN116861912B
Application number: CN202311107511.9A
Authority: CN
Inventors: 宋超; 许建锋; 刘露; 孙宝
Original assignee: Hefei Tianwei Information Security Technology Co ltd
Current assignee: Hefei Tianwei Information Security Technology Co ltd
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2023-12-05
Anticipated expiration: 2043-08-31
Also published as: CN116861912A

Abstract

本发明公开了一种基于深度学习的表格实体抽取方法及系统，该方法包括以下实施步骤：文档转换步骤、表格提取步骤、单元格处理步骤、信息实体抽取步骤和信息智能填写步骤，文档转换步骤，对PDF文档进行处理，将其转换成PNG图片格式；表格提取步骤，提取图片中的网格线，定位表格区域，根据其最小外接矩形框坐标截取出表格图片；单元格处理步骤，计算线段数量及单元格的长和宽，根据单元格所在位置信息及长宽比例判断当前单元格是否为合并单元格；本发明基于传统图像处理算法以及预训练语言模型框架，通过采用传统图像算法对表格图片进行处理，增加了合并单元格及跨页单元格的处理过程，满足网络信息安全领域的高准确率要求。

Description

一种基于深度学习的表格实体抽取方法及系统

技术领域

本发明涉及网络信息安全领域的表格图片识别及信息抽取领域，尤其是涉及一种基于深度学习的表格实体抽取方法及系统。

背景技术

实体抽取主要任务是识别命名实体的文本范围，并将其分类为预定义的类别，学术上所涉及一般包含三大类，实体类、时间类、数字类和7个小类，比如人、地名、时间、组织、日期、货币、百分比，是问答系统、翻译系统、知识图谱的基础，早期的NER的方法主要由语言学家手工构造规则模板，选用特定特征，包括统计信息、标点符号、指示词、方向词、中心词等，以模式与字符串相匹配为主要手段，但是此方法需要大量人力构建语言模型、系统周期较长、知识更新较慢、移植性较差。

现有技术在对表格信息进行抽取时，仅在对标准形式表格信息抽取方面效果较好，当存在复杂表格或合并单元格等情况时，只能通过模板匹配等方式，且信息抽取准确率低，并且处理表格图片中的合并单元格或跨页单元格时效果差，不能很好的提取其内容，无法满足网络信息安全领域的高准确率要求，本发明是基于传统图像处理算法以及预训练语言模型框架实现的，不仅对表格图片进行处理，提高了表格分割的准确性，而且使用深度学习方法对表格信息进行处理，从中抽取实体关系，提高信息抽取的准确率。

发明内容

本发明的目的是为了提高信息抽取的准确率，节省表单的填写时间，提高表格分割的准确性，设计涉及一种基于深度学习的表格实体抽取方法及系统。

本发明为达到上述发明目的，采用如下技术方案：

第一方面，本发明提供了一种基于深度学习的表格实体抽取方法，该方法包括以下实施步骤：文档转换步骤、表格提取步骤、单元格处理步骤、信息实体抽取步骤和信息智能填写步骤；

所述文档转换步骤，对PDF文档进行处理，将其转换成PNG图片格式；

所述表格提取步骤，提取图片中的网格线，定位表格区域，根据其最小外接矩形框坐标截取出表格图片；

所述单元格处理步骤，计算线段数量及单元格的长和宽，根据单元格所在位置信息及长宽比例判断当前单元格是否为合并单元格；

所述信息实体抽取步骤，识别单元格中的文本，训练实体抽取模型，计算主体和客体之间的相关性，生成具有相关性的主客体键值对；

所述信息智能填写步骤，将实体数据根据预设好的规则自动填写入表单页面中。

更进一步地，所述文档转换步骤处理数据具体包括以下步骤：

（1）锁定PDF文档，对PDF文档进行处理；

（2）使用page.get_pixmap()函数将PDF文档转换成PNG图片格式。

更进一步地，所述表格提取步骤处理数据具体包括以下步骤：

（1）对转换后的PNG图片使用数字图像处理算法进行处理，从中提取出网格线部分；

（2）判断网格线外轮廓是否闭合或半闭合以定位图片中的表格区域，并获取表格的最小外接矩形框坐标；

（3）根据最小外接矩形框位置从图片中截取出表格区域；

（4）根据外接矩形框四个顶点是否为网格线的交点判断单元格是否跨页，若跨页将两个表格进行拼接，同时将单元格坐标进行合并。

更进一步地，所述单元格处理步骤处理数据具体包括以下步骤：

（1）根据网格线中交点的位置计算各行的线段数量以及每个单元格的长和宽；

（2）对所有单元格的长和宽进行汇总，按比例分别将长宽数据转化为整数；

（3）分析每个单元格所在行列位置及其长宽占比判断当前单元格是否为合并单元格，并添加合并信息。

更进一步地，所述信息实体抽取步骤处理数据具体包括以下步骤：

（1）对每个单元格使用光学字符识别技术进行文本识别；

（2）对所有获取到的文本内容使用基于预训练语言模型框架进行训练，将训练好的实体抽取模型进行预测；

（3）激活函数采用softmax()函数计算主体和客体之间的相关性，其输出值大于阈值T的主客体表示相关；

（4）将相关的主客体形成键值对作为模型的输出。

更进一步地，所述信息智能填写步骤中，具体是将在信息实体抽取步骤中获取到的实体数据根据预设规则自动填写入表单页面中。

更进一步地，所述page.get_pixmap()函数主要是转换文档以获取与页面相关pixmap的位图图像。

更进一步地，所述数字图像处理算法包括二值化算法、边缘处理算法、膨胀算法、腐蚀算法或霍夫变换算法。

第二方面，本发明提供了一种基于深度学习的表格实体抽取系统，用于执行实施所述的基于深度学习的表格实体抽取方法，所述系统包括文档转换模块、表格提取模块、单元格处理模块、信息实体抽取模块和信息智能填写模块，文档转换模块用于对PDF文档进行处理，将其转换成PNG图片格式，表格提取模块用于提取图片中的网格线，定位表格区域，根据其最小外接矩形框坐标截取出表格图片，单元格处理模块用于计算线段数量及单元格的长和宽，根据单元格所在位置信息及长宽比例判断当前单元格是否为合并单元格，信息实体抽取模块用于识别单元格中的文本，训练实体抽取模型，计算主体和客体之间的相关性，生成具有相关性的主客体键值对，信息智能填写模块用于将实体数据根据预设好的规则自动填写入表单页面中。

与现有技术相比，本发明的有益效果如下：

1、本发明提供的基于深度学习的表格实体抽取系统，该系统包括文档转换模块、表格提取模块、单元格处理模块、信息实体抽取模块和信息智能填写模块，通过使用了深度学习的方法获取单元格数据之间的联系，将其转换成实体对的方式，提高了信息抽取的准确率，节省表单的填写时间。

2、本发明基于传统图像处理算法以及预训练语言模型框架框架，通过采用传统图像算法对表格图片进行处理，增加了合并单元格及跨页单元格的处理过程，满足网络信息安全领域的高准确率要求，并且更加准确的提取其内容，提高表格分割的准确性。

附图说明

图1为本发明提供的实施例1公开的表格实体抽取系统流程图；

图2为本发明提供的实施例1中表格实体抽取系统模块组成示意图。

具体实施方式

实施例1：

参照图1和图2，本实施例公开了一种基于深度学习的表格实体抽取方法，该方法包括以下实施步骤：文档转换步骤、表格提取步骤、单元格处理步骤、信息实体抽取步骤和信息智能填写步骤；

文档转换步骤，对PDF文档进行处理，将其转换成PNG图片格式；表格提取步骤，提取图片中的网格线，定位表格区域，根据其最小外接矩形框坐标截取出表格图片；单元格处理步骤，计算线段数量及单元格的长和宽，根据单元格所在位置信息及长宽比例判断当前单元格是否为合并单元格；信息实体抽取步骤，识别单元格中的文本，训练实体抽取模型，计算主体和客体之间的相关性，生成具有相关性的主客体键值对；信息智能填写步骤，将实体数据根据预设好的规则自动填写入表单页面中。

其中，文档转换步骤处理数据具体包括以下步骤：

（1）锁定PDF文档，对PDF文档进行处理；

（2）使用page.get_pixmap()函数将PDF文档转换成PNG图片格式。

其中page.get_pixmap()函数主要是转换文档以获取与页面相关pixmap的位图图像。

表格提取步骤处理数据具体包括以下步骤：

（2）判断网格线外轮廓是否闭合或半闭合来定位图片中的表格区域，并获取表格的最小外接矩形框坐标；

（3）根据最小外接矩形框位置从图片中截取出表格区域；

其中数字图像处理算法包括二值化算法、边缘处理算法、膨胀算法、腐蚀算法或霍夫变换算法。

单元格处理步骤处理数据具体包括以下步骤：

信息实体抽取步骤处理数据具体包括以下步骤：

（1）对每个单元格使用光学字符识别技术进行文本识别；

（2）对所有获取到的文本内容使用基于预训练语言模型框架训练好的实体抽取模型进行预测；

（3）激活函数采用softmax()函数来计算主体和客体之间的相关性，其输出值大于阈值T的主客体表示相关；

（4）将相关的主客体形成键值对作为模型的输出。

实施例2：

本实施例公开了一种基于深度学习的表格实体抽取系统，用于执行实施例1公开的一种基于深度学习的表格实体抽取方法，所述系统包括文档转换模块、表格提取模块、单元格处理模块、信息实体抽取模块和信息智能填写模块，文档转换模块用于对PDF文档进行处理，将其转换成PNG图片格式，表格提取模块用于提取图片中的网格线，定位表格区域，根据其最小外接矩形框坐标截取出表格图片，单元格处理模块用于计算线段数量及单元格的长和宽，根据单元格所在位置信息及长宽比例判断当前单元格是否为合并单元格，信息实体抽取模块用于识别单元格中的文本，训练实体抽取模型，计算主体和客体之间的相关性，生成具有相关性的主客体键值对，信息智能填写模块用于将实体数据根据预设好的规则自动填写入表单页面中。

Claims

1.一种基于深度学习的表格实体抽取方法，其特征是，该方法包括以下实施步骤：文档转换步骤、表格提取步骤、单元格处理步骤、信息实体抽取步骤和信息智能填写步骤；

所述表格提取步骤，对转换后的PNG图片使用数字图像处理算法进行处理，从中提取出网格线部分，判断网格线外轮廓是否闭合或半闭合以定位图片中的表格区域，并获取表格的最小外接矩形框坐标，根据最小外接矩形框位置从图片中截取出表格区域，根据外接矩形框四个顶点是否为网格线的交点判断单元格是否跨页，若跨页将两个表格进行拼接，同时将单元格坐标进行合并；

所述单元格处理步骤，根据网格线中交点的位置计算各行的线段数量以及每个单元格的长和宽，对所有单元格的长和宽进行汇总，按比例分别将长宽数据转化为整数，分析每个单元格所在行列位置及其长宽占比判断当前单元格是否为合并单元格，并添加合并信息；

2.根据权利要求1所述的一种基于深度学习的表格实体抽取方法，其特征是，所述文档转换步骤处理数据具体包括以下步骤：

(1)锁定PDF文档，对PDF文档进行处理；

(2)使用page.get_pixmap()函数将PDF文档转换成PNG图片格式。

3.根据权利要求1所述的一种基于深度学习的表格实体抽取方法，其特征是，所述信息实体抽取步骤处理数据具体包括以下步骤：

(1)对每个单元格使用光学字符识别技术进行文本识别；

(2)对所有获取到的文本内容使用基于预训练语言模型框架进行训练，将训练好的实体抽取模型进行预测；

(3)激活函数采用softmax()函数计算主体和客体之间的相关性，其输出值大于阈值T的主客体表示相关；

(4)将相关的主客体形成键值对作为模型的输出。

4.根据权利要求3所述的一种基于深度学习的表格实体抽取方法，其特征是，所述信息智能填写步骤中，具体是将在信息实体抽取步骤中获取到的实体数据根据预设规则自动填写入表单页面中。

5.根据权利要求2所述的一种基于深度学习的表格实体抽取方法，其特征是，所述page.get_pixmap()函数主要是转换文档以获取与页面相关pixmap的位图图像。

6.根据权利要求1所述的一种基于深度学习的表格实体抽取方法，其特征是，所述数字图像处理算法包括二值化算法、边缘处理算法、膨胀算法、腐蚀算法或霍夫变换算法。

7.一种基于深度学习的表格实体抽取系统，其特征在于，用于执行实施权利要求1～6任一项所述的基于深度学习的表格实体抽取方法，所述系统包括文档转换模块、表格提取模块、单元格处理模块、信息实体抽取模块和信息智能填写模块，文档转换模块用于对PDF文档进行处理，将其转换成PNG图片格式，表格提取模块用于对转换后的PNG图片使用数字图像处理算法进行处理，从中提取出网格线部分，判断网格线外轮廓是否闭合或半闭合以定位图片中的表格区域，并获取表格的最小外接矩形框坐标，根据最小外接矩形框位置从图片中截取出表格区域，根据外接矩形框四个顶点是否为网格线的交点判断单元格是否跨页，若跨页将两个表格进行拼接，同时将单元格坐标进行合并，单元格处理模块用于根据网格线中交点的位置计算各行的线段数量以及每个单元格的长和宽，对所有单元格的长和宽进行汇总，按比例分别将长宽数据转化为整数，分析每个单元格所在行列位置及其长宽占比判断当前单元格是否为合并单元格，并添加合并信息，信息实体抽取模块用于识别单元格中的文本，训练实体抽取模型，计算主体和客体之间的相关性，生成具有相关性的主客体键值对，信息智能填写模块用于将实体数据根据预设好的规则自动填写入表单页面中。