CN115424282A

CN115424282A - 一种非结构化文本表格识别方法和系统

Info

Publication number: CN115424282A
Application number: CN202211188303.1A
Authority: CN
Inventors: 李敏; 张丽平; 周鸣乐; 韩德隆; 刘一鸣
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2022-12-02

Abstract

本发明提供了一种非结构化文本（包括所有格式的办公文档、文本、图片、各种报表和图像等）表格识别方法，涉及文本识别领域，该方法包括：采集数据集，首先把非结构化文本转化为图像类集合，然后对集合进行图像预处理，把图像集合作为数据集导入模型，对图像数据集的信息进行分析，检测出表格区域，把图像转换成序列，进行表格结构序列预测，检测出表格行结构，进行表格行识别，表格行单元格识别后，识别结果经过后处理，融合表格行结构和单元格文本内容，最终通过文本框和单元格内容进行匹配得到Excel形式的表格识别数据。该方法通过特征学习训练了模型，实现了非结构化文本数据信息的智能提取，有利于非结构化文本数据的进一步分析和实际应用，极大地节省了人力成本提高了工作效率，在一定程度上提高了表格检测速度和准确率，使用本发明所述的方法和系统，可以通过转化进行非结构化文本内容的分析和信息的识别提取，使得非结构化文本在各行各业中具有更好的实用价值和应用。

Description

一种非结构化文本表格识别方法和系统

技术领域

本发明涉及OCR识别领域，具体涉及一种将不可编辑的非结构化文本数字化，属于计算机视觉的扩展应用。

背景技术

非结构化文本数字化是推动现代工作向数字化、网络化、智能化转型的基础，非结构化文本数字化对数字经济、人工智能发展具有重大意义，表格识别是数据处理的基础，在各行各业中都具有重要的应用价值，近年来一直是计算机视觉领域的研究热点之一。

表格识别旨在从图像或者非结构化文本中检测出表格的位置，获取表格的结构和内容，并抽取特定信息，主要包括表格区域检测、表格结构识别和表格内容的识别等研究问题；随着深度学习的发展，针对这些问题的新研究和新方法纷纷涌现；然而，由于表格应用场景广泛，表格的样式众多，在表格识别领域仍存在不少问题亟需解决；例如：现有表格结构识别模型在处理无线表和少线表时，其效果距离实际应用仍有所差距；表格内容识别中的模型大多受限于指定数据集，泛化能力较差；同时，随着移动设备拍照技术的发展，对于现实场景表格的识别需求越来越大，现实场景表格图像由于亮度、对比度、倾斜度等的不同，对表格识别算法提出了更高的挑战。

通过OCR识别技术对非结构化文本进行文字识别是可行的，但当文本中存在大量表格时，OCR文字识别提取就存在一定的困难，由于非结构化文本表格信息体量太大，通过人工进行提取耗时且容易出现错误；那么，对非结构化文本进行表格识别是一个亟待解决的问题；进行表格检测识别，一方面可以提高效率，比如：银行的票据，文档分析等业务需求；另一方面这些数据也可以作为数据分析信息，辅助各类计算机方面的实际应用。

本发明提供一种将非结构化文本格式的表格内容识别成Excel表格格式并进一步处理成结构化数据的方法，极大节省了人力成本提高了工作效率。

发明内容

针对上述问题，本发明提供了一种非结构化文本表格识别方法和系统，用于非结构文本的表格识别。

本发明提供如下技术方案：一种非结构化文本表格识别方法，包括如下步骤:步骤1获取非结构化文本中的图像数据集，使用投影直方图进行预处理操作；步骤2对图像数据集版面信息进行分析，检测出表格区域；步骤3对表格结构序列进行预测，检测出表格行结构；步骤4对表格行结构进行行识别，得到单元格框和文本内容；步骤5根据表格行检测和识别，对文本框和单元格内容进行匹配，最终得到Excel形式的表格信息数据；根据图像预处理、表检测、表格行检测和表格行识别训练表格识别模型，保存模型参数；调用上述表格识别模型对非结构化文本进行表格识别，得到识别结果。

步骤1中图像预处理使用中值滤波器去除图像的噪声伪影，绘制投影直方图，采用文本倾斜校正算法进行表对齐，并引入了水平膨胀和水平投影。

步骤2中对图像数据集版面信息进行字符索引记录，根据获取的字符区索引数组，进行区域切割，检测出表格区域，然后修改文件代码，使得表格边界的颜色比文档其它部分更具区分性，这样表格能够完全识别。

步骤3中表格行检测采用了可变形卷积的残差网络模型作为特征提取层，特征金字塔网络（FPN）作为neck层，head层由两个独立的分支组成：分类分支和回归分支；分类分支用来预测文本区域掩膜和文本中心区域掩膜，回归分支用来预测傅里叶域中文本的傅里叶特征向量，然后将该特征向量输入到反向傅里叶变换进行文本轮廓点序列的重建。

步骤4中表格行识别采用基于Multi-Aspect的全局上下文注意力机制的编码器和基于Transformer的解码器，由三个常规的Transformer解码层组成；对于获取的非结构化文本图像数据集需要进行对应的HTML格式注释，并提供数据集表格结构和字符；表格结构是由table标签来定义，每个表格均有若干行（由tr标签定义），每行被分割为若干单元格（由td标签定义），这种形式在网页中经常被用到，即用超文本标记语言来定义表格。

步骤5通过表格行检测和表格行识别得到表格结构序列，单元格框，文本框和文字识别内容，经过后处理匹配算法，融合表格结构序列和单元格文本内容，得到表格的HTML文本，最终可视化为Excel形式的表格数据。

一种非结构化文本表格识别系统，包括：

文件读取模块，对非结构化文本进行系统扫描。

文档转化模块，将选中的非结构化文本拆分成图像，形成图像数据集。

检测识别模块，将包含表格的图像文件输入到表格识别模型中得到可编辑的文本格式。

内容匹配模块，将识别出的文本按照位置信息进行匹配。

文件导出模块，结果通过本模块导出为Excel文件，导出的文件可以二次编辑和复制。

所述表格识别系统，系统架构分为模型、模板和视图三大部分，模型负责业务对象和数据库的关系映射，模板负责将页面展示给用户，视图负责业务逻辑。

所述表格识别系统，每个文本行对应一个模型实例，包括文本行位置信息、文本内容、单元格跨行跨列情况等。

本发明的上述技术方案相比现有技术具有以下优点：

本发明根据表格中文本行的特点选择当下高效的算法，针对实际问题进行改进，获得了较为准确的检测结果和识别结果，建立以文本行为最小单位，以单元格为基本单元的表格结构序列。

针对表格数据特点，将表格识别问题分解为表检测、文本行检测和文本行识别三个子问题，由不同的最新算法解决表格识别问题，便于调试和解决问题。

该表格识别算法引入了系统化应用，提出了一种表格识别系统，系统基于Flask框架包含模型、模板和视图三大部分面向用户，使得用户和系统交互更加方便快捷，具有一定的应用价值。

附图说明

图1为一种非结构化文本表格识别方法的一个实施例逻辑图。

图2为一种非结构化文本表格识别方法的另一个实施例逻辑图。

图3为模型结构图。

图4为表格行检测网络框架。

图5为表格行识别网络框架。

图6为表格识别流程图。

具体实施方式

下面将结合本发明具体实施方式中的附图，对本发明具体实施方式中的技术方案进行清楚、完整地描述，显然，所描述的具体实施方式仅仅是本发明一种具体实施方式，而不是全部的具体实施方式；基于本发明中的具体实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式，都属于本发明保护的范围。

实施例1

通过附图1可以看出，本发明一种非结构化文本表格识别方法和系统，检测的是非结构化文本中的表格并进行识别；本发明中的网络结构主要包括图像预处理、表检测、文本行检测、文本行识别和框匹配等，所属方法包括。

步骤1获取非结构化文本中的图像数据集，使用投影直方图进行预处理操作，使用中值滤波器去除图像的噪声伪影，采用文本倾斜校正算法进行表对齐，并引入了水平膨胀和水平投影。

步骤2对图像数据集版面信息进行分析，获取切割点，检测出表格区域；此步骤是根据获取的字符区索引数组，进行区域切割，从而检测出表格区域，然后修改文件代码，对边界定义一个具有区分性的特殊的颜色，使得表格边界的颜色比文档其它部分更具区分性。

步骤3对表格结构序列进行预测，检测出表格行结构；此步骤中，采用残差网络模型获取特征，并使用特征金字塔网络收集不同阶段的特征图，然后由两个不同分支用来预测文本区域和傅里叶特征向量。

步骤4对表格行结构进行行识别，得到单元格框和文本内容，采用的是全局上下文注意力机制的编码器和基于Transformer的解码器，所述的解码器由三个常规的解码层组成。

步骤5根据表格行检测和识别，对文本框和单元格内容进行匹配，最终得到HTML形式的表格信息数据。

步骤6根据图像预处理、表检测、表格行检测和表格行识别训练表格识别模型，保存模型参数。

步骤7调用上述表格识别模型对非结构化文本进行表格识别，得到识别结果。

根据预处理阶段的要求对图像数据集进行表格结构和序列标记；所述步骤1中的投影分割算法包括：从图像数据集中准确分割出字符的具体位置，先横向扫面，切出每一行，再对每一行进行纵向分割，根据单元格之间的空隙分割出每个单元格。

所述步骤2中的表格结构采用序列化的模型transformer来进行结构预测，表格结构识别和文字块位置由超文本标记语言来定义，由table标签来定义，每个表格均有若干行（由tr标签定义），每行被分割为若干单元格（由td标签定义）。

所述步骤3中的表格行检测采用了在空间域计算损失的方法来实现回归分支上的损失均衡，不同层负责不同尺度的文本目标，提取的特征会送入到共享的检测头中，共享的检测头具有两个分支，其中分类分支预测文本区域和文本中心区域的概率图，相乘得到属于文本中心分类的得分图，回归分支则负责预测傅里叶特征向量，对文本中心置信度大于阈值的像素点所对应的傅里叶特征向量进行傅里叶反变换，并经过非极大值抑制得到最终的检测结果。

所述步骤4中的表格行识别分为编码和解码两部分，把解码部分分成了两个分支，分别对应单元格文本框回归和表格结构序列预测两个学习任务，第一个分支表格结构序列预测用于从图像中学习HTML序列特征，采用标准的交叉熵损失函数计算loss，第二个分支单元格文本框回归，采用

loss回归归一化的[

]，在损失函数之前会采用 sigmoid激活函数。

对于有表格线的场景，模型可以比较准确地获取单元格坐标，进而可以利用单元格坐标后处理得到行列信息；对于无表格线情况，通常难以直接得到单元格位置或表格线信息，这时通常需要利用模型训练的方式获取文字块的空间布局；最后，结合视觉、位置、语义等多模态信息，并利用图网络来预测文字节点的行列属性，进而恢复出表格的结构，单元格坐标不用于参数的更新，会被一个掩膜过滤掉。

文本框定位和识别用到了文字检测算法和文字识别模型，文字检测算法是先通过将网络提取出的特征进行融合然后利用分割的方式将提取出的特征进行像素的分类，最后利用像素的分类结果通过一些后处理得到文本检测结果。

所述步骤5中的框分配，对文本行检测模型得到的文本行以及通过表格结构识别得到的表格结构，将识别到的文字内容分配进去，最终可视化为HTML形式的表格数据。

文本框后处理匹配原则：1、中心点规则，如果文本框的中心点在单元格框内，则把文本框相应的文字内容填充到对应的<td></td>中；2、IOU规则，在第一点不满足的情况下，计算和文本框具有最大IOU的单元格框作为匹配项；3、距离原则，如果以上两点都不满足，则计算所有单元格和文本框的距离，选取距离最小的单元格框作为匹配项；通过序列化模型来进行表格结构的还原是一种有效的表格结构识别方法，该方法利用了图像的视觉信息，后续工作中可以结合多模态特征得到更好效果；在编码阶段规定输入的图像维度输出的维度以及模型的序列长度，输出的序列特征再经过位置编码，输入到解码阶段。

实施例2

本实施例提供一种非结构化文本表格识别系统，包括：

文件读取模块，选择文件中的非结构化文本读取到系统中，非结构化文本主要指各种办公文本和图像等。

文档转化模块，将选中的非结构化文本输入到模型中，通过转换器将非结构化文本拆分成图像，拆分的图像按照非结构化文本位置进行图像归类，得到非结构化文本的图像数据集。

检测识别模块，将包含表格的图像文件输入到表格识别模型中得到可编辑的表格文本格式。

内容匹配模块，将识别出的文本框按照位置信息进行匹配；对于某一文本框将右上角和右下角两点位置求得一向量，对于任意两向量如果夹角余弦值小于指定阈值则认为在同一文本框并将其存放到同一个文本框中。

文件导出模块，结果通过本模块导出为Excel文件，导出的文件可以二次编辑、复制、打印，将导出的可编辑的文件经过整理上传至表格识别系统，完成导出。

所述表格识别系统，系统架构分为模型、模板和视图三大部分，模型负责业务对象和数据库的关系映射，模板负责将页面展示给用户，视图负责业务逻辑；

尽管已经示出和描述了本发明的具体实施方式，对于本领域的普通技术人员而言，可以理解在不脱离发明的原理和精神的情况下可以对这些具体实施方式进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种非结构化文本表格识别方法，包括如下步骤:

步骤1获取非结构化文本中的图像数据集，使用投影直方图进行预处理操作；

步骤2对图像数据集版面信息进行分析，检测出表格区域；

步骤3对表格结构序列进行预测，检测出表格行结构；

步骤4对表格行结构进行行识别，得到单元格框和文本内容；

步骤5根据表格行检测和识别，对文本框和单元格内容进行匹配，最终得到Excel形式的表格信息数据；

根据图像预处理、表检测、表格行检测和表格行识别训练表格识别模型，保存模型参数；

调用上述表格识别模型对非结构化文本进行表格识别，得到识别结果。

2.根据权利要求1所述一种非结构化文本表格识别方法，其特征在于，步骤1中对于获取的非结构化文本图像数据集需要进行对应的HTML格式注释，并提供数据集表格结构和字符；对于图像预处理使用中值滤波器去除图像的噪声伪影，绘制投影直方图，采用文本倾斜校正算法进行表对齐，并引入了水平膨胀和水平投影。

3.根据权利要求1所述一种非结构化文本表格识别方法，其特征在于，步骤2中对图像数据集版面信息进行字符索引记录，根据获取的字符区索引数组，进行区域切割，检测出表格区域，然后修改文件代码，使得表格边界的颜色比文档其它部分更具区分性。

4.根据权利要求1所述一种非结构化文本表格识别方法，其特征在于，步骤3中对于表格行检测采用了可变形卷积的残差网络模型作为特征提取层，特征金字塔网络（FPN）作为neck层，head层由两个独立的分支组成：分类分支和回归分支；分类分支用来预测文本区域掩膜和文本中心区域掩膜，回归分支用来预测傅里叶域中文本的傅里叶特征向量，然后将该特征向量输入到反向傅里叶变换进行文本轮廓点序列的重建。

5.根据权利要求1所述一种非结构化文本表格识别方法，其特征在于，步骤4中表格行识别采用基于Multi-Aspect的全局上下文注意力机制的编码器和基于Transformer的解码器，由三个常规的Transformer解码层组成。

6.根据权利1所述一种非结构化文本表格识别方法，其特征在于，步骤5中通过表格行检测和表格行识别得到表格结构序列，单元格框，文本框和文字识别内容，经过后处理匹配算法，融合表格结构序列和单元格文本内容，得到表格的HTML文本，最终可视化为Excel形式的表格数据。

7.一种非结构化文本表格识别系统，包括：

文件读取模块，对非结构化文本进行系统扫描；

文档转化模块，将选中的非结构化文本拆分成图像，形成图像数据集；

检测识别模块，将包含表格的图像文件输入到表格识别模型中得到可编辑的文本格式；

内容匹配模块，将识别出的文本按照位置信息进行匹配；

文件导出模块，结果通过本模块导出为Excel或HTML文件，导出的文件可以二次编辑和复制。