CN116168404A

CN116168404A - 基于空间变换的智能文档处理方法和系统

Info

Publication number: CN116168404A
Application number: CN202310048094.9A
Authority: CN
Inventors: 张民; 陈文亮; 陈伟; 卢奇
Original assignee: Suzhou Aiyu Cognitive Intelligent Technology Co ltd
Current assignee: Suzhou Aiyu Cognitive Intelligent Technology Co ltd
Priority date: 2023-01-31
Filing date: 2023-01-31
Publication date: 2023-05-26
Anticipated expiration: 2043-01-31
Also published as: CN116168404B

Abstract

本发明涉及图像识别技术和智能文档处理领域，公开一种基于空间变换的智能文档处理方法、系统和设备，以解决表格图片变形带来的数据填充错误率高的问题。方法包括：获取待处理文档的图片，识别图片中的表格的四个顶点，将四个顶点形成的四边形变换到标准表格模板下；识别表格中的各单元格，将各单元格变换到标准表格模板下；识别表格中各单元格的内容，根据单元格的变换位置将对应的内容填充到标准表格模板的标准单元格中。系统包括数据获取模块、模板解析模块和识别模块。设备包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序。本发明可以用于大量纸质表格数据的数字化、减少错误传递、提高数据定位到相应单元格的准确率。

Description

基于空间变换的智能文档处理方法和系统

技术领域

本发明涉及图像识别技术和智能文档处理领域，尤其是指一种基于空间变换的智能文档处理方法和系统。

背景技术

近年来，各大企业和组织机构都在经历数字化转型。将文档转换成计算机所能识别的样态，是数字化转型的关键步骤，如何识别出图片中表格具体的结构与内容，并直接提取其中的数据和信息是学术界和工业界共同瞩目的焦点。然而，目前的表格识别算法多用于识别横平竖直的表格，对于全无边界和实线的表格、行列之间存在大片空白区域的表格等日常生活中常见的表格还没有较好的解决方案，对于拍摄角度倾斜而表格边框弯曲等情况更是束手无策。

如今，各行各业正在向数字化转型，海量的文档型数据也源源不断地生成。用人工处理这些蕴含着丰富信息的文档，存在如耗时长、成本高、易出错等缺陷，在实际应用中难以高效执行。因此，社会对于自动化文档处理技术的需求日益增加，智能文档处理(Intelligence Document Processing,IDP)成为了近几年的热点。与此同时，市场上也涌现出了许多相关产品，例如微软的全方位的IDP服务及解决方案。

表格抽取技术解决的主要问题是如何自动地将图像中的表格数字化，其包含两个子任务：表格检测和表格结构识别。其中，表格结构识别旨在从表格的图像中还原表格的结构信息，包括每个单元格的坐标位置以及每个单元格所属的行列信息。在实际场景中，表格结构识别是一个极具挑战性的问题。其挑战的难度主要在于表格的结构与内容的复杂多样性，例如存在完全无边界和实线的表格、包含许多空白单元格或者跨列单元格的表格、行列之间存在大片空白区域的表格、嵌套的表格、密集的大表格、单元格包含多行文字内容的表格等等。不仅如此，在相机拍摄的场景中，有些表格的边框可能因拍摄角度而倾斜或弯曲，这都大大增加了表格结构识别的难度。

近年来，表格结构识别领域受到了学术界与工业界的广泛关注，其中涌现出了大量研究成果。但这些研究成果的视角大多仅限于简单的应用场景，例如PDF或扫描文档中横平竖直的表格或分割线均为实线的表格，而对于在实际场景中经常出现的情况，尤其是倾斜、弯曲且没有实线的表格关注度较低。因此，现有的算法距离完全解决实际场景中的表格识别问题还存在很大差距。

表格识别模型Table-Master、WPS的图片转excel功能和基于任意表格的深度学习方法等是常用的表格识别方法，但是这些现有的识别方法也存在缺陷：

(1)例如Table-Master的方法是基于任意表格的识别系统，这类方法的具体场景效果不理想，非常依赖该场景的训练数据。因预先不知道表格的样式，所以同时要做三个工作：第一步，版面分析：得到图片中表格的样式；第二步，文本识别：通过光学字符识别OCR(Optical Character Recognition，OCR)得到图片中的文字；第三步，数据定位：将OCR结果定位到准确的单元格内。

三个工作存在错误传递的问题，一旦第一步出错，会导致第三步的流程中100％出错的情况。同时，原本一个数据被OCR成多个结果的情况下很难再合并到一个单元格内，且OCR识别错误的结果因为缺少模版单元格信息很难进行后处理纠正。

(2)WPS的图片转excel功能等方法，其输出表格和实际图片表格完全不一致，长宽和样式存在很大差异。

(3)基于任意表格的深度学习方法想要提高表格的识别效果往往需要标注新的数据，会导致高昂的时间和人力成本。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中的不足，提供一种基于空间变换的智能文档处理方法和系统，可以解决表格图片变形带来的数据填充错误率高的问题，用于大量纸质表格数据的数字化、减少错误传递、提高数据定位到相应单元格的准确率。

为解决上述技术问题，本发明提供了一种基于空间变换的智能文档处理方法，包括：

获取待处理文档的图片，识别图片中的表格的四个顶点，将所述四个顶点形成的四边形变换到标准表格模板下；

识别所述表格中的各单元格，将各单元格变换到标准表格模板下；

识别所述表格中各单元格的内容，根据单元格的变换位置将对应的内容填充到标准表格模板的标准单元格中。

在本发明的一个实施例中，将所述四个顶点形成的四边形变换到标准表格模板下时，使用的方法为四边形变换方法，所述四边形变换方法通过固定三个顶点对剩下的一个顶点进行变换。

在本发明的一个实施例中，所述四边形变换方法通过固定三个顶点对剩下的一个顶点进行变换，具体为：

令四个顶点分别为Q、R、S、T，固定三个顶点Q、R、T对顶点S进行变换，顶点S在标准表格模板下的对应点为U；

将四边形QRST分割成三角形QRS和三角形QTS，使用三角变换规则分别将三角形QRS变换为三角形QRU、将三角形QTS变换为三角形QTU，实现对顶点S的变换。

在本发明的一个实施例中，所述使用三角变换规则将三角形QRS变换为三角形QRU，具体为：

给定三角形QRS内任意一点N，延长SN与QR相交与点O，连接线段UO，过N做SU的平行线与UO相交于P点，将P点作为QRS内的点N在QRU中的变换点；

将三角形QRS内的所有点变换到QRU中，完成对三角形QRS的变换。

在本发明的一个实施例中，所述P点坐标的具体计算过程为：

获取N点坐标(Xn，Yn)、Q点坐标(Xq，Yq)、R点坐标(Xr，Yr)、S点坐标(Xs，Ys)和U点坐标(Xu,Yu)，

连接直线SN并延长与直线QR相交与点O，计算直线方程QR为:

(Y-Yr)/(Yq-Yr)＝(X-Xr)/(Xq-Xr)，计算直线方程SN为：(Y-Yn)/

(Ys-Yn)＝(X-Xn)/(Xs-Xn)，联合直线方程QR与直线方程SN计算得到O点坐标(Xo,Yo)；

连接直线UO和直线SU，计算直线SU的斜率K为：K＝(Ys-Yu)/(Xs-Xu)；

过N点做直线SU的平行线与直线UO相交与P点，将P点作为QRS内点N在QRU中的变换点，计算直线方程UO为:(Y-Yu)/(Yo-Yu)＝(X-Xu)/(Xo-Xu)，计算直线方程NP为：Y-Yn＝K(X-Xn)，联合直线方程UO与直线方程NP计算得到P点坐标(Xp,Yp)。

在本发明的一个实施例中，所述识别图片中的表格的四个顶点、识别所述表格中的各单元格和识别所述表格中各单元格的内容时，使用的识别方法为光学字符识别。

在本发明的一个实施例中，所述将各单元格变换到标准表格模板下，具体为：

将四个顶点形成的四边形变换到标准表格模板下后得到的表格中的单元格作为目标单元格，将识别所述表格得到的单元格变换到目标单元格上。

在本发明的一个实施例中，所述根据单元格的变换位置将对应的内容填充到标准表格模板的标准单元格中，具体为：

将标准表格模板中的各单元格作为标准单元格，每个所述目标单元格与四个相邻的标准单元格形成四个重叠面，将识别得到的单元格的内容填充到面积最大的重叠面对应的标准单元格中。

本发明还提供了一种基于空间变换的智能文档处理系统，包括数据获取模块、模板解析模块和识别模块，

所述数据获取模块获取待处理文档的图片，所述模板解析模块获取标准表格并解析得到标准表格模板；

所述识别模块识别图片中的表格的四个顶点，将所述四个顶点形成的四边形变换到标准表格模板下；识别所述表格中的各单元格，将各单元格变换到标准表格模板下；识别所述表格中各单元格的内容，根据单元格的变换位置将对应的内容填充到标准表格模板的标准单元格中。

本发明还提供了一种基于空间变换的智能文档处理设备，包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现基于空间变换的智能文档处理方法的步骤。

本发明的上述技术方案相比现有技术具有以下优点：

本发明在对表格整体边框和表格内各单元格的两次变换建模的基础上，将识别出的单元格内容填充到建模得到的表格单元格中，不依赖于表格的具体数据且不需要标注新的数据，可以用于大量纸质表格数据的数字化，应用场景广泛；两次变换相互独立，表格转换的长宽和样式依据标准表格模板进行，不仅不需要识别表格模版避免了版面分析错误，有效减少了错误传递，而且可以有效解决图片表格的形变问题；解决了图片中数据无法在表格中准确定位的问题，提高了数据定位到相应单元格的准确率。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中：

图1是本发明方法的流程图，

图2是本发明实施例中对待处理文档的图片中的表格T1标记四个顶点并变换到标准表格模板下的示意图，

图3是本发明中进行四边形变换的示意图，

图4是本发明中进行三角变换时获取N、Q、R、S、U点坐标时的示意图，

图5是本发明中进行三角变换时计算O点坐标时的示意图，

图6是本发明中进行三角变换时计算直线SU的斜率K时的示意图，

图7是本发明中进行三角变换时计算p点坐标时的示意图，

图8是本发明实施例中使用四边形变换方法对变形的表格图片进行变换的初始表格和目标表格的示意图，

图9是本发明实施例中使用四边形变换方法将图8中的E点变换到A点的示意图，

图10是本发明实施例中使用四边形变换方法将图8中的F点变换到B点的示意图，

图11是本发明实施例中使用四边形变换方法将图8中的G点变换到C点的示意图，

图12是本发明实施例中使用四边形变换方法将图8中的H点变换到D点的示意图，

图13是本发明中进行单元格填充的示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

实施例一

参照图1所示，本发明公开了一种基于空间变换的智能文档处理方法，包括以下步骤：

S1：获取待处理文档的图片，识别图片中的表格的四个顶点，将所述四个顶点形成的四边形变换到标准表格模板下；待处理文档的图片中的表格T1因图片采集存在角度偏差而往往是不规则的四边形，标准表格模板中的表格T2是规则的四边形。如图2所示，将处理文档的图片中的表格T1变换到标准表格模板下得到四角A4、B4、A8、B8形成的规则四边形表格T2，可以纠正表格T1外边框的偏差。

S1-1：获取待处理文档的图片，使用光学字符识别(Optical CharacterRecognition，OCR)方法识别图片中的表格的四个顶点。

S1-2：将所述四个顶点形成的四边形变换到标准表格模板下时，使用的方法为四边形变换方法，所述四边形变换方法通过固定三个顶点对剩下的一个顶点进行变换。

表格T1的四个顶点为QRST，Q、R、S、T四个点经四次变换变成规则的四边形的四个顶点。本实施例中以对S的变换为例说明四边形变换方法，S变换后的顶点为U，使用四边形变换方法对S的进行变换即为将四边形QRST变换成QRUT，具体流程为：

S1-2-1：如图3所示，令四个顶点分别为Q、R、S、T，固定三个顶点Q、R、T对顶点S进行变换，顶点S在标准表格模板下的对应点为U。

S1-2-2：将四边形QRST分割成三角形QRS和三角形QTS，使用三角变换规则分别将三角形QRS变换为三角形QRU、将三角形QTS变换为三角形QTU，实现对顶点S的变换。

本实施例中以使用三角变换规则将三角形QRS变换为三角形QRU为例，三角变换规则具体为：

S1-2-2-1：给定QRS内任意一点N，延长SN与QR相交与点O，连接线段UO，过N做SU的平行线与UO相交于P点，将P点作为QRS内的点N在QRU中的变换点，P点坐标的具体计算过程为：

S1-2-2-1-1：如图4所示，获取N点坐标(Xn，Yn)、Q点坐标(Xq，Yq)、R点坐标(Xr，Yr)、S点坐标(Xs，Ys)和U点坐标(Xu,Yu)；

S1-2-2-1-2：如图5所示，连接直线SN并延长与直线QR相交与点O，计算O点的坐标为：

S1-2-2-1-2-1：计算直线方程QR为:(Y-Yr)/(Yq-Yr)＝(X-Xr)/(Xq-Xr)，

S1-2-2-1-2-2：计算直线方程SN为：(Y-Yn)/(Ys-Yn)＝(X-Xn)/(Xs-Xn)，

S1-2-2-1-2-3：联合直线方程QR与直线方程SN计算得到O点坐标(Xo,Yo)。

S1-2-2-1-3：如图6所示，连接直线UO和直线SU，计算直线SU的斜率K为：

K＝(Ys-Yu)/(Xs-Xu)；

S1-2-2-1-4：如图7所示，过N点做直线SU的平行线与直线UO相交与P点，将P点作为QRS内点N在QRU中的变换点，计算P点坐标为：

S1-2-2-1-4-1：计算直线方程UO为:(Y-Yu)/(Yo-Yu)＝(X-Xu)/(Xo-Xu)，

S1-2-2-1-4-2：计算直线方程NP为：Y-Yn＝K(X-Xn)，

S1-2-2-1-4-3：联合直线方程UO与直线方程NP计算得到P点坐标(Xp,Yp)。

S1-2-2-2：使用S1-2-2中的方法将QRS内的所有点变换到QRU中，完成对三角形QRS的变换。

为了进一步说明使用四边形变换方法对变形的表格图片进行变换的具体过程，本实施例中以图8-12为例说明此过程：

如图8所示，EFGH是形变的表格图片四边形，ABCD是标准表格图片四边形，空间变换的目标是将形变四边形EFGH变换为标准四边形ABCD；

如图9所示，首先将形变四边形EFGH中的顶点E按照图3中的四边形变换方法变换到标准四边形ABCD中的顶点A；

如图10所示，其次将形变四边形EFGH中的顶点F按照图3中的四边形变换方法变换到标准四边形ABCD中的顶点B；

如图11所示，然后将形变四边形EFGH中的顶点G按照图3中的四边形变换方法变换到标准四边形ABCD中的顶点C；

如图12所示，最后将形变四边形EFGH中的顶点H按照图3中的四边形变换方法变换到标准四边形ABCD中的顶点D，完成变换。

S2：识别所述表格中的各单元格，将各单元格变换到标准表格模板下。

S2-1：使用光学字符识别方法识别所述表格中的各单元格。

S2-2：将四个顶点形成的四边形变换到标准表格模板下后得到的表格中的单元格作为目标单元格，将识别所述表格得到的单元格变换到目标单元格上。本实施例中将所述表格中的单元格变换到目标单元格上时，使用的方法也为四边形变换方法。

S3：识别所述表格中各单元格的内容，根据单元格的变换位置将对应的内容填充到标准表格模板的标准单元格中，完成对待处理文档的图片中的表格智能识别。

S3-1：使用光学字符识别方法识别所述表格中各单元格的内容。

S3-2：如图13所示，将标准表格模板中的各单元格作为标准单元格，每个所述目标单元格与四个相邻的标准单元格形成四个重叠面①②③④，将识别得到的单元格的内容填充到面积最大的重叠面④对应的标准单元格中。

实施例二

本发明还公开了一种基于空间变换的智能文档处理系统，包括数据获取模块、模板解析模块和识别模块。所述数据获取模块获取待处理文档的图片，所述模板解析模块获取标准表格并解析得到标准表格模板；所述识别模块识别图片中的表格的四个顶点，将所述四个顶点形成的四边形变换到标准表格模板下；识别所述表格中的各单元格，将各单元格变换到标准表格模板下；识别所述表格中各单元格的内容，根据单元格的变换位置将对应的内容填充到标准表格模板的标准单元格中。本实施例中所述识别模块为光学字符识别模型(OCR模型)。

实施例三

本发明还公开了一种基于空间变换的智能文档处理设备，包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现实施例一种所述的基于空间变换的智能文档处理方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于空间变换的智能文档处理方法，其特征在于，包括：

2.根据权利要求1所述的基于空间变换的智能文档处理方法，其特征在于：将所述四个顶点形成的四边形变换到标准表格模板下时，使用的方法为四边形变换方法，所述四边形变换方法通过固定三个顶点对剩下的一个顶点进行变换。

3.根据权利要求2所述的基于空间变换的智能文档处理方法，其特征在于：所述四边形变换方法通过固定三个顶点对剩下的一个顶点进行变换，具体为：

4.根据权利要求3所述的基于空间变换的智能文档处理方法，其特征在于：使用三角变换规则将三角形QRS变换为三角形QRU，具体为：

5.根据权利要求4所述的基于空间变换的智能文档处理方法，其特征在于：所述P点坐标的具体计算过程为：

连接直线SN并延长与直线QR相交与点O，计算直线方程QR为:(Y-Yr)/(Yq-Yr)＝(X-Xr)/(Xq-Xr)，计算直线方程SN为：(Y-Yn)/(Ys-Yn)＝(X-Xn)/(Xs-Xn)，联合直线方程QR与直线方程SN计算得到O点坐标(Xo,Yo)；

6.根据权利要求1所述的基于空间变换的智能文档处理方法，其特征在于：所述识别图片中的表格的四个顶点、识别所述表格中的各单元格和识别所述表格中各单元格的内容时，使用的识别方法为光学字符识别。

7.根据权利要求1-6任一项所述的基于空间变换的智能文档处理方法，其特征在于：所述将各单元格变换到标准表格模板下，具体为：

8.根据权利要求7所述的基于空间变换的智能文档处理方法，其特征在于：所述根据单元格的变换位置将对应的内容填充到标准表格模板的标准单元格中，具体为：

9.一种基于空间变换的智能文档处理系统，其特征在于：包括数据获取模块、模板解析模块和识别模块，

10.一种基于空间变换的智能文档处理设备，其特征在于：包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述的基于空间变换的智能文档处理方法的步骤。