CN112861736B

CN112861736B - 基于图像处理的文献表格内容识别与信息提取方法

Info

Publication number: CN112861736B
Application number: CN202110185627.9A
Authority: CN
Inventors: 韩越兴; 张家旺; 张瑞; 陈侨川; 钱权; 夏锦桦; 王迎港
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2022-08-09
Anticipated expiration: 2041-02-10
Also published as: CN112861736A

Abstract

本发明公开了一种基于图像处理的文献表格内容识别与信息提取方法，运用计算机图像检测方法，实现对文献表格图片进行的内容识别、信息提取和结构复原；首先读取一张表格图片，利用形态学方法去除表格框线；然后利用轮廓检测找出字符区域，将区域截取出来并保存；随后选取若干张字符块图片拼接成大图，调用文字识别模型识别大图上文字，解析并保存识别结果；最后读取字符块信息数据，按照基于字符块坐标的行发现与自适应列对齐复原算法，对表格进行复原，并保存到数据库；本发明文献中表格图片内容识别与信息提取方法能够实现框线去除、内容识别和结构复原，提高文献信息提取速度，为构建相应学科数据库提供一种方法，促进对应学科的研究和发展。

Description

基于图像处理的文献表格内容识别与信息提取方法

技术领域

本发明涉及一种基于图像处理的文献表格内容识别与信息提取方法，涉及表格图片内字符区域检测、字符内容识别与按表格形状将内容在数据库和便于读写的文件中复原，可以应用于不同学科文献中表格数据提取和对应数据库构建等领域，在一定程度上提高该学科文献数据提取的速度和提取范围，为提高该研究方向的发展进度和研究效率提供了基础科学数据和经验数据，促进相应学科的研究和发展。

背景技术

表格这一内容展现形式具有高度精炼的特点，在科学文献资料中，各项重要的信息、需要对比的数据或实验结果等都使用表格的形式加以清晰呈现。对于表格图片文字内容提取与表格结构复原，去除与内容无关的表格框线和确定文字区域位置是表格内容识别和结构复原的关键所在。早期想要获取表格图片的文字信息，只能使用人工录入的方式，但是这种方式的效率较低，准确率也无法得到保障。随着计算机技术的快速发展，科学文献中的各种数据为新方向的探索、相应学科理论研究提供大量重要的指导，早期手工录入的方法已经无法满足日益增长的对大量研究数据的需要，需要有可靠高效的处理方法来提取图片格式表格中的数据。发展计算机图像技术对图像中信息检测和提取的诸多方法提取表格内容，是解决相应科学文献内容提取的关键。

随着早期计算机视觉技术的发展，霍夫直线检测被用于表格框线检测，先使用边缘提取获取图片上字符和表格框线的边缘，再使用霍夫直线检测方法对边缘进行检测，若边缘满足一定的阈值，则会被认为是直线，但是这种方法识别效果不理想，无法满足表格形式多样，框线粗细多变的场景。常见的表格内容识别，使用光学字符识别的方法识别出字符内容，但没有将识别出的内容重新复原成表格的形状，识别结果失去了表格展示数据清晰的优点，需要一种创新的表格复原方法来解决这一问题。

发明内容

为了解决现有技术问题，本发明的目的在于克服已有技术存在的不足，提出一种创新的针对表格内容提取的处理流程，即一种基于图像处理的文献表格内容识别与信息提取方法。对文献中表格图片进行形态学操作，使用字符识别模型识别字符内容，借助创新提出的基于字符块坐标信息的行发现与全局自适应列对齐复原算法，最终实现框线去除、字符分块切割与识别和表格形状复原。提高科学文献内容提取速度，为构建对应学科数据库提供一种方法，促进对应学科的研究和发展。

为达到上述发明创造目的，本发明采用如下技术方案：

一种基于图像处理的文献表格内容识别与信息提取方法，包括如下步骤：

(1)读入一篇文献，提取文献中表格部分的内容，转化为图片格式保存，将图片的访问路径存入路径列表；

(2)读取一张表格图片，对表格图片进行框线去除，包括二值化、开操作提取直线、按位与计算，进行直线提取时，使用不同形式的核对表格图进行形态学开操作，分别提取水平和垂直方向上的直线，然后再叠加到同一张图上，再用这张图与原图二值图像进行按位与操作，完成表格框线的去除；

(3)文字区域识别并切割保存，是对去除完框线并二值化处理的表格图进行形态学膨胀操作，设置合适的核，将局部一个个单个字符连接成一个字符块，使用基于二值图像的轮廓发现技术，识别图片中满足条件的字符块区域，切割下来并保存到字符块图像列表，字符块区域的坐标信息按照固定格式存入对应的字符块信息存储列表；

(4)字符内容识别，包括从字符块图像列表读取切割下来的字符块图片，选取若干张为一组，按照字符块序号从上至下依次按行拼接在一张图片上，将拼接的图片输入到字符识别模型中，获取返回的识别结果并保存；

(5)表格复原是从保存的字符块坐标信息中，读取每个字符块的编号、坐标信息和识别结果，按照基于字符块坐标信息的行发现与全局自适应列对齐复原算法复原表格；

(6)把提取出的表格图片内容按原表格结构保存到存储文件和数据库中，以供构建对应学科数据库使用。

优选地，一种基于图像处理的文献中表格内容识别与信息提取方法，包括如下的步骤：

(1)读入一篇文献，提取文献中表格部分内容，转化为图片格式保存，将图片访问路径存入路径列表；

(2)读取一张表格图片，对表格图片进行框线去除，包括二值化、开操作提取直线、按位与计算；进行直线提取时，分别使用不同的核进行开操作提取水平和垂直方向上的直线，然后再叠加到同一张图上，再用这张图与二值图进行按位与操作，得到去除完框线的表格二值图，并将去除完框线的表格二值图保存下来，表格框线去除工作完成，步骤拆解；优选地，在所述步骤(2)中，对输入的表格图片进行处理，得到去除框线的二值图像的具体处理步骤如下：

(2-1)原图先转化为灰度图，再进行固定阈值的取反二值化，得到原图二值图；

(2-2)对原图二值图设置保持垂直线的核进行开操作，得到仅保留垂直线的垂直线二值图；对原图二值图设置保持水平线的核进行开操作，得到仅保留水平线的水平线二值图；

(2-3)将垂直线二值图和水平线二值图叠加后取反得到框线二值图，不失一般性，框线为黑色，背景为白色，将框线二值图进行腐蚀操作，对提取到的框线适当加粗；

(2-4)用加粗框线二值图与原图二值图进行按位与操作，最终得到去除框线的二值图；

优选地，其中(2-3)步骤对框线图加粗操作是因为在提取框线过程中，开操作会对图像先进行腐蚀，导致提取到的框线会比实际框线细一点，所以需要适当的加粗，来保证框线的完整性；在二值图中，像素点值为0是黑色，为1是白色；在加粗框线二值图中，框线区域全为0，其余区域为1，在原图二值图中，字符和框线区域为1，其余为0；将上述两张二值图进行按位与操作后，只有字符区域依旧为1，其余全为0，最终得到去除框线的二值图；

(3)文字区域获取并切割保存，是对去除完框线并二值化处理得到的表格图片设置大小合适的核，进行腐蚀操作，重点加强水平方向的腐蚀，使得相邻近的单个字符连接成一整块，使用基于二值图像的轮廓发现技术，找出所有目标区域，并对每个区域依次编号；对目标区域进行筛选，将面积小于一定阈值的目标区域过滤掉，剩下的就是待识别的字符块区域；将待识别的字符块从原图上切割下来并保存到字符块图像列表，字符块坐标信息按照固定格式存入对应的字符块信息存储列表；

优选地，在所述步骤(3)中，将表格中的有字符的区域从表格图片上识别并切割出来，具体步骤如下：

(3-1)对去除框线的二值化表格图片进行腐蚀操作，重点加强水平方向的腐蚀，使得相邻近的字符连接成一整块；

(3-2)再对腐蚀完的图片使用基于二值图像的轮廓发现技术，找出所有的候选目标区域，并对每个目标区域依次编号；

(3-3)对目标区域进行筛选，将面积小于阈值像素点数量的目标区域过滤掉，剩下的就是满足条件、待识别的目标字符块区域；

(3-4)根据目标字符块区域在二值图像上的坐标范围，从原图上截取出对应位置的图片保存到字符块图像列表，并将字符块区域信息按照格式存入对应的字符块信息存储列表；

(4)字符内容识别，包括从字符块图像列表读取切割下来的字符块图片，选取若干张为一组，按照字符块序号从上至下依次按行拼接在一张图片上，将拼接的图片输入到字符识别模型中，获取返回的识别结果并保存，

优选地，在所述步骤(4)主要实现调用字符识别模型进行识别，并将识别结果按照规定格式保存到对应的字符块信息存储列表的元素项中，具体步骤如下：

(4-1)读取字符块图像列表，获得表格图片上切割下来的字符块图片；

(4-2)每次以若干张字符块图片为一组，每张图片为一行，逐行将字符块图片拼接成一张大图；

(4-3)将拼接得到的图片输入到字符识别模型中，获取返回的若干个字符块识别结果；

(4-4)解析若干个字符块识别结果，以序号为依据将识别结果与字符块对应上，并根据序号将对应字符块识别结果保存到字符块信息存储列表；

(5)表格复原是从保存的字符块坐标信息中，读取每个字符块的编号、坐标信息和识别结果，按照基于字符块坐标信息的行发现与全局自适应列对齐复原算法复原表格，并按照规定格式写入数据库；算法整体思想是自上而下逐一还原每一行，每一行按照自左向右还原，选取同一行的字符块、对复原内容进行列对齐；具体步骤如下：

(5-1)从保存的字符块信息中将字符块数据读取到字符块对象列表中；

(5-2)记字符块左上角横纵坐标分别为x1和y1，将对象列表按照y1升序排列，y1相同时按照x1升序排列，形成有序的待还原列表；

(5-3)从待还原列表中选取y1值最小的字符块A作为基线，并将A的状态置为已还原；

(5-4)从待还原列表中选取若干个字符块B，B需要满足A.y1<＝B.y1<＝A.y2的条件，并将B的状态置为已还原；

(5-5)将这些满足条件的字符块B的内容和A的内容按照间隔全局自适应和列对齐原则拼接成一行，保存本行拼接结果；

(5-6)循环往复，直至待还原列表为空，即完成表格的复原；

优选地，在步骤(5-1)中，字符块对象拥有字符块序号、字符块图片名、x1、x2、y1、y2、content和state属性，其中除state外，其余属性与字符块信息存储列表内每个元素的数据存储格式一一对应，x1和x2分别为字符块左上角和右下角横坐标，y1和y2分别为字符块左上角和右下角纵坐标，content为字符块识别结果，state属性为标记位，state＝1代表字符块未还原，state＝0代表字符块已经还原；

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著优点：

1.本发明方法运用了计算机图像中形态学操作的方法，去除掉表格框线，使用边缘提取识别出字符区域，再利用字符识别模型来识别字符区域内容，使用局部拼接方式提高字符识别速度，使用创新提出的基于字符块坐标信息的行发现与全局自适应列对齐复原算法来恢复表格结构，实现对图片格式表格信息的获取；

2.本发明中提到的表格图片文字提取，可用于将表格图片内容提取保存到数据库和便于读写的文件中，可直接用于后续进一步文献数据挖掘，提高了文献内容提取速度，为构建学科数据库提供一种方法，促进相关学科的研究和发展；

3.本发明对于表格框线去除的方法有效可行，框线去除的很彻底，去除效果好，形态学操作去除速度快，去除效率高。

附图说明

图1为本发明各实施例方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将本发明优选实施例结合附图，对本发明实施例中的技术方案进行清查、完整地描述。显然，所描述的实施例仅仅是本发明的一部分实施案例，而非全部实施案例。基于本发明中的实施例，本领域普通技术人员在没有做过创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护范围。

以下结合具体的实施例子对上述方案做进一步说明，本发明的优选实施例详述如下：

实施例一：

在本实施例中，一种基于图像处理的文献中表格内容识别与信息提取方法，包括如下的步骤：

(2)读取一张表格图片，对表格图片进行框线去除，包括二值化、开操作提取直线、按位与计算，进行直线提取时，分别使用不同的核进行开操作，提取水平和垂直方向上的直线，然后再叠加到同一张图上，再用这张图与二值图进行按位与操作，完成表格框线的去除；

(3)文字区域获取并切割保存，是对去除完框线并二值化处理的表格图进行膨胀操作，设置合适的核，将局部一个个单个字符连接成一个字符块，使用基于二值图像的轮廓发现，识别图片中满足条件的字符块并切割下来并保存到字符块图像列表，字符块坐标信息按照固定格式存入对应的字符块信息存储列表；

本实施例基于图像处理的文献中表格内容识别与信息提取方法，首先，对文献表格图片进行表格框线去除，包括二值化、开操作提取直线、按位与计算等，进行直线提取时，分别使用不同的核进行开操作，提取水平和垂直方向上的直线，再叠加到同一张图上，用这张图与二值图进行按位与操作，完成表格框线的去除；然后，对去除完框线的二值化表格图进行膨胀操作，设置合适的核，将局部的一个个单个字符连接成一个字符块，使用基于二值图像的轮廓发现，识别图片中达到面积阈值的字符块切割下来并保存，字符块坐标信息按照规定格式存入对应的字符块信息存储列表；之后，获取切割下来的字符块图片，选取若干张字符块图片按照字符块序号从上至下依次按行拼接在一张图片上，将拼接的图片输入到字符识别模型中，获取返回的识别结果，将识别结果追加写入字符块信息存储列表中每一项元素的对应位置；最后，从字符块信息存储列表中，读取每个字符块的序号、坐标信息和识别结果，按照基于字符块坐标信息的行发现与全局自适应列对齐复原算法复原表格，并将复原结果保存到对应的输出文件和数据库中。

实施例二：

本实施例与实施例一基本相同，特别之处在于：

在本实施例中，步骤(2)对输入的表格图片处理得到去除框线的二值图具体步骤如下：

(2-2)对原图二值图先进行保持垂直方向特征的开操作，得到仅保留垂直线的垂直线二值图；再对原图二值图进行保持水平方向特征的开操作，得到仅保留水平线的水平线二值图；

(2-3)将垂直线二值图和水平线二值图叠加后取反得到框线二值图，其中框线为黑色，背景为白色，将框线二值图进行适当的腐蚀操作，对提取到的框线适当加粗；

(2-4)用加粗框线二值图与原图二值图进行按位与操作，最终得到去除框线的二值图。

其中(2-3)步骤对框线图加粗操作是因为在提取框线过程中，开操作会对图像先进行腐蚀，再进行膨胀，先腐蚀可能会导致提取到的框线会比实际框线细一点，所以需要适当的加粗，来保证框线的完整性，使得去除框线效果更好。在二值图中，像素点值为0是黑色，为1是白色。在加粗框线二值图中，框线区域全为0，其余区域为1，在原图二值图中，字符和框线区域为1，其余为0。将上述两张二值图进行按位与操作后，只有字符区域为1，其余全为0，最终得到去除框线的二值图。本实施例对输入的表格图片进行处理，得到去除框线的二值图像，为后续形态学膨胀操作提供基础。

实施例三：

本实施例与前述实施例基本相同，特别之处在于：

在本实施例中，对于步骤(3)主要是将表格中的有字符的区域从表格图片上识别并切割出来，具体步骤如下：

(3-4)根据目标字符块区域在二值图像上的坐标范围，从原图上截取出对应位置的图片并保存，并将字符块区域信息按照格式存入对应的字符块信息存储列表。本实施例将表格中的有字符的区域从表格图片上识别并切割出来，为后续字符内容识别提供基础。

实施例四：

本实施例与前述实施例基本相同，特别之处在于：

在本实施例中，步骤(4)实现调用字符识别模型进行识别，并将识别结果按照格式保存到对应的字符块信息存储列表项中，具体步骤如下：

(4-1)读取表格图片上切割下来的字符块图片；

(4-2)每次以若干张字符块图片为一组，每张字符块图片为一行，逐行将字符块图片拼接成一张大图；

(4-4)解析若干个字符块识别结果，以序号为依据将识别结果与字符块对应上，并根据序号将对应字符块识别结果追加保存到字符块信息存储列表中对应元素项的末尾。本实施例实现调用字符识别模型进行识别，并将识别结果按照规定格式保存到对应的字符块信息存储列表的元素项中，作为后续算法提供基础。

实施例五：

本实施例与前述实施例基本相同，特别之处在于：

在本实施例中，在所述步骤(5)中，以存储的字符块坐标信息为依据，依据字符块位置坐标复原表格图片，算法整体思想是自上而下逐一还原每一行，每一行按照自左向右还原，其中，如何选取同一行的字符块、如何对复原内容进行列对齐为本算法的创新点。具体步骤如下：

(5-1)从字符块信息存储列表将字符块数据读取到字符块对象列表中；

(5-3)从待还原列表中选取y1最小的字符块A作为基线，并将A的状态置为已还原；

(5-6)循环往复，直至待还原列表为空，即完成表格的复原。

步骤(5-1)中，字符块对象拥有字符块序号、字符块图片名、x1、x2、y1、y2、content和state属性，其中除state外，其余属性与字符块信息存储列表中每一项元素数据存储格式一一对应，x1和x2分别为字符块左上角和右下角横坐标，y1和y2分别为字符块左上角和右下角纵坐标，content为字符块识别结果，state属性为标记位，标记字符块是否被还原。

最终提取出表格内字符内容，并按照表格结构复原保存到数据库和便于读写的文件中。

综合上述实施例可知，图1是本发明中一种基于图像处理的文献中表格内容识别和信息提取方法的流程图，共分为以下步骤：

首先，读入一篇文献，提取文献中表格部分的内容，转化为图片格式保存，将图片访问路径存入路径列表；然后，从列表中读取出一张表格图片，利用形态学方法去除表格框线；之后利用轮廓检测找出字符区域，并将字符区域从原图上截取出来并保存；随后选取一定数量的字符块拼接到一张大图上，调用文字识别模型识别大图上文字，并保存识别结果；最后读取字符块信息，按照基于字符块坐标信息的行发现与全局自适应列对齐复原算法复原表格，结果保存到数据库和文件中。本发明针对文献中表格图片提出了基于图像处理的内容识别与信息提取方法。本发明可以应用在文献数据提取中，提高文献提取速度，为构建对应学科数据库提供一种方法，促进相应学科的研究和发展。

综上所述，上述实施例基于图像处理的文献表格内容识别与信息提取方法，运用计算机图像检测方法，实现对文献表格图片进行的内容识别、信息提取和结构复原；首先读取一张表格图片，利用形态学方法去除表格框线；然后利用轮廓检测找出字符区域，将区域截取出来并保存；随后选取若干张字符块图片拼接成大图，调用文字识别模型识别大图上文字，解析并保存识别结果；最后读取字符块信息数据，按照基于字符块坐标的行发现与自适应列对齐复原算法，对表格进行复原，并保存到数据库；上述实施例文献中表格图片内容识别与信息提取方法能够实现框线去除、内容识别和结构复原，提高文献信息提取速度，为构建相应学科数据库提供一种方法，促进对应学科的研究和发展。

上面对本发明实施例结合附图进行了说明，但本发明不限于上述实施例，还可以根据本发明的发明创造的目的做出多种变化，凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化，均应为等效的置换方式，只要符合本发明的发明目的，只要不背离本发明基于图像处理的文献表格内容识别与信息提取方法的技术原理和发明构思，都属于本发明的保护范围。

Claims

1.一种基于图像处理的文献表格内容识别与信息提取方法，其特征在于，包括如下步骤：

(6)把提取出的表格图片内容按原表格结构保存到存储文件和数据库中，以供构建对应学科数据库使用；

其中，在所述步骤(2)中，对输入的表格图片进行处理，得到去除框线的二值图像的具体处理步骤如下：

(2-2)对原图二值图先进行保持垂直方向特征的开操作，得到仅保留垂直线的垂直线二值图，再对原图二值图进行保持水平方向特征的开操作，得到仅保留水平线的水平线二值图；

在所述步骤(3)中，将表格中的有字符的区域从表格图片上识别并切割出来，具体步骤如下：

在所述步骤(5)中是自上而下逐一还原每一行，每一行按照自左向右还原，选取同一行的字符块，对复原内容进行列对齐；其具体步骤如下：

(5-2)记字符块左上角横纵坐标分别为x1和y1，字符块右下角横纵坐标分别为x2和y2；将对象列表按照y1升序排列，y1相同时按照x1升序排列，形成有序的待还原列表；

(5-6)循环往复，直至待还原列表为空，即完成表格的复原。

2.根据权利要求1所述基于图像处理的文献表格内容识别与信息提取方法，其特征在于：在所述步骤(2)中，对输入的表格图片进行处理，得到去除框线的二值图像；

其中(2-3)步骤对框线图加粗操作是因为在提取框线过程中，形态学开操作会对图像先进行腐蚀，因此会导致提取到的框线会比实际框线细一点，所以需要加粗，来保证框线的完整性，使得去除效果更好；在二值图中，像素点值为0是黑色，为1是白色；在框线加粗的二值图像中，框线区域全为0，其余区域为1，在原图二值图中，字符和表格框线区域为1，其余为0；将两张二值图像进行按位与操作后，只有字符区域为1，其余全为0，最终得到去除框线的表格二值图。

3.根据权利要求1所述基于图像处理的文献表格内容识别与信息提取方法，其特征在于：在所述步骤(4)实现调用字符识别模型进行识别，并将识别结果按照规定格式保存到对应的字符块信息存储列表的元素项中，具体步骤如下：

(4-4)解析若干个字符块识别结果，以序号为依据将识别结果与字符块对应上，并根据序号将对应字符块识别结果追加保存到字符块信息存储列表中对应元素项的末尾。

4.根据权利要求1所述基于图像处理的文献表格内容识别与信息提取方法，其特征在于：在所述步骤(5)中，以存储的字符块信息为依据，依据字符块位置坐标信息复原表格形态；

在所述步骤(5-1)中，字符块对象拥有字符块序号、字符块图片名、x1、x2、y1、y2、content和state属性，其中除state外，其余属性与字符块信息存储列表中每一项元素数据存储格式一一对应，x1和x2分别为字符块左上角和右下角横坐标，y1和y2分别为字符块左上角和右下角纵坐标，content为字符块识别结果，state属性为标记位，标记字符块是否被还原；

最终提取出表格图片中字符内容，并按照原表格结构，将识别结果保存到数据库和便于读写的文件中。