CN111860502B

CN111860502B - 图片表格的识别方法、装置、电子设备及存储介质

Info

Publication number: CN111860502B
Application number: CN202010682811.XA
Authority: CN
Inventors: 蒙丽宇; 汪明浩
Original assignee: Beijing Seektruth Data Technology Service Co ltd
Current assignee: Beijing Seektruth Data Technology Service Co ltd
Filing date: 2020-07-15
Publication date: 2024-07-16
Anticipated expiration: 2040-07-15

Abstract

本申请实施例提供了一种图片表格的识别方法、装置、电子设备及存储介质，涉及图像识别技术领域，该方法包括：对表格区域进行分割，得到横线分割灰度图、竖线分割灰度图、行区域分割灰度图和列区域分割灰度图；对二值化的横线分割灰度图、竖线分割灰度图、行区域分割灰度图和列区域分割灰度图进行连通区域分析和聚类，得横线段对象集合、竖线段对象集合、行区域像素点集合和列区域像素点集合；根据横线段对象集合、竖线段对象集合、行区域像素点集合与列区域像素点集，确定出多个单元格；将图片表格中提取出的文本内容添加至单元格中。本申请实施例提供的方法、装置、电子设备及存储介质可准确的识别出图片表格中的表格。

Description

图片表格的识别方法、装置、电子设备及存储介质

技术领域

本文件涉及图像识别技术领域，尤其涉及一种图片表格的识别方法、装置、电子设备及存储介质。

背景技术

图片表格识别技术主要是针对手机拍摄图片、其他自然场景图片或电子文档转化的图片中的表格进行识别。

目前，对于图片表格的识别往往是先将表格进行校正，使图像中的表格线基本可视为直线后进行图像识别处理。

然而，由于外界因素影响导致表格线产生弯曲变形、颜色不均匀等情形时，表格的识别效果将会大打折扣。因此，如何提供一种有效的方案以准确识别出图片表格是现有技术中一亟待解决的问题。

发明内容

本申请实施例提供一种图片表格的识别方法、装置、电子设备及存储介质，用以解决现有技术存在的图片表格的识别效果差的问题。

为解决上述技术问题，本申请实施例是这样实现的：

第一方面，本申请实施例提供了一种图片表格的识别方法，包括：

通过基于表格线的语义分割模型和基于表格内容区域的语义分割模型，对图片表格的表格区域进行分割，得到与表格横线对应的横线分割灰度图、与表格竖线对应的竖线分割灰度图、与行文本内容对应的行区域分割灰度图和与列文本内容对应的列区域分割灰度图；

分别对所述横线分割灰度图和所述竖线分割灰度图进行二值化处理，并对二值化处理后的所述横线分割灰度图和二值化处理后的所述竖线分割灰度图进行连通区域分析和聚类，得到与所述横线分割灰度图对应的横线段对象集合和与所述竖线分割灰度图对应的竖线段对象集合；

分别对所述行区域分割灰度图和所述列区域分割灰度图进行二值化处理，并对二值化处理后的所述行区域分割灰度图和二值化处理后的所述列区域分割灰度图进行连通区域分析和聚类，得到与所述行区域分割灰度图对应的多个行区域像素点集合和与所述列区域分割灰度图对应的多个列区域像素点集合；

根据所述横线段对象集合与所述竖线段对象集合对应的线段交点、所述多个行区域像素点集合与所述多个列区域像素点集对应的重叠区域，确定出与所述表格区域对应的多个单元格；

对所述图片表格中的内容进行文本提取，得到所述图片表格中的文本内容；

基于所述文本内容的位置和所述多个单元格中每个单元格的位置，将所述文本内容添加至对应的单元格中。

可选的，根据所述横线段对象集合与所述竖线段对象集合对应的线段交点、所述多个行区域像素点集合与所述多个列区域像素点集对应的重叠区域，确定出与所述表格区域对应的多个单元格，包括：

根据所述横线段对象集合与所述竖线段对象集合对应的线段交点，确定出与所述表格区域对应的多个单元格顶点；

基于与所述表格区域对应的多个单元格顶点、所述多个行区域像素点集合与所述多个列区域像素点集对应的重叠区域。

可选的，所述方法还包括：

将所述图片表格、所述横线分割灰度图、所述竖线分割灰度图、所述行区域分割灰度图和所述列区域分割灰度图作为预先训练的单元格合并判别模型的输入进行运算，得到相邻单元格之间的置信度矩阵；

基于相邻单元格之间的置信度矩阵，对相邻的单元格进行合并处理，得到多个目标单元格；

所述基于所述文本内容的位置和所述多个单元格中每个单元格的位置，将所述文本内容添加至对应的单元格中，包括：

基于所述文本内容的位置和所述多个目标单元格中每个目标单元格的位置，将所述文本内容添加至对应的目标单元格中；

其中，所述置信度矩阵用于表征相邻单元格是否需要合并的置信度。

可选的，所述基于所述文本内容的位置和所述多个目标单元格中每个目标单元格的位置，将所述文本内容添加至对应的目标单元格中，包括：

对所述文本内容进行排序；

基于所述文本内容的位置和所述多个目标单元格中每个目标单元格的位置，将排序后的所述文本内容添加至对应的目标单元格中。

可选的，所述对所述图片表格中的内容进行文体提取，得到所述图片表格中的文本内容，包括：

对所述图片表格中的内容进行文本检测和文本识别，得到所述图片表格中的文本内容。

可选的，所述方法还包括：

对获取到的图片表格进行表格提取，得到所述图片表格中的表格区域。

可选的，所述方法还包括：

将所述表格区域缩放至预定尺寸；

所述通过基于表格线的语义分割模型和基于表格内容区域的语义分割模型，对图片表格的表格区域进行分割，包括：

通过基于表格线的语义分割模型和基于表格内容区域的语义分割模型，对缩放后的所述表格区域进行分割。

第二方面，本申请实施例提供了一种图片表格的识别装置，包括：

分割模块，用于通过基于表格线的语义分割模型和基于表格内容区域的语义分割模型，对图片表格的表格区域进行分割，得到与表格横线对应的横线分割灰度图、与表格竖线对应的竖线分割灰度图、与行文本内容对应的行区域分割灰度图和与列文本内容对应的列区域分割灰度图；

第一处理模块，用于分别对所述横线分割灰度图和所述竖线分割灰度图进行二值化处理，并对二值化处理后的所述横线分割灰度图和二值化处理后的所述竖线分割灰度图进行连通区域分析和聚类，得到与所述横线分割灰度图对应的横线段对象集合和与所述竖线分割灰度图对应的竖线段对象集合；

第二处理模块，用于分别对所述行区域分割灰度图和所述列区域分割灰度图进行二值化处理，并对二值化处理后的所述行区域分割灰度图和二值化处理后的所述列区域分割灰度图进行连通区域分析和聚类，得到与所述行区域分割灰度图对应的多个行区域像素点集合和与所述列区域分割灰度图对应的多个列区域像素点集合；

确定模块，用于根据所述横线段对象集合与所述竖线段对象集合对应的线段交点、所述多个行区域像素点集合与所述多个列区域像素点集对应的重叠区域，确定出与所述表格区域对应的多个单元格；

文本提取模块，用于对所述图片表格中的内容进行文本提取，得到所述图片表格中的文本内容；

添加模块，用于基于所述文本内容的位置和所述多个单元格中每个单元格的位置，将所述文本内容添加至对应的单元格中。

第三方面，本申请实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序，实现以下流程：

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

由于通过基于表格线的语义分割模型和基于表格内容区域的语义分割模型，对图片表格的表格区域进行分割，得到横线分割灰度图、竖线分割灰度图、行区域分割灰度图和列区域分割灰度图，分别对横线分割灰度图、竖线分割灰度图、行区域分割灰度图和列区域分割灰度图进行二值化处理，并对二值化处理后的横线分割灰度图、竖线分割灰度图、行区域分割灰度图和列区域分割灰度图进行连通区域分析和聚类，得到横线段对象集合、竖线段对象集合、多个行区域像素点集合和多个列区域像素点集合，然后根据横线段对象集合与竖线段对象集合对应的交点、多个行区域像素点集合与多个列区域像素点集对应的重叠区域，确定出表格区域对应的多个单元格，再将提取处的文本内容添加到对应的单元格中，因此能够准确的对图片表格中的表格进行识别，降低由于图像质量对表格识别效果产生的影响。

附图说明

此处所说明的附图用来提供对本文件的进一步理解，构成本文件的一部分，本文件的示意性实施例及其说明用于解释本文件，并不构成对本文件的不当限定。在附图中：

图1为本申请一个实施例提供的图片表格的识别方法的流程示意图。

图2为本申请一个实施例提供的电子设备的结构示意图。

图3为本申请一个实施例提供的图片表格的识别装置的结构示意图。

具体实施方式

为使本文件的目的、技术方案和优点更加清楚，下面将结合本文件具体实施例及相应的附图对本文件技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本文件一部分实施例，而不是全部的实施例。基于本文件中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文件保护的范围。

为了识别出图片表格，本申请实施例提供了一种图片表格的识别方法、装置、电子设备及存储介质，该图片表格的识别方法、装置、电子设备及存储介质能够准确识别出图片表格，避免由于外界因素影响导致表格线产生弯曲变形、颜色不均匀等情形而造成的表格识别效果差的问题。

下面将对本申请实施例提供的图片表格的识别方法进行详细说明。

本申请实施例提供的图片表格的识别方法可应用于用户终端和服务器，所述用户终端可以是，但不限于个人电脑、智能手机、平板电脑、膝上型便携计算机、车载电脑、人数字助理等，所述服务器可以是网络服务器或数据库服务器。

为了便于描述，除特别说明外，本申请实施例均以服务器为执行主体进行说明。

可以理解，所述执行主体并不构成对本申请实施例的限定。

可选地，该图片表格的识别方法的流程如图1所示，可以包括如下步骤：

步骤S101，对图片表格的表格区域进行分割，得到与表格横线对应的横线分割灰度图、与表格竖线对应的竖线分割灰度图、与行文本内容对应的行区域分割灰度图和与列文本内容对应的列区域分割灰度图。

本申请实施例中，图片表格是指以扫描图片或者电子文档转化的以图片式展示表格内容的图片。

对图片表格的表格区域进行分割，可以通过基于表格线的语义分割模型和基于表格内容区域的语义分割模型，对图片表格的表格区域进行分割，得到与表格横线对应的横线分割灰度图、与表格竖线对应的竖线分割灰度图、与行文本内容对应的行区域分割灰度图和与列文本内容对应的列区域分割灰度图。

其中，所述基于表格线的语义分割模型可以是，但不限于全卷积神经网络(FullyConvolutional Network，FCN)模型、Unet(Convolutional Networks for BiomedicalImage Segmentatio)模型等。基于表格线的语义分割模型可以以表格区域的横线和竖线为基准分别对图片表格的表格区域进行分割，得到与表格横线对应的横线分割灰度图和与表格竖线对应的竖线分割灰度图。

所述基于表格内容区域的语义分割模型可以是，但不限于全卷积神经网络(FullyConvolutional Network，FCN)模型、Unet(Convolutional Networks for BiomedicalImage Segmentatio)模型等。基于表格内容区域的语义分割模型可以以表格区域中的文本内容的行和列为基准，分别对图片表格的表格区域进行分割，得到与与行文本内容对应的行区域分割灰度图和与列文本内容对应的列区域分割灰度图。

本申请实施例中，图片表格包括表格区域及表格区域之外的部分，为了减少运算量，在表格区域进行分割之外，可对原始图像进行表格提取，得到原始图像中的表格区域。其中，对图片表格进行表格提取可以采用，但不限于渐进式尺度扩张网络(ProgressiveScale Expansion Algorithm，PSE)模型、Yolo(You Only Look Once)模型、基于区域的卷积网络(faster region-based convolutional neuralnetworks，Faster R-CNN)模型等。

另外，一些图片表格的表格区域的尺寸可能较大，在进行图片表格的识别时，会由于表格区域的尺寸过大导致运算量的大大增加，影响图片表格的识别效率，因此在对图片表格的表格区域进行分割之前，可对该表格区域进行缩放以使其缩放至预定尺寸，该预定尺寸的大小以确保对表格区域进行识别时运算量不会过大且不影响识别精度为宜。

本申请实施例中，由于不同图片表格的表格区域的长宽比例不一，因此预定尺寸可以为一尺寸范围。例如，宽度可以在1000-5000像素之间，高度可以在1200-6000像素之间。

步骤S102，分别对横线分割灰度图和竖线分割灰度图进行二值化处理，并对二值化处理后的横线分割灰度图和竖线分割灰度图进行连通区域分析和聚类，得到横线段对象集合和竖线段对象集合。

二值化处理时，可将横线分割灰度图和竖线分割灰度图中灰度值大于等于预设灰度值的像素点的灰度值设置为255，灰度值小于该预设灰度值的像素点的灰度值设置为0，从而得到两个分别与横线分割灰度图和竖线分割灰度图对应的二值化图像。其中，该预设灰度值可以根据实际情况设定，例如100、122等，本申请实施例中不做具体限定。

连通区域分析是较常见的图像处理操作，连通区域分析一般是针对二值图像，将具有相同像素值且相邻的像素找出并标记。本申请实施例中，主要是针对图片表格进行识别，在连通区域分析时，可将二值化图像中灰度值为255的相邻像素点找出并标记，从而得到多个连通区域。例如，在对一竖线分割灰度图进行二值化处理后得到的图像中，像素坐标为(2，2)、(3，2)、(4，2)、(5，2)、(6，2)的像素点的二值化值均为255，则像素坐标为(2，2)、(3，2)、(4，2)、(5，2)、(6，2)的这几个像素点可以作为一连通区域，对应一条竖线。

在对连通区域分析后可对所有的连通区域进行聚类，即可得到与横线分割灰度图对应的横线段对象集合和与竖线分割灰度图对应的竖线段对象集合，横线段对象集合中包括多条横线段，竖线段对象集合中包括多条竖线段。

本申请实施例中，在进行连通区域分析之前，还可以对二值化处理后的横线分割灰度图和二值化处理后的竖线分割灰度图进行细化处理，将线段的宽度调为1个像素宽度。例如，一竖线分割灰度图进行二值化处理后得到的图像中，像素坐标为(2，2)、(3，2)、(3，3)、(4，2)、(4，3)、(5，2)、(6，2)的像素点的二值化值均为255，则在进行细化处理时，可以将像素坐标为(3，3)和(4，3)这两个像素点的二值化值调整为0。

步骤S103，分别对行区域分割灰度图和列区域分割灰度图进行二值化处理，并对二值化处理后的行区域分割灰度图和所述列区域分割灰度图进行连通区域分析和聚类，得到多个行区域像素点集合和多个列区域像素点集合。

基于与上述步骤S102相同的方式，可将行区域分割灰度图和列区域分割灰度图中灰度值大于等于预设灰度值的像素点的灰度值设置为255，灰度值小于该预设灰度值的像素点的灰度值设置为0，从而得到两个分别与行区域分割灰度图和列区域分割灰度图对应的二值化图像。

然后在将行区域分割灰度图二值化处理后的图像进行连通区域分析，得到多个连通区域，其中的每个连通区域与一行文本所属区域对应。将列区域分割灰度图二值化处理后的图像进行连通区域分析，得到多个连通区域，其中的每个连通区域与一列文本所属区域容对应。

对行区域分割灰度图的二值化图像的连通区域进行聚类，得到与行区域分割灰度图对应的多个行区域像素点集合，多个行区域像素点集合中的每一个集合与一行文本所属区域对应，即一个行区域像素点集就对应一行文本所属区域的像素坐标。对列区域分割灰度图的二值化图像的连通区域进行聚类，得到与列区域分割灰度图对应的多个列区域像素点集合，多个列区域像素点集合中的每一个集合与一列文本所属区域对应，即一个列区域像素点集就对应一列文本所属区域的像素坐标。

本申请实施例中，多个行区域像素点集合中的每一个集合与一行文本所属区域对应，多个列区域像素点集合中的每一个集合与一列文本所属区域对应，一行文本的高度必然是多个像素点的高度，一列文本的宽度也必然是多个像素点的宽度，因此与上述步骤S102不同的是，在本步骤的进行连通区域分析之前，不能对二值化处理后的行区域分割灰度图和二值化处理后的列区域分割灰度图进行细化处理。

步骤S104，根据横线段对象集合与竖线段对象集合对应的交点、多个行区域像素点集合与多个列区域像素点集对应的重叠区域，确定出与表格区域对应的多个单元格。

一个表格的四个顶点必然是相邻的两根横线与相邻的两个竖线的交点，且一个表格也可以看做是行与列的重叠区域。因此，在确定与表格区域对应的单元格时，可以根据横线段对象集合中所有横线段与竖线段对象集合中所有竖线段的线段交点，确定出与表格区域对应的多个单元格顶点。可以根据行区域像素点集合与列区域像素点集对应的重叠区域确定出每个单元格所覆盖的区域，然后结合多个单元格顶点及每个单元格所覆盖的区域，即可确定出与表格区域对应的多个单元格。

例如，根据横线段对象集合中所有横线段与竖线段对象集合中所有竖线段的线段交点，确定出一单元格的四个顶点对应的像素坐标为(9，9)、(9，101)、(101，9)和(101，101)，根据行区域像素点集合与列区域像素点集对应的重叠区域确定出该单元格的覆盖区域的像素横坐标范围为11-99，像素纵坐标范围为11-99，则在最终确定该单元格时，可以根据四个顶点对应的像素坐标为(9，9)、(9，101)、(101，9)和(101，101)与该覆盖区域的四个顶点的像素坐标一一对应相加后再除以2(若相除后得到的数值为小数，可以取整)，最终得到该单元格的四个顶点分别为(10，10)、(10，100)、(100，10)和(100，100)。

本申请实施例中，可根据横线段对象集合中所有横线段与竖线段对象集合中所有竖线段的线段交点确定出的多个单元格顶点，可根据多个行区域像素点集合与多个列区域像素点集对应的重叠区域确定出的每个单元格所覆盖的区域，然后在结合多个单元格顶点及每个单元格所覆盖的区域进行综合考虑，确定出与表格区域对应的多个单元格，因此确定出单元格相对于从单一方面考虑准确度会更高。

在一个或多个实施例中，部分单元格可能需要进行合并，针对这种情形，本申请实施例提供的方案还可以对部分单元格进行合并。

具体的，可以将该图片表格、横线分割灰度图、竖线分割灰度图、行区域分割灰度图和列区域分割灰度图作为模型输入，输入到预先训练的用于计算相邻单元格是否需要合并的单元格合并判别模型进行运算，得到相邻单元格之间的置信度矩阵。其中，该单元格合并判别模型是基于卷积神经网络(Convolutional Neural Networks，CNN)模型建立的，置信度矩阵用于表征相邻的单元格是否需要合并的置信度。

然后根据置信度矩阵，来判定相邻单元格之间是否需要合并，如果相邻的单元格合并的置信度低于预设阈值，则将对应的两个相邻单元格进行合并。为便于描述，本申请实施例中将进行单元格合并处理步骤后得到的单元格称之为目标单元格(包括合并后得到的单元格和未合并的单元格)。

步骤S105，对图片表格中的内容进行文本提取，得到图片表格中的文本内容。

具体的，可以以行或空格为基准进对图片表格中的内容进行文本检测和文本识别，得到片表格中的文本内容。其中，所述文本内容可以为多个，每个文本内容对应一个单元格(若进行了单元格合并处理步骤，则每个文本内容对应一个目标单元格)。可以理解，表格中可能存在内容为空的单元格(或目标单元格)，因此可能存在没有对应文本内容的单元格(或目标单元格)。

本申请实施例中，对图片表格中的内容进行文本提取可以采用，但不限于卷积循环神经网络(CRNN)模型、自然场景下的文字识别(An Efficient and Accuracy SceneText detection pipeline，EAST)模型等，本申请实施例中不做具体说明。

步骤S106，基于文本内容的位置和多个单元格中每个单元格的位置，将文本内容添加至对应的单元格中。

本申请实施例中，可以根据文本内容的中心位置和多个单元格中每个单元格(若进行了单元格合并处理步骤，则为目标单元格)的四个顶点，将中心点落在某单元格的四个顶点所围成的四边形内的文本内容添加至该单元格中。

本申请实施例中，文本内容的中心位置和每个单元格的四个顶点可通过像素坐标来表示。例如，单元格A的四个顶点所对应的像素坐标分别为(10，10)、(10，200)、(80，10)以及(80，200)，而文本内容a的中心位置所对应的像素坐标为(50，100)，该像素坐标(50，100)刚好位于像素坐标(10，10)、(10，200)、(80，10)以及(80，200)所围成的四边形内，因此可以判定文本内容a与单元格A对应，并将文本内容a添加在单元格A内。

本申请实施例中，在将文本内容添加在单元格(或目标单元格)内时，还可以先对文本内容进行排序，然后将排序后的文本内添加至对应的单元格(或目标单元格)内。其中，对文本内容进行排序可以是根据文本内容中每个字符所对应的像素坐标对文本内容中的每个字符进行排序。

本申请实施例提供的图片表格的识别方法，可通过基于表格线的语义分割模型和基于表格内容区域的语义分割模型，对图片表格的表格区域进行分割，得到横线分割灰度图、竖线分割灰度图、行区域分割灰度图和列区域分割灰度图，分别对横线分割灰度图、竖线分割灰度图、行区域分割灰度图和列区域分割灰度图进行二值化处理，并对二值化处理后的横线分割灰度图、竖线分割灰度图、行区域分割灰度图和列区域分割灰度图进行连通区域分析和聚类，得到横线段对象集合、竖线段对象集合、多个行区域像素点集合和多个列区域像素点集合，然后根据横线段对象集合与竖线段对象集合对应的线段交点、多个行区域像素点集合与多个列区域像素点集对应的重叠区域，确定出表格区域对应的多个单元格，再将提取处的文本内容添加到对应的单元格中，因此能够准确的对图片表格中的表格进行识别，降低由于图像质量对表格识别效果产生的影响。同时，在确定与表格区域对应的多个单元格时，结合多个单元格顶点及每个单元格所覆盖的区域综合考虑，确定出与表格区域对应的多个单元格，确定出单元格相对于从单一方面考虑准确度会更高。其次，能够处理较复杂的单元格合并的情况。另外，还会对文本内容进行排序，避免在将文本内容添加至对应的单元格内时，由于文本内容顺序错误而导致表格内容与原始的图片表格不一致的问题。本申请实施例提供的方法中基于神经网络的语义分割模型具有很好的鲁棒性，使得表格识别不受图像质量差的影响。

图2是本申请的一个实施例电子设备的结构示意图。请参考图2，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图2中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成图片表格的识别装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

上述如本申请图2所示实施例揭示的图片表格的识别装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1所示实施例的方法，并实现图片表格的识别装置在图1所示实施例的功能，本申请实施例在此不再赘述。

当然，除了软件实现方式之外，本申请的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的方法，并具体用于执行以下操作：

图3是本申请的一个实施例提供的图片表格的识别装置300的结构示意图。请参考图3，在一种软件实施方式中，提供的图片表格的识别装置300可包括：

分割模块301，用于通过基于表格线的语义分割模型和基于表格内容区域的语义分割模型，对图片表格的表格区域进行分割，得到与表格横线对应的横线分割灰度图、与表格竖线对应的竖线分割灰度图、与行文本内容对应的行区域分割灰度图和与列文本内容对应的列区域分割灰度图；

第一处理模块302，用于分别对所述横线分割灰度图和所述竖线分割灰度图进行二值化处理，并对二值化处理后的所述横线分割灰度图和二值化处理后的所述竖线分割灰度图进行连通区域分析和聚类，得到与所述横线分割灰度图对应的横线段对象集合和与所述竖线分割灰度图对应的竖线段对象集合；

第二处理模块303，用于分别对所述行区域分割灰度图和所述列区域分割灰度图进行二值化处理，并对二值化处理后的所述行区域分割灰度图和二值化处理后的所述列区域分割灰度图进行连通区域分析和聚类，得到与所述行区域分割灰度图对应的多个行区域像素点集合和与所述列区域分割灰度图对应的多个列区域像素点集合；

确定模块304，用于根据所述横线段对象集合与所述竖线段对象集合对应的线段交点、所述多个行区域像素点集合与所述多个列区域像素点集对应的重叠区域，确定出与所述表格区域对应的多个单元格；

文本提取模块305，用于对所述图片表格中的内容进行文本提取，得到所述图片表格中的文本内容；

添加模块306，用于基于所述文本内容的位置和所述多个单元格中每个单元格的位置，将所述文本内容添加至对应的单元格中。

本申请实施例提供的技术方案，由于能够通过基于表格线的语义分割模型和基于表格内容区域的语义分割模型，对图片表格的表格区域进行分割，得到横线分割灰度图、竖线分割灰度图、行区域分割灰度图和列区域分割灰度图，分别对横线分割灰度图、竖线分割灰度图、行区域分割灰度图和列区域分割灰度图进行二值化处理，并对二值化处理后的横线分割灰度图、竖线分割灰度图、行区域分割灰度图和列区域分割灰度图进行连通区域分析和聚类，得到横线段对象集合、竖线段对象集合、多个行区域像素点集合和多个列区域像素点集合，然后根据横线段对象集合与竖线段对象集合对应的线段交点、多个行区域像素点集合与多个列区域像素点集对应的重叠区域，确定出表格区域对应的多个单元格，再将提取处的文本内容添加到对应的单元格中，因此能够准确的对图片表格中的表格进行识别，降低由于图像质量对表格识别效果产生的影响。同时，在确定与表格区域对应的多个单元格时，结合多个单元格顶点及每个单元格所覆盖的区域综合考虑，确定出与表格区域对应的多个单元格，确定出单元格相对于从单一方面考虑准确度会更高。其次，能够处理较复杂的单元格合并的情况。另外，还会对文本内容进行排序，避免在将文本内容添加至对应的单元格内时，由于文本内容顺序错误而导致表格内容与原始的图片表格不一致的问题。本申请实施例提供的方案中基于神经网络的语义分割模型具有很好的鲁棒性，使得表格识别不受图像质量差的影响。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

总之，以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种图片表格的识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据所述横线段对象集合与所述竖线段对象集合对应的线段交点、所述多个行区域像素点集合与所述多个列区域像素点集对应的重叠区域，确定出与所述表格区域对应的多个单元格，包括：

基于与所述表格区域对应的多个单元格顶点、所述多个行区域像素点集合与所述多个列区域像素点集对应的重叠区域，得到与所述表格区域对应的多个单元格。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述文本内容的位置和所述多个目标单元格中每个目标单元格的位置，将所述文本内容添加至对应的目标单元格中，包括：

对所述文本内容进行排序；

5.根据权利要求1所述的方法，其特征在于，所述对所述图片表格中的内容进行文体提取，得到所述图片表格中的文本内容，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

将所述表格区域缩放至预定尺寸；

8.一种图片表格的识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序，实现以下流程：

10.一种计算机可读存储介质，其特征在于，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现以下流程：