CN111695553A

CN111695553A - 表格识别方法、装置、设备和介质

Info

Publication number: CN111695553A
Application number: CN202010508011.6A
Authority: CN
Inventors: 韩光耀; 庞敏辉; 谢国斌; 李丹青; 王天翼; 郑佩韦; 姜泽青; 张瑾; 杜泓江
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-09-22
Anticipated expiration: 2040-06-05
Also published as: KR20210042864A; US20210383105A1; EP3822851A3; EP3822851A2; CN111695553B; JP2021193549A; KR102609341B1; JP7299939B2; US11636699B2

Abstract

本申请实施例公开了一种表格识别方法、装置、设备和介质，涉及数据处理技术和云计算领域。其中，该表格识别方法包括：对目标图片上的表格进行检测，得到候选表格识别结果；提取候选表格识别结果的合并特征，并利用合并特征确定候选表格识别结果中的待合并行；提取待合并行的方向特征，并利用方向特征确定待合并行的合并方向；依据待合并行和待合并行的合并方向，对候选表格识别结果进行调整，得到目标表格识别结果。本申请实施例解决了现有表格识别方案中识别结果不准确的问题，提高了表格识别的准确性。

Description

表格识别方法、装置、设备和介质

技术领域

本申请实施例涉及计算机技术，具体涉及数据处理技术和云计算领域，尤其涉及一种表格识别方法、装置、设备和介质。

背景技术

随着信息技术的发展，电子表格的重要性毋庸置疑。然而，业务处理过程中面临的表格并不只是简单的Excel和Word文档，还会有许多是以PDF扫描件和图片形式存在的表格图片。

通常情况下，需要人工对表格图片进行识别，并手动提取表格图片上的内容，以输入到Excel或者Word中。当待处理的表格图片较多时，人工识别与内容提取，不仅效率低，而且非常容易出错。尽管，现在存在一些基于深度学习思想进行表格识别的方案，但是表格识别准确性并不理想。

发明内容

本申请实施例提供了一种表格识别方法、装置、设备和介质，以提高表格识别的准确性。

根据本申请实施例的一方面，提供了一种表格识别方法，包括：

对目标图片上的表格进行检测，得到候选表格识别结果；

提取候选表格识别结果的合并特征，并利用合并特征确定候选表格识别结果中的待合并行；

提取待合并行的方向特征，并利用方向特征确定待合并行的合并方向；

依据待合并行和待合并行的合并方向，对候选表格识别结果进行调整，得到目标表格识别结果。

根据本申请实施例的另一方面，提供了一种表格识别装置，包括：

候选结果确定模块，用于对目标图片上的表格进行检测，得到候选表格识别结果；

待合并行确定模块，用于提取候选表格识别结果的合并特征，并利用合并特征确定候选表格识别结果中的待合并行；

合并方向确定模块，用于提取待合并行的方向特征，并利用方向特征确定待合并行的合并方向；

目标结果确定模块，用于依据待合并行和待合并行的合并方向，对候选表格识别结果进行调整，得到目标表格识别结果。

根据本申请实施例的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如本申请实施例所公开的任一表格识别方法。

根据本申请实施例的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如本申请实施例所公开的任一表格识别方法。

根据本申请实施例的技术方案，通过表格检测得到候选表格识别结果后，提取候选表格识别结果的表格特征，即合并特征和方向特征，利用提取的表格特征对候选表格识别结果进行结构化的合并处理，得到待合并的行以及待合并行的合并方向，进而对候选表格识别结果进行调整，得到最终的目标表格识别结果，解决了现有表格识别方案中识别结果不准确的问题，提高了表格识别的准确性。

应当理解，应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例公开的一种表格识别方法的流程图；

图2是根据本申请实施例公开的目标图片的候选表格识别结果的一种示意图；

图3是根据本申请实施例公开的目标图片的目标表格识别结果的一种示意图；

图4是根据本申请实施例公开的另一种表格识别方法的流程图；

图5是根据本申请实施例公开的另一种表格识别方法的流程图；

图6是根据本申请实施例公开的目标图片上表格外框和文字区域的检测结果的一种示意图；

图7是根据本申请实施例公开的目标图片上包括空白列的列区域范围一种示意图；

图8根据本申请实施例公开的目标图片上空白列被合并后的列区域范围一种示意图；

图9是根据本申请实施例公开的一种表格识别装置的结构示意图；

图10是根据本申请实施例公开的一种电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请实施例公开的一种表格识别方法的流程图，本申请实施例可以适用于对表格图片进行识别，得到表格图片上的表格的情况，尤其是对表格图片上的无线表格进行识别的情况。本申请实施例公开的方法可以由表格识别装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成在任意的具有计算能力的电子设备上，例如服务器或者终端等。

如图1所示，本申请实施例公开的表格识别方法可以包括：

S101、对目标图片上的表格进行检测，得到候选表格识别结果。

当获取到目标图片后，可以基于目标检测技术，利用任意的具有表格检测功能的神经网络模型，例如基于卷积神经网络或者基于残差神经网络的模型，对目标图片上的表格进行检测，以及利用任意可用的具有文字检测效果的方法对目标图片上的文字进行检测，例如CTPN技术(一种场景文字检测方法)、TextSnake技术(一种文本检测方法)、PSENET技术(一种文本检测方法)或者CRAFT技术(一种文本检测方法)等技术，从而得到表格的初步识别结果，即候选表格识别结果。其中，目标图片是指包括待识别表格的任意待处理图片，包括PDF扫描件以及其他图片格式的图片。目标图片上的表格可以包括有线表格和无线表格；优选无线表格，可以确保较高的检测准确性。具体的，目标图片上的表格可以是企业年报、财务报表等类型。

示例性的，对目标图片上的表格进行检测，得到候选表格识别结果，包括：检测目标图片上的表格外框和目标图片上的文字区域，其中，文字区域被检测出来之后，文字区域在目标图片上的位置信息，例如位置坐标，均可以确定；根据表格外框和文字区域，对目标图片上的表格进行网格划分，得到候选表格识别结果。目标图片上的每个文字区域是指包含至少一个文字，且每个文字之间的距离较为密集的区域。

图2以目标图片上包括无线表格为例，示出了目标图片的候选表格识别结果的一种示意图，不应理解为对申请实施例的具体限定。如图2所示，候选表格识别结果确定之后，表格中包括的结构化信息，例如单元格信息、行信息、列信息均可以初步确定。同时，从图2中也可以看出，候选表格识别结果中部分行或者部分单元格是需要进行合并处理，例如文字内容为“公司xxx及”的单元格与文字内容为“区域B分部”的单元格实质上应属于一个完整单元格，对应完整文字内容“公司xxx及区域B分部”，进而才可以得到更为准确的表格识别结果。

S102、提取候选表格识别结果的合并特征，并利用合并特征确定候选表格识别结果中的待合并行。

其中，合并特征是基于对大量表格的特点进行统计分析后，按照统计规律得到的能够用于确定表格中的待合并行的特征。待合并行是指以行为单位，需要与相邻的上一行或者相邻的下一行进行整体合并的行。

示例性的，候选表格识别结果的合并特征包括以下至少之一：候选表格识别结果中每行的有效列数与候选表格识别结果中最大有效列数的差异，候选表格识别结果中的每行与候选表格识别结果中表头的相对位置关系，候选表格识别结果中每行的文字区域是否包括预设分隔符号，以及候选表格识别结果中每行的文字区域是否包括数值类型数据等特征；其中，表头是指候选表格识别结果中，根据位置信息确定的对应有效列数最大的行中首个单元格；候选表格识别结果中每行的有效列数，是指该行中文字区域所对应的列的数量；候选表格识别结果中最大有效列数是表格中对应有文字区域的列的最大数量；预设分隔符号可以是表格中适用的任意用于对文字进行分隔或者分行的符号，例如用于对数值进行分行的小数点等。

进一步的，在合并特征中，候选表格识别结果中每行的有效列数m与候选表格识别结果中最大有效列数n的差异可以表示为：(n-m)/n，当然，还可以是其他形式的数学计算，例如m和n之间的商值等。候选表格识别结果中的每行与候选表格识别结果中表头的相对位置关系包括处于表头所在行的上方和处于表头所在行的下方。

在得到合并特征之后，可以利用预先确定的表格合并特征与表格中待合并行之间的关联关系(即用于表征合并特征和待合并行之间的规律性)，确定出候选表格识别结果中待合并的行。可选的，合并特征与表格中待合并行之间的关联关系，可以基于机器学习思想而确定，包括但不限回归分析思想等。

示例性的，候选表格识别结果中每行的有效列数与候选表格识别结果中最大有效列数的差异越大，该行属于待合并行的概率越大；候选表格识别结果中处于表头之上的行被合并至表头所在行的概率较大；候选表格识别结果中文字区域包括预设分隔符号的行属于待合并行的概率较大；候选表格识别结果中文字区域包括数值类型数据的行属于待合并行的概率较大。

S103、提取待合并行的方向特征，并利用方向特征确定待合并行的合并方向。

其中，方向特征是基于对大量表格的特点进行统计分析后，按照统计规律得到的能够用于确定待合并行的合并方向特征。合并方向包括向下行合并和向上行合并。向上行合并指取消当前待合并行的上边框以及与之相邻的上一行的下边框；向下行合并指取消当前待合并行的下边框以及与之相邻的下一行的上边框。

示例性的，待合并行的方向特征包括以下至少之一：待合并行是否包括侧表头，待合并行是否只包括侧表头，待合并行的文字区域是否包括数值类型数据，待合并行距离与之相邻的上一行下边框的距离和距离与之相邻的下一行上边框的距离之比，待合并行中文字区域(或称为文字框)和上一行中文字区域之间的宽度差异，以及待合并行中文字区域和下一行中文字区域之间的宽度差异等特征；侧表头是指每一行中按照阅读习惯处于表格最左侧的单元格。

进一步的，在方向特征中，待合并行距离与之相邻的上一行下边框的距离和距离与之相邻的下一行上边框的距离之比，可以包括待合并行的中心轴线距离与之相邻的上一行下边框的距离和待合并行的中心轴线距离与之相邻的下一行上边框的距离之比，还可以是待合并行的上边框距离与之相邻的上一行下边框的距离和待合并行的下边框距离与之相邻的下一行上边框的距离之比；

待合并行中文字区域和上一行中文字区域之间的宽度差异，可以表示如下：

其中，h_i表示待合并行中第i个文字区域的宽度，l_i表示与待合并行中第i个文字区域对应的上一行中第i个文字区域的宽度，i取值为整数。

同理，待合并行中文字区域和下一行中文字区域之间的宽度差异，可以表示如下：

其中，h_i表示待合并行中第i个文字区域的宽度，p_i表示与待合并行中第i个文字区域对应的下一行中第i个文字区域的宽度，i取值为整数。得到前述宽度差异后，可以根据宽度差异值与差异阈值的关系，确定待合并行的合并方向，例如，可以将宽度差异值大于差异阈值确定为向上行合并，将宽度差异值小于或等于差异阈值确定为向下行合并，差异阈值可以合理设置，本申请实施例不作具体限定。

具体而言，在得到方向特征之后，可以利用预先确定的表格方向特征与待合并行的合并方向之间的关联关系(即用于表征第二特征和待合并行之间的规律性)，确定出候选表格识别结果中待合并行的合并方向。可选的，方向特征与待合并行的合并方向之间的关联关系，可以基于机器学习思想而确定，包括但不限回归分析思想等。

示例性的，待合并行中包括侧表头或者待合并行只包括侧表头时，其他行合并至当前行的概率较大；待合并行距离与之相邻的上一行下边框的距离和距离与之相邻的下一行上边框的距离之比的值越大，表明待合并行和与之相邻的上一行的距离较小，进而待合并行合并至上一行的概率大于合并至下一行的概率；待合并行中文字区域和与之相邻的上一行中文字区域之间的宽度差异的取值越大，则待合并行合并至上一行的概率较大；同样的，待合并行中文字区域和与之相邻的下一行中文字区域之间的宽度差异的取值越大，则待合并行合并至下一行的概率较大；文字区域包括数值类型数据的待合并行合并至下一行的概率相对较大。

此外，在本申请实施例中，针对判断类型的特征，对于不同分支类型的特征，可以事先约定采用不同的字符表示，从而方便记录候选表格识别结果的表格特征，进一步方便后续的表格结构化处理。例如，在合并特征中，候选表格识别结果中的每行与候选表格识别结果中表头的相对位置关系，如果该行处于表头之上，则可以将该行特征记录为1，如果该行处于表头之下，则可以将该行特征记录为0；如果候选表格识别结果中某行的文字区域包括预设分隔符号，则可以将该行特征记录为1，否则记录为0，针对其他维度的特征，前述记录方式同样适用，同理，也适用在方向特征中，例如，如果待合并行包括侧表头，则将该待合并行的特征记录为1，否则记录为0。

候选表格识别结果的合并特征和待合并行的合并方向中分别包括的各个子特征可以单独使用，也可以组合使用，以确定待合并行和合并方向，从确保优质结果的角度考虑，优选子特征之间的组合使用，即通过考虑多个子特征进行综合性决策。

S104、依据待合并行和待合并行的合并方向，对候选表格识别结果进行调整，得到目标表格识别结果。

利用确定的待合并行以及待合并行的合并方向，对候选表格识别结果进行调整，从而得到准确的目标表格识别结果。图3以目标图片上包括无线表格为例，示出了目标图片的目标表格识别结果的一种示意图，不应理解为对本申请实施例的具体限定。图3相比图2，对表格中的部分行进行了合并，使得表格识别结果更为准确。

此外，在得到目标表格识别结果后，可以进一步利用文字识别技术，例如OCR(Optical Character Recognition，光学字符识别)技术等，识别每个文字区域的文字，然后将识别的文字提取至可编辑文档中，例如Word或Excel文档中，从而实现对表格图片上内容的便捷提取，Word或Excel文档可以导出反馈给用户。

需要说明的是，在本申请实施例中，关于合并特征和方向特征的提取时机并无严格限制，不应将图1中所示例的合并特征和方向特征的提取与其他操作的执行顺序理解为对本申请实施例的具体限定。示例性的，还可以在基于候选表格识别结果提取合并特征的同时，提取出表格中每行的方向特征，当确定候选表格识别结果中的待合并行之后，直接调用待合并行的方向特征，确定待合并行的合并方向。

图4是根据本申请实施例公开的另一种表格识别方法的流程图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。如图4所示，该方法可以包括：

S201、对目标图片上的表格进行检测，得到候选表格识别结果。

S202、提取候选表格识别结果的合并特征，并利用预先训练的单元格合并分类模型和合并特征，确定候选表格识别结果中的待合并行。

S203、提取待合并行的方向特征，并利用预先训练的单元格合并方向确定模型和方向特征，确定待合并行的合并方向。

S204、依据确定的待合并行和待合并行的合并方向，对候选表格识别结果进行调整，得到目标表格识别结果。

其中，单元格合并分类模型可以是预先训练的任意能够用于判断候选表格识别结果中每行是否需要参与合并的模型，具体可以是二分类模型，即针对每行的输出结果可以包括：需要参与合并或者不需要参与合并。单元格合并方向确定模型可以是预先训练的任意能够用于判断待合并行的合并方向的模型，具体也可以是二分类模型，即针对每个待合并行的输出结果可以包括：向上行合并或者向下行合并。向上行合并指取消当前待合并行的上边框以及与之相邻的上一行的下边框；向下行合并指取消当前待合并行的下边框以及与之相邻的下一行的上边框。

在上述技术方案的基础上，可选的，本申请实施例公开的方法还包括：

获取预设数量的样本表格，并标记样本表格中的待合并行以及该待合并行的合并方向；例如，可以将样本表格中待合并行的标记为1，不需要合并的行标记为0，将合并方向为向上合并时标记为1，将合并方向为向下合并时标记为0；

提取样本表格中用于确定待合并行的样本合并特征，以及提取样本表格中用于确定待合并行的合并方向的样本方向特征；

利用标记的待合并行和样本合并特征，训练得到单元格合并分类模型；即在训练过程中能够学习待合并行与样本合并特征之间关联关系，从而用于预测待合并行；

利用标记的待合并行的合并方向和样本方向特征，训练得到单元格合并方向确定模型；即在训练过程中能够学习待合并行的合并方向与样本方向特征之间的关联关系，从而用于预测待合并行的合并方向。

同样的，在模型训练过程中，样本合并特征和样本方向特征可以同时提取；也可以首先提取样本合并特征，然后提取样本方向特征，本申请实施例对此不作具体限定。单元格合并分类模型和到单元格合并方向确定模型，在表格识别过程中，可以择一进行使用，也可以同时使用，具体可根据处理需求而定，不应当将图4所示的技术方案理解为对本申请实施例的具体限定。

示例性的，样本合并特征包括以下至少之一：样本表格中每行的有效列数与样本表格中最大有效列数的差异，样本表格中的每行与样本表格中表头的相对位置关系，样本表格中每行的文字区域是否包括预设分隔符号，以及样本表格中每行的文字区域是否包括数值类型数据等特征；其中，表头是指样本表格中，根据位置信息确定的对应有效列数最大的行中首个单元格；样本表格中每行的有效列数，是指该行中文字区域所对应的列的数量；样本表格中最大有效列数是表格中对应有文字区域的列的最大数量；预设分隔符号可以是表格中适用的任意用于对文字进行分行的符号，例如用于对数值进行分行的小数点等。

样本方向特征包括以下至少之一：待合并行是否包括侧表头，待合并行是否只包括侧表头，待合并行的文字区域是否包括数值类型数据，待合并行距离与之相邻的上一行下边框的距离和距离与之相邻的下一行上边框的距离之比，待合并行中文字区域和与之相邻的上一行中文字区域之间的宽度差异，以及待合并行中文字区域和与之相邻的下一行中文字区域之间的宽度差异等特征；侧表头是指每一行中按照阅读习惯处于表格最左侧的单元格。模型训练阶段特征的提取与模型使用阶段特征的提取属于相同的逻辑，因此，关于第一样本特征和第二样本的其他描述，可以参考上述实施例中关于候选表格识别结果的第一特征和第二特征的描述，在此不在赘述。

在单元格合并分类模型和单元格合并方向确定模型的训练过程中，均可以基于逻辑回归二分类思想、GBDT(Gradient Boosting Decision Tree，梯度提升迭代决策树)二分类思想、XGBoost(eXtreme Gradient Boosting)二分类思想或者SVM(Support VectorMachine，支持向量机)二分类思想等，训练得到所需模型；还可以结合自动化建模进行模型参数调优，从而得到所需模型；还可以利用模型融合方法，训练得到所需模型。本申请实施例对模型的具体训练实现过程不作限定。

根据本申请实施例的技术方案，通过表格检测得到候选表格识别结果后，提取候选表格识别结果的合并特征和方向特征，为后续得到准确的表格识别结果奠定了数据基础；然后，利用预先训练的单元格合并分类模型和合并特征，确定候选表格识别结果中的待合并行，并利用预先训练的单元格合并方向确定模型和方向特征，确定待合并行的合并方向；最终，基于确定的待合并行、合并方向和候选表格识别结果，得到准确的目标表格识别结果，解决了现有表格识别方案中识别结果不准确的问题，提高了表格识别的准确性；并且，单元格合并分类模型和单元格合并方向确定模型的使用，在确保表格识别结果的准确性、可靠性的基础上，有效提高了表格识别的效率，而且，使得方案具有较为广泛的适用性。

图5是根据本申请实施例公开的另一种表格识别方法的流程图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。如图5所示，该方法可以包括：

S301、检测目标图片上的表格外框和目标图片上的文字区域。

示例性的，可以利用预设神经网络模型，检测目标图片上的表格外框；其中，预设神经网络模型可以通过在Yolov3网络结构上添加预设数量的卷积层实现。预设神经网络模型经过模型训练，具有表格外框的检测功能，模型训练过程中所需的参数均可以根据检测需求进行灵活设置。具体的，将目标图片经Yolov3网络结构处理后，不直接进行结果输出，而是继续输入预设数量(具体取值根据实际需求而定)的卷积层中进行卷积计算，然后再通过全连接层输出表格外框的检测结果，相比于经Yolov3网络结构处理即输出表格外框检测结果的情况，可以提高表格外框的检测准确性。同时，相比于利用Faster R-CNN网络检测表格外框的方案，本申请实施例中利用的预设神经网络模型也可以提高表格检测的准确性，可以减少将一些其他比较松散的文字误识别为表格区域的现象，同时兼顾表格识别准确率和召回率，此外，模型训练时间和预测时间要比Faster R-CNN少很多。预设神经网络模型在模型训练过程中可以使用交叉熵损失函数作为模型损失函数，以确保模型训练的准确性。交叉熵损失函数的具体形式可参照现有技术中的函数形式实现。

进一步的，可以利用字符级文本检测方法(Character Region Awareness forText Detection，CRAFT)检测目标图片上的文字区域。CRAFT方法的核心思想在于：提出单字分割以及单字间分割的方法，更符合目标检测这一核心概念，不是把文本框当作目标，这样使用小感受视野也能预测大文本和长文本，只需要关注字符级别的内容而不需要关注整个文本实例，能够有效得到文本边界，确保目标图片上文字区域检测的准确性。

图6是根据本申请实施例公开的目标图片上表格外框和文字区域的检测结果的一种示意图。如图6所示，处于表格外框内的文字均属于表格内容，一个文字区域对应一个文字框，文字框的数量由表格内容决定。关于表格外框和每个文字框的尺寸大小，可以适应性设置。

进一步的，在检测目标图片上的表格外框的过程中，本申请实施例公开的方法还包括：检测目标图片上表格的表名；相应的，在检测到目标图片上的表格外框之后，本申请实施例公开的方法还包括：根据表名的位置信息，对表格外框进行调整，避免将表名所占区域也划分至表格区域，从而提高表格外框的检测准确性。

示例性的，关于表名检测的实现，可以在训练得到具有表格外框检测功能的预设神经网络模型的过程中，同时将表名检测作为一个训练目标，即对训练样本表格同时标注表格外框和表名，然后用于模型训练，使得预设神经网络模型可以是一个多任务模型，同时兼具表格外框检测功能和表名检测功能。此外，还可以根据表名分别和表格主体、表头的位置关系等检测表名位置。

S302、根据表格外框和文字区域的位置信息，确定目标图片上的表格中每行的区域范围。即确定每行的上下边界。

S303、根据目标图片上每行对应的文字区域的数量，确定目标行。

具体的，可以以目标图片上表格的行为单位，将对应的文字区域的数量超过数量阈值的行，例如将对应的文字区域的数量最大的行，确定目标行。每行中的一个文字区域可以对应一列，换言之，目标行对应的列数在一定程度上是最大的。

S304、根据目标行的行长度和目标图片上的表格行方向上的文字区域，确定目标图片上的表格中每列的区域范围。

具体的，可以依据表格行方向上所有的文字区域的范围，沿着表格列方向对表格区域进行合理划分，确定每列的左边界线和右边界线。

S305、根据每行的区域范围和每列的区域范围，对目标图片上的表格进行网格划分，得到候选表格识别结果。

关于候选表格识别结果的示意效果可以参考图2。

S306、提取候选表格识别结果的合并特征，并利用合并特征确定候选表格识别结果中的待合并行。

S307、提取待合并行的方向特征，并利用方向特征确定待合并行的合并方向。

S308、依据待合并行和待合并行的合并方向，对候选表格识别结果进行调整，得到目标表格识别结果。

在上述技术方案的基础上，进一步的，根据目标行的行长度和目标图片上的表格行方向上的文字区域，确定目标图片上的表格中每列的区域范围，包括：

根据目标行的行长度和目标图片上的表格行方向上的文字区域，确定目标图片上的表格中每列的候选区域范围；

根据每列的候选区域范围，检测不包括文字区域的空白列；

将空白列的候选区域范围合并至两列目标区域中，得到目标图片上的表格中每列的目标区域范围；其中，两列目标区域是指与空白列相邻且分别位于空白列的不同侧的列区域。

其中，作为一种示例，图7中第2列、第4列和第6列即为空白列，在正常的表格中不应当出现空白列，因此，为了表格识别的准确性，需要将空白列区域合并至空白列左右两侧的列中，如图8所示的列区域范围，从而得到更为合理、准确的表格识别结果。

根据本申请实施例的技术方案，通过对目标图片进行表格外框检测和文字区域检测，确定目标图片上表格的行区域范围和列区域范围，初步得到候选表格识别结果，为后续进行有效的表格结构化处理奠定基础；然后基于候选表格识别结果进行特征提取，利用提取的特征确定待合并行和待合并行的合并反向，实现对候选表格识别结果的有效结构化处理，以得到准确的目标表格识别结果，解决了现有表格识别方案中识别结果不准确的问题，提高了表格识别的准确性。

图9是根据本申请实施例公开的一种表格识别装置的结构示意图，本申请实施例可以适用于对表格图片进行识别，得到表格图片上的表格的情况，尤其是对表格图片上的无线表格进行识别的情况。本申请实施例公开装置可以采用软件和/或硬件的方式实现，并可集成在任意的具有计算能力的电子设备上，例如服务器或者终端等。

如图9所示，本申请实施例公开的表格识别装置400可以包括候选结果确定模块401、待合并行确定模块402、合并方向确定模块403和目标结果确定模块404，其中：

候选结果确定模块401，用于对目标图片上的表格进行检测，得到候选表格识别结果；

待合并行确定模块402，用于提取候选表格识别结果的合并特征，并利用合并特征确定候选表格识别结果中的待合并行；

合并方向确定模块403，用于提取待合并行的方向特征，并利用方向特征确定待合并行的合并方向；

目标结果确定模块404，用于依据待合并行和待合并行的合并方向，对候选表格识别结果进行调整，得到目标表格识别结果。

可选的，待合并行确定模块402包括：

合并特征提取单元，用于提取候选表格识别结果的合并特征；

待合并行确定单元，用于利用预先训练的单元格合并分类模型和合并特征，确定候选表格识别结果中的待合并行。

可选的，合并方向确定模块403包括：

方向特征提取单元，用于提取待合并行的方向特征；

合并方向确定单元，用于利用预先训练的单元格合并方向确定模型和方向特征，确定待合并行的合并方向；其中，合并方向包括向下行合并和向上行合并。

可选的，合并特征包括以下至少之一：候选表格识别结果中每行的有效列数与候选表格识别结果中最大有效列数的差异，候选表格识别结果中的每行与候选表格识别结果中表头的相对位置关系，候选表格识别结果中每行的文字区域是否包括预设分隔符号，以及候选表格识别结果中每行的文字区域是否包括数值类型数据；

方向特征包括以下至少之一：待合并行是否包括侧表头，待合并行是否只包括侧表头，待合并行的文字区域是否包括数值类型数据，待合并行距离与之相邻的上一行下边框的距离和距离与之相邻的下一行上边框的距离之比，待合并行中文字区域和上一行中文字区域之间的宽度差异，以及待合并行中文字区域和下一行中文字区域之间的宽度差异；

其中，表头是指候选表格识别结果中，根据位置信息确定的对应有效列数最大的行中首个单元格。

可选的，本申请实施例公开的装置还包括：

样本标记模块，用于获取预设数量的样本表格，并标记样本表格中的待合并行以及该待合并行的合并方向；

样本特征提取模块，用于提取样本表格中用于确定待合并行的样本合并特征，以及提取样本表格中用于确定待合并行的合并方向的样本方向特征；

第一训练模块，用于利用标记的待合并行和样本合并特征，训练得到单元格合并分类模型；

第二训练模块，用于利用标记的待合并行的合并方向和样本方向特征，训练得到单元格合并方向确定模型。

可选的，候选结果确定模块401包括：

外框和文字检测单元，用于检测目标图片上的表格外框和目标图片上的文字区域；

候选结果确定单元，用于根据表格外框和文字区域，对目标图片上的表格进行网格划分，得到候选表格识别结果。

可选的，候选结果确定单元包括：

行区域确定子单元，用于根据表格外框和文字区域的位置信息，确定目标图片上的表格中每行的区域范围；

目标行确定子单元，用于根据目标图片上每行对应的文字区域的数量，确定目标行；

列区域确定子单元，用于根据目标行的行长度和目标图片上的表格行方向上的文字区域，确定目标图片上的表格中每列的区域范围；

网格划分子单元，用于根据每行的区域范围和每列的区域范围，对目标图片上的表格进行网格划分，得到候选表格识别结果。

可选的，列区域确定子单元包括：

候选区域确定子单元，用于根据目标行的行长度和目标图片上的表格行方向上的文字区域，确定目标图片上的表格中每列的候选区域范围；

空白列检测子单元，用于根据每列的候选区域范围，检测不包括文字区域的空白列；

目标区域确定子单元，用于将空白列的候选区域范围合并至两列目标区域中，得到目标图片上的表格中每列的目标区域范围；其中，两列目标区域是指与空白列相邻且分别位于空白列的不同侧的列区域。

可选的，外框和文字检测单元包括：

表格外框检测子单元，用于检测目标图片上的表格外框；

文字区域检测子单元，用于检测目标图片上的文字区域；

其中，表格外框检测子单元具体用于：

利用预设神经网络模型，检测目标图片上的表格外框；其中，预设神经网络模型通过在Yolov3网络结构上添加预设数量的卷积层实现。

可选的，候选结果确定模块401还包括：

表名检测单元，用于检测目标图片上表格的表名；

外框调整单元，用于在外框和文字检测单元检测到目标图片上的表格外框之后，根据表名的位置信息，对表格外框进行调整。

本申请实施例所公开的表格识别装置400可执行本申请实施例所公开的任一表格识别方法，具备执行方法相应的功能模块和有益效果。本申请装置实施例中未详尽描述的内容可以参考本申请任意方法实施例中的描述。

根据本申请的实施例，本申请实施例还提供了一种电子设备和一种可读存储介质。

如图10所示，图10是用于实现本申请实施例中表格识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请实施例的实现。

如图10所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface，GUI)的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作，例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统。图10中以一个处理器501为例。

存储器502即为本申请实施例所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请实施例所提供的表格识别方法。本申请实施例的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请实施例所提供的表格识别方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中表格识别方法对应的程序指令/模块，例如，附图9所示的候选结果确定模块401、待合并行确定模块402、合并方向确定模块403和目标结果确定模块404。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例中的表格识别方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至用于实现本实施例中表格识别方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用于实现本申请实施例中表格识别方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图10中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与用于实现本实施例中表格识别方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置和触觉反馈装置等，其中，辅助照明装置例如发光二极管(Light Emitting Diode，LED)；触觉反馈装置例如，振动电机等。该显示设备可以包括但不限于，液晶显示器(Liquid Crystal Display，LCD)、LED显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(Application Specific Integrated Circuit，ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序，也称作程序、软件、软件应用、或者代码，包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置，例如，磁盘、光盘、存储器、可编程逻辑装置(Programmable Logic Device，PLD)，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置，例如，阴极射线管(Cathode Ray Tube，CRT)或者LCD监视器；以及键盘和指向装置，例如，鼠标或者轨迹球，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈，例如，视觉反馈、听觉反馈、或者触觉反馈；并且可以用任何形式，包括声输入、语音输入或者、触觉输入，来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统，例如，作为数据服务器，或者实施在包括中间件部件的计算系统，例如，应用服务器，或者实施在包括前端部件的计算系统，例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互，或者实施在包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信，例如通信网络，来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)、和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种表格识别方法，包括：

对目标图片上的表格进行检测，得到候选表格识别结果；

提取所述候选表格识别结果的合并特征，并利用所述合并特征确定所述候选表格识别结果中的待合并行；

提取所述待合并行的方向特征，并利用所述方向特征确定所述待合并行的合并方向；

依据所述待合并行和所述待合并行的合并方向，对所述候选表格识别结果进行调整，得到目标表格识别结果。

2.根据权利要求1所述的方法，其中，利用所述合并特征确定所述候选表格识别结果中的待合并行，包括：

利用预先训练的单元格合并分类模型和所述合并特征，确定所述候选表格识别结果中的待合并行。

3.根据权利要求1所述的方法，其中，利用所述方向特征确定所述待合并行的合并方向，包括：

利用预先训练的单元格合并方向确定模型和所述方向特征，确定所述待合并行的合并方向；其中，所述合并方向包括向下行合并和向上行合并。

4.根据权利要求1-3中任一所述的方法，其中：

所述合并特征包括以下至少之一：所述候选表格识别结果中每行的有效列数与所述候选表格识别结果中最大有效列数的差异，所述候选表格识别结果中的每行与所述候选表格识别结果中表头的相对位置关系，所述候选表格识别结果中每行的文字区域是否包括预设分隔符号，以及所述候选表格识别结果中每行的文字区域是否包括数值类型数据；

所述方向特征包括以下至少之一：所述待合并行是否包括侧表头，所述待合并行是否只包括侧表头，所述待合并行的文字区域是否包括数值类型数据，所述待合并行距离与之相邻的上一行下边框的距离和距离与之相邻的下一行上边框的距离之比，所述待合并行中文字区域和所述上一行中文字区域之间的宽度差异，以及所述待合并行中文字区域和所述下一行中文字区域之间的宽度差异；

其中，所述表头是指所述候选表格识别结果中，根据位置信息确定的对应有效列数最大的行中首个单元格。

5.根据权利要求1所述的方法，其中，所述对目标图片上的表格进行检测，得到候选表格识别结果，包括：

检测所述目标图片上的表格外框和所述目标图片上的文字区域；

根据所述表格外框和所述文字区域，对所述目标图片上的表格进行网格划分，得到候选表格识别结果。

6.根据权利要求5所述的方法，其中，根据所述表格外框和所述文字区域，对所述目标图片上的表格进行网格划分，得到候选表格识别结果，包括：

根据所述表格外框和所述文字区域的位置信息，确定所述目标图片上的表格中每行的区域范围；

根据所述目标图片上每行对应的文字区域的数量，确定目标行；

根据所述目标行的行长度和所述目标图片上的表格行方向上的文字区域，确定所述目标图片上的表格中每列的区域范围；

根据所述每行的区域范围和所述每列的区域范围，对所述目标图片上的表格进行网格划分，得到候选表格识别结果。

7.根据权利要求6所述的方法，其中，根据所述目标行的行长度和所述目标图片上的表格行方向上的文字区域，确定所述目标图片上的表格中每列的区域范围，包括：

根据所述目标行的行长度和所述目标图片上的表格行方向上的文字区域，确定所述目标图片上的表格中每列的候选区域范围；

根据所述每列的候选区域范围，检测不包括文字区域的空白列；

将所述空白列的候选区域范围合并至两列目标区域中，得到所述目标图片上的表格中每列的目标区域范围；其中，所述两列目标区域是指与所述空白列相邻且分别位于所述空白列的不同侧的列区域。

8.根据权利要求5所述的方法，其中，所述检测目标图片上的表格外框，包括：

利用预设神经网络模型，检测所述目标图片上的表格外框；其中，所述预设神经网络模型通过在Yolov3网络结构上添加预设数量的卷积层实现。

9.根据权利要求5所述的方法，其中，在所述检测目标图片上的表格外框的过程中，所述方法还包括：

检测所述目标图片上表格的表名；

相应的，在检测到所述目标图片上的表格外框之后，所述方法还包括：根据所述表名的位置信息，对所述表格外框进行调整。

10.一种表格识别装置，包括：

待合并行确定模块，用于提取所述候选表格识别结果的合并特征，并利用所述合并特征确定所述候选表格识别结果中的待合并行；

合并方向确定模块，用于提取所述待合并行的方向特征，并利用所述方向特征确定所述待合并行的合并方向；

目标结果确定模块，用于依据所述待合并行和所述待合并行的合并方向，对所述候选表格识别结果进行调整，得到目标表格识别结果。

11.根据权利要求10所述的装置，其中，所述待合并行确定模块包括：

合并特征提取单元，用于提取所述候选表格识别结果的合并特征；

待合并行确定单元，用于利用预先训练的单元格合并分类模型和所述合并特征，确定所述候选表格识别结果中的待合并行。

12.根据权利要求10所述的装置，其中，所述合并方向确定模块包括：

方向特征提取单元，用于提取所述待合并行的方向特征；

合并方向确定单元，用于利用预先训练的单元格合并方向确定模型和所述方向特征，确定所述待合并行的合并方向；其中，所述合并方向包括向下行合并和向上行合并。

13.根据权利要求10-12中任一所述的装置，其中：

14.根据权利要求10所述的装置，其中，所述候选结果确定模块包括：

外框和文字检测单元，用于检测所述目标图片上的表格外框和所述目标图片上的文字区域；

候选结果确定单元，用于根据所述表格外框和所述文字区域，对所述目标图片上的表格进行网格划分，得到候选表格识别结果。

15.根据权利要求14所述的装置，其中，所述候选结果确定单元包括：

行区域确定子单元，用于根据所述表格外框和所述文字区域的位置信息，确定所述目标图片上的表格中每行的区域范围；

目标行确定子单元，用于根据所述目标图片上每行对应的文字区域的数量，确定目标行；

列区域确定子单元，用于根据所述目标行的行长度和所述目标图片上的表格行方向上的文字区域，确定所述目标图片上的表格中每列的区域范围；

网格划分子单元，用于根据所述每行的区域范围和所述每列的区域范围，对所述目标图片上的表格进行网格划分，得到候选表格识别结果。

16.根据权利要求15所述的装置，其中，所述列区域确定子单元包括：

候选区域确定子单元，用于根据所述目标行的行长度和所述目标图片上的表格行方向上的文字区域，确定所述目标图片上的表格中每列的候选区域范围；

空白列检测子单元，用于根据所述每列的候选区域范围，检测不包括文字区域的空白列；

目标区域确定子单元，用于将所述空白列的候选区域范围合并至两列目标区域中，得到所述目标图片上的表格中每列的目标区域范围；其中，所述两列目标区域是指与所述空白列相邻且分别位于所述空白列的不同侧的列区域。

17.根据权利要求14所述的装置，其中，所述外框和文字检测单元包括：

表格外框检测子单元，用于检测所述目标图片上的表格外框；

文字区域检测子单元，用于检测所述目标图片上的文字区域；

其中，所述表格外框检测子单元具体用于：

18.根据权利要求14所述的装置，其中，所述候选结果确定模块还包括：

表名检测单元，用于检测所述目标图片上表格的表名；

外框调整单元，用于在所述外框和文字检测单元检测到所述目标图片上的表格外框之后，根据所述表名的位置信息，对所述表格外框进行调整。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的表格识别方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的表格识别方法。