CN115273112A

CN115273112A - 表格识别方法、装置、电子设备及可读存储介质

Info

Publication number: CN115273112A
Application number: CN202210904127.0A
Authority: CN
Inventors: 张鹏远; 李长亮
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-11-01

Abstract

本发明实施例提供了一种表格识别方法、装置、电子设备及可读存储介质，应用于计算机视觉领域，该方法包括：从目标图像中，分割表格区域，得到表格图像；利用预先训练完成的表格识别模型，识别表格图像中的表格结构以及单元格的位置信息；其中，表格识别模型包括用于提取所述表格图像的图像特征的编码层，以及用于生成表格结构的解码层；解码层的输入为：编码层的输入内容及编码层的输出内容；识别表格图像的文本区域以及文本区域中的文本内容；基于单元格的位置信息、表格结构、文本区域以及文本区域中的文本内容，生成电子表格文件。通过本方案，可以提高表格识别的准确度。

Description

表格识别方法、装置、电子设备及可读存储介质

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种表格识别方法、装置、电子设备及可读存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是指以工程化(即设计并制造)的系统感知环境的能力，以及获取、处理、应用和表示知识的能力。表格识别是人工智能的图像分析与识别领域的一个重要分支，其目标是获取和访问数据及其它有效信息。

具体而言，表格识别技术是指将带有表格的图像，经过一定的图像处理策略，将图像中的表格重建为电子表格，例如，Excel格式的表格。

但是，表格的样式复杂多样，不同的表格具有不同的行列结构，不同的文字类型，不同的背景填充等，且带有表格的图像在采集时所处的光照环境，以及图像中表格的纹理等都有较大的差异，以上问题导致表格识别一直是识别难题。

因此，如何提升表格识别的准确性，是亟待解决的问题。

发明内容

本发明实施例的目的在于提供一种表格识别方法、装置、电子设备及可读存储介质，以提升表格识别的准确性。具体技术方案如下：

第一方面，本发明实施例提供了一种表格识别方法，所述方法包括：

从目标图像中，分割表格区域，得到表格图像；

利用预先训练完成的表格识别模型，识别所述表格图像中的表格结构以及单元格的位置信息；其中，所述表格识别模型包括用于提取所述表格图像的图像特征的编码层，以及用于生成所述表格结构的解码层；所述解码层的输入为：所述编码层的输入内容及所述编码层的输出内容；

识别所述表格图像的文本区域以及所述文本区域中的文本内容；

基于所述单元格的位置信息、所述表格结构、所述文本区域以及所述文本区域中的文本内容，生成电子表格文件。

可选地，所述解码层包括第一网络层，以及位于所述第一网络层之后且并列的第二网络层和第三网络层；所述第一网络层包括一个自注意力机制transformer层；所述第二网络层用于对所述表格图像中的单元格的位置进行识别，且包括两个十字形窗口自注意力机制cswin transformer层；所述第三网络层用于对所述表格图像中的表格结构进行预测，且包括一个自注意力机制transformer层。

可选地于，所述表格结构为利用超文本语言进行表征的结构。

可选地，所述从所述目标图像中，分割表格区域，得到表格图像，包括：

利用预先训练完成的图像特征提取网络提取所述目标图像的图像特征；

基于所述目标图像的图像特征，识别所述目标图像中的表格的候选位置，得到针对所述表格的候选位置的识别结果；

利用非极大值抑制算法，去除所述识别结果中重叠的结果，得到所述表格的目标位置；

从所述目标图像中，提取所述表格的目标位置处的图像区域，得到表格图像。

可选地，所述识别所述表格图像的文本区域以及所述文本区域中的文本内容，包括：

利用预先训练完成的文本区域识别网络，以及预先提取的文字区域特征图，识别所述表格图像中的文本区域；其中，所述文本区域识别网络为可微二值化网络DBNet；所述文字区域特征图为经过卷积块注意力模块处理后的特征图；

对所述文本区域进行文本识别，得到所述文本区域中的文本内容。

可选地，所述对所述文本区域进行文本识别，得到所述文本区域中的文本内容，包括：

利用预先训练完成的文本识别网络识别所述文本区域的文本内容；其中，所述文本识别网络为利用指定综合损失训练得到的网络；其中，所述指定综合损失为基于神经网络的时序类分类损失和聚合交叉熵损失进行融合后所得到的综合损失。

可选地，所述基于所述单元格的位置信息、所述表格结构、所述文本区域以及所述文本区域中的文本内容，生成电子表格文件，包括：

基于所述单元格的位置信息、所述表格结构，以及所述文本区域，确定每一所述文本区域中的文本内容所对应的表格结构中的位置；

将每一所述文本区域中的文本内容填入对应的结构序列的位置中，生成利用超文本语言进行表征的表格。

可选地，所述方法还包括：

当接收到针对所述目标图像的视觉问答指令时，获取所述视觉问答指令中的目标问题；

确定所述目标问题对应的答案内容。

可选地，所述确定所述目标问题对应的答案内容，包括：

将所述目标图像的图像特征、所述单元格的位置信息、所述文本区域、所述文本区域中的文本内容，以及所述目标问题输入预先训练完成的视觉问答模型，生成所述目标问题对应的答案内容；其中，所述视觉问答模型为利用样本表格图像、所述样本表格图像中的每一文本区域、所述样本表格图像的文本内容、所述样本表格图像的图像特征，输入的问题以及对应的答案内容的真值，训练得到的BERT预训练模型。

第二方面，本发明实施例提供了一种表格识别装置，所述装置包括：

分割模块，用于从目标图像中，分割表格区域，得到表格图像；

第一识别模块，用于利用预先训练完成的表格识别模型，识别所述表格图像中的表格结构以及单元格的位置信息；其中，所述表格识别模型包括用于提取所述表格图像的图像特征的编码层，以及用于生成所述表格结构的解码层；所述解码层的输入为：所述编码层的输入内容及所述编码层的输出内容；

第二识别模块，用于识别所述表格图像的文本区域以及所述文本区域中的文本内容；

生成模块，用于基于所述单元格的位置信息、所述表格结构、所述文本区域以及所述文本区域中的文本内容，生成电子表格文件。

可选地，所述表格结构为利用超文本语言进行表征的结构。

可选地，所述分割模块，包括：

第一提取子模块，用于利用预先训练完成的图像特征提取网络提取所述目标图像的图像特征；

第一识别子模块，用于基于所述目标图像的图像特征，识别所述目标图像中的表格的候选位置，得到针对所述表格的候选位置的识别结果；

去除子模块，用于利用非极大值抑制算法，去除所述识别结果中重叠的结果，得到所述表格的目标位置；

第二提取子模块，用于从所述目标图像中，提取所述表格的目标位置处的图像区域，得到表格图像。

可选地，所述识别模块，包括：

第二识别子模块，用于利用预先训练完成的文本区域识别网络，以及预先提取的文字区域特征图，识别所述表格图像中的文本区域；其中，所述文本区域识别网络为可微二值化网络DBNet；所述文字区域特征图为经过卷积块注意力模块处理后的特征图；

第三识别子模块，用于对所述文本区域进行文本识别，得到所述文本区域中的文本内容。

可选地，所述第三识别子模块，具体用于：

可选地，所述生成模块，包括：

确定子模块，用于基于所述单元格的位置信息、所述表格结构，以及所述文本区域，确定每一所述文本区域中的文本内容所对应的表格结构中的位置；

生成子模块，用于将每一所述文本区域中的文本内容填入对应的结构序列的位置中，生成利用超文本语言进行表征的表格。

可选地，所述装置还包括：

第二获取模块，用于当接收到针对所述目标图像的视觉问答指令时，获取所述视觉问答指令中的目标问题；

确定模块，用于确定所述目标问题对应的答案内容。

可选地，所述确定模块具体用于：

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述表格识别方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述表格识别方法的步骤。

本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述表格识别方法。

本发明实施例有益效果：

本发明实施例提供的表格识别方法，先从目标图像中，分割表格区域，得到表格图像；利用预先训练完成的表格识别模型，识别表格图像中的表格结构以及单元格的位置信息；并识别表格图像的文本区域以及文本区域中的文本内容；再基于单元格的位置信息、表格结构、文本区域以及文本区域中的文本内容，生成电子表格文件。本方案中，表格结构识别网络的解码层的输入为：编码层的输入及编码层的输出之和，使得解码层能够获得充分的信息，从而提高表格结构识别的准确度，同时，通过分别识别单元格的位置信息、表格结构、文本区域以及文本区域中的文本内容，再生成电子表格文件，从而提高表格识别的准确度。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的实施例。

图1为本发明实施例所提供的表格识别方法的流程图；

图2为本发明实施例中识别表格图像的流程图；

图3为本发明实施例中提供的表格识别模型识别的结构示意图；

图4为本发明实施例中文本区域识别以及文本内容识别的流程图；

图5为本发明实施例所提供的表格识别方法的另一流程图；

图6为本发明实施例所提供的表格识别装置的结构示意图；

图7为本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本发明保护的范围。

目前，由于表格形式的复杂多样，表格既包括现代的：电子表格，也有历史的：扫描、手写的表格，且表格图像在采集时所处光照环境，以及表格图像的纹理等都有比较大的差异，因此，利用人工智能模型进行表格识别存在诸多问题，例如，模型中存在大量的图像卷积层，计算量大，效率不高。基于自注意力机制tranformer的表格识别方法收敛性较差。模型对于表格图像中前景背景颜色相近且前景纹理复杂的特征不敏感，等等。以上问题导致表格识别一直是人工智能的图像分析与识别领域识别难题。

针对以上问题，本发明实施例提供了一种表格识别方法、装置、电子设备及可读存储介质，该方法可以于电子设备中。在具体应用中，该电子设备可以是各种终端设备，例如，计算机，服务器等，本公开对此并不限定。

具体而言，该表格识别方法的执行主体可以为表格识别装置。示例性的，当该表格识别方法应用于终端设备时，该表格识别装置可以为运行于终端设备中的、用于进行表格识别的应用程序。示例性的，当该表格识别方法应用于服务器时，该表格识别装置可以为运行于服务器中的计算机程序，该计算机程序可以用于进行表格的识别。

本发明实施例所提供的一种表格识别方法，可以包括以下步骤：

从目标图像中，分割表格区域，得到表格图像；

下面结合附图对本发明实施例所提供的表格识别方法进行介绍。如图1所示，本发明实施例所提供的表格识别方法可以包括以下步骤：

S101，从目标图像中，分割表格区域，得到表格图像；

其中，目标图像为图像内容包含表格的图像，例如，包含excel表格的图像等。并且，目标图像的获取方式可以有多种，例如，接收图像采集设备发送的图像作为目标图像；或者，从本地存储的图像中获取包含表格的目标图像，或者，从外部存储设备中获取包含表格的目标图像，等等。

由于目标图像中可能存在非表格的内容，会影响对于目标图像中表格的特征的提取，进而导致表格识别的准确性不高，因此，可以先从目标表格中，识别出表格所在的区域，再分割出表格区域，得到表格图像。其中，表格图像中可以包括表格的单元格线条，以及单元格中的文本内容。

可选的，在一种实现方式中，所述从所述目标图像中，分割表格区域，得到表格图像，可以包括步骤A1-A4：

步骤A1，利用预先训练完成的图像特征提取网络提取所述目标图像的图像特征；

所提取的特征可以为线条特征、颜色特征等。可以理解的是，针对图像特征提取网络进行训练时，可以利用带有表格的图像，作为样本集，并标注出表格的所在位置，即表格在图像中的位置，再对该图像特征提取网络进行有监督训练，得到训练完成的图像特征提取网络。上述标注表格的所在位置的方式可以为：利用表征表格在图像中的坐标信息进行标注，例如：可以利用中心点的坐标，和表格的高、宽的组合，进行表格的位置的标注，当然也可以不局限于此，本发明实施例不做具体限定。

需要说明的是，相关技术中的Mask R-CNN(Mask region-Convolutional NeuralNetworks，掩膜区域卷积神经网络)利用了ResNet(Deep residual network，深度残差网络)、FPN(feature pyramid networks，特征金字塔网络)来提取图像的特征，但针对表格提取特征的效率不高，因此，本实施例中，可以选用efficietnet(一种卷积神经网络)来提取目标图像的图像特征，针对表格的特征提取效率更高，能够减少计算资源的占用；其中，efficietnet是利用模型复合缩放方法(compound scaling method)对卷积神经网络的宽度、深度和输入分辨率进行复合扩展所得到的网络，通过平衡卷积神经网络的宽度、深度和输入分辨率这三个维度，能够实现卷积神经网络在准确率和效率上的优化。

步骤A2，基于所述目标图像的图像特征，识别所述目标图像中的表格的候选位置，得到针对所述表格的候选位置的识别结果；

表格位置可以通过生成识别框的形式来识别，相关技术中的Mask R-CNN是利用全连接层+Softmax(一种分类网络)层的网络结构，基于图像特征，对图像中的对象利用识别框进行框选以及标注分类，但是这种方法应用到对表格的识别时，容易出现漏检的情况。基于此，本发明实施例中可以采用cascade(级联)网络来生成识别框，能够减少漏检的情况。

其中，cascade网络是指级联了多层目标检测模型的网络。目标检测模型是先利用卷积神经网络提取图像的特征，生成候选框，再从候选框中选择出目标识别框；在训练模型时，需要根据各个候选框与真值的IOU(Intersection over Union，重叠度)阈值将候选框分为正样本和负样本；而cascade网络级联了多层目标检测模型的网络，且在cascade网络中IOU阈值逐层增加，例如，在一种实现方式中，cascade网络级联了三层目标检测模型，每一层的IOU阈值分别为0.5、0.6、0.7，这样使得每一个层的检测模型都专注于检测IOU在一范围内的候选框，识别效果相较于单层结构会更好。

由于本发明实施例是针对表格的识别，因此，所生成的识别框可以仅为针对表格的识别框，当然也可以生成框选其他种类的识别框，本发明不做具体限定。在一种实现方式中，该识别框可以用中心点坐标、长度、宽度来表征，其中，框选出表格的识别框可以作为针对该表格的候选位置的识别结果。

此外，还可以同时将图像特征并行输入mask(掩膜)层，这样，利用mask层基于图像特征生成的识别结果会以掩膜图像的形式将目标图像分类成表格以及其他类别，其中，mask层可以为一个训练完成全卷积神经网络，用于基于目标图像的图像特征，识别出目标图像中每一像素的类别，类别分为，表格、其他两类，生成针对表格掩膜图像，该mask层训练方式可以为：利用带有表格的图像，作为样本集，并利用表格的掩膜图像标注出表征表格的像素点的所在位置，对该mask层进行有监督训练，直至收敛，得到训练完成的mask层。其中，掩膜图像是指对待处理图像进行遮挡，将待处理图像区分为处理区域和非处理区域的特定图像。掩膜图像可以只包含两种颜色，示例性的，在本实施例中，掩膜图像中表征表格位置的像素点的像素值可以为255，其他位置的像素值可以为0。

上述图像特征提取网络，以及识别表格的候选位置的网络，在训练时可以联合训练，也就是，在训练时，将图像特征提取网络的输出，作为识别表格的候选位置的网络的输入。示例性的，可以利用带有表格的图像，作为样本集，并标注出表格的所在位置，对这两个网络进行有监督训练，直至收敛，得到训练完成的图像特征提取网络以及识别表格的候选位置的网络。

可见，本发明实施例中，识别表格位置的思路与Mask R-CNN分类图像中的对象的思路一致，即先提取图像特征，再利用图像特征生成识别框及掩膜图像，但本发明实施例中，将特征提取网络改进为efficietnet，提高提取表格特征的效率；将生成识别框的网络改进为cascade网络，相较于相关技术，利用本方案改进的Mask R-CNN识别表格时，能够减少漏检的情况，使得改进后的Mask R-CNN更加适用于表格的识别。

步骤A3，利用非极大值抑制算法，去除所述识别结果中重叠的结果，得到所述表格的目标位置；

由于表格一般以独立的形式出现在图像中，不会出现重叠的情况，而利用识别框识别的表格的方式所生成的结果往往会存在多个重叠的识别框，因此，可以利用非极大值抑制算法去除冗余的识别框，例如，NMS(Non-Maximum Suppression，非极大值抑制)，softNMS，或者，matrix_NMS(矩阵软非极大值抑制)，NMS的思路是对识别框按照置信度，即该识别框为表格识别框的概率，进行排序，选取置信度最大的识别框作为参考识别框，再将与该参考识别框重叠度达到预定阈值的识别框去除。softNMS是利用了线性加权或高斯加权的方式，来处理各个识别框与参考识别框的重叠度，得到各个识别框的评分，再将评分小于预定阈值的识别框去除。matrix_NMS则是用矩阵来表示各个识别框之间的重叠度，从而利用该矩阵进行并行运算，来重新生成各个识别框的置信度，最后将置信度小于预定阈值的识别框去除。本方案中优选matrix_NMS，可以避免了将重叠的识别框过渡删掉的问题，且运算速率更高。将重叠的识别框去除后，得到的识别框可以用于表征表格的目标位置。

在实施过程中，以上步骤A1-A3的过程可以如图2所示，即，将目标图像输入efficientnet，得到图像特征，再将图像特征并行输入cascade网络，以及mask层中，最后利用matrix_NMS算法去除重叠的识别框，输出表征表格位置的mask掩膜图像，以及识别框，识别框的分类，即表格、其他两类。

步骤A4，从所述目标图像中，提取所述表格的目标位置处的图像区域，得到表格图像。

在一种实现方式中，可以将目标图像中，表格的识别框所框选的位置分割出来，即提取表格的识别框所框选范围内的所有像素点，得到表格图像，或者利用表格的掩膜图像，将表征表格的所有像素点从目标图像中分割出来，即根据表格的掩膜图像，确定表征表格的所有像素点，并提取表征表格的所有像素点，得到表格图像。

S102，利用预先训练完成的表格识别模型，识别所述表格图像中的表格结构以及单元格的位置信息；其中，所述表格识别模型包括用于提取所述表格图像的图像特征的编码层，以及用于生成所述表格结构的解码层；所述解码层的输入为：所述编码层的输入内容及所述编码层的输出内容；

将图像输入编码层进行编码，再将编码后的输出输入到解码层解码，是人工智能模型处理图像的手段。本实施例中，利用表格识别模型进行表格结构的识别时，将编码层的输入内容及编码层的输出内容共同输入解码层中，输入时可以将编码层的输入内容及编码层的输出内容线性相加，或拼接，编码层的输入内容及编码层的输出内容有互补效果，使得解码层能够获得充分的信息，从而针对无线表格的结构也有较好的识别效果。

单元格的位置的识别，即识别出表格所在的位置以及大小，可以用向量[x₁,y₁,w₁,h₁]表示，其中x₁、y₁表示单元格的中心点坐标，w₁表示宽度，h₁表示高度。表格结构可以为利用超文本语言进行表征的结构，例如，<table></table>声明表格标签；<tr></tr>声明行；<td></td>声明单元格。且去除标记符中的<tbody>、</tbody>、<tr>、</tr>等表示表格开始、行的标记符，剩余的标记符可以与每一单元格的位置对应。

在一种实现方式中，所述解码层包括第一网络层，以及位于所述第一网络层之后且并列的第二网络层和第三网络层；所述第一网络层包括一个自注意力机制transformer层；所述第二网络层用于对所述表格图像中的单元格的位置进行识别，且包括两个十字形窗口自注意力机制cswin transformer层；所述第三网络层用于对所述表格图像中的表格结构进行预测，且包括一个自注意力机制transformer层。

其中，transformer是一个基于自注意力机制的深度学习模型。相关技术中，利用两层transformer层来对表格图像中的单元格的位置进行识别，计算量大，效率不高，而本实施例中，如图3所示，只使用一层transformer层进行单元格的位置的识别，可以有效减少计算量，且仍对单元格的位置有较好的识别效果，对于识别单元格的位置的transformer层，可以利用标准的交叉熵来调整该transformer层参数，直到该transformer层收敛。此外，相关技术中利用两层transformer层进行表格结构的预测，而本实施例中，利用两层cswin transformer层，能够针对横纵向方向特征进行有效的提取，从而更加适配于表格识别的任务，对于这两层cswin transformer层，可以利用L1(Least Abosulote Error，最小化绝对误差)损失来调整参数。

S103，识别所述表格图像的文本区域以及所述文本区域中的文本内容；

在实施过程中，可以先确定表格图像中文字的所在区域，即文本区域，文本区域可以用向量[x₂,y₂,w₂,h₂]来表示，其中x₂、y₂表示文本区域中心点坐标，w₂表示宽度，h₂表示高度，再识别文本区域中的文本内容。具体的，可以利用预先训练完成的文本区域识别网络进行文本区域的识别，例如，可微二值化网络DBNet；以及利用预先训练完成的文本识别网络对文本区域中的文本内容进行识别，例如，CRNN(Convolutional Recurrent NeuralNetwork，卷积循环神经网络)。

S104，基于所述单元格的位置信息、所述表格结构、所述文本区域以及所述文本区域中的文本内容，生成电子表格文件。

其中，该电子表格文件可以为基于超文本语言所生成的电子表格文件，例如HTML文件，Excel文件等。

在一种实现方式中，所述基于所述单元格的位置信息、所述表格结构、所述文本区域以及所述文本区域中的文本内容，生成电子表格文件，可以包括步骤B1-B2：

步骤B1，基于所述单元格的位置信息、所述表格结构，以及所述文本区域，确定每一所述文本区域中的文本内容所对应的表格结构中的位置；

上述单元格的位置信息表征每一单元格在表格图像中的位置；表格结构表征每一单元格在表格中的行列分布；文本区域表征文本内容在表格图像中的位置。在实际应用过程中，单元格的位置信息可以用向量[x₁,y₁,w₁,h₁]表示，其中x₁、y₁表示单元格的中心点坐标，w₁表示宽度，h₁表示高度；表格结构可以利用超文本语言进行表征，也就是说每一单元格对应有相应的超文本语言的标记符；文本区域也可以用向量[x₂,y₂,w₂,h₂]来表示，其中x₂、y₂表示文本区域中心点坐标，w₂表示宽度，h₂表示高度。因此，可以先根据文本区域和单元格的位置信息，将单元格的位置信息和文本区域进行匹配，从而进一步地，确定每一文本区域中的文本内容所要填入的单元格，也就是所要填入的超文本语言中的位置。

步骤B2，将每一所述文本区域中的文本内容填入对应的结构序列的位置中，生成利用超文本语言进行表征的表格。

当确定每一文本区域中的文本内容所要填入的超文本语言中的位置后，将文本区域的文字内容，对应填入超文本语言中，就可以获得带有文本内容的超文本语言。例如，第一行第一列的单元格1的位置信息与文本区域1相匹配，第一行第二列的单元格2的位置信息与文本区域2相匹配，文本区域1中的文本内容为“姓名”，文本区域2中的文本内容为“年龄”，则可以生成超文本语言：

在此之后的超文本语言的生成方式可以以此类推。若该超文本语言为HTML(HyperText Markup Language，超文本标记语言)时，当生成所有单元格对应的超文本语言后，就可以直接生成HTML格式的电子表格文件。

其中，匹配单元格的位置信息和文本区域的方式可以基于以下三个规则：1、中心点规则，如果一文本区域的中心点在一单元格的位置信息所表征的单元格范围内，则认为单元格的位置信息和文本区域相匹配；2、IOU(Intersection over Union，重叠度)规则，在第一点不满足的情况下，可以计算和文本区域重叠度最高的单元格作为该文字区域的匹配项；3、距离原则，如果以上两点都不满足，则计算每一单元格和文字区域的距离，选取距离最小的单元格该作为该文字区域的匹配项。

可选地，在另一实施例中，所述识别所述表格图像的文本区域以及所述文本区域中的文本内容，可以包括步骤C1-C2：

步骤C1，利用预先训练完成的文本区域识别网络，以及预先提取的文字区域特征图，识别所述表格图像中的文本区域；其中，所述文本区域识别网络为可微二值化网络DBNet；所述文字区域特征图为经过卷积块注意力模块处理后的特征图；

DBNet一般利用FPN(Feature Pyramid Networks，特征金字塔网络)结构提取并处理特征图，即，先提取原始特征图，再将原始特征图转化为四张大小分别为原特征图的1/4，1/8，1/16，1/32的子特征图，再将这四张子特征图分别上采样至原特征图的1/4大小，然后将四个1/4大小的特征图concat(拼接)；最后利用concat后的特征图，识别出图像中的文字区域。本实施例中，如图4所示，本发明实施例的技术方案，基于DBnet的结构，在concat后，加入了CBAM(Convolutional Block Attention Module，卷积注意模块)结构，即，先利用DBNet中的FPN结构提取并处理表格图像的特征图，再输入CBAM中，得到文字区域特征图。本实施例中，利用了CBAM的注意力机制，可以有效地提取背景比较复杂，影响到前景的情况，或前景特征不明显的情况下的文字特征。

步骤C2，对所述文本区域进行文本识别，得到所述文本区域中的文本内容。

在一种实现方式中，该步骤可以包括：

利用预先训练完成的文本识别网络识别所述文本区域的文本内容；

该文本识别网络可以利用损失函数训练得到的，即利用损失函数确定该文本识别网络是否收敛，若不收敛，则不断调整该文本识别网络的参数，直至该文本识别网络收敛。

示例性的，在一种实现方式中，所述文本识别网络可以为利用指定综合损失训练得到的网络；其中，所述指定综合损失为基于神经网络的时序类分类损失和聚合交叉熵损失进行融合后所得到的综合损失。

在一种实现方式中，该指定综合损失可以为：

L_A-CTC＝L_CTC+λ*L_ACE；

其中，L_A-CTC为指定综合损失，λ为预设参数，L_CTC为基于神经网络的时序类分类损失，L_ACE为聚合交叉熵损失。

其中，该文本识别网络可以为CRNN(Convolutional Recurrent Neural Network，卷积循环神经网络)。相关技术中，利用CRNN进行文字识别时，利用了基于神经网络的时序类分类损失CTC Loss(基于神经网络的时序类分类损失)去除输出的文字内容中错误的间隔字符、和重复字符，但CTC Loss只能够处理平整不弯曲的文字内容，无法处理弯曲文本、艺术字等形式的文字内容，而ACE Loss(聚合交叉熵损失)能够有效处理弯曲文本、艺术字等形式的文字内容的识别问题，因此，本发明实施例中，将时序类分类损失和聚合交叉熵损失进行融合，即利用CTC Loss+ACE Loss联合训练的方式，从而使得该文本识别网络具备处理多种类型的文本的能力。

本实施例中，利用预先训练完成的文本区域识别网络，以及预先提取的文字区域特征图，识别表格图像中的文本区域；其中，所述文本区域识别网络为可微二值化网络DBNet；所述文字区域特征图为经过卷积块注意力模块处理后的特征图；再对文本区域进行文本识别，得到文本区域中的文本内容，通过结合卷积块注意力模块的注意力机制可以有效地识别背景比较复杂，影响到前景的情况，或前景特征不明显的情况下的文字。

可选地，在另一实施例中，所述方法还包括步骤D1-D2：

步骤D1，当接收到针对所述目标图像的视觉问答指令时，获取所述视觉问答指令中的目标问题；

本发明实施例中，可以为该目标图像增加视觉问答的功能。在一种实现方式中，使用者可以在指定的对话框中输入目标问题，从而生成该视觉问答指令。此外，该视觉问答指令也可以是针对电子表格文件的，即，用同样的方法为输出的电子表格文件增加视觉问答功能，也是合理的。

步骤D2，确定所述目标问题对应的答案内容。

表格的内容中可能记录了多种统计数据，想要获取表格中的一项数值时，通常需要人工查找，或者通过关键字搜索，当表格中并未直接记录该项数值时，还需要根据多个单元格中数据来计算该数值。例如，在一份记录历届运动会得奖名单的表格中，想要知道“哪位运动员夺冠次数最多？”时，则需要人工查找相关单元格，并统计相关单元格的数量以及比较大小，才能得到答案。因此，如果当接收到针对目标图像或电子表格文件的问答指令时，能够自动获得问题的答案内容，就可以大大提高表格的查询效率。

相关技术中，利用BERT(Bidirectional Encoder Representation fromTransformers，一种预训练的语言表征模型)来实现表格的问答功能。预训练是指，先利用大量样本集针对一个学习任务来训练模型，不断调整模型的参数，之后，将所得到的参数用于下一个学习任务中，在这个阶段，主要对参数进行微调，而不再需要大量样本来训练模型，能够大大提高模型的训练效率。

在一种实现方式中，所述确定所述目标问题对应的答案内容，可以包括：

将所述目标图像的图像特征、所述单元格的位置信息、所述文本区域中的文本内容及所述目标问题输入预先训练完成的视觉问答模型，生成所述目标问题对应的答案内容；其中，所述视觉问答模型为利用样本表格图像、所述样本表格图像中的每一文本区域、所述样本表格图像的文本内容、所述样本表格图像的图像特征，输入的问题以及对应的答案内容的真值，训练得到的BERT预训练模型。

相关技术中，针对表格问答的实现，BERT模型的预训练的方式是，先使用大量的表格样本来训练BERT模型，在预训练过程中，BERT模型的学习目标是恢复表格中被掩码替换的文字；在微调过程中，则将样本表格和预先准备的样本问题作为BERT模型的输入，将样本问题的答案作为真值，微调BERT模型的参数，直到该BERT模型收敛，得到训练完成的BERT模型。

相关技术中，BERT模型针对表格问答的问题的学习，只利用了文本内容作为embeding(嵌入向量，即BERT模型的输入)，本发明实施例中，还在embeding端增加了每一文本区域的信息和该文本区域的图像特征，其中，文本区域可以用向量(x,y,w,h)来表示，其中，x、y表示文本区域中心点坐标，w表示宽度，h表示高度。

得益于文本内容、图像特征、文本区域的深度融合，能够加深BERT模型对表格的理解，从而提高确定目标问题对应答案内容的准确性。

具体地，在一种实现方式中，本发明的BERT模型的预训练方式可以使用LayoutLMV2.0(一种多模态文档理解预训练模型)的预训练方式，即，在预训练阶段准备多对表格图像及标注好的文本区域和文本内容，并采用了3个自监督预训练任务：

1.遮盖文本内容中的文字和表格图像中的对应区域，要求模型根据还原文本内容中被遮盖的文字。

2.在表格图像上按行遮盖一部分文本，利用模型预测每个词是否被覆盖。

3.在样本集中，将一部分原本相匹配的图像、文本进行打乱，构造成图文失配的负样本，利用模型预测图文是否匹配。

微调过程将多个样本的文本内容、每一文本区域(x,y,w,h)、图像特征和预先准备的问题作为BERT模型的输入，将问题的答案内容作为真值，微调BERT模型的参数，直到该BERT模型收敛，得到训练完成的BERT模型。

在实际应用中，可以将目标图像的图像特征、单元格的位置信息、文本区域、文本区域中的文本内容输入预先训练完成的视觉问答模型中，从而为该目标图像增加视觉问答功能，之后当接收到针对目标图像的视觉问答指令时，就可以生成目标问题对应的答案。

本实施例中，当接收到针对所述电子表格文件的视觉问答指令时，获取该视觉问答指令中的目标问题；确定该目标问题对应的答案内容。可见，本实施例中，当接收到针对电子表格文件的问答指令时，能够自动获得问题的答案内容，可以大大提高表格的查询效率。

为了方便理解本发明所提供的表格方法，下面对该方法的具体应用进行示例性介绍。

如图5所示，当获取到目标图像后，先对目标图像进行表格定位，即，从该目标图像中，分割表格区域，得到表格图像；再进行表格结构解析，即，识别表格图像中的表格结构以及单元格的位置信息；同时进行文本识别，即，识别表格图像的文本区域以及文本区域中的文本内容；最后将表格结构与文本区域合并，即，将每一文本区域中的文本内容填入对应的结构序列的位置中，输出电子表格文件；同时还可以将目标图像的图像特征、单元格的位置信息、文本区域中的文本内容及所述目标问题输入预先训练完成的视觉问答模型中，从而为该目标图像增加视觉问答功能。

本实施例中，通过分别识别单元格的位置信息、表格结构、文本区域以及文本区域中的文本内容，再生成电子表格文件，从而提高表格识别的准确度；此外，还为该目标图像增加视觉问答功能，可以大大提高表格的查询效率。

本发明实施例还提供了一种表格识别装置，如图6所示，该装置包括：

分割模块610，用于从目标图像中，分割表格区域，得到表格图像；

第一识别模块620，用于利用预先训练完成的表格识别模型，识别所述表格图像中的表格结构以及单元格的位置信息；其中，所述表格识别模型包括用于提取所述表格图像的图像特征的编码层，以及用于生成所述表格结构的解码层；所述解码层的输入为：所述编码层的输入内容及所述编码层的输出内容；

第二识别模块630，用于识别所述表格图像的文本区域以及所述文本区域中的文本内容；

生成模块640，用于基于所述单元格的位置信息、所述表格结构、所述文本区域以及所述文本区域中的文本内容，生成电子表格文件。

可选地，所述表格结构为利用超文本语言进行表征的结构。

可选地，所述分割模块，包括：

可选地，所述识别模块，包括：

可选地，所述第三识别子模块，具体用于：

可选地，所述生成模块，包括：

可选地，所述装置还包括：

确定模块，用于确定所述目标问题对应的答案内容。

可选地，所述确定模块，具体用于：

本发明实施例还提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现上述表格识别方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述上述表格识别方法的步骤方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中上述表格识别方法的步骤方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种表格识别方法，其特征在于，所述方法包括：

从目标图像中，分割表格区域，得到表格图像；

2.根据权利要求1所述的方法，其特征在于，所述解码层包括第一网络层，以及位于所述第一网络层之后且并列的第二网络层和第三网络层；所述第一网络层包括一个自注意力机制transformer层；所述第二网络层用于对所述表格图像中的单元格的位置进行识别，且包括两个十字形窗口自注意力机制cswin transformer层；所述第三网络层用于对所述表格图像中的表格结构进行预测，且包括一个自注意力机制transformer层。

3.根据权利要求1所述的方法，其特征在于，所述表格结构为利用超文本语言进行表征的结构。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述从所述目标图像中，分割表格区域，得到表格图像，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述识别所述表格图像的文本区域以及所述文本区域中的文本内容，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述文本区域进行文本识别，得到所述文本区域中的文本内容，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述基于所述单元格的位置信息、所述表格结构、所述文本区域以及所述文本区域中的文本内容，生成电子表格文件，包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述目标问题对应的答案内容。

9.根据权利要求8所述的方法，其特征在于，所述确定所述目标问题对应的答案内容，包括：

10.一种表格识别装置，其特征在于，所述装置包括：

11.根据权利要求10所述的装置，其特征在于，所述解码层包括第一网络层，以及位于所述第一网络层之后且并列的第二网络层和第三网络层；所述第一网络层包括一个自注意力机制transformer层；所述第二网络层用于对所述表格图像中的单元格的位置进行识别，且包括两个十字形窗口自注意力机制cswin transformer层；所述第三网络层用于对所述表格图像中的表格结构进行预测，且包括一个自注意力机制transformer层。

12.根据权利要求11所述的装置，其特征在于，所述表格结构为利用超文本语言进行表征的结构。

13.根据权利要求10-12任一项所述的装置，其特征在于，所述分割模块，包括：

14.根据权利要求10-13任一项所述的装置，其特征在于，所述识别模块，包括：

15.根据权利要求14所述的装置，其特征在于，所述第三识别子模块，具体用于：

16.根据权利要求10-15任一项所述的装置，其特征在于，所述生成模块，包括：

17.根据权利要求10所述的装置，其特征在于，所述装置还包括：

确定模块，用于确定所述目标问题对应的答案内容。

18.根据权利要求17所述的装置，其特征在于，所述确定模块具体用于：

19.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-9任一所述的方法步骤。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-9任一所述的方法步骤。