CN111368744B

CN111368744B - 图片中非结构化表格识别方法及装置

Info

Publication number: CN111368744B
Application number: CN202010149377.9A
Authority: CN
Inventors: 许明; 钟华; 李兆佳
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2023-06-27
Anticipated expiration: 2040-03-05
Also published as: CN111368744A

Abstract

本申请实施例提供一种图片中非结构化表格识别方法及装置，方法包括：对目标图片中的非结构化表格区域进行定位，得到该非结构化表格区域的位置信息；基于所述位置信息对所述非结构化表格区域内的各个文本块进行提取，并根据提取得到的各个文本块补齐所述非结构化表格区域的表格线；应用预设的文字识别模型对补齐表格线后的非结构化表格区域进行文字识别，得到该非结构化表格区域对应的非结构化表格。本申请无需使用深层的网络进行长时间训练，就有效能提高非结构化表格识别结果的准确率，进而能够准确、简单且快速地向用户输出或展示非结构化表格，以有效提高用户读取非结构化表格中数据的准确性和便捷性，提高用户体验。

Description

图片中非结构化表格识别方法及装置

技术领域

本申请涉及图片识别技术领域，具体涉及图片中非结构化表格识别方法及装置。

背景技术

目前，在计算机视觉领域中，对图片中的内容进行识别的研究已经取得了不错的效果。现在已经开始针对图片中存在表格的情况，对表格中的内容进行识别。现阶段，对表格图片进行识别主要分为两步：对表格区域进行定位和对表格区域进行识别。定位常用的技术手段有：连通域提取等传统图像处理技术以及R-CNN(Region-CNN)、faster-R-CNN等深度神经网络训练得到的定位模型进行定位。文字识别技术则常用到Tesseract、C-RNN等。

但现在针对非结构化表格图片进行识别依然没有较好的技术手段达到成功的准确率。非结构化表格是指文字相对对齐，且缺少甚至没有表格线的一系列文本块区域(如三线表)。这类图片尽管可以将其视为段落文本进行整文识别，但识别结果没有任何相关性，而表格内容通常是高度相关的，这就导致无法获取相对行列位置区域的某个文本块。

因此，对于非结构化表格图片的识别中识别结果格式混乱但内容逻辑相关的情况，目前还没有一种高效的图像处理方法。

发明内容

针对现有技术中的问题，本申请提供一种图片中非结构化表格识别方法及装置，无需使用深层的网络进行长时间训练，就有效能提高非结构化表格识别结果的准确率，进而能够准确、简单且快速地向用户输出或展示非结构化表格，以有效提高用户读取非结构化表格中数据的准确性和便捷性，提高用户体验。

为解决上述技术问题，本申请提供以下技术方案：

第一方面，本申请提供一种图片中非结构化表格识别方法，包括：

对目标图片中的非结构化表格区域进行定位，得到该非结构化表格区域的位置信息；

基于所述位置信息对所述非结构化表格区域内的各个文本块进行提取，并根据提取得到的各个文本块补齐所述非结构化表格区域的表格线；

应用预设的文字识别模型对补齐表格线后的非结构化表格区域进行文字识别，得到该非结构化表格区域对应的非结构化表格。

进一步地，所述基于所述位置信息对所述非结构化表格区域内的各个文本块进行提取，包括：

应用预设的图像预处理方式，基于所述位置信息对所述非结构化表格区域进行相邻的文本块提取，其中，所述图像预处理方式包括：连通域提取方式。

进一步地，所述图像预处理方式还包括：图像灰度化处理方式、边缘检测处理方式和形态学处理处理方式。

进一步地，所述应用预设的文字识别模型对补齐表格线后的非结构化表格区域进行文字识别，包括：

获取补齐表格线后的非结构化表格区域对应的各个文字切片；

将各个所述文字切片分别输入预设的文字识别模型，并将该文字识别模型的输出分别作为各个所述文字切片的文字识别结果；

根据各个所述文字切片的文字识别结果生成对应的非结构化表格。

进一步地，所述获取补齐表格线后的非结构化表格区域对应的各个文字切片，包括：

应用预设的切片方式对补齐表格线后的非结构化表格区域进行单元格切片处理，得到各个单元格各自对应的文字切片，以及各个所述文字切片各自对应的位置信息。

进一步地，所述根据各个所述文字切片的文字识别结果生成对应的非结构化表格，包括：

根据各个所述文字切片的文字识别结果以及各个所述文字切片各自对应的位置信息，对各个所述文字切片的文字识别结果进行格式整理；

基于各个所述文字切片的文字识别结果的格式整理结果生成对应的非结构化表格。

进一步地，所述文字识别模型为R-CNN网络。

进一步地，所述切片方式包括：形态学处理方式和Hough变换方式。

进一步地，在所述对目标图片中的非结构化表格区域进行定位之前，还包括：

接收至少一张图片，自接收的图片中分别提取单一张图片作为当前的目标图片。

第二方面，本申请提供一种图片中非结构化表格识别装置，包括：

表格定位模块，用于对目标图片中的非结构化表格区域进行定位，得到该非结构化表格区域的位置信息；

表格线补齐模块，用于基于所述位置信息对所述非结构化表格区域内的各个文本块进行提取，并根据提取得到的各个文本块补齐所述非结构化表格区域的表格线；

识别模块，用于应用预设的文字识别模型对补齐表格线后的非结构化表格区域进行文字识别，得到该非结构化表格区域对应的非结构化表格。

进一步地，所述表格线补齐模块包括：

表格预处理单元，用于应用预设的图像预处理方式，基于所述位置信息对所述非结构化表格区域进行相邻的文本块提取，其中，所述图像预处理方式包括：连通域提取方式。

进一步地，所述识别模块包括：

单元格切片单元，用于获取补齐表格线后的非结构化表格区域对应的各个文字切片；

文字识别单元，用于将各个所述文字切片分别输入预设的文字识别模型，并将该文字识别模型的输出分别作为各个所述文字切片的文字识别结果；

识别结果转化和输出单元，用于根据各个所述文字切片的文字识别结果生成对应的非结构化表格。

进一步地，所述单元格切片单元具体用于执行下述内容：

进一步地，所述识别结果转化和输出单元具体用于执行下述内容包括：

进一步地，所述文字识别模型为R-CNN网络。

进一步地，还包括：

样本输入模块，用于接收至少一张图片，自接收的图片中分别提取单一张图片作为当前的目标图片。

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的图片中非结构化表格识别方法的步骤。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的图片中非结构化表格识别方法的步骤。

由上述技术方案可知，本申请提供的一种图片中非结构化表格识别方法及装置，方法包括：对目标图片中的非结构化表格区域进行定位，得到该非结构化表格区域的位置信息；基于所述位置信息对所述非结构化表格区域内的各个文本块进行提取，并根据提取得到的各个文本块补齐所述非结构化表格区域的表格线；应用预设的文字识别模型对补齐表格线后的非结构化表格区域进行文字识别，得到该非结构化表格区域对应的非结构化表格，能够根据文本块相对于表格的位置信息补齐表格中不完整的线条，再将每个单元格的切片送入识别模型，无需使用深层的网络进行长时间训练，就能提高非结构化表格识别结果的准确率，进而能够准确且快速地向用户输出或展示非结构化表格，以有效提高用户读取非结构化表格中数据的准确性和便捷性，提高用户体验；尤其针对包含有金融数据(例如对账数据或现金流向数据等)对应的非结构化表格的目标图片的处理，能够使用户基于设备终端中显示的金融数据(例如对账数据或现金流向数据等)对应的非结构化表格准确获取该金融数据(例如对账数据或现金流向数据等)，并基于该金融数据获取对应的金融信息并作出对应的决策，有效提高金融数据对应的非结构化表格的显示准确性，以有效提高用户读取金融数据的准确性和便捷性，提高用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中的图片中非结构化表格识别方法的流程示意图。

图2是本申请实施例中的图片中非结构化表格识别方法中步骤300的流程示意图。

图3是本申请实施例中的图片中非结构化表格识别方法中步骤330的流程示意图。

图4是本申请实施例中的包含有步骤010的图片中非结构化表格识别方法的流程示意图。

图5是本申请实施例中的图片中非结构化表格识别装置的第一种结构示意图。

图6是本申请实施例中的图片中非结构化表格识别装置的第二种结构示意图。

图7是本申请具体应用实例中的一种非结构化表格图片识别技术的结构示意图。

图8是本申请具体应用实例中的一种非结构化表格图片识别技术的处理流程图。

图9是本申请具体应用实例中的包含有现金流向数据对应的非结构化表格的原始图片。

图10是本申请具体应用实例中的针对该包含有现金流向数据对应的非结构化表格的原始图片的图处理过程的连通域提取定位图。

图11是本申请具体应用实例中的针对该包含有现金流向数据对应的非结构化表格的原始图片的处理过程的补线效果图。

图12是本申请具体应用实例中的针对该包含有现金流向数据对应的非结构化表格的原始图片的其中一个切片的切片图。

图13是本申请实施例中的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对非结构化表格图片的识别中识别结果格式混乱且内容逻辑无关的情况，目前还没有一种高效的图像处理方法的问题，例如无法对包含有金融数据的非结构化表格图片进行有效识别，进而会导致金融数据读取的准确性低以影响基于该金融数据进行相关决策的准确性及可靠性的问题，本申请提供一种图片中非结构化表格识别方法、图片中非结构化表格识别装置、电子设备及计算机可读存储介质，对目标图片中的非结构化表格区域进行定位，得到该非结构化表格区域的位置信息；基于所述位置信息对所述非结构化表格区域内的各个文本块进行提取，并根据提取得到的各个文本块补齐所述非结构化表格区域的表格线；应用预设的文字识别模型对补齐表格线后的非结构化表格区域进行文字识别，得到该非结构化表格区域对应的非结构化表格，能够根据文本块相对于表格的位置信息补齐表格中不完整的线条，再将每个单元格的切片送入识别模型，无需使用深层的网络进行长时间训练，就能提高非结构化表格识别结果的准确率，进而能够准确且快速地向用户输出或展示非结构化表格，以有效提高用户读取非结构化表格中数据的准确性和便捷性，提高用户体验。

例如，所述图片中非结构化表格识别装置可以通过接收用户持有的设备终端发送的包含有金融数据(例如对账数据或现金流向数据等)的目标图片，而后对目标图片中的非结构化表格区域进行定位，得到该非结构化表格区域的位置信息，基于所述位置信息对所述非结构化表格区域内的各个文本块进行提取，并根据提取得到的各个文本块补齐所述非结构化表格区域的表格线；应用预设的文字识别模型对补齐表格线后的非结构化表格区域进行文字识别，得到该非结构化表格区域对应的非结构化表格，而后将金融数据(例如对账数据或现金流向数据等)对应的非结构化表格发送至用户持有的设备终端，并在该设备终端中进行显示，以使用户基于设备终端中显示的金融数据(例如对账数据或现金流向数据等)对应的非结构化表格准确获取该金融数据(例如对账数据或现金流向数据等)，并基于该金融数据获取对应的金融信息并作出对应的决策，有效提高金融数据对应的非结构化表格的显示准确性，以有效提高用户读取金融数据的准确性和便捷性，提高用户体验。

为了准确、简单且快速地向用户输出或展示非结构化表格，以有效提高用户读取非结构化表格中数据的准确性和便捷性，提高用户体验，本申请提供一种图片中非结构化表格识别方法的实施例，参见图1，所述图片中非结构化表格识别方法具体包含有如下内容：

步骤100：对目标图片中的非结构化表格区域进行定位，得到该非结构化表格区域的位置信息。

可以理解的是，步骤100对输入的图片定位出表格所在位置，是对后续单独针对表格区域进行操作的基础。

步骤200：基于所述位置信息对所述非结构化表格区域内的各个文本块进行提取，并根据提取得到的各个文本块补齐所述非结构化表格区域的表格线。

在步骤200中，对非结构化表格区域做线条补齐操作。线条补齐算法中主要是根据上个步骤中定位的文本框位置确定该表格的水平位置的间距。首先根据定位结果直接绘制出最上方线条和左边竖线。由于图片中可能存在某块单元格有多行内容，在确定连通域后，根据每行的矩形框高度最高的矩形框作为水平线绘制对象，向矩形框下方绘制线段，线段的起点和终点均由最左端和最右端连通块位置确定。接下来是绘制竖线，通常，处于同一单元格内的文本会连通在一块区域，但是有的情况，如两个字处于同一单元格中间却用空格隔开。此时需要按列考虑每列的矩形框位置，获取该列宽度最宽的矩形框的位置，然后以该矩形框的右下角坐标向右绘制竖线，最终即可完成所有线条的绘制。

步骤300：应用预设的文字识别模型对补齐表格线后的非结构化表格区域进行文字识别，得到该非结构化表格区域对应的非结构化表格。

为了有效提高文本块提取的准确性及效率，以进一步有效提高用户读取非结构化表格中数据的准确性和便捷性，在本申请的图片中非结构化表格识别方法的一个实施例中，所述图片中非结构化表格识别方法中的步骤200具体包含有如下内容：

步骤210：应用预设的图像预处理方式，基于所述位置信息对所述非结构化表格区域进行相邻的文本块提取，其中，所述图像预处理方式包括：连通域提取方式。

可以理解的是，所述图像预处理方式还包括：图像灰度化处理方式、边缘检测处理方式和形态学处理处理方式。

为了有效提高文字识别的准确性和效率，以进一步有效提高用户读取非结构化表格中数据的准确性和便捷性，在本申请的图片中非结构化表格识别方法的一个实施例中，参见图2，所述图片中非结构化表格识别方法中的步骤300具体包含有如下内容：

步骤310：获取补齐表格线后的非结构化表格区域对应的各个文字切片。

步骤320：将各个所述文字切片分别输入预设的文字识别模型，并将该文字识别模型的输出分别作为各个所述文字切片的文字识别结果。

其中，所述文字识别模型为R-CNN网络。

步骤330：根据各个所述文字切片的文字识别结果生成对应的非结构化表格。

在一种图片中非结构化表格识别方法的步骤310的具体实施例中，所述步骤310具体可以包含有下述内容：

步骤311：应用预设的切片方式对补齐表格线后的非结构化表格区域进行单元格切片处理，得到各个单元格各自对应的文字切片，以及各个所述文字切片各自对应的位置信息。

在步骤311中，所述切片方式包括：形态学处理方式和Hough变换方式。

可以理解的是，由于已经完成非结构化表格图片的表格线补齐操作，切片也相对来说简单很多。该步骤采用的是形态学处理和Hough变换等操作，获取直线位置信息，然后依次对每行每列的单元格的小切片。

在一种图片中非结构化表格识别方法的步骤330的具体实施例中，参见图3，所述步骤330具体可以包含有下述内容：

步骤331：根据各个所述文字切片的文字识别结果以及各个所述文字切片各自对应的位置信息，对各个所述文字切片的文字识别结果进行格式整理。

步骤332：基于各个所述文字切片的文字识别结果的格式整理结果生成对应的非结构化表格。

为了有效提高图片中非结构化表格识别的效率及可靠性，以进一步有效提高用户读取非结构化表格中数据的准确性和便捷性，在本申请的图片中非结构化表格识别方法的一个实施例中，参见图4，所述图片中非结构化表格识别方法中的步骤100之前还具体包含有如下内容：

步骤010：接收至少一张图片，自接收的图片中分别提取单一张图片作为当前的目标图片。

从软件层面来说，为了准确、简单且快速地向用户输出或展示非结构化表格，以有效提高用户读取非结构化表格中数据的准确性和便捷性，提高用户体验，本申请提供一种用于实现图片中非结构化表格识别方法中全部或部分内容的图片中非结构化表格识别装置的实施例，参见图5，所述图片中非结构化表格识别装置具体包含有如下内容：

表格定位模块2，用于对目标图片中的非结构化表格区域进行定位，得到该非结构化表格区域的位置信息。

表格线补齐模块4，用于基于所述位置信息对所述非结构化表格区域内的各个文本块进行提取，并根据提取得到的各个文本块补齐所述非结构化表格区域的表格线。

识别模块7，用于应用预设的文字识别模型对补齐表格线后的非结构化表格区域进行文字识别，得到该非结构化表格区域对应的非结构化表格。

为了有效提高文本块提取的准确性及效率，以进一步有效提高用户读取非结构化表格中数据的准确性和便捷性，在本申请的图片中非结构化表格识别装置的一个实施例中，所述图片中非结构化表格识别装置中的表格线补齐模块4具体包含有如下内容：

表格预处理单元3，用于应用预设的图像预处理方式，基于所述位置信息对所述非结构化表格区域进行相邻的文本块提取，其中，所述图像预处理方式包括：连通域提取方式。

为了有效提高文字识别的准确性和效率，以进一步有效提高用户读取非结构化表格中数据的准确性和便捷性，在本申请的图片中非结构化表格识别装置的一个实施例中，所述图片中非结构化表格识别装置中的识别模块7具体包含有如下内容：

单元格切片单元5，用于获取补齐表格线后的非结构化表格区域对应的各个文字切片。

文字识别单元，用于将各个所述文字切片分别输入预设的文字识别模型，并将该文字识别模型的输出分别作为各个所述文字切片的文字识别结果。

其中，所述文字识别模型为R-CNN网络。

识别结果转化和输出单元8，用于根据各个所述文字切片的文字识别结果生成对应的非结构化表格。

在一种图片中非结构化表格识别装置的单元格切片单元5的具体实施例中，所述单元格切片单元5具体用于执行下述内容：

所述切片方式包括：形态学处理方式和Hough变换方式。

在一种图片中非结构化表格识别方法的识别结果转化和输出单元8的具体实施例中，所述识别结果转化和输出单元8具体用于执行下述内容包括：

根据各个所述文字切片的文字识别结果以及各个所述文字切片各自对应的位置信息，对各个所述文字切片的文字识别结果进行格式整理。

为了有效提高图片中非结构化表格识别的效率及可靠性，以进一步有效提高用户读取非结构化表格中数据的准确性和便捷性，在本申请的图片中非结构化表格识别装置的一个实施例中，参见图6，所述图片中非结构化表格识别装置还具体包含有如下内容：

样本输入模块1，用于接收至少一张图片，自接收的图片中分别提取单一张图片作为当前的目标图片。

从上述描述可知，本申请提供一种非结构化表格图片识别技术，该方法克服了目前非结构化表格图片识别算法应用上的缺陷，并非将其作为整文区域进行识别，而是首先对非结构化表格区域进行定位，获取非结构化表格在图片中的位置信息。然后再对该区域内部的每个文本块进行定位，根据它们相对整张表的位置绘制出对应的表格线。最后将补全的表格进行切片，将每个切片送入识别模型，最终返回切片的识别结果并整理格式后返回与原图相同的行列位置。采用传统图像处理技术，根据文本块相对于表格的位置信息补齐表格中不完整的线条，再将每个单元格的切片送入识别模型，无需该识别模型具有非常深层的网络结构，就能提高识别结果的准确率。

为进一步说明本方案，本申请还提供一种应用图片中非结构化表格识别装置执行所述图片中非结构化表格识别方法的具体应用实例，具体包含有如下内容：

首先对非结构化表格区域进行定位，获取非结构化表格在图片中的位置。然后再对该区域内部的每个文本块进行定位，根据它们相对整张表的位置绘制出对应的表格线。最后将补全的表格进行切片，将每个切片送入识别模型，最终返回切片的识别结果并整理格式后返回与原图相同的行列位置。

如图7所示，本申请提供一种非结构化表格图片识别技术包括：样本输入模块1、表格定位模块2、表格预处理单元3、表格线补齐模块4、单元格切片单元5、图像处理子系统6、识别模块7、识别结果转化和输出单元8。其中，表格定位模块2、表格预处理单元3、表格线补齐模块4、单元格切片单元5都属于图像处理子系统6。

样本输入模块1，负责对单张或批量图片的输入。

表格定位模块2，负责对输入的图片定位出表格所在位置，是对后续单独针对表格区域进行操作的基础。

表格预处理单元3，负责将定位得到的表格区域使用图像滤波、膨胀腐蚀等操作突出表格内容。

表格线补齐模块4，负责将提取的表格区域进行补线操作，将不完整的非结构化表格中缺失的线条进行补全，使其得到一张完整的表格图。

单元格切片单元5，负责对已经补全的表格按照一个个单元格进行切片操作，从而得到每个单元格的切片。

图像处理子系统6，负责对输入的图片进行各种图像层面的处理操作。

识别模块7，负责对切出的表格切片进行识别。

识别结果转化和输出单元8，负责对识别结果进行转化，根据单元格的位置信息进行排列再将其进行输出。

图8是本申请一种非结构化表格图片识别技术的处理流程图，包括以下部分：

S1：表格定位；

S2：图像预处理；

S3：表格线补齐；

S4：单元格切片；

S5：将切片输入识别模型；

S6：输出识别结果并按行列位置返回。

具体地，以图8为例：

S1：对图片中的非结构化表格进行定位。本申请处理对象对非结构化表格图片，因此第一步就是确定非结构化表格区域在图片中的位置。获取该区域的位置信息，然后截取对该区域位置进行针对性处理。

S2：对输入的图像进行图像预处理。本申请专利中图像预处理涉及图像灰度化、边缘检测、形态学处理以及连通域提取等操作。其中连通域提取为关键算法，该方法用于提取非结构化表格内部相邻的文本块。

S3：对非结构化表格区域做线条补齐操作。线条补齐算法中主要是根据上个步骤中定位的文本框位置确定该表格的水平位置的间距。首先根据定位结果直接绘制出最上方线条和左边竖线。由于图片中可能存在某块单元格有多行内容，在确定连通域后，根据每行的矩形框高度最高的矩形框作为水平线绘制对象，向矩形框下方绘制线段，线段的起点和终点均由最左端和最右端连通块位置确定。接下来是绘制竖线，通常，处于同一单元格内的文本会连通在一块区域，但是有的情况，如两个字处于同一单元格中间却用空格隔开。此时需要按列考虑每列的矩形框位置，获取该列宽度最宽的矩形框的位置，然后以该矩形框的右下角坐标向右绘制竖线，最终即可完成所有线条的绘制。

S4：对补齐后的表格进行单元格切片。由于已经完成非结构化表格图片的表格线补齐操作，切片也相对来说简单很多。该步骤采用的是形态学处理和Hough变换等操作，获取直线位置信息，然后依次对每行每列的单元格的小切片。

S5：将切片输入识别模型。由于切片通常宽高都较小，本申请使用的识别模型为RCNN网络结构，而不需要使用faster-RCNN等更深层的网络结构也能得到较高的准确率。

S6：输出识别结果并按行列位置返回。最终返回结果不但包含每块切片的识别内容，还有该切片的行列信息。通常返回的格式为json或xml。

具体举例参见图9至图12，其中，图9是包含有现金流向数据对应的非结构化表格的原始图片；图10是针对该包含有现金流向数据对应的非结构化表格的原始图片的图处理过程的连通域提取定位图，以各个框图进行显示；图11是针对该包含有现金流向数据对应的非结构化表格的原始图片的处理过程的补线效果图，参见表格线；图12针对该包含有现金流向数据对应的非结构化表格的原始图片的其中一个切片的切片图。

由上述内容可知，本申请提供了一种非结构化表格图片识别技术，相对于目前对结构化表格图片处理技术而言，非结构化表格需要首先将表格内部线条补全，才能得到有效位置的识别结果。该方法的优点在于，如果仅使用整文识别模型直接对定位的表格区域进行识别，其识别结果是没有行列相关信息，导致图片与识别结果弱相关。而该方法采用传统图像处理技术，根据文本块相对于表格的位置信息补齐表格中不完整的线条，再将每个单元格的切片送入识别模型，无需使用深层的网络进行长时间训练，就能提高识别结果的准确率。

从硬件层面来说，为了准确、简单且快速地向用户输出或展示非结构化表格，以有效提高用户读取非结构化表格中数据的准确性和便捷性，提高用户体验，本申请提供一种用于实现所述图片中非结构化表格识别方法中的全部或部分内容的电子设备的实施例，所述电子设备具体包含有如下内容：

处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述通信接口用于实现电子设备与用户终端以及相关数据库等相关设备之间的信息传输；该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照实施例中的图片中非结构化表格识别方法的实施例，以及，图片中非结构化表格识别装置的实施例进行实施，其内容被合并于此，重复之处不再赘述。

图13为本申请实施例的电子设备9600的系统构成的示意框图。如图13所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图13是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

在一实施例中，图片中非结构化表格识别功能可以被集成到中央处理器中。其中，中央处理器可以被配置为进行如下控制：

在步骤200中，对非结构化表格区域做线条补齐操作。线条补齐算法中主要是根据上个步骤中定位的文本框位置确定该表格的水平位置的间距。首先根据定位结果直接绘制出最上方线条和左边竖线。由于图片中可能存在某块单元格有多行内容，在确定连通域后，根据每行矩形框高度最高的矩形框作为水平线绘制对象，向矩形框下方绘制线段，线段的起点和终点均由最左端和最右端连通块位置确定。接下来是绘制竖线，通常，处于同一单元格内的文本会连通在一块区域，但是有的情况，如两个字处于同一单元格中间却用空格隔开。此时需要按列考虑每列的矩形框位置，获取该列宽度最宽的矩形框的位置，然后以该矩形框的右下角坐标向右绘制竖线，最终即可完成所有线条的绘制。

从上述描述可知，本申请实施例提供的电子设备，能够根据文本块相对于表格的位置信息补齐表格中不完整的线条，再将每个单元格的切片送入识别模型，无需使用深层的网络进行长时间训练，就能提高非结构化表格识别结果的准确率，进而能够准确且快速地向用户输出或展示非结构化表格，以有效提高用户读取非结构化表格中数据的准确性和便捷性，提高用户体验。

在另一个实施方式中，图片中非结构化表格识别装置可以与中央处理器9100分开配置，例如可以将图片中非结构化表格识别装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现图片中非结构化表格识别功能。

如图13所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图13中所示的所有部件；此外，电子设备9600还可以包括图13中没有示出的部件，可以参考现有技术。

如图13所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

本申请的实施例还提供能够实现上述实施例中的图片中非结构化表格识别方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的图片中非结构化表格识别方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

从上述描述可知，本申请实施例提供的计算机可读存储介质，能够根据文本块相对于表格的位置信息补齐表格中不完整的线条，再将每个单元格的切片送入识别模型，无需使用深层的网络进行长时间训练，就能提高非结构化表格识别结果的准确率，进而能够准确且快速地向用户输出或展示非结构化表格，以有效提高用户读取非结构化表格中数据的准确性和便捷性，提高用户体验。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图片中非结构化表格识别方法，其特征在于，包括：

应用预设的文字识别模型对补齐表格线后的非结构化表格区域进行文字识别，得到该非结构化表格区域对应的非结构化表格；

所述根据提取得到的各个文本块补齐所述非结构化表格区域的表格线包括：

根据所述位置信息直接绘制出最上方线条和左边竖线；

在确定连通域后，根据每行的文本块矩形框高度最高的矩形框作为水平线绘制对象，向矩形框下方绘制线段，线段的起点和终点均由最左端和最右端连通块位置确定；

按列考虑每列的矩形框位置，获取该列宽度最宽的文本块矩形框的位置，然后以该矩形框的右下角坐标向右绘制竖线。

2.根据权利要求1所述的图片中非结构化表格识别方法，其特征在于，所述基于所述位置信息对所述非结构化表格区域内的各个文本块进行提取，包括：

3.根据权利要求2所述的图片中非结构化表格识别方法，其特征在于，所述图像预处理方式还包括：图像灰度化处理方式、边缘检测处理方式和形态学处理方式。

4.根据权利要求1所述的图片中非结构化表格识别方法，其特征在于，所述应用预设的文字识别模型对补齐表格线后的非结构化表格区域进行文字识别，包括：

5.根据权利要求4所述的图片中非结构化表格识别方法，其特征在于，所述获取补齐表格线后的非结构化表格区域对应的各个文字切片，包括：

6.根据权利要求4所述的图片中非结构化表格识别方法，其特征在于，所述根据各个所述文字切片的文字识别结果生成对应的非结构化表格，包括：

7.根据权利要求4所述的图片中非结构化表格识别方法，其特征在于，所述文字识别模型为R-CNN网络。

8.根据权利要求5所述的图片中非结构化表格识别方法，其特征在于，所述切片方式包括：形态学处理方式和Hough变换方式。

9.根据权利要求1所述的图片中非结构化表格识别方法，其特征在于，在所述对目标图片中的非结构化表格区域进行定位之前，还包括：

10.一种图片中非结构化表格识别装置，其特征在于，包括：

识别模块，用于应用预设的文字识别模型对补齐表格线后的非结构化表格区域进行文字识别，得到该非结构化表格区域对应的非结构化表格；

所述表格线补齐模块据提取得到的各个文本块补齐所述非结构化表格区域的表格线包括：

根据所述位置信息直接绘制出最上方线条和左边竖线；

11.根据权利要求10所述的图片中非结构化表格识别装置，其特征在于，所述表格线补齐模块包括：

12.根据权利要求11所述的图片中非结构化表格识别装置，其特征在于，所述图像预处理方式还包括：图像灰度化处理方式、边缘检测处理方式和形态学处理方式。

13.根据权利要求10所述的图片中非结构化表格识别装置，其特征在于，所述识别模块包括：

14.根据权利要求13所述的图片中非结构化表格识别装置，其特征在于，所述单元格切片单元具体用于执行下述内容：

15.根据权利要求13所述的图片中非结构化表格识别装置，其特征在于，所述识别结果转化和输出单元具体用于执行下述内容包括：

16.根据权利要求13所述的图片中非结构化表格识别装置，其特征在于，所述文字识别模型为R-CNN网络。

17.根据权利要求14所述的图片中非结构化表格识别装置，其特征在于，所述切片方式包括：形态学处理方式和Hough变换方式。

18.根据权利要求10所述的图片中非结构化表格识别装置，其特征在于，还包括：

19.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至9任一项所述的图片中非结构化表格识别方法的步骤。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至9任一项所述的图片中非结构化表格识别方法的步骤。