CN114120345A

CN114120345A - 信息提取方法、装置、设备及存储介质

Info

Publication number: CN114120345A
Application number: CN202010902717.0A
Authority: CN
Inventors: 刘清晨
Original assignee: China Mobile Communications Group Co Ltd; Research Institute of China Mobile Communication Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; Research Institute of China Mobile Communication Co Ltd
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2022-03-01

Abstract

本发明公开了一种信息提取方法、装置、设备及存储介质。其中，所述方法包括：采集表格图像；利用预设第一网络模型，对所述表格图像中表格区域进行分割和定位，得到至少两个单元格；针对所述至少两个单元格中每个单元格，结合预设第二网络模型，确定相应单元格中的文本行；利用预设第三网络模型，对所述至少两个单元格中的文本行分别进行识别，得到识别文本；确定所述至少两个单元格对应的表格结构，并利用所述表格结构和所述识别文本，形成表格信息。

Description

信息提取方法、装置、设备及存储介质

技术领域

本发明涉及图像处理领域，尤其涉及一种信息提取方法、装置、设备及存储介质。

背景技术

随着网络中数据量的激增，如何从大量数据中提取信息变得至关重要。实际应用时，可以将大量数据存储在表格中，当表格中存储的数据越来越多时，表格的结构也越来越复杂。随着表格的结构越来越复杂，表格中存储数据的方式可以多种多样，且表格中存储数据的类型也多种多样，因此，如何准确地从表格中提取文本信息成了关键问题。

发明内容

有鉴于此，本发明实施例期望提供一种信息提取方法、装置、设备及存储介质。

本发明实施例的技术方案是这样实现的：

本发明的至少一个实施例提供了一种信息提取方法，所述方法包括：

采集表格图像；

利用预设第一网络模型，对所述表格图像中表格区域进行分割和定位，得到至少两个单元格；

针对所述至少两个单元格中每个单元格，结合预设第二网络模型，确定相应单元格中的文本行；

利用预设第三网络模型，对所述至少两个单元格中的文本行分别进行识别，得到识别文本；

确定所述至少两个单元格对应的表格结构，并利用所述表格结构和所述识别文本，形成表格信息。

此外，根据本发明的至少一个实施例，所述利用预设第一网络模型，对所述表格图像中表格区域进行分割和定位，得到至少两个单元格，包括：

将所述表格图像作为预设第一网络模型的输入，对所述表格图像进行输入到输出的映射，得到所述表格图像中表格区域的特征图和特征图信息；所述特征图信息表征所述表格区域中每个特征点对应的线段类型；

利用所述特征图信息，从所述特征图中确定对应至少两种线段类型的多个特征点的坐标；并利用所述多个特征点的坐标，形成至少两个单元格；

从形成的至少两个单元格中选取满足第一预设条件的至少两个单元格。

此外，根据本发明的至少一个实施例，所述从形成的至少两个单元格中选取满足第一预设条件的至少两个单元格，包括：

针对所述至少两个单元格中每个单元格，判断相应单元格的高度是否小于或等于高度阈值且相应单元格的长度是否小于或等于长度阈值；

当确定相应单元格的高度小于或等于高度阈值且相应单元格的长度小于或等于长度阈值时，丢弃相应单元格；

将所述至少两个单元格中剩余的至少两个单元格作为满足第一预设条件的至少两个单元格。

此外，根据本发明的至少一个实施例，所述针对所述至少两个单元格中每个单元格，结合预设第二网络模型，确定相应单元格中的文本行，包括：

针对所述至少两个单元格中每个单元格，结合预设第二网络模型，确定相应单元格包含的至少两个第一文本框；

从所述至少两个第一文本框中选取满足第二预设条件的至少两个第二文本框；

对所述至少两个第二文本框内的文本进行拼接，得到文本行。

此外，根据本发明的至少一个实施例，所述从所述至少两个第一文本框中选取满足第二预设条件的至少两个第二文本框，包括：

对相应单元格内的至少两个第一文本框中进行水平排序，得到排序后的至少两个第一文本框；

针对所述排序后的至少两个第一文本框中的第i个第一文本框，按照水平正方向，搜索与第i个文本框的重合高度满足第二预设条件的第j个文本框；并按照水平反方向，搜索与第j个文本框的重合高度满足第二预设条件的第k个文本框；

确定第一i个文本框到第j个文本框之间的第一水平距离；并确定第j个文本框与第k个文本框之间的第二水平距离；

当所述第一水平距离大于或等于所述第二水平距离时，对所述第i个文本框和所述第j个文本框之间的至少两个文本框内的文本进行拼接，得到文本行。

此外，根据本发明的至少一个实施例，所述搜索与第i个文本框的重合高度满足第二预设条件的第j个文本框，包括：

搜索与第i个文本框的水平距离大于或等于距离阈值的至少一个第二文本框；

计算所述至少一个第二文本框与第i个文本框的重合高度，得到至少一个重合高度；

将所述至少一个重合高度中最大重合高度对应的第二文本框作为满足第二预设条件的第j个文本框。

此外，根据本发明的至少一个实施例，所述确定所述至少两个单元格对应的表格结构，包括：

从所述至少两个单元格中确定位于基准行的至少两个第一单元格和位于基准列的至少两个第二单元格；

确定与所述至少两个第一单元格具有从属关系的多个单元格；并确定与所述至少两个第二单元格具有从属关系的多个单元格；

基于确定的具有从属关系的多个单元格，构建树结构；

将所述树结构作为所述至少两个单元格的表格结构。

此外，根据本发明的至少一个实施例，所述基于确定的具有从属关系的多个单元格，构建树结构，包括：

利用与所述至少两个第一单元格具有从属关系的多个单元格，按照第一方向构建树结构；

利用与所述至少两个第二单元格具有从属关系的多个单元格，按照第二方向构建树结构；

其中，所述第一方向与所述第二方向不同。

本发明的至少一个实施例提供一种信息提取装置，包括：

采集单元，用于采集表格图像；

第一处理单元，用于利用预设第一网络模型，对所述表格图像中表格区域进行分割和定位，得到至少两个单元格；

第二处理单元，用于针对所述至少两个单元格中每个单元格，结合预设第二网络模型，确定相应单元格中的文本行；

第三处理单元，用于利用预设第三网络模型，对所述至少两个单元格中的文本行分别进行识别，得到识别文本；

第四处理单元，用于确定所述至少两个单元格对应的表格结构，并利用所述表格结构和所述识别文本，形成表格信息。

此外，根据本发明的至少一个实施例，所述第一处理单元，具体用于：

此外，根据本发明的至少一个实施例，所述第二处理单元，具体用于：

此外，根据本发明的至少一个实施例，所述第四处理单元，具体用于：

基于确定的具有从属关系的多个单元格，构建树结构；

将所述树结构作为所述至少两个单元格的表格结构。

其中，所述第一方向与所述第二方向不同。

本发明的至少一个实施例提供一种电子设备，包括：

通信接口，用于采集表格图像；

处理器，用于利用预设第一网络模型，对所述表格图像中表格区域进行分割和定位，得到至少两个单元格；针对所述至少两个单元格中每个单元格，结合预设第二网络模型，确定相应单元格中的文本行；以及利用预设第三网络模型，对所述至少两个单元格中的文本行分别进行识别，得到识别文本；确定所述至少两个单元格对应的表格结构，并利用所述表格结构和所述识别文本，形成表格信息。

本发明的至少一个实施例提供一种电子设备，包括处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行上述任一方法的步骤。

本发明的至少一个实施例提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。

本发明实施例提供的信息提取方法、装置、设备及存储介质，采集表格图像；利用预设第一网络模型，对所述表格图像中表格区域进行分割和定位，得到至少两个单元格；针对所述至少两个单元格中每个单元格，结合预设第二网络模型，确定相应单元格中的文本行；利用预设第三网络模型，对所述至少两个单元格中的文本行分别进行识别，得到识别文本；确定所述至少两个单元格对应的表格结构，并利用所述表格结构和所述识别文本，形成表格信息。采用本发明实施例的技术方案，提取表格图像中表格区域中至少两个单元格形成的表格结构，并提取至少两个单元格分别对应的文本行信息，如此，基于表格结构和文本行信息形成表格信息，由于能够结合表格的结构和文本信息形成表格信息，因此，能够实现准确提取出表格信息。

附图说明

图1是本发明实施例信息提取方法的实现流程示意图；

图2是本发明实施例表格图像中表格区域对应的特征图的示意图；

图3是本发明实施例表格图像中表格区域中单元格的示意图；

图4是本发明实施例确定表格图像中的至少两个单元格的实现流程示意图；

图5是本发明实施例表格图像中单元格中的文本框的示意图；

图6是本发明实施例对表格图像中单元格中的文本进行拼接得到文本行的实现流程示意图；

图7是本发明实施例表格图像中表格结构的示意图一；

图8是本发明实施例表格图像中表格结构的示意图二；

图9是本发明实施例确定表格图像中至少两个单元格对应的表格结构的实现流程示意图；

图10是本发明实施例信息提取装置的组成结构示意图；

图11是本发明实施例电子设备的组成结构示意图；

具体实施方式

在对本发明实施例的技术方案进行介绍之前，先对相关技术进行说明。

相关技术中，可以使用语义分割网络UNet和生成对抗网络GAN的判别器网络D-Net，采用距离关系对PDF进行版面和文本行分析，并进行文字识别，从而可以让识别后的文本带有结构信息，还原PDF原始布局结构，但是存在的缺陷是：对于表格类的图像，如各类票据等不够适用，这是因为表格中文本的结构信息不仅存在在整体版面相邻位置的段落中，相距较远的段落中也会存在各种结构信息，因为表格可以看作是二维的矩阵布局，不能简单的采用距离关系来分析版面。相关技术中，可以采用Faster RCNN模型、CTPN模型、SegLink 模型、EAST模型中之一针对营业执照进行文本行检测，使用DenseNet+CTC 文本识别模型对检测的文本行进行识别，得到识别文本，但存在的缺陷是：缺乏对于版面的分析，因而对于复杂的证照表格，就需要重新进行模型训练。

基于此，在本发明的各种实施例中，采集表格图像；利用预设第一网络模型，对所述表格图像中表格区域进行分割和定位，得到至少两个单元格；针对所述至少两个单元格中每个单元格，结合预设第二网络模型，确定相应单元格中的文本行；利用预设第三网络模型，对所述至少两个单元格中的文本行分别进行识别，得到识别文本；确定所述至少两个单元格对应的表格结构，并利用所述表格结构和所述识别文本，形成表格信息。

下面结合附图及实施例对本发明再作进一步详细的描述。

本发明实施例提供了一种信息提取方法，如图1所示，所述方法包括：

步骤101：采集表格图像；

步骤102：利用预设第一网络模型，对所述表格图像中表格区域进行分割和定位，得到至少两个单元格；

步骤103：针对所述至少两个单元格中每个单元格，结合预设第二网络模型，确定相应单元格中的文本行；

步骤104：利用预设第三网络模型，对所述至少两个单元格中的文本行分别进行识别，得到识别文本；

步骤105：确定所述至少两个单元格对应的表格结构，并利用所述表格结构和所述识别文本，形成表格信息。

这里，在步骤101中，所述表格图像可以是指包含表格的图像，实际应用时，可以通过对包含表格的文档进行拍摄得到所述表格图像。具体可以是各类票据对应的表格图像，例如，飞机票、火车票等等。

这里，在步骤102中，所述第一网络模型具体可以是U-Net。所述对所述表格图像中表格区域进行分割和定位可以是指确定所述表格图像中表格区域中属于至少两种类型线段的坐标点，基于多个所述坐标点确定出至少两个单元格。

这里，在步骤103中，所述第二网络模型具体可以是连接文本提议网络 (CTPN，Connectionist Text Proposal Network)网络。通过所述第二网络模型，确定相应单元格中的文本行，可以避免一个单元格中位于同一行的文字之间的距离较远而导致被误认为不在一个文本行进而无法被合并问题的发生，以及避免一个单元格中位于不同行的文字之间的距离较近而导致被误认为不在一个文本行进而无法被合并问题的发生。

这里，在步骤104中，所述第三网络模型具体可以为卷积循环神经网络 (CRNN，Convolutional Recurrent Neural Network)，即一种端到端的文字识别的网络。所述识别文本可以包含汉字、数字、字母等等。

这里，在步骤105中，利用所述表格结构和所述识别文本，形成表格信息，可以将表格中具有依赖关系的文本信息罗列出来，后续可以利用具有依赖关系的文本信息进行数据分析等等。

实际应用时，一个单元格可以由2个直线段、2个竖线段构成的封闭区域形成，也可以由2个直线段、2个竖线段、1个斜线段构成的封闭区域形成；由于所述封闭区域由4个顶点构成，因此，可以通过对单元格的顶点进行定位，以对所述表格图像中表格区域进行分割，得到多个单元格。

基于此，在一实施例中，所述利用预设第一网络模型，对所述表格图像中表格区域进行分割和定位，得到至少两个单元格，包括：

这里，所述第一网络模型可以是指U-Net模型；所述线段类型可以是指直线段、竖线段、斜线段等等。

这里，对U-Net模型进行训练的过程可以包括：采用收集好的各类表格图片，使用人工标注的方法将表格中的内外边框的区域标注出来，并将属于横线段的边框作为一个类别，属于竖线段的边框作为一个类别，属于斜线段或其他线段作为一格类别，得到三个类别，从而得到表格的边框结构。可以将得到的表格的边框结构作为初始的训练集，通过对训练集进行增加噪声等数据增广方式，得到训练好的U-Net模型。

这里，采用训练好的U-Net对输入的表格图像进行表格各区域的分割和定位，例如，将一个宽和高为W×H的表格图像输入U-Net模型，U-Net模型输出特征图大小为W_out×H_out，特征图信息为3×W_out×H_out；其中，根据特征图信息可以确定特征图每个特征点对应的线段类型，即，特征图中每个特征点属于单元格横线、纵线、斜线或者其他线段的类别概率。实际应用时，建立特征图的坐标系时，可以以表格图像的左下边缘作为坐标原点。

举例来说，如图2所示，假设所述特征图信息中包括7个特征点，用特征点1、特征点2、特征点3、特征点4、特征点5、特征点6、特征点7表示，特征点1对应的线段类型为直线段和竖线段，即特征点1属于直线段和竖线段的交点；特征点2对应的线段类型为直线段和竖线段，即特征点2属于直线段和竖线段的交点；特征点3对应的线段类型为直线段和竖线段，即特征点3属于直线段和竖线段的交点；特征点4、特征点5、特征点6、特征点7对应的线段类型均为直线段，即特征点4、特征点5、特征点6、特征点7属于直线段上的点。这样，可以利用特征点1、特征点2、特征点3的二维坐标作为单元格的顶点，并结合特征图中其他坐标点，形成封闭区域，以得到一个单元格。所述二维坐标可以是指x轴、y轴坐标。

这里，如果采集的表格图像出现倾斜，则需要对所述表格图像的倾斜角度进行纠正。其中，所述倾斜角度可以是指所述表格图像中文字的排列与基准之间的倾斜角度；所述基准是指所述表格图像中文字的排列顺序为自左向右横向排列。

这里，对所述表格图像进行旋转以纠正倾斜角度的方式，包括以下三种：

第一种方法，采用传统的开源的OpenCV中自适应阈值的二值化技术，即，首先将整张表格图像的背景和文字进行二值化；然后按照二值化后表格图像的梯度进行旋转以纠正倾斜角度；

第二种方法，采用深度学习中CNN网络的分类方法，即，将不同文字倾斜角度的图像看作不同类别，如0，45，90，135，180，225，270，315度等八类，以MobileNet等小型网络训练一个8类别的分类网络，按照分类结果进行旋转倾斜校正；

第三种方法，先采集不同类别图表的基准水平横向角度的图像，采用 OpenCV中的SIFT或SURF算子对图像之间的图表进行匹配，按照匹配结果对图像进行旋转倾斜校正。

需要说明的是，如果所述表格图像的背景不是特别复杂，可以使用第一种方法；如果所述表格图像的倾斜角度相对固定，可以采用第二种方法；否则采用第三种方法。

实际应用时，考虑到单元格的边框可以有一个，也可以有多个。例如，单元格包含内边框、外边框，为了避免将内边框形成的封闭区域识别为单元格，可以对外边框形成的封闭区域进行识别，并将外边框形成的封闭区域作为单元格。

基于此，在一实施例中，所述从形成的至少两个单元格中选取满足第一预设条件的至少两个单元格，包括：

这里，按照横线段、竖线段、斜线段相交的关系，对所述表格图像中表格区域进行分割得到单元格顶点的坐标，并基于顶点的坐标构建单元格后，如果单元格的宽度和高度过小则丢弃该单元格，例如，单元格是内边框形成的单元格，或者，单元格的边框无法覆盖文本。

举例来说，如图3所示，特征点1、特征点2、特征点3构建一个单元格，用单元格1表示，特征点4、特征点5、特征点6构建一个单元格，用单元格2 表示，假设高度阈值为8像素，长度阈值为8像素，单元格1的高度为7像素、宽度为7像素，单元格2的高度为9像素、宽度为9像素，则单元格1为内边框形成的单元格，单元格2为外边框形成的单元格，丢弃单元格1，将单元格2 作为满足预设条件的单元格。

这里，在确定单元格位置后，对单元格进行筛选时，还可以采用先验知识，将单元格的高度和宽度小于文本检测识别时使用的最小文本框anchor的单元格排除。

在一示例中，如图4所示，描述确定表格图像中的至少两个单元格的过程，包括：

步骤401：采集表格图像；将所述表格图像作为预设第一网络模型的输入，对所述表格图像进行输入到输出的映射，得到所述表格图像中表格区域的特征图和特征图信息；

其中，所述特征图信息表征所述表格区域中每个特征点对应的线段类型。

步骤402：利用所述特征图信息，从所述特征图中确定对应至少两种线段类型的多个特征点的坐标；并利用所述多个特征点的坐标，形成至少两个单元格。

步骤403：针对所述至少两个单元格中每个单元格，判断相应单元格的高度是否小于或等于高度阈值且相应单元格的长度是否小于或等于长度阈值；当确定相应单元格的高度小于或等于高度阈值且相应单元格的长度小于或等于长度阈值时，执行步骤404；

步骤404：丢弃相应单元格；并将所述至少两个单元格中剩余的至少两个单元格作为满足第一预设条件的至少两个单元格。

这里，确定表格图像中的至少两个单元格，具备以下优点：

(1)利用预设第一网络模型，对所述表格图像中表格各区域进行分割和定位，以提取表格边框的顶点信息，基于提取的顶点信息构建出单元格。具体地，在利用预设第一网络模型如U-Net提取图像中表格的各区域时，将横线，纵线，斜线或其他线段分别作为一类，这样U-Net提取的图像特征信息包含了3类线段，按照这三类图像线段形成的闭合区域来确定单元格的边框的顶点位置；其中，不同类别线段的交点就是单元格的顶点。

(2)针对具有多边框的单元格，通过提取表格的内外边框对应的边缘信息，以将内边框形成的单元格进行排除，后续对外边框形成的单元格进行文本信息提取，提高信息提取效率。另外，在确定单元格位置后，对单元格进行筛选，可以采用先验知识，保证单元格的高度和宽度不能小于最小的文本检测的文本框anchor的大小，也就是说，单元格的高度和宽度小于最小文本框anchor的单元格将被排除。

(3)使用预设第一网络模型如U-Net模型，更好的定位了表格中基本单元即单元格的位置，为后续文本检测和文字识别做了更好的断句等语义分析的参考。

实际应用时，为了准确提取出一个单元格中所有文本，可以先利用预设多个不同高度和不同宽度的文本框与表格图像的表格区域中的文本进行对齐，然后，将未在一个单元格内的文本框进行排除，如此，得到一个单元格包含的多个文本框。考虑到一个单元格包含的多个文本框的大小可以不同，且分布位置可以不同，因此，为了避免将不在同一行的文本合并为文本行，可以从多个文本框中选取能够使多个文本处于同一行的多个文本框，对选取的多个文本框中的文本进行拼接，得到文本行。

基于此，在一实施例中，所述针对所述至少两个单元格中每个单元格，结合预设第二网络模型，确定相应单元格中的文本行，包括：

这里，所述预设第二网络模型可以是指CTPN网络模型。所述文本行是指多个文本所处的位置在同一行。

这里，考虑到相应单元格中包含的至少两个第一文本框的文本不一定对应一个文本行，可能对应多个文本行，这样，可以从所述至少两个第一文本框中选取满足第二预设条件的至少两个第二文本框；对所述至少两个第二文本框内的文本进行拼接，得到一个文本行。

这里，以所述表格图像中文本以横向排列为例，首先，采集大量的表格图像，利用k-means算法，统计每个表格图像中所有文本的大小，并根据文本的大小确定文本框的大小，例如，用anchor表示文本框，anchor的横向宽度为8 像素，纵向高度为：8像素、11像素、16像素、23像素、33像素、48像素、 68像素、97像素、139像素、198像素，共10个anchor；然后，利用RPN网络的softmax分类确定所述表格图像中的文本；最后，利用Bounding boxregression，确定文本的中心坐标y与高度，并结合预设的10个文本框的大小，通过回归计算，将文本框与文本进行对齐，从而确定出多个文本框。

这里，将文本框与文本进行对齐后，为了确定出一个单元格内的文本框，可以利用下面的约束条件，从与文本对齐的多个文本框中剔除不在一个单元格内的文本框。约束条件具体包括：

第一个约束条件，即文本行的长度不超过表格中单一单元格的区域的宽度，即终止符在单元格内；

第二个约束条件，即同一个单元格内单字之间的间隔较大的也进行文本框合并；

第三个约束条件，即对于检测出的跨单元格分割线的文本行进行过滤，这里对于跨单元格的判断以检测出的文本行的矩形框的中心点坐标是否超出单元格边界坐标作为文本行是否跨单元格；

第四个约束条件，即对于文本行高度覆盖了整个单元格的高度的单元格进行删除。即文本行的最低y坐标小于单元格的最低y坐标且文本行的最高y坐标大于单元格的最高y坐标。

需要说明的是，通过上述四个约束条件，可以保证后续得到的文本行覆盖在一个单元格内，不会出现跨单元格的问题，也不会出现同一单元格的内容缺失丢失的问题。

实际应用时，考虑到文本行中的多个文本之间可以相距较远，也可以相距较近，因此，可以针对一个单元格的多个文本框中每个文本框，确定与相应文本框的距离较远的多个文本框，如此，可以最大概率确定出一个文本行包含的所有文本。

基于此，在一实施例中，所述从所述至少两个第一文本框中选取满足第二预设条件的至少两个第二文本框，包括：

这里，所述对相应单元格内的至少两个第一文本框中进行水平排序，可以是指根据至少两个第一文本框的中心坐标进行水平排序。

实际应用时，为了准确提取出一个文本行，针对一个单元格的多个文本框中每个文本框，可以确定与相应文本框的距离较远的多个文本框时，并从距离较远的文本框中选取文本框重合区域最多的文本框。

基于此，在一实施例中，所述搜索与第i个文本框的重合高度满足第二预设条件的第j个文本框，包括：

这里，可以利用文本线构造算法即CTPN算法，对单元格内的文本进行拼接得到文本行，具体实现过程可以包括：

步骤1：对单元格内的多个文本框(anchor box)按照x轴坐标进行水平排序；

步骤2：对于每个anchor box，执行正向搜索，即，沿水平正方向，寻找和该anchor_i在同一个单元格内水平距离尽可能大的一系列候选anchor；从候选 Anchor中，挑出与anchor_i竖直方向重合高度overlap>0.7的anchor，得到多个 anchor；从多个anchor中选取最大重合高度的anchor，用anchor_j表示，需要说明的是，当最大重合高度的achor有多个时，选取与achor_i水平距离最远的 anchor，用anchor_j表示。再按照水平负方向，寻找和该anchor_j在同一个单元格内水平距离尽可能大的一系列候选anchor；从候选Anchor中，挑出与 anchor_j竖直方向重合高度overlap>0.7的anchor，得到多个anchor；从多个anchor中选取最大重合高度的anchor，用anchor_k表示，需要说明的是，当最大重合高度的achor有多个时，选取与achor_j水平距离最远的anchor，用 anchor_k表示。

步骤3：用score_ij表示文本框anchor_i到文本框anchor_j的距离，用score_jk表示文本框anchor_j到文本框anchor_k的距离；比较score_ij和score_jk，如果 score_ij>score_jk，则i，j是一个最长连接，设置Graph(i,j)＝True，即文本框anchor_i 与文本框anchor_j是联通的；否则，说明i，j不是最长连接，即，该连接肯定包含在另外一个更长的连接中。

步骤4：综合特征图(Graph)中与文本框对应的节点是否联通以及文本框 anchor_i和文本框anchor_j是否在同一单元格内，对文本行进行合并。

举例来说，如图5所示，单元格1中包含第一文本框有5个，用文本框1、文本框2、文本框3、文本框4、文本框5表示，对5个第一文本框进行水平排序，将处于同一个水平位置的文本框1、文本框2、文本框3划分为一组，将处于同一个水平位置的文本框4、文本框5划分为一组。假设距离阈值为1mm，文本框1与文本框2之间的水平距离为1mm，文本框1与文本框3之间的水平距离为2mm，则按照水平正方向，针对文本框1，搜索到文本框2和文本框3，假设文本框3与文本框1的重合程度最大，则按照水平反方向，针对文本框3，搜索到文本框1，由于文本框1与文本框3之间的水平距离与文本框3到文本框1的水平距离相等，因此，对文本框1、文本框2和文本框3中的文本进行拼接，得到文本行，如“我爱中国”。

在一示例中，如图6所示，描述对表格图像中单元格中的文本进行拼接得到文本行的过程，包括：

步骤601：对单元格内的至少两个第一文本框中进行水平排序，得到排序后的至少两个第一文本框；

步骤602：针对所述排序后的至少两个第一文本框中的第i个第一文本框，按照水平正方向，搜索与第i个文本框的重合高度满足第二预设条件的第j个文本框；并按照水平反方向，搜索与第j个文本框的重合高度满足第二预设条件的第k个文本框；

步骤603：确定第一i个文本框到第j个文本框之间的第一水平距离；并确定第j个文本框与第k个文本框之间的第二水平距离；

步骤604：当所述第一水平距离大于或等于所述第二水平距离时，对所述第i个文本框和所述第j个文本框之间的至少两个文本框内的文本进行拼接，得到文本行。

这里，对表格图像中单元格中的文本进行拼接得到文本行，具备以下优点：

(1)对单元格内的文本进行文本行拼接时，以水平正方向和水平反方向进行搜索连接最长的文本框，从而根据最长连接的文本框提取出完整的文本行。能够避免相关技术中由于文本相距较远导致无法进行合并问题的发生，准确提取文本行信息，保证文本行内容不缺失。

(2)对CTPN文本检测算法进行了改进，即，在使文本的检测范围不会和单元格的位置发生冲突的情况下，按照水平正和水平反方向搜索连接最长的文本框，从而避免了相关技术中检测文本行断句、中止、出现遗漏或过长问题的发生。

(3)采用改进后的CTPN对整张表格图片进行文字检测，即，将表格图像输入到CTPN网络，采用CTPN网络的特征提取网络CNN、BiLSTM网络、FC 卷积，得到表格图像的空间与序列特征向量；将得到的空间与序列特征向量输入到Faster-RCNN中的RPN网络中，实现表格图像中文本与预设文本框的对齐；并按照水平正和水平反方向搜索连接最长的文本框，对连接最长的文本框包含的文字进行拼接得到了文本行。

实际应用时，考虑到可以按照属性名称和属性值的方式在表格中存储文本信息，即，表格中文本之间存在特定的依赖关系，例如，针对机票表格，属性名称可以为：出发地，属性值可以为：北京。

基于此，在一实施例中，所述从所述至少两个单元格中确定位于基准行的至少两个第一单元格和位于基准列的至少两个第二单元格；

基于确定的具有从属关系的多个单元格，构建树结构；

将所述树结构作为所述至少两个单元格的表格结构。

这里，在表格结构中各节点对应表格中各个单元格，各节点的属性信息为各单元格中的文本信息。

实际应用时，为了准确提取表格中的文本信息，可以将表格中多个单元格构建为具有从属关系的树结构，如此，后续可以在树结构中对应的节点中存储对应的文本信息，提高文本信息提取的准确率。

基于此，在一实施例中，所述基于确定的具有从属关系的多个单元格，构建树结构，包括：

其中，所述第一方向与所述第二方向不同。

这里，可以按照表格图像中表格区域的特征点坐标，将表格中最左方一列和最上方一行作为基准列与基准行，并按照从左到右和从上到下建立具有从属关系的多叉树结构。

表1是表格结构的示意图，如表1所示，位于基准行的单元格为最上方一行单元格，即a-b-c，位于基准列的单元格为最左边一行单元格，即a-d。如表1 所示，最上方一行单元格为a-b-c，分别属于两棵树的一级子节点，然后从左到右，按照之前单元格的坐标之间的包含关系建立树节点的父子关系，可以得到一棵树，如图7所示；同理也可以得到自上向下的一棵树，如图8所示。树结构中，任何节点若其子节点分叉大于1个，即可认为子节点的内容与父节点是从属关系，而如果子节点只有一个，如图7中从左到右树下的a→b→c，是他们之间是并列关系。需要说明的是，构造父子关系时，从左往右子树保证子节点的高度完全被父节点包含才能成为父子节点关系；从上到下子树构造时保证子节点的宽度完全被父节点包含才能成为父子节点关系。

表1

在一示例中，如图9所示，描述确定表格图像中至少两个单元格对应的表格结构的过程，包括：

步骤901：从至少两个单元格中确定位于基准行的至少两个第一单元格和位于基准列的至少两个第二单元格；

步骤902：利用与所述至少两个第一单元格具有从属关系的多个单元格，按照第一方向构建树结构；

步骤903：利用与所述至少两个第二单元格具有从属关系的多个单元格，按照第二方向构建树结构；

其中，所述第一方向与所述第二方向不同。

这里，在确定表格图像中至少两个单元格对应的表格结构后，可以将对文本行识别得到的识别文本存储在表格结构对应的节点中。

这里，对文本行识别得到识别文本后，还可以从预设词典中检索所述识别文本，当检索到所述识别文本时，将所述识别文本存储在表格结构的对应节点中。

针对常用表格，建立一些先验的词组短语字典，例如，针对发票类表格，可以建立：“供应商”，“购买方“，”销售方“，”发票代码“等等。当单元格包含一个文本行时，若对单元格的文本行进行识别得到识别文本不在字典内，则在表格结构中不存储该识别文本；当单元格包含多个文本行时，若对单元格的多个文本行进行识别得到识别文本不在字典内，则在表格结构中不存储该识别文本，即，同一单元格内分布的一个或多个文本行属于字典中的词组短语时才进行存储。

这里，确定表格图像中至少两个单元格对应的表格结构，具备以下优点：

(1)以第一方向和第二方向构建的两棵树的结构，可以将整张表格的文本信息保存下来，由于树结构中节点之间具有从属关系，因此节点存储的文本信息也具备从属关系，从而能够将具有依赖关系的信息准确提取出来，完成整张表格的文字识别和内容提取。

(2)利用表格结构存储单元格对应的文本信息时，若单元格对应的文本行信息在预设词典中，则将文本行信息存储在表格结构中对应的节点中；若单元格对应的文本行信息不在预设词典中，则不将文本行信息存储在表格结构中对应的节点中，如此，保证提取的表格信息的准确性。

采用本发明实施例的技术方案，提取表格图像中表格区域中至少两个单元格形成的表格结构，并提取至少两个单元格分别对应的文本行信息，如此，基于表格结构和文本行信息形成表格信息，由于能够结合表格的结构和文本信息形成表格信息，因此，能够实现准确提取出表格信息。

为实现本发明实施例的信息提取方法，本发明实施例还提供一种信息提取装置，设置在终端上，图10为本发明实施例信息提取装置的组成结构示意图；如图10所示，所述装置包括：

采集单元101，用于采集表格图像；

第一处理单元102，用于利用预设第一网络模型，对所述表格图像中表格区域进行分割和定位，得到至少两个单元格；

第二处理单元103，用于针对所述至少两个单元格中每个单元格，结合预设第二网络模型，确定相应单元格中的文本行；

第三处理单元104，用于利用预设第三网络模型，对所述至少两个单元格中的文本行分别进行识别，得到识别文本；

第四处理单元105，用于确定所述至少两个单元格对应的表格结构，并利用所述表格结构和所述识别文本，形成表格信息。

在一实施例中，所述第一处理单元102，具体用于：

在一实施例中，所述第二处理单元103，具体用于：

在一实施例中，所述第四处理单元105，具体用于：

基于确定的具有从属关系的多个单元格，构建树结构；

将所述树结构作为所述至少两个单元格的表格结构。

在一实施例中，所述第四处理单元105，具体用于：

其中，所述第一方向与所述第二方向不同。

实际应用时，所述采集单元101可由信息提取装置中的通信接口实现；所述第一处理单元102、第二处理单元103、第三处理单元104、第四处理单元105 由信息提取装置中的处理器结合通信接口实现。

需要说明的是：上述实施例提供的信息提取装置在进行信息提取时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的信息提取装置与信息提取方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本发明实施例还提供了一种电子设备，如图11所示，包括：

通信接口111，能够与其它设备进行信息交互；

处理器112，与所述通信接口111连接，用于运行计算机程序时，执行上述智能设备侧一个或多个技术方案提供的方法。而所述计算机程序存储在存储器113上。

需要说明的是：所述处理器112和通信接口111的具体处理过程详见方法实施例，这里不再赘述。

当然，实际应用时，电子设备110中的各个组件通过总线系统114耦合在一起。可理解，总线系统114用于实现这些组件之间的连接通信。总线系统114 除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图11中将各种总线都标为总线系统114。

本申请实施例中的存储器113用于存储各种类型的数据以支持终端110的操作。这些数据的示例包括：用于在电子设备110上操作的任何计算机程序。

上述本申请实施例揭示的方法可以应用于所述处理器112中，或者由所述处理器112实现。所述处理器112可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过所述处理器112中的硬件的集成逻辑电路或者软件形式的指令完成。上述的所述处理器112可以是通用处理器、数字数据处理器(DSP，Digital SignalProcessor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述处理器112可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器113，所述处理器112读取存储器113中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，电子设备110可以被一个或多个应用专用集成电路 (ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD， ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU，Micro Controller Unit)、微处理器(Microprocessor)、或者其他电子元件实现，用于执行前述方法。

可以理解，本申请实施例的存储器(存储器103)可以是易失性存储器或者非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-OnlyMemory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-OnlyMemory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-OnlyMemory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器 (ESDRAM，Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本申请实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在示例性实施例中，本发明实施例还提供了一种存储介质，即计算机存储介质，具体为计算机可读存储介质，例如包括存储计算机程序的存储器113，上述计算机程序可由控制服务器110的处理器112执行，以完成前述控制服务器侧方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、 EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

另外，本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种信息提取方法，其特征在于，所述方法包括：

采集表格图像；

2.根据权利要求1所述的方法，其特征在于，所述利用预设第一网络模型，对所述表格图像中表格区域进行分割和定位，得到至少两个单元格，包括：

从形成的至少两个单元格中选取满足第一预设条件的至少两个单元格，得到至少两个单元格。

3.根据权利要求2所述的方法，其特征在于，所述从形成的至少两个单元格中选取满足第一预设条件的至少两个单元格，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述针对所述至少两个单元格中每个单元格，结合预设第二网络模型，确定相应单元格中的文本行，包括：

5.根据权利要求4所述的方法，其特征在于，所述从所述至少两个第一文本框中选取满足第二预设条件的至少两个第二文本框，包括：

6.根据权利要求5所述的方法，其特征在于，所述搜索与第i个文本框的重合高度满足第二预设条件的第j个文本框，包括：

7.根据权利要求1所述的方法，其特征在于，所述确定所述至少两个单元格对应的表格结构，包括：

基于确定的具有从属关系的多个单元格，构建树结构；

将所述树结构作为所述至少两个单元格的表格结构。

8.根据权利要求7所述的方法，其特征在于，所述基于确定的具有从属关系的多个单元格，构建树结构，包括：

其中，所述第一方向与所述第二方向不同。

9.一种信息提取装置，其特征在于，包括：

采集单元，用于采集表格图像；

10.一种电子设备，其特征在于，包括：

通信接口，用于采集表格图像；

11.一种电子设备，其特征在于，包括处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行权利要求1至8任一项所述方法的步骤。

12.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。