CN110399878B

CN110399878B - 表格版式恢复方法，计算机可读介质以及计算机

Info

Publication number: CN110399878B
Application number: CN201910515447.5A
Authority: CN
Inventors: 熊永平; 杨靖民; 伍贵宾
Original assignee: Nanjing Huoyanruishi Information Technology Co ltd
Current assignee: Nanjing Huoyanruishi Information Technology Co ltd
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2023-05-26
Anticipated expiration: 2039-06-14
Also published as: CN110399878A

Abstract

本发明公开了一种表格版式恢复方法，计算机可读存储介质以及计算机，其中该方法包括：利用OCR识别技术识别表格图像，输出表格文字块；采用渐进式投影法提取表格的行向量；采用对齐特征查找法恢复表格的列向量，直至得到表格的全部列向量；得到全部列向量之后，将列向量按每个向量首位文字块的横坐标升序排序，得到排序后的列向量，从而得到二维矩阵形式的表格。根据本发明的技术方案，充分利用了OCR识别结果中的形态学信息，避免依赖表格框线，提高了表格版式识别的准确率。

Description

表格版式恢复方法，计算机可读介质以及计算机

技术领域

本发明涉及表格图像识别领域，尤其涉及一种通过提取行向量和列向量来恢复表格版式的新颖表格版式恢复方法。

背景技术

由于表格具有简洁的数据组织方式以及明确的数据统计方法，所以各行各业都会使用表格办公。表格是一种用于表示数据之间的逻辑关系的载体，常用的表格类型有以列为属性、以行为对象的标准表格，以及键在左、值在右的复杂表格。

但随着办公中纸质表格使用的增加，随之而来的是大量需要处理与统计的表格数据，处理这些数据需要耗费大量人力。若通过计算机对扫描后的表格图像进行提取并还原成电子表格，就能够通过程序批量处理并分析表格的各项数据，提高办公效率。

目前主流的表格识别及提取系统分为两类，一类是使用深度学习方式从图像中直接提取表格特征的方法，这种方式的优点是端到端，输入图像输出提取结果，没有中间结果。缺点是识别率不高，并且会出现同一个表格嵌套识别的问题。

还有一类是利用形态学来检测表格的一些特征，如表格框线。这种方式的优点是流程清晰，准确率稍高，但缺点是依赖表格框线的特性，若遇到无框线的表格，这种方法便失效。

发明内容

鉴于以上问题，做出本发明。根据本发明一方面，提供一种表格版式恢复方法，包括：利用OCR识别技术识别表格图像，输出表格文字块的集合，所述表格文字块包括该表格文字块的左上角点在表格图像中的坐标、表格文字块的宽度及高度、表格文字块内包含的文本信息；采用渐进式投影法提取表格文字块的集合的行向量，包括：将OCR输出的表格文字块按纵坐标排序，取排序后的首位文字块作为基准文字块；利用文字块的高度关系，在剩余文字块中查找与所述基准文字块构成同行关系的文字块集合Li；将集合Li中包含的文字块按横坐标升序排列，形成一个行向量；重复执行以上步骤，直至得到表格的全部行向量；采用对齐特征查找法恢复表格的列向量：从上述全部行向量中，取出向量维度最高的行向量，作为基准行向量L；取基准行向量L中的文字块，利用文字块左上角点横坐标以及文字块宽度，在剩余行向量中，查找与基准行向量中的文字块处于列对齐关系的文字块，将这样的文字块集合作为基准行向量中的文字块的列集合；将列集合中包含的文字块按纵坐标升序排列，形成一个列向量；重复执行以上步骤，直至得到表格的全部列向量；得到全部列向量之后，将列向量按每个向量首位文字块的横坐标升序排序，得到排序后的列向量，从而得到二维矩阵形式的表格。

根据本发明另一方面，提供一种计算机可读存储介质，其上存储有计算机可读指令，该计算机可读指令在被计算机运行时执行上述表格版式恢复方法。

根据本发明又一方面，还提供一种计算机，包括：存储器，用于存储由处理器运行的指令；处理器，用于运行指令以执行上述表格版式恢复方法。

根据本发明的技术方案，充分利用了OCR识别结果中的形态学信息，避免依赖表格框线，提高了表格版式识别的准确率。

附图说明

图1示出了根据本发明实施方式的表格版式恢复方法的流程图。

图2示出了根据本发明实施方式采用渐进式投影法提取表格的行向量的流程图。

图3示出了根据本发明实施方式采用对齐特征查找法恢复表格的列向量的流程图。

图4示出了根据本发明实施方式的数据项粘连切分过程的流程图。

图5（a）示出了通过OCR技术将表格图像识别为表格文字块的结果示例图。

图5（b）示出了将图5（a）所示的表格文字块按纵坐标升序排序后得到的结果示例图。

图6是示出了可作为用来实现根据本发明实施例的表格版式恢复方法的信息处理设备的通用计算机系统的结构简图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明旨在于避免依赖表格框线的情况下，尽可能地提高表格版式识别的准确率。本发明技术方案的总思想是：针对标准的行列式表格，利用OCR识别表格图像后的结果作为本发明的输入对象，该OCR识别表格图像后的结果包括以空间中相对独立的词语为单位划分出的文字块以及该文字块中的文本信息，再通过渐进式投影法和对齐特征查找法恢复表格版面的行与列信息，进而得到二维矩阵形式的表格版式。

下面参照图1描述本发明的具体实施方式。如图1所示，根据本发明实施方式的表格版式恢复方法包括以下步骤：

S110：利用OCR识别技术识别表格图像，输出表格文字块的集合。

具体地，可以利用成熟OCR识别技术识别表格图像，输出表格文字块。这些表格文字块将作为本方法的输入对象。表格文字块包括该表格文字块的左上角点在表格图像中的坐标、表格文字块的宽度及高度，以及表格文字块内包含的文本信息。

图5（a）示出了该表格文字块的集合的示例图。如图5（a）所示，每个框表示一个表格文字块，记作(x,y,w,h)，其中(x,y)是框的左上角点在整体图像中的横坐标和纵坐标，w为框的宽度，h为框的高度。

S120：采用渐进式投影法提取表格文字块集合的行向量，该步骤如图2所示具体包括：

S1200：将OCR输出的表格文字块按纵坐标排序，取排序后的首位文字块作为基准文字块；

如上所述，表格文字块由OCR识别出的像素块位置信息以及像素块内包含的文字信息组成，排序指的是利用表格文字块的像素块位置信息进行排序。

假设文字块b_i的像素块位置信息由(x_i，y_i，w_i，h_i)表示，其中x_i，y_i分别表示该像素块左上角点的横坐标和纵坐标，w_i，h_i分别表示该像素块的宽度和高度。将OCR识别输出的全部表格文字块按纵坐标y_i排列，并取排序后位于首位的文字块作为基准文字块。

在本发明实施方式中，可以取表格图像的左上角点为坐标原点，向右为x轴正方向，向下为y轴正方向，那么上述的排序就是按纵坐标y_i进行升序排序。

以图5（a）所示的表格文字块为例，按纵坐标升序排序后得到的部分结果如图5（b）所示。

S1210：利用文字块的高度关系，在剩余文字块中查找与基准文字块构成同行关系的文字块集合L_i。

具体地，基准文字块的作用是初始化一个临时行高。假设基准文字块为b₁，将基准文字块的纵坐标与高度组合成区间形式，如(y₁,y₁+h₁)，该区间用以表示基准文字块所在行的像素区间，记为临时行高(H₀,H₁)。

遍历剩余的表格文字块，判断其纵坐标与高度组成的区间是否与临时行高有重叠部分。比如针对文字块为b_i，其像素区间为(y_i,y_i+h_i)，计算其与临时行高的重叠比例，如下式：

，

其中，

即为重叠比例。若/>

大于预先设定的重叠比例阈值，则认为文字块b_i与基准文字块处于同一行，构成同行关系。该阈值的设置可以根据表格情况：若表格图像的同一行中包含多种字号文字，阈值可设置得较低，从而确保属于同一行的文字块能够被加入该行的行向量中；若同一行中文字字号一致，阈值可设置得较高，从而避免不属于该行的行向量的文字块被误加入其中。关于此处使用的术语“高”与“低”，其含义对本领域技术人员而言是清楚的。本领域技术人员知道该术语所表示的范围，比如，一般来说，该阈值会设为落在区间0.6-0.9。

优选地，在判断出文字块b_i与基准文字块b₁处于同一行后，可同步更新临时行高：

重复本步骤，直到剩余文字块全部被遍历一次，将满足重叠比例大于阈值条件的文字块挑选出来，与基准文字块b₁组成一个集合L_i。

S1220：将集合L_i中包含的文字块按横坐标升序排列，形成一个行向量。

如果形成的行向量仅有基准文字块一个元素，说明没有文字块与其同行，则认为基准文字块不属于表格数据项，予以剔除。也就是说，本步骤可得到一个行向量，或排除一个与表格无关的文字块。

S1230：重复执行以上步骤，直至得到表格的全部行向量。

转到步骤S1200，以下一个首位文字块作为基准文字块，继续提取行向量，直到全部文字块均被分配至行向量或被剔除，这样就获得了表格的全部行向量。

得到上述表格行向量后，就获取到了表格的行信息，为恢复表格的版式，还需要表格的列信息，列信息的提取步骤如下：

S130：采用对齐特征查找法恢复表格的列向量，该步骤如图3所示具体包括：

S1300：从上述全部行向量中，取出向量维度最高的行向量，作为基准行向量L。

具体地，遍历S1230得到的全部行向量，取出向量维度最高的行向量作为基准行向量。

其中，行向量的维度表示该行包含的文字块数量，同时也表示在没有其他数据支持的情况下，该行所能提取出的最大列数。取维度最高的行向量则是为了保证能够将全部表格列囊括在内。假设基准行向量为L，基准行向量L的维度为M，假定M为表格的临时列数。

S1310：取基准行向量L中的文字块，利用文字块左上角点横坐标以及文字块宽度，在剩余行向量中，查找与基准行向量中的文字块处于列对齐关系的文字块，将这样的文字块集合作为基准行向量中的文字块的列集合。

具体地，基准行向量中的每一个文字块都有可能属于表格的某一列，或是不属于任何列的干扰项，判断方法是在其他行向量中寻找与当前文字块构成列对齐关系的文字块。

其中，优选地，列对齐关系可以有三种，分别为左对齐、中对齐、右对齐，对齐关系的判断可由对齐距离得到。对齐距离指的是两文字块在特定对齐关系下的像素距离，可通过两个文字块的左上角点横坐标以及文字块宽度计算得出。比如可以如下计算任意两文字块b_i、b_j之间的对齐距离：

结果D_k(k∈{left,center,right})表示两文字块的对齐距离，单位为像素。利用下式将D_k归一化获得结果R_k：

R_k作为对齐距离的归一化结果，范围是0-1，取值越小说明两文字块对齐越精准，对齐关系越强。计算列对齐关系的方式和归一化方式在本发明中不受限制，本领域技术人员可以根据实际需要采用其他计算方式。

假设取基准行向量中的文字块b_j，记一个三元组(l_j,m_j,r_j)用于维护b_j所表示列的对齐关系。l_j、m_j、r_j均为集合，其中，l_j用于存储与文字块b_j左对齐的文字块；m_j用于存储与文字块b_j中对齐的文字块；r_j用于存储与文字块b_j右对齐的文字块。

在遍历剩余行向量中的文字块的过程中，将满足对齐关系的文字块添加至对应的集合中，得到l_j、m_j、r_j三个集合。是否满足对齐关系可通过计算R_k、判断R_k是否小于阈值来确定，在实践中阈值一般取在0.3以下。

在将剩余行向量的文字块遍历完后，从l_j、m_j、r_j中选出包含文字块数量最多的集合作为文字块b_j的列集合C_j。之所以如此选择，是因为三个集合分别对应于三种对齐方式，通常来说，表格文字块若满足了左对齐，就可能不满足中对齐和右对齐，除非该列中每个文字块的文字长度相同。三个集合中文字块数量最多的集合所对应的对齐方式才是该列最有可能的对齐方式。本领域技术人员还可以根据表格的实际情况进行其他选择，本发明在此不受限制。

S1320：将列集合中包含的文字块按纵坐标升序排列，形成一个列向量；

若向量仅有文字块b_j一个元素，说明所述文字块b_j是不属于任何表格列的干扰项，予以剔除。也就是说，本步骤可得到一个列向量，或排除一个与表格无关的文字块。

S1330：重复执行以上步骤，直至得到表格的全部列向量。

具体地，转到步骤S1310，从基准行向量L中的下一个文字块，继续提取表格的列向量，直至找完行向量L中所有文字块的列向量。这样全部文字块均被分配至列向量或被剔除，从而获得了表格的全部列向量。

S140：得到全部列向量之后，将列向量按每个向量首位文字块的横坐标升序排序，得到排序后的列向量，从而得到二维矩阵形式的表格。

可通过矩阵的下标索引到具体的文字块，提高表格读写速度。

以上是先得到表格的行向量，然后再提取表格的列向量。这是因为对于表格来说，一般而言，横向观察时，行高是由该行文字的字号大小决定的，不会因为文字量的多少而改变，所以同一行中的不同文字块可以共享相同的行高；而纵向观察时，每个文字块的宽度是由其文字数量决定的（如图5（a）所示），存在处于同一列的两个文字块一长一短的情况，所以不能通过计算文字块的重叠比例来得到列向量。然而，本发明实施方式不限于此，本领域技术人员可以根据表格的实际情况，选择先计算行向量还是列向量，比如在表格的列宽度相差不大，然而行向量字体大小不一、难以根据阈值进行同行判断的情况下，可以先计算列向量、再计算行向量。

由于OCR是通过图像的像素级别信息来识别文字以及划分文字块，单个文字的像素投影图中，像素分布几乎是连续的；一个词语的像素投影图中，像素分布是有规律的小间隔分布；表格一行数据项的像素投影图中，数据项间大概率会有较大的间隔，但也会存在两个数据项紧连在一起的情况。

实际情况中，有些表格样式相同，但是数据项长短不一，若两个相邻数据项均过长，就会产生数据项粘连，增加识别难度。如图5（a）所示，第一行第二个文字块，药品编号和药品规格被划分到同一个单元格，这就是OCR识别误差导致的。这时仅使用像素级别信息就无法准确地将两个数据项分割开，导致OCR在识别表格时无法正确划分表格中两个紧连的数据项。

根据本发明实施例的表格版式恢复方法，还可以包括数据项粘连切分步骤。如参考图4所示，该步骤包括：

S410：对表格图像进行OCR识别，并人工筛选校正，选取出用于训练的表格文本。

这里得到的表格文本仅包含文本信息，不包含文字块的坐标信息。

S420：针对特定领域，采用基本的4-tag(BMES)标注标签，对表格文本进行标注，词首标注为B，词尾标注为E，词中均标注为M，单字标注为S。

以医疗领域为例，采用基本的4-tag(BMES)标注标签对表格文本进行标注，词首标注为B，词尾标注为E，词中均标注为M，单字标注为S。鉴于百分比、含单位的数量值等经常出现于药品名称规格中，若将其按字标注会大大降低训练效果，故将百分比、含单位的数量值作为整体进行标注。例如“0.9%葡萄糖注射液500ml”，将“0.9%”作为该词语的首部，标注为B，将“500ml”作为该词的尾部，标注为E，剩余部分每个汉字均标注为M。标注结果为“0.9%/B葡/M萄/M糖/M注/M射/M液/M500ml/E”。

S430：基于如上标注的表格文本，采用条件随机场模型训练得到的分词器，对产生数据项粘连的表格文字块进行切分。

具体地，采用条件随机场模型从语义层面切分产生数据项粘连的表格文字块。条件随机场（CRF）广泛应用于自然语言处理领域， CRF是一个判别式模型，模型经过学习后直接得到概率P(y│x)，其中y表示状态序列，x表示观测序列。利用条件随机场训练出的分词器，将表格文字块中的文本输入进去，输出即可直接得到文本的分词位置，也即表格文字块的切分位置。

根据本发明以上技术方案，在生成二维矩阵后，运用自然语言处理方法对产生数据项粘连的表格文字块进行切分。自然语言处理方法是指运用预先训练的特定领域内表格文本分词器，对产生数据项粘连的表格文字块中的文本进行切分。由于表格相邻两列的构词特征不同，粘连的两个数据项有较为明显的词首词尾特征，所以通过分词的方式可有效切分出粘连在一起的两个数据项，从而解决形态学中无法准确识别的粘连问题。

根据本发明实施方式的技术方案既从形态学的角度恢复出表格的基本版式，又从自然语言处理角度利用文本训练出的分词器对表格进行精确还原，充分利用了OCR识别结果中的形态学信息以及文本信息，构建出一套更完整的表格版式恢复的方案。

上面已通过框图、流程图对本发明实施例进行了详细描述。本领域的技术人员明白，本说明书中描述的实施方式的一些方面能够全部或部分地以在一个或多个计算机上运行的一个或多个计算机程序的形式、以在一个或多个处理器上运行的一个或多个程序的形式、以固件的形式、或以实质上它们的任意组合的形式等效地实施，并且，根据本说明书中公开的内容，设计用于本公开的电路和/或编写用于本公开的软件和/或固件的代码完全是在本领域技术人员的能力范围之内。

例如，上述表格版式恢复方法的处理流程图中的各个步骤可以通过软件、固件、硬件或其任意组合的方式来执行。在通过软件或固件实现的情况下，可从存储介质或网络向具有专用硬件结构的计算机（例如图6所示的通用计算机600）安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能。

因此，本发明还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的表格版式恢复方法。相应地，用于承载这种程序产品的上面列举的各种存储介质也包括在本发明的公开中。

图6是示出了可作为用来实现根据本发明实施例的表格版式恢复方法的信息处理设备的通用计算机系统的结构简图。计算机系统600只是一个示例，并非暗示对本发明的方法和装置的使用范围或者功能的局限。也不应将计算机系统600解释为对示例性操作系统600中示出的任一组件或其组合具有依赖或需求。

在图6中，中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中，还根据需要存储当CPU 601执行各种处理等等时所需的数据。CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。

下述部件也连接到输入/输出接口605：输入部分606（包括键盘、鼠标等等）、输出部分607（包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等）、存储部分608（包括硬盘等）、通信部分609（包括网络接口卡例如LAN卡、调制解调器等）。通信部分609经由网络例如因特网执行通信处理。根据需要，驱动器610也可连接到输入/输出接口605。可拆卸介质611例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器610上，使得从中读出的计算机程序可根据需要被安装到存储部分608中。

在通过软件实现上述系列处理的情况下，可以从网络例如因特网或从存储介质例如可拆卸介质611安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘（包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 602、存储部分608中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围（包括权利要求）被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路（IC）芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的（即，这些细节应当完全处于本领域技术人员的理解范围内）。在阐述了具体细节（例如，电路）以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构（例如，动态RAM（DRAM））可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。