CN111062259B

CN111062259B - 表格识别方法和装置

Info

Publication number: CN111062259B
Application number: CN201911164515.4A
Authority: CN
Inventors: 刘亚; 宋慧驹; 刘兴旺; 刘岩
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2023-08-25
Anticipated expiration: 2039-11-25
Also published as: CN111062259A

Abstract

本发明公开了一种表格识别方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：识别待检测图像中的字符，将识别出的字符根据字符的纵向位置信息生成文本行；对文本行进行分词处理，依据分词结果确定文本行在表格行属性维度和/或表格内容维度所属的类别，利用确定的文本行类别获取属于同一表格的多个文本行；确定所述多个文本行共有的列分隔线以实现表格识别。该实施方式能够准确识别出表格的版式结构以及单元格中的文本数据。

Description

表格识别方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及表格识别方法和装置。

背景技术

随着无纸化办公的推进，以及业务流程和监管部门对客户资料电子化存档的要求，此前以打印、复印等形式存在的纸质文书资料现在通常以扫描或拍摄后的数字图像形式进入办公信息系统，从而积累了大量的数字图像资料。这些数字图像中包含的文本内容无法直接由信息系统处理，需要由光学字符识别OCR(Optical Character Recognition)系统识别成计算机字符数据后方可为信息系统所处理。但对于以表格形式组织的文本内容，OCR系统仅可以识别出一个个的字符数据或更进一步识别出词语数据，难以准确识别表格的版式结构(即表格的位置和行、列结构信息)，因此亦难以提取表格单元格中的文本数据做进一步处理。

现有的识别数字图像中表格文本的方案主要通过分析整页数字图像的光学特征来检测表格行列框线位置以检测表格的版式结构。但由于下列因素，此种检测准确率较低，一般仅适用于输入图像质量比较好、表格位置和版式比较固定、表格框线比较显著的情况。这些因素包括：1)图像存在倾斜、透视畸变、扫描噪点、拍摄反光或曝光问题；2)表格有底色和底纹干扰；3)表格起止位置不固定；4)一页图像中存在多个表格；5)表格外围、行间或列间没有框线；6)表格跨两个或多个数字图像；7)表格左右分栏等情形等。其中的1)和2)尚可以通过图像预处理的方式加以规避，但3)、4)、5)、6)、7)等涉及到表格版式变化，已经难以通过图像处理的方式来解决。

发明内容

有鉴于此，本发明实施例提供一种表格识别方法和装置，能够准确识别出表格的版式结构以及单元格中的文本数据。

为实现上述目的，根据本发明的一个方面，提供了一种表格识别方法。

本发明实施例的表格识别方法包括：识别待检测图像中的字符，将识别出的字符根据字符的纵向位置信息生成文本行；对文本行进行分词处理，依据分词结果确定文本行在表格行属性维度和/或表格内容维度所属的类别，利用确定的文本行类别获取属于同一表格的多个文本行；确定所述多个文本行共有的列分隔线以实现表格识别。

可选地，所述识别待检测图像中的字符，包括：使用光学字符识别方法识别待检测图像，得到识别出的多个字符以及每一字符的横向位置信息和纵向位置信息。

可选地，所述将识别出的字符根据字符的纵向位置信息生成文本行，包括：将纵向位置信息符合预设条件的字符确定为同一文本行；或者，将识别出的每一字符的纵向位置信息和高度信息输入预先建立的文本行聚类模型，得到至少一个文本行；以及，所述方法进一步包括：在生成文本行之后，保持文本行中每一字符的所述横向位置信息；在待检测图像为一幅时，按照文本行中字符的所述纵向位置信息沿纵向排列文本行；在待检测图像为多幅时，按照文本行的页码信息以及文本行中字符的所述纵向位置信息沿纵向排列文本行。

可选地，文本行在表格行属性维度和/或表格内容维度所属的类别包括：任一种表格内容的表头行、任一种表格内容的表内行以及表外行；以及，所述依据分词结果确定文本行在表格行属性维度和/或表格内容维度所属的类别，包括：依据预先建立的语料库判断任一文本行经分词处理得到的每一词语所属的类别；其中，所述语料库中存储有对应于任一种表格内容的表头行的词语、以及对应于任一种表格内容的表内行的词语；获取该文本行中属于同一类别的词语数量，将词语数量最大的类别确定为该文本行所属的类别；或者，将任一文本行经分词处理得到的每一词语输入预先训练完成的文本行分类模型，得到该文本行所属的类别。

可选地，所述利用确定的文本行类别获取属于同一表格的多个文本行，包括：从上到下遍历排列后的每一文本行：如果当前不存在已确定纵向范围的表格，则将第一次确定的、且类别为任一种表格内容的表头行或者任一种表格内容的表内行的文本行作为待界定表格的首行；如果当前存在已确定纵向范围的表格，则将处于最近的已确定纵向范围的表格下方、第一次确定的、且类别为任一种表格内容的表头行或者任一种表格内容的表内行的文本行作为待界定表格的首行；将待界定表格首行下方、连续的、且类别为该种表格内容的表内行的文本行作为属于待界定表格的文本行，从而确定待界定表格的纵向范围。

可选地，所述确定所述多个文本行共有的列分隔线，包括：对于已确定纵向范围的任一表格，获取该表格中每一文本行相邻词语之间的空白区域的横向坐标区间；以及，确定该表格中全部文本行之间所述横向坐标区间的交集，在该交集的每一连续区间设置一条列分隔线；或者，根据该表格中任一文本行的所述横向坐标区间生成对应于该文本行的一维图像；其中，在该一维图像中，对应于所述横向坐标区间的像素点的像素值为预设非零值，其余像素点的像素值为零；将对应于该表格中每一文本行的一维图像相加，在相加得到的图像中具有极大像素值的像素点的横向坐标设置列分隔线。

可选地，所述方法进一步包括：在判断已确定列分隔线的表格的表头行词语中存在有序重复时，确定该表格包括横向排列的多个表格。

为实现上述目的，根据本发明的另一方面，提供了一种表格识别装置。

本发明实施例的表格识别装置可包括：字符识别与文本行生成单元，用于识别待检测图像中的字符，将识别出的字符根据字符的纵向位置信息生成文本行；纵向范围界定单元，用于对文本行进行分词处理，依据分词结果确定文本行在表格行属性维度和/或表格内容维度所属的类别，利用确定的文本行类别获取属于同一表格的多个文本行；分列单元，用于确定所述多个文本行共有的列分隔线以实现表格识别。

为实现上述目的，根据本发明的又一方面，提供了一种电子设备。

本发明的一种电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明所提供的表格识别方法。

为实现上述目的，根据本发明的再一方面，提供了一种计算机可读存储介质。

本发明的一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明所提供的表格识别方法。

根据本发明的技术方案，上述发明中的一个实施例具有如下优点或有益效果：

其一，本发明主要通过分析表格中字符的位置信息和语义信息实现表格识别。具体来说，首先识别出待检测图像中的字符并确定字符的纵向位置信息和横向位置信息，接着利用字符的纵向位置信息生成文本行，文本行中的每一字符保持其原横向位置；在待检测图像为一幅时，按照文本行中字符的纵向位置信息沿纵向排列文本行；在待检测图像为多幅时，按照文本行对应的页码以及文本行中字符的纵向位置信息沿纵向排列文本行。之后，对文本行分词并利用语料库确定文本行所属的类别，这些类别对应于表格行属性维度和/或表格内容维度，可以包括某一种表格内容的表头行、某一种表格内容的表内行或者表外行。此后从上到下遍历文本行，根据文本行所属类别界定每一表格的纵向范围(即表格包括的文本行)，最后，确定表格各文本行共有的列分隔线从而完成表格版式以及每一单元格的识别。本发明方法适应性强，应用范围广，运算效率高，能够准确识别表格中的各种信息，有效克服现有的基于表格行列框线检测方法的固有缺陷，能够在识别带有框线的表格之外，解决以下场景中的表格识别，这些场景有：1)图像存在倾斜、透视畸变、扫描噪点、拍摄反光或曝光问题；2)表格有底色和底纹干扰；3)表格起止位置不固定；4)一页图像中存在多个表格；5)表格外围、行间或列间没有框线；6)表格跨两个或多个数字图像。

其二，本发明还提供了通过判断文本行类别界定表格纵向范围的方法。具体地，将初次出现的类别为某种表格内容的表头行或者某种表格内容的表内行的文本行作为表格首行，将其后连续出现的类别为该种表格内容的表内行的文本行作为表格中的文本行直到出现另一表头行、其它表格内容的表内行或者表外行，此时意味着表格范围终止。重复以上过程即可确定一页或者多页待检测图像中的每一表格。对于表格跨越两个数字图像的场景，由于表格分属两页的文本行此前已经按照页码与行序排列，因此上述方法能够实现该场景中的表格识别。

其三，本发明还提供一种确定多个文本行共有的列分隔线的方法。具体地，在界定表格的纵向范围之后，可根据表格中文本行空白区域的横向坐标区间生成一维图像，在一维图像中，对应于横向坐标区间的像素点的像素值为预设非零值，其余像素点的像素值为零；此后将由每一文本行生成的一维图像相加，在相加得到的图像中具有极大像素值的像素点的横向坐标即可设置列分隔线。此外，本发明还可通过判断表格的表头行词语是否存在有序重复来确定表格是否左右分栏。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是待检测图像示意图；

图2是本发明实施例中表格识别方法的主要步骤示意图；

图3是本发明实施例中表格识别方法的具体执行步骤示意图；

图4是本发明实施例中表格识别装置的组成部分示意图；

图5是根据本发明实施例可以应用于其中的示例性系统架构图；

图6是用来实现本发明实施例中表格识别方法的电子设备结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

表格识别的难点在于表格版式的识别以及单元格文本数据的确定。现有技术多为通过检测表格行列框线位置来检测表格的版式结构，但由于下列因素，此种检测准确率较低，一般仅适用于输入图像质量比较好、表格位置和版式比较固定、表格框线比较显著的情况。这些因素包括：1)图像存在倾斜、透视畸变、扫描噪点、拍摄反光或曝光问题；2)表格有底色和底纹干扰；3)表格起止位置不固定；4)一页图像中存在多个表格；5)表格外围、行间或列间没有框线；6)表格跨两个或多个数字图像；7)表格左右分栏等情形等。其中的1)和2)尚可以通过图像预处理的方式加以规避，但3)、4)、5)、6)、7)等涉及到表格版式变化，已经难以通过图像处理的方式来解决。图1为待检测图像的示例，如图1所示，表格行间、列间没有框线同时存在左右分栏，现有技术无法对这种表格进行识别，但本发明可通过分析待检测图像中字符的位置信息和语义信息实现表格识别，以下将主要以图1为例进行说明。

需要指出的是，在不冲突的情况下，本发明的实施例以及实施例中的技术特征可以相互结合。

图2是根据本发明实施例中表格识别方法的主要步骤示意图。

如图2所示，本发明实施例的表格识别方法可具体按照如下步骤执行：

步骤S201：识别待检测图像中的字符，将识别出的字符根据字符的纵向位置信息生成文本行。

在本发明实施例中，待检测图像为数字图像，其可以是一副图像或者多幅图像，在其为多幅图像时，可将每一图像按照连续页码进行排列以执行后续处理。在本步骤中，可使用现有的OCR工具对待检测图像进行识别，从而得到识别出的每一字符、字符的横向位置信息和纵向位置信息。在一些实施例中，还可得到每一字符的字体、字号(表征字符大小)以及颜色信息。实际应用中，OCR工具还可针对待检测图像的倾斜、光照不均、噪点、畸变等问题进行校正与图像预处理。

具体应用中，现有的OCR工具在字符识别过程中会在待检测图像中的空白区域中填补一定数量的空白字符(如空格字符)，但是在本发明实施例中，从待检测图像中识别出、并用于后续处理的字符可以不包括这些空白字符，这样能够不受OCR工具可能误输出过多空白字符的影响，从而保障后续步骤的准确性。

此后，可根据字符的纵向位置信息(即纵坐标)生成文本行。可以理解，在同一文本行中，各字符的纵向位置信息相同或者各字符纵向位置信息的差值小于预设的较小阈值。实际应用中，将字符生成文本行的方法有多种，以下将介绍两种。在第一种方法中，将纵向位置信息符合预设条件的字符确定为同一文本行。上述预设条件可以是：首先确定一个基准纵向位置，之后将与该基准纵向位置的纵向距离小于预设阈值的字符确定为同一文本行。在第二种方法中，将识别出的每一字符的纵向位置信息和高度信息输入预先建立的文本行聚类模型，即可得到至少一个文本行。上述文本行聚类模型为无监督的机器学习模型，其可以采用现有的聚类算法如K-Means(K均值算法)实现，其输入数据可以是与“属于同一文本行”相关的字符特征数据如纵向位置信息、高度信息(同一文本行的字符高度一般相同，因此高度为相关特征)等，输出为属于同一文本行的多个字符。可以理解，本发明实施例中也可采用其它适用方法确定文本行。

在生成文本行之后，可保持文本行中每一字符的横向位置信息并排列文本行。在待检测图像为一幅时，按照文本行中字符的纵向位置信息沿纵向排列文本行(例如按照各字符纵向位置信息平均值的大小顺序排列文本行)，此时文本行的纵向排列顺序与待检测图像中相同。在待检测图像为多幅时，按照文本行的页码信息以及文本行中字符的纵向位置信息沿纵向排列文本行(例如首先按照页码从小到大的顺序排列待检测图像，在每一待检测图像内例如按照各字符纵向位置信息平均值的大小顺序排列文本行)，这样，每一幅待检测图像中的各文本行按照其初始顺序(即待检测图像中的顺序)纵向排列，第二幅待检测图像的第一文本行在第一幅待检测图像最下方文本行的下方，第三幅待检测图像的第一文本行在第二幅待检测图像最下方文本行的下方……，从而实现不同待检测图像文本行之间的有序衔接。

步骤S202：对文本行进行分词处理，依据分词结果确定文本行在表格行属性维度和/或表格内容维度所属的类别，利用确定的文本行类别获取属于同一表格的多个文本行。

在本步骤中，表格行属性维度的类别可以是表头行和表内行。可以理解，表头行中一般包括指标名称与字段名称，表内行中一般包括指标或字段的具体取值。例如，在图1表格中，“英文”、“中文名称”、“结果”所在的文本行为表头行，表中的其余文本行为表内行。需要说明的是，实际场景下，多数表格同时含有一个表头行和至少一个表内行，但是有些表格仅含有表内行而没有表头行。表格内容维度为语义维度，其类别可根据实际需求设置，例如，在医学检验领域，表格内容维度类别可包括：血液检验、心脏检验等。从表格内容维度来说，图1表格以及其中的每一文本行均属于血液检验类别。

在本发明实施例中，表格行属性与表格内容属性可单独使用也可结合使用，在将二者结合时，形成的类别可包括：某一种表格内容的表头行、某一种表格内容的表内行以及表外行(即不在表格内的文本行)。例如，图1中“英文”、“中文名称”、“结果”所在的文本行的类别为血液检验的表头行，“1”、“AST”、“谷草转氨酶”所在的文本行的类别为血液检验的表内行，“备注”所在的文本行为表外行。

在本步骤中，首先利用预先建立的语料库对步骤S201生成的每一文本行进行分词，得到每一文本行中的多个词语。其中，语料库中可以含有通用语言知识库的词表，也可以含有特定领域语言知识库的词表和术语表(术语指的是特定领域的专有名词)。较佳地，语料库中还可含有对应于每一文本行类别的常用词语。在分词处理过程中，特定领域的术语和词语可首先被切分，通用词语可在随后被切分，对于此时尚未被切分的字符，可将横向位置接近(例如字符间距小于二分之一的字符宽度)的字符合并为词语。

在分词处理完成之后，可依据分词结果确定每一文本行所属的类别。以下提供文本行分类的两种方法。在第一种方法中，可利用语料库实现分类。具体地，首先判断文本行中每一词语所属的文本行类别(由于语料库中包含每一文本行类别的常用词语，因此当文本行中的词语与语料库中的常用词语相同时即确定文本行中的词语属于相应文本行类别)，之后获取文本行中属于同一类别的词语数量，将词语数量最大的类别确定为该文本行所属的类别。在第二种方法中，可将任一文本行经分词处理得到的每一词语输入预先训练完成的文本行分类模型，得到该文本行所属的类别。以上文本行分类模型为有监督的机器学习模型，可根据朴素贝叶斯、随机森林、逻辑回归、词袋和TF-IDF(词频-逆文本频率指数)等算法实现，其输入数据可以是由文本行词语转换而成的词向量，其输出结果为文本行类别，其训练数据具有预先标记的类别标签。此外，如果步骤S201中通过OCR工具得到每一字符的字体、字号以及颜色信息，还可借助上述信息提高文本行分类效果或者利用上述信息独立完成文本行分类。

此后，可利用确定的文本行类别获取属于同一表格的多个文本行，即确定表格的纵向范围。作为一个优选方案，其具体执行步骤可如下：从上到下遍历排列后的每一文本行；如果当前不存在已确定纵向范围的表格，则将第一次确定的、且类别为任一种表格内容的表头行或者任一种表格内容的表内行的文本行作为待界定表格的首行。例如，在未确定图1中表格的纵向范围时，可按照从上到下的顺序依次检测文本行的类别，并将“英文”、“中文名称”、“结果”所在的文本行(即第一次确定的、且类别为任一种表格内容的表头行或者任一种表格内容的表内行的文本行)作为待界定表格的首行。如果当前存在已确定纵向范围的表格，则将处于最近的已确定纵向范围的表格下方、第一次确定的、且类别为任一种表格内容的表头行或者任一种表格内容的表内行的文本行作为待界定表格的首行。

在获得待界定表格首行之后，将待界定表格首行下方、连续的、且类别为该种表格内容的表内行的文本行作为属于待界定表格的文本行，从而确定待界定表格的纵向范围。也就是说，考虑待界定表格首行下方的每一文本行，首行下方连续的一行、二行、三行……属于该种表格内容(即待界定表格首行的表格内容)表内行的文本行作为待界定表格的文本行，直到发现表头行、属于其它表格内容的表内行或者表外行(发现的上述文本行已经不属于待界定表格)，此时结束待界定表格的纵向范围搜索。以上方法可适用于一副待检测图像中存在多个表格以及表格跨页的场景。可以理解，单独采用表格行属性维度的类别或者表格内容维度的类别也可实现表格纵向范围的界定，仅准确性存在差异。

以下以图1为例进行说明。在确定图1中表格的纵向范围时，可从上到下遍历每一文本行，并将“英文”、“中文名称”、“结果”所在的文本行(即第一次发现的血液检验表头行)作为待界定表格的首行，之后将依次判断首行下方每一文本行的类别并将首行下方连续11个文本行(均为血液检验表内行)作为待界定表格的文本行。由于“备注”所在的文本行为表外行，因此待界定表格的最后一个文本行为“11”、“IBIL”、“间接胆红素”所在的文本行，至此即完成图1中表格的纵向范围确定。如果图1下方还有表格，可重复执行以上步骤界定其纵向范围。

步骤S203：确定多个文本行共有的列分隔线以实现表格识别。

在本步骤中，列分隔线可从已确定纵向范围表格的每一文本行的词语之间的空白区域(指不存在字符的区域)穿过，而不会穿过词语内部。本发明可提供两种确定上述列分隔线的方法。第一种方法为：首先获取表格中每一文本行相邻词语之间的空白区域的横向坐标区间，之后确定该表格中全部文本行之间上述横向坐标区间的交集，在该交集的每一连续区间设置一条列分隔线。例如，第一文本行的上述横向坐标区间为[1,3]和[7,9]，第二文本行的上述横向坐标区间为[2,4]和[6,8]，第三文本行的上述横向坐标区间为[2.5,3.5]和[7.5,8.5]，则三个文本行横向坐标区间的交集为[2.5,3]和[7.5,8]，可在这两个连续区间分别设置一条列分隔线，这两条列分隔线可分别通过每一文本行的空白区域。

以下介绍第二种确定列分隔线的方法。首先根据表格中任一文本行的上述横向坐标区间生成对应于该文本行的一维图像(一维图像均为平行于横坐标轴的直线)，在该一维图像中，对应于上述横向坐标区间的像素点的像素值为预设非零值，其余像素点的像素值为零。其中，上述预设非零值由预先为文本行设置的权重值决定。例如，可将表头行的权重值设置为10，将表内行的权重值设置为1，则表头行一维图像的预设非零值均为10，表内行一维图像的预设非零值均为1，从而提升表头行在表格分列中的重要性。之后将对应于该表格中每一文本行的一维图像相加，在相加得到的图像中具有极大像素值的像素点的横向坐标设置列分隔线。可以理解，具有极大像素值的像素点可以是具有局部极大像素值的一个或多个像素点。例如，如果同一行内多个像素点的像素值一次为1、1、2、1、1，则2为极大像素值；如果同一行内多个像素点的像素值一次为1、1、2、2、1、1，则两个2均为极大像素值。

上述第二种方法也可以采用以下方式说明。设计一个用于计数的整数数组，数组长度为表格宽度(按待检测图像像素点计)，每个数组元素对应于表格横向的一个像素点位置。对每个表头行或表内行，将各横向坐标区间投影到计数数组上。也就是说，对横向坐标区间内的所有像素点，将数组内对应像素点位置的计数加1。如果存在表头行，可以加大它的计数权重，以突出表头行在识别表格时的重要性。最后按顺序查看计数数组各位置的计数值，计数值大于预设阈值或者为局部极大的位置即对应整个表格的列分隔线。这样，即完成整个表格的分列。可以理解，表格分列并不限于以上两种方法。

作为一个优选方案，本发明还可判断表头行内容从而确定表格是否左右分栏。具体地，在已确定列分隔线的表格中，判断其表头行词语是否存在有序重复：若是，则确定该表格包括横向排列的多个表格。例如，在图1中，发现“英文”、“中文名称”、“结果”、“提示”、“参考范围”、“单位”有序(即保持上述词语的先后顺序)重复一次，则确定该表格为左右分栏，此时可对其进行拆分。实际应用中，分栏表格的判断与拆分步骤也可在表格纵向范围界定之后执行。

图3是本发明实施例中表格识别方法的具体执行步骤示意图。在图3中，表格范围界定指的是表格纵向范围的界定，表格文本行分列指的是确定表格中文本行相邻词语之间空白区域的横向坐标区间的步骤，文本行分词、文本行分类以及分栏表格拆分步骤均可使用特定领域语言知识库。由于各步骤的具体执行内容此前已经介绍，此处不再赘述。

在本发明实施例的技术方案中，主要通过分析表格中字符的位置信息和语义信息实现表格识别。具体来说，首先识别出待检测图像中的字符并确定字符的纵向位置信息和横向位置信息，接着利用字符的纵向位置信息生成文本行，文本行中的每一字符保持其原横向位置；在待检测图像为一幅时，按照文本行中字符的纵向位置信息沿纵向排列文本行；在待检测图像为多幅时，按照文本行对应的页码以及文本行中字符的纵向位置信息沿纵向排列文本行。之后，对文本行分词并利用语料库确定文本行所属的类别，这些类别对应于表格行属性维度和/或表格内容维度，可以包括某一种表格内容的表头行、某一种表格内容的表内行或者表外行。此后从上到下遍历文本行，根据文本行所属类别界定每一表格的纵向范围，最后，确定表格各文本行共有的列分隔线从而完成表格版式以及每一单元格的识别。本发明方法适应性强，应用范围广，运算效率高，能够准确识别表格中的各种信息，有效克服现有的基于表格行列框线检测方法的固有缺陷，能够在识别带有框线的表格之外，解决以下场景中的表格识别，这些场景有：1)图像存在倾斜、透视畸变、扫描噪点、拍摄反光或曝光问题；2)表格有底色和底纹干扰；3)表格起止位置不固定；4)一页图像中存在多个表格；5)表格外围、行间或列间没有框线；6)表格跨两个或多个数字图像；7)表格左右分栏等情形。

需要说明的是，对于前述的各方法实施例，为了便于描述，将其表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，某些步骤事实上可以采用其它顺序进行或者同时进行。此外，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是实现本发明所必须的。

为便于更好的实施本发明实施例的上述方案，下面还提供用于实施上述方案的相关装置。

请参阅图4所示，本发明实施例提供的表格识别装置400可以包括：字符识别与文本行生成单元401、纵向范围界定单元402和分列单元403。

其中，字符识别与文本行生成单元401可用于识别待检测图像中的字符，将识别出的字符根据字符的纵向位置信息生成文本行；纵向范围界定单元402可用于对文本行进行分词处理，依据分词结果确定文本行在表格行属性维度和/或表格内容维度所属的类别，利用确定的文本行类别获取属于同一表格的多个文本行；分列单元403可用于确定所述多个文本行共有的列分隔线以实现表格识别。

在本发明实施例中，字符识别与文本行生成单元401可进一步用于：使用光学字符识别方法识别待检测图像，得到识别出的多个字符以及每一字符的横向位置信息和纵向位置信息。

实际应用中，字符识别与文本行生成单元401可进一步用于：将纵向位置信息符合预设条件的字符确定为同一文本行；或者，将识别出的每一字符的纵向位置信息和高度信息输入预先建立的文本行聚类模型，得到至少一个文本行；在生成文本行之后，保持文本行中每一字符的所述横向位置信息；在待检测图像为一幅时，按照文本行中字符的所述纵向位置信息沿纵向排列文本行；在待检测图像为多幅时，按照文本行的页码信息以及文本行中字符的所述纵向位置信息沿纵向排列文本行。

具体应用中，文本行在表格行属性维度和/或表格内容维度所属的类别包括：任一种表格内容的表头行、任一种表格内容的表内行以及表外行；以及，纵向范围界定单元402可进一步用于：依据预先建立的语料库判断任一文本行经分词处理得到的每一词语所属的类别；其中，所述语料库中存储有对应于任一种表格内容的表头行的词语、以及对应于任一种表格内容的表内行的词语；获取该文本行中属于同一类别的词语数量，将词语数量最大的类别确定为该文本行所属的类别；或者，将任一文本行经分词处理得到的每一词语输入预先训练完成的文本行分类模型，得到该文本行所属的类别。

较佳地，在本发明实施例中，纵向范围界定单元402可进一步用于：从上到下遍历排列后的每一文本行：如果当前不存在已确定纵向范围的表格，则将第一次确定的、且类别为任一种表格内容的表头行或者任一种表格内容的表内行的文本行作为待界定表格的首行；如果当前存在已确定纵向范围的表格，则将处于最近的已确定纵向范围的表格下方、第一次确定的、且类别为任一种表格内容的表头行或者任一种表格内容的表内行的文本行作为待界定表格的首行；将待界定表格首行下方、连续的、且类别为该种表格内容的表内行的文本行作为属于待界定表格的文本行，从而确定待界定表格的纵向范围。

作为一个优选方案，分列单元403可进一步用于：对于已确定纵向范围的任一表格，获取该表格中每一文本行相邻词语之间的空白区域的横向坐标区间；确定该表格中全部文本行之间所述横向坐标区间的交集，在该交集的每一连续区间设置一条列分隔线；或者，根据该表格中任一文本行的所述横向坐标区间生成对应于该文本行的一维图像；其中，在该一维图像中，对应于所述横向坐标区间的像素点的像素值为预设非零值，其余像素点的像素值为零；将对应于该表格中每一文本行的一维图像相加，在相加得到的图像中具有极大像素值的像素点的横向坐标设置列分隔线。

此外，在本发明实施例中，所述装置400可进一步包括表格分栏判断单元，其用于在判断已确定列分隔线的表格的表头行词语中存在有序重复时，确定该表格包括横向排列的多个表格。

图5示出了可以应用本发明实施例的表格识别方法或表格识别装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505(此架构仅仅是示例，具体架构中包含的组件可以根据申请具体情况调整)。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种客户端应用，例如表格识别应用(仅为示例)。

终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所操作的表格识别应用提供支持的运算服务器(仅为示例)。运算服务器可以对接收到的表格识别请求进行处理，并将处理结果(例如识别出的表格信息--仅为示例)反馈给终端设备501、502、503。

需要说明的是，本发明实施例所提供的表格识别方法一般由服务器505执行，相应地，表格识别装置一般设置于服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

本发明还提供了一种电子设备。本发明实施例的电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明所提供的表格识别方法。

下面参考图6，其示出了适于用来实现本发明实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中，还存储有计算机系统600操作所需的各种程序和数据。CPU601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明公开的实施例，上文的主要步骤图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在上述实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元601执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。在本发明中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这根据所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括字符识别与文本行生成单元、纵向范围界定单元和分列单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，字符识别与文本行生成单元还可以被描述为“向纵向范围界定单元提供文本行数据的单元”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中的。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该设备执行时，使得该设备执行的步骤包括：识别待检测图像中的字符，将识别出的字符根据字符的纵向位置信息生成文本行；对文本行进行分词处理，依据分词结果确定文本行在表格行属性维度和/或表格内容维度所属的类别，利用确定的文本行类别获取属于同一表格的多个文本行；确定所述多个文本行共有的列分隔线以实现表格识别。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种表格识别方法，其特征在于，包括：

识别待检测图像中的字符，将识别出的字符根据字符的纵向位置信息生成文本行；

对文本行进行分词处理，依据分词结果确定文本行在表格行属性维度和/或表格内容维度所属的类别，利用确定的文本行类别获取属于同一表格的多个文本行；其中，文本行在表格行属性维度和/或表格内容维度所属的类别包括：任一种表格内容的表头行、任一种表格内容的表内行以及表外行；

确定所述多个文本行共有的列分隔线以实现表格识别；以及，

所述依据分词结果确定文本行在表格行属性维度和/或表格内容维度所属的类别，包括：依据预先建立的语料库判断任一文本行经分词处理得到的每一词语所属的类别；其中，所述语料库中存储有对应于任一种表格内容的表头行的词语、以及对应于任一种表格内容的表内行的词语；获取该文本行中属于同一类别的词语数量，将词语数量最大的类别确定为该文本行所属的类别；或者，将任一文本行经分词处理得到的每一词语输入预先训练完成的文本行分类模型，得到该文本行所属的类别。

2.根据权利要求1所述的方法，其特征在于，所述识别待检测图像中的字符，包括：

使用光学字符识别方法识别待检测图像，得到识别出的多个字符以及每一字符的横向位置信息和纵向位置信息。

3.根据权利要求2所述的方法，其特征在于，所述将识别出的字符根据字符的纵向位置信息生成文本行，包括：将纵向位置信息符合预设条件的字符确定为同一文本行；或者，将识别出的每一字符的纵向位置信息和高度信息输入预先建立的文本行聚类模型，得到至少一个文本行；以及，所述方法进一步包括：

在生成文本行之后，保持文本行中每一字符的所述横向位置信息；

在待检测图像为一幅时，按照文本行中字符的所述纵向位置信息沿纵向排列文本行；

在待检测图像为多幅时，按照文本行的页码信息以及文本行中字符的所述纵向位置信息沿纵向排列文本行。

4.根据权利要求1所述的方法，其特征在于，所述利用确定的文本行类别获取属于同一表格的多个文本行，包括：

从上到下遍历排列后的每一文本行：

如果当前不存在已确定纵向范围的表格，则将第一次确定的、且类别为任一种表格内容的表头行或者任一种表格内容的表内行的文本行作为待界定表格的首行；如果当前存在已确定纵向范围的表格，则将处于最近的已确定纵向范围的表格下方、第一次确定的、且类别为任一种表格内容的表头行或者任一种表格内容的表内行的文本行作为待界定表格的首行；

将待界定表格首行下方、连续的、且类别为该种表格内容的表内行的文本行作为属于待界定表格的文本行，从而确定待界定表格的纵向范围。

5.根据权利要求4所述的方法，其特征在于，所述确定所述多个文本行共有的列分隔线，包括：

对于已确定纵向范围的任一表格，获取该表格中每一文本行相邻词语之间的空白区域的横向坐标区间；以及

确定该表格中全部文本行之间所述横向坐标区间的交集，在该交集的每一连续区间设置一条列分隔线；或者

根据该表格中任一文本行的所述横向坐标区间生成对应于该文本行的一维图像；其中，在该一维图像中，对应于所述横向坐标区间的像素点的像素值为预设非零值，其余像素点的像素值为零；将对应于该表格中每一文本行的一维图像相加，在相加得到的图像中具有极大像素值的像素点的横向坐标设置列分隔线。

6.根据权利要求5所述的方法，其特征在于，所述方法进一步包括：

在判断已确定列分隔线的表格的表头行词语中存在有序重复时，确定该表格包括横向排列的多个表格。

7.一种表格识别装置，其特征在于，包括：

字符识别与文本行生成单元，用于识别待检测图像中的字符，将识别出的字符根据字符的纵向位置信息生成文本行；

纵向范围界定单元，用于对文本行进行分词处理，依据分词结果确定文本行在表格行属性维度和/或表格内容维度所属的类别，利用确定的文本行类别获取属于同一表格的多个文本行；其中，文本行在表格行属性维度和/或表格内容维度所属的类别包括：任一种表格内容的表头行、任一种表格内容的表内行以及表外行；

分列单元，用于确定所述多个文本行共有的列分隔线以实现表格识别；

所述纵向范围界定单元进一步用于：依据预先建立的语料库判断任一文本行经分词处理得到的每一词语所属的类别；其中，所述语料库中存储有对应于任一种表格内容的表头行的词语、以及对应于任一种表格内容的表内行的词语；获取该文本行中属于同一类别的词语数量，将词语数量最大的类别确定为该文本行所属的类别；或者，将任一文本行经分词处理得到的每一词语输入预先训练完成的文本行分类模型，得到该文本行所属的类别。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。