CN113989822B

CN113989822B - 基于计算机视觉和自然语言处理的图片表格内容提取方法

Info

Publication number: CN113989822B
Application number: CN202111593626.4A
Authority: CN
Inventors: 王国栋
Original assignee: China Austria Intelligent Industry Research Institute Nanjing Co ltd
Current assignee: Nanjing promadi Computing Technology Co.,Ltd.
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-03-08
Anticipated expiration: 2041-12-24
Also published as: CN113989822A

Abstract

本发明公开了基于计算机视觉和自然语言处理的图片表格内容提取方法，包括步骤1将图片输入到表格边框识别模型中，识别表格边框，计算表格中各单元格坐标；步骤2提取各单元格的文本内容；步骤3根据提取的文本内容，按照键、值、混合值三种类型进行标注，构建表格内容分类数据集，并基于该数据集训练单元格内容分类模型；步骤4根据表格坐标、单元格坐标及每个单元格文本的类别，推断表格布局；步骤5根据表格的布局信息、单元格的内容和类别信息，将表中的数据以JSON的格式组织起来。本发明引入自然语言处理技术，为表格中每个单元格的内容标记类别，再结合单元格位置信息，对表格布局的进行推理，最终将表格内容以结构化的方式输出。

Description

基于计算机视觉和自然语言处理的图片表格内容提取方法

技术领域

本发明涉及表格数据提取技术领域，具体涉及基于计算机视觉和自然语言处理的图片表格内容提取方法。

背景技术

基于计算机视觉及自然语言处理技术进行信息抽取的应用越来越广泛，如从图片中识别文字、从文本中抽取人名、地名、电话号码等实体，从发票、保险单以及其他表格中抽取关键信息等。同时，各大云厂商也都提基于云平台供了如票据、合同等表格数据的识别服务。

现有对表格数据的提取技术主要集中在两个方面。第一，通过传统的图像处理方法，如腐蚀、膨胀、边缘检测、轮廓识别等，先识别图片中的表格，再通过OCR技术识别单元格中的内容，该方法针对带边框的表格，识别效率高，但针对少边框或无边框表格基本没有识别能力。第二，通过深度学习技术，如目标检测、实例分隔等方法，识别表格的各个区域，然后再通过OCR识别各个区域中的文本内容，该方法可以解决有边框、少边框甚至无边框的表格数据的提取问题。

上述两种方法存在一个共同的问题，即都可以识别表格中的内容但是无法“认知”表格。提取的内容中无法区分是表头还是表格中的值，也无法推断表格的布局，更难将提取的信息转换成结构化的数据。同时，从复杂表格提取内容时，表格数据之间的关联关系也极难推断。

发明内容

本发明的目的在于：针对现有方法可以识别表格中的内容但是无法“理解”表格的问题，提供一种基于计算机视觉和自然语言处理的表格内容提取方法，使用边框检测、OCR、文本分类等技术，开发表格边框识别、表格内容提取、表格内容分类、表格布局推理模块，实现从图片表格中提取数据并将提取的数据转成JSON格式的结构化数据。

本发明公开的基于计算机视觉和自然语言处理的图片表格内容提取方法，包括以下步骤：

步骤1：将含有表格的图片输入到表格边框识别模型中，确定表格是否有边框，针对有边框表格，使用传统图像处理方法，计算表格中各单元格坐标，针对无边框表格，使用基于深度学习的文本区域检测，推理和计算单元格坐标；

步骤 2：将每个表格中的单元格依次输入到OCR文字识别引擎PaddleOCR中进行识别，提取表格中各单元格的文本内容；

步骤3：根据提取单元格的文本内容，按照键、值、混合值三种类型进行标注，构建表格内容分类数据集，并基于该数据集训练单元格内容分类模型；

步骤4：根据表格坐标、单元格坐标以及每个单元格文本的类别，推断表格的布局；

步骤5：根据表格的布局信息、各个单元格的内容和类别信息，将表中的数据以JSON的格式组织起来。

进一步地，所述步骤1包括表格区域检测、单元格区域检测和表格边框识别，步骤如下：

步骤101：使用图像处理中的膨胀、模糊操作对含有表格图片的数据进行增强；

步骤102：将增强后的含有表格的图片数据按照8:2的比例拆分成训练集和测试集，使用训练集数据训练CascadeTabNet模型，将输入的图片resize到指定尺寸后送入主干特征提取网络，然后将特征提取网络的输出输入到RPN Head中生成推荐Bounding Box框，将生成的Bounding Box分别输入到Box Head和Mask Head中，其中，Box Head输出表格或者单元格区域的坐标以及该区域类别和得分，Mask Head输出对应区域的掩码矩阵；

步骤103：根据Box Head输出的表格类别，判断图片中的表格为无边框表格或有边框表格，对有边框表格使用图像形态学操作，识别出表格边框，然后再根据表格边框的相交信息，确定单元格坐标，对少边框或者无边框表格，使用输出的单元格区域掩码矩阵，结合文本检测内容，推断和计算表格和单元格坐标。

进一步地，所述步骤3包括以下步骤：

步骤301：对表格中常用的键、值、混合值的数据进行收集，构建表格内容分类数据集；

步骤302：对开源中文语料作为词向量训练的语料库，使用FastText中的词向量模型进行训练，生成词向量；

步骤303：使用结巴分词对从图片表格中提取的文本内容进行分词，并在步骤301生成的词向量中查找对应词语的向量是否存在，若存在则直接返回词向量，若不存在，对该词语进行分词处理，然后将拆分出的词语，先去除停用词，再从词向量表中查找剩余词语的词向量表示，最后计算剩余词的向量平均值，并用该平均值作为对应词的向量表示；

步骤304：使用文本分类模型，对每个单元格内容所属的类别进行分类；

步骤305：当步骤304输出的类别为混合值时，拆分混合值，并使用步骤304中的分类模型预测拆分后各个值的类别。

进一步地，所述步骤4中推断表格的布局包括：

当同一行单元格的类别全是键，而下一行单元格类别全是值，则可推断表格中键和值是上下对应的，表格布局推断为首行为键、次行为值；

当某一行出现键值交替，则可推断键在左值在右；

当某一行出现“键键值”，则可推断存在单元格合并的情况，结合单元格位置，推断当前单元格所跨的行或列。

进一步地，所述步骤5中，将表中的数据以JSON的格式组织起来，包括：

对于行列格式的表格数据，以内嵌数组的形式存储在JSON中；

对于键值交替出现的数据，以Key-Value的格式存储在JOSN中；

对于“键键值”格式的数据，以多层嵌套的方式存储在JSON中，第一层为键，第二层嵌套键和值列表。

本发明的有益效果：本发明引入自然语言处理技术，为表格中每个单元格的内容标记类别，再结合单元格位置信息，对表格布局的进行推理，最终将表格内容以结构化的方式输出。同时，本发明中通过表格布局推理和单元格内容类别标定，充分的保留了表格内容之间的关系，可以JSON格式精准的输出表格内容。提出的表格内容提取方法，可以实现对多源、多样式表格数据的提取和结构化，打通了对表格数据挖掘的通道。

附图说明

图1是本发明公开基于计算机视觉和自然语言处理的图片表格内容提取方法流程图。

图2是本发明公开的表格边框识别流程图。

图3是本发明公开的文本分类模型训练和预测流程图。

具体实施方式

为了进一步了解本发明的结构、特征及其目的，现结合所附图说明如下，附图所说明的实施仅用于说明本发明的技术方案，并非限定本发明。

如图1所示，本发明公开了一种基于计算机视觉和自然语言处理的表格内容提取方法，包含表格边框识别、单元格字符识别、表格内容分类、表格布局推理以及结构化表格数据五个方面。步骤如下：

步骤1：将含有表格的图片输入到表格边框识别模型中，识别图片中的表格边框。表格边框的识别包含表格区域检测、单元格区域检测和表格边框识别三个部分。如图2所示，具体实施步骤如下：

步骤101：数据准备。

使用图像处理中的膨胀、模糊操作对含有表格图片的数据进行增强，增加数据的多样性，提升模型的识别率和泛化能力。经过数据增强后，含有表格图片的数据增加20%，模型的识别精度有2~3个百分点的提升。

步骤102：模型训练。

将增强后的含有表格图片的数据按照8:2的比例拆分成训练集和测试集，使用训练集数据训练CascadeTabNet模型，CascadeTabNet模型即是表格边框识别模型。训练CascadeTabNet模型的具体步骤如下：

首先将输入的图片调整到指定尺寸，如：1024x1024，再送入主干特征提取网络，特征提取网络使用RestNet50。然后将RestNet50输出的特征图输入到RPN Head中生成推荐Bounding Box框，将生成的Bounding Box分别输入到Box Head和Mask Head中。其中，BoxHead输出表格、单元格区域的坐标以及该区域对应的类别和得分，如[x0,y0, x1,y1,score, class],x0,y0表示Bounding Box的左上角坐标，x1,y1表示Bounding Box的右下角坐标，score为该区域输出表格或者单元格的置信度，class表示类别，即表格或者单元格。Mask Head输出对应区域的掩码矩阵，若该区域存在表格或者单元格，则矩阵对应区域的值为1，若该区域不存在表格或单元格，则对应区域的值为0。

其中，RPN Head：区域建议网络；Bounding Box：边界框；Box Head：边界框预测网络；Mask Head：掩码矩阵生成网络。

步骤103：表格边框信息推理。

根据步骤102的输出结果，若输出的类别class中无表格，则认为图片中的表格为无边框表格，若输出的类别class中存在表格，则认为图片中的表格为有边框表格。针对有边框表格使用图像形态学操作，如腐蚀、膨胀、轮廓检测等方法，识别出表格边框，然后再根据表格边框的相交信息，确定单元格坐标。针对少边框或者无边框表格，使用步骤102输出的单元格掩码矩阵信息，计算单元格轮廓，并将轮廓的外接矩形的各点坐标作为单元格坐标。

步骤2：表格内容提取。

根据识别的单元格坐标，从原始图片中截取单元格图片，输入到OCR文字识别引擎PaddleOCR中进行识别。在识别单元格图片前，对图片进行预处理，包括滤波、增强以及翻转，以提高字符识别精度。同时，由于存在文字内容靠近单元格边框的问题，对切分出的单元格先进行边框过滤处理，然后再进行识别。OCR引擎的输出结果为文字置信度以及识别的文字内容。经过预处理后，文字区域检测更加准确，在测试集上文本的识别精度可达到95%以上。

步骤3：表格中单元内容分类。

为了实现对表格内容的理解，首先将表格中每个单元格的内容概括成3类，分别是键（含有抽象含义的词语，如姓名、联系电话）、值（具体的值，如张三、13776509999）、混合值（同一个单元格中既有键又有值，如姓名:张三），如图3所示，内容分类模型按照下面步骤进行：

步骤301：对常用的表格中常用的键、值、混合值的数据进行收集，构建表格内容分类数据集。

如从保险单中采集姓名、手机号码、保险人、被保险人、承保人等键信息，采集张三、X51678、137888888等值信息，采集姓名：张三、保险金额: 3000元等类似的混合值信息，对异常字符、符号等标识为其它。

步骤302：训练词向量模型。

使用现有的中文语料作为词向量训练的语料库，使用FastText中的词向量模型进行训练，生成词向量。在本实施例中，具体使用Word2Vec训练词向量模型，词向量的维度为50维，最小词语长度为2，最大词语长度为5。

步骤303：词语转换成词向量表示。

使用结巴分词对从图片表格中提取的文本内容进行分词，并在步骤301生成的词向量中查找分词后得到的词语的向量。在词向量中查找对应的词语的词向量是否存在，若存在则直接返回词向量。若不存在即出现OOV现象时，对该词语进行分词处理，然后将拆分出的词语，先去除停用词，再从词向量表中查找剩余词语的词向量表示，最后计算剩余词的向量平均值，并用该平均值作为对应词的向量表示。

步骤304：训练文本分类模型。

首先使用步骤302中的词向量和步骤303的词向量转换方法对步骤301中采集的键、值、混合值用50维的向量表示，然后使用FastText训练文本分类模型，获得文本分类模型。将从图片表格中提取的文本内容输入到分类模型进行分类，分类模型的召回率、F1值和精度均可达到95%以上。

步骤305：混合值处理。

当步骤304输出的每个单元格文本内容所属的类别为混合值时，使用命名实体识别、正则模糊匹配或关键符号拆分等技术，将混合值拆分，获得对应的键和值。

步骤4：表格布局推理。

根据单元格坐标以及每个单元格文本内容所属的类别，推断表格的布局。具体推理逻辑如下：

当某一行出现键值交替，则可推断键在左值在右；

当某一行出现“键键值”，则可推断存在单元格合并的情况，结合单元格坐标，推断当前单元格所跨的行或列。

步骤5：表格数据结构化。

根据表格的布局信息、各个单元格中识别的文本内容以及文本内容所属类别，将表格中的数据以JSON的格式组织起来。如图1，流程中的最后一步所示。

对于行列格式的表格数据，以内嵌数组的形式存储在JSON中；

对于键值交替出现的数据，以Key-Value的格式存储在JOSN中；

本发明公开了一种基于计算机视觉和自然语言处理的表格内容提取方法，适应于票据、文件中的表格内容的提取。首先使用深度学习方法对表格的边框进行识别，并对弱边框的表格边框进行填充。使用OCR技术分别识别表格中每个单元格中的字符内容。为实现对表格内容的理解，使用词向量技术，将文本转换成向量表示并使用分类模型确定各个单元格内容的类别。结合单元格类别以及单元格位置信息，对表格的布局进行推理。最后结合单元格内容、类别以及表格布局信息，将图片表格转换成结构化的JSON格式数据。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.基于计算机视觉和自然语言处理的图片表格内容提取方法，其特征在于，包括以下步骤：

步骤304：使用文本分类模型，对每个单元格文本内容所属的类别进行分类；

步骤305：当步骤304输出的类别为混合值时，拆分混合值，并使用步骤304中的分类模型预测拆分后各个值的类别；

2.根据权利要求1所述的基于计算机视觉和自然语言处理的图片表格内容提取方法，其特征在于：所述步骤1包括表格区域检测、单元格区域检测和表格边框识别，步骤如下：

步骤102：将增强后的含有表格的图片数据按照8:2的比例拆分成训练集和测试集，使用训练集数据训练CascadeTabNet模型，将输入的图片调整到指定尺寸后送入主干特征提取网络，然后将特征提取网络的输出输入到RPN Head中生成推荐Bounding Box框，将生成的Bounding Box分别输入到Box Head和Mask Head中，其中，Box Head输出表格或者单元格区域的坐标以及该区域类别和得分，Mask Head输出对应区域的掩码矩阵；

3.根据权利要求1所述的基于计算机视觉和自然语言处理的图片表格内容提取方法，其特征在于：所述步骤4中推断表格的布局包括：

当某一行出现键值交替，则可推断键在左值在右；

4.根据权利要求1所述的基于计算机视觉和自然语言处理的图片表格内容提取方法，其特征在于：所述步骤5中，将表中的数据以JSON的格式组织起来，包括：

对于行列格式的表格数据，以内嵌数组的形式存储在JSON中；

对于键值交替出现的数据，以Key-Value的格式存储在JOSN中；