CN110738030A

CN110738030A - 表格重建方法、装置、电子设备及存储介质

Info

Publication number: CN110738030A
Application number: CN201910988791.6A
Authority: CN
Inventors: 周康明; 王庆峰
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-01-31

Abstract

本申请提供表格重建方法、装置、电子设备及存储介质，所述表格重建方法包括：获取待处理表格图像并对获取的所述待处理表格图像进行预处理，形成初始表格图像；获取所述初始表格图像中的字符高度，并根据所述字符高度和预设的二值化阈值获取所述初始表格图像对应的二值化图像；检测所述初始表格图像中的表格区域并定位所述表格区域中的字符串位置；根据所述表格区域、所述字符串位置以及所述二值化图像确定表格的行数和列数，并构建对应行数、列数的重构表格；根据所述字符串位置识别所述初始表格图像中的对应字符串，并将识别的所述字符串填入对应的所述重构表格。本发明实现了财务报表表格的重建及识别。

Description

表格重建方法、装置、电子设备及存储介质

技术领域

本申请涉及自动化技术领域，特别是涉及文本处理自动化技术领域，具体为一种表格重建方法、装置、电子设备及存储介质。

背景技术

随着社会经济的发展和中国城镇化的推进，越来越多的人进入城市就业，越来越多的公司诞生；同时随着互联网技术的发展，电子交易，数字交易已经普及；对于公司、银行、证卷交易产生越来越多的财务表格单据及信息。传统的财务报行；速度慢、效率底，很难满足越来越多的表格单据信息的识别、入库及自动校对。

在国家智慧金融及人工智能相关政策的指引下，越来越多的金融机构和科技公司开始针对财务表格单据进行相应的投入和研究。而其中有些情况需要针对财务表格单据进行表格重建，但是有一些财务单据存在无表格，表无框线、虚线框、表格线质量较差情况下，这为表格重建及识别带来很大困难。如何快速的根据现有财务单据重构相应的财务表格成为本领域技术人员亟待解决的技术问题。

申请内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供表格重建方法、装置、电子设备及存储介质，用于解决现有技术中无法有效进行无框线、虚线框、表格线质量较差情况下的表格重建及识别的技术问题。

为实现上述目的及其他相关目的，本申请的第一方面提供一种表格重建方法，包括：获取待处理表格图像并对获取的所述待处理表格图像进行预处理，形成初始表格图像；获取所述初始表格图像中的字符高度，并根据所述字符高度和预设的二值化阈值获取所述初始表格图像对应的二值化图像；检测所述初始表格图像中的表格区域并定位所述表格区域中的字符串位置；根据所述表格区域、所述字符串位置以及所述二值化图像确定表格的行数和列数，并构建对应行数、列数的重构表格；根据所述字符串位置识别所述初始表格图像中的对应字符串，并将识别的所述字符串填入对应的所述重构表格。

于本申请的第一方面的一些实施例中，所述获取所述初始表格图像中的字符高度的一种实现方式包括：对所述初始表格图像进行自适应二值化处理形成第一图像；获取所述第一图像中的字符连通区域，并计算所述字符连通区域中的字符高度；根据所述初始表格图像的缩放比例和所述字符连通区域中的字符高度确定所述初始表格图像中的字符高度。

于本申请的第一方面的一些实施例中，所述表格重建方法还包括：根据获取的所述初始表格图像中的字符高度和预设高度阈值判断所述初始表格图像是否可以缩放，若是，则将所述初始表格图像进行缩放，形成缩放图像。

于本申请的第一方面的一些实施例中，所述表格重建方法还包括：根据红章特征和表格线灰度图特征识别并去除所述缩放图像中的红章，生成去章图像；对所述去章图像进行灰度变换，生成单通道图像。

于本申请的第一方面的一些实施例中，所述根据所述字符高度和预设的二值化阈值获取所述初始表格图像对应的二值化图像的一种实现方式包括：根据所述字符高度构造匹配的水平结构元素和竖直结构元素；根据构造的所述水平结构元素和所述竖直结构元素对所述单通道图像进行卷积处理以增强所述单通道图像中的表格线；根据所述字符高度设置自适应二值化函数的核尺寸；根据二值化函数和预设的二值化阈值获取所述单通道图像的二值化图像。

于本申请的第一方面的一些实施例中，所述根据所述表格区域、所述字符串位置以及所述二值化图像确定表格的行数和列数，并构建对应行数、列数的重构表格的一种实现方式包括：获取表格区域的边界位置以及表头区域和/或表尾区域；根据所述表格区域的边界位置从定位的字符串中选取属于所述表格区域的字符串；根据所述字符串的左上角坐标和所述字符串的高度进行行列排序；根据所述字符串的行列排序和所述二值化图像对所述字符串进行合并和/或分开操作，以确定表格的行数和列数；构建对应行数、列数的重构表格。

于本申请的第一方面的一些实施例中，所述识别所述初始表格图像中的对应字符串的一种实现方式包括：采用基于深度学习的字符串识别模型识别所述初始表格图像中的对应字符串；其中，所述基于深度学习的字符串识别模型的获取过程如下：采集初始表格图像样本数据；在预设结构的excel文本中对所述初始表格图像样本数据中每个单元格字符串图像进行标注；根据标注的样本数据对选取的基于深度学习的字符串识别模型进行迭代训练，生成所需的基于深度学习的字符串识别模型。

于本申请的第一方面的一些实施例中，所述表格重建方法还包括：根据预设的标准映射表对所述重构表格进行校验、统计和报警的任一种或多种组合操作。

为实现上述目的及其他相关目的，本申请的第二方面提供一种表格重建装置，包括：初始化模块，用于获取待处理表格图像，并对获取的所述待处理表格图像进行预处理，形成初始表格图像；二值化图像模块，用于获取所述初始表格图像中的字符高度，并根据所述字符高度和预设的二值化阈值获取所述初始表格图像对应的二值化图像；表格区域检测模块，用于检测所述初始表格图像中的表格区域；字符串定位模块，用于定位所述表格区域中的字符串位置；重构模块，用于根据所述表格区域、所述字符串位置以及所述二值化图像确定表格的行数和列数，并构建对应行数、列数的重构表格；字符识别模块，用于根据所述字符串位置识别所述初始表格图像中的对应字符串，并将识别的所述字符串填入对应的所述重构表格。

为实现上述目的及其他相关目的，本申请的第三方面提供一种电子终端，包括：处理器及存储器；所述存储器用于存储计算机程序；所述处理器用于执行所述存储器存储的计算机程序，以使所述电子终端执行如上所述的表格重建方法。

为实现上述目的及其他相关目的，本申请的第四方面一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的表格重建方法。

如上所述，本申请的表格重建方法、装置、电子设备及存储介质，具有以下有益效果：

本发明实现了财务报表表格的重建及识别，解决了财务报表中基于表格线智能重建及识别无法解决的无框线、虚线框、表格线质量较差情况下的表格重建及识别；特别是基于深度学习的表格智能定位及字符串智能检测，实现了单页多表情况下的初步版面分析及重建功能，大大提高了整体系统的鲁棒性。

附图说明

图1显示为本申请一实施例中的表格重建方法的整体流程示意图。

图2显示为本申请一实施例中的获取字符高度的一种方式的流程示意图。

图3显示为本申请一实施例中的获取二值化图像的一种方式的流程示意图。

图4显示为本申请一实施例中深度学习的目标检测模型SSD的模型结构示意图。

图5显示为本申请一实施例中重构表格的一种实现方式的流程示意图。

图6显示为本申请一实施例中的表格重建装置的原理框图。

图7显示为本申请一实施例中的电子终端的结构示意图。

元件标号说明

100 表格重建装置

110 初始化模块

120 二值化图像模块

130 表格区域检测模块

140 字符串定位模块

150 重构模块

160 字符识别模块

1101 处理器

1102 存储器

S100～S500 步骤

S210～S270 步骤

S410～S450 步骤

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

本实施例提供表格重建方法、装置、电子设备及存储介质，用于提高表格线检测的准确性、鲁棒性，并提升表格重建及关键信息提取的适用性，解决现有表格中存在大块干扰从而影响表格识别的技术问题。

本实施例涉及财务报表的人工智能识别保存，审核校对；特别涉及表格图像倾斜矫正，表格定位，表头检测，字符串定位，无框线表格重建，表格智能识别。以下将详细阐述本实施例的一种表格重建方法、装置、电子设备及存储介质的原理及实施方式，使本领域技术人员不需要创造性劳动即可理解本实施例的一种表格重建方法、装置、电子设备及存储介质。

如图1所示展示本发明一实施例中的表格重建方法的流程示意图。

需说明的是，所述表格重建方法可应用于多种类型的硬件设备。所述硬件设备例如是控制器，具体如ARM(Advanced RISC Machines)控制器、FPGA(Field ProgrammableGate Array)控制器、SoC(System on Chip)控制器、DSP(Digital Signal Processing)控制器、或者MCU(Micorcontroller Unit)控制器等等。所述硬件设备例如也可以是包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其他输出或控制设备，以及外部端口等组件的计算机；所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant，简称PDA)等个人电脑。在另一些实施方式中，所述硬件设备还可以是服务器，所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上，也可以由分布的或集中的服务器集群构成，本实施例不作限定。

如图1所示，在本实施例中，所述表格重建方法包括步骤S100至步骤S400。

步骤S100，获取待处理表格图像并对获取的所述待处理表格图像进行预处理，形成初始表格图像；

步骤S200，获取所述初始表格图像中的字符高度，并根据所述字符高度和预设的二值化阈值获取所述初始表格图像对应的二值化图像；

步骤S300，检测所述初始表格图像中的表格区域并定位所述表格区域中的字符串位置；

步骤S400，根据所述表格区域、所述字符串位置以及所述二值化图像确定表格的行数和列数，并构建对应行数、列数的重构表格；

步骤S500，根据所述字符串位置识别所述初始表格图像中的对应字符串，并将识别的所述字符串填入对应的所述重构表格。

以下对本实施例中所述表格重建方法的步骤S100至步骤S500进行详细说明。

步骤S100，获取待处理表格图像，并对获取的所述待处理表格图像进行预处理，形成初始表格图像。

其中，可以通过手机拍摄或扫描方式获取待处理表格图像。

于本实施例中，所述对获取的所述待处理表格图像进行预处理包括：对所述待处理表格图像进行图像缩放、灰度变换、图像增强、图像倾斜校正中的一种或多种组合。

具体地，于本实施例中，所述对获取的所述待处理表格图像进行预处理的一种方式如下：将待处理表格图像缩放、并灰度化、然后进行预处理增强获得图像I1，对图像I1进行自适应二值化处理得到图像I2。

例如，采用高斯模糊对待处理表格图像进行去噪，然后采用直方图均衡化算法以及伽马变换对去噪后的图像进行对比度拉伸，实现图像增强，然后采用自适应二值法得到二值图像。

进一步的可以采用仿射变换方法、霍夫直线法等对所述待处理表格图像进行倾斜矫正，获取矫正后图像M。

例如，采用Sobel边缘检测算法对待处理表格图像进行边缘提取，然后对边缘图像进行细化(公知常识，兹不赘述)；采用Hough直线检测算法对待处理表格图像中表格进行直线检测，选取长度最长的直线作为表格水平方向线，计算其与水平方向夹角，得到水平边缘倾斜角度，垂直边缘与水平边缘具有垂直关系，直接推算即可(公知常识，兹不赘述)；根据所述水平及垂直边缘倾斜角度进行仿射变换，获取校正后的待处理表格图像。

又例如，使用霍夫直线法得到图像中随机的50条直线，若不足50条则取所有直线；根据这50条直线的斜率计算平均斜率；根据得到的平均斜率对图像进行校正，使表格变水平。

上述仅是对本实施例的图像倾斜校正进行举例说明，对图像进行校正不局限于上述方法。

在获取待处理表格图像，并对获取的所述待处理表格图像进行预处理，形成初始表格图像之后，接着执行步骤S200。

步骤S200，获取所述初始表格图像中的字符高度，并根据所述字符高度和预设的二值化阈值获取所述初始表格图像对应的二值化图像。

具体地，于本实施例中，如图2所示，所述获取所述初始表格图像中的字符高度的一种实现方式包括：

步骤S210，对所述初始表格图像进行自适应二值化处理形成第一图像。

步骤S220，获取所述第一图像中的字符连通区域，并计算所述字符连通区域中的字符高度；

步骤S230，根据所述初始表格图像的缩放比例和所述字符连通区域中的字符高度确定所述初始表格图像中的字符高度。

例如，对缩放图上获取的二值化图像I2进行连通域查找，并进行若干规则剔除非字符连通域，对获取的字符连通域分别计算取其外接矩形框的高度及宽度最大值的平均值，作为字符高度h1；然后计算预处理时对图像的缩放比例，反算出实际的字符高度h，从而确定所述初始表格图像中的字符高度。

于本一些实施例中，所述表格重建方法还包括：根据获取的所述初始表格图像中的字符高度和预设高度阈值判断所述初始表格图像是否可以缩放，若是，则将所述初始表格图像进行缩放，形成缩放图像。

具体地，依据字符高度h，判断图像M是否可以缩放，例如，设置字符高度h大于28时则对其进行缩放，将图像缩放到20个像素高度(若发生了缩放，则此时字符高度h大小变为20)，此处获取的缩放图像为M2、M2对应字符高度为charh。

于本申请一些实施例中，所述表格重建方法还包括：根据红章特征和表格线灰度图特征识别并去除所述缩放图像中的红章，生成去章图像；对所述去章图像进行灰度变换，生成单通道图像。

依据红章特征及表格线为灰度图特征对缩放图像M2进行红章去除，获得红章去除后的图像去章图像M3；将去章图像M3进行灰度变换，获得单通道图像M4。

如图3所示，于本些实施例中，所述根据所述字符高度和预设的二值化阈值获取所述初始表格图像对应的二值化图像的一种实现方式包括：

步骤S240，根据所述字符高度构造匹配的水平结构元素和竖直结构元素；

步骤S250，根据构造的所述水平结构元素和所述竖直结构元素对所述单通道图像进行卷积处理以增强所述单通道图像中的表格线；

步骤S260，根据所述字符高度设置自适应二值化函数的核尺寸；

步骤S270，根据二值化函数和预设的二值化阈值获取所述单通道图像的二值化图像。

具体地，根据获取的字符高度h构造自适应大小的水平结构元素和竖直结构元素来分别对单通道图像M4进行卷积，达到增强图像中水平及竖直线的目的；根据字符高度来设置自适应二值化函数的核尺寸，依据计算获取的背景像素值、目标像素值设置自适应二值化的相应阈值(二值化阈值)，来分别实现水平及竖直方向增强后图像的二值图M_bi_hori、M_bi_ver。

在获取单通道图像M4的二值化图像之后，检测表格区域并定位字符串位置。

步骤S300，检测所述初始表格图像中的表格区域并定位所述表格区域中的字符串位置。

于本实施例中，采用基于深度学习的目标检测SSD对去章图像M3进行检测，定位出里面的表格区域R_table＝[R0,R1,...]。

具体地，于本实施例中，所述检测所述初始表格图像中的表格区域的一种实现方式包括：

采用基于深度学习的目标检测模型测所述初始表格图像中的表格区域。

其中，所述基于深度学习的目标检测模型的获取过程如下：

采集初始表格图像样本数据；对所述样本数据进行文本区域、表格区域、背景及其它三个类别标注；根据标注的样本数据对选取的基于深度学习的目标检测模型进行迭代训练，生成所需的基于深度学习的目标检测模型。

具体地，生成所需的基于深度学习的目标检测模型的过程的实施过程如下：

数据准备：

1)数据来源：客户提供及网上爬取；

2)标注类别：类别分为背景及其它(0)，文本区域(1)，表格区域(2)；

3)数据标注：采用公司编写的标注软件进行标注，并生成适合SSD训练用的格式进行保存；例如共标注数据2357幅。

模型设计：模型结构基于开源的SSD结构进行修改得到。具体模型构成见附图4。

训练：将模型网络及数据准备后好进行训练，其中batch_size(batch_size可以理解为批处理参数,它的极限值为训练集样本总数)为8；迭代了50万次。

于本实施例中，采用基于深度学习的字符串检测CTD模型对去章图像M3进行检测，定位出里面所有的字符串位置Rect_char＝[Rect_char₀,Rect_char₁,...]。

具体地，于本实施例中，所述定位所述表格区域中的字符串位置的一种实现方式包括：

采用基于深度学习的字符串定位模型定位所述表格区域中的字符串位置。

其中，所述基于深度学习的字符串定位模型的获取过程如下：

采集初始表格图像样本数据；对所述样本数据中按顺序标注单个字符串的四个顶点坐标；根据标注的样本数据对选取的基于深度学习的字符串定位模型进行迭代训练，生成所需的基于深度学习的字符串定位模型。

具体地，于本实施例中，所述定位所述表格区域中的字符串位置的实现过程如下：

数据准备：

1)数据来源：客户提供及网上爬取；

2)标注方式：由于金融财务报表不会出现严重弯曲或扭曲图像，为了加快标注速度，标注中并未采用核原始CTD论文中书写的方式进行标注；而是用公司的标注工具，由标注人员对单个字符串按顺序标注其四个顶点坐标并保存，后期通过算法进行处理转换为适合CTD训练用的14点结果样式；

3)数据标注：采用公司编写的标注软件进行标注；共标注数据2357幅，经切割后共生成9092幅数据(因为整个表格图像放入训练，需要显存较大)。

模型设计：该网络模型采用开源的CTD网络架构进行训练。

训练：将模型网络及数据准备好后进行训练，迭代优化了近100万次。

步骤S400，根据所述表格区域、所述字符串位置以及所述二值化图像确定表格的行数和列数，并构建对应行数、列数的重构表格。

于本实施例中，如图5所示，所述根据所述表格区域、所述字符串位置以及所述二值化图像确定表格的行数和列数，并构建对应行数、列数的重构表格的一种实现方式包括：

步骤S410，获取表格区域的边界位置以及表头区域和/或表尾区域；

步骤S420，根据所述表格区域的边界位置从定位的字符串中选取属于所述表格区域的字符串；

步骤S430，根据所述字符串的左上角坐标和所述字符串的高度进行行列排序；

步骤S440，根据所述字符串的行列排序和所述二值化图像对所述字符串进行合并和/或分开操作，以确定表格的行数和列数；

步骤S450，构建对应行数、列数的重构表格。

具体地，Rect_char基于左上角位置x,y及字符高度h进行行列排序得到：

Vec_char＝[[Rect_char7,Rect_char0,...],[Rect_char20,Rect_char21,...],...]。

结合表格区域R_table及字符串行列处理后数据Vec_char，获取每个表格区域对应的字符串信息，表头字符串信息，表尾字符串信息。针对每个表格区域及其对应的字符串信息，同时结合M_bi进一步的对字符串信息进行合并及分开操作，同时确定每行应有的列数，及每列的对应关系，完成单个表格的重建工作。

具体地，于本实施例中，根据所述表格区域、所述字符串位置以及所述二值化图像确定表格的行数和列数，并构建对应行数、列数的重构表格的实施果过程如下：

1)针对每个表格区域，从其区域信息R_i可获知其对应的上、下、左、右边界位置；位于表格区域上方紧邻的文本区域(有表格不存在表头、表尾)包含当前表格的表头信息，位于表格区域下方紧邻的文本区域包含当前表格的表尾区域。

2)依据每个表格区域的边界信息，从字符串矩形信息Vec_char中挑选出属于该表格的字符串行列字符串信息；这里对于已经按整体行列排列好的字符串矩形信息，进行初步的过滤，去除明显越过该表格区域的字符串，得到该表格中的所有字符串矩形位置信息Table_str＝[Str_rect₀,Str_rect₁,...]。

3)对Table_str进一步重新按其左上角坐标及高度进行行列排列得到：

Vec2_Table_str＝[[Str_rect₀,Str_rect₃,Str_rect₁,...],[Str_rect₇,Str_rect₈,Str_rect₁₀,...],...]；

4)对Vec2_Table_str进行竖直方向直方图统计，对每个像素点出现字符串的个数进行统计，得到该表格区域内每个像素点上字符串出现的次数直方图H；由于表格列与列在正文有效数字间一定存在间隔(表头处由于出现合并单元格情况，会有交叉；单其字符串个数理论上相比正文极少)，直方图H中为0的区域范围一定纯在潜在的列表格线；直方图个数少于3的切其两边又多于该值的也可能存在潜在的列表格线，此时结合二值图可进一步做出准确的结果，同时可定位出合并表头的行序号；将判断出为列分割的水平像素坐标x进行记录，即可获得表格列的重建；根据是否出现合并并头行的情况，可以完成行表格的重建。

5)根据上步获取列分割坐标及行合并序号情况，并结合Vec2_Table_str完成整个表格的重建，确定出表格的行列数，并计算出每个字符串对应的行列序号；由于财务报表类表格默认中间正文不出现合并单元格，可以根据列分割坐标，对深度模型出来误合并及未合并的字符串进一步的进行相关的合并及拆分，至此完成该表格的结构重建。

于本实施例中，所述识别所述初始表格图像中的对应字符串的一种实现方式包括：

采用基于深度学习的字符串识别模型识别所述初始表格图像中的对应字符串。

其中，所述基于深度学习的字符串识别模型的获取过程如下：

采集初始表格图像样本数据；在预设结构的excel文本中对所述初始表格图像样本数据中每个单元格字符串图像进行标注；根据标注的样本数据对选取的基于深度学习的字符串识别模型进行迭代训练，生成所需的基于深度学习的字符串识别模型。

所以本实施例的无框线表格重建方法根据每个表格的重建结果及表头、表尾字符串位置信息，到去章图像M3中取出每个单元格的字符串图像，并采用基于深度学习模型的LSTM+CTC方法对字符进行识别。

于本实施例中识别所述初始表格图像中的对应字符串的一种具体实施过程如下：

数据准备：

1)数据来源：客户提供及网上爬取。

2)标注方式：在前期已经拥有有框线表格定位及重建的基础上，可以实现图片表格数据与可编辑excel文档结构及内容的一一对应；由标注人员根据整张表格情况，标注出对应的excel文档；在通过相关算法完成有框线表格的重建、标注结果解析及切割出的每个单元格字符串图像并与标注结果对应起来，把相关信息进行保存，作为训练及测试的单个单元格数据集。针对无框线表格直接用CTD深度模型定位并切割出每个字符串，同时调用之前针对有框线表格训练出的模型预打标签，并交给数据部人员进行检查、校对。最终的标注原始数据集在80万条左右。

3)数据扩充：结合实际表格图像情况，书写了对应的数据扩充算法，加噪、模糊、倾斜旋转、弯曲变形、随机信息块丢失等，将数据量扩充到了300万左右。

模型设计：该网络模型首先采用基于开源ResNet精简并修改的卷积网络对进来图片进行特征提取，期间进行类3次pooling下采样，卷积核大小3x3，每次的步长均为2,采用最大值的方式；尔后经过通道变换处理后，送入双向递归循环网络LSTM进行特征的学习提取；然后将输出特征送入一个全连接层进行字符的类别分类；再将其结果送入CTC(Connectionist Temporal Classification,基于神经网络的时序类分类)进行转录得到对应的识别结果。

模型训练：将模型网络及数据准备好后进行训练，迭代优化了近50万次。训练期间，发现模型识别出错情况，有些为标签出错，如“帐”与“账”经常在表格图像中混用；后续分别用模型并结合人工的方式对训练集进行了多次迭代清洗；并更具模型在红章干扰、手写干扰、年月日识别较差情况，针对性的人工生成了部分样本加入并优化模型。

此外，本实施例中，所述表格重建方法还包括：

根据预设的标准映射表对所述重构表格进行校验、统计和报警的任一种或多种组合操作。

由上可见，本实施例的表格重建方法实现了财务报表无框线表格的重建及识别，解决了财务报表中基于表格线智能重建及识别无法解决的无框线、虚线框、表格线质量较差情况下的表格重建及识别；特别是基于深度学习的表格智能定位及字符串智能检测，实现了单页多表情况下的初步版面分析及重建功能，大大提高了整体系统的鲁棒性；该无框线智能表格重建及识别系统，同时可重建并识别有框线表格格式不不复杂(无合并单元格或合并单元格格式较简单)的表格。在表格重建并识别表格内容后，基于设定映射关系，自动重建出结构化数据，并进行自动检验、统计、报警功能，替换已有的人工审核方式，大大节约人力，并加快审核速度。

本实施例可以应用于主金融财务报表中的无框线表格重建及智能识别；所用基于深度学习的表格区域定位保证表格区域定位同时，具有一定的版面分析功能；所用基于深度学习的字符串检测模型与二值图相结合，在定位中有效的将深度学习技术与传统图像处理技术相结合，保证了定位结果的完整性和精确性；所用的基于表格区域及行列排列分析的无框线表格重建技术，保证了无框线金融报表行列信息的对照，有利于后面的自动校验、报警功能；该方法同样适用与有框线的财务报表定位、重建、识别，极大提高了整个系统的鲁棒性及适用范围。

如图6所示，本实施例还提供一种表格重建装置100，表格重建装置100包括：初始化模块110，二值化图像模块120、表格区域检测模块130、字符串定位模块140、重构模块150以及字符识别模块160。

于本实施例中，所述初始化模块用于获取待处理表格图像，并对获取的所述待处理表格图像进行预处理，形成初始表格图像。

其中，可以通过手机拍摄或扫描方式获取待处理表格图像。

上述仅是对本实施例的图像倾斜校正进行举例说明，对图像进行校正不局限于上述方式。

于本实施例中，所述二值化图像模块120用于获取所述初始表格图像中的字符高度，并根据所述字符高度和预设的二值化阈值获取所述初始表格图像对应的二值化图像。

具体地，于本实施例中，所述二值化图像模块120获取所述初始表格图像中的字符高度的一种实现方式包括：对所述初始表格图像进行自适应二值化处理形成第一图像；获取所述第一图像中的字符连通区域，并计算所述字符连通区域中的字符高度；根据所述初始表格图像的缩放比例和所述字符连通区域中的字符高度确定所述初始表格图像中的字符高度。

于本一些实施例中，所述用于表格线大块干扰去除方法还包括：缩放控制模块，用于根据获取的所述初始表格图像中的字符高度和预设高度阈值判断所述初始表格图像是否可以缩放，若是，则将所述初始表格图像进行缩放，形成缩放图像。

于本申请一些实施例中，所述用于表格线大块干扰去除装置100还包括：第一处理模块，用于根据红章特征和表格线灰度图特征识别并去除所述缩放图像中的红章，生成去章图像，对所述去章图像进行灰度变换，生成单通道图像。

第一处理模块依据红章特征及表格线为灰度图特征对缩放图像M2进行红章去除，获得红章去除后的图像去章图像M3；将去章图像M3进行灰度变换，获得单通道图像M4。

于本些实施例中，所述二值化图像模块120根据所述字符高度和预设的二值化阈值获取所述初始表格图像对应的二值化图像的一种实现方式包括：根据所述字符高度构造匹配的水平结构元素和竖直结构元素；根据构造的所述水平结构元素和所述竖直结构元素对所述单通道图像进行卷积处理以增强所述单通道图像中的表格线；根据所述字符高度设置自适应二值化函数的核尺寸；根据二值化函数和预设的二值化阈值获取所述单通道图像的二值化图像。

具体地，根据获取的字符高度h构造自适应大小的水平结构元素和竖直结构元素来分别对单通道图像M4进行卷积，达到增强图像中水平及竖直线的目的；根据字符高度来设置自适应二值化函数的核尺寸，依据计算获取的背景像素值、目标像素值设置自适应二值化的相应阈值(二值化阈值)，来分别实现水平及竖直方向增强后图像的二值图M_bi_hori、M_bi_ver。于本实施例中，所述表格区域检测模块用于检测所述初始表格图像中的表格区域。

具体地，于本实施例中，所述表格区域检测模块检测所述初始表格图像中的表格区域的一种实现方式包括：采用基于深度学习的目标检测模型测所述初始表格图像中的表格区域。

其中，所述基于深度学习的目标检测模型的获取过程如下：采集初始表格图像样本数据；对所述样本数据进行文本区域、表格区域、背景及其它三个类别标注；根据标注的样本数据对选取的基于深度学习的目标检测模型进行迭代训练，生成所需的基于深度学习的目标检测模型。

于本实施例中，所述字符串定位模块用于定位所述表格区域中的字符串位置。

于本实施例中，所述字符串定位模块采用基于深度学习的字符串检测CTD模型对去章图像M3进行检测，定位出里面所有的字符串位置Rect_char＝[Rect_char0,Rect_char1,...]。

具体地，于本实施例中，所述字符串定位模块定位所述表格区域中的字符串位置的一种实现方式包括：采用基于深度学习的字符串定位模型定位所述表格区域中的字符串位置。

于本实施例中，所述重构模块用于根据所述表格区域、所述字符串位置以及所述二值化图像确定表格的行数和列数，并构建对应行数、列数的重构表格。

于本实施例中，所述重构模块根据所述表格区域、所述字符串位置以及所述二值化图像确定表格的行数和列数，并构建对应行数、列数的重构表格的一种实现方式包括：

获取表格区域的边界位置以及表头区域和/或表尾区域；根据所述表格区域的边界位置从定位的字符串中选取属于所述表格区域的字符串；根据所述字符串的左上角坐标和所述字符串的高度进行行列排序；根据所述字符串的行列排序和所述二值化图像对所述字符串进行合并和/或分开操作，以确定表格的行数和列数；构建对应行数、列数的重构表格。

Vec_char＝[[Rect_char7,Rect_char0,...],[Rect_char20,Rect_char21,...],...]。

于本实施例中，所述字符识别模块用于根据所述字符串位置识别所述初始表格图像中的对应字符串，并将识别的所述字符串填入对应的所述重构表格。

于本实施例中，所述字符识别模块识别所述初始表格图像中的对应字符串的一种实现方式包括：

所以本实施例的无框线表格重建装置根据每个表格的重建结果及表头、表尾字符串位置信息，到去章图像M3中取出每个单元格的字符串图像，并采用基于深度学习模型的LSTM+CTC方法对字符进行识别。

此外，本实施例的无框线表格重建装置还根据预设的标准映射表对所述重构表格进行校验、统计和报警的任一种或多种组合操作。

如图7所示，展示本申请一实施例中的电子终端的结构示意图，所述电子终端包括处理器1101和存储器1102；存储器1102通过系统总线与处理器1101连接并完成相互间的通信，存储器1102用于存储计算机程序，处理器1101用于运行计算机程序，以使所述电子终端执行所述的表格重建方法。上述已经对所述表格重建方法进行了详细说明，在此不再赘述。

另需说明的是，上述提到的系统总线可以是外设部件互连标准(PeripheralComponent Interconnect，简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture，简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器1101可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

此外，本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的表格重建方法。上述已经对所述表格重建方法进行了详细说明，在此不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本发明实现了财务报表表格的重建及识别，解决了财务报表中基于表格线智能重建及识别无法解决的无框线、虚线框、表格线质量较差情况下的表格重建及识别；特别是基于深度学习的表格智能定位及字符串智能检测，实现了单页多表情况下的初步版面分析及重建功能，大大提高了整体系统的鲁棒性。所以，本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种表格重建方法，其特征在于，包括：

获取待处理表格图像并对获取的所述待处理表格图像进行预处理，形成初始表格图像；

获取所述初始表格图像中的字符高度，并根据所述字符高度和预设的二值化阈值获取所述初始表格图像对应的二值化图像；

检测所述初始表格图像中的表格区域并定位所述表格区域中的字符串位置；

根据所述表格区域、所述字符串位置以及所述二值化图像确定表格的行数和列数，并构建对应行数、列数的重构表格；

根据所述字符串位置识别所述初始表格图像中的对应字符串，并将识别的所述字符串填入对应的所述重构表格。

2.根据权利要求1所述的表格重建方法，其特征在于，所述获取所述初始表格图像中的字符高度的一种实现方式包括：

对所述初始表格图像进行自适应二值化处理形成第一图像；

获取所述第一图像中的字符连通区域，并计算所述字符连通区域中的字符高度；

根据所述初始表格图像的缩放比例和所述字符连通区域中的字符高度确定所述初始表格图像中的字符高度。

3.根据权利要求2所述的表格重建方法，其特征在于，所述表格重建方法还包括：

根据获取的所述初始表格图像中的字符高度和预设高度阈值判断所述初始表格图像是否可以缩放，若是，则将所述初始表格图像进行缩放，形成缩放图像。

4.根据权利要求3所述的表格重建方法，其特征在于，所述表格重建方法还包括：

根据红章特征和表格线灰度图特征识别并去除所述缩放图像中的红章，生成去章图像；

对所述去章图像进行灰度变换，生成单通道图像。

5.根据权利要求4所述的表格重建方法，其特征在于，所述根据所述字符高度和预设的二值化阈值获取所述初始表格图像对应的二值化图像的一种实现方式包括：

根据所述字符高度构造匹配的水平结构元素和竖直结构元素；

根据构造的所述水平结构元素和所述竖直结构元素对所述单通道图像进行卷积处理以增强所述单通道图像中的表格线；

根据所述字符高度设置自适应二值化函数的核尺寸；

根据二值化函数和预设的二值化阈值获取所述单通道图像的二值化图像。

6.根据权利要求1所述的表格重建方法，其特征在于，所述根据所述表格区域、所述字符串位置以及所述二值化图像确定表格的行数和列数，并构建对应行数、列数的重构表格的一种实现方式包括：

获取表格区域的边界位置以及表头区域和/或表尾区域；

根据所述表格区域的边界位置从定位的字符串中选取属于所述表格区域的字符串；

根据所述字符串的左上角坐标和所述字符串的高度进行行列排序；

根据所述字符串的行列排序和所述二值化图像对所述字符串进行合并和/或分开操作，以确定表格的行数和列数；

构建对应行数、列数的重构表格。

7.根据权利要求1所述的表格重建方法，其特征在于，所述表格重建方法还包括：

8.一种表格重建装置，其特征在于，包括：

初始化模块，用于获取待处理表格图像，并对获取的所述待处理表格图像进行预处理，形成初始表格图像；

二值化图像模块，用于获取所述初始表格图像中的字符高度，并根据所述字符高度和预设的二值化阈值获取所述初始表格图像对应的二值化图像；

表格区域检测模块，用于检测所述初始表格图像中的表格区域；

字符串定位模块，用于定位所述表格区域中的字符串位置；

重构模块，用于根据所述表格区域、所述字符串位置以及所述二值化图像确定表格的行数和列数，并构建对应行数、列数的重构表格；

字符识别模块，用于根据所述字符串位置识别所述初始表格图像中的对应字符串，并将识别的所述字符串填入对应的所述重构表格。

9.一种电子终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述电子终端执行如权利要求1至7中任一项所述的表格重建方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的表格重建方法。