CN114581923A

CN114581923A - 表格图像及对应标注信息的生成方法、装置及存储介质

Info

Publication number: CN114581923A
Application number: CN202210203324.XA
Authority: CN
Inventors: 孙杰; 丁拥科
Original assignee: Zhongan Online P&c Insurance Co ltd
Current assignee: Zhongan Online P&c Insurance Co ltd
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2022-06-03

Abstract

本发明公开了一种表格图像及对应标注信息的生成方法、装置及存储介质，涉及表格数据技术领域。包括方法包括：根据场景信息，收集所述场景信息对应的语料形成语料库；对表格参数进行定义，并记录在配置文件中；结合所述配置文件和所述语料库，渲染生成表格样本图片和标注图片；提取所述标注图片，生成标注信息。本发明能够在指定语料和版式的情况下大批量随机生成表格图片，同时获取图片中所有标注信息，解决了特定场景下表格图片数据采集难度大、标注成本高的问题。

Description

表格图像及对应标注信息的生成方法、装置及存储介质

技术领域

本发明涉及表格数据技术领域，具体涉及表格图像及对应标注信息的生成方法、装置及存储介质。

背景技术

目前，表格是各类文档中常用的信息表达方式。随着各行业数据处理需求的日益增长和人工智能技术的快速发展，更多企业倾向于借助深度学习模型处理以图像形式存储的表格数据，替代传统的人工解析。常见的表格类任务有：表格检测、表格结构解析、表格线检测、表格文字定位识别等。一般的深度学习神经网络模型的训练需要大量的训练数据，其中包括表格图片本身以及相应的标注。但在一些领域，相关表格图片数据有涉敏或涉密属性或图片采集成本较高，严重缺乏训练数据。另一方面，即使采集到大量数据，对表格图片的人工标注也成本极高。缺乏完整的表格图片及标注为深度学习模型的开发带来极大困难。

在其他文档识别相关的深度学领域，尝使用指定语料合成训练样本来可读数据匮乏的问题。但用来生成表格图片数据集的公开方法较少，主要原因是生成样本后标注成本太大，其结果无法直接用于模型训练和验证。因此，亟需一种表格图片及数据标注生成方法。

发明内容

为了解决上述背景技术中提到的至少一个问题，本发明提供了一种表格标注信息生成方法、装置及存储介质，能够在指定语料和版式的情况下大批量随机生成表格图片，同时获取图片中所有标注信息，解决了特定场景下表格图片数据采集难度大、标注成本高的问题。

本发明实施例提供的具体技术方案如下：

第一方面，一种表格图像及对应标注信息生成方法，所述方法包括：

根据场景信息，收集所述场景信息对应的语料形成语料库；

对表格参数进行定义，并记录在配置文件中；

结合所述配置文件和所述语料库，渲染生成表格样本图片和标注图片；

提取所述标注图片，生成标注信息。

进一步的，在生成标注图片之前，还包括：在所述配置文件中的添加修改文字底色代码，以实现根据所述配置文件提取标注信息。

进一步的，还包括：批量生成所述表格样本图片和所述标注信息，形成数据集，利用所述数据集对神经网络模型进行训练和/或验证。

进一步的，对表格参数进行定义，具体包括：

根据所述场景信息对表格结构和/或表格内容和/或表格样式进行定义。

进一步的，提取所述标注图片，生成标注信息，具体包括：

提取所述标注图片，得到文字坐标和框线坐标；

结合所述配置文件、所述文字坐标和所述框线坐标，得到所述标注信息。

进一步的，分离所述标注图片，得到文字标注图和表格标注图；

基于所述文字标注图提取轮廓坐标，生成文字坐标；

基于所述表格标注图，进行轮廓检测，得到框线坐标。

进一步的，对所述表格标注图进行二值化，得到表格二值化图；

对所述表格二值化图进行腐蚀和膨胀，分离所述表格二值化图中的横线，得到横线图；

对所述表格二值化图进行腐蚀和膨胀，分离所述表格二值化图中的竖线，得到纵线图；

根据所述横线图和所述纵线图，提取得框线坐标。

第二方面，提供一种基于表格图像及对应标注信息的生成方法的装置，所述装置包括：

语料配置模块，用于根据场景信息，收集所述场景信息对应的语料形成语料库；

文件配置模块，用于对表格参数进行定义，并记录在配置文件中；

渲染模块，用于集合所述配置文件和所述预料库，渲染生成表格样本图片和标注图片；

提取模块，提取所述标注图片，生成标注信息。

第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

根据场景信息，收集所述场景信息对应的语料形成语料库；

对表格参数进行定义，并记录在配置文件中；

提取所述标注图片，生成标注信息。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

根据场景信息，收集所述场景信息对应的语料形成语料库；

对表格参数进行定义，并记录在配置文件中；

提取所述标注图片，生成标注信息。

本发明实施例具有如下有益效果：

1.通过银行、金融报表类等场景的数据特点，收集对应场景信息的语料形成语料库，同时根据需要收集数据的场景的表格数据特点，对表格特性进行定义并记录在配置文件中，结合配置文件和语料库内容，渲染生成表格样本图片和标注图片，其中标注图片和表格样本图片为同一布局图片，提取标注图片，得到标注信息；

2.在生成标注信息之前，还在配置文件中添加修改文字底色代码，以实现根据配置提取标注信息，在获取文字框位置时，修改样本图片代码中的文字底色，使得文字区域被实心的红色矩形框包络，以便于进行位置提取；

3.将获取的标注信息存储为标注文件，结合标注文件和获得的表格样本图片，批量生成表格样本图片和标注文件，形成数据集和训练集，利用数据集和训练集分别对神经网络模型进行训练和验证。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1用于体现本申请实施例1中的方法示意图；

图2用于体现本申请中表格样本图片的示意图；

图3用于体现本申请中标注图片的示意图；

图4用于体现本申请中横线图；

图5用于体现本申请中的竖线图；

图6用于体现本申请中的服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，表格是各类文档中常用的信息表达方式。随着各行业数据处理需求的日益增长和人工智能技术的快速发展，更多企业倾向于借助深度学习模型处理以图像形式存储的表格数据，替代传统的人工解析。常见的表格类任务有：表格检测、表格结构解析、表格线检测、表格文字定位识别等。一般的深度学习神经网络模型的训练需要大量的训练数据，其中包括表格图片本身以及相应的标注。但在一些领域，相关表格图片数据有涉敏或涉密属性或图片采集成本较高，严重缺乏训练数据。另一方面，即使采集到大量数据，对表格图片的人工标注也成本极高。缺乏完整的表格图片及标注为深度学习模型的开发带来极大困难。同时，使用chrome内核渲染成图片，基于html代码的渲染结果图片，其绝对坐标是不可控的，因此无法直接得到标注位置；对于无线表、三线表，其渲染后本身就不显示线和单元格的区分。基于以上问题，本申请提出了一种表格图像及对应标注信息的生成方法、装置及存储介质，能够在指定语料和版式的情况下大批量随机生成表格图片，同时获取图片中所有标注信息，解决了特定场景下表格图片数据采集难度大、标注成本高的问题。

实施例一

提供一种表格图像及对应标注信息生成方法，所述方法包括：

步骤S1：

根据场景信息，收集所述场景信息对应的语料形成语料库。

具体的，针对银行、金融、保险类的数据特点，对需要生成表格图片的具体场景，针对性的收集相关语料作为表格单元格内填充的内容的数据库。如，在银行对账明细表场景中，文字语料池中为收集到的脱敏后的用户姓名、交易行为名等为对应的语料，以及像日期和金额等有特定编码规则的字段场景，可以涉及语料生成器来自动随机生成相应格式的语料，通过将以上用户输入的语料和通过语料生成器生成的语料结合起来，组成语料库用于对后续需要填充内容的支撑。

步骤S2：

对表格参数进行定义，并记录在配置文件中。

具体的，根据具体的场景信息，对表格结构和/或表格内容和/或表格样式进行定义，并记录在配置文件中。具体的，对表格结构进行定义包括对表格的行列数进行定义，设置表格的行列数在一定范围内随机变化。对表格内容进行定义包括对以表格的行或者列为单位，对每一行或者列的内容的语料类型进行定义，如文本、日期、金额等。对表格样式进行定义包括对表格的每一行或者列的板式特点进行定义，例如：是否有边线、文字对齐方式(如左对齐、居中、右对齐等)、字体类型和字体颜色等。

具体的，除了首行表头以外，表格内容第一列是日期列，第二列是文字列，第三列是金额列，设置宽度比例是1:3:1，偶数行是灰色，奇数行是蓝色，表格无纵线只有横线。本方案可根据实际场景和需要的内容自主定义到配置文件中。

步骤S3：

结合所述配置文件和所述语料库，渲染生成表格样本图片和标注图片。具体的，首先根据配置文件和语料库结合，渲染生成表格样本图片，然后在配置文件中添加修改文字底色代码，再结合添加修改文字底色代码的配置文件和语料库渲染生成标注图片。利用开源工具imgkit中的from_string方法将以上代码分别渲染生成表格样本图片和标注图片。

具体的，用于生成表格样本图片和标注图片的代码在HTML部分完全一致，且保证二者的结构和内容一致，在生成标注图片的CSS代码部分添加额外的修改文字底色代码。其中，表格样本图片如图2所示，生成表格样本图片的代码如下：

根据配置文件中所指定的结构及内容，利用python脚本(亦可为其他语言，本发明不做限制)生成对应的HTML字符串。生成时根据HTML的语法规则，将<table><tr><td><span>等标签与文本内容进行拼凑，并指定每一列的类别标签class_id。另外根据配置文件指定的表格样式，进一步生成对应<table><tr><td><span>标签的CSS代码，控制表格样本图片的版式效果。需要对整行或整列更改样式时，可使用CSS的ID选择器进行批量设置。

具体的，标注图片如图3所示，标注图片代码如下：

为了获取文字框位置，修改表格样本图片中的文字底色，在CSS部分中添加修改文字底色代码，例如：在<style>标签内添加“span{background-color：red；color：red；}”即可使文字区域被实心的红色矩形框包络，以便进行位置提取。如需对样本图片中不可见的表格线提取坐标，可将对应类别设置为“{border:1pxsolid black；}”。

步骤S4：

提取标注图片，生成标注信息。

针对表格样本图片，如使用chrome内核渲染成图片，获取标注有以下困难：其一，基于html代码的渲染结果图片，其绝对坐标是不可控的，因此无法直接得到标注位置。其二，对于无线表、三线表，其渲染后本身就不显示线和单元格的区分，因此，本申请中采用生成标注图片的方法，通过对标注图片进行检测和提取，获取标注信息。

具体包括，步骤S4.1：提取标注图片，得到文字坐标和框线坐标。

标注图片中的文字区域为黑色矩形框，表格框线为黑色直线。首先，通过颜色RGB通管分离操作将文字标注和表格标注分离开，得到文字标注图和表格标注图。

基于文字标注图提取轮廓坐标，生成文字坐标，基于表格标注图，进行轮廓检测，得到框线坐标。具体的，对文字标注图使用OpenCV中的findContours方法获取外轮廓坐标，即可得到所有文字坐标。接着对表格标注图进行二值化，得到表格二值化图，利用OpenCV对图分别做核为(3,1)的开运算，即对表格二值化图像进行3次腐蚀和3次膨胀，分离出表格二值化图像中的横线，得到横线图；同理，将核替换为(3,1)进行处理，即对表格二值化图像进行3次腐蚀和3次膨胀，分离出表格二值化图像中的竖线，得到竖线图。

根据如图4和5所示的横线图和竖线图，提取得到框线坐标，具体的，对横线图和纵线图使用findContours方法获取轮廓坐标，可得到横/纵线的端点表示，即得到框线坐标。

步骤S4.2：结合所述配置文件、所述文字坐标和所述框线坐标，得到标注信息。

具体的，通过解析框线坐标可得到表格范围坐标。配置文件中的HTML文件中已随机生成完毕每个字段的语料内容，例如图3所示的，“Date”，“日期”，“27Feb”，“易办事”，通过图3和图4中的文字框的得出定位框，可以按照顺序将二者一一对应。结合配置文件、文字坐标和框线坐标可得“Date”：“x1，y1，x2，y2”，“日期”：“x1，y1，x2，y2”，既包含文字坐标又包含语料内容的标记信息。

在获得标注信息的同时，通过所述配置文件、所述文字坐标和所述框线坐标还能获得单元格位置信息。

将获得的单元格位置信息和标注信息输入标注工具，得到的标注信息即是以JSON格式数据。本步骤中通过使用imgkit工具渲染表格，并直接精确提取出文字、单元格、线条等坐标位置，确保了获取标注信息的准确性和效率。

步骤S5：

批量生成所述表格样本图片和所述标注信息，形成数据集，利用所述数据集对神经网络模型进行训练和/或验证。

具体的，批量生成JSON格式数据的标注信息，结合标注信息和表格样本图片形成数据集，数据集中包括有验证集，利用数据集对神经网络模型进行训练，利用验证集对神经网络模型进行验证。

本实施例中的步骤S1～S5的前后顺序不作限制，工作人员可根据实际情况进行调整。

实施例二

对应上述实施例，本申请提供一种基于表格图像及对应标注信息的生成方法的装置，所述装置包括：

语料配置模块，用于根据场景信息，收集所述场景信息对应的语料形成语料库。

文件配置模块，用于对表格参数进行定义，并记录在配置文件中。

渲染模块，用于集合所述配置文件和所述预料库，渲染生成表格样本图片和标注图片。

提取模块，提取所述标注图片，生成标注信息。

还包括模型训练模块，批量生成所述表格样本图片和所述标注信息，形成数据集，利用所述数据集对神经网络模型进行训练和/或验证。

具体的，在生成标注图片之前，还包括：在配置文件中的添加修改文字底色代码，以实现根据所述配置文件提取标注信息。

通过银行、金融报表类等场景的数据特点，收集对应场景信息的语料形成语料库，同时根据需要收集数据的场景的表格数据特点，对表格特性进行定义并记录在配置文件中，结合配置文件和语料库内容，渲染生成表格样本图片和标注图片，其中标注图片和表格样本图片为同一布局图片，提取标注图片，得到标注信息，能够在指定语料和版式的情况下大批量随机生成表格图片，同时获取图片中所有标注信息，解决了特定场景下表格图片数据采集难度大、标注成本高的问题。

实施例三

提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

根据场景信息，收集所述场景信息对应的语料形成语料库；

对表格参数进行定义，并记录在配置文件中；

提取所述标注图片，生成标注信息。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语料库数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种表格图像及对应标注信息的生成方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

实施例四

在一个本实施例中，提供了一种种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

根据场景信息，收集所述场景信息对应的语料形成语料库；

对表格参数进行定义，并记录在配置文件中；

提取所述标注图片，生成标注信息。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

尽管已描述了本发明实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种表格图像及对应标注信息生成方法，其特征在于，所述方法包括：

根据场景信息，收集所述场景信息对应的语料形成语料库；

对表格参数进行定义，并记录在配置文件中；

提取所述标注图片，生成标注信息。

2.根据权利要求1所述的方法，其特征在于，在生成标注图片之前，还包括：在所述配置文件中的添加修改文字底色代码，以实现根据所述配置文件提取标注信息。

3.根据权利要求2所述的方法，其特征在于，还包括：批量生成所述表格样本图片和所述标注信息，形成数据集，利用所述数据集对神经网络模型进行训练和/或验证。

4.根据权利要求1所述的方法，其特征在于，对表格参数进行定义，具体包括：

5.根据权利要求4所述的方法，其特征在于，提取所述标注图片，生成标注信息，具体包括：

提取所述标注图片，得到文字坐标和框线坐标；

6.根据权利要求5所述的方法，其特征在于，分离所述标注图片，得到文字标注图和表格标注图；

基于所述文字标注图提取轮廓坐标，生成文字坐标；

基于所述表格标注图，进行轮廓检测，得到框线坐标。

7.根据权利要求6所述的方法，其特征在于，对所述表格标注图进行二值化，得到表格二值化图；

根据所述横线图和所述纵线图，提取得框线坐标。

8.一种基于表格图像及对应标注信息的生成方法的装置，其特征在于，所述装置包括：

渲染模块，用于集合所述配置文件和所述语料库，渲染生成表格样本图片和标注图片；

提取模块，提取所述标注图片，生成标注信息。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～7中任一项所述的方法的步骤。