CN112200158B

CN112200158B - 训练数据生成方法及系统

Info

Publication number: CN112200158B
Application number: CN202011378838.6A
Authority: CN
Inventors: 豆浩斌; 陈博; 朱风云
Original assignee: Beijing Lingbanjishi Intelligent Technology Co ltd
Current assignee: Beijing Lingbanjishi Intelligent Technology Co ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-05-25
Anticipated expiration: 2040-12-01
Also published as: CN112200158A

Abstract

本发明公开了一种训练数据生成系统，包括文本生成器、版式生成器、文本渲染器、图表渲染器、噪声添加器、形变添加器、标注生成器、文档图像样本库；文本渲染器选取文本行并将其渲染至文本行位置区域；图表渲染器将图表元素渲染至图表元素的位置区域；标注生成器生成版式分析标注信息、文本定位及识别标注信息。此外，本发明还公开了一种训练数据生成方法。本发明考虑了文档图像产生过程中的各种因素，并将因素模块化、参数化、可配置化，能够自动生成应用于文档图像分析与识别系统的训练样本，合成得到的文档图像形式丰富、效果逼真，且整体灵活可调、扩展性强，还可以自动完成文档图像各级信息的标注，提供完整标注的训练数据。

Description

训练数据生成方法及系统

技术领域

本发明涉及图像合成及标注技术领域，特别涉及一种训练数据生成方法及系统。

背景技术

现有技术中，以深度神经网络为代表的深度学习方法已经被广泛地应用到各种图像识别系统中。其中，文档图像分析与识别系统采用计算机视觉方法分析文档图像的物理和逻辑结构，通过定位和识别文档内部的各类文档元素如文本、表格、图像、图形等，从而形成对文档的完整描述。同时，训练数据自动生成技术是机器学习中为应对训练数据不足而经常采用的技术，训练数据自动生成技术通过对真实数据添加各种变换来扩充数据，或者其对真实数据建模来直接生成仿真数据，从而采用较低成本为机器学习算法提供足够多的训练样本。

然而，发明人经研究发现，现有技术中，文档图像分析与识别系统由于其训练样本的人工标注过程比较繁杂，目前仍然缺少充足的精确标注的训练数据集，特别是中文的文档图像的训练数据集更是极为稀缺；而现有技术中的文档图像合成和标注技术仅考虑了文档图像产生过程中的个别影响因素，标注的信息不够全面，在实际应用中具有很大的局限性，无法应用在完整的文档图像分析与识别系统中。

发明内容

基于此，为解决现有技术中的技术问题，特提出了一种训练数据生成方法，包括：

从真实文档文本库中选择真实文档文本语料及对应的字符集并输入至文本生成器；所述文本生成器基于所述字符集生成随机文档文本语料；所述文本生成器利用真实文档文本语料及随机文档文本语料构成文本行候选集合；所述文本生成器将所述文本行候选集合发送至与其相连接的文本渲染器；

版式生成器从文档版式库中随机选取文档版式；所述版式生成器基于文档版式确定文档图像中的文本位置布局及几何属性，以及确定文档图像中图表元素的类别、位置布局及几何属性；所述版式生成器将文本位置布局及几何属性发送至与其相连接的文本渲染器，将图表元素的类别、位置布局及几何属性发送至与其相连接的图表渲染器，将所述文档版式发送至与其相连接的标注生成器；

所述文本渲染器从接收的所述文本行候选集合中选取文本行并将其渲染至所述版式生成器给出的文本行位置区域；所述文本渲染器将文本渲染后的文档图像发送至与其相连接的噪声添加器；

所述图表渲染器根据接收的图表元素的类别、位置布局及几何属性将图表元素分别渲染至所述版式生成器给出的图表元素的位置区域，生成并输出图表渲染后的文档图像；所述图表渲染器将所述图表渲染后的文档图像发送至与其相连接的噪声添加器；

所述噪声添加器综合所述文本渲染后的文档图像、所述图表渲染后的文档图像并生成渲染后文档图像；所述噪声添加器在所述渲染后文档图像中添加噪声，生成添加噪声后的文档图像；所述噪声添加器将所述添加噪声后的文档图像发送至与其相连接的形变添加器；

所述形变添加器在接收的添加噪声后的文档图像中添加形变处理，生成添加形变后的文档图像并将其作为文档图像样本发送至与所述形变添加器相连接的文档图像样本库；

所述标注生成器根据接收的所述文档版式生成版式分析标注信息，根据接收的所述文本行候选集合、所述文本位置布局及几何属性生成文本定位及识别标注信息；所述标注生成器将版式分析标注信息、文本定位及识别标注信息发送至与其相连接的文档图像样本库，并与相关联的文档图像样本对应存储于所述文档图像样本库中。

在一种实施例中，所述图表元素的类别包括图形、图像、表格；所述图表渲染器包括图形渲染器、图像渲染器、表格渲染器；所述版式生成器将图形的位置布局及几何属性、图像的位置布局及几何属性、表格的位置布局及几何属性分别对应发送至所述图形渲染器、所述图像渲染器、所述表格渲染器；

所述图形的位置布局及几何属性包括图形数量及位置区域参数；所述图像的位置布局及几何属性包括图像数量及图像位置区域参数；所述表格的位置布局及几何属性包括表格数量、表格参数、表格位置区域参数，所述表格参数包括表格的行数、列数，所述表格位置区域参数包括表格的行、列及单元格的位置区域参数；

其中，所述位置区域参数包括外接矩形框的中心位置、长度、宽度以及朝向值。

在一种实施例中，所述图形渲染器接收所述版式生成器发送的图形位置布局及几何属性；所述图形渲染器将图形元素渲染至所述版式生成器给出的图形位置区域，生成并输出图形渲染后的文档图像；

其中，所述图形渲染器从图形元素库中随机选取所述图形元素；或者，利用随机选取的图形参数合成得到所述图形元素；所述图形参数包括填充颜色、线条类型、线条粗细、线条颜色；

所述图像渲染器接收所述版式生成器发送的图像位置布局及几何属性；所述图像渲染器将图像元素渲染至所述版式生成器给出的图像位置区域，生成并输出图像渲染后的文档图像；

其中，所述图像渲染器从图像元素库中随机选取所述图像元素；所述图像渲染器对选取的所述图像元素进行图像变换，所述图像变换包括裁剪、缩放、平移、翻转；

所述表格渲染器接收所述版式生成器发送的表格位置布局及几何属性；所述表格渲染器将表格元素渲染至所述版式生成模块给出的表格位置区域，生成并输出表格渲染后的文档图像；

其中，所述表格渲染器从表格元素库中随机选取所述表格元素；或者，利用随机选取的表格参数、表格文本合成得到所述表格元素；所述表格参数包括表格行数、表格列数、单元格尺寸；

所述图表渲染后的文档图像包括图形渲染后的文档图像、图像渲染后的文档图像、表格渲染后的文档图像中的一种或多种。

在一种实施例中，所述噪声添加器从噪声库中随机选取噪声，或者利用随机设定的噪声参数合成得到噪声；所述噪声参数包括噪声类型、噪声强度；所述噪声类型包括随机噪点、模糊噪声、图像压缩和二值化产生的噪声；

其中，所述形变添加器添加的形变类型包括模拟纸面弯曲的弯曲形变、模拟成像视角的投影形变、模拟墨迹局部伸缩的弹性形变。

在一种实施例中，所述文本位置布局及几何属性包括所述文档图像中包含的文本块数量及文本块位置区域参数，以及所述文本块中包含的文本行数量及文本行位置区域参数；所述位置区域参数包括外接矩形框的中心位置、长度、宽度以及朝向值；

在文本渲染过程中，所述文本渲染器从字体库中选择随机设定的字符参数对所述文本行中的字符进行渲染；所述字符参数包括字体、字号、字符颜色、笔划粗细以及字符倾斜角度。

在一种实施例中，所述版式分析标注信息包括文档图像中文档元素的类别和对应的位置布局及几何属性；所述文档元素包括文本、图表元素；所述图表元素包括图形元素、图像元素、表格元素；

其中，所述文本定位及识别标注信息包括文本内容和对应的文本位置布局及几何属性。

在一种实施例中，所述标注生成器根据版式标注的精细度划分版式标注级别，所述版式标注级别包括像素级、轮廓级、边框级；

所述标注生成器根据文本标注的精细度划分文本标注层级，所述文本标注层级包括文本块级、文本行级、词级、字符级。

此外，为解决现有技术中的技术问题，特提出了一种训练数据生成系统，包括文本生成器、版式生成器、文本渲染器、图表渲染器、噪声添加器、形变添加器、标注生成器、文档图像样本库；

所述文本生成器与所述文本渲染器相连接；所述版式生成器与所述文本渲染器、所述图表渲染器相连接；所述文本渲染器与所述噪声添加器相连接；所述噪声添加器与所述形变添加器相连接；所述所述文本生成器、所述版式生成器与所述标注生成器相连接；所述形变添加器、所述标注生成器与所述文档图像样本库相连接；

其中，从真实文档文本库中选择真实文档文本语料及对应的字符集并输入至所述文本生成器；所述文本生成器基于所述字符集生成随机文档文本语料；所述文本生成器利用真实文档文本语料及随机文档文本语料构成文本行候选集合；所述文本生成器将所述文本行候选集合发送至文本渲染器；

其中，所述版式生成器从文档版式库中随机选取文档版式，并基于文档版式确定文档图像中的文本位置布局及几何属性；所述版式生成器将文本位置布局及几何属性发送至所述文本渲染器；

所述版式生成器基于文档版式确定文档图像中图表文档元素的类别、位置布局及几何属性，并将图表文档元素的类别、位置布局及几何属性发送至所述图表渲染器；

所述版式生成器将所述文档版式发送至所述标注生成器；

其中，所述文本渲染器从接收的所述文本行候选集合中选取文本行并将其渲染至所述版式生成器给出的文本行位置区域；所述文本渲染器将文本渲染后的文档图像发送至所述噪声添加器；

其中，所述图表渲染器根据接收的图表元素的类别、位置布局及几何属性将图表元素分别渲染至所述版式生成器给出的图表元素的位置区域，生成并输出图表渲染后的文档图像；所述图表渲染器将所述图表渲染后的文档图像发送至所述噪声添加器；

其中，所述噪声添加器综合所述文本渲染后的文档图像、所述图表渲染后的文档图像并生成渲染后文档图像；所述噪声添加器在所述渲染后文档图像中添加噪声，生成添加噪声后的文档图像并发送至所述形变添加器；

其中，所述形变添加器在添加噪声后的文档图像中添加形变处理，生成添加形变后的文档图像并将其作为文档图像样本发送至文档图像样本库；

其中，所述标注生成器根据接收的所述文档版式生成版式分析标注信息，根据接收的所述文本行候选集合、所述文本位置布局及几何属性生成文本定位及识别标注信息；所述标注生成器将版式分析标注信息、文本定位及识别标注信息发送至所述文档图像样本库，并与相关联的文档图像样本对应存储于所述文档图像样本库中。

实施本发明实施例，将具有如下有益效果：

本发明公开了一种基于程序合成的用于文档图像分析与识别系统的训练数据生成方法及训练数据生成系统，综合考虑了文档图像产生过程中的各种影响因素，利用计算机程序将影响因素模块化、参数化、可配置化，并根据实际需求自动完成文档图像各层级信息的标注，包括版式、文本相关的标注信息。本发明不仅提供了文档图像的自动合成和标注方法和系统，还为其中每个模块给出了可行方案；通过计算机程序自动合成各种高仿真的文档图像，并且依据用户设置在合成的文档图像中随机引入文档版式，以及文本、图形、图像、表格等各种文档元素的内容和样式，还加入了噪声和形变等变化因素，从而保证了合成的文档图像足够丰富和逼真；同时，对于利用程序合成的文档图像能够直接自动获取其对应的标注信息，可以为文档图像分析与识别系统提供完整标注的训练数据，不仅避免了人工标注方式的繁杂过程，还具有比人工标注方式更高的标注精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为本发明中训练数据生成系统的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

用于文档图像分析与识别系统的训练数据生成技术具体包括文档图像合成技术、文档图像标注技术；

其中，文档图像合成技术通过分析真实文档图像的各种影响因素，利用计算机程序对影响因素的产生过程进行建模，从而自动生成仿真的文档图像；真实文档图像产生过程中的影响因素包括：

采集方式，包括扫描仪扫描或者摄像机拍摄，在采集成像过程中存在视角变化；

成像质量，图像具有彩色模式、灰度模式和黑白模式，而外部光照和曝光等成像参数的变化会带来各种类型的噪声，产生不同的信噪比；同时，图像在存储和传输时会进行压缩、二值化处理，带来图像压缩和二值化时产生的噪声；

纸面状况，真实的纸张无法保证是完全平直的，其会存在弯曲、折痕等形变；

墨印状况，文档在印制过程中会发生墨迹的膨胀或腐蚀，所述印制包括复印；文档在被翻阅过程中还可能加入涂画墨迹等；

文档版式，文档中存在大量图文混排的情况，除文本之外还包括图像、图形、表格等图表文档元素，而文本本身也会呈现比较复杂的篇章结构，包括栏、段、行等；

文本样式，文本渲染中对于单个字符存在字体、字号、字符颜色、笔划粗细、字符倾斜角度等变化因素；而对于整个文字块来说则存在书写方向、行间距、段间距、对齐方式、首行缩进等变化因素；

文本内容，包括文档中的文本语料所属语言类型、字符集大小以及文本语料的领域来源等；

图表样式，图表元素本身具有复杂的结构形式，包括图形、图像的类型、来源、像素分布等，以及表格的结构、样式、内嵌文本信息等；

完备有效的文档图像合成技术需要对各种影响因素进行分析、建模，保证合成的文档图像接近真实的文档图像样本的样本分布，从而有力地支撑文档图像分析与识别系统的模型训练；

文档图像标注技术是基于文档分析和识别系统的模型定义和任务要求对采集得到的文档图像以设定形式标注待识别的对象及其属性，为模型训练提供监督信息；对于文档分析和识别系统来说，其需要标注的信息包括：

与文档版式相关的标注信息，即版式分析标注信息；确认文档图像中出现的所有文档元素，标注其所在的区域及所属类别；根据版式标注的精细程度，对区域的版式标注分为像素级标注、轮廓级标注、边框级标注；像素级标注是指对区域内的所有像素点进行标注；轮廓级标注是指对区域外部的轮廓曲线进行标注；边框级标注是指对区域的外接多边形进行标注，对于矩形边框需要标注其中心位置、长度、宽度以及朝向值；对于表格元素，需要标注表格结构，表格结构包括行、列和单元格的位置区域参数，同时还需要对应标注表格中的文本内容；

与文档文本相关的标注信息，即文本定位及识别标注信息，包括文本定位标注信息、文本识别标注信息；在文本定位任务中，对文档图像中的文本区域进行不同精细程度的标注，将文本定位标注信息划分为不同的文本标注层级，包括文本块级、文本行级、词级和字符级；在文本识别任务中，需要标注文本定位标注信息所对应的文本内容，因此文本识别标注信息也对应地划分层级，包括文本块级、文本行级、词级以及字符级所对应的文本内容。

本发明公开了一种训练数据生成系统，用于合成高仿真的文档图像，同时能够自动为合成的文档图像添加标注信息；

如图1所示，所述训练数据生成系统包括文本生成器、版式生成器、文本渲染器、图表渲染器、噪声添加器、形变添加器、标注生成器、文档图像样本库；

其中，从真实文档文本库中选择真实文档文本语料及对应的字符集并输入至所述文本生成器；所述文本生成器基于所述字符集生成随机文档文本语料；

特别地，在所述文本生成器生成的随机文档文本语料中，构成所述随机文档文本语料的随机字符串具有多种构成形式；所述随机字符串的构成形式根据实际应用设置、选择、变换；

特别地，在中英文文档图像中，所述随机字符串的构成形式包括但不仅限于以下种类：

中文字符、数字、字母及标点符号；

中文字符及标点符号；

数字、字母及标点符号；

所述文本生成器利用真实文档文本语料及随机文档文本语料构成文本行候选集合；所述文本生成器将所述文本行候选集合发送至文本渲染器；

特别地，所述文本生成器将输入的真实文档文本语料及生成的随机文档文本语料组成混合文档文本语料；所述随机文档文本语料作为真实文档文本语料的补充保证所有的字符都得到充分训练；所述文本生成器将所述混合文档文本语料拆分为多个不同长度的字符串并生成对应的文本行，由所述文本行构成文本行候选集合，所述文本行候选集合用于文本渲染处理；

其中，所述版式生成器从文档版式库中随机选取文档版式；所述版式生成器基于文档版式确定文档图像中的文本位置布局及几何属性；所述版式生成器将文本位置布局及几何属性发送至所述文本渲染器；

特别地，所述版式生成器通过随机变换为所述文档版式增加一种或者多种版式形式；所述随机变换包括但不仅限于翻转、平移、缩放、文档元素互换等；

特别地，所述文本位置布局及几何属性包括所述文档图像中包含的文本块数量及文本块位置区域参数，以及所述文本块中包含的文本行数量及文本行位置区域参数；其中，所述位置区域参数包括外接矩形框的中心位置、长度、宽度以及朝向值。

所述版式生成器基于文档版式确定文档图像中图表元素的类别、位置布局及几何属性，并将图表元素的类别、位置布局及几何属性发送至所述图表渲染器；

特别地，所述图表元素的类别包括图形、图像、表格；相应地，所述图表渲染器包括图形渲染器、图像渲染器、表格渲染器；所述版式生成器将图形的位置布局及几何属性、图像的位置布局及几何属性、表格的位置布局及几何属性分别对应发送至所述图形渲染器、所述图像渲染器、所述表格渲染器；

特别地，所述图形的位置布局及几何属性包括图形数量及图形位置区域参数；所述图像的位置布局及几何属性包括图像数量及图像位置区域参数；所述表格的位置布局及几何属性包括表格数量、表格参数、表格位置区域参数，所述表格参数包括表格的行数、列数，所述表格位置区域参数包括表格的行、列及单元格的位置区域参数；

特别地，所述位置区域参数包括外接矩形框的中心位置、长度、宽度以及朝向值；

所述版式生成器将所述文档版式发送至所述标注生成器；

其中，所述文本渲染器接收所述文本生成器发送的文本行候选集合、所述版式生成器发送的文本位置布局及几何属性；所述文本渲染器从接收的所述文本行候选集合中选取文本行并将其渲染至所述版式生成器给出的文本行位置区域；

特别地，在文本渲染过程中，所述文本渲染器从字体库中选择随机设定的字符参数对所述文本行中的字符进行渲染；所述字符参数包括字体、字号、字符颜色、笔划粗细以及字符倾斜角度等；

完成渲染后，所述文本渲染器输出文本渲染后的文档图像及其中每个字符的位置区域参数；

所述文本渲染器将文本渲染后的文档图像发送至所述噪声添加器；

其中，所述图表渲染器接收所述版式生成器发送的图表元素的类别、位置布局及几何属性；所述图表渲染器根据接收的图表元素的类别、位置布局及几何属性将图表元素分别渲染至所述版式生成器给出的图表元素的位置区域，生成并输出图表渲染后的文档图像；

特别地，所述图形渲染器接收所述版式生成器发送的图形位置布局及几何属性；所述图形渲染器将图形元素渲染至所述版式生成器给出的图形位置区域，生成并输出图形渲染后的文档图像；

其中，所述图形渲染器从图形元素库中随机选取所述图形元素，或者利用随机选取的图形参数合成得到所述图形元素；所述图形参数包括填充颜色、线条类型、线条粗细、线条颜色等；

特别地，所述图像渲染器接收所述版式生成器发送的图像位置布局及几何属性；所述图像渲染器将图像元素渲染至所述版式生成器给出的图像位置区域，生成并输出图像渲染后的文档图像；

其中，所述图像渲染器从图像元素库中随机选取所述图像元素；所述图像渲染器可以进一步对选取的所述图像元素进行图像变换，所述图像变换包括裁剪、缩放、平移、翻转等；

特别地，所述表格渲染器接收所述版式生成器发送的表格位置布局及几何属性；所述表格渲染器将表格元素渲染至所述版式生成模块给出的表格位置区域，生成并输出表格渲染后的文档图像；

其中，所述表格渲染器从表格元素库中随机选取所述表格元素，或者利用随机选取的表格参数、表格文本合成得到所述表格元素；所述表格参数包括表格行数、表格列数、单元格尺寸等；

所述图表渲染后的文档图像包括图形渲染后的文档图像、图像渲染后的文档图像、表格渲染后的文档图像中的一种或多种；

所述图表渲染器将所述图表渲染后的文档图像发送至所述噪声添加器；

其中，所述噪声添加器接收所述文本渲染器发送的文本渲染后的文档图像，并接收所述图表渲染器发送的图表渲染后的文档图像；所述噪声添加器综合所述文本渲染后的文档图像、所述图表渲染后的文档图像并生成渲染后文档图像；所述噪声添加器在所述渲染后文档图像中添加噪声，生成添加噪声后的文档图像；所述噪声添加器将所述添加噪声后的文档图像发送至所述形变添加器；

所述训练数据生成系统通过所述噪声添加器添加噪声可以使得合成的文档图像更为逼真，更加接近真实的文档图像；

特别地，所述噪声添加器从噪声库中随机选取噪声，或者利用随机设定的噪声参数合成得到噪声；所述噪声参数包括噪声类型、噪声强度；所述噪声类型包括随机噪点、模糊噪声、图像压缩和二值化产生的噪声等；

其中，所述形变添加器接收所述噪声添加器发送的添加噪声后的文档图像；所述形变添加器在添加噪声后的文档图像中进一步地添加形变处理，生成添加形变后的文档图像；通过添加形变可以模拟真实文档图像在产生过程中的各种形变，从而使得其更加接近真实文档图像；

特别地，所述形变添加器添加的形变类型包括模拟纸面弯曲的弯曲形变、模拟成像视角的投影形变、模拟墨迹局部伸缩的弹性形变；

所述形变添加器将添加形变后的文档图像作为文档图像样本发送至文档图像样本库；

其中，所述标注生成器接收所述版式生成器发送的文档版式，所述标注生成器根据接收的所述文档版式生成版式分析标注信息；

特别地，所述标注生成器根据版式标注的精细度划分版式标注级别，所述版式标注级别包括像素级、轮廓级、边框级；

所述标注生成器确认文档图像中的文档元素，对文档元素的类别及对应的位置布局及几何属性进行标注；所述文档元素包括文本、图表元素；所述图表元素包括图形元素、图像元素、表格元素；

其中，像素级的标注为对标注区域内的像素点进行标注；轮廓级的标注为对标注区域外部的轮廓曲线进行标注；边框级的标注为对标注区域的外接多边形进行标注；当外接多边形为矩形时，标注矩形边框的中心位置、长度、宽度以及朝向值；

具体地，所述版式分析标注信息包括文档图像中文档元素的类别和对应的位置布局及几何属性；所述文档元素包括文本、图表元素；所述图表元素包括图形元素、图像元素、表格元素；

其中，所述标注生成器接收文本生成模块发送的文本行候选集合及所述版式生成器发送的文本位置布局及几何属性，所述标注生成器根据接收的所述文本行候选集合、所述文本位置布局及几何属性生成文本定位及识别标注信息；

特别地，所述标注生成器根据文本标注的精细度划分文本标注层级，所述文本标注层级包括文本块级、文本行级、词级、字符级；

具体地，所述文本定位及识别标注信息包括文本内容和对应的文本位置布局及几何属性；

所述标注生成器将生成的版式分析标注信息、文本定位及识别标注信息发送至所述文档图像样本库，并与相关联的文档图像样本对应存储于所述文档图像样本库中。

此外，本发明还公开了一种训练数据生成方法，包括：

从真实文档文本库中选择真实文档文本语料及对应的字符集并输入至文本生成器；所述文本生成器基于所述字符集生成随机文档文本语料；

中文字符、数字、字母及标点符号；

中文字符及标点符号；

数字、字母及标点符号；

所述文本生成器利用真实文档文本语料及随机文档文本语料构成文本行候选集合；所述文本生成器将所述文本行候选集合发送至与其相连接的文本渲染器；

版式生成器从文档版式库中随机选取文档版式；所述版式生成器基于文档版式确定文档图像中的文本位置布局及几何属性；所述版式生成器将文本位置布局及几何属性发送至与其相连接的文本渲染器；

特别地，所述文本位置布局及几何属性包括所述文档图像中包含的文本块数量及文本块位置区域参数，以及所述文本块中包含的文本行数量及文本行位置区域参数；其中，所述位置区域参数包括外接矩形框的中心位置、长度、宽度以及朝向值；

所述版式生成器基于文档版式确定文档图像中图表元素的类别、位置布局及几何属性，并将图表元素的类别、位置布局及几何属性发送至与其相连接的图表渲染器；

所述版式生成器将所述文档版式发送至与其相连接的标注生成器；

所述文本渲染器接收所述文本生成器发送的文本行候选集合、所述版式生成器发送的文本位置布局及几何属性；所述文本渲染器从接收的所述文本行候选集合中选取文本行并将其渲染至所述版式生成器给出的文本行位置区域；

所述文本渲染器将文本渲染后的文档图像发送至与其相连接的噪声添加器；

所述图表渲染器接收所述版式生成器发送的图表元素的类别、位置布局及几何属性；所述图表渲染器根据接收的图表元素的类别、位置布局及几何属性将图表元素分别渲染至所述版式生成器给出的图表元素的位置区域，生成并输出图表渲染后的文档图像；

特别地，所述图形渲染器从图形元素库中随机选取所述图形元素，或者利用随机选取的图形参数合成得到所述图形元素；所述图形参数包括填充颜色、线条类型、线条粗细、线条颜色等；

特别地，所述图像渲染器从图像元素库中随机选取所述图像元素；所述图像渲染器可以进一步对选取的所述图像元素进行图像变换，所述图像变换包括裁剪、缩放、平移、翻转等；

特别地，所述表格渲染器从表格元素库中随机选取所述表格元素，或者利用随机选取的表格参数、表格文本合成得到所述表格元素；所述表格参数包括表格行数、表格列数、单元格尺寸等；

所述图表渲染器将所述图表渲染后的文档图像发送至与其相连接的噪声添加器；

所述噪声添加器接收所述文本渲染器发送的文本渲染后的文档图像，并接收所述图表渲染器发送的图表渲染后的文档图像；所述噪声添加器综合所述文本渲染后的文档图像、所述图表渲染后的文档图像并生成渲染后文档图像；所述噪声添加器在所述渲染后文档图像中添加噪声，生成添加噪声后的文档图像；所述噪声添加器将所述添加噪声后的文档图像发送至与其相连接的形变添加器；

所述形变添加器接收所述噪声添加器发送的添加噪声后的文档图像；所述形变添加器在添加噪声后的文档图像中添加形变处理，生成添加形变后的文档图像；通过添加形变可以模拟真实文档图像在产生过程中的各种形变，从而使得其更加接近真实文档图像；

所述形变添加器将添加形变后的文档图像作为文档图像样本发送至与所述形变添加器相连接的文档图像样本库；

所述标注生成器接收所述版式生成器发送的文档版式；所述标注生成器根据接收的所述文档版式生成版式分析标注信息；

具体地，所述版式分析标注信息包括文档图像中文本、图表元素的类别和对应的位置布局及几何属性；

所述标注生成器接收文本生成模块发送的文本行候选集合及所述版式生成器发送的文本位置布局及几何属性，根据接收的所述文本行候选集合、所述文本位置布局及几何属性生成文本定位及识别标注信息；

特别地，所述标注生成器根据文本标注的精细度划分文本标注级别，所述文本标注级别包括文本块级、文本行级、词级、字符级；

所述标注生成器将生成的版式分析标注信息、文本定位及识别标注信息发送至与其相连接的文档图像样本库，并与相关联的文档图像样本对应存储于所述文档图像样本库中。

实施本发明实施例，将具有如下有益效果：

本发明的技术方案能够以离线或在线方式自动生成大量丰富且逼真的文档图像分析与识别模型的训练样本，使得深度学习方法能够更好地应用到文档图像分析与识别系统中，极大地提高了系统性能，有助于推动相关产品和服务的开发与应用。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种训练数据生成方法，其特征在于，包括：

2.根据权利要求1所述的训练数据生成方法，其特征在于，

所述图表元素的类别包括图形、图像、表格；所述图表渲染器包括图形渲染器、图像渲染器、表格渲染器；所述版式生成器将图形的位置布局及几何属性、图像的位置布局及几何属性、表格的位置布局及几何属性分别对应发送至所述图形渲染器、所述图像渲染器、所述表格渲染器；

3.根据权利要求2所述的训练数据生成方法，其特征在于，

所述图形渲染器接收所述版式生成器发送的图形位置布局及几何属性；所述图形渲染器将图形元素渲染至所述版式生成器给出的图形位置区域，生成并输出图形渲染后的文档图像；

所述表格渲染器接收所述版式生成器发送的表格位置布局及几何属性；所述表格渲染器将表格元素渲染至所述版式生成器给出的表格位置区域，生成并输出表格渲染后的文档图像；

4.根据权利要求1所述的训练数据生成方法，其特征在于，

其中，所述噪声添加器从噪声库中随机选取噪声，或者利用随机设定的噪声参数合成得到噪声；所述噪声参数包括噪声类型、噪声强度；所述噪声类型包括随机噪点、模糊噪声、图像压缩和二值化产生的噪声；

5.根据权利要求1所述的训练数据生成方法，其特征在于，

其中，所述文本位置布局及几何属性包括所述文档图像中包含的文本块数量及文本块位置区域参数，以及所述文本块中包含的文本行数量及文本行位置区域参数；所述位置区域参数包括外接矩形框的中心位置、长度、宽度以及朝向值；

6.一种训练数据生成系统，其特征在于，包括文本生成器、版式生成器、文本渲染器、图表渲染器、噪声添加器、形变添加器、标注生成器、文档图像样本库；

所述文本生成器与所述文本渲染器相连接；所述版式生成器与所述文本渲染器、所述图表渲染器相连接；所述文本渲染器与所述噪声添加器相连接；所述噪声添加器与所述形变添加器相连接；所述文本生成器、所述版式生成器与所述标注生成器相连接；所述形变添加器、所述标注生成器与所述文档图像样本库相连接；

所述版式生成器将所述文档版式发送至所述标注生成器；

7.根据权利要求6所述的训练数据生成系统，其特征在于，

8.根据权利要求7所述的训练数据生成系统，其特征在于，

9.根据权利要求6所述的训练数据生成系统，其特征在于，

其中，所述版式分析标注信息包括文档图像中文档元素的类别和对应的位置布局及几何属性；所述文档元素包括文本、图表元素；所述图表元素包括图形元素、图像元素、表格元素；

10.根据权利要求9所述的训练数据生成系统，其特征在于，

所述标注生成器根据版式标注的精细度划分版式标注级别，所述版式标注级别包括像素级、轮廓级、边框级；

其中，像素级的标注为对标注区域内的像素点进行标注；轮廓级的标注为对标注区域外部的轮廓曲线进行标注；边框级的标注为对标注区域的外接多边形进行标注；