CN115147858A

CN115147858A - 手写体表单图像数据生成方法、装置、设备及介质

Info

Publication number: CN115147858A
Application number: CN202210834395.XA
Authority: CN
Inventors: 陈鹏; 温凯雯; 吕仲琪; 顾正
Original assignee: Shenzhen Huayun Zhongsheng Technology Co ltd
Current assignee: Shenzhen Huayun Zhongsheng Technology Co ltd
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2022-10-04

Abstract

本发明实施例公开了一种手写体表单图像数据生成方法、装置、设备及介质，方法包括：选取空白表单图像；根据空白表单图像标记文本框；根据文本框构建表单模板；构建文本素材库和字符图像库；根据表单模板、文本素材库和字符图像库生成文本行图像；根据文本行图像和表单模板生成表单图像和标签。本发明实现了可以自定义表单的版式和文本内容，所生成的表单图像可用于OCR领域的文本检测任务、文本识别任务、语义实体识别的任务，提高了应用能力，更有利于OCR的处理。

Description

手写体表单图像数据生成方法、装置、设备及介质

技术领域

本发明涉及图像处理技术领域，更具体地说是一种手写体表单图像数据生成方法、装置、设备及介质。

背景技术

OCR(optical character recognization,光学字符识别)技术的作用是从含有文字的图像中提取出文字相关的信息，包括文本信息和版面信息，如提取图像中的文字段落、表格。如今基于深度神经网络的ocr技术以高性能、通用性强的特点成为了主流方法。基于深度学习的ocr在通用场景中的表现优异。然而在特定场景中仍然需要大量的有标注的场景数据训练深度学习模型以提高性能。

对于一些表单图像如汇票、试卷、体检表的文本识别，不仅需要识别文本的语义信息还需要获得文本准确的排版信息。这就要求在文本检测阶段对文本所在区域进行准确分割，为后续的关键信息提取、版本分析、文本识别做准备。在实际场景落地的过程中，一方面手写表单数据缺乏，另一方面标注数据费时费力，再者可能涉及机密无法直接获取，最终导致技术技术方案落地困难。面对以上情况，需要根据场景需求生成手写体表单数据。目前相关的一些数据生成方法有以下几种：

1、对文本区域经行裁剪、平移、旋转、透视表换等形态变换，制定一些的规则再利用随机性生成新的文本图像。这类方法可一定程度提高模型的鲁棒性，缺点是不能改变文本的语义。

2、基于GAN(Generative adversarial networks,生成对抗网络)的深度学习方法。这种方法可基于模板文字图像和文本素材库生成特定风格的文字图像。优点是可以大量生成，缺点是输出质量不稳定。

3、基于文本素材库和字符图像，拼接生成文本行。文本内容作为标注信息，可用于文本识别，无法用于文本检测。

发明内容

本发明的目的在于克服现有技术的不足，提供手写体表单图像数据生成方法、装置、设备及介质。

为实现上述目的，本发明采用以下技术方案：

第一方面，手写体表单图像数据生成方法，包括：

选取空白表单图像；

根据空白表单图像标记文本框；

根据文本框构建表单模板；

构建文本素材库和字符图像库；

根据表单模板、文本素材库和字符图像库生成文本行图像；

根据文本行图像和表单模板生成表单图像和标签。

其进一步技术方案为：所述表单模板由所述文本框，以及所述文本框对应的属性参数构成，所述属性参数包括文本框id、文本框坐标、文本排列方向、偏移量以及旋转角度。

其进一步技术方案为：所述文本素材库包含有每个文本框id对应的文本内容，所述文本内容由字符构成。

其进一步技术方案为：所述字符图像库包括字符图像和字符索引，所述文本素材库中任意一个所述字符所对应的所述字符图像通过所述字符索引从所述字符图像库获取。

其进一步技术方案为：所述根据表单模板、文本素材库和字符图像库生成文本行图像，包括：

读取所述文本素材库中的文本内容；

按所述文本内容，根据所述字符索引从所述字符图像库中查找出每个字符所对应的字符图像；

以所述文本内容的排列顺序，按所述表单模板格式生成文本行图像。

其进一步技术方案为：所述根据文本行图像和表单模板生成表单图像和标签，包括：

将文本行图像根据所述文本框坐标粘贴到空白表单图像中；

对文本行图像进行空间变换，以生成表单图像和标签。

其进一步技术方案为：所述空间变换的类型包括平移和旋转，其中，所述平移对应于所述表单模板中的所述偏移量，所述旋转对应于所述表单模板中的所述旋转角度。

第二方面，手写体表单图像数据生成装置，包括选取单元、标记单元、第一构建单元、第二构建单元、第一生成单元以及第二生成单元；

所述选取单元，用于选取空白表单图像；

所述标记单元，用于根据空白表单图像标记文本框；

所述第一构建单元，用于根据文本框构建表单模板；

所述第二构建单元，用于构建文本素材库和字符图像库；

所述第一生成单元，用于根据表单模板、文本素材库和字符图像库生成文本行图像；

所述第二生成单元，用于根据文本行图像和表单模板生成表单图像和标签。

第三方面，一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的手写体表单图像数据生成方法步骤。

第四方面，一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，使得所述处理器执行如上述的手写体表单图像数据生成方法步骤。

本发明与现有技术相比的有益效果是：本发明根据需求选取空白表单图像，根据空白表单图像标记文本框，根据文本框构建表单模板，根据需求构建文本素材库和字符图像库；根据表单模板、文本素材库和字符图像库生成文本行图像；根据文本行图像和表单模板生成表单图像和标签。实现了可以自定义表单的版式和文本内容，所生成的表单图像可用于OCR领域的文本检测任务、文本识别任务、语义实体识别的任务，提高了应用能力，更有利于OCR的处理。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明技术手段，可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征及优点能够更明显易懂，以下特举较佳实施例，详细说明如下。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明具体实施例提供的手写体表单图像数据生成方法的流程图；

图2为本发明具体实施例提供的手写体表单图像数据生成装置的示意性框图；

图3为本发明具体实施例提供的一种计算机设备的示意性框图；

图4为本发明具体实施例的空白表单效果图；

图5为本发明具体实施例的空白表单效果图(示意出了文本框)；

图6为本发明具体实施例的表单模板示例图表；

图7为本发明具体实施例的文本素材示例图表；

图8为本发明具体实施例的文本行示例图；

图9为本发明具体实施例的文本行图像的变换效果图；

图10为本发明具体实施例的最终生成的表单图像效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

本发明实施例提供了一种手写体表单图像数据生成方法，该方法主要针对于手写体类型的表单而设计的，通过该方法生成的表单图像可用于OCR领域的文本检测任务、文本识别任务、语义实体识别的任务。下面通过具体实施例来介绍本发明。

如图1所示，一种手写体表单图像数据生成方法，包括以下步骤：S10-S60。

S10、选取空白表单图像。

空白表单图像的选择是根据需求场景来选取的，不同的需求场景可选择不同的空白表单图像。如图4所示，图4所示意的便是空白表单图像。

S20、根据空白表单图像标记文本框。

标记文本框的作用是设定文本行的坐标。文本框的标记即是在空白表单图像中需要的位置做标记，如图5所示，图5所示意的便是做好了文本框标记的空白表单图像。

文本框的标记的方式可以采用画图软件打开对应的空白表单图像，在需要的位置标记上文本框，文本框的形状可以是矩形、正方形等形状。

S30、根据文本框构建表单模板。

表单模板由文本框，以及文本框对应的属性参数构成，属性参数包括文本框id、文本框坐标、文本排列方向、偏移量以及旋转角度和边缘填充。

如图6所示，图6为表单模板示例图表，从图6可知，表单模板的属性参数控制了文本行的格式，属性参数的具体数值可根据需求场景而定。

文本框id和文本框坐标在标记文本框的过程中设定。文本排列为水平或竖直方向。边缘填充设定字符图像上下左右空白的宽度，可控制字符间距。文本行中字符大小随其它参数浮动，计算公式为如下：

其中，

是原字符图像的宽和高。

S40、构建文本素材库和字符图像库。

如图7所示，图7为文本素材示例图表，从图7可知，文本素材库包含有每个文本框id对应的文本内容，文本内容由字符构成的。图7中，文本框id有两个，其中，文本框id为1的所对应的文本内容为对账单，对账单即是由字符“对”、字符“账”和字符“单”组成的；文本框id为2的所对应的文本内容为报表，报表即是有字符“报”和字符“表”组成的。

字符图像库包括字符图像和字符索引，文本素材库中任意一个字符所对应的所述字符图像通过字符索引从字符图像库获取。其中，字符图像库的字符索引是由键值对(key-value pairs)组成的json文本，其中键key为字符，value为字符图像的路径。如{“火”：“charactor/36.png”,“国”：“charactor/152.png”}表示“火”对应的字符图像路径是“charactor/36.png”，“国”对应的字符图像路径是“charactor/152.png”。字符图像是通过扫描仪扫描并保存的黑白图片，进一步通过二值化方法去除背景。字符图像库需要包括文本素材库中的所有字符。

S50、根据表单模板、文本素材库和字符图像库生成文本行图像。

在一实施例中，步骤S50具体包括以下步骤：S501-S503。

S501、读取文本素材库中的文本内容。

由于文本素材库包含有每个文本框id对应的文本内容，因此可根据文本框id从文本素材库中读取与文本框id对应的文本内容。

S502、按文本内容，根据字符索引从字符图像库中查找出每个字符所对应的字符图像。

由于字符索引与字符图像是一一对应的，因此，可根据字符索引查找出字符所对应的字符图像。

例如，字符索引为“火”:“charactor/36.png”，那么可知，字符“火”的字符图像路径是“charactor/36.png”，从而可以根据“charactor/36.png”这个路径从字符图像库中查找的字符“火”所对应的字符图像。

S503、以文本内容的排列顺序，按表单模板格式生成文本行图像。

由于文本内容具有排列顺序等一些参数限定，因此需按照根据场景需求设置的表单模板格式生成文本行图像。

如图8所示，图8为生成的文本行示例图，其中p_l,p_r,p_t,p_b∈[0,1]。

S60、根据文本行图像和表单模板生成表单图像和标签。

在一实施例中，步骤S60具体包括以下步骤：S601-S602。

S601、将文本行图像根据文本框坐标粘贴到空白表单图像中。

生成文本行图像之后需要把文本行图像粘贴到表单背景图像中。

S602、对文本行图像进行空间变换，以生成表单图像和标签。

空间变换的类型包括平移和旋转，其中，平移对应于表单模板中的偏移量，旋转对应于表单模板中的旋转角度。图9为文本行图像的变换效果图。

如图6所示，平移对应于表单模板中的偏移量，控制文本行图像坐标的水平和竖直偏移量(dw,dh)，在数据生成阶段每个文本框的偏移量设置为一个限定范围的动态随机数，以提高模型的鲁棒性。

旋转对应于表单模板中的旋转角度θ，文本行图像以

为中心逆时针转动的角度，由于偏移量和旋转角的存在，文本行最终在表单背景图像中的坐标需要重新计算，其它三个点的坐标以(x1,y1)为中心旋转计算公式如下：

x₂＝x₁+d_w+w cos(-θ)；

y₂＝y¹+d_h+w sin(-θ)；

其中，

字符图像在文本框内按顺序排列。在生成表单图像的同时生成数据标签，以json格式保存，最终生成的表单图像效果如图10所示。

本发明实现了可以自定义表单的版式和文本内容，所生成的表单图像可用于OCR领域的文本检测任务、文本识别任务、语义实体识别的任务，提高了应用能力，更有利于OCR的处理。

图2为本发明实施例提供的手写体表单图像数据生成装置的示意性框图；对应于上述的手写体表单图像数据生成方法，本发明实施例还提供了一种手写体表单图像数据生成装置100。

如图2所示，手写体表单图像数据生成装置100，包括选取单元110、标记单元120、第一构建单元130、第二构建单元140、第一生成单元150以及第二生成单元160。

选取单元110，用于选取空白表单图像。

标记单元120，用于根据空白表单图像标记文本框。

第一构建单元130，用于根据文本框构建表单模板。

其中，

是原字符图像的宽和高。

第二构建单元140，用于构建文本素材库和字符图像库。

第一生成单元150，用于根据表单模板、文本素材库和字符图像库生成文本行图像。

在一实施例中，第一生成单元150包括读取模块、查找模块以及第一生成模块。

读取模块，用于读取文本素材库中的文本内容。

查找模块，用于按文本内容，根据字符索引从字符图像库中查找出每个字符所对应的字符图像。

第一生成模块，用于以文本内容的排列顺序，按表单模板格式生成文本行图像。

第二生成单元160，用于根据文本行图像和表单模板生成表单图像和标签。

在一实施例中，第二生成单元160包括粘贴模块以及第二生成模块。

粘贴模块，用于将文本行图像根据文本框坐标粘贴到空白表单图像中。

第二生成模块，用于对文本行图像进行空间变换，以生成表单图像和标签。

旋转对应于表单模板中的旋转角度θ，文本行图像以

x₂＝x₁+d_w+w cos(-θ)；

y₂＝y¹+d_h+w sin(-θ)；

其中，

上述手写体表单图像数据生成装置可以实现为计算机程序的形式，该计算机程序可以在如图3所示的计算机设备上运行。

请参阅图3，图3是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器，其中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

如图3所示，该计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述的手写体表单图像数据生成方法步骤。

该计算机设备700可以是终端或服务器。该计算机设备700包括通过系统总线710连接的处理器720、存储器和网络接口750，其中，存储器可以包括非易失性存储介质730和内存储器740。

该非易失性存储介质730可存储操作系统731和计算机程序732。该计算机程序732被执行时，可使得处理器720执行任意一种手写体表单图像数据生成方法。

该处理器720用于提供计算和控制能力，支撑整个计算机设备700的运行。

该内存储器740为非易失性存储介质730中的计算机程序732的运行提供环境，该计算机程序732被处理器720执行时，可使得处理器720执行任意一种手写体表单图像数据生成方法。

该网络接口750用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备700的限定，具体的计算机设备700可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。其中，所述处理器720用于运行存储在存储器中的程序代码，以实现以下步骤：

手写体表单图像数据生成方法，包括：

选取空白表单图像；

根据空白表单图像标记文本框；

根据文本框构建表单模板；

构建文本素材库和字符图像库；

根据表单模板、文本素材库和字符图像库生成文本行图像；

根据文本行图像和表单模板生成表单图像和标签。

在一实施例中：所述表单模板由所述文本框，以及所述文本框对应的属性参数构成，所述属性参数包括文本框id、文本框坐标、文本排列方向、偏移量以及旋转角度。

在一实施例中：所述文本素材库包含有每个文本框id对应的文本内容，所述文本内容由字符构成。

在一实施例中：所述字符图像库包括字符图像和字符索引，所述文本素材库中任意一个所述字符所对应的所述字符图像通过所述字符索引从所述字符图像库获取。

在一实施例中：所述根据表单模板、文本素材库和字符图像库生成文本行图像，包括：

读取所述文本素材库中的文本内容；

在一实施例中：所述根据文本行图像和表单模板生成表单图像和标签，包括：

将文本行图像根据所述文本框坐标粘贴到空白表单图像中；

对文本行图像进行空间变换，以生成表单图像和标签。

在一实施例中：所述空间变换的类型包括平移和旋转，其中，所述平移对应于所述表单模板中的所述偏移量，所述旋转对应于所述表单模板中的所述旋转角度。

应当理解，在本申请实施例中，处理器720可以是中央处理单元(CentralProcessingUnit，CPU)，该处理器720还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域技术人员可以理解，图3中示出的计算机设备700结构并不构成对计算机设备700的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在本发明的另一实施例中提供了一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的手写体表单图像数据生成方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.手写体表单图像数据生成方法，其特征在于，包括：

选取空白表单图像；

根据空白表单图像标记文本框；

根据文本框构建表单模板；

构建文本素材库和字符图像库；

根据表单模板、文本素材库和字符图像库生成文本行图像；

根据文本行图像和表单模板生成表单图像和标签。

2.根据权利要求1所述的手写体表单图像数据生成方法，其特征在于，所述表单模板由所述文本框，以及所述文本框对应的属性参数构成，所述属性参数包括文本框id、文本框坐标、文本排列方向、偏移量以及旋转角度。

3.根据权利要求2所述的手写体表单图像数据生成方法，其特征在于，所述文本素材库包含有每个文本框id对应的文本内容，所述文本内容由字符构成。

4.根据权利要求3所述的手写体表单图像数据生成方法，其特征在于，所述字符图像库包括字符图像和字符索引，所述文本素材库中任意一个所述字符所对应的所述字符图像通过所述字符索引从所述字符图像库获取。

5.根据权利要求4所述的手写体表单图像数据生成方法，其特征在于，所述根据表单模板、文本素材库和字符图像库生成文本行图像，包括：

读取所述文本素材库中的文本内容；

6.根据权利要求5所述的手写体表单图像数据生成方法，其特征在于，所述根据文本行图像和表单模板生成表单图像和标签，包括：

将文本行图像根据所述文本框坐标粘贴到空白表单图像中；

对文本行图像进行空间变换，以生成表单图像和标签。

7.根据权利要求6所述的手写体表单图像数据生成方法，其特征在于，所述空间变换的类型包括平移和旋转，其中，所述平移对应于所述表单模板中的所述偏移量，所述旋转对应于所述表单模板中的所述旋转角度。

8.手写体表单图像数据生成装置，其特征在于，包括选取单元、标记单元、第一构建单元、第二构建单元、第一生成单元以及第二生成单元；

所述选取单元，用于选取空白表单图像；

所述标记单元，用于根据空白表单图像标记文本框；

所述第一构建单元，用于根据文本框构建表单模板；

所述第二构建单元，用于构建文本素材库和字符图像库；

9.一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～7中任意一项所述的手写体表单图像数据生成方法步骤。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，使得所述处理器执行如权利要求1～7任意一项所述的手写体表单图像数据生成方法步骤。