CN114565702A

CN114565702A - 文本图像生成方法、装置及电子设备

Info

Publication number: CN114565702A
Application number: CN202210179876.1A
Authority: CN
Inventors: 王彦君; 马志国; 张飞飞
Original assignee: Beijing Dingshixing Education Consulting Co ltd
Current assignee: Beijing Dingshixing Education Consulting Co ltd
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-05-31

Abstract

本公开涉及一种文本图像生成方法、装置及电子设备，所述方法包括：从语料库中获取预定长度的文本序列；基于预先设定的参数对所述文本序列进行调节，合成原始文本前景图像；根据前景渲染策略，对所述原始文本前景图像进行前景渲染，生成文本前景图像；获取背景图像，将所述文本前景图像和所述背景图像合并，生成合并后的图像；根据整体图像渲染策略对所述合并后的图像进行整体图像渲染，得到最终的文本图像，并将所述文本序列作为所述最终的文本图像的内容标签。

Description

文本图像生成方法、装置及电子设备

技术领域

本公开涉及图像处理领域，具体地，涉及一种文本图像生成方法、装置及电子设备。

背景技术

在教育场景中，试卷、PPT、书籍等教学材料中有大量的文字，师生们需要提取图片格式下的文字内容，诸如错题收集、试卷题目归档、书籍转可编辑格式等常见的教学任务中都需要文字识别技术，因此对于文字识别技术有着较大需求。

当前文字识别需要使用大量的文本行图像进行模型训练，且文本行识别训练是监督学习的过程，需要明确每一条文本行图像对应的文字标注内容。含有内容标注的文字图像是极其重要但十分稀缺的一环。业内常常采用场景字符识别等公开数据集，依靠标注人员进行手工标注，或者将文字标签直接保存为图像，通过一些简单的裁剪转化为文本行图像。

现有公开的场景字符识别数据集多从自然场景收集，诸如街景图像等。这种场景字符识别图像的文字样式与教育场景的文字相差甚远，因此采用这种数据训练得到的模型，在教育场景下的识别准确率较低。

对于人工标注，投入人力进行文本行内容标注是一件极为耗时耗力的工作，并且人工标注的文本行内容准确率难以保障，如有标签错误的脏数据进入模型训练，易降低模型推理时的准确率。

而将文字标签直接保存为图像这种方案只能获得类似扫描样式的文本行图片，难以模拟真实场景下纸张文字质地，也难以模拟诸如光照、阴影等真实的自然拍照文字效果。

可见，现有技术中存在当前教育场景下用于文字识别训练的文字图像数据集欠缺的技术问题。

发明内容

本公开的目的是提供一种文本图像生成方法、装置及电子设备，用于现有技术中存在的当前教育场景下用于文字识别训练的文字图像数据集欠缺的技术问题。

为了实现上述目的，本公开第一方面提供一种用于文字识别模型训练的文本图像生成方法，所述方法包括：

从语料库中获取预定长度的文本序列；

基于预先设定的参数对所述文本序列进行调节，合成原始文本前景图像；

根据前景渲染策略，对所述原始文本前景图像进行前景渲染，生成文本前景图像；

获取背景图像，将所述文本前景图像和所述背景图像合并，生成合并后的图像；

根据整体图像渲染策略对所述合并后的图像进行整体图像渲染，得到最终的文本图像，并将所述文本序列作为所述最终的文本图像的内容标签。

可选的，基于预先设定的参数对所述文本序列进行调节，合成原始文本前景图像，包括：

对所述文本序列中需要合成的文字进行文字样式初始化，所述文字样式包括字体类别、字体大小、字体颜色、字符之间的间距和文本空格的实际像素宽度中一种或多种组合；

计算所述文本序列中的每个字符的宽度、高度和字符之间距离，得到所述文本序列中的每个字符在待合成的原始文本前景图像中的位置；

基于所述每个字符在所述待合成的原始文本前景图像中的位置，计算所述待合成的原始文本前景图像的原始像素尺寸；

根据所述原始像素尺寸，初始化一张图像；其中，初始化图像的尺寸等于所述原始像素尺寸；或者，初始化图像的宽度等于原始像素尺寸的宽度，初始化图像的高度大于原始像素尺寸的高度；

按照所述每个字符在待合成的原始文本前景图像中的位置，将所述每个字符绘制在所述初始化图像上，合成所述原始文本前景图像。

可选的，在初始化图像的宽度等于原始像素尺寸的宽度，初始化图像的高度大于原始像素尺寸的高度时，根据前景渲染策略，对所述原始文本前景图像进行前景渲染，生成文本前景图像，包括：

根据所述原始文本前景图像，按照随机概率值判定是否需要在所述原始文本前景图像中的字符下方绘制字符标记；

如果判定需要，则根据预先设定的合成模式，选定所述字符标记的绘制宽度、起始位置，并根据所述绘制宽度和所述起始位置计算终止位置；

以所述起始位置处的字符下方为起点，以所述终止位置处的字符下方为终点，绘制所述字符标记，生成所述文本前景图像；其中，所述字符标记为下划线或着重符；所述预先设定的合成模式为固定字符合成模式、随机字符合成模式和全字符合成模式。

可选的，根据前景渲染策略，对所述原始文本前景图像进行前景渲染，生成文本前景图像，包括：

计算所述原始文本前景图像的二值化图像；

根据预先设置的过滤模板和过滤规则，对所述原始文本前景图像按照自左向右，自上向下的顺序过滤，生成过滤后的所述文本前景图像；

其中，所述过滤模板的纵向像素点数量大于所述过滤模板的横向像素点数量；所述过滤规则是指选择所述过滤模板与所述二值化图像的重叠区域内的最小像素值作为所述二值化图像中的当前重叠区域中心点的像素值。

基于目标方向扭曲公式，计算所述原始文本前景图像在正交方向上的一维位置向量在所述目标方向扭曲公式下的目标方向偏移量，并记录所述目标方向偏移量；其中，所述目标方向为垂直方向时，所述正交方向为水平方向；所述目标方向为水平方向时，所述正交方向为垂直方向；

根据所述目标方向偏移量，计算整体相对偏移量的最大范围；

根据待合成的文本图像的原始像素尺寸和所述整体相对偏移量的最大范围；

创建一张新的前景图像，并根据所述原始文本前景图像的尺寸和所述整体相对偏移量的最大范围计算新创建的前景图像的尺寸；

将所述原始文本前景图像中的每个一维位置向量上的图像向量，按照所述每个一维位置向量对应的目标方向偏移量，在所述新创建的前景图像上重建，生成所述文本前景图像。

可选的，垂直扭曲公式为以下任一种；

其中，F_{v_sin}代表正弦曲线扭曲公式，F_{v_cos}代表余弦曲线扭曲公式，F_{v_rsin}代表反正弦曲线扭曲公式，F_{v_rcos}代表反余弦曲线扭曲公式；x是横轴坐标，自[0，W_f-1]之间取值，W_f是原始文本前景图像的宽度，ratio是正余弦的频率调节参数，K是正余弦的振幅调节参数，H_f是原始文本前景图像的高度；

水平扭曲公式为

其中，x是纵轴坐标，自[0，H_f-1]之间取值，H_f是原始文本前景图像的高度，D_char是平均字符宽度，ratio是平移系数。

根据预先设置的旋转矩阵计算旋转后的像素点与所述原始文本前景图像的像素点的位置映射关系；

基于所述原始文本前景图像和所述位置映射关系，生成所述文本前景图像。

可选的，所述旋转矩阵为

其中，k表示缩放比例，θ代表旋转角度，x，y代表旋转中心。

可选的，所述背景图像为真实纸张背景图像；所述方法还包括：

计算所述真实纸张背景图像的归一化分布矩阵，使得所述真实纸张背景图像的像素值为0到1之间的值；

将所述归一化分布矩阵与所述文本前景图像中的像素进行逐像素相乘，得到亮度自适应调节后的文本前景图像。

将所述亮度自适应调节后的文本前景图像与所述真实纸张背景图像合并，得到亮度自适应调节后的文本图像。

可选的，根据整体图像渲染策略对所述合并后的图像进行整体图像渲染，得到最终的文本图像，包括：

计算所述合并后的图像的尺寸；

基于所述合并后的图像的尺寸，计算所述合并后的图像的上下左右四个方向上的表格线的起点位置和终点位置；

随机判定所述四个方向上的表格线的存留状态；如果存留，则按照对应的表格线的起点位置和终点位置在所述合并后的图像上绘制线段，得到所述最终的文本图像。

可选的，所述合并后的图像的尺寸为W*H，基于所述合并后的图像的尺寸，计算所述合并后的图像的上下左右四个方向上的表格线的起点位置和终点位置，包括：

计算所述合并后的图像的上方的表格线的起点位置为(0，h_top)，终点位置为(W-1，h_top)；

计算所述合并后的图像的下方的表格线的起点位置为(0，h_bottom)，终点位置为(W-1，h_bottom)；

计算所述合并后的图像的左边的表格线的起点位置为起点位置为(w_left，0)，终点位置为(w_left，H-1)；

计算所述合并后的图像的右边的表格线的起点位置为起点位置为(w_right，0)，终点位置为(w_right，H-1)；

其中，h_top、h_bottom、w_left和w_right均为预设值。

选定随机干扰线的条数；

对于每条干扰线，在所述合并后的图像的二维范围内，随机设定所述每条干扰线的起点位置和终点位置；

根据所述每条干扰线的起点位置和终点位置，以及预先设置的图像库中的干扰线样式，在所述合并后的图像上绘制线段，得到所述最终的文本图像。

创建一个N*N的对角线矩阵；其中，N表示运动模糊的采样范围；

随机初始化运动过程的旋转角度，并基于所述旋转角度，计算旋转矩阵；

根据所述旋转矩阵用于创建的对角线模糊算子，计算得到整体模糊算子；

根据所述整体运动模糊算子，对所述合并后的图像上进行运动模糊处理，得到所述最终的文本图像。

利用高斯模糊算法对所述合并后的图像进行整体图像渲染，得到所述最终的文本图像。

可选的，所述背景图像为真实纸张背景图像、扫描背景图像或高斯噪声背景图像。

本公开第二方面提供一种用于文字识别模型训练的文本图像生成装置，包括：

前景合成模块，用于从语料库中获取预定长度的文本序列；基于预先设定的参数对所述文本序列进行调节，合成原始文本前景图像；根据前景渲染策略，对所述原始文本前景图像进行前景渲染，生成文本前景图像；

背景合成模块，用于获取背景图像，将所述文本前景图像和所述背景图像合并，生成合并后的图像；

整体图像渲染模块，用于根据整体图像渲染策略对所述合并后的图像进行整体图像渲染，得到最终的文本图像，并将所述文本序列作为所述最终的文本图像的内容标签。

本公开第三方面提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述方法的步骤。

本公开第四方面提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现第一方面所述方法的步骤。

通过上述技术方案，将文本前景图像和背景图像分离设计，并针对文本前景图像和背景图像分别针对性渲染，然后对合成后的整体图像进行进一步渲染，从而实现了逼真的文本图像合成效果，本方案可以大规模的合成带有内容标签的文本图像，从而解决教育场景下用于文字识别训练的文字图像数据集欠缺的问题，得到大量带有容标签的文本图像，以用于文字识别训练。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的文本图像生成方法的框图；

图2是根据一示例性实施例示出的文本图像生成方法的流程示意图；

图3是根据一示例性实施例示出的基础文字合成的示意图；

图4是根据一示例性实施例示出的随机合成下划线或着重符的示意图；

图5是根据一示例性实施例示出的腐蚀前后的文本图像的示意图；

图6是根据一示例性实施例示出的合成文本扭曲的示意图；

图7是根据一示例性实施例示出的背景图像的示意图；

图8是根据一示例性实施例示出的高斯模糊的示意图；

图9是根据一示例性实施例示出的运动模糊的示意图；

图10是根据一示例性实施例示出的整体图像渲染的流程示意图；

图11A-图11C是根据一示例性实施例示出的前景渲染模式、后景渲染模式和合成图像的示意图；

图12是根据一示例性实施例示出的一种文本图像生成装置的框图；

图13是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

本公开实施例中，提出了一种教育场景下用于文字识别模型训练的文本图像生成方法，如图1所示，分为三个主体模块，分别为：前景合成模块、背景合成模块和整体图像渲染模块。使用三个模块进行配合，最终得到用于文字识别模型训练的具备文本标识内容的文本图像。

如图2所示，是根据一示例性实施例示出的文本图像生成方法的流程示意图，包括以下步骤。

步骤201，从语料库中获取预定长度的文本序列。

在前景合成阶段，首先需要从语料库中获取一条字符长度适宜的文本序列，此文本序列将作为后续合成的文本图片的内容标签。文本图像的内容标签就是该文本序列的内容，用于后续文字识别模型训练和测试。

步骤202，基于预先设定的参数对所述文本序列进行调节，合成原始文本前景图像。其中，预先设定的参数包括字体类别、字体大小、字体颜色、字符之间的间距、文本空格的实际像素宽度等等。

步骤203，根据前景渲染策略，对所述原始文本前景图像进行前景渲染，生成文本前景图像。其中，前景渲染策略可以包括随机合成下划线和着重符、横向腐蚀、随机倾斜、随机文字贴边裁切、文本扭曲中的一种或多种，本公开对此不做限制。

步骤204，获取背景图像，将所述文本前景图像和所述背景图像合并，生成合并后的图像。其中，背景图像可以为真实纸张背景图像、扫描背景、高斯噪声背景等等，本公开对此不做限制。

步骤205，根据整体图像渲染策略对所述合并后的图像进行整体图像渲染，得到最终的文本图像，并将所述文本序列作为所述最终的文本图像的内容标签。其中，整体图像渲染策略可以包括前景图像自适应光照调节、随机干扰线合成、表格线生成、高斯模糊和运动模糊中的一种或多种，本公开对此不做限制。

本公开实施例中，首先对基础文字合成进行说明。

在前景合成阶段，需要从语料库中获取一条字符长度适宜的文本序列，此文本序列将作为后续合成的文本图片的内容标签。在进行基础文字合成时，需要对合成的文字的样式做如下初始化，文字的样式至少包括字体类别、字体大小、字体颜色、字符之间的间距、文本空格的实际像素宽度。其中，字体类别于预收集的字体库中随机选择，本公开实施例中，针对教育场景，可以收集常见的教育类字体以及其他可能用到的字体，并依据不同字体的真实使用频率，设定该字体被选中的概率。字符之间的间距表示相邻字符之间空余的像素距离，举例来讲，可以在[0，5]之间按照均匀分布进行取值作为字符间距值。在基础文字合成的参数初始化完成后，计算每个字符的宽高和字符之间距离，即可得到每个字符在合成过程中的实际二维位置。

基于上一步骤计算的字符位置，即文本图像中每一个字符在图像中的二维位置坐标，可计算得到基础文字前景的像素尺寸，以W_f和H_f表示。然后初始化一张RGBA颜色通道的图像，图像尺寸为W_f*(H_f+32)，这里高度可以等于原始像素尺寸的高度，也可以大于原始像素尺寸的高度，本公开实施例中，图像尺寸为W_f*(H_f+32)，增加了32个像素，是为了后续渲染下划线或着重符使用。使用PIL(Python Image Library，图像处理工具包)图像库，将每一个字符，按照原定位置(上一步骤计算的字符位置)在前景图上完成绘制。使用这种方法得到初始版本的原始文本前景图像，如图3所示，图3为RGBA颜色空间的可视化图，文字颜色深度代表字体颜色，方框线，表示每一个字符的绘制位置。

本公开实施例中的基础文字合成方法，便于灵活调节合成参数，基于设计参数，可以合成任意形状的原始文本前景图像。

接下来，对前景渲染进行说明。

本公开的发明人针对教育场景进行分析，发现试卷和书籍中的文字下方常有下划线或原点，表示着重符号；特殊字体横向笔画的宽度较窄，部分扫描版试卷的横向前景易褪色；拍照或扫描导致文本方向倾斜；部分文字不规整，易产生贴边裁切；文本不规则弯曲变形等问题。因此，得到基础原始文本前景图像后，本公开实施例中公开了不同的前景渲染策略进行进一步的前景渲染，以模拟上述现实情况，使合成的文本图像贴近真实文本图像。本公开实施例中，前景渲染策略包括随机合成下划线和着重符、横向腐蚀、随机倾斜、随机文字贴边裁切、文本扭曲中的一种或多种，以下对这几种前景渲染策略进行说明，在具体实施过程中，并不限于以下几种方式。

随机合成下划线和着重符

本公开实施例中，预先设定了三种下划线和着重符的合成模式，分别为固定字符合成(fixed)、随机字符合成(random)和全字符合成(full)。固定字符合成代表在当前文本序列中随机选择字符起点，按照固定字符数量绘制下划线或着重符；随机字符合成代表随机选择字符起点，随机选择字符宽度绘制下划线或着重符；全字符合成代表在所有字符的下方均绘制下划线或着重符。这三种模式可以根据实际需求灵活选择，便于模拟真实教学素材中的文本样式。

对任意一种合成模式，均采用下面的合成方式。给定一张基础文本前景，按照随机概率值判定是否要绘制字符标记，如果判定成功，则进行下划线或着重符的绘制。根据当前合成模式，选定下划线或着重符的绘制宽度，并随机选定下划线或着重符的起始位置(如当前为full模式，起始为0)，根据绘制宽度计算得到终止位置，然后以起始位置处的字符下方为起点，以终止位置处的字符下方为终点，使用PIL库绘制一条直线线段，线段宽度可由参数指定，如图4所示，为随机合成下划线或着重符的示意图。

横向腐蚀

本公开的发明人分析教育场景中的文本图像，发现部分教学字体的横向笔画较竖向笔画宽度小，在拍照或者扫描过程中，极易出现横向笔画颜色变浅甚至丢失的情况。为了模拟这一过程，本方案公开了横向腐蚀的前景渲染模式。腐蚀是图像形态学中的处理算法，主要用于形态学中除去图像的某些部分。

本公开实施例中的横向腐蚀算法，可以模拟横向笔画变窄或消失的现象，且较大程度上保证竖向笔画不受影响。详细算法如下。

(1)，计算原始文本前景图像的二值化图像，得到的二值化图像与原始文本前景图像的尺寸保持一致。

(2)，设计过滤模板，其中，所述过滤模板的纵向像素点数量大于所述过滤模板的横向像素点数量。

举例来讲，可以设计一个3*1的过滤模板。3*1的过滤模板可以保证腐蚀过程在纵方向上计算，使得最终纵向笔画像素宽度变窄，即横向笔画的宽度变窄。纵方向上压缩有效像素内容，从观感上看就是横线被压扁了，从而实现横向腐蚀。其中，3*1指的是图像处理的过滤器尺寸，单位是像素数，即高度上3个像素，宽度上1个像素的过滤器，高大于宽，可保证腐蚀过程在纵向上进行。

(3)指定过滤规则：选择模板与二值图像重叠区域内的最小值作为二值图中当前重叠区域中心点的最小点。

(4)自左向右，自上向下的顺序过滤，完成横向腐蚀的过程。

本公开实施例中的横向腐蚀算法可以高效且逼真得模拟教育场景中常见的横向笔画变窄的现象，如图5所示，其中，上图为腐蚀前的文本图像，下图为腐蚀后文本图像。

随机倾斜

为了模拟纸张倾斜或拍照倾斜等情况，本公开实施例设计了文本随机倾斜的功能，在前景渲染过程中，可以使用如下旋转矩阵计算文本旋转后的像素点与原基础前景图像的位置映射关系。

其中，k表示缩放比例，可以默认为1，也可以可随其他应用需求进行调节；θ代表旋转角度，举例来讲，θ可以于[-15,15]中随机选择。x,y代表旋转中心，本公开实施例中以图片中心为旋转中心。

随机文字贴边裁切

实际业务场景中，文字识别技术常常与文字检测模块相配合使用，然而文字检测的结果难以保证文本区域的完整性，文字的下边沿或上边沿易出现裁切的现象。为了模拟这一现象，本公开实施例中设计了小范围文字贴边裁切方法。详细步骤如下。

(1)，计算当前前景图像的高度为H。

(2)，在[0，0.1*H]范围内随机计算上下边沿裁切的像素距离，如上边沿的裁切距离是h_{c_up}，下边沿的裁切距离是h_{c_bottom}。

(3)，选择

高度范围内的前景图像为裁切后的图像，进行返回。

文本扭曲

本公开的发明人发现，实际业务场景中，由于手持试卷或桌面不平整，纸张上的文字会呈现扭曲的形态。扭曲形态的文本较难识别，如果文字识别模型没有针对扭曲形态进行训练，则对扭曲文本的识别准确率将大大降低。为了提升文字识别模型对扭曲文本的鲁棒性，本公开实施例设计了文本扭曲模拟算法。本公开实施例中，目标方向包括水平方向和垂直方向，对应的，扭曲公式包括水平扭曲公式和垂直扭曲公式。详细算法如下。

(1)设计垂直扭曲公式。本公开实施例中设计了四种垂直方向上的文本扭曲公式，分别为：正弦曲线扭曲、余弦曲线扭曲、反正弦曲线扭曲和反余弦曲线扭曲功能四种，其公式如下。

其中，F_{v_sin}代表正弦曲线扭曲公式，F_{v_cos}代表余弦曲线扭曲公式，F_{v_rsin}代表反正弦曲线扭曲公式，F_{v_rcos}代表反余弦曲线扭曲公式。x是横轴坐标，自[0，W_f-1]之间取值，W_f是前景图像的宽度，ratio是正余弦的频率调节参数，K是正余弦的振幅调节参数，H_f是前景图像的高度。

(2)设计水平扭曲公式。本公开的发明人发现文本常见的形态，常呈现左右偏移的样式，因此本公开实施例中设计了平移变换算法，其公式如下。

其中，x是纵轴坐标，自[0，H_f-1]之间取值，H_f是前景图像的高度，D_char是平均字符宽度，ratio是平移系数。该公式的几何含义是：前景图像中的文字虽纵轴上的数值变化，呈现左倾或右倾的趋势。

(3)选定垂直扭曲方式，以正弦曲线扭曲为例，计算水平方向上一维位置向量在该扭曲公式下的垂直偏移量，并记录。

(4)基于(3)中得到的垂直偏移量，计算整体相对偏移量的最大范围H_{v_m}，然后创建一张新的RGBA颜色空间下的前景图像，尺寸为(H_f+H_{v_m})*W_f。然后逐水平方向的一维位置向量，将原图中该水平位置上的垂直图像向量，按照该水平位置上的垂直偏移位置(即垂直方向上的垂直偏移量，根据原图中的水平轴位置，结合垂直扭曲公式计算得到)，在新创建的前景图像上重建。至此垂直扭曲完成。其中，对于水平方向的每一个x坐标，竖直的一列图像像素，就是垂直图像向量。

(5)选定是否要水平扭曲，如需要，则根据水平扭曲方式，按照(3)(4)的步骤，进行前景图像重建。

本公开实施例中的前景文本图像扭曲算法，可以基于水平和垂直方向上的扭曲组合，并通过调节垂直扭曲公式的频率和振幅等参数，实现丰富的扭曲样式渲染，从而模拟真实场景中的文本扭曲。如图6所示，为合成文本扭曲示意图。

接下来，对背景合成模块进行说明。

背景合成模块负责合成背景图像。本公开实施例中设计了三种背景合成模式，分别为真实纸张拍照背景、扫描背景、高斯噪声背景。在实际应用中，还可以采用其他背景图像，本公开对此不做限制。其中，对于真实纸张拍照背景，本公开实施例中可以收集真实纸张背景，并对其进行亮度调节增广，从而得到数量众多的纸张背景。扫描背景是纯色背景，基本以白色和灰色色调为主，用以模拟扫描样式的文字图像。高斯噪声背景，为了提升文字识别在任意背景下的鲁棒性，本公开实施例中设计了高斯噪声背景，高斯噪声背景下的合成文字图像，可以很大程度上的模拟背景随机扰动的效果，有利于文字识别模型的训练。

本公开实施例中，高斯噪声背景的生成过程如下。

(1)生成一张全1的二维数组图，图像尺寸与前景图像尺寸保持一致。

(2)对二维数组图像中的每一个像素点，基于高斯分布计算该位置的像素值。高斯分布的概率密度函数如下。

其中，μ是均值，本公开实施例中可以默认为235。σ²是方差，本公开实施例中可以默认为10。基于上述值生成的二维数组，即为高斯噪声图像。

如图7所示，图7中上为真实纸张背景，中为扫描背景，下为高斯噪声背景。

接下来，对整体图像渲染模块进行说明。

整体图像渲染模块用于将前景文字图像和背景图像重合，并针对教育场景的文字特点，对整体图像进行细节渲染。整体图像渲染策略可以包括前景图像自适应光照调节、随机干扰线合成、表格线生成、高斯模糊和运动模糊中的一种或多种，本公开对此不做限制。以下对上述几种整体图像渲染策略进行说明。

前景图像自适应光照调节算法

当背景图像模式为真实纸张背景时，由于真实环境中的光照影响和纸张质地的干扰，纸张背景上不同位置处的亮度不一致。前景文字图像中的文字字体颜色一致，此时如果将前景和背景直接拼贴合并，则会产生前景颜色一致，而背景颜色不一致的问题，导致仿真程度的降低。

为了解决上述问题，本公开实施例公开了一种前景图像自适应光照调节算法，包括以下步骤。

(1)，获取真实纸张模式下的背景图像。

(2)，计算该背景图像的二维归一化矩阵，使得整体背景图的像素为0-1的值。归一化公式如下。

其中，X表示全体像素值，x_i是当前位置的像素值，f_pixel是最终该位置的归一化分布值。

(3)，将步骤(2)中得到的归一化分布矩阵，与前景进行逐像素相乘，得到的结果即为亮度自适应调节后的前景图像。

(4)将前景图像和背景图像进行拼贴合并。

通过前景图像自适应光照调节算法，可以得到亮度随背景图像变化的前景图像，然后将二者结合，即可实现更加逼真的合成效果。

随机干扰线合成

真实场景中，纸张上文字常有其他线段干扰，如笔迹噪声等。为了模拟这一效果，本提公开实施例中设计了随机干扰线合成方法，在前后景结合后的图像上随机绘制干扰线段，从而实现较好的仿真效果。该方法包括以下步骤。

(1)，设定随机干扰线的条数，本公开实施例中可以默认其在[0，3]中随机选择。

(2)，对于每一条随机线，在图像二维范围内，随机设定起点和终点，此随机性采用均匀分布得到。

(3)，使用图像库，进行线段的绘制。

表格线生成

由于教学场景中常有表格样式的文本数据，在文本检测阶段，因表格线与文本样式接近，因此常将表格线归为就近的文本候选框。然而表格线对于文字识别而言，是一种干扰性很大的噪声，导致识别的准确率下降。因此为了提升文字识别模型对表格线干扰下的文字识别准确率，本公开实施例中设计了表格线生成算法，详细如下。

(1)，计算整体图像的尺寸W*H。

(2)，分别计算上下左右四个方向的表格线位置，计算方式如下。

上：起点位置为(0，h_top)，终点位置为(W-1，h_top)，其中，h_top的取值范围可以为[1，3]

下：起点位置为(0，h_bottom)，终点位置为(W-1，h_bottom)，其中h_bottom的取值范围为[H-4，H-1]

左：起点位置为(w_left，0)，终点位置为(w_left，H-1)，其中w_left的取值范围为[1，3]

右：起点位置为(w_right，0)，终点位置为(w_right，H-1)，其中w_right的取值范围为[W-4,W-1]

(3)，为了模拟真实情况中，表格线可能有[0-4]条，即整个文本行可能存在0-4条表格线，因此随机判定以上四条表格线的存留状态，如存留，则按照该表格线的起点和终点位置进行线段绘制。

本公开实施例中，通过表格线生成方法，可以合成接近真实情况下的单元格数据，因此有利于提升文字识别模型对单元格文字的识别准确率。

高斯模糊

在教学场景中，师生通过手机等设备对试卷和书籍拍照时，受限于光线模糊或手机相机质量，易产生文字模糊的情况。而通过合成的方式得到的文本图像，文字清晰，理论上不存在模糊问题。直接使用这种清晰的文本图像参与模型训练，最终文字识别模型对模糊文字图像的识别准确率较低。

为了模拟拍摄模糊的情况，本公开实施例中采用高斯模糊做文字图像的渲染处理。高斯模糊是一种降低图像细节层次的数字图像处理方法，其视觉效果类似透过毛玻璃观察图像，在选择合适的高斯核后，可以较为逼真的模拟拍照图像文字模糊的效果。

本公开实施例中选择高斯模糊作为模糊渲染算法，是因为高斯模糊滤波器可以很好的保留图像中文字的边缘效果，且保证了图像滤波过程中不会产生虚假的高频振荡。

高斯模糊的关键参数是高斯核半径，经过多次试验，发现在教育场景中，基于文字图像的性质，高斯核半径不宜超过3(高斯核半径是相对图像像素为单位)，否则易造成文字信息丢失过多，在文字合成过程中产生假样本。因此本公开实施例中高斯模糊的高斯核半径在[1，3]之间随机采样，并进行图像模糊渲染。如图8所示，为高斯模糊的示意图。

运动模糊

由于师生对试卷书籍拍照的过程中，易受环境或手部抖动因素，最终成像效果模糊，这种模糊可以归入运动模糊范畴。运动模糊指因物体与相机之间发生较为快速的相互移动，而产生物体拖动痕迹的一种现象。为了模拟这一效果，本公开实施例设计了一种运动模糊算法，使用对角线运动模糊算子和旋转矩阵相配合，实现了任意角度的运动模糊，且模糊程度可由参数控。方法如下。

(1)，首先创建一个N*N的对角线矩阵，其中N代表了运动模糊的采样范围。

(2)，然后随机初始化运动过程的旋转角度angle，此处angle的值在[1，360]之间随机取值。

(3)，基于旋转角度angle，计算旋转矩阵M。

(4)，将旋转矩阵M应用于(1)创建的对角线模糊算子，计算得到整体模糊算子。

(5)，将(4)得到的运动模糊算子，在整张图像上进行运动模糊处理，即可得到较为良好的运动模糊效果。

如图9所示，为运动模糊的示意图。

接下来，通过一个具体实例对本公开实施例中的整体图像渲染流程进行说明，如图10所示，包括以下步骤。

步骤100，前景图像自适应光照调节。

步骤101，合并文本前景图像和背景图像。

步骤102，判断是否合成干扰线；如果判断结果为是，则执行步骤103；如果判断结果为否，则执行步骤104。

步骤103，合成随机干扰线。

步骤104，判断是否合成表格线。如果判断结果为是，则执行步骤105；如果判断结果为否，则执行步骤106。

步骤105，合成表格线。

步骤106，判断是否进行高斯模糊。如果判断结果为是，则执行步骤107；如果判断结果为否，则执行步骤108。

步骤107，高斯模糊。

步骤108，判断是否进行运动模糊。如果判断结果为是，则执行步骤109；如果判断结果为否，则执行步骤110。

步骤109，运动模糊。

步骤110，输出最终图像。

上述实施例中对本公开实施例所提出的教育场景下的文字图像生成方法，主要包括前景合成模块、背景合成模块和整体图像渲染模块共三个部分。使用本公开实施例中所提出的文字图像生成算法，可以基于已有的教育场景语料库，合成贴近教育场景的文本行图像，从而为后续的文字识别模型训练提供充足的带标签的文本行图像数据。如图11A-图11C所示，分别为前景渲染模式、后景渲染模式和合成图像的示意图。

本公开实施例中的一个或者多个技术方案，至少具有如下技术效果或者优点：

本公开实施例中，通过将文本前景图像和背景图像分离设计，并针对文本前景图像和背景图像分别针对性渲染，然后对结合后的整体图像进行进一步渲染，从而实现了逼真的文本图像合成效果。

本公开实施例中提出的文字图像合成方法，可以大规模的合成带有内容标签的文本图像，解决了教育场景下用于文字识别训练的文字图像数据集欠缺的问题。

本公开实施例中可以基于设定的参数，快速的大规模合成文本图像，且文本内容标签与合成的图像一一对应，不存在差错，相较于人工标注，省时省力，且内容准确率有保障。

本公开实施例中合成文本图像，是基于预先设计好的教育场景语料库，因此可以在语料库准备阶段进行字频均衡，最终合成的文本图像数据集的字频也相对均衡。而公开数据集的文字内容字频差距较大，不利于后续文字识别训练。

本公开实施例中针对教育场景设计了高效准确的文字图像合成方法，可以模拟教育场景下的文字形式，因此相较于公开数据集或扫描文档数据，更贴近真实教育场景。

基于同一发明构思，如图12所示，本公开实施例中还公开了一种用于文字识别模型训练的文本图像生成装置1200，包括：前景合成模块1201，用于从语料库中获取预定长度的文本序列；基于预先设定的参数对所述文本序列进行调节，合成原始文本前景图像；根据前景渲染策略，对所述原始文本前景图像进行前景渲染，生成文本前景图像；背景合成模块1202，用于获取背景图像，将所述文本前景图像和所述背景图像合并，生成合并后的图像；整体图像渲染模块1203，用于根据整体图像渲染策略对所述合并后的图像进行整体图像渲染，得到最终的文本图像，并将所述文本序列作为所述最终的文本图像的内容标签。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图13是根据一示例性实施例示出的一种电子设备1300的框图。如图13所示，该电子设备1300可以包括：处理器1301，存储器1302。该电子设备1300还可以包括多媒体组件1303，输入/输出(I/O)接口1304，以及通信组件1305中的一者或多者。

其中，处理器1301用于控制该电子设备1300的整体操作，以完成上述的文本图像生成方法中的全部或部分步骤。存储器1302用于存储各种类型的数据以支持在该电子设备1300的操作，这些数据例如可以包括用于在该电子设备1300上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器1302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件1303可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1302或通过通信组件1305发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口1304为处理器1301和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件1305用于该电子设备1300与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件1305可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备1300可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的文本图像生成方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的文本图像生成方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器1302，上述程序指令可由电子设备1300的处理器1301执行以完成上述的文本图像生成方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的文本图像生成方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种用于文字识别模型训练的文本图像生成方法，其特征在于，所述方法包括：

从语料库中获取预定长度的文本序列；

2.如权利要求1所述的方法，其特征在于，基于预先设定的参数对所述文本序列进行调节，合成原始文本前景图像，包括：

3.如权利要求要求2所述的方法，其特征在于，在初始化图像的宽度等于原始像素尺寸的宽度，初始化图像的高度大于原始像素尺寸的高度时，根据前景渲染策略，对所述原始文本前景图像进行前景渲染，生成文本前景图像，包括：

4.如权利要求要求1所述的方法，其特征在于，根据前景渲染策略，对所述原始文本前景图像进行前景渲染，生成文本前景图像，包括：

计算所述原始文本前景图像的二值化图像；

5.如权利要求要求1所述的方法，其特征在于，根据前景渲染策略，对所述原始文本前景图像进行前景渲染，生成文本前景图像，包括：

6.如权利要求4所述的方法，其特征在于，垂直扭曲公式为以下任一种；

水平扭曲公式为

7.如权利要求1所述的方法，其特征在于，根据前景渲染策略，对所述原始文本前景图像进行前景渲染，生成文本前景图像，包括：

8.如权利要求7所述的方法，其特征在于，所述旋转矩阵为

9.如权利要求1-8中任一项所述的方法，其特征在于，所述背景图像为真实纸张背景图像；所述方法还包括：

10.如权利要求1-8中任一项所述的方法，其特征在于，根据整体图像渲染策略对所述合并后的图像进行整体图像渲染，得到最终的文本图像，包括：

计算所述合并后的图像的尺寸；

11.如权利要求10所述的方法，其特征在于，所述合并后的图像的尺寸为W*H，基于所述合并后的图像的尺寸，计算所述合并后的图像的上下左右四个方向上的表格线的起点位置和终点位置，包括：

计算所述合并后的图像的上方的表格线的起点位置为(0,h_top)，终点位置为(W-1,h_top)；

计算所述合并后的图像的下方的表格线的起点位置为(0,h_bottom)，终点位置为(W-1,h_bottom)；

计算所述合并后的图像的左边的表格线的起点位置为起点位置为(w_left,0)，终点位置为(w_left,H-1)；

计算所述合并后的图像的右边的表格线的起点位置为起点位置为(w_right,0)，终点位置为(w_right,H-1)；

其中，h_top、h_bottom、w_left和w_right均为预设值。

12.如权利要求1-8中任一项所述的方法，其特征在于，根据整体图像渲染策略对所述合并后的图像进行整体图像渲染，得到最终的文本图像，包括：

选定随机干扰线的条数；

13.如权利要求1-8中任一项所述的方法，其特征在于，根据整体图像渲染策略对所述合并后的图像进行整体图像渲染，得到最终的文本图像，包括：

14.如权利要求1-8中任一项所述的方法，其特征在于，根据整体图像渲染策略对所述合并后的图像进行整体图像渲染，得到最终的文本图像，包括：

15.如权利要求1所述的方法，其特征在于，所述背景图像为真实纸张背景图像、扫描背景图像或高斯噪声背景图像。

16.一种用于文字识别模型训练的文本图像生成装置，其特征在于，包括：

17.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-15中任一项所述方法的步骤。

18.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-15中任一项所述方法的步骤。