CN114241495B

CN114241495B - 一种用于脱机手写文本识别的数据增强方法

Info

Publication number: CN114241495B
Application number: CN202210183766.2A
Authority: CN
Inventors: 侯庆志; 韩廷祥; 张云峰; 柯文俊; 魏建国
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-05-03
Anticipated expiration: 2042-02-28
Also published as: CN114241495A

Abstract

本发明涉及一种用于脱机手写文本识别的数据增强方法，包括以下步骤：选定脱机中文手写数据库，此数据库分为手写单字符图像数据库和手写文本行图像数据库；对于手写单字符图像数据库，解析所有数据文件，将相同字符的手写单字符图像存储到同一文件夹下，手写单字符图像以书写作者的索引号命名，并将手写单字符图像数据库里所涉及的各个字符及每个字符所对应的编码存储为用于对手写单字符图像进行检索的字典，构建手写单字符图像数据集；基于语料库构建文本行文件；生成对应的手写文本行图像，每一行文本对应生成一张手写文本行图像；获得添加噪声背景的手写文本行图像；实现手写文本行图像数据库的数据增强。

Description

一种用于脱机手写文本识别的数据增强方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种用于脱机手写文本识别的数据增强方法。

背景技术

随着计算机的计算与存储性能的快速提升，近年来，以深度学习和大数据为基础的人工智能技术在人脸识别、语音识别、目标检测、自然语言处理等众多领域得到了快速的发展与应用。深度神经网络在许多任务中表现良好，但这些网络通常需要大量数据才能避免过度拟合。遗憾的是，许多场景无法获得大量数据，这些数据往往需要人工进行标注和整理，十分耗时耗力。数据增强（Data Augmentation）是一种使用有限的数据产生更多的等价数据来扩展训练数据集的技术，它是克服训练数据不足的有效手段。

手写文本识别任务，根据使用场景可分为联机识别和脱机识别。其中，联机识别使用书写的笔划坐标特征，应用于手机等电子设备的联机手写输入识别，其特点是笔划清晰、背景干净；脱机识别是对图像中的文字区域进行检测后识别，应用场景更为复杂和广泛，难度也更大。对于脱机的手写文本识别任务，模型通常需要依赖大量手写文本行图像进行训练。目前，公开的手写数据集通常包括手写单字符数据和手写文本行数据，但手写文本行图像的样本数据量十分有限。由于缺乏训练数据，脱机手写文本识别的效果很难提升。

发明内容

本发明提供一种用于脱机手写文本识别的数据增强方法，基于手写单字符图像数据库和语料库，通过一系列数据增强方法扩充手写文本行图像数据集，用于训练手写文本识别模型，从而提高模型识别的准确率和适应性。本发明提出的技术方案如下：

一种用于脱机手写文本识别的数据增强方法，包括以下步骤：

步骤S1：选定脱机中文手写数据库，此数据库分为手写单字符图像数据库和手写文本行图像数据库，所述手写单字符图像数据库为每个书写作者建立一个数据文件，该数据文件包含由该书写作者书写的若干手写单字符图像；

步骤S2：对于手写单字符图像数据库，解析所有数据文件，将相同字符的手写单字符图像存储到同一文件夹下，手写单字符图像以书写作者的索引号命名，并将手写单字符图像数据库里所涉及的各个字符及每个字符所对应的编码存储为用于对手写单字符图像进行检索的字典，构建手写单字符图像数据集；

步骤S3：基于语料库构建文本行文件；

步骤S4：由所述步骤S3得到的文本行文件生成对应的手写文本行图像，每一行文本对应生成一张手写文本行图像，方法为：

步骤S41：选取文本行文件的文本行对应的手写单字符图像：对文本行文件的每行文本按字符进行遍历，利用所述步骤S2所获得的字典，从手写单字符图像数据集中依次查找和选取字符对应的手写单字符图像，为同一文本行选取的手写单字符图像来自同一书写作者；

步骤S42：对文本行文件每个文本行生成固定大小的背景图，背景图的宽度根据最长文本长度设定；为文本行文件的文本行选定缩放值，对选取的手写单字符图像进行缩放；

步骤S43：将所述选取的手写单字符图像依次水平粘贴在背景图中，生成一张手写文本行图像；

步骤S5：对所述步骤S4生成的手写文本行图像添加噪声背景，获得添加噪声背景的手写文本行图像；

步骤S6：对于步骤S5所获得的添加噪声背景的手写文本行图像，确定变换概率，以所确定的变换概率每次随机进行一项图像变换并保存，构建用于扩充步骤S1所述手写文本行图像数据库的手写文本行图像，实现手写文本行图像数据库的数据增强。

进一步地，步骤S3的方法为：

步骤S31：设定要生成的文本行的行数；

步骤S32：设定随机字符数量，按字符遍历语料库的文本，选取存在于步骤S2所述字典中的字符，在达到所述的随机字符数量时，将所选取的字符序列保存至文本行文件；

步骤S33：重复步骤S32直至达到所述要生成的文本行的行数后停止遍历，获得基于语料库构建的文本行文件。

进一步地，所述的随机字符数量设定为10至20之间的整数。

进一步地，步骤S43中将所述选取的手写单字符图像依次水平粘贴在背景图中的方法如下：记背景图的宽度和高度分别为W和H，当前所要粘贴的手写单字符图像的宽度和高度分别为w和h；记初始点水平坐标

，上一个手写单字符图像的宽度为

，设定字符间隔为i，当前所要粘贴的手写单字符图像左上角点应在背景图中的位置记为（x, y）；在水平方向上，若当前所要粘贴的手写单字符图像粘贴后超出背景图范围，即

+w > W，则丢弃此文本行；否则，设定x=

+i+w，在竖直方向上，若当前所要粘贴的字符为高位字符，则设定y=randomint(0, H//4)；若当前所要粘贴的字符为低位字符，则设定y=randomint(H//2, (H-h)),否则，设定y=randomint((H-h)//2-4, (H-h)//2+4)，其中,函数randomint(s,t)表示从整数s和t之间取随机整数；在所设定的位置粘贴相应的手写单字符图像。

进一步地，步骤S5具体如下：

步骤S51：为所述步骤S4生成的手写文本行图像添加Alpha通道，前景像素点的值设置为1，背景像素点设置为0；

步骤S52：生成与所述手写文本行图像相同尺寸的背景图，随机选取灰度值a，设定方差，将背景图像素值转换为均值为a、方差为设定值的噪声背景图；

步骤S53：将所述步骤S51生成的添加Alpha通道的手写文本行图像和步骤S52得到的噪声背景图进行融合，得到添加噪声背景的手写文本行图像。

进一步地，所述图像变换包括模糊、扭曲、亮度变化和对比度变化。

本发明提出的用于脱机手写文本识别的数据增强方法，使用公开的手写数据库中的手写单字符图像，结合语料库文本，依照语料库文本中的语句选取对应的手写单字符图像进行拼接和处理，得到合成的手写文本行图像。由于可以根据语料库文本内容选取手写单字符图像进行组合，因此能够获得无数类似人工书写的手写文本行图像，扩充了用于脱机手写文本识别的数据集，从而提高识别准确率和适应性。

附图说明

图1 实施流程图。

图2 CASIA手写单字符图像示例图。

图3 解析和存储的手写单字符图像示例图。

图4生成的手写文本行图像示例图。

图5图像变换效果示例图。

图6手写文本识别模型的网络结构图。

具体实施方式

为了更加清晰地阐述本发明的操作过程和加深对本发明的理解，下面将结合附图和实例对本发明做进一步详细的阐述，该实施例仅用于解释本发明，并不对本发明的保护范围构成限定。

本发明的实施流程图如图1所示，提供了一种用于脱机手写文本识别的数据增强方法，使用手写单字符图像数据库和语料库文本合成手写文本行图像数据集，具体包括以下步骤：

步骤S1：选定脱机中文手写数据库，本实施例使用CASIA脱机中文手写数据库，该数据库由中国科学院自动化所召集1020名作者书写而成，包含约390万字符样本，覆盖了GB2312-80标准中的所有6763个汉字。该数据库分为手写单字符图像数据库（HWDB1.0-1.2）和手写文本行图像数据库（HWDB2.0-2.2），同一作者书写的样本被组织和存储到一个数据文件，并以作者索引号命名，该数据文件包含由该书写作者书写的若干手写单字符图像。

步骤S2：对于手写单字符图像数据库，解析所有数据文件，将相同字符的手写单字符图像存储到同一文件夹下，手写单字符图像以书写作者的索引号命名，并将相应的字符及其编码存储为用于对手写单字符图像进行检索的字典，构建手写单字符图像数据集。所述手写单字符图像数据库共有1020个数据文件，每个数据文件包含由同一作者书写的若干手写单字符图像，如图2所示。解析所有数据文件，将相同类别的手写单字符图像存储到同一文件夹下，文件夹以字符的GB2312-80编码命名，手写单字符图像以书写作者的索引号命名，并将字符及其编码存储为字典，以便对手写单字符图像的检索。例如，解析到由3号作者书写的字符“啊”，其GB2312-80编码为“B0A1”，故将该手写单字符图像存储到名为“B0A1”的文件夹下，命名为“3.png”，如图3所示；同时，将{“啊”：“B0A1”}存入所述字典。

步骤S3：从语料库构建文本行，具体如下：

步骤S31：设定要生成的文本行的行数；

本实施过程选取一万篇人民日报语料库2006年的新闻报导，将每篇新闻报导的文本切分为随机字符数量的文本行进行保存。其中，设定要生成的文本行的行数为50万行，随机字符数量设定为10至20之间的整数，切分时，按字符遍历新闻报导文本，选取存在于步骤S2所述字典中的字符，达到设定的字符数量时，将选取的字符序列保存至文本行文件，并重新设定随机字符数量继续遍历语料库文本。最终得到50万行文本，覆盖6千多种字符。

步骤S4：由所述步骤S3得到的文本行文件生成对应手写文本行图像，每一行文本对应生成一张手写文本行图像。该步骤包括选取、调整、拼接手写单字符图像三个子步骤，具体如下：

步骤S41：选取文本行文件的文本行对应的手写单字符图像：对文本行文件的每行文本按字符进行遍历，利用所述步骤S2所获得的字典，从手写单字符图像数据集中依次查找和选取字符对应的手写单字符图像，为同一文本行选取的手写单字符图像来自同一书写作者，从而生成的同一手写文本行图像的书写风格一致，更加接近真实书写；同时尽可能使用所有所述手写单字符图像。

步骤S42：对文本行文件每个文本行生成固定大小的背景图，背景图的宽度根据最长文本长度设定；为文本行文件的文本行选定缩放值，对选取的手写单字符图像进行缩放。

步骤S43：将所述选取的手写单字符图像依次水平粘贴在背景图中，生成一张手写文本行图像。具体为：将所述选取的手写单字符图像依次水平粘贴在背景图中。所述粘贴手写单字符图像的方法，是根据手写单字符图像的左上角点在背景图中的坐标，使用Pillow工具中的Image.paste()方法进行粘贴。

所述粘贴手写单字符图像的具体过程为，记背景图的宽度和高度分别为W和H，当前手写单字符图像的宽度和高度分别为w和h（单位为像素，下同）。记初始点水平坐标

=randomint(0, 5)，上一个手写单字符图像的宽度为

，设定字符间隔为i=randomint(2,6)，该手写单字符图像左上角点应在背景图中的位置记为（x, y）。在水平方向上，若当前手写单字符图像粘贴后超出背景图范围，即

+w > W，则丢弃此文本行；否则x=

+i+w。在竖直方向上，若字符为引号等高位字符，则y=randomint(0, H//4)，若字符为逗号等低位字符，则y=randomint(H//2, (H-h)),否则y=randomint((H-h)//2-4, (H-h)//2+4)。其中,randomint(x, y)为从整数x和y之间取随机整数。通过所述方法，能够生成仿照真实书写风格的手写文本行图像，生成的手写文本行图像示例如图4所示。

步骤S5：对所述步骤S4生成的手写文本行图像添加噪声背景，具体为：

步骤S51：为所述生成的手写文本行图像添加Alpha通道，前景像素点的值设置为1，背景（白色）的像素点设置为0。

步骤S52：生成与所述手写文本行图像相同尺寸的背景图，随机选取灰度值a，使用OpenCV工具包将背景图像素值转换为均值为a、方差为20的噪声背景图。

步骤S53：使用OpenCV工具包将所述步骤S51得到的添加了Alpha通道的手写文本行图像和步骤S52得到的噪声背景图进行融合，得到添加噪声背景的手写文本行图像。

步骤S6：对步骤S53所述的添加噪声背景的手写文本行图像，以0.5的概率随机进行一项图像变换并保存，构建用于扩充步骤S1所述手写文本行图像数据库的手写文本行图像，实现手写文本行图像数据库的数据增强。所述图像变换包括模糊、扭曲、亮度变化、对比度变化等，单一图像变换效果如图5所示。所述图像变换方法可使用OpenCV工具包实现。在保存图像时，将图像保存路径和文本行内容按照lmdb格式写入标注文件中。所述lmdb格式是对每张图像及其标注信息按照“[图像相对路径]\t[图像标注信息]\n”的形式存储。

步骤S7：加载和训练模型，并测试数据增强的效果。具体为：

步骤S71：搭建手写文本识别模型，其网络结构如图6所示，该网络结构包含三个部分，从下到上依次为卷积层、循环层和转录层。其中，卷积层由卷积（Convolution）、最大池化（MaxPooling）和批标准化（Batch Normalization）等操作构成，提取输入图像的视觉特征，图6中“k”、“s”、“p”分别代表卷积核（kernel）大小、步长（stride）和填充（padding）大小；循环层由两层双向长短期记忆（Bidirectional-LSTM）网络构成，捕获视觉特征的上下文信息；转录层使用CTC损失，把从循环层获取的一系列标签分布转换成最终的标签序列。本发明所采用的网络结构主要借鉴了下列文献：Shi B, Bai X, Yao C. An end-to-endtrainable neural network for image-based sequence recognition and itsapplication to scene text recognition[J]. IEEE transactions on patternanalysis and machine intelligence, 2016, 39(11): 2298-2304.

由于卷积神经网络的视野有限，不能有效结合距离较远的像素点信息，无法有效提取图像的上下文信息；而长短期记忆网络是一种循环神经网络，能够对结合序列的上下文信息。因此，在卷积神经网络后加上双向长短期记忆网络，能更好地提取图像的特征和上下文信息。采用CTC转录使模型在解码时可以自动对齐，无需进行字符分割和字符级别的标注，解决了字符分割的难题。

由于语料库是依据人们使用语言的经验和特点构建而成，依照语料库生成的文本行包含上下文语义信息，这与循环神经网络模型能够有效结合上下文信息的特点相契合。因此，依照语料库中的文本生成手写文本行图像对模型的训练更为有效。

步骤S72：对比训练模型。解析步骤S1中的手写文本行图像数据库，得到HWDB手写文本行图像数据集，作为基础数据集；在基础数据集上加入通过以上步骤得到的数据增强的手写文本行图像数据集作为数据增强数据集。分别对以上两个数据集按照9:1的比例划分为各自的训练集和测试集。训练时，读取手写文本行图像及其对应标注信息，通过所述神经网络正向传播，采用CTC损失计算模型输出与标注信息之间的误差，反向传播更新神经网络的参数，直到测试集的损失值不再下降时停止训练，选择在测试集上准确率最高的模型作为最终模型。

通过以上方法分别对手写基础数据集和数据增强数据集进行对比训练和测试，使用本发明进行数据增强的模型识别的准确率提升了8.6%，能更好地应用于真实场景的手写文本识别。

以上具体实施例只是对本发明进行了示例性描述，本发明具体实现不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种用于脱机手写文本识别的数据增强方法，其特征在于，包括以下步骤：

步骤S3：基于语料库构建文本行文件；

2.根据权利要求1所述的数据增强方法，其特征在于，步骤S3的方法为：

步骤S31：设定要生成的文本行的行数；

3.根据权利要求2所述的数据增强方法，其特征在于，所述的随机字符数量设定为10至20之间的整数。

4.根据权利要求1所述的数据增强方法，其特征在于，步骤S43中将所述选取的手写单字符图像依次水平粘贴在背景图中的方法如下：记背景图的宽度和高度分别为W和H，当前所要粘贴的手写单字符图像的宽度和高度分别为w和h；记初始点水平坐标

，上一个手写单字符图像的宽度为

+w > W，则丢弃此文本行；否则，设定x=

5.根据权利要求1所述的数据增强方法，其特征在于，步骤S5具体如下：

6.根据权利要求1所述的数据增强方法，其特征在于，所述图像变换包括模糊、扭曲、亮度变化和对比度变化。