CN115457555A

CN115457555A - 通用场景文字识别数据的自动生成方法及系统

Info

Publication number: CN115457555A
Application number: CN202210610888.5A
Authority: CN
Inventors: 李振; 鲁宾宾; 刘挺; 孟天祥
Original assignee: Minsheng Science And Technology Co ltd
Current assignee: Minsheng Science And Technology Co ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-12-09

Abstract

本发明涉及文字识别技术领域，提供了一种通用场景文字识别数据的自动生成方法及系统，该方法包括收集建立部分文字识别数据集A；利用基于深度学习的图像增强方法生成印刷体数据集B；使用对抗生成网络GAN把数据集A的风格迁移到数据集B，扩充得到数据集C；使用基于CTC的字符精准定位的图像增强方法获得D和E；数据集A、B、C、D和E按比例混合训练，混合训练采用基于特征的数据增强方法丰富样本多样性。本发明能够解决“手写文字识别，由于手写文字连笔、更加多样，同时缺乏多样的字体、公开的数据集，手写识别很难取得如同机打字体同样的令人惊艳的效果”的问题，通过图像增强、语义理解、GAN等技术生成高质量且分布均衡的数据。

Description

通用场景文字识别数据的自动生成方法及系统

技术领域

本发明涉及文字识别技术领域，特别涉及一种通用场景文字识别数据的自动生成方法及系统。

背景技术

随着人工智能技术不断发展的今天，ocr识别在银行、物流以及无人驾驶等众多领域场景中被广泛应用。文字识别方法主要包括：基于字符切分再进行字符分类完成识别、基于 attention的字符对齐识别、基于ctc的概率最大路径识别方法，以及基于transformer的multi-head-attention编解码识别方法，但是由于ctc更快的训练、预测速度，在长短文本、尤其是中文识别上有较优的表现被工业界广泛使用。目前公开的学术论文暂无基于ctc的字符定位方法，但是字符的位置在合同比对、图片质检等问题中十分重要。

基于深度学习的文字识别方法依赖大量的数据训练，然而在真实的开发场景中往往很难获取足够多且真实的标注数据，这是因为人工标注的成本十分昂贵且标注速度不尽人意，文字识别往往依赖于数据增强方法用于丰富数据集，因此行而有效的数据增强方法是应对丰富多样的识别需求的关键。

机打文字可以通过不同字体生成各种各样的文本，通过简单的深度估计甚至能产生近似背景的图片。但是对于手写文字识别，由于手写文字连笔、更加多样，同时缺乏多样的字体、公开的数据集，手写识别很难取得如同机打字体同样的令人惊艳的效果。因此希望通过图像增强、语义理解、生成对抗网络等技术生成高质量且分布均衡的数据。

发明内容

文字识别技术中常用的数据生成方法可分为三类：GAN(对抗生成网络)生成法、基于特征变换的图像增强、以及基于深度学习的图像增强。本发明在此基础上提出一种基于CTC 的字符精准定位的图像增强方法丰富了数据生成方法。并创新性提出了对于通用场景文字识别可以通过上述四类数据生成方法的交叉运用获得更为丰富均衡的数据集，进而展开模型训练提高模型的泛化能力。

本发明的目的是至少克服现有技术的不足之一，提供了一种通用场景文字识别数据的自动生成方法及系统。

本发明的技术思想如下：

假设已有基础文字识别数据集A，利用基于深度学习的图像增强方法生成印刷体数据集B；使用GAN把A的风格迁移到B上，扩充数据集得到C；利用数据集A使用基于CTC精准定位获取各个字符的样本集S，通过对A中字符的随机替换生成D，根据具有语义信息的文本组合或者随机组合字符集S获得E，最终可通过对A，B，C，D，E按比例混合训练，训练过程中可采用基于特征的数据增强方法丰富样本多样性。

其中，基于CTC的字符精准定位的图像增强方法思想如下：通过ctc方法在有限的训练集A上完成训练，预测准确的为A_,通过获取在特征层的各个字符起始位置和终止位置，然后获取感受野可以得到字符在模型输入图片上的起点和终点，进而可以获取各个字符，初步完成基本字符收集S，通过人工的切图的方式可以增强多样性进而获取字符集合S₊。然后在S₊用生成各种各样的字符组合或者用S₊替换A_,进而获取更大规模以及更平衡数据分布的数据集，完成数据增强。

本发明采用如下技术方案：

一方面，本发明一种通用场景文字识别数据的自动生成方法，包括：

S1、收集建立部分文字识别数据集A，数据集A为已存在的数据集；

S2、在数据集A的基础上，利用基于深度学习的图像增强方法生成印刷体数据集B；

S3、使用对抗生成网络GAN把数据集A的风格迁移到数据集B上，扩充数据集得到数据集C；

S4、在数据集A的基础上，使用基于CTC的字符精准定位的图像增强方法获得数据集 D和数据集E；

S5、数据集A、数据集B、数据集C、数据集D和数据集E按比例混合训练，混合训练中采用基于特征的数据增强方法丰富样本多样性，得到最终数据集，即通用场景文字识别数据集。

如上所述的任一可能的实现方式，进一步提供一种实现方式，步骤S2中，所述基于深度学习的图像增强方法，采用合成自然场景文本的方法生成数据集B，文本生成方法包括：

S2.1字体渲染：随机选择字体，将文本沿水平方向或随机曲线方式呈现到图像前景层中；

S2.2描边、加阴影：对图像前景层渲染随机宽度的边缘或阴影；

S2.3基础着色：三个图像层中的每一层均填充从已有数据集A中采集的不同均匀色，均匀色通过K-means算法将数据集A中的每个图像中的三个通道颜色(R、G、B)聚类为三类(分别对应三个图像层)；所述三个图像层为图像前景层、图像背景层和边缘阴影层；

S2.4仿射投影扭曲：对图像前景层和边缘阴影层进行随机的投影变换扭曲，模拟3D环境：

S2.5自然数据混合：每个图像层与来自ICDAR 2003和SVT的训练数据集的随机采样的图像混合，得到数据集B。

如上所述的任一可能的实现方式，进一步提供一种实现方式，步骤S3中，利用生成模型用有限渠道获取的特定场景的图像数据生成均衡、适用各种场景的图像，生成模型通过与判别模型的博弈来迭代获取；扩充数据集得到数据集C的方法具体为：

S3.1生成模型生成一批图像；

S3.2判别模型学习区分生成图像和真实图像；

S3.3生成模型根据判别模型反馈结果来改进生成模型，迭代生成新图像；

S3.4判别模型继续学习区分生成图像和真实图像；

S3.5收敛完成后，利用生成模型生成图像数据。

如上所述的任一可能的实现方式，进一步提供一种实现方式，步骤S4中，使用基于CTC 的字符精准定位的图像增强方法获得数据集D和数据集E，具体方法为：

S4.1对有限的数据集A，采用基于ctc的文字识别模型进行训练；

S4.2待步骤S4.1训练完成后，对比数据集A的预测结果与真实标签，将对比结果相同的数据集记作A_；

S4.3通过对基于ctc的文字识别模型输出张量的分组聚合，得到数据集A_图像中每个字符在基于ctc的文字识别模型输出特征层中的起始位置s_i和结束位置e_i，i>0；

S4.4计算数据集A_图像中每个字符在输入图像中的起始位置S_i和结束位置E_i；

S4.5根据步骤S4.4获得的数据集A_图像中单字符的坐标值，获得单字符碎片图像数据集，记为S；

S4.6统计S中各字符的出现频率，辅以人工切分方式，平衡字符分布，获得字符集S₊；

S4.7扩充数据集A_，扩充方式有以下三种方式：

1)先制作具有语义的标签，根据标签内容拼接字符集组合生成图像；

2)基于已获取的单字符坐标和已获得的字符集S₊，替换数据集A_图像中的字符，具体为将单字符图像粘贴到被替换字符的坐标位置上；

3)随机生成；

利用2)形成数据集D，利用1)和3)生成数据集E。

如上所述的任一可能的实现方式，进一步提供一种实现方式，步骤S4.4中，每个字符在输入图像中的起始位置S_i和结束位置E_i的计算方法为：

X1、通过如下公式迭代计算出卷积神经网络输出特征层感受野相关参数取值：

jump:j_out＝j_in*s

其中，jump(j)表示两个连续特征点间的距离，下标in,out表示输入状态、输出状态， start表示第一个特征点的中心坐标，s表示卷积操作的补偿，k表示卷积核的大小，p表示卷积padding大小；

X2、通过如下公式计算起始位置S_i和结束位置E_i：

S_i＝start+s_i*jump

E_i＝start+e_i*jump。

如上所述的任一可能的实现方式，进一步提供一种实现方式，步骤S5中，混合训练中采用基于特征的数据增强方法，基于特征变换的图像增强法是对现有的数据进行特征变换进而扩充数据量，特征变换方式包括：模糊、对比度变化、拉伸、旋转和随机剪裁。

如上所述的任一可能的实现方式，进一步提供一种实现方式，步骤S5中，按比例混合训练，各数据集的比例根据实验或实际需求确定。

另一方面，本发明还提供了一种通用场景文字识别数据的自动生成系统，包括：

基于深度学习的图像增强模块，用于在数据集A的基础上，利用基于深度学习的图像增强方法生成印刷体数据集B；

对抗生成网络GAN模块，用于使用对抗生成网络GAN把数据集A的风格迁移到数据集B上，扩充数据集得到数据集C；

基于CTC的字符精准定位的图像增强模块，用于在数据集A的基础上，使用基于CTC的字符精准定位的图像增强方法获得数据集D和数据集E；

混合训练模块，用于数据集A、数据集B、数据集C、数据集D和数据集E按比例混合训练，混合训练中采用基于特征的数据增强方法丰富样本多样性，得到最终数据集；

所述系统采用上述的通用场景文字识别数据的自动生成方法。

另一方面，本发明还提供了一种终端，包括：处理器及存储器；所述存储器用于存储计算机程序；所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行上述的通用场景文字识别数据的自动生成方法。

另一方面，本发明还提供了一种计算机存储介质，所述介质上存储有计算机程序，所述计算机程序被处理器执行实现权利要求1-7任一项所述的通用场景文字识别数据的自动生成方法。

本发明的有益效果为：

1、GAN生成法、基于特征变换的图像增强、基于深度学习的图像增强以及基于CTC的字符精准定位的图像增强方法的交叉运用实现文字识别数据的多样生成。

2、应对不同识别场景，文字识别数据生成方法的交叉运用。

3、基于ctc和感受野的字符精准定位方法。

4、基于字符精准定位的训练集单字符切分。

5、数据增强方法：基于字符精准定位和部分语义的随机字符替换方法。

附图说明

图1所示为本发明实施例一种通用场景文字识别数据的自动生成方法的实现逻辑图。

具体实施方式

下文将结合具体附图详细描述本发明具体实施例。应当注意的是，下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的，它们可以被相互组合从而达到更好的技术效果。在下述实施例的附图中，各附图所出现的相同标号代表相同的特征或者部件，可应用于不同实施例中。

整体实现逻辑图如图1所示，本发明实施例一种通用场景文字识别数据的自动生成方法，包括：

S1、收集建立部分文字识别数据集A；

作为一个具体实施例，采用合成自然场景文本的方法生成数据集B，文本生成方法包括：

S2.2描边、加阴影、着色；

S2.3基础着色：三个图像层中的每一层均填充从已有数据集A中采集的不同均匀色，均匀色通过K-means算法将数据集A中的每个图像中的三个通道颜色聚类为三类；所述三个图像层为图像前景层、图像背景层和边缘阴影层；

在一个具体实施例中，利用生成模型用有限渠道获取的特定场景的图像数据生成均衡、适用各种场景的图像，生成模型通过与判别模型的博弈来迭代获取；扩充数据集得到数据集 C的方法具体为：

S3.1生成模型生成一批图像；

S3.2判别模型学习区分生成图像和真实图像；

S3.4判别模型继续学习区分生成图像和真实图像；

S3.5收敛完成后，利用生成模型生成图像数据。

在一个具体实施例中，具体方法为：

S 4.2待步骤S4.1训练完成后(也可采用开源的预训练模型)，对比数据集A的预测结果与真实标签，将对比结果相同的数据集记作A_；

S4.3通过对模型输出张量的分组聚合，得到数据集A_图像中每个字符在模型输出特征层中的起始位置s_i和结束位置e_i，i>0；

在一个具体实施例中，每个字符在输入图像中的起始位置S_i和结束位置E_i的计算方法为：

jump:j_out＝j_in*s

其中，jump表示两个连续特征点间的距离，start表示第一个特征点的中心坐标，s表示卷积操作的补偿，k表示卷积核的大小，p表示卷积padding大小；

X2、通过如下公式计算起始位置S_i和结束位置E_i：

S_i＝start+s_i*jump

E_i＝start+e_i*jump。

S4.7扩充数据集A_，扩充方式有以下三种方式：

2)基于步骤4获取得单字符坐标和已获得的字符集S₊，替换数据集A_图像中的字符，具体为将单字符图像粘贴到被替换字符的坐标位置上；

3)随机生成；

利用2)形成数据集D，利用1)和3)生成数据集E。

S5、数据集A、数据集B、数据集C、数据集D和数据集E按比例混合训练，混合训练中采用基于特征的数据增强方法丰富样本多样性，得到最终数据集。

在一个具体实施例中，基于特征变换的图像增强法是对现有的数据进行特征变换进而扩充数据量，特征变换方式主要包括：模糊、对比度变化、拉伸、旋转和随机剪裁。

上述步骤给出了通用场景文字识别数据的自动生成方法，以印刷手写混合日期识别为例，在日期识别场景下，已有的数据集都是当前时间以前的数据，无法获得未来时间的数据集，比如2050年1月1日的日期数据严格意义来说是不存在的，但识别模型得具有识别未来时间的能力，因此需要通过数据生成获取未来的日期数据。日期识别采取的策略是通过数据生成方法生成随机日期数据用于训练，原始真实数据当做测试集，下表反映的是对于相同的原始数据集，相同的识别模型(ctc+crnn)，不同的数据生成方式对应的识别准确率。

通过上表可以看出，使用本发明所创新的基于CTC的字符精准定位的图像增强方法获得数据集的方法，识别准确率可大幅提高(从56-62％大幅提高到92％)，如果四种识别方法进行组合，可进一步提高识别准确率(95％)。其他实验也得出了类似结果。

在不同的识别需求下，可以灵活组合使用四种生成方式丰富数据集。

本发明能够解决“手写文字识别，由于手写文字连笔、更加多样，同时缺乏多样的字体、公开的数据集，手写识别很难取得如同机打字体同样的令人惊艳的效果”的问题，通过图像增强、语义理解、GAN等技术生成高质量且分布均衡的数据。

本文虽然已经给出了本发明的几个实施例，但是本领域的技术人员应当理解，在不脱离本发明精神的情况下，可以对本文的实施例进行改变。上述实施例只是示例性的，不应以本文的实施例作为本发明权利范围的限定。

Claims

1.一种通用场景文字识别数据的自动生成方法，其特征在于，所述方法包括：

S1、收集建立部分文字识别数据集A；

S4、在数据集A的基础上，使用基于CTC的字符精准定位的图像增强方法获得数据集D和数据集E；

S5、数据集A、数据集B、数据集C、数据集D和数据集E按比例混合训练，混合训练中采用基于特征的数据增强方法，得到最终数据集，即通用场景文字识别数据集。

2.如权利要求1所述的通用场景文字识别数据的自动生成方法，其特征在于，步骤S2中，所述基于深度学习的图像增强方法，采用合成自然场景文本的方法生成数据集B，文本生成方法包括：

S2.5自然数据混合：每个图像层与来自ICDAR 2003和SVT的训练数据集的随机采样的图像混合，最终得到数据集B。

3.如权利要求1所述的通用场景文字识别数据的自动生成方法，其特征在于，步骤S3中，利用生成模型获取的特定场景的图像数据生成均衡、适用各种场景的图像，生成模型通过与判别模型的博弈来迭代获取；扩充数据集得到数据集C的方法具体为：

S3.1生成模型生成一批图像；

S3.2判别模型学习区分生成图像和真实图像；

S3.4判别模型继续学习区分生成图像和真实图像；

S3.5收敛完成后，利用训练完成的生成模型生成图像数据。

4.如权利要求1所述的通用场景文字识别数据的自动生成方法，其特征在于，步骤S4中，使用基于CTC的字符精准定位的图像增强方法获得数据集D和数据集E，具体方法为：

S4.7扩充数据集A_，扩充方式有以下三种方式：

3)随机生成；

利用2)形成数据集D，利用1)和3)生成数据集E。

5.如权利要求4所述的通用场景文字识别数据的自动生成方法，其特征在于，步骤S4.4中，每个字符在输入图像中的起始位置S_i和结束位置E_i的计算方法为：

jump:j_out＝j_in*s

start:

其中，jump：j表示两个连续特征点间的距离，下标in,out表示输入状态、输出状态，start表示第一个特征点的中心坐标，s表示卷积操作的补偿，k表示卷积核的大小，p表示卷积padding大小；

X2、通过如下公式计算起始位置S_i和结束位置E_i：

S_i＝start+s_i*jump

E_i＝start+e_i*jump。

6.如权利要求1所述的通用场景文字识别数据的自动生成方法，其特征在于，步骤S5中，混合训练中采用基于特征的数据增强方法，所述基于特征变换的图像增强法是对现有的数据进行特征变换进而扩充数据量，特征变换方式包括：模糊、对比度变化、拉伸、旋转和随机剪裁。

7.如权利要求1所述的通用场景文字识别数据的自动生成方法，其特征在于，步骤S5中，按比例混合训练，各数据集的比例根据实验或实际需求确定。

8.一种通用场景文字识别数据的自动生成系统，其特征在于，所述系统包括：

所述系统采用如权利要求1-7任一项所述的通用场景文字识别数据的自动生成方法。

9.一种终端，其特征在于，包括：处理器及存储器；所述存储器用于存储计算机程序；所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行权利要求1-7任一项所述的通用场景文字识别数据的自动生成方法。

10.一种计算机存储介质，其特征在于，所述介质上存储有计算机程序，所述计算机程序被处理器执行实现权利要求1-7任一项所述的通用场景文字识别数据的自动生成方法。