CN115936979A

CN115936979A - 一种端到端的文本图像合成和识别的方法及系统

Info

Publication number: CN115936979A
Application number: CN202310026637.7A
Authority: CN
Inventors: 廖万里; 金卓; 梁芳烜; 肖飞; 刘金朝
Original assignee: Zhuhai Kingsware Information Technology Co Ltd
Current assignee: Zhuhai Kingsware Information Technology Co Ltd
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-04-07
Anticipated expiration: 2043-01-09
Also published as: CN115936979B

Abstract

本发明公开了一种端到端的文本图像合成和识别的方法及系统，所述方法包括以下步骤：以Transformer网络和VGG网络为基础网络，构造合成逼真数据的文本图像生成器；将文本图像生成器输出的合成图像分别输入判别器分支、识别器分支；最后，将判别结果和识别结果损失返回文本图像生成器，提高生成器训练，直至判别器无法判断数据真假和识别网络能准确识别真实图像，完成数据合成模型训练。本发明克服了人工合成图像造成的主观性强的缺陷，改善了前期的GAN合成图像中生成器图像特征提取能力较差的问题，能够有效生成文本图像识别的训练数据，解决无法大量获取需保密数据的问题，满足文本图像识别模型训练的数据需求。

Description

一种端到端的文本图像合成和识别的方法及系统

技术领域

本发明涉及图像处理领域，特别涉及一种端到端的文本图像合成和识别的方法及系统。

背景技术

深度学习大致可分为监督学习算法、半监督学习算法和无监督学习算法。相比其余两种学习算法，监督学习算法训练特定的输入和输出数据，直到可以判定输入和输出结果的基本关系。因此，监督学习算法在实际应用中表现效果更优，使用更加广泛，如图像识别、分类、分割和检测等。然而，监督学习算法受限于高质量的标注数据，如图像猫狗分类任务，需要大量的不同品种、大小、毛色等猫狗的图像，并需要分别正确严格标记对应分类，才能进行有效训练和识别。监督学习算法表现优异，但真实数据有隐私保密和稀少的特性，导致训练数据获取难度大，人工标记时间和成本高等缺陷。

针对监督学习算法严重依赖训练数据的问题，最简单直接的方式是人为观察数据特征，制定合成规则，合成类似的数据，缺陷是人为主观性较强，合成数据特征分布偏离真实数据特征分布。其次，卷积神经网络（CNN）可以提取图像特征，人们尝试采用CNN构造生成对抗网络（GAN），即分别构造生成器和判别器。GAN中生成器和判别器相互博弈，生成器合成图像，判别器判别合成图像和真实图像的真假，并将结果返回文本图像生成器进行优化，训练直至判别器无法正确区分合成图像合真实图像。GAN合成数据方式是无监督学习算法，降低了数据需求，但完全依赖网络学习特征，受限于CNN特征学习性能，合成图像会出现不可控的特征因素，如马和斑马的转换中，将骑在马背上的人也渲染了斑马的纹理，包括后续改进的pix2pix、CycleGan和条件生成对抗网络都存在类似问题。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种端到端的文本图像合成和识别的方法，该方法克服了人工合成图像造成的主观性强的缺陷，改善了前期的GAN合成图像中生成器图像特征提取能力较差的问题，能够有效生成文本图像识别的训练数据，解决无法大量获取需保密数据的问题，满足文本图像识别模型训练的数据需求。

本发明的另一目的在于提供一种端到端的文本图像合成和识别的系统，能够解决文本图像识别训练缺乏数据的问题。

本发明的目的通过以下的技术方案实现：

一种端到端的文本图像合成和识别的方法，适用于只能获取少量真实数据的图像识别应用场景，包括以下步骤：

以Transformer网络和VGG网络为基础网络，构造生成对抗网络，由此得到文本图像生成器；文本图像生成器利用Transformer网络的自注意力机制提高特征提取能力，合成逼真的数据；

然后，将文本图像生成器输出的合成图像输入以VGG网络构造的判别器分支，对真实数据和合成数据进行判别，同时输入以Transformer网络构造的识别器分支，识别真实数据；

最后，将判别结果和识别结果损失返回文本图像生成器，提高生成器训练，直至判别器无法判断数据真假和识别网络能准确识别真实图像，完成数据合成模型训练。

所述端到端的文本图像合成和识别的方法，采用生成对抗方式合成目标图像，文本图像生成器使用Transformer网络构造，Transformer网络合成图像过程中采用位置向量编码，将位置信息嵌入噪声序列，输入多头注意力机制中编码全局特征和局部特征，以获得具有位置信息的合成切片，并通过隐式神经表征层拼接切片，合成目标图像。

所述端到端的文本图像合成和识别的方法，采用了Transformer网络和CNN网络共同构造的方式来完成文本图像合成和识别：第一，文本图像合成直接采用以Transformer和VGG网络构造的生成对抗方式一步合成目标图像，通过多头注意力机制编码噪声和位置信息，获取位置编码特征切片，然后使用隐式神经表层拼接特征切片，有效合成逼真的目标图像；第二，文本图像识别全部采用Transformer网络构造，包括残差块、多头注意力机制和掩码多头注意力机制，采用多头注意力机制编码图像切片的特征和位置信息，注重切片中文本所在位置的特征信息；掩码多头注意力机制结合前面切片和后续切片的特征和位置信息，替代LSTM的复杂结构，实现序列化信息训练；第三，采用端到端的文本图像合成和识别方式，相互促进生成器、优化器和识别器的优化，降低训练损失，减少真实图像需求，提高模型的训练效果。

所述端到端的文本图像合成和识别的方法，还包括数据预处理步骤：

采用K折交叉验证方法划分数据集；训练前，将获取的少量真实数据集S划分为K份数据集：S₁,S₂,S₃…S_K-1,S_K，使用K-1份作为训练集，剩下的1份作为验证集；训练过程执行K轮训练，共获得K个模型的验证结果，并对K个验证结果取均值，作为算法整体性能验证。

所述文本图像生成器包括输入映射网络、Transformer网络的编码器模块、自调制型层范数和隐式神经表征层；其中，Transformer网络的编码器模块包括位置向量编码层、多头注意力层和输出映射层；高斯噪声Z经过输入映射网络进行线性投影,便于自调制型层范数将输出嵌入映射到Transformer模块的位置向量编码层输出的切片；然后，将带有位置编码信息的图像块输入多头注意力层和输出映射网络，则相应输出编码后的待拼接的切片序列；最后，采用隐式神经表征层学习输出切片到待拼接的切片的像素连续映射，当与傅立叶特征或正弦激活函数结合时，隐式表示将生成的样本空间约束到平滑变化的自然信号空间，则将向量保存为图像。

所述以VGG网络构造的判别器分支，由3x3卷积核构建的13个卷积层，2x2大小的最大池化层和3个全连接层构成，最后输出经过softmax函数进行分类，分类时自定义真实图像为1，合成图像为0；训练过程中，判别器分支接收合成图像和真实图像进行分类，获得判别损失，并将判别损失返回到生成器，直至判别器分支判别生成器合成图像为1。

所述以Transformer网络构造的识别器分支，包括12层的编码器和12层的解码器，编码器每一层由归一化和残差连接层、多头注意力机制和前馈神经网络构建，解码器每一层由掩码多头注意力机制、多头注意力机制、归一化和残差连接层和前馈神经网络构建；训练过程中，编码器对图像进行切片和序列编码，并将编码序列直接输入解码器进行序列解码。解码后通过贪婪搜索获取对应文本索引并搜索词表，输出识别文本。

所述判别器分支的损失如下：

；

为真实数据，为高斯噪声，为真实数据分布采样，为噪声数据采样，为判别器，为生成器；

识别器分支的文本对比损失如下:

；

为真实数据文本标签，为识别网络推理输出；

训练过程采用折交叉验证训练，生成对抗网络分支训练过程采用二进制交叉熵损失和生成对抗损失，识别网络分支采用交叉熵损失和文本对比损失，故总损失如下：

；

其中，为折交叉验证，即将同一数据集分成份，进行次训练和验证；为交叉熵损失，为二进制交叉熵损失；所述识别结果损失为交叉熵损失和文本对比损失之和；所述生成对抗损失为判别器分支的损失。

本发明的另一目的通过以下的技术方案实现：

一种端到端的文本图像合成和识别的系统，包括文本图像生成器、判别器分支、识别器分支；其中，文本图像生成器以Transformer网络和VGG网络为基础网络，构造生成对抗网络，由此得到；所述文本图像生成器利用Transformer网络的自注意力机制提高特征提取能力，合成逼真的数据；文本图像生成器输出的合成图像输入以VGG网络构造的判别器分支，对真实数据和合成数据进行判别，同时输入Transformer网络构造的识别器分支，识别真实数据；将判别结果和识别结果损失返回文本图像生成器，提高生成器训练，直至判别器无法判断数据真假和识别网络能准确识别真实图像，完成数据合成模型训练。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明采用Transformer网络构建生成器，有利于提高图像特征提取能力。同时，进行多任务网络训练，使用判别损失和识别损失同时优化生成器，能够合成质量较高、更接近真实数据的文本图像。

2、本发明训练过程采用交叉验证方式训练网络，循环利用能收集到的真实图像，提取到更多的图像特征信息，缓解训练过程真实图像过少的问题，增加合成图像的多样性。

3、本发明只需要少量真实的文本图像就能满足构造的模型的训练需求，降低数据收集成本，减少人工标注工作量。

4、本发明可以根据具体识别应用场景合成高质量的图像，解决真实场景中文本图像识别训练缺乏训练数据的问题。

附图说明

图1为图像和标签样式示意图。

图2为数据K折交叉验证划分过程示意图。

图3为端到端的文本图像合成和识别的系统的结构示意图。

图4为文本图像生成器的结构示意图。

图5为判别器分支的结构示意图。

图6为识别器分支的结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1-6，一种端到端的文本图像合成和识别的方法，其目的是以少量的真实数据训练健壮的数据合成网络，解决人工合成数据的主观性强的缺点，以及常用的基于CNN构造的生成对抗网络对图像的特征提取能力较差的问题。该方法以Transformer网络和VGG网络为基础网络，构造生成对抗网络，生成器利用Transformer网络的自注意力机制提高特征提取能力，合成逼真的数据。然后，将生成器输出分别输入以VGG网络构造的判别器分支，对真实数据和合成数据进行判别，以及Transformer网络构造的图像识别分支，识别真实数据。最后，将判别结果和识别结果损失返回生成器，提高生成器训练，直至判别器无法判断数据真假和识别网络能准确识别真实图像，完成数据合成模型训练。

一、数据预处理

本发明主要针对只能获取少量真实数据的图像识别应用场景，用于合成逼真的数据，解决无法训练图像识别网络的问题。本发明算法主要用于图像合成和识别，模型的输入是图像和标签，存放方式和标签写入方式如图1所示。深度学习依赖大量的数据学习，但本发明因保密性或隐私性无法获取大量数据，故采用K折交叉验证方法划分数据集。训练前，将获取的少量真实数据集S划分为K份数据集（S₁,S₂,S₃…S_K-1,S_K），使用K-1份作为训练集，剩下的1份作为验证集。训练过程执行K轮训练，共获得K个模型的验证结果，并对K个验证结果取均值，作为本发明算法的整体性能验证。数据集具体划分过程如图2所示。

二、算法

本发明设计了端到端的文本图像合成和识别的多任务算法，以Transformer网络构造生成器，合成图像分别输入判别器分支和识别分支，返回判别损失和识别损失到生成器进行训练，直至判别器无法判别图像真假和识别器可以准确识别真实图像，则获得较好的图像合成模型。端到端的文本图像合成和识别的多任务系统结构如图3所示。

1、生成器结构

生成对抗网络中生成器一般以CNN网络构建，但CNN擅于提取局部特征，缺乏局部特征和特征间的联系，Transformer中使用多头注意力机制，可以提取全局中突出的特征信息，同时将局部特征与其他任一局部特征相关联，兼顾局部和全局特征，保证网络训练过程中可以提取更多的图像特征信息和特征间的联系。如图4所示，生成器主要由输入映射网络、Transformer网络的编码器模块、自调制型层范数和隐式神经表征层构成。Transformer模块主要由位置向量编码层、多头注意力层和输出映射层构成。为了生成图像像素值，向生成器输入高斯噪声Z，经过输入映射网络进行线性投影,便于自调制型层范数将输出嵌入映射到Transformer模块位置向量编码层输出的切片。然后，将带有位置编码信息的图像块输入多头注意力机制和映射输出网络，则相应输出编码后的待拼接的切片序列。最后，采用隐式神经表征层学习输出切片到待拼接的切片的像素连续映射，当与傅立叶特征或正弦激活函数结合时，隐式表示可以将生成的样本空间约束到平滑变化的自然信号空间，则可以将向量保存为图像。

2、分支结构

本发明生成器后紧接两个分支，分别是判别器分支和识别器分支。判别器分支主要用于判别真假图像，与生成器分支构成博弈网络，判别损失有利于优化生成器合成图像效果。Transformer网络可以获取更多的图像特征信息，但是生成器和判别器均采用Transformer网络搭建，训练过程会变得非常不稳定，并且对抗训练常常会在判别器训练的后期受到高方差梯度（或尖峰梯度）的阻碍。CNN网络经过梯度惩罚、归一化等正则化方法处理后，训练过程基本稳定。本发明中判别分支主要是分类真假图像，基于CNN构建的VGG网络分类效果较好，故采用VGG构建判别分支，避免模型训练过程波动过大，如图5所示。判别分支由3x3卷积核构建的13个卷积层，2x2大小的最大池化层和3层全连接构成，最后输出经过softmax函数进行分类。本发明自定义真实图像为1，合成图像为0。训练过程中，判别器分支接收合成图像和真实图像进行分类，获得判别损失，并将判别损失返回到生成器，直至判别器判别生成器合成图像为1。

鉴于Transformer网络特征提取能力强和训练效率高等优势，本发明的识别分支采用标准的Transformer结构以及自注意力机制，如图6所示。识别分支的Transformer结构包含12层的编码器和12层的解码器，编码器每一层由归一化和残差连接层、多头注意力机制和前馈神经网络构建，解码器每一层由掩码多头注意力机制、多头注意力机制、归一化和残差连接层和前馈神经网络构建。训练过程中，编码器对图像进行切片和序列编码，并将编码序列直接输入解码器进行序列解码。解码后通过贪婪搜索获取对应文本索引并搜索词表，输出识别文本。本发明的识别分支主要是通过生成器合成图像和真实图像训练，采用真实图像作为验证集，计算模型输出和真实图像标签的准确率和损失，以进一步优化生成器训练。

3、损失函数

本发明设计的端到端的文本图像合成和识别的多任务算法及系统共有两条支线，分别为生成器和判别器形成的生成对抗网络分支，生成器和识别器形成的识别网络分支。训练过程中两条分支相互促进训练，通过判别器损失和识别损失反复优化生成器，不断提高生成器合成图像质量。其中，所述判别器分支的损失如下：

；

识别器分支的文本对比损失如下:

；

为真实数据文本标签，为识别网络推理输出；

；

其中，为折交叉验证，即将同一数据集分成份，进行次训练和验证；为交叉熵损失，为二进制交叉熵损失。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种端到端的文本图像合成和识别的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述端到端的文本图像合成和识别的方法，其特征在于，采用生成对抗方式合成目标图像，文本图像生成器使用Transformer网络构造，Transformer网络合成图像过程中采用位置向量编码，将位置信息嵌入噪声序列，输入多头注意力机制中编码全局特征和局部特征，以获得具有位置信息的合成切片，并通过隐式神经表征层拼接切片，合成目标图像。

3.根据权利要求1所述端到端的文本图像合成和识别的方法，其特征在于，采用了Transformer网络和CNN网络共同构造的方式来完成文本图像合成和识别：第一，文本图像合成直接采用以Transformer和VGG网络构造的生成对抗方式一步合成目标图像，通过多头注意力机制编码噪声和位置信息，获取位置编码特征切片，然后使用隐式神经表层拼接特征切片，有效合成逼真的目标图像；第二，文本图像识别全部采用Transformer网络构造，包括残差块、多头注意力机制和掩码多头注意力机制，采用多头注意力机制编码图像切片的特征和位置信息，注重切片中文本所在位置的特征信息；掩码多头注意力机制结合前面切片和后续切片的特征和位置信息，替代LSTM的复杂结构，实现序列化信息训练；第三，采用端到端的文本图像合成和识别方式，相互促进生成器、优化器和识别器的优化，降低训练损失，减少真实图像需求，提高模型的训练效果。

4.根据权利要求1所述端到端的文本图像合成和识别的方法，其特征在于，还包括数据预处理步骤：

采用K折交叉验证方法划分数据集；训练前，将获取的真实数据集S划分为K份数据集：S₁,S₂,S₃…S_K-1,S_K，使用K-1份作为训练集，剩下的1份作为验证集；训练过程执行K轮训练，共获得K个模型的验证结果，并对K个验证结果取均值，作为算法整体性能验证。

5.根据权利要求1所述端到端的文本图像合成和识别的方法，其特征在于，所述文本图像生成器包括输入映射网络、Transformer网络的编码器模块、自调制型层范数和隐式神经表征层；其中，Transformer网络的编码器模块包括位置向量编码层、多头注意力层和输出映射层；高斯噪声Z经过输入映射网络进行线性投影,便于自调制型层范数将输出嵌入映射到Transformer模块的位置向量编码层输出的切片；然后，将带有位置编码信息的图像块输入多头注意力层和输出映射网络，则相应输出编码后的待拼接的切片序列；最后，采用隐式神经表征层学习输出切片到待拼接的切片的像素连续映射，当与傅立叶特征或正弦激活函数结合时，隐式表示将生成的样本空间约束到平滑变化的自然信号空间，则将向量保存为图像。

6.根据权利要求1所述端到端的文本图像合成和识别的方法，其特征在于，所述以VGG网络构造的判别器分支，由3x3卷积核构建的13个卷积层，2x2大小的最大池化层和3个全连接层构成，最后输出经过softmax函数进行分类，分类时自定义真实图像为1，合成图像为0；训练过程中，判别器分支接收合成图像和真实图像进行分类，获得判别损失，并将判别损失返回到生成器，直至判别器分支判别生成器合成图像为1。

7.根据权利要求1所述端到端的文本图像合成和识别的方法，其特征在于，所述以Transformer网络构造的识别器分支，包括12层的编码器和12层的解码器，编码器每一层由归一化和残差连接层、多头注意力机制和前馈神经网络构建，解码器每一层由掩码多头注意力机制、多头注意力机制、归一化和残差连接层和前馈神经网络构建；训练过程中，编码器对图像进行切片和序列编码，并将编码序列直接输入解码器进行序列解码；解码后通过贪婪搜索获取对应文本索引并搜索词表，输出识别文本。

8.根据权利要求1所述端到端的文本图像合成和识别的方法，其特征在于，所述判别器分支的损失如下：

；

识别器分支的文本对比损失如下:

；

为真实数据文本标签，为识别网络推理输出；

；

9.一种端到端的文本图像合成和识别的系统，其特征在于：包括文本图像生成器、判别器分支、识别器分支；其中，文本图像生成器以Transformer网络和VGG网络为基础网络，构造生成对抗网络，由此得到；所述文本图像生成器利用Transformer网络的自注意力机制提高特征提取能力，合成逼真的数据；文本图像生成器输出的合成图像输入以VGG网络构造的判别器分支，对真实数据和合成数据进行判别，同时输入Transformer网络构造的识别器分支，识别真实数据；将判别结果和识别结果损失返回文本图像生成器，提高生成器训练，直至判别器无法判断数据真假和识别网络能准确识别真实图像，完成数据合成模型训练。