CN115273100A

CN115273100A - 一种基于语义引导鉴别器的半监督汉字图像生成方法

Info

Publication number: CN115273100A
Application number: CN202210970759.7A
Authority: CN
Inventors: 吴斯; 霍晓阳; 李芃
Original assignee: Guangdong Zhile Technology Co ltd
Current assignee: Guangdong Zhile Technology Co ltd
Priority date: 2022-08-13
Filing date: 2022-08-13
Publication date: 2022-11-01

Abstract

本发明公开一种基于语义引导鉴别器的半监督汉字图像生成方法，在半监督场景下，从训练集中选取少量有标签的文字图像，其余作为无标签的文字数据，利用辅助分类器为无标签文字提供多重语义信息。分类器特征中隐含着语义信息，在鉴别器中引入文字图像的分类器特征。在鉴别器上采用双头结构：一个头接收类别标签，一个头采用特征融合模块融合鉴别器特征和分类器特征，使分类器特征作为鉴别真假的条件。最终生成器、鉴别器、分类器三者联合完成训练。本发明针对无标签真实文字图像，利用分类器预测的伪标签和分类器特征，提供丰富的语义信息，提升鉴别器在类别条件下区分真假样本的能力，使生成器生成更符合真实类条件分布且真实度和多样性高的文字。

Description

一种基于语义引导鉴别器的半监督汉字图像生成方法

技术领域

本发明涉及文字生成的技术领域，尤其是指一种基于生成对抗神经网络的半监督类条件汉字图像生成方法。

背景技术

近年来，生成式对抗神经网络在生成具备多样性且高保真度的图像方面表现出了优异的性能。为了控制类条件图像的生成，许多工作都致力于类条件图像的生成，它通过生成与特定类别相关但具有足够多样性的实例来为下游任务服务。

当数据量足够时，类条件文字图像生成的效果比较理想。然而在实际应用中条件生成对抗神经网络的训练会受到一些限制。现实中大多数数据都是没有标签的，对每个图像进行标记需要消耗大量的人力物力财力，是一项艰巨的任务。如果忽略大量的未标记数据只利用少量的标记数据往往会导致生成的文字图像的多样性降低且语义不够准确，因此可以利用半监督技术来提高文字生成质量。已有的半监督图像生成方法大都是在生成对抗神经网络的基础上引入分类器来对未标记数据进行分类并为其分配伪标签，使得未标注数据能够像标注数据一样被使用。但是在本发明中，考虑到分类器特征中隐含着比类别信息更加丰富的语义信息，因此在鉴别器中引入文字数据的分类器特征使其加入到生成对抗训练过程中，从而提高真实数据和生成数据的类条件分布对齐，生成样式更加丰富的文字图像服务于文字检测、文字识别等下游任务。

具体来讲，本发明中采用了一种双头结构来增强鉴别器的能力：一个头接收类级别的语义信息，另一个头融合了鉴别器和分类器的特征。考虑到鉴别器和分类器在训练目标上的差异，且分类器特征中包含比类别标签更加丰富的实例级语义信息，本发明中采用特征融合模块引入分类器特征并将其与鉴别器特征进行融合作为对抗训练的条件。

发明内容

本发明的目的是在仅有少量标注文字数据的情境下利用未标注文字数据来提高生成文字图像的保真度和多样性，使得生成的文字更加符合相应的类别语义。本发明提供了一种基于生成对抗神经网络的半监督类条件汉字图像生成方法，结合少量的标注数据和大量的未标注数据训练一个用于类条件汉字生成的生成器，生成更加真实且更具备多样性的文字数据来为下游任务服务。

为了实现上述目的，本发明提供的技术方案为：一种基于语义引导鉴别器的半监督文字生成方法，包括以下步骤：

S1、准备一个数据集，其中只有一小部分训练数据有标注。将标注数据和其对应的标签集合记为L＝{(x^l,y^l)}，未标注数据集合记为：U＝{x^u}。

S2、准备一个由神经网络实现的生成器G:P^k×Y→R^h×w，生成器通过一个k维的随机向量z和一个随机类别标签y来生成分辨率为h×w的高保真文字图像x^z，随机类别标签是从文字数据集的标注空间Y中随机采样得到的。

S3、将S2中生成的文字和数据集中的有类别标签的文字作为标注数据，将数据集中的未标注文字作为未标注数据。利用这些数据训练一个由神经网络实现的分类器C，利用分类器C对未标注数据进行分类，预测未标注数据的标签，同时得到数据的分类器特征。

S4、将S2中生成的数据作为虚假数据，数据集中的标注数据和未标注数据作为真实数据，训练一个由神经网络实现的用于区分真实数据和虚假数据的鉴别器D:P^h×w×Y×P^M→[0,1]。鉴别器以类别标签y和分类器特征f_C(·)∈P^M为条件，其中M表示特征图的维度。

S5、通过生成器G、分类器C和鉴别器D三者之间的对抗来约束神经网络的学习，当三者的对抗学习达到平衡时，生成器便能够生成符合真实类别条件分布且样式更加丰富的文字图像。

进一步，在步骤S1中，由于未标注数据没有类别标签，所以需要一个分类器C来为其预测其伪标签。用于训练生成对抗神经网络的数据集形式为文字图像加类别标签。

进一步，在步骤S2中，生成器需要以类别标签为条件，通过随机向量生成文字图像。生成的文字用下述公式来表示：

x^z＝G(z,y^z)

其中y^z∈Y代表一个随机的类别标签，z代表一个随机向量，z通常从一个易于采样的分布中提取，如预定义的高斯分布

进一步，在步骤S3中，选用ResNet50作为分类器C的网络结构。为使得分类器C更加准确地预测未标注数据的类别，使用真实数据和生成数据来训练分类器神经网络。训练数据包括：标注数据-标签对(x^l,y^l)，未标注数据x^u，以及生成数据-标签对(x^z,y^z)，相应的损失函数为：

其中，C是分类器，

代表期望，L_CE(·,·)是交叉熵损失函数，其定义为：

L_CE(x,y)＝-ylogC(x)

进一步，在步骤S4中，为了与生成器进行对抗以提高生成图像的真实度，需要训练一个由多层卷积神经网络组成的鉴别器，鉴别器的目的是在类别标签条件下尽可能区分出真实文字与生成的文字。为了充分利用S3中分类器特征包含的实例级语义信息，本发明中为鉴别器采用了一种双头结构D＝{F,T₁,T₂}，其中F是一个特征提取网络，T₁中包含一个可学习的神经网络层用于学习类别标签的映射；T₂中包含一个特征融合模块用于将分类器C和特征提取网络F学习的特征结合起来。T₁和T₂将共同作用以帮助G捕获精确的与每类文字相对应的类别语义信息，同时由于T₂中融合了图像的分类器特征，分类器中编码的特征相比类别标签来说更加丰富，因此能够通过该操作将更加精细多样的语义信息编码到鉴别器中。为简单起见，本发明中用x来表示一个有标签或无标签文字图像样本，并将其相应的标签定义为：

T₁以类别标签y为条件来区分真实数据和生成数据。T₁根据生成文字的特征表示分布是否与相应类别的真实文字的特征分布一致来鉴别真假数据，其表达式为：

其中Embed(·)表示一个可学习类别标签映射的函数，

是一个映射函数，

表示最后一个线性表示层的权重。在上述公式中，T₁(·,·)表示鉴别器网络将输入数据鉴别为真实数据的概率。T₁上的损失函数用如下公式来表示：

考虑到与类别标签相比，分类器特征f_C编码的语义特征更加丰富，本发明中将分类器特征作为一种实例级别的先验知识将其添加到鉴别器中。为了使得鉴别器更关注于类别语义信息，同时能够更好得利用实例级语义信息，在特征提取器特征f_F和分类器特征f_C之间实施基于通道注意力的特征融合，具体方法为：采用神经网络分别计算像素级权重Q_loc和全局权重和Q_glob，然后按照以下方式对两种类型的权重进行融合：

其中

表示广播相加运算。通过引入注意力权重Q，T₂通过接收融合后的特征来获取实例级信息，具体方式如下：

其中

表示逐元素相乘。在这种条件下，特征提取器F需要去学习与分类器特征f_C互补的特征。T₂同样需要鉴别真实数据与生成数据，但它不需要类别标签，由于包含了分类器特征f_C，

能够加强鉴别器特征空间的类别分离度并促进类条件分布对齐。T₂上的优化公式如下：

进一步地，在S5中为了使得生成的文字能够包含准确的类别语义且保持较高的真实度和多样性，需要联合训练生成器、鉴别器和分类器。鉴别器与生成器进行对抗，分类器与生成器协同工作并引导生成器来捕获精确的类语义信息。因此对抗训练过程中生成器和鉴别器上的损失函数定义如下：

其中加权因子α和β来平衡附加的T₂与语义评估项的影响。

本发明与现有技术相比，具有以下优势：

1、本发明结合了分类器、生成器、鉴别器三种神经网络，通过三者之间的对抗联合训练，最终提升了生成器生成的文字图像的真实度、多样性和类别匹配程度，使得生成的文字图像更好地服务于文字检测、文字识别等下游任务；

2、本发明中提出了一种可编码不同层次语义的神经网络作为鉴别器，并采用了较为紧凑的双头结构。该鉴别器更适用于半监督生成学习任务，利用分类器的实例级语义信息，在特征融合模块的作用下来提高鉴别器特征空间中的类别可分性，从而有利于真假数据的类别条件分布对齐；

3、本发明中引入的标签独立的鉴别器头部，能够更好地利用未标注数据。由于判别器中编码了更加丰富的语义信息，能够指导生成器合成样式更加丰富的文字图像。此外，这种方式不需要分类器为未标注数据分配伪标注，从而减少了分类器错误累积问题。

4、本发明将分类器与鉴别器进行有效地结合，充分利用分类器特征中包含的丰富语义信息来促进鉴别器特征空间中的类条件分布对齐，弥补了半监督生成学习任务中生成的文字语义不准确的问题，同时提高了生成文明文字的多样性和保真度，为半监督类条件文字生成任务提供了较好的解决方案。

附图说明

图1为本发明方法的流程框图。

图2为本发明方法中文字生成以及分类部分的结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例所提供的基于语义引导鉴别器的半监督类条件汉字生成方法，以生成模型在手写汉字数据集CASIA Online and Offline Chinese HandwritingDatabases 1.0(简称为CASIA-HWDB1.0)上的实现为例，包括以下步骤：

S1、CASIA-HWDB1.0数据集中总共有1680258张以灰度图像形式保存的文字。文字可分为4037个类别，其中包含3866个中文字符和171个英文字母字母和符号，整个数据集由420位写作家手写完成。训练前，在每个类别的数据中随机抽取50张灰度文字图像并提供相应的类别标签作为标注数据，其余的文字全部用作未标注数据来构造半监督文字数据集。

S2、训练一个由神经网络实现的生成器G:P^k×Y→R^h×w，生成器通过一个k维的随机向量z和一个随机类别标签y来生成分辨率为h×w的高保真文字图像x^z，随机类别标签是从文字数据集的标注空间Y中随机采样得到的。

S4、将S2中生成的数据作为虚假数据，数据集中的标注数据和未标注数据作为真实数据，训练一个由神经网络实现的区分真实数据和虚假数据的鉴别器D:P^h×w×Y×P^M→[0,1]。鉴别器以类别标签y和分类器特征f_C(·)∈P^M为条件，其中M表示特征图的维度。

S5、通过生成器G、分类器C和鉴别器D三者之间的对抗来约束神经网络的学习，当三者的对抗学习达到平衡时，生成器便能够生成符合真实类别条件分布且真实度高的文字。

x^z＝G(z,y^z)

其中y^z∈Y代表一个随机的类别标签，z代表一个随机向量，z从一个易于采样的分布中提取，本文采用均值为0方差为1的标准高斯分布

其中，C是分类器，

代表期望，L_CE(·,·)是交叉熵损失函数，其定义为：

L_CE(x,y)＝-ylogC(x)

其中Embed(·)表示一个可学习类别标签映射的函数，

是一个映射函数，

表示最后一个线性表示层的权重，

表示矩阵运算操作。在上述公式中，T₁(·,·)表示鉴别器网络将输入数据鉴别为真实数据的概率。T₁上的损失函数用如下公式来表示：

考虑到与类别标签相比，分类器特征f_C编码的语义特征更多，本发明中将分类器特征作为一种实例级别的先验知识将其添加到鉴别器中。为了使得鉴别器更关注于类别语义信息，同时能够更好得利用实例级语义信息，在特征提取器特征f_F和分类器特征f_C之间实施基于通道注意力的特征融合，具体方法为：采用神经网络分别计算像素级权重Q_loc和全局权重和Q_glob，然后按照以下方式对两种类型的权重进行融合：

其中

其中

其中加权因子α和β来平衡附加的T₂与语义评估项的影响。

训练完成后，在CASIA-HWDB1.0数据集上对本方法的性能进行量化评估，评估指标包括Inception Score(IS)、Fr′echet Inception Distance(FID)和RecognitionAccuracy(RA％)，FID代表生成图像与真实图像在特征层面分布的相似度，其值越低表示生成图像越真实；IS代表了生成图像的整体分布，其值越高表示生成的图像越真实，多样性越好。RA表示生成图像能够被分类器正确分类的概率，其值越高表示生成图像中语义精确度越高。经过评估，本发明在三个评估标准上的效果均显著高于基准方法，值得推广。

以上所述实施例只为本发明之较佳实施例，但并不以此限制本发明方法的施用范围。故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于语义引导鉴别器的半监督汉字图像生成方法，其特征在于，包括以下步骤：

S1、准备一个数据集，其中只有一小部分训练数据有标注，将标注数据和其对应的标签集合记为L＝{(x^l,y^l)}，未标注数据集合记为：U＝{x^u}；

S2、准备一个由神经网络实现的生成器G:P^k×Y→R^h×w，生成器通过一个k维的随机向量z和一个随机类别标签y来生成分辨率为h×w的高保真文字图像x^z，随机类别标签是从文字数据集的标注空间Y中随机采样得到的；

S3、将S2中生成的文字和数据集中的有类别标签的文字作为标注数据，将数据集中的未标注文字作为未标注数据，利用这些数据训练一个由神经网络实现的分类器C，利用分类器C对未标注数据进行分类，预测未标注数据的标签，同时得到数据的分类器特征；

S4、将S2中生成的数据作为虚假数据，数据集中的标注数据和未标注数据作为真实数据，训练一个由神经网络实现的用于区分真实数据和虚假数据的鉴别器D:P^h×w×Y×P^M→[0,1]，鉴别器以类别标签y和分类器特征f_C(·)∈P^M为条件，其中M表示特征图的维度；

S5、通过生成器G、分类器C和鉴别器D三者之间的对抗来约束神经网络的学习，当三者的对抗学习达到平衡时，生成器便能够成符合真实类别条件分布且真实度高的文字。

2.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法，其特征在于：在步骤S1中，由于未标注数据没有类别标签，所以需要一个分类器C来为其预测其伪标签，用于训练生成对抗神经网络的数据集形式为文字图像加类别标签。

3.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法，其特征在于：在步骤S2中，生成器需要以类别标签为条件，通过随机向量生成文字图像，生成的文字用下述公式来表示：

x^z＝G(z,y^z)

4.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法，其特征在于：在步骤S3中，选用ResNet50作为分类器C的网络结构，为使得分类器C更加准确地预测未标注数据的类别，使用真实数据和生成数据来训练分类器神经网络，训练数据包括：标注数据-标签对(x^l,y^l)，未标注数据x^u，以及生成数据-标签对(x^z,y^z)，相应的损失函数为：

其中，C是分类器，

代表期望，L_CE(·,·)是交叉熵损失函数，其定义为：

L_CE(x,y)＝-y log C(x) 。

5.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法，其特征在于：在步骤S4中，为了与生成器进行对抗以提高生成文字图像的真实度，需要训练一个由多层卷积神经网络组成的鉴别器，鉴别器的目的是在类别标签条件下尽可能区分出真实文字与生成的文字；为了充分利用S3中分类器特征包含的实例级语义信息，本发明中为鉴别器采用了一种双头结构D＝{F,T₁,T₂}，其中F是一个特征提取网络，T₁中包含一个可学习的神经网络层用于学习类别标签的映射；T₂中包含一个特征融合模块用于将分类器C和特征提取网络F学习的特征结合起来，同时由于T₂中融合了图像的分类器特征，该操作将更加精细多样的语义信息编码到鉴别器中，T₁和T₂将共同作用以帮助G捕获精确的与每类文字相对应的类别语义信息；本发明中用x来表示一个有标签或无标签文字图像样本，并将其相应的标签定义为：