CN115273100A - 一种基于语义引导鉴别器的半监督汉字图像生成方法 - Google Patents

一种基于语义引导鉴别器的半监督汉字图像生成方法 Download PDF

Info

Publication number
CN115273100A
CN115273100A CN202210970759.7A CN202210970759A CN115273100A CN 115273100 A CN115273100 A CN 115273100A CN 202210970759 A CN202210970759 A CN 202210970759A CN 115273100 A CN115273100 A CN 115273100A
Authority
CN
China
Prior art keywords
data
classifier
discriminator
label
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210970759.7A
Other languages
English (en)
Inventor
吴斯
霍晓阳
李芃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Zhile Technology Co ltd
Original Assignee
Guangdong Zhile Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Zhile Technology Co ltd filed Critical Guangdong Zhile Technology Co ltd
Priority to CN202210970759.7A priority Critical patent/CN115273100A/zh
Publication of CN115273100A publication Critical patent/CN115273100A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/203Drawing of straight lines or curves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开一种基于语义引导鉴别器的半监督汉字图像生成方法,在半监督场景下,从训练集中选取少量有标签的文字图像,其余作为无标签的文字数据,利用辅助分类器为无标签文字提供多重语义信息。分类器特征中隐含着语义信息,在鉴别器中引入文字图像的分类器特征。在鉴别器上采用双头结构:一个头接收类别标签,一个头采用特征融合模块融合鉴别器特征和分类器特征,使分类器特征作为鉴别真假的条件。最终生成器、鉴别器、分类器三者联合完成训练。本发明针对无标签真实文字图像,利用分类器预测的伪标签和分类器特征,提供丰富的语义信息,提升鉴别器在类别条件下区分真假样本的能力,使生成器生成更符合真实类条件分布且真实度和多样性高的文字。

Description

一种基于语义引导鉴别器的半监督汉字图像生成方法
技术领域
本发明涉及文字生成的技术领域,尤其是指一种基于生成对抗神经网络的半监督类条件汉字图像生成方法。
背景技术
近年来,生成式对抗神经网络在生成具备多样性且高保真度的图像方面表现出了优异的性能。为了控制类条件图像的生成,许多工作都致力于类条件图像的生成,它通过生成与特定类别相关但具有足够多样性的实例来为下游任务服务。
当数据量足够时,类条件文字图像生成的效果比较理想。然而在实际应用中条件生成对抗神经网络的训练会受到一些限制。现实中大多数数据都是没有标签的,对每个图像进行标记需要消耗大量的人力物力财力,是一项艰巨的任务。如果忽略大量的未标记数据只利用少量的标记数据往往会导致生成的文字图像的多样性降低且语义不够准确,因此可以利用半监督技术来提高文字生成质量。已有的半监督图像生成方法大都是在生成对抗神经网络的基础上引入分类器来对未标记数据进行分类并为其分配伪标签,使得未标注数据能够像标注数据一样被使用。但是在本发明中,考虑到分类器特征中隐含着比类别信息更加丰富的语义信息,因此在鉴别器中引入文字数据的分类器特征使其加入到生成对抗训练过程中,从而提高真实数据和生成数据的类条件分布对齐,生成样式更加丰富的文字图像服务于文字检测、文字识别等下游任务。
具体来讲,本发明中采用了一种双头结构来增强鉴别器的能力:一个头接收类级别的语义信息,另一个头融合了鉴别器和分类器的特征。考虑到鉴别器和分类器在训练目标上的差异,且分类器特征中包含比类别标签更加丰富的实例级语义信息,本发明中采用特征融合模块引入分类器特征并将其与鉴别器特征进行融合作为对抗训练的条件。
发明内容
本发明的目的是在仅有少量标注文字数据的情境下利用未标注文字数据来提高生成文字图像的保真度和多样性,使得生成的文字更加符合相应的类别语义。本发明提供了一种基于生成对抗神经网络的半监督类条件汉字图像生成方法,结合少量的标注数据和大量的未标注数据训练一个用于类条件汉字生成的生成器,生成更加真实且更具备多样性的文字数据来为下游任务服务。
为了实现上述目的,本发明提供的技术方案为:一种基于语义引导鉴别器的半监督文字生成方法,包括以下步骤:
S1、准备一个数据集,其中只有一小部分训练数据有标注。将标注数据和其对应的标签集合记为L={(xl,yl)},未标注数据集合记为:U={xu}。
S2、准备一个由神经网络实现的生成器G:Pk×Y→Rh×w,生成器通过一个k维的随机向量z和一个随机类别标签y来生成分辨率为h×w的高保真文字图像xz,随机类别标签是从文字数据集的标注空间Y中随机采样得到的。
S3、将S2中生成的文字和数据集中的有类别标签的文字作为标注数据,将数据集中的未标注文字作为未标注数据。利用这些数据训练一个由神经网络实现的分类器C,利用分类器C对未标注数据进行分类,预测未标注数据的标签,同时得到数据的分类器特征。
S4、将S2中生成的数据作为虚假数据,数据集中的标注数据和未标注数据作为真实数据,训练一个由神经网络实现的用于区分真实数据和虚假数据的鉴别器D:Ph×w×Y×PM→[0,1]。鉴别器以类别标签y和分类器特征fC(·)∈PM为条件,其中M表示特征图的维度。
S5、通过生成器G、分类器C和鉴别器D三者之间的对抗来约束神经网络的学习,当三者的对抗学习达到平衡时,生成器便能够生成符合真实类别条件分布且样式更加丰富的文字图像。
进一步,在步骤S1中,由于未标注数据没有类别标签,所以需要一个分类器C来为其预测其伪标签。用于训练生成对抗神经网络的数据集形式为文字图像加类别标签。
进一步,在步骤S2中,生成器需要以类别标签为条件,通过随机向量生成文字图像。生成的文字用下述公式来表示:
xz=G(z,yz)
其中yz∈Y代表一个随机的类别标签,z代表一个随机向量,z通常从一个易于采样的分布中提取,如预定义的高斯分布
Figure BDA0003796601480000031
进一步,在步骤S3中,选用ResNet50作为分类器C的网络结构。为使得分类器C更加准确地预测未标注数据的类别,使用真实数据和生成数据来训练分类器神经网络。训练数据包括:标注数据-标签对(xl,yl),未标注数据xu,以及生成数据-标签对(xz,yz),相应的损失函数为:
Figure BDA0003796601480000032
其中,C是分类器,
Figure BDA0003796601480000033
代表期望,LCE(·,·)是交叉熵损失函数,其定义为:
LCE(x,y)=-ylogC(x)
进一步,在步骤S4中,为了与生成器进行对抗以提高生成图像的真实度,需要训练一个由多层卷积神经网络组成的鉴别器,鉴别器的目的是在类别标签条件下尽可能区分出真实文字与生成的文字。为了充分利用S3中分类器特征包含的实例级语义信息,本发明中为鉴别器采用了一种双头结构D={F,T1,T2},其中F是一个特征提取网络,T1中包含一个可学习的神经网络层用于学习类别标签的映射;T2中包含一个特征融合模块用于将分类器C和特征提取网络F学习的特征结合起来。T1和T2将共同作用以帮助G捕获精确的与每类文字相对应的类别语义信息,同时由于T2中融合了图像的分类器特征,分类器中编码的特征相比类别标签来说更加丰富,因此能够通过该操作将更加精细多样的语义信息编码到鉴别器中。为简单起见,本发明中用x来表示一个有标签或无标签文字图像样本,并将其相应的标签定义为:
Figure BDA0003796601480000041
T1以类别标签y为条件来区分真实数据和生成数据。T1根据生成文字的特征表示分布是否与相应类别的真实文字的特征分布一致来鉴别真假数据,其表达式为:
Figure BDA0003796601480000042
其中Embed(·)表示一个可学习类别标签映射的函数,
Figure BDA0003796601480000043
是一个映射函数,
Figure BDA0003796601480000044
表示最后一个线性表示层的权重。在上述公式中,T1(·,·)表示鉴别器网络将输入数据鉴别为真实数据的概率。T1上的损失函数用如下公式来表示:
Figure BDA0003796601480000045
考虑到与类别标签相比,分类器特征fC编码的语义特征更加丰富,本发明中将分类器特征作为一种实例级别的先验知识将其添加到鉴别器中。为了使得鉴别器更关注于类别语义信息,同时能够更好得利用实例级语义信息,在特征提取器特征fF和分类器特征fC之间实施基于通道注意力的特征融合,具体方法为:采用神经网络分别计算像素级权重Qloc和全局权重和Qglob,然后按照以下方式对两种类型的权重进行融合:
Figure BDA0003796601480000046
其中
Figure BDA0003796601480000047
表示广播相加运算。通过引入注意力权重Q,T2通过接收融合后的特征来获取实例级信息,具体方式如下:
Figure BDA0003796601480000051
其中
Figure BDA0003796601480000052
表示逐元素相乘。在这种条件下,特征提取器F需要去学习与分类器特征fC互补的特征。T2同样需要鉴别真实数据与生成数据,但它不需要类别标签,由于包含了分类器特征fC
Figure BDA0003796601480000053
能够加强鉴别器特征空间的类别分离度并促进类条件分布对齐。T2上的优化公式如下:
Figure BDA0003796601480000054
进一步地,在S5中为了使得生成的文字能够包含准确的类别语义且保持较高的真实度和多样性,需要联合训练生成器、鉴别器和分类器。鉴别器与生成器进行对抗,分类器与生成器协同工作并引导生成器来捕获精确的类语义信息。因此对抗训练过程中生成器和鉴别器上的损失函数定义如下:
Figure BDA0003796601480000055
其中加权因子α和β来平衡附加的T2与语义评估项的影响。
本发明与现有技术相比,具有以下优势:
1、本发明结合了分类器、生成器、鉴别器三种神经网络,通过三者之间的对抗联合训练,最终提升了生成器生成的文字图像的真实度、多样性和类别匹配程度,使得生成的文字图像更好地服务于文字检测、文字识别等下游任务;
2、本发明中提出了一种可编码不同层次语义的神经网络作为鉴别器,并采用了较为紧凑的双头结构。该鉴别器更适用于半监督生成学习任务,利用分类器的实例级语义信息,在特征融合模块的作用下来提高鉴别器特征空间中的类别可分性,从而有利于真假数据的类别条件分布对齐;
3、本发明中引入的标签独立的鉴别器头部,能够更好地利用未标注数据。由于判别器中编码了更加丰富的语义信息,能够指导生成器合成样式更加丰富的文字图像。此外,这种方式不需要分类器为未标注数据分配伪标注,从而减少了分类器错误累积问题。
4、本发明将分类器与鉴别器进行有效地结合,充分利用分类器特征中包含的丰富语义信息来促进鉴别器特征空间中的类条件分布对齐,弥补了半监督生成学习任务中生成的文字语义不准确的问题,同时提高了生成文明文字的多样性和保真度,为半监督类条件文字生成任务提供了较好的解决方案。
附图说明
图1为本发明方法的流程框图。
图2为本发明方法中文字生成以及分类部分的结构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例所提供的基于语义引导鉴别器的半监督类条件汉字生成方法,以生成模型在手写汉字数据集CASIA Online and Offline Chinese HandwritingDatabases 1.0(简称为CASIA-HWDB1.0)上的实现为例,包括以下步骤:
S1、CASIA-HWDB1.0数据集中总共有1680258张以灰度图像形式保存的文字。文字可分为4037个类别,其中包含3866个中文字符和171个英文字母字母和符号,整个数据集由420位写作家手写完成。训练前,在每个类别的数据中随机抽取50张灰度文字图像并提供相应的类别标签作为标注数据,其余的文字全部用作未标注数据来构造半监督文字数据集。
S2、训练一个由神经网络实现的生成器G:Pk×Y→Rh×w,生成器通过一个k维的随机向量z和一个随机类别标签y来生成分辨率为h×w的高保真文字图像xz,随机类别标签是从文字数据集的标注空间Y中随机采样得到的。
S3、将S2中生成的文字和数据集中的有类别标签的文字作为标注数据,将数据集中的未标注文字作为未标注数据。利用这些数据训练一个由神经网络实现的分类器C,利用分类器C对未标注数据进行分类,预测未标注数据的标签,同时得到数据的分类器特征。
S4、将S2中生成的数据作为虚假数据,数据集中的标注数据和未标注数据作为真实数据,训练一个由神经网络实现的区分真实数据和虚假数据的鉴别器D:Ph×w×Y×PM→[0,1]。鉴别器以类别标签y和分类器特征fC(·)∈PM为条件,其中M表示特征图的维度。
S5、通过生成器G、分类器C和鉴别器D三者之间的对抗来约束神经网络的学习,当三者的对抗学习达到平衡时,生成器便能够生成符合真实类别条件分布且真实度高的文字。
进一步,在步骤S1中,由于未标注数据没有类别标签,所以需要一个分类器C来为其预测其伪标签。用于训练生成对抗神经网络的数据集形式为文字图像加类别标签。
进一步,在步骤S2中,生成器需要以类别标签为条件,通过随机向量生成文字图像。生成的文字用下述公式来表示:
xz=G(z,yz)
其中yz∈Y代表一个随机的类别标签,z代表一个随机向量,z从一个易于采样的分布中提取,本文采用均值为0方差为1的标准高斯分布
Figure BDA0003796601480000071
进一步,在步骤S3中,选用ResNet50作为分类器C的网络结构。为使得分类器C更加准确地预测未标注数据的类别,使用真实数据和生成数据来训练分类器神经网络。训练数据包括:标注数据-标签对(xl,yl),未标注数据xu,以及生成数据-标签对(xz,yz),相应的损失函数为:
Figure BDA0003796601480000081
其中,C是分类器,
Figure BDA0003796601480000087
代表期望,LCE(·,·)是交叉熵损失函数,其定义为:
LCE(x,y)=-ylogC(x)
进一步,在步骤S4中,为了与生成器进行对抗以提高生成图像的真实度,需要训练一个由多层卷积神经网络组成的鉴别器,鉴别器的目的是在类别标签条件下尽可能区分出真实文字与生成的文字。为了充分利用S3中分类器特征包含的实例级语义信息,本发明中为鉴别器采用了一种双头结构D={F,T1,T2},其中F是一个特征提取网络,T1中包含一个可学习的神经网络层用于学习类别标签的映射;T2中包含一个特征融合模块用于将分类器C和特征提取网络F学习的特征结合起来。T1和T2将共同作用以帮助G捕获精确的与每类文字相对应的类别语义信息,同时由于T2中融合了图像的分类器特征,分类器中编码的特征相比类别标签来说更加丰富,因此能够通过该操作将更加精细多样的语义信息编码到鉴别器中。为简单起见,本发明中用x来表示一个有标签或无标签文字图像样本,并将其相应的标签定义为:
Figure BDA0003796601480000082
T1以类别标签y为条件来区分真实数据和生成数据。T1根据生成文字的特征表示分布是否与相应类别的真实文字的特征分布一致来鉴别真假数据,其表达式为:
Figure BDA0003796601480000083
其中Embed(·)表示一个可学习类别标签映射的函数,
Figure BDA0003796601480000084
是一个映射函数,
Figure BDA0003796601480000085
表示最后一个线性表示层的权重,
Figure BDA0003796601480000086
表示矩阵运算操作。在上述公式中,T1(·,·)表示鉴别器网络将输入数据鉴别为真实数据的概率。T1上的损失函数用如下公式来表示:
Figure BDA0003796601480000091
考虑到与类别标签相比,分类器特征fC编码的语义特征更多,本发明中将分类器特征作为一种实例级别的先验知识将其添加到鉴别器中。为了使得鉴别器更关注于类别语义信息,同时能够更好得利用实例级语义信息,在特征提取器特征fF和分类器特征fC之间实施基于通道注意力的特征融合,具体方法为:采用神经网络分别计算像素级权重Qloc和全局权重和Qglob,然后按照以下方式对两种类型的权重进行融合:
Figure BDA0003796601480000092
其中
Figure BDA0003796601480000093
表示广播相加运算。通过引入注意力权重Q,T2通过接收融合后的特征来获取实例级信息,具体方式如下:
Figure BDA0003796601480000094
其中
Figure BDA0003796601480000095
表示逐元素相乘。在这种条件下,特征提取器F需要去学习与分类器特征fC互补的特征。T2同样需要鉴别真实数据与生成数据,但它不需要类别标签,由于包含了分类器特征fC
Figure BDA0003796601480000096
能够加强鉴别器特征空间的类别分离度并促进类条件分布对齐。T2上的优化公式如下:
Figure BDA0003796601480000097
进一步地,在S5中为了使得生成的文字能够包含准确的类别语义且保持较高的真实度和多样性,需要联合训练生成器、鉴别器和分类器。鉴别器与生成器进行对抗,分类器与生成器协同工作并引导生成器来捕获精确的类语义信息。因此对抗训练过程中生成器和鉴别器上的损失函数定义如下:
Figure BDA0003796601480000101
其中加权因子α和β来平衡附加的T2与语义评估项的影响。
训练完成后,在CASIA-HWDB1.0数据集上对本方法的性能进行量化评估,评估指标包括Inception Score(IS)、Fr′echet Inception Distance(FID)和RecognitionAccuracy(RA%),FID代表生成图像与真实图像在特征层面分布的相似度,其值越低表示生成图像越真实;IS代表了生成图像的整体分布,其值越高表示生成的图像越真实,多样性越好。RA表示生成图像能够被分类器正确分类的概率,其值越高表示生成图像中语义精确度越高。经过评估,本发明在三个评估标准上的效果均显著高于基准方法,值得推广。
以上所述实施例只为本发明之较佳实施例,但并不以此限制本发明方法的施用范围。故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (6)

1.一种基于语义引导鉴别器的半监督汉字图像生成方法,其特征在于,包括以下步骤:
S1、准备一个数据集,其中只有一小部分训练数据有标注,将标注数据和其对应的标签集合记为L={(xl,yl)},未标注数据集合记为:U={xu};
S2、准备一个由神经网络实现的生成器G:Pk×Y→Rh×w,生成器通过一个k维的随机向量z和一个随机类别标签y来生成分辨率为h×w的高保真文字图像xz,随机类别标签是从文字数据集的标注空间Y中随机采样得到的;
S3、将S2中生成的文字和数据集中的有类别标签的文字作为标注数据,将数据集中的未标注文字作为未标注数据,利用这些数据训练一个由神经网络实现的分类器C,利用分类器C对未标注数据进行分类,预测未标注数据的标签,同时得到数据的分类器特征;
S4、将S2中生成的数据作为虚假数据,数据集中的标注数据和未标注数据作为真实数据,训练一个由神经网络实现的用于区分真实数据和虚假数据的鉴别器D:Ph×w×Y×PM→[0,1],鉴别器以类别标签y和分类器特征fC(·)∈PM为条件,其中M表示特征图的维度;
S5、通过生成器G、分类器C和鉴别器D三者之间的对抗来约束神经网络的学习,当三者的对抗学习达到平衡时,生成器便能够成符合真实类别条件分布且真实度高的文字。
2.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法,其特征在于:在步骤S1中,由于未标注数据没有类别标签,所以需要一个分类器C来为其预测其伪标签,用于训练生成对抗神经网络的数据集形式为文字图像加类别标签。
3.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法,其特征在于:在步骤S2中,生成器需要以类别标签为条件,通过随机向量生成文字图像,生成的文字用下述公式来表示:
xz=G(z,yz)
其中yz∈Y代表一个随机的类别标签,z代表一个随机向量,z从一个易于采样的分布中提取,本文采用均值为0方差为1的标准高斯分布
Figure FDA0003796601470000023
4.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法,其特征在于:在步骤S3中,选用ResNet50作为分类器C的网络结构,为使得分类器C更加准确地预测未标注数据的类别,使用真实数据和生成数据来训练分类器神经网络,训练数据包括:标注数据-标签对(xl,yl),未标注数据xu,以及生成数据-标签对(xz,yz),相应的损失函数为:
Figure FDA0003796601470000021
其中,C是分类器,
Figure FDA0003796601470000022
代表期望,LCE(·,·)是交叉熵损失函数,其定义为:
LCE(x,y)=-y log C(x) 。
5.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法,其特征在于:在步骤S4中,为了与生成器进行对抗以提高生成文字图像的真实度,需要训练一个由多层卷积神经网络组成的鉴别器,鉴别器的目的是在类别标签条件下尽可能区分出真实文字与生成的文字;为了充分利用S3中分类器特征包含的实例级语义信息,本发明中为鉴别器采用了一种双头结构D={F,T1,T2},其中F是一个特征提取网络,T1中包含一个可学习的神经网络层用于学习类别标签的映射;T2中包含一个特征融合模块用于将分类器C和特征提取网络F学习的特征结合起来,同时由于T2中融合了图像的分类器特征,该操作将更加精细多样的语义信息编码到鉴别器中,T1和T2将共同作用以帮助G捕获精确的与每类文字相对应的类别语义信息;本发明中用x来表示一个有标签或无标签文字图像样本,并将其相应的标签定义为:
Figure FDA0003796601470000031
T1以类别标签y为条件来区分真实数据和生成数据,T1根据生成文字的特征表示分布是否与相应类别的真实文字的特征分布一致来鉴别真假数据,其表达式为:
Figure FDA0003796601470000032
其中Embed(·)表示一个可学习类别标签映射的函数,
Figure FDA0003796601470000033
是一个映射函数,
Figure FDA0003796601470000034
表示最后一个线性表示层的权重,°表示矩阵运算操作,在上述公式中,T1(·,·)表示鉴别器网络将输入数据鉴别为真实数据的概率,T1上的损失函数用如下公式来表示:
Figure FDA0003796601470000035
本发明中将分类器特征作为一种实例级别的先验知识将其添加到鉴别器中,在特征提取器特征fF和分类器特征fC之间实施基于通道注意力的特征融合,具体方法为:采用神经网络分别计算像素级权重Qloc和全局权重和Qglob,然后按照以下方式对两种类型的权重进行融合:
Figure FDA0003796601470000036
其中
Figure FDA0003796601470000037
表示广播相加运算,通过引入注意力权重Q,T2通过接收融合后的特征来获取实例级信息,具体方式如下:
Figure FDA0003796601470000038
其中
Figure FDA0003796601470000039
表示逐元素相乘,在这种条件下,特征提取器F需要去学习与分类器特征fC互补的特征;T2同样需要鉴别真实数据与生成数据,但它不需要类别标签,由于包含了分类器特征fC
Figure FDA00037966014700000310
能够加强鉴别器特征空间的类别分离度并促进类条件分布对齐,T2上的优化公式如下:
Figure FDA0003796601470000041
6.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法,其特征在于:在步骤S5中,需要联合训练生成器、鉴别器和分类器,鉴别器与生成器进行对抗,分类器与生成器协同工作并引导生成器来捕获精确的类语义信息,因此对抗训练过程中生成器和鉴别器上的损失函数定义如下:
Figure FDA0003796601470000042
其中加权因子α和β来平衡附加的T2与语义评估项的影响。
CN202210970759.7A 2022-08-13 2022-08-13 一种基于语义引导鉴别器的半监督汉字图像生成方法 Pending CN115273100A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210970759.7A CN115273100A (zh) 2022-08-13 2022-08-13 一种基于语义引导鉴别器的半监督汉字图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210970759.7A CN115273100A (zh) 2022-08-13 2022-08-13 一种基于语义引导鉴别器的半监督汉字图像生成方法

Publications (1)

Publication Number Publication Date
CN115273100A true CN115273100A (zh) 2022-11-01

Family

ID=83751047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210970759.7A Pending CN115273100A (zh) 2022-08-13 2022-08-13 一种基于语义引导鉴别器的半监督汉字图像生成方法

Country Status (1)

Country Link
CN (1) CN115273100A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116977330A (zh) * 2023-09-21 2023-10-31 天津医科大学总医院 基于脉冲神经网络和上下文感知的房颤辅助分析方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116977330A (zh) * 2023-09-21 2023-10-31 天津医科大学总医院 基于脉冲神经网络和上下文感知的房颤辅助分析方法
CN116977330B (zh) * 2023-09-21 2023-12-08 天津医科大学总医院 基于脉冲神经网络和上下文感知的房颤辅助分析方法

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN108537119B (zh) 一种小样本视频识别方法
CN113076994B (zh) 一种开集域自适应图像分类方法及系统
CN111062277B (zh) 基于单目视觉的手语-唇语转化方法
Tong et al. MA-CRNN: a multi-scale attention CRNN for Chinese text line recognition in natural scenes
CN116955699B (zh) 一种视频跨模态搜索模型训练方法、搜索方法及装置
CN114863194B (zh) 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置
CN114662497A (zh) 一种基于协同神经网络的虚假新闻检测方法
Zhang et al. Zero-shot object detection via learning an embedding from semantic space to visual space
CN113065557A (zh) 一种基于文字提取的图像匹配方法
CN112633431A (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
Nguyen et al. Online handwritten mathematical symbol segmentation and recognition with bidirectional context
CN115273100A (zh) 一种基于语义引导鉴别器的半监督汉字图像生成方法
Inunganbi et al. Handwritten Meitei Mayek recognition using three‐channel convolution neural network of gradients and gray
Tayyab et al. Recognition of Visual Arabic Scripting News Ticker From Broadcast Stream
Xu et al. Screen-rendered text images recognition using a deep residual network based segmentation-free method
CN110705384A (zh) 一种基于跨域迁移增强表示的车辆再识别方法
CN117516937A (zh) 基于多模态特征融合增强的滚动轴承未知故障检测方法
Feng et al. Similarity-and quality-guided relation learning for joint detection and tracking
Duan et al. Attention enhanced ConvNet-RNN for Chinese vehicle license plate recognition
CN113553947B (zh) 生成描述多模态行人重识别方法、装置及电子设备
CN113723111B (zh) 一种小样本意图识别方法、装置、设备及存储介质
CN115035463A (zh) 行为识别方法、装置、设备和存储介质
CN111783788A (zh) 一种面向标记噪声的多标记分类方法
CN111598075A (zh) 图片生成方法、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination