CN115936979B - 一种端到端的文本图像合成和识别的方法及系统 - Google Patents

一种端到端的文本图像合成和识别的方法及系统 Download PDF

Info

Publication number
CN115936979B
CN115936979B CN202310026637.7A CN202310026637A CN115936979B CN 115936979 B CN115936979 B CN 115936979B CN 202310026637 A CN202310026637 A CN 202310026637A CN 115936979 B CN115936979 B CN 115936979B
Authority
CN
China
Prior art keywords
network
image
data
text image
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310026637.7A
Other languages
English (en)
Other versions
CN115936979A (zh
Inventor
廖万里
金卓
梁芳烜
肖飞
刘金朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Kingsware Information Technology Co Ltd
Original Assignee
Zhuhai Kingsware Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Kingsware Information Technology Co Ltd filed Critical Zhuhai Kingsware Information Technology Co Ltd
Priority to CN202310026637.7A priority Critical patent/CN115936979B/zh
Publication of CN115936979A publication Critical patent/CN115936979A/zh
Application granted granted Critical
Publication of CN115936979B publication Critical patent/CN115936979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种端到端的文本图像合成和识别的方法及系统,所述方法包括以下步骤:以Transformer网络和VGG网络为基础网络,构造合成逼真数据的文本图像生成器和判别器分支;将文本图像生成器输出的合成图像分别输入判别器分支、识别器分支;最后,将判别结果和识别结果损失返回文本图像生成器,直至判别器无法判断数据真假和识别网络能准确识别真实图像,完成数据合成模型训练。本发明克服了人工合成图像造成的主观性强的缺陷,改善了前期的GAN合成图像中生成器图像特征提取能力较差的问题,能够有效生成文本图像识别的训练数据,解决无法大量获取需保密数据的问题,满足文本图像识别模型训练的数据需求。

Description

一种端到端的文本图像合成和识别的方法及系统
技术领域
本发明涉及图像处理领域,特别涉及一种端到端的文本图像合成和识别的方法及系统。
背景技术
深度学习大致可分为监督学习算法、半监督学习算法和无监督学习算法。相比其余两种学习算法,监督学习算法训练特定的输入和输出数据,直到可以判定输入和输出结果的基本关系。因此,监督学习算法在实际应用中表现效果更优,使用更加广泛,如图像识别、分类、分割和检测等。然而,监督学习算法受限于高质量的标注数据,如图像猫狗分类任务,需要大量的不同品种、大小、毛色等猫狗的图像,并需要分别正确严格标记对应分类,才能进行有效训练和识别。监督学习算法表现优异,但真实数据有隐私保密和稀少的特性,导致训练数据获取难度大,人工标记时间和成本高等缺陷。
针对监督学习算法严重依赖训练数据的问题,最简单直接的方式是人为观察数据特征,制定合成规则,合成类似的数据,缺陷是人为主观性较强,合成数据特征分布偏离真实数据特征分布。其次,卷积神经网络(CNN)可以提取图像特征,人们尝试采用CNN构造生成对抗网络(GAN),即分别构造生成器和判别器。GAN中生成器和判别器相互博弈,生成器合成图像,判别器判别合成图像和真实图像的真假,并将结果返回文本图像生成器进行优化,训练直至判别器无法正确区分合成图像合真实图像。GAN合成数据方式是无监督学习算法,降低了数据需求,但完全依赖网络学习特征,受限于CNN特征学习性能,合成图像会出现不可控的特征因素,如马和斑马的转换中,将骑在马背上的人也渲染了斑马的纹理,包括后续改进的pix2pix、CycleGan和条件生成对抗网络都存在类似问题。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种端到端的文本图像合成和识别的方法,该方法克服了人工合成图像造成的主观性强的缺陷,改善了前期的GAN合成图像中生成器图像特征提取能力较差的问题,能够有效生成文本图像识别的训练数据,解决无法大量获取需保密数据的问题,满足文本图像识别模型训练的数据需求。
本发明的另一目的在于提供一种端到端的文本图像合成和识别的系统,能够解决文本图像识别训练缺乏数据的问题。
本发明的目的通过以下的技术方案实现:
一种端到端的文本图像合成和识别的方法,适用于只能获取少量真实数据的图像识别应用场景,包括以下步骤:
以Transformer网络和VGG网络为基础网络,构造生成对抗网络,由此得到文本图像生成器和判别器分支;文本图像生成器利用Transformer网络的自注意力机制提高特征提取能力,合成逼真的数据;
然后,将文本图像生成器输出的合成图像输入以VGG网络构造的判别器分支,对真实数据和合成数据进行判别,同时输入以Transformer网络构造的识别器分支,识别真实数据;
最后,将判别结果和识别结果损失返回文本图像生成器,直至判别器无法判断数据真假和识别网络能准确识别真实图像,完成数据合成模型训练。
所述端到端的文本图像合成和识别的方法,采用生成对抗方式合成目标图像,文本图像生成器使用Transformer网络构造,Transformer网络合成图像过程中采用位置向量编码,将位置信息嵌入噪声序列,输入多头注意力机制中编码全局特征和局部特征,以获得具有位置信息的合成切片,并通过隐式神经表征层拼接切片,合成目标图像。
所述端到端的文本图像合成和识别的方法,采用了Transformer网络和CNN网络共同构造的方式来完成文本图像合成和识别:第一,文本图像合成直接采用以Transformer和VGG网络构造的生成对抗方式一步合成目标图像,通过多头注意力机制编码噪声和位置信息,获取位置编码特征切片,然后使用隐式神经表层拼接特征切片,有效合成逼真的目标图像;第二,文本图像识别全部采用Transformer网络构造,包括残差块、多头注意力机制和掩码多头注意力机制,采用多头注意力机制编码图像切片的特征和位置信息,注重切片中文本所在位置的特征信息;掩码多头注意力机制结合前面切片和后续切片的特征和位置信息,替代LSTM的复杂结构,实现序列化信息训练;第三,采用端到端的文本图像合成和识别方式,相互促进生成器、优化器和识别器的优化,降低训练损失,减少真实图像需求,提高模型的训练效果。
所述端到端的文本图像合成和识别的方法,还包括数据预处理步骤:
采用K折交叉验证方法划分数据集;训练前,将获取的少量真实数据集S划分为K份数据集:S1,S2,S3…SK-1,SK,使用K-1份作为训练集,剩下的1份作为验证集;训练过程执行K轮训练,共获得K个模型的验证结果,并对K个验证结果取均值,作为算法整体性能验证。
所述文本图像生成器包括输入映射网络、Transformer网络的编码器模块、自调制型层范数和隐式神经表征层;其中,Transformer网络的编码器模块包括位置向量编码层、多头注意力层和输出映射层;高斯噪声Z经过输入映射网络进行线性投影,便于自调制型层范数将输出嵌入映射到Transformer模块的位置向量编码层输出的切片;然后,将带有位置编码信息的图像块输入多头注意力层和输出映射网络,则相应输出编码后的待拼接的切片序列;最后,采用隐式神经表征层学习输出切片到待拼接的切片的像素连续映射,当与傅立叶特征或正弦激活函数结合时,隐式表示将生成的样本空间约束到平滑变化的自然信号空间,则将向量保存为图像。
所述以VGG网络构造的判别器分支,由3x3卷积核构建的13个卷积层,2x2大小的最大池化层和3个全连接层构成,最后输出经过softmax函数进行分类,分类时自定义真实图像为1,合成图像为0;训练过程中,判别器分支接收合成图像和真实图像进行分类,获得判别损失,并将判别损失返回到生成器,直至判别器分支判别生成器合成图像为1。
所述以Transformer网络构造的识别器分支,包括12层的编码器和12层的解码器,编码器每一层由归一化和残差连接层、多头注意力机制和前馈神经网络构建,解码器每一层由掩码多头注意力机制、多头注意力机制、归一化和残差连接层和前馈神经网络构建;训练过程中,编码器对图像进行切片和序列编码,并将编码序列直接输入解码器进行序列解码。解码后通过贪婪搜索获取对应文本索引并搜索词表,输出识别文本。
所述判别器分支的损失
Figure SMS_1
如下:
Figure SMS_2
Figure SMS_3
为真实数据,/>
Figure SMS_4
为高斯噪声,/>
Figure SMS_5
为真实数据分布采样,/>
Figure SMS_6
为噪声数据采样,/>
Figure SMS_7
为判别器,/>
Figure SMS_8
为生成器;
识别器分支的文本对比损失
Figure SMS_9
如下:
Figure SMS_10
Figure SMS_11
为真实数据文本标签,/>
Figure SMS_12
为识别网络推理输出;
训练过程采用
Figure SMS_13
折交叉验证训练,生成对抗网络分支训练过程采用二进制交叉熵损失和生成对抗损失,识别网络分支采用交叉熵损失和文本对比损失,故总损失如下:
Figure SMS_14
其中,
Figure SMS_15
为/>
Figure SMS_16
折交叉验证,即将同一数据集分成/>
Figure SMS_17
份,进行/>
Figure SMS_18
次训练和验证;/>
Figure SMS_19
为交叉熵损失,/>
Figure SMS_20
为二进制交叉熵损失;所述识别结果损失为交叉熵损失和文本对比损失之和;所述生成对抗损失为判别器分支的损失。
本发明的另一目的通过以下的技术方案实现:
一种端到端的文本图像合成和识别的系统,包括文本图像生成器、判别器分支、识别器分支;其中,以Transformer网络和VGG网络为基础网络,构造生成对抗网络,由此得到文本图像生成器和判别器分支;所述文本图像生成器利用Transformer网络的自注意力机制提高特征提取能力,合成逼真的数据;文本图像生成器输出的合成图像输入以VGG网络构造的判别器分支,对真实数据和合成数据进行判别,同时输入Transformer网络构造的识别器分支,识别真实数据;将判别结果和识别结果损失返回文本图像生成器,直至判别器无法判断数据真假和识别网络能准确识别真实图像,完成数据合成模型训练。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明采用Transformer网络构建生成器,有利于提高图像特征提取能力。同时,进行多任务网络训练,使用判别损失和识别损失同时优化生成器,能够合成质量较高、更接近真实数据的文本图像。
2、本发明训练过程采用交叉验证方式训练网络,循环利用能收集到的真实图像,提取到更多的图像特征信息,缓解训练过程真实图像过少的问题,增加合成图像的多样性。
3、本发明只需要少量真实的文本图像就能满足构造的模型的训练需求,降低数据收集成本,减少人工标注工作量。
4、本发明可以根据具体识别应用场景合成高质量的图像,解决真实场景中文本图像识别训练缺乏训练数据的问题。
附图说明
图1为图像和标签样式示意图。
图2为数据K折交叉验证划分过程示意图。
图3为端到端的文本图像合成和识别的系统的结构示意图。
图4为文本图像生成器的结构示意图。
图5为判别器分支的结构示意图。
图6为识别器分支的结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1-6,一种端到端的文本图像合成和识别的方法,其目的是以少量的真实数据训练健壮的数据合成网络,解决人工合成数据的主观性强的缺点,以及常用的基于CNN构造的生成对抗网络对图像的特征提取能力较差的问题。该方法以Transformer网络和VGG网络为基础网络,构造生成对抗网络,生成器利用Transformer网络的自注意力机制提高特征提取能力,合成逼真的数据。然后,将生成器输出分别输入以VGG网络构造的判别器分支,对真实数据和合成数据进行判别,以及Transformer网络构造的图像识别分支,识别真实数据。最后,将判别结果和识别结果损失返回生成器,直至判别器无法判断数据真假和识别网络能准确识别真实图像,完成数据合成模型训练。
一、数据预处理
本发明主要针对只能获取少量真实数据的图像识别应用场景,用于合成逼真的数据,解决无法训练图像识别网络的问题。本发明算法主要用于图像合成和识别,模型的输入是图像和标签,存放方式和标签写入方式如图1所示。深度学习依赖大量的数据学习,但本发明因保密性或隐私性无法获取大量数据,故采用K折交叉验证方法划分数据集。训练前,将获取的少量真实数据集S划分为K份数据集(S1,S2,S3…SK-1,SK),使用K-1份作为训练集,剩下的1份作为验证集。训练过程执行K轮训练,共获得K个模型的验证结果,并对K个验证结果取均值,作为本发明算法的整体性能验证。数据集具体划分过程如图2所示。
二、算法
本发明设计了端到端的文本图像合成和识别的多任务算法,以Transformer网络构造生成器,合成图像分别输入判别器分支和识别分支,返回判别损失和识别损失到生成器进行训练,直至判别器无法判别图像真假和识别器可以准确识别真实图像,则获得较好的图像合成模型。端到端的文本图像合成和识别的多任务系统结构如图3所示。
1、生成器结构
生成对抗网络中生成器一般以CNN网络构建,但CNN擅于提取局部特征,缺乏局部特征和特征间的联系,Transformer中使用多头注意力机制,可以提取全局中突出的特征信息,同时将局部特征与其他任一局部特征相关联,兼顾局部和全局特征,保证网络训练过程中可以提取更多的图像特征信息和特征间的联系。如图4所示,生成器主要由输入映射网络、Transformer网络的编码器模块、自调制型层范数和隐式神经表征层构成。Transformer模块主要由位置向量编码层、多头注意力层和输出映射层构成。为了生成图像像素值,向生成器输入高斯噪声Z,经过输入映射网络进行线性投影,便于自调制型层范数将输出嵌入映射到Transformer模块位置向量编码层输出的切片。然后,将带有位置编码信息的图像块输入多头注意力机制和映射输出网络,则相应输出编码后的待拼接的切片序列。最后,采用隐式神经表征层学习输出切片到待拼接的切片的像素连续映射,当与傅立叶特征或正弦激活函数结合时,隐式表示可以将生成的样本空间约束到平滑变化的自然信号空间,则可以将向量保存为图像。
2、分支结构
本发明生成器后紧接两个分支,分别是判别器分支和识别器分支。判别器分支主要用于判别真假图像,与生成器分支构成博弈网络,判别损失有利于优化生成器合成图像效果。Transformer网络可以获取更多的图像特征信息,但是生成器和判别器均采用Transformer网络搭建,训练过程会变得非常不稳定,并且对抗训练常常会在判别器训练的后期受到高方差梯度(或尖峰梯度)的阻碍。CNN网络经过梯度惩罚、归一化等正则化方法处理后,训练过程基本稳定。本发明中判别分支主要是分类真假图像,基于CNN构建的VGG网络分类效果较好,故采用VGG构建判别分支,避免模型训练过程波动过大,如图5所示。判别分支由3x3卷积核构建的13个卷积层,2x2大小的最大池化层和3层全连接构成,最后输出经过softmax函数进行分类。本发明自定义真实图像为1,合成图像为0。训练过程中,判别器分支接收合成图像和真实图像进行分类,获得判别损失,并将判别损失返回到生成器,直至判别器判别生成器合成图像为1。
鉴于Transformer网络特征提取能力强和训练效率高等优势,本发明的识别分支采用标准的Transformer结构以及自注意力机制,如图6所示。识别分支的Transformer结构包含12层的编码器和12层的解码器,编码器每一层由归一化和残差连接层、多头注意力机制和前馈神经网络构建,解码器每一层由掩码多头注意力机制、多头注意力机制、归一化和残差连接层和前馈神经网络构建。训练过程中,编码器对图像进行切片和序列编码,并将编码序列直接输入解码器进行序列解码。解码后通过贪婪搜索获取对应文本索引并搜索词表,输出识别文本。本发明的识别分支主要是通过生成器合成图像和真实图像训练,采用真实图像作为验证集,计算模型输出和真实图像标签的准确率和损失,以进一步优化生成器训练。
3、损失函数
本发明设计的端到端的文本图像合成和识别的多任务算法及系统共有两条支线,分别为生成器和判别器形成的生成对抗网络分支,生成器和识别器形成的识别网络分支。训练过程中两条分支相互促进训练,通过判别器损失和识别损失反复优化生成器,不断提高生成器合成图像质量。其中,所述判别器分支的损失
Figure SMS_21
如下:
Figure SMS_22
Figure SMS_23
为真实数据,/>
Figure SMS_24
为高斯噪声,/>
Figure SMS_25
为真实数据分布采样,/>
Figure SMS_26
为噪声数据采样,/>
Figure SMS_27
为判别器,/>
Figure SMS_28
为生成器;
识别器分支的文本对比损失
Figure SMS_29
如下:
Figure SMS_30
Figure SMS_31
为真实数据文本标签,/>
Figure SMS_32
为识别网络推理输出;
训练过程采用
Figure SMS_33
折交叉验证训练,生成对抗网络分支训练过程采用二进制交叉熵损失和生成对抗损失,识别网络分支采用交叉熵损失和文本对比损失,故总损失如下:
Figure SMS_34
;/>
其中,
Figure SMS_35
为/>
Figure SMS_36
折交叉验证,即将同一数据集分成/>
Figure SMS_37
份,进行/>
Figure SMS_38
次训练和验证;/>
Figure SMS_39
为交叉熵损失,/>
Figure SMS_40
为二进制交叉熵损失。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种端到端的文本图像合成和识别的方法,其特征在于,包括以下步骤:
以Transformer网络和VGG网络为基础网络,构造生成对抗网络,由此得到文本图像生成器和判别器分支;文本图像生成器利用Transformer网络的自注意力机制提高特征提取能力,合成逼真的数据;
然后,将文本图像生成器输出的合成图像输入以VGG网络构造的判别器分支,对真实数据和合成数据进行判别,同时输入以Transformer网络构造的识别器分支,识别真实数据;采用生成对抗方式合成目标图像,文本图像生成器使用Transformer网络构造,Transformer网络合成图像过程中采用位置向量编码,将位置信息嵌入噪声序列,输入多头注意力机制中编码全局特征和局部特征,以获得具有位置信息的合成切片,并通过隐式神经表征层拼接切片,合成目标图像;
最后,将判别结果和识别结果损失返回文本图像生成器,直至判别器无法判断数据真假和识别网络能准确识别真实图像,完成数据合成模型训练。
2.根据权利要求1所述端到端的文本图像合成和识别的方法,其特征在于,采用了Transformer网络和CNN网络共同构造的方式来完成文本图像合成和识别:第一,文本图像合成直接采用以Transformer和VGG网络构造的生成对抗方式一步合成目标图像,通过多头注意力机制编码噪声和位置信息,获取位置编码特征切片,然后使用隐式神经表层拼接特征切片,有效合成逼真的目标图像;第二,文本图像识别全部采用Transformer网络构造,包括残差块、多头注意力机制和掩码多头注意力机制,采用多头注意力机制编码图像切片的特征和位置信息,注重切片中文本所在位置的特征信息;掩码多头注意力机制结合前面切片和后续切片的特征和位置信息,替代LSTM的复杂结构,实现序列化信息训练;第三,采用端到端的文本图像合成和识别方式,相互促进生成器、优化器和识别器的优化,降低训练损失,减少真实图像需求,提高模型的训练效果。
3.根据权利要求1所述端到端的文本图像合成和识别的方法,其特征在于,还包括数据预处理步骤:
采用K折交叉验证方法划分数据集;训练前,将获取的真实数据集S划分为K份数据集:S1,S2,S3…SK-1 ,SK,使用K-1份作为训练集,剩下的1份作为验证集;训练过程执行K轮训练,共获得K个模型的验证结果,并对K个验证结果取均值,作为算法整体性能验证。
4.根据权利要求1所述端到端的文本图像合成和识别的方法,其特征在于,所述文本图像生成器包括输入映射网络、Transformer网络的编码器模块、自调制型层范数和隐式神经表征层;其中,Transformer网络的编码器模块包括位置向量编码层、多头注意力层和输出映射层;高斯噪声Z经过输入映射网络进行线性投影,便于自调制型层范数将输出嵌入映射到Transformer模块的位置向量编码层输出的切片;然后,将带有位置编码信息的图像块输入多头注意力层和输出映射网络,则相应输出编码后的待拼接的切片序列;最后,采用隐式神经表征层学习输出切片到待拼接的切片的像素连续映射,当与傅立叶特征或正弦激活函数结合时,隐式表示将生成的样本空间约束到平滑变化的自然信号空间,则将向量保存为图像。
5.根据权利要求1所述端到端的文本图像合成和识别的方法,其特征在于,所述以VGG网络构造的判别器分支,由3x3卷积核构建的13个卷积层,2x2大小的最大池化层和3个全连接层构成,最后输出经过softmax函数进行分类,分类时自定义真实图像为1,合成图像为0;训练过程中,判别器分支接收合成图像和真实图像进行分类,获得判别损失,并将判别损失返回到生成器,直至判别器分支判别生成器合成图像为1。
6.根据权利要求1所述端到端的文本图像合成和识别的方法,其特征在于,所述以Transformer网络构造的识别器分支,包括12层的编码器和12层的解码器,编码器每一层由归一化和残差连接层、多头注意力机制和前馈神经网络构建,解码器每一层由掩码多头注意力机制、多头注意力机制、归一化和残差连接层和前馈神经网络构建;训练过程中,编码器对图像进行切片和序列编码,并将编码序列直接输入解码器进行序列解码;解码后通过贪婪搜索获取对应文本索引并搜索词表,输出识别文本。
7.根据权利要求1所述端到端的文本图像合成和识别的方法,其特征在于,所述判别器分支的损失
Figure QLYQS_1
如下:
Figure QLYQS_2
Figure QLYQS_3
为真实数据,/>
Figure QLYQS_4
为高斯噪声,/>
Figure QLYQS_5
为真实数据分布采样,/>
Figure QLYQS_6
为噪声数据采样,/>
Figure QLYQS_7
为判别器,/>
Figure QLYQS_8
为生成器;
识别器分支的文本对比损失
Figure QLYQS_9
如下:
Figure QLYQS_10
Figure QLYQS_11
为真实数据文本标签,/>
Figure QLYQS_12
为识别网络推理输出;
训练过程采用
Figure QLYQS_13
折交叉验证训练,生成对抗网络分支训练过程采用二进制交叉熵损失和生成对抗损失,识别网络分支采用交叉熵损失和文本对比损失,故总损失如下:
Figure QLYQS_14
其中,
Figure QLYQS_15
折交叉验证为将同一数据集分成/>
Figure QLYQS_16
份,进行/>
Figure QLYQS_17
次训练和验证;/>
Figure QLYQS_18
为交叉熵损失,/>
Figure QLYQS_19
为二进制交叉熵损失;所述识别结果损失为交叉熵损失和文本对比损失之和;所述生成对抗损失为判别器分支的损失。
8.一种端到端的文本图像合成和识别的系统,其特征在于:用于实现权利要求1至7中任一权利要求所述端到端的文本图像合成和识别的方法;包括文本图像生成器、判别器分支、识别器分支;其中,以Transformer网络和VGG网络为基础网络,构造生成对抗网络,由此得到文本图像生成器和判别器分支;所述文本图像生成器利用Transformer网络的自注意力机制提高特征提取能力,合成逼真的数据;文本图像生成器输出的合成图像输入以VGG网络构造的判别器分支,对真实数据和合成数据进行判别,同时输入Transformer网络构造的识别器分支,识别真实数据;将判别结果和识别结果损失返回文本图像生成器,直至判别器无法判断数据真假和识别网络能准确识别真实图像,完成数据合成模型训练。
CN202310026637.7A 2023-01-09 2023-01-09 一种端到端的文本图像合成和识别的方法及系统 Active CN115936979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310026637.7A CN115936979B (zh) 2023-01-09 2023-01-09 一种端到端的文本图像合成和识别的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310026637.7A CN115936979B (zh) 2023-01-09 2023-01-09 一种端到端的文本图像合成和识别的方法及系统

Publications (2)

Publication Number Publication Date
CN115936979A CN115936979A (zh) 2023-04-07
CN115936979B true CN115936979B (zh) 2023-06-02

Family

ID=85828857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310026637.7A Active CN115936979B (zh) 2023-01-09 2023-01-09 一种端到端的文本图像合成和识别的方法及系统

Country Status (1)

Country Link
CN (1) CN115936979B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149619B (zh) * 2020-10-14 2024-03-15 南昌慧亦臣科技有限公司 一种基于Transformer模型自然场景文字识别方法
CN113808008A (zh) * 2021-09-23 2021-12-17 华南农业大学 基于Transformer构建生成对抗网络实现妆容迁移的方法
CN115311194A (zh) * 2022-05-23 2022-11-08 湘潭大学 一种基于transformer和SE块的CT自动肝脏图像分割方法
CN115424013A (zh) * 2022-07-13 2022-12-02 平安科技(深圳)有限公司 模型的训练方法、图像处理方法和设备、介质
CN115546046A (zh) * 2022-08-30 2022-12-30 华南农业大学 一种融合频率和内容特征的单幅图像去雾方法

Also Published As

Publication number Publication date
CN115936979A (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN108596265B (zh) 基于文本描述信息和生成对抗网络的视频生成模型
CN108509978A (zh) 基于cnn的多级特征融合的多类目标检测方法及模型
CN111832516B (zh) 基于无监督视频表示学习的视频行为识别方法
CN110276248B (zh) 一种基于样本权值分配和深度学习的人脸表情识别方法
US11430255B2 (en) Fast and robust friction ridge impression minutiae extraction using feed-forward convolutional neural network
CN103258204A (zh) 一种基于Gabor和EOH特征的自动微表情识别方法
CN105184303A (zh) 一种基于多模态深度学习的图像标注方法
CN111861945B (zh) 一种文本引导的图像修复方法和系统
CN115471851A (zh) 融合双重注意力机制的缅甸语图像文本识别方法及装置
CN113408574B (zh) 一种车牌分类方法、车牌分类装置和计算机可读存储介质
CN109492610B (zh) 一种行人重识别方法、装置及可读存储介质
Baek et al. Generative adversarial ensemble learning for face forensics
CN112507800A (zh) 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法
CN113160032A (zh) 一种基于生成对抗网络的无监督多模态图像转换方法
CN117011883A (zh) 一种基于金字塔卷积和Transformer双分支的行人重识别方法
CN113762326A (zh) 一种数据识别方法、装置、设备及可读存储介质
CN110991374B (zh) 一种基于rcnn的指纹奇异点检测方法
CN116503636A (zh) 一种基于自监督预训练的多模态遥感影像分类方法
CN113657414B (zh) 一种物体识别方法
Lim et al. SCL: Self-supervised contrastive learning for few-shot image classification
CN115063612A (zh) 基于面审视频的欺诈预警方法、装置、设备及存储介质
Ammar et al. Towards an effective approach for face recognition with DCGANs data augmentation
CN115936979B (zh) 一种端到端的文本图像合成和识别的方法及系统
CN114783072B (zh) 一种基于远域迁移学习的图像识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant