CN115953779B - 基于文本对抗生成网络的无监督图像描述生成方法 - Google Patents

基于文本对抗生成网络的无监督图像描述生成方法 Download PDF

Info

Publication number
CN115953779B
CN115953779B CN202310198396.4A CN202310198396A CN115953779B CN 115953779 B CN115953779 B CN 115953779B CN 202310198396 A CN202310198396 A CN 202310198396A CN 115953779 B CN115953779 B CN 115953779B
Authority
CN
China
Prior art keywords
text
image
features
description
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310198396.4A
Other languages
English (en)
Other versions
CN115953779A (zh
Inventor
郝艳宾
于佳睿
徐童
何向南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202310198396.4A priority Critical patent/CN115953779B/zh
Publication of CN115953779A publication Critical patent/CN115953779A/zh
Application granted granted Critical
Publication of CN115953779B publication Critical patent/CN115953779B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于文本对抗生成网络的无监督图像描述生成方法,其步骤包括:1、对图像数据库进行图像特征提取,对辅助文本库进行文本数据清洗;2、构建基于语言‑图像对比学习预训练模型的文本对抗生成网络;3、构造图像特征‑图像描述伪标签,并利用伪标签训练生成器进行预热;4、使用自批判的强化学习驱动的对抗学习方式训练构建的网络模型;5、使用训练好的生成网络进行推断,实现无监督的图像描述生成。本发明能充分利用语言‑图像对比学习预训练模型CLIP的能力实现图像信息的提取,并能在没有人工成对标注的情况下进行自主训练,从而能显著提升无监督图像描述生成质量。

Description

基于文本对抗生成网络的无监督图像描述生成方法
技术领域
本发明属于计算机视觉和自然语言处理技术领域,具体的说是一种基于文本对抗生成网络的无监督图像描述生成方法。
背景技术
图像描述生成是计算机视觉和自然语言处理领域的重要课题,在图像索引,人机交互及视障人士的生活辅助等方面具有广泛的应用。传统的图像描述生成是有监督的,依赖人工标注的图像-描述对,然而大规模,高质量的标注数据受到成本因素限制而难以获取。因此,研究者们提出了无监督的图像描述生成方法。传统的无监督图像描述生成方法大致可以分为以下三类:基于目标检测器,基于场景图生成器,基于中介语言图像描述器的方法。基于目标检测器的方法首先训练模型利用文本库中的实体名称生成文本,然后检测图像中出现的实体,最后将实体作为模型输入进行图像描述。基于场景图生成器的方法首先训练模型从文本中建立的场景图重建文本,然后生成图像对应的场景图,最后将场景图作为模型输入进行图像描述。基于中介语言图像描述器的方法首先利用中介语言图像描述器生成中介描述,然后再利用翻译器翻译到指定的语言。然而,基于目标检测器和场景图生成的方法需要图像信息提取或中间结果预测,如目标检测和场景图生成,而且中间结果不够准确和全面,带来误差累积。而基于中介语言图像描述器的方法需要假定已经存在一个中介语言图像描述器,这大大限制了该方法的使用场景。
近年来,随着语言-图像对比学习预训练技术的兴起,显示出优异的语言-图像对齐性能。研究者们将语言-图像对比学习预训练模型CLIP应用到图像文字描述领域中,然而目前CLIP的应用局限于使用CLIP的图像编码器提取图像特征或使用CLIP筛选高质量的伪标签,没有对CLIP进行充分的挖掘和利用。总体而言,如何实现无需复杂图像信息提取和能够充分利用语言-图像对比学习预训练模型CLIP的无监督图像描述生成还是一个未解决的问题。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于文本对抗生成网络的无监督图像描述生成方法,以期能克服现有方法的图像处理复杂,误差累积和场景局限等问题,并能充分利用语言-图像对比学习预训练模型CLIP的能力实现图像的信息提取,从而能显著提升无监督图像描述生成质量。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于文本对抗生成网络的无监督图像描述生成方法的特点在于,是按如下步骤进行:
步骤1、获取训练数据,包括:图像集和辅助文本库;
利用语言-图像对比学习预训练模型CLIP中的图像特征提取器CLIP-ImageEncoder对所述图像集中的N张图像进行特征提取,得到图像特征集合{e I i |i∈[1,N]},其中,e I i 表示第i张图像的特征;N表示图像总数;
对所述辅助文本库中的M个句子进行文本数据清洗,得到清洗后的文本库{S j |j∈[1,M]},其中,S j 表示第j个句子;
步骤2、构建图像描述生成器G,是由K个提示生成器和一个基于GPT-2语言生成模型的解码器构成;其中,所述提示生成器由H个线性层构成,前H-1个线性层后分别连接一个tanh激活函数;
K个提示生成器分别将第i张图像的特征e I i 转化K个提示向量后,输入所述基于GPT-2语言生成模型的解码器中进行处理,并输出解码后的句子C i
步骤3、利用语言-图像对比学习预训练模型CLIP中的文本特征提取器CLIP-TextEncoder对第j个句子S j 进行特征提取,得到文本特征e S j
步骤4、构建文本-图像特征转换器,包括Q层线性层,并利用最后一层的残差连接层将Q层线性层的输入和输出进行连接;
所述文本-图像特征转换器对文本特征e S j 进行处理,得到虚拟图像表征e F j
步骤5、由文本特征e S j 和第j个句子S j 构造一对特征-图像描述伪标签,由虚拟图像表征e F j 和第j个句子S j 构造另一对特征-图像描述伪标签,从而利用两对伪标签训练图像描述生成器G进行预热,得到具备初步生成能力的训练图像描述生成器G
步骤6、构建文本判别器D,是由一个基于RoBERTa语言理解模型的文本特征提取器和一个真实度预测器构成;其中,所述真实度预测器由Y个线性层构成,在前Y-1个线性层后均连接一个tanh激活函数;
所述基于RoBERTa语言理解模型的文本特征提取器将第j个句子S j 转化为文本特征后,输入所述真实度预测器中进行处理,从而将文本特征转化为S j 的真实度预测值f D (S j );
步骤7、使用自批判的强化学习方式训练预热后的图像描述生成器G,并使用二分类交叉熵损失训练文本判别器D,使得两者在对抗学习中交替优化,从而得到最优图像描述生成模型。
本发明所述的基于文本对抗生成网络的无监督图像描述生成方法的特点在于,所述步骤5包括:
步骤5.1、领域适应学习策略:
从图像特征集合{e I i |i∈[1, N]}中选取一批包含有A个图像特征的特征数据;
从文本库{S j |j∈[1,M]}中选取一批包含B个句子的文本数据,并利用文本特征提取器CLIP-TextEncoder和文本-图像特征转换器对一批文本数据进行处理,得到B个虚拟图像特征;从而利用式(1)构建领域适应的损失函数L mmd
Figure SMS_1
(1)
式(1)中,k为高斯核函数;e I a 表示一批真实图像特征数据中的第a张图像的特征;e I b 表示一批真实图像特征数据中的第b张图像的特征,e F a 表示一批虚拟图像特征中的第a个虚拟图像特征,e F b 表示一批虚拟图像特征中的第b个虚拟图像特征;
步骤5.2、语义约束学习策略:
利用式(2)构建语义约束损失L cos
Figure SMS_2
(2)
步骤5.3、文本重建学习策略:
构造伪标签对(e S j ,S j )和伪标签对(e F j ,S j ),从而利用式(3)构建文本重建损失函数L mle
Figure SMS_3
(3)
式(3)中,S j,t 表示S j 中第t个单词,S j,1:t-1表示由S j 中前t-1个单词构成的文本,P G (S j,t |e S j ,S j,1:t-1)表示文本特征e S j 和文本S j,1:t-1输入到图像描述生成器G时预测的第t个单词为S j,t 的概率;P G (S j,t |e F j ,S j,1:t-1)表示虚拟图像表征e F j 和文本S j,1:t-1输入到图像描述生成器G时预测的第t个单词为S j,t 的概率;n表示S j 的长度;
步骤5.4、利用式(4)构造预热损失函数L full
L full = L mle +α L cos +βL mmd (4)
式(4)中,αβ为权重因子;
步骤5.5、最小化所述预热损失函数L full ,从而对所述图像描述生成器G进行预热训练,并得到预热后的图像描述生成器G
所述步骤7包括:
步骤7.1、自批判强化学习策略:
步骤7.1.1、所述预热后的图像描述生成器G对第i张图像的特征e I i 进行处理,并使用argmax策略和依概率采样策略分别输出一个文字描述C i X个采样文字描述,将任意一个采样文字描述记为C’ i X为采样次数;
将文字描述C i 和采样文字描述C’ i 分别输入到所述文字判别器D中进行处理,相应得到C i 的真实度预测值f D (C i )和C’ i 的真实度预测值f D (C’ i );
步骤7.2.2、激励函数计算:
将文字描述C i 输入文本特征提取器CLIP-TextEncoder进行处理,获得文本特征e C i ,从而利用式(5)构建基线激励函数r(e I i, C i, e C i ):
Figure SMS_4
(5)
式(5)中,λ为权重因子,
Figure SMS_5
为CLIP温度系数;
将采样文字描述C’ i 输入文本特征提取器CLIP-TextEncoder进行处理,并获得采样文本特征e C’ i ,从而利用式(5)构建采样激励函数r(e I i, C i, e C’ i );
步骤7.2.3、利用式(6)计算自批判强化学习策略梯度
Figure SMS_6
Figure SMS_7
(6)
式(6)中,θ表示图像描述生成器G的参数,G θ 表示用图像描述生成器G依概率采样策略生成的概率分布,并由式(7)得到;
Figure SMS_8
表示对采样得到的X个采样文字描述求策略梯度均值;
Figure SMS_9
(7)
式(7)中,P G (C’ i,t |e I i ,C’ i,1:t-1)表示图像特征e I i 和已解码的前t-1个单词C’ i,1:t-1输入到图像描述生成器G时预测的第t个单词为C’ i,t 的概率;n为解码得到的句子长度;
步骤7.2、二分类文本判别策略:
步骤7.2.1、将采样文字描述C’ i 输入所述文本判别器D中进行处理,获得C’ i 的真实度预测值f D (C’ i );
步骤7.2.2、根据式(8)构建文本判别器D的二分类损失
Figure SMS_10
Figure SMS_11
(8)
式(7)中,
Figure SMS_12
为文本判别器D的参数,σ代表sigmoid函数;
步骤7.3、交替优化训练策略:
步骤7.3.1、定义当前迭代步数为step,并初始化step=1;定义学习率为γ;
步骤7.3.2、在当前第step步训练时先对二分类损失
Figure SMS_13
进行最小化,再利用式(9)对图像描述生成器G的第step步参数θ step进行更新,得到第step+1步参数θ step+1
Figure SMS_14
(9)
步骤7.3.3、step+1赋值给step后,判断step>step_max是否成立,若成立,则停止对抗训练,并从step_max步中选择最优图像描述生成器G用于对图像特征提取器CLIP-ImageEncoder处理后图像特征生成相应的无监督的图像描述,否则,返回步骤7.3.2顺序执行。
与现有技术相比,本发明的有益效果在于:
1、本发明提出了一种基于预训练模型的文本对抗生成网络模型,该模型包括图像描述生成器,文本判别器和激励函数;其中,图像描述生成器利用了先进的语言生成预训练模型,文本判别器利用了先进的语言理解预训练模型,激励函数利用了先进的语言-图像对比学习预训练模型;从而使得文本对抗生成网络模型的训练难度大大降低,提升了图像描述生成的质量。
2、本发明提出了一种无监督图像描述生成器的预热方法,是通过训练图像描述生成器从文本特征和虚拟图像特征重建文本,使得图像描述生成器初步学习根据图像特征进行文字描述。除了文本重建学习策略之外,该方法还使用领域适应学习策略和语义约束学习策略对虚拟图像特征进行进一步的约束,使得生成的虚拟图像特征一方面适应图像领域,另一方面保持和文本尽可能一致的语义;使得虚拟图像特征更加真实,强化预热阶段的效果。预热之后的图像描述生成器用于初始化对抗训练阶段的图像描述生成器,可以进一步提升对抗训练效果。
3、本发明提出了一种兼顾真实度和语义匹配的自批判强化学习策略,是通过激励来引导图像描述生成器学习,估计策略梯度来优化生成器,将模型的推断时argmax解码的激励值作为基线,计算采样策略解码的激励值与之相减作为自批判后的激励值。其中,激励值是真实度和语义匹配度的加权和,使得图像描述生成器兼顾描述的真实性和语义一致性。自批判策略的使用使得训练和推理阶段的差距缩小,有利于达到最优效果。
附图说明
图1为本发明方法的流程示意图;
图2为本发明对抗学习阶段模型结构示意图;
图3为本发明预热阶段模型结构示意图。
具体实施方式
本实施例中,如图1所示,一种基于文本对抗生成网络的无监督图像描述生成方法是按如下步骤进行:
步骤1、获取训练数据,包括:图像集和辅助文本库;
利用语言-图像对比学习预训练模型CLIP中的图像特征提取器CLIP-ImageEncoder对图像集中的N张图像进行特征提取,得到图像特征集合{e I i |i∈[1, N]},其中,e I i 表示第i张图像的特征;N表示图像总数;在本实施例中,CLIP-ImageEncoder选择ViT-B/32,任意一个图像特征的维度为512;
对辅助文本库中的M个句子进行文本数据清洗,得到清洗后的文本库{S j |j∈[1,M]},其中,S j 表示第j个句子;在本实施例中,文本数据清洗即选择第一个完整的句子,并对长度超过20的长句子进行截断。
步骤2、构建图像描述生成器G,为了充分利用预训练的语言生成模型辅助描述生成,图像描述生成器G是由K个提示生成器和一个基于GPT-2语言生成模型的解码器构成;其中,提示生成器由H个线性层构成,前H-1个线性层后分别连接一个tanh激活函数;在本实施例中,K设置为10,H设置为2,线性层宽度分别为3840和768,K个提示生成器的前H-1层共享参数。
K个提示生成器分别将第i张图像的特征e I i 转化K个提示向量后,输入基于GPT-2语言生成模型的解码器中进行处理,并输出解码后的句子C i ;在本实施例中,K个提示向量中的任意一个提示向量的维度为768。
步骤3、利用语言-图像对比学习预训练模型CLIP中的文本特征提取器CLIP-TextEncoder对第j个句子S j 进行特征提取,得到文本特征e S j ;在本实施例中,特征维度为512。在本实施例中,CLIP-TextEncoder选择和CLIP-ImageEncoder相对应的版本。
步骤4、构建文本-图像特征转换器,包括Q层线性层,并利用最后一层的残差连接层将Q层线性层的输入和输出进行连接;在本实施例中,Q设置为2,线性层宽度分别为512,512。文本-图像特征转换器使用服从N(0, 0.1)的高斯分布进行权重初始化,并将初始偏置项设置为0。
文本-图像特征转换器对文本特征e S j 进行处理,得到虚拟图像表征e F j ;特征维度为512。
步骤5、如图3所示,由文本特征e S j 和第j个句子S j 构造一对特征-图像描述伪标签,由虚拟图像表征e F j 和第j个句子S j 构造另一对特征-图像描述伪标签,从而利用两对伪标签训练图像描述生成器G进行预热,得到具备初步生成能力的训练图像描述生成器G;在通常的对抗网络的训练中,文本判别器的收敛速度更快,为了平衡生成器和判别器的训练速度,在本实施例中,需要对图像描述生成器G进行预热,即进行预先训练,使用并得到的参数来初始化对抗训练阶段的G
步骤5.1、领域适应学习策略:
步骤4中进行特征转换后的虚拟图像特征e F j 应该具备和真实图像特征e I i 相似的特征分布,所以考虑使用领域适应学习策略约束虚拟图像特征,使之能适应图像领域的特征分布。
从图像特征集合{e I i |i∈[1, N]}中选取一批包含有A个图像特征的特征数据;
从文本库{S j |j∈[1,M]}中选取一批包含B个句子的文本数据,并利用文本特征提取器CLIP-TextEncoder和文本-图像特征转换器对一批文本数据进行处理,得到B个虚拟图像特征;在本实施例中,单批数据大小AB均设置为40。从而利用式(1)构建领域适应的损失函数L mmd
Figure SMS_15
(1)
式(1)中,k为高斯核函数;e I a 表示一批真实图像特征数据中的第a张图像的特征;e I b 表示一批真实图像特征数据中的第b张图像的特征,e F a 表示一批虚拟图像特征中的第a个虚拟图像特征,e F b 表示一批虚拟图像特征中的第b个虚拟图像特征;
步骤5.2、语义约束学习策略:
步骤4中进行特征转换后的虚拟图像特征e F j 应该和文本特征e S j 具有相同的语义,所以引入语义约束学习策略,使得虚拟图像特征e F j 和文本特征e S j 在余弦空间尽可能接近。
利用式(2)构建语义约束损失L cos
Figure SMS_16
(2)
步骤5.3、文本重建学习策略:
根据步骤4到5.2,实际上构造了伪标签对(e S j ,S j )和伪标签对(e F j ,S j ),利用这些伪标签,可以使用文本重构的方法预热图像描述生成器G,从而利用式(3)构建文本重建损失函数L mle
Figure SMS_17
(3)
式(3)中,S j,t 表示S j 中第t个单词,S j,1:t-1表示由S j 中前t-1个单词构成的文本,P G (S j,t |e S j ,S j,1:t-1)表示文本特征e S j 和文本S j,1:t-1输入到图像描述生成器G时预测的第t个单词为S j,t 的概率;P G (S j,t |e F j ,S j,1:t-1)表示虚拟图像表征e F j 和文本S j,1:t-1输入到图像描述生成器G时预测的第t个单词为S j,t 的概率;n表示S j 的长度;
步骤5.4、利用式(4)构造预热损失函数L full
L full = L mle +αL cos +βL mmd (4)
式(4)中,αβ为权重因子;
步骤5.5、最小化预热损失函数L full ,从而对图像描述生成器G进行预热训练,并得到预热后的图像描述生成器G;在本实施例中,学习率设置为0.00003,选择AdamW作为优化器。
步骤6、构建文本判别器D,是由一个基于RoBERTa语言理解模型的文本特征提取器和一个真实度预测器构成;其中,真实度预测器由Y个线性层构成,在前Y-1个线性层后均连接一个tanh激活函数;
基于RoBERTa语言理解模型的文本特征提取器将第j个句子S j 转化为文本特征后,输入真实度预测器中进行处理,从而将文本特征转化为S j 的真实度预测值f D (S j );在本实施例中,RoBERTa语言理解模型的特征输出维度为768,真实度预测器线性层层数Y设置为2,宽度为384和1。
步骤7、如图2所示,使用自批判的强化学习方式训练预热后的图像描述生成器G,并使用二分类交叉熵损失训练文本判别器D,使得两者在对抗学习中交替优化,从而得到最优图像描述生成模型。在本实施例中,令线性层均使用pytorch库函数nn.linear实例化。预训练模型RoBERTa,GPT-2使用huggingface开源参数进行初始化。RoBERTa,GPT-2,提示生成器和真实度预测器的参数均在训练中可被优化,CLIP-TextEncoder文本特征提取器的参数在训练中保持冻结。
步骤7.1、自批判强化学习策略:
步骤7.1.1、预热后的图像描述生成器G对第i张图像的特征e I i 进行处理,并使用argmax策略和依概率采样策略分别输出一个文字描述C i X个采样文字描述,将任意一个采样文字描述记为C’ i X为采样次数;
将文字描述C i 和采样文字描述C’ i 分别输入到文字判别器D中进行处理,相应得到C i 的真实度预测值f D (C i )和C’ i 的真实度预测值f D (C’ i );
步骤7.2.2、激励函数计算:
在激励计算步骤,需要兼顾生成的描述文本的真实度和语义匹配度,前者要求生成的描述文本和人类自然语言相似,用文本判别器输出的真实度来衡量;后者要求生成的描述文本忠实于图像的内容,用图像-文本基于CLIP的特征相似度来衡量。在本实施例中,使用权重因子来加权两部分的激励。将文字描述C i 输入文本特征提取器CLIP-TextEncoder进行处理,获得文本特征e C i ,从而利用式(5)构建基线激励函数r(e I i, C i, e C i ):
Figure SMS_18
(5)
式(5)中,λ为权重因子,
Figure SMS_19
为CLIP温度系数;在本实施例中,λ设置为0.5。
将采样文字描述C’ i 输入文本特征提取器CLIP-TextEncoder进行处理,并获得采样文本特征e C’ i ,从而利用式(5)构建采样激励函数r(e I i, C i, e C’ i );
步骤7.2.3、利用式(6)计算自批判强化学习策略梯度
Figure SMS_20
Figure SMS_21
(6)
式(6)中,θ表示图像描述生成器G的参数,G θ 表示用图像描述生成器G依概率采样策略生成的概率分布,并由式(7)得到;
Figure SMS_22
表示对采样得到的X个采样文字描述求策略梯度均值。自批判强化学习策略通过在采样激励函数的基础上减掉基线激励函数来获得归一化之后的激励值,有利于缩小训练和推理阶段的差距,达到最优效果。在本实施例中,X设置为5。
Figure SMS_23
(7)
式(7)中,P G (C’ i,t |e I i ,C’ i,1:t-1)表示图像特征e I i 和已解码的前t-1个单词C’ i,1:t-1输入到图像描述生成器G时预测的第t个单词为C’ i,t 的概率;n为解码得到的句子长度;
步骤7.2、二分类文本判别策略:
步骤7.2.1、将采样文字描述C’ i 输入文本判别器D中进行处理,获得C’ i 的真实度预测值f D (C’ i );
步骤7.2.2、根据式(8)构建文本判别器D的二分类损失
Figure SMS_24
Figure SMS_25
(8)
式(7)中,
Figure SMS_26
为文本判别器D的参数,σ代表sigmoid函数;
步骤7.3、交替优化训练策略:
步骤7.3.1、定义当前迭代步数为step,并初始化step=1;定义学习率为γ;
步骤7.3.2、在当前第step步训练时先对二分类损失
Figure SMS_27
进行最小化,再利用式(9)对图像描述生成器G的第step步参数θ step进行更新,得到第step+1步参数θ step+1
Figure SMS_28
(9)
步骤7.3.3、step+1赋值给step后,判断step>step_max是否成立,若成立,则停止对抗训练,并从step_max步中选择最优图像描述生成器G用于对图像特征提取器CLIP-ImageEncoder处理后图像特征生成相应的无监督的图像描述,否则,返回步骤7.3.2顺序执行。在本实施例中,图像描述生成器G和文本判别器D的学习率均设置为0.00001,选择AdamW作为优化器。
结合下列图表进一步描述本发明的测试结果,表格中的MSCOCO和ShutterStock均为使用的数据集名称,在MSCOCO数据集的公开测试集上进行测试,METEOR(Metric forEvaluation of Translation with Explicit ORdering),CIDEr(Consensus-based ImageDescription Evaluation)和SPICE(Semantic Propositional Image CaptionEvaluation)均为图像描述领域的常用指标:
为了验证本发明图像描述生成器预热阶段各个学习策略对最终生成效果的贡献,进行了消融实验,包含三个预热阶段方法:(1)只使用文本重建学习策略;(2)结合文本重建学习策略和领域适应学习策略;(3) 结合文本重建学习策略,领域适应学习策略和语义约束学习策略,即使用所有学习策略。实验结果如表1所示。
表 1
Figure SMS_29
为了验证本发明对抗训练中不同的激励函数和是否使用图像描述生成器预热操作对最终生成效果的贡献,进行了消融实验,包含四个训练阶段方法:(1)激励函数只使用图像-文本基于CLIP的特征相似度,图像描述生成器不使用预热操作;(2) 激励函数只使用文本判别器输出的真实度,图像描述生成器不使用预热操作;(3)使用完整的激励函数,图像描述生成器不使用预热操作;(4)使用完整的激励函数,图像描述生成器使用预热操作。实验结果如表2所示。
表 2
Figure SMS_30
通过分析表1的结果,说明预热阶段的各个学习策略是有效的,随着策略的加入,实验结果有明显的提升;通过分析表2的结果,对抗训练中的激励函数组合和图像描述生成器预热操作均带来生成效果的提升。
表3将本发明与传统的无监督方法UIC-GAN(Unsupervised image captioning),R2M(Recurrent relational memory network for unsupervised image captioning),IGGAN(Interactions guided generative adversarial network for unsupervisedimage captioning)和TSGAN(Triple sequence generative adversarial nets forunsupervised image captioning)以及利用CLIP进行伪标签筛选的方法PL-UIC(Prompt-based learning for unpaired image captioning)进行对比。
表 3
Figure SMS_31
通过分析表3中的结果,说明本发明提出的方法不但显著超越了传统的无监督图像描述方法,而且比PL-UIC(Prompt-based learning for unpaired image captioning)利用CLIP的方式更加的有效,从而达到了更好的效果。

Claims (3)

1.一种基于文本对抗生成网络的无监督图像描述生成方法,其特征在于,是按如下步骤进行:步骤1、获取训练数据,包括:图像集和辅助文本库;
利用语言-图像对比学习预训练模型CLIP中的图像特征提取器CLIP-ImageEncoder对所述图像集中的N张图像进行特征提取,得到图像特征集合{e I i | i∈[1, N]},其中,e I i 表示第i张图像的特征;N表示图像总数;
对所述辅助文本库中的M个句子进行文本数据清洗,得到清洗后的文本库{S j | j∈[1,M]},其中,S j 表示第j个句子;
步骤2、构建图像描述生成器G,是由K个提示生成器和一个基于GPT-2语言生成模型的解码器构成;其中,所述提示生成器由H个线性层构成,前H-1个线性层后分别连接一个tanh激活函数;
K个提示生成器分别将第i张图像的特征e I i 转化K个提示向量后,输入所述基于GPT-2语言生成模型的解码器中进行处理,并输出解码后的句子C i
步骤3、利用语言-图像对比学习预训练模型CLIP中的文本特征提取器CLIP-TextEncoder对第j个句子S j 进行特征提取,得到文本特征e S j
步骤4、构建文本-图像特征转换器,包括Q层线性层,并利用最后一层的残差连接层将Q层线性层的输入和输出进行连接;
所述文本-图像特征转换器对文本特征e S j 进行处理,得到虚拟图像表征e F j
步骤5、由文本特征e S j 和第j个句子S j 构造一对特征-图像描述伪标签,由虚拟图像表征e F j 和第j个句子S j 构造另一对特征-图像描述伪标签,从而利用两对伪标签训练图像描述生成器G进行预热,得到具备初步生成能力的训练图像描述生成器G
步骤6、构建文本判别器D,是由一个基于RoBERTa语言理解模型的文本特征提取器和一个真实度预测器构成;其中,所述真实度预测器由Y个线性层构成,在前Y-1个线性层后均连接一个tanh激活函数;
所述基于RoBERTa语言理解模型的文本特征提取器将第j个句子S j 转化为文本特征后,输入所述真实度预测器中进行处理,从而将文本特征转化为S j 的真实度预测值f D (S j );
步骤7、使用自批判的强化学习方式训练预热后的图像描述生成器G,并使用二分类交叉熵损失训练文本判别器D,使得两者在对抗学习中交替优化,从而得到最优图像描述生成模型。
2.根据权利要求1所述的基于文本对抗生成网络的无监督图像描述生成方法,其特征在于,所述步骤5包括:
步骤5.1、领域适应学习策略:
从图像特征集合{e I i | i∈[1, N]}中选取一批包含有A个图像特征的特征数据;
从文本库{S j | j∈[1, M]}中选取一批包含B个句子的文本数据,并利用文本特征提取器CLIP-TextEncoder和文本-图像特征转换器对一批文本数据进行处理,得到B个虚拟图像特征;从而利用式(1)构建领域适应的损失函数L mmd
Figure QLYQS_1
(1)
式(1)中,k为高斯核函数;e I a 表示一批真实图像特征数据中的第a张图像的特征;e I b 表示一批真实图像特征数据中的第b张图像的特征,e F a 表示一批虚拟图像特征中的第a个虚拟图像特征,e F b 表示一批虚拟图像特征中的第b个虚拟图像特征;
步骤5.2、语义约束学习策略:
利用式(2)构建语义约束损失L cos
Figure QLYQS_2
(2)
步骤5.3、文本重建学习策略:
构造伪标签对(e S j , S j )和伪标签对(e F j , S j ),从而利用式(3)构建文本重建损失函数L mle
Figure QLYQS_3
(3)
式(3)中,S j,t 表示S j 中第t个单词,S j,1:t-1表示由S j 中前t-1个单词构成的文本,P G (S j,t | e S j , S j,1:t-1)表示文本特征e S j 和文本S j,1:t-1输入到图像描述生成器G时预测的第t个单词为S j,t 的概率;P G (S j,t | e F j , S j,1:t-1)表示虚拟图像表征e F j 和文本S j,1:t-1输入到图像描述生成器G时预测的第t个单词为S j,t 的概率;n表示S j 的长度;
步骤5.4、利用式(4)构造预热损失函数L full
L full = L mle +α L cos +βL mmd (4)
式(4)中,αβ为权重因子;
步骤5.5、最小化所述预热损失函数L full ,从而对所述图像描述生成器G进行预热训练,并得到预热后的图像描述生成器G
3.根据权利要求2所述的基于文本对抗生成网络的无监督图像描述生成方法,其特征在于,所述步骤7包括:
步骤7.1、自批判强化学习策略:
步骤7.1.1、所述预热后的图像描述生成器G对第i张图像的特征e I i 进行处理,并使用argmax策略和依概率采样策略分别输出一个文字描述C i X个采样文字描述,将任意一个采样文字描述记为C’ i X为采样次数;
将文字描述C i 和采样文字描述C’ i 分别输入到所述文字判别器D中进行处理,相应得到C i 的真实度预测值f D (C i )和C’ i 的真实度预测值f D (C’ i );
步骤7.2.2、激励函数计算:
将文字描述C i 输入文本特征提取器CLIP-TextEncoder进行处理,获得文本特征e C i ,从而利用式(5)构建基线激励函数r(e I i, C i, e C i ):
Figure QLYQS_4
(5)
式(5)中,λ为权重因子,
Figure QLYQS_5
为CLIP温度系数;
将采样文字描述C’ i 输入文本特征提取器CLIP-TextEncoder进行处理,并获得采样文本特征e C’ i ,从而利用式(5)构建采样激励函数r(e I i, C i, e C’ i );
步骤7.2.3、利用式(6)计算自批判强化学习策略梯度
Figure QLYQS_6
Figure QLYQS_7
(6)
式(6)中,θ表示图像描述生成器G的参数,G θ 表示用图像描述生成器G依概率采样策略生成的概率分布,并由式(7)得到;
Figure QLYQS_8
表示对采样得到的X个采样文字描述求策略梯度均值;
Figure QLYQS_9
(7)
式(7)中,P G (C’ i,t | e I i , C’ i,1:t-1)表示图像特征e I i 和已解码的前t-1个单词C’ i,1:t-1输入到图像描述生成器G时预测的第t个单词为C’ i,t 的概率;n为解码得到的句子长度;
步骤7.2、二分类文本判别策略:
步骤7.2.1、将采样文字描述C’ i 输入所述文本判别器D中进行处理,获得C’ i 的真实度预测值f D (C’ i );
步骤7.2.2、根据式(8)构建文本判别器D的二分类损失
Figure QLYQS_10
Figure QLYQS_11
(8)
式(7)中,
Figure QLYQS_12
为文本判别器D的参数,σ代表sigmoid函数;
步骤7.3、交替优化训练策略:
步骤7.3.1、定义当前迭代步数为step,并初始化step=1;定义学习率为γ;
步骤7.3.2、在当前第step步训练时先对二分类损失
Figure QLYQS_13
进行最小化,再利用式(9)对图像描述生成器G的第step步参数θ step进行更新,得到第step+1步参数θ step+1
Figure QLYQS_14
(9)
步骤7.3.3、step+1赋值给step后,判断step>step_max是否成立,若成立,则停止对抗训练,并从step_max步中选择最优图像描述生成器G用于对图像特征提取器CLIP-ImageEncoder处理后图像特征生成相应的无监督的图像描述,否则,返回步骤7.3.2顺序执行。
CN202310198396.4A 2023-03-03 2023-03-03 基于文本对抗生成网络的无监督图像描述生成方法 Active CN115953779B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310198396.4A CN115953779B (zh) 2023-03-03 2023-03-03 基于文本对抗生成网络的无监督图像描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310198396.4A CN115953779B (zh) 2023-03-03 2023-03-03 基于文本对抗生成网络的无监督图像描述生成方法

Publications (2)

Publication Number Publication Date
CN115953779A CN115953779A (zh) 2023-04-11
CN115953779B true CN115953779B (zh) 2023-06-16

Family

ID=85903247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310198396.4A Active CN115953779B (zh) 2023-03-03 2023-03-03 基于文本对抗生成网络的无监督图像描述生成方法

Country Status (1)

Country Link
CN (1) CN115953779B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503683A (zh) * 2023-06-06 2023-07-28 重庆师范大学 一种视觉语言模型的模态交互增强的提示学习方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159454A (zh) * 2019-12-30 2020-05-15 浙江大学 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统
CN112818159A (zh) * 2021-02-24 2021-05-18 上海交通大学 一种基于生成对抗网络的图像描述文本生成方法
CN113220891A (zh) * 2021-06-15 2021-08-06 北京邮电大学 基于无监督的概念到句子的生成对抗网络图像描述算法
CN113312925A (zh) * 2021-06-25 2021-08-27 中国人民解放军战略支援部队航天工程大学 一种基于自强化学习的遥感影像文本生成及优化方法
CN113434727A (zh) * 2021-01-25 2021-09-24 东南大学 一种新闻类长视频描述数据集构建方法
WO2021223323A1 (zh) * 2020-05-06 2021-11-11 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法
CN114972907A (zh) * 2022-05-10 2022-08-30 中国石油大学(华东) 基于强化学习和对比学习的图像语义理解及文本生成
CN115294427A (zh) * 2022-04-14 2022-11-04 北京理工大学 一种基于迁移学习的风格化图像描述生成方法
CN115393692A (zh) * 2022-09-08 2022-11-25 南京邮电大学 基于生成式预训练语言模型的联想文本到图像生成方法
CN115526259A (zh) * 2022-09-29 2022-12-27 清华大学 一种多模态预训练模型的训练方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220036153A1 (en) * 2020-07-29 2022-02-03 Thayermahan, Inc. Ultra large language models as ai agent controllers for improved ai agent performance in an environment
CN113705187B (zh) * 2021-08-13 2023-08-01 北京百度网讯科技有限公司 预训练语言模型的生成方法、装置、电子设备和存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159454A (zh) * 2019-12-30 2020-05-15 浙江大学 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统
WO2021223323A1 (zh) * 2020-05-06 2021-11-11 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法
CN113434727A (zh) * 2021-01-25 2021-09-24 东南大学 一种新闻类长视频描述数据集构建方法
CN112818159A (zh) * 2021-02-24 2021-05-18 上海交通大学 一种基于生成对抗网络的图像描述文本生成方法
CN113220891A (zh) * 2021-06-15 2021-08-06 北京邮电大学 基于无监督的概念到句子的生成对抗网络图像描述算法
CN113312925A (zh) * 2021-06-25 2021-08-27 中国人民解放军战略支援部队航天工程大学 一种基于自强化学习的遥感影像文本生成及优化方法
CN115294427A (zh) * 2022-04-14 2022-11-04 北京理工大学 一种基于迁移学习的风格化图像描述生成方法
CN114972907A (zh) * 2022-05-10 2022-08-30 中国石油大学(华东) 基于强化学习和对比学习的图像语义理解及文本生成
CN115393692A (zh) * 2022-09-08 2022-11-25 南京邮电大学 基于生成式预训练语言模型的联想文本到图像生成方法
CN115526259A (zh) * 2022-09-29 2022-12-27 清华大学 一种多模态预训练模型的训练方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Context Encoders: Feature Learning by Inpainting;Deepak Pathak et al;《arXiv》;全文 *
一种基于生成式对抗网络的图像描述方法;薛子育等;《软件学报》;全文 *
基于条件生成对抗网络的图像描述生成方法;黄远;白琮;李宏凯;张敬林;陈胜勇;;计算机辅助设计与图形学学报(第06期);全文 *
大规模图推荐模型的快速优化机制;杨正一等;《信息安全学报》;全文 *

Also Published As

Publication number Publication date
CN115953779A (zh) 2023-04-11

Similar Documents

Publication Publication Date Title
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
Liu et al. Medical-vlbert: Medical visual language bert for covid-19 ct report generation with alternate learning
CN110502753A (zh) 一种基于语义增强的深度学习情感分析模型及其分析方法
CN113204675B (zh) 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN115953779B (zh) 基于文本对抗生成网络的无监督图像描述生成方法
CN113657115B (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN113779310B (zh) 一种基于层级表征网络的视频理解文本生成方法
Zhang et al. Quantifying the knowledge in a DNN to explain knowledge distillation for classification
CN116779091B (zh) 一种多模态网络互联融合的胸部影像诊断报告自动生成方法
CN111242059B (zh) 基于递归记忆网络的无监督图像描述模型的生成方法
CN110298046B (zh) 一种翻译模型训练方法、文本翻译方法及相关装置
Fu et al. A CNN-LSTM network with attention approach for learning universal sentence representation in embedded system
Liu et al. Document-level event argument extraction with self-augmentation and a cross-domain joint training mechanism
CN114359656A (zh) 一种基于自监督对比学习的黑色素瘤图像识别方法和存储设备
CN113657125A (zh) 一种基于知识图谱的蒙汉非自回归机器翻译方法
CN116843995A (zh) 细胞影像学预训练模型构建方法和装置
Kezar et al. Improving sign recognition with phonology
CN112507717A (zh) 融合实体关键字特征的医疗领域实体分类方法
Chen et al. Attention-aware conditional generative adversarial networks for facial age synthesis
Wang et al. Dual adversarial network with meta-learning for domain-generalized few-shot text classification
Ananthanarayana et al. Effects of feature scaling and fusion on sign language translation
Yu et al. Semantic extraction for sentence representation via reinforcement learning
CN117708338B (zh) 一种中文电子病历实体识别与四诊分类的抽取方法及模型
Li et al. Research on chest radiography recognition model based on deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant