CN114022687A - 一种基于增强学习的图像描述对抗生成方法 - Google Patents
一种基于增强学习的图像描述对抗生成方法 Download PDFInfo
- Publication number
- CN114022687A CN114022687A CN202111120908.2A CN202111120908A CN114022687A CN 114022687 A CN114022687 A CN 114022687A CN 202111120908 A CN202111120908 A CN 202111120908A CN 114022687 A CN114022687 A CN 114022687A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- description
- representing
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000002787 reinforcement Effects 0.000 title claims abstract description 25
- 230000007246 mechanism Effects 0.000 claims abstract description 28
- 230000015654 memory Effects 0.000 claims abstract description 13
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 4
- 235000019987 cider Nutrition 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于增强学习的图像描述对抗生成方法,包括如下步骤:S1,根据待描述图像检索相似图像及其文本描述;S2,构建基于注意力机制的图像描述生成网络,在待描述图像生成文本时,引入注意力机制和长短期记忆网络,将长短期记忆网络的输出,结合提取的图像特征,经过注意力机制,计算损失,得到生成的文本描述;S3,构建图像描述相似性配对判别网络;S4,利用待描述图像及其标注配对的文本描述、生成网络生成的文本描述,及其相似图像的文本描述,通过判别网络进行配对判别,根据判别网络输出的奖励值,对生成网络和判别网络进行联合迭代优化;S5,将待生成描述的图像,输入训练后的生成网络,生成文本描述。
Description
技术领域
本发明涉及计算机视觉与NLP的交叉技术领域,尤其是涉及一种基于增强学习的图像描述对抗生成方法。
背景技术
图像描述是一项新兴的研究任务。在过去的二十年中,自然语言处理(NLP)和计算机视觉(CV)领域在分析和生成文本以及图像理解方面取得了巨大的进步。虽然这两个领域都有一套基于机器学习和人工智能的方法,但是它们在过去的研究中是分开的,并且在科学界的交互并不多。然而近年来,随着人工智能领域的进步和深度学习模型的发展,学者们对语言和视觉信息的结合问题产生了越来越多的兴趣。与此同时,网络上出现了大量文字和视觉信息结合的数据,比如:带有标签的照片,报纸插图,以及社交媒体上的多模态信息。这些数据的出现,更加使得基于深度学习的图像描述模型受到越来越多的关注。
当前,图像描述模型的局限性在于所生成的描述往往由普通单词组成,因此许多图像具有相似的描述。图像中的独特性概念被忽略,这限制了图像描述的应用。现有图像描述方法的结果往往不具有区分性,生成的描述比较通用和死板,描述模型的能力有限。尽管可以使用辅助信息(例如在何处,何时何地拍摄照片)来生成个性化的描述,但是大多数图像没有类似信息。在生成描述的质量方面,早期的方法已经提出了各种模型和度量来改善描述的流畅性和相关性,以获得准确的结果。但是,这些描述在生成描述的独特性方面表现得并不是很好,即图像描述模型生成的描述在将该图像与其他相似图像区分开的方面表现不佳。
最近的一些工作开始关注图像描述的独特性,并受到计算机视觉方面的启发,开始使用深度学习的方法解决存在的问题。例如,通过条件生成式对抗网络(GAN)生成更加独特的描述,通过自我检索和两阶段长短期记忆模型(LSTM)等技术来产生更多多样的描述性描述。生成式对抗网络的方法通过对抗学习,虽然改善了所生成描述的多样性,但牺牲了评估标准上的总体性能,在生成描述的准确性和流畅性方面表现难以满足当前的期待。
与图像描述的相似性和独特性相关的图像检索,近年来也受到了较多的关注。近年来表现较好的图像检索模型,将处于两个空间的图像和描述,按照语义关系映射到同一空间中,可以使得相似语义的图像和描述的距离更加接近。其中表现较好的方法是VSE++,它分析了难样本并把图像和描述映射到同一空间。基于这类工作,图像描述的多样性和独特性便可以顺利地度量和区分。这种方法使得图像描述工作更加智能和灵活,出现了一些以图像检索为基础的图像描述模型。这样以图像检索指导的描述框架不仅可以更好地区分不同图像的描述,而且可以从其他相似图像中获得特征信息,从相似数据中提取阴性样本可以进一步提高图像描述的独特性和区分性,不需要更多的额外注释。图像检索的进步对图像描述独特性的研究产生了很大的帮助,但图像描述中的描述生成独特性,仍有待提高。
发明内容
为解决现有技术的不足,实现提高图像描述的描述生成独特性的目的,本发明采用如下的技术方案:
一种基于增强学习的图像描述对抗生成方法,包括如下步骤:
S1,通过图像检索,为数据集中的待描述图像检索相似图像,所述数据集包括图像及其对应的一组文本描述;
S2,构建基于注意力机制的图像描述生成网络,为待描述图像生成文本描述的过程中,引入注意力机制和长短期记忆网络,将长短期记忆网络的输出,结合提取的图像特征,经过注意力机制和全卷积网络,计算交叉熵损失,获得单词输出,通过各单词,得到生成网络生成的文本描述;
S3,构建图像描述相似性配对判别网络,对输入的图像和文字描述,进行配对判别,根据判别网络输出是否配对的概率,作为强化学习的奖励值;
S4,利用待描述图像及其标注配对的文本描述、生成网络生成的文本描述,及其相似图像的文本描述,通过判别网络进行配对判别,根据奖励值,使用对抗损失和强化学习的训练策略,对生成网络和判别网络进行联合迭代优化;
S5,将待生成描述的图像,输入训练后的生成网络,为该图像生成文本描述。
进一步地,所述S2包括如下步骤:
S21,提取图像特征ai;
S22,为LSTM的输入,引入第一注意力机制;每层长短期记忆网络LSTM的输入为ai·α,α表示第一注意力权重矩阵,用于记录ai每个像素位置获得的关注度,α由前一时期LSTM的隐变量输出与图像特征相乘的注意力权重获得,公式为:
xt=a1·W1ai
a1=W1 hht-1·W1 aai
其中,xt表示当前时期LSTM的输入,a1表示第一注意力权重矩阵,ht-1表示前一时期LSTM的隐变量输出,ai表示图像特征,W1、W1 h、W1 a表示引入LSTM输入的第一注意力机制的可学习的权重矩阵;
S23,为LSTM的输出,引入第二注意力机制,对文本描述进行解码;LSTM的每层输出为wt,是ai与该层隐变量ht经过注意力机制的结果,公式如下:
wt=a2·W2ai
a2=W2 hht·W2 aai
其中,a2表示第二注意力权重矩阵,W2、W2 h、W2 a表示引入LSTM输出的第二注意力机制的可学习的权重矩阵。
进一步地,所述S3中的判别网络,对输入的图像,通过卷积网络,进行特征提取,对输入的文字描述,通过LSTM得到文字特征,对二者做内积,进行配对判别,通过全连接层进行特征融合,输出一个是否匹配的概率,作为强化学习的奖励值。
进一步地,所述S4中,判别网络的目标损失函数:
其中I表示数据集中的图像,x表示与图像匹配的文本描述,Sr表示数据集中匹配的图像与文本描述对,D(·)表示判别网络,E[·]表示对[·]中求均值;表示生成网络生成的文本描述,Sf表示图像与生成网络生成的文本描述对;表示相似图像的文本描述,Sw表示数据集中不匹配的图像与文本描述对,λ1、λ2、λ3、β为超参数。
第一项确保图像和描述的匹配,第二个项使得判别网络区分标注描述和生成的描述,推动它生成更自然的描述,第三个项抑制不配对的图像和描述,来确保语义相关性。
进一步地,所述S1的图像检索,是利用难样本改善联合语义嵌入的图像检索,将图像及其对应的文本描述,联合嵌入公共空间,得到表述图像和描述文本语义的跨模态空间,在跨模态空间中检索,得到与目标图像语义上相似的N张图像,包括如下步骤:
S11,将文本描述与图像映射到统一子空间,采用二者的内积计算相似度:
s(i,c)=f(i;wf,θφ)·g(c;wg,θψ)
其中f(·)表示图像特征提取,i表示图像,wf表示图像特征提取的权重,θφ表示卷积网络的参数,表示图像特征提取的学习参数,φ(·)表示卷积网络,g(·)表示文字特征提取,c表示文字,wg表示文字特征提取的权重,θψ表示序列网络的参数,表示文字特征提取的学习参数,ψ(·)表示序列网络,s(·)表示图像与文字特征内积,即二者相似度度量的内积;
S12,通过三元组损失进行训练,损失函数公式为:
S13,为避免描述来自同一图像,从中为数据集中的每个图像,检索一组相似描述,从这组相似描述中,找到前N张对应图像,作为检索到的相似图像。
进一步地,所述S4中的训练策略,采用强化学习自我批判算法进行训练,以贪婪搜索的解码结果作为基准,通过判别网络根据图像与文本描述配对生成的奖励值,更新整体生成网络的网络参数。SCST算法的训练策略抛弃自行设计一个基线的想法,通过平衡训练和测试这种自批判的算法,调整系统的性能参数。
进一步地,所述S23中,长短期记忆网络得到的当前时期单词的词嵌入向量,通过词袋模型,获得该层最终的单词输出。
进一步地,图像特征提取采用卷积网络VGG16,文字特征提取采用序列网络GRU。
进一步地,所述超参数λ1、λ2、λ3的取值分别为1、0.5、0.5。
进一步地,当存在5张相似图像的及每张5个文本描述,共计25个相似文本描述时,超参数β的取值为0.02。
本发明的优势和有益效果在于:
本发明采用基于检索的方式,对相似图像之间的描述进行细致的分析,提高生成描述的独特性;整个过程采用强化学习与对抗网络联合训练的方式,提高了生成描述的多样性;生成模型采用注意力机制进行描述的生成,关注到图像的不同区域,得到更加符合图像本身的描述;判别模型采用拉远与相似图像的描述距离的方式,并加大与匹配描述的权重,保证了描述与图像的配准保真度。
附图说明
图1是本发明方法的网络架构及流程图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明首先采用了利用难样本改善联合语义嵌入的图像检索方法(VSE++),对数据集MSCOCO,Flickr30K进行训练,将图像和文字描述映射到同一个空间里,利用三元组损失,进而得到训练好的相似图像和描述文字共空间的模型;之后依靠生成式对抗网络(GAN)生成独特性较强的图像,具体地,利用生成网络对图像数据进行特征提取,生成输入图像的描述,并利用判别网络和区别性损失,将该描述与相似图像的其他描述区分开。整个发明为两阶段的图像描述方法,加强了生成描述的多样性和独特性。
如图1所示,一种基于增强学习的图像描述对抗生成方法,包括如下步骤:
S1,根据MSCOCO以及Flickr30K两个数据集的图像及与之匹配的5个描述,将图片重塑为224*224大小后作为输入,通过利用难样本改善联合语义嵌入的图像检索方法VSE++,并使用VGG16提取图像特征,文本描述采用GRU将文本与图像映射到同一个子空间,二者相似度度量采用二者的内积进行计算,通过卷积网络VGG16与序列网络GRU分别得到图像和文本特征:
s(i,c)=f(i;wf,θφ)·g(c;wg,θψ)
其中f(·)表示图像特征,i表示图像,wf表示图像特征提取的权重,θφ表示卷积网络的参数,表示图像特征提取的学习参数,φ(·)表示卷积网络VGG16,g(·)表示文字特征提取,c表示文字,wg表示文字特征提取的权重,θψ表示序列网络的参数,表示文字特征提取的学习参数,ψ(·)表示序列网络GRU,s(·)表示图像与文字特征内积,即二者相似度度量的内积。
最终采用三元组损失triplet loss训练,损失函数公式为:
之后跨模态空间训练完成,为避免描述来自同一图像,从中为数据集中每个图像检索25个相似描述,从这些描述中找到前五个对应图像,完成语义相似的图像检索阶段,为每张图像检索五个相似图像。
S2,基于注意力机制的对抗生成图像描述方法,构建基于注意力机制的图像描述生成网络,该生成网络,改进Show,attend and tell的思想,在描述生成的过程中引入注意力机制,使用图像特征提取的基于卷积神经网络(CNN)的注意力特征提取网络,用于对图像进行编码,将提取的图像特征,加入长短期记忆网络,对编码特征解码成文字描述,生成图像描述。
编码过程输入为图像I,将图像归一化到224*224,使用预训练的卷积网络VGG16中第五层卷积的conv5_3所输出的特征,得到512维的图像特征{ai}。解码过程输入为该512维图像特征{ai},模型采用长短期记忆模型LSTM,其每个时期的输出,结合图像特征经过注意力机制和全卷积网络,经过计算交叉熵损失获得该层最终的单词输出。注意力机制采用以下规则:图像特征为512维的ai,每层LSTM的输入部分由ai·α获得,α表示编码阶段注意力权重矩阵,用于记录ai每个像素位置获得的关注度(注意力)。α由前一时期LSTM的隐变量输出与图像特征相乘的注意力权重获得,公式为:
xt=a1·W1ai
a1=W1 hht-1·W1 aai
其中,xt表示当前时期LSTM的输入,a1表示编码阶段第一注意力权重矩阵,ht-1表示上一时期隐变量输出,ai表示图像特征,W1、W1 h、W1 a表示LSTM输入注意力机制的可学习的权重矩阵。LSTM的每层输出为wt,是ai与该层隐变量ht经过注意力机制的结果,公式如下:
wt=a2·W2ai
a2=W2 hht·W2 aai
其中,a2表示编码阶段第二注意力权重矩阵,W2、W2 h、W2 a、表示LSTM输出注意力机制的可学习的权重矩阵。
S3,构建图像描述相似性配对判别网络,利用相似图像进行图像与描述的配对判别,根据配对情况生成强化学习的奖励值。
图像描述相似性配对判别网络,采用简单的卷积网络VGG16得到图像特征,并将对应的3种描述通过LSTM得到文字特征。3种描述为:生成网络生成的描述、该图像标注的配对描述、5个相似图像的总共25个描述。之后得到的特征通过相乘,得到内积的形式,通过全连接层进行特征融合,并给出奖励分数。最终得到的判别网络的目标损失函数:
其中I表示该图像,x表示数据集中匹配的图像描述,Sr表示数据集中匹配的图像描述对,D(·)表示判别网络,E[·]表示对[·]中求均值;表示生成网络生成的描述,Sf表示图片与生成网络生成的描述对;表示相似图像的描述,Sw表示数据集中不匹配的图像描述对,λ1、λ2、λ3为超参数分别为1、0.5、0.5。β为超参数,由于存在25个相似描述,因此设置为0.02。
第一项确保图像和描述的匹配,第二个项使得判别网络区分标注描述和生成的描述,推动它生成更自然的描述,第三个项抑制不配对的图像和描述,来确保语义相关性。该判别网络对生成的描述,经过全连接层,输出一个是否匹配的概率,作为强化学习的奖励值R。
S4,最终通过对抗损失和强化学习策略进行联合迭代优化。考虑到希望测定获得描述的独特性与保真度,因此使用BLEU和CIDEr评分算法作为最终的评价标准。
具体地,根据奖励值,使用强化学习的训练策略进行联合优化和训练,强化学习的训练策略采用强化学习自我批判算法(SCST),采用贪婪搜索的解码结果作为基准,通过图像描述配对,判别网络生成的奖励值得分,来更新整体生成网络的网络参数。SCST算法的训练策略抛弃自行设计一个基线的想法,通过平衡训练和测试这种自批判的算法,调整系统的性能参数。
S5,测试阶段,包括如下步骤:
1)将测试图像输入训练好的基于注意力机制的图像描述生成网络中,输出对应该测试图像的描述。
2)对该描述与标注的匹配描述进行BLEU以及CIDEr标准的计算和测量,作为最终输出描述的结果评价。
本实施例的测试环境及实验结果为:
(1)测试环境:
系统环境:ubuntu16.04;
硬件环境:内存:16GB,GPU:TITIANXP,硬盘:1TB;
(2)实验数据:
训练数据:
使用Flickr30K以及MSCOCO数据集两个数据集分别进行训练和测试,训练到模型稳定,效果不再提升。
测试数据:Flickr30K以及MSCOCO的测试数据集
评估方法:在线评估
(3)实验结果:
本发明测试对比结果如表1所示,使用本发明方法得到的BLEU-2、BLEU-3、BLEU-4、CIDEr评分值均高于未使用本发明方法得到的评分值。其中“未使用本发明方法”,代表未检索相似图像进行对抗学习并未使用增强学习的方法。
表1
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
Claims (10)
1.一种基于增强学习的图像描述对抗生成方法,其特征在于包括如下步骤:
S1,通过图像检索,为数据集中的待描述图像检索相似图像,所述数据集包括图像及其对应的一组文本描述;
S2,构建基于注意力机制的图像描述生成网络,为待描述图像生成文本描述的过程中,引入注意力机制和长短期记忆网络,将长短期记忆网络的输出,结合提取的图像特征,经过注意力机制,计算损失,获得单词输出,通过各单词,得到生成网络生成的文本描述;
S3,构建图像描述相似性配对判别网络,对输入的图像和文字描述,进行配对判别,根据判别网络输出是否配对的概率,作为强化学习的奖励值;
S4,利用待描述图像及其标注配对的文本描述、生成网络生成的文本描述,及其相似图像的文本描述,通过判别网络进行配对判别,根据奖励值,使用对抗损失和强化学习的训练策略,对生成网络和判别网络进行联合迭代优化;
S5,将待生成描述的图像,输入训练后的生成网络,为该图像生成文本描述。
2.根据权利要求1所述的一种基于增强学习的图像描述对抗生成方法,其特征在于所述S2包括如下步骤:
S21,提取图像特征ai;
S22,为LSTM的输入,引入第一注意力机制;每层长短期记忆网络LSTM的输入为ai·α,α表示第一注意力权重矩阵,用于记录ai每个像素位置获得的关注度,α由前一时期LSTM的隐变量输出与图像特征相乘的注意力权重获得,公式为:
xt=a1·W1ai
a1=W1 hht-1·W1 aai
其中,xt表示当前时期LSTM的输入,a1表示第一注意力权重矩阵,ht-1表示前一时期LSTM的隐变量输出,ai表示图像特征,W1、W1 h、W1 a表示引入LSTM输入的第一注意力机制的可学习的权重矩阵;
S23,为LSTM的输出,引入第二注意力机制,对文本描述进行解码;LSTM的每层输出为wt,是ai与该层隐变量ht经过注意力机制的结果,公式如下:
wt=a2·W2ai
a2=W2 hht·W2 aai
其中,a2表示第二注意力权重矩阵,W2、W2 h、W2 a表示引入LSTM输出的第二注意力机制的可学习的权重矩阵。
3.根据权利要求1所述的一种基于增强学习的图像描述对抗生成方法,其特征在于所述S3中的判别网络,对输入的图像,通过卷积网络,进行特征提取,对输入的文字描述,通过LSTM得到文字特征,对二者做内积,进行配对判别,通过全连接层进行特征融合,输出一个是否匹配的概率,作为强化学习的奖励值。
5.根据权利要求1所述的一种基于增强学习的图像描述对抗生成方法,其特征在于所述S1的图像检索,是利用难样本改善联合语义嵌入的图像检索,将图像及其对应的文本描述,联合嵌入公共空间,得到表述图像和描述文本语义的跨模态空间,在跨模态空间中检索,得到与目标图像语义上相似的N张图像,包括如下步骤:
S11,将文本描述与图像映射到统一子空间,采用二者的内积计算相似度:
s(i,c)=f(i;wf,θφ)·g(c;wg,θψ)
其中f(·)表示图像特征提取,i表示图像,wf表示图像特征提取的权重,θφ表示卷积网络的参数,表示图像特征提取的学习参数,φ(·)表示卷积网络,g(·)表示文字特征提取,c表示文字,wg表示文字特征提取的权重,θψ表示序列网络的参数,表示文字特征提取的学习参数,ψ(·)表示序列网络,s(·)表示图像与文字特征内积,即二者相似度度量的内积;
S12,通过三元组损失进行训练,损失函数公式为:
S13,为数据集中的图像,检索一组相似描述,从这组相似描述中,找到前N张对应图像,作为检索到的相似图像。
6.根据权利要求1所述的一种基于增强学习的图像描述对抗生成方法,其特征在于所述S4中的训练策略,采用强化学习自我批判算法进行训练,以贪婪搜索的解码结果作为基准,通过判别网络根据图像与文本描述配对生成的奖励值,更新整体生成网络的网络参数。
7.根据权利要求2所述的一种基于增强学习的图像描述对抗生成方法,其特征在于所述S23中,长短期记忆网络得到的当前时期单词的词嵌入向量,通过词袋模型,获得该层最终的单词输出。
8.根据权利要求3或5所述的一种基于增强学习的图像描述对抗生成方法,其特征在于图像特征提取采用卷积网络VGG16,文字特征提取采用序列网络GRU。
9.根据权利要求4所述的一种基于增强学习的图像描述对抗生成方法,其特征在于所述超参数λ1、λ2、λ3的取值分别为1、0.5、0.5。
10.根据权利要求4所述的一种基于增强学习的图像描述对抗生成方法,其特征在于超参数β的取值为0.02。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111120908.2A CN114022687B (zh) | 2021-09-24 | 2021-09-24 | 一种基于增强学习的图像描述对抗生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111120908.2A CN114022687B (zh) | 2021-09-24 | 2021-09-24 | 一种基于增强学习的图像描述对抗生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114022687A true CN114022687A (zh) | 2022-02-08 |
CN114022687B CN114022687B (zh) | 2024-05-10 |
Family
ID=80054750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111120908.2A Active CN114022687B (zh) | 2021-09-24 | 2021-09-24 | 一种基于增强学习的图像描述对抗生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114022687B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114359741A (zh) * | 2022-03-19 | 2022-04-15 | 江西财经大学 | 基于区域特征的图像描述模型注意力机制评价方法与系统 |
CN116227474A (zh) * | 2023-05-09 | 2023-06-06 | 之江实验室 | 一种对抗文本的生成方法、装置、存储介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052512A (zh) * | 2017-11-03 | 2018-05-18 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
CN109726696A (zh) * | 2019-01-03 | 2019-05-07 | 电子科技大学 | 基于推敲注意力机制的图像描述生成系统及方法 |
WO2019148898A1 (zh) * | 2018-02-01 | 2019-08-08 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
CN112818159A (zh) * | 2021-02-24 | 2021-05-18 | 上海交通大学 | 一种基于生成对抗网络的图像描述文本生成方法 |
-
2021
- 2021-09-24 CN CN202111120908.2A patent/CN114022687B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052512A (zh) * | 2017-11-03 | 2018-05-18 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
WO2019148898A1 (zh) * | 2018-02-01 | 2019-08-08 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
CN109726696A (zh) * | 2019-01-03 | 2019-05-07 | 电子科技大学 | 基于推敲注意力机制的图像描述生成系统及方法 |
CN112818159A (zh) * | 2021-02-24 | 2021-05-18 | 上海交通大学 | 一种基于生成对抗网络的图像描述文本生成方法 |
Non-Patent Citations (1)
Title |
---|
韦人予;蒙祖强;: "基于注意力特征自适应校正的图像描述模型", 计算机应用, no. 1, 10 July 2020 (2020-07-10) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114359741A (zh) * | 2022-03-19 | 2022-04-15 | 江西财经大学 | 基于区域特征的图像描述模型注意力机制评价方法与系统 |
CN116227474A (zh) * | 2023-05-09 | 2023-06-06 | 之江实验室 | 一种对抗文本的生成方法、装置、存储介质及电子设备 |
CN116227474B (zh) * | 2023-05-09 | 2023-08-25 | 之江实验室 | 一种对抗文本的生成方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114022687B (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN108897989B (zh) | 一种基于候选事件元素注意力机制的生物事件抽取方法 | |
CN112149603B (zh) | 一种基于跨模态数据增广的连续手语识别方法 | |
CN111400455A (zh) | 基于知识图谱的问答系统的关系检测方法 | |
CN112015862B (zh) | 基于层级多通道注意力的用户异常评论检测方法及系统 | |
CN113204675B (zh) | 一种基于跨模态物体推理网络的跨模态视频时刻检索方法 | |
CN108228576A (zh) | 文本翻译方法及装置 | |
CN111046904B (zh) | 一种图像描述方法、图像描述装置及计算机存储介质 | |
CN114022687A (zh) | 一种基于增强学习的图像描述对抗生成方法 | |
CN114385803B (zh) | 一种基于外部知识和片段选择的抽取式阅读理解方法 | |
Huang et al. | An effective multimodal representation and fusion method for multimodal intent recognition | |
CN111897954A (zh) | 一种用户评论方面挖掘系统、方法、及存储介质 | |
CN116611024A (zh) | 一种基于事实和情感对立性的多模态反讽检测方法 | |
CN111540470A (zh) | 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法 | |
CN113239159A (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 | |
CN114912512A (zh) | 一种对图像描述的结果进行自动评估的方法 | |
CN114020871B (zh) | 基于特征融合的多模态社交媒体情感分析方法 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN110309515B (zh) | 实体识别方法及装置 | |
CN115169472A (zh) | 针对多媒体数据的音乐匹配方法、装置和计算机设备 | |
CN114757183A (zh) | 一种基于对比对齐网络的跨领域情感分类方法 | |
CN113807307A (zh) | 一种用于视频多行为识别的多模态联合学习方法 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN116796047A (zh) | 一种基于预训练模型的跨模态信息检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |