CN114972907A - 基于强化学习和对比学习的图像语义理解及文本生成 - Google Patents

基于强化学习和对比学习的图像语义理解及文本生成 Download PDF

Info

Publication number
CN114972907A
CN114972907A CN202210502569.2A CN202210502569A CN114972907A CN 114972907 A CN114972907 A CN 114972907A CN 202210502569 A CN202210502569 A CN 202210502569A CN 114972907 A CN114972907 A CN 114972907A
Authority
CN
China
Prior art keywords
poetry
cross
image
generator
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210502569.2A
Other languages
English (en)
Inventor
吴春雷
王江楠
王雷全
胡飞
张欢
郝宇钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202210502569.2A priority Critical patent/CN114972907A/zh
Publication of CN114972907A publication Critical patent/CN114972907A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了基于强化学习和对比学习的图像语义理解及文本生成。该任务的挑战在于如何用表达简练而内容丰富的文本准确的描述图像内容。目前的大多数方法是以图像标题来描述图像,而图像标题过于简单的特点导致了存在描述不全面的情况。而目前以诗歌描述图像的新任务又缺乏带标注的数据集。本发明通过诗歌来描述图像内容,利用诗歌表达简练、语义丰富并具有艺术性的特点,结合强化学习和对比学习设计了一种无监督创作多样化诗歌的方法。提出的方法以生成式对抗网络为基本框架,生成器基于图像创作诗歌,判别器预测诗歌的真实性。通过设计的古典概念词奖励机制和跨模态特征对齐机制来强化诗歌与图像的一致性。并设计多样性奖励机制来引导模型创作多样化的诗歌。实验结果证明提出的方法在相互独立的图像和诗歌数据集上训练后,模型能够创作多样化的诗歌来描述图像。

Description

基于强化学习和对比学习的图像语义理解及文本生成
技术领域
本发明属于图像描述技术领域,涉及计算机视觉和自然语言处理的方法。
背景技术
图像语义理解及文本生成是运用计算机视觉相关技术理解图像语义内容,并运用自然语言处理相关技术生成文本描述。传统的图像语义理解及文本生成是指为图像生成标题,标题是一种陈述性的简单句子,描述图像中的对象和对象之间的关系。近年来,在图像标题的研究基础上提出了一些新的图像语义理解及文本生成任务,包括视觉问答和看图写诗。诗歌是一种具有艺术性的文学体裁,看图写诗是一项更具挑战性的任务,不仅要准确的理解图像内容,还要以简练和优美的语言去描述图像。近年来,随着深度学习中循环神经网络、生成式对抗网络、卷积神经网络的出现,促进了自然语言和计算机视觉相融合。在图像描述研究领域,卷积神经网络结合循环神经网络是最常被采用的方法,以此为基础提出了许多模型,改进方向大多是优化视觉或文本特征,以及设计注意力机制来关注重要信息。
通过对现有方法的不足之处进行分析和总结,得出以下两个需要解决的问题:用诗歌描述图像的相关工作主要分为监督和无监督学习。第一个问题是在监督学习中,目前只有公开的英文多模态诗歌数据集,数据集规模是八千多个对图像诗歌对。然而,小规模的多模态数据集会限制深度学习模型的表现,并且目前没有公开的多模态中文诗歌数据集,而制作多模态数据集需要很多人力,增加模型的训练成本。目前有些方法通过图像和诗歌中的概念词,自动匹配构造伪成对数据集。但是自动匹配的数据集中存在许多噪音,原因是诗歌还具有情感和风格特征,只通过概念词匹配会忽略这些重要特征,导致图像和诗歌之间语义不一致,从而影响到数据集的质量。第二个问题是在无监督学习中,目前的方法都是基于关键词,并通过模块化组合方式完成看图写诗任务。然而关键词的质量很难保证,存在的问题是用现代关键词来生成古典诗歌,这导致诗歌流畅性和连贯性比较差,与图像之间的一致性低。并且在限制诗歌的超参数(长度,格律,押韵)条件下,由关键词生成的诗歌存在多样性不足,也就是基于同一张图像生成的多首诗歌之间相似度高。
发明内容
本发明为了解决上述问题,提出了一个基于强化学习和对比学习的图像语义理解及文本生成方法。本发明的具体步骤如下:
S1.以生成式对抗网络作为从图像生成诗歌的基本框架,生成器负责理解图像内容并生成诗歌,判别器负责判断诗歌的真实性。
S2.基于强化学习方法设计古典概念词奖励机制,该奖励会促进生成器创作出符合图像中视觉对象的诗歌。
S3.基于强化学习方法设计跨模态特征对齐机制,直接跨模态对齐以减小跨模态特征重构误差为目标,间接跨模态对齐以优化生成器创作诗歌质量为目标。
S4.基于对比学习方法设计对比奖励机制,通过采样的潜在代码控制生成器创作诗歌的多样性。
S5.基于强化学习和对比学习的模型训练。
本发明的技术方案特征和改进为:
对于步骤S1,本发明以生成式对抗网络作为基本框架。总体上,数据集包括一组图像原特征X={x1,…,xN}和一组诗歌Y={y1,…,yM},每首诗歌由n个句子组成,即y={l1,l2,…,ln},N和M分别是图像的总数和诗歌的总数。图像数据集和诗歌数据集之间没有任何关联。生成器生成的诗歌表示为
Figure BDA0003635985390000021
其中每一句子由T个字符组成,即
Figure BDA0003635985390000022
对于生成器,它主要组成部分是图像特征提取器、诗歌编码器和诗歌解码器。由卷积神经网络CNN提取图像的特征x,再经过图像特征转换器
Figure BDA0003635985390000023
对特征维度做变换以适应诗歌解码器。诗歌编码器通过双向LSTM对句子进行编码得到一组隐藏状态,并由句子特征转换器
Figure BDA0003635985390000024
对编码器的输出做变换以适应解码器。特征转换如式(1)和(3)所示:
Figure BDA0003635985390000025
Figure BDA0003635985390000026
Figure BDA0003635985390000027
公式(1)中fimg表示维度转换后的图像特征,即图像特征。公式(2)中
Figure BDA0003635985390000028
表示字符嵌入,
Figure BDA0003635985390000029
表示前向隐藏状态,
Figure BDA00036359853900000210
表示反向隐藏状态,
Figure BDA00036359853900000211
表示编码器隐藏状态。公式(3)中
Figure BDA00036359853900000212
表示编码器输出经转换器处理后的句子特征,即句子特征。
为了达到生成器创作多样化的诗歌,使用潜在代码和图像特征的拼接作为诗歌解码器的初始输入。具体上,诗歌的第一句创作时解码器基于图像特征和潜在代码预测字符,图像特征和潜在代码经过拼接后由跨模态转换器
Figure BDA0003635985390000031
做特征维度变换。并且,对于诗歌接下来的内容,由图像特征和编码器对上一句处理得到的句子特征进行拼接,再做特征维度变化后作为解码器的初始输入。解码器初始输入的跨模态特征由公式(4)和(5)得到。
Figure BDA0003635985390000032
Figure BDA0003635985390000033
公式(4)中
Figure BDA0003635985390000034
表示诗歌的第一个跨模态特征,z表示从标准高斯分布中随机采样得到的潜在代码。公式(5)中
Figure BDA0003635985390000035
表示诗歌的跨模态特征。
诗歌解码器由LSTM预测字符。首先解码器LSTM的初始输入是跨模态特征
Figure BDA0003635985390000036
和初始状态为零状态s-1,并且解码器的输出为起始隐藏状态
Figure BDA0003635985390000037
接着解码器的输入为起始字符
Figure BDA0003635985390000038
的嵌入表示和起始隐藏状态为
Figure BDA0003635985390000039
以及注意力机制得到的上下文向量
Figure BDA00036359853900000310
并且解码器的输出为下一个隐藏状态
Figure BDA00036359853900000311
通过重复上述步解码步骤,解码器得到一组的隐藏状态。相关计算如公式(6)、(7)和(8)所示:
Figure BDA00036359853900000312
Figure BDA00036359853900000313
Figure BDA00036359853900000314
在得到解码器的输入的所有隐藏状态后,由线性层将隐藏状态映射到词汇表,再经过归一化函数计算出词汇表中字符的概率分布,采样函数接下来从概率分布中采样得到字符并最终组成一个完整的句子。相关计算如公式(9)和(10)所示:
Figure BDA00036359853900000315
Figure BDA00036359853900000316
公式(9)中linear表示线性层,softmax表示归一化函数,
Figure BDA00036359853900000317
是词汇表的概率分布。公式(10)中sample表示的采样函数服从类别分布。
对于判别器,由LSTM编码生成的诗歌或来自诗歌数据集的真实诗歌。判别器需要对输入的诗歌进行判断并预测出真实性概率。计算方法是LSTM编码句子并输出每一步的隐藏状态,隐藏状态经过线性层映射为数值,再由激活函数对数值进行归一化得到预测的真实性概率。基于强化学习,将生成诗歌的真实性概率值的对数形式作为生成器的对抗奖励。判别器的对抗损失由真实诗歌和生成诗歌的真实性概率得到。相关计算的公式如下所示:
Figure BDA0003635985390000041
Figure BDA0003635985390000042
Figure BDA0003635985390000043
Figure BDA0003635985390000044
公式(11)和公式(12)中
Figure BDA0003635985390000045
表示判别器LSTM输出的隐藏状态,
Figure BDA0003635985390000046
表示判别器预测的真实性概率。公式(13)中
Figure BDA0003635985390000047
表示生成器的对抗性奖励。公式(14)中
Figure BDA0003635985390000048
表示判别器的对抗性损失。
对于步骤S2,本发明为了强化生成诗歌和图像之间的一致性,通过设计古典概念词奖励机制优化生成器。具体上,图像由预训练的目标检测器检测出一组视觉对象和置信分数。视觉对象是英文的现代关键词,需要被转换为中文的古典关键词。基于目标检测器的对象字典,制作一个现代-古典概念字典,用于将图像检测出的视觉概念转换为对应的古典概念。古典概念词奖励以生成诗歌中是否具有与图像相同的概念词作为奖励依据,并将视觉对象的置信分数作为奖励值。相关计算如以下公式所示:
Figure BDA0003635985390000049
Figure BDA00036359853900000410
Figure BDA00036359853900000411
公式(15)中Oen表示图像检测出的视觉对象和置信分数集合,公式(16)中
Figure BDA00036359853900000412
表示一个现代关键词对应的古典关键词集合,公式(17)中
Figure BDA00036359853900000413
表示古典概念词奖励。
对于步骤S3,本发明设计跨模态对齐机制,目的是让生成器从诗歌数据集中学习以提高生成诗歌的质量。因为生成器中的解码器是基于跨模态特征来创作诗歌,为了使得生成器可以学习真实诗歌,需要建立真实诗歌和跨模态特征之间的映射关系。具体上,直接跨模态对齐的目标是使得生成器的跨模态特征和判别器重构的跨模态特征之间进行特征对齐。判别器将生成器创作出的诗歌先进行编码,再经过跨模态特征转换器
Figure BDA0003635985390000051
进行特征维度变换得到重构的跨模态特征,接着与生成器的跨模态特征计算对齐损失。基于跨模态特征对齐,就可以将真实诗歌先由判别器映射为跨模态特征,再由生成器基于跨模态特征创作出诗歌,真实诗歌和生成诗歌之间通过交叉熵损失来提高生成器的创作能力。相关计算公式如下所示:
Figure BDA0003635985390000052
Figure BDA0003635985390000053
Figure BDA0003635985390000054
公式(18)中
Figure BDA0003635985390000055
表示跨模态特征对齐损失,公式(19)中
Figure BDA0003635985390000056
表示生成器的跨模态特征奖励,公式(20)中
Figure BDA0003635985390000057
表示生成器诗歌的交叉熵损失。
对于步骤S4,本发明设计的对比学习方法,目的是让生成器可以个根据潜在代码实现生成诗歌多样化。生成器的解码器的初始跨模态特征是由图像特征和潜在代码拼接而成,也就是解码器创作诗歌主要依赖于图像特征,并受到潜在代码的影响。因为潜在代码是从高斯分布中随机采样得到,那么由十分接近的潜在代码创作出的诗歌应该是相似的,由差异化的潜在代码创作出的诗歌应该是有区别的。为了指导生成器依据潜在代码实现多样化创作,通过高斯分布中的小超球面进行正负采样,也就是随机采样的潜在代码作为球心,正采样来自球面内部,负采样来自球面外部。生成器基于图像特征和三个潜在代码,分别创作出三首诗歌,并由判别器映射的重构跨模态来度量诗歌之间的差异性。多样化损失目标是减少标准和正采样得到的重构跨模态特征之间差异,并增加标准和负采样得到的重构跨模态特征之间差异。相关的计算公式如下:
Figure BDA0003635985390000058
公式(21)中
Figure BDA0003635985390000059
表示生成器的多样化奖励,ε表示一个常量,sim(a,b)表示向量a和向量b之间的余弦相似度。r表示标准重构跨模态特征
Figure BDA00036359853900000510
r+表示正重构跨模态特征
Figure BDA00036359853900000511
r-表示负重构跨模态特征
Figure BDA00036359853900000512
对于步骤S5,强化学习针对生成器进行策略梯度计算,其中生成器的奖励包括对抗性奖励、古典概念词奖励、跨模态特征对齐奖励和多样化奖励。除此之外,跨模态间接对齐,也就是交叉熵损失也为生成器提供梯度。判别器的损失包括对抗性损失和跨模态特征对齐损失。相关计算公式如下所示:
Figure BDA0003635985390000061
Figure BDA0003635985390000062
Figure BDA0003635985390000063
公式(22)中
Figure BDA0003635985390000064
表示生成器的总奖励,λc、λm和λd表示超参数用于平衡各个奖励项。公式(23)中
Figure BDA0003635985390000065
表示生成器的总损失,bt表示基线奖励。公式(24)中
Figure BDA0003635985390000066
表示判别器的总损失。
因为诗歌和图像数据集是相互独立的,所以模型从头进行训练具有挑战性,为了使得模型能够以更好的参数开始训练,设计预训练方法对模型参数进行初始化。具体上,生成器的预训练分为两步。第一步制作自动匹配的图像诗歌对数据集,首先,基于现代-古典概念字典统计图像和诗歌中相同的概念,如果图像和诗歌至少具有三个相同概念则认为它们是匹配的。其次,利用现成的同义词扩展工具扩展诗歌的概念词,通过计算图像和诗歌之间在概念上的Jaccard系数,如果系数值不小于0.5,则认为两者是匹配的。第二步,基于自动匹配的图像诗歌对数据集,采样交叉熵损失训练生成器。判别器预训练也分为两步,第一步按照间接跨模态特征对齐方法,将真实诗歌输入到判别器得到跨模态特征,再由生成器创作诗歌,采用交叉熵损失训练判别器。第二步,从高斯分布中随机采样伪图像特征,以对抗性目标训练判别器。
与现有的技术相比,本发明的有益效果是:
1.本发明的方法基于强化学习设计的古典概念词奖励机制在和跨模态特征对齐方法有效的消除了对图像诗歌对数据集的依赖,模型以无监督的端到端方式训练。
2.本发明的方法基于对比学习设计的多样化奖励机制提高了模型在表达多样性方面的表现,可以从图像中创作出多首不同的诗歌。
3.本发明的方法能够应用于对话系统中,用特定领域下图像和文本的数据集训练模型。在实际对话场景中,模型根据用户给定的图像,创作符合图像内容的诗歌,满足用户需求。
附图说明
图1为本发明中基于生成式对抗网络的图像语义理解及文本生成框架图。
图2为本发明中图像和文本跨模态对齐机制的结构图。
图3为本发明中文本多样化奖励机制的结构图。
图4为本发明中的图像语义理解及文本生成模型,在图像和文本一致性方面的可视化结果图。
图5为本发明中的图像语义理解及文本生成模型,在文本多样性方面的可视化结果图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制。
以下结合附图和及具体实施方式对本发明做进一步的阐述。
图1为基于生成式对抗网络的图像语义理解及文本生成框架图。如图1所示,图像原特征由Faster-RCNN提取并经过图像转换器映射到图像空间得到图像特征。诗歌编码器是双向LSTM,对字符进行编码并输出隐藏状态,这组隐藏状态被句子转换器映射到句子空间得到句子特征,此外还被解码器的注意力机制所使用以获得上下文向量。诗歌的第一个跨模态特征由从高斯分布中采样的潜在代码和图像特征拼接而成,接下来的跨模态特征由上一个句子的特征和图像特征拼接而成。跨模态特征将作为解码器的初始输入,并结合注意力机制,由LSTM解码出一组隐藏状态并经过线性层映射到词汇表,再通过采样函数生成下一个句子。生成的句子被输入到判别器,由LSTM编码后输出隐藏状态,再经过线性层和激活函数得到预测的真实性概率。重构的跨模态特征由判别器LSTM的最后一个隐藏状态经过线性层映射得到。
图2为图像和文本跨模态对齐机制的结构图。如图2所示,跨模态空间中的特征对齐方法有两种:跨模态特征的直接对齐和跨模态特征的间接对齐。均方误差衡量跨模态特征和重建的跨模态特征,交叉熵损失衡量真实诗歌和生成诗歌。
图3为文本多样化奖励机制的结构图。如图3所示,先从高斯分布中采样一个标准潜在代码,接着以小超球的半径为分界采样一个正潜在代码、一个负潜在代码,并根据这组潜码和图像生成诗歌。判别器重构了诗歌的跨模态特征,由生成器的对比奖励来控制特征在跨模态空间中的距离,以强化通过潜在代码来控制诗歌的多样性。
图4为本发明中的图像语义理解及文本生成模型,在图像和文本一致性方面的可视化结果图。如图4所示,这些例子说明本发明中的图像语义理解及文本生成模型是可以生成准确描述图像语义内容的诗歌,诗歌在语言流畅性和连贯性方面具有良好的表现。消融模型中对设计的图像和文本跨模态对齐机制或文本多样化奖励机制进行去除,导致图像和诗歌在语义一致性方面出现退化。对比模型中的九歌和乐府生成的诗歌,其优点是诗歌在流畅性和意义方面表现好,缺点是与图像语义一致性较弱。
图5为本发明中的图像语义理解及文本生成模型,在文本多样性方面的可视化结果图。如图5所示,在相同的诗歌超参数(长度、格律和押韵)的限制下,模型创作的多首诗歌都准确的描述了图像的内容,并且在语言表达方面灵活多变。图中每张图像的顶部显示了诗歌的格律,其中“P”和“Z”分别表示平声和仄声。诗歌中的押韵字符以斜体显示。
最后,本发明的上述示例的细节仅为解释说明本发明所做的举例,对于本领域技术人员,对上述实施例的任何修改、改进和替换等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.基于强化学习和对比学习的图像语义理解及文本生成方法,其特征在于,所述方法
包括以下步骤:
S1.以生成式对抗网络作为从图像生成诗歌的基本框架,生成器负责理解图像内容并生成诗歌,判别器负责判断诗歌的真实性。
S2.基于强化学习方法设计古典概念词奖励机制,该奖励会促进生成器创作出符合图像中视觉对象的诗歌。
S3.基于强化学习方法设计跨模态特征对齐机制,直接跨模态对齐以减小跨模态特征重构误差为目标,间接跨模态对齐以优化生成器创作诗歌质量为目标。
S4.基于对比学习方法设计对比奖励机制,通过采样的潜在代码控制生成器创作诗歌的多样性。
S5.基于强化学习和对比学习的模型训练。
2.根据权利要求1所述的基于强化学习和对比学习的图像语义理解及文本生成方法,其特征在于,所述S1的具体过程为:
模型以生成式对抗网络作为基本框架。总体上,数据集包括一组图像原特征X={x1,…,xN}和一组诗歌Y={y1,…,yM},每首诗歌由n个句子组成,即y={l1,l2,…,ln},N和M分别是图像的总数和诗歌的总数。图像数据集和诗歌数据集之间没有任何关联。生成器生成的诗歌表示为
Figure FDA0003635985380000011
其中每一句子由T个字符组成,即
Figure FDA0003635985380000012
对于生成器,它主要组成部分是图像特征提取器、诗歌编码器和诗歌解码器。由卷积神经网络CNN提取图像的特征x,再经过图像特征转换器
Figure FDA0003635985380000013
对特征维度做变换以适应诗歌解码器。诗歌编码器通过双向LSTM对句子进行编码得到一组隐藏状态,并由句子特征转换器
Figure FDA0003635985380000014
对编码器的输出做变换以适应解码器。特征转换如式(1)和(3)所示:
Figure FDA0003635985380000015
Figure FDA0003635985380000016
Figure FDA0003635985380000017
公式(1)中fimg表示维度转换后的图像特征,即图像特征。公式(2)中
Figure FDA0003635985380000018
表示字符嵌入,
Figure FDA0003635985380000019
表示前向隐藏状态,
Figure FDA00036359853800000110
表示反向隐藏状态,
Figure FDA00036359853800000111
表示编码器隐藏状态。公式(3)中
Figure FDA00036359853800000112
表示编码器输出经转换器处理后的句子特征,即句子特征。
为了达到生成器创作多样化的诗歌,使用结合潜在代码和图像特征作为诗歌解码器的初始输入。具体上,诗歌的第一句创作时解码器基于图像特征和潜在代码预测字符,图像特征和潜在代码经过拼接后由跨模态转换器
Figure FDA0003635985380000021
做特征维度变换。并且,对于诗歌接下来的内容,由图像特征和编码器对上一句处理得到的句子特征进行拼接,再做特征维度变化后作为解码器的初始输入。解码器初始输入的跨模态特征由公式(4)和(5)得到。
Figure FDA0003635985380000022
Figure FDA0003635985380000023
公式(4)中
Figure FDA0003635985380000024
表示诗歌的第一个跨模态特征,z表示从标准高斯分布中随机采样得到的潜在代码。公式(5)中
Figure FDA0003635985380000025
表示诗歌的跨模态特征。
诗歌解码器由LSTM预测字符。首先解码器LSTM的初始输入是跨模态特征
Figure FDA0003635985380000026
和初始状态为零状态s-1,并且解码器的输出为起始隐藏状态
Figure FDA0003635985380000027
接着解码器的输入为起始字符
Figure FDA0003635985380000028
的嵌入表示和起始隐藏状态为
Figure FDA0003635985380000029
以及注意力机制得到的上下文向量
Figure FDA00036359853800000210
并且解码器的输出为下一个隐藏状态
Figure FDA00036359853800000211
通过重复上述步解码步骤,解码器得到一组的隐藏状态。相关计算如公式(6)、(7)和(8)所示:
Figure FDA00036359853800000212
Figure FDA00036359853800000213
Figure FDA00036359853800000214
在得到解码器的输入的所有隐藏状态后,由线性层将隐藏状态映射到词汇表,在经过归一化函数计算出词汇表中字符的概率分布,采样函数接下来从概率分布中采样得到字符并最终组成一个完整的句子。相关计算如公式(9)和(10)所示:
Figure FDA00036359853800000215
Figure FDA00036359853800000216
公式(9)中linear表示线性层,softmax表示归一化函数,
Figure FDA00036359853800000217
是词汇表的概率分布。公式(10)中sample表示的采样函数服从类别分布。
对于判别器,由LSTM编码生成的诗歌或来诗歌数据集的真实诗歌。判别器需要对输入的诗歌进行判断并预测出真实性概率。计算方法是LSTM编码句子并输出每一步的隐藏状态,隐藏状态经过线性层映射为数值,再由激活函数对数值进行归一化得到预测的真实性概率。基于强化学习,将生成诗歌的真实性概率值的对数形式作为生成器的对抗奖励。判别器的对抗损失由真实诗歌和生成诗歌的真实性概率得到。相关计算的公式如下所示:
Figure FDA0003635985380000031
Figure FDA0003635985380000032
Figure FDA0003635985380000033
Figure FDA0003635985380000034
公式(11)和公式(12)中
Figure FDA0003635985380000035
表示判别器LSTM输出的隐藏状态,
Figure FDA0003635985380000036
表示判别器预测的真实性概率。公式(13)中
Figure FDA0003635985380000037
表示生成器的对抗性奖励。公式(14)中
Figure FDA0003635985380000038
表示判别器的对抗性损失。
3.根据权利要求1所述的基于强化学习和对比学习的图像语义理解及文本生成方法,其特征在于,所述S2的具体过程为:
为了强化生成诗歌和图像之间的一致性,通过设计古典概念词奖励机制优化生成器。具体上,图像由预训练的目标检测器检测出一组视觉对象和置信分数。视觉对象是英文的现代关键词,需要被转换为中文的古典关键词。基于目标检测器的对象字典,制作一个现代-古典概念字典,用于将图像检测出的视觉概念转换为对应的古典概念。古典概念词奖励以生成诗歌中是否具有与图像相同的概念词作为奖励依据,并将视觉对象的置信分数作为奖励值。相关计算如以下公式所示:
Figure FDA0003635985380000039
Figure FDA00036359853800000310
Figure FDA00036359853800000311
公式(15)中Oen表示图像检测出的视觉对象和置信分数集合,公式(16)中
Figure FDA00036359853800000312
表示一个现代关键词对应的古典关键词集合,公式(17)中rt i[con]表示古典概念词奖励。
4.根据权利要求1所述的基于强化学习和对比学习的图像语义理解及文本生成方法,其特征在于,所述S3的具体过程为:
设计跨模态对齐机制,目的是让生成器从诗歌数据集中学习以提高生成诗歌的质量。因为生成器中的解码器是基于跨模态特征来创作诗歌,为了使得生成器可以学习真实诗歌,需要建立真实诗歌和跨模态特征之间的映射关系。具体上,直接跨模态对齐的目标是使得生成器的跨模态特征和判别器重构的跨模态特征之间进行特征对齐。判别器将生成器创作出的诗歌先进行编码,再经过跨模态特征转换器
Figure FDA0003635985380000041
进行特征维度变换得到重构的跨模态特征,接着与生成器的跨模态特征计算对齐损失。基于跨模态特征对齐,就可以将真实诗歌先由判别器映射为跨模态特征,再由生成器基于跨模态特征创作出诗歌,真实诗歌和生成诗歌之间通过交叉熵损失来提高生成器的创作能力。相关计算公式如下所示:
Figure FDA0003635985380000042
Figure FDA0003635985380000043
Figure FDA0003635985380000044
公式(18)中
Figure FDA0003635985380000045
表示跨模态特征对齐损失,公式(19)中
Figure FDA0003635985380000046
表示生成器的跨模态特征奖励,公式(20)中
Figure FDA0003635985380000047
表示生成器诗歌的交叉熵损失。
5.根据权利要求1所述的基于强化学习和对比学习的图像语义理解及文本生成方法,其特征在于,所述S4的具体过程为:
设计的对比学习方法,目的是让生成器可以个根据潜在代码实现生成诗歌多样化。生成器的解码器的初始跨模态特征是由图像特征和潜在代码拼接而成,也就是解码器创作诗歌主要依赖于图像特征,并受到潜在代码的影响。因为潜在代码是从高斯分布中随机采样得到,那么由十分接近的潜在代码创作出的诗歌应该是相似的,由差异化的潜在代码创作出的诗歌应该是有区别的。为了指导生成器依据潜在代码实现多样化创作,通过高斯分布中的小超球面进行正负采样,也就是随机采样的潜在代码作为球心,正采样来自球面内部,负采样来自球面外部。生成器基于图像特征和三个潜在代码,分别创作出三首诗歌,并由判别器映射的重构跨模态来度量诗歌之间的差异性。多样化损失目标是减少标准和正采样得到的重构跨模态特征之间差异,并增加标准和正采样得到的重构跨模态特征之间差异。相关的计算公式如下:
Figure FDA0003635985380000051
公式(21)中
Figure FDA0003635985380000052
表示生成器的多样化奖励,ε表示一个常量,sim(a,b)表示向量a和向量b之间的余弦相似度。r表示标准重构跨模态特征
Figure FDA0003635985380000053
r+表示正重构跨模态特征
Figure FDA0003635985380000054
r-表示负重构跨模态特征
Figure FDA0003635985380000055
6.根据权利要求1所述的基于强化学习和对比学习的图像语义理解及文本生成方法,其特征在于,所述S5的具体过程为:
强化学习针对生成器进行策略梯度计算,其中生成器的奖励包括对抗性奖励、古典概念词奖励、跨模态特征对齐奖励和多样化奖励。除此之外,跨模态间接对齐,也就是交叉熵损失也为生成器提供梯度。判别器的损失包括对抗性损失和跨模态特征对齐损失。相关计算公式如下所示:
Figure FDA0003635985380000056
Figure FDA0003635985380000057
Figure FDA0003635985380000058
公式(22)中
Figure FDA0003635985380000059
表示生成器的总奖励,λc、λm和λd表示超参数用于平衡各个奖励项。公式(23)中
Figure FDA00036359853800000510
表示生成器的总损失,bt表示基线奖励。公式(24)中
Figure FDA00036359853800000511
表示判别器的总损失。
因为诗歌和图像数据集是相互独立的,所以模型从头进行训练具有挑战性,为了使得模型能够以更好的参数开始训练,设计预训练方法对模型参数进行初始化。具体上,生成器的预训练分为两步。第一步制作自动匹配的图像诗歌对数据集,首先,基于现代-古典概念字典统计图像和诗歌中相同的概念,如果图像和诗歌至少具有三个相同概念则认为它们是匹配的。其次,利用现成的同义词扩展工具扩展诗歌的概念词,通过计算图像和诗歌之间在概念上的Jaccard系数,如果系数值不小于0.5,则认为两者是匹配的。第二步,基于自动匹配的图像诗歌对数据集,采样交叉熵损失训练生成器。判别器预训练也分为两步,第一步按照间接跨模态特征对齐方法,将真实诗歌输入到判别器得到跨模态特征,再由生成器创作诗歌,采用交叉熵损失训练判别器。第二步,从高斯分布中随机采样伪图像特征,以对抗性目标训练判别器。
CN202210502569.2A 2022-05-10 2022-05-10 基于强化学习和对比学习的图像语义理解及文本生成 Pending CN114972907A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210502569.2A CN114972907A (zh) 2022-05-10 2022-05-10 基于强化学习和对比学习的图像语义理解及文本生成

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210502569.2A CN114972907A (zh) 2022-05-10 2022-05-10 基于强化学习和对比学习的图像语义理解及文本生成

Publications (1)

Publication Number Publication Date
CN114972907A true CN114972907A (zh) 2022-08-30

Family

ID=82980667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210502569.2A Pending CN114972907A (zh) 2022-05-10 2022-05-10 基于强化学习和对比学习的图像语义理解及文本生成

Country Status (1)

Country Link
CN (1) CN114972907A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953779A (zh) * 2023-03-03 2023-04-11 中国科学技术大学 基于文本对抗生成网络的无监督图像描述生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953779A (zh) * 2023-03-03 2023-04-11 中国科学技术大学 基于文本对抗生成网络的无监督图像描述生成方法
CN115953779B (zh) * 2023-03-03 2023-06-16 中国科学技术大学 基于文本对抗生成网络的无监督图像描述生成方法

Similar Documents

Publication Publication Date Title
CN110717334B (zh) 基于bert模型和双通道注意力的文本情感分析方法
CN110134771B (zh) 一种基于多注意力机制融合网络问答系统的实现方法
CN109684648B (zh) 一种多特征融合的古今汉语自动翻译方法
CN109522411B (zh) 一种基于神经网络的写作辅助方法
CN110390103A (zh) 基于双编码器的短文本自动摘要方法及系统
CN110309287B (zh) 建模对话轮次信息的检索式闲聊对话打分方法
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN107798140A (zh) 一种对话系统构建方法、语义受控应答方法及装置
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
Liu et al. A multi-modal chinese poetry generation model
CN113283236B (zh) 一种复杂中文文本中的实体消歧方法
CN112734881A (zh) 基于显著性场景图分析的文本合成图像方法及系统
CN109670185A (zh) 基于人工智能的文本生成方法和装置
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN110083824A (zh) 一种基于多模型组合神经网络的老挝语分词方法
CN113111663A (zh) 一种融合关键信息的摘要生成方法
CN113392265A (zh) 多媒体处理方法、装置及设备
CN114972848A (zh) 基于细粒度视觉信息控制网络的图像语义理解及文本生成
Liu Neural question generation based on Seq2Seq
CN115630145A (zh) 一种基于多粒度情感的对话推荐方法及系统
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN114972907A (zh) 基于强化学习和对比学习的图像语义理解及文本生成
CN116910272B (zh) 基于预训练模型t5的学术知识图谱补全方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination