CN114972848A

CN114972848A - 基于细粒度视觉信息控制网络的图像语义理解及文本生成

Info

Publication number: CN114972848A
Application number: CN202210503109.1A
Authority: CN
Inventors: 王江楠; 吴春雷; 王雷全; 张欢; 胡飞; 郝宇钦
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-08-30

Abstract

本发明公开了基于细粒度视觉信息控制网络的图像语义理解及文本生成，它是计算机视觉和自然语言处理领域的一个重要研究课题。现有的方法关注如何改进从图像中提取关键词的质量，忽略了图像中的抽象信息，例如图像情感。不同于图像标题生成任务不需要过多关注图像抽象信息，诗歌的风格特征会影响到描述图像的准确性。并且细粒度的诗歌生成方法需要主题词逐句引导模型创作诗歌，以保证诗歌整体的流畅性和连贯性。为了解决上述问题，本发明首次提出了基于细粒度视觉信息控制网络用于诗歌描述图像任务。该网络从图像中提取具体语义内容和抽象情感，并转换为诗歌所需的主题词和风格。设计的主题和风格控制模型利用Seq2Seq框架和最大化互信息方法，基于主题词和给定风格类别生成中文诗歌。本发明在制作的细粒度主题词诗歌数据集和MSCOCO图像数据集上进行实验，结果证明了提出方法的有效性。

Description

基于细粒度视觉信息控制网络的图像语义理解及文本生成

技术领域

本发明属于图像描述技术领域，涉及计算机视觉和自然语言生成的方法。

背景技术

图像语义理解及文本生成是运用计算机视觉和自然语言处理的相关技术，通过自动生成文本语言来描述图像视觉内容的任务。近年来，图像语义理解及文本生成研究领域在神经网络的广泛应用背景下提出了各种任务和模型。具体上，图像语义理解及文本生成被细分为自动生成图像标题任务、自动视觉问答任务、自动从图像中生成诗歌等任务等。首先，最早提出的自动生成图像标题任务是用一个文本句子来描述图像中的对象和对象之间的关系。接下来，提出的视觉问答任务是基于图像内容，对于用户提出的问题，问答系统分析图像并自动生成文本句子来响应用户。最近提出的从图像中生成诗歌是一个更具认知性的视觉和语言结合的任务。相比简单的图像标题，诗歌是一种表达简练而内容丰富的文学体裁，从语法要求和文本结构上都更加规范和严格，并且与图像的视觉语义融合也是具有一定的难度。因此在图像描述的研究领域中，通过诗歌来描述图像内容是具有一定的意义和挑战。目前提出的一些方法推动了该领域的发展，但是一些难点和挑战仍然存在，值得去研究和解决。

通过对现有方法的不足之处进行分析和总结，得出以下两个需要解决的问题：第一个问题，因为关键词代表了图像中的视觉对象，所以目前的图像生成诗歌的相关工作专注于改进关键词的质量。但同时图像的抽象信息却被忽略，例如图像情感。在图像标题任务或视觉问答任务中，简单的陈述性文本句子可能不需要关注图像情感，但是对于诗歌这种内容丰富并且表达风格多变的文本体裁，关注图像情感是必要的，因为抽象信息有利于改善诗歌和图像的一致性。并且，基于从图像中获得的细粒度视觉信息，即具体主题词和抽象的情感，它们需要在诗歌中同时被表达，才能使得诗歌与图像中细粒度的对象和情感都保持一致。第二个问题，主题词起到指导诗歌生成的作用。在诗歌主题的细粒度控制方式下，诗歌的每一句都对应一个主题词。如果没有主题词引导会造成诗歌出现主题漂移和内容连贯性差等问题。并且通常情况下，更大规模的数据集有利于深度学习模型训练出更优表现，而目前用诗歌描述图像内容的研究领域中缺少大规模并带有细粒度主题词的诗歌数据集。

发明内容

本发明为了解决上述问题，提出了一种细粒度视觉信息控制网络用于图像语义理解及文本生成。本发明具体步骤如下：

S1.以编码器和解码器结构用于理解图像的具体视觉信息，并在编码器和解码器中使用注意力机制以提高模型的表现。

S2.通过图像情感分类模型预测图像的抽象情感类别，将情感类别转换为合理的诗歌风格提供给诗歌生成模型。

S3.对图像的具体语义内容进一步处理以获得诗歌的主题词，采用关键词排序算法和关键词扩展模型来获得高质量的诗歌主题词。

S4.基于主题词和风格类别生成描述图像的诗歌，利用互信息方法控制诗歌风格的表达。

S5.基于细粒度视觉信息控制网络的训练。

本发明的技术方法特征和改进为：

对于步骤S1，本发明采用卷积神经网络(CNN)提取图像特征，采用长短期记忆网络(LSTM)基于图像特征生成文本。对CNN提取特征采用增强注意力机制(AoA)来优化视觉特征，在LSTM解码过程中采用AoA来关注图像特征。对于图像x，首先提取一组视觉特征v并作为LSTM输入的一部分，其中LSTM的生成的字符为w，通过逐步解码出字符得到图像的具体语义内容，计算过程如公式(1)和(2)所示：

v＝CNN_AoA(x) (1)

caption＝LSTM_AoA(v,w) (2)

对于步骤S2，本发明采用情感分类网络(WSCNet)预测图像的情感类别，情感类别将被转换为合适的诗歌风格，提供给诗歌生成模块，如公式(3)、(4)所示：

s＝WSCNet(x) (3)

style＝transfer(s) (4)

对于步骤S3，本发明采用TextRank算法，对诗歌数据集中所有关键词进行重要性排序。主题提取模块的目的是为诗歌的每一行提供一个主题词。首先由Jieba分词工具对数据集中的诗歌进行分词，通过《诗学含英》词典对关键词进行过滤。接着由TextRank算法构建关键词图，其中关键词作为图的节点，关键词的共现次数作为边的权值，所有关键词的初始重要性被设为相同的值，通过TextRank算法对关键词图中节点的重要性进行迭代更新，直到算法收敛。TextRank算法如公式(5)所示。

式(5)中R(V_i)表示重要性值，d是衰减系数用于平滑，w_ij表示节点V_i和节点V_j之间的权值，In(V_i)表示与节点V_i相邻节点的集合，Out(V_j)表示与节点V_j相邻节点的集合。

在从图像具体语义中提取的主题词数量不足的情况下，需要进行诗歌主题词的扩展。首先对Word2Vec模型在关键词集合上进行训练，得到关键词的词向量表示。通过计算关键词之间的相似性，对已提取的主题词进行扩展使得每个主题词的数量达到预设要求。公式(6)和公式(7)表示主题词的提取和扩展过程。

w_keyword ＝TextRank (segment(caption)) (6)

w_topic＝Word2Vec(w_keyword) (7)

对于步骤S4，本发明基于Seq2Seq模型在主题词指导下生成诗歌每一行，并控制诗歌与给定的风格之间依赖关系。假设诗歌中当前的句子序列表示为I＝(i₁,i₂,…,i_a)，下一句的主题词为K＝(k₁,k₂,…,k_b)，将要被解码的下一句序列表示为O＝(o₁,o₂,…,o_c)，其中i_t,k_t,o_t都是文本序列中的字符，a,b,c表示各个文本序列中字符的个数。诗歌生成模型的输入包含主题词之外和风格类别。模型中假设诗歌数据集中风格总数为N，并且诗歌风格遵从均匀分布。公式(8)，公式(9)和公式(10)表示Seq2Seq模型编码主题词和解码诗歌句子的过程。

state^K＝LSTM^e(K), state^I＝LSTM^e(I) (8)

c＝attention(h,[states^K；states^I]) (9)

O＝LSTM^d([state^K；style],w,c) (10)

式(8)中LSTM^e是编码器，也就是双向长短期记忆网络Bi-LSTM，它通过编码主题词得到最后一个输出的隐藏状态state^K。式(10)中LSTM^d表示解码器，其初始状态为编码器输出的隐藏状态和one-hot形式的风格类别的拼接。解码器的输入包括字符w和上下文向量c，其中注意力机制通过解码器输出的隐藏状态h，编码器输出的主题词隐藏状态states^K和当前句子序列隐藏状态states^I计算得到上下文向量。解码器通过重复上述过程来逐步预测出完整的句子序列O。

为了生成的诗歌能够与与给定的风格类别相关联，本发明以最大化互信息来实现模型对诗歌风格的控制。具体上，互信息是指一个随机变量由于已知，另一个随机变量而减少的不确定性。最大化互信息就是增强给定的风格类别和输出句子序列之间的关联关系。给定诗歌风格P(style)和预测句子序列P(O；I,K)之间的互信息的计算方法如公式(11)所示：

式(11)中后验概率分布P(style＝n|O)未知，为了计算互信息，采用可训练的风格预测函数G替换后验概率的计算。

公式(12)表示采用最大化互信息的下界来间接最大化互信息。计算互信息下界的重点有两个，一个是风格预测函数，另一个是积分。诗歌风格预测函数的计算方法基本流程是要首先得到诗歌句子序列的表示，接着将序列表示经过一个线性层映射到风格类别，再通过归一化操作得到风格概率分布。函数G的计算流程如公式(13)所示。

G(style|O)＝softmax(linear(O)) (13)

两个原因导致积分计算困难，一个字符的采样操作不可微分，无法求参数梯度。二是样本空间是词汇表的指数级，无法枚举所有样本。解决方法是以句子的期望表示替换积分运算。

字符的期望表示由公式(14)得到，句子序列的期望表示由公式(15)得到。

在得到句子序列的期望表示O_expect后就可以计算风格预测函数G，进而可以计算出互信息的下界，通过最大化互信息的下界来加强给定诗歌风格和生成诗歌之间的依赖关系。总体上，诗歌主题和风格控制模块的训练目标包括交叉熵损失项和风格控制损失项，公式(16)表示控制主题和风格的诗歌生成模型的总损失。

对于步骤S5，本发明提出的基于细粒度视觉信息控制网络由python和pytorch深度学习工具搭建。在生成图像具体信息中采用Faster-RCNN提取图像的特征，采用多层LSTM作为图像具体信息的生成器。在诗歌主题和风格控制模型中编码器Bi-LSTM的维度是256，解码器LSTM的维度是517，诗歌的风格设置为五种，包括“山水田园隐居”、“边塞诗”、“寂寞惆怅”、“思乡怀古”、“人生感悟”。模型训练所需的图像数据集是MSCOCO，诗歌数据集是制作的主题诗歌数据集。网络中采用MLP作为不同特征之间的维度转换器。

与现有的技术相比，本发明的有益效果是：

1.本发明的方法通过获得图像的细粒度的对象和情感，基于细粒度视觉信息生成诗歌来描述图像。为了解决现有方法缺少关注诗歌整体风格的问题，在诗歌生成中同时引入主题和风格信息，提高了诗歌描述图像的准确性，改善生成诗歌的流畅性和连贯性。

2.本发明的方法根据诗歌生成模型训练的需要，制作的细粒度主题词诗歌数据集可以促进该领域的研究，降低了利用主题词生成诗歌的深度学习模型的训练成本。

3.本发明的方法能够应用于对话系统中，基于细粒度视觉信息控制网络，用特定领域下图像和文本的数据集训练模型。在实际对话场景中模型根据用户给定的图像，创作符合图像内容的诗歌。

附图说明

图1为基于细粒度视觉信息控制网络的图像语义理解及文本生成框架图。

图2为基于TextRank和Word2Vec的主题提取和扩展的模型图。

图3为基于Seq2Seq的文本具体主题和抽象风格控制的模型图。

图4为图像语义理解及文本生成在消融对比实验中的可视化结果图。

图5为图像语义理解及文本生成的可视化结果图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制。

以下结合附图和及具体实施方式对本发明做进一步的阐述。

图1为基于细粒度视觉信息控制网络的图像语义理解及文本生成框架图。如图1所示，从图像生成具有主题和风格的中文诗歌方法由四个模型组成，该方法包含：

采用CNN和LSTM结合方式，先用CNN提取一组特征V＝{v₁,v₂,…,v_n}，图像特征经过AoA注意力机制得到优化的特征表示

在LSTM解码器中输入平均池化的图像特征

和上下文向量c，其中上下文向量基于LSTM上一步输出隐藏状态h，并通过普通注意力机制和AoA注意力机制获得。相关计算如公式(17)、(18)和(19)所示：

基于上下文向量c，图像特征

和字符嵌入e，LSTM输出隐藏状态，并由线性层映射到词汇表得到输出字符的概率分布prob，接着逐步重复上述过程，通过贪心搜索或集束搜索得到图像具体内容。

图2为基于TextRank和Word2Vec的主题提取和扩展的模型图。如图2所示，先要对诗歌数据集中的所有诗歌进行分词处理，得到的关键词经过《诗学含英》词典过滤，根据关键词之间的共现情况构建关键词图，由TextRank算法对关键词的重要性进行排序。接着，将TextRank中所有关键词作为训练集对Word2Vec模型进行预训练，该模型被用于关键词扩展。在测试阶段，图像具体内容经过分词后，先根据所得关键词的重要性分数选择主题词，如果主题词数量小于诗歌生成所需的关键词数量，接着用Word2Vec模型计算主题词和关键词集中每个关键词的相似度，得到相似度值靠前的几个关键词作为扩充主题词。

在制作细粒度主题词诗歌数据集中，先由诗歌主题提取和扩展的模型对原诗歌数据集中的每一首诗歌提取出细粒度的主题词，再将主题词和诗歌结合作为主题词诗歌数据集，该数据集被用于训练诗歌主题和风格控制模型。

图3为基于Seq2Seq的文本具体主题和抽象风格的模型图。如图3所示，诗歌的风格类别来自图像的情感类别的映射，采用预训练的图像情感分类模型WSCNet得到图像的情感类别，并将情感类别映射为合适的诗歌风格类别。

在诗歌主题和风格控制模型中，基于SeqSeq框架生成诗歌，以Bi-LSTM作为主题词的编码器得到输出的隐藏状态，并和one-hot形式的风格类别进行拼接作为解码器的初始状态。LSTM作为解码器逐步预测字符，并结合注意力机制关注上下文信息。在训练模型的目标中，除了在生成诗歌和标准诗歌之间使用交叉熵损失优化模型，还采用最大化诗歌风格和生成句子序列之间互信息的方法，使得生成的诗歌与给定风格具有较强的依赖关系。在最大化互信息下界的计算中，按照公式遍历每种风格依次作为解码器的输入，并在特定的风格下计算诗歌风格预测函数的值，然后得到互信息下界的计算结果。最终将交叉熵损失与互信息的损失之和作为诗歌生成模型的训练目标。

图4为图像语义理解及文本生成在消融对比实验中的可视化结果图。如图4所示，完整的细粒度视觉信息控制模型ICPGN和只具有主题控制的模型IBASE根据图像分别生成两首诗。在完整模型生成的诗歌中，通过图像的抽象情感控制了诗歌的风格。两首诗分别抒发了“寂寞惆怅”和“乡愁”的情怀，与图像语义内容相吻合。在消融模型生成的诗歌中，由于没有风格限制，导致两首诗的风格非常不同。其中一首诗表达悲伤，而另一首诗表达喜悦，与图像语义内容不符。

图5为图像语义理解及文本生成的可视化结果图。如图5所示，本发明提出的基于细粒度视觉信息控制的诗歌生成网络，比其它从图像中生成诗歌的方法在描述图像语义内容的准确性方面，与图像抽象情感的一致性方面表现更好。

最后，本发明的上述示例的细节仅为解释说明本发明所做的举例，对于本领域技术人员，对上述实施例的任何修改、改进和替换等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于细粒度视觉信息控制网络的图像语义理解及文本生成方法，其特征在于，所述

方法包括以下步骤：

S4.基于主题词和风格类别生成描述图像的诗歌，利用互信息方法控制诗歌风格的表。

S5.基于细粒度视觉信息控制网络的训练。

2.根据权利要求1所述的基于细粒度视觉信息控制网络的图像语义理解及文本生成，其特征在于，所述S1的具体过程为：

首先由卷积神经网络(CNN)提取图像特征，采用长短期记忆网络(LSTM)基于图像特征生成文本。对CNN提取特征采用增强注意力机制(AoA)来优化视觉特征，在LSTM解码过程中采用AoA来关注图像特征。对于图像x，首先提取一组视觉特征v并作为LSTM输入的一部分，其中LSTM的生成的字符为w，通过逐步解码出字符得到图像的具体语义内容，计算过程如公式(1)和(2)所示：

v＝CNN_AoA(x) (1)

caption＝LSTM_AoA(v,w) (2) 。

3.根据权利要求1所述的基于细粒度视觉信息控制网络的图像语义理解及文本生成，其特征在于，所述S2的具体过程为：

以情感分类网络(WSCNet)预测图像的情感类别，情感类别将被转换为合适的诗歌风格，提供给诗歌生成模块，如公式(3)、(4)所示：

s＝WSCNet(x) (3)

style＝transfer(s) (4) 。

4.根据权利要求1所述的基于细粒度视觉信息控制网络的图像语义理解及文本生成，其特征在于，所述S3的具体过程为：

通过TextRank算法对诗歌数据集中所有关键词进行重要性排序。主题提取模块的目的是为诗歌的每一行提供一个主题词。首先由Jieba分词工具对数据集中的诗歌进行分词，通过《诗学含英》词典对关键词进行过滤。接着由TextRank算法构建关键词图，其中关键词作为图的节点，关键词的共现次数作为边的权值，所有关键词的初始重要性被设为相同的值，通过TextRank算法对关键词图中节点的重要性进行迭代更新，直到算法收敛。TextRank算法如公式(5)所示。

w_keyword＝TextRank(segment(caption)) (6)

w_topic＝Word2Vec(w_keyword) (7) 。

5.根据权利要求1所述的基于细粒度视觉信息控制网络的图像语义理解及文本生成，其特征在于，所述S4的具体过程为：

基于Seq2Seq模型在主题词指导下生成诗歌每一行，并控制诗歌与给定的风格之间依赖关系。假设诗歌中当前的句子序列表示为I＝(i₁,i₂,…,i_a)，下一句的主题词为K＝(k₁,k₂,…,k_b)，将要被解码的下一句序列表示为O＝(o₁,o₂,…,o_c)，其中i_t,k_t,o_t都是文本序列中的字符，a,b,c表示各个文本序列中字符的个数。诗歌生成模型的输入包含主题词之外和风格类别。模型中假设诗歌数据集中风格总数为N，并且诗歌风格遵从均匀分布。公式(8)，公式(9)和公式(10)表示Seq2Seq模型编码主题词和解码诗歌句子的过程。

state^K＝LSTM^e(K),state^I＝LSTM^e(I) (8)

c＝attention(h,[states^K；states^I]) (9)

O＝LSTM^d([state^K；style],w,c) (10)

G(style|O)＝softmax(linear(O)) (13)

两个原因导致积分计算困难，一个字符的采样操作不可微分，无法求参数梯度。二是样本空间是词汇表的指数级，无法枚举所有样本。解决方法是以句子的期望表示替换积分运算。字符的期望表示由公式(14)得到，句子序列的期望表示由公式(15)得到。

。

6.根据权利要求1所述的基于细粒度视觉信息控制网络的图像语义理解及文本生成，其特征在于，所述S5的具体过程为：

基于细粒度视觉信息控制网络由python和pytorch深度学习工具搭建。在生成图像具体信息中采用Faster-RCNN提取图像的特征，采用多层LSTM作为具体信息的生成器。在诗歌主题和风格控制模型中编码器Bi-LSTM的维度是256，解码器LSTM的维度是517，诗歌的风格设置为五种，包括“山水田园隐居”、“边塞诗”、“寂寞惆怅”、“思乡怀古”、“人生感悟”。模型训练所需的图像数据集是MSCOCO，诗歌数据集是制作的主题诗歌数据集。网络中采用MLP作为不同特征之间的维度转换器。