CN113779938B

CN113779938B - 基于视觉与主题协同注意力的连贯性故事生成系统及方法

Info

Publication number: CN113779938B
Application number: CN202110931513.4A
Authority: CN
Inventors: 王瀚漓; 谷金晶
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2024-01-23
Anticipated expiration: 2041-08-13
Also published as: CN113779938A

Abstract

本发明涉及一种基于视觉与主题协同注意力的连贯性故事生成系统及方法，该方法包括以下步骤：1)提取相册特征向量以及时间动态信息；2)获取每条描述语句的主题概率分布并预测相册中每幅图像中的主题分布信息；3)基于视觉与主题协同注意力生成主题连贯性的图像描述语句；4)通过考虑n‑gram多样性的短语束搜索算法对图像描述语句进行短语束搜索，提高视觉故事叙述表达的准确度和多样性。与现有技术相比，本发明具有增强描述语句的主题连贯性、提高故事本文的表达多样性、优化视觉故事的生成质量等优点。

Description

基于视觉与主题协同注意力的连贯性故事生成系统及方法

技术领域

本发明涉及计算机视觉故事描述领域，尤其是涉及一种基于视觉与主题协同注意力的连贯性故事生成系统及方法。

背景技术

目前，基于深度学习的视觉描述方法虽取得了一系列进展，但图像相册故事生成任务对描述内容的主题连贯性和描述语句的表达多样性提出了更高的要求。

现阶段基于深度学习的图像相册故事生成方法研究可以分为以下两个类别：

(1)基于强化学习的图像故事生成模型：在模型的训练阶段引入强化学习，以提高生成故事的评价指标值；

(2)基于视觉特征理解的图像相册故事生成模型：通过对图像相册中蕴含的视觉信息进行细粒度的理解，来提高生成的叙述故事的表达多样性。

但是，以上这两类方法生成的故事在主题连贯性和表达多样性两个方面仍有待进一步提高。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于视觉与主题协同注意力的连贯性故事生成系统及方法。

本发明的目的可以通过以下技术方案来实现：

一种基于视觉与主题协同注意力的连贯性故事生成系统，该系统包括：

图像相册特征编码模块：用以提取相册特征向量以及时间动态信息；

主题感知模块：由故事描述文本主题挖掘模型和主题分布预测模型构成，用以获取每条描述语句的主题概率分布并预测相册中每幅图像中的主题分布信息；

视觉与主题协同注意力模块：分别与图像相册特征编码模块和主题感知模块连接，用以基于视觉与主题协同注意力生成主题连贯性的图像描述语句。

所述的图像相册特征编码模块的数据处理步骤为：

11)图像特征提取：采用ResNet-152模型提取相册j中作为图像相册视觉编码信息的每幅图像的图像特征后通过平均池化层获得相册特征向量；

12)相册特征编码：将提取出的相册特征向量输入带有残差模块的双向门控循环单元GRU中，获取相册的时间动态信息。

所述的主题感知模块的数据处理步骤为：

21)故事描述文本主题挖掘：采用LDA主题模型从视觉描述文本中提取每条描述语句的主题概率分布其中，主题词涉及与主题相近的目标主体和动作；

22)主题分布预测：将相册中每幅图像的图像特征输入长短时序列神经网络LSTM中进行预测，得到相册中每幅图像中的主题预测分布

所述的视觉与主题协同注意力模块包括基于GRU的自上而下视觉注意力模型、基于GRU的自上而下主题注意力模型以及分别与视觉与主题协同注意力模块包括基于GRU的自上而下视觉注意力模型和基于GRU的自上而下主题注意力模型连接的连贯性语句生成模型组成。

所述的基于GRU的自上而下视觉注意力模型以上一个时间步的隐状态、图像相册视觉编码信息以及在当前时间步前已经生成的单词W_eχ_t-1作为输入，以视觉权重分布和当前时间步的隐状态作为输出，具体为：

其中，θ_j,t为时间步t图像相册j的时间动态信息的正则化注意力权重，tanh(·)表示双曲正切函数，W_v和W_a为转换矩阵，/>表示向量连接运算符，/>为基于GRU的自上而下视觉注意力模型在时间步t-1时第j个相册特征的隐状态，/>为权重参数，/>为第j个相册在时间步t的视觉权重分布，softmax(·)为归一化指数函数，W_e为大小为Ω的词汇表单词嵌入矩阵，χ_t-1为输入单词在时间步t-1的独热编码。

所述的基于GRU的自上而下主题注意力模型自上而下的主题注意力GRU模型的上一个时间步的隐状态、相册中每一幅图像的主题概率分布和主题预测分布以及在当前时间步前已经生成的单词W_eχ_t-1作为输入，以主题权重分布和当前时间步的隐状态作为输出，具体为：

其中，b_j,t为时间步t图像相册特征的正则化注意力权重，W_d和W_c为转换矩阵，为基于GRU的自上而下主题注意力模型在时间步t-1时第j个相册特征的隐状态，/>为权重参数，/>为第j个相册在时间步t的主题权重分布，/>为第j个相册在时间步t的主题概率分布。

所述的连贯性语句生成模型以视觉权重分布主题权重分布/>时间步t第j个相册特征的隐状态作为输入，生成主题连贯性的图像描述语句，所述的连贯性语句生成模型的表达式为：

其中，表示连贯性语句生成模型GRU_lan的输入，/>表示连贯性语句生成模型GRU_lan模型中第j个相册在时间步t的隐状态，W_p和b_p分别为连贯性语句生成模型的学习参数和偏差，p(y_j,t)为第j个相册在时间步t生成单词y_j,t的概率分布。

该系统还包括：

短语束搜索算法模块：用以在检测过程中，通过考虑n-gram多样性的短语束搜索算法对图像描述语句进行短语束搜索，提高视觉故事叙述表达的准确度和多样性。

所述的考虑n-gram多样性的短语束搜索算法具体包括以下步骤：

41)单词概率计算：采用现有的束搜索算法计算生成单词的概率；

42)多样性惩罚：采用n-gram方法划分已生成的故事，依据各短语的出现频次，更新多样性惩罚系数；

43)单词生成和选择：依据多样性惩罚系数更新每一个单词的概率，并对单词的概率进行重新排序，在每一个时间步，短语束搜索方法选择前B个概率最高的单词作为模型的单词输出。

一种基于视觉与主题协同注意力的连贯性故事生成系统的连贯性故事生成方法，包括以下步骤：

1)提取相册特征向量以及时间动态信息；

2)获取每条描述语句的主题概率分布并预测相册中每幅图像中的主题分布信息；

3)基于视觉与主题协同注意力生成主题连贯性的图像描述语句；

4)通过考虑n-gram多样性的短语束搜索算法对图像描述语句进行短语束搜索，提高视觉故事叙述表达的准确度和多样性。

与现有技术相比，本发明具有以下优点：

一、增强描述语句的主题连贯性：本发明提出视觉与主题协同注意力模型，能够有效克服长时间序列视觉故事描述问题中内容主题不连贯的不足，视觉注意力模型能够使故事生成模型关注到重点的视觉信息，同时采用LDA主题模型从描述文本中提取出主题分布信息，再结合自上而下的主题注意力模型，帮助语句生成模型更好地保持描述文本的主题连贯性。

二、提高故事本文的表达多样性：本发明采用考虑n-gram多样性的短语束搜索算法，并将其应用于模型的测试阶段，该方法从短语多样性的角度出发，结合多样性惩罚机制，能够提高视觉故事叙述表达的多样性。

三、优化视觉故事的生成质量：本发明采用自动评估指标对模型性能进行定量评价，同时从主题连贯性和表达多样性两个角度对模型性能进行量化评估，实验结果表明，本发明能够在提高故事描述准确度的基础上，为图像相册生成更具有主题连贯性和表达多样性的文本故事。

附图说明

图1为基于视觉与主题协同注意力的连贯性故事生成方法示意图。

图2为视觉与主题协同注意力模型原理图。

图3为本发明生成的连贯性故事示例1。

图4为本发明生成的连贯性故事示例2。

图5为本发明生成的连贯性故事表达多样性分布评估。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提供了一种基于视觉与主题协同注意力的连贯性故事生成方法，通过弥合计算机视觉和自然语言两个模态数据之间的语义鸿沟，能够应用于早教、导盲、人机交互、安防监控、自动驾驶、交通监控和机器人视觉等领域，如图1和2所示，包括以下步骤：

1)图像相册特征编码模块：依次将各相册中的图像输入设计好的带有联合双向门控循环单元GRU和残差模块的图像相册特征编码模块中，提取出图像相册中的时间动态信息。本实施例中，图像相册特征编码步骤过程如下：

11)图像特征提取：采用ResNet-152模型提取相册j中每幅图像的图像特征{I_j,1,I_j,2,I_j,3,I_j,4,I_j,5}，其中，j为相册编号，作为图像相册视觉信息，然后运用平均池化层获得相册特征向量；

12)相册特征编码：将提取出的相册特征向量输入带有残差模块的双向门控循环单元GRU中，获取相册的时间动态信息，即图像相册视觉编码信息；

2)主题感知模块：该模块由故事描述文本主题挖掘模型和主题分布预测模型组成，本实施例中，主题感知模块的感知过程如下：

21)故事描述文本主题挖掘：采用LDA主题模型从视觉描述文本中提取出每条描述语句的主题词及其概率分布，其中主题词涉及与主题相近的目标主体、动作等；

22)主题分布预测：将相册中每幅图像的图像特征输入构建主题感知长短时序列神经网络LSTM中，预测得到相册中每幅图像中的主题分布信息。

3)视觉与主题协同注意力模块：该模块由基于GRU的自上而下视觉注意力模型(TDVA-GRU)、基于GRU的自上而下主题注意力模型(TDTA-GRU)以及连贯性语句生成模型组成。首先，分别将图像相册视觉编码信息和主题分布信息输入TDTA-GRU和TDVA-GRU中，自动训练学习到各时间步需要重点关注的视觉和主题信息；然后，将TDTA-GRU和TDVA-GRU的输出协同输入到连贯性语句生成模型，得到具有主题连贯性的图像描述语句，本实施例中，视觉与主题协同注意力模型描述如下：

(1)基于GRU的自上而下视觉注意力模型(TDVA-GRU)：该模型将上一个时间步的隐状态、图像相册视觉编码信息以及在当前时间步前已经生成的单词W_eχ_t-1作为输入，将视觉权重分布和当前时间步的隐状态作为输出。其中，W_e是大小为Ω的词汇表单词嵌入矩阵，χ_t-1是输入单词在时间步t-1的独热编码。以编号为j的相册为例，视觉注意力权重计算式具体为：

其中，θ_j,t为时间步t图像相册j的时间动态信息的正则化注意力权重，tanh(·)表示双曲正切函数，W_v和W_a为转换矩阵，/>表示向量连接运算符，/>为基于GRU的自上而下视觉注意力模型在时间步t-1时第j个相册特征的隐状态，/>为权重参数，/>为第j个相册在时间步t的视觉权重分布，softmax(·)为归一化指数函数。

(2)基于GRU的自上而下主题注意力模型(TDTA-GRU)：将自上而下的主题注意力GRU模型的上一个时间步的隐状态、相册中每一幅图像的主题概率分布和主题预测概率分布以及在当前时间步前已经生成的单词W_eχ_t-1作为输入，将主题权重分布和当前时间步的隐状态作为输出。以编号为j的相册为例，其主题注意力权重计算过程如下所示：

其中，b_j,t为时间步t图像相册特征的正则化注意力权重，W_d和W_c为转换矩阵，为基于GRU的自上而下主题注意力模型在时间步t-1时第j个相册特征的隐状态，/>为权重参数，/>为第j个相册在时间步t的主题权重分布，/>为第j个相册在时间步t的主题概率分布；

(3)连贯性语句生成模型：将自上而下的视觉注意力模型和自上而下的主题注意力模型的输出协同输入连贯性语句生成模型，生成具有主题连贯性的描述语句。本实施例中，连贯性语句生成模型如下：

其中，表示连贯性语句生成模型GRU_lan的输入，/>表示GRU_lan模型中第j个相册在时间步t的隐状态，W_p和b_p表示模型的学习参数和偏差，p(y_j,t)为第j个相册在时间步t生成单词y_j,t的概率分布。

4)短语束搜索算法：为了提高视觉故事叙述表达的多样性，本发明提出一个考虑了n-gram多样性的短语束搜索算法。本实施例中，短语束搜索算法过程如下：

(1)单词概率计算：采用现有的束搜索算法计算生成单词的概率；

(2)多样性惩罚：采用n-gram方法划分已生成的故事，依据各短语的出现频次，更新多样性惩罚系数。

(3)单词生成和选择：依据多样性惩罚系数重新计算得出每一个单词的概率，并对单词的概率进行重新排序，在每一个时间步，短语束搜索方法选择B个概率最高的单词作为模型的单词输出。

为了验证上述方法的性能，设计了以下实验。

本方法在视觉故事叙述数据集(VIST)上进行了实验验证。VIST数据集一共包含了10,117个相册，其中涉及210,819张图像。每个故事包含5张从相册中随机选择的图像和5个对应的故事。在去除掉损坏的照片之后，剩余的50,136个故事被分为三类，40,098个故事用于训练，4,988个故事用于测试，5,050个故事用于验证。为了验证所提出方法的有效性，本发明方法的结果与现有研究中的模型结果进行了对比，结果如表1所示。其中，与本发明方法进行对比的10种方法具体细节如下：(1)Story-Flat：采用循环神经网络的结构；(2)Hattn-rank：采用分层次注意力循环网络；(3)GLAC：采用全局和局部注意力机制；(4)AREL：采用逆强化学习和生成对抗网络的框架；(5)Visual storyteller：采用多个独立解码单元的编码-解码框架；(6)HPSR：采用分层次强化学习网络；(7)ConceptNet：考虑常识推理的网络；(8)TAVST(RL)：基于多智能体强化学习框架的模型；(9)INet(RL)：引入想象力模块的内容推理网络；(10)SGVST：采用场景图知识增强网络。此外，采用BLEU-1(B-1)，BLEU-2(B-2)，BLEU-3(B-3)，BLEU-4(B-4)，ROUGE-L(R-L)，CIDEr(C)和METEOR(M)这7个视觉描述通用评价指标计算各个模型的性能。其中，最优的指标值加粗表示，次优的指标值加下划线表示。

表1基于视觉与主题协同注意力的连贯性故事生成方法在VIST数据集上的性能比较

表2 VIST数据集上基于视觉与主题协同注意力的连贯性故事生成方法消融实验对比

表3 VIST数据集上本发明生成故事的主题连贯性对比

模型方法	AREL	本发明的方法
			主题连贯性指标值	0.0626	0.0761

表1和表2中的实验可以证实，在VIST数据集上，本发明提出的基于视觉与主题协同注意力的连贯性故事生成方法在B-1，B-2，B-3，B-4和M这5个指标上都达到了目前最高的性能，在C指标上达到了目前方法中次优的性能。此外，表2的消融实验结果证明，本发明提出的每个模块对于提升模型的性能都是有效的。因此，在目前已知的先进视觉故事生成方法中，本方法具有较强的优势和应用前景。表3中的主题连贯性指标值越接近1，说明故事的主题连贯性更高，相对于基准模型AREL，本发明生成的故事呈现出更好的主题连贯性。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于视觉与主题协同注意力的连贯性故事生成系统，其特征在于，该系统包括：

视觉与主题协同注意力模块：分别与图像相册特征编码模块和主题感知模块连接，用以基于视觉与主题协同注意力生成主题连贯性的图像描述语句；

所述的视觉与主题协同注意力模块包括基于GRU的自上而下视觉注意力模型、基于GRU的自上而下主题注意力模型以及分别与视觉与主题协同注意力模块包括基于GRU的自上而下视觉注意力模型和基于GRU的自上而下主题注意力模型连接的连贯性语句生成模型组成；

其中，θ_j,t为时间步t图像相册j的时间动态信息的正则化注意力权重，tanh(·)表示双曲正切函数，W_v和W_a为转换矩阵，/>表示向量连接运算符，/>为基于GRU的自上而下视觉注意力模型在时间步t-1时第j个相册特征的隐状态，/>为权重参数，/>为第j个相册在时间步t的视觉权重分布，softmax(·)为归一化指数函数，W_e为大小为Ω的词汇表单词嵌入矩阵，χ_t-1为输入单词在时间步t-1的独热编码；

其中，b_j,t为时间步t图像相册特征的正则化注意力权重，W_d和W_c为转换矩阵，/>为基于GRU的自上而下主题注意力模型在时间步t-1时第j个相册特征的隐状态，/>为权重参数，/>为第j个相册在时间步t的主题权重分布，/>为第j个相册在时间步t的主题概率分布；

2.根据权利要求1所述的一种基于视觉与主题协同注意力的连贯性故事生成系统，其特征在于，所述的图像相册特征编码模块的数据处理步骤为：

3.根据权利要求1所述的一种基于视觉与主题协同注意力的连贯性故事生成系统，其特征在于，所述的主题感知模块的数据处理步骤为：

4.根据权利要求1所述的一种基于视觉与主题协同注意力的连贯性故事生成系统，其特征在于，该系统还包括：

5.根据权利要求4所述的一种基于视觉与主题协同注意力的连贯性故事生成系统，其特征在于，所述的考虑n-gram多样性的短语束搜索算法具体包括以下步骤：

6.一种应用如权利要求1-5任一项所述的基于视觉与主题协同注意力的连贯性故事生成系统的连贯性故事生成方法，其特征在于，包括以下步骤：

1)提取相册特征向量以及时间动态信息；