CN112328782A

CN112328782A - 一种融合图像过滤器的多模态摘要生成方法

Info

Publication number: CN112328782A
Application number: CN202011219386.7A
Authority: CN
Inventors: 廖祥文; 陈俊杰; 陈志豪; 丘永旺; 朱雨航
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-02-05
Anticipated expiration: 2040-11-04
Also published as: CN112328782B

Abstract

本发明涉及一种融合图像过滤器的多模态摘要生成方法，包括步骤：获取输入文本的隐藏表示，得到文本上下文向量；提取输入图像的全局图像特征向量，并进行加权和计算得到图像上下文向量；对文本上下文向量与图像上下文向量进行融合，得到多模态信息的融合向量；采用图像过滤器来过滤图像中的噪声，选择最显著的图像特征，对图像上下文向量进行权重更新，并得到更新后的融合向量；采用单向的长短期记忆网络作为解码器，将更新后的融合向量解码得到最终的文本摘要。本发明从图像信息和文本信息融合出发，充分利用不同模态的信息提高文本摘要质量，并且能够应用于更大规模数据集应用场景。

Description

一种融合图像过滤器的多模态摘要生成方法

技术领域

本发明涉及文本摘要技术领域，特别是一种融合图像过滤器的多模态摘要生成方法。

背景技术

当前，有很多技术可用于文本摘要领域的研究。自动摘要方法大体上可以分为两类：抽取式摘要和生成式摘要。抽取式摘要的基本做法是从原文中抽取部分重要的句子形成摘要，研究重点集中在句子的重要性判断、筛选以及排序等。生成式摘要的基本思路是在理解原文语义的基础上，凝练其思想与概念，以实现语义重构。

当前，存在着一些基于传统方法的抽取式摘要方法。主要使用图方法、聚类等方式完成无监督摘要。它们抽取文章中的前几句作为摘要，或利用句子作为节点，句子与句子之间的某种关系作为边的权重，通过随机游走模型对句子的得分做迭代更新计算，从而实现对句子的评分，选择一定数量得分高的句子组合成摘要。当前，也存在着一些基于神经网络的抽取式摘要方法。将问题建模为序列标注和句子排序两类任务。抽取式方法天然的在语法、句法上错误率低，保证了一定的效果。但忽略摘要的事实细节问题，使得内容选择错误、连贯性差、灵活性差等问题。

当前，存在着一些基于深度学习的生成式摘要方法。代表方法有具有注意力机制的序列到序列模型、利用外部信息、多任务学习等。序列到序列模型生成的摘要在语言流畅性、连贯性等方面让学界看到自动摘要实用化的希望。注意力机制的加入使得Seq2Seq模型更加完善，之后大量相关研究都建立在该模型的基础上。利用外部知识的方法将相似句子的摘要作为软模板，作为外部知识进行辅助；多任务学习方法将摘要生成作为主任务，问题生成、蕴含生成作为辅助任务进行多任务学习。问题生成任务需要根据给定的文本和答案生成问题，要求模型具有选择重要信息的能力，蕴含生成任务要求根据给定文本，有逻辑地推出输出文本。生成式摘要允许摘要中包含新的词语或短语，灵活性高，具备简明、内聚、信息丰富以及低冗余等优点。

随着互联网多模态数据的增加，一些科研工作者近年来重点研究多模态摘要。在已有的文本摘要模型基础上，加入图像、音频和视频等多模态信息，以期对多模态数据生成摘要，满足当前社会发展的需要，这些摘要可以帮助人们在短时间内获取多模态数据的要点，而无需从头到尾阅读文档、查看图片或观看视频。

已有的实验已经证明，与文本摘要相比，多模态摘要可以利用视觉模态信息提高生成摘要的质量。因此，人们希望能有一种面向多模态数据的摘要方法。

发明内容

有鉴于此，本发明的目的是提出一种融合图像过滤器的多模态摘要生成方法，从图像信息和文本信息融合出发，充分利用不同模态的信息提高文本摘要质量，并且能够应用于更大规模数据集应用场景。

本发明采用以下方案实现：一种融合图像过滤器的多模态摘要生成方法，包括以下步骤：

对新闻文章语料集进行预处理；

采用双向长短期记忆网络作为编码器，获取输入文本的隐藏表示，并通过文本注意力机制得到文本上下文向量；

采用VGG19提取输入图像的全局图像特征向量，并通过图像注意力机制对所提取的图像全局特征进行加权和计算得到图像上下文向量；

对文本上下文向量与图像上下文向量进行融合，得到多模态信息的融合向量；

采用图像过滤器来过滤图像中的噪声，选择最显著的图像特征，对图像上下文向量进行权重更新，并得到更新后的融合向量；

采用单向的长短期记忆网络作为解码器，将更新后的融合向量解码得到最终的文本摘要。

进一步地，所述采用VGG19提取输入图像的全局图像特征向量，并通过图像注意力机制对所提取的图像全局特征进行加权和计算得到图像上下文向量具体为：

使用VGG19网络来提取所有输入图像的全局特征，为了处理一组图像集合的显著部分，将全局特征集g平展成一个矩阵g'＝(g₁,...,g_M)，其中M为文本上下文向量的维数，以将图像的全局特征投影到与文本上下文向量相同的维数中，并通过图像注意力机制对其进行加权和计算得到图像上下文向量

进一步地，所述对文本上下文向量与图像上下文向量进行融合，得到多模态信息的融合向量采用下式：

式中，

为融合向量，

和

分别是文本上下文向量和图像上下文向量，

和

分别为文本上下文向量和图像上下文向量的注意力权重。

进一步地，所述采用图像过滤器来过滤图像中的噪声，选择最显著的图像特征，对图像上下文向量进行权重更新，并得到更新后的融合向量具体为：采用以下公式得到更新权重I_c：

I_c＝σ(W_ss₀+W_gg+W_rs_t-1)；

式中，W_s、W_g、W_r为学习参数，g为图像的全局特征，s₀、s_t-1分别是解码器的初始状态和上一时间步的状态，σ是Sigmoid函数；

采用更新权重I_c更新图像上下文向量

进一步地，所述采用单向的长短期记忆网络作为解码器，将更新后的融合向量解码得到最终的文本摘要具体包括以下步骤：

通过单向的LSTM得到解码器当前t时刻的状态s_t，之后将解码器当前状态s_t和得到的更行后的融合向量c'_mm输入到两层的线性层后，再通过softmax函数来产生整个词汇表的分布p_v，计算公式为：

p_v＝softmax(V′(V[s_t,c'_mm]+b)+b′)；

式中，V′、V、b、b′为学习参数；

生成概率p_g的计算公式为：

式中，

b_p为学习参数，s_t为当前t时刻的解码器状态，x_t为当前时刻t的编码器的输入。p_g是一个0-1的概率值，其作用类似于一个软开关，根据注意力机制的分布情况，在每一次解码器解码生成单词时，根据p_g的值选择从词汇表中选取一个单词或者从输入文本中复制一个单词作为当前时刻的生成单词。这样相当于对词汇表做了拓展，补充了输入文本中的单词，可以有效缓解因词汇表大小有限带来的未登录词汇的问题。

拓展后的词汇表的最终概率分布p_w为：

w表示当前的预测单词，w_i表示输入文本中的第i个单词，(1-p_g)表示通过对

抽样，从输入文本中复制一个单词的概率，

为输入文本单词的注意力分布；

解码器根据通过计算得到拓展后的词汇表的最终概率p_w，从拓展后的词汇表中选择一个单词作为当前时间步t的输出单词，最后形成文本摘要。

进一步地，为了减少对多模态信息的重复注意，将文本覆盖和视觉覆盖加入到损失函数中，时间t的损失为目标单词的负对数似然与覆盖损失的和，得到最终的训练损失函数：

式中，

为预测单词w_i在t时刻的分布概率，

为文本覆盖向量，

是图像覆盖向量。

本发明还提供了一种融合图像过滤器的多模态摘要生成系统，包括存储器、处理器以及存储在存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。

本发明还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。

与现有技术相比，本发明有以下有益效果：本发明将海量多模态信息进行浓缩形成文本摘要有利于人们快速有效的获取所需的关键信息，方便阅读。本发明从图像信息和文本信息融合出发，充分利用不同模态的信息提高文本摘要质量，并且能够应用于更大规模数据集的应用场景。

附图说明

图1为本发明实施例的方法流程示意图。

图2为本发明实施例的步骤S2的示意图。

图3为本发明实施例的步骤S3的示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种融合图像过滤器的多模态摘要生成方法，包括以下步骤：

步骤S1：对新闻文章语料集进行预处理，清理一些不相关的词和标记化；

步骤S2：采用双向长短期记忆网络作为编码器，获取输入文本的隐藏表示，并通过文本注意力机制得到文本上下文向量；如图2所示；

步骤S3：采用VGG19提取输入图像的全局图像特征向量，并通过图像注意力机制对所提取的图像全局特征进行加权和计算得到图像上下文向量；

步骤S4：对文本上下文向量与图像上下文向量进行融合，得到多模态信息的融合向量；

步骤S5：采用图像过滤器来过滤图像中的噪声，选择最显著的图像特征，避免引入噪声、确保图像精度，捕捉源句子的关键，对图像上下文向量进行权重更新，并得到更新后的融合向量；

步骤S6：采用单向的长短期记忆网络作为解码器，将更新后的融合向量解码得到最终的文本摘要。

在本实施例中，步骤S1中的预处理具体为，转化为小写，进行标记化和清理一些不相关的词等，

在本实施例中，如图3所示，所述采用VGG19提取输入图像的全局图像特征向量，扩展了注意力机制到图像注意力机制，并通过图像注意力机制对所提取的图像全局特征进行加权和计算得到图像上下文向量具体为：

在本实施例中，所述对文本上下文向量与图像上下文向量进行融合，得到多模态信息的融合向量采用下式：

式中，

为融合向量，

和

分别是文本上下文向量和图像上下文向量，

和

分别为文本上下文向量和图像上下文向量的注意力权重。

在本实施例中，所述采用图像过滤器来过滤图像中的噪声，选择最显著的图像特征，对图像上下文向量进行权重更新，并得到更新后的融合向量具体为：图像过滤器是个应用于图像上下文向量的过滤向量，基于源图像和句子之间的相关性和与下一个目标单词的关系两个方面来过滤掉图像上下文中的噪声。

采用以下公式得到更新权重I_c：

I_c＝σ(W_ss₀+W_gg+W_rs_t-1)；

采用更新权重I_c更新图像上下文向量

在本实施例中，所述采用单向的长短期记忆网络作为解码器，将更新后的融合向量解码得到最终的文本摘要具体包括以下步骤：

p_v＝softmax(V′(V[s_t,c'_mm]+b)+b′)；

式中，V′、V、b、b′为学习参数；

生成概率p_g的计算公式为：

式中，

拓展后的词汇表的最终概率分布p_w为：

抽样，从输入文本中复制一个单词的概率，

为输入文本单词的注意力分布；

在本实施例中，为了减少对多模态信息的重复注意，将文本覆盖和视觉覆盖加入到损失函数中，时间t的损失为目标单词的负对数似然与覆盖损失的和，得到最终的训练损失函数：

式中，

为预测单词w_i在t时刻的分布概率，

为文本覆盖向量，

是图像覆盖向量。

本实施例还提供了一种融合图像过滤器的多模态摘要生成系统，包括存储器、处理器以及存储在存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。

本实施例还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种融合图像过滤器的多模态摘要生成方法，其特征在于，包括以下步骤：

对新闻文章语料集进行预处理；

2.根据权利要求1所述的一种融合图像过滤器的多模态摘要生成方法，其特征在于，所述采用VGG19提取输入图像的全局图像特征向量，并通过图像注意力机制对所提取的图像全局特征进行加权和计算得到图像上下文向量具体为：

3.根据权利要求1所述的一种融合图像过滤器的多模态摘要生成方法，其特征在于，所述对文本上下文向量与图像上下文向量进行融合，得到多模态信息的融合向量采用下式：

式中，

为融合向量，

和

分别是文本上下文向量和图像上下文向量，

和

分别为文本上下文向量和图像上下文向量的注意力权重。

4.根据权利要求1所述的一种融合图像过滤器的多模态摘要生成方法，其特征在于，所述采用图像过滤器来过滤图像中的噪声，选择最显著的图像特征，对图像上下文向量进行权重更新，并得到更新后的融合向量具体为：采用以下公式得到更新权重I_c：

I_c＝σ(W_ss₀+W_gg+W_rs_t-1)；

采用更新权重I_c更新图像上下文向量

5.根据权利要求1所述的一种融合图像过滤器的多模态摘要生成方法，其特征在于，所述采用单向的长短期记忆网络作为解码器，将更新后的融合向量解码得到最终的文本摘要具体包括以下步骤：

p_v＝softmax(V′(V[s_t,c'_mm]+b)+b′)；

式中，V′、V、b、b′为学习参数；

生成概率p_g的计算公式为：

式中，

b_p为学习参数，s_t为当前t时刻的解码器状态，x_t为当前时刻t的编码器的输入；p_g是一个0-1的概率值，根据注意力机制的分布情况，在每一次解码器解码生成单词时，根据p_g的值选择从词汇表中选取一个单词或者从输入文本中复制一个单词作为当前时刻的生成单词，以此对词汇表进行拓展，补充了输入文本中的单词；

拓展后的词汇表的最终概率分布p_w为：

抽样，从输入文本中复制一个单词的概率，

为输入文本单词的注意力布；

6.根据权利要求1所述的一种融合图像过滤器的多模态摘要生成方法，其特征在于，为了减少对多模态信息的重复注意，将文本覆盖和视觉覆盖加入到损失函数中，时间t的损失为目标单词的负对数似然与覆盖损失的和，得到最终的训练损失函数：

式中,

为预测单词w_i在t时刻的分布概率，

为文本覆盖向量，

是图像覆盖向量。

7.一种融合图像过滤器的多模态摘要生成系统，其特征在于，包括存储器、处理器以及存储在存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-6任一项所述的方法步骤。

8.一种计算机可读存储介质，其特征在于，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-6任一项所述的方法步骤。