CN114281982A

CN114281982A - 一种多模态融合技术的图书宣传摘要生成方法和系统

Info

Publication number: CN114281982A
Application number: CN202111644408.9A
Authority: CN
Inventors: 李岱峰; 林凯欣; 李栩婷; 李鑫; 古风云; 江涛; 廖健斌
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-05
Anticipated expiration: 2041-12-29
Also published as: CN114281982B

Abstract

本发明公开了一种多模态融合技术的图书宣传摘要生成方法和系统，方法包括以下步骤：S1：获取包括图书信息的文本信息；S2：根据所述文本信息，基于TextRank的抽取式摘要生成，生成第一摘要；S3：根据所述文本信息，基于多模态指针生成网络，生成第二摘要；S4：取第一摘要和第二摘要的并集为最终的图书宣传摘要。本发明结合抽取式与生成式模型的优点，并取并集，克服了两者的缺陷得到更加完整的营销文本。

Description

一种多模态融合技术的图书宣传摘要生成方法和系统

技术领域

本发明涉及多模态融合领域，更具体地，涉及一种多模态融合技术的图书宣传摘要生成方法和系统。

背景技术

随着科学技术的发展及现代社交软件的普及，新媒体的影响力迅速增长，借助微信推送等网络技术方式推广宣传图书已经成了很多图书馆和书店常用的营销宣传手段。

目前业界针对图书宣传摘要生成方法一般有以下几种：

1、抽取式摘要生成

抽取式摘要是一种比较成熟的方案，其中Text rank排序算法以其简洁、高效的特点被工业界广泛运用。其思想是先去除文章中的一些停用词，之后对句子的相似度进行度量，计算每一句相对另一句的相似度得分，迭代传播，直到误差小于阈值。再对上述得到的关键语句进行排序，便能得到想要的摘要。抽取式摘要主要考虑单词词频，并没有过多的语义信息，形成的句子可能仅仅是内容的浓缩无法考量场景信息。

2、生成式摘要生成

生成式文本摘要主要依靠深度神经网络结构实现。神经网络文本生成模型通常是自回归语言模型或seq2seq模型。这些模型通过按顺序采样单词来生成文本，每个单词都以前面的单词为条件，对于一些机器翻译和摘要任务来说是最先进的，们不局限于简单地从原文中选择和重排段落。它们通常利用最大似然估计和Teacher-Forcing进行训练，这些方法非常适合优化困惑度，但可能导致较差的样本质量，因为生成文本时，历史生成单词可能在训练时没有出现过，导致误差逐渐累积。

目前的摘要研究通常以文本为处理对象，一般不涉及其他模态信息的处理。然而，不同模态的信息是相互补充和验证的，充分有效的利用不同模态的信息可以帮助模型更好的定位关键内容，生成更好的摘要。

现有技术中公开提供一种基于多模态流形学习和社交网络特征的推特摘要生成方法，包括以下步骤：获取用户的特定话题推文集，以及用户互动信息；构建文本内的关系矩阵和跨文本的关系矩阵；结合所述矩阵计算推文显著度；结合用户互动信息计算社会认同度；将推文显著度与社会认同度结合即可得到最终的推文显著度，进而选择显著度最高的若干句子成为摘要。该方案仍存在许多的问题如不同模态信息交互较少，现有工作模态融合的核心在于层次化注意力机制，除此以外，不同模态信息缺少显式的交互方式，无法充分的发挥模态信息之间的互补关系。同时多模态摘要生成需要大量的训练数据依赖于人工先验知识。

发明内容

本发明的首要目的是提供一种多模态融合技术的图书宣传摘要生成方法，结合图书摘要自动生成器将抽取式、生成式与多模态生成三种方法，解决现有技术中的缺点。

本发明的进一步目的是一种多模态融合技术的图书宣传摘要生成系统。

为解决上述技术问题，本发明的技术方案如下：

一种多模态融合技术的图书宣传摘要生成方法，包括以下步骤：

S1：获取包括图书信息的文本信息；

S2：根据所述文本信息，基于TextRank的抽取式摘要生成，生成第一摘要；

S3：根据所述文本信息，基于多模态指针生成网络，生成第二摘要；

S4：取第一摘要和第二摘要的并集为最终的图书宣传摘要。

优选地，步骤S1中的图书信息包括图书图像、书名、作者和内容简介。

优选地，所述基于TextRank的抽取式摘要生成，生成第一摘要，具体为：

TextRank算法的文本网络图可以表示为一个带权的无向网络图G＝(V,E,W)，其中:V为节点的集合，E为节点间各个边的非空有限集合，W为各边上权重的集合；假设V＝{V₁,V₂,...,V_n}，则记E＝{(V_i,V_j),V_i∈V,V_j∈V,w_ij∈W,w_ij≠0}，W＝{w_ij,1≤i≤n,1≤j≤n}，其中w_ij为节点V_i与V_j间边的权重值；通过余弦相似度方法计算可得到句子间的一个n×n的相似度矩阵S_n×n：

矩阵S_n×n为对称矩阵，且对角线上的元素值全部取1；

由G和对应的相似度矩阵S_n×n，可计算出每个节点的权重，对于任意节点V_i，In(V_i)表示指向V_i的节点集合，Out(V_j)表示V_i指向节点的集合，节点V_i的权重计算式表示为：

式中:W_s(V_i)为节点V_i的权重，d为阻尼系数，W_s(V_j)表示上一次迭代后节点V_j的权重值，w_ji表示节点V_j和节点V_i间的相似度；

则基于TextRank的文本网络图中各节点的权重的计算式表示为:

式中:s_i和s_j表示文本中的句子，W_s(s_i)表示句子s_i在TextRank网络图中的权重；

通过迭代计算就能得到趋于正常和稳定的权重值后，依据句子的权重值大小对句子进行排序，根据实际需求选取适量排序靠前的句子，并按照其在原文中的顺序排序，生成文本摘要。

优选地，首次使用TextRank算法计算各节点的权重时，需要指定每个节点的初始值，即自身的权重，设定所有节点的初始权重为1，则B₀＝(1,1,...,1)^T，然后根据边的权重递归迭代计算至收敛：

B_i＝S_n×n·B_i-1

当B_i与B_i-1的差值小于阈值时，达到收敛，迭代计算结束。

优选地，所述基于多模态指针生成网络，生成第二摘要，具体为：

对于文本特征，利用Seq2Seq模型得到一个文本嵌入向量；

对于图像特征，利用基于模型隐藏状态初始化的视觉特征提取策略，得到视觉上下文向量；

将所述文本嵌入向量和视觉上下文向量结合，计算得到多模态上下文向量；

利用所述多模态上下文向量更新指针生成网络，所述指针生成网络用来预测单词，得到第二摘要。

优选地，对于文本特征，所述Seq2Seq模型的结构为Encoder-Decoder模型，先用Encoder将原文本编码成一个中间层的隐藏状态，然后用Decoder来将该隐藏状态解码成为另一个文本，Seq2Seq模型在Encoder端是一个双向的LSTM，这个双向的LSTM可以捕捉原文本的长距离依赖关系以及位置信息，编码时词嵌入经过双向LSTM后得到编码状态，在Decoder端，解码器是一个单向的LSTM，训练阶段时参考摘要词依次输入，在时间步t得到解码状态，使用编码状态和解码状态得到该时间步原文第i个词注意力权重，编码状态h_i与解码状态s_t如下所示：

h_i＝f_enc(x_i,h_i-1)

s_t＝f_dec(s_t-1,y_t-1,c_t)

其中，f_enc为编码函数，f_dec为解码，y_t-1为t-1步的生成词，c_t是一个上下文向量，它由基于注意力的编码器隐藏状态的加权和生成，其分布如下：

α_t＝softmax(e_t)

c_t＝∑_iα_t,ih_i

式中，e_t,i指t阶段第i个词注意力权重、

W_a、V_a、b_a均为学习权重，e_t指的是t阶段的隐藏层权重；

对于图像特征，输入一个给定的图书封面或海报图像图像，使用Resnet-101的最后一个池化层中提取预先训练的ImageNet的全局的可视化向量q，并用它来初始化编码器和解码器：

式中，W_e1、b_e1、W_e2、b_e2、W_f、V_w、b_f为学习参数；

为了利用局部视觉特征增强上下文表征，提取目标特征V_i作为局部的视觉特征，使用ResNet-101初始化的Mask R-CNN，然后使用可视化基因组数据集对其进行再训练，

来自Region Proposal Network的RoI Align层；

除了对输入句子的单词的注意外，多模态指针生成模型还可以对图像的不同区域进行权重提取，应用了分层注意力机制，使模型对文本信息和视觉信息进行了不同的注意，我们使用跨模态注意策略计算视觉上下文向量

其中，

W_l、V_l、b_l为学习参数。

优选地，将所述文本嵌入向量和视觉上下文向量结合，计算得到多模态上下文向量，具体为：

式中，W_g、V_g、b_g、W_h、V_h、

W_m、V_m为学习参数，σ为sigmoid函数，

通过激活函数映射后的文本向量，

通过激活函数映射后的视觉图像向量，I_α为通过激活函数映射后的融合上下文信息的视觉特征向量。

优选地，所述指针生成器网络根据两个模块的概率分布来预测单词，即生成器和指针，生成器如下所示：

其中，W_b、V_b、b_b为学习参数，P_gen(w)为预测词汇w分布；

指针则是从源序列中复制一个字y_t：

其中，P_copy(w)指的是单词是从源序列中复制而来的概率，w为预测单词；

最后的分布是词汇量分布和注意力分布的加权和：

P(w)＝λ_tP_gen(w)+(1-λ_t)P_copy(w)

其中，λ_t∈[0,1]是时间序列的生成概率：

其中，

为学习参数，y_t-1指的是t-1时间步的目标词；

损失函数L是每个时间步长t中真实目标词y_t的负对数似然：

其中，T表示总的时间长度，P(y_t)指的是真实目标词的概率分布。

优选地，所述取第一摘要和第二摘要的交集为最终的图书宣传摘要，具体为：

使用python对两个模型的输出结果取并集，代码如下：

all_union＝list(set(s1).union(set(s2)))

其中s1为TextRank的输出结果，s2为多模态指针模型的输出结果，并针对最终结果all_union去更新多模态指针生成网络。

一种多模态融合技术的图书宣传摘要生成系统，包括：

信息获取模块，所述信息获取模块用于获取包括图书信息的文本信息；

第一摘要生成模块，所述第一摘要生成模块用于根据所述文本信息，基于TextRank的抽取式摘要生成，生成第一摘要；

第二摘要生成模块，所述第二摘要生成模块用于根据所述文本信息，基于多模态指针生成网络，生成第二摘要；

输出模块，所述输出模块取第一摘要和第二摘要的交集为最终的图书宣传摘要。

与现有技术相比，本发明技术方案的有益效果是：

1、本发明能够结合抽取式与生成式模型的优点，取并集可以克服两者的缺陷得到更加完整的营销文本。

2、本发明适合更多的场景应用，如电商中其他商品的营销文本生成，不依赖于数据产生的环境和业务需求。

3、本发明可以融合多模态数据，让输入更加丰富，生成具有参考意义的图书宣传文本。

4、本发明的模型的数据来源简单，数据采集成本低，只需要爬虫图书的信息并组合，文本不需要固定格式，可以根据实际情况进行自由地文本信息组合。

附图说明

图1为本发明的方法流程示意图。

图2为实施例提供的多模态指针生成网络模型示意图。

图3为本发明的系统模块示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供一种多模态融合技术的图书宣传摘要生成方法，如图1所示，包括以下步骤：

S1：获取包括图书信息的文本信息；

S4：取第一摘要和第二摘要的并集为最终的图书宣传摘要。

本发明究首先定义图书宣传文本摘要工作，输入包括图书图像和书名、作者、内容简介等文本信息，输出用于图书宣传的短文本。提出的图书宣传文本摘要模型是基于TextRank及指针生成器网络的。为了将视觉特征整合到指针生成器网络中，采用了三种策略，包括用全局视觉特征初始化编码器，用全局视觉特征初始化解码器，用局部视觉特征生成上下文表示。然后通过将TextRank算法及指针生成器网络的结果取交集，得到更好的图书宣传文本摘要。

步骤S1中的图书信息包括图书图像、书名、作者和内容简介，来源于网上电商平台。

还可以使用更多的短文生成场景，如电商营销短文等。

所述基于TextRank的抽取式摘要生成，生成第一摘要，具体为：

TextRank算法作为一种经典的文本图排序算法，它利用文本本身的信息和结构特征来实现文本摘要的自动提取。其是基于PageRank算法的一种图排序的无监督方法，主要用于文本生成关键字和摘要。PageRank算法基于网页链接的数量和质量来衡量网页的重要程度，鉴于此，TextRank算法将所要获取摘要的文本拆分成句子作为文本网络图中的节点，句子间的相似度用节点间的相似度来表示，从而构建基于句子结构关系的文本网络图。通过对文本网络图的迭代计算可以实现对文本中句子重要性进行排序，筛选出几个最重要的句子作为文本的摘要。其仅利用单篇文档本身的信息即可实现关键词提取、文摘。

矩阵S_n×n为对称矩阵，且对角线上的元素值全部取1；

式中:W_s(V_i)为节点V_i的权重，d为阻尼系数，阻尼系数的取值不能过大也不能过小，过大会导致迭代次数激增，且算法的排序也极其不稳定，过小则会导致算法没有明显的效果，一般取值为0.85，W_s(V_j)表示上一次迭代后节点V_j的权重值，w_ji表示节点V_j和节点V_i间的相似度；

则基于TextRank的文本网络图中各节点的权重的计算式表示为:

TextRank算法计算边权重的过程属于马尔可夫过程，通过迭代计算就能得到趋于正常和稳定的权重值。首次使用TextRank算法计算各节点的权重时，需要指定每个节点的初始值，即自身的权重，设定所有节点的初始权重为1，则B₀＝(1,1,...,1)^T，然后根据边的权重递归迭代计算至收敛：

B_i＝S_n×n·B_i-1

当B_i与B_i-1的差值小于阈值时，达到收敛，迭代计算结束。

上述抽取式摘要生成过程可以替换成其它模型，如BertSum等；

所述基于多模态指针生成网络，生成第二摘要，多模态指针生成网络的具体模型如图2所示，多模态指针生成网络模型属于多模态与生成式摘要模型的结合，具体为：

对于文本特征，利用Seq2Seq模型得到一个文本嵌入向量；

对于文本特征，所述Seq2Seq模型的结构为Encoder-Decoder模型，先用Encoder将原文本编码成一个中间层的隐藏状态，然后用Decoder来将该隐藏状态解码成为另一个文本，Seq2Seq模型在Encoder端是一个双向的LSTM，这个双向的LSTM可以捕捉原文本的长距离依赖关系以及位置信息，编码时词嵌入经过双向LSTM后得到编码状态，在Decoder端，解码器是一个单向的LSTM，训练阶段时参考摘要词依次输入(测试阶段时是上一步的生成词)，在时间步t得到解码状态，使用编码状态和解码状态得到该时间步原文第i个词注意力权重，编码状态h_i与解码状态s_t如下所示：

h_i＝f_enc(x_i,h_i-1)

s_t＝f_dec(s_t-1,y_t-1,c_t)

α_t＝softmax(e_t)

c_t＝∑_iα_t,ih_i

式中，e_t,i指t阶段第i个词注意力权重、

W_a、V_a、b_a均为学习权重，e_t指的是t阶段的隐藏层权重；

对于图像特征，对于一般的指针生成器网络，编码器的初始隐藏状态h₀和h_n+1为零向量，解码器的初始隐藏状态s₀使用后向lstm的隐藏层状态

和前向lstm隐藏层状态

的最后一个隐藏状态:

其中，W_d、b_w为学习参数。

对于本实施例中的多模态融合部分，输入一个给定的图书封面或海报图像图像，使用Resnet-101的最后一个池化层中提取预先训练的ImageNet的全局的可视化向量q，并用它来初始化编码器和解码器：

式中，W_e1、b_e1、W_e2、b_e2、W_f、V_w、b_f为学习参数；

来自Region Proposal Network的RoI Align层；

其中，

W_l、V_l、b_l为学习参数。

将所述文本嵌入向量和视觉上下文向量结合，计算得到多模态上下文向量，采用了图像注意滤波器来消除视觉噪声，具体为：

式中，W_g、V_g、b_g、W_h、V_h、

W_m、V_m为学习参数，σ为sigmoid函数，

通过激活函数映射后的文本向量，

所述指针生成器网络根据两个模块的概率分布来预测单词，即生成器和指针，生成器如下所示：

其中，W_b、V_b、b_b为学习参数，P_gen(w)为预测词汇w分布；

指针则是从源序列中复制一个字y_t：

最后的分布是词汇量分布和注意力分布的加权和：

P(w)＝λ_tP_gen(w)+(1-λ_t)P_copy(w)

其中，λ_t∈[0,1]是时间序列的生成概率：

其中，

b_d、

为学习参数，y_t-1指的是t-1时间步的目标词；

损失函数L是每个时间步长t中真实目标词y_t的负对数似然：

所述取第一摘要和第二摘要的交集为最终的图书宣传摘要，具体为：

使用python对两个模型的输出结果取并集，代码如下：

all_union＝list(set(s1).union(set(s2)))

实施例2

本实施例在实施例1的基础上，针对数据集中的所有图书，使用了文本摘要模型生成了相应的宣传短文。以下是生成的例子：

从表中所得到的宣传短文结果上看，本实施例所提出的生成式与抽取式结合的模型在图书文本摘要领域是有一定的参考作用。其不仅可以简单的总结了书的内容，同时还能对书进行评价，在图书推广中会具有应用价值。

实施例3

本实施例提供一种多模态融合技术的图书宣传摘要生成系统，如图3所示，包括：

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种多模态融合技术的图书宣传摘要生成方法，其特征在于，包括以下步骤：

S1：获取包括图书信息的文本信息；

S4：取第一摘要和第二摘要的并集为最终的图书宣传摘要。

2.根据权利要求1所述的多模态融合技术的图书宣传摘要生成方法，其特征在于，步骤S1中的图书信息包括图书图像、书名、作者和内容简介。

3.根据权利要求1所述的多模态融合技术的图书宣传摘要生成方法，其特征在于，所述基于TextRank的抽取式摘要生成，生成第一摘要，具体为：

矩阵S_n×n为对称矩阵，且对角线上的元素值全部取1；

则基于TextRank的文本网络图中各节点的权重的计算式表示为:

4.根据权利要求3所述的多模态融合技术的图书宣传摘要生成方法，其特征在于，首次使用TextRank算法计算各节点的权重时，需要指定每个节点的初始值，即自身的权重，设定所有节点的初始权重为1，则B₀＝(1,1,...,1)^T，然后根据边的权重递归迭代计算至收敛：

B_i＝S_n×n·B_i-1

当B_i与B_i-1的差值小于阈值时，达到收敛，迭代计算结束。

5.根据权利要求1所述的多模态融合技术的图书宣传摘要生成方法，其特征在于，所述基于多模态指针生成网络，生成第二摘要，具体为：

对于文本特征，利用Seq2Seq模型得到一个文本嵌入向量；

6.根据权利要求5所述的多模态融合技术的图书宣传摘要生成方法，其特征在于，对于文本特征，所述Seq2Seq模型的结构为Encoder-Decoder模型，先用Encoder将原文本编码成一个中间层的隐藏状态，然后用Decoder来将该隐藏状态解码成为另一个文本，Seq2Seq模型在Encoder端是一个双向的LSTM，这个双向的LSTM可以捕捉原文本的长距离依赖关系以及位置信息，编码时词嵌入经过双向LSTM后得到编码状态，在Decoder端，解码器是一个单向的LSTM，训练阶段时参考摘要词依次输入，在时间步t得到解码状态，使用编码状态和解码状态得到该时间步原文第i个词注意力权重，编码状态h_i与解码状态s_t如下所示：

h_i＝f_enc(x_i,h_i-1)

s_t＝f_dec(s_t-1,y_t-1,c_t)