CN114281982A - 一种多模态融合技术的图书宣传摘要生成方法和系统 - Google Patents

一种多模态融合技术的图书宣传摘要生成方法和系统 Download PDF

Info

Publication number
CN114281982A
CN114281982A CN202111644408.9A CN202111644408A CN114281982A CN 114281982 A CN114281982 A CN 114281982A CN 202111644408 A CN202111644408 A CN 202111644408A CN 114281982 A CN114281982 A CN 114281982A
Authority
CN
China
Prior art keywords
abstract
text
book
generating
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111644408.9A
Other languages
English (en)
Other versions
CN114281982B (zh
Inventor
李岱峰
林凯欣
李栩婷
李鑫
古风云
江涛
廖健斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202111644408.9A priority Critical patent/CN114281982B/zh
Publication of CN114281982A publication Critical patent/CN114281982A/zh
Application granted granted Critical
Publication of CN114281982B publication Critical patent/CN114281982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种多模态融合技术的图书宣传摘要生成方法和系统,方法包括以下步骤:S1:获取包括图书信息的文本信息;S2:根据所述文本信息,基于TextRank的抽取式摘要生成,生成第一摘要;S3:根据所述文本信息,基于多模态指针生成网络,生成第二摘要;S4:取第一摘要和第二摘要的并集为最终的图书宣传摘要。本发明结合抽取式与生成式模型的优点,并取并集,克服了两者的缺陷得到更加完整的营销文本。

Description

一种多模态融合技术的图书宣传摘要生成方法和系统
技术领域
本发明涉及多模态融合领域,更具体地,涉及一种多模态融合技术的图书宣传摘要生成方法和系统。
背景技术
随着科学技术的发展及现代社交软件的普及,新媒体的影响力迅速增长,借助微信推送等网络技术方式推广宣传图书已经成了很多图书馆和书店常用的营销宣传手段。
目前业界针对图书宣传摘要生成方法一般有以下几种:
1、抽取式摘要生成
抽取式摘要是一种比较成熟的方案,其中Text rank排序算法以其简洁、高效的特点被工业界广泛运用。其思想是先去除文章中的一些停用词,之后对句子的相似度进行度量,计算每一句相对另一句的相似度得分,迭代传播,直到误差小于阈值。再对上述得到的关键语句进行排序,便能得到想要的摘要。抽取式摘要主要考虑单词词频,并没有过多的语义信息,形成的句子可能仅仅是内容的浓缩无法考量场景信息。
2、生成式摘要生成
生成式文本摘要主要依靠深度神经网络结构实现。神经网络文本生成模型通常是自回归语言模型或seq2seq模型。这些模型通过按顺序采样单词来生成文本,每个单词都以前面的单词为条件,对于一些机器翻译和摘要任务来说是最先进的,们不局限于简单地从原文中选择和重排段落。它们通常利用最大似然估计和Teacher-Forcing进行训练,这些方法非常适合优化困惑度,但可能导致较差的样本质量,因为生成文本时,历史生成单词可能在训练时没有出现过,导致误差逐渐累积。
目前的摘要研究通常以文本为处理对象,一般不涉及其他模态信息的处理。然而,不同模态的信息是相互补充和验证的,充分有效的利用不同模态的信息可以帮助模型更好的定位关键内容,生成更好的摘要。
现有技术中公开提供一种基于多模态流形学习和社交网络特征的推特摘要生成方法,包括以下步骤:获取用户的特定话题推文集,以及用户互动信息;构建文本内的关系矩阵和跨文本的关系矩阵;结合所述矩阵计算推文显著度;结合用户互动信息计算社会认同度;将推文显著度与社会认同度结合即可得到最终的推文显著度,进而选择显著度最高的若干句子成为摘要。该方案仍存在许多的问题如不同模态信息交互较少,现有工作模态融合的核心在于层次化注意力机制,除此以外,不同模态信息缺少显式的交互方式,无法充分的发挥模态信息之间的互补关系。同时多模态摘要生成需要大量的训练数据依赖于人工先验知识。
发明内容
本发明的首要目的是提供一种多模态融合技术的图书宣传摘要生成方法,结合图书摘要自动生成器将抽取式、生成式与多模态生成三种方法,解决现有技术中的缺点。
本发明的进一步目的是一种多模态融合技术的图书宣传摘要生成系统。
为解决上述技术问题,本发明的技术方案如下:
一种多模态融合技术的图书宣传摘要生成方法,包括以下步骤:
S1:获取包括图书信息的文本信息;
S2:根据所述文本信息,基于TextRank的抽取式摘要生成,生成第一摘要;
S3:根据所述文本信息,基于多模态指针生成网络,生成第二摘要;
S4:取第一摘要和第二摘要的并集为最终的图书宣传摘要。
优选地,步骤S1中的图书信息包括图书图像、书名、作者和内容简介。
优选地,所述基于TextRank的抽取式摘要生成,生成第一摘要,具体为:
TextRank算法的文本网络图可以表示为一个带权的无向网络图G=(V,E,W),其中:V为节点的集合,E为节点间各个边的非空有限集合,W为各边上权重的集合;假设V={V1,V2,...,Vn},则记E={(Vi,Vj),Vi∈V,Vj∈V,wij∈W,wij≠0},W={wij,1≤i≤n,1≤j≤n},其中wij为节点Vi与Vj间边的权重值;通过余弦相似度方法计算可得到句子间的一个n×n的相似度矩阵Sn×n
Figure BDA0003443207750000021
矩阵Sn×n为对称矩阵,且对角线上的元素值全部取1;
由G和对应的相似度矩阵Sn×n,可计算出每个节点的权重,对于任意节点Vi,In(Vi)表示指向Vi的节点集合,Out(Vj)表示Vi指向节点的集合,节点Vi的权重计算式表示为:
Figure BDA0003443207750000031
式中:Ws(Vi)为节点Vi的权重,d为阻尼系数,Ws(Vj)表示上一次迭代后节点Vj的权重值,wji表示节点Vj和节点Vi间的相似度;
则基于TextRank的文本网络图中各节点的权重的计算式表示为:
Figure BDA0003443207750000032
式中:si和sj表示文本中的句子,Ws(si)表示句子si在TextRank网络图中的权重;
通过迭代计算就能得到趋于正常和稳定的权重值后,依据句子的权重值大小对句子进行排序,根据实际需求选取适量排序靠前的句子,并按照其在原文中的顺序排序,生成文本摘要。
优选地,首次使用TextRank算法计算各节点的权重时,需要指定每个节点的初始值,即自身的权重,设定所有节点的初始权重为1,则B0=(1,1,...,1)T,然后根据边的权重递归迭代计算至收敛:
Bi=Sn×n·Bi-1
当Bi与Bi-1的差值小于阈值时,达到收敛,迭代计算结束。
优选地,所述基于多模态指针生成网络,生成第二摘要,具体为:
对于文本特征,利用Seq2Seq模型得到一个文本嵌入向量;
对于图像特征,利用基于模型隐藏状态初始化的视觉特征提取策略,得到视觉上下文向量;
将所述文本嵌入向量和视觉上下文向量结合,计算得到多模态上下文向量;
利用所述多模态上下文向量更新指针生成网络,所述指针生成网络用来预测单词,得到第二摘要。
优选地,对于文本特征,所述Seq2Seq模型的结构为Encoder-Decoder模型,先用Encoder将原文本编码成一个中间层的隐藏状态,然后用Decoder来将该隐藏状态解码成为另一个文本,Seq2Seq模型在Encoder端是一个双向的LSTM,这个双向的LSTM可以捕捉原文本的长距离依赖关系以及位置信息,编码时词嵌入经过双向LSTM后得到编码状态,在Decoder端,解码器是一个单向的LSTM,训练阶段时参考摘要词依次输入,在时间步t得到解码状态,使用编码状态和解码状态得到该时间步原文第i个词注意力权重,编码状态hi与解码状态st如下所示:
hi=fenc(xi,hi-1)
st=fdec(st-1,yt-1,ct)
其中,fenc为编码函数,fdec为解码,yt-1为t-1步的生成词,ct是一个上下文向量,它由基于注意力的编码器隐藏状态的加权和生成,其分布如下:
Figure BDA0003443207750000048
αt=softmax(et)
ct=∑iαt,ihi
式中,et,i指t阶段第i个词注意力权重、
Figure BDA0003443207750000049
Wa、Va、ba均为学习权重,et指的是t阶段的隐藏层权重;
对于图像特征,输入一个给定的图书封面或海报图像图像,使用Resnet-101的最后一个池化层中提取预先训练的ImageNet的全局的可视化向量q,并用它来初始化编码器和解码器:
Figure BDA0003443207750000041
Figure BDA0003443207750000042
Figure BDA0003443207750000043
式中,We1、be1、We2、be2、Wf、Vw、bf为学习参数;
为了利用局部视觉特征增强上下文表征,提取目标特征Vi作为局部的视觉特征,使用ResNet-101初始化的Mask R-CNN,然后使用可视化基因组数据集对其进行再训练,
Figure BDA0003443207750000044
来自Region Proposal Network的RoI Align层;
除了对输入句子的单词的注意外,多模态指针生成模型还可以对图像的不同区域进行权重提取,应用了分层注意力机制,使模型对文本信息和视觉信息进行了不同的注意,我们使用跨模态注意策略计算视觉上下文向量
Figure BDA0003443207750000045
Figure BDA0003443207750000046
Figure BDA0003443207750000047
Figure BDA0003443207750000051
其中,
Figure BDA0003443207750000052
Wl、Vl、bl为学习参数。
优选地,将所述文本嵌入向量和视觉上下文向量结合,计算得到多模态上下文向量,具体为:
Figure BDA0003443207750000053
Figure BDA0003443207750000054
Figure BDA0003443207750000055
Figure BDA0003443207750000056
Figure BDA0003443207750000057
式中,Wg、Vg、bg、Wh、Vh
Figure BDA0003443207750000058
Wm、Vm为学习参数,σ为sigmoid函数,
Figure BDA0003443207750000059
通过激活函数映射后的文本向量,
Figure BDA00034432077500000510
通过激活函数映射后的视觉图像向量,Iα为通过激活函数映射后的融合上下文信息的视觉特征向量。
优选地,所述指针生成器网络根据两个模块的概率分布来预测单词,即生成器和指针,生成器如下所示:
Figure BDA00034432077500000511
其中,Wb、Vb、bb为学习参数,Pgen(w)为预测词汇w分布;
指针则是从源序列中复制一个字yt
Figure BDA00034432077500000512
其中,Pcopy(w)指的是单词是从源序列中复制而来的概率,w为预测单词;
最后的分布是词汇量分布和注意力分布的加权和:
P(w)=λtPgen(w)+(1-λt)Pcopy(w)
其中,λt∈[0,1]是时间序列的生成概率:
Figure BDA00034432077500000513
其中,
Figure BDA00034432077500000514
为学习参数,yt-1指的是t-1时间步的目标词;
损失函数L是每个时间步长t中真实目标词yt的负对数似然:
Figure BDA00034432077500000515
其中,T表示总的时间长度,P(yt)指的是真实目标词的概率分布。
优选地,所述取第一摘要和第二摘要的交集为最终的图书宣传摘要,具体为:
使用python对两个模型的输出结果取并集,代码如下:
all_union=list(set(s1).union(set(s2)))
其中s1为TextRank的输出结果,s2为多模态指针模型的输出结果,并针对最终结果all_union去更新多模态指针生成网络。
一种多模态融合技术的图书宣传摘要生成系统,包括:
信息获取模块,所述信息获取模块用于获取包括图书信息的文本信息;
第一摘要生成模块,所述第一摘要生成模块用于根据所述文本信息,基于TextRank的抽取式摘要生成,生成第一摘要;
第二摘要生成模块,所述第二摘要生成模块用于根据所述文本信息,基于多模态指针生成网络,生成第二摘要;
输出模块,所述输出模块取第一摘要和第二摘要的交集为最终的图书宣传摘要。
与现有技术相比,本发明技术方案的有益效果是:
1、本发明能够结合抽取式与生成式模型的优点,取并集可以克服两者的缺陷得到更加完整的营销文本。
2、本发明适合更多的场景应用,如电商中其他商品的营销文本生成,不依赖于数据产生的环境和业务需求。
3、本发明可以融合多模态数据,让输入更加丰富,生成具有参考意义的图书宣传文本。
4、本发明的模型的数据来源简单,数据采集成本低,只需要爬虫图书的信息并组合,文本不需要固定格式,可以根据实际情况进行自由地文本信息组合。
附图说明
图1为本发明的方法流程示意图。
图2为实施例提供的多模态指针生成网络模型示意图。
图3为本发明的系统模块示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种多模态融合技术的图书宣传摘要生成方法,如图1所示,包括以下步骤:
S1:获取包括图书信息的文本信息;
S2:根据所述文本信息,基于TextRank的抽取式摘要生成,生成第一摘要;
S3:根据所述文本信息,基于多模态指针生成网络,生成第二摘要;
S4:取第一摘要和第二摘要的并集为最终的图书宣传摘要。
本发明究首先定义图书宣传文本摘要工作,输入包括图书图像和书名、作者、内容简介等文本信息,输出用于图书宣传的短文本。提出的图书宣传文本摘要模型是基于TextRank及指针生成器网络的。为了将视觉特征整合到指针生成器网络中,采用了三种策略,包括用全局视觉特征初始化编码器,用全局视觉特征初始化解码器,用局部视觉特征生成上下文表示。然后通过将TextRank算法及指针生成器网络的结果取交集,得到更好的图书宣传文本摘要。
步骤S1中的图书信息包括图书图像、书名、作者和内容简介,来源于网上电商平台。
还可以使用更多的短文生成场景,如电商营销短文等。
所述基于TextRank的抽取式摘要生成,生成第一摘要,具体为:
TextRank算法作为一种经典的文本图排序算法,它利用文本本身的信息和结构特征来实现文本摘要的自动提取。其是基于PageRank算法的一种图排序的无监督方法,主要用于文本生成关键字和摘要。PageRank算法基于网页链接的数量和质量来衡量网页的重要程度,鉴于此,TextRank算法将所要获取摘要的文本拆分成句子作为文本网络图中的节点,句子间的相似度用节点间的相似度来表示,从而构建基于句子结构关系的文本网络图。通过对文本网络图的迭代计算可以实现对文本中句子重要性进行排序,筛选出几个最重要的句子作为文本的摘要。其仅利用单篇文档本身的信息即可实现关键词提取、文摘。
TextRank算法的文本网络图可以表示为一个带权的无向网络图G=(V,E,W),其中:V为节点的集合,E为节点间各个边的非空有限集合,W为各边上权重的集合;假设V={V1,V2,...,Vn},则记E={(Vi,Vj),Vi∈V,Vj∈V,wij∈W,wij≠0},W={wij,1≤i≤n,1≤j≤n},其中wij为节点Vi与Vj间边的权重值;通过余弦相似度方法计算可得到句子间的一个n×n的相似度矩阵Sn×n
Figure BDA0003443207750000081
矩阵Sn×n为对称矩阵,且对角线上的元素值全部取1;
由G和对应的相似度矩阵Sn×n,可计算出每个节点的权重,对于任意节点Vi,In(Vi)表示指向Vi的节点集合,Out(Vj)表示Vi指向节点的集合,节点Vi的权重计算式表示为:
Figure BDA0003443207750000082
式中:Ws(Vi)为节点Vi的权重,d为阻尼系数,阻尼系数的取值不能过大也不能过小,过大会导致迭代次数激增,且算法的排序也极其不稳定,过小则会导致算法没有明显的效果,一般取值为0.85,Ws(Vj)表示上一次迭代后节点Vj的权重值,wji表示节点Vj和节点Vi间的相似度;
则基于TextRank的文本网络图中各节点的权重的计算式表示为:
Figure BDA0003443207750000083
式中:si和sj表示文本中的句子,Ws(si)表示句子si在TextRank网络图中的权重;
通过迭代计算就能得到趋于正常和稳定的权重值后,依据句子的权重值大小对句子进行排序,根据实际需求选取适量排序靠前的句子,并按照其在原文中的顺序排序,生成文本摘要。
TextRank算法计算边权重的过程属于马尔可夫过程,通过迭代计算就能得到趋于正常和稳定的权重值。首次使用TextRank算法计算各节点的权重时,需要指定每个节点的初始值,即自身的权重,设定所有节点的初始权重为1,则B0=(1,1,...,1)T,然后根据边的权重递归迭代计算至收敛:
Bi=Sn×n·Bi-1
当Bi与Bi-1的差值小于阈值时,达到收敛,迭代计算结束。
上述抽取式摘要生成过程可以替换成其它模型,如BertSum等;
所述基于多模态指针生成网络,生成第二摘要,多模态指针生成网络的具体模型如图2所示,多模态指针生成网络模型属于多模态与生成式摘要模型的结合,具体为:
对于文本特征,利用Seq2Seq模型得到一个文本嵌入向量;
对于图像特征,利用基于模型隐藏状态初始化的视觉特征提取策略,得到视觉上下文向量;
将所述文本嵌入向量和视觉上下文向量结合,计算得到多模态上下文向量;
利用所述多模态上下文向量更新指针生成网络,所述指针生成网络用来预测单词,得到第二摘要。
对于文本特征,所述Seq2Seq模型的结构为Encoder-Decoder模型,先用Encoder将原文本编码成一个中间层的隐藏状态,然后用Decoder来将该隐藏状态解码成为另一个文本,Seq2Seq模型在Encoder端是一个双向的LSTM,这个双向的LSTM可以捕捉原文本的长距离依赖关系以及位置信息,编码时词嵌入经过双向LSTM后得到编码状态,在Decoder端,解码器是一个单向的LSTM,训练阶段时参考摘要词依次输入(测试阶段时是上一步的生成词),在时间步t得到解码状态,使用编码状态和解码状态得到该时间步原文第i个词注意力权重,编码状态hi与解码状态st如下所示:
hi=fenc(xi,hi-1)
st=fdec(st-1,yt-1,ct)
其中,fenc为编码函数,fdec为解码,yt-1为t-1步的生成词,ct是一个上下文向量,它由基于注意力的编码器隐藏状态的加权和生成,其分布如下:
Figure BDA0003443207750000091
αt=softmax(et)
ct=∑iαt,ihi
式中,et,i指t阶段第i个词注意力权重、
Figure BDA0003443207750000092
Wa、Va、ba均为学习权重,et指的是t阶段的隐藏层权重;
对于图像特征,对于一般的指针生成器网络,编码器的初始隐藏状态h0和hn+1为零向量,解码器的初始隐藏状态s0使用后向lstm的隐藏层状态
Figure BDA0003443207750000093
和前向lstm隐藏层状态
Figure BDA0003443207750000094
的最后一个隐藏状态:
Figure BDA0003443207750000101
Figure BDA0003443207750000102
其中,Wd、bw为学习参数。
对于本实施例中的多模态融合部分,输入一个给定的图书封面或海报图像图像,使用Resnet-101的最后一个池化层中提取预先训练的ImageNet的全局的可视化向量q,并用它来初始化编码器和解码器:
Figure BDA0003443207750000103
Figure BDA0003443207750000104
Figure BDA0003443207750000105
式中,We1、be1、We2、be2、Wf、Vw、bf为学习参数;
为了利用局部视觉特征增强上下文表征,提取目标特征Vi作为局部的视觉特征,使用ResNet-101初始化的Mask R-CNN,然后使用可视化基因组数据集对其进行再训练,
Figure BDA0003443207750000106
来自Region Proposal Network的RoI Align层;
除了对输入句子的单词的注意外,多模态指针生成模型还可以对图像的不同区域进行权重提取,应用了分层注意力机制,使模型对文本信息和视觉信息进行了不同的注意,我们使用跨模态注意策略计算视觉上下文向量
Figure BDA0003443207750000107
Figure BDA0003443207750000108
Figure BDA0003443207750000109
Figure BDA00034432077500001010
其中,
Figure BDA00034432077500001011
Wl、Vl、bl为学习参数。
将所述文本嵌入向量和视觉上下文向量结合,计算得到多模态上下文向量,采用了图像注意滤波器来消除视觉噪声,具体为:
Figure BDA00034432077500001012
Figure BDA00034432077500001013
Figure BDA00034432077500001014
Figure BDA00034432077500001015
Figure BDA00034432077500001016
式中,Wg、Vg、bg、Wh、Vh
Figure BDA00034432077500001017
Wm、Vm为学习参数,σ为sigmoid函数,
Figure BDA00034432077500001018
通过激活函数映射后的文本向量,
Figure BDA00034432077500001019
通过激活函数映射后的视觉图像向量,Iα为通过激活函数映射后的融合上下文信息的视觉特征向量。
所述指针生成器网络根据两个模块的概率分布来预测单词,即生成器和指针,生成器如下所示:
Figure BDA0003443207750000111
其中,Wb、Vb、bb为学习参数,Pgen(w)为预测词汇w分布;
指针则是从源序列中复制一个字yt
Figure BDA0003443207750000112
其中,Pcopy(w)指的是单词是从源序列中复制而来的概率,w为预测单词;
最后的分布是词汇量分布和注意力分布的加权和:
P(w)=λtPgen(w)+(1-λt)Pcopy(w)
其中,λt∈[0,1]是时间序列的生成概率:
Figure BDA0003443207750000113
其中,
Figure BDA0003443207750000114
bd
Figure BDA0003443207750000115
为学习参数,yt-1指的是t-1时间步的目标词;
损失函数L是每个时间步长t中真实目标词yt的负对数似然:
Figure BDA0003443207750000116
其中,T表示总的时间长度,P(yt)指的是真实目标词的概率分布。
所述取第一摘要和第二摘要的交集为最终的图书宣传摘要,具体为:
使用python对两个模型的输出结果取并集,代码如下:
all_union=list(set(s1).union(set(s2)))
其中s1为TextRank的输出结果,s2为多模态指针模型的输出结果,并针对最终结果all_union去更新多模态指针生成网络。
实施例2
本实施例在实施例1的基础上,针对数据集中的所有图书,使用了文本摘要模型生成了相应的宣传短文。以下是生成的例子:
Figure BDA0003443207750000117
Figure BDA0003443207750000121
从表中所得到的宣传短文结果上看,本实施例所提出的生成式与抽取式结合的模型在图书文本摘要领域是有一定的参考作用。其不仅可以简单的总结了书的内容,同时还能对书进行评价,在图书推广中会具有应用价值。
实施例3
本实施例提供一种多模态融合技术的图书宣传摘要生成系统,如图3所示,包括:
信息获取模块,所述信息获取模块用于获取包括图书信息的文本信息;
第一摘要生成模块,所述第一摘要生成模块用于根据所述文本信息,基于TextRank的抽取式摘要生成,生成第一摘要;
第二摘要生成模块,所述第二摘要生成模块用于根据所述文本信息,基于多模态指针生成网络,生成第二摘要;
输出模块,所述输出模块取第一摘要和第二摘要的交集为最终的图书宣传摘要。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种多模态融合技术的图书宣传摘要生成方法,其特征在于,包括以下步骤:
S1:获取包括图书信息的文本信息;
S2:根据所述文本信息,基于TextRank的抽取式摘要生成,生成第一摘要;
S3:根据所述文本信息,基于多模态指针生成网络,生成第二摘要;
S4:取第一摘要和第二摘要的并集为最终的图书宣传摘要。
2.根据权利要求1所述的多模态融合技术的图书宣传摘要生成方法,其特征在于,步骤S1中的图书信息包括图书图像、书名、作者和内容简介。
3.根据权利要求1所述的多模态融合技术的图书宣传摘要生成方法,其特征在于,所述基于TextRank的抽取式摘要生成,生成第一摘要,具体为:
TextRank算法的文本网络图可以表示为一个带权的无向网络图G=(V,E,W),其中:V为节点的集合,E为节点间各个边的非空有限集合,W为各边上权重的集合;假设V={V1,V2,...,Vn},则记E={(Vi,Vj),Vi∈V,Vj∈V,wij∈W,wij≠0},W={wij,1≤i≤n,1≤j≤n},其中wij为节点Vi与Vj间边的权重值;通过余弦相似度方法计算可得到句子间的一个n×n的相似度矩阵Sn×n
Figure FDA0003443207740000011
矩阵Sn×n为对称矩阵,且对角线上的元素值全部取1;
由G和对应的相似度矩阵Sn×n,可计算出每个节点的权重,对于任意节点Vi,In(Vi)表示指向Vi的节点集合,Out(Vj)表示Vi指向节点的集合,节点Vi的权重计算式表示为:
Figure FDA0003443207740000012
式中:Ws(Vi)为节点Vi的权重,d为阻尼系数,Ws(Vj)表示上一次迭代后节点Vj的权重值,wji表示节点Vj和节点Vi间的相似度;
则基于TextRank的文本网络图中各节点的权重的计算式表示为:
Figure FDA0003443207740000021
式中:si和sj表示文本中的句子,Ws(si)表示句子si在TextRank网络图中的权重;
通过迭代计算就能得到趋于正常和稳定的权重值后,依据句子的权重值大小对句子进行排序,根据实际需求选取适量排序靠前的句子,并按照其在原文中的顺序排序,生成文本摘要。
4.根据权利要求3所述的多模态融合技术的图书宣传摘要生成方法,其特征在于,首次使用TextRank算法计算各节点的权重时,需要指定每个节点的初始值,即自身的权重,设定所有节点的初始权重为1,则B0=(1,1,...,1)T,然后根据边的权重递归迭代计算至收敛:
Bi=Sn×n·Bi-1
当Bi与Bi-1的差值小于阈值时,达到收敛,迭代计算结束。
5.根据权利要求1所述的多模态融合技术的图书宣传摘要生成方法,其特征在于,所述基于多模态指针生成网络,生成第二摘要,具体为:
对于文本特征,利用Seq2Seq模型得到一个文本嵌入向量;
对于图像特征,利用基于模型隐藏状态初始化的视觉特征提取策略,得到视觉上下文向量;
将所述文本嵌入向量和视觉上下文向量结合,计算得到多模态上下文向量;
利用所述多模态上下文向量更新指针生成网络,所述指针生成网络用来预测单词,得到第二摘要。
6.根据权利要求5所述的多模态融合技术的图书宣传摘要生成方法,其特征在于,对于文本特征,所述Seq2Seq模型的结构为Encoder-Decoder模型,先用Encoder将原文本编码成一个中间层的隐藏状态,然后用Decoder来将该隐藏状态解码成为另一个文本,Seq2Seq模型在Encoder端是一个双向的LSTM,这个双向的LSTM可以捕捉原文本的长距离依赖关系以及位置信息,编码时词嵌入经过双向LSTM后得到编码状态,在Decoder端,解码器是一个单向的LSTM,训练阶段时参考摘要词依次输入,在时间步t得到解码状态,使用编码状态和解码状态得到该时间步原文第i个词注意力权重,编码状态hi与解码状态st如下所示:
hi=fenc(xi,hi-1)
st=fdec(st-1,yt-1,ct)
其中,fenc为编码函数,fdec为解码,yt-1为t-1步的生成词,ct是一个上下文向量,它由基于注意力的编码器隐藏状态的加权和生成,其分布如下:
Figure FDA0003443207740000031
αt=softmax(et)
ct=∑iαt,ihi
式中,et,i指t阶段第i个词注意力权重、
Figure FDA0003443207740000032
Wa、Va、ba均为学习权重,et指的是t阶段的隐藏层权重;
对于图像特征,输入一个给定的图书封面或海报图像图像,使用Resnet-101的最后一个池化层中提取预先训练的ImageNet的全局的可视化向量q,并用它来初始化编码器和解码器:
Figure FDA0003443207740000033
Figure FDA0003443207740000034
Figure FDA0003443207740000035
式中,We1、be1、We2、be2、Wf、Vw、bf为学习参数;
为了利用局部视觉特征增强上下文表征,提取目标特征Vi作为局部的视觉特征,使用ResNet-101初始化的Mask R-CNN,然后使用可视化基因组数据集对其进行再训练,
Figure FDA0003443207740000036
来自Region Proposal Network的RoI Align层;
除了对输入句子的单词的注意外,多模态指针生成模型还可以对图像的不同区域进行权重提取,应用了分层注意力机制,使模型对文本信息和视觉信息进行了不同的注意,我们使用跨模态注意策略计算视觉上下文向量
Figure FDA0003443207740000037
Figure FDA0003443207740000038
Figure FDA0003443207740000039
Figure FDA00034432077400000310
其中,
Figure FDA00034432077400000311
Wl、Vl、bl为学习参数。
7.根据权利要求6所述的多模态融合技术的图书宣传摘要生成方法,其特征在于,将所述文本嵌入向量和视觉上下文向量结合,计算得到多模态上下文向量,具体为:
Figure FDA0003443207740000041
Figure FDA0003443207740000042
Figure FDA0003443207740000043
Figure FDA0003443207740000044
Figure FDA0003443207740000045
式中,Wg、Vg、bg、Wh、Vh
Figure FDA0003443207740000046
Wm、Vm为学习参数,σ为sigmoid函数,
Figure FDA0003443207740000047
通过激活函数映射后的文本向量,
Figure FDA0003443207740000048
通过激活函数映射后的视觉图像向量,Iα为通过激活函数映射后的融合上下文信息的视觉特征向量。
8.根据权利要求7所述的多模态融合技术的图书宣传摘要生成方法,其特征在于,所述指针生成器网络根据两个模块的概率分布来预测单词,即生成器和指针,生成器如下所示:
Figure FDA0003443207740000049
其中,Wb、Vb、bb为学习参数,Pgen(w)为预测词汇w分布;
指针则是从源序列中复制一个字yt
Figure FDA00034432077400000410
其中,Pcopy(w)指的是单词是从源序列中复制而来的概率,w为预测单词;
最后的分布是词汇量分布和注意力分布的加权和:
P(w)=λtPgen(w)+(1-λt)Pcopy(w)
其中,λt∈[0,1]是时间序列的生成概率:
Figure FDA00034432077400000411
其中,
Figure FDA00034432077400000412
为学习参数,yt-1指的是t-1时间步的目标词;
损失函数L是每个时间步长t中真实目标词yt的负对数似然:
Figure FDA00034432077400000413
其中,T表示总的时间长度,P(yt)指的是真实目标词的概率分布。
9.根据权利要求8所述的多模态融合技术的图书宣传摘要生成方法,其特征在于,所述取第一摘要和第二摘要的交集为最终的图书宣传摘要,具体为:
使用python对两个模型的输出结果取并集,代码如下:
all_union=list(set(s1).union(set(s2)))
其中s1为TextRank的输出结果,s2为多模态指针模型的输出结果,并针对最终结果all_union去更新多模态指针生成网络。
10.一种多模态融合技术的图书宣传摘要生成系统,其特征在于,包括:
信息获取模块,所述信息获取模块用于获取包括图书信息的文本信息;
第一摘要生成模块,所述第一摘要生成模块用于根据所述文本信息,基于TextRank的抽取式摘要生成,生成第一摘要;
第二摘要生成模块,所述第二摘要生成模块用于根据所述文本信息,基于多模态指针生成网络,生成第二摘要;
输出模块,所述输出模块取第一摘要和第二摘要的交集为最终的图书宣传摘要。
CN202111644408.9A 2021-12-29 2021-12-29 一种多模态融合技术的图书宣传摘要生成方法和系统 Active CN114281982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111644408.9A CN114281982B (zh) 2021-12-29 2021-12-29 一种多模态融合技术的图书宣传摘要生成方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111644408.9A CN114281982B (zh) 2021-12-29 2021-12-29 一种多模态融合技术的图书宣传摘要生成方法和系统

Publications (2)

Publication Number Publication Date
CN114281982A true CN114281982A (zh) 2022-04-05
CN114281982B CN114281982B (zh) 2023-06-13

Family

ID=80878412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111644408.9A Active CN114281982B (zh) 2021-12-29 2021-12-29 一种多模态融合技术的图书宣传摘要生成方法和系统

Country Status (1)

Country Link
CN (1) CN114281982B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062140A (zh) * 2022-05-27 2022-09-16 电子科技大学 一种bert sum和pgn融合的供应链生态区长文档摘要生成方法
CN116403232A (zh) * 2023-04-13 2023-07-07 南京少昊网络科技有限公司 一种基于像素值波动的图书信息提取方法
CN118570339A (zh) * 2024-06-11 2024-08-30 中信出版集团股份有限公司 一种基于aigc技术的图书ip设计方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415977A (zh) * 2018-02-09 2018-08-17 华南理工大学 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
CN111897949A (zh) * 2020-07-28 2020-11-06 北京工业大学 一种基于Transformer的引导性文本摘要生成方法
US20200401764A1 (en) * 2019-05-15 2020-12-24 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for generating abstractive text summarization
CN112328782A (zh) * 2020-11-04 2021-02-05 福州大学 一种融合图像过滤器的多模态摘要生成方法
CN112765345A (zh) * 2021-01-22 2021-05-07 重庆邮电大学 一种融合预训练模型的文本摘要自动生成方法及系统
CN113609285A (zh) * 2021-08-09 2021-11-05 福州大学 一种基于依赖门控融合机制的多模态文本摘要系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415977A (zh) * 2018-02-09 2018-08-17 华南理工大学 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
US20200401764A1 (en) * 2019-05-15 2020-12-24 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for generating abstractive text summarization
CN111897949A (zh) * 2020-07-28 2020-11-06 北京工业大学 一种基于Transformer的引导性文本摘要生成方法
CN112328782A (zh) * 2020-11-04 2021-02-05 福州大学 一种融合图像过滤器的多模态摘要生成方法
CN112765345A (zh) * 2021-01-22 2021-05-07 重庆邮电大学 一种融合预训练模型的文本摘要自动生成方法及系统
CN113609285A (zh) * 2021-08-09 2021-11-05 福州大学 一种基于依赖门控融合机制的多模态文本摘要系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WAN-TING HSU等: "A unified model for extractive and abstravtive summarization using inconsitency loss", pages 1 - 10 *
郭倩;黄继风;宋俊典;陈海光;: "基于指针网络生成抽象式新闻摘要", no. 06, pages 210 - 217 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062140A (zh) * 2022-05-27 2022-09-16 电子科技大学 一种bert sum和pgn融合的供应链生态区长文档摘要生成方法
CN116403232A (zh) * 2023-04-13 2023-07-07 南京少昊网络科技有限公司 一种基于像素值波动的图书信息提取方法
CN116403232B (zh) * 2023-04-13 2024-03-08 南京少昊网络科技有限公司 一种基于像素值波动的图书信息提取方法
CN118570339A (zh) * 2024-06-11 2024-08-30 中信出版集团股份有限公司 一种基于aigc技术的图书ip设计方法及系统

Also Published As

Publication number Publication date
CN114281982B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN110188176B (zh) 深度学习神经网络及训练、预测方法、系统、设备、介质
CN111061862B (zh) 一种基于注意力机制生成摘要的方法
CN110728541B (zh) 信息流媒体广告创意推荐方法及装置
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
CN112597296B (zh) 一种基于计划机制和知识图谱引导的摘要生成方法
CN108062388A (zh) 人机对话的回复生成方法和装置
CN110413768B (zh) 一种文章题目自动生成方法
CN110457480A (zh) 基于交互式注意力机制的细粒度情感分类模型的构建方法
CN113051399B (zh) 一种基于关系型图卷积网络的小样本细粒度实体分类方法
CN110781394A (zh) 一种基于多源群智数据的个性化商品描述生成方法
CN110598191A (zh) 一种基于神经网络的复杂pdf结构解析方法及装置
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
Chen et al. A few-shot transfer learning approach using text-label embedding with legal attributes for law article prediction
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN111985520A (zh) 一种基于图卷积神经网络的多模态分类方法
CN111984782A (zh) 藏文文本摘要生成方法和系统
CN115630145A (zh) 一种基于多粒度情感的对话推荐方法及系统
CN114692605A (zh) 一种融合句法结构信息的关键词生成方法及装置
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN115422939A (zh) 一种基于大数据的细粒度商品命名实体识别方法
Wang et al. Application of an emotional classification model in e-commerce text based on an improved transformer model
CN109979461A (zh) 一种语音翻译方法及装置
Sharma et al. Cyclegen: Cyclic consistency based product review generator from attributes
CN118132687A (zh) 语句处理和类目模型的训练方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant