CN114281982A - 一种多模态融合技术的图书宣传摘要生成方法和系统 - Google Patents
一种多模态融合技术的图书宣传摘要生成方法和系统 Download PDFInfo
- Publication number
- CN114281982A CN114281982A CN202111644408.9A CN202111644408A CN114281982A CN 114281982 A CN114281982 A CN 114281982A CN 202111644408 A CN202111644408 A CN 202111644408A CN 114281982 A CN114281982 A CN 114281982A
- Authority
- CN
- China
- Prior art keywords
- abstract
- text
- book
- generating
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000004927 fusion Effects 0.000 title claims abstract description 22
- 238000005516 engineering process Methods 0.000 title claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 46
- 230000000007 visual effect Effects 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 19
- 238000009826 distribution Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000013016 damping Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012800 visualization Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 3
- 230000003993 interaction Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种多模态融合技术的图书宣传摘要生成方法和系统,方法包括以下步骤:S1:获取包括图书信息的文本信息;S2:根据所述文本信息,基于TextRank的抽取式摘要生成,生成第一摘要;S3:根据所述文本信息,基于多模态指针生成网络,生成第二摘要;S4:取第一摘要和第二摘要的并集为最终的图书宣传摘要。本发明结合抽取式与生成式模型的优点,并取并集,克服了两者的缺陷得到更加完整的营销文本。
Description
技术领域
本发明涉及多模态融合领域,更具体地,涉及一种多模态融合技术的图书宣传摘要生成方法和系统。
背景技术
随着科学技术的发展及现代社交软件的普及,新媒体的影响力迅速增长,借助微信推送等网络技术方式推广宣传图书已经成了很多图书馆和书店常用的营销宣传手段。
目前业界针对图书宣传摘要生成方法一般有以下几种:
1、抽取式摘要生成
抽取式摘要是一种比较成熟的方案,其中Text rank排序算法以其简洁、高效的特点被工业界广泛运用。其思想是先去除文章中的一些停用词,之后对句子的相似度进行度量,计算每一句相对另一句的相似度得分,迭代传播,直到误差小于阈值。再对上述得到的关键语句进行排序,便能得到想要的摘要。抽取式摘要主要考虑单词词频,并没有过多的语义信息,形成的句子可能仅仅是内容的浓缩无法考量场景信息。
2、生成式摘要生成
生成式文本摘要主要依靠深度神经网络结构实现。神经网络文本生成模型通常是自回归语言模型或seq2seq模型。这些模型通过按顺序采样单词来生成文本,每个单词都以前面的单词为条件,对于一些机器翻译和摘要任务来说是最先进的,们不局限于简单地从原文中选择和重排段落。它们通常利用最大似然估计和Teacher-Forcing进行训练,这些方法非常适合优化困惑度,但可能导致较差的样本质量,因为生成文本时,历史生成单词可能在训练时没有出现过,导致误差逐渐累积。
目前的摘要研究通常以文本为处理对象,一般不涉及其他模态信息的处理。然而,不同模态的信息是相互补充和验证的,充分有效的利用不同模态的信息可以帮助模型更好的定位关键内容,生成更好的摘要。
现有技术中公开提供一种基于多模态流形学习和社交网络特征的推特摘要生成方法,包括以下步骤:获取用户的特定话题推文集,以及用户互动信息;构建文本内的关系矩阵和跨文本的关系矩阵;结合所述矩阵计算推文显著度;结合用户互动信息计算社会认同度;将推文显著度与社会认同度结合即可得到最终的推文显著度,进而选择显著度最高的若干句子成为摘要。该方案仍存在许多的问题如不同模态信息交互较少,现有工作模态融合的核心在于层次化注意力机制,除此以外,不同模态信息缺少显式的交互方式,无法充分的发挥模态信息之间的互补关系。同时多模态摘要生成需要大量的训练数据依赖于人工先验知识。
发明内容
本发明的首要目的是提供一种多模态融合技术的图书宣传摘要生成方法,结合图书摘要自动生成器将抽取式、生成式与多模态生成三种方法,解决现有技术中的缺点。
本发明的进一步目的是一种多模态融合技术的图书宣传摘要生成系统。
为解决上述技术问题,本发明的技术方案如下:
一种多模态融合技术的图书宣传摘要生成方法,包括以下步骤:
S1:获取包括图书信息的文本信息;
S2:根据所述文本信息,基于TextRank的抽取式摘要生成,生成第一摘要;
S3:根据所述文本信息,基于多模态指针生成网络,生成第二摘要;
S4:取第一摘要和第二摘要的并集为最终的图书宣传摘要。
优选地,步骤S1中的图书信息包括图书图像、书名、作者和内容简介。
优选地,所述基于TextRank的抽取式摘要生成,生成第一摘要,具体为:
TextRank算法的文本网络图可以表示为一个带权的无向网络图G=(V,E,W),其中:V为节点的集合,E为节点间各个边的非空有限集合,W为各边上权重的集合;假设V={V1,V2,...,Vn},则记E={(Vi,Vj),Vi∈V,Vj∈V,wij∈W,wij≠0},W={wij,1≤i≤n,1≤j≤n},其中wij为节点Vi与Vj间边的权重值;通过余弦相似度方法计算可得到句子间的一个n×n的相似度矩阵Sn×n:
矩阵Sn×n为对称矩阵,且对角线上的元素值全部取1;
由G和对应的相似度矩阵Sn×n,可计算出每个节点的权重,对于任意节点Vi,In(Vi)表示指向Vi的节点集合,Out(Vj)表示Vi指向节点的集合,节点Vi的权重计算式表示为:
式中:Ws(Vi)为节点Vi的权重,d为阻尼系数,Ws(Vj)表示上一次迭代后节点Vj的权重值,wji表示节点Vj和节点Vi间的相似度;
则基于TextRank的文本网络图中各节点的权重的计算式表示为:
式中:si和sj表示文本中的句子,Ws(si)表示句子si在TextRank网络图中的权重;
通过迭代计算就能得到趋于正常和稳定的权重值后,依据句子的权重值大小对句子进行排序,根据实际需求选取适量排序靠前的句子,并按照其在原文中的顺序排序,生成文本摘要。
优选地,首次使用TextRank算法计算各节点的权重时,需要指定每个节点的初始值,即自身的权重,设定所有节点的初始权重为1,则B0=(1,1,...,1)T,然后根据边的权重递归迭代计算至收敛:
Bi=Sn×n·Bi-1
当Bi与Bi-1的差值小于阈值时,达到收敛,迭代计算结束。
优选地,所述基于多模态指针生成网络,生成第二摘要,具体为:
对于文本特征,利用Seq2Seq模型得到一个文本嵌入向量;
对于图像特征,利用基于模型隐藏状态初始化的视觉特征提取策略,得到视觉上下文向量;
将所述文本嵌入向量和视觉上下文向量结合,计算得到多模态上下文向量;
利用所述多模态上下文向量更新指针生成网络,所述指针生成网络用来预测单词,得到第二摘要。
优选地,对于文本特征,所述Seq2Seq模型的结构为Encoder-Decoder模型,先用Encoder将原文本编码成一个中间层的隐藏状态,然后用Decoder来将该隐藏状态解码成为另一个文本,Seq2Seq模型在Encoder端是一个双向的LSTM,这个双向的LSTM可以捕捉原文本的长距离依赖关系以及位置信息,编码时词嵌入经过双向LSTM后得到编码状态,在Decoder端,解码器是一个单向的LSTM,训练阶段时参考摘要词依次输入,在时间步t得到解码状态,使用编码状态和解码状态得到该时间步原文第i个词注意力权重,编码状态hi与解码状态st如下所示:
hi=fenc(xi,hi-1)
st=fdec(st-1,yt-1,ct)
其中,fenc为编码函数,fdec为解码,yt-1为t-1步的生成词,ct是一个上下文向量,它由基于注意力的编码器隐藏状态的加权和生成,其分布如下:
αt=softmax(et)
ct=∑iαt,ihi
对于图像特征,输入一个给定的图书封面或海报图像图像,使用Resnet-101的最后一个池化层中提取预先训练的ImageNet的全局的可视化向量q,并用它来初始化编码器和解码器:
式中,We1、be1、We2、be2、Wf、Vw、bf为学习参数;
为了利用局部视觉特征增强上下文表征,提取目标特征Vi作为局部的视觉特征,使用ResNet-101初始化的Mask R-CNN,然后使用可视化基因组数据集对其进行再训练,来自Region Proposal Network的RoI Align层;
优选地,将所述文本嵌入向量和视觉上下文向量结合,计算得到多模态上下文向量,具体为:
式中,Wg、Vg、bg、Wh、Vh、Wm、Vm为学习参数,σ为sigmoid函数,通过激活函数映射后的文本向量,通过激活函数映射后的视觉图像向量,Iα为通过激活函数映射后的融合上下文信息的视觉特征向量。
优选地,所述指针生成器网络根据两个模块的概率分布来预测单词,即生成器和指针,生成器如下所示:
其中,Wb、Vb、bb为学习参数,Pgen(w)为预测词汇w分布;
指针则是从源序列中复制一个字yt:
其中,Pcopy(w)指的是单词是从源序列中复制而来的概率,w为预测单词;
最后的分布是词汇量分布和注意力分布的加权和:
P(w)=λtPgen(w)+(1-λt)Pcopy(w)
其中,λt∈[0,1]是时间序列的生成概率:
损失函数L是每个时间步长t中真实目标词yt的负对数似然:
其中,T表示总的时间长度,P(yt)指的是真实目标词的概率分布。
优选地,所述取第一摘要和第二摘要的交集为最终的图书宣传摘要,具体为:
使用python对两个模型的输出结果取并集,代码如下:
all_union=list(set(s1).union(set(s2)))
其中s1为TextRank的输出结果,s2为多模态指针模型的输出结果,并针对最终结果all_union去更新多模态指针生成网络。
一种多模态融合技术的图书宣传摘要生成系统,包括:
信息获取模块,所述信息获取模块用于获取包括图书信息的文本信息;
第一摘要生成模块,所述第一摘要生成模块用于根据所述文本信息,基于TextRank的抽取式摘要生成,生成第一摘要;
第二摘要生成模块,所述第二摘要生成模块用于根据所述文本信息,基于多模态指针生成网络,生成第二摘要;
输出模块,所述输出模块取第一摘要和第二摘要的交集为最终的图书宣传摘要。
与现有技术相比,本发明技术方案的有益效果是:
1、本发明能够结合抽取式与生成式模型的优点,取并集可以克服两者的缺陷得到更加完整的营销文本。
2、本发明适合更多的场景应用,如电商中其他商品的营销文本生成,不依赖于数据产生的环境和业务需求。
3、本发明可以融合多模态数据,让输入更加丰富,生成具有参考意义的图书宣传文本。
4、本发明的模型的数据来源简单,数据采集成本低,只需要爬虫图书的信息并组合,文本不需要固定格式,可以根据实际情况进行自由地文本信息组合。
附图说明
图1为本发明的方法流程示意图。
图2为实施例提供的多模态指针生成网络模型示意图。
图3为本发明的系统模块示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种多模态融合技术的图书宣传摘要生成方法,如图1所示,包括以下步骤:
S1:获取包括图书信息的文本信息;
S2:根据所述文本信息,基于TextRank的抽取式摘要生成,生成第一摘要;
S3:根据所述文本信息,基于多模态指针生成网络,生成第二摘要;
S4:取第一摘要和第二摘要的并集为最终的图书宣传摘要。
本发明究首先定义图书宣传文本摘要工作,输入包括图书图像和书名、作者、内容简介等文本信息,输出用于图书宣传的短文本。提出的图书宣传文本摘要模型是基于TextRank及指针生成器网络的。为了将视觉特征整合到指针生成器网络中,采用了三种策略,包括用全局视觉特征初始化编码器,用全局视觉特征初始化解码器,用局部视觉特征生成上下文表示。然后通过将TextRank算法及指针生成器网络的结果取交集,得到更好的图书宣传文本摘要。
步骤S1中的图书信息包括图书图像、书名、作者和内容简介,来源于网上电商平台。
还可以使用更多的短文生成场景,如电商营销短文等。
所述基于TextRank的抽取式摘要生成,生成第一摘要,具体为:
TextRank算法作为一种经典的文本图排序算法,它利用文本本身的信息和结构特征来实现文本摘要的自动提取。其是基于PageRank算法的一种图排序的无监督方法,主要用于文本生成关键字和摘要。PageRank算法基于网页链接的数量和质量来衡量网页的重要程度,鉴于此,TextRank算法将所要获取摘要的文本拆分成句子作为文本网络图中的节点,句子间的相似度用节点间的相似度来表示,从而构建基于句子结构关系的文本网络图。通过对文本网络图的迭代计算可以实现对文本中句子重要性进行排序,筛选出几个最重要的句子作为文本的摘要。其仅利用单篇文档本身的信息即可实现关键词提取、文摘。
TextRank算法的文本网络图可以表示为一个带权的无向网络图G=(V,E,W),其中:V为节点的集合,E为节点间各个边的非空有限集合,W为各边上权重的集合;假设V={V1,V2,...,Vn},则记E={(Vi,Vj),Vi∈V,Vj∈V,wij∈W,wij≠0},W={wij,1≤i≤n,1≤j≤n},其中wij为节点Vi与Vj间边的权重值;通过余弦相似度方法计算可得到句子间的一个n×n的相似度矩阵Sn×n:
矩阵Sn×n为对称矩阵,且对角线上的元素值全部取1;
由G和对应的相似度矩阵Sn×n,可计算出每个节点的权重,对于任意节点Vi,In(Vi)表示指向Vi的节点集合,Out(Vj)表示Vi指向节点的集合,节点Vi的权重计算式表示为:
式中:Ws(Vi)为节点Vi的权重,d为阻尼系数,阻尼系数的取值不能过大也不能过小,过大会导致迭代次数激增,且算法的排序也极其不稳定,过小则会导致算法没有明显的效果,一般取值为0.85,Ws(Vj)表示上一次迭代后节点Vj的权重值,wji表示节点Vj和节点Vi间的相似度;
则基于TextRank的文本网络图中各节点的权重的计算式表示为:
式中:si和sj表示文本中的句子,Ws(si)表示句子si在TextRank网络图中的权重;
通过迭代计算就能得到趋于正常和稳定的权重值后,依据句子的权重值大小对句子进行排序,根据实际需求选取适量排序靠前的句子,并按照其在原文中的顺序排序,生成文本摘要。
TextRank算法计算边权重的过程属于马尔可夫过程,通过迭代计算就能得到趋于正常和稳定的权重值。首次使用TextRank算法计算各节点的权重时,需要指定每个节点的初始值,即自身的权重,设定所有节点的初始权重为1,则B0=(1,1,...,1)T,然后根据边的权重递归迭代计算至收敛:
Bi=Sn×n·Bi-1
当Bi与Bi-1的差值小于阈值时,达到收敛,迭代计算结束。
上述抽取式摘要生成过程可以替换成其它模型,如BertSum等;
所述基于多模态指针生成网络,生成第二摘要,多模态指针生成网络的具体模型如图2所示,多模态指针生成网络模型属于多模态与生成式摘要模型的结合,具体为:
对于文本特征,利用Seq2Seq模型得到一个文本嵌入向量;
对于图像特征,利用基于模型隐藏状态初始化的视觉特征提取策略,得到视觉上下文向量;
将所述文本嵌入向量和视觉上下文向量结合,计算得到多模态上下文向量;
利用所述多模态上下文向量更新指针生成网络,所述指针生成网络用来预测单词,得到第二摘要。
对于文本特征,所述Seq2Seq模型的结构为Encoder-Decoder模型,先用Encoder将原文本编码成一个中间层的隐藏状态,然后用Decoder来将该隐藏状态解码成为另一个文本,Seq2Seq模型在Encoder端是一个双向的LSTM,这个双向的LSTM可以捕捉原文本的长距离依赖关系以及位置信息,编码时词嵌入经过双向LSTM后得到编码状态,在Decoder端,解码器是一个单向的LSTM,训练阶段时参考摘要词依次输入(测试阶段时是上一步的生成词),在时间步t得到解码状态,使用编码状态和解码状态得到该时间步原文第i个词注意力权重,编码状态hi与解码状态st如下所示:
hi=fenc(xi,hi-1)
st=fdec(st-1,yt-1,ct)
其中,fenc为编码函数,fdec为解码,yt-1为t-1步的生成词,ct是一个上下文向量,它由基于注意力的编码器隐藏状态的加权和生成,其分布如下:
αt=softmax(et)
ct=∑iαt,ihi
其中,Wd、bw为学习参数。
对于本实施例中的多模态融合部分,输入一个给定的图书封面或海报图像图像,使用Resnet-101的最后一个池化层中提取预先训练的ImageNet的全局的可视化向量q,并用它来初始化编码器和解码器:
式中,We1、be1、We2、be2、Wf、Vw、bf为学习参数;
为了利用局部视觉特征增强上下文表征,提取目标特征Vi作为局部的视觉特征,使用ResNet-101初始化的Mask R-CNN,然后使用可视化基因组数据集对其进行再训练,来自Region Proposal Network的RoI Align层;
将所述文本嵌入向量和视觉上下文向量结合,计算得到多模态上下文向量,采用了图像注意滤波器来消除视觉噪声,具体为:
式中,Wg、Vg、bg、Wh、Vh、Wm、Vm为学习参数,σ为sigmoid函数,通过激活函数映射后的文本向量,通过激活函数映射后的视觉图像向量,Iα为通过激活函数映射后的融合上下文信息的视觉特征向量。
所述指针生成器网络根据两个模块的概率分布来预测单词,即生成器和指针,生成器如下所示:
其中,Wb、Vb、bb为学习参数,Pgen(w)为预测词汇w分布;
指针则是从源序列中复制一个字yt:
其中,Pcopy(w)指的是单词是从源序列中复制而来的概率,w为预测单词;
最后的分布是词汇量分布和注意力分布的加权和:
P(w)=λtPgen(w)+(1-λt)Pcopy(w)
其中,λt∈[0,1]是时间序列的生成概率:
损失函数L是每个时间步长t中真实目标词yt的负对数似然:
其中,T表示总的时间长度,P(yt)指的是真实目标词的概率分布。
所述取第一摘要和第二摘要的交集为最终的图书宣传摘要,具体为:
使用python对两个模型的输出结果取并集,代码如下:
all_union=list(set(s1).union(set(s2)))
其中s1为TextRank的输出结果,s2为多模态指针模型的输出结果,并针对最终结果all_union去更新多模态指针生成网络。
实施例2
本实施例在实施例1的基础上,针对数据集中的所有图书,使用了文本摘要模型生成了相应的宣传短文。以下是生成的例子:
从表中所得到的宣传短文结果上看,本实施例所提出的生成式与抽取式结合的模型在图书文本摘要领域是有一定的参考作用。其不仅可以简单的总结了书的内容,同时还能对书进行评价,在图书推广中会具有应用价值。
实施例3
本实施例提供一种多模态融合技术的图书宣传摘要生成系统,如图3所示,包括:
信息获取模块,所述信息获取模块用于获取包括图书信息的文本信息;
第一摘要生成模块,所述第一摘要生成模块用于根据所述文本信息,基于TextRank的抽取式摘要生成,生成第一摘要;
第二摘要生成模块,所述第二摘要生成模块用于根据所述文本信息,基于多模态指针生成网络,生成第二摘要;
输出模块,所述输出模块取第一摘要和第二摘要的交集为最终的图书宣传摘要。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种多模态融合技术的图书宣传摘要生成方法,其特征在于,包括以下步骤:
S1:获取包括图书信息的文本信息;
S2:根据所述文本信息,基于TextRank的抽取式摘要生成,生成第一摘要;
S3:根据所述文本信息,基于多模态指针生成网络,生成第二摘要;
S4:取第一摘要和第二摘要的并集为最终的图书宣传摘要。
2.根据权利要求1所述的多模态融合技术的图书宣传摘要生成方法,其特征在于,步骤S1中的图书信息包括图书图像、书名、作者和内容简介。
3.根据权利要求1所述的多模态融合技术的图书宣传摘要生成方法,其特征在于,所述基于TextRank的抽取式摘要生成,生成第一摘要,具体为:
TextRank算法的文本网络图可以表示为一个带权的无向网络图G=(V,E,W),其中:V为节点的集合,E为节点间各个边的非空有限集合,W为各边上权重的集合;假设V={V1,V2,...,Vn},则记E={(Vi,Vj),Vi∈V,Vj∈V,wij∈W,wij≠0},W={wij,1≤i≤n,1≤j≤n},其中wij为节点Vi与Vj间边的权重值;通过余弦相似度方法计算可得到句子间的一个n×n的相似度矩阵Sn×n:
矩阵Sn×n为对称矩阵,且对角线上的元素值全部取1;
由G和对应的相似度矩阵Sn×n,可计算出每个节点的权重,对于任意节点Vi,In(Vi)表示指向Vi的节点集合,Out(Vj)表示Vi指向节点的集合,节点Vi的权重计算式表示为:
式中:Ws(Vi)为节点Vi的权重,d为阻尼系数,Ws(Vj)表示上一次迭代后节点Vj的权重值,wji表示节点Vj和节点Vi间的相似度;
则基于TextRank的文本网络图中各节点的权重的计算式表示为:
式中:si和sj表示文本中的句子,Ws(si)表示句子si在TextRank网络图中的权重;
通过迭代计算就能得到趋于正常和稳定的权重值后,依据句子的权重值大小对句子进行排序,根据实际需求选取适量排序靠前的句子,并按照其在原文中的顺序排序,生成文本摘要。
4.根据权利要求3所述的多模态融合技术的图书宣传摘要生成方法,其特征在于,首次使用TextRank算法计算各节点的权重时,需要指定每个节点的初始值,即自身的权重,设定所有节点的初始权重为1,则B0=(1,1,...,1)T,然后根据边的权重递归迭代计算至收敛:
Bi=Sn×n·Bi-1
当Bi与Bi-1的差值小于阈值时,达到收敛,迭代计算结束。
5.根据权利要求1所述的多模态融合技术的图书宣传摘要生成方法,其特征在于,所述基于多模态指针生成网络,生成第二摘要,具体为:
对于文本特征,利用Seq2Seq模型得到一个文本嵌入向量;
对于图像特征,利用基于模型隐藏状态初始化的视觉特征提取策略,得到视觉上下文向量;
将所述文本嵌入向量和视觉上下文向量结合,计算得到多模态上下文向量;
利用所述多模态上下文向量更新指针生成网络,所述指针生成网络用来预测单词,得到第二摘要。
6.根据权利要求5所述的多模态融合技术的图书宣传摘要生成方法,其特征在于,对于文本特征,所述Seq2Seq模型的结构为Encoder-Decoder模型,先用Encoder将原文本编码成一个中间层的隐藏状态,然后用Decoder来将该隐藏状态解码成为另一个文本,Seq2Seq模型在Encoder端是一个双向的LSTM,这个双向的LSTM可以捕捉原文本的长距离依赖关系以及位置信息,编码时词嵌入经过双向LSTM后得到编码状态,在Decoder端,解码器是一个单向的LSTM,训练阶段时参考摘要词依次输入,在时间步t得到解码状态,使用编码状态和解码状态得到该时间步原文第i个词注意力权重,编码状态hi与解码状态st如下所示:
hi=fenc(xi,hi-1)
st=fdec(st-1,yt-1,ct)
其中,fenc为编码函数,fdec为解码,yt-1为t-1步的生成词,ct是一个上下文向量,它由基于注意力的编码器隐藏状态的加权和生成,其分布如下:
αt=softmax(et)
ct=∑iαt,ihi
对于图像特征,输入一个给定的图书封面或海报图像图像,使用Resnet-101的最后一个池化层中提取预先训练的ImageNet的全局的可视化向量q,并用它来初始化编码器和解码器:
式中,We1、be1、We2、be2、Wf、Vw、bf为学习参数;
为了利用局部视觉特征增强上下文表征,提取目标特征Vi作为局部的视觉特征,使用ResNet-101初始化的Mask R-CNN,然后使用可视化基因组数据集对其进行再训练,来自Region Proposal Network的RoI Align层;
8.根据权利要求7所述的多模态融合技术的图书宣传摘要生成方法,其特征在于,所述指针生成器网络根据两个模块的概率分布来预测单词,即生成器和指针,生成器如下所示:
其中,Wb、Vb、bb为学习参数,Pgen(w)为预测词汇w分布;
指针则是从源序列中复制一个字yt:
其中,Pcopy(w)指的是单词是从源序列中复制而来的概率,w为预测单词;
最后的分布是词汇量分布和注意力分布的加权和:
P(w)=λtPgen(w)+(1-λt)Pcopy(w)
其中,λt∈[0,1]是时间序列的生成概率:
损失函数L是每个时间步长t中真实目标词yt的负对数似然:
其中,T表示总的时间长度,P(yt)指的是真实目标词的概率分布。
9.根据权利要求8所述的多模态融合技术的图书宣传摘要生成方法,其特征在于,所述取第一摘要和第二摘要的交集为最终的图书宣传摘要,具体为:
使用python对两个模型的输出结果取并集,代码如下:
all_union=list(set(s1).union(set(s2)))
其中s1为TextRank的输出结果,s2为多模态指针模型的输出结果,并针对最终结果all_union去更新多模态指针生成网络。
10.一种多模态融合技术的图书宣传摘要生成系统,其特征在于,包括:
信息获取模块,所述信息获取模块用于获取包括图书信息的文本信息;
第一摘要生成模块,所述第一摘要生成模块用于根据所述文本信息,基于TextRank的抽取式摘要生成,生成第一摘要;
第二摘要生成模块,所述第二摘要生成模块用于根据所述文本信息,基于多模态指针生成网络,生成第二摘要;
输出模块,所述输出模块取第一摘要和第二摘要的交集为最终的图书宣传摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111644408.9A CN114281982B (zh) | 2021-12-29 | 2021-12-29 | 一种多模态融合技术的图书宣传摘要生成方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111644408.9A CN114281982B (zh) | 2021-12-29 | 2021-12-29 | 一种多模态融合技术的图书宣传摘要生成方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114281982A true CN114281982A (zh) | 2022-04-05 |
CN114281982B CN114281982B (zh) | 2023-06-13 |
Family
ID=80878412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111644408.9A Active CN114281982B (zh) | 2021-12-29 | 2021-12-29 | 一种多模态融合技术的图书宣传摘要生成方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114281982B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115062140A (zh) * | 2022-05-27 | 2022-09-16 | 电子科技大学 | 一种bert sum和pgn融合的供应链生态区长文档摘要生成方法 |
CN116403232A (zh) * | 2023-04-13 | 2023-07-07 | 南京少昊网络科技有限公司 | 一种基于像素值波动的图书信息提取方法 |
CN118570339A (zh) * | 2024-06-11 | 2024-08-30 | 中信出版集团股份有限公司 | 一种基于aigc技术的图书ip设计方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415977A (zh) * | 2018-02-09 | 2018-08-17 | 华南理工大学 | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 |
CN111897949A (zh) * | 2020-07-28 | 2020-11-06 | 北京工业大学 | 一种基于Transformer的引导性文本摘要生成方法 |
US20200401764A1 (en) * | 2019-05-15 | 2020-12-24 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for generating abstractive text summarization |
CN112328782A (zh) * | 2020-11-04 | 2021-02-05 | 福州大学 | 一种融合图像过滤器的多模态摘要生成方法 |
CN112765345A (zh) * | 2021-01-22 | 2021-05-07 | 重庆邮电大学 | 一种融合预训练模型的文本摘要自动生成方法及系统 |
CN113609285A (zh) * | 2021-08-09 | 2021-11-05 | 福州大学 | 一种基于依赖门控融合机制的多模态文本摘要系统 |
-
2021
- 2021-12-29 CN CN202111644408.9A patent/CN114281982B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415977A (zh) * | 2018-02-09 | 2018-08-17 | 华南理工大学 | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 |
US20200401764A1 (en) * | 2019-05-15 | 2020-12-24 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for generating abstractive text summarization |
CN111897949A (zh) * | 2020-07-28 | 2020-11-06 | 北京工业大学 | 一种基于Transformer的引导性文本摘要生成方法 |
CN112328782A (zh) * | 2020-11-04 | 2021-02-05 | 福州大学 | 一种融合图像过滤器的多模态摘要生成方法 |
CN112765345A (zh) * | 2021-01-22 | 2021-05-07 | 重庆邮电大学 | 一种融合预训练模型的文本摘要自动生成方法及系统 |
CN113609285A (zh) * | 2021-08-09 | 2021-11-05 | 福州大学 | 一种基于依赖门控融合机制的多模态文本摘要系统 |
Non-Patent Citations (2)
Title |
---|
WAN-TING HSU等: "A unified model for extractive and abstravtive summarization using inconsitency loss", pages 1 - 10 * |
郭倩;黄继风;宋俊典;陈海光;: "基于指针网络生成抽象式新闻摘要", no. 06, pages 210 - 217 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115062140A (zh) * | 2022-05-27 | 2022-09-16 | 电子科技大学 | 一种bert sum和pgn融合的供应链生态区长文档摘要生成方法 |
CN116403232A (zh) * | 2023-04-13 | 2023-07-07 | 南京少昊网络科技有限公司 | 一种基于像素值波动的图书信息提取方法 |
CN116403232B (zh) * | 2023-04-13 | 2024-03-08 | 南京少昊网络科技有限公司 | 一种基于像素值波动的图书信息提取方法 |
CN118570339A (zh) * | 2024-06-11 | 2024-08-30 | 中信出版集团股份有限公司 | 一种基于aigc技术的图书ip设计方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114281982B (zh) | 2023-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984724B (zh) | 利用高维表示提高特定属性情感分类准确率方法 | |
CN110188176B (zh) | 深度学习神经网络及训练、预测方法、系统、设备、介质 | |
CN111061862B (zh) | 一种基于注意力机制生成摘要的方法 | |
CN110728541B (zh) | 信息流媒体广告创意推荐方法及装置 | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和系统 | |
CN112597296B (zh) | 一种基于计划机制和知识图谱引导的摘要生成方法 | |
CN108062388A (zh) | 人机对话的回复生成方法和装置 | |
CN110413768B (zh) | 一种文章题目自动生成方法 | |
CN110457480A (zh) | 基于交互式注意力机制的细粒度情感分类模型的构建方法 | |
CN113051399B (zh) | 一种基于关系型图卷积网络的小样本细粒度实体分类方法 | |
CN110781394A (zh) | 一种基于多源群智数据的个性化商品描述生成方法 | |
CN110598191A (zh) | 一种基于神经网络的复杂pdf结构解析方法及装置 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
Chen et al. | A few-shot transfer learning approach using text-label embedding with legal attributes for law article prediction | |
CN113515632A (zh) | 基于图路径知识萃取的文本分类方法 | |
CN111985520A (zh) | 一种基于图卷积神经网络的多模态分类方法 | |
CN111984782A (zh) | 藏文文本摘要生成方法和系统 | |
CN115630145A (zh) | 一种基于多粒度情感的对话推荐方法及系统 | |
CN114692605A (zh) | 一种融合句法结构信息的关键词生成方法及装置 | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 | |
CN115422939A (zh) | 一种基于大数据的细粒度商品命名实体识别方法 | |
Wang et al. | Application of an emotional classification model in e-commerce text based on an improved transformer model | |
CN109979461A (zh) | 一种语音翻译方法及装置 | |
Sharma et al. | Cyclegen: Cyclic consistency based product review generator from attributes | |
CN118132687A (zh) | 语句处理和类目模型的训练方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |