CN113360601A - 一种融合主题的pgn-gan文本摘要模型 - Google Patents

一种融合主题的pgn-gan文本摘要模型 Download PDF

Info

Publication number
CN113360601A
CN113360601A CN202110646495.5A CN202110646495A CN113360601A CN 113360601 A CN113360601 A CN 113360601A CN 202110646495 A CN202110646495 A CN 202110646495A CN 113360601 A CN113360601 A CN 113360601A
Authority
CN
China
Prior art keywords
subject
text
distribution
model
gan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110646495.5A
Other languages
English (en)
Inventor
郭继峰
费禹潇
吕帅
孙文博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Forestry University
Original Assignee
Northeast Forestry University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Forestry University filed Critical Northeast Forestry University
Priority to CN202110646495.5A priority Critical patent/CN113360601A/zh
Publication of CN113360601A publication Critical patent/CN113360601A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种融合主题的PGN‑GAN摘要生成方法,为了能够生成更加贴近主题信息和源文本的摘要,本发明在指针生成网络的基础上尝试融入了LDA主题模型,并将主题信息融入到结合指针网络和GAN的序列到序列模型中,该模型将利用主题来模拟人类的先验知识,从而使摘要更多的结合主题生成,在获得主题词向量后与上下文共同合成新向量来影响文本的生成。本发明提出的加入了生成对抗网络的指针生成网络模型结果较其他生成的摘要更加通顺,同时因为主题信息的引入,更加贴近原文的含义。

Description

一种融合主题的PGN-GAN文本摘要模型
技术领域:
本发明涉及自然语言处理领域,尤其涉及一种融合主题的PGN-GAN摘要生成方法。
背景技术:
随着近年来互联网文本信息的爆发式增长,极大的增加了阅读的困难,从繁杂的文本中提取有用的信息变得越显得格外重要,因此如何高效准确的从中提取信息组成摘要成为了目前互联网行业的迫切需求。
在先前的工作中,有研究人员利用隐迪利克雷(LDA)方法生成文档主题模型以提取文档集或语料库的潜在主题信息,随着LDA技术的不断成熟,主题模型除了用在分类预测的方面也更多的应用在文本摘要方面的工作。
现阶段文本摘要技术大致分为两类,抽取式摘要与生成式摘要,抽取式摘要技术一般依靠词频、统计等抽取原文的词语或句子,生成式摘要技术一般需要利用神经网络从中提取文本的特征再通过语料生成所需的摘要,但目前常用的基准序列到序列模型仍然具有事实偏差、不够还原等问题。目前解决以上问题的主流思想是指针生成网络。
随着生成对抗网络在图像领域的广泛应用,GAN也被尝试应用在了文本生成中。本文使用生成器G来生成文本,并利用鉴别器D作为文本的分类器,D 的主要作用是鉴别文本是由机器生成还是人为生成。G和D的对抗学习最终可以协助传统的网络结构生成更高质量的文本。
为了能够生成更加贴近主题信息和源文本的摘要,本发明在指针生成网络的基础上尝试融入了LDA主题模型,并将主题信息融入到结合GAN的序列到序列模型中,该模型将利用主题来模拟人类的先验知识,从而使摘要更多的结合主题生成,在获得主题词向量后与上下文共同合成新向量来影响文本的生成。
本发明提出的加入了生成对抗网络的指针生成网络模型结果较其他生成的摘要更加通顺,同时因为主题信息的引入,更加贴近原文的含义。
发明内容:
本发明的目的是克服现有方法的不足,提出一种结合指针网络同生成对抗网络的摘要生成方法,特别是涉及一种融合主题信息的摘要生成方法,以弥补摘要生成中主题信息确实的问题。
1.一种融合主题的PGN-GAN文本摘要模型,其特征在于,包括如下步骤:
步骤1:给定文本集合中的每篇文档,利用隐狄利克雷模型得到主题词和主题文档分布。
步骤2:在主题分布中选取前k个作为主题词,得到主题词向量。
步骤3:将普通编码器的最终隐藏层状态作为主题注意力层的输入,形成复合注意力。
步骤4:生成器将源文本和主题词作为输入,在经过带有复合注意力机制的编码器后将x转变为隐藏状态,搭建指针生成网络和生成对抗网络,鉴别器用来区分文本是机器生成的还是真实样本。
步骤5:将输出向量传入解码器,通过解码器得到最终生成的文本。
2.根据权利要求1所述的一种融合主题的PGN-GAN文本摘要模型,其特征在于,所述步骤1包括如下步骤:
步骤1.1:给定文本集合中的每篇文档,生成一个隐迪利克雷分布模型,得到θm作为主题——文档分布
步骤1.2:每个主题t,依据以β为参数的狄利克雷分布得到分布
Figure BDA0003109959010000021
即主题词分布。
步骤1.3:利用主题词分布和主题文档分布得到Tmn和wmn
步骤1.4:利用吉布斯采样来进行求解,对于当前文档的每一个词我们随机赋予一个主题编号,随后重新扫描。对于每一个当前词利用吉布斯采样公式来更新他的主题编号,重复以上步骤直到采样收敛,最后统计文档中各词的主题,得到该文档的主题分布。
3.根据权利要求1所述的一种融合主题的PGN-GAN文本摘要模型,其特征在于,所述步骤2包括如下步骤
步骤2.1:利用LDA方法生成主题词后于事先设定的主题中训练出t1…tk,选取前n个作为对应文本的主题词。
步骤2.2:利用Word2Vec模型获得每个词语的词向量。
4.根据权利要求1所述的一种融合主题的PGN-GAN文本摘要模型,其特征在于,所述步骤3包括如下步骤。
步骤3.1:将主题词表示为词向量,普通编码器的最终隐藏层状态作为主题注意力层的输入,形成的新编码层。
步骤3.2:生成器首先将源文本作为输入,在使用编码器后将源文本转变为隐藏状态。
步骤3.3:利用注意力机制的原理形成新的主题注意力结果,然后将序列注意力和普通注意力叠加得到输出。
5.根据权利要求1所述的一种融合主题的PGN-GAN文本摘要模型,其特征在于,所述步骤4包括如下步骤。
步骤4.1:搭建指针网络架构:包含有编码器,attention层,解码器
步骤4.2:搭建生成器与判别器,生成器利用已经建立好的指针网络。鉴别器区分文本是机器生成的还是真实样本,使用LSTM网络来进行特征选择,这些特征最后经过sigmoid函数后得到该文本是否为真实样本的概率。
步骤4.3:对于生成器G和判别器D的训练,我们首先固定生成器的权重,对判别器更新权重,随后两方交替迭代直到生成器生成同训练样本相同的分布。
附图说明:
图1是一种融合主题的PGN-GAN文本摘要模型的流程图。
图2是文本摘要模型中融合主题的PGN模型流程图。
图3是GAN网络结构图。
图4是生成的摘要示例。
具体实施方式:
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着深度学习的发展,自动摘要的文本生成效果得到了进一步的提高,本文研究了一种融合主题的PGN-GAN文本摘要模型,参照图1本发明包括以下步骤:
S1、接收文本,通过隐狄利克雷分布建立LDA模型;
S2、利用主题分布选取前k个主题词作为主体信息,然后获取该主题词的词向量;
S3、获取到文本词向量和主题词向量后,将二者结合,形成新的注意力层
S4、使用生成器中编码器解码器结构进行训练,利用鉴别器同生成器对抗学习。
S5、生成器和鉴别器稳定后,将输出向量传入解码器,得到最终生成的文本。
如上述步骤S1所述,建立LDA模型需要确定文档分布和词分布,首先对于给定的数据集会有M个文档,D:{d1,…,dm},文档d中含有S个句子,N个词,在LDA模型中,LDA假定N篇文档中含有K个主题,Wmn代表第m篇文档中的第n个词,Tmn代表第m篇文档的第n个词的主题。θm表示第m篇文档的主题概率,服从以α为参数的狄利克雷分布,
Figure BDA0003109959010000051
代表第k个主题的对应词的概率,服从以β为参数的狄利克雷分布。
1.对于给定文本集合中的每篇文档,生成一个隐迪利克雷分布模型,得到θm作为主题—文档分布
2.每个主题t,依据以β为参数的狄利克雷分布得到分布
Figure BDA0003109959010000052
即主题词分布
3.利用主题词分布和主题文档分布得到词Tmn和wmn
如上述步骤S2所述,在建立LDA模型后,应确定主题词的个数,利用 Word2Vec方法获取词向量。
如上述步骤S3所述,要实现复合注意力需要将主题词T:(t1,…,tn)表示为词向量,利用普通编码器的最终隐藏层状态s0作为主题注意力层的输入,形成 (s0,t1,…,tn)的新编码层,同样利用注意力机制的原理形成新的主题注意力结果 Oi,然后将序列注意力和普通注意力叠加得到输出。
如上述步骤S4所述,如图将通过指针生成网络与生成对抗网络进行训练, Pgen将隐藏层状态hi,解码器状态st和当前字符的输入xi,计算得:
其中,w是需要学习的参数,通过σ激活函数激活后,形成Pgen。Pgen代表指针网络生成的概率,通过引入Pgen获得生成单词P(w)的概率分布如下式:
Figure BDA0003109959010000053
当w不在词典中时,Pvocab=0表示单词从原始文本中得到,当w在词典中时,通过生成得到。
生成器首先将源文本x={x1,x2,…,xt,…,xT}作为输入,n是单词的个数,预测摘要是y={y1,y2,…,yn,…,yN},在使用编码器后将x转变为隐藏状态h= {h1,h2,…,ht}。鉴别器的目的是区分文本时机器生成的还是真实样本,我们这里使用LSTM网络来进行特征选择,这些特征最后经过sigmoid函数后得到该文本是否为真实样本的概率。
如上述步骤S5所述,将S4得到的最终解码向量传入解码器,在decoder 层,如下式所示每一步的隐向量和传统注意力机制一样将h转化为ci,然后将主题向量k融入αoj中,其中si是第i-1步的隐藏状态,hT是句子的最终的隐藏层状态,η是一个多层感知机。
Figure BDA0003109959010000061
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
以上结合附图所述,仅为本发明的具体实施方式及流程,但本发明的保护范围并不局限于此,任何熟悉本领域的技术人员应当理解,此仅为举例说明,可以对此实施方式做出多种变化和替换,而不背离本发明的实质内容。本发明的范围仅由所附权利要求书限定。
本发明通过参考附图描述的实施方式是示例性的,仅用于对本发明进行解释,不能理解为对本发明的限制,本发明的实施例具体范围不受此限制,相反,本发明的所有实施例包括落入所附权利要求书的精神和内涵范围内的所有变化和修改。

Claims (6)

1.一种融合主题的PGN-GAN文本摘要模型,其特征在于,包括如下步骤:
步骤1:给定文本集合中的每篇文档,利用隐狄利克雷模型得到主题词和主题文档分布
步骤2:在主题分布中选取前k个作为主题词,得到主题词向量
步骤3:将普通编码器的最终隐藏层状态作为主题注意力层的输入,形成复合注意力。
步骤4:生成器将源文本和主题词作为输入,在经过带有复合注意力机制的编码器后将x转变为隐藏状态,搭建指针生成网络和生成对抗网络,鉴别器用来区分文本是机器生成的还是真实样本。
步骤5:将输出向量传入解码器,通过解码器得到最终生成的文本。
2.根据权利要求1所述的一种融合主题的PGN-GAN文本摘要模型,其特征在于,所述步骤1包括如下步骤:
步骤1.1:给定文本集合中的每篇文档,生成一个隐迪利克雷分布模型,得到θm作为主题——文档分布
步骤1.2:每个主题t,依据以β为参数的狄利克雷分布得到分布\varphi_k,即主题词分布。
步骤1.3:利用主题词分布和主题文档分布得到词T_{mn}和w_{mn}
步骤1.4:利用吉布斯采样来进行求解,对于当前文档的每一个词我们随机赋予一个主题编号,随后重新扫描。对于每一个当前词利用吉布斯采样公式来更新他的主题编号,重复以上步骤直到采样收敛,最后统计文档中各词的主题,得到该文档的主题分布。
3.根据权利要求1所述的一种融合主题的PGN-GAN文本摘要模型,其特征在于,所述步骤2包括如下步骤
步骤2.1:利用LDA方法生成主题词后于事先设定的主题中训练出t_1\cdotst_k,选取前n个作为对应文本的主题词。
步骤2.2:利用Word2Vec模型获得每个词语的词向量。
4.根据权利要求1所述的一种融合主题的PGN-GAN文本摘要模型,其特征在于,所述步骤3包括如下步骤。
步骤3.1:将主题词表示为词向量,普通编码器的最终隐藏层状态作为主题注意力层的输入,形成的新编码层。
步骤3.2:生成器首先将源文本作为输入,在使用编码器后将源文本转变为隐藏状态。
步骤3.3:利用注意力机制的原理形成新的主题注意力结果,然后将序列注意力和普通注意力叠加得到输出。
5.根据权利要求1所述的一种融合主题的PGN-GAN文本摘要模型,其特征在于,所述步骤4包括如下步骤。
步骤4.1:搭建指针网络架构:包含有编码器,attention层,解码器
步骤4.2:搭建生成器与判别器,生成器利用已经建立好的指针网络。鉴别器区分文本是机器生成的还是真实样本,使用LSTM网络来进行特征选择,这些特征最后经过sigmoid函数后得到该文本是否为真实样本的概率。
步骤4.3:对于生成器G和判别器D的训练,我们首先固定生成器的权重,对判别器更新权重,随后两方交替迭代直到生成器生成同训练样本相同的分布。
6.根据权利要求1所述的一种融合主题的PGN-GAN文本摘要模型,其特征在于,所述步骤5包括如下步骤。
步骤5.1将主题向量k融入αoj中。
步骤5.2将S4得到的最终解码向量传入解码器。
CN202110646495.5A 2021-06-10 2021-06-10 一种融合主题的pgn-gan文本摘要模型 Pending CN113360601A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110646495.5A CN113360601A (zh) 2021-06-10 2021-06-10 一种融合主题的pgn-gan文本摘要模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110646495.5A CN113360601A (zh) 2021-06-10 2021-06-10 一种融合主题的pgn-gan文本摘要模型

Publications (1)

Publication Number Publication Date
CN113360601A true CN113360601A (zh) 2021-09-07

Family

ID=77533619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110646495.5A Pending CN113360601A (zh) 2021-06-10 2021-06-10 一种融合主题的pgn-gan文本摘要模型

Country Status (1)

Country Link
CN (1) CN113360601A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062140A (zh) * 2022-05-27 2022-09-16 电子科技大学 一种bert sum和pgn融合的供应链生态区长文档摘要生成方法
CN115658882A (zh) * 2022-10-08 2023-01-31 重庆理工大学 一种结合全局主题信息的摘要生成方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909152A (zh) * 2019-10-21 2020-03-24 昆明理工大学 一种融合主题信息的司法舆情文本摘要方法
CN111666756A (zh) * 2020-05-26 2020-09-15 湖北工业大学 一种基于主题融合的序列模型文本摘要生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909152A (zh) * 2019-10-21 2020-03-24 昆明理工大学 一种融合主题信息的司法舆情文本摘要方法
CN111666756A (zh) * 2020-05-26 2020-09-15 湖北工业大学 一种基于主题融合的序列模型文本摘要生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姜志祥 等: ""基于自注意力与指针网络的自动摘要模型"", 《计算机工程与设计》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062140A (zh) * 2022-05-27 2022-09-16 电子科技大学 一种bert sum和pgn融合的供应链生态区长文档摘要生成方法
CN115658882A (zh) * 2022-10-08 2023-01-31 重庆理工大学 一种结合全局主题信息的摘要生成方法

Similar Documents

Publication Publication Date Title
CN110134771B (zh) 一种基于多注意力机制融合网络问答系统的实现方法
CN108829722B (zh) 一种远程监督的Dual-Attention关系分类方法及系统
CN111382580B (zh) 一种面向神经机器翻译的编码器-解码器框架预训练方法
CN110598221B (zh) 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN110196913A (zh) 基于文本生成式的多实体关系联合抽取方法和装置
CN110334361A (zh) 一种面向小语种语言的神经机器翻译方法
CN113283244B (zh) 一种基于预训练模型的招投标数据命名实体识别方法
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN106383816A (zh) 基于深度学习的中文少数民族地区地名的识别方法
CN113360601A (zh) 一种融合主题的pgn-gan文本摘要模型
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN113178193A (zh) 一种基于智能语音芯片的中文自定义唤醒与物联交互方法
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN114970503A (zh) 一种基于预训练的字音字形知识增强的中文拼写纠正方法
CN116502628A (zh) 基于知识图谱的政务领域多阶段融合的文本纠错方法
CN108763230A (zh) 利用外部信息的神经机器翻译方法
CN113961706A (zh) 一种基于神经网络自注意力机制的精确文本表示方法
CN114444481A (zh) 一种新闻评论的情感分析与生成方法
CN116910251A (zh) 基于bert模型的文本分类方法、装置、设备及介质
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN116775855A (zh) 基于Bi-LSTM的TextRank中文摘要自动生成方法
CN113190659B (zh) 基于多任务联合训练的文言文机器阅读理解方法
KR102410582B1 (ko) 유해어에 대한 학습 데이터를 증강하는 장치, 방법 및 컴퓨터 프로그램
CN115309886A (zh) 基于多模态信息输入的人工智能文本创作方法
CN115346158A (zh) 一种基于连贯性注意力机制及双流解码器的视频描述方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210907