CN111476038A - 长文本生成方法、装置、计算机设备和存储介质 - Google Patents

长文本生成方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111476038A
CN111476038A CN202010373476.5A CN202010373476A CN111476038A CN 111476038 A CN111476038 A CN 111476038A CN 202010373476 A CN202010373476 A CN 202010373476A CN 111476038 A CN111476038 A CN 111476038A
Authority
CN
China
Prior art keywords
entity
text
long
entities
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010373476.5A
Other languages
English (en)
Other versions
CN111476038B (zh
Inventor
谭真
赵翔
胡升泽
何鑫
李硕豪
蒋林承
唐九阳
葛斌
肖卫东
黄莉华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010373476.5A priority Critical patent/CN111476038B/zh
Publication of CN111476038A publication Critical patent/CN111476038A/zh
Application granted granted Critical
Publication of CN111476038B publication Critical patent/CN111476038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种长文本生成方法、装置、计算机设备和存储介质。所述方法包括:获取预设结构的长文本框架,构建长文本对应的背景知识图谱。对长文本给定的标题文本,对标题文本进行实体提取,得到标题文本对应的多个标题实体,根据标题实体,在背景知识图谱中进行检索,得到多个相关实体,根据相关实体以及预先设置的语言模型,输出长句结构中对应的长句文本,根据相关实体,生成关键词结构对应的内容,根据长句结构中对应的长句文本以及关键词结构对应的内容,输出长文本。采用本方法能够充分利用给定标题文本的每个标题实体,从而生成具有现实意义的长文本。

Description

长文本生成方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种长文本生成方法、装置、计算机设备和存储介质。
背景技术
长文本生成是一项复杂的挑战性任务,长文本可以是论文、科普文章等。从一个句子中生成有意义的长文本,从而可以减少大量重复性工作。传统的文本生成模型使用基于规则和基于计划的方法来生成“纸”,这很难适应复杂的语义方案。例如,在2005年引起轰动的SCIgen,只需输入作者的名字即可生成包含许多图形和表格的“高质量论文”。但是,这些生成的论文中的所有内容都没有任何意义,这很难替代重复劳动的工作。此后,许多研究人员利用许多方法,例如基于规则和基于计划的模型来生成有意义的文本。但是,所有模型仅以特殊形式生成内容,并且难以应用真实场景。
目前,大多数方法只能生成长文本的一部分,而且忽略输入句子中每个实体的语义信息,从而生成的长文本缺乏实际意义。
发明内容
基于此,有必要针对上述技术问题,提供一种能够目前长文本生成任务生成长文本缺乏现实意义问题的长文本生成方法、装置、计算机设备和存储介质。
一种长文本生成方法,所述方法包括:
获取预设结构的长文本框架;所述长文本框架包括:长句结构和关键词结构;
构建长文本对应的背景知识图谱;所述背景知识图谱包括:实体集合以及实体之间实体关系构成的边集合;
对长文本给定的标题文本,对所述标题文本进行实体提取,得到所述标题文本对应的多个标题实体,根据所述标题实体,在所述背景知识图谱中进行检索,得到多个相关实体;
根据所述相关实体以及预先设置的语言模型,输出所述长句结构中对应的长句文本;
根据所述相关实体,生成所述关键词结构对应的内容;
根据所述长句结构中对应的长句文本以及所述关键词结构对应的内容,输出长文本。
在其中一个实施例中,还包括:从长文本对应的学科领域获取学科文本内容,以及从所述长文本的交叉学科领域获取交叉文本内容;分别提取所述学科文本内容中的实体和实体关系,以及提取所述交叉文本内容的实体和实体关系;根据预先设置的权值,将所述学科文本内容中的实体和实体关系与所述交叉文本内容的实体和实体关系进行融合,得到长文本对应的背景知识图谱。
在其中一个实施例中,还包括:判断所述背景知识图谱中第一实体是否与第二实体的邻居实体相关;若是,则在所述第一实体与所述第二实体的邻居实体之间生成实体关系对应的边,并加入所述背景知识图谱中。
在其中一个实施例中,还包括:根据所述第一实体的邻居实体以及所述第二实体的邻居实体,采用自注意力机制计算所述第一实体和所述第二实体对应的第一上下文表示和第二上下文表示;选择多个包含所述第一实体的第一句子,以及选择多个包含所述第二实体的第二句子,根据预先设置的Bi-LSTM模型,分别得到所述第一句子的第一隐藏层以及所述第二句子对应的第二隐藏层;根据所述第一隐藏层,得到第一句子中包含双线性注意力权重的加权第一上下文表示,根据所述第二隐藏层,得到所述第二句子中包含双线性注意力权重的加权第二上下文表示;采用门函数分别表示所述加权第一上下文表示和所述加权第二上下文表示,得到第一门函数表示和第二门函数表示;根据所述第一门函数表示以及所述第二门函数表示,建立三元组,将所述三元组输入预先训练的预测模型,得到第一门函数表示和第二门函数表示成立的概率,根据所述概率确定背景知识图谱中第一实体是否与第二实体的邻居实体相关。
在其中一个实施例中,还包括:将所述标题实体和所述相关实体进行嵌入,分别得到所述标题实体的第一随机向量和所述相关实体的第二随机向量;将所述第一随机向量输入预先设置的双向的GRU编码器,输出所述随机向量对应的隐藏状态;采用编码器和解码器,将所述隐藏状态作为查询向量,基于所述第二随机向量的注意力分布进行编解码迭代计算,得到每个标题实体对应的参考注意力分布以及每个相关实体的记忆力注意力分布;分别设置所述参考注意力分布、所述记忆力注意力分布以及预先设置词汇表进行单词生成的概率;根据生成的单词,通过预先设置的语言模型,输出所述长句结构中对应的长句文本。
在其中一个实施例中,还包括:根据所述参考注意力分布和所述记忆力注意力分布的覆盖损失,构建所述语言模型训练的损失函数。
在其中一个实施例中,还包括:选择所述相关实体中置信分数靠前的多个相关实体生成长文本对应的关键词结构中的关键词;根据所述关键词组合,检索得到相关文献;对所述关键词组合对应的相关文献进行相关值计算,根据所述相关值,确定参考关键词组合;根据预先设置的参考文献信息模板,从所述参考关键词组合对应的相关文献中提取得到参考文献文本。
一种长文本生成装置,所述装置包括:
框架构建模块,用于获取预设结构的长文本框架;所述长文本框架包括:长句结构和关键词结构;
图谱构建模块,用于构建长文本对应的背景知识图谱;所述背景知识图谱包括:实体集合以及实体之间实体关系构成的边集合;
长句生成模块,用于对长文本给定的标题文本,对所述标题文本进行实体提取,得到所述标题文本对应的多个标题实体,根据所述标题实体,在所述背景知识图谱中进行检索,得到多个相关实体;根据所述相关实体以及预先设置的语言模型,输出所述长句结构中对应的长句文本;
关键词生成模块,用于根据所述相关实体,生成所述关键词结构对应的内容;
长文本输出模块,用于根据所述长句结构中对应的长句文本以及所述关键词结构对应的内容,输出长文本。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取预设结构的长文本框架;所述长文本框架包括:长句结构和关键词结构;
构建长文本对应的背景知识图谱;所述背景知识图谱包括:实体集合以及实体之间实体关系构成的边集合;
对长文本给定的标题文本,对所述标题文本进行实体提取,得到所述标题文本对应的多个标题实体,根据所述标题实体,在所述背景知识图谱中进行检索,得到多个相关实体;
根据所述相关实体以及预先设置的语言模型,输出所述长句结构中对应的长句文本;
根据所述相关实体,生成所述关键词结构对应的内容;
根据所述长句结构中对应的长句文本以及所述关键词结构对应的内容,输出长文本。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取预设结构的长文本框架;所述长文本框架包括:长句结构和关键词结构;
构建长文本对应的背景知识图谱;所述背景知识图谱包括:实体集合以及实体之间实体关系构成的边集合;
对长文本给定的标题文本,对所述标题文本进行实体提取,得到所述标题文本对应的多个标题实体,根据所述标题实体,在所述背景知识图谱中进行检索,得到多个相关实体;
根据所述相关实体以及预先设置的语言模型,输出所述长句结构中对应的长句文本;
根据所述相关实体,生成所述关键词结构对应的内容;
根据所述长句结构中对应的长句文本以及所述关键词结构对应的内容,输出长文本。
上述长文本生成方法、装置、计算机设备和存储介质,首先根据长文本生成的需求,获取长文本框架,长文本框架中包括长句结构和关键词结构,通过确定架构,可以针对性的确定每一部分的内容,然后构建背景知识图谱,通过知识图谱,对于给定标题中的每一个词汇,可以充分的对每一个词汇进行拓展,从而充分的利用每个词汇的语义,给长文本生成赋予现实意义,然后,根据拓展后的词汇,利用语言模型,输出长句结构,以及,利用拓展后的词汇确定关键词,最终输出长文本。
附图说明
图1为一个实施例中长文本生成方法的流程示意图;
图2为一个实施例中新生链接示意图;
图3为一个实施例中参考文献文本示意图;
图4为一个实施例中长文本生成装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种长文本生成方法,包括以下步骤:
步骤102,获取预设结构的长文本框架。
长文本框架包括:长句结构和关键词结构。
具体的,以论文为例,长句结构包括:标题、摘要、介绍、总结、展望等内容,关键词结构包括:关键词、参考文献等内容。
通过确定长文本框架,可以针对性的获取每部分的内容。
步骤104,构建长文本对应的背景知识图谱。
通过给定的标题,可以确定标题所处的背景,从而通过文献的知识提取,可以获取背景的知识点,从而构建背景知识图谱。
具体的,可以根据学科背景,设置关键词,通过爬虫获取文献,从而自动完成知识的提取。
在背景知识图谱中,包括多个实体组成的实体集合,以及实体之间实体关系组成的边集合,不同的实体关系,通过不同的边表示。
步骤106,对长文本给定的标题文本,对标题文本进行实体提取,得到标题文本对应的多个标题实体,根据标题实体,在背景知识图谱中进行检索,得到多个相关实体。
可以采用分词的方式对标题文本进行实体提取,也可以采用现有的实体提取算法进行提取。通过实体提取可以得到多个标题实体,然后根据标题实体在背景知识图谱中进行检测,得到多个相关实体,相关实体的个数可以自行设置,例如设置总计检索15个相关实体,在此对数量不做具体限定。
步骤108,根据相关实体以及预先设置的语言模型,输出长句结构中对应的长句文本。
在检索到相关实体之后,可以生成词汇表,然后通过语言模型,生成长句结构中的长句文本。
步骤110,根据相关实体,生成关键词结构对应的内容。
步骤112,根据长句结构中对应的长句文本以及关键词结构对应的内容,输出长文本。
上述长文本生成方法中,首先根据长文本生成的需求,获取长文本框架,长文本框架中包括长句结构和关键词结构,通过确定架构,可以针对性的确定每一部分的内容,然后构建背景知识图谱,通过知识图谱,对于给定标题中的每一个词汇,可以充分的对每一个词汇进行拓展,从而充分的利用每个词汇的语义,给长文本生成赋予现实意义,然后,根据拓展后的词汇,利用语言模型,输出长句结构,以及,利用拓展后的词汇确定关键词,最终输出长文本。
对于步骤104,在其中一个实施例中,构建长文本对应的背景知识图谱包括:从长文本对应的学科领域获取学科文本内容,以及从长文本的交叉学科领域获取交叉文本内容;分别提取学科文本内容中的实体和实体关系,以及提取交叉文本内容的实体和实体关系;根据预先设置的权值,将学科文本内容中的实体和实体关系与交叉文本内容的实体和实体关系进行融合,得到长文本对应的背景知识图谱。本实施例中,进行跨领域构建知识图谱可以进一步强化给定标题中词汇的联系。
具体的,以给定标题对应的是生物信息学为例,其交叉学科包括:物理学和化学,因此,在构建背景知识图谱时,还需要提取交叉学科的文献。
在另一个实施例中,权值的设置可以减少在某一学科中实体与关系在其他交叉学科的影响,具体的,例如设置生物信息学与物理学的比率为60:1,以上数值仅为示例,不对此进行限定。
另外,还需要根据学科领域的特点,对实体进行标记,以生物信息学为例,主要包括三种重要的实体,即:疾病、化学物质和基因,然后从主题词(MeSH)中获得唯一的ID,并将所有实体进一步链接到比较毒理学数据库(CTD),最后提取多种关系的子类型,例如反应增加,影响运输等。
在另一个实施例中,在长文本对应的背景知识图谱之后,还需要判断背景知识图谱中第一实体是否与第二实体的邻居实体相关,若是,则在第一实体与第二实体的邻居实体之间生成实体关系对应的边,并加入背景知识图谱中。本实施例中,第一实体和第二实体分别为背景知识图谱中的实体,通过实体之间联系的匹配,生成实体之间新的边,进一步对背景知识图谱进行完善。
具体在生物信息学科中,如图2所示,因为Na+和K+在上下文文本信息和图形结构上都相似,所以预测了Na+的两个新邻居:神经递质和激肽酶2,它们是初始知识图谱中K+的邻居。可以将整个知识图谱表示为一系列的三元组
Figure BDA0002479233640000071
括号内部依次代表头实体,关系,尾实体,对于某个实体ei而言,它有若干个邻接实体,可用集合
Figure BDA0002479233640000072
来表示。
在有一个实施例中,根据第一实体的邻居实体以及第二实体的邻居实体,采用自注意力机制计算第一实体和第二实体对应的第一上下文表示和第二上下文表示,选择多个包含第一实体的第一句子,以及选择多个包含第二实体的第二句子,根据预先设置的Bi-LSTM模型,分别得到第一句子的第一隐藏层以及第二句子对应的第二隐藏层;根据第一隐藏层,得到第一句子中包含双线性注意力权重的加权第一上下文表示,根据第二隐藏层,得到第二句子中包含双线性注意力权重的加权第二上下文表示;采用门函数分别表示加权第一上下文表示和加权第二上下文表示,得到第一门函数表示和第二门函数表示;根据第一门函数表示以及第二门函数表示,建立三元组,将三元组输入预先训练的预测模型,得到第一门函数表示和第二门函数表示成立的概率,根据概率确定背景知识图谱中第一实体是否与第二实体的邻居实体相关。
具体的,根据第一实体的邻居实体以及第二实体的邻居实体,采用自注意力机制计算第一实体和第二实体对应的第一上下文表示和第二上下文表示为:
e′i=Weei,n′ij=Wenij
Figure BDA0002479233640000081
c′i=Softmax(ci)
εi=σ(∑c′ijn′ij)
其中,We表示每个实体ei的线性变换矩阵,nij表示节点ei的邻居节点集合,Wf表示单层前馈网络的参数,⊕表示两个矩阵之间的级联运算,LeakyReLU表示激活函数中的一种,Softmax(·)表示归一化函数,εi是基于结构的上下文表示,σ为Sigmoid函数。
上述方案中,在多个线性变换矩阵的基础上对每个实体采用多目标注意力,得到一个基于结构的上下文表示
Figure BDA0002479233640000082
其中
Figure BDA0002479233640000083
表示使用第m个头部获得的上下文表示。
在得到上下文表示之后,由于数据集中庞大,每个实体必然出现不止一次,为了更好的表示每个实体,随机选取包含实体e的三个句子Si=[w1i,…,wli],i=1,2,3,将三个句子分别通过Bi-LSTM得到三个编码的隐藏层Hi=[h1i,…,hli],其中h1i表示w1i的隐藏状态。接下来以Si句为例说明,句子中每个词的双线性注意力权重的计算公式如下:
μi=eΤWshi
μ′=Softmax(μ)
其中,Ws表示双线性项,可得Si句中实体ei的上下文本表示为
Figure BDA0002479233640000088
将三个句子最终得到的上下文表示求均值则可得到实体ei的最终上下文本表示。然后设计了一个门函数来综合两类特征,公式如下:
Figure BDA0002479233640000084
Figure BDA0002479233640000085
其中ge是一个基于实体的门函数,
Figure BDA0002479233640000086
是对于每个实体而言不同的可学习的参数,激活函数σ依然是sigmoid函数,⊙表示逐元素相乘。
对于每个三元组,计算他的距离分数
Figure BDA0002479233640000087
我们使用以下损失函数来训练模型:
Figure BDA0002479233640000091
Figure BDA0002479233640000092
其中的
Figure BDA0002479233640000093
Figure BDA0002479233640000094
分别代表三元组的正例和负例,γ是一个余量。其中三元组的负例是通过随机选择正例三元组并替换其头实体或者尾实体生成的。训练完成之后,对于所有间接相连的两个实体和关系类型r,设计一个分数y来计算(ei,r,ej)成立的概率。之后我们得到了丰富后的知识图谱
Figure BDA00024792336400000910
在其中一个实施例中,对于长句文本,将标题实体和相关实体进行嵌入,分别得到标题实体的第一随机向量和相关实体的第二随机向量;将第一随机向量输入预先设置的双向的GRU编码器,输出随机向量对应的隐藏状态;采用编码器和解码器,将隐藏状态作为查询向量,基于第二随机向量的注意力分布进行编解码迭代计算,得到每个标题实体对应的参考注意力分布以及每个相关实体的记忆力注意力分布;分别设置参考注意力分布、记忆力注意力分布以及预先设置词汇表进行单词生成的概率;根据生成的单词,通过预先设置的语言模型,输出长句结构中对应的长句文本。
具体的,对于标题中的每一个标题实体,随机嵌入到一个向量之中,得到随机向量τ=[w1,…,wl],然后将τ投入一个双向的GRU编码器来产生编码器隐藏状态H=[h1,…,hl],并非所有预测所得标题实体都与标题具有同等的相关性,因此使用记忆-注意力网络来进一步过滤不相关信息。基于记忆的多跳注意力机制能够将每个记忆细胞的注意力权重大大提高,从而获得更好的相关性。对于给定的相关实体集合E=[e1,…,ev],随机初始化它们的向量表示并将其储存于内存之中。然后将参考标题编码器的最后一个隐藏状态hl用作第一个查询向量q0,并迭代计算所有内存上的注意力分布并更新查询向量:
Figure BDA0002479233640000095
Figure BDA0002479233640000096
其中,k表示总共
Figure BDA0002479233640000097
跳中的第k跳。在第
Figure BDA0002479233640000098
跳之后,我们得到
Figure BDA0002479233640000099
并将其作为GRU解码器的初始隐藏状态。
为每个相关实体和标题实体计算一个注意力权重,并应用一个内存网络来优化这个权重,从而能够更好捕获在每个解码步骤中,每个相关实体ej对每个解码输出的贡献。我们将隐藏状态
Figure BDA0002479233640000101
作为初始查询向量
Figure BDA0002479233640000102
并对其进行迭代更新:
Figure BDA0002479233640000103
Figure BDA0002479233640000104
其中,
Figure BDA0002479233640000105
表示实体覆盖向量,
Figure BDA0002479233640000106
表示最后一跳的注意力分布,ψ表示总跳数,由上内容可知,获取到一个面向相关系列实体的基于记忆的上下文向量xi=u,注意力机制旨在捕获参考标题中每个单词对解码输出的贡献。在每个时间步长中,解码器接收之前的词嵌入并生成解码器隐藏状态
Figure BDA0002479233640000107
每个参考标记的注意力权重计算如下:
Figure BDA0002479233640000108
Figure BDA0002479233640000109
其中,
Figure BDA00024792336400001010
表示参考覆盖向量,为所有的解码器在每个时间步长中的注意力分布的总和,φi表示参考上下文向量。
对于特定的标题实体w,可能在引用标题或多个相关实体中出现多次。因此,在每个译码步骤,对于每个单词w,从参考注意力分布和记忆注意力分布中获得其最终注意力权重:
Figure BDA00024792336400001011
Figure BDA00024792336400001012
在每个译码步骤中,词汇表中的每个单词也可能根据语言模型以一定概率Pgen生成:
Figure BDA00024792336400001013
其中Wgen和bgen为可学习的参数。
在其中一个实施例中,为了更好结合Pτ,Pe和Pgen,通过设计了gp作为从词汇表生成词汇与从参考标题及相关实体复制词汇之间的软选择,
Figure BDA00024792336400001014
作为从参考标题复制单词与从相关实体复制单词之间的软选择:
Figure BDA00024792336400001015
Figure BDA00024792336400001016
其中,zi-1表示在i-1步中生成词汇的嵌入,Wp,Wz,Wφ,Wx,bp
Figure BDA00024792336400001017
均为可学习参数,激活函数σ仍为sigmoid函数。在解码步骤i中最终生成词汇z的概率P(zi)计算公式如下:
Figure BDA0002479233640000111
在其中一个实施例中,根据参考注意力分布和记忆力注意力分布的覆盖损失,构建语言模型训练的损失函数。
具体的,损失函数为:
Figure BDA0002479233640000112
其中的λ是一个超参数。本实施例中,作者撰写的大约11%的摘要句中都含有重复实体,而这很有可能误导语言模型。所以采用覆盖损失来避免任何实体在参考的输入文本或相关实体中被注意力机制重复注意。
在其中一个实施例中,选择相关实体中置信分数靠前的多个相关实体生成长文本对应的关键词结构中的关键词;根据关键词组合,检索得到相关文献;对关键词组合对应的相关文献进行相关值计算,根据相关值,确定参考关键词组合;根据预先设置的参考文献信息模板,从参考关键词组合对应的相关文献中提取得到参考文献文本。
具体的,以选取5个关键词为例,5个关键词分别为[K1,…,K5],每次从5个关键词中提取3个,得到关键词组合,总计10中组合方式,每种组合中,提取20篇参考文献,结合10个组合的各自的总主题相关值以及PMC库的综合相关性来进行排序的。例如,[K1,K2,K3]组合总主题相关值为12,搜索得到的第二篇排在第二位;而[K1,K2,K4]组合总主题相关值为11,其搜索得到的第二篇排在第四位。当两组合的相关值相同时,我们由各组合中相关值最高的单个关键词开始依次两两对比,例如[K1,K2,K5]和[K1,K3,K4]的总相关值均为10,两组中相关值最高的单个关键词K1相同,第二高的K2高于K3,所以[K1,K2,K5]组应排在[K1,K3,K4]组之前。
接下来通过参考文献的引文格式来提取相关工作部分的句子。因为参考文献是有固定格式的,属于半结构化的数据,所以可以采用模板法来提取其中需要的信息,如图3所示。
使用模板法,取第一个符号之前的字符串可以很容易获取第一作者的姓名,取首次出现的四位数字则可得论文发表的年份,并由作者姓名和发表年份组成一段字符串用于匹配。如图3所示,第一篇参考文献可得该论文第一作者为Laskey,论文发表于1978年构建字符串“Laskeyetal.,1978”,用该字符串到Introduction数据集中进行匹配(生物医学与生命科学领域论文一般没有“相关工作”这一独立模块),可能获得多个匹配结果,直接提取第一个结果所在的句子S1到相关工作部分中,也有可能未能匹配到结果,则跳到下一篇论文。之后的19篇论文操作流程同上,得到的相关工作部分Rw=[S1,S2,…,Si],i=0,1,…,20。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种长文本生成装置,包括:框架构建模块402、图谱构建模块404、长句生成模块406、关键词生成模块408和长文本输出模块410,其中:
框架构建模块402,用于获取预设结构的长文本框架;所述长文本框架包括:长句结构和关键词结构;
图谱构建模块404,用于构建长文本对应的背景知识图谱;所述背景知识图谱包括:实体集合以及实体之间实体关系构成的边集合;
长句生成模块406,用于对长文本给定的标题文本,对所述标题文本进行实体提取,得到所述标题文本对应的多个标题实体,根据所述标题实体,在所述背景知识图谱中进行检索,得到多个相关实体;根据所述相关实体以及预先设置的语言模型,输出所述长句结构中对应的长句文本;
关键词生成模块408,用于根据所述相关实体,生成所述关键词结构对应的内容;
长文本输出模块410,用于根据所述长句结构中对应的长句文本以及所述关键词结构对应的内容,输出长文本。
在其中一个实施例中,图谱构建模块404还用于从长文本对应的学科领域获取学科文本内容,以及从所述长文本的交叉学科领域获取交叉文本内容;分别提取所述学科文本内容中的实体和实体关系,以及提取所述交叉文本内容的实体和实体关系;根据预先设置的权值,将所述学科文本内容中的实体和实体关系与所述交叉文本内容的实体和实体关系进行融合,得到长文本对应的背景知识图谱。
在其中一个实施例中,图谱构建模块404还用于判断所述背景知识图谱中第一实体是否与第二实体的邻居实体相关;若是,则在所述第一实体与所述第二实体的邻居实体之间生成实体关系对应的边,并加入所述背景知识图谱中。
在其中一个实施例中,图谱构建模块404还用于根据所述第一实体的邻居实体以及所述第二实体的邻居实体,采用自注意力机制计算所述第一实体和所述第二实体对应的第一上下文表示和第二上下文表示;选择多个包含所述第一实体的第一句子,以及选择多个包含所述第二实体的第二句子,根据预先设置的Bi-LSTM模型,分别得到所述第一句子的第一隐藏层以及所述第二句子对应的第二隐藏层;根据所述第一隐藏层,得到第一句子中包含双线性注意力权重的加权第一上下文表示,根据所述第二隐藏层,得到所述第二句子中包含双线性注意力权重的加权第二上下文表示;采用门函数分别表示所述加权第一上下文表示和所述加权第二上下文表示,得到第一门函数表示和第二门函数表示;根据所述第一门函数表示以及所述第二门函数表示,建立三元组,将所述三元组输入预先训练的预测模型,得到第一门函数表示和第二门函数表示成立的概率,根据所述概率确定背景知识图谱中第一实体是否与第二实体的邻居实体相关。
在其中一个实施例中,长句生成模块406还用于将所述标题实体和所述相关实体进行嵌入,分别得到所述标题实体的第一随机向量和所述相关实体的第二随机向量;将所述第一随机向量输入预先设置的双向的GRU编码器,输出所述随机向量对应的隐藏状态;采用编码器和解码器,将所述隐藏状态作为查询向量,基于所述第二随机向量的注意力分布进行编解码迭代计算,得到每个标题实体对应的参考注意力分布以及每个相关实体的记忆力注意力分布;分别设置所述参考注意力分布、所述记忆力注意力分布以及预先设置词汇表进行单词生成的概率;根据生成的单词,通过预先设置的语言模型,输出所述长句结构中对应的长句文本。
在其中一个实施例中,长句生成模块406还用于根据所述参考注意力分布和所述记忆力注意力分布的覆盖损失,构建所述语言模型训练的损失函数。
在其中一个实施例中,关键词生成模块408还用于选择所述相关实体中置信分数靠前的多个相关实体生成长文本对应的关键词结构中的关键词;根据所述关键词组合,检索得到相关文献;对所述关键词组合对应的相关文献进行相关值计算,根据所述相关值,确定参考关键词组合;根据预先设置的参考文献信息模板,从所述参考关键词组合对应的相关文献中提取得到参考文献文本。
关于长文本生成装置的具体限定可以参见上文中对于长文本生成方法的限定,在此不再赘述。上述长文本生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储背景知识图谱、长文本框架等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种长文本生成方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种长文本生成方法,所述方法包括:
获取预设结构的长文本框架;所述长文本框架包括:长句结构和关键词结构;
构建长文本对应的背景知识图谱;所述背景知识图谱包括:实体集合以及实体之间实体关系构成的边集合;
对长文本给定的标题文本,对所述标题文本进行实体提取,得到所述标题文本对应的多个标题实体,根据所述标题实体,在所述背景知识图谱中进行检索,得到多个相关实体;
根据所述相关实体以及预先设置的语言模型,输出所述长句结构中对应的长句文本;
根据所述相关实体,生成所述关键词结构对应的内容;
根据所述长句结构中对应的长句文本以及所述关键词结构对应的内容,输出长文本。
2.根据权利要求1所述的方法,其特征在于,构建长文本对应的背景知识图谱,包括:
从长文本对应的学科领域获取学科文本内容,以及从所述长文本的交叉学科领域获取交叉文本内容;
分别提取所述学科文本内容中的实体和实体关系,以及提取所述交叉文本内容的实体和实体关系;
根据预先设置的权值,将所述学科文本内容中的实体和实体关系与所述交叉文本内容的实体和实体关系进行融合,得到长文本对应的背景知识图谱。
3.根据权利要求2所述的方法,其特征在于,在长文本对应的背景知识图谱之后,所述方法还包括:
判断所述背景知识图谱中第一实体是否与第二实体的邻居实体相关;
若是,则在所述第一实体与所述第二实体的邻居实体之间生成实体关系对应的边,并加入所述背景知识图谱中。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述判断所述背景知识图谱中第一实体是否与第二实体的邻居实体相关,包括:
根据所述第一实体的邻居实体以及所述第二实体的邻居实体,采用自注意力机制计算所述第一实体和所述第二实体对应的第一上下文表示和第二上下文表示;
选择多个包含所述第一实体的第一句子,以及选择多个包含所述第二实体的第二句子,根据预先设置的Bi-LSTM模型,分别得到所述第一句子的第一隐藏层以及所述第二句子对应的第二隐藏层;
根据所述第一隐藏层,得到第一句子中包含双线性注意力权重的加权第一上下文表示,根据所述第二隐藏层,得到所述第二句子中包含双线性注意力权重的加权第二上下文表示;
采用门函数分别表示所述加权第一上下文表示和所述加权第二上下文表示,得到第一门函数表示和第二门函数表示;
根据所述第一门函数表示以及所述第二门函数表示,建立三元组,将所述三元组输入预先训练的预测模型,得到第一门函数表示和第二门函数表示成立的概率,根据所述概率确定背景知识图谱中第一实体是否与第二实体的邻居实体相关。
5.根据权利要求1所述的方法,其特征在于,根据所述相关实体以及预先设置的语言模型,输出所述长句结构中对应的长句文本,包括:
将所述标题实体和所述相关实体进行嵌入,分别得到所述标题实体的第一随机向量和所述相关实体的第二随机向量;
将所述第一随机向量输入预先设置的双向的GRU编码器,输出所述随机向量对应的隐藏状态;
采用编码器和解码器,将所述隐藏状态作为查询向量,基于所述第二随机向量的注意力分布进行编解码迭代计算,得到每个标题实体对应的参考注意力分布以及每个相关实体的记忆力注意力分布;
分别设置所述参考注意力分布、所述记忆力注意力分布以及预先设置词汇表进行单词生成的概率;
根据生成的单词,通过预先设置的语言模型,输出所述长句结构中对应的长句文本。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述参考注意力分布和所述记忆力注意力分布的覆盖损失,构建所述语言模型训练的损失函数。
7.根据权利要求5或6所述的方法,其特征在于,根据所述相关实体,生成所述关键词结构对应的内容,包括:
选择所述相关实体中置信分数靠前的多个相关实体生成长文本对应的关键词结构中的关键词;
根据所述关键词组合,检索得到相关文献;
对所述关键词组合对应的相关文献进行相关值计算,根据所述相关值,确定参考关键词组合;
根据预先设置的参考文献信息模板,从所述参考关键词组合对应的相关文献中提取得到参考文献文本。
8.一种长文本生成装置,其特征在于,所述装置包括:
框架构建模块,用于获取预设结构的长文本框架;所述长文本框架包括:长句结构和关键词结构;
图谱构建模块,用于构建长文本对应的背景知识图谱;所述背景知识图谱包括:实体集合以及实体之间实体关系构成的边集合;
长句生成模块,用于对长文本给定的标题文本,对所述标题文本进行实体提取,得到所述标题文本对应的多个标题实体,根据所述标题实体,在所述背景知识图谱中进行检索,得到多个相关实体;根据所述相关实体以及预先设置的语言模型,输出所述长句结构中对应的长句文本;
关键词生成模块,用于根据所述相关实体,生成所述关键词结构对应的内容;
长文本输出模块,用于根据所述长句结构中对应的长句文本以及所述关键词结构对应的内容,输出长文本。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010373476.5A 2020-05-06 2020-05-06 长文本生成方法、装置、计算机设备和存储介质 Active CN111476038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010373476.5A CN111476038B (zh) 2020-05-06 2020-05-06 长文本生成方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010373476.5A CN111476038B (zh) 2020-05-06 2020-05-06 长文本生成方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111476038A true CN111476038A (zh) 2020-07-31
CN111476038B CN111476038B (zh) 2023-04-25

Family

ID=71757333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010373476.5A Active CN111476038B (zh) 2020-05-06 2020-05-06 长文本生成方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111476038B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214996A (zh) * 2020-10-13 2021-01-12 华中科技大学 一种面向科技信息文本的文本摘要生成方法及系统
CN112732883A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 基于知识图谱的模糊匹配方法、装置和计算机设备
CN112989024A (zh) * 2021-03-29 2021-06-18 腾讯科技(深圳)有限公司 文本内容的关系提取方法、装置、设备及存储介质
CN113111188A (zh) * 2021-04-14 2021-07-13 清华大学 一种文本生成方法及系统
CN113987156A (zh) * 2021-12-21 2022-01-28 飞诺门阵(北京)科技有限公司 一种长文本生成方法、装置及电子设备
WO2022121165A1 (zh) * 2020-12-10 2022-06-16 平安科技(深圳)有限公司 长文本生成方法、装置、设备及存储介质
CN115357705A (zh) * 2022-10-24 2022-11-18 成都晓多科技有限公司 问题文本中实体属性的生成方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275960A (zh) * 2019-06-11 2019-09-24 中国电子科技集团公司电子科学研究院 基于指称句的知识图谱和文本信息的表示方法及系统
CN110457483A (zh) * 2019-06-21 2019-11-15 浙江大学 一种基于神经主题模型的长文本生成方法
CN110795543A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 基于深度学习的非结构化数据抽取方法、装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275960A (zh) * 2019-06-11 2019-09-24 中国电子科技集团公司电子科学研究院 基于指称句的知识图谱和文本信息的表示方法及系统
CN110457483A (zh) * 2019-06-21 2019-11-15 浙江大学 一种基于神经主题模型的长文本生成方法
CN110795543A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 基于深度学习的非结构化数据抽取方法、装置及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ALEXANDER DENZLER: "《Toward Granular Knowledge Analytics for Data Intelligence Extracting Granular Entity-Relationship Graphs for Knowledge Profiling》" *
谭真: "《面向非结构化数据的知识图谱构建与表示技术研究》" *
赵翔,葛斌等: "《TP-AS:一种面向长文本的两阶段自动摘要方法》" *
邹烨翰: "《军事条令条例知识图谱构建技术研究》" *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214996A (zh) * 2020-10-13 2021-01-12 华中科技大学 一种面向科技信息文本的文本摘要生成方法及系统
CN112214996B (zh) * 2020-10-13 2024-06-04 华中科技大学 一种面向科技信息文本的文本摘要生成方法及系统
WO2022121165A1 (zh) * 2020-12-10 2022-06-16 平安科技(深圳)有限公司 长文本生成方法、装置、设备及存储介质
CN112732883A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 基于知识图谱的模糊匹配方法、装置和计算机设备
CN112989024A (zh) * 2021-03-29 2021-06-18 腾讯科技(深圳)有限公司 文本内容的关系提取方法、装置、设备及存储介质
CN112989024B (zh) * 2021-03-29 2023-04-07 腾讯科技(深圳)有限公司 文本内容的关系提取方法、装置、设备及存储介质
CN113111188A (zh) * 2021-04-14 2021-07-13 清华大学 一种文本生成方法及系统
CN113111188B (zh) * 2021-04-14 2022-08-09 清华大学 一种文本生成方法及系统
CN113987156A (zh) * 2021-12-21 2022-01-28 飞诺门阵(北京)科技有限公司 一种长文本生成方法、装置及电子设备
CN113987156B (zh) * 2021-12-21 2022-03-22 飞诺门阵(北京)科技有限公司 一种长文本生成方法、装置及电子设备
CN115357705A (zh) * 2022-10-24 2022-11-18 成都晓多科技有限公司 问题文本中实体属性的生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111476038B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN111476038A (zh) 长文本生成方法、装置、计算机设备和存储介质
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN113312500B (zh) 一种面向大坝安全运行的事件图谱构建方法
CN109783817B (zh) 一种基于深度强化学习的文本语义相似计算模型
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
US11544474B2 (en) Generation of text from structured data
CN110362723B (zh) 一种题目特征表示方法、装置及存储介质
CN113672708B (zh) 语言模型训练方法、问答对生成方法、装置及设备
CN107506414A (zh) 一种基于长短期记忆网络的代码推荐方法
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN108829719A (zh) 一种非事实类问答答案选择方法及系统
CN112214608B (zh) 基于知识推理的文本生成方法、介质、装置和计算设备
CN112396185B (zh) 一种事实验证方法、系统、计算机设备和存储介质
CN114547298B (zh) 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
Zhang et al. Collective classification via discriminative matrix factorization on sparsely labeled networks
CN109376222A (zh) 问答匹配度计算方法、问答自动匹配方法及装置
US20240233877A1 (en) Method for predicting reactant molecule, training method, apparatus, and electronic device
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
CN112417155A (zh) 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质
CN113761124A (zh) 文本编码模型的训练方法、信息检索方法及设备
CN114373554A (zh) 利用药物知识和句法依存关系的药物相互作用关系抽取方法
US11941360B2 (en) Acronym definition network
CN117094325B (zh) 水稻病虫害领域命名实体识别方法
CN112035629B (zh) 基于符号化知识与神经网络的问答模型的实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant