CN112732898A - 文献摘要生成方法、装置、计算机设备及存储介质 - Google Patents
文献摘要生成方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112732898A CN112732898A CN202011623844.3A CN202011623844A CN112732898A CN 112732898 A CN112732898 A CN 112732898A CN 202011623844 A CN202011623844 A CN 202011623844A CN 112732898 A CN112732898 A CN 112732898A
- Authority
- CN
- China
- Prior art keywords
- abstract
- target
- document
- sentences
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Abstract
本发明涉及人工智能技术领域,公开一种文献摘要生成方法、装置、计算机设备及存储介质,该方法包括获取摘要生成请求,所述摘要生成请求包括摘要关键词;基于所述摘要关键词查询数据库,从所述数据库存储的初始文献中获取N个与所述摘要关键词对应的原始文献;采用预先训练好的抽取式文献摘要模型对所述原始文献进行处理,得到M个目标句子;将M个所述目标句子输入训练好的目标模型组合,得到所述目标句子对应的M*(M‑1)/2个有向无环图;基于M*(M‑1)/2个所述有向无环图,获取目标摘要,本发明利用目标模型组合确定任意两个目标句子之间的前后顺序,提高生成目标摘要的提高准确率,保证生成的目标摘要连贯性较佳。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文献摘要生成方法、装置、计算机设备及存储介质。
背景技术
随着互联网产生的文献数据越来越多,文献信息过载问题日益严重,用户需要花费大量时间从数量众多的文献数据得到关键信息,阅读效率低;当前通过是利用单个模型提取文献中的句子得到摘要,但是目前得到摘要的方法准确率较低。
发明内容
本发明实施例提供一种文献摘要生成方法、装置、计算机设备及存储介质,以得到摘要的方法准确率较低的问题。
一种文献摘要生成方法,包括:
获取摘要生成请求,所述摘要生成请求包括摘要关键词;
基于所述摘要关键词查询数据库,从所述数据库存储的初始文献中获取N个与所述摘要关键词对应的原始文献;
采用预先训练好的抽取式文献摘要模型对所述原始文献进行处理,得到M个目标句子;
将M个所述目标句子输入训练好的目标模型组合,得到所述目标句子对应的M*(M-1)/2个有向无环图;
基于M*(M-1)/2个所述有向无环图,获取目标摘要。
一种文献摘要生成装置,包括:
摘要生成请求获取模块,用于获取摘要生成请求,所述摘要生成请求包括摘要关键词;
原始文献获取模块,用于基于所述摘要关键词查询数据库,从所述数据库存储的初始文献中获取N个与所述摘要关键词对应的原始文献;
目标句子获取模块,用于采用预先训练好的抽取式文献摘要模型对所述原始文献进行处理,得到M个目标句子;
有向无环图获取模块,用于将M个所述目标句子输入训练好的目标模型组合,得到所述目标句子对应的M*(M-1)/2个有向无环图;
目标摘要获取模块,用于基于M*(M-1)/2个所述有向无环图,获取目标摘要。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文献摘要生成方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文献摘要生成方法的步骤。
上述文献摘要生成方法、装置、计算机设备及存储介质,基于所述摘要关键词查询数据库,从所述数据库存储的初始文献中获取N个与所述摘要关键词对应的原始文献,实现自动化确定相同摘要类型的原始文献,确保后续的目标摘要的准确性,减少人工成本。采用预先训练好的抽取式文献摘要模型对所述原始文献进行处理,快速得到M个目标句子,使得目标句子之间具有较强的联系,确保后续生成的目标摘要记载原始文献的重要信息。将M个所述目标句子输入训练好的目标模型组合,得到所述目标句子对应的M*(M-1)/2个有向无环图,通过确定任意两个目标句子之间的前后顺序,保证后续可以对目标句子进行排序过程简单,有效提高准确率,保证生成的目标摘要连贯性较佳。基于M*(M-1)/2个所述有向无环图,可以快速得到连贯的目标摘要。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中文献摘要生成方法的一应用环境示意图;
图2是本发明一实施例中文献摘要生成方法的一流程图;
图3是本发明一实施例中文献摘要生成方法的另一流程图;
图4是本发明一实施例中文献摘要生成方法的另一流程图;
图5是本发明一实施例中文献摘要生成方法的另一流程图;
图6是本发明一实施例中文献摘要生成方法的另一流程图;
图7是本发明一实施例中文献摘要生成方法的另一流程图;
图8是本发明一实施例中文献摘要生成装置的一原理框图;
图9是本发明一实施例中拓扑图;
图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的文献摘要生成方法,该文献摘要生成方法可应用如图1所示的应用环境中。具体地,该文献摘要生成方法应用在摘要生成系统中,该摘要生成系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于通过目标模型组合确定任意两个目标句子之间的前后顺序,提高生成目标摘要的提高准确率,保证生成的目标摘要连贯性较佳。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种文献摘要生成方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S201:获取摘要生成请求,摘要生成请求包括摘要关键词。
其中,摘要生成请求是用于生成目标摘要的请求。摘要关键词是生成用户所需的目标摘要的关键词,以便后续根据摘要关键词得到对应的原始文献,例如,摘要关键词可以为xx疾病、xx医疗或者xx金融产品等。其中,摘要又称概要和内容提要。摘要是以提供文献内容梗概为目的,简明、确切地记述文献重要内容的短文。
具体地,在客户端中显示用于生成目标摘要的原始显示界面,用户点击原始显示界面,发送摘要关键词填写指令给服务器,服务器获取该摘要关键词填写指令后,控制客户端进入摘要关键词生成界面,用户在该摘要关键词生成界面填写至少一个摘要关键词,可以理解地,为确保生成的目标摘要符合用户的要求,当用户所填写的摘要关键词的数量少于预设关键词数量时,则根据用户填写的摘要关键词为用户推荐更多的相似关键词,当用户填写完不小于预设关键词数量的摘要关键词则控制客户端显示确认按钮,用户点击确认按钮,形成摘要请求发送给服务器,服务器接收到摘要生成请求时,对摘要生成请求进行解析,即可得到摘要关键词,从而实现自动化生成目标摘要。
S202:基于摘要关键词查询数据库,从数据库存储的初始文献中获取N个与摘要关键词对应的原始文献。
其中,数据库是用于存储初始文献的库。初始文献是预先存储在数据库中的文献,可以理解地,初始文献包括各种摘要类型的摘要,初始文献包括与摘要关键词对应的文献和不与摘要关键词对应的文献,例如,初始文献可以是医疗方向对应的文献、美食方向对应的文献或者金融方向对应的文献等。原始文献是指与摘要关键词对应的摘要。
具体地,预先对数据库中的文献摘要进行分类,获取相同摘要类型的摘要文献,并使每一摘要文献携带有至少一个摘要类型,为后续根据摘要关键词得到对应的摘要类型提供技术支持。当服务器获取到摘要关键词时,则采用匹配算法根据摘要关键词查询数据库,以便从文献摘要中得到摘要关键词对应的原始文献,实现自动化确定下相同摘要类型的原始文献,确保后续的目标摘要的准确性,减少人工成本。其中,摘要类型是指文献摘要对应的类型。
S203:采用预先训练好的抽取式文献摘要模型对原始文献进行处理,得到M个目标句子。
其中,抽取式文献摘要模型是指直接从N个原始文献中抽出所需的目标句子的模型,抽取式文献摘要模型能较好的保留原始文献的信息,可以有效地提高目标摘要的准确性,降低后续生成的目标摘要的语法和句法错误率,本实施例中,抽取式文献摘要模型为NeuSUM模型,实现自动化将原始文献中分数较高的句子抽取出来作为目标句子,减少人力成本,该NeuSUM模型使用句子受益作为打分方式,考虑到了句子之间的相互关系,保证得到的目标句子关联性较高,后续生成的目标摘要连贯性更强。目标句子是指用于形成目标摘要的句子。
具体地,将原始文献输入预先训练好的抽取式文献摘要模型,首先,对原始文件进行分割,使得原始文件拆分为多个摘要句子,在嵌入层将摘要句子转化句子向量,以转化为计算机可识别的格式;在目标编码层对句子向量进行编码,得到包含语义信息的目标编码向量,以保留摘要句子的更多信息;在打分编码层根据句子受益对目标编码向量进行打分,获取每一摘要句子对应的分数,使用句子受益作为打分方式,即以ROUGE评价指标作为摘要句子打分的指标,以考虑摘要句子之间的相互关系,将分数较高的前M个摘要句子作为目标句子,使得目标句子之间具有较强的联系,实现快速得到目标句子。
本实施例中,抽取式文献摘要模型的训练是采用反向传播算法不断的调整初始模型的权重,直至初始模型权重收敛,则得到抽取式文献摘要模型。
S204:将M个目标句子输入训练好的目标模型组合,得到目标句子对应的M*(M-1)/2个有向无环图。
其中,目标模型组合是用于对任意两个目标句子进行排序的模型。该目标组合模型包括BERT模型和MLP模型,本实施例中,采用BERT模型和MLP模型可以准确地确定目标句子的前后顺序,为后续生成目标摘要提供技术支持。其中,BERT模型用于任意两个目标句子进行处理,在BERT模型的编码层和解码层中使用了transformer结构,确保BERT模型输出的是具备语义信息的语义信息的语义信息向量,例如,任意两个目标句子以目标句子1;目标句子2的形式输入BERT模型,得到对应的具有语义信息的输出向量,将输出向量输入MLP模型,得到任意两个目标句子之间的前后顺序。在使用BERT模型之前,对BERT模型进行训练,训练过程如下:1、获取训练语料样本,该训练预料样本包括正样本句子对和负样本句子对,可以理解地,正样本句子对存在句子间的上下文关系,负样本句子对不存在句子间的上下文关系;2、采用[SEP]标签对句子对进行连接的连接句子,例如,句子1[SEP]句子2;在连接句子中采用[CLS]作为标签,句末采用[SEP]作为标签,以利用这些标签的形式对句子本身的位置、句子间的前后关系进行标记,能够帮助训练初始Bert模型时让初始Bert模型学习到这些特征;3、随机地掩盖连接句子,获取训练预料;4、将训练语料输入到初始Bert模型中进行训练,得到Bert模型。
MLP模型即多层感知机模型,用于对任意两个句子进行二分类处理,得到任意两个目标句子的前后顺序。本实施例采用在使用MLP模型之前,先对MLP模型进行训练,训练过程:获取训练样本和与训练样本对应的顺序标签,其中,训练样本为原始句子对;将训练样本输入初始模型中,获取预测的句子顺序结果;根据顺序标签和句子顺序结果,计算得到分类准确率,当分类准确率大于预设值,则得到MLP模型。
有向无环图是一个无回路的有向图,假设有向无环图为S1→S2→S3→S4,其中,S1、S2、S3和S4为目标句子。
现有技术在给目标句子排序形成目标摘要的过程中,确定当前排序位置的句子需要先预测前一个位置的句子,这种方法在模型训练过程较为复杂,计算量大、训练时间长且准确率低,得到的目标摘要。本实施例,对M个目标句子进行两两组合,得到M*(M-1)/2个句子组合,将每一个句子组合输入到BERT模型中,得到语义信息向量,将语义信息向量输入MLP模型,得到任意两个目标句子的前后顺序,基于前后顺序形成有向无环图,本实施例通过确定任意两个目标句子之间的前后顺序,保证后续可以对目标句子进行排序过程简单,有效提高准确率,保证生成的目标摘要连贯性较佳。作为一示例,当M等于3,即目标句子为S1、S2和S3,对这个3个句子进行两两组合,得到3个句子组合,即S1和S3、S1和S2、S2和S3,将每个句子组合输入目标模型组合中得到任意两个目标句子的前后顺序,以保证后续可以对目标句子进行排序过程简单,有效提高准确率,保证生成的目标摘要连贯性较佳。
S205:基于M*(M-1)/2个有向无环图,获取目标摘要。
其中,目标摘要是指用户需要的摘要。
本实施例中,对M*(M-1)/2个有向无环图进行处理,得到拓扑图,采用广度优先算法对拓扑图进行处理,得到每一目标句子的当前入度,根据当前入度对目标句子进行排序,得到目标摘要,过程较为简单,可以快速得到连贯的目标摘要。作为一示例,假设目标句子为S1、S2和S3,则向无环图为S1→S2;S1→S3;S2→S3;对向无环图进行处理得到如图9所示的拓扑图,图9中S1的当前入度为0;S2的当前入度为1;S3的当前入度为2;将当前入度为0的目标句子,即S1压入栈队列作为栈底元素,将目标句子S1指向的其他的目标句子的入度减去1,则S2的当前入度为1-1=0;S3的当前入度为2-1=1;那么将目标句子S2压入栈队列作为栈底元素,重复这个过程直到所有目标句子都压入栈队列中,此过程输出的栈队列即为目标摘要,过程较为简单,可以快速得到连贯的目标摘要。其中,入度,源于图论算法,通常指有向图中某点作为图中边的终点的次数之和。当前入度是指每一目标句子对应的入度。
本实施例所提供的文献摘要生成方法,基于摘要关键词查询数据库,从数据库存储的初始文献中获取N个与摘要关键词对应的原始文献,实现自动化确定相同摘要类型的原始文献,确保后续的目标摘要的准确性,减少人工成本。采用预先训练好的抽取式文献摘要模型对原始文献进行处理,快速得到M个目标句子,使得目标句子之间具有较强的联系,确保后续生成的目标摘要记载原始文献的重要信息。将M个目标句子输入训练好的目标模型组合,得到目标句子对应的M*(M-1)/2个有向无环图,通过确定任意两个目标句子之间的前后顺序,保证后续可以对目标句子进行排序过程简单,有效提高准确率,保证生成的目标摘要连贯性较佳。基于M*(M-1)/2个有向无环图,可以快速得到连贯的目标摘要。
在一实施例中,如图3所示,步骤S202,即基于摘要关键词查询数据库,从数据库存储的初始文献中获取N个与摘要关键词对应的原始文献,包括:
S301:基于摘要关键词查询数据库中的分类表,获取摘要关键词对应的摘要类型。
其中,分类表是预先设置的表格,该分类表用于指示预设关键词与摘要类型之间的关联关系。其中,预设关键词是与摘要关键词相对应的词。摘要类型是指摘要的类型,例如,摘要类型可以是医疗类型、金融类型和机械类型等。作为一示例,预设关键词是xx疾病,则对应的摘要类型为医疗类型。
本实施例中,采用匹配算法对摘要关键词与分类表中的预设关键词进行匹配,若匹配成功,则说明存在与摘要关键词相对应的预设关键词,因此,根据对应的预设关键词即可得到摘要关键词对应的摘要类型,为后续确定原始文献提供技术支持。
S302:基于摘要类型查询数据库中的初始文献,将包含摘要关键词的N个初始文献,确定为N个原始文献。
本实施例中,预先对数据库中的初始文献进行分类,当确定摘要类型后,将摘要关键词与该摘要类型中的初始文献进行匹配,以得到包含摘要关键词对应的初始文献,速度较快。
本实施例所提供的文献摘要生成方法,基于摘要关键词查询数据库中的分类表,获取摘要关键词对应的摘要类型,为后续确定原始文献提供技术支持。基于摘要类型查询数据库中的初始文献,将包含摘要关键词的N个初始文献,确定为N个原始文献,速度较快。
在一实施例中,如图4所示,步骤S203,即采用预先训练好的抽取式文献摘要模型对原始文献进行处理,得到M个目标句子,包括:
S401:对原始文献进行分割处理,获取至少两个摘要句子。
其中,分割处理是指将原始文献分割为多个句子的处理,以便计算机对摘要句子进行处理。摘要句子是对原始文献进行分割处理得到的单个句子。
作为一示例,根据原始文献中的逗号和句号进行分割,例如,原始文献为xxxx,yyyyy;zzz,则通过查找逗号和句号将原始文献划分为xxxx、yyyyy和zzz作为3个句子。
S402:将所有摘要句子输入抽取式文献摘要模型的词嵌入层,获取每一摘要句子对应的句子向量。
其中,句子向量是指摘要句子经过词嵌入层处理后得到的向量,经过词嵌入层即可将摘要句子转化为对应的向量,便于计算机识别。词嵌入层是用于将摘要句子转化为计算机可识别的句子向量的层。
S403:将每一句子向量输入抽取式文献摘要模型的目标编码层,得到每一句子向量对应的目标编码向量。
其中,目标编码层是用于对句子向量进行句子级别和文档级别的编码。具体地,首先将句子向量输入句子编码层,得到句子的向量表示的原始编码向量,将原始编码向量输入文档编码层,得到目标编码向量。
S404:将目标编码向量输入抽取式文献摘要模型的打分编码层,获取每一摘要句子对应的打分结果。
其中,打分结果是指采用打分编码层对每一摘要句子对应的目标编码向量进行打分形成的结果,可以理解地,将分数较高的摘要句子确定为目标句子,使得目标句子为包含有重要信息的句子,保证后续生成的目标摘要记载原始文献的重要句子。
S405:将多个目标编码向量的打分结果,按照数值从高到低依次选取前M个摘要句子,确定为M个目标句子。
本实施例中,利用抽取式文献摘要模型将句子打分以及句子选择联合在一起,以将句子的信息关联起来,保证目标句子具有重要信息。
本实施例所提供的文献摘要生成方法,对原始文献进行分割处理,获取至少两个摘要句子,以便计算机对摘要句子进行处理。将所有摘要句子输入抽取式文献摘要模型的词嵌入层,获取每一摘要句子对应的句子向量,便于计算机识别。将每一句子向量输入抽取式文献摘要模型的目标编码层,得到每一句子向量对应的目标编码向量;将目标编码向量输入抽取式文献摘要模型的打分编码层,获取每一摘要句子对应的打分结果;将多个目标编码向量的打分结果,按照数值从高到低依次选取前M个摘要句子,确定为M个目标句子,利用抽取式文献摘要模型将句子打分以及句子选择联合在一起,以将句子的信息关联起来,保证目标句子具有重要信息。
在一实施例中,如图5,步骤S403,即将每一句子向量输入抽取式文献摘要模型的目标编码层,得到每一句子向量对应的目标编码向量,包括:
S501:将每一句子向量输入抽取式文献摘要模型的句子编码层进行编码,获取句子向量对应的原始编码向量;
S502:将原始编码向量输入抽取式文献摘要模型的文档编码层再编码,获取目标编码向量。
其中,句子编码层是双向GRU句子编码层,利用该双向GRU句子编码层获得句子级别的编码。文档编码层是指双向GRU文档编码层,利用该双向GRU文档编码层获得文档级别的编码。
在一实施例中,目标模型组合包括预先训练好的BERT模型和MLP模型;如图6所示,步骤S204,即将M个目标句子输入训练好的目标模型组合,得到目标句子对应的M*(M-1)/2个有向无环图,包括:
S601:对目标句子进行两两组合,得到M*(M-1)/2个句子组合;
其中,句子组合是指任意两个目标句子形成的组合,以便后续可以得到两个目标句子之前的前后关系。
本实施例中,对目标句子进行两两组合,得到M*(M-1)/2个句子组合,有利于简化后续确定任意两个目标句子之间的前后关系的步骤并保证确定任意两个目标句子之间的前后关系的准确性,确保得到连贯的目标摘要。作为一示例,当目标句子为3时,假设目标句子为S1、S2和S3,对目标句子进行两两组合,则可以得到句子组合为S1和S2、S1和S3、S2和S3。
S602:将每一句子组合输入BERT模型,获取每一句子组合对应的语义信息向量。
本实施例中,BERT的作用在于获得句子组合的向量表示。BERT主要包括词嵌入层,编码层和解码层。词嵌入层的作用是将文献映射到向量,输入是文献,输出是向量。编码层和解码层使用的都是transformer结构,以获得具有语义信息的语义信息向量。
S603:将语义信息向量输入MLP模型,获取任意两个目标句子的有向无环图。
本实施例中,采用Bert模型加MLP模型对摘要句子进行抽取和分类,以得到目标句子,并确定目标句子之间的前后依赖关系,以解决现有技术中,仅采用Bert模型进行分类准确率低的问题。
本实施例所提供的文献摘要生成方法,对目标句子进行两两组合,得到M*(M-1)/2个句子组合,有利于简化后续确定任意两个目标句子之间的前后关系的步骤并保证确定任意两个目标句子之间的前后关系的准确性,确保得到连贯的目标摘要。将每一句子组合输入BERT模型,获取每一句子组合对应的语义信息向量;将语义信息向量输入MLP模型,获取任意两个目标句子的有向无环图,以得到目标句子,并确定目标句子之间的前后依赖关系,以解决现有技术中,仅采用Bert模型进行分类准确率低的问题。
在一实施例中,如图7所示,步骤S205,即基于M*(M-1)/2个有向无环图,获取目标摘要,包括:
S701:对M*(M-1)/2个有向无环图进行处理,得到拓扑图。
其中,拓扑图是指将所有的有向无环图集合形成的图,以便后续进行广度优先遍历,得到每个目标句子的当前入度。
S702:采用广度优先算法遍历拓扑图,获取每一目标句子的当前入度。
其中,广度优先算法又称广度优先搜索、宽度优先搜索和横向优先搜索,,是一种图形搜索演算法;所谓广度,就是一层一层的,向下遍历。
本实施中,采用广度优先算法对拓扑图进行处理,得到每一目标句子的当前入度,根据当前入度对目标句子进行排序,得到目标摘要,过程较为简单,可以快速得到连贯的目标摘要。假设,目标句子S1在目标句子S2之前,目标句子S2在目标句子S3之前,目标句子S3在目标句子S4之前;则S1分别指向S2、S3和S4,S2分别指向S3和S4,S3指向S4,因此,S1的当前入度为0;S2的当前入度为1;S3的当前入度为2;S4的当前入度为3。
S703:依据当前入度对所有目标句子进行入栈,获取栈队列。
具体地,将第一个入度为0的目标句子压入栈队列作为栈底元素,将目标句子指向的其他的目标句子的入度减去1,则原来入度为1的目标句子变为入度变成0,那么将目标句子2压入栈队列作为栈底元素,重复这个过程直到所有目标句子都压入栈队列中,此过程形成的栈队列即为目标摘要,过程较为简单,可以快速得到连贯的目标摘要。
假设目标句子S1在目标句子S2之前,目标句子S2在目标句子S3之前,目标句子S3在目标句子S4之前;则S1分别指向S2、S3和S4,S2分别指向S3和S4,S3指向S4,因此,S1的当前入度为0;S2的当前入度为1;S3的当前入度为2;S4的当前入度为3。则首先将S1压入栈队列作为栈底元素,S2的当前入度变为为0;S3的当前入度为1;S4的当前入度为2,将S2压入栈队列作为栈底元素,……,得到栈队列为S1→S2→S3→S4。
S704:基于栈队列,获取目标摘要。
本实施例,根据栈队列中每个目标句子的顺序得到目标摘要,确保生成的目标摘要连贯通顺。
本实施例所提供的文献摘要生成方法,对M*(M-1)/2个有向无环图进行处理,得到拓扑图,以便后续进行广度优先遍历,得到每个目标句子的当前入度。采用广度优先算法遍历拓扑图,获取每一目标句子的当前入度;依据当前入度对所有目标句子进行入栈,获取栈队列;基于栈队列,获取目标摘要,确保生成的目标摘要连贯通顺。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种文献摘要生成装置,该文献摘要生成装置与上述实施例中文献摘要生成方法一一对应。如图8所示,该文献摘要生成装置包括摘要生成请求获取模块801、原始文献获取模块802、目标句子获取模块803、有向无环图获取模块804和目标摘要获取模块805。各功能模块详细说明如下:
摘要生成请求获取模块801,用于获取摘要生成请求,摘要生成请求包括摘要关键词。
原始文献获取模块802,用于基于摘要关键词查询数据库,从数据库存储的初始文献中获取N个与摘要关键词对应的原始文献。
目标句子获取模块803,用于采用预先训练好的抽取式文献摘要模型对原始文献进行处理,得到M个目标句子。
有向无环图获取模块804,用于将M个目标句子输入训练好的目标模型组合,得到目标句子对应的M*(M-1)/2个有向无环图。
目标摘要获取模块805,用于基于M*(M-1)/2个有向无环图,获取目标摘要。
优选地,原始文献获取模块802,包括:摘要类型获取单元和原始文献获取单元。
摘要类型获取单元,用于基于摘要关键词查询数据库中的分类表,获取摘要关键词对应的摘要类型。
原始文献获取单元,用于根据摘要类型查询数据库中的文献摘要,将包含摘要关键词的N个文献摘要,确定为N个原始文献。
优选地,目标句子获取模块803,包括:分割处理单元、句子向量获取单元、目标编码向量获取单元和打分结果获取单元。
分割处理单元,用于对原始文献进行分割处理,获取至少两个摘要句子。
句子向量获取单元,用于将所有摘要句子输入抽取式文献摘要模型的词嵌入层,获取每一摘要句子对应的句子向量。
目标编码向量获取单元,用于将每一句子向量输入抽取式文献摘要模型的目标编码层,得到每一句子向量对应的目标编码向量。
打分结果获取单元,用于将目标编码向量输入抽取式文献摘要模型的打分编码层,获取每一摘要句子对应的打分结果。
目标句子获取单元,用于将多个目标编码向量的打分结果,按照数值从高到低依次选取前M个摘要句子,确定为M个目标句子。
优选地,目标编码向量获取单元,包括:第一编码子单元和第二编码子单元。
第一编码子单元,用于将每一句子向量输入抽取式文献摘要模型的句子编码层进行编码,获取句子向量对应的原始编码向量。
第二编码子单元,用于将原始编码向量输入抽取式文献摘要模型的文档编码层再编码,获取目标编码向量。
优选地,目标模型组合包括BERT模型和MLP模型。有向无环图获取模块804,包括:句子组合获取单元、语义信息向量获取单元和有向无环图获取单元。
句子组合获取单元,用于对目标句子进行两两组合,得到M*(M-1)/2个句子组合。
语义信息向量获取单元,用于将每一句子组合输入BERT模型,获取每一句子组合对应的语义信息向量。
有向无环图获取单元,用于将语义信息向量输入MLP模型,获取任意两个目标句子的有向无环图。
优选地,目标摘要获取模块805,包括:拓扑图获取单元、入度获取单元、栈队列获取单元和目标摘要获取单元。
拓扑图获取单元,用于对M*(M-1)/2个有向无环图进行处理,得到拓扑图。
入度获取单元,用于采用广度优先算法遍历拓扑图,获取每一目标句子的当前入度。
栈队列获取单元,用于依据当前入度对所有目标句子进行入栈,获取栈队列。
目标摘要获取单元,用于基于栈队列,获取目标摘要。
关于文献摘要生成装置的具体限定可以参见上文中对于文献摘要生成方法的限定,在此不再赘述。上述文献摘要生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储有向无环图。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文献摘要生成方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中文献摘要生成方法的步骤,例如图2所示的步骤S201-S205,或者图3至图7中所示的步骤,为避免重复,这里不再赘述。或者,处理器执行计算机程序时实现文献摘要生成装置这一实施例中的各模块/单元的功能,例如图8所示的摘要生成请求获取模块801、原始文献获取模块802、目标句子获取模块803、有向无环图获取模块804和目标摘要获取模块805的功能,为避免重复,这里不再赘述。
在一实施例中,提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中文献摘要生成方法的步骤,例如图2所示的步骤S201-S205,或者图3至图7中所示的步骤,为避免重复,这里不再赘述。或者,处理器执行计算机程序时实现文献摘要生成装置这一实施例中的各模块/单元的功能,例如图8所示的摘要生成请求获取模块801、原始文献获取模块802、目标句子获取模块803、有向无环图获取模块804和目标摘要获取模块805的功能,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(MRAM)、同步MRAM(SMRAM)、双数据率SMRAM(MMRSMRAM)、增强型SMRAM(ESMRAM)、同步链路(Synchlink)MRAM(SLMRAM)、存储器总线(Rambus)直接RAM(RMRAM)、直接存储器总线动态RAM(MRMRAM)、以及存储器总线动态RAM(RMRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文献摘要生成方法,其特征在于,包括:
获取摘要生成请求,所述摘要生成请求包括摘要关键词;
基于所述摘要关键词查询数据库,从所述数据库存储的初始文献中获取N个与所述摘要关键词对应的原始文献;
采用预先训练好的抽取式文献摘要模型对所述原始文献进行处理,得到M个目标句子;
将M个所述目标句子输入训练好的目标模型组合,得到所述目标句子对应的M*(M-1)/2个有向无环图;
基于M*(M-1)/2个所述有向无环图,获取目标摘要。
2.如权利要求1所述的文献摘要生成方法,其特征在于,所述基于所述摘要关键词查询数据库,从所述数据库存储的初始文献中获取N个与所述摘要关键词对应的原始文献,包括:
基于所述摘要关键词查询数据库中的分类表,获取所述摘要关键词对应的摘要类型;
根据所述摘要类型查询数据库中的文献摘要,将包含所述摘要关键词的N个文献摘要,确定为N个原始文献。
3.如权利要求1所述的文献摘要生成方法,其特征在于,所述采用预先训练好的抽取式文献摘要模型对所述原始文献进行处理,得到M个目标句子,包括:
对所述原始文献进行分割处理,获取至少两个摘要句子;
将所有所述摘要句子输入抽取式文献摘要模型的词嵌入层,获取每一所述摘要句子对应的句子向量;
将每一所述句子向量输入抽取式文献摘要模型的目标编码层,得到每一所述句子向量对应的目标编码向量;
将所述目标编码向量输入抽取式文献摘要模型的打分编码层,获取每一所述摘要句子对应的打分结果;
将多个所述目标编码向量的打分结果,按照数值从高到低依次选取前M个摘要句子,确定为M个目标句子。
4.如权利要求3所述的文献摘要生成方法,其特征在于,所述将每一所述句子向量输入所述抽取式文献摘要模型的目标编码层,得到每一所述句子向量对应的目标编码向量,包括:
将每一所述句子向量输入所述抽取式文献摘要模型的句子编码层进行编码,获取所述句子向量对应的原始编码向量;
将所述原始编码向量输入所述抽取式文献摘要模型的文档编码层再编码,获取所述目标编码向量。
5.如权利要求1所述的文献摘要生成方法,其特征在于,所述目标模型组合包括BERT模型和MLP模型;
所述将M个所述目标句子输入训练好的目标模型组合,得到任意两个所述目标句子的M*(M-1)/2个有向无环图,包括:
对所述目标句子进行两两组合,得到M*(M-1)/2个句子组合;
将每一所述句子组合输入所述BERT模型,获取每一所述句子组合对应的语义信息向量;
将所述语义信息向量输入所述MLP模型,获取任意两个所述目标句子的有向无环图。
6.如权利要求1所述的文献摘要生成方法,其特征在于,基于M*(M-1)/2个所述有向无环图,获取目标摘要,包括:
对M*(M-1)/2个所述有向无环图进行处理,得到拓扑图;
采用广度优先算法遍历所述拓扑图,获取每一所述目标句子的当前入度;
依据所述当前入度对所有目标句子进行入栈,获取栈队列;
基于所述栈队列,获取目标摘要。
7.一种文献摘要生成装置,其特征在于,包括:
摘要生成请求获取模块,用于获取摘要生成请求,所述摘要生成请求包括摘要关键词;
原始文献获取模块,用于基于所述摘要关键词查询数据库,从所述数据库存储的初始文献中获取N个与所述摘要关键词对应的原始文献;
目标句子获取模块,用于采用预先训练好的抽取式文献摘要模型对所述原始文献进行处理,得到M个目标句子;
有向无环图获取模块,用于将M个所述目标句子输入训练好的目标模型组合,得到所述目标句子对应的M*(M-1)/2个有向无环图;
目标摘要获取模块,用于基于M*(M-1)/2个所述有向无环图,获取目标摘要。
8.如权利要求7所述的文献摘要生成装置,其特征在于,所述原始文献获取模块,包括:
摘要类型获取单元,用于基于所述摘要关键词查询数据库中的分类表,获取所述摘要关键词对应的摘要类型;
原始文献获取单元,用于根据所述摘要类型查询数据库中的文献摘要,将包含所述摘要关键词的N个文献摘要,确定为N个原始文献。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述文献摘要生成方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文献摘要生成方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011623844.3A CN112732898A (zh) | 2020-12-30 | 2020-12-30 | 文献摘要生成方法、装置、计算机设备及存储介质 |
PCT/CN2021/084241 WO2022141872A1 (zh) | 2020-12-30 | 2021-03-31 | 文献摘要生成方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011623844.3A CN112732898A (zh) | 2020-12-30 | 2020-12-30 | 文献摘要生成方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112732898A true CN112732898A (zh) | 2021-04-30 |
Family
ID=75609644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011623844.3A Pending CN112732898A (zh) | 2020-12-30 | 2020-12-30 | 文献摘要生成方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112732898A (zh) |
WO (1) | WO2022141872A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113407710A (zh) * | 2021-06-07 | 2021-09-17 | 维沃移动通信有限公司 | 信息显示方法、装置、电子设备及可读存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115809329B (zh) * | 2023-01-30 | 2023-05-16 | 医智生命科技(天津)有限公司 | 一种长文本的摘要生成方法 |
CN116912047B (zh) * | 2023-09-13 | 2023-11-28 | 湘潭大学 | 一种专利结构感知相似性检测方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8335754B2 (en) * | 2009-03-06 | 2012-12-18 | Tagged, Inc. | Representing a document using a semantic structure |
US9317498B2 (en) * | 2014-05-23 | 2016-04-19 | Codeq Llc | Systems and methods for generating summaries of documents |
CN108280112B (zh) * | 2017-06-22 | 2021-05-28 | 腾讯科技(深圳)有限公司 | 摘要生成方法、装置及计算机设备 |
CN109657054B (zh) * | 2018-12-13 | 2021-02-02 | 北京百度网讯科技有限公司 | 摘要生成方法、装置、服务器及存储介质 |
CN111414471B (zh) * | 2020-03-20 | 2023-07-28 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN111858913A (zh) * | 2020-07-08 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种自动生成文本摘要的方法和系统 |
-
2020
- 2020-12-30 CN CN202011623844.3A patent/CN112732898A/zh active Pending
-
2021
- 2021-03-31 WO PCT/CN2021/084241 patent/WO2022141872A1/zh active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113407710A (zh) * | 2021-06-07 | 2021-09-17 | 维沃移动通信有限公司 | 信息显示方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022141872A1 (zh) | 2022-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108170684B (zh) | 文本相似度计算方法及系统、数据查询系统和计算机产品 | |
CN108304439B (zh) | 一种语义模型优化方法、装置及智能设备、存储介质 | |
US9460117B2 (en) | Image searching | |
CN112732898A (zh) | 文献摘要生成方法、装置、计算机设备及存储介质 | |
US10796224B2 (en) | Image processing engine component generation method, search method, terminal, and system | |
CN110909182B (zh) | 多媒体资源搜索方法、装置、计算机设备及存储介质 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN111539197B (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
CN109063108B (zh) | 搜索排序方法、装置、计算机设备和存储介质 | |
CN106095845B (zh) | 文本分类方法和装置 | |
CN110929038A (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
CN111460090A (zh) | 基于向量的文档检索方法、装置、计算机设备及存储介质 | |
CN111859986A (zh) | 基于多任务孪生网络的语义匹配方法、装置、设备和介质 | |
CN111563384A (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
CN112380331A (zh) | 信息推送的方法和装置 | |
Wu et al. | Extracting topics based on Word2Vec and improved Jaccard similarity coefficient | |
CN112883030A (zh) | 数据收集方法、装置、计算机设备和存储介质 | |
CN112632258A (zh) | 文本数据处理方法、装置、计算机设备和存储介质 | |
CN111552767A (zh) | 搜索方法、搜索装置以及计算机设备 | |
CN110362662A (zh) | 数据处理方法、装置以及计算机可读存储介质 | |
CN110555165A (zh) | 信息识别方法、装置、计算机设备和存储介质 | |
CN114330704A (zh) | 语句生成模型更新方法、装置、计算机设备和存储介质 | |
CN114329004A (zh) | 数字指纹生成、数据推送方法、装置和存储介质 | |
CN113515589A (zh) | 数据推荐方法、装置、设备以及介质 | |
CN116361428A (zh) | 一种问答召回方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40041498 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |