CN109657054B - 摘要生成方法、装置、服务器及存储介质 - Google Patents

摘要生成方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN109657054B
CN109657054B CN201811524698.1A CN201811524698A CN109657054B CN 109657054 B CN109657054 B CN 109657054B CN 201811524698 A CN201811524698 A CN 201811524698A CN 109657054 B CN109657054 B CN 109657054B
Authority
CN
China
Prior art keywords
sentence
abstract
sentences
target
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811524698.1A
Other languages
English (en)
Other versions
CN109657054A (zh
Inventor
李法远
陈思姣
罗雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811524698.1A priority Critical patent/CN109657054B/zh
Publication of CN109657054A publication Critical patent/CN109657054A/zh
Application granted granted Critical
Publication of CN109657054B publication Critical patent/CN109657054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种摘要生成方法、装置、服务器及存储介质。其中,所述方法包括:对目标文本进行切句,得到句子集合;获取目标文本对应的目标主题,利用预先训练得到的摘要模型,结合所述目标主题对所述句子集合中的每个句子进行预测,得到每个句子是摘要句的概率值;依据所述概率值从所述句子集合中选择多个摘要句,并根据所述摘要句组成目标文本的摘要。本发明实施例在生成摘要时,通过结合文本的主题生成与主题相关度更高、更准确的摘要,提高摘要的重要信息覆盖能力,同时也能根据不同主题生成多样化的摘要。

Description

摘要生成方法、装置、服务器及存储介质
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种摘要生成方法、装置、服务器及存储介质。
背景技术
当前信息严重过载,每天都有海量新闻文章生成。摘要模型通过对文章进行摘要,提取压缩文章关键信息内容,对文章进行简明扼要的表达,使得人们更加简单快捷地获取信息知识。根据摘要和原文的关系划分,摘要可以划分为抽取式摘要和生成式摘要。
传统的抽取式摘要模型主要有两大类:基于图排序模型、基于机器学习模型。然而,基于图模型排序摘要模型只考虑当前文章的全局信息,忽略了语料库的历史信息直接对句子进行重要性排序,而基于机器学习的摘要模型生成的摘要,其覆盖重要信息的能力还不够健壮。因此,现有的抽取式摘要生成方法均无法满足对生成高质量摘要的需求。
发明内容
本发明实施例提供了一种摘要生成方法、装置、服务器及存储介质,以解决现有技术中利用传统的抽取式摘要模型生成摘要时存在不足而导致生成的摘要质量低的技术问题。
第一方面,本发明实施例提供了一种摘要生成方法,包括:
对目标文本进行切句,得到句子集合;
获取目标文本对应的目标主题,利用预先训练得到的摘要模型,结合所述目标主题对所述句子集合中的每个句子进行预测,得到每个句子是摘要句的概率值;
依据所述概率值从所述句子集合中选择多个摘要句,并根据所述摘要句组成目标文本的摘要。
第二方面,本发明实施例还提供了一种摘要生成装置,包括:
切句模块,用于对目标文本进行切句,得到句子集合;
预测模块,用于获取目标文本对应的目标主题,利用预先训练得到的摘要模型,结合所述目标主题对所述句子集合中的每个句子进行预测,得到每个句子是摘要句的概率值;
生成模块,用于依据所述概率值从所述句子集合中选择多个摘要句,并根据所述摘要句组成目标文本的摘要。
第三方面,本发明实施例还提供了一种服务器,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的摘要生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例所述的摘要生成方法。
本发明实施例提供的一种摘要生成方法、装置、服务器及存储介质,通过预先训练得到的摘要模型并结合目标文本的主题,对通过切句获得的句子集合中的句子进行预测,确定每个句子为摘要句的概率,并根据概率值选择摘要句以组成目标文本摘要。由此可实现在生成摘要时,通过结合文本的主题生成与主题相关度更高、更准确的摘要,提高摘要的重要信息覆盖能力,同时也能根据不同主题生成多样化的摘要。
附图说明
图1是本发明实施例一提供的一种摘要生成方法的流程示意图;
图2是本发明实施例二提供的一种摘要生成方法的流程示意图;
图3是本发明实施例三提供的一种摘要模型训练方法的流程示意图;
图4是本发明实施例四提供的一种摘要生成装置的结构示意图;
图5是本发明实施例五提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种摘要生成方法的流程图,本实施例可适用于通信领域新闻资讯的摘要生成、事件图谱的事件摘要生成等情况,该方法可以由相应的摘要生成装置执行,该装置可以采用软件和/或硬件的方式实现,并可配置于服务器上。
如图1所示,本发明实施例中提供的摘要生成方法可以包括:
S110、对目标文本进行切句,得到句子集合。
其中,目标文本即为待提取摘要的文本,由于目标文本的摘要是由该文本内的部分重要句子组成,因此,必须对目标文本进行切句处理。示例性的,可以根据文本段落或通用的句子结束符(例如:“。!?”等)进行切句,将目标文本分割成一系列的句子,组成句子集合。进一步的,由于文本摘要有字数限制,因此,在对文本进行切句的同时,获取每个句子的长度信息。如果句子长度超过预设阈值,可对该句子进行二次切句,示例性的,可根据“,:”等标点符号进行二次切句。
S120、获取目标文本对应的目标主题,利用预先训练得到的摘要模型,结合所述目标主题对所述句子集合中的每个句子进行预测,得到每个句子是摘要句的概率值。
在本发明实施例中,预先训练的摘要模型是一个循环神经网络模型,通过输出句子的概率值以预测句子集合的每个句子是否为摘要句。具体预测时,将获取的目标主题以及句子集合中的每个句子进行向量化表示,并将向量化表示的目标主题和句子按照训练格式输入到摘要模型,获取摘要模型输出的各个句子对应的概率值,如果任一句子对应的概率值大于预设阈值,则认为该句子可以作为摘要句。
其中,目标文本对应的目标主题在默认状态下可优选为目标文本的标题,也可以是用户根据实际需求输入的主题。而对于同一文本,不同的主题最后生成的摘要也不相同,且后续生成的摘要均向对应的主题倾斜,由此加强了摘要对主题信息的覆盖能力。
示例性的,目标文本为一影视剧本,默认状态下,将剧本名称作为目标主题,通过摘要模型预测后,与剧本名称相关的句子对应的概率值大于其他句子对应的概率值,即与剧本名称相关的句子为摘要句,后续则生成与剧本名称相关的摘要;若根据用户需求,将其中某个角色作为主题,通过摘要模型预测后,与该角色相关的句子(例如该角色的对白)对应的概率值大于其他句子对应的概率值,即与该角色相关的句子为摘要句,后续则生成与该角色相关的摘要。
S130、依据所述概率值从所述句子集合中选择多个摘要句,并根据所述摘要句组成目标文本的摘要。
由于文本摘要有字数限制,并不能将所有满足条件的摘要句一起组成文本摘要,还需要对获得的摘要句进行筛选。示例性的,可依据摘要模型输出的概率值对句子集合中的句子进行排序,例如按照概率值从大到小的顺序进行排序,并根据摘要字数在排序后的句子集合中选择多个摘要句。为确保生成的摘要内容通顺、自然,还需对选出的多个摘要句进行二次排序组合,例如,按照每个摘要句在目标文本中的位置对所选的多个摘要句进行排序组合,得到目标文本的摘要。
本发明实施例中,通过预先训练得到的摘要模型并结合目标文本的主题,对通过切句获得的句子集合中的句子进行预测,确定每个句子为摘要句的概率,并根据概率值选择摘要句以组成目标文本摘要。由此可实现在生成摘要时,通过结合文本的主题生成与主题相关度更高、更准确的摘要,提高摘要的重要信息覆盖能力,同时也能根据不同主题生成多样化的摘要。
实施例二
图2为本发明实施例二提供的一种摘要生成方法的流程示意图。本实施例以上述实施例为基础进行优化,如图2所示,本发明实施例中提供的摘要生成方法可以包括:
S210、对目标文本进行预处理。
为了确保生成摘要的文本数据干净,在对目标文本进行切句之前,还需要对目标文本进行预处理,以过滤掉目标文本所包括的无用数据,而且由于过长的输入文本会影响模型的运行效率,且过长文本生成摘要效果不好,需要对过长文本进行预处理。示例性的,文本预处理可包括:
(1)利用正则表达式进行匹配,过滤目标文本中的网页链接,例如通过正则表达式去匹配一个字符串,如果该字符串中包含类似URL的文本,则提取并过滤掉。
(2)利用关键词匹配,过滤目标文本中的广告句子和网页代码,例如利用常见广告用语作为关键词去匹配目标文本,根据匹配结果过滤目标文本中的广告;
(3)如果目标文本为符合预设条件的长文本,则按照预设规则对目标文本进行剪裁,其中,所述预设规则包括保留文本第一段、最后一段以及其他中间段落的第一句和最后一句。
S220、对目标文本进行切句,得到句子集合;
S230、获取目标文本对应的目标主题,利用预先训练得到的摘要模型,结合所述目标主题对所述句子集合中的每个句子进行预测,得到每个句子是摘要句的概率值;
S240、依据所述概率值从所述句子集合中选择多个摘要句,并根据所述摘要句组成目标文本的摘要。
本发明实施例中,通过对目标文本进行预处理,确保生成摘要的文本数据干净,同时对过长文本进行处理,可提升摘要模型生成的效率以及提高生成摘要的质量。
实施例三
图3为本发明实施例三提供的一种摘要模型训练方法的流程示意图,其中,摘要模型为循环神经网络模型,用于在本发明任一实施例中对文本的每个句子是否为摘要句进行预测。如图3所示,本发明实施例中提供的摘要模型训练方法可以包括:
S310、获取用于训练的样本数据集,以及其中每个样本数据对应的主题,并对每个样本数据中的摘要句和非摘要句进行标注。
在摘要模型训练前,需要准备训练数据,包括获取用于训练的样本数据集,以及其中每个样本数据对应的主题。由于训练数据集中的摘要有不少是人工写作而成,摘要句本身并不在文本正文当中。因此,本发明实施例可以采用如下方法实现对样本数据中的每个句子是否为摘要句进行标记:
将任一个样本数据作为当前样本数据,遍历当前样本数据中的每个句子,确定目标子集,如果目标子集所构成的摘要与当前样本数据的人工摘要的rouge(自动文档摘要评价方法)得分最大,则对该目标子集中的每个句子标注为摘要句,对当前样本数据中目标子集之外的句子标注为非摘要句。
其中,为了避免在遍历过程中产生的指数级的计算复杂度,遍历当前样本数据中的每个句子以确定目标子集,可按照如下操作进行,从而节省计算代价:
a.将目标子集初始化为空集,rouge得分为零;
b.在当前样本数据中,逐一计算当前目标子集之外的每个句子添加到当前目标子集后,当前目标子集与所述人工摘要的rouge得分;
c.如果存在能提升当前目标子集得分的候选句子集合,则将候选句子集合中使得当前目标子集得分提升最多的句子添加到当前目标子集中,并更新当前目标子集对应的rouge得分;
重复执行上述b操作和c操作,直到不存在能够提升当前目标子集得分的句子,并将此时对应的当前目标子集作为最终的目标子集,此时最终的目标子集的rouge得分最大。
除此,在准备阶段将各个样本数据的主题进行向量化,得到主题的向量表示。
S320、利用带有标注的样本数据集和每个样本数据对应的主题,对循环神经网络进行训练,得到所述摘要模型。
其中,针对构建的循环神经网络,对于一个句子而言,其每个词在向量化之后,送入第一层Bi-GRUs网络,网络输出经池化操作后得到该句子的向量表示。一篇文本的每个句子得到的向量,再送入第二层Bi-GRUs网络,输出同样经池化操作后得到文本的向量表示。类似还可得到句子上文(句子之前的部分文本)的向量表示。然后,在网络的预测层,利用构建的句子特征来预测句子被选作摘要句的概率值,其中,句子特征包括内容特征、显著性特征、新颖性特征和主题相关性特征。在此基础上,为进一步增加预测的准确性,预测句子被选作摘要句的概率值时,还可以考虑表征句子在文本中绝对位置、相对位置的项以及偏置项。由此可将循环神经网络的预测层构建为:
P(y=1|h,s,d)=σ(Wch+hTWsd-hTWntanh(s)+Wappa+Wrppr+hTWcrt+b),
其中,P表示句子为摘要句的概率;h是句子的向量表示;d是文本向量表示;s是句子上文的向量表示,即当前句子前面所有句子的向量经过加权后得到的向量表示,其中,每个句子的权重是句子属于摘要句的概率;t是主题的向量表示;pa是句子在文本中的绝对位置;pr是句子在当前段落的位置;b是偏置项;Wc、Ws、Wn、Wap、Wrp、Wcr为各项的权重;Wch表示句子的内容特征,hTWsd表示句子的显著性特征;-hTWntanh(s)表示句子的新颖性特征;hTWcrt表示句子的主题相关性特征。
最后再以交叉熵为损失函数,对上式中各权重项以及循环神经网络中各参数利用梯度下降法进行学习,训练后即得到摘要模型。
本发明实施例中,在训练摘要模型时,在综合考虑句子的内容性、显著性、新颖性的基础上,引入句子的主题相关性,使得利用训练后的摘要模型能够结合主题生成与主题相关度高的摘要,使得生成的摘要具有更强的重要信息覆盖能力,且通过摘要模型也能根据不同主题生成多样化的摘要,以满足不同用户和不同场景的需要。
实施例四
图4是本发明实施例四提供的一种装置的结构示意图。如图4所示,该装置包括:
切句模块410,用于对目标文本进行切句,得到句子集合;
预测模块420,用于获取目标文本对应的目标主题,利用预先训练得到的摘要模型,结合所述目标主题对所述句子集合中的每个句子进行预测,得到每个句子是摘要句的概率值;
生成模块430,用于依据所述概率值从所述句子集合中选择多个摘要句,并根据所述摘要句组成目标文本的摘要。
本发明实施例中,预测模块预先训练得到的摘要模型,结合本对应的目标主题对切句模块获取的句子集合进行预测,确定摘要句,生成模块根据确定的摘要句生成文本对应的摘要。由此可实现在生成摘要时,通过结合文本的主题生成与主题相关度更高、更准确的摘要,提高摘要的重要信息覆盖能力,同时也能根据不同主题生成多样化的摘要。
在上述各实施例的基础上,该装置还包括:
文本预处理模块,用于对目标文本进行预处理;其中,所述文本预处理模块包括:
第一过滤单元,用于利用正则表达式进行匹配,过滤目标文本中的网页链接;
第二过滤单元,用于利用关键词匹配,过滤目标文本中的广告句子和网页代码;
裁剪单元,用于如果目标文本为符合预设条件的长文本,则按照预设规则对目标文本进行剪裁,其中,所述预设规则包括保留文本第一段、最后一段以及其他中间段落的第一句和最后一句。
在上述各实施例的基础上,摘要模型为循环神经网络模型;
相应的,该装置还包括摘要模型训练模块;其中,摘要模型训练模块包括:
数据准备单元,用于获取用于训练的样本数据集,以及其中每个样本数据对应的主题,并对每个样本数据中的摘要句和非摘要句进行标注;
训练单元,用于利用带有标注的样本数据集和每个样本数据对应的主题,对循环神经网络进行训练,得到所述摘要模型。
在上述各实施例的基础上,所述数据准备单元包括:
目标子集确定子单元,用于将任一个样本数据作为当前样本数据,遍历当前样本数据中的每个句子,确定目标子集;
标注子单元,用于如果目标子集所构成的摘要与当前样本数据的人工摘要的rouge得分最大,则对该目标子集中的每个句子标注为摘要句,对当前样本数据中目标子集之外的句子标注为非摘要句。
在上述各实施例的基础上,所述目标子集确定子单元具体用于:
a.将目标子集初始化为空集,rouge得分为零;
b.在当前样本数据中,逐一计算当前目标子集之外的每个句子添加到当前目标子集后,当前目标子集与所述人工摘要的rouge得分;
c.如果存在能提升当前目标子集得分的候选句子集合,则将候选句子集合中使得当前目标子集得分提升最多的句子添加到当前目标子集中,并更新当前目标子集对应的rouge得分;
重复执行上述b操作和c操作,直到不存在能够提升当前目标子集得分的句子,并将此时对应的当前目标子集作为最终的目标子集。
在上述各实施例的基础上,在循环神经网络的预测层,利用构建的句子特征来预测句子被选作摘要句的概率值,其中,所述句子特征至少包括内容特征、显著性特征、新颖性特征和主题相关性特征。
在上述各实施例的基础上,所述预测层为:
P(y=1|h,s,d)=σ(Wch+hTWsd-hTWntanh(s)+Wappa+Wrppr+hTWcrt+b),
其中,P表示句子为摘要句的概率,h是句子的向量表示,d是文本向量表示,s是句子上文的向量表示,t是主题的向量表示,pa是句子在文本中的绝对位置,pr是句子在当前段落的位置,b是偏置项,Wc、Ws、Wn、Wap、Wrp、Wcr为各项的权重。
在上述各实施例的基础上,所述生成模块包括:
排序单元,用于依据所述概率值对所述句子集合中的句子进行排序;
摘要句选择单元,用于在排序后的句子集合中,按照概率值从大到小的顺序,并根据摘要字数选择多个摘要句;
摘要组合单元,用于按照每个摘要句在目标文本中的位置对所述多个摘要句进行组合,得到目标文本的摘要。
本发明实施例所提供的摘要生成装置可执行本发明任意实施例所提供的摘要生成方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的服务器的结构示意图。图5示出了适于用来实现本发明实施方式的示例性服务器12的框图。图5显示的服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于:一个或者多个处理器或者处理器16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该服务器12交互的设备通信,和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的摘要生成方法,包括:
对目标文本进行切句,得到句子集合;
获取目标文本对应的目标主题,利用预先训练得到的摘要模型,结合所述目标主题对所述句子集合中的每个句子进行预测,得到每个句子是摘要句的概率值;
依据所述概率值从所述句子集合中选择多个摘要句,并根据所述摘要句组成目标文本的摘要。
实施例六
本发明实施例中提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种摘要生成方法,该方法包括:
对目标文本进行切句,得到句子集合;
获取目标文本对应的目标主题,利用预先训练得到的摘要模型,结合所述目标主题对所述句子集合中的每个句子进行预测,得到每个句子是摘要句的概率值;
依据所述概率值从所述句子集合中选择多个摘要句,并根据所述摘要句组成目标文本的摘要。
当然,本发明实施例中所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例中所提供的摘要生成方法中的相关操作。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (16)

1.一种摘要生成方法,其特征在于,所述方法包括:
对目标文本进行切句,得到句子集合;
获取目标文本对应的目标主题,利用预先训练得到的摘要模型,结合所述目标主题对所述句子集合中的每个句子进行预测,得到每个句子是摘要句的概率值;
依据所述概率值从所述句子集合中选择多个摘要句,并根据所述摘要句组成目标文本的摘要;其中,针对目标文本,不同主题下选出的摘要句不同,生成的摘要也不同;
其中,所述摘要模型为循环神经网络模型,在循环神经网络的预测层,利用构建的句子特征来预测句子被选作摘要句的概率值,其中,所述句子特征至少包括内容特征、显著性特征、新颖性特征、主题相关性特征、句子在文本中绝对位置、相对位置的项以及偏置项,且所述显著性特征与句子的向量表示和文本向量表示相关,所述新颖性特征与句子的向量表示和句子上文的向量表示相关,所述主题相关性特征与句子的向量表示和主题的向量表示相关。
2.根据权利要求1所述的方法,其特征在于,在对目标文本进行切句,得到句子集合之前,所述方法还包括:
对目标文本进行预处理,包括如下操作中至少之一:
利用正则表达式进行匹配,过滤目标文本中的网页链接;或
利用关键词匹配,过滤目标文本中的广告句子和网页代码;或
如果目标文本为符合预设条件的长文本,则按照预设规则对目标文本进行剪裁,其中,所述预设规则包括保留文本第一段、最后一段以及其他中间段落的第一句和最后一句。
3.根据权利要求1所述的方法,其特征在于,摘要模型的训练过程包括:
获取用于训练的样本数据集,以及其中每个样本数据对应的主题,并对每个样本数据中的摘要句和非摘要句进行标注;
利用带有标注的样本数据集和每个样本数据对应的主题,对循环神经网络进行训练,得到所述摘要模型。
4.根据权利要求3所述的方法,其特征在于,所述对每个样本数据中的摘要句和非摘要句进行标注,包括:
将任一个样本数据作为当前样本数据,遍历当前样本数据中的每个句子,确定目标子集;
如果目标子集所构成的摘要与当前样本数据的人工摘要的rouge得分最大,则对该目标子集中的每个句子标注为摘要句,对当前样本数据中目标子集之外的句子标注为非摘要句。
5.根据权利要求4所述的方法,其特征在于,所述遍历当前样本数据中的每个句子,确定目标子集,包括:
a.将目标子集初始化为空集,rouge得分为零;
b.在当前样本数据中,逐一计算当前目标子集之外的每个句子添加到当前目标子集后,当前目标子集与所述人工摘要的rouge得分;
c.如果存在能提升当前目标子集得分的候选句子集合,则将候选句子集合中使得当前目标子集得分提升最多的句子添加到当前目标子集中,并更新当前目标子集对应的rouge得分;
重复执行上述b操作和c操作,直到不存在能够提升当前目标子集得分的句子,并将此时对应的当前目标子集作为最终的目标子集。
6.根据权利要求1所述的方法,其特征在于,所述预测层为:
P(y=1|h,s,d)=σ(Wch+hTWsd-hTWntanh(s)+Wappa+Wrppr+hTWcrt+b)
其中,h是句子的向量表示,d是文本向量表示,s是句子上文的向量表示,t是主题的向量表示,pa是句子在文本中的绝对位置,pr是句子在当前段落的位置,b是偏置项,Wc、Ws、Wn、Wap、Wrp、Wcr为各项的权重。
7.根据权利要求1所述的方法,其特征在于,所述依据所述概率值从所述句子集合中选择多个摘要句,并根据所述摘要句组成目标文本的摘要,包括:
依据所述概率值对所述句子集合中的句子进行排序;
在排序后的句子集合中,按照概率值从大到小的顺序,并根据摘要字数选择多个摘要句;
按照每个摘要句在目标文本中的位置对所述多个摘要句进行组合,得到目标文本的摘要。
8.一种摘要生成装置,其特征在于,所述装置包括:
切句模块,用于对目标文本进行切句,得到句子集合;
预测模块,用于获取目标文本对应的目标主题,利用预先训练得到的摘要模型,结合所述目标主题对所述句子集合中的每个句子进行预测,得到每个句子是摘要句的概率值;
生成模块,用于依据所述概率值从所述句子集合中选择多个摘要句,并根据所述摘要句组成目标文本的摘要;其中,针对目标文本,不同主题下选出的摘要句不同,生成的摘要也不同;
所述摘要模型为循环神经网络模型,在循环神经网络的预测层,利用构建的句子特征来预测句子被选作摘要句的概率值,其中,所述句子特征至少包括内容特征、显著性特征、新颖性特征、主题相关性特征,句子在文本中绝对位置、相对位置的项以及偏置项,且所述显著性特征与句子的向量表示和文本向量表示相关,所述新颖性特征与句子的向量表示和句子上文的向量表示相关,所述主题相关性特征与句子的向量表示和主题的向量表示相关。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
文本预处理模块,用于对目标文本进行预处理;其中,所述文本预处理模块包括:
第一过滤单元,用于利用正则表达式进行匹配,过滤目标文本中的网页链接;
第二过滤单元,用于利用关键词匹配,过滤目标文本中的广告句子和网页代码;
裁剪单元,用于如果目标文本为符合预设条件的长文本,则按照预设规则对目标文本进行剪裁,其中,所述预设规则包括保留文本第一段、最后一段以及其他中间段落的第一句和最后一句。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括摘要模型训练模块;其中,所述摘要模型训练模块包括:
数据准备单元,用于获取用于训练的样本数据集,以及其中每个样本数据对应的主题,并对每个样本数据中的摘要句和非摘要句进行标注;
训练单元,用于利用带有标注的样本数据集和每个样本数据对应的主题,对循环神经网络进行训练,得到所述摘要模型。
11.根据权利要求10所述的装置,其特征在于,所述数据准备单元包括:
目标子集确定子单元,用于将任一个样本数据作为当前样本数据,遍历当前样本数据中的每个句子,确定目标子集;
标注子单元,用于如果目标子集所构成的摘要与当前样本数据的人工摘要的rouge得分最大,则对该目标子集中的每个句子标注为摘要句,对当前样本数据中目标子集之外的句子标注为非摘要句。
12.根据权利要求11所述的装置,其特征在于,所述目标子集确定子单元具体用于:
a.将目标子集初始化为空集,rouge得分为零;
b.在当前样本数据中,逐一计算当前目标子集之外的每个句子添加到当前目标子集后,当前目标子集与所述人工摘要的rouge得分;
c.如果存在能提升当前目标子集得分的候选句子集合,则将候选句子集合中使得当前目标子集得分提升最多的句子添加到当前目标子集中,并更新当前目标子集对应的rouge得分;
重复执行上述b操作和c操作,直到不存在能够提升当前目标子集得分的句子,并将此时对应的当前目标子集作为最终的目标子集。
13.根据权利要求8所述的装置,其特征在于,所述预测层为:
P(y=1|h,s,d)=σ(Wch+hTWsd-hTWntanh(s)+Wappa+Wrppr+hTWcrt+b)
其中,h是句子的向量表示,d是文本向量表示,s是句子上文的向量表示,t是主题的向量表示,pa是句子在文本中的绝对位置,pr是句子在当前段落的位置,b是偏置项,Wc、Ws、Wn、Wap、Wrp、Wcr为各项的权重。
14.根据权利要求8所述的装置,其特征在于,所述生成模块包括:
排序单元,用于依据所述概率值对所述句子集合中的句子进行排序;
摘要句选择单元,用于在排序后的句子集合中,按照概率值从大到小的顺序,并根据摘要字数选择多个摘要句;
摘要组合单元,用于按照每个摘要句在目标文本中的位置对所述多个摘要句进行组合,得到目标文本的摘要。
15.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的摘要生成方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的摘要生成方法。
CN201811524698.1A 2018-12-13 2018-12-13 摘要生成方法、装置、服务器及存储介质 Active CN109657054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811524698.1A CN109657054B (zh) 2018-12-13 2018-12-13 摘要生成方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811524698.1A CN109657054B (zh) 2018-12-13 2018-12-13 摘要生成方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN109657054A CN109657054A (zh) 2019-04-19
CN109657054B true CN109657054B (zh) 2021-02-02

Family

ID=66113841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811524698.1A Active CN109657054B (zh) 2018-12-13 2018-12-13 摘要生成方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN109657054B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321537B (zh) * 2019-06-11 2023-04-07 创新先进技术有限公司 一种文案生成方法和装置
CN110321426B (zh) * 2019-07-02 2023-10-27 腾讯科技(深圳)有限公司 摘要抽取方法、装置及计算机设备
CN113282745B (zh) * 2020-02-20 2023-04-18 清华大学 事件百科文档自动生成方法和装置
CN111339749B (zh) * 2020-03-02 2022-05-20 乐山师范学院 无条件文本生成方法、文本生成装置及存储介质
CN111414471B (zh) * 2020-03-20 2023-07-28 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111476021B (zh) * 2020-04-07 2023-08-15 抖音视界有限公司 输出信息的方法、装置、电子设备和计算机可读介质
CN111581358B (zh) * 2020-04-08 2023-08-18 北京百度网讯科技有限公司 信息抽取方法、装置及电子设备
CN112347241A (zh) * 2020-11-10 2021-02-09 华夏幸福产业投资有限公司 一种摘要提取方法、装置、设备及存储介质
CN112597295B (zh) * 2020-12-03 2024-02-02 京东科技控股股份有限公司 摘要提取方法、装置、计算机设备和存储介质
CN112732898A (zh) * 2020-12-30 2021-04-30 平安科技(深圳)有限公司 文献摘要生成方法、装置、计算机设备及存储介质
CN113221967B (zh) * 2021-04-23 2023-11-24 中国农业大学 特征抽取方法、装置、电子设备及存储介质
CN113297353A (zh) * 2021-06-16 2021-08-24 深圳前海微众银行股份有限公司 文本匹配方法、装置、设备及存储介质
CN113255319B (zh) * 2021-07-02 2021-10-26 深圳市北科瑞声科技股份有限公司 模型训练方法、文本分段方法、摘要抽取方法及装置
CN113535942B (zh) * 2021-07-21 2022-08-19 北京海泰方圆科技股份有限公司 一种文本摘要生成方法、装置、设备及介质
CN113590810B (zh) * 2021-08-03 2023-07-14 北京奇艺世纪科技有限公司 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN113626585A (zh) * 2021-08-27 2021-11-09 京东方科技集团股份有限公司 摘要生成方法、装置、电子设备及存储介质
CN115186654B (zh) * 2022-09-07 2022-11-22 太极计算机股份有限公司 一种公文文本摘要生成方法
CN115795025A (zh) * 2022-11-29 2023-03-14 华为技术有限公司 一种摘要生成方法及其相关设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102841940B (zh) * 2012-08-17 2015-01-28 浙江大学 一种基于数据重构的文档摘要提取方法
KR20180077691A (ko) * 2016-12-29 2018-07-09 주식회사 엔씨소프트 문장 추상화 장치 및 방법
CN106844340B (zh) * 2017-01-10 2020-04-07 北京百度网讯科技有限公司 基于人工智能的新闻摘要生成和显示方法、装置及系统
CN106980683B (zh) * 2017-03-30 2021-02-12 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN108280112B (zh) * 2017-06-22 2021-05-28 腾讯科技(深圳)有限公司 摘要生成方法、装置及计算机设备

Also Published As

Publication number Publication date
CN109657054A (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN106897428B (zh) 文本分类特征提取方法、文本分类方法及装置
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN109299228B (zh) 计算机执行的文本风险预测方法及装置
JP2023535709A (ja) 言語表現モデルシステム、事前訓練方法、装置、機器及び媒体
CN111930792B (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
CN113704507B (zh) 数据处理方法、计算机设备以及可读存储介质
CN110737774A (zh) 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
KR20210034679A (ko) 엔티티-속성 관계 식별
CN111414561A (zh) 用于呈现信息的方法和装置
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
CN108268443B (zh) 确定话题点转移以及获取回复文本的方法、装置
CN110717316B (zh) 字幕对话流的主题分割方法及装置
CN111460224B (zh) 评论数据的质量标注方法、装置、设备及存储介质
CN114880520B (zh) 视频标题生成方法、装置、电子设备和介质
CN115269846A (zh) 文本处理方法、装置、电子设备及存储介质
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN110866195B (zh) 文本描述的生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant