CN109657053B - 多文本摘要生成方法、装置、服务器及存储介质 - Google Patents
多文本摘要生成方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN109657053B CN109657053B CN201811523926.3A CN201811523926A CN109657053B CN 109657053 B CN109657053 B CN 109657053B CN 201811523926 A CN201811523926 A CN 201811523926A CN 109657053 B CN109657053 B CN 109657053B
- Authority
- CN
- China
- Prior art keywords
- sentence
- text
- abstract
- sentences
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种多文本摘要生成方法、装置、服务器及存储介质。其中,所述方法包括:从目标文本集合的每个文本的句子中确定与目标文本集合对应的摘要句集合;依据句子所属文本的发布时间和句子在所属文本中的位置,对目标文本集合的每个句子进行排序;依据每个句子的排序结果,确定所述摘要句集合中各摘要句的顺序;按照所述摘要句的顺序组合成目标文本集合的摘要。本发明实施例通过对摘要句按照时间排序法进行排序,排序后使得摘要整体更加通顺、合理、自然,整体效果表现更加优秀。
Description
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种多文本摘要生成方法、装置、服务器及存储介质。
背景技术
多文本摘要从定义上讲,就是把同一主题下的多个文本的主要信息按压缩比提炼成一个摘要。从应用的角度讲,一方面,在使用搜索引擎时,搜索同一主题的文本往往能返回成千上万个网页,如果将这些网页形成一个统一精炼能够反映主要信息的摘要必然具有重要意义。另一方面,网上某一新闻单位对同一事件的系列报道,或者某一时间数家新闻单位同一时间的报道,若能把这些相关性很强的文本提炼出一个覆盖性强、形式简介的摘要也是同样具有重要意义的。
多文本摘要模型主要可以划分为两种:抽取式多文档摘要、生成式多文档摘要,其中研究最多的是抽取式多文本摘要。然而,传统的抽取式多文本摘要算法生成的摘要往往不通顺、不自然,摘要整体质量不高。
发明内容
本发明实施例提供了一种多文本摘要生成方法、装置、服务器及存储介质,以解决现有技术中利用传统的抽取式多文档摘要算法生成摘要时所存在的摘要内容不通顺、不自然,导致摘要整体质量差的问题。
第一方面,本发明实施例提供了一种多文本摘要生成方法,包括:
从目标文本集合的每个文本的句子中确定与目标文本集合对应的摘要句集合;
依据句子所属文本的发布时间和句子在所属文本中的位置,对目标文本集合的每个句子进行排序;
依据每个句子的排序结果,确定所述摘要句集合中各摘要句的顺序;
按照所述摘要句的顺序组合成目标文本集合的摘要。
第二方面,本发明实施例还提供了一种多文本摘要生成装置,包括:
从目标文本集合的每个文本的句子中确定与目标文本集合对应的摘要句集合;
依据句子所属文本的发布时间和句子在所属文本中的位置,对目标文本集合的每个句子进行排序;
依据每个句子的排序结果,确定所述摘要句集合中各摘要句的顺序;
按照所述摘要句的顺序组合成目标文本集合的摘要。
第三方面,本发明实施例还提供了一种服务器,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的多文本摘要生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例所述的多文本摘要生成方法。
本发明实施例提供的一种多文本摘要生成方法、装置、服务器及存储介质,在确定摘要句集合后,根据各句子所属文本的发布中间和在所属文本中的位置,对目标文本集合中的所有句子进行排序,并依据排序结果对摘要句集合中的摘要句进行排序,以便组成所需的多文本摘要。由此,对摘要句按照时间排序法进行排序,经过排序后使得摘要整体更加通顺、合理、自然,整体效果表现更加优秀。
附图说明
图1是本发明实施例一提供的一种多文本摘要生成方法的流程示意图;
图2是本发明实施例二提供的一种多文本摘要生成方法的流程示意图;
图3是本发明实施例三提供的一种多文本摘要生成方法的流程示意图;
图4是本发明实施例四提供的一种多文本摘要生成方法的流程示意图;
图5是本发明实施例五提供的一种多文本摘要生成装置的结构示意图;
图6是本发明实施例六提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种多文本摘要生成方法的流程图,本实施例可适用于需要生成多文本摘要的情况,该方法可以由相应的多文本摘要生成装置执行,该装置可以采用软件和/或硬件的方式实现,并可配置于服务器上。
如图1所示,本发明实施例中提供的多文本摘要生成方法可以包括:
S110、从目标文本集合的每个文本的句子中确定与目标文本集合对应的摘要句集合。
其中,目标文本集合中包括至少两个文本,而要生成与目标文本集合对应的高质量的摘要,则需要摘要必须覆盖足够多的由各个文本提供的重要信息,也即是目标文本集合的摘要是由各个文本中的句子组成。因此需要对目标文本集合中的各个文本进行切句,得到句子集合。
示例性的,可以根据各文本包括的通用的句子结束符(例如:“。!?”等)进行切句,将目标文本集合中的文本分割成一系列的句子,组成句子集合。进一步的,由于文本摘要有字数限制,因此,在对文本进行切句的同时,获取每个句子的长度信息。如果句子长度超过预设阈值,可对该句子进行二次切句,示例性的,可根据“,:”等标点符号进行二次切句。对于通过切句获得的一系列句子,可以根据各个句子的重要性确定句子是否为摘要句,并将判定为摘要句的句子组成摘要句集合。
S120、依据句子所属文本的发布时间和句子在所属文本中的位置,对目标文本集合的每个句子进行排序。
在S110中,对目标文本集合中的各个文本进行切句后,得到一系列句子,由于各个句子来源于不同的文本,因此在对目标文本集合的每个句子进行排序时,需要综合考虑各个句子所属文本的发布时间和各个句子在所属文本中的位置。示例性的,针对来源于同一文本且语义相似的句子,则按照各句子在该文本中的位置进行排序;针对来源于不同文本但语义相似的句子,则按照各句子所属的文本发布时间的早晚进行排序,例如对于语义相似的句子A和句子B,如果句子A所属的文本发布时间早于句子B所属的文本发布时间,则将句子A排在句子B的前面。由此,可将目标文本集合的所有句子进行排序。
S130、依据每个句子的排序结果,确定所述摘要句集合中各摘要句的顺序。
在本发明实施例中,将目标文本集合的所有句子依据每个句子的排序结果组成一个新的句子集合。并将摘要句集合中的各摘要句与该新的句子集合进行匹配,确定各摘要句的顺序。
S140、按照所述摘要句的顺序组合成目标文本集合的摘要。
针对排序后的摘要句,只需按顺序进行组合,即可得到目标文本集合的摘要。
本发明实施例中,在确定摘要句集合后,根据各句子所属文本的发布中间和在所属文本中的位置,对目标文本集合中的所有句子进行排序,并依据排序结果对摘要句集合中的摘要句进行排序,以便组成所需的多文本摘要。由此对摘要句按照时间排序法进行排序,摘要句经过排序后使得摘要整体更加通顺、合理、自然,整体效果表现更加优秀。
实施例二
图2为本发明实施例二提供的一种多文本摘要生成方法的流程示意图。本实施例以上述实施例为基础进行优化,如图2所示,本发明实施例中提供的多文本摘要生成方法可以包括:
S210、文本预处理。
为了确保生成摘要的文本数据干净,需要对目标文本集合中的各个文本进行预处理,以过滤掉目标文本所包括的无用数据,而且由于过长的输入文本会影响模型的运行效率,且过长文本生成摘要效果不好,需要对过长文本进行预处理。示例性的,文本预处理可包括如下处理操作:
(1)利用正则表达式进行匹配,过滤目标文本中的网页链接,例如通过正则表达式去匹配一个字符串,如果该字符串中包含类似URL的文本,则提取并过滤掉。
(2)利用关键词匹配,过滤目标文本中的广告句子和网页代码,例如利用常见广告用语作为关键词去匹配目标文本,根据匹配结果过滤目标文本中的广告;
(3)如果目标文本为符合预设条件的长文本,则按照预设规则对目标文本进行剪裁,其中,所述预设规则包括保留文本第一段、最后一段以及其他中间段落的第一句和最后一句。
S220、从目标文本集合的每个文本的句子中确定与目标文本集合对应的摘要句集合;
S230、依据句子所属文本的发布时间和句子在所属文本中的位置,对目标文本集合的每个句子进行排序;
S240、依据每个句子的排序结果,确定所述摘要句集合中各摘要句的顺序;
S250、按照所述摘要句的顺序组合成目标文本集合的摘要。
本发明实施例中,通过对目标文本集合中的所有文本进行预处理,确保生成摘要的文本数据干净,同时对过长文本进行处理,可提升摘要模型生成的效率以及提高生成摘要的质量。
实施例三
图3为本发明实施例三提供的一种多文本摘要生成方法的流程示意图。本实施例以上述实施例为基础进行优化,如图3所示,本发明实施例中提供的多文本摘要生成方法可以包括:
S310、基于图排序模型计算目标文本集合中每个文本的每个句子的重要性得分,其中,所述目标文本集合中包括至少两个文本。
本实施例中,可采用基于图排序的TextRank模型计算每个句子的重要性得分。基于TextRank模型,将每个句子看成图中的一个节点,若两个句子之间存在相似性,认为对应的两个节点之间有一个无向有权边,边的权值是相似度。通过PageRank算法计算得到的重要性最高的若干句子作为摘要句。其中,句子相似度计算公式如下:
其中,Si、Sj表示第i、j个句子,wk表示单词k。计算相似度作为节点连边权值后,节点的得分(PR值)的计算公式如下:
其中,WS(Vi)表示句子节点Vi的得分,d是阻尼系数,一般设置为0.85。右侧的求和表示每个相似句子对本句子的贡献程度。求和的分子wji表示句子j和句子i的相似程度,分母是与句子j相似的所有句子的相似度之和,而WS(Vj)表示上次迭代给到句子j的得分。整个公式表示一个迭代的过程,使用幂迭代法不断迭代传播各个句子节点的得分,直到收敛,最终的得分为句子的重要性得分。
S320、根据每个句子的重要性得分,按照分数从高到低的顺序进行排序。
示例性的,根据图排序模型给出的各文本正文句子的重要性得分进行逆向排序。
S330、初始化摘要句集合为空,并按照所述排序依次遍历每个句子,对于每个当前句子执行如下操作,直到当前摘要句集合中的句子总字数满足预设数目:如果该当前句子与当前摘要句集合中各句子的语义相似度不高于所述预设阈值,则将当前句子作为摘要句加入当前摘要句集合,否则继续遍历下一个句子。
初始状态下,摘要句集合为空,将遍历的第一个句子(即重要性得分最高的句子)加入到摘要句集合中,然后遍历排序第二的句子,判断当前排序第二的句子与当前摘要句集合中各句子(即排序第一的句子)的语义相似度是否高于预设阈值,如果不高于,则将该排序第二的句子也加入到当前摘要句集合中,然后继续遍历下一个排序第三的句子,直到当前摘要句集合中的句子总字数满足预设数目,则停止遍历操作,并输出最终的摘要句集合,由此可实现只对重要性得分高的句子进行相似度计算,从而过滤包含冗余的信息句子。
示例性的,对于当前遍历到的句子以及摘要句集合中的句子,通过句中词向量和词权重计算句子的语义向量表示。然后根据当前句子的语义向量表示依次与现有摘要句集合中各句子的语义向量表示计算余弦相似度,若相似度大于预设阈值(例如0.6),则忽略当前遍历到的句子,否则将当前遍历到的句子加入摘要句集合中,并遍历下一个句子。
S340、依据句子所属文本的发布时间和句子在所属文本中的位置,对目标文本集合的每个句子进行排序。
S350、依据每个句子的排序结果,确定所述摘要句集合中各摘要句的顺序。
S360、按照所述摘要句的顺序组合成目标文本集合的摘要。
本发明实施例中,采用图排序模型获取句子重要性得分之后,通过语义相似度计算对高分句子进行语义去冗余,并根据所有句子的排序结果对摘要句集合中的摘要句进行排序,生成多文档摘要,不仅能有效地减少信息冗余,而且摘要句经过时间排序法排序后使得摘要整体更加通顺、合理、自然,整体效果表现更加优秀。
实施例四
图4为本发明实施例四提供的一种多文本摘要生成方法的流程示意图。本实施例以上述实施例为基础进行优化,如图4所示,本发明实施例中提供的多文本摘要生成方法可以包括:
S410、从目标文本集合的每个文本的句子中确定与目标文本集合对应的摘要句集合。
S420、对目标文本集合中每个文本的每个句子,按照语义相似度进行聚类,得到至少两个句子簇。
示例性的,根据各句子中的词向量和词权重计算各句子的语义向量表示,通过计算余弦相似度的方法,按照语义相似度对句子进行聚类,得到至少两个句子簇。
S430、在各句子簇的每个句子中,将所属文本的最早发布时间作为相应句子簇的主题时间戳,以及作为相应句子簇中各句子的主题时间戳。
示例性的,一个句子簇包括A、B、C、D四个语义相似的句子,其中句子A所属的文本发布时间最早,则该句子簇的主题时间戳为句子A所属的文本发布时间,相应的,句子B、C、D对应的主题时间戳也确定为句子A所属的文本发布时间。
S440、依据各句子簇的主题时间戳对各句子簇进行排序。
对于主题时间戳相同的句子簇,则按照各句子簇中特定句在所属文本中的位置对句子簇进行排序,其中,所述特定句为确定句子簇的主题时间戳所对应的句子。按照S430中的示例,句子A即为特定句。而如果两个句子簇的主题时间戳相同,则确定两个句子簇的特定句来自同一个文本,此时只需根据特定句在其所属文本中的位置对这两个句子簇整体进行排序即可。
S450、依据各句子簇中每个句子的主题时间戳,以及各句子在所属文本中的位置,对各句子簇中的每个句子进行排序。
在任一当前句子簇中,对于所属文本的发布时间与当前句子簇的主题时间戳相同的第一类句子,确定该第一类句子的标记位置为该第一类句子在各自所属文本的位置。其中,第一类句子也即是上述的特定句,如果一个句子簇中包括多个特定句(即多个特定句来源于同一文本),则根据各个特定句在所属文本的位置作为该句子的标记位置,由此即确定了第一类句子的标记位置。
对于所属文本的发布时间与当前句子簇的主题时间戳不相同的第二类句子,确定该第二类句子的标记位置为在当前句子簇中与该第二类句子最相似的目标句在其所属文本中的位置,并且该目标句所属文本的发布时间与当前句子簇的主题时间戳相同。其中,第二类句子也即为句子簇中除了特定句以外的其它句子,目标句也即为上述的特定句,对于任一第二类句子,找出与其语义最相似的一个特定句,并将该特定句在其所属文本的位置作为该第二类句子的标记位置。
根据当前句子簇中每个句子的标记位置为每个句子进行排序。
S460、依据每个句子的排序结果,确定所述摘要句集合中各摘要句的顺序。
基于S440和S450,先根据各句子簇对应的主题时间戳对各句子簇进行排序,再对每个句子簇所包括的句子进行排序,由此实现了对目标文本集合中所有句子按照时间排序法进行排序,并输出排序结果,以便依据每个句子的排序结果,确定所述摘要句集合中各摘要句的顺序。
S470、按照所述摘要句的顺序组合成目标文本集合的摘要。
本发明实施例中,在确定摘要句集合后,利用时间排序法对所有句子进行排序,并根据排序结果对摘要句集合中的摘要句进行排序,生成多文档摘要,不仅能有效地减少信息冗余,而且摘要句经过排序后使得摘要整体更加通顺、合理、自然,整体效果表现更加优秀。
实施例五
图5是本发明实施例五提供的一种多文本摘要生成装置的结构示意图。如图5所示,该装置包括:
提取模块510,用于从目标文本集合的每个文本的句子中确定与目标文本集合对应的摘要句集合;
第一排序模块520,用于依据句子所属文本的发布时间和句子在所属文本中的位置,对目标文本集合的每个句子进行排序;
第二排序模块530,用于依据每个句子的排序结果,确定所述摘要句集合中各摘要句的顺序;
摘要生成模块540,用于按照所述摘要句的顺序组合成目标文本集合的摘要。
本发明实施例中,通过提取模块获取摘要句集合后,第二排序模块根据第一排序模块确定的所有句子的排序结果,对摘要句集合中的摘要句进行排序,以组成所需的多文本摘要。由此生成的摘要整体更加通顺、合理、自然,整体效果表现更加优秀。
在上述实施例的基础上,所述装置还包括:
文本预处理模块,用于执行如下操作中至少之一:
利用正则表达式进行匹配,过滤目标文本中的网页链接;或
利用关键词匹配,过滤目标文本中的广告句子和网页代码;或
如果所述文本为符合预设条件的长文本,则按照预设规则对文本进行剪裁,其中,所述预设规则包括保留文本第一段、最后一段以及其他中间段落的第一句和最后一句。
在上述实施例的基础上,所述提取模块包括:
重要性计算单元,用于基于图排序模型计算目标文本集合中每个文本的每个句子的重要性得分,其中,所述目标文本集合中包括至少两个文本;
摘要句确定单元,用于根据每个句子的重要性得分确定所述摘要句集合。
在上述实施例的基础上,所述摘要句确定单元具体用于:
根据每个句子的重要性得分,按照分数从高到低的顺序进行排序;
初始化摘要句集合为空,并按照所述排序依次遍历每个句子,对于每个当前句子执行如下操作,直到当前摘要句集合中的句子总字数满足预设数目:
如果该当前句子与当前摘要句集合中各句子的语义相似度不高于所述预设阈值,则将当前句子作为摘要句加入当前摘要句集合,否则继续遍历下一个句子。
在上述实施例的基础上,所述第一排序模块包括:
聚类单元,用于对目标文本集合中每个文本的每个句子,按照语义相似度进行聚类,得到至少两个句子簇;
主题时间戳确定单元,用于在各句子簇的每个句子中,将所属文本的最早发布时间作为相应句子簇的主题时间戳,以及作为相应句子簇中各句子的主题时间戳;
第一排序单元,用于依据各句子簇的主题时间戳对各句子簇进行排序;
第二排序单元,用于依据各句子簇中每个句子的主题时间戳,以及各句子在所属文本中的位置,对各句子簇中的每个句子进行排序。
在上述实施例的基础上,所述第一排序单元具体用于:
对于主题时间戳相同的句子簇,则按照各句子簇中特定句在所属文本中的位置对句子簇进行排序,其中,所述特定句为确定句子簇的主题时间戳所对应的句子。
在上述实施例的基础上,所述第二排序单元具体用于:
在任一当前句子簇中,对于所属文本的发布时间与当前句子簇的主题时间戳相同的第一类句子,确定该第一类句子的标记位置为该第一类句子在各自所属文本的位置;
对于所属文本的发布时间与当前句子簇的主题时间戳不相同的第二类句子,确定该第二类句子的标记位置为在当前句子簇中与该第二类句子最相似的目标句在其所属文本中的位置,并且该目标句所属文本的发布时间与当前句子簇的主题时间戳相同;
根据当前句子簇中每个句子的标记位置为每个句子进行排序。
本发明实施例所提供的多文本摘要生成装置可执行本发明任意实施例所提供的多文本摘要生成方法,具备执行方法相应的功能模块和有益效果。
实施例六
图6为本发明实施例六提供的服务器的结构示意图。图6示出了适于用来实现本发明实施方式的示例性服务器12的框图。图6显示的服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于:一个或者多个处理器或者处理器16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该服务器12交互的设备通信,和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的多文本摘要生成方法,包括:
从目标文本集合的每个文本的句子中确定与目标文本集合对应的摘要句集合;
依据句子所属文本的发布时间和句子在所属文本中的位置,对目标文本集合的每个句子进行排序;
依据每个句子的排序结果,确定所述摘要句集合中各摘要句的顺序;
按照所述摘要句的顺序组合成目标文本集合的摘要。
实施例七
本发明实施例中提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种多文本摘要生成方法,该方法包括:
从目标文本集合的每个文本的句子中确定与目标文本集合对应的摘要句集合;
依据句子所属文本的发布时间和句子在所属文本中的位置,对目标文本集合的每个句子进行排序;
依据每个句子的排序结果,确定所述摘要句集合中各摘要句的顺序;
按照所述摘要句的顺序组合成目标文本集合的摘要。
当然,本发明实施例中所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例中所提供的多文本摘要生成方法中的相关操作。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (16)
1.一种多文本摘要生成方法,其特征在于,所述方法包括:
从目标文本集合的每个文本的句子中确定与目标文本集合对应的摘要句集合;
依据句子所属文本的发布时间和句子在所属文本中的位置,对目标文本集合的每个句子进行排序;
依据每个句子的排序结果,确定所述摘要句集合中各摘要句的顺序;
按照所述摘要句的顺序组合成目标文本集合的摘要;
其中,依据句子所属文本的发布时间和句子在所属文本中的位置,对目标文本集合的每个句子进行排序,包括:
针对来源于同一文本且语义相似的句子,则按照各句子在该文本中的位置进行排序;针对来源于不同文本但语义相似的句子,则按照各句子所属的文本发布时间的早晚进行排序。
2.根据权利要求1所述的方法,其特征在于,在从目标文本集合的每个文本的句子中确定与目标文本集合对应的摘要句集合之前,所述方法还包括:
文本预处理,具体包括如下操作中至少之一:
利用正则表达式进行匹配,过滤目标文本中的网页链接;或
利用关键词匹配,过滤目标文本中的广告句子和网页代码;或
如果所述文本为符合预设条件的长文本,则按照预设规则对文本进行剪裁,其中,所述预设规则包括保留文本第一段、最后一段以及其他中间段落的第一句和最后一句。
3.根据权利要求1所述的方法,其特征在于,所述从目标文本集合的每个文本的句子中确定与目标文本集合对应的摘要句集合,包括:
基于图排序模型计算目标文本集合中每个文本的每个句子的重要性得分,其中,所述目标文本集合中包括至少两个文本;
根据每个句子的重要性得分确定所述摘要句集合。
4.根据权利要求3所述的方法,其特征在于,所述根据每个句子的重要性得分确定摘要句集合,包括:
根据每个句子的重要性得分,按照分数从高到低的顺序进行排序;
初始化摘要句集合为空,并按照所述排序依次遍历每个句子,对于每个当前句子执行如下操作,直到当前摘要句集合中的句子总字数满足预设数目:
如果该当前句子与当前摘要句集合中各句子的语义相似度不高于预设阈值,则将当前句子作为摘要句加入当前摘要句集合,否则继续遍历下一个句子。
5.根据权利要求1所述的方法,其特征在于,所述依据句子所属文本的发布时间和句子在所属文本中的位置,对目标文本集合的每个句子进行排序,包括:
对目标文本集合中每个文本的每个句子,按照语义相似度进行聚类,得到至少两个句子簇;
在各句子簇的每个句子中,将所属文本的最早发布时间作为相应句子簇的主题时间戳,以及作为相应句子簇中各句子的主题时间戳;
依据各句子簇的主题时间戳对各句子簇进行排序;
依据各句子簇中每个句子的主题时间戳,以及各句子在所属文本中的位置,对各句子簇中的每个句子进行排序。
6.根据权利要求5所述的方法,其特征在于,所述依据各句子簇的主题时间戳对各句子簇进行排序,包括:
对于主题时间戳相同的句子簇,则按照各句子簇中特定句在所属文本中的位置对句子簇进行排序,其中,所述特定句为确定句子簇的主题时间戳所对应的句子。
7.根据权利要求5所述的方法,其特征在于,所述依据各句子簇中每个句子的主题时间戳,以及各句子在所属文本中的位置,对各句子簇中的每个句子进行排序,包括:
在任一当前句子簇中,对于所属文本的发布时间与当前句子簇的主题时间戳相同的第一类句子,确定该第一类句子的标记位置为该第一类句子在各自所属文本的位置;
对于所属文本的发布时间与当前句子簇的主题时间戳不相同的第二类句子,确定该第二类句子的标记位置为在当前句子簇中与该第二类句子最相似的目标句在其所属文本中的位置,并且该目标句所属文本的发布时间与当前句子簇的主题时间戳相同;所述目标句为当前句子簇中的特定句;
根据当前句子簇中每个句子的标记位置为每个句子进行排序。
8.一种多文本摘要生成装置,其特征在于,所述装置包括:
提取模块,用于从目标文本集合的每个文本的句子中确定与目标文本集合对应的摘要句集合;
第一排序模块,用于依据句子所属文本的发布时间和句子在所属文本中的位置,对目标文本集合的每个句子进行排序;
第二排序模块,用于依据每个句子的排序结果,确定所述摘要句集合中各摘要句的顺序;
摘要生成模块,用于按照所述摘要句的顺序组合成目标文本集合的摘要;
其中,第一排序模块用于:
针对来源于同一文本且语义相似的句子,则按照各句子在该文本中的位置进行排序;针对来源于不同文本但语义相似的句子,则按照各句子所属的文本发布时间的早晚进行排序。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
文本预处理模块,用于执行如下操作中至少之一:
利用正则表达式进行匹配,过滤目标文本中的网页链接;或
利用关键词匹配,过滤目标文本中的广告句子和网页代码;或
如果所述文本为符合预设条件的长文本,则按照预设规则对文本进行剪裁,其中,所述预设规则包括保留文本第一段、最后一段以及其他中间段落的第一句和最后一句。
10.根据权利要求8所述的装置,其特征在于,所述提取模块包括:
重要性计算单元,用于基于图排序模型计算目标文本集合中每个文本的每个句子的重要性得分,其中,所述目标文本集合中包括至少两个文本;
摘要句确定单元,用于根据每个句子的重要性得分确定所述摘要句集合。
11.根据权利要求10所述的装置,其特征在于,所述摘要句确定单元具体用于:
根据每个句子的重要性得分,按照分数从高到低的顺序进行排序;
初始化摘要句集合为空,并按照所述排序依次遍历每个句子,对于每个当前句子执行如下操作,直到当前摘要句集合中的句子总字数满足预设数目:
如果该当前句子与当前摘要句集合中各句子的语义相似度不高于预设阈值,则将当前句子作为摘要句加入当前摘要句集合,否则继续遍历下一个句子。
12.根据权利要求8所述的装置,其特征在于,所述第一排序模块包括:
聚类单元,用于对目标文本集合中每个文本的每个句子,按照语义相似度进行聚类,得到至少两个句子簇;
主题时间戳确定单元,用于在各句子簇的每个句子中,将所属文本的最早发布时间作为相应句子簇的主题时间戳,以及作为相应句子簇中各句子的主题时间戳;
第一排序单元,用于依据各句子簇的主题时间戳对各句子簇进行排序;
第二排序单元,用于依据各句子簇中每个句子的主题时间戳,以及各句子在所属文本中的位置,对各句子簇中的每个句子进行排序。
13.根据权利要求12所述的装置,其特征在于,所述第一排序单元具体用于:
对于主题时间戳相同的句子簇,则按照各句子簇中特定句在所属文本中的位置对句子簇进行排序,其中,所述特定句为确定句子簇的主题时间戳所对应的句子。
14.根据权利要求12所述的装置,其特征在于,所述第二排序单元具体用于:
在任一当前句子簇中,对于所属文本的发布时间与当前句子簇的主题时间戳相同的第一类句子,确定该第一类句子的标记位置为该第一类句子在各自所属文本的位置;
对于所属文本的发布时间与当前句子簇的主题时间戳不相同的第二类句子,确定该第二类句子的标记位置为在当前句子簇中与该第二类句子最相似的目标句在其所属文本中的位置,并且该目标句所属文本的发布时间与当前句子簇的主题时间戳相同;所述目标句为当前句子簇中的特定句;
根据当前句子簇中每个句子的标记位置为每个句子进行排序。
15.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的多文本摘要生成方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的多文本摘要生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811523926.3A CN109657053B (zh) | 2018-12-13 | 2018-12-13 | 多文本摘要生成方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811523926.3A CN109657053B (zh) | 2018-12-13 | 2018-12-13 | 多文本摘要生成方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109657053A CN109657053A (zh) | 2019-04-19 |
CN109657053B true CN109657053B (zh) | 2021-09-14 |
Family
ID=66114542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811523926.3A Active CN109657053B (zh) | 2018-12-13 | 2018-12-13 | 多文本摘要生成方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109657053B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188349A (zh) * | 2019-05-21 | 2019-08-30 | 清华大学深圳研究生院 | 一种基于抽取式多文档摘要方法的自动化写作方法 |
CN111339287B (zh) * | 2020-02-24 | 2023-04-21 | 成都网安科技发展有限公司 | 摘要生成方法及装置 |
CN111414471B (zh) * | 2020-03-20 | 2023-07-28 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN111753043B (zh) * | 2020-06-22 | 2024-04-16 | 北京百度网讯科技有限公司 | 文档数据处理方法、装置和存储介质 |
CN112507711B (zh) * | 2020-12-04 | 2023-08-08 | 南京擎盾信息科技有限公司 | 文本摘要抽取方法及系统 |
CN112784585A (zh) * | 2021-02-07 | 2021-05-11 | 新华智云科技有限公司 | 金融公告的摘要提取方法与摘要提取终端 |
CN113535942B (zh) * | 2021-07-21 | 2022-08-19 | 北京海泰方圆科技股份有限公司 | 一种文本摘要生成方法、装置、设备及介质 |
CN114491152B (zh) * | 2021-12-02 | 2023-10-31 | 南京硅基智能科技有限公司 | 一种摘要视频的生成方法、存储介质、电子装置 |
US12008332B1 (en) | 2023-08-18 | 2024-06-11 | Anzer, Inc. | Systems for controllable summarization of content |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6397209B1 (en) * | 1996-08-30 | 2002-05-28 | Telexis Corporation | Real time structured summary search engine |
CN105488021A (zh) * | 2014-09-15 | 2016-04-13 | 华为技术有限公司 | 一种生成多文档摘要的方法和装置 |
CN105868178A (zh) * | 2016-03-28 | 2016-08-17 | 浙江大学 | 一种基于短语主题建模的多文档自动摘要生成方法 |
CN108009135A (zh) * | 2016-10-31 | 2018-05-08 | 深圳市北科瑞声科技股份有限公司 | 生成文档摘要的方法和装置 |
-
2018
- 2018-12-13 CN CN201811523926.3A patent/CN109657053B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6397209B1 (en) * | 1996-08-30 | 2002-05-28 | Telexis Corporation | Real time structured summary search engine |
CN105488021A (zh) * | 2014-09-15 | 2016-04-13 | 华为技术有限公司 | 一种生成多文档摘要的方法和装置 |
CN105868178A (zh) * | 2016-03-28 | 2016-08-17 | 浙江大学 | 一种基于短语主题建模的多文档自动摘要生成方法 |
CN108009135A (zh) * | 2016-10-31 | 2018-05-08 | 深圳市北科瑞声科技股份有限公司 | 生成文档摘要的方法和装置 |
Non-Patent Citations (1)
Title |
---|
面向新闻文本的自动摘要技术研究;刘松涛;《中国优秀硕士学位论文全文数据库(电子期刊)》;20061130;正文第33-50页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109657053A (zh) | 2019-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657053B (zh) | 多文本摘要生成方法、装置、服务器及存储介质 | |
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
JP6526329B2 (ja) | ウェブページトレーニング方法及び装置、検索意図識別方法及び装置 | |
Phan et al. | Pair-linking for collective entity disambiguation: Two could be better than all | |
Mihalcea | Language independent extractive summarization | |
CN111368038B (zh) | 一种关键词的提取方法、装置、计算机设备和存储介质 | |
KR101423549B1 (ko) | 감상 기반 질의 처리 시스템 및 방법 | |
US10528662B2 (en) | Automated discovery using textual analysis | |
CN111444330A (zh) | 提取短文本关键词的方法、装置、设备及存储介质 | |
CN112035598A (zh) | 一种智能语义检索方法、系统和电子设备 | |
CN111090731A (zh) | 基于主题聚类的电力舆情摘要提取优化方法及系统 | |
CN110472043B (zh) | 一种针对评论文本的聚类方法及装置 | |
CN108595679B (zh) | 一种标签确定方法、装置、终端和存储介质 | |
Agirre et al. | Evaluating and optimizing the parameters of an unsupervised graph-based WSD algorithm | |
Das et al. | The 5w structure for sentiment summarization-visualization-tracking | |
Zhang et al. | Learning hash codes for efficient content reuse detection | |
CN110609997B (zh) | 生成文本的摘要的方法和装置 | |
CN112528640A (zh) | 一种基于异常子图检测的领域术语自动抽取方法 | |
CN109241281B (zh) | 软件失效原因生成方法、装置及设备 | |
Zhu et al. | Multi-layer text classification with voting for consumer reviews | |
Oliveira et al. | A concept-based ILP approach for multi-document summarization exploring centrality and position | |
US20230282018A1 (en) | Generating weighted contextual themes to guide unsupervised keyphrase relevance models | |
Li et al. | A comparison study of clustering algorithms for microblog posts | |
Maylawati et al. | Feature-based approach and sequential pattern mining to enhance quality of Indonesian automatic text summarization | |
CN115391551A (zh) | 事件检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |