CN108304445A

CN108304445A - 一种文本摘要生成方法和装置

Info

Publication number: CN108304445A
Application number: CN201711281994.9A
Authority: CN
Inventors: 李想
Original assignee: XINHUA NETWORK CO Ltd
Current assignee: XINHUA NETWORK CO Ltd
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2018-07-20
Anticipated expiration: 2037-12-07
Also published as: CN108304445B

Abstract

本申请提供一种文本摘要生成方法和装置。方法包括：将待提取摘要的文本文档中的各个段落进行合并，得到目标文本文档；按照预设的第一切分方法，对目标文本文档进行切分，得到句子集合，所述句子集合包括多个句子；计算句子集合中两两句子之间的相似度；基于句子集合中两两句子之间的相似度，得到所述句子集合中每个句子相对于所述句子集合中的其他句子的相似度权重；按照相似度权重由大到小的顺序对所述句子集合中的句子进行排序；基于排序的前N个句子，生成所述文本文档的文本摘要。本申请在兼顾文本处理速度性能的同时，提高了文本摘要生成的准确性。

Description

一种文本摘要生成方法和装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种文本摘要生成方法和装置。

背景技术

摘要是能够反映某一文本的中心内容的简单连贯的短文，能够帮助人们在阅读海量文献时缩短阅读时间。

文本摘要生成技术作为有效得浏览和查阅文本的手段之一，得到了快速的发展。文本摘要生成技术是知识管理系统核心功能模块之一，通过知识内容或者知识关键字生成知识摘要。

目前，文本摘要的生成方法几乎完全依赖于关键字，通过采用例如定位文本关键字所在位置的段落的方法，将满足一定字数阈值的段落确定为文本摘要，然而这种文本摘要生成方法无法避免文本中和整篇文本关系比较紧密的干扰句(比如不适合出现在摘要中的句子)的影响，导致生成的文本摘要的准确性较低。

发明内容

有鉴于此，本申请提供一种文本摘要生成方法，在兼顾文本处理速度性能的同时，提高文本摘要生成的准确性。技术方案如下：

基于本申请的一方面，本申请提供一种文本摘要生成方法，包括：

将待提取摘要的文本文档中的各个段落进行合并，得到目标文本文档；

按照预设的第一切分方法，对所述目标文本文档进行切分，得到句子集合，所述句子集合包括多个句子；

计算所述句子集合中两两句子之间的相似度；

基于所述句子集合中两两句子之间的相似度，得到所述句子集合中每个句子相对于所述句子集合中的其他句子的相似度权重；

按照相似度权重由大到小的顺序对所述句子集合中的句子进行排序；

基于排序的前N个句子，生成所述文本文档的文本摘要，N为正整数。

可选地，所述基于排序的前N个句子，生成所述文本文档的文本摘要之前，所述方法还包括：

针对所述句子集合中的句子，按照预设的第二切分方法，对所述句子集合中的句子进行切分，得到子句集合，所述子句集合包括至少一个子句，一个子句集合对应一个句子；

将所述句子集合中，子句的平均长度小于预设长度的句子存储至第一资源池中；其中，当所述句子集合中的句子没有被切分时，该没有被切分的句子为所述子句；

将排序后的句子中，属于所述第一资源池的句子滤除。

可选地，所述将所述句子集合中，子句的平均长度小于预设长度的句子存储至第一资源池中之后，所述方法还包括：

基于所述句子集合中各个句子的排序，以及所述句子集合中两两句子之间的相似度，针对所述第一资源池中的第一句子，将在句子排序中，位于所述第一句子的后面，且与所述第一句子的相似度大于预设阈值的句子存储至第二资源池中；其中所述第一句子为所述第一资源池中的任意一个句子；

将排序后的句子中，属于所述第二资源池的句子滤除。

可选地，所述得到句子集合之后，所述方法还包括：

对所述句子集合中的句子进行分词，去除无意义的词语。

可选地，所述方法还包括：

接收用户输入的目标词语；

判断所述目标词语是否存在于排序的句子中；

如果不存在，所述基于排序的前N个句子，生成所述文本文档的文本摘要包括：将排序的前N个句子作为摘要句，生成所述文本文档的文本摘要；

如果存在，所述基于排序的前N个句子，生成所述文本文档的文本摘要包括：将包括所述目标词语的前M个句子，以及除所述前M个句子后余下的句子中的前N-M个句子作为摘要句，生成所述文本文档的文本摘要，M为正整数。

基于本申请的另一方面，本申请还提供一种文本摘要生成装置，包括：

段落合并处理单元，用于将待提取摘要的文本文档中的各个段落进行合并，得到目标文本文档；

第一切分单元，用于按照预设的第一切分方法，对所述目标文本文档进行切分，得到句子集合，所述句子集合包括多个句子；

相似度计算单元，用于计算所述句子集合中两两句子之间的相似度；

相似度权重获取单元，用于基于所述句子集合中两两句子之间的相似度，得到所述句子集合中每个句子相对于所述句子集合中的其他句子的相似度权重；

排序单元，用于按照相似度权重由大到小的顺序对所述句子集合中的句子进行排序；

文本摘要生成单元，用于基于排序的前N个句子，生成所述文本文档的文本摘要，N为正整数。

可选地，所述装置还包括：

第二切分单元，用于针对所述句子集合中的句子，按照预设的第二切分方法，对所述句子集合中的句子进行切分，得到子句集合，所述子句集合包括至少一个子句，一个子句集合对应一个句子；

第一处理单元，用于将所述句子集合中，子句的平均长度小于预设长度的句子存储至第一资源池中；其中，当所述句子集合中的句子没有被切分时，该没有被切分的句子为所述子句；

第一滤除单元，用于将排序后的句子中，属于所述第一资源池的句子滤除。

可选地，所述装置还包括：

第二处理单元，用于基于所述句子集合中各个句子的排序，以及所述句子集合中两两句子之间的相似度，针对所述第一资源池中的第一句子，将在句子排序中，位于所述第一句子的后面，且与所述第一句子的相似度大于预设阈值的句子存储至第二资源池中；其中所述第一句子为所述第一资源池中的任意一个句子；

第二滤除单元，用于将排序后的句子中，属于所述第二资源池的句子滤除。

可选地，所述装置还包括：

预处理单元，用于对所述句子集合中的句子进行分词，去除无意义的词语。

可选地，所述装置还包括：

接收单元，用于接收用户输入的目标词语；

判断单元，用于判断所述目标词语是否存在于排序的句子中；

所述文本摘要生成单元具体用于，当所述判断单元判断所述目标词语不存在于排序的句子中时，将排序的前N个句子作为摘要句，生成所述文本文档的文本摘要；当所述判断单元判断所述目标词语存在于排序的句子中时，将包括所述目标词语的前M个句子，以及除所述前M个句子后余下的句子中的前 N-M个句子作为摘要句，生成所述文本文档的文本摘要，M为正整数。

本申请提供的文本摘要生成方法和装置中，将待提取摘要的文本文档中的各个段落进行合并，得到目标文本文档；进而按照预设的第一切分方法，对目标文本文档进行切分，得到句子集合，所述句子集合包括多个句子；计算句子集合中两两句子之间的相似度；基于句子集合中两两句子之间的相似度，得到所述句子集合中每个句子相对于所述句子集合中的其他句子的相似度权重；按照相似度权重由大到小的顺序对所述句子集合中的句子进行排序；基于排序的前N个句子，生成所述文本文档的文本摘要。

本申请充分考虑了句子集合中两两句子之间的相似度，以及每个句子相对于句子集合中的其他句子的相似度权重，按照相似度权重由大到小的顺序对句子集合中的句子进行排序，使得文本文档中重要的、能够反映文本文档中心内容的句子排在前位，保证了基于排序的前N个句子，生成的文本文档的文本摘要的准确性。本申请在兼顾文本处理速度性能的同时，提高了文本摘要生成的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种文本摘要生成方法的流程图；

图2为本申请提供的另一种文本摘要生成方法的流程图；

图3为本申请提供的再一种文本摘要生成方法的流程图；

图4为本申请提供的一种文本摘要生成装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

如图1所示，本申请提供的文本摘要生成方法包括：

步骤101，将待提取摘要的文本文档中的各个段落进行合并，得到目标文本文档。

对于待提取摘要的文本文档，本申请首先将该文本文档中的各个段落进行合并，得到目标文本文档。

步骤102，按照预设的第一切分方法，对所述目标文本文档进行切分，得到句子集合，所述句子集合包括多个句子。

在得到目标文本文档后，本申请对该目标文本文档进行切分。具体地，本申请可以按照句子级标点符号，如句号“。”、感叹号“！”、问号“？”等，对目标文本文档进行切分，得到一句子集合。该句子集合包括多个句子。

例如，目标文本文档为“在第三届小学生运动大会上，老校长激动地发表讲话时说到，运动会精神是敢拼搏、坚持到底，高年级、低年纪、所有年纪的小伙伴们都应该学会互帮互助，携手并顺利地完成本届运动会。2015年 12月16日，第三届全省小学生运动大会正式拉开序幕。各学校代表对依次发表演讲表明各自决心。”为例，本申请按照句子级标点符号对该目标文本文档进行切分，得到多个句子，分别为：句子(1)“在第三届小学生运动大会上，老校长激动地发表讲话时说到，运动会精神是敢拼搏、坚持到底，高年级、低年级、所有年纪的小伙伴们都应该学会互帮互助，携手并顺利地完成本届运动会”、句子(2)“2015年12月16日，第三届全省小学生运动大会正式拉开序幕”、句子(3)“各学校代表对依次发表演讲表明各自决心”，由该句子(1)、(2)、(3)构成一句子集合。

作为本申请优选地，本申请在得到句子集合后，可以进一步对该句子集合中的句子进行分词，去除无意义的词语。

具体地，本申请可以利用分词器对句子集合中的各个句子进行分词，去除其中的停用词。

步骤103，计算所述句子集合中两两句子之间的相似度。

在得到句子集合后，本申请分别计算该句子集合中两两句子之间的相似度。仍以前述为例，即具体计算句子(1)与句子(2)间的相似度，句子(1) 与句子(3)间的相似度，句子(2)与句子(3)间的相似度。

步骤104，基于所述句子集合中两两句子之间的相似度，得到所述句子集合中每个句子相对于所述句子集合中的其他句子的相似度权重。

本申请中，某个句子的相似度权重表征着该某个句子在目标文本文档中，相比于其他所有句子的关联程度，如果该某个句子的相似度权重越大，说明该某个句子在目标文本文档中的重要度越高。

具体地，本申请中的相似度权重可以为目标文本文档中的某个句子与其他所有句子的相似度之和。

例如，假设句子(1)与句子(2)间的相似度为A1、句子(1)与句子(3) 间的相似度为A2，句子(2)与句子(3)间的相似度为A3，那么句子(1) 的相似度权重为A1+A2，句子(2)的相似度权重为A1+A3，句子(3)的相似度权重为A2+A3。

步骤105，按照相似度权重由大到小的顺序对所述句子集合中的句子进行排序。

在得到句子集合中各个句子的相似度权重后，按照相似度权重由大到小的顺序对句子集合中的句子进行排序，由此可以将文本文档中重要的、能够反映文本文档中心内容的句子排在前位。

作为本申请优选地，本申请将句子集合中的句子排序完成后，可以制作一句子权重列表，该句子权重列表用于展现出各个句子的排序顺序。

步骤106，基于排序的前N个句子，生成所述文本文档的文本摘要，N 为正整数。

在完成对句子集合中句子的排序后，基于排序的前N个句子，生成文本文档的文本摘要。

本申请充分考虑了句子集合中两两句子之间的相似度，以及每个句子相对于句子集合中的其他句子的相似度权重，按照相似度权重由大到小的顺序对句子集合中的句子进行排序，使得文本文档中重要的、能够反映文本文档中心内容的句子排在前位，保证了基于排序的前N个句子，生成的文本文档的文本摘要的准确性。由此，本申请在兼顾文本处理速度性能的同时，提高了文本摘要生成的准确性。

实施例二

为了进一步提高文本摘要生成的准确性，本申请提供了另一种文本摘要生成方法，如图2所示，方法包括：

步骤201，将待提取摘要的文本文档中的各个段落进行合并，得到目标文本文档。

步骤202，按照预设的第一切分方法，对所述目标文本文档进行切分，得到句子集合，所述句子集合包括多个句子。

步骤203，计算所述句子集合中两两句子之间的相似度。

步骤204，基于所述句子集合中两两句子之间的相似度，得到所述句子集合中每个句子相对于所述句子集合中的其他句子的相似度权重。

步骤205，按照相似度权重由大到小的顺序对所述句子集合中的句子进行排序。

对于本申请实施例二中的步骤201-步骤205的实现方法与前述实施例一中的步骤101-步骤105的实现方法相同，发明人在此不再赘述。

步骤206，针对所述句子集合中的句子，按照预设的第二切分方法，对所述句子集合中的句子进行切分，得到子句集合，所述子句集合包括至少一个子句。

本申请实施例中，进一步对句子集合中的句子进行了切分。具体地，可以按照短句标点符号，如逗号“，”、分号“；”、顿号“、”等，对句子集合中的句子进行切分，得到一子句集合。该子句集合中至少包括一个子句，且一个子句集合对应一个句子。

可以理解地，如果句子集合中的句子本身就是一个短句，本申请则不对其进行切分。

仍以前述实施例中，句子(1)“在第三届小学生运动大会上，老校长激动地发表讲话时说到，运动会精神是敢拼搏、坚持到底，高年级、低年级、所有年纪的小伙伴们都应该学会互帮互助，携手并顺利地完成本届运动会”、句子(2)“2015年12月16日，第三届全省小学生运动大会正式拉开序幕”、句子(3)“各学校代表对依次发表演讲表明各自决心”为例。

按照短句标点符号对句子(1)进行切分，得到的子句包括：子句(11) “在第三届小学生运动大会上”、子句(12)“老校长激动地发表讲话时说到”、子句(13)“运动会精神是敢拼搏”、子句(14)“坚持到底”、子句(15)“高年级”、子句(16)“低年级”、子句(17)“所有年纪的小伙伴们都应该学会互帮互助”、子句(18)“携手并顺利地完成本届运动会”；

按照短句标点符号对句子(2)进行切分，得到的子句包括：子句(21) “2015年12月16日”、子句(22)“第三届全省小学生运动大会正式拉开序幕”；

由于句子(3)本身就是一个短句，因此不对其进行切分，其对应的子句就是该句子(3)本身，即子句(31)为“各学校代表对依次发表演讲表明各自决心”。

因此，句子(1)对应的子句集合包括子句(11)、子句(12)、子句(13)、子句(14)、子句(15)、子句(16)、子句(17)、和子句(18)；句子 (2)对应的子句集合包括子句(21)、子句(22)；句子(3)对应的子句集合包括子句(31)。

步骤207，将所述句子集合中，子句的平均长度小于预设长度的句子存储至第一资源池中；其中，当所述句子集合中的句子没有被切分时，该没有被切分的句子为所述子句。

其中预设长度例如为8个字符长度，24个字符长度等，其值大小可根据实际需要灵活设定。

句子的子句的平均长度指的是针对一个句子，该句子对应下的所有子句平均下来的长度。比如一个句子对应三个子句，其第一个子句的长度为6，第二个子句的长度为8，第三个子句的长度为7，那么该句子对应的子句的平均长度为(6+8+7)÷3＝7。

针对句子集合，比较句子集合中每个句子对应的子句的平均长度是否小于预设长度，如果小于，则将该句子存储至第一资源池中。为了便于描述，本申请将第一资源池中称之为候选池。

举例来说，假设预设长度为8个字符长度，句子集合中包括句子A、句子B、句子C、句子D。其中句子A对应的子句的平均长度小于8，句子B 对应的子句的平均长度不小于8，句子C对应的子句的平均长度小于8，句子 D对应的子句的平均长度不小于8，由此，本申请会将句子A、句子C存储至候选池中。

需要说明的是，本申请对于步骤206-步骤207同步骤203-步骤205的执行顺序不做限定。可以理解地，在本申请实际应用过程中，步骤206-步骤207 同步骤203-步骤205可能同时执行，也可能先执行步骤206-步骤207，再执行步骤203-步骤205。

步骤208，将排序后的句子中，属于所述第一资源池的句子滤除。

在获得候选池后，本申请针对已排序好的句子，将排序好的句子中，属于候选池的句子滤除。

例如，排序好的句子依次为：句子C、句子A、句子B、句子E、句子D、句子F，候选池中存储有句子A和句子C，由此，本申请会将已经排序好的句子中，句子A和句子C滤除。此时剩下的排序好的句子依次为：句子B、句子E、句子D、句子F，即﹛B、E、D、F﹜。

步骤209，基于排序的前N个句子，生成所述文本文档的文本摘要。

具体地，本申请基于滤除属于候选池的句子A和句子C后的排序好的前N 个句子，如前3个句子，句子B、句子E、句子D，生成文本文档的文本摘要。

在实际应用过程中，过短的子句或句子一般都是没有实际意义的干扰句，本申请将排序后的句子中，子句的平均长度小于预设长度的句子(即过短的句子)滤除，保证了文本摘要生成的准确性。

实施例三

在前述实施例二的基础上，如图3所示，本申请在步骤207之后，方法还可以包括：

步骤210，基于所述句子集合中各个句子的排序，以及所述句子集合中两两句子之间的相似度，针对第一资源池中的第一句子，将在句子排序中，位于所述第一句子的后面，且与所述第一句子的相似度大于预设阈值的句子存储至第二资源池中；其中所述第一句子为所述第一资源池中的任意一个句子。

其中预设阈值例如为0.7、0.8等，其值大小可跟实际需要灵活设定。

为了便于描述，本申请将第二资源池称之为冗余池。

本申请实施例中，假设排序好的句子依次为：句子C、句子A、句子B、句子E、句子D、句子F，候选池中包括句子A和句子C，那么本申请基于已经排序好的各个句子﹛C、A、B、E、D、F﹜，以及之前已计算得到的两两句子之间的相似度，查找出在句子排序中，位于句子A后面的句子，即句子 B、句子E、句子D、句子F，以及在句子排序中，位于句子C后面的句子，即句子A、句子B、句子E、句子D、句子F，进而获取句子A分别与句子B、句子E、句子D、句子F的相似度，以及句子C分别与句子A、句子B、句子E、句子D、句子F的相似度。

进一步假设预设阈值为0.8，句子A与句子B的相似度为0.6、句子A与句子E的相似度为0.85、句子A与句子D的相似度为0.55，句子A与句子F 的相似度为0.77，由此可以确定句子A与句子E的相似度0.85大于预设阈值 0.8，便将句子E存储至冗余池；

句子C与句子A的相似度为0.7、句子C与句子B的相似度为0.5、句子 C与句子E的相似度为0.69、句子C与句子D的相似度为0.71、句子C与句子F的相似度为0.9，由此可以确定句子C与句子F的相似度0.9大于预设阈值0.8，便将句子F存储至冗余池。

步骤211，将排序后的句子中，属于所述第二资源池的句子滤除。

对于排序好的句子﹛C、A、B、E、D、F﹜，本申请实施例中首先基于候选池，将句子A和句子C滤除，对于剩下的排序好的句子﹛B、E、D、F﹜，进一步基于冗余池，将句子E和句子F滤除，此时剩下的排序好的句子为﹛B、 D﹜。

最后基于﹛B、D﹜生成文本文档的文本摘要。

本申请实施例通过设置候选池和冗余池来过滤掉某些干扰性强的语句，保证了文本摘要生成的准确性。

在前述实施例一至实施例三的基础上，本申请还提供一种文本摘要生成方法，方法还可以进一步包括：

步骤301，接收用户输入的目标词语。

优选地，本申请还可以接收用户输入的指定数量N和/或M，由用户指定基于排序的前N或M个句子来生成文本文档的文本摘要。

步骤302，判断所述目标词语是否存在于排序的句子中。如果存在，执行步骤303，如果不存在，执行前述“基于排序的前N个句子，生成所述文本文档的文本摘要”的步骤。

步骤303，将包括所述目标词语的前M个句子，以及除所述前M个句子后余下的句子中的前N-M个句子作为摘要句，生成所述文本文档的文本摘要。

在本申请实施例中，如果用户输入的目标词语不存在于排序的句子中，则直接选取排序的句子中，相似度权重最高的前N句作为摘要句，由此生成文本文档的文本摘要。如果存在，则选取包括所述目标词语的相似度权重最高的前M句，以及除所述前M个句子后余下的句子中，相似度权重最高的前N-M 句作为摘要句，生成文本文档的文本摘要。其中M为正整数，M与N可以相等或不等。

例如，假设排序好的句子为﹛B、D、G、K、H、R、T、L、X、Y、Z﹜，其中句子D、K、L中包括用户输入的目标词语，句子B、G、H、R、T、X、Y、 Z中不包括用户输入的目标词语。那么，

当M不等于N时，具体例如M等于1，N等于3时，本申请从包括用户输入的目标词语的句子D、K、L中，选取相似度权重最高的第一个句子，即句子D；从除句子D后余下的句子﹛B、G、K、H、R、T、L、X、Y、Z﹜中，选取相似度权重最高的前2个句子，即句子B和句子G。

最后将句子D、句子B和句子G作为摘要句，生成文本文档的文本摘要。

当M等于N时，具体例如M等于2，N等于2时，本申请只从包括用户输入的目标词语的句子D、K、L中，选取相似度权重最高的前2个句子，即句子D 和句子K，将句子D、句子K作为摘要句，生成文本文档的文本摘要。

本申请实施例支持人工干预，能够基于人工输入的目标词语选取包括所述目标词语的相似度权重最高的前M句，以及不包括所述目标词语的相似度权重最高的前N-M句子作为摘要句，生成文本文档的文本摘要，这不但提高了文本摘要生成的准确性，还提高了目标词语在文本摘要中出现的概率。

基于前文本申请提供的一种文本摘要生成方法，如图4所示，本申请还提供一种文本摘要生成装置，包括：

段落合并处理单元100，用于将待提取摘要的文本文档中的各个段落进行合并，得到目标文本文档；

第一切分单元200，用于按照预设的第一切分方法，对所述目标文本文档进行切分，得到句子集合，所述句子集合包括多个句子；

相似度计算单元300，用于计算所述句子集合中两两句子之间的相似度；

相似度权重获取单元400，用于基于所述句子集合中两两句子之间的相似度，得到所述句子集合中每个句子相对于所述句子集合中的其他句子的相似度权重；

排序单元500，用于按照相似度权重由大到小的顺序对所述句子集合中的句子进行排序；

文本摘要生成单元600，用于基于排序的前N个句子，生成所述文本文档的文本摘要，N为正整数。

优选地，所述装置还可以包括：

接收单元，用于接收用户输入的目标词语；

所述文本摘要生成单元具体用于，当所述判断单元判断所述目标词语不存在于排序的句子中时，将排序的前N个句子作为摘要句，生成所述文本文档的文本摘要；当所述判断单元判断所述目标词语存在于排序的句子中时，将包括所述目标词语的前M个句子，以及除所述前M个句子后余下的句子中的前N-M个句子作为摘要句，生成所述文本文档的文本摘要，M为正整数。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种文本摘要生成方法和装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种文本摘要生成方法，其特征在于，包括：

计算所述句子集合中两两句子之间的相似度；

2.根据权利要求1所述的方法，其特征在于，所述基于排序的前N个句子，生成所述文本文档的文本摘要之前，所述方法还包括：

将排序后的句子中，属于所述第一资源池的句子滤除。

3.根据权利要求2所述的方法，其特征在于，所述将所述句子集合中，子句的平均长度小于预设长度的句子存储至第一资源池中之后，所述方法还包括：

将排序后的句子中，属于所述第二资源池的句子滤除。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述得到句子集合之后，所述方法还包括：

对所述句子集合中的句子进行分词，去除无意义的词语。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

接收用户输入的目标词语；

判断所述目标词语是否存在于排序的句子中；

6.一种文本摘要生成装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求6-8任一项所述的装置，其特征在于，所述装置还包括：

10.根据权利要求6-8任一项所述的装置，其特征在于，所述装置还包括：

接收单元，用于接收用户输入的目标词语；