CN106599148A

CN106599148A - 一种文摘生成方法及装置

Info

Publication number: CN106599148A
Application number: CN201611111235.3A
Authority: CN
Inventors: 王伟
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2016-12-02
Filing date: 2016-12-02
Publication date: 2017-04-26

Abstract

本发明实施例公开了一种文摘生成方法和装置，实现了自动生成文摘的目的。其中，所述方法包括：获取待处理文本的关键词集合，并分别计算所述关键词集合中各个关键词的权重，所述关键词用于表达所述待处理文本的内容，所述关键词的权重表示所述关键词在所述待处理文本中的重要程度；以句子为单位对所述待处理文本进行划分，得到目标句子；确定所述目标句子中包含的关键词，并根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度；根据所述目标句子的第一相似度得到所述目标句子是否能够加入文摘的判断结果。

Description

一种文摘生成方法及装置

技术领域

本发明涉及自然语言文本智能分析领域，尤其涉及一种文摘生成方法及装置。

背景技术

随着信息技术的飞速发展，信息传输的瓶颈已被打破，人们可以方便的接触到海量的信息内容，如何从中快速的了解信息内容，成为当前智能信息处理发展的方向和技术研究的热点。特别是随着互联网上文档信息的急剧膨胀，用于面对大量的文档信息，迫切需要能够有效处理这些文档信息的工具。自动生成文摘，是以自然语言处理技术为基础，通过对文档内容进行分析处理，自动生成文档摘要内容的智能文本处理应用技术。自动生成文摘可以为用户提供文档内容的概要性描述，便于用户在有限的时间内了解更多的文档信息。

发明内容

本发明提供了一种文摘生成方法和装置，实现了自动生成文摘的目的。

本发明实施例提供了一种文摘生成方法，所述方法包括：

获取待处理文本的关键词集合，并分别计算所述关键词集合中各个关键词的权重，所述关键词用于表达所述待处理文本的内容，所述关键词的权重表示所述关键词在所述待处理文本中的重要程度；

以句子为单位对所述待处理文本进行划分，得到目标句子；

确定所述目标句子中包含的关键词，并根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度；

根据所述目标句子的第一相似度得到所述目标句子是否能够加入文摘的判断结果。

优选的，所述根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度包括：

将所述目标句子中包含的关键词的权重之和与所述包含的关键词的数量的乘积作为所述目标句子的第一相似度。

优选的，所述方法还包括：

确定所述目标句子与所述关键词集合之间的语义相关度，和/或所述目标句子在所述待处理文本中的位置；

所述根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度包括：

根据所述目标句子与所述关键词集合之间的语义相关度和所述目标句子在所述待处理文本中的位置的至少其一，以及所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度。

优选的，所述确定所述目标句子与所述关键词集合之间的语义相关度包括：

对所述目标句子进行分词，得到各个特征词；

分别计算所述关键词集合中各个关键词与所述目标句子的各个特征词之间的词相似度；

根据所述关键词集合中各个关键词与所述目标句子的各个特征词之间的词相似度，利用加权二部图的最大权重匹配算法来得到所述目标句子与所述关键词集合之间的语义相关度。

优选的，所述方法还包括：

获取所述目标句子与已加入文摘的文摘句之间的第二相似度；

所述根据所述目标句子的第一相似度得到所述目标句子是否能够加入文摘的判断结果包括：

根据所述目标句子的第一相似度和所述第二相似度得到所述目标句子是否能够加入文摘的判断结果。

优选的，所述获取所述目标句子与已加入文摘的文摘句之间的第二相似度包括：

获取所述目标句子与所述已加入文摘的文摘句的重合词，并计算所述重合词的权重，所述重合词的权重表示所述重合词在所述文本中的重要程度；

根据所述目标句子中包含的重合词的数量和重合词的权重，得到所述目标句子与已加入文摘的文摘句之间的第二相似度。

优选的，所述根据所述目标句子中包含的重合词的数量和重合词的权重，得到所述目标句子与已加入文摘的文摘句之间的第二相似度包括：

将所述目标句子中包含的重合词的权重之和，与包含的重合词的数量的乘积，作为所述目标句子与已加入文摘的文摘句之间的第二相似度。

优选的，所述获取所述目标句子与已加入文摘的文摘句之间的第二相似度还包括：

获取所述目标句子与所述已加入文摘的文摘句之间的语义相似度；

所述根据所述目标句子中包含的重合词的数量和重合词的权重，得到所述目标句子与已加入文摘的文摘句之间的第二相似度包括：

根据所述目标句子中包含的重合词的数量和重合词的权重，以及所述目标句子与所述已加入文摘的文摘句之间的语义相似度，得到所述目标句子与已加入文摘的文摘句之间的第二相似度。

优选的，所述方法还包括：

若所述目标句子为对所述待处理文本进行划分得到的句子集合中第一相似度最高的句子，则将所述目标句子加入所述文摘作为首个文摘句。

优选的，所述获取待处理文本的关键词集合包括：

获取所述待处理文本的特征词，并获取所述特征词的第一参数和第二参数，所述第一参数表示利用ATF*PSF算法得到的所述特征词在所述待处理文本中的频率信息，所述第二参数表示利用TextRank算法得到的所述特征词在所述待处理文本中的重要程度；

根据所述特征词的第一参数和第二参数选取所述待处理文本的关键词集合。

本发明实施例还提供了一种文摘生成装置，所述装置包括：关键词集合获取单元、目标句子获取单元、关键词确定单元、第一相似度确定单元和判断单元；

其中，所述关键词集合获取单元，用于获取待处理文本的关键词集合，并分别计算所述关键词集合中各个关键词的权重，所述关键词用于表达所述待处理文本的内容，所述关键词的权重表示所述关键词在所述待处理文本中的重要程度；

所述目标句子获取单元，用于以句子为单位对所述待处理文本进行划分，得到目标句子；

所述关键词确定单元，用于确定所述目标句子中包含的关键词；

所述第一相似度确定单元，用于根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度；

所述判断单元，用于根据所述目标句子的第一相似度得到所述目标句子是否能够加入文摘的判断结果。

优选的，所述装置还包括：语义相关度确定单元，和/或目标句子位置确定单元；

所述语义相关度确定单元，用于确定所述目标句子与所述关键词集合之间的语义相关度；

所述目标句子位置确定单元，用于确定所述目标句子在所述待处理文本中的位置；

所述第一相似度确定单元，具体用于根据所述目标句子与所述关键词集合之间的语义相关度和所述目标句子在所述待处理文本中的位置的至少其一，以及所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度。

优选的，所述语义相关度单元确定单元包括：分词单元、词相似度计算单元和语义相关度确定子单元；

其中，所述分词单元，用于对所述目标句子进行分词，得到各个特征词；

所述词相似度计算单元，用于分别计算所述关键词集合中各个关键词与所述目标句子的各个特征词之间的词相似度；

所述语义相关度确定子单元，用于根据所述关键词集合中各个关键词与所述目标句子的各个特征词之间的词相似度，利用加权二部图的最大权重匹配算法来得到所述目标句子与所述关键词集合之间的语义相关度。

优选的，所述装置还包括：

第二相似度获取单元，用于获取所述目标句子与已加入文摘的文摘句之间的第二相似度；

所述判断单元，具体用于根据所述目标句子的第一相似度和所述第二相似度得到所述目标句子是否能够加入文摘的判断结果。

优选的，所述第二相似度获取单元，具体用于：

获取所述目标句子与所述已加入文摘的文摘句的重合词，并计算所述重合词的权重，所述重合词的权重表示所述重合词在所述文本中的重要程度，根据所述目标句子中包含的重合词的数量和重合词的权重，得到所述目标句子与已加入文摘的文摘句之间的第二相似度。

优选的，所述第二相似度获取单元，具体用于：

获取所述目标句子与所述已加入文摘的文摘句的重合词，并计算所述重合词的权重，所述重合词的权重表示所述重合词在所述文本中的重要程度；获取所述目标句子与所述已加入文摘的文摘句之间的语义相似度；根据所述目标句子中包含的重合词的数量和重合词的权重，以及所述目标句子与所述已加入文摘的文摘句之间的语义相似度，得到所述目标句子与已加入文摘的文摘句之间的第二相似度。

本发明通过获取待处理文本的关键词集合，并分别计算所述关键词集合中各个关键词的权重，以句子为单位对所述待处理文本进行划分，得到目标句子，确定所述目标句子中包含的关键词，并根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度，根据所述目标句子的第一相似度得到所述目标句子是否能够加入文摘的判断结果，实现了从所述待处理文本的句子中选取部分句子得到文摘的目的。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例一提供的一种文摘生成方法的流程图；

图2为本发明实施例一中计算所述目标句子与所述关键词集合的语义相关度的流程图；

图3为本发明实施例一中Kuhn-Munkras算法原理示意图；

图4为本发明实施例二提供的一种文摘生成方法的流程图；

图5为本发明实施例二中计算第二相似度的流程图；

图6为本发明实施例三提供的一种文摘生成装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

参见图1，该图为本发明实施例一提供的一种文摘生成方法的流程图。

本实施例提供的文摘生成方法包括如下步骤：

步骤S101：获取待处理文本的关键词集合，并分别计算所述关键词集合中各个关键词的权重。

所述待处理文本可以是关于任何题材的文本，其所用语言可以是中文、英文或其他语言。所述待处理文本的关键词属于含义完整且独立的词汇，用于表达所述待处理文本的内容。例如，在一篇关于“2016年国内经济形势分析”的待处理文本中，所述关键词可能包括“经济”“物价”“投资”“贸易”“融资”“政策”等。从词性来讲，所述关键词可以是名词、动词、形容词等，本发明不做具体限定。所述关键词集合中的关键词可以是预先指定的，也可以通过一定的方法从所述待处理文本中选取得到，至于具体如何选取，将在后文详细阐述，此处不再细说。所述关键词集合中关键词的数量可以是一个，也可以是多个，本发明不做具体限定。

所述关键词的权重表示所述关键词在所述待处理文本中的重要程度。计算关键词权重的方式有很多种，例如，可以采用所述关键词在所述待处理文本中出现的次数(即词频)作为所述关键词的权重；再例如，所述关键词的权重还可以为tf-idf(term frequency–inverse document frequency，词频-逆向文件频率)值。tf-idf值综合考虑了一个关键词在所述待处理文本中每句话出现的次数以及在整个所述待处理文本中出现的次数，在表达关键词在所述待处理文本中的重要程度时，比前一种方式更为准确。

步骤S102：以句子为单位对所述待处理文本进行划分，得到目标句子。

在本实施例中，所述待处理文本文件格式可以是.txt、.doc等能够从中提取句子的格式。

本实施例可以通过表示句子的结束的标点符号(例如句号、问号、感叹号等)，来对所述待处理文本进行划分，得到目标句子。

步骤S103：确定所述目标句子中包含的关键词，并根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度。

所述目标句子包含关键词的含义是指所述目标句子中出现了与所述关键词集合中的关键词一模一样的词。例如，若所述关键词集合中存在有关键词“圣诞”，那么若所述目标句子中出现了“圣诞”这个词，则认为所述目标句子包含所述关键词。

本实施例综合考虑目标句子中包含的关键词的数量和关键词的权重，根据二者得到所述目标句子的第一相似度。具体的，可以将所述目标句子中包含的关键词的权重之和，与包含的关键词的数量的乘积，作为所述目标句子的第一相似度。例如，假设目标句子A包含3个关键词，各个关键词的权重分别是0.1、0.2和0.1，目标句子B仅包含一个关键词，该关键词的权重为0.5。目标句子A的第一相似度为(0.1+0.2+0.1)×3＝1.2，大于目标句子B的第一相似度0.5×1＝0.5，因此目标句子A加入文摘的可能性要高于目标句子B。由此可见，综合考虑关键词的权重和数量得到的目标句子的第一相似度，来表示所述目标句子能够代表待处理文本的程度更加准确。当然，可以理解的是，上述举例得到所述第一相似度的方式并不构成对本发明的限定，本领域技术人员可以自行设计。

步骤S104：根据所述目标句子的第一相似度得到所述目标句子是否能够加入文摘的判断结果。

具体的，可以计算所有对所述待处理文本划分得到的目标句子的第一相似度，并按照第一相似度从大到小的顺序选择前N个目标句子加入文摘；或者，也可以判断所述目标句子的第一相似度是否大于或等于某个阈值，若是，则将所述目标句子加入文摘等。

本实施例通过获取待处理文本的关键词集合，并分别计算所述关键词集合中各个关键词的权重，以句子为单位对所述待处理文本进行划分，得到目标句子，确定所述目标句子中包含的关键词，并根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度，根据所述目标句子的第一相似度得到所述目标句子是否能够加入文摘的判断结果，实现了从所述待处理文本的句子中选取部分句子得到文摘的目的。。

此外，在实际应用中，所述待处理文本中可能包含有关键词的简称、缩略语、近义词等与关键词在语义上相近的词，这些词由于种种原因没有被选为关键词，为了得到更加准确的目标句子的第一相似度，除了考虑目标句子中包含的关键词，还需要考虑这些在语义上相近的词对于目标句子与所述关键词集合之间相关度的贡献。比如，假设关键词为“北京大学”和“教育”，那么若所述目标句子C出现了一次“北大”和一次“教育”，那么我们认为该目标句子C比仅出现一次“教育”的目标句子D与上述两个关键词的相似度更高，因为“北京大学”和“北大”是在语义上是有相似性的。

在本实施例中，可以采用加权二部图的最大匹配算法来计算所述目标句子与所述关键词集合之间的语义相关度。当然，该方法并不构成对本发明的限定。

参见图2，计算所述目标句子与所述关键词集合的语义相关度的过程如下：

步骤S201:将所述目标句子进行分词，得到各个特征词。

所述特征词为含义完整且独立的词汇。分词可以利用现有技术的手段，此处不再赘述。在实际应用中，在分词之后，还可以去停用词，即将停用词去除。不同的用户对停用词的定义可能有不同，但通常指的是一些没有什么实际含义的功能词，例如“的”“呢”“了”“the”“that”“this”等。去掉停用词的目的是为了提高特征词的质量和计算效率。

步骤S202：分别计算所述关键词集合中各个关键词与所述目标句子的各个特征词之间的词相似度。

为了计算各个特征词与各个关键词之间的词相似度，首先我们可以为所述关键词集合中的每个关键词和所述目标句子中的每个特征词均分别构建对应的词向量。词向量的构建方法为公知技术，例如采用工具word2vec中的CBOW模型或Skip-gram模型，此处不再详述。在构建了词向量后，采用余弦算法，分别计算任意一个关键词的词向量和任意一个特征词的词向量之间的夹角，根据该夹角得到该关键词和该特征词之间的词相似度。其中，夹角越大，表示关键词和特征词之间的词相似度越低；夹角越小，表示关键词和特征词之间的词相似度越高。根据词向量之间的夹角得到词相似度的方法有很多，简单的例如计算词向量之间夹角的余弦值，用该余弦值来作为二者的词相似度。

步骤S203：根据所述关键词集合中各个关键词与所述目标句子的各个特征词之间的词相似度，利用加权二部图的最大权重匹配算法来得到所述目标句子与所述关键词集合之间的语义相关度。

二部图模型(Bipartite Model)又称二分图模型，是图论(Graph Theory)中的一种特殊模型。图论中的图是由若干给定的点及连接两点的线所构成的图形，这种图形通常用来描述某些事物之间的某种特定关系，用点代表事物，用连接两点的线表示相应两个事物间具有这种关系。如果一个图的顶点可以分为两个集合X和Y，图的所有边一定是有一个顶点属于集合X，另外一个顶点属于集合Y，则该图为二部图。加权二部图是指每条边都有对应的权重。二部图或加权二部图常用在解决任务分配的问题，但是发明人突破常规思维，将加权二部图应用在文摘生成领域中，具体应用在目标句子和关键词集合之间的语义相关度的计算中。在本实施例中，集合X中的各个顶点表示所述目标句子中的特征词，集合Y中的各个顶点表示关键词集合中的各个关键词，边对应的权重即为特征词与关键词之间的词相似度。

加权二部图G＝<X,E,Y>中包含边集E的子集M称为G的一个匹配，其中边集E中的任意两条边都没有公共顶点。若子集M中边集E的总权重在所有匹配中权重最大，则将该子集M称为最大权重匹配。对于加权二部图来讲，计算最大权重匹配的算法通常采用Kuhn-Munkras算法。

下面以举例的方式介绍Kuhn-Munkras算法的原理。参见图3，假设Wi1和Wi2分别为目标句子中的两个特征词，属于集合X；Wj1、Wj2和Wj3均为关键词，属于集合Y；Wi1、Wi2、Wj1、Wj2和Wj3之间的连线表示边。该加权二部图的所有匹配包括：Wi1-Wj1和Wi2-Wj3、Wi1-Wj2和Wi2-Wj3以及Wi1-Wj3和Wi2-Wj1。其中，匹配Wi1-Wj1和Wi2-Wj3中Wi1-Wj1的权重为4，Wi2-Wj3的权重为8，总权重为12；匹配Wi1-Wj2和Wi2-Wj3中Wi1-Wj2的权重为5，Wi2-Wj3的权重为8，总权重为13；匹配Wi1-Wj3和Wi2-Wj1中Wi1-Wj3的权重为6，Wi2-Wj1的权重为3，总权重为9。所以，该加权二部图的最大权重匹配为Wi1-Wj2和Wi2-Wj3，目标句子与关键词的语义相关度为13。

在得到每个目标句子对应的语义相关度后，根据所述目标句子与所述关键词集合之间的语义相关度，以及所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度。例如，所述第一相似度Sim₁可以为aF_overlap+bF_sim，其中F_overlap为所述目标句子与关键词集合的重合度(即前面提到的仅根据所述目标句子中包含的关键词的数量和关键词的权重得到的第一相似度)，所述F_sim为所述目标句子与关键词集合的语义相关度，a为与F_overlap对应的权重，b为与F_sim对应的权重，a≥0,b≥0,且a+b＝1。

除了考虑所述目标句子与关键词集合之间的语义相关度，还可以考虑目标句子在所述待处理文本中的位置。发明人发现，目标句子在所述待处理文本中的位置越靠前，越有可能表达所述待处理文本的中心思想，因此，在判断所述目标句子是否能够加入文摘时，可以将所述目标句子在所述待处理文本中的位置考虑进来，作为其中一个要素之一。

例如，可以通过如下参数F_pos来体现目标句子的位置：

F_pos＝1-logi/logn

其中i为目标句子在待处理文本中的序号，n为所述待处理文本的目标句子总数。可以发现，i值越大，F_pos值越小；i值越小，F_pos值越大。

所述第一相似度Sim₁可以仅关于F_overlap和F_pos，也可以同时考虑F_overlap、F_pos和F_sim，若是后者，所述第一相似度Sim₁可以为aF_overlap+bF_sim+cF_pos，其中c为与F_pos对应的权重，a≥0,b≥0,c≥0且a+b+c＝1。

若所述F_overlap、F_pos和F_sim其中任意一个计算得到的值不在0-1范围内，则可以通过如下公式进行归一化处理，以更符合对这三个值赋予权重来计算第一相似度Sim₁的要求：

F(S_i)表示与目标句子S_i对应的需要归一化的参数，Min(F)为所有目标句子中所述需要归一化参数的最小值，Max(F)为所有目标句子中所述需要归一化参数的最大值，所述F_normalize(S_i)为与所述目标句子S_i对应的归一化后的参数。

举个例子，假设所有目标句子对应的F_overlap的值在10-100范围内，与目标句子S_i对应的F_overlap为20，所有目标句子对应的F_overlap的最大值为100，最小值为10，那么与所述目标句子对应的归一化后的F_overlap值为

本实施例通过综合考虑所述目标句子与关键词集合之间的重合度、语义相关度，以及目标句子在所述待处理文本中的位置，使得根据目标句子的第一相似度生成的文摘较为准确，较能代表所述待处理文本的内容。

实施例二

实施例一仅依据所述目标句子的第一相似度来判断目标句子是否能够加入文摘，但是这种方式得到的文摘可能会包含多个含义极为相似的句子，为了避免这种情况出现，本实施例在考虑目标句子与关键词的相似程度的基础上，进一步考虑目标句子与已经加入到文摘中的文摘句之间的相似程度，以降低一些与文摘句极为相似的目标句子加入文摘的可能性。

参见图4，该图为本发明实施例二提供的一种文摘生成方法的流程图。

本实施例提供的文摘生成方法包括如下步骤：

步骤S301：获取待处理文本的关键词集合，并分别计算所述关键词集合中各个关键词的权重。

所述关键词用于表达所述待处理文本的内容，所述关键词的权重表示所述关键词在所述待处理文本中的重要程度。

步骤S302：以句子为单位对所述待处理文本进行划分，得到目标句子。

步骤S303：确定所述目标句子中包含的关键词，并根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度。

当然，如前文所述，所述第一相似度还可以根据所述目标句子与所述关键词集合之间的语义相关度和所述目标句子在所述待处理文本中的位置的至少其一，以及所述目标句子中包含的关键词的数量和关键词的权重得到。

步骤S304：获取所述目标句子与已加入文摘的文摘句之间的第二相似度。

在本发明中，所述目标句子指的是所述待处理文本中待判断是否加入到文摘的句子。在实际应用中，若所述目标句子为对所述待处理文本进行划分得到的句子集合中第一相似度最高的句子，则可以将该目标句子加入文摘作为首个文摘句，其余句子仍然为目标句子。那么除了表达与关键词集合相近程度的第一相似度，这些目标句子是否能加入到文摘的第二个指标为表达与文摘句相似度的第二相似度。若所述第二相似度较高，则需要降低所述目标句子加入文摘的可能性；若所述第二相似度较低，则可以增加所述目标句子加入文摘的可能性，通过这样一种方式提高文摘的内容丰富度，减少文摘句发生内容重复的概率。

计算第二相似度的方法与计算第一相似度的方法类似，在计算第二相似度时，可以仅考虑所述目标句子和所述已加入文摘的文摘句的重合程度，也可以同时考虑重合程度和语义相近程度。参见图5，下面是具体步骤：

步骤S3041：获取所述目标句子与所述已加入文摘的文摘句的重合词，并计算所述重合词的权重，所述重合词的权重表示所述重合词在所述文本中的重要程度。

在本实施例中，所述目标句子与所述文摘句的重合度，可以根据所述目标句子和所述文摘句之间的重合词的权重得到。为了更加准确，优选的，所述重合度根据所述重合词的权重和数量得到。例如，将所述目标句子中包含的重合词的权重之和，与包含的重合词的数量的乘积，作为所述目标句子与已加入文摘的文摘句之间的重合度。

所述重合词是指所述目标句子中包含的、且出现在所述文摘句中的特征词。所述重合词包括但不限于上文提到的关键词。所述重合词的权重可以是所述重合词的tf-idf值。计算所述目标句子与所述文摘句的重合度的方式和计算所述目标句子与所述关键词集合的重合度的方式基本相同，只要将所述文摘句中的特征词看成是所述关键词集合中的各个关键词即可，此处不再赘述。

步骤S3042：获取所述目标句子与所述已加入文摘的文摘句之间的语义相似度。

同理，计算所述目标句子与所述文摘句之间的语义相似度，与计算所述目标句子与所述关键词之间的语义相似度的方法也基本相同，只要将所述文摘句中的特征词看成是所述关键词集合中的各个关键词即可，此处也不再赘述。

步骤S3043：根据所述目标句子中包含的重合词的数量和重合词的权重，以及所述目标句子与所述已加入文摘的文摘句之间的语义相似度，得到所述目标句子与已加入文摘的文摘句之间的第二相似度。

在本实施例中，所述第二相似度综合考虑了所述目标句子中包含的重合词的数量和重合词的权重，以及所述目标句子与所述已加入文摘的文摘句之间的语义相似度，以使所述第二相似度更好的表达所述目标句子与文摘句之间的相似度。当然可以理解的是，在实际应用中，仅考虑二者其一也是可以的。

步骤S305：根据所述目标句子的第一相似度和所述第二相似度得到所述目标句子是否能够加入文摘的判断结果。

本实施例综合考虑所述目标句子与所述文摘句的重合度以及语义相似度，得到所述目标句子与所述文摘句之间的第二相似度，所述第二相似度表示所述目标句子与所述文摘句的相似度。

具体的，根据所述第一相似度和所述第二相似度可以得到所述目标句子的分值：

其中，所述MMR(D_i)表示目标句子D_i的分值，Q表示关键词集合，Sim₁(D_i,Q)表示所述目标句子的第一相似度。Sim₂(D_i,D_j)表示目标句子D_i与文摘句D_j之间的第二相似度，表示目标句子D_i与所有文摘句之间的第二相似度的最大值。S表示所述已加入文摘的摘要句。λ表示Sim₁(D_i,Q)的权重值。

通过该公式可以看出，所述目标句子的分值与第一相似度呈正相关关系，与第二相似度呈负相关关系。当得到所述目标句子的分值后，根据该分值判断所述目标句子是否能够加入文摘。例如，若所述目标句子的分值大于某个阈值，则将所述目标句子加入该文摘，否则不加入。再例如，将所有目标句子的分值计算出来，按照分值由高到低的顺序，提取分值最高的前N个目标句子加入文摘。

下面介绍如何获取待处理文本的关键词集合。现有技术在确定待处理文本的关键词时，首先将所述待处理文本进行分词处理，得到各个特征词，然后，根据所述特征词在所述待处理文本出现的频率信息来确定所述待处理文本的关键词。具体算法可以例如为ATF(Average Term Frequency，平均词频)*PSF(Proportional Sentence Frequency，比例句子频率)算法。其中的ATF指的是特征词在待处理文本的各个句子中出现的平均频率；PSF指的是包含该特征词的句子占整篇待处理文本句子总数的比例。

具体计算公式如下：

其中，w_i表示第i个特征词，ATF*PSF(w_i)为特征词w_i对应的ATF*PSF值，N表示待处理文本句子的个数；n_i表示待处理文本中包含特征词w_i的句子数量，tf_ij表示特征词w_i在句子j中的词频。

在该公式中，包含特征词w_i的句子数量的多少表示该特征词反映待处理文本主题的程度，PSF值越大，表示该特征词w_i越能反映主题。由于句子越长，特征词在句子中出现的次数可能会越多，如果单纯以一个特征词在一个句子中出现的次数来衡量该特征词在该句子中的重要程度是不准确的。例如，假设特征词A在字数为20的句子E中出现两次，在字数为10的句子F里出现一次。如果不考虑句子长度，则特征词A在句子E和句子F中的重要程度分别为2和1，但特征词A在两个句子中的重要程度应该是相同的。为了降低句子长度对词频的影响，在本实施例中，优选将所述特征词在每个句子的词频进行归一化，即：

其中，n为句子j中包含的特征词的总个数。

通过将特征词在每个句子的词频进行归一化，弱化了句子长度对词频的影响，使得特征词在所述待处理文本出现的频率信息更为准确。

进一步，本实施例不仅考虑特征词在待处理文本中出现的频率信息，还考虑特征词在待处理文本中的重要程度。具体的算法可以例如为TextRank算法。顾名思义，TextRank原本是用于对文本进行排序的算法，但是在本实施例中，用于对待处理文本中的关键词进行提取。TextRank定义一个窗口，该窗口的大小为m，每个特征词在与其前后距离在m以内的特征词之间具有连接关系，该连接关系称为边，且每个边的权重在本实施例中设置为1。通过迭代的方式可以计算每个特征词的重要程度，具体的计算公式如下：

等式左边WS(V_i)表示特征词V_i的重要程度分值(权重)，等式右边表示与特征词V_i相邻的每个特征词对特征词V_i的贡献度的加权求和。d是阻尼系数，一般取0.85(阻尼系数作用，使得链接循环中WS传递能够稳定延续，不至于中断或者无限放大)，w_ji表示特征词V_i和特征词V_j之间边的权重值，V_j∈S(V_i)表示与特征词V_i有连接关系的特征词V_j，V_k∈S(V_j)表示与特征词V_j有连接关系的特征词V_k。

在得到特征词w_i对应的ATF*PSF(w_i)(第一参数)以及WS(V_i)(第二参数)(特征词w_i和V_i表示同一个特征词)后，根据所述第一参数和第二参数选取所述待处理文本的关键词。例如，可以求所述第一参数和第二参数的均值，作为该特征词的权重，然后按照特征词权重由高到低的顺序选取前S个特征词作为关键词。

基于以上实施例提供的一种文摘生成方法，本发明实施例还提供了一种文摘生成装置，下面结合附图来详细说明其工作原理。

实施例三

参见图6，该图为本发明实施例三提供的一种文摘生成装置的结构框图。

本实施例提供的文摘生成装置包括：关键词集合获取单元101、目标句子获取单元102、关键词确定单元103、第一相似度确定单元104和判断单元105；

其中，所述关键词集合获取单元101，用于获取待处理文本的关键词集合，并分别计算所述关键词集合中各个关键词的权重，所述关键词用于表达所述待处理文本的内容，所述关键词的权重表示所述关键词在所述待处理文本中的重要程度；

所述目标句子获取单元102，用于以句子为单位对所述待处理文本进行划分，得到目标句子；

所述关键词确定单元103，用于确定所述目标句子中包含的关键词；

所述第一相似度确定单元104，用于根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度；

所述判断单元105，用于根据所述目标句子的第一相似度得到所述目标句子是否能够加入文摘的判断结果。

本实施例通过获取待处理文本的关键词集合，并分别计算所述关键词集合中各个关键词的权重，以句子为单位对所述待处理文本进行划分，得到目标句子，确定所述目标句子中包含的关键词，并根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度，根据所述目标句子的第一相似度得到所述目标句子是否能够加入文摘的判断结果，实现了从所述待处理文本的句子中选取部分句子得到文摘的目的。

可选的，所述装置还包括：语义相关度确定单元，和/或目标句子位置确定单元；

可选的，所述语义相关度单元确定单元包括：分词单元、词相似度计算单元和语义相关度确定子单元；

可选的，所述装置还包括：

可选的，所述第二相似度获取单元，具体用于：

当介绍本发明的各种实施例的元件时，冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外，还可以有其它元件。

需要说明的是，本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外，还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文摘生成方法，其特征在于，所述方法包括：

以句子为单位对所述待处理文本进行划分，得到目标句子；

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述确定所述目标句子与所述关键词集合之间的语义相关度包括：

对所述目标句子进行分词，得到各个特征词；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述获取所述目标句子与已加入文摘的文摘句之间的第二相似度包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述目标句子中包含的重合词的数量和重合词的权重，得到所述目标句子与已加入文摘的文摘句之间的第二相似度包括：

8.根据权利要求6或7所述的方法，其特征在于，所述获取所述目标句子与已加入文摘的文摘句之间的第二相似度还包括：

9.根据权利要求5所述的方法，其特征在于，所述方法还包括：

10.根据权利要求1所述的方法，其特征在于，所述获取待处理文本的关键词集合包括：