CN105868175A

CN105868175A - 摘要生成方法及装置

Info

Publication number: CN105868175A
Application number: CN201510882825.5A
Authority: CN
Inventors: 赵九龙
Original assignee: LeTV Information Technology Beijing Co Ltd
Current assignee: LeTV Information Technology Beijing Co Ltd
Priority date: 2015-12-03
Filing date: 2015-12-03
Publication date: 2016-08-17
Also published as: WO2017092316A1; US20170161259A1

Abstract

本公开实施例提供了一种摘要生成方法及装置，所述方法包括以下步骤：将待处理文档划分为多个语句组合，每个所述语句组合中均包含预设数量个语句；计算每个所述语句组合中所有语句的权重值；针对每个语句组合，选取所述语句组合中权重值最大的语句作为候选语句；将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要。本公开提供的该方法能够通过自动根据文档内容生成摘要，方便用户快速通过阅读文摘获取所需信息，帮助人们了解文档概况，并根据文档概况确定是否应该详读原文。

Description

摘要生成方法及装置

技术领域

本公开涉及计算机技术，尤其涉及摘要生成方法及装置。

背景技术

随着互联网的普及、以及信息获取途径的增加，每天都有不短涌现的海量信息。所以目前的新闻一般都设有新闻标题，新闻标题是在新闻正文内容前面，对新闻内容加以概括或评价的简短文字，作用是划分、组织、揭示、评价新闻内容、吸引读者阅读。

但是由于目前网络上新闻数据比较多，某些媒体为吸引用户眼球，以获取更大的用户的浏览量，某些新闻标题可能会设置的过分夸大，而且与文章内容无多大关联，用户在读取完这样的新闻之后可能并没有得到需要的信息，浪费用户时间及精力。

发明内容

本公开提供一种摘要生成方法及装置，用以解决现有技术中新闻标题与新闻内容不符，用户通过读取这样的新闻可能无法获取到所需内容的技术问题。

根据本公开实施例的第一方面，提供一种摘要生成方法，包括：

将待处理文档划分为多个语句组合，每个所述语句组合中均包含预设数量个语句；

计算每个所述语句组合中所有语句的权重值；

针对每个语句组合，选取所述语句组合中权重值最大的语句作为候选语句；

将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要。

可选地，所述计算每个所述语句组合中所有语句的权重值包括：

将文档中的文字分割为多个词语；

为每个词语标注词性；

将每个语句中分割得到的多个词语中词性为预设词性的词语，以及，位于预设黑名单中的词语删除；

计算所述语句组合中每两个语句的相似度；

利用所述相似度计算每个所述语句组合中所有语句的权重值。

可选地，所述将待处理文档划分为多个语句组合包括：

将待处理文档的内容按照预设标点划分为多个语句；

针对每个语句，按照语句在所述待处理文档中的排序，选取所述语句以及所述语句之后的预设数量个连续的语句作为一个语句组合。

可选地，所述将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要包括：

将每个语句组合中最大的权重值对应的语句确定为目标语句；

将预设数量个目标语句确定为候选语句。

获取部分所述语句组合对应的所述候选语句在待处理文档中的排序；

按照所述排序生成所述待处理文档的摘要。

根据本公开实施例的第二方面，提供一种摘要生成装置，包括：

划分模块，用于将待处理文档划分为多个语句组合，每个所述语句组合中均包含预设数量个语句；

计算模块，用于计算每个所述语句组合中所有语句的权重值；

选取模块，用于针对每个语句组合，选取所述语句组合中权重值最大的语句作为候选语句；

组合模块，用于将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要。

可选地，所述计算模块，包括：

分割子模块，用于将文档中的文字分割为多个词语；

标注子模块，用于为每个词语标注词性；

删除子模块，用于将每个语句中分割得到的多个词语中词性为预设词性的词语，以及，位于预设黑名单中的词语删除；

相似度计算子模块，用于计算所述语句组合中每两个语句的相似度；

权重计算子模块，用于利用所述相似度计算每个所述语句组合中所有语句的权重值。

可选地，所述划分模块，包括：

划分子模块，用于将待处理文档的内容按照预设标点划分为多个语句；

选取子模块，用于针对每个语句，按照语句在所述待处理文档中的排序，选取所述语句以及所述语句之后的预设数量个连续的语句作为一个语句组合。

可选地，所述组合模块，包括：

第一确定子模块，用于将每个语句组合中最大的权重值对应的语句确定为目标语句；

第二确定子模块，用于将预设数量个目标语句确定为候选语句。

可选地，所述组合模块，包括：

获取子模块，用于获取部分所述语句组合对应的所述候选语句在待处理文档中的排序；

生成子模块，用于按照所述排序生成所述待处理文档的摘要。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开通过将待处理文档划分为多个语句组合，每个所述语句组合中均包含预设数量个语句；计算每个所述语句组合中所有语句的权重值；针对每个语句组合，选取所述语句组合中权重值最大的语句作为候选语句；可以将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要。

本公开提供的该方法能够通过自动根据文档内容生成摘要，方便用户快速通过阅读文摘获取所需信息，帮助人们了解文档概况，并根据文档概况确定是否应该详读原文。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种摘要生成方法的流程图；

图2是图1中步骤S102的流程图；

图3是图1中步骤S101的流程图；

图4是图1中步骤S104的流程图；

图5是图1中步骤S104的流程图；

图6是根据一示例性实施例示出的一种摘要生成装置的装置图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

随着互联网的普、信息获取途径的增加，每天都有不短涌现的海量信息。为了从这些海量信息中快速、准确地获取有用信息，文档的自动摘要处理变得越来越重要。为此，如图1所示，在本公开的一个实施例中，提供一种摘要生成方法，包括以下步骤。

在步骤S101中，将待处理文档划分为多个语句组合，每个所述语句组合中均包含预设数量个语句。

在该步骤中，可以按照句号、叹号、问号等表示长停顿的标点来将文档划分为多个语句，并且可以将预设数量个语句组合成一个语句组合，在本公开实施例中每个语句组合中可以包含五个语句。

在步骤S102中，计算每个所述语句组合中所有语句的权重值。

在该步骤中，可以利用TextRank公式计算语句在待处理文档中的权重，并且可以利用BM25算法来计算两个语句之间的相似度。

在步骤S103中，针对每个语句组合，选取所述语句组合中权重值最大的语句作为候选语句。

例如：如果存在一个语句组合M中包含5个语句A、B、C、D和E的话，在经过TextRank公式计算A、B、C、D和E五个语句在待处理文档中的权重之后，得到C语句权重最大，则可以选取C作为候选语句，同理，如果存在一个语句组合N中包含5个语句F、G、H、I和J,则可以选取计算后权重最大的F语句作为候选语句，以此类推，除了候选语句C和F，还可以得到候选语句P、Q、R、S等。

在步骤S104中，将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要。

在该步骤中，当候选语句为C、F、P、Q、R和S时，可以从中选取权重最大的预设数量个作为待处理文档的摘要，例如：CPQRS、CFPQS等等。

本公开能够通过自动根据文档内容生成摘要，方便用户快速通过阅读文摘获取所需信息，帮助人们了解文档概况，并根据文档概况确定是否应该详读原文。

如图2所示，在本公开的又一实施例中，所述步骤S102包括以下步骤。

在步骤S201中，将文档中的文字分割为多个词语。

在步骤S202中，为每个词语标注词性。

在步骤S201和步骤S202中，可以将待处理文档利用分词器来对文本进行分词，实现人名、地名等实体识别，得到词语以及其词性。

在步骤S203中，将每个语句中分割得到的多个词语中词性为预设词性的词语，以及，位于预设黑名单中的词语删除。

在该步骤中，可以根据预设词性和预设黑名单，来过滤掉属于预设词性的词语以及位于预设黑名单中的词语，例如：当预设词性包括名字时，可以将待处理文档中出现的人名删除，当预设黑名单中包括地名时，可以将待处理文档中的地名删除等。

在步骤S204中，计算所述语句组合中每两个语句的相似度。

在该步骤中，可以利用BM25算法计算两个语句之间的相似度，BM25算法如下：

S c o r e (Q, d) = Σ_{i}^{n} W_{i} \cdot R (q_{i}, d)

在本公开实施例中，Q和d所代表的是两个句子，qi是句子中的一个词，Wi表示qi的权重，R(qi，d)表示语素qi与待处理文档d的相关性得分，这样Score(Q,d)就是Q和d两个句子的相似度。

在步骤S205中，利用所述相似度计算每个所述语句组合中所有语句的权重值。

在该步骤中，可以利用TextRank公式计算语句的权重值，TextRank公式如下：

W S (V_{i}) = (1 - d) + d * \underset{V_{j} &Element; I n (V_{i})}{Σ} \frac{w_{j i}}{\underset{V_{k} &Element; O u t (V_{j})}{Σ} w_{j k}} W S (V_{j})

其中，等式左边WS(Vi)表示一个句子的权重(WS是weight_sum的缩写)，右侧的求和表示每个相邻句子对本句子的贡献程度，求和的分子wji表示两个句子的相似程度，分母又是一个weight_sum，WS(Vj)代表上次迭代j的权重。In(vi)表示指向结点vi的结点集合，Out(vj)表示结点vi所指向的结点的集合，d为阻尼系数(DampingFac-tor)，一般取值为0.85，整个公式是一个迭代的过程。

本公开实施例提供的该方法，能够把每篇文章作为一个整体，体现出句子间的关联性，方便计算权重，并且能够兼顾语句间的相似性，避免提取出的摘要中出现重复的语句。

如图3所示，在本公开的又一实施例中，所述步骤S101包括以下步骤。

在步骤S301中，将待处理文档的内容按照预设标点划分为多个语句。

在步骤S302中，针对每个语句，按照语句在所述待处理文档中的排序，选取所述语句以及所述语句之后的预设数量个连续的语句作为一个语句组合。

例如：划分语句后的文档包括A语句、B语句、C语句、D语句、E语句、F语句和G语句，则可以将A语句、B语句、C语句、D语句和E语句作为一个第一语句组合，将B语句、C语句、D语句、E语句和F语句作为第二语句组合，将C语句、D语句、E语句、F语句和G语句作为第三语句组合。

本公开实施例提供的该方法，能够将每个语句分别与其相邻的语句构成语句组合，这样计算的句子之间的相似性及权重值将更加准确。

如图4所示，在本公开的又一个实施例中，所述步骤S104包括以下步骤。

在步骤S401中，在将每个语句组合中最大的权重值对应的语句确定为目标语句。

在步骤S402中，将预设数量个目标语句确定为候选语句。

在该步骤中，可以将所有目标语句按照权重值大小进行排序后，选取其中权重值最大的预设数量个目标语句作为候选语句。

本公开实施例能够将每个语句组合中“最重要”即权重值最大的语句确定为目标语句，并将所有目标语句进行排序后选取“最重要”的语句作为候选语句，能够准确的选取出文档中最重要的候选语句，以便根据这些候选语句生成摘要，计算量小，且选取范围更全面。

如图5所示，在本公开的又一实施例中，所述步骤S104包括以下步骤。

在步骤S501中，获取部分所述语句组合对应的所述候选语句在待处理文档中的排序。

在该步骤中，可以获取部分语句组合在文档中的位置，或者在文档中的先后顺序。

在步骤S502中，按照所述排序生成所述待处理文档的摘要。

在该步骤中，可以按照部分语句组合在文档中的先后顺序生成文档的摘要。

本公开实施例提供的该方法，能够将最终选取的候选语句按照其在文档中的先后顺序进行显示，方便用户理解。

如图6所示，在本公开的又一实施例中，提供一种摘要生成装置，包括：划分模块601、计算模块602、选取模块603和组合模块604。

划分模块601，用于将待处理文档划分为多个语句组合，每个所述语句组合中均包含预设数量个语句。

计算模块602，用于计算每个所述语句组合中所有语句的权重值。

选取模块603，用于针对每个语句组合，选取所述语句组合中权重值最大的语句作为候选语句。

组合模块604，用于将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要。

在本公开的又一实施例中，所述计算模块602，包括：分割子模块、标注子模块、删除子模块、相似度计算子模块和权重计算子模块。

分割子模块，用于将文档中的文字分割为多个词语。

标注子模块，用于为每个词语标注词性。

删除子模块，用于将每个语句中分割得到的多个词语中词性为预设词性的词语，以及，位于预设黑名单中的词语删除。

相似度计算子模块，用于计算所述语句组合中每两个语句的相似度。

在本公开的又一实施例中，所述划分模块601，包括：划分子模块和选取子模块。

划分子模块，用于将待处理文档的内容按照预设标点划分为多个语句。

在本公开的又一实施例中，所述组合模块604，包括：第一确定子模块和第二确定子模块。

在本公开的又一实施例中，所述组合模块604，包括：获取子模块和生成子模块。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由所附的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种摘要生成方法，其特征在于，包括：

计算每个所述语句组合中所有语句的权重值；

2.根据权利要求1所述的摘要生成方法，其特征在于，所述计算每个所述语句组合中所有语句的权重值包括：

将文档中的文字分割为多个词语；

为每个词语标注词性；

计算所述语句组合中每两个语句的相似度；

3.根据权利要求1所述的摘要生成方法，其特征在于，所述将待处理文档划分为多个语句组合包括：

将待处理文档的内容按照预设标点划分为多个语句；

4.根据权利要求1所述的摘要生成方法，其特征在于，所述将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要包括：

将预设数量个目标语句确定为候选语句。

5.根据权利要求1所述的摘要生成方法，其特征在于，所述将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要包括：

按照所述排序生成所述待处理文档的摘要。

6.一种摘要生成装置，其特征在于，包括：

7.根据权利要求6所述的摘要生成装置，其特征在于，所述计算模块，包括：

分割子模块，用于将文档中的文字分割为多个词语；

标注子模块，用于为每个词语标注词性；

8.根据权利要求6所述的摘要生成装置，其特征在于，所述划分模块，包括：

9.根据权利要求6所述的摘要生成装置，其特征在于，所述组合模块，包括：

10.根据权利要求6所述的摘要生成装置，其特征在于，所述组合模块，包括：