CN105989058A

CN105989058A - 一种汉语新闻摘要生成系统及方法

Info

Publication number: CN105989058A
Application number: CN201510063915.1A
Authority: CN
Inventors: 赵毅强; 许欢庆; 郭永福; 陈沛
Original assignee: Beijing Zhongsou Network Technology Co ltd
Current assignee: BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY CO., LTD.
Priority date: 2015-02-06
Filing date: 2015-02-06
Publication date: 2016-10-05

Abstract

本发明提供了一种汉语新闻摘要生成系统，该系统包括依次连接的前处理模块、打分模块和后处理模块；所述前处理模块接收待处理文档，所述打分模块获取前处理模块输出的句子并进行重要性打分，所述后处理模块根据打分结果确定新闻摘要。该系统以非监督的图算法为基础，以简单领域规则为辅助，能够快速阅读面向汉语新闻，自动生成新闻摘要。

Description

一种汉语新闻摘要生成系统及方法

技术领域

本发明涉及一种互联网领域的系统及方法，具体讲涉及一种汉语新闻摘要生成系统及方法。

背景技术

随着现代社会信息的爆炸式增长和信息获取途径的不断拓展，包括移动互联网的普及，人们通过互联网获得新闻越来越方便。然而由于被海量信息淹没，人们从互联网获取自己感兴趣的新闻的手段通常只有浏览标题(或简短摘要)，然后从感兴趣的标题入手，再详细了解新闻的内容。即便如此，在进入新闻(尤其是篇幅较大的新闻)的正文后，通常读者也会因文章内容冗长而在尚未通读全文的情况下中途退出。为此，有必要使用自动摘要技术为用户提供文章的一个精简版本，保留正文的大意，但又不超过用户阅读耐心的上限，从而改善用户的新闻阅读体验。目前，自动摘要主要采用从原文中抽取句子组成摘要的方式来实现(也有采用自然语言生成的方法，即把从文章中提取到的关键词语及语句，通过一些模板和连接词进行拼接，添加成分等来重新生成一篇文档，这种方式目前几乎没有使用，因效果和效率均不佳，且实现难度大)，这种方式可分为基于规则的方法和基于学习的方法，而基于学习的方法又可以分为基于监督学习的方法和基于非监督学习的方法。

基于规则的方法：主要将领域专家对该领域文档的结构和关键词等知识转化为规则，利用这些规则分析输入的文本，确定其最核心内容所在的段落及语句，选择这些语句并对其重新拼接，形成对该文档的摘要。另外，简单的取文章的前若干句或若干段作为摘要的方法也可以认为是基于规则的方法，不过这类方法如果所取句子太少则易损失信息，影响阅读体验，而如果取的内容太多，则又失去了摘要减少阅读篇幅的意义，也会影响阅读体验，因此很少使用。

基于监督学习的方法：使用人工或半人工方式构建一批所研究领域内的文档的语料(用专用标记在文中标出要出现在最终的摘要中的句子)，然后选取适当特征训练相应的分类器或序列标注器，再用训练好的分类器或序列标注器对新的文档的每个句子进行标注，将标为候选的句子取出后拼接成摘要。

基于非监督学习的方法：无需训练语料，直接使用某种启发式的打分机制(如tfidf、图算法等)为每个句子(或词)打分，以表名其在文章中的重要程度，选取分值最高的前若干个句子作为候选，将其拼接成摘要。对选词类的方法而言，则是选择分值最高的若干词作为文章的关键词，再使用这些关键词以一定的策略选择句子(如按含有关键词的数量等)，之后拼接所选句子成为摘要。

上述三种方法分别有其优缺点，具体如下：

基于规则的可扩展性较差，因为所使用的规则大都领域相关性很高，某领域效果较好的系统几乎无法应用于其他领域。该方法成本也很高，为了达到一定的精度要求，需要获取大量的领域专家的知识并对其进行精心整理。

基于监督学习的方法尽管能够更容易地捕捉更多细节，达到较好的精度，但其可扩展性也不高，因为不同领域内的规律也不尽相同，而对一个新的领域构建语料库是一个非常耗时耗力的工作。

基于非监督学习的方法因其算法简洁，无需人工知识整理以及构建语料库，因此具有很好的可扩展性，一个领域中应用成熟的方案非常易于移植到其他领域。但往往由于算法过于追求普适性而忽略领域相关的细节，导致抽取结果内容基本涵盖了文章主旨，但却缺少必要的连接句，导致可读性下降。

因此，需要提供一种改进的汉语新闻摘要生成系统及方法。

发明内容

为克服上述现有技术的不足，本发明提供一种汉语新闻摘要生成系统及方法。

实现上述目的所采用的解决方案为：

一种汉语新闻摘要生成系统，其改进之处在于：所述系统包括依次连接的前处理模块、打分模块和后处理模块；

所述前处理模块接收待处理文档，所述打分模块获取前处理模块输出的句子并进行重要性打分，所述后处理模块根据打分结果确定新闻摘要。

进一步的，所述前处理模块根据切分规则切分所述待处理文档的段落粒度和句子粒度，并处理句子的词法。

进一步的，所述打分模块计算全文句子的重要性，确定重要性分值。

进一步的，所述打分模块采用基于图的算法确定所述重要性分值，按所述重要性分值进行降序排序，构建全文句子的图结构，确定图的边的权重表示句子两两之间的相关程度。

进一步的，采用词语共现率作为所述权重。

进一步的，所述后处理模块根据摘要生成规则选择所述新闻摘要的句子，确定所述新闻摘要。

进一步的，所述摘要生成规则包括：

所述新闻摘要中句子满足合理长度、保证句子可读性和将新闻类材料文档的第一句加入新闻摘要。

进一步的，所述后处理模块确定所述新闻摘要包括以下步骤：

I、根据句子重要性分值对句子进行降序排序；

II、过滤已属于候选句集合和不规范句子；

III、扩展经过过滤的合法句子；

IV、判断当前候选集合中句子的长度是否超过预定的摘要长度上限，若超过则停止，否则返回步骤I。

一种汉语新闻摘要生成方法，其改进之处在于：所述方法包括以下步骤：

步骤一、接收待处理文档；

步骤二、根据切分规则切分所述待处理文档，并处理句子的词法；

步骤三、计算全文句子的重要性，确定重要性分值；

步骤四、根据摘要生成规则选择所述新闻摘要的子句，确定所述新闻摘要。

进一步的，所述步骤三中，采用基于图的算法确定所述重要性分值，按所述重要性分值进行降序排序，构建全文句子的图结构，确定图的边的权重表示句子两两之间的相关程度；

采用词语共现率作为所述权重。

进一步的，所述步骤四中，根据摘要生成规则选择所述新闻摘要的子句，确定所述新闻摘要，包括以下步骤：

I、根据句子重要性分值对句子进行降序排序；

II、过滤已属于候选句集合和不规范句子；

III、扩展经过过滤的合法句子；

进一步的，所述摘要生成规则包括：

与现有技术相比，本发明具有以下有益效果：

1、本发明提供的系统及方法以非监督的图算法为基础，以简单领域规则为辅助，能够快速阅读面向汉语的新闻，自动生成新闻摘要。

2、本发明提供的系统及方法由于引入可添加简单领域规则的前处理模块和后处理模块，使得领域内文档的摘要的连贯性得到提高，从而增强了摘要的可读性；

3、本发明提供的系统及方法由于领域规则并不复杂，只起辅助作用，而以非监督的图算法为基础，可非常容易地扩展到其他领域，因此具有较高的可扩展性。

4、本发明提供的系统及方法以非监督学习为基础并辅以少量简单规则的汉语新闻的实现摘要的自动生成，既保证高可扩展性，方便应用于其他领域(如博客内容的摘要等)，且本发明的系统实现自动生成，无需耗费大量人工成本，又能够保证摘要具有较大的信息量和较高的连贯性，为人们快速阅读新闻主旨提供支持。

附图说明

图1为本实施例中汉语新闻摘要生成系统示意图；

图2为本实施例中前处理模块处理流程图；

图3为本实施例中打分模块处理流程图；

图4为本实施例中后处理模块处理流程图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的详细说明。

如图1所示，图1为本实施例中汉语新闻摘要生成系统示意图；本实施例中，汉语新闻摘要生成系统包括：前处理模块、打分模块和后处理模块。

前处理模块、打分模块和后处理模块依次连接。前处理模块用于接收待处理文档；打分模块用于获取前处理模块处理后输出的句子，并进行重要性打分；后处理模块根据打分模块输出的打分结果确定新闻摘要。

如图2-4，分别为本实施例中前处理模块、打分模块、后处理模块的处理流程图；结合图2-4对上述前处理模块、打分模块和后处理模块做如下说明。

①、前处理模块：用于根据切分规则切分所述待处理文档，并处理句子的词法。

“粒度”(granularity)指信息单元的相对大小或粗糙程度。各种不同的粗细程度包括：杂志的议题、文章、段落及句子等。

本实施例中，前处理模块根据相关规则对所述待处理文档进行段落粒度和句子粒度的切分。

相关规则包括：文章分段字符规则、段落长度限制规则、句子结束标记规则等。

分段字符规则包括：如换行符前的内容是否包含句子结束标记来确定该换行是否为段落结束等。

段落长度限制规则：不同系统中可对段落长度进行不同长度限值。

句子结束标记规则：不同系统中可运用不同的分隔符认定为句子的结束标记，如句号、感叹号等。

文档切分过程具体如下：

根据段落规则切分段落，如采用分段字符规则；再对每段内容进行句子切分，如采用各类句子结束标记、句内括号、引号等的配对情况等。

词法处理过程具体如下：

采用分词工具将句子切分为词后，再根据停用词表去掉停用词，将句子转换为词序列的形式，即形成词向量以便后续相似度的计算处理。

常用的分词工具有，je-analysis-1.5.3(极易中文分词)、paoding-analyzer.jar(庖丁分词)、IKAnalyzer3.0、imdict-chinese-analyzer、ictclas4j等。

停用词：在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据或文本之前或之后会自动过滤掉某些字或词，这些字或词被称为停用词。

停用词为人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。实际应用中，根据各个不同系统可制定不同的停用词表。

②、打分模块：用于计算全文句子的重要性，确定重要性分值。

打分模块采用基于图的算法确定所述重要性分值，按所述重要性分值进行降序排序，构建全文句子的图结构，确定图的边的权重表示句子两两之间的相关程度。

首先，需确定任意两个句子之间的相似度用于计算重要性分值。具体方法如下：

i.构建并初始化相似度矩阵：

方法为：根据句子数目n构建一个n*n的矩阵，并初始化每个元素为0；

ii.计算相似度并填充相似度矩阵：

方法为：根据上述形成的词向量计算对两个句子间的词语共现率，将计算获得的词语共现率填入相似度矩阵，所述词语共现率作为句子之间关系的权重。

所述词语共现率即为两句中相同词数量与两句总词数的比，可以有其他变形。

然后，使用page rank算法(图算法)计算全文句子的重要性，确定重要性分值。具体方法如下：

i.生成关系矩阵：负责生成图算法所需的图，确定所有句子之间的关系，即相似矩阵，该相似句子表示句子之间关系的权重。

可采用位置关系表示，如：句子a在句子b的前面，则句子a与句子b之间的关系为1，否则为0。

ii.计算page rank得分：根据关系图即相似矩阵，运用page rank算法对每个句子的page rank得分进行迭代求解，直到达到稳定状态(每个句子得分的变化小于阈值)或迭代次数超过迭代阈值。

③、后处理模块：用于根据摘要生成规则选择所述新闻摘要的子句，确定所述新闻摘要。

首先，对运用page rank算法计算获得的句子进行降序排序。

然后，根据从排序过后的句子中按顺序筛选出候选句。具体过程如下：

i、过滤不规范的句子，如：出现多个空白却没有任何结束标记；

ii、过滤已经属于候选句集合的规范句子；

iii、扩展经过过滤的合法句子：当前合法句子的前后句，如果在同一段落内，且长度不低于一个最小阈值(本实施例中最小阈值采用3个汉字字符)，则认为此上下文句子也是候选；

将当前候选句子及其上下文中的句子按顺序结合，形成候选句子(长度符合规则)，从而避免选出的句子太少，以及句子连贯性不好。

iv、判断长度要求：如果当前候选集合中句子的长度已经超过预先设定的摘要的长度上限(参考值)，则停止算法运行。

后处理模块确定新闻摘要的过程中需要符合一定的新闻摘要生成规则。本实施例中，采用如下规则：

(1)、考虑到在实际运用中，对于新闻类题材内容，文档第一句几乎总是较为重要的，因此，本实施例的方法中，采用硬规则将第一句加入摘要。

(2)、新闻摘要中句子的合理长度。

(3)、保证句子可读性；为保证句子可读性，可对不连续句子前后上下文中的句子进行保留。

本发明还提供了一种汉语新闻摘要生成方法，该方法包括以下步骤：

步骤一、接收待处理文档。

步骤二、根据切分规则切分所述待处理文档，并处理句子的词法。

步骤三、计算全文句子的重要性，确定重要性分值。

步骤二中，根据切分规则切分所述待处理文档，并处理句子的词法。

文档切分过程具体如下：

词法处理过程具体如下：

采用分词工具将句子切分为词后，再根据停用词表去掉停用词，将句子转换为词序列的形式，即形成词向量，以便后续相似度的计算处理。

步骤三中，采用基于图的算法确定所述重要性分值，按所述重要性分值进行降序排序，构建全文句子的图结构，确定图的边的权重表示句子两两之间的相关程度。

i.构建并初始化相似度矩阵：

ii.计算相似度并填充相似度矩阵：

方法为：根据上述形成的词向量计算对两个句子间的词语共现率，进一步将获得的词语共现率填入相似度矩阵，所述词语共现率作为句子之间关系的权重。

词语共现率等于两句中相同词数量与两句总词数的比，可以有其他变形。

步骤四中，根据摘要生成规则选择所述新闻摘要的子句，确定所述新闻摘要。

首先，对运用page rank算法计算获得的句子进行降序排序。

ii、过滤已经属于候选句集合的规范句子；

本实施例中，确定新闻摘要还需满足一定的规则，例如包括如下规则：

(2)、新闻摘要中句子的合理长度。

(3)、为保证句子可读性而对不连续句子前后上下文中的句子进行保留所需要的分值的阈值。

最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在申请待批的权利要求保护范围之内。

Claims

1.一种汉语新闻摘要生成系统，其特征在于：所述系统包括依次连接的前处理模块、打分模块和后处理模块；

2.如权利要求1所述的一种汉语新闻摘要生成系统，其特征在于：所述前处理模块根据切分规则切分所述待处理文档的段落粒度和句子粒度，并处理句子的词法。

3.如权利要求1所述的一种汉语新闻摘要生成系统，其特征在于：所述打分模块计算全文句子的重要性，确定重要性分值。

4.如权利要求3所述的一种汉语新闻摘要生成系统，其特征在于：所述打分模块采用基于图的算法确定所述重要性分值，按所述重要性分值进行降序排序，构建全文句子的图结构，确定图的边的权重表示句子两两之间的相关程度。

5.如权利要求4所述的一种汉语新闻摘要生成系统，其特征在于：采用词语共现率作为所述权重。

6.如权利要求1所述的一种汉语新闻摘要生成系统，其特征在于：所述后处理模块根据摘要生成规则选择所述新闻摘要的句子，确定所述新闻摘要。

7.如权利要求6所述的一种汉语新闻摘要生成系统，其特征在于：所述摘要生成规则包括：

8.如权利要求5所述的一种汉语新闻摘要生成系统，其特征在于：所述后处理模块确定所述新闻摘要包括以下步骤：

I、根据句子重要性分值对句子进行降序排序；

II、过滤已属于候选句集合和不规范句子；

III、扩展经过过滤的合法句子；

9.一种汉语新闻摘要生成方法，其特征在于：所述方法包括以下步骤：

步骤一、接收待处理文档；

步骤三、计算全文句子的重要性，确定重要性分值；

10.如权利要求9所述的一种汉语新闻摘要生成方法，其特征在于：所述步骤三中，采用基于图的算法确定所述重要性分值，按所述重要性分值进行降序排序，构建全文句子的图结构，确定图的边的权重表示句子两两之间的相关程度；

采用词语共现率作为所述权重。

11.如权利要求9所述的一种汉语新闻摘要生成方法，其特征在于：所述步骤四中，根据摘要生成规则选择所述新闻摘要的子句，确定所述新闻摘要，包括以下步骤：

I、根据句子重要性分值对句子进行降序排序；

II、过滤已属于候选句集合和不规范句子；

III、扩展经过过滤的合法句子；

12.如权利要求11所述的一种汉语新闻摘要生成方法，其特征在于：所述摘要生成规则包括：