CN105760546B

CN105760546B - 互联网新闻摘要的自动生成方法和装置

Info

Publication number: CN105760546B
Application number: CN201610154212.4A
Authority: CN
Inventors: 石忠民; 江云辉
Original assignee: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Current assignee: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority date: 2016-03-16
Filing date: 2016-03-16
Publication date: 2019-07-30
Anticipated expiration: 2036-03-16
Also published as: CN105760546A

Abstract

本发明公开了一种互联网新闻摘要的自动生成方法和装置，方法包括：对新闻的正文进行分句，并保留句子长度在预设长度范围内的句子，记为保留句子；分别计算每个保留句子与新闻标题的相似度Similarity(s)，以及每个保留句子的权重Weight(s)；根据公式Rank(s)＝Weight(s)/Similarity(s)计算每个保留句子的排序分，其中，Rank(s)为保留句子的排序分；选取排序分最高的保留句子作为该新闻的摘要。本发明实现自动识别一篇新闻中最能体现该新闻价值的句子，并将其作为该新闻的摘要。

Description

互联网新闻摘要的自动生成方法和装置

技术领域

本发明涉及计算机信息处理领域，具体涉及一种互联网新闻摘要的自动生成方法和装置。

背景技术

随着移动互联网技术的发展，如今，人们越来越多地通过手机等终端设备浏览新闻，由于受手机设备屏幕小的限制，受众阅读碎片化导致新闻文本叙事碎片化。以往，人们消费新闻的时间、场景相对比较固定，比如在晚饭时观看电视新闻，在早饭时浏览报纸新闻或听早间广播等，到了移动互联网时代，受众新闻消费呈现出高度的离散性，手机等便携移动终端的使用和公共休闲场所或是公共交通工具上无线网络的覆盖使得新闻受众能在任何时间、任何地点获取新闻。而这些获取新闻的时间通常是碎片化的，长则一个小时短则几分钟，如果一则消息不能在短短的几秒内抓住受众的注意力，那么移动网络的刷新功能会立刻用其它信息覆盖这条消息。

摘要是一篇新闻浓缩的精华，是最能体现出该新闻的核心内容部分，因此，如何根据一篇新闻自动地生成摘要是值得研究的。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种互联网新闻摘要的自动生成方法和装置，实现自动识别一篇新闻中最能体现该新闻价值的句子，并将其作为该新闻的摘要。

为解决上述问题，本发明所采用的技术方案如下：

方案一：

互联网新闻摘要的自动生成方法，包括以下步骤：

S1、对新闻的正文进行分句，并保留句子长度在预设长度范围内的句子，记为保留句子；

S2、分别计算每个保留句子与新闻标题的相似度Similarity(s)，以及每个保留句子的权重Weight(s)；

S3、根据公式Rank(s)＝Weight(s)/Similarity(s)计算每个保留句子的排序分，其中，Rank(s)为保留句子的排序分；

S4、选取排序分最高的保留句子作为该新闻的摘要。

优选的，在步骤S3和S4之间还包括以下步骤：

S31、以排序分高低选取前N个保留句子记为待筛选摘要，并分别判断待筛选摘要中是否包含预设的情感词，若是，执行步骤S32，若否，执行步骤S4；其中，N>1；

S32、判断是否只有一个包含预设的情感词的待筛选摘要，若是，则将该待筛选摘要作为该新闻的摘要，若否，则执行步骤S33；

S33、选取排序分最高的待筛选摘要作为该新闻的摘要。

优选的，预设的情感词包括带有情感的副词、连词以及观点词。

优选的，计算保留句子与新闻标题的相似度Similarity(s)的步骤如下：

S21、基于哈工大同义词词林对保留句子和新闻标题进行同义词转换；

S22、针对同义词转换后的保留句子和新闻标题采用Jaccard距离计算保留句子和新闻标题的相似度Similarity(s)。

方案二：

互联网新闻摘要的自动生成装置，其特征在于，包括以下模块：

分句模块：用于对新闻的正文进行分句，并保留句子长度在预设长度范围内的句子，记为保留句子；

第一计算模块：用于分别计算每个保留句子与新闻标题的相似度Similarity(s)，以及每个保留句子的权重Weight(s)；

第二计算模块：用于根据公式Rank(s)＝Weight(s)/Similarity(s)计算每个保留句子的排序分，其中，Rank(s)为保留句子的排序分；

第一摘要选取模块：用于选取排序分最高的保留句子作为该新闻的摘要。

优选的，在第二计算模块和第一摘要选取模块之间还包括以下模块：

第一判断模块：用于以排序分高低选取前N个保留句子记为待筛选摘要，并分别判断待筛选摘要中是否包含预设的情感词，若是，执行第二判断模块，若否，执行第一摘要选取模块；其中，N1>1；

第二判断模块：用于判断是否只有一个包含预设的情感词的待筛选摘要，若是，则将该待筛选摘要作为该新闻的摘要，若否，则执行第二摘要选取模块；

第二摘要选取模块：用于选取排序分最高的待筛选摘要作为该新闻的摘要。

优选的，在第一计算模块中，计算保留句子与新闻标题的相似度Similarity(s)的步骤如下：

相比现有技术，本发明的有益效果在于：通过避免与标题相似、权重高和包含情感词三个条件，实现自动识别一篇新闻中最能体现该新闻价值的句子，并将其作为该新闻的摘要。

附图说明

图1为本发明的互联网新闻摘要的自动生成方法的流程图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述：

参考图1，一种互联网新闻摘要的自动生成方法，新闻摘要为该新闻内容的浓缩，目的是在用户阅读了新闻标题后，进一步了解新闻相关的重要信息，以便决定是否进一步阅读新闻的详细内容。用户阅读互联网新闻大多利用手机，由于手机屏幕小，为了使有限的文字传递给用户的信息最大化的同时，尽可能减少重复信息，因此，新闻摘要的自动生成方法包括以下步骤：

S1、对新闻的正文进行分句，并保留句子长度在预设长度范围内的句子，记为保留句子。通过该步骤可以限定句子的长度，从而限定了标题的长度。

S2、分别计算每个保留句子与新闻标题的相似度Similarity(s)，以及每个保留句子的权重Weight(s)。其中，引入保留句子与标题的相似度是为了使最后选取的摘要与标题的相似度低，而句子的权重则表明该句子在该新闻中的价值，通常是句子包含的关键词越多，则其价值越大，利用TextRank算法识别新闻中的关键词。TextRank算法是在Google核心算法PageRank算法的基础上衍生出来的。

其中，计算保留句子与新闻标题的相似度Similarity(s)的步骤如下：

S22、针对同义词转换后的保留句子和新闻标题采用Jaccard距离计算保留句子和新闻标题的相似度Similarity(s)。即将保留句子和新闻标题中的词组的交集除以词组的并集得到相似度Similarity(s)。

S3、根据公式Rank(s)＝Weight(s)/Similarity(s)计算每个保留句子的排序分，其中，Rank(s)为保留句子的排序分。通过上述公式，排序分越高，则对应的句子越可能成为摘要。

S4、选取排序分最高的保留句子作为该新闻的摘要。

进一步的，在步骤S3和S4之间还包括以下步骤：

S33、选取排序分最高的待筛选摘要作为该新闻的摘要。

其中，一般来说，预设的情感词包括具有强烈情感的副词、连词以及观点词。例如，连词包括不过、但是、于是、此外等等；副词包括相当、完美、几乎、绝对等等；观点词包括察觉、发现、认为、主张、猜想、表示、以为等等。

本发明的方法优点在于：通过避免与标题相似、权重高和包含情感词三个条件，实现自动识别一篇新闻中最能体现该新闻价值的句子，并将其作为该新闻的摘要。

对应于上述的互联网新闻摘要的自动生成方法，本发明还公开了一种互联网新闻摘要的自动生成装置，其特征在于，包括以下模块：

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.互联网新闻摘要的自动生成方法，其特征在于，包括以下步骤：

S3、根据公式Rank(s)＝Weight(s)/Similarity(s)计算每个保留句子的排序分，以排序分高低选取前N个保留句子记为待筛选摘要，并分别判断待筛选摘要中是否包含预设的情感词，其中，Rank(s)为保留句子的排序分；

S31、若待筛选摘要中包含预设的情感词，执行步骤S32，若待筛选摘要中不包含预设的情感词，选取排序分最高的保留句子作为该新闻的摘要；其中，N>1；

S33、选取排序分最高的保留句子作为该新闻的摘要；

预设的情感词包括带有情感的副词、连词以及观点词。

2.根据权利要求1所述的互联网新闻摘要的自动生成方法，其特征在于，计算保留句子与新闻标题的相似度Similarity(s)的步骤如下：

3.互联网新闻摘要的自动生成装置，其特征在于，包括以下模块：

第一计算模块：用于计算每个保留句子与新闻标题的相似度Similarity(s)，以及每个保留句子的权重Weight(s)；

第一判断模块：用于以排序分高低选取前N个保留句子记为待筛选摘要，并分别判断待筛选摘要中是否包含预设的情感词，若是，执行第二判断模块，若否，选取排序分最高的保留句子作为该新闻的摘要；其中，N1>1；

第二摘要选取模块：用于选取排序分最高的保留句子作为该新闻的摘要；

预设的情感词包括带有情感的副词、连词以及观点词。

4.根据权利要求3所述的互联网新闻摘要的自动生成装置，其特征在于，在第一计算模块中，计算保留句子与新闻标题的相似度Similarity(s)的步骤如下：