CN105787095A

CN105787095A - 互联网新闻的自动生成方法和装置

Info

Publication number: CN105787095A
Application number: CN201610154211.XA
Authority: CN
Inventors: 石忠民; 江云辉
Original assignee: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Current assignee: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority date: 2016-03-16
Filing date: 2016-03-16
Publication date: 2016-07-20
Anticipated expiration: 2036-03-16
Also published as: CN105787095B

Abstract

本发明公开了一种互联网新闻的自动生成方法和装置，方法包括以下步骤：利用分布式爬虫从特定的新闻网站抓取新闻页面的源代码；分别从各个新闻页面的源代码中提取新闻信息，并分别将各个新闻信息封装成相同结构的结构化新闻；对获取到的结构化新闻进行识别，得到相互独立的新闻事件，每个新闻事件中包括多个属于同一事件的结构化新闻，且同一新闻事件中的每个结构化新闻分别表示不同的事件阶段；分别对新闻事件中的每个结构化新闻生成对应的新闻摘要；将新闻事件中的多个结构化新闻以发布时间为条件进行排序，排序后以各个结构化新闻所对应的新闻摘要生成事件脉络结构。本发明以时间为主线展现完整的新闻事件，让用户轻松了解事件的发展过程。

Description

互联网新闻的自动生成方法和装置

技术领域

本发明涉及计算机信息处理领域，具体涉及一种互联网新闻事件的自动生成方法和装置。

背景技术

随着移动互联网技术的发展，如今，人们越来越多地通过手机等终端设备浏览新闻，由于受手机设备屏幕小的限制，受众阅读碎片化导致新闻文本叙事碎片化。以往，人们消费新闻的时间、场景相对比较固定，比如在晚饭时观看电视新闻，在早饭时浏览报纸新闻或听早间广播等，到了移动互联网时代，受众新闻消费呈现出高度的离散性，手机等便携移动终端的使用和公共休闲场所或是公共交通工具上无线网络的覆盖使得新闻受众能在任何时间、任何地点获取新闻。而这些获取新闻的时间通常是碎片化的，长则一个小时短则几分钟，如果一则消息不能在短短的几秒内抓住受众的注意力，那么移动网络的刷新功能会立刻用其它信息覆盖这条消息。

互联网上的内容每天都处于快速的增长之中，这给搜索引擎带来了全新的挑战。不仅如此，广大用户的要求也日益严苛，他们要的不仅是准确的匹配结果，更是能够解决问题的答案。在日趋嘈杂的网络内容环境下，搜索引擎要更加聪明和智慧，要更加理解不同用户、不同关键词背后真正的意图，以及用户所希望获得的内容，并通过技术创新和资源整合，给予清晰的呈现。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种互联网新闻的自动生成方法和装置，以时间为主线展现完整的新闻事件，让用户再不用自己梳理，就能轻松了解整个事件的发展过程，从而有效提高获取信息的效率，并引导用户进行深度阅读。

为解决上述问题，本发明所采用的技术方案如下：

方案一：

互联网新闻的自动生成方法，包括以下步骤：

S1、利用分布式爬虫从特定的新闻网站抓取新闻页面的源代码；

S2、分别从各个新闻页面的源代码中提取新闻信息，并分别将各个新闻信息封装成相同结构的结构化新闻；

S3、对获取到的结构化新闻进行识别，得到相互独立的新闻事件，每个新闻事件中包括多个属于同一事件的结构化新闻，且同一新闻事件中的每个结构化新闻分别表示不同的事件阶段；

S4、分别对新闻事件中的每个结构化新闻生成对应的新闻摘要；

S5、将新闻事件中的多个结构化新闻以发布时间为条件进行排序，排序后以各个结构化新闻所对应的新闻摘要生成事件脉络结构。

优选的，所述结构化新闻至少包括标题、正文和发布时间。

优选的，对获取到的结构化新闻进行识别包括下子步骤：

S31、分别对每个结构化新闻进行关键词识别，得到每个结构化新闻所对应的关键词集合；

S32、根据关键词集合的相似度对每个结构化新闻进行分组，得到多个新闻分组，属于同一新闻分组的结构化新闻为相同新闻；

S33、根据新闻分组的相似度对每个新闻分组进行聚类，并将每个聚类中的每个新闻分组中发布时间最早的结构化新闻提取出来，属于同一聚类中被提取出来的结构化新闻组成对应的新闻聚类；

S34、分别判断每个新闻聚类是否满足预设的事件条件，若是，则将该新闻聚类记为新闻事件，若否，则丢弃该新闻聚类。

优选的，在步骤S31中，利用TextRank算法识别结构化新闻中的关键词，以权重大小顺序取前N个关键词组成该结构化新闻的关键词集合，其中，N>0。

优选的，在步骤S32中，采用以下步骤对每个结构化新闻进行分组：

S321、为第一个结构化新闻创建新闻分组，新闻分组中包括结构化新闻、关键词表和更新时间，其中，关键词表由新闻分组中每个结构化新闻中的关键词集合组成，取新闻分组中所有结构化新闻中最新的发布时间作为更新时间；

S322、将新增的当前结构化新闻中的关键词集合与符合时间条件的新闻分组中的关键词表进行比较，若比较相似度大于预设阈值，则将当前结构化新闻放入对应的新闻分组中；其中，时间条件是指当前结构化新闻的发布时间与新闻分组中的更新时间的时间差小于第一预设时间差；

S323、新闻分组中新增加结构化新闻后，则对应更新该新闻分组中的关键词表和更新时间。

优选的，在步骤S34中，所述事件条件包括以下三个条件：

条件1、新闻聚类中的所有结构化新闻之间的相同关键词的数量不小于预设数量；

条件2、新闻聚类中的结构化新闻的数量在预设数量范围内；

条件3、新闻聚类中的结构化新闻的最早发布时间和最新发布时间之间的时间差小于第二预设时间差；

若同时满足条件1、条件2和条件3，则满足事件条件。

优选的，在步骤S4中，结构化新闻生成对应的新闻摘要包括以下步骤：

S41、对该结构化新闻的正文进行分句，并保留句子长度在预设长度范围内的句子，记为保留句子；

S42、分别计算每个保留句子与标题的相似度Similarity(s)，以及每个保留句子的权重Weight(s)；

S43、根据公式Rank(s)＝Weight(s)/Similarity(s)计算每个保留句子的排序分，其中，Rank(s)为保留句子的排序分。

S44、选取排序分最高的保留句子作为该结构化新闻的摘要。

优选的，在步骤S43和S44之间还包括以下步骤：

S431、以排序分高低选取前N1个保留句子记为待筛选摘要，并分别判断待筛选摘要中是否包含预设的情感词，若是，执行步骤S432，若否，执行步骤S44；其中，N1>1；

S432、判断是否只有一个包含预设的情感词的待筛选摘要，若是，则将该待筛选摘要作为该结构化新闻的摘要，若否，则执行步骤S433；

S433、选取排序分最高的待筛选摘要作为该结构化新闻的摘要。

优选的，计算保留句子与标题的相似度Similarity(s)的步骤如下：

S421、基于哈工大同义词词林对保留句子和标题进行同义词转换；

S422、针对同义词转换后的保留句子和标题采用Jaccard距离计算保留句子和标题的相似度Similarity(s)。

方案二：

互联网新闻的自动生成装置，包括以下模块：

抓取模块：用于利用分布式爬虫从特定的新闻网站抓取新闻页面的源代码；

结构化模块：用于分别从各个新闻页面的源代码中提取新闻信息，并分别将各个新闻信息封装成相同结构的结构化新闻；

新闻事件识别模块：用于对获取到的结构化新闻进行识别，得到相互独立的新闻事件，每个新闻事件中包括多个属于同一事件的结构化新闻，且同一新闻事件中的每个结构化新闻分别表示不同的事件阶段；

摘要生成模块：用于分别对新闻事件中的每个结构化新闻生成对应的新闻摘要；

排序模块：用于将新闻事件中的多个结构化新闻以发布时间为条件进行排序，排序后以各个结构化新闻所对应的新闻摘要生成事件脉络结构。

优选的，所述结构化新闻至少包括标题、正文和发布时间。

优选的，在新闻事件识别模块中，对获取到的结构化新闻进行识别包括下子模块：

关键词识别模块：用于分别对每个结构化新闻进行关键词识别，得到每个结构化新闻所对应的关键词集合；

新闻分组生成模块：用于根据关键词集合的相似度对每个结构化新闻进行分组，得到多个新闻分组，属于同一新闻分组的结构化新闻为相同新闻；

新闻聚类生成模块：用于根据新闻分组的相似度对每个新闻分组进行聚类，并将每个聚类中的每个新闻分组中发布时间最早的结构化新闻提取出来，属于同一聚类中被提取出来的结构化新闻组成对应的新闻聚类；

新闻事件生成模块：用于分别判断每个新闻聚类是否满足预设的事件条件，若是，则将该新闻聚类记为新闻事件，若否，则丢弃该新闻聚类。

优选的，在关键词识别模块中，利用TextRank算法识别结构化新闻中的关键词，以权重大小顺序取前N个关键词组成该结构化新闻的关键词集合，其中，N>0。

优选的，在新闻分组生成模块中，采用以下步骤对每个结构化新闻进行分组：

优选的，在新闻事件生成模块中，所述事件条件包括以下三个条件：

条件2、新闻聚类中的结构化新闻的数量在预设数量范围内；

若同时满足条件1、条件2和条件3，则满足事件条件。

优选的，在摘要生成模块中，结构化新闻生成对应的新闻摘要包括以下子模块：

分句模块：用于对该结构化新闻的正文进行分句，并保留句子长度在预设长度范围内的句子，记为保留句子；

第一计算模块：用于分别计算每个保留句子与标题的相似度Similarity(s)，以及每个保留句子的权重Weight(s)；

第二计算模块：用于根据公式Rank(s)＝Weight(s)/Similarity(s)计算每个保留句子的排序分，其中，Rank(s)为保留句子的排序分。

第一摘要选取模块：用于选取排序分最高的保留句子作为该结构化新闻的摘要。

优选的，在第二计算模块和第一摘要选取模块之间还包括以下模块：

第一判断模块：用于以排序分高低选取前N1个保留句子记为待筛选摘要，并分别判断待筛选摘要中是否包含预设的情感词，若是，执行第二判断模块，若否，执行第一摘要选取模块；其中，N1>1；

第二判断模块：用于判断是否只有一个包含预设的情感词的待筛选摘要，若是，则将该待筛选摘要作为该结构化新闻的摘要，若否，则执行第二摘要选取模块；

第二摘要选取模块：用于选取排序分最高的待筛选摘要作为该结构化新闻的摘要。

优选的，在第一计算模块中，计算保留句子与标题的相似度Similarity(s)的步骤如下：

相比现有技术，本发明的有益效果在于：

通过在建立针对主流新闻网站进行信息抓取的基础上，自动识别新闻事件，并抽取事件生命周期中各个重要发展阶段的新闻内容，按照时间轴的组织方式完整、清晰、简洁地重现一个新闻事件的发展过程，即事件脉络。使用户在最短的时间里轻松掌握每个热点新闻事件的来龙去脉，极大地提高了获取信息的效率。特别是对手机用户而言，在方寸屏幕之上通过浏览事件脉络，在碎片化的时间内全面知晓事情的来龙去脉，实现对热点事件的快速阅读和深入了解，为手机用户带来前所未有的方便、快捷的阅读体验。

附图说明

图1为本发明的互联网新闻的自动生成方法的流程图。

图2为本发明的事件脉络结构及其展开示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述：

参考图1，一种互联网新闻的自动生成方法，包括以下步骤：

其中，在步骤S1中，采用分布式爬虫，可以把抓取任务拆分为多任务，分别部署在不同的服务器上进行抓取，提高信息的抓取效率。主要将国内主流新闻网站作为数据来源，包括新浪、网易、腾讯、凤凰网、人民网等互联网数据，可实现每5分钟抓取一次上述网站的最新新闻，基本涵盖了国内新闻领域的主要新闻内容。

在步骤S2中，提取了新闻网页源代码后，主要利用自然语言处理技术、语法语义分析技术从中提取新闻信息，提取新闻信息后封装成特定结构，形成结构化新闻，结构化新闻中至少包括标题、正文和发布时间，当然还可以包括作者等信息。

在步骤S3中，对获取到的结构化新闻进行识别包括下子步骤：

S31、分别对每个结构化新闻进行关键词识别，得到每个结构化新闻所对应的关键词集合。在该步骤中，利用TextRank算法识别结构化新闻中的关键词，以权重大小顺序取前N个关键词组成该结构化新闻的关键词集合，其中，N>0，TextRank算法是在Google核心算法PageRank算法的基础上衍生出来的。

S32、根据关键词集合的相似度对每个结构化新闻进行分组，得到多个新闻分组，属于同一新闻分组的结构化新闻为相同新闻。

其中，采用以下步骤对每个结构化新闻进行分组：

S321、为第一个结构化新闻创建新闻分组，新闻分组中包括结构化新闻、关键词表和更新时间，其中，关键词表由新闻分组中每个结构化新闻中的关键词集合组成，取新闻分组中所有结构化新闻中最新的发布时间作为更新时间。

S322、将新增的当前结构化新闻中的关键词集合与符合时间条件的新闻分组中的关键词表进行比较，若比较相似度大于预设阈值，则将当前结构化新闻放入对应的新闻分组中，若比较相似度小于预设阈值，则为当前结构化新闻新建一个新闻分组；其中，时间条件是指当前结构化新闻的发布时间与新闻分组中的更新时间的时间差小于第一预设时间差。时间条件的作用是避免将时间跨度过长的新闻放进一个新闻分组中，因为时间跨度过长的而且在后发布的新闻已经不算是新闻了。

例如，当前存在两个新闻分组，每个新闻分组中都有两个结构化新闻，则表示两个新闻分组之间是不相同的新闻，同一个新闻分组中的结构化新闻是相同的新闻。当前新增了一个结构化新闻，如果两个新闻分组的更新时间都符合时间条件，则该结构化新闻中的关键词集合分别与两个新闻分组中的关键词表进行相似度比较，相似度比较为现有算法，比较后该关键词集合与第一个新闻分组中的关键词表的相似度大于预设阈值，则认为该结构化新闻与第一个新闻分组中的结构化新闻为相同新闻。然后将该结构化新闻放入第一个新闻分组中，该结构化新闻的发布时间比第一个新闻分组中的结构化新闻的发布时间都晚，则将该结构化新闻的发布时间作为第一个新闻分组的更新时间。另外，该结构化新闻的关键词集合也合并进第一个新闻分组的关键词表中。

S33、根据新闻分组的相似度对每个新闻分组进行聚类，并将每个聚类中的每个新闻分组中发布时间最早的结构化新闻提取出来，属于同一聚类中被提取出来的结构化新闻组成对应的新闻聚类。

在该步骤中，聚类的技术可以是现有的，聚类后，每个聚类中一般都有多个新闻分组，而每个新闻分组中一般都有多个结构化新闻，实际上，同一新闻分组中的新闻都是相同新闻，因此，将每个新闻分组中发布时间最早的结构化新闻提取出来即可达到去重的效果，则形成的新闻聚类中就包括了多个互不相同的结构化新闻。

事件条件包括以下三个条件：条件1、新闻聚类中的所有结构化新闻之间的相同关键词的数量不小于预设数量；条件2、新闻聚类中的结构化新闻的数量在预设数量范围内；条件3、新闻聚类中的结构化新闻的最早发布时间和最新发布时间之间的时间差小于第二预设时间差；若同时满足条件1、条件2和条件3，则满足事件条件。其中，条件1的作用是起到了新闻聚焦的作用，避免出现过于宽泛的新闻范围；条件2的作用是避免一个新闻事件中的新闻过少或过多，过少通常是不完整的，过多则太臃肿；条件3的作用是避免一个新闻事件中的新闻之间的时间过渡过大，应当限定在一定的时间范围内，保证新闻的时效性。通过上述条件的设定，得到的新闻事件既能很好地反映整个事件的发展过程和时效性，也更加适合用户阅读。

在步骤S4中，新闻事件中的新闻摘要为该新闻内容的浓缩，目的是在用户阅读了新闻标题后，进一步了解新闻相关的重要信息，以便决定是否进一步阅读新闻的详细内容。用户阅读新闻大多利用手机，由于手机屏幕小，为了使有限的文字传递给用户的信息最大化的同时，尽可能减少重复信息，因此，结构化新闻生成对应的新闻摘要包括以下步骤：

S41、对该结构化新闻的正文进行分句，并保留句子长度在预设长度范围内的句子，记为保留句子。通过该步骤可以限定句子的长度，从而限定了标题的长度。

S42、分别计算每个保留句子与标题的相似度Similarity(s)，以及每个保留句子的权重Weight(s)。其中，引入保留句子与标题的相似度是为了使最后选取的摘要与标题的相似度低，而句子的权重则表明该句子在该新闻中的价值，通常是句子包含的关键词越多，则其价值越大。

其中，计算保留句子与标题的相似度Similarity(s)的步骤如下：

S422、针对同义词转换后的保留句子和标题采用Jaccard距离计算保留句子和标题的相似度Similarity(s)。即将保留句子和标题中的词组的交集除以词组的并集得到相似度Similarity(s)。

S43、根据公式Rank(s)＝Weight(s)/Similarity(s)计算每个保留句子的排序分，其中，Rank(s)为保留句子的排序分。通过上述公式，排序分越高，则对应的句子越可能成为摘要。

S44、选取排序分最高的保留句子作为该结构化新闻的摘要。

进一步的，在步骤S43和S44之间还包括以下步骤：

S431、以排序分高低选取前N1个保留句子记为待筛选摘要，并分别判断待筛选摘要中是否包含预设的情感词，若是，执行步骤S432，若否，执行步骤S44；其中，N1>1。

一般来说，预设的情感词包括具有强烈情感的副词、连词以及观点词。例如，连词包括不过、但是、于是、此外等等；副词包括相当、完美、几乎、绝对等等；观点词包括察觉、发现、认为、主张、猜想、表示、以为等等。

S432、判断是否只有一个包含预设的情感词的待筛选摘要，若是，则将该待筛选摘要作为该结构化新闻的摘要，若否，则执行步骤S433。

在步骤S5中，将新闻事件中的多个结构化新闻以发布时间为条件进行排序，一般是以时间倒序的方式对多个结构化新闻进行排序，排序后就能很完整地显示一个事件的发展过程，而最新的新闻排在最先也能够让用户首先了解到事件的最新情况。排序后将每个结构化新闻所对应的摘要生成事件脉络结构，则一个事件脉络结构表现出来的就是精简的信息，便于阅读。当然，事件脉络结构中还可以包括每个结构化新闻所对应的时间和图片。图2示出了事件脉络结构的其中一种表现，以及展开该事件脉络结构的过程。

通过上述的步骤，本发明的方法的优点在于：通过在建立针对主流新闻网站进行信息抓取的基础上，自动识别新闻事件，并抽取事件生命周期中各个重要发展阶段的新闻内容，按照时间轴的组织方式完整、清晰、简洁地重现一个新闻事件的发展过程，即事件脉络。使用户在最短的时间里轻松掌握每个热点新闻事件的来龙去脉，极大地提高了获取信息的效率。特别是对手机用户而言，在方寸屏幕之上通过浏览事件脉络，在碎片化的时间内全面知晓事情的来龙去脉，实现对热点事件的快速阅读和深入了解，为手机用户带来前所未有的方便、快捷的阅读体验。

对应于上述的互联网新闻的自动生成方法，本发明还公开了一种互联网新闻的自动生成装置，包括以下模块：

优选的，所述结构化新闻至少包括标题、正文和发布时间。

条件2、新闻聚类中的结构化新闻的数量在预设数量范围内；

若同时满足条件1、条件2和条件3，则满足事件条件。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.互联网新闻的自动生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的互联网新闻的自动生成方法，其特征在于，所述结构化新闻至少包括标题、正文和发布时间。

3.根据权利要求2所述的互联网新闻的自动生成方法，其特征在于，在步骤S3中，对获取到的结构化新闻进行识别包括下子步骤：

4.根据权利要求3所述的互联网新闻的自动生成方法，其特征在于，在步骤S31中，利用TextRank算法识别结构化新闻中的关键词，以权重大小顺序取前N个关键词组成该结构化新闻的关键词集合，其中，N>0。

5.根据权利要求3所述的互联网新闻的自动生成方法，其特征在于，在步骤S32中，采用以下步骤对每个结构化新闻进行分组：

6.根据权利要求3所述的互联网新闻的自动生成方法，其特征在于，在步骤S34中，所述事件条件包括以下三个条件：

条件2、新闻聚类中的结构化新闻的数量在预设数量范围内；

若同时满足条件1、条件2和条件3，则满足事件条件。

7.根据权利要求2所述的互联网新闻的自动生成方法，其特征在于，在步骤S4中，结构化新闻生成对应的新闻摘要包括以下步骤：

S43、根据公式Rank(s)＝Weight(s)/Similarity(s)计算每个保留句子的排序分，其中，Rank(s)为保留句子的排序分；

S44、选取排序分最高的保留句子作为该结构化新闻的摘要。

8.根据权利要求7所述的互联网新闻的自动生成方法，其特征在于，在步骤S43和S44之间还包括以下步骤：

9.根据权利要求7所述的互联网新闻的自动生成方法，其特征在于，计算保留句子与标题的相似度Similarity(s)的步骤如下：

10.互联网新闻的自动生成装置，其特征在于，包括以下模块：