CN111881277A

CN111881277A - 多维度高度可定制的新闻聚合方法

Info

Publication number: CN111881277A
Application number: CN202010732996.0A
Authority: CN
Inventors: 张国卫; 李学江; 郑有为
Original assignee: Xinhua Zhiyun Technology Co ltd
Current assignee: Xinhua Zhiyun Technology Co ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2020-11-03

Abstract

本发明公开了一种多维度高度可定制的新闻聚合方法，包含：获取若干网络媒体的新闻文献；对每一份新闻文献进行预处理；对每一份新闻文献进行结构化处理以定义新闻文献的多个检索字段；将结构化处理后的新闻文献存入数据库并构建索引；接收用户的配置信息，配置信息包含至少一个检索字段限定；根据用户设定的配置信息从数据库中检索符合条件的新闻文献；将匹配到的新闻文献发送至用户。本发明的有益之处在于提供的多维度高度可定制的新闻聚合方法，将多个网络媒体的新闻文献数据都聚集在一起进行结构化，定义新闻文献的检索字段，用户可以根据这些检索字段进行自定义配置，设定自己关注的新闻。

Description

多维度高度可定制的新闻聚合方法

技术领域

本发明涉及一种多维度高度可定制的新闻聚合方法。

背景技术

新闻聚合是指收集互联网各类媒体、网站(如今日头条、人民网、新华网等)的新闻和消息，然后以某种方式过滤筛选后呈现终端用户。

现有的新闻聚合的例子如各大资讯类app：今日头条、一点资讯、腾讯新闻和网易新闻等，主要提供了频道或者栏目订阅的功能，用户订阅后，可以进到相应栏目中查看相关的新闻。但只能查看订阅的该app下的文章，因此，数据来源不够丰富，预定的频道或者栏目粒度较粗，且不能自定义。

发明内容

为解决现有技术的不足，本发明提供了一种可以解决上述问题的多维度高度可定制的新闻聚合方法。

为了实现上述目标，本发明采用如下的技术方案：

一种多维度高度可定制的新闻聚合方法，包含以下步骤：

获取若干网络媒体的新闻文献；

对每一份新闻文献进行预处理；

对每一份新闻文献进行结构化处理以定义新闻文献的多个检索字段；

将结构化处理后的新闻文献存入数据库并构建索引；

接收用户的配置信息，配置信息包含至少一个检索字段限定；

根据用户设定的配置信息从数据库中检索符合条件的新闻文献；

将匹配到的新闻文献发送至用户。

进一步地，对每一份新闻文献进行结构化处理以定义新闻文献的多个检索字段的具体方法为：

提取新闻文献的文献来源、关键词和实体信息；

分析新闻文献得到新闻文献的情感指数和业务领域标签；

将文献来源、关键词、实体信息、情感指数和业务领域标签关联至对应的新闻文献将其作为新闻文献的检索字段。

进一步地，当网络媒体是社交媒体时，提取出的文献来源还包含发布账号；

用户在配置文献来源字段时，可以针对社交媒体设定若干具体的发布账号。

进一步地，关键词包含标题关键词和正文关键词；

用户在配置关键词字段时可以分别设定标题关键词字段和正文关键词字段。

进一步地，对每一份新闻文献进行结构化处理以定义新闻文献的多个检索字段的具体方法还包括：

分析新闻文献得到新闻文献的信息摘要；

提取信息摘要的摘要关键词并将摘要关键词关联至对应的新闻文献将其作为新闻文献的检索字段；

用户在配置关键词字段时可以分别设定标题关键词字段、正文关键词字段和摘要关键词字段。

进一步地，实体信息包含主要实体和次要实体；

用户在配置实体信息字段时可以分别设定主要实体字段和次要实体字段。

进一步地，经过分析得到的新闻文献的情感指数包含：正面情感、中性情感和负面情感；

用户在配置情感指数字段时可以从正面情感、中性情感和负面情感中选择至少一种。

进一步地，经过分析得到的新闻文献的情感指数为大于等于负100且小于等于100之间的具体数值；

用户在配置情感指数字段时可以设定一个或多个情感指数范围。

进一步地，经过分析得到的业务领域标签包含若干第一层级标签，每个第一层级标签还包含若干第二层级标签；

用户在配置业务领域标签字段时可以分别设定第一层级标签字段和对应的第二层级标签字段。

进一步地，对每一份新闻文献进行预处理的具体方法为：

对新闻文献的正文进行提纯；

对新闻文献进行去重，保留最优的一份。

本发明的有益之处在于提供的多维度高度可定制的新闻聚合方法，将多个网络媒体的新闻文献数据都聚集在一起进行结构化，定义新闻文献的检索字段，用户可以根据这些检索字段进行自定义配置，设定自己关注的新闻。

本发明的有益之处还在于提供的多维度高度可定制的新闻聚合方法，还对新闻文献进行摘要信息提取，并提取出摘要关键词，提高用户的检索信息的配置维度，使得检索结果更加精确。

本发明的有益之处还在于提供的多维度高度可定制的新闻聚合方法，在进行数据预处理时，对相似的文章进行去重处理，并且通过算法规则，保留最优的一份。可以减小后期新闻文献检索时的数据处理量。

附图说明

图1是本发明的多维度高度可定制的新闻聚合方法的示意图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

如图1所示为本发明的一种多维度高度可定制的新闻聚合方法，包含以下步骤：S1:获取若干网络媒体的新闻文献。S2:对每一份新闻文献进行预处理。S3:对每一份新闻文献进行结构化处理以定义新闻文献的多个检索字段。S4:将结构化处理后的新闻文献存入数据库并构建索引。S5:接收用户的配置信息，配置信息包含至少一个检索字段限定。S6:根据用户设定的配置信息从数据库中检索符合条件的新闻文献。S7:将匹配到的新闻文献发送至用户。通过以上步骤，将多个网络媒体的新闻文献数据都聚集在一起进行结构化，定义新闻文献的检索字段，用户可以根据这些检索字段进行自定义配置，设定自己关注的新闻。以下具体介绍上述步骤。

具体而言，首先获取网络媒体的新闻文献数据，具体的，可以通过爬虫爬取和向第三方购买的方式获取多种数据源的新闻文献。这些新闻文献覆盖了多个网络媒体，比如今日头条、网易新闻以及腾讯新闻等。具体的，网络媒体的个数可以根据实际需求进行选择。一般情况下，获取的新闻文献数据需要覆盖绝大多数媒体机构的新闻数据，确保数据的全面性。

获取到新闻文献后，首先对这些新闻文献进行预处理，预处理的具体方法为：

对新闻文献的正文进行提纯，对新闻文献的正文做去电头电尾、无意义前后缀处理。

再对新闻文献进行去重，保留最优的一份。具体的，使用文章判重算法，去除掉重复的新闻文献，重复的新闻文献只保留一篇。使用择优算法保留最优的文章，择优算法可以具体设定。如内容相似的文章，根据字数多少，网络媒体来源的权重等维度进行判定，进而选择一份最优的新闻文献进行保留。

对新闻文献进行预处理后，对每一份新闻文献进行结构化处理以定义新闻文献的多个检索字段。将结构化处理后的新闻文献存入数据库并构建索引。用户可以针对不同的字段进行检索配置，再根据用户的配置信息从数据库中搜索对应的新闻文献返回至用户。具体的，用户通过手持智能设备设定配置信息。将新闻文献返回至用户可以是将匹配到的新闻文献的标题列表返回至用户，在用户选择具体的新闻文献的标题时，向用户发送对应的新闻文献。

在本发明中，对每一份新闻文献进行结构化处理以定义新闻文献的多个检索字段的具体方法为：

提取新闻文献的文献来源、关键词和实体信息。分析新闻文献得到新闻文献的情感指数和业务领域标签。将文献来源、关键词、实体信息、情感指数和业务领域标签关联至对应的新闻文献将其作为新闻文献的检索字段。具体而言：

(1)文献来源是指发布该新闻文献的网络媒体。如，当前的这份新闻文献是由今日头条发布的，则，该新闻文献的文献来源为今日头条。当网络媒体是社交媒体时，提取出的文献来源还包含发布账号。比如，当前的新闻文献为新浪微博账号为12345678发布的文章，则该新闻文献的文献来源标注为：新浪微博-12345678。因此，当网络媒体是社交媒体时，用户在配置文献来源字段时，可以针对社交媒体设定若干具体的发布账号。

(2)基于新闻文献的标题和正文使用自然语言处理相关算法提取关键词。优选的是，关键词包含针对标题提取的标题关键词和针对正文提取的正文关键词。用户在配置关键词字段时可以分别设定标题关键词字段和正文关键词字段。

优选的是，对每一份新闻文献进行结构化处理以定义新闻文献的多个检索字段的具体方法还包括：分析新闻文献得到新闻文献的信息摘要。提取信息摘要的摘要关键词并将摘要关键词关联至对应的新闻文献将其作为新闻文献的检索字段。用户在配置关键词字段时可以分别设定标题关键词字段、正文关键词字段和摘要关键词字段。

可以理解的是，可以通过人工分析或算法分析，对当前的新闻文献进行信息摘要总结得到该新闻文献的信息摘要。信息摘要通过简短的文字概括了一份新闻文献的核心内容。用户在配置关键词字段时，还可以配置摘要关键词字段。从摘要关键词字段设定关键词，获得的结果更加精确。

(3)基于新闻文献的标题和正文使用算法提取实体信息。优选的，提取出的实体信息包含人物、机构、地域等主要实体以及景区、事件、地标、影视等次要实体。用户在配置实体信息字段时可以分别设定主要实体字段和次要实体字段。

(4)可以通过情感判定算法对新闻文献的标题和正文进行分析，得到该新闻文献的情感度。在本发明中，经过分析得到的新闻文献的情感指数包含：正面情感、中性情感和负面情感。用户在配置情感指数字段时可以从正面情感、中性情感和负面情感中选择至少一种。

作为另一种可选的实施方式，经过分析得到的新闻文献的情感指数为大于等于负100且小于等于100之间的具体数值。其中，负值表示负面情感，值越大表示负面情感越大。用户在配置情感指数字段时可以设定一个或多个情感指数范围。

(5)经过分析得到的业务领域标签包含若干第一层级标签，每个第一层级标签还包含若干第二层级标签。如，第一层标签为突发事件，与突发事件对应的第二层标签为：交通事故、洪涝灾害、火灾、台风、地震等。用户在配置业务领域标签字段时可以分别设定第一层级标签字段和对应的第二层级标签字段。

(6)对每一份新闻文献进行结构化处理以定义新闻文献的多个检索字段的具体方法还包括：

提取新闻文献的发布时间并将发布时间关联至对应的新闻文献将其作为新闻文献的检索字段。用户在配置发布时间字段时可以选择发布时间的范围。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种多维度高度可定制的新闻聚合方法，其特征在于，包含以下步骤：

获取若干网络媒体的新闻文献；

对每一份所述新闻文献进行预处理；

对每一份所述新闻文献进行结构化处理以定义所述新闻文献的多个检索字段；

将结构化处理后的所述新闻文献存入数据库并构建索引；

接收用户的配置信息，所述配置信息包含至少一个检索字段限定；

根据用户设定的所述配置信息从所述数据库中检索符合条件的所述新闻文献；

将匹配到的所述新闻文献发送至用户。

2.根据权利要求1所述的多维度高度可定制的新闻聚合方法，其特征在于，

所述对每一份所述新闻文献进行结构化处理以定义所述新闻文献的多个检索字段的具体方法为：

提取所述新闻文献的文献来源、关键词和实体信息；

分析所述新闻文献得到所述新闻文献的情感指数和业务领域标签；

将所述文献来源、所述关键词、所述实体信息、所述情感指数和所述业务领域标签关联至对应的所述新闻文献将其作为所述新闻文献的检索字段。

3.根据权利要求2所述的多维度高度可定制的新闻聚合方法，其特征在于，

当所述网络媒体是社交媒体时，提取出的所述文献来源还包含发布账号；

4.根据权利要求2所述的多维度高度可定制的新闻聚合方法，其特征在于，

所述关键词包含标题关键词和正文关键词；

5.根据权利要求4所述的多维度高度可定制的新闻聚合方法，其特征在于，

所述对每一份所述新闻文献进行结构化处理以定义所述新闻文献的多个检索字段的具体方法还包括：

分析所述新闻文献得到所述新闻文献的信息摘要；

提取所述信息摘要的摘要关键词并将所述摘要关键词关联至对应的所述新闻文献将其作为所述新闻文献的检索字段；

6.根据权利要求2所述的多维度高度可定制的新闻聚合方法，其特征在于，

所述实体信息包含主要实体和次要实体；

7.根据权利要求2所述的多维度高度可定制的新闻聚合方法，其特征在于，

经过分析得到的所述新闻文献的情感指数包含：正面情感、中性情感和负面情感；

用户在配置情感指数字段时可以从所述正面情感、所述中性情感和所述负面情感中选择至少一种。

8.根据权利要求2所述的多维度高度可定制的新闻聚合方法，其特征在于，

经过分析得到的所述新闻文献的情感指数为大于等于负100且小于等于100之间的具体数值；

9.根据权利要求2所述的多维度高度可定制的新闻聚合方法，其特征在于，

经过分析得到的所述业务领域标签包含若干第一层级标签，每个所述第一层级标签还包含若干第二层级标签；

10.根据权利要求1所述的多维度高度可定制的新闻聚合方法，其特征在于，

所述对每一份所述新闻文献进行预处理的具体方法为：

对所述新闻文献的正文进行提纯；

对所述新闻文献进行去重，保留最优的一份。