CN109376231A

CN109376231A - 一种媒体热点跟踪方法及系统

Info

Publication number: CN109376231A
Application number: CN201811147262.5A
Authority: CN
Inventors: 姚洲鹏
Original assignee: Hangzhou Fan Wen Science And Technology Ltd
Current assignee: Hangzhou Fan Wen Science And Technology Ltd
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2019-02-22

Abstract

本发明提供了一种媒体热点跟踪方法及系统，所述方法包括步骤：建立文章热度模型，对媒体的文章进行定向采集；将被采集的文章和数据库中第一预设时间段内的每篇文章进行相似度比较，若相似度大于第一预设阈值，则判定被比较的两篇文章相似；获取数据库中所有与被采集文章相似的文章的信息，所述信息包括文章的发布时间和文章所属媒体的权重；依据所述文章热度模型和数据库中所有相似文章的信息，获取被采集文章的热度值，若所述热度值大于第二预设阈值，则判定被采集文章为热点文章；所述方法及系统避免了通过网民的点击量来获取热点新闻带来的片面性，实现了对热点新闻进行全面及时地跟踪，保证了发布的热点新闻可以满足不同人群的阅读偏好。

Description

一种媒体热点跟踪方法及系统

技术领域

本发明涉及互联网技术领域，更具体地，涉及一种媒体热点跟踪方法及系统。

背景技术

信息作为人们生活中不可或缺的关键部分，直接影响着人们的生活质量和精神状态。随着互联网的快速发展，信息已经越来越多样化，面对快速更新的海量信息，如何形成高效的新闻热点跟踪技术，对热点话题进行全面把握变得越来越重要。热点跟踪技术能够借助数据手段快速、高效地获取相应信息，对用户获取信息效益的提升具有至关重要的意义。

目前常见的媒体热点跟踪技术主要是基于网络用户在搜索引擎中输入的搜索关键词以及网络用户对新闻的点击量，获取热点新闻。然而许多用户在浏览或者搜索网络新闻时，会更偏向阅读娱乐性或者新奇性更强的新闻，这样就造成主流官方媒体在以此方法提取热点新闻时，错过了一些热点新闻事件，热点新闻提取过于片面化，覆盖面不够全面，不利于网民及时全面地获取社会热点信息。

发明内容

本发明的目的在于提供一种媒体热点跟踪方法及系统，解决现有的媒体热点跟踪技术出现的提取新闻热点不够全面的问题。

为实现上述目的，本发明提供了一种媒体热点跟踪方法，包括以下步骤：

建立文章热度模型，对媒体的文章进行定向采集；

将被采集的文章和数据库中第一预设时间段内的每篇文章进行相似度比较，若相似度大于第一预设阈值，则判定被比较的两篇文章相似；

获取数据库中所有与被采集文章相似的文章的信息，所述信息包括文章的发布时间和文章所属媒体的权重；

依据所述文章热度模型和数据库中所有相似文章的信息，获取被采集文章的热度值，若所述热度值大于第二预设阈值，则判定被采集文章为热点文章。

优选地，所述方法还包括步骤：在被采集文章被判定为热点文章之后，对所述被采集文章在第二预设时间段内的热度值进行监控，若所述被采集文章的热度值在第二预设时间段内一直低于第二预设阈值，则将被采集文章重新判定为非热点文章。

优选地，所述文章热度模型为其中s表示数据库中所有与被采集文章相似的文章所属媒体权重的和，t表示所有与被采集文章相似的文章中，第一篇进入数据库的相似文章已经发布的小时数，i表示时间增量，G表示时间因素的占比，i和G均为常数。

优选地，所述第一预设时间段为三天，所述第一预设阈值为80％。

优选地，所述第二预设阈值为18，所述第二预设时间段为一个小时。

为实现上述目的，本发明还提供了一种媒体热点跟踪系统，包括：

模型建立和文章采集模块，用于建立文章热度模型，对媒体的文章进行定向采集；

相似度比较模块，用于将被采集的文章和数据库中第一预设时间段内的每篇文章进行相似度比较，若相似度大于第一预设阈值，则判定被比较的两篇文章相似；

相似文章信息获取模块，用于获取数据库中所有与被采集文章相似的文章的信息，所述信息包括文章的发布时间和文章所属媒体的权重；

文章热度计算模块，用于依据所述文章热度模型和数据库中所有相似文章的信息，获取被采集文章的热度值，若所述热度值大于第二预设阈值，则判定被采集文章为热点文章。

优选地，所述系统还包括：

文章热度监控模块，用于在被采集文章被判定为热点文章之后，对所述被采集文章在第二预设时间段内的热度值进行监控，若所述被采集文章的热度值在第二预设时间段内一直低于第二预设阈值，则将被采集文章重新判定为非热点文章。

本发明与现有技术相比，具有以下优点及突出性效果：

本发明提供的一种媒体热点跟踪方法及系统，通过定向采集主流媒体的文章，并和数据库中的文章进行相似度计算，在参考被采集文章所属媒体的权重的前提下，计算被采集文章的热度值，从而判断该文章是否为热点文章，同时对热点文章进行监控以及不断更新，实现了对热点新闻进行全面及时地跟踪，便于人们快速发现社会热点事件。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一公开的一种媒体热点跟踪方法的流程示意图；

图2为本发明实施例二公开的一种媒体热点跟踪系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

如图1所示，本发明实施例一公开了一种媒体热点跟踪方法，包括以下步骤：

S101，建立文章热度模型，对媒体的文章进行定向采集。具体来说，首先依据影响文章热度的相关因素建立文章热度模型，这些因素包括文章的已发布时间、文章所属媒体的权重和时间因素占比，因为主流媒体发布的文章权威性较强，更具有传播影响力，传播范围更广，所以在设计文章热度模型时，对主流媒体给予更高的权重；而普通媒体发布的文章权威性不如主流媒体，新闻传播影响力更差，在设计文章热度模型时设置的权重也会更小。综合考虑影响文章热度的相关因素，本实施例设计的文章热度模型为其中s表示数据库中所有与被采集文章相似的文章所属媒体权重的和，t表示所有与被采集文章相似的文章中，第一篇进入数据库的相似文章已经发布的小时数，i表示时间增量，G表示时间因素的占比，i和G均为常数。本实施例中，i取的值为4，G取的值为1.4。

需要说明的是，在对新闻网站等媒体的不同类型的新闻数据进行采集之前，先对需要采集的数据进行分析，将新闻数据细化到最小单位，即表示为新闻网站-内容类型-具体分类的最小新闻列表，比如新华网-时政新闻-实时新闻，采集的新闻网站包括但不限于光明网、新华网和人民网等主流媒体，内容类型包括但不限于时政新闻、社会新闻和财经新闻；在对待采集新闻数据进行分析细化之后，再进行采集，这样可以保证新闻数据的纯净性和安全性，因为广告等垃圾信息被过滤掉了。

S102，将被采集的文章和数据库中第一预设时间段内的每篇文章进行相似度比较，若相似度大于第一预设阈值，则判定被比较的两篇文章相似。在对两篇文章比较相似度时，先利用ElasticSearch搜索引擎建立全文索引，同时采用中文分词库中的细颗粒度分词创建索引，以保证文档关键词的分解完整度，完成分词操作。分解完每篇文章的关键词，并统计每个词的词频之后，利用TF-IDF技术针对每个分词计算权重，提取核心关键词。由于本实施例采取的相似度算法是基于余弦相似度算法的，而余弦相似度算法不具备处理同类同义词汇的能力，所以本实施例采用Word2vec算法针对每篇文章进行语义分析，以去除后期统计分析中的语义干扰。然后将被采集文章和数据库中的文章简化为两个以关键词权重为分量的N维向量，然后利用向量模型进行余弦相似度计算。利用向量空间中两个向量夹角的余弦值作为两篇文章的相似度，那么余弦值越大说明两篇文章越相似，需要说明的是，在计算时需要考虑两个向量在方向上的差异。

本实施例中，将被采集的文章和数据库中三天内的每篇文章进行相似度比较，当被采集文章和数据库中的文章相似度大于80％时，判定两篇文章为相似文章。

S103，获取数据库中所有与被采集文章相似的文章的信息，该信息包括文章的发布时间和文章所属媒体的权重。具体来说，将数据库中的所有文章均与被采集文章进行相似度计算，这样可以获取数据库中所有与被采集文章相似的文章，同时需要获取这些相似文章的发布时间和所属媒体的权重，便于后续利用相似文章的信息计算被采集文章的热度值。

S104，依据文章热度模型和数据库中所有相似文章的信息，获取被采集文章的热度值，若热度值大于第二预设阈值，则判定被采集文章为热点文章。具体来说，通过利用上述文章热度模型，根据数据库中相似文章的相关信息，即可计算出被采集文章的热度值，本实施例中，当该热度值大于18时，则判定被采集文章为热点文章。具体实施时，每隔5分钟进行统计一次，这样可以保证被采集文章的时效性，同时热点文章列表也会不断地进行更新，便于网络用户快速发现社会热点事件。

S105，在被采集文章被判定为热点文章之后，对被采集文章在第二预设时间段内的热度值进行监控，若被采集文章的热度值在第二预设时间段内一直低于第二预设阈值，则将被采集文章重新判定为非热点文章。具体来说，被采集的文章被判定为热点文章之后，还需要对其进行第二预设时间段内的持续监控，本实施例中，对热点文章进行一个小时的连续监控，当热点文章的热度值在这一个小时内一直低于18分，则将文章重新判定为非热点文章。之后若该文章的热度值又大于18分，也将该文章重新判定为热点文章，显示在热点文章列表中。

实施例二

本实施例公开了一种媒体热点跟踪系统，包括：

模型建立和文章采集模块201，用于建立文章热度模型，对媒体的文章进行定向采集。具体来说，模型建立和文章采集模块201首先依据影响文章热度的相关因素建立文章热度模型，这些因素包括文章的已发布时间、文章所属媒体的权重和时间因素占比，因为主流媒体发布的文章权威性较强，更具有传播影响力，传播范围更广，所以在设计文章热度模型时，对主流媒体给予更高的权重；而普通媒体发布的文章权威性不如主流媒体，新闻传播影响力更差，在设计文章热度模型时设置的权重也会更小。综合考虑影响文章热度的相关因素，本实施例设计的文章热度模型为其中s表示数据库中所有与被采集文章相似的文章所属媒体权重的和，t表示所有与被采集文章相似的文章中，第一篇进入数据库的相似文章已经发布的小时数，i表示时间增量，G表示时间因素的占比，i和G均为常数。本实施例中，i取的值为4，G取的值为1.4。

相似度比较模块202，用于将被采集的文章和数据库中第一预设时间段内的每篇文章进行相似度比较，若相似度大于第一预设阈值，则判定被比较的两篇文章相似。相似度比较模块202在对两篇文章比较相似度时，先利用ElasticSearch搜索引擎建立全文索引，同时采用中文分词库中的细颗粒度分词创建索引，以保证文档关键词的分解完整度，完成分词操作。分解完每篇文章的关键词，并统计每个词的词频之后，利用TF-IDF技术针对每个分词计算权重，提取核心关键词。由于本实施例采取的相似度算法是基于余弦相似度算法的，而余弦相似度算法不具备处理同类同义词汇的能力，所以本实施例采用Word2vec算法针对每篇文章进行语义分析，以去除后期统计分析中的语义干扰。然后将被采集文章和数据库中的文章简化为两个以关键词权重为分量的N维向量，然后利用向量模型进行余弦相似度计算。利用向量空间中两个向量夹角的余弦值作为两篇文章的相似度，那么余弦值越大说明两篇文章越相似，需要说明的是，在计算时需要考虑两个向量在方向上的差异。本实施例中，相似度比较模块202将被采集的文章和数据库中三天内的每篇文章进行相似度比较，当被采集文章和数据库中的文章相似度大于80％时，判定两篇文章为相似文章。

相似文章信息获取模块203，用于获取数据库中所有与被采集文章相似的文章的信息，该信息包括文章的发布时间和文章所属媒体的权重；具体来说，相似文章信息获取模块203将数据库中的所有文章均与被采集文章进行相似度计算，这样可以获取数据库中所有与被采集文章相似的文章，同时需要获取这些相似文章的发布时间和所属媒体的权重，便于后续利用相似文章的信息计算被采集文章的热度值。

文章热度计算模块204，用于依据文章热度模型和数据库中所有相似文章的信息，获取被采集文章的热度值，若热度值大于第二预设阈值，则判定被采集文章为热点文章。具体来说，文章热度计算模块204通过利用上述文章热度模型，根据数据库中相似文章的相关信息，即可计算出被采集文章的热度值，本实施例中，当该热度值大于18时，则判定被采集文章为热点文章。具体实施时，每隔5分钟进行统计一次，这样可以保证被采集文章的时效性，同时热点文章列表也会不断地进行更新，便于网络用户快速发现社会热点事件。

文章热度监控模块205，用于在被采集文章被判定为热点文章之后，对被采集文章在第二预设时间段内的热度值进行监控，若被采集文章的热度值在第二预设时间段内一直低于第二预设阈值，则将被采集文章重新判定为非热点文章。具体来说，被采集的文章被判定为热点文章之后，文章热度监控模块205还需要对其进行第二预设时间段内的持续监控，本实施例中，文章热度监控模块205对热点文章进行一个小时的连续监控，当热点文章的热度值在这一个小时内一直低于18分，则将文章重新判定为非热点文章。之后若该文章的热度值又大于18分，也将该文章重新判定为热点文章，显示在热点文章列表中。

本发明实施例公开的一种媒体热点跟踪方法及系统，对主流媒体发布的新闻数据进行定向采集，保证了采集数据的纯净，然后利用相似度算法将被采集文章和数据库中的文章进行相似度比较，利用相似文章计算被采集文章的热度值，避免了通过网民的点击量来获取热点新闻带来的片面性，保证了发布的热点新闻可以满足不同人群的阅读偏好。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种媒体热点跟踪方法，其特征在于，包括以下步骤：

建立文章热度模型，对媒体的文章进行定向采集；

2.如权利要求1所述的一种媒体热点跟踪方法，其特征在于，所述方法还包括步骤：在被采集文章被判定为热点文章之后，对所述被采集文章在第二预设时间段内的热度值进行监控，若所述被采集文章的热度值在第二预设时间段内一直低于第二预设阈值，则将被采集文章重新判定为非热点文章。

3.如权利要求1所述的一种媒体热点跟踪方法，其特征在于，所述文章热度模型为其中s表示数据库中所有与被采集文章相似的文章所属媒体权重的和，t表示所有与被采集文章相似的文章中，第一篇进入数据库的相似文章已经发布的小时数，i表示时间增量，G表示时间因素的占比，i和G均为常数。

4.如权利要求1所述的一种媒体热点跟踪方法，其特征在于，所述第一预设时间段为三天，所述第一预设阈值为80％。

5.如权利要求2所述的一种媒体热点跟踪方法，其特征在于，所述第二预设阈值为18，所述第二预设时间段为一个小时。

6.一种媒体热点跟踪系统，其特征在于，包括：

7.如权利要求6所述的一种媒体热点跟踪系统，其特征在于，所述系统还包括：

8.如权利要求6所述的一种媒体热点跟踪系统，其特征在于，所述文章热度模型为其中s表示数据库中所有与被采集文章相似的文章所属媒体权重的和，t表示所有与被采集文章相似的文章中，第一篇进入数据库的相似文章已经发布的小时数，i表示时间增量，G表示时间因素的占比，i和G均为常数。

9.如权利要求6所述的一种媒体热点跟踪系统，其特征在于，所述第一预设时间段为三天，所述第一预设阈值为80％。

10.如权利要求7所述的一种媒体热点跟踪系统，其特征在于，所述第二预设阈值为18，所述第二预设时间段为一个小时。