CN111324789A

CN111324789A - 一种网络信息数据热度的计算方法

Info

Publication number: CN111324789A
Application number: CN202010090669.XA
Authority: CN
Inventors: 张发恩; 姜勇越
Original assignee: Innovation Wisdom Shanghai Technology Co ltd
Current assignee: Innovation Wisdom Shanghai Technology Co ltd
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2020-06-23
Anticipated expiration: 2040-02-13
Also published as: CN111324789B

Abstract

本发明公开一种网络信息数据热度的计算方法，涉及计算机技术领域，包括对具有预设等级值的各门户网站进行爬取得到若干网络信息数据；进行网络信息标签分类；网络信息事件库中具有若干网络信息事件子集合时进行整体聚类，否则进行增量聚类；统计每个网络信息事件子集合中的网络信息数量、网络信息发布时间、用户行为数据；对每个网络信息事件子集合的各网络信息数据进行排序并赋值得到第一权重；处理得到各网络信息数据被转发和转载量；对预设等级值、网络信息标签、网络信息数量、网络信息报道时间、用户行为数据、第一权重、被转发和转载量加权求和得到网络信息数据热度值。本发明考虑多个影响的因素，网络信息数据热度值更加全面合理。

Description

一种网络信息数据热度的计算方法

技术领域

本发明涉及计算机技术领域，具体涉及一种网络信息数据热度的计算方法。

背景技术

网络信息数据和社交平台上的数据都可以成为网络信息数据，网络信息数据和社交数据是相互联系的，知名的网络信息媒体都有自己的社交账号，会将自己的网络信息从门户网站转载到自己的社交账号上，可以让更多热衷社交的网友了解网络信息动态。然而现阶段的网络信息数据热度计算中没有考虑到社交数据的影响，事实上社交数据(微博等)可以很大程度上反映用户行为，大V账号的参与会对热度的提升有着重要的意义，然而这个因素目前没有被考虑进去。由于社交平台的特殊性，很多未形成网络信息但是却在社交平台上大范围被讨论的例子有很多，所以兼顾社交平台数据可以更好地发现热点事件。

现有的网络信息数据热度计算主要是基于用户行为数据，点赞、转发、评论、收藏等行为统称为用户行为，用户行为体现出的用户对该网络信息的关注度是网络信息数据热度的最直接表达形式。但是很多网络信息门户网站或者不统计用户行为，或者隐藏用户行为，这对直接判断网络信息数据热度造成了困难。本方法会将社交平台上相关信息数据中的点赞、转发、评论和收藏等行为考虑到模型当中，弥补无法获取门户网站统计的用户行为。

舆情分析中关于网络信息数据热度的计算主要是通过网络信息聚类，从媒体的角度去讨论网络信息的热度，但是没有考虑增量聚类。虽然现在的硬件配置可以支持大量的数据聚类，但是随着数据量的不断积累，若每次都是整体聚类的话，势必会影响计算效率，会对整个事件的分析造成影响。对于本模型来说，随着社交数据的引入，将媒体的角度和网民的角度进行结合，供分析数据量会大大的增加，整体聚类会使得计算效率大大增加，因此增量聚类是必然的选择。

网络信息门户网站对于热点网络信息的覆盖、发布程度以及及时性都存在这差异，这也就说明不同的门户网站实际上是有不同的级别的，可称之为网站热度的等级值，而现阶段针对网络信息数据热度的计算没有考虑此因素。事实上现有的网络信息数据热度的计算方法考虑的因素很少，不能够全面反映网络信息的热度。

发明内容

本发明的目的在于提供一种网络信息数据热度的计算方法。

为达此目的，本发明采用以下技术方案：

提供一种网络信息数据热度的计算方法，具体包括以下步骤：

步骤S1，采用爬虫机制对具有预设等级值的各门户网站进行数据爬取，爬取得到各所述门户网站的对应于所述预设等级值的若干网络信息数据；

步骤S2，根据预先生成的网络信息标签分类模型对各所述网络信息数据进行网络信息标签分类，得到具有对应网络信息标签的各所述网络信息数据；

步骤S3，判断预先生成的网络信息事件库中是否存在具有对应聚类类别的若干网络信息事件子集合：

若否，则转向步骤S4；

若是，则转向步骤S5；

步骤S4，将具有所述网络信息标签的各所述网络信息数据进行整体聚类，得到具有所述聚类类别的若干所述网络信息事件子集合并存储在所述网络信息事件库中，随后转向步骤S6；

步骤S5，将具有所述网络信息标签的各所述网络信息数据进行增量聚类，得到各所述网络信息数据的所述聚类类别，并将所述网络信息数据加入对应于所述聚类类别的所述网络信息事件子集合中进行存储，以对所述网络信息事件库进行更新；

步骤S6，根据所述网络信息事件库，处理得到每个所述网络信息事件子集合中包含的各所述网络信息数据的网络信息数量、网络信息发布时间以及关联的用户行为数据；

步骤S7，对所述网络信息事件库中每个所述网络信息事件子集合包含的各所述网络信息数据进行排序，并根据排序结果对每个所述网络信息数据进行权重赋值，得到各所述网络信息数据对应的第一权重；

步骤S8，根据所述网络信息事件库处理得到每个所述网络信息事件子集合包含的各所述网络信息数据被转发和转载量；

步骤S9，针对每篇所述网络信息数据，根据预设第二权重对所述网络信息数据对应的所述预设等级值、所述网络信息标签、所述网络信息数量、所述网络信息发布时间、所述用户行为数据、所述第一权重以及所述被转发和转载量进行加权求和，得到所述网络信息数据的网络信息数据热度值。

作为本发明的一种优选方案，所述预设等级值的计算方法包括以下步骤：

步骤A1，获取预设时间段的各所述门户网站的历史网络信息数据；

步骤A2，统计所述历史网络信息数据中描述同一网络信息事件的各网络信息子数量，并将各所述网络信息子数量进行排序，将排序结果靠前的第一预设数量的所述网络信息事件作为热点事件；

步骤A3，分别统计得到所述历史网络信息数据包含的第一网络信息总量，以及每个所述门户网站发布的所述热点事件的第二网络信息总量；

步骤A4，针对每个所述门户网站，将所述第二网络信息总量除以所述第一网络信息总量，得到所述门户网站的覆盖率；

步骤A5，统计各所述热点事件在各所述门户网站的发布时间，将各所述发布时间进行排序，并将排序结果最靠前的所述发布时间作为标准时间；

步骤A6，针对每个所述门户网站，根据所述标准时间和所述发布时间处理得到所述门户网站的热点滞后时间；

步骤A7，针对每个所述网络信息数据，根据预设第三权重对所述覆盖率和所述热点滞后时间进行加权求和，得到所述网络信息数据的所述预设等级值。

作为本发明的一种优选方案，所述步骤A7中，采用以下公式计算得到所述预设等级值：

其中，

其中，

L用于表示所述预设等级值；

和

用于表示所述第三权重；

C用于表示所述覆盖率；

D用于表示所述热点滞后时间；

C₀用于表示第二网络信息总量；

Q_all用于表示所述第一网络信息总量；

T_delay用于表示所述标准时间和所述发布时间之间的差值。

作为本发明的一种优选方案，所述网络信息数据包括新闻数据以及社交平台数据；

则所述步骤S1具体包括：

步骤S11，根据所述预设等级值的数值大小将各所述门户网站进行排序，并根据排序结果将各所述门户网站划分为第一等级门户网站、第二等级门户网站和第三等级门户网站；

步骤S12，采用爬虫机制爬取所述第一等级门户网站以及所述第二等级门户网站的所述排序结果靠前的第二预设数量的所述门户网站，得到各所述门户网站的对应于所述预设等级值的若干所述新闻数据；

步骤S13，采取爬虫机制爬取所有所述门户网站，得到各所述门户网站的所述社交平台数据。

作为本发明的一种优选方案，执行所述步骤S9之后，还包括网络信息数据量扩充的过程，具体包括：

步骤B1，将所述网络信息数据热度值与预设的热度阈值进行比较：

若所述网络信息数据热度值小于所述热度阈值，则返回所述步骤S1；

若所述网络信息数据热度值不小于所述热度阈值，则转向步骤B2；

步骤B2，根据所述网络信息数据热度值对应的所述新闻数据进行元搜索得到包含所述新闻数据的元搜索结果，随后转向所述步骤S2，以对所述元搜索结果进行网络信息标签分类；

步骤B3，根据所述网络信息数据热度值对应的所述新闻数据在所述步骤S12中未爬取的所述第二等级门户网站，以及所述第三等级门户网站中进行数据爬取，得到包含所述新闻数据的爬取结果，随后转向所述步骤S2，以对所述爬取结果进行网络信息标签分类。

作为本发明的一种优选方案，所述步骤S5具体包括：

步骤S51，将各所述网络信息事件子集合中的网络信息事件进行向量化，得到网络信息向量；

步骤S52，针对每个所述网络信息事件子集合，采用TextRank算法对各所述网络信息向量进行排序，并根据排序结果进行权重赋值，得到各所述网络信息向量的第四权重；

步骤S53，针对每个所述网络信息事件子集合，根据所述第四权重对各所述网络信息向量进行加权平均，得到所述网络信息事件子集合的中心向量；

步骤S54，将具有所述网络信息标签的各所述网络信息数据进行向量化得到当前网络信息向量，并计算得到所述当前网络信息向量和各所述中心向量之间的第一向量距离；

步骤S55，分别将所述第一向量距离与预设的第一距离阈值进行比较，以判断是否存在所述第一向量距离小于所述第一距离阈值：

若是，则将所述网络信息数据加入所述中心向量对应的所述网络信息事件子集合中进行存储，以对所述网络信息事件库进行更新；

若否，则重新生成一所述网络信息事件子集合以存储所述网络信息数据。

作为本发明的一种优选方案，执行所述步骤S55之后，还包括：

步骤SC1，针对每个所述网络信息事件子集合，对相应的所述第一距离阈值进行调整得到第二距离阈值，并计算得到各所述网络信息向量与所述中心向量之间的第二向量距离；

步骤SC2，将所述第二向量距离与所述第二距离阈值进行比较：

若所述第二向量距离小于所述第二距离阈值，则退出；

若所述第二向量距离不小于所述第二距离阈值，则转向步骤SC3，

步骤SC3，计算所述网络信息向量与所述网络信息事件库中的其他所述网络信息事件子集合的所述中心向量之间的第三向量距离；

步骤SC4，将所述第三向量距离与所述第二距离阈值进行比较，以判断是否存在所述第三向量距离小于所述第二距离阈值：

若是，则将所述网络信息向量加入对应的其他所述网络信息事件子集合中进行存储；

作为本发明的一种优选方案，所述步骤S6中，所述用户行为数据包括用户点击，和/或用户收藏，和/或用户点赞，和/或用于评论，和/或用于分享。

作为本发明的一种优选方案，所述步骤S7中，采用TextRank算法对所述网络信息事件库中每个所述网络信息事件子集合包含的各所述网络信息数据进行排序。

作为本发明的一种优选方案，所述步骤S8具体包括：

步骤S81，对每个所述网络信息事件子集合中的所述网络信息数据中进行信息提取，根据信息提取结果判断所述网络信息数据中是否包含被转载和转发信息：

若是，则根据所述被转载和转发信息获取所述网络信息数据的被转发和转载量；

若否，则转向步骤S82；

步骤S82，对所述网络信息数据进行传播路径计算，得到所述网络信息数据的被转发和转载量。

本发明的有益效果：

1)从多种角度考虑影响网络信息数据热度的因素，相较于只统计用户行为的方法，计算得出的网络信息数据热度值更加全面，更加合理，更加符合实际；

2)本发明的网络信息数据包括了社交平台数据和门户网站新闻数据，更大程度上满足了数据的多样性和充足性，数据的覆盖性更广，计算出的网络信息数据热度值也更有说服力；

3)本发明采用传播路径计算被转发和转载量，可以帮助对网络信息数据进行溯源，挖掘出更多更深的关系。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例所述的一种网络信息数据热度的计算方法的流程示意图。

图2是本发明一实施例所述的一种网络信息数据热度的计算方法的原理框图。

图3是本发明一实施例所述的预设权威度的计算方法的流程示意图。

图4是本发明一实施例所述的数据爬取方法的流程示意图。

图5是本发明一实施例所述的网络信息数据量扩充的过程的流程示意图。

图6是本发明一实施例所述的增量聚类的方法的流程示意图。

图7是本发明一实施例所述的网络信息事件库的更新方法的流程示意图。

图8是本发明一实施例所述的网络信息数据的被转发和转载量的提取方法流程示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在本发明的描述中，除非另有明确的规定和限定，若出现术语“连接”等指示部件之间的连接关系，该术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

基于现有技术中存在的技术问题，本发明提供一种网络信息数据热度的计算方法，如图1所示，具体包括以下步骤：

步骤S1，采用爬虫机制对具有预设等级值的各门户网站进行数据爬取，爬取得到各门户网站的对应于预设等级值的若干网络信息数据；

步骤S2，根据预先生成的网络信息标签分类模型对各网络信息数据进行网络信息标签分类，得到具有对应网络信息标签的各网络信息数据；

若否，则转向步骤S4；

若是，则转向步骤S5；

步骤S4，将具有网络信息标签的各网络信息数据进行整体聚类，得到具有聚类类别的若干网络信息事件子集合并存储在网络信息事件库中，随后转向步骤S6；

步骤S5，将具有网络信息标签的各网络信息数据进行增量聚类，得到各网络信息数据的聚类类别，并将网络信息数据加入对应于聚类类别的网络信息事件子集合中进行存储，以对网络信息事件库进行更新；

步骤S6，根据网络信息事件库，处理得到每个网络信息事件子集合中包含的各网络信息数据的网络信息数量、网络信息发布时间以及关联的用户行为数据；

步骤S7，对网络信息事件库中每个网络信息事件子集合包含的各网络信息数据进行排序，并根据排序结果对每个网络信息数据进行权重赋值，得到各网络信息数据对应的第一权重；

步骤S8，根据网络信息事件库处理得到每个网络信息事件子集合包含的各网络信息数据被转发和转载量；

步骤S9，针对每篇网络信息数据，根据预设第二权重对网络信息数据对应的预设等级值、网络信息标签、网络信息数量、网络信息发布时间、用户行为数据、第一权重以及被转发和转载量进行加权求和，得到网络信息数据的网络信息数据热度值。

具体地，本实施例中，本发明的网络信息数据热度的计算方法，从多种角度考虑影响新闻热度的因素，不但从用户角度考虑了影响新闻热度的因素，也就是上面提到的用户行为，还从门户网站的角度考虑了影响新闻热度变化的因素，传播路径、转载和转发量；不但考虑了网络信息数据以及事件自身的因素，聚类后描述同一事件的信息数据数量、数据所属事件、网络信息数据发布时间，同时还考虑了同一事件内部数据与数据之间的关系，从数据内容出发给出了每个数据在该事件描述中不同权重，更加合理的区分了同一事件中数据的分量。在考虑了网站的等级的同时，相较于只统计用户行为的方法，这样计算出的数据热度更加全面，更加合理，更加符合实际。具体地，本发明综合考虑了七大影响因素，分别为门户网站的等级值(L)、网络信息数据的发布时间(T)、网络信息数据聚类后的各自数据量(Q)、网络信息数据标签(P)、门户网站用户和网民行为(G，包括但不限于该数据的点击量(Click)、收藏(Favor)、点赞(Like)、评论(Comment)、转发(Share))、聚类内部的新闻权重排序(R)、网络信息数据被转发和转载量(Tr)，计算出的这七个因素影响的数值通过加权求和得到每个网络信息数据的热度值：

hot＝F(L,Q,T,G,T_r,R,P)＝ω₁*L+ω₂*Q+ω₃*T+ω₄*G+ω₅*T_r+ω₆*R+ω₇*P

其中，ω₁,ω₂,ω₃,ω₄,ω₅,ω₆,ω₇用于表示上述预设第二权重，其余参数分别用于表示上述七大影响因素，各个影响因素值得求取过程如下：

如图2所示，上述网络信息数据包括新闻数据和社交平台数据，对于新闻数据，首先通过覆盖的门户网站进行数据爬取，按照门户网站的等级值进行划分优选分为第一等级门户网站、第二等级门户网站和第三等级门户网站，定义时将大部分的门户网站处于第一等级门户网站和第二等级门户网站。上述数据爬取包括两条数据爬取路径，第一条爬取路径是首先爬取的是第一等级全部网站和第二等级排名较靠前的门户网站，保证数据的充足性。待计算完上述路径爬取得到的网络信息数据的热度之后，通过设定的阈值来初步判断上述网络信息数据中哪些可能是热点新闻，以及哪些可能成为热点新闻，第二条爬取路径是根据这些热点新闻或者疑似热点新闻的数据进行元搜索和在剩余的新闻站点网站进行过滤爬取，逐步扩大新闻数据量。

对于社交平台数据，进行所有门户网站的全量爬取，并且没有门户网站的等级值的因素影响。社交平台数据的贴文会参与到计算热度，但是贴文下面的评论则作为用户行为中的一个分支来进行考虑，也就是说贴文会有热度，评论不会有热度值，并且通过对评论进行情感分析，统计网民对该事件的情感倾向随时间的变化情况。

随后进行数据类别的判定。优选将网络信息数据类别分为5大类，政情、军情、社情、商情以及其他。利用机器学习和深度学习进行分类器的构建，针对不同的类别给予不同的影响等级，对于舆情系统来说，一般的，权重分配从大到小依次是政情、军情、社情、商情和其他，此权重视实际需要可进行动态调整，优选分配数值依次为1.5，1.3，1.1，0.8，0.1。

进一步地，对新爬取的新闻数据和社交平台数据进行聚类。判断目前事件库里面是否有事件数据，如果是第一次启动，那么说明事件库没有数据，对第一批的网络信息数据进行整体聚类；如果事件库里有数据，需要进行增量聚类。增量聚类的好处是可以利用之前聚类的结果，避免每次进行整体聚类，可大大提高了效率。这里将数据库称为事件库，是因为聚类之后的结果就是事件，每个类内部的新闻和贴文都在描述同一事件，一个类就是一个事件。每次聚类之后要保留该事件的中心向量，每次新来的数据通过doc2vec进行向量化，然后比较新数据与每个事件的中心向量的距离，通过设定阈值来进行增量聚类。每次增量聚类要保证新闻数据向密集的地方聚拢，因此阈值是动态变化的。阈值变化之后需要比较原来事件里面的新闻数据，可能会有一部分数据到中心点的距离不符合阈值定义，这些数据需要从这个事件中被剔除，被剔除的数据需要与其他事件的中心点进行计算。对于都不满足阈值的数据将自己单独成为一个事件。这一步实际是在获取基本描述同一事件的新闻数量，通过这个数值可以比较有效地区分非热点事件和疑似热点事件。网络信息数据聚类后的各自数据量Q具体计算公式如下：

其中，

表示数据聚类后第i类中新闻数据量，

表示拥有最大新闻数据类别的所包含的数据量。

进一步地，网络信息数据都具有时效性，因此数据热度的计算需要考虑数据的发布时间。发布时间会造成网络数据热度的降低，也就是说数据发布时间越早，到当前时刻的热度就会越小。但是这只是新闻自身属性的影响，事实上门户网站用户和社交网民的转载、评论等用户行为会大大减缓这种热度递减的特性，甚至是会使得该数据的热度的增加，这是更加符合实际情况的。用户行为包括但不限于用户对该网络信息数据的点赞、转发、评论、收藏等行为，用户行为可以视作用户对该数据的重视程度。通过信息抽取可以获得这两类数据。用户行为在社交平台上影响的比重非常大，适当弱化社交平台上的用户行为可平衡无法保证获取用户行为的门户网站的影响。网络信息数据的热度值的计算公式中：

其中，T_now表示当前时间，T₀表示数据的发布或报道时间。

网络信息数据的热度值的计算公式中：

G＝a₀*Click+a₁*Favor+a₂*Like+a₃*Comment+a₄*Share

其中，a_i,i＝0,1,2,3,4分别表示点击、收藏、点赞、评论和分享在用户行为中占的比重。

用户行为体现了网民对该网络信息数据的重视程度，那新闻网站的转载转发量就是从新闻媒体的角度对该新闻的重视程度。一篇新闻或者贴文可能会被多家媒体或者网民进行转发和转载，被转发的新闻或者贴文很有可能继续被转发，因此被转载和转发的数量也是表征该信息数据的热度一个重要因素。如果网站本身没有统计转载和转发量，需要通过对爬取的数据进行传播路径计算，计算出被转载和转发的量。对于社交数据同样如此，尤其是在进行传播路径查找的过程中可以发现大V账号。大V账号拥有大量粉丝，对数据的传播有着重要的作用。网络信息数据的热度值的计算公式中：

其中，Tr_i表示数据i的被转载转发量，max(Tr_i)表示这批数据中被转载转发的最大值。

进一步地，利用TextRank进行每个事件内部的数据权重排序。通过增量聚类或者整体聚类聚在一起的网络信息数据都在描述的是同一事件或者是同一个时间或者是不同的时间的事件发展情况，而上述提到的诸多因素都是网络信息数据本身具有的，欠缺了能够体现数据内容之间的关系影响因素。利用TextRank对事件内部的数据进行权重赋值，可以很大程度上表示数据内容之间的关系影响程度，更好的区分同一事件内网络信息数据的热度。网络信息数据的热度值的计算公式中：

R＝R_ji*Q_j

其中，Q_j表示第j类数据总量，R_ji表示第j类数据TextRank排序之后第i条数据的权重值。

综上，根据以上计算的结果以及F的映射表达，可以计算出每条网络信息数据的热度值。

作为本发明的一种优选方案，如图3所示，预设等级值的计算方法包括以下步骤：

步骤A1，获取预设时间段的各门户网站的历史网络信息数据；

步骤A2，统计历史网络信息数据中描述同一网络信息事件的各网络信息子数量，并将各网络信息子数量进行排序，将排序结果靠前的第一预设数量的网络信息事件作为热点事件；

步骤A3，分别统计得到历史网络信息数据包含的第一网络信息总量，以及每个门户网站发布的热点事件的第二网络信息总量；

步骤A4，针对每个门户网站，将第二网络信息总量除以第一网络信息总量，得到门户网站的覆盖率；

步骤A5，统计各热点事件在各门户网站的发布时间，将各发布时间进行排序，并将排序结果最靠前的发布时间作为标准时间；

步骤A6，针对每个门户网站，根据标准时间和发布时间处理得到门户网站的热点滞后时间；

步骤A7，针对每个网络信息数据，根据预设第三权重对覆盖率和热点滞后时间进行加权求和，得到网络信息数据的预设等级值。

作为本发明的一种优选方案，步骤A7中，采用以下公式计算得到预设等级值：

其中，

其中，

L用于表示预设等级值；

和

用于表示第三权重；

C用于表示覆盖率；

D用于表示热点滞后时间；

C₀用于表示第二网络信息总量；

Q_all用于表示第一网络信息总量；

T_delay用于表示标准时间和发布时间之间的差值。

具体地，本实施例中，门户网站的等级值可从两个维度进行计算，覆盖率C和热点的时效性，后者可用滞后时间D来表示，C₀表示热点覆盖量，用来表示每个新闻热点报道的关于热点的网络信息数据量，T_delay为平均滞后时间。网站的权威度只需要一次计算即可。覆盖率指的就是分析的新闻网站对热点事件的覆盖程度，滞后性描述的是该门户网站报道热点事件的时间的及时性。将一段时间中(一周或者一个月)网络信息数据进行分析，明确这段时间的热点事件(对事件库进行查询，如金庸去世)，如果不明确可以利用新闻聚类后的新闻总数来确定热点事件。确定热点之后，取每个热点中热度大于阈值(此阈值需要事先设定)的发布最早的数据的发布时间作为标准，滞后时间指的是其他发布时间与该标准的时间差，然后每个站点新闻在所有热点中的滞后时间取平均。

作为本发明的一种优选方案，网络信息数据包括新闻数据以及社交平台数据；

如图4所示，则步骤S1具体包括：

步骤S11，根据预设等级值的数值大小将各门户网站进行排序，并根据排序结果将各门户网站划分为第一等级门户网站、第二等级门户网站和第三等级门户网站；

步骤S12，采用爬虫机制爬取第一等级门户网站以及第二等级门户网站的排序结果靠前的第二预设数量的门户网站，得到各门户网站的对应于预设等级值的若干新闻数据；

步骤S13，采取爬虫机制爬取所有门户网站，得到各门户网站的社交平台数据。

作为本发明的一种优选方案，执行步骤S9之后，还包括网络信息数据量扩充的过程，如图5所示，具体包括：

步骤B1，将网络信息数据热度值与预设的热度阈值进行比较：

若网络信息数据热度值小于热度阈值，则返回步骤S1；

若网络信息数据热度值不小于热度阈值，则转向步骤B2；

步骤B2，根据网络信息数据热度值对应的新闻数据进行元搜索得到包含新闻数据的元搜索结果，随后转向步骤S2，以对元搜索结果进行网络信息标签分类；

步骤B3，根据网络信息数据热度值对应的新闻数据在步骤S12中未爬取的第二等级门户网站，以及第三等级门户网站中进行数据爬取，得到包含新闻数据的爬取结果，随后转向步骤S2，以对爬取结果进行网络信息标签分类。

作为本发明的一种优选方案，如图6所示，步骤S5具体包括：

步骤S51，将各网络信息事件子集合中的网络信息事件进行向量化，得到网络信息向量；

步骤S52，针对每个网络信息事件子集合，采用TextRank算法对各网络信息向量进行排序，并根据排序结果进行权重赋值，得到各网络信息向量的第四权重；

步骤S53，针对每个网络信息事件子集合，根据第四权重对各网络信息向量进行加权平均，得到网络信息事件子集合的中心向量；

步骤S54，将具有网络信息标签的各网络信息数据进行向量化得到当前网络信息向量，并计算得到当前网络信息向量和各中心向量之间的第一向量距离；

步骤S55，分别将第一向量距离与预设的第一距离阈值进行比较，以判断是否存在第一向量距离小于第一距离阈值：

若是，则将网络信息数据加入中心向量对应的网络信息事件子集合中进行存储，以对网络信息事件库进行更新；

若否，则重新生成一网络信息事件子集合以存储网络信息数据。

作为本发明的一种优选方案，如图7所示，执行步骤S55之后，还包括：

步骤SC1，针对每个网络信息事件子集合，对相应的第一距离阈值进行调整得到第二距离阈值，并计算得到各网络信息向量与中心向量之间的第二向量距离；

步骤SC2，将第二向量距离与第二距离阈值进行比较：

若第二向量距离小于第二距离阈值，则退出；

若第二向量距离不小于第二距离阈值，则转向步骤SC3，

步骤SC3，计算网络信息向量与网络信息事件库中的其他网络信息事件子集合的中心向量之间的第三向量距离；

步骤SC4，将第三向量距离与第二距离阈值进行比较，以判断是否存在第三向量距离小于第二距离阈值：

若是，则将网络信息向量加入对应的其他网络信息事件子集合中进行存储；

作为本发明的一种优选方案，步骤S6中，用户行为数据包括用户点击，和/或用户收藏，和/或用户点赞，和/或用于评论，和/或用于分享。

作为本发明的一种优选方案，步骤S7中，采用TextRank算法对网络信息事件库中每个网络信息事件子集合包含的各网络信息数据进行排序。

作为本发明的一种优选方案，如图8所示，步骤S8具体包括：

步骤S81，对每个网络信息事件子集合中的网络信息数据中进行信息提取，根据信息提取结果判断网络信息数据中是否包含被转载和转发信息：

若是，则根据被转载和转发信息获取网络信息数据的被转发和转载量；

若否，则转向步骤S82；

步骤S82，对网络信息数据进行传播路径计算，得到网络信息数据的被转发和转载量。

本发明的一个较佳的实施例中，本发明的网络信息数据热度的计算方法应用于热点话题发现。话题可能是已经被报道的事件和新闻，也有可能是还没有报道出来但是网友已经开始讨论的社群里出现的某件事情，随着关注人群和讨论的不断升级，该话题可能会成为媒体报道的对象。热点话题更多地是针对出现在社交平台上的消息，话题重在分析人们讨论的内容。利用本方法可以有效地发现诸多被热议的话题，通过对话题热度的计算，依据用户的自身属性进行话题推荐。增量聚类可以梳理出整个话题的发展历程，传播路径的查找可以进行溯源，挖掘话题的缔造者，通过对该网友属性的分析、过往经历以及其他关联分析可以判断话题的真伪性，并且在此过程中会找出很多关心此话题的大V账号，大V账号所发表的言论会影响话题的走向，挖掘与此话题相关的大V账号具有重要意义。

本发明的另一个较佳的实施例中，本发明的网络信息数据热度的计算方法应用于舆情分析。舆情分析会涉及到对热点新闻的查找以及热点事件的发展态势预测，本方法有效的解决了不能获取用户行为来计算新闻热度等问题，综合了媒体、网民以及社交平台等观点，结合同一事件新闻自异性，以全网数据为分析源来计算新闻的热度，更为全面和合理的给出新闻的热度，并且根据增量聚类的结果可以有效的梳理和统计出热点新闻或者热点话题的发展情况和网民对此事件的看法和情感倾向变化等情况，可根据现有的状况进行更多的分析，如发展态势预测、事件造成影响程度评估等，以及事件中提及到的人物之间的关系挖掘等。

本发明的另一个较佳的实施例中，本发明的网络信息数据热度的计算方法应用于热点新闻和话题推荐。新闻和话题的推荐，是要把最热以及最符合网民喜好的新闻和话题推荐给网民，本方法的分析数据覆盖全网络，并且综合考虑了多种因素，给出的网络信息数据的热度值比只是基于用户行为的热度更全面、合理。在计算的过程中会有对信息数据进行打标签，这部分标签支持自定义，通过对网民的新闻浏览记录和自身的兴趣爱好等数据进行分析，获取网民的所属标签，将合适的标签下的新闻和话题推荐给网民。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。

Claims

1.一种网络信息数据热度的计算方法，其特征在于，具体包括以下步骤：

若否，则转向步骤S4；

若是，则转向步骤S5；

2.根据权利要求1所述的网络信息数据热度的计算方法，其特征在于，所述预设等级值的计算方法包括以下步骤：

3.根据权利要求2所述的网络信息数据热度的计算方法，其特征在于，所述步骤A7中，采用以下公式计算得到所述预设等级值：

其中，

其中，

L用于表示所述预设等级值；

和

用于表示所述第三权重；

C用于表示所述覆盖率；

D用于表示所述热点滞后时间；

C₀用于表示第二网络信息总量；

Q_all用于表示所述第一网络信息总量；

T_delay用于表示所述标准时间和所述发布时间之间的差值。

4.根据权利要求2所述的网络信息数据热度的计算方法，其特征在于，所述网络信息数据包括新闻数据以及社交平台数据；

则所述步骤S1具体包括：

5.根据权利要求4所述的网络信息数据热度的计算方法，其特征在于，执行所述步骤S9之后，还包括网络信息数据量扩充的过程，具体包括：

6.根据权利要求1所述的网络信息数据热度的计算方法，其特征在于，所述步骤S5具体包括：

7.根据权利要求6所述的网络信息数据热度的计算方法，其特征在于，执行所述步骤S55之后，还包括：

若所述第二向量距离小于所述第二距离阈值，则退出；

8.根据权利要求1所述的网络信息数据热度的计算方法，其特征在于，所述步骤S6中，所述用户行为数据包括用户点击，和/或用户收藏，和/或用户点赞，和/或用于评论，和/或用于分享。

9.根据权利要求1所述的网络信息数据热度的计算方法，其特征在于，所述步骤S7中，采用TextRank算法对所述网络信息事件库中每个所述网络信息事件子集合包含的各所述网络信息数据进行排序。

10.根据权利要求1所述的网络信息数据热度的计算方法，其特征在于，所述步骤S8具体包括：

若否，则转向步骤S82；