CN103593358A

CN103593358A - 一种基于聚类分析的互联网信息热点控制方法

Info

Publication number: CN103593358A
Application number: CN201210290482.XA
Authority: CN
Inventors: 伊鹏; 陈永江; 刘永超; 夏波
Original assignee: JIANGSU JINGE NETWORK TECHNOLOGY Co Ltd
Current assignee: JIANGSU JINGE NETWORK TECHNOLOGY Co Ltd
Priority date: 2012-08-16
Filing date: 2012-08-16
Publication date: 2014-02-19
Anticipated expiration: 2032-08-16
Also published as: CN103593358B

Abstract

本发明是一种基于聚类分析的互联网信息热点控制方法，该方法首先获取信息集合S；其次将集合S中的信息聚合成若干个集合，计为C，C包含C1、C2、…、Cn（其中：｜C1｜+｜C2｜+…+｜Cn｜=｜S｜）；接着计算每一个小集合Ci的热度,Ci的热度由它包含的每条信息的热度累加而成；最后对C进行热度的排序。本发明方法合理，操作方便，准确性高，它对热度的计算基于信息自身属性和信息之间的相关性，具有普遍性，适合整个互联网信息的热度计算。

Description

一种基于聚类分析的互联网信息热点控制方法

技术领域

本发明属于互联网信息挖掘领域，具体地说是涉及一种基于聚类分析的互联网信息热点控制方法。

背景技术

随着互联网的迅速发展，网络舆情信息在不断的加速增长着。这些海量的信息对社会所造成的影响不能再回避，当前高新科技手段的介入成为了必然，需要一套自动的舆情分析系统，及时有效的发现目前网络所面临的热点突发事件，为上级领导的决策做出正确的引导。但是，现有技术中还没有公开实用性较强的互联网信息热点控制方法。

发明内容

本发明要解决的技术问题是针对现有技术的不足，提供一种新的、方法设计合理、可操作性强、准确性较高的基于聚类分析的互联网信息热点控制方法。

本发明所要解决的技术问题是通过以下的技术方案来实现的。本发明是一种基于聚类分析的互联网信息热点控制方法，其特点是：首先获取信息集合S；其次将集合S中的信息聚合成若干个小集合C，C包含C1、C2、……、Cn；其中：｜C1｜+｜C2｜+……+｜Cn｜=｜S｜；接着计算每一个小集合Ci的热度；最后将C进行热度排序；其具体步骤如下：

(1)、获取信息集合S；其操作步骤如下：

(1-1)、从数据采集处获取初始数据集S1；

(1-2)、区分并保存S1中的每一条信息的属性，其中属性包括：信息权重r；信息访问量a；信息回复量b；信息的转发量c；

(1-3)、将处理后的信息看作集合S；

(2)、将集合S中的信息聚合成类集合C；其操作步骤如下：

(2-1)、依次提取S中的每一条信息di；

(2-2)、提取di的特征词集合F(di)；

(2-3)、探测是否存在已形成的聚合类C，若存在则转入下述步骤（2-3-1）；否则转入下述步骤（2-3-2）；

(2-3-1)、将F(di)与某一类Ci的中心信息的特征词集合作相似度比较，结果若大于等于设定的阀值，则将di加入到聚合类Ci，并调整Ci的中心文章；否则返回重复3-3，逐一比较F（di）与每一个聚合类的中心信息的特征词集合的相似度，如全部比较完成后di仍没有聚合到某一聚合类，则创建新的聚合类，并将di加入到新创建的聚合类；

(2-3-2)、创建新的聚合类，并将di加入到新创建的聚合类；

(2-4)、返回重复执行步骤（2-1），直至处理完成S中所有信息，所有的聚合类Ci集合，即为所述的聚合类的集合C；

(3)、计算每个聚合类的热度；其操作步骤如下：

(3-1)、获取步骤（2）中得到某一聚合类Ci；

(3-2)、获取Ci中的信息di；

(3-3)、获取di的自身属性：信息权重r；信息访问量a；信息回复量b；转发量c；

(3-4)、计算di的热度H(di)=r×(a×l%+b×m%+c×n%)；其中，l，m，n均属于正整数，且 l+m+n=100；

(3-5)、计算Ci的热度，计算公式如下：

；

(3-6)、返回重复执行步骤（3-1），直至处理完所有的聚合类；

(4)、将集合C进行排序；其操作步骤如下：

(4-1)、获取步骤（3）中得到的聚合类的热度；

(4-2)、使用快速排序算法对C进行排序。

本发明方法将传统对类的表示方法进行了改进，回避了用所有点或用中心和半径来表示一个类，而是从每一个类中抽取固定数量、分布较好的点作为描述此类的代表点，使它们更靠近类的中心点。将一个类用代表点表示，使得类的外延可以向非球形的形状扩展，从而可调整类的形状以表达那些非球形的类。热点的控制计算是基于类中信息具体属性的，在确定已知信息的访问量、回复量、转发量以及信息的来源媒体的权重，很自然的可以确定该信息的热度，并以此计算出类的热度。

与现有技术相比，本发明方法设计合理，操作方便，准确性高。本发明方法对热度的控制计算基于信息自身属性和信息之间的相关性，具有普遍性，适合整个互联网信息的热度计算控制。

附图说明

图1是本发明的基于聚类分析的互联网信息热点控制方法的流程图；

图2是图1中步骤101所述的获取信息集合S；

图3是图1中步骤102所述的将S中的信息聚合成类集合C；

图4是图1中步骤103所述的计算每个聚合集合Ci的热度；

图5是图1中步骤104所述的将集合C排序。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的描述，而不构成对本发明权利的限制。

实施例1，参照图1-5，一种基于聚类分析的互联网信息热点控制方法，首先获取信息集合S；其次将集合S中的信息聚合成若干个小集合C，C包含C1、C2、……、Cn；其中：｜C1｜+｜C2｜+……+｜Cn｜=｜S｜；接着计算每一个小集合Ci的热度；最后将C进行热度排序；其具体步骤如下：

(1)、获取信息集合S；其操作步骤如下：

(1-1)、从数据采集处获取初始数据集S1；

(1-3)、将处理后的信息看作集合S；

(2)、将集合S中的信息聚合成类集合C；其操作步骤如下：

(2-1)、依次提取S中的每一条信息di；

(2-2)、提取di的特征词集合F(di)；

(2-3-2)、创建新的聚合类，并将di加入到新创建的聚合类；

(3)、计算每个聚合类的热度；其操作步骤如下：

(3-1)、获取步骤（2）中得到某一聚合类Ci；

(3-2)、获取Ci中的信息di；

(3-5)、计算Ci的热度，计算公式如下：

；

(4)、将集合C进行排序；其操作步骤如下：

(4-1)、获取步骤（3）中得到的聚合类的热度；

(4-2)、使用快速排序算法对C进行排序。

实施例2，基于聚类分析的互联网信息热点控制方法操作实例。包括如下步骤：参照图1，

步骤101、获取信息集合S，其具体如下：

(1)、获取互联网初始信息集合S1；

(2)、在每一条信息中，提取信息的权重r（权重在采集初期定义）；信息访问量a；信息回复量b；信息转发量c；

(3)、得到信息集合S；

步骤102、将集合S中的信息聚合成类集合C。参照图3，包括如下步骤：

步骤301、从数据库中获取已处理的数据，记为S；判断S中信息数量是否为0，若是，跳转到311步骤，准备结束运行；否则，进入302步骤，对数据进行处理；

步骤302、遍历S中的每一条信息；

步骤303、使用断句分词的方法提取该信息的特征词；例：一段话“据新华社电中国驻苏丹大使馆2日说，中方正在继续积极与苏丹方面沟通，敦促苏丹方面在确保人质安全的前提下尽快使被劫持的29名中国员工获释。”经过处理以后所得到的特征词为“新华社/1,中国驻/1,苏丹/3,丹大/1,大使馆/1,中方/1,方正/1,正在/1,继续/1,积极/1,丹方/2,方面/2,沟通/1,敦促/1,确保/1,保人/1,人质/1,安全/1,前提下/1,尽快/1,被劫持/1,中国/1,员工/1,获释/1”。

步骤304、探测是否已有形成的聚合类C；若没有，则创建新的聚合类，并将该信息作为类的一篇文章；若存在已形成的类，则转入到步骤305；

步骤305和306、计算该信息与聚合类Ci的每一篇中心文章作相似度比较，所得到结果若大于等于已设定的阀值，则转入到309进行类的合并处理；若小于设定阀值，则继续和下一个聚合类作相似度比较，直到聚合到某一类别中；

步骤307和308、判断信息是否已与所有的类比较完成，若没有完成则断续比较；若比较完成，则新创建类别，并将该信息加入到该类；

步骤309和310、将已满足条件的文章的ID写入到该类，并重新计算该类包含的所有信息的中心文章；计算完成后，进入到下一条信息的处理。

步骤311、当S中所有的信息聚合完成后，形成聚合类C；

步骤103、计算每个聚合集合Ci的热度，参照图4，包括如下步骤：

步骤401、获取C中的每个聚合类；

步骤402、遍历聚合类中每一条信息di；

步骤403、提取信息di中的属性：信息权重r，信息访问量a，信息回复量b，信息转发量c；

步骤404、计算di的热度F(di)=r×(a×l%+b×m%+c×n%)；其中：l，m，n为正整数；且l+m+n=100；

步骤405、判断Ci中的数据是否已遍历完成；若是，则进入到406，进行Ci热度计算；否则继续执行单信息的热度计算。

步骤406、计算Ci的热度，计算公式如下：

；

步骤104、将集合C排序，参照图4，包括如下步骤：

步骤501、获取集合C；

步骤502、使用快速排序算法对C进行排序。

Claims

1.一种基于聚类分析的互联网信息热点控制方法，其特征在于：首先获取信息集合S；其次将集合S中的信息聚合成若干个小集合C，C包含C1、C2、……、Cn；其中：｜C1｜+｜C2｜+……+｜Cn｜=｜S｜；接着计算每一个小集合Ci的热度；最后将C进行热度排序；其具体步骤如下：

(1)、获取信息集合S；其操作步骤如下：

(1-1)、从数据采集处获取初始数据集S1；

(1-3)、将处理后的信息看作集合S；

(2)、将集合S中的信息聚合成类集合C；其操作步骤如下：

(2-1)、依次提取S中的每一条信息di；

(2-2)、提取di的特征词集合F(di)；

(2-3-2)、创建新的聚合类，并将di加入到新创建的聚合类；

(3)、计算每个聚合类的热度；其操作步骤如下：

(3-1)、获取步骤（2）中得到某一聚合类Ci；

(3-2)、获取Ci中的信息di；

(3-5)、计算Ci的热度，计算公式如下：

；

(4)、将集合C进行排序；其操作步骤如下：

(4-1)、获取步骤（3）中得到的聚合类的热度；

(4-2)、使用快速排序算法对C进行排序。