CN103593358A - 一种基于聚类分析的互联网信息热点控制方法 - Google Patents
一种基于聚类分析的互联网信息热点控制方法 Download PDFInfo
- Publication number
- CN103593358A CN103593358A CN201210290482.XA CN201210290482A CN103593358A CN 103593358 A CN103593358 A CN 103593358A CN 201210290482 A CN201210290482 A CN 201210290482A CN 103593358 A CN103593358 A CN 103593358A
- Authority
- CN
- China
- Prior art keywords
- information
- polymeric type
- temperature
- follows
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明是一种基于聚类分析的互联网信息热点控制方法,该方法首先获取信息集合S;其次将集合S中的信息聚合成若干个集合,计为C,C包含C1、C2、…、Cn(其中:|C1|+|C2|+…+|Cn|=|S|);接着计算每一个小集合Ci的热度,Ci的热度由它包含的每条信息的热度累加而成;最后对C进行热度的排序。本发明方法合理,操作方便,准确性高,它对热度的计算基于信息自身属性和信息之间的相关性,具有普遍性,适合整个互联网信息的热度计算。
Description
技术领域
本发明属于互联网信息挖掘领域,具体地说是涉及一种基于聚类分析的互联网信息热点控制方法。
背景技术
随着互联网的迅速发展,网络舆情信息在不断的加速增长着。这些海量的信息对社会所造成的影响不能再回避,当前高新科技手段的介入成为了必然,需要一套自动的舆情分析系统,及时有效的发现目前网络所面临的热点突发事件,为上级领导的决策做出正确的引导。但是,现有技术中还没有公开实用性较强的互联网信息热点控制方法。
发明内容
本发明要解决的技术问题是针对现有技术的不足,提供一种新的、方法设计合理、可操作性强、准确性较高的基于聚类分析的互联网信息热点控制方法。
本发明所要解决的技术问题是通过以下的技术方案来实现的。本发明是一种基于聚类分析的互联网信息热点控制方法,其特点是:首先获取信息集合S;其次将集合S中的信息聚合成若干个小集合C,C包含C1、C2、……、Cn;其中:|C1|+|C2|+……+|Cn|=|S|;接着计算每一个小集合Ci的热度;最后将C进行热度排序;其具体步骤如下:
(1)、获取信息集合S;其操作步骤如下:
(1-1)、从数据采集处获取初始数据集S1;
(1-2)、区分并保存S1中的每一条信息的属性,其中属性包括:信息权重r;信息访问量a;信息回复量b;信息的转发量c;
(1-3)、将处理后的信息看作集合S;
(2)、将集合S中的信息聚合成类集合C;其操作步骤如下:
(2-1)、依次提取S中的每一条信息di;
(2-2)、提取di的特征词集合F(di);
(2-3)、探测是否存在已形成的聚合类C,若存在则转入下述步骤(2-3-1);否则转入下述步骤(2-3-2);
(2-3-1)、将F(di)与某一类Ci的中心信息的特征词集合作相似度比较,结果若大于等于设定的阀值,则将di加入到聚合类Ci,并调整Ci的中心文章;否则返回重复3-3,逐一比较F(di)与每一个聚合类的中心信息的特征词集合的相似度,如全部比较完成后di仍没有聚合到某一聚合类,则创建新的聚合类,并将di加入到新创建的聚合类;
(2-3-2)、创建新的聚合类,并将di加入到新创建的聚合类;
(2-4)、返回重复执行步骤(2-1),直至处理完成S中所有信息,所有的聚合类Ci集合,即为所述的聚合类的集合C;
(3)、计算每个聚合类的热度;其操作步骤如下:
(3-1)、获取步骤(2)中得到某一聚合类Ci;
(3-2)、获取Ci中的信息di;
(3-3)、获取di的自身属性:信息权重r;信息访问量a;信息回复量b;转发量c;
(3-4)、计算di的热度H(di)=r×(a×l%+b×m%+c×n%);其中,l,m,n均属于正整数,且 l+m+n=100;
(3-5)、计算Ci的热度,计算公式如下:
(3-6)、返回重复执行步骤(3-1),直至处理完所有的聚合类;
(4)、将集合C进行排序;其操作步骤如下:
(4-1)、获取步骤(3)中得到的聚合类的热度;
(4-2)、使用快速排序算法对C进行排序。
本发明方法将传统对类的表示方法进行了改进,回避了用所有点或用中心和半径来表示一个类,而是从每一个类中抽取固定数量、分布较好的点作为描述此类的代表点,使它们更靠近类的中心点。将一个类用代表点表示,使得类的外延可以向非球形的形状扩展,从而可调整类的形状以表达那些非球形的类。热点的控制计算是基于类中信息具体属性的,在确定已知信息的访问量、回复量、转发量以及信息的来源媒体的权重,很自然的可以确定该信息的热度,并以此计算出类的热度。
与现有技术相比,本发明方法设计合理,操作方便,准确性高。本发明方法对热度的控制计算基于信息自身属性和信息之间的相关性,具有普遍性,适合整个互联网信息的热度计算控制。
附图说明
图1是本发明的基于聚类分析的互联网信息热点控制方法的流程图;
图2是图1中步骤101所述的获取信息集合S;
图3是图1中步骤102所述的将S中的信息聚合成类集合C;
图4是图1中步骤103所述的计算每个聚合集合Ci的热度;
图5是图1中步骤104所述的将集合C排序。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的描述,而不构成对本发明权利的限制。
实施例1,参照图1-5,一种基于聚类分析的互联网信息热点控制方法,首先获取信息集合S;其次将集合S中的信息聚合成若干个小集合C,C包含C1、C2、……、Cn;其中:|C1|+|C2|+……+|Cn|=|S|;接着计算每一个小集合Ci的热度;最后将C进行热度排序;其具体步骤如下:
(1)、获取信息集合S;其操作步骤如下:
(1-1)、从数据采集处获取初始数据集S1;
(1-2)、区分并保存S1中的每一条信息的属性,其中属性包括:信息权重r;信息访问量a;信息回复量b;信息的转发量c;
(1-3)、将处理后的信息看作集合S;
(2)、将集合S中的信息聚合成类集合C;其操作步骤如下:
(2-1)、依次提取S中的每一条信息di;
(2-2)、提取di的特征词集合F(di);
(2-3)、探测是否存在已形成的聚合类C,若存在则转入下述步骤(2-3-1);否则转入下述步骤(2-3-2);
(2-3-1)、将F(di)与某一类Ci的中心信息的特征词集合作相似度比较,结果若大于等于设定的阀值,则将di加入到聚合类Ci,并调整Ci的中心文章;否则返回重复3-3,逐一比较F(di)与每一个聚合类的中心信息的特征词集合的相似度,如全部比较完成后di仍没有聚合到某一聚合类,则创建新的聚合类,并将di加入到新创建的聚合类;
(2-3-2)、创建新的聚合类,并将di加入到新创建的聚合类;
(2-4)、返回重复执行步骤(2-1),直至处理完成S中所有信息,所有的聚合类Ci集合,即为所述的聚合类的集合C;
(3)、计算每个聚合类的热度;其操作步骤如下:
(3-1)、获取步骤(2)中得到某一聚合类Ci;
(3-2)、获取Ci中的信息di;
(3-3)、获取di的自身属性:信息权重r;信息访问量a;信息回复量b;转发量c;
(3-4)、计算di的热度H(di)=r×(a×l%+b×m%+c×n%);其中,l,m,n均属于正整数,且 l+m+n=100;
(3-5)、计算Ci的热度,计算公式如下:
(3-6)、返回重复执行步骤(3-1),直至处理完所有的聚合类;
(4)、将集合C进行排序;其操作步骤如下:
(4-1)、获取步骤(3)中得到的聚合类的热度;
(4-2)、使用快速排序算法对C进行排序。
实施例2,基于聚类分析的互联网信息热点控制方法操作实例。包括如下步骤:参照图1,
步骤101、获取信息集合S,其具体如下:
(1)、获取互联网初始信息集合S1;
(2)、在每一条信息中,提取信息的权重r(权重在采集初期定义);信息访问量a;信息回复量b;信息转发量c;
(3)、得到信息集合S;
步骤102、将集合S中的信息聚合成类集合C。参照图3,包括如下步骤:
步骤301、从数据库中获取已处理的数据,记为S;判断S中信息数量是否为0,若是,跳转到311步骤,准备结束运行;否则,进入302步骤,对数据进行处理;
步骤302、遍历S中的每一条信息;
步骤303、使用断句分词的方法提取该信息的特征词;例:一段话“据新华社电 中国驻苏丹大使馆2日说,中方正在继续积极与苏丹方面沟通,敦促苏丹方面在确保人质安全的前提下尽快使被劫持的29名中国员工获释。”经过处理以后所得到的特征词为“新华社/1,中国驻/1,苏丹/3,丹大/1,大使馆/1,中方/1,方正/1,正在/1,继续/1,积极/1,丹方/2,方面/2,沟通/1,敦促/1,确保/1,保人/1,人质/1,安全/1,前提下/1,尽快/1,被劫持/1,中国/1,员工/1,获释/1”。
步骤304、探测是否已有形成的聚合类C;若没有,则创建新的聚合类,并将该信息作为类的一篇文章;若存在已形成的类,则转入到步骤305;
步骤305和306、计算该信息与聚合类Ci的每一篇中心文章作相似度比较,所得到结果若大于等于已设定的阀值,则转入到309进行类的合并处理;若小于设定阀值,则继续和下一个聚合类作相似度比较,直到聚合到某一类别中;
步骤307和308、判断信息是否已与所有的类比较完成,若没有完成则断续比较;若比较完成,则新创建类别,并将该信息加入到该类;
步骤309和310、将已满足条件的文章的ID写入到该类,并重新计算该类包含的所有信息的中心文章;计算完成后,进入到下一条信息的处理。
步骤311、当S中所有的信息聚合完成后,形成聚合类C;
步骤103、计算每个聚合集合Ci的热度,参照图4,包括如下步骤:
步骤401、获取C中的每个聚合类;
步骤402、遍历聚合类中每一条信息di;
步骤403、提取信息di中的属性:信息权重r,信息访问量a,信息回复量b,信息转发量c;
步骤404、计算di的热度F(di)=r×(a×l%+b×m%+c×n%);其中:l,m,n为正整数;且l+m+n=100;
步骤405、判断Ci中的数据是否已遍历完成;若是,则进入到406,进行Ci热度计算;否则继续执行单信息的热度计算。
步骤406、计算Ci的热度,计算公式如下:
步骤104、将集合C排序,参照图4,包括如下步骤:
步骤501、获取集合C;
步骤502、使用快速排序算法对C进行排序。
Claims (1)
1.一种基于聚类分析的互联网信息热点控制方法,其特征在于:首先获取信息集合S;其次将集合S中的信息聚合成若干个小集合C,C包含C1、C2、……、Cn;其中:|C1|+|C2|+……+|Cn|=|S|;接着计算每一个小集合Ci的热度;最后将C进行热度排序;其具体步骤如下:
(1)、获取信息集合S;其操作步骤如下:
(1-1)、从数据采集处获取初始数据集S1;
(1-2)、区分并保存S1中的每一条信息的属性,其中属性包括:信息权重r;信息访问量a;信息回复量b;信息的转发量c;
(1-3)、将处理后的信息看作集合S;
(2)、将集合S中的信息聚合成类集合C;其操作步骤如下:
(2-1)、依次提取S中的每一条信息di;
(2-2)、提取di的特征词集合F(di);
(2-3)、探测是否存在已形成的聚合类C,若存在则转入下述步骤(2-3-1);否则转入下述步骤(2-3-2);
(2-3-1)、将F(di)与某一类Ci的中心信息的特征词集合作相似度比较,结果若大于等于设定的阀值,则将di加入到聚合类Ci,并调整Ci的中心文章;否则返回重复3-3,逐一比较F(di)与每一个聚合类的中心信息的特征词集合的相似度,如全部比较完成后di仍没有聚合到某一聚合类,则创建新的聚合类,并将di加入到新创建的聚合类;
(2-3-2)、创建新的聚合类,并将di加入到新创建的聚合类;
(2-4)、返回重复执行步骤(2-1),直至处理完成S中所有信息,所有的聚合类Ci集合,即为所述的聚合类的集合C;
(3)、计算每个聚合类的热度;其操作步骤如下:
(3-1)、获取步骤(2)中得到某一聚合类Ci;
(3-2)、获取Ci中的信息di;
(3-3)、获取di的自身属性:信息权重r;信息访问量a;信息回复量b;转发量c;
(3-4)、计算di的热度H(di)=r×(a×l%+b×m%+c×n%);其中,l,m,n均属于正整数,且 l+m+n=100;
(3-5)、计算Ci的热度,计算公式如下:
;
(3-6)、返回重复执行步骤(3-1),直至处理完所有的聚合类;
(4)、将集合C进行排序;其操作步骤如下:
(4-1)、获取步骤(3)中得到的聚合类的热度;
(4-2)、使用快速排序算法对C进行排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210290482.XA CN103593358B (zh) | 2012-08-16 | 2012-08-16 | 一种基于聚类分析的互联网信息热点控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210290482.XA CN103593358B (zh) | 2012-08-16 | 2012-08-16 | 一种基于聚类分析的互联网信息热点控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103593358A true CN103593358A (zh) | 2014-02-19 |
CN103593358B CN103593358B (zh) | 2016-01-20 |
Family
ID=50083507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210290482.XA Active CN103593358B (zh) | 2012-08-16 | 2012-08-16 | 一种基于聚类分析的互联网信息热点控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103593358B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104731857A (zh) * | 2015-01-27 | 2015-06-24 | 南京烽火星空通信发展有限公司 | 一种舆情热度的快速计算方法 |
CN104809252A (zh) * | 2015-05-20 | 2015-07-29 | 成都布林特信息技术有限公司 | 互联网数据提取系统 |
CN105095318A (zh) * | 2014-05-22 | 2015-11-25 | 北京启明星辰信息安全技术有限公司 | 一种实现热点分析的方法和装置 |
CN109189934A (zh) * | 2018-11-13 | 2019-01-11 | 平安科技(深圳)有限公司 | 舆情推荐方法、装置、计算机设备及存储介质 |
CN109885747A (zh) * | 2019-01-28 | 2019-06-14 | 平安科技(深圳)有限公司 | 行业舆情监控方法、装置、计算机设备及存储介质 |
CN115795175A (zh) * | 2023-02-15 | 2023-03-14 | 铭台(北京)科技有限公司 | 基于数据分析的多维度热点提取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070294230A1 (en) * | 2006-05-31 | 2007-12-20 | Joshua Sinel | Dynamic content analysis of collected online discussions |
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN101980199A (zh) * | 2010-10-28 | 2011-02-23 | 北京交通大学 | 基于态势评估的网络热点话题发现方法及系统 |
-
2012
- 2012-08-16 CN CN201210290482.XA patent/CN103593358B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070294230A1 (en) * | 2006-05-31 | 2007-12-20 | Joshua Sinel | Dynamic content analysis of collected online discussions |
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN101980199A (zh) * | 2010-10-28 | 2011-02-23 | 北京交通大学 | 基于态势评估的网络热点话题发现方法及系统 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095318A (zh) * | 2014-05-22 | 2015-11-25 | 北京启明星辰信息安全技术有限公司 | 一种实现热点分析的方法和装置 |
CN105095318B (zh) * | 2014-05-22 | 2019-02-26 | 北京启明星辰信息安全技术有限公司 | 一种实现热点分析的方法和装置 |
CN104731857A (zh) * | 2015-01-27 | 2015-06-24 | 南京烽火星空通信发展有限公司 | 一种舆情热度的快速计算方法 |
CN104731857B (zh) * | 2015-01-27 | 2018-01-12 | 南京烽火星空通信发展有限公司 | 一种舆情热度的快速计算方法 |
CN104809252A (zh) * | 2015-05-20 | 2015-07-29 | 成都布林特信息技术有限公司 | 互联网数据提取系统 |
CN104809252B (zh) * | 2015-05-20 | 2018-05-04 | 成都信息工程大学 | 互联网数据提取系统 |
CN109189934A (zh) * | 2018-11-13 | 2019-01-11 | 平安科技(深圳)有限公司 | 舆情推荐方法、装置、计算机设备及存储介质 |
CN109885747A (zh) * | 2019-01-28 | 2019-06-14 | 平安科技(深圳)有限公司 | 行业舆情监控方法、装置、计算机设备及存储介质 |
CN115795175A (zh) * | 2023-02-15 | 2023-03-14 | 铭台(北京)科技有限公司 | 基于数据分析的多维度热点提取方法 |
CN115795175B (zh) * | 2023-02-15 | 2023-04-25 | 铭台(北京)科技有限公司 | 基于数据分析的多维度热点提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103593358B (zh) | 2016-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103593358B (zh) | 一种基于聚类分析的互联网信息热点控制方法 | |
CN106845717B (zh) | 一种基于多模型融合策略的能源效率评价方法 | |
Yan et al. | Water eutrophication evaluation based on rough set and petri nets: A case study in Xiangxi-River, Three Gorges Reservoir | |
CN107885760A (zh) | 一种基于多种语义的知识图谱表示学习方法 | |
CN111597217B (zh) | 基于模糊对象语言概念格的个性化推荐方法 | |
CN102289522A (zh) | 一种对于文本智能分类的方法 | |
CN110991653A (zh) | 一种针对不平衡数据集分类的方法 | |
CN107229668A (zh) | 一种基于关键词匹配的正文抽取方法 | |
CN103336957A (zh) | 一种基于时空特征的网络同源视频检测方法 | |
CN109359172A (zh) | 一种基于图划分的实体对齐优化方法 | |
CN106021329A (zh) | 基于用户相似度的稀疏数据协同过滤推荐方法 | |
CN107688831A (zh) | 一种基于聚类下采样的不平衡数据分类方法 | |
CN102214241A (zh) | 一种基于图聚类的用户生成文本流中的突发话题检测方法 | |
CN107145523A (zh) | 基于迭代匹配的大型异构知识库对齐方法 | |
CN103838744A (zh) | 一种查询词需求分析的方法及装置 | |
CN111597331A (zh) | 一种基于贝叶斯网络的裁判文书分类方法 | |
CN108874916A (zh) | 一种层叠组合协同过滤推荐方法 | |
CN106339455A (zh) | 基于文本标签特征挖掘的网页正文提取方法 | |
CN105678590A (zh) | 一种面向社交网络基于云模型的topN推荐方法 | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN104361135A (zh) | 一种图像检索方法 | |
CN105653567A (zh) | 一种文本序列数据中快速查找特征字符串的方法 | |
CN104102718A (zh) | 面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法 | |
CN110851577A (zh) | 一种电力领域的知识图谱扩充方法及装置 | |
CN109783586A (zh) | 基于聚类重采样的水军评论检测系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |