CN101763401B - 一种网络舆情的热点预测和分析方法 - Google Patents
一种网络舆情的热点预测和分析方法 Download PDFInfo
- Publication number
- CN101763401B CN101763401B CN2009102144016A CN200910214401A CN101763401B CN 101763401 B CN101763401 B CN 101763401B CN 2009102144016 A CN2009102144016 A CN 2009102144016A CN 200910214401 A CN200910214401 A CN 200910214401A CN 101763401 B CN101763401 B CN 101763401B
- Authority
- CN
- China
- Prior art keywords
- focus
- public
- public sentiment
- feelings information
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
本发明涉及一种网络舆情的热点预测和分析方法,包括以下步骤:步骤(1)、将及时采集的舆情信息输入基于内容快速识别的热点舆情预测模型,根据处理结果将舆情信息分为热点舆情和普通舆情,对热点舆情发出预警;步骤(2)、将普通舆情信息输入基于数值表现的热点预测模型,从参与人数分布和时间状态分布上,对所输入的普通舆情信息进行数值模式匹配,检测出步骤(1)所漏检的热点舆情信息;步骤(3)、对热点舆情进行分析;步骤(4)、对热点舆情进行预测。本发明将内容和数值表现结合在一起,是一种综合的舆情热点监控方法,预测时间短,且预测效果准确。
Description
技术领域
本发明涉及网络信息安全领域,更具体的说是一种网络舆情的热点预测和分析方法。
背景技术
舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。
网络舆情是社会舆情在互联网空间的映射,是社会舆情的直接反映。随着网络的迅速发展,网络舆情已经成为反映社会舆情的主要表现形式。网络舆情借助网络的众多特点表现出了以下几个特点:
1)参与广泛性。网络的迅速普及使得网络言论更为方便,身份的隐蔽使得言论更为广泛和自由。参与人数众多,参与人数复杂,导致网络舆论引起的社会事件越来越具有群体性。
2)存在多样化。网络舆情主要载体有:新闻评论、BBS、博客、社区网站、群体聊天室等。随着WEB技术的不断更新,传播方式更加多样化。
3)传播迅速,具有很强的突发性。舆情借助网络信息的快速发布,在较短时间内形成舆情热点,进而反映社会现实或者事件,具有突发性特点。
中国互联网信息中心2009年7月发布的最新报告中说明:“中国网民规模达到3.38亿人,普及率达到25.5%。网民规模较2008年底年增长4000万人,半年增长率为13.4%,中国网民规模依然保持快速增长之势”。同时也说明了网络舆情会越来越多地影响社会,特别是热点舆情可能是社会问题的反应。从网络安全与社会和谐建设角度出发,网络舆情的监控,特别是热点舆情预测和分析,是未来舆情领域研究的重点。
目前网络热点舆情的分析方法主要有以下几类:
一是:通过对抓取的舆情信息聚类分析,从分析类别的内容和数量上阐述舆情热点。如中国专利公开号为CN101414300A的发明专利申请将舆情信息分类、中文信息处理,得到向量化的分类特征,在后来的分析中利用特征来匹配舆情内容。
二是:通过获取舆情信息的参与人数、信息回帖的时间分布特点等舆情信息的数字表现形式上预测热点、分析热点。如中国专利公开号为CN101394311A的发明专利申请中根据舆情热点形成的时间序列特点,建立时间序列预测模型,进而对可能出现的热点舆情进行分析预测。
三是:从热点舆情的形成、发展流程上分析,利用数据挖掘中的序列模式分析来建立热点预测模型,从而对舆情信息进行预测。如中国专利公开号为CN101231641A的发明专利申请中根据互联网上热点主题传播过程和流程特点,设计了一种热点分析监控方法和系统。
上述三类分析方法的主要特点是:第一类和第二类,可以判断热点信息,但是具有明显的滞后性,应对热点舆情信息的突发不足;第三类的分析流程合理,但是目前还没有较为成熟合理的预测模型。此外,上述三类分析方法都是将内容和数值表现分开分析,没有很好的体现舆情整体表现。
发明内容
本发明的目的在于针对现有舆情热点分析方法的不足,提供一种网络舆情的热点预测和分析方法,本发明将内容和数值表现结合在一起,是一种综合的舆情热点监控方法,预测时间短,且预测效果准确。
本发明的目的通过下述技术方案实现:一种网络舆情的热点预测和分析方法,包括以下步骤:步骤(1)、将及时采集的舆情信息输入基于内容快速识别的热点舆情预测模型,根据处理结果将舆情信息分为热点舆情和普通舆情,对热点舆情发出预警;步骤(2)、将普通舆情信息输入基于数值表现的热点预测模型,从参与人数分布和时间状态分布上,对所输入的普通舆情信息进行数值模式匹配,检测出步骤(1)所漏检的热点舆情信息;步骤(3)、对热点舆情进行分析;步骤(4)、对热点舆情进行预测。
步骤(1)中所述的基于内容快速识别的热点舆情检测模型建立过程如下:步骤(11)、收集舆情监控目标在一段时间内的热点舆情信息,并将所收集的热点舆情信息分为M类,得到分类信息;步骤(12)、对步骤(11)所得的分类信息进行预处理;步骤(13)、提取类关键词特征;步骤(14)、基于内容的分类计算,建立类别空间向量,从而构建热点舆情检测模型。
步骤(12)所述的预处理为:利用中文分词系统对各类中的所有热点舆情信息进行分词。
步骤(2)中所述的基于数值表现的热点舆情检测模型建立过程如下:步骤(21)、收集舆情监控目标在一段时间内的热点舆情信息M={M1,M2,..,Mm},总热点舆情信息数为m,获取每个热点舆情信息Mi,在Δt时间内的浏览人数BNi,回帖人数RNi,回帖时间间隔序列Si,其中i=1,2,......,m;得到浏览人数BNi的数组{BNi1,BNi2,...,BNij,...},回帖人数Rni的数组{RNi1,RNi2,...,RNij,...},时间间隔序列Si的数组{Si1,Si2,...,Sij,...};步骤(22)、计算浏览人数的热点阈值H(BN);步骤(23)、计算回复人数的热点阈值H(RN);步骤(24)、计算时间间隔热点阈值H(S)和D(S);步骤(25)、建立基于数值表现的热点预测模型。
在上述网络舆情的热点预测和分析方法中,对热点舆情进行分析包括以下步骤:
步骤(31)、所有热点舆情的主题标示为H,将每个热点舆情的主题帖子分别标示为Di,1≤i≤|H|,|H|为H中的热点主题贴数量;
Di=(ti1,wi1;ti2,wi2;...;tij,wij;...)
其中tij为文本Di中的第j个关键词,wij为关键词tij在Di中的权重;
步骤(34)、采用K-means分类算法,输入所有Di和分类数K;K-means从所有Di中任意选取K个特征向量作为初始聚类中心,中心集合为D′={D1′,D2′,...,Dk′);并计算每个聚类对象的均值,如果是初次计算则选用初始选取的D′作为均值,计算1≤i≤|H|与1≤j≤K的余弦相似度大小,即:
步骤(36)、如果重新分类有变化,重复步骤(35),直到每个聚类不再发生变化,最终形成热点类集合M={M1,M2,...,Mk},Mi为一热点舆情类,K-means算法完成。
步骤(37)、将聚类取得的分类结果进行如下处理:
根据最新热点分类情况,用户判断是否根据最新出现的热点话题,对分类预警模型进行修改。
所述权重wij通过TFIDF公式计算:
TF(ti,Dj)表示ti在Dj中出现的频率,|D|表示所有热点主题帖子,即|D|=|H|,|DF(ti)|表示包含词ti的文本数。
在上述网络舆情的热点预测和分析方法中,对热点舆情进行预测包括以下步骤:
步骤(41)、采集舆情监控目标一段时间内的舆情信息;
步骤(42)、对步骤(41)采集的舆情信息进行中文信息预处理;
步骤(43)、根据步骤(13)和步骤(14),提取类关键词特征并计算出每个类的类别值I|Ci;
步骤(44)、获取标记为非热点舆情信息在Δt时间内浏览人数RN,如果若RN≥H(RN),则该信息标记为热点舆情,做出预警;否则为普通舆情;
步骤(45)、获取标记为非热点舆情信息在Δt时间内的回复时间间隔序列Si,计算Si的Si和方差D(Si),如果Si≤H(S)&&H(D(Si)≤D(S),则为热点舆情,否则为普通舆情。
步骤(42)中所述预处理为:对舆情信息进行分词,只保留长度超过2的名词、动词,并对词语去重,形成每条舆情信息对应的关键词序列。
本发明相对于现有技术具有如下的优点及效果:
1、将内容简单快速识别、数据挖掘中的聚类算法、基于热点参与者数量和热点时间处理模型有效的整合在一起,从多个方面预测热点、分析热点。
2、本发明综合了基于内容快速识别的预测技术和基于数值表现的预测技术,建立了一个完整的预测模型和流程,利用被检测对象(例如论坛等)的历史热点信息,计算设置模型的相关参数,使其可以从内容和数值表现上发现热点舆情,然后利用聚类算法对获得的热点进行聚类分析,将分析结果呈现给用户,由用户根据结果选择是否调整预测模型。
3、与传统的基于内容匹配的热点预测算法相比,本发明缩短了预测时间;与基于数值计算的热点预测算法相比,本发明的预测更加准确有效,针对特定的监控内容也将更加准确。
附图说明
图1是本发明分析热点舆情的流程图;
图2是建立基于内容快速识别的热点舆情检测模型的流程图;
图3是建立基于数值表现的热点舆情检测模型的流程图;
图4是基于数值表现的热点预测模型的工作流程图;
图5是本发明热点聚类分析的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本发明一种网络舆情的热点预测和分析方法包括以下几个步骤:
步骤(1)、将及时采集的舆情信息输入基于内容快速识别的热点舆情预测模型,根据处理结果将舆情信息分为热点舆情和普通舆情,对热点舆情发出预警,从而有利于实现热点舆情的早发现,早处理。
如图2所示,在上述步骤(1)中所述的基于内容快速识别的热点舆情检测模型建立过程如下:
步骤(11)、收集舆情监控目标(例如论坛)在较长一段时间内的热点舆情信息,并将所收集的热点舆情信息分为M类,得到分类信息。例如,收集某高校论坛最近二个月的热点舆情信息,分成4类(即M=4),分别是:情感类、工作兼职类、校园话题类、考研学习类;每类各有100条热点舆情信息。
步骤(12)、对步骤(11)所得的分类信息进行预处理。具体为:利用中文分词系统对各类中的所有热点舆情信息进行分词,因为代词、副词、形容词、助词等不能代表实际的类别,所以分词过程中必须将其删除,单个的字也不能代表实际的类别,也需要删除,留下长度超过2的名词和动词。
例如,预处理前的分类信息是:想/v问问/v所有/b的/udel女孩子/n女/b,/wd是/vshi旧/a爱/v重要/a还/d是/vshi新/a欢/ad值得/v把握/v?/ww倘若/c与/p一/m男子/n两/m情/n相/d悦/ag,/wd是否/v真的/d需要/v顾虑/n那么/rz多/m?/ww是否/v不够/a勇气/n跟/p该/rz男子/n一起/s去/vf开拓/v幸福/n的/udel疆土/n?/ww而/cc该/rz男子/n又/c亥/n怎样/ryv?/ww让/v她/rr走/v?/ww抑或/c坚信/v着/uzhe自己/rr能/v给/p她/rr幸福/a?/ww虽然/c现在/t还/d无法/v给/p她/rr任何/rz的/udel承诺/vn。/wj她/rr曾/d说/v过/vf我/rr还/d无法/v放下/v一切/rz来/vf爱/v你/rr。/wj。
预处理后的分类信息是:问问/v女孩子/n值得/v把握/v男子/n是否/v需要/v顾虑/n勇气/n男子/n开拓/v幸福/n疆土/n坚信/v承诺/v放下/v。
步骤(13)、提取类关键词特征,亦即提取类别关键字。
用向量空间模型(VSM)表示每个类,每一类可以表示为:
Ci=(Ti1,Wi1;Ti2,Wi2;...;Tin,Win;...)
其中Ci表示第i个热点类,Tij表示Ci中的第j个关键词,Wij表示Tij在Ci中的权重,j=1,2,......,n。Wij的值可以通过TFIDF公式计算:
其中,Ti代表具有某一特征的关键词;Cj表示该关键词所在的类别文本;TF(Ti,Cj)表示Ti在Cj类中各个信息文档中出现的频率;|C|代表所有类别中的所有训练信息文档的数目,即 DF(Ti)表示包含关键词Ti的类数。
对每个类按照权重递减排序,选取前n个作为该类的代表,余下的作为备选。此时每个类可以表示为:
Ci=(Ti1,Wi1;Ti2,Wi2;...;Tin,Win)
步骤(14)、基于内容的分类计算,建立类别空间向量,从而构建热点舆情检测模型。
对于待测舆情信息I,采用中文信息预处理,获得长度大于2的名词、动词和名动词序列1=(I1,I2,...,Im)。计算待测舆情信息I属于每个类的类别值I|Ci:
经过中文信息处理、类关键词特征提取等,取得类别特征,4类热点舆情信息的特征向量分别为:
情感热点特征向量为C1=(失恋,0.8714;抛弃,0.8536;分手,0.8361;处女,0.8119;背叛,0.7732;暗恋,0.7471,结婚,0.7103)。
工作兼职类特征向量为C2=(招聘会,1.1370;宣讲会,0.9421;实习,0.8641;家教,0.8117;创业,0.8036;招聘,0.7734;offer,0.7179)。
校园话题特征向量C3=(跳楼,1.274;自杀,0.9334;选课,0.9327;情侣,0.8743;图书馆,0.8427;食堂,0.7115)。
考研学习特征向量C4=(真题,0.9841;公费,0.9231;自费,0.8778;导师,0.8692;复试,0.7326;内幕,0.7116)。
步骤(2)、将普通舆情信息输入基于数值表现的热点预测模型,从参与人数分布和时间状态分布上,对所输入的普通舆情信息进行数值模式匹配,检测出步骤(1)所漏检的热点舆情信息;从而实现较为全面的热点舆情发现,弥补步骤(1)中对热点舆情发现的不足。
如图3、4所示,以论坛为例,在步骤(2)中所述的基于数值表现的热点舆情检测模型建立过程如下:
步骤(21)、收集舆情监控目标(例如某论坛)在最近一段时间的热点舆情信息M={M1,M2,..,Mm},总热点舆情信息数为m(即有m个热点帖子),获取每个热点帖子Mi(i=1,2,......,m)在Δt时间内的浏览人数BNi,回帖人数RNi,回帖时间间隔序列Si;得到浏览人数BNi的数组{BNi1,BNi2,...,BNij,...},回帖人数Rni的数组{RNi1,RNi2,...,RNij,...},时间间隔序列Si的数组{Si1,Si2,...,Sij,...}。
步骤(22)、计算浏览人数的热点阈值H(BN)。
根据所有实际BNi,计算得到H(BN)=32.7144.
步骤(23)、计算回复人数的热点阈值H(RN)。
根据所有实际RNi,计算得到H(RN)=19.5348.
步骤(24)、计算时间间隔热点阈值H(S)和D(S)。
根据所有实际Si,H(S)=10.0206,D(S)=6.5139。
步骤(25)、建立基于数值表现的热点预测模型。对于待检测舆情信息I′有:
<1>.计算Δt时间内,待检测舆情信息I′的浏览人数BN,若BN≥H(BN),则待检测舆情信息I′为热点舆情信息,对其进行预警;否则进行下一步运算。
<2>.计算Δt时间内,待检测舆情信息I′的回复人数RN,若RN≥H(RN),则待检测舆情信息I′为热点舆情信息,对其进行预警;否则进行下一步运算。
<3>.计算Δt时间内,待检测舆情信息I′的回复时间间隔序列S′={S1′,S2′,...,Sk′}。若k<5,则回帖没有超过5个,待检测舆情信息I′为普通舆情;若K≥5,则计算{S2′,...,Sk′}的H(S′)和D(S′),若H(S′)≥H(S)&&D(S′)≥D(S)则待检测舆情信息I′为热点舆情信息,否则待检测舆情信息I′为普通舆情,终止预测。
步骤(3)、对热点舆情进行分析。如图5所示,本步骤主要处理过程如下:
主要是对标记为热点的舆情信息,采用基于划分的K-means聚类算法,对热点信息进行聚类分析,其一可以明确热点内容分布,其二可以对步骤(1)中的分类模型调整,以不断适应最新热点的预测。过程如下:
步骤(31)、所有热点舆情的主题标示为H,将每个热点舆情的主题帖子分别标示为Di,1≤i≤|H|,|H|为H中的热点主题贴数量。
Di=(ti1,wi1;ti2,wi2;...;tij,wij;...)
其中tij为文本Di中的第j个关键词,wij为关键词tij在Di中的权重。wij的计算可以通过TFIDF公式计算:
TF(ti,Dj)表示ti在Dj中出现的频率,|D|表示所有热点主题帖子,即|D|=|H|,|DF(ti)|表示包含词ti的文本数。
按照词频递减排序,选择前n个作为每个热点主题帖子的特征向量,即:
Di=(ti1,wi1;ti2,wi2;...;tin,win)
步骤(34)、采用K-means分类算法,输入所有Di和分类数K。K-means从所有Di中任意选取K个特征向量作为初始聚类中心,中心集合为D′={D1′,D2′,...,Dk′)。
1≤i≤|H|按照Sim(Di,Dj′)最小为同一类的原则,进行重新分类。
步骤(36)、如果重新分类有变化,重复步骤(35),直到每个聚类不再发生变化,最终形成热点类集合M={M1,M2,...,Mk},Mi为一热点舆情类,K-means算法完成。
步骤(37)、将聚类取得的分类结果进行如下处理:
一是:对选取Mi对应的所有热点主题帖子Dj(1≤j≤|H|),同时选取Mj中词频递减排序的前N个作为该类的关键词,然后将每一个热点类的主题帖子内容列表和关键词显示给用户,例如:
----------------第1分类--共17个------------------------------
-------关键字----------------
难题 放弃 结婚 压力 分手
--------内容------------------
情侣离开了旅馆,服务员一见毛巾晕了
毕业前的晚上他告诉我他喜欢我,我们会有未来吗?
进来谈谈大家的最低择偶标准,究竟爱情有什么样的底线......
更多...
------------------第2分类--共5个------------------------------
-------关键字----------------
宣讲会 招聘 实习 福利 集团
--------内容------------------
联想集团2009-2010校园招聘启动啦
松下集团2010校园招聘启动(职位陆续更新中)
快乐求职网实习信息汇总(每日更新)
中核江苏核电2010校园招聘火热启动
金山多益2010校园招聘开始啦!附宣讲会安排New
------------------第3分类--共4个------------------------------
-------关键字----------------
真题 内幕 公费 自费 录取
--------内容-------------------
求有关宿舍安排内幕。。。。。
现当代文学0809真题回忆版
拟录取名单全部公布
管理学院还有公费吗?都改革了?
------------------第4分类--共17个------------------------------
-------关键字----------------
图书馆 选课 考试 防盗 管理
--------内容--共17个----------------
给学校的考试制度提建议
内部消息:暑期图书馆开放时间
你们遇到这种骗子了吗?
手机充值优惠事件真假
更多...
二是:根据最新热点分类情况,用户可以判断是否根据最新出现的热点话题,对分类预警模型进行修改。
根据第3类特点在考研学习特征值中应添加“录取”作为热点关键词。将相关热点信息作为训练信息添加到基于内容快速预测的热点模型当中去。
步骤(4)、除了对热点舆情信息进行分析之外,本发明还能够对热点舆情进行预测,预测过程包括如下几个步骤:
步骤(41)、采集舆情源(也称为舆情监控目标)一段时间内的舆情信息。例如采集某高校论坛一天中出现的舆情信息。
步骤(42)、对步骤(41)采集的舆情信息进行中文信息预处理。采用中科院的ICTCLAS2009汉语词法分析系统对舆情信息进行分词,只保留长度超过2的名词、动词,并对词语去重,形成每条舆情信息对应的关键词序列。
例如一条舆情信息I:提醒喜欢晚上到小山上去的情侣(大学城校区)。近
日有同学报案,在图书馆旁的小山上把包丢了,这类案件基本一个月都有几次,提醒情侣们,约会要找个好的地方,小山并不是理想场所,排开小偷不说,草从中经常有蛇类出没,希望大家注意安全。谢谢。
中文处理后得到序列{喜欢 情侣 大学 同学 报案 图书馆 案件 地方场所 小偷 希望 注意}。
步骤(43)、根据步骤(13)和步骤(14),提取类关键词特征并计算出每个类的类别值I|Ci。在本实施例中,根据热点关键词和论坛热点规律设定阈值H(I)=0.75,若:
I|C1=0<H(I),
I|C2=0<H(I),
I|C3=1.717>H(I),
I|C4=0<H(I),
则第1分类、第2分类和第4分类为普通舆情,第3分类为热点舆情。
对于经过基于内容快速识别的模型检测后标记为热点舆情的舆情信息及时预警,这样就可以对刚刚发布的又没有在数值表现上可以判断是否是热点舆情的舆情信息进行预测,可以及早发现热点舆情,并做出预警。但是由于类别关键词有限,所以单纯靠基于内容快速识别的检测模型来标记热点舆情的话,将会漏检很多热点舆情;因此,有必要对判断为非热点的舆情信息输入基于数值表现的热点预测模型进行处理,做进一步检测。
步骤(44)、获取标记为非热点舆情信息在Δt时间内浏览人数RN,如果若RN≥H(RN),则该信息标记为热点舆情,做出预警;否则下一步运算。这里Δt取一天做时间段,例如舆情I1=“情侣离开了旅馆,服务员一见毛巾晕了”的BN=65>H(BN)=32.7144,标记I1为热点舆情。而舆情I1′=“请问什么时候可以看翡翠台??”的BN=27<H(BN),所以标记I1′为普通舆情,进入下一步处理。又如舆情I2=“有没有经历过从珠海搬回广州的师兄师姐?”虽然BN=29<H(BN),但是RN=22>H(RN)=19.5348,I2为热点舆情。
步骤(45)、获取标记为非热点舆情信息在Δt时间内的回复时间间隔序列Si,计算Si的Si和方差D(Si),如果Si≤H(S)&&H(D(Si)≤D(S),则为热点舆情,否则为普通舆情。这里Δt取一天做时间段,舆情I3=“进来谈谈大家的最低择偶标准究竟爱情有什么样的底线......”,虽然I3发布较晚,没有在内容识别和浏览人数和回复人数上形成热点标示,计算I3的发布时间间隔序列S3={18,14,10,9,9,8,7,7}的S3和D(S3)。
S3=9.1429≤H(S)=10.0206&&D(S3)=5.5025≤D(S)=6.5139,所以I3为热点舆情。
最后可得预测结果为:
热点数 | 预报数 | 预报正确数 | 预报错误数 | 漏报数 | |
情感类热点 | 11 | 17 | 8 | 9 | 3 |
工作兼职热点 | 3 | 5 | 3 | 2 | 0 |
校园话题热点 | 9 | 17 | 6 | 11 | 3 |
考研学习热点 | 1 | 4 | 1 | 3 | 0 |
合计 | 24 | 43 | 18 | 25 | 6 |
在上述预测结果中,采集的信息共有主题357个,其中新发表主题116个。错误预报主要是由于某些主题贴中有热点类的关键词;而漏报主要由于热点类中缺少某些关键词。如有发表时间较晚,关键词中没有相关比对,如坠楼代替了自杀和跳楼,在没有明显数量表现前,判为普通信息,导致热点舆情信息的漏报。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.一种网络舆情的热点预测和分析方法,其特征在于包括以下步骤:
步骤(1)、将及时采集的舆情信息输入基于内容快速识别的热点舆情预测模型,根据处理结果将舆情信息分为热点舆情和普通舆情,对热点舆情发出预警;
步骤(2)、将普通舆情信息输入基于数值表现的热点预测模型,从参与人数分布和时间状态分布上,对所输入的普通舆情信息进行数值模式匹配,检测出步骤(1)所漏检的热点舆情信息;
步骤(3)、对热点舆情进行分析;
步骤(4)、对热点舆情进行预测;
步骤(1)中所述的基于内容快速识别的热点舆情预测模型建立过程如下:
步骤(11)、收集舆情监控目标在一段时间内的热点舆情信息,并将所收集的热点舆情信息分为M类,得到分类信息;
步骤(12)、对步骤(11)所得的分类信息进行预处理;
步骤(13)、提取类关键词特征,其中用向量空间模型表示每个类,每一类表示为:
Ci=(Ti1,Wi1;Ti2,Wi2;...;Tin,Win;...)
其中Ci表示第i个热点类,Tij表示Ci中的第j个关键词,Wij表示Tij在Ci中的权重,j=1,2,……,n;
步骤(14)、基于内容的分类计算,建立类别空间向量,从而构建热点舆情预测模型;对于待测舆情信息I,采用中文信息预处理,获得长度大于2的名词、动词和名动词序列I=(I1,I2,...,Im),计算待测舆情信息I属于每个类的类别值I|Ci:
设H(I)为预设阈值,若I|Ci≥H(I),且I|Ci最大,则待测舆情信息I为Ci类热点舆情信息;若I|Ci<H(I),则待测舆情信息I为普通舆情信息;
步骤(2)中所述的基于数值表现的热点预测模型建立过程如下:
步骤(21)、收集舆情监控目标在一段时间内的热点舆情信息M={M1,M2,..,Mm},总热点舆情信息数为m,获取每个热点舆情信息Mi,在Δt时间内的浏览人数BNi,回帖人数RNi,回帖时间间隔序列Si,其中i=1,2,......,m;得到浏览人数BNi的数组{BNi1,BNi2,...,BNij,...},回帖人数Rni的数组{RNi1,RNi2,...,RNij,...},时间间隔序列Si的数组{Si1,Si2,...,Sij,...};
步骤(22)、计算浏览人数的热点阈值H(BN);
步骤(23)、计算回复人数的热点阈值H(RN);
步骤(25)、建立基于数值表现的热点预测模型;对于待检测舆情信息I′有:
<1>.计算Δt时间内,待检测舆情信息I′的浏览人数BN,若BN≥H(BN),则待检测舆情信息I′为热点舆情信息,对热点舆情信息进行预警;否则进行下一步运算;
<2>.计算Δt时间内,待检测舆情信息I′的回复人数RN,若RN≥H(RN),则待检测舆情信息I′为热点舆情信息,对热点舆情信息进行预警;否则进行下一步运算;
<3>.计算Δt时间内,待检测舆情信息I′的回复时间间隔序列S′={S1′,S2′,...,Sk′};若k<5,则回帖没有超过5个,待检测舆情信息I′为普通舆情;若K≥5,则计算{S2′,...,Sk′}的和D(S′),若则待检测舆情信息I′为热点舆情信息,否则待检测舆情信息I′为普通舆情,终止预测;
步骤(13)中所述Wij的值通过TFIDF公式计算:
其中,Ti代表具有某一特征的关键词;Cj表示该关键词所在的类别文本;TF(Ti,Cj)表示Ti在Cj类中各个信息文档中出现的频率;|C|代表所有类别中的所有训练信息文档的数目,即DF(Ti)表示包含关键词Ti的类数;
对每个类按照权重递减排序,选取前n个作为该类的代表,余下的作为备选,此时每个类可以表示为:
Ci=(Ti1,Wi1;Ti2,Wi2;...;Tin,Win)。
2.根据权利要求1所述的网络舆情的热点预测和分析方法,其特征在于步骤(12)所述的预处理为:利用中文分词系统对各类中的所有热点舆情信息进行分词。
3.根据权利要求1所述的网络舆情的热点预测和分析方法,其特征在于对热点舆情进行分析包括以下步骤:
步骤(31)、所有热点舆情的主题标示为H,将每个热点舆情的主题帖子分别标示为Di,1≤i≤|H|,|H|为H中的热点主题贴数量;
步骤(33)、对1≤i≤|H|采用向量空间模型来表示:
Di=(ti1,wi1;ti2,wi2;...;tij,wij;...)
其中tij为文本Di中的第j个关键词,wij为关键词tij在Di中的权重;
步骤(34)、采用K-means分类算法,输入所有Di和分类数K;K-means从所有Di中任意选取K个特征向量作为初始聚类中心,中心集合为D′={D1′,D2′,...,Dk′);并计算每个聚类对象的均值,如果是初次计算则选用初始选取的D′作为均值,计算1≤i≤|H|与1≤j≤K的余弦相似度大小,即:
1≤i≤|H|按照Sim(Di,Dj′)最小为同一类的原则,进行重新分类;
步骤(36)、如果重新分类有变化,重复步骤(35),直到每个聚类不再发生变化,最终形成热点类集合M={M1,M2,...,Mk},Mi为一热点舆情类,K-means算法完成;
步骤(37)、将聚类取得的分类结果进行如下处理:
根据最新热点分类情况,用户判断是否根据最新出现的热点话题,对分类预警模型进行修改。
4.根据权利要求3所述的网络舆情的热点预测和分析方法,其特征在于所述权重wij通过TFIDF公式计算:
TF(ti,Dj)表示ti在Dj中出现的频率,|D|表示所有热点主题帖子,即|D|=|H|,|DF(ti)|表示包含词ti的文本数。
6.根据权利要求5所述的网络舆情的热点预测和分析方法,其特征在于步骤(42)中所述预处理为:对舆情信息进行分词,只保留长度超过2的名词、动词,并对词语去重,形成每条舆情信息对应的关键词序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102144016A CN101763401B (zh) | 2009-12-30 | 2009-12-30 | 一种网络舆情的热点预测和分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102144016A CN101763401B (zh) | 2009-12-30 | 2009-12-30 | 一种网络舆情的热点预测和分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101763401A CN101763401A (zh) | 2010-06-30 |
CN101763401B true CN101763401B (zh) | 2012-05-30 |
Family
ID=42494565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009102144016A Expired - Fee Related CN101763401B (zh) | 2009-12-30 | 2009-12-30 | 一种网络舆情的热点预测和分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101763401B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140052753A1 (en) * | 2010-12-21 | 2014-02-20 | Peking University Founder Group Co., Ltd. | Method, device and system for processing public opinion topics |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9177346B2 (en) * | 2010-07-01 | 2015-11-03 | Facebook, Inc. | Facilitating interaction among users of a social network |
CN101984431B (zh) * | 2010-11-03 | 2012-11-14 | 中国科学院自动化研究所 | 网络新闻表情分布的自动预测方法 |
CN102651719B (zh) * | 2011-02-28 | 2016-08-31 | 国际商业机器公司 | 用于在消息交互环境中跟踪消息话题的方法和设备 |
CN102891874B (zh) * | 2011-07-21 | 2017-10-31 | 腾讯科技(深圳)有限公司 | 一种基于会话提供搜索提示信息的方法、装置及系统 |
CN102314489B (zh) * | 2011-08-15 | 2017-02-15 | 哈尔滨工业大学 | 网络论坛中舆论领袖分析方法 |
CN102999539B (zh) * | 2011-09-13 | 2015-11-25 | 富士通株式会社 | 预测给定话题的未来发展趋势的方法和装置 |
CN102388374A (zh) * | 2011-09-28 | 2012-03-21 | 华为技术有限公司 | 存储数据的方法和装置 |
CN103729388A (zh) * | 2012-10-16 | 2014-04-16 | 北京千橡网景科技发展有限公司 | 用于网络用户发表状态的实时热点检测方法 |
CN102982381B (zh) * | 2012-12-06 | 2015-09-09 | 湖南蚁坊软件有限公司 | 一种微博传播影响面的管理系统及方法 |
CN103116605B (zh) * | 2013-01-17 | 2016-02-10 | 上海交通大学 | 一种基于监测子网的微博热点事件实时检测方法及系统 |
CN103942226B (zh) * | 2013-01-23 | 2018-07-10 | 腾讯科技(深圳)有限公司 | 获取热点内容的方法和装置 |
CN103268350B (zh) * | 2013-05-29 | 2017-02-08 | 安徽雷越网络科技有限公司 | 一种互联网舆情信息监测系统及监测方法 |
CN103309990A (zh) * | 2013-06-18 | 2013-09-18 | 上海晶樵网络信息技术有限公司 | 基于互联网用户公开信息的用户多维度分析与监测方法 |
CN104572679B (zh) * | 2013-10-16 | 2017-11-03 | 北大方正集团有限公司 | 舆情数据存储方法和装置 |
CN103744877A (zh) * | 2013-12-20 | 2014-04-23 | 潘大庆 | 部署于互联网的舆情监测应用系统及运用方法 |
CN104142918B (zh) * | 2014-07-31 | 2017-04-05 | 天津大学 | 基于tf‑idf特征的短文本聚类以及热点主题提取方法 |
CN104636408B (zh) * | 2014-08-21 | 2017-08-08 | 中国科学院计算技术研究所 | 基于用户生成内容的新闻认证预警方法及系统 |
CN104408083A (zh) * | 2014-10-27 | 2015-03-11 | 六盘水职业技术学院 | 一种社会化媒体分析系统 |
CN104408157A (zh) * | 2014-12-05 | 2015-03-11 | 四川诚品电子商务有限公司 | 一种网络舆情漏斗式数据采集分析推送系统及方法 |
CN104850998B (zh) * | 2015-04-15 | 2018-11-02 | 浙江大学 | 一种基于聚类的移动应用下载量预测方法 |
CN106156257A (zh) * | 2015-04-28 | 2016-11-23 | 北大方正集团有限公司 | 一种微博舆情事件的态势预测方法 |
CN104850606B (zh) * | 2015-05-03 | 2019-03-26 | 西北工业大学 | 一种移动群智感知中社会事件的总结方法 |
TWI650655B (zh) * | 2015-05-07 | 2019-02-11 | 浚鴻數據開發股份有限公司 | 網路事件自動蒐集分析方法及系統 |
CN104951434B (zh) * | 2015-07-10 | 2018-10-23 | 沃民高新科技(北京)股份有限公司 | 品牌情绪的确定方法和装置 |
CN105095415B (zh) * | 2015-07-10 | 2018-12-21 | 沃民高新科技(北京)股份有限公司 | 网络情绪的确定方法和装置 |
CN104951807B (zh) * | 2015-07-10 | 2018-09-25 | 沃民高新科技(北京)股份有限公司 | 股市情绪的确定方法和装置 |
CN105335349A (zh) * | 2015-08-26 | 2016-02-17 | 天津大学 | 一种基于时间窗口的lda微博主题趋势检测方法及装置 |
CN105426391B (zh) * | 2015-10-27 | 2018-09-25 | 西安极数宝数据服务有限公司 | 一种获取网络热点话题传播规律的方法 |
CN106097111A (zh) * | 2016-06-20 | 2016-11-09 | 重庆房慧科技有限公司 | 一种基于智慧社区网络大数据的舆情预测方法 |
CN108021582B (zh) * | 2016-11-04 | 2020-12-04 | 中国移动通信集团湖南有限公司 | 互联网舆情监控方法及装置 |
CN106528538A (zh) * | 2016-12-07 | 2017-03-22 | 竹间智能科技(上海)有限公司 | 智能识别情绪的方法及装置 |
CN106682123A (zh) * | 2016-12-09 | 2017-05-17 | 北京锐安科技有限公司 | 一种获取热点事件的方法及装置 |
CN107085608A (zh) * | 2017-04-21 | 2017-08-22 | 上海喆之信息科技有限公司 | 一种有效的网络热点监测系统 |
CN107256263A (zh) * | 2017-06-13 | 2017-10-17 | 成都布林特信息技术有限公司 | 互联网热点信息自动监测方法 |
CN107423444B (zh) * | 2017-08-10 | 2020-05-19 | 世纪龙信息网络有限责任公司 | 热词词组提取方法和系统 |
CN107526791A (zh) * | 2017-08-15 | 2017-12-29 | 皑沐(上海)文化传媒有限公司 | 一种热句识别方法及系统 |
CN107644269B (zh) * | 2017-09-11 | 2020-05-22 | 国网江西省电力公司南昌供电分公司 | 一种支持风险评估的电力舆情预测方法及装置 |
CN109948773A (zh) * | 2017-12-20 | 2019-06-28 | 北京京东尚科信息技术有限公司 | 生成信息的方法和装置 |
CN107992619A (zh) * | 2017-12-21 | 2018-05-04 | 联想(北京)有限公司 | 一种聚类方法、服务器集群及虚拟装置 |
CN108563798A (zh) * | 2018-05-12 | 2018-09-21 | 苏州华必讯信息科技有限公司 | 虚假网络舆情识别方法 |
CN110110084A (zh) * | 2019-04-23 | 2019-08-09 | 北京科技大学 | 高质量用户生成内容的识别方法 |
CN110263238B (zh) * | 2019-06-21 | 2021-10-15 | 浙江华坤道威数据科技有限公司 | 一种基于大数据的舆情聆听系统 |
CN110489741B (zh) * | 2019-07-12 | 2022-06-21 | 北京邮电大学 | 基于突发词检测和过滤的微博突发话题检测方法 |
CN110609969A (zh) * | 2019-08-08 | 2019-12-24 | 阿里巴巴集团控股有限公司 | 信息处理方法和装置 |
CN112101002B (zh) * | 2020-09-15 | 2021-04-02 | 南京行者易智能交通科技有限公司 | 一种基于大数据的案件态势感知预警方法、措施推荐方法、装置及终端设备 |
CN112231483A (zh) * | 2020-11-06 | 2021-01-15 | 中国水利水电科学研究院 | 灾情追踪方法、系统、设备和存储介质 |
CN113570004B (zh) * | 2021-09-24 | 2022-01-07 | 西南交通大学 | 一种乘车热点区域预测方法、装置、设备及可读存储介质 |
CN113836307B (zh) * | 2021-10-15 | 2024-02-20 | 国网北京市电力公司 | 一种供电服务工单热点发现方法、系统、装置及存储介质 |
CN114358939A (zh) * | 2021-12-31 | 2022-04-15 | 北京华彬立成科技有限公司 | 医药行业热点信息的监控方法、装置、电子设备和存储介质 |
CN116340511B (zh) * | 2023-02-16 | 2023-09-15 | 深圳市深弈科技有限公司 | 结合深度学习与语言逻辑推理的舆情分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1794240A (zh) * | 2006-01-09 | 2006-06-28 | 北京大学深圳研究生院 | 基于自然语言理解的计算机信息检索系统及其检索方法 |
CN101231641A (zh) * | 2007-01-22 | 2008-07-30 | 北大方正集团有限公司 | 一种自动分析互联网上热点主题传播过程的方法及系统 |
CN101394311A (zh) * | 2008-11-12 | 2009-03-25 | 北京交通大学 | 一种基于时间序列的网络舆情预测方法 |
-
2009
- 2009-12-30 CN CN2009102144016A patent/CN101763401B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1794240A (zh) * | 2006-01-09 | 2006-06-28 | 北京大学深圳研究生院 | 基于自然语言理解的计算机信息检索系统及其检索方法 |
CN101231641A (zh) * | 2007-01-22 | 2008-07-30 | 北大方正集团有限公司 | 一种自动分析互联网上热点主题传播过程的方法及系统 |
CN101394311A (zh) * | 2008-11-12 | 2009-03-25 | 北京交通大学 | 一种基于时间序列的网络舆情预测方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140052753A1 (en) * | 2010-12-21 | 2014-02-20 | Peking University Founder Group Co., Ltd. | Method, device and system for processing public opinion topics |
Also Published As
Publication number | Publication date |
---|---|
CN101763401A (zh) | 2010-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101763401B (zh) | 一种网络舆情的热点预测和分析方法 | |
Cecere et al. | Price or performance? A probabilistic choice analysis of the intention to buy electric vehicles in European countries | |
CN104820629B (zh) | 一种智能的舆情突发事件应急处理系统及方法 | |
Lai et al. | Content analysis of social media: A grounded theory approach | |
Zhu et al. | Mobile app classification with enriched contextual information | |
Bastos et al. | Traffic fatality indicators in Brazil: State diagnosis based on data envelopment analysis research | |
Bell et al. | Common institutional design, divergent results: A comparative case study of collaborative governance platforms for regional water planning | |
Kovacs-Gyori et al. | # London2012: Towards citizen-contributed urban planning through sentiment analysis of twitter data | |
CN103793503A (zh) | 一种基于web文本的观点挖掘与分类的方法 | |
CN102314489B (zh) | 网络论坛中舆论领袖分析方法 | |
CN102955813B (zh) | 一种信息搜索方法和系统 | |
Hopkins | The exaggerated life of death panels? The limited but real influence of elite rhetoric in the 2009–2010 health care debate | |
CN104182805A (zh) | 基于服刑人员行为特征集成学习模型的危险倾向预测方法 | |
CN103218356A (zh) | 一种面向开放平台的提问质量判定方法和系统 | |
CN106682236A (zh) | 基于机器学习的专利数据处理方法及其处理系统 | |
CN101853298B (zh) | 一种面向事件的查询扩展方法 | |
Rinke et al. | Expert-informed topic models for document set discovery | |
CN104965930A (zh) | 一种基于大数据的突发事件演化分析方法 | |
Xie et al. | A network embedding-based scholar assessment indicator considering four facets: Research topic, author credit allocation, field-normalized journal impact, and published time | |
CN109544394A (zh) | 一种旅游地评估方法和计算设备 | |
CN104516873A (zh) | 建立情感模型的方法和装置 | |
Sun et al. | Identifying regional characteristics of transportation research with Transport Research International Documentation (TRID) data | |
Vysotska et al. | Web Content Processing Method for Electronic Business Systems | |
CN106202473A (zh) | 一种基于大数据的品牌分析方法及系统 | |
Soman et al. | Mode choice Behaviour Analysis of Students in Thrissur city |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120530 Termination date: 20141230 |
|
EXPY | Termination of patent right or utility model |