CN101763401B

CN101763401B - 一种网络舆情的热点预测和分析方法

Info

Publication number: CN101763401B
Application number: CN2009102144016A
Authority: CN
Inventors: 姚国祥; 罗伟其; 官全龙; 宋嘎子; 陈凤其
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2009-12-30
Filing date: 2009-12-30
Publication date: 2012-05-30
Anticipated expiration: 2029-12-30
Also published as: CN101763401A

Abstract

本发明涉及一种网络舆情的热点预测和分析方法，包括以下步骤：步骤(1)、将及时采集的舆情信息输入基于内容快速识别的热点舆情预测模型，根据处理结果将舆情信息分为热点舆情和普通舆情，对热点舆情发出预警；步骤(2)、将普通舆情信息输入基于数值表现的热点预测模型，从参与人数分布和时间状态分布上，对所输入的普通舆情信息进行数值模式匹配，检测出步骤(1)所漏检的热点舆情信息；步骤(3)、对热点舆情进行分析；步骤(4)、对热点舆情进行预测。本发明将内容和数值表现结合在一起，是一种综合的舆情热点监控方法，预测时间短，且预测效果准确。

Description

一种网络舆情的热点预测和分析方法

技术领域

本发明涉及网络信息安全领域，更具体的说是一种网络舆情的热点预测和分析方法。

背景技术

舆情是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，民众对社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。

网络舆情是社会舆情在互联网空间的映射，是社会舆情的直接反映。随着网络的迅速发展，网络舆情已经成为反映社会舆情的主要表现形式。网络舆情借助网络的众多特点表现出了以下几个特点：

1)参与广泛性。网络的迅速普及使得网络言论更为方便，身份的隐蔽使得言论更为广泛和自由。参与人数众多，参与人数复杂，导致网络舆论引起的社会事件越来越具有群体性。

2)存在多样化。网络舆情主要载体有：新闻评论、BBS、博客、社区网站、群体聊天室等。随着WEB技术的不断更新，传播方式更加多样化。

3)传播迅速，具有很强的突发性。舆情借助网络信息的快速发布，在较短时间内形成舆情热点，进而反映社会现实或者事件，具有突发性特点。

中国互联网信息中心2009年7月发布的最新报告中说明：“中国网民规模达到3.38亿人，普及率达到25.5％。网民规模较2008年底年增长4000万人，半年增长率为13.4％，中国网民规模依然保持快速增长之势”。同时也说明了网络舆情会越来越多地影响社会，特别是热点舆情可能是社会问题的反应。从网络安全与社会和谐建设角度出发，网络舆情的监控，特别是热点舆情预测和分析，是未来舆情领域研究的重点。

目前网络热点舆情的分析方法主要有以下几类：

一是：通过对抓取的舆情信息聚类分析，从分析类别的内容和数量上阐述舆情热点。如中国专利公开号为CN101414300A的发明专利申请将舆情信息分类、中文信息处理，得到向量化的分类特征，在后来的分析中利用特征来匹配舆情内容。

二是：通过获取舆情信息的参与人数、信息回帖的时间分布特点等舆情信息的数字表现形式上预测热点、分析热点。如中国专利公开号为CN101394311A的发明专利申请中根据舆情热点形成的时间序列特点，建立时间序列预测模型，进而对可能出现的热点舆情进行分析预测。

三是：从热点舆情的形成、发展流程上分析，利用数据挖掘中的序列模式分析来建立热点预测模型，从而对舆情信息进行预测。如中国专利公开号为CN101231641A的发明专利申请中根据互联网上热点主题传播过程和流程特点，设计了一种热点分析监控方法和系统。

上述三类分析方法的主要特点是：第一类和第二类，可以判断热点信息，但是具有明显的滞后性，应对热点舆情信息的突发不足；第三类的分析流程合理，但是目前还没有较为成熟合理的预测模型。此外，上述三类分析方法都是将内容和数值表现分开分析，没有很好的体现舆情整体表现。

发明内容

本发明的目的在于针对现有舆情热点分析方法的不足，提供一种网络舆情的热点预测和分析方法，本发明将内容和数值表现结合在一起，是一种综合的舆情热点监控方法，预测时间短，且预测效果准确。

本发明的目的通过下述技术方案实现：一种网络舆情的热点预测和分析方法，包括以下步骤：步骤(1)、将及时采集的舆情信息输入基于内容快速识别的热点舆情预测模型，根据处理结果将舆情信息分为热点舆情和普通舆情，对热点舆情发出预警；步骤(2)、将普通舆情信息输入基于数值表现的热点预测模型，从参与人数分布和时间状态分布上，对所输入的普通舆情信息进行数值模式匹配，检测出步骤(1)所漏检的热点舆情信息；步骤(3)、对热点舆情进行分析；步骤(4)、对热点舆情进行预测。

步骤(1)中所述的基于内容快速识别的热点舆情检测模型建立过程如下：步骤(11)、收集舆情监控目标在一段时间内的热点舆情信息，并将所收集的热点舆情信息分为M类，得到分类信息；步骤(12)、对步骤(11)所得的分类信息进行预处理；步骤(13)、提取类关键词特征；步骤(14)、基于内容的分类计算，建立类别空间向量，从而构建热点舆情检测模型。

步骤(12)所述的预处理为：利用中文分词系统对各类中的所有热点舆情信息进行分词。

步骤(2)中所述的基于数值表现的热点舆情检测模型建立过程如下：步骤(21)、收集舆情监控目标在一段时间内的热点舆情信息M＝{M1，M2，..，Mm}，总热点舆情信息数为m，获取每个热点舆情信息Mi，在Δt时间内的浏览人数BNi，回帖人数RNi，回帖时间间隔序列Si，其中i＝1，2，......，m；得到浏览人数BNi的数组{BNi1，BNi2，...，BNij，...}，回帖人数Rni的数组{RNi1，RNi2，...，RNij，...}，时间间隔序列Si的数组{Si1，Si2，...，Sij，...}；步骤(22)、计算浏览人数的热点阈值H(BN)；步骤(23)、计算回复人数的热点阈值H(RN)；步骤(24)、计算时间间隔热点阈值H(S)和D(S)；步骤(25)、建立基于数值表现的热点预测模型。

在上述网络舆情的热点预测和分析方法中，对热点舆情进行分析包括以下步骤：

步骤(31)、所有热点舆情的主题标示为H，将每个热点舆情的主题帖子分别标示为Di，1≤i≤|H|，|H|为H中的热点主题贴数量；

步骤(32)、对

1≤i≤|H|，采用中文分词系统对其进行分词，保留词组长度大于2的名词和动词，其余词字删除；

步骤(33)、对

1≤i≤|H|采用向量空间模型来表示：

D_i＝(t_i1，w_i1；t_i2，w_i2；...；t_ij，w_ij；...)

其中t_ij为文本D_i中的第j个关键词，w_ij为关键词t_ij在D_i中的权重；

步骤(34)、采用K-means分类算法，输入所有D_i和分类数K；K-means从所有D_i中任意选取K个特征向量作为初始聚类中心，中心集合为D′＝{D₁′，D₂′，...，D_k′)；并计算每个聚类对象的均值，如果是初次计算则选用初始选取的D′作为均值，计算

1≤i≤|H|与

1≤j≤K的余弦相似度大小，即：

Sim (D_{i}, {D_{j}}^{'}) = Cos (D_{i}, {D_{j}}^{'}) = \frac{Σ_{i = 1}^{n} (W_{Di} \cdot W_{Dj'})}{\sqrt{Σ_{i = 1}^{n} {W^{2}}_{Di}} \cdot \sqrt{Σ_{i = 1}^{n} {W^{2}}_{Dj'}}}

1≤i≤|H|按照Sim(D_i，D_j′)最小为同一类的原则，进行重新分类；

步骤(35)、重新计算每类的均值，并计算

1≤i≤|H|与每类的均值的余弦相似度，然后进行重新分类；

步骤(36)、如果重新分类有变化，重复步骤(35)，直到每个聚类不再发生变化，最终形成热点类集合M＝{M1，M2，...，Mk}，Mi为一热点舆情类，K-means算法完成。

步骤(37)、将聚类取得的分类结果进行如下处理：

对

选取M_i对应的所有热点主题帖子D_j(1≤j≤|H|)，同时选取Mj中词频递减排序的前N个作为该类的关键词，然后将每一个热点类的主题帖子内容列表和关键词显示给用户；

根据最新热点分类情况，用户判断是否根据最新出现的热点话题，对分类预警模型进行修改。

所述权重w_ij通过TFIDF公式计算：

w_{ij} = TFIDF (t_{i}, D_{i}) = TF (t_{i}, D_{j}) * \log \frac{| D |}{| DF (t_{i}) |}

TF(t_i，D_j)表示t_i在D_j中出现的频率，|D|表示所有热点主题帖子，即|D|＝|H|，|DF(t_i)|表示包含词t_i的文本数。

在上述网络舆情的热点预测和分析方法中，对热点舆情进行预测包括以下步骤：

步骤(41)、采集舆情监控目标一段时间内的舆情信息；

步骤(42)、对步骤(41)采集的舆情信息进行中文信息预处理；

步骤(43)、根据步骤(13)和步骤(14)，提取类关键词特征并计算出每个类的类别值I|Ci；

步骤(44)、获取标记为非热点舆情信息在Δt时间内浏览人数RN，如果若RN≥H(RN)，则该信息标记为热点舆情，做出预警；否则为普通舆情；

步骤(45)、获取标记为非热点舆情信息在Δt时间内的回复时间间隔序列Si，计算Si的S_i和方差D(Si)，如果S_i≤H(S)&&H(D(Si)≤D(S)，则为热点舆情，否则为普通舆情。

步骤(42)中所述预处理为：对舆情信息进行分词，只保留长度超过2的名词、动词，并对词语去重，形成每条舆情信息对应的关键词序列。

本发明相对于现有技术具有如下的优点及效果：

1、将内容简单快速识别、数据挖掘中的聚类算法、基于热点参与者数量和热点时间处理模型有效的整合在一起，从多个方面预测热点、分析热点。

2、本发明综合了基于内容快速识别的预测技术和基于数值表现的预测技术，建立了一个完整的预测模型和流程，利用被检测对象(例如论坛等)的历史热点信息，计算设置模型的相关参数，使其可以从内容和数值表现上发现热点舆情，然后利用聚类算法对获得的热点进行聚类分析，将分析结果呈现给用户，由用户根据结果选择是否调整预测模型。

3、与传统的基于内容匹配的热点预测算法相比，本发明缩短了预测时间；与基于数值计算的热点预测算法相比，本发明的预测更加准确有效，针对特定的监控内容也将更加准确。

附图说明

图1是本发明分析热点舆情的流程图；

图2是建立基于内容快速识别的热点舆情检测模型的流程图；

图3是建立基于数值表现的热点舆情检测模型的流程图；

图4是基于数值表现的热点预测模型的工作流程图；

图5是本发明热点聚类分析的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本发明一种网络舆情的热点预测和分析方法包括以下几个步骤：

步骤(1)、将及时采集的舆情信息输入基于内容快速识别的热点舆情预测模型，根据处理结果将舆情信息分为热点舆情和普通舆情，对热点舆情发出预警，从而有利于实现热点舆情的早发现，早处理。

如图2所示，在上述步骤(1)中所述的基于内容快速识别的热点舆情检测模型建立过程如下：

步骤(11)、收集舆情监控目标(例如论坛)在较长一段时间内的热点舆情信息，并将所收集的热点舆情信息分为M类，得到分类信息。例如，收集某高校论坛最近二个月的热点舆情信息，分成4类(即M＝4)，分别是：情感类、工作兼职类、校园话题类、考研学习类；每类各有100条热点舆情信息。

步骤(12)、对步骤(11)所得的分类信息进行预处理。具体为：利用中文分词系统对各类中的所有热点舆情信息进行分词，因为代词、副词、形容词、助词等不能代表实际的类别，所以分词过程中必须将其删除，单个的字也不能代表实际的类别，也需要删除，留下长度超过2的名词和动词。

例如，预处理前的分类信息是：想/v问问/v所有/b的/udel女孩子/n女/b，/wd是/vshi旧/a爱/v重要/a还/d是/vshi新/a欢/ad值得/v把握/v？/ww倘若/c与/p一/m男子/n两/m情/n相/d悦/ag，/wd是否/v真的/d需要/v顾虑/n那么/rz多/m？/ww是否/v不够/a勇气/n跟/p该/rz男子/n一起/s去/vf开拓/v幸福/n的/udel疆土/n？/ww而/cc该/rz男子/n又/c亥/n怎样/ryv？/ww让/v她/rr走/v？/ww抑或/c坚信/v着/uzhe自己/rr能/v给/p她/rr幸福/a？/ww虽然/c现在/t还/d无法/v给/p她/rr任何/rz的/udel承诺/vn。/wj她/rr曾/d说/v过/vf我/rr还/d无法/v放下/v一切/rz来/vf爱/v你/rr。/wj。

预处理后的分类信息是：问问/v女孩子/n值得/v把握/v男子/n是否/v需要/v顾虑/n勇气/n男子/n开拓/v幸福/n疆土/n坚信/v承诺/v放下/v。

步骤(13)、提取类关键词特征，亦即提取类别关键字。

用向量空间模型(VSM)表示每个类，每一类可以表示为：

Ci＝(Ti1，Wi1；Ti2，Wi2；...；Tin，Win；...)

其中Ci表示第i个热点类，Tij表示Ci中的第j个关键词，Wij表示Tij在Ci中的权重，j＝1，2，......，n。Wij的值可以通过TFIDF公式计算：

W_{ij} = TFIDF (I_{i}, C_{j}) = TF (T_{i}, C_{j}) * \log \frac{| C |}{| DF (T_{i}) |}

其中，Ti代表具有某一特征的关键词；Cj表示该关键词所在的类别文本；TF(T_i，C_j)表示Ti在Cj类中各个信息文档中出现的频率；|C|代表所有类别中的所有训练信息文档的数目，即

| C | = Σ_{i = 1}^{N} | Ci |;

DF(Ti)表示包含关键词Ti的类数。

对每个类按照权重递减排序，选取前n个作为该类的代表，余下的作为备选。此时每个类可以表示为：

Ci＝(Ti1，Wi1；Ti2，Wi2；...；Tin，Win)

步骤(14)、基于内容的分类计算，建立类别空间向量，从而构建热点舆情检测模型。

对于待测舆情信息I，采用中文信息预处理，获得长度大于2的名词、动词和名动词序列1＝(I1，I2，...，Im)。计算待测舆情信息I属于每个类的类别值I|Ci：

I | C_{i} = \{\begin{matrix} I | C_{i} + W_{ik} I_{j} = T_{ik}, 1 \leq j \leq m, 1 \leq K \leq n \\ I | C_{i} I_{j} &NotEqual; T_{ik}, 1 \leq j \leq m, 1 \leq K \leq n \end{matrix}

设H(I)为某一预设阈值，若I|Ci≥H(I)，且I|Ci最大，则待测舆情信息I为Ci类热点舆情信息。若

l|C_i＜H(I)，则待测舆情信息I为普通舆情信息。

经过中文信息处理、类关键词特征提取等，取得类别特征，4类热点舆情信息的特征向量分别为：

情感热点特征向量为C1＝(失恋，0.8714；抛弃，0.8536；分手，0.8361；处女，0.8119；背叛，0.7732；暗恋，0.7471，结婚，0.7103)。

工作兼职类特征向量为C2＝(招聘会，1.1370；宣讲会，0.9421；实习，0.8641；家教，0.8117；创业，0.8036；招聘，0.7734；offer，0.7179)。

校园话题特征向量C3＝(跳楼，1.274；自杀，0.9334；选课，0.9327；情侣，0.8743；图书馆，0.8427；食堂，0.7115)。

考研学习特征向量C4＝(真题，0.9841；公费，0.9231；自费，0.8778；导师，0.8692；复试，0.7326；内幕，0.7116)。

步骤(2)、将普通舆情信息输入基于数值表现的热点预测模型，从参与人数分布和时间状态分布上，对所输入的普通舆情信息进行数值模式匹配，检测出步骤(1)所漏检的热点舆情信息；从而实现较为全面的热点舆情发现，弥补步骤(1)中对热点舆情发现的不足。

如图3、4所示，以论坛为例，在步骤(2)中所述的基于数值表现的热点舆情检测模型建立过程如下：

步骤(21)、收集舆情监控目标(例如某论坛)在最近一段时间的热点舆情信息M＝{M1，M2，..，Mm}，总热点舆情信息数为m(即有m个热点帖子)，获取每个热点帖子Mi(i＝1，2，......，m)在Δt时间内的浏览人数BNi，回帖人数RNi，回帖时间间隔序列Si；得到浏览人数BNi的数组{BNi1，BNi2，...，BNij，...}，回帖人数Rni的数组{RNi1，RNi2，...，RNij，...}，时间间隔序列Si的数组{Si1，Si2，...，Sij，...}。

步骤(22)、计算浏览人数的热点阈值H(BN)。

对于

1≤i≤m，计算：

\overset{&OverBar;}{{BN}_{i}} = \frac{Σ_{j = 1}^{n} {BN}_{ij}}{n};

D ({BN}_{i}) = {\overset{&OverBar;}{BN}}_{i} - \sqrt{Σ_{j = 1}^{n} ({BN}_{ij} - \overset{&OverBar;}{{BN}_{i}})} 2;

H (BN) = \frac{Σ_{i = 1}^{m} (\overset{&OverBar;}{{BN}_{i}} - D ({BN}_{i}))}{m} .

根据所有实际BNi，计算得到H(BN)＝32.7144.

步骤(23)、计算回复人数的热点阈值H(RN)。

对于

1≤i≤m

\overset{&OverBar;}{{RN}_{i}} = \frac{Σ_{j = 1}^{n} {RN}_{ij}}{n};

D ({RN}_{i}) = {\overset{&OverBar;}{RN}}_{i} - \sqrt{Σ_{j = 1}^{n} ({RN}_{ij} - \overset{&OverBar;}{{RN}_{i}})} 2;

H (RN) = \frac{Σ_{i = 1}^{m} (\overset{&OverBar;}{{RN}_{i}} - D ({RN}_{i}))}{m} .

根据所有实际RNi，计算得到H(RN)＝19.5348.

步骤(24)、计算时间间隔热点阈值H(S)和D(S)。

对于

1≤i≤m，因为Si1与其他数据相差较大，故去掉Si1，得到Si′＝{Si2，...，Sin}，

\overset{&OverBar;}{{S_{i}}^{'}} = \frac{Σ_{j = 2}^{n} S_{ij}}{n - 1};

H (\overset{&OverBar;}{S}) = \frac{Σ_{i = 1}^{m} \overset{&OverBar;}{{S_{i}}^{'}}}{m};

D (S) = \frac{Σ_{i = 1}^{n} \sqrt{Σ_{j = 2}^{n} {(S_{ij} - \overset{&OverBar;}{{S_{i}}^{'}})}^{2}}}{m} .

根据所有实际Si，H(S)＝10.0206，D(S)＝6.5139。

步骤(25)、建立基于数值表现的热点预测模型。对于待检测舆情信息I′有：

<1>.计算Δt时间内，待检测舆情信息I′的浏览人数BN，若BN≥H(BN)，则待检测舆情信息I′为热点舆情信息，对其进行预警；否则进行下一步运算。

<2>.计算Δt时间内，待检测舆情信息I′的回复人数RN，若RN≥H(RN)，则待检测舆情信息I′为热点舆情信息，对其进行预警；否则进行下一步运算。

<3>.计算Δt时间内，待检测舆情信息I′的回复时间间隔序列S′＝{S1′，S2′，...，Sk′}。若k＜5，则回帖没有超过5个，待检测舆情信息I′为普通舆情；若K≥5，则计算{S2′，...，Sk′}的H(S′)和D(S′)，若H(S′)≥H(S)&&D(S′)≥D(S)则待检测舆情信息I′为热点舆情信息，否则待检测舆情信息I′为普通舆情，终止预测。

步骤(3)、对热点舆情进行分析。如图5所示，本步骤主要处理过程如下：

主要是对标记为热点的舆情信息，采用基于划分的K-means聚类算法，对热点信息进行聚类分析，其一可以明确热点内容分布，其二可以对步骤(1)中的分类模型调整，以不断适应最新热点的预测。过程如下：

步骤(31)、所有热点舆情的主题标示为H，将每个热点舆情的主题帖子分别标示为Di，1≤i≤|H|，|H|为H中的热点主题贴数量。

步骤(32)、对

1≤i≤|H|，采用中文分词系统对其进行分词，保留词组长度大于2的名词和动词，其余词字删除。

步骤(33)、对

1≤i≤|H|采用向量空间模型来表示：

D_i＝(t_i1，w_i1；t_i2，w_i2；...；t_ij，w_ij；...)

其中t_ij为文本D_i中的第j个关键词，w_ij为关键词t_ij在D_i中的权重。w_ij的计算可以通过TFIDF公式计算：

w_{ij} = TFIDF (t_{i}, D_{i}) = TF (t_{i}, D_{j}) * \log \frac{| D |}{| DF (t_{i}) |}

按照词频递减排序，选择前n个作为每个热点主题帖子的特征向量，即：

D_i＝(t_i1，w_i1；t_i2，w_i2；...；t_in，w_in)

步骤(34)、采用K-means分类算法，输入所有D_i和分类数K。K-means从所有D_i中任意选取K个特征向量作为初始聚类中心，中心集合为D′＝{D₁′，D₂′，...，D_k′)。

计算每个聚类对象的均值，如果是初次计算则选用初始选取的D′作为均值，计算

1≤i≤|H|与

1≤j≤K的余弦相似度大小，即：

Sim (D_{i}, {D_{j}}^{'}) = Cos (D_{i}, {D_{j}}^{'}) = \frac{Σ_{i = 1}^{n} (W_{Di} \cdot W_{Dj'})}{\sqrt{Σ_{i = 1}^{n} {W^{2}}_{Di}} \cdot \sqrt{Σ_{i = 1}^{n} {W^{2}}_{Dj'}}}

1≤i≤|H|按照Sim(D_i，D_j′)最小为同一类的原则，进行重新分类。

步骤(35)、重新计算每类的均值(中心对象)，并计算

1≤i≤|H|与每类的均值的余弦相似度，然后进行重新分类。

步骤(37)、将聚类取得的分类结果进行如下处理：

一是：对选取M_i对应的所有热点主题帖子D_j(1≤j≤|H|)，同时选取Mj中词频递减排序的前N个作为该类的关键词，然后将每一个热点类的主题帖子内容列表和关键词显示给用户，例如：

----------------第1分类--共17个------------------------------

-------关键字----------------

难题放弃结婚压力分手

--------内容------------------

情侣离开了旅馆，服务员一见毛巾晕了

毕业前的晚上他告诉我他喜欢我，我们会有未来吗？

进来谈谈大家的最低择偶标准，究竟爱情有什么样的底线......

更多...

------------------第2分类--共5个------------------------------

-------关键字----------------

宣讲会招聘实习福利集团

--------内容------------------

联想集团2009-2010校园招聘启动啦

松下集团2010校园招聘启动(职位陆续更新中)

快乐求职网实习信息汇总(每日更新)

中核江苏核电2010校园招聘火热启动

金山多益2010校园招聘开始啦！附宣讲会安排New

------------------第3分类--共4个------------------------------

-------关键字----------------

真题内幕公费自费录取

--------内容-------------------

求有关宿舍安排内幕。。。。。

现当代文学0809真题回忆版

拟录取名单全部公布

管理学院还有公费吗？都改革了？

------------------第4分类--共17个------------------------------

-------关键字----------------

图书馆选课考试防盗管理

--------内容--共17个----------------

给学校的考试制度提建议

内部消息：暑期图书馆开放时间

你们遇到这种骗子了吗？

手机充值优惠事件真假

更多...

二是：根据最新热点分类情况，用户可以判断是否根据最新出现的热点话题，对分类预警模型进行修改。

根据第3类特点在考研学习特征值中应添加“录取”作为热点关键词。将相关热点信息作为训练信息添加到基于内容快速预测的热点模型当中去。

步骤(4)、除了对热点舆情信息进行分析之外，本发明还能够对热点舆情进行预测，预测过程包括如下几个步骤：

步骤(41)、采集舆情源(也称为舆情监控目标)一段时间内的舆情信息。例如采集某高校论坛一天中出现的舆情信息。

步骤(42)、对步骤(41)采集的舆情信息进行中文信息预处理。采用中科院的ICTCLAS2009汉语词法分析系统对舆情信息进行分词，只保留长度超过2的名词、动词，并对词语去重，形成每条舆情信息对应的关键词序列。

例如一条舆情信息I：提醒喜欢晚上到小山上去的情侣(大学城校区)。近

日有同学报案，在图书馆旁的小山上把包丢了，这类案件基本一个月都有几次，提醒情侣们，约会要找个好的地方，小山并不是理想场所，排开小偷不说，草从中经常有蛇类出没，希望大家注意安全。谢谢。

中文处理后得到序列{喜欢情侣大学同学报案图书馆案件地方场所小偷希望注意}。

步骤(43)、根据步骤(13)和步骤(14)，提取类关键词特征并计算出每个类的类别值I|Ci。在本实施例中，根据热点关键词和论坛热点规律设定阈值H(I)＝0.75，若：

I|C1＝0＜H(I)，

I|C2＝0＜H(I)，

I|C3＝1.717＞H(I)，

I|C4＝0＜H(I)，

则第1分类、第2分类和第4分类为普通舆情，第3分类为热点舆情。

对于经过基于内容快速识别的模型检测后标记为热点舆情的舆情信息及时预警，这样就可以对刚刚发布的又没有在数值表现上可以判断是否是热点舆情的舆情信息进行预测，可以及早发现热点舆情，并做出预警。但是由于类别关键词有限，所以单纯靠基于内容快速识别的检测模型来标记热点舆情的话，将会漏检很多热点舆情；因此，有必要对判断为非热点的舆情信息输入基于数值表现的热点预测模型进行处理，做进一步检测。

步骤(44)、获取标记为非热点舆情信息在Δt时间内浏览人数RN，如果若RN≥H(RN)，则该信息标记为热点舆情，做出预警；否则下一步运算。这里Δt取一天做时间段，例如舆情I1＝“情侣离开了旅馆，服务员一见毛巾晕了”的BN＝65＞H(BN)＝32.7144，标记I1为热点舆情。而舆情I₁′＝“请问什么时候可以看翡翠台？？”的BN＝27＜H(BN)，所以标记I₁′为普通舆情，进入下一步处理。又如舆情I2＝“有没有经历过从珠海搬回广州的师兄师姐？”虽然BN＝29＜H(BN)，但是RN＝22＞H(RN)＝19.5348，I2为热点舆情。

步骤(45)、获取标记为非热点舆情信息在Δt时间内的回复时间间隔序列Si，计算Si的S_i和方差D(Si)，如果S_i≤H(S)&&H(D(Si)≤D(S)，则为热点舆情，否则为普通舆情。这里Δt取一天做时间段，舆情I3＝“进来谈谈大家的最低择偶标准究竟爱情有什么样的底线......”，虽然I3发布较晚，没有在内容识别和浏览人数和回复人数上形成热点标示，计算I3的发布时间间隔序列S3＝{18，14，10，9，9，8，7，7}的S₃和D(S3)。

S₃＝9.1429≤H(S)＝10.0206&&D(S3)＝5.5025≤D(S)＝6.5139，所以I3为热点舆情。

最后可得预测结果为：

	热点数	预报数	预报正确数	预报错误数	漏报数
						情感类热点	11	17	8	9	3
工作兼职热点	3	5	3	2	0
						校园话题热点	9	17	6	11	3
考研学习热点	1	4	1	3	0
						合计	24	43	18	25	6

在上述预测结果中，采集的信息共有主题357个，其中新发表主题116个。错误预报主要是由于某些主题贴中有热点类的关键词；而漏报主要由于热点类中缺少某些关键词。如有发表时间较晚，关键词中没有相关比对，如坠楼代替了自杀和跳楼，在没有明显数量表现前，判为普通信息，导致热点舆情信息的漏报。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种网络舆情的热点预测和分析方法，其特征在于包括以下步骤：

步骤(1)、将及时采集的舆情信息输入基于内容快速识别的热点舆情预测模型，根据处理结果将舆情信息分为热点舆情和普通舆情，对热点舆情发出预警；

步骤(2)、将普通舆情信息输入基于数值表现的热点预测模型，从参与人数分布和时间状态分布上，对所输入的普通舆情信息进行数值模式匹配，检测出步骤(1)所漏检的热点舆情信息；

步骤(3)、对热点舆情进行分析；

步骤(4)、对热点舆情进行预测；

步骤(1)中所述的基于内容快速识别的热点舆情预测模型建立过程如下：

步骤(11)、收集舆情监控目标在一段时间内的热点舆情信息，并将所收集的热点舆情信息分为M类，得到分类信息；

步骤(12)、对步骤(11)所得的分类信息进行预处理；

步骤(13)、提取类关键词特征，其中用向量空间模型表示每个类，每一类表示为：

Ci＝(Ti1，Wi1；Ti2，Wi2；...；Tin，Win；...)

其中Ci表示第i个热点类，Tij表示Ci中的第j个关键词，Wij表示Tij在Ci中的权重，j＝1，2，……，n；

步骤(14)、基于内容的分类计算，建立类别空间向量，从而构建热点舆情预测模型；对于待测舆情信息I，采用中文信息预处理，获得长度大于2的名词、动词和名动词序列I＝(I1，I2，...，Im)，计算待测舆情信息I属于每个类的类别值I|Ci：

I | C_{i} = \{\begin{matrix} I | C_{i} + W_{ik} & I_{j} = T_{ik}, 1 \leq j \leq m, 1 \leq K \leq n \\ I | C_{i} & I_{j} &NotEqual; T_{ik}, 1 \leq j \leq m, 1 \leq K \leq n \end{matrix}

设H(I)为预设阈值，若I|Ci≥H(I)，且I|Ci最大，则待测舆情信息I为Ci类热点舆情信息；若I|C_i＜H(I)，则待测舆情信息I为普通舆情信息；

步骤(2)中所述的基于数值表现的热点预测模型建立过程如下：

步骤(21)、收集舆情监控目标在一段时间内的热点舆情信息M＝{M1，M2，..，Mm}，总热点舆情信息数为m，获取每个热点舆情信息Mi，在Δt时间内的浏览人数BNi，回帖人数RNi，回帖时间间隔序列Si，其中i＝1，2，......，m；得到浏览人数BNi的数组{BNi1，BNi2，...，BNij，...}，回帖人数Rni的数组{RNi1，RNi2，...，RNij，...}，时间间隔序列Si的数组{Si1，Si2，...，Sij，...}；

步骤(22)、计算浏览人数的热点阈值H(BN)；

对于