CN107085608A

CN107085608A - 一种有效的网络热点监测系统

Info

Publication number: CN107085608A
Application number: CN201710267685.XA
Authority: CN
Inventors: 不公告发明人
Original assignee: Mdt Infotech Ltd Of Shanghai Zhe
Current assignee: Mdt Infotech Ltd Of Shanghai Zhe
Priority date: 2017-04-21
Filing date: 2017-04-21
Publication date: 2017-08-22

Abstract

一种有效的网络热点监测系统，包括信息采集模块、舆情预处理模块、舆情分析模块和管理模块，所述信息采集模块用于对网络上的舆情信息进行采集，获取网页数据，所述舆情预处理模块用于对获取的网页数据进行噪声处理以及中文分词，所述舆情分析模块用于从所述中文分词结果中提取网页的特征项并计算特征项的权重，进而进行网页主题归类，所述管理模块用于对采集得到的文档进行存储，并向用户显示系统的监测结果，本发明的有益效果为：提出一种有效的网络热点监测系统，通过对网络上的信息的抓取和科学有效的分析，实现了对网络热点的有效监测。

Description

一种有效的网络热点监测系统

技术领域

本发明创造涉及舆情监控领域，具体涉及一种有效的网络热点监测系统。

背景技术

随着社会的发展，科技的进步，人类步入了飞速发展的互联网时代，各种各样的资源以互联网为载体进行汇聚、整合，形成了一个庞大的信息库。因为网络的传播是自由的、开放的，每个人都有机会成为网络信息的发布者，因此更能直接、真实、全面地反映民众的观点和态度，但是正是网上发表言论的自由性和无限制性，使得舆情很大程度上取决于网民的情绪状态等非主观因素，因此，为了保证舆论的正确导向，同时便于了解当今网民较为关注的热点领域，对网络舆情的监测有着重要的现实意义。

发明内容

针对上述问题，本发明旨在提供一种有效的网络热点监测系统。

本发明创造的目的通过以下技术方案实现：

一种有效的网络热点监测系统，包括信息采集模块、舆情预处理模块、舆情分析模块和管理模块，所述信息采集模块用于对网络上的舆情信息进行采集，获取网页数据，所述舆情预处理模块用于对获取的网页数据进行噪声处理以及中文分词，所述舆情分析模块用于从所述中文分词结果中提取网页的特征项并计算所述特征项的权重，从而进行网页主题的划分，所述管理模块用于对采集得到的文档进行存储，并向用户显示系统的监测结果。

本发明创造的有益效果：提出一种有效的网络热点监测系统，通过对网络上的信息的抓取和科学有效的分析，实现了对网络热点的有效监测。

附图说明

利用附图对发明创造作进一步说明，但附图中的实施例不构成对本发明创造的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1是本发明结构示意图；

图2是本发明舆情分析模块结构示意图

图3是本发明管理模块结构示意图。

附图标记：

信息采集模块1；舆情预处理模块2；舆情分析模块3；管理模块4；网页表示单元31；主题划分单元32；信息存储单元41；信息显示单元42。

具体实施方式

结合以下实施例对本发明作进一步描述。

参见图1、图2和图3，本实施例的一种有效的网络热点监测系统，包括信息采集模块1、舆情预处理模块2、舆情分析模块3和管理模块4，所述信息采集模块1用于对网络上的舆情信息进行采集，获取网页数据，所述舆情预处理模块2用于对获取的网页数据进行噪声处理以及中文分词，所述舆情分析模块3用于从所述中文分词结果中提取网页的特征项并计算所述特征项的权重，进而进行网页主题归类，所述管理模块4用于对采集得到的文档进行存储，并向用户显示系统的监测结果。

优选地，所述管理模块4包括信息存储单元41和信息显示单元42，所述信息存储单元41用于根据主题归类结果对采集得到的文档进行分类存储，所述信息显示单元42用于向用户显示系统的监测结果。

本优选实施例提出一种有效的网络热点监测系统，通过对网络上的信息的抓取和科学有效的分析，实现了对网络热点的有效监测。

优选地，所述舆情分析模块3包括网页表示单元31和主题划分单元32，所述网页表示单元31用于从所述中文分词结果中提取能够反映网页主题的特征项并计算所述特征项的权重，所述主题划分单元32用于根据计算所得的相似性系数进行采集得到的网页主题的划分。

优选地，所述网页表示单元31用于从所述中文分词结果中提取能够反映网页主题的特征项并计算所述特征项的权重，具体包括：

(1)定义采集得到的网页中类别为L_k(1≤k≤u)的文本有{c_k1,c_k2,……c_kr},则采用一种改进的信息增益计算方法进行特征项t_i的选择，具体为：

式中，p(t_i)为特征词t_i出现的概率，则为t_i不出现的概率，P(t_i|L_i)为特征词t_i存在的文本属于L_k类的概率，为t_i不存在的文本属于L_k类的概率，u为类别数，p(L_k)为L_k类文本出现的概率，c(t_i,L_k)为L_k类文本出现的特征项t_i的次数,为特征项t_i在采集得到的网页中出现次数的平均数；

将所得的特征词的信息增益值按从大到小的顺序进行排列，选取前g个特征词作为采集得到的文档的特征项；

(2)定义文本c_l的特征项为{t_l1,t_l2,……t_lg}，则对应特征项的权重{q_l1,q_l2,……q_lg}的计算公式为：

式中，u_lr表示特征项t_r在文本c_l中出现的频数，max(u_r)表示特征项t_r在文本集中出现的频数的最大值，min(u_r)表示特征项t_r在文本集中出现的频数的最小值，q_lr表示特征项t_r在文本c_l中的权重，D表示文本集中的文本数量，d_r表示文本集中包含特征项t_r的文本数。

本优选实施例采用一种改进的信息增益的计算方法，增加了特征项的分类能力，有助于选出较有效的特征项,此外，采用一种改进的权重计算方法，相较于传统的TFIDF计算权重方法，对特征项在文本集中出现的频数进行处理，综合考虑了特征项在文本集中的总体价值，充分体现了特征项权重的重要性。

优选地，所述主题划分单元32用于根据计算所得的相似性系数对采集得到的网页进行主题划分，具体包括：

(1)创建待监测的网络热点领域集合R＝{r₁,r₂,……r_w}，分别定义网络热点领域r_i(i＝1,2,……w)的主题文档为r_i＝(t_i1,t_i2,……t_ib)，采集得到的文档为c_j＝(t_j1,t_j2,……t_jg)；

a.计算采集得到的文档c_j和热点领域集中的各个主题文档r_i之间的相似性系数θ_i，θ_i的计算表达式如下：

式中，sim(t_j,t_i)为采集得到的文档c_j中的特征项和主题文档r_i中的各个特征项之间的概念词语相似度的加权平均值，θ_i为采集得到的文档c_j和主题文档r_i之间的相似性系数，q_jh为文档c_j中特征项t_jh的权重，g为文档c_j中的特征项个数，b为主题文档中特征项的个数；

b.计算采集文档和各个主题相似性系数中的最大相似性系数θ_max，具体为：

(2)定义主题阈值τ，当最大相似性系数θ_max大于主题阈值τ时，则θ_max对应的主题r_i即为采集得到的文档的主题，当最大相似性系数θ_max小于主题阈值τ时，则判断为主题不相关网页，即舍弃采集得到的文档。

本优选实施例通过计算采集得到的文档与热点领域集合中主题的相似性系数的计算，实现了对采集得到的文档的主题的有效划分。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种有效的网络热点监测系统，其特征是，包括信息采集模块、舆情预处理模块、舆情分析模块和管理模块，所述信息采集模块用于对网络上的舆情信息进行采集，获取网页数据，所述舆情预处理模块用于对获取的网页数据进行噪声处理以及中文分词，所述舆情分析模块用于从所述中文分词结果中提取网页的特征项并计算所述特征项的权重，进而进行网页主题的划分，所述管理模块用于对采集得到的文档进行存储，并向用户显示系统的监测结果。

2.根据权利要求1所述的一种有效的网络热点监测系统，其特征是，所述管理模块包括信息存储单元和信息显示单元，所述信息存储单元用于根据主题划分结果对采集得到的文档进行分类存储，所述信息显示单元用于向用户显示系统的监测结果。

3.根据权利要求2所述的一种有效的网络热点监测系统，其特征是，所述舆情分析模块包括网页表示单元和主题划分单元，所述网页表示单元用于从所述中文分词结果中提取能够反映网页主题的特征项并计算所述特征项的权重，所述主题划分单元用于根据计算所得的相似性系数进行采集得到的网页的主题的划分。

4.根据权利要求3所述的一种有效的网络热点监测系统，其特征是，所述网页表示单元用于从所述中文分词结果中提取能够反映网页主题的特征项并计算所述特征项的权重，具体包括：

<mrow> <mi>I</mi> <mi>G</mi> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>u</mi> </munderover> <mo>&lsqb;</mo> <mi>P</mi> <mo>(</mo> <mrow> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>L</mi> <mi>k</mi> </msub> </mrow> <mo>)</mo> <mi>ln</mi> <mfrac> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>L</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mi>p</mi> <mo>(</mo> <mrow> <msub> <mover> <mi>t</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>L</mi> <mi>k</mi> </msub> </mrow> <mo>)</mo> <mi>ln</mi> <mfrac> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>t</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>L</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>t</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <msup> <mi>e</mi> <mfrac> <mrow> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>L</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> <mover> <mrow> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>L</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> <mo>&OverBar;</mo> </mover> </mfrac> </msup> </mrow>

<mrow> <mi>I</mi> <mi>G</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>u</mi> </msubsup> <mi>I</mi> <mi>G</mi> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mi>u</mi> </mfrac> </mrow>

<mrow> <msub> <mi>q</mi> <mrow> <mi>l</mi> <mi>r</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mfrac> <msub> <mi>u</mi> <mrow> <mi>l</mi> <mi>r</mi> </mrow> </msub> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>*</mo> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <mfrac> <mi>D</mi> <msub> <mi>d</mi> <mi>r</mi> </msub> </mfrac> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>r</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>g</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mrow> <mi>l</mi> <mi>r</mi> </mrow> </msub> <mo>*</mo> <mi>l</mi> <mi>n</mi> <mo>(</mo> <mrow> <mfrac> <mi>D</mi> <msub> <mi>d</mi> <mi>r</mi> </msub> </mfrac> <mo>+</mo> <mn>1</mn> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mfrac> <mo>,</mo> <mrow> <mo>(</mo> <mi>r</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>...</mo> <mo>...</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

5.根据权利要求4所述的一种有效的网络热点监测系统，其特征是，所述主题划分单元用于根据计算所得的相似性系数对采集得到的网页进行主题划分，具体包括：

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>h</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>g</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>q</mi> <mrow> <mi>j</mi> <mi>h</mi> </mrow> </msub> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>u</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>b</mi> </msubsup> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mo>(</mo> <mrow> <msub> <mi>t</mi> <mrow> <mi>j</mi> <mi>h</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>t</mi> <mrow> <mi>i</mi> <mi>u</mi> </mrow> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> <mrow> <mi>g</mi> <mo>*</mo> <mi>b</mi> </mrow> </mfrac> </mrow>

<mrow> <msub> <mi>&theta;</mi> <mi>i</mi> </msub> <mo>=</mo> <msup> <mi>e</mi> <msqrt> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mo>(</mo> <mrow> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </msqrt> </msup> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>...</mo> <mi>w</mi> <mo>)</mo> </mrow> </mrow>

b.计算采集文档c_j和各个主题文档的相似性系数中的最大相似性系数θ_max，具体为：

<mrow> <msub> <mi>&theta;</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mn>1</mn> <mo>&le;</mo> <mi>i</mi> <mo>&le;</mo> <mi>w</mi> </mrow> </munder> <msub> <mi>&theta;</mi> <mi>i</mi> </msub> </mrow>