CN104794161A - 对网络舆情监控的方法 - Google Patents

对网络舆情监控的方法 Download PDF

Info

Publication number
CN104794161A
CN104794161A CN201510129837.0A CN201510129837A CN104794161A CN 104794161 A CN104794161 A CN 104794161A CN 201510129837 A CN201510129837 A CN 201510129837A CN 104794161 A CN104794161 A CN 104794161A
Authority
CN
China
Prior art keywords
web page
webpage
module
public
network public
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510129837.0A
Other languages
English (en)
Inventor
岳立松
徐宏伟
左少标
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201510129837.0A priority Critical patent/CN104794161A/zh
Publication of CN104794161A publication Critical patent/CN104794161A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种对网络舆情监控的方法,该舆情监控的方法通过网页信息采集与清洗、网页信息预处理和网络舆情分析三部分实现;网页信息采集与清洗:采用分布式协同爬虫动态获取相关的网页信息;对获取的网页清除噪声数据,萃取出相关数据,导入数据库;网页信息预处理包含网页文本分词模块、特征提取模块、VSM模型建立模块、网页相似度计算模块;网络舆情分析:选择一段时间样本网页进行一次聚类得到特征向量,使用这些特征向量对更大范围的网页数据进行二次聚类,获得舆情热点走势图表。本发明通过对网络资源的精确采集,实现对网络舆情的有效监测,能够对网络舆情进行有效的信息汇集、分析和预警。

Description

对网络舆情监控的方法
技术领域
本发明涉及网络数据监控技术领域,具体地说是一种对网络舆情监控的方法。
背景技术
舆情是指在一定的社会空间内,围绕社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度,它是较多群众关于社会中各种现象以及问题所表达的信念、态度、意见和情绪等表现的总和。随着互联网的迅猛发展,网络已成为庞大的公共信息集散地和民众参政议政最常用的平台。目前,对网络舆情的研究,在理论方面有学者注意到网络舆情的影响力,提出需要建立网络舆情信息汇集、分析、预警机制,但尚未进一步涉及深入到细节的具体实施方式口。
发明内容
本发明的技术任务是提供一种对网络舆情监控的方法。
本发明的技术任务是按以下方式实现的,该舆情监控的方法通过网页信息采集与清洗、网页信息预处理和网络舆情分析三部分实现;
网页信息采集与清洗:采用分布式协同爬虫,动态配置爬虫服务器数量以及爬虫数量,在不同的采集需求下动态增减使用在采集上的计算资源;通过网页采集子系统中的爬虫模块在Internet上获取相关的网页信息;对获取的网页,通过网页清洗模块清除噪声数据,萃取出相关数据,导入数据库;
网页信息预处理包含网页文本分词模块、特征提取模块、VSM模型建立模块、网页相似度计算模块;
网络舆情分析:选择一段时间样本网页进行一次聚类,形成多个网络舆情热点簇,通过热点簇的分析得到各热点簇的特征向量,使用这些特征向量对更大范围的网页数据进行二次聚类,获得舆情热点走势图表;同时,通过一次聚类和二次聚类的区分,将系统的工作界定为热点发现和热点跟踪。
所述的爬虫模块设置爬虫的数量、抓取速度、起始URL、符合采集要求的URL的正则表达式、爬虫线程终止条件。
所述的噪声数据为网页中的广告、导航信息、图片以及版权说明;相关数据为网页的标题、正文、链接地址和采集时间。
所述的网页文本分词模块:根据是否使用切分词典,可分为有词典切分和无词典切分;根据切分的具体方法,分为基于规则的方法和基于统计的方法;
特征提取模块:采用抽取样本网页的全部网页词库作为网页的特征向量待选集合,对网页特征向量进行降维处理。
本发明的对网络舆情监控的方法和现有技术相比,通过对网页、论坛、博客、新闻评论等网络资源的精确采集,并结合网页净化、中文分词、向量模型建立、特征选择、降维处理、文本聚类等中文信息处理技术,实现对网络舆情的有效监测,能够对网络舆情进行有效的信息汇集、分析和预警。
具体实施方式
实施例1:
该舆情监控的方法通过网页信息采集与清洗、网页信息预处理和网络舆情分析三部分实现;
(一)网页信息采集与清洗:采用分布式协同爬虫,动态配置爬虫服务器数量以及爬虫数量,在不同的采集需求下动态增减使用在采集上的计算资源;通过网页采集子系统中的爬虫模块在Internet上获取相关的网页信息,爬虫模块设置爬虫的数量、抓取速度、起始URL、符合采集要求的URL的正则表达式、爬虫线程终止条件;对获取的网页,通过网页清洗模块清除网页中的广告、导航信息、图片以及版权说明等噪声数据,萃取出网页的标题、正文、链接地址和采集时间等相关数据,导入数据库。
(二)网页信息预处理包含网页文本分词模块、特征提取模块、VSM模型建立模块、网页相似度计算模块;
1)网页文本分词模块:根据是否使用切分词典,可分为有词典切分和无词典切分。根据切分的具体方法,可分为基于规则的方法和基于统计的方法。采用了层叠隐马尔可夫模型(Hidden Markov Model),主要功能包括中文分词、词性标注、命名实体识别、新词识别;同时支持用户词典,其分词速度单机可达996KB/s,分词精度到达98.45%,分词效果良好。
2)特征提取模块:首先采用抽取样本网页的全部网页词库作为网页的特征 向量待选集合,由于分词后的特征向量空间维度很大,因此有必要对网页特征向量进行降维处理。首先根据词性进行初步筛选,定义助词、介词、连词等虚词以及词语长度为1的无实际含义词为停用词,然后构造网页主题评价函数,对每个特征向量进行评估,选择符合预定阈值的词作为网页的特征向量集。采取词频与信息增益(Information Gain,IG)相结合的方法,将特征Tk信息增益的定义为:
Gain ( T , T k ) = I ( T ) - I ( T , T k ) m = m Σ k = 1 . . nm P k * log P k - m Σ k = 1 . . n P km P k * log P k * P k * log P k
其中n为特征集的维数,网页特征词语频率为freq(k),P(k)为该特征向量的出现概率: P k = lim freq ( k ) m Σfreq ( k ) m k = 1 . . . . . . nm
特征Tk的信息增益值越大,说明特征Tk中包含的鉴别信息就越多,选择信息增益值的前15%作为网页特征向量,对于符合阈值要求的特征词作为网页的主题特征。
(三)网络舆情分析:选择一段时间样本网页进行一次聚类,形成多个网络舆情热点簇,通过热点簇的分析得到各热点簇的特征向量,使用这些特征向量对更大范围的网页数据进行二次聚类,获得舆情热点走势图表;同时,通过一次聚类和二次聚类的区分,将系统的工作界定为热点发现和热点跟踪。
1)一次聚类与热点发现:对于网页信息,由于网络数据的发散性,采取密度聚类的算法,从而克服基于距离的算法只能发现“类圆形”聚类的缺点,可发现任意形状的聚类,且对噪声数据不敏感。
2)二次聚类与热点跟踪:由于网络舆情信息的随机、复杂等特性,具体表现为网页文本大小不一,舆情主题多且杂乱,形成的舆情热点簇网页数非常不均衡。第一次聚类并不能得到关于网络舆情的精确分析,因此采用了二次聚类的方法。
首先提取出所关注网页簇中的特征词。由于经过聚类后的网页簇密度较大,各簇都有一定数量的网页来表达网页簇热点的主题,因此从网页簇中提取特征词来代表热点特征更为清晰。由于噪声网页大幅度减少,使得原来易受干扰的网页的本质特征更易被显现出来,表达网页簇主题的特征词更加纯粹,因此采用二次特征提取获取代表网页主题的特征词。根据提取的网页簇特征词,再次对采集的全部网页进行二次聚类。由于第一次聚类所选网页范围较为广泛,某些特征词选 取与所关注热点的主题无关,因此聚类质量不太理想,通过热点簇的形成,提取出与舆情热点主题相关度较大的特征词。通过使用所关注热点的特征词作为特征向量,对更大空间或时间范围的网页进行二次OPTICS聚类,重用第一次聚类模块,获得关于相关热点舆情信息,根据相关度质量较高的舆情网页,绘制出网络舆情时间演变趋势图表。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

Claims (4)

1.对网络舆情监控的方法,其特征在于,该舆情监控的方法通过网页信息采集与清洗、网页信息预处理和网络舆情分析三部分实现;
网页信息采集与清洗:采用分布式协同爬虫,动态配置爬虫服务器数量以及爬虫数量,在不同的采集需求下动态增减使用在采集上的计算资源;通过网页采集子系统中的爬虫模块在Internet上获取相关的网页信息;对获取的网页,通过网页清洗模块清除噪声数据,萃取出相关数据,导入数据库;
网页信息预处理包含网页文本分词模块、特征提取模块、VSM模型建立模块、网页相似度计算模块;
网络舆情分析:选择一段时间样本网页进行一次聚类,形成多个网络舆情热点簇,通过热点簇的分析得到各热点簇的特征向量,使用这些特征向量对更大范围的网页数据进行二次聚类,获得舆情热点走势图表;同时,通过一次聚类和二次聚类的区分,将系统的工作界定为热点发现和热点跟踪。
2.根据权利要求1所述的对网络舆情监控的方法,其特征在于,所述的爬虫模块设置爬虫的数量、抓取速度、起始URL、符合采集要求的URL的正则表达式、爬虫线程终止条件。
3.根据权利要求1所述的对网络舆情监控的方法,其特征在于,所述的噪声数据为网页中的广告、导航信息、图片以及版权说明;相关数据为网页的标题、正文、链接地址和采集时间。
4.根据权利要求1所述的对网络舆情监控的方法,其特征在于,所述的网页文本分词模块:根据是否使用切分词典,可分为有词典切分和无词典切分;根据切分的具体方法,分为基于规则的方法和基于统计的方法;
特征提取模块:采用抽取样本网页的全部网页词库作为网页的特征向量待选集合,对网页特征向量进行降维处理。
CN201510129837.0A 2015-03-24 2015-03-24 对网络舆情监控的方法 Pending CN104794161A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510129837.0A CN104794161A (zh) 2015-03-24 2015-03-24 对网络舆情监控的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510129837.0A CN104794161A (zh) 2015-03-24 2015-03-24 对网络舆情监控的方法

Publications (1)

Publication Number Publication Date
CN104794161A true CN104794161A (zh) 2015-07-22

Family

ID=53558953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510129837.0A Pending CN104794161A (zh) 2015-03-24 2015-03-24 对网络舆情监控的方法

Country Status (1)

Country Link
CN (1) CN104794161A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105573983A (zh) * 2015-12-17 2016-05-11 清华大学 基于主题模型的微博用户情绪层次化分类方法和分类系统
CN105677921A (zh) * 2016-03-18 2016-06-15 上海珍岛信息技术有限公司 一种互联网舆情数据的获取方法及系统
CN106230809A (zh) * 2016-07-27 2016-12-14 南京快页数码科技有限公司 一种基于url的移动互联网舆情监测方法及系统
CN106330609A (zh) * 2016-08-29 2017-01-11 河源市新天彩科技有限公司 一种网络监控系统
CN107093021A (zh) * 2017-04-21 2017-08-25 深圳市创艺工业技术有限公司 电网工程物资合同履约诚信舆情监控系统
CN107590193A (zh) * 2017-08-14 2018-01-16 安徽晶奇网络科技股份有限公司 一种政务舆情监测管理系统
CN107871009A (zh) * 2017-11-17 2018-04-03 山东浪潮云服务信息科技有限公司 一种采集目录元数据的方法及装置
CN109145216A (zh) * 2018-08-29 2019-01-04 中国平安保险(集团)股份有限公司 网络舆情监控方法、装置及存储介质
CN109526027A (zh) * 2018-11-27 2019-03-26 中国移动通信集团福建有限公司 一种小区容量优化方法、装置、设备及计算机存储介质
CN110197713A (zh) * 2019-05-10 2019-09-03 上海依智医疗技术有限公司 一种医疗影像的处理方法、装置、设备和介质
CN110852090A (zh) * 2019-11-07 2020-02-28 中科天玑数据科技股份有限公司 一种用于舆情爬取的机构特征词汇扩展系统和方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070088720A1 (en) * 2005-10-17 2007-04-19 Siemens Aktiengesellschaft Method for detecting discrepancies between a user's perception of web sites and an author's intention of these web sites
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN102567405A (zh) * 2010-12-31 2012-07-11 北京安码科技有限公司 一种基于改进的文本空间向量表示的热点发现方法
CN104077377A (zh) * 2014-06-25 2014-10-01 红麦聚信(北京)软件技术有限公司 基于网络文章属性的网络舆情热点发现方法和装置
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070088720A1 (en) * 2005-10-17 2007-04-19 Siemens Aktiengesellschaft Method for detecting discrepancies between a user's perception of web sites and an author's intention of these web sites
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN102567405A (zh) * 2010-12-31 2012-07-11 北京安码科技有限公司 一种基于改进的文本空间向量表示的热点发现方法
CN104077377A (zh) * 2014-06-25 2014-10-01 红麦聚信(北京)软件技术有限公司 基于网络文章属性的网络舆情热点发现方法和装置
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105573983A (zh) * 2015-12-17 2016-05-11 清华大学 基于主题模型的微博用户情绪层次化分类方法和分类系统
CN105677921A (zh) * 2016-03-18 2016-06-15 上海珍岛信息技术有限公司 一种互联网舆情数据的获取方法及系统
CN106230809B (zh) * 2016-07-27 2019-11-19 南京快页数码科技有限公司 一种基于url的移动互联网舆情监测方法及系统
CN106230809A (zh) * 2016-07-27 2016-12-14 南京快页数码科技有限公司 一种基于url的移动互联网舆情监测方法及系统
CN106330609A (zh) * 2016-08-29 2017-01-11 河源市新天彩科技有限公司 一种网络监控系统
CN107093021A (zh) * 2017-04-21 2017-08-25 深圳市创艺工业技术有限公司 电网工程物资合同履约诚信舆情监控系统
CN107590193A (zh) * 2017-08-14 2018-01-16 安徽晶奇网络科技股份有限公司 一种政务舆情监测管理系统
CN107871009A (zh) * 2017-11-17 2018-04-03 山东浪潮云服务信息科技有限公司 一种采集目录元数据的方法及装置
CN109145216A (zh) * 2018-08-29 2019-01-04 中国平安保险(集团)股份有限公司 网络舆情监控方法、装置及存储介质
CN109145216B (zh) * 2018-08-29 2023-08-25 中国平安保险(集团)股份有限公司 网络舆情监控方法、装置及存储介质
CN109526027A (zh) * 2018-11-27 2019-03-26 中国移动通信集团福建有限公司 一种小区容量优化方法、装置、设备及计算机存储介质
CN109526027B (zh) * 2018-11-27 2022-07-01 中国移动通信集团福建有限公司 一种小区容量优化方法、装置、设备及计算机存储介质
CN110197713A (zh) * 2019-05-10 2019-09-03 上海依智医疗技术有限公司 一种医疗影像的处理方法、装置、设备和介质
CN110852090A (zh) * 2019-11-07 2020-02-28 中科天玑数据科技股份有限公司 一种用于舆情爬取的机构特征词汇扩展系统和方法
CN110852090B (zh) * 2019-11-07 2024-03-19 中科天玑数据科技股份有限公司 一种用于舆情爬取的机构特征词汇扩展系统和方法

Similar Documents

Publication Publication Date Title
CN104794161A (zh) 对网络舆情监控的方法
Ruder et al. Character-level and multi-channel convolutional neural networks for large-scale authorship attribution
CN111310476B (zh) 一种使用基于方面的情感分析方法的舆情监控方法和系统
Farnadi et al. A multivariate regression approach to personality impression recognition of vloggers
Gunawan et al. Automatic text summarization for Indonesian language using textteaser
Çakir et al. Text mining analysis in Turkish language using big data tools
CN106599072B (zh) 一种文本聚类方法及装置
Nandi et al. Bangla news recommendation using doc2vec
CN109815401A (zh) 一种应用于Web人物搜索的人名消歧方法
Zhu et al. Real-time personalized twitter search based on semantic expansion and quality model
Celikyilmaz et al. Leveraging web query logs to learn user intent via bayesian latent variable model
Yao et al. Online deception detection refueled by real world data collection
Campbell et al. Content+ context networks for user classification in twitter
Al Mostakim et al. Bangla content categorization using text based supervised learning methods
Xiao A Survey of Document Clustering Techniques & Comparison of LDA and moVMF
Sitorus et al. Sensing trending topics in twitter for greater Jakarta area
Chen et al. Research on clustering analysis of Internet public opinion
Procter et al. Enabling social media research through citizen social science
Yeh et al. Topic model allocation of conversational dialogue records by Latent Dirichlet Allocation
ALQARALEH Turkish Sentiment Analysis System via Ensemble Learning
CN109241438B (zh) 基于要素的跨通道热点事件发现方法、装置及存储介质
Shin et al. Content-Based Unsupervised Fake News Detection on Ukraine-Russia War
Harshvardhan et al. Topic modelling Twitterati sentiments using Latent Dirichlet allocation during demonetization
Mussina et al. Parametrized event analysis from social networks
Mojiri et al. Event detection in Twitter using multi timing chained windows

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150722

WD01 Invention patent application deemed withdrawn after publication