CN103841216A - 一种基于云平台的网络舆情监控系统 - Google Patents
一种基于云平台的网络舆情监控系统 Download PDFInfo
- Publication number
- CN103841216A CN103841216A CN201410126185.0A CN201410126185A CN103841216A CN 103841216 A CN103841216 A CN 103841216A CN 201410126185 A CN201410126185 A CN 201410126185A CN 103841216 A CN103841216 A CN 103841216A
- Authority
- CN
- China
- Prior art keywords
- module
- public sentiment
- cloud platform
- public opinion
- processing module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于云平台的网络舆情监控系统,包括:舆情采集模块、舆情处理模块、舆情服务模块、舆情管理控制模块和云平台数据库服务器,其中,所述舆情采集模块用于根据采集策略采集网页数据,提取网页文本数据;所述舆情处理模块包括中文分词处理模块、关键词及情感倾向词处理模块、敏感词处理模块以及聚类分析模块;所述舆情服务模块包括内容分析模块和舆情检索模块;所述管理控制模块包括任务管理模块以及用户管理模块,任务管理模块用于给用户提供舆情服务模块中各模块处理的结果,用户管理模块用于供用户设置系统中各模块的参数。本发明的有益效果在于,提供一种高效、准确以及安全的基于云平台的网络舆情监控系统。
Description
技术领域
本发明涉及一种基于云平台的网络舆情监控系统。
背景技术
目前,随着Internet的迅猛发展,网络信息已经成为人们生活中必不可少的一部分,目前中国网民的数量已经超过2亿,中国网页数量也超过了80亿。网络媒体已被公认为继报纸、广播和电视之后的“第四媒体”,网络成为反应社会舆情的主要载体之一。网络舆情与社会舆情相互作用、相互影响,网络舆情与社会舆情在内容表现形态方面具有一致性,网络舆情一定程度上会影响社会舆情的发展趋势,因此网络舆情热点话题的发现具有十分重要的意义。
目前,关于网络舆情热点的研究主要是基于自然语言处理技术的词频统计方法的研究,涉及到的技术有未登陆词的识别、中英文分词等等,该方法针对热点话题的快速发展,对各种论坛系统进行分类研究,依靠论坛的共享目标、信息互惠、共享环境等多种度量指标,使用多维向量来度量话题活性。但是,这种研究方法无法在于基于历史信息的情况下,针对大量话题快速发现舆情热点话题,具有较长的时间滞后性和较高的计算复杂度。
当前的网络舆情监控系统尚有一些缺陷主要表现如下所述:1、效率低下,容易遗漏信息;2、监控成本高,主要是由于算法的落后,导致数据的采集和分析效率低下,对服务器压力较大,为此只有通过添加服务器来解决,导致监控成本较高;3、分析数据精度低,在采集到数据后,无法将采集到的大量数据整理成真正有用的数据,尚需专业人员做二次处理;4、去除重复信息依赖URL去重,容易出现同一信息在不同地址多次采集,最终使得数据臃肿,准确率较低。
发明内容
鉴于现有技术中存在的上述问题,本发明的主要目的在于解决现有技术的缺陷,本发明提供一种高效、准确以及安全的基于云平台的网络舆情监控系统。
本发明提供了一种基于云平台的网络舆情监控系统,包括舆情采集模块、舆情处理模块、舆情服务模块、舆情管理控制模块和云平台数据库服务器,其中:所述舆情采集模块,用于根据采集策略采集网页数据,提取网页文本数据;所述舆情处理模块包括:中文分词处理模块,用于根据云平台数据库中词库中的关键词、敏感词以及情感倾向词,从网页文本数据分析出关键词、敏感词及情感倾向词;关键词及情感倾向词处理模块,用于依据中文分词处理模块分析出关键词及情感倾向词对网页文本数据进行过滤,存储关键词及情感倾向词过滤记录;敏感词处理模块,用于依据分词处理模块的敏感词,对关键词及情感倾向词处理模块过滤后的网页文本数据进行过滤;聚类分析模块,用于将敏感词处理模块过滤后的网页文本数据,按照网页所属类别和关键词进行自动聚类分析得到网络言论数据;所述舆情服务模块包括内容分析模块,采用数据索引算法,从抓取到的所述网络言论数据安装客户的需求,分析出相应的正面舆情和负面舆情,并形成相应的正面舆情文件和负面舆情文件;舆情检索模块,用于为用户提供网络舆情信息查询;所述管理控制模块包括任务管理模块以及用户管理模块,所述任务管理模块用于给用户提供舆情服务模块中各模块处理的结果;所述用户管理模块用于供用户设置系统中各模块的参数。
可选的,还包括基于云平台的多个存储服务器,所述舆情采集模块通过聚焦爬虫采集到的网页数据存放在所述基于云平台的多个存储服务器,便于存取和数据分区。
可选的,所述舆情采集模块进行网页数据采集时采用聚焦网络爬虫,所述聚焦网络爬虫根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列,同时根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复以上过程,直到达到系统的某一条件时停止。
可选的,所述舆情检索模块中包括全局检索模块、局部检索模块以及模糊检索模块。
可选的,所述用户管理模块包括多个客户端,用户通过所述多个客户端可进行自定义客户端的交互模式,同时还可根据用户的需求以及爱好自定义首页显示内容。
本发明具有以下优点和有益效果:本发明提供的一种基于云平台的网络舆情监控系统,设置的中文分词处理模块的算法高效、准确,可按客户需求设定,不遗漏、无歧义;本系统可按客户的不同需求提供不同的云计算能力的服务器,安装以及维护简单,可把不同客户数据独立分开,更安全;同时,设置的数据索引算法将抓取到的信息按客户需求,并以正面影响力和负面影响力制成文件,舆情数据一目了然;并且可以根据用户需求设置正负面舆情:如:某某公司奶粉有毒,这条新闻对某某公司是负面舆情,但对其竞争对手可视为正面舆情。
附图说明
图1为本发明基于云平台的网络舆情监控系统的结构示意图。
具体实施方式
下面将参照附图和具体实施例对本发明作进一步的说明。
如图1所示:本发明实施例的一种基于云平台的网络舆情监控系统,包括:舆情采集模块、舆情处理模块、舆情服务模块、舆情管理控制模块和云平台数据库服务器,其中:
所述舆情采集模块,用于根据采集策略采集网页数据,提取网页文本数据;
所述舆情处理模块包括:中文分词处理模块,用于根据云平台数据库中词库中的关键词、敏感词以及情感倾向词,从网页文本数据分析出关键词、敏感词及情感倾向词;关键词及情感倾向词处理模块,用于依据中文分词处理模块分析出关键词及情感倾向词对网页文本数据进行过滤,存储关键词及情感倾向词过滤记录;敏感词处理模块,用于依据分词处理模块的敏感词,对关键词及情感倾向词处理模块过滤后的网页文本数据进行过滤;聚类分析模块,用于将敏感词处理模块过滤后的网页文本数据,按照网页所属类别和关键词进行自动聚类分析得到网络言论数据;
所述舆情服务模块包括内容分析模块,采用数据索引算法,从抓取到的所述网络言论数据安装客户的需求,分析出相应的正面舆情和负面舆情,并形成相应的正面舆情文件和负面舆情文件;舆情检索模块,用于为用户提供网络舆情信息查询;
所述管理控制模块包括任务管理模块以及用户管理模块,所述任务管理模块用于给用户提供舆情服务模块中各模块处理的结果;所述用户管理模块用于供用户设置系统中各模块的参数;
作为上述实施例的优选实施方式,所述基于云平台的网络舆情监控系统还包括基于云平台的多个存储服务器,所述舆情采集模块通过聚焦爬虫采集到的网页数据存放在所述基于云平台的多个存储服务器,便于存取和数据分区。
作为上述实施例的优选实施方式,所述舆情采集模块进行网页数据采集时采用聚焦网络爬虫,所述聚焦网络爬虫根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列,同时根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复以上过程,直到达到系统的某一条件时停止。
作为上述实施例的优选实施方式,所述舆情检索模块中包括全局检索模块、局部检索模块以及模糊检索模块。
作为上述实施例的优选实施方式,所述用户管理模块包括多个客户端,用户通过所述多个客户端可进行自定义客户端的交互模式,同时还可根据用户的需求以及爱好自定义首页显示内容。
最后应说明的是:以上所述的各实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (5)
1.一种基于云平台的网络舆情监控系统,其特征在于,包括:舆情采集模块、舆情处理模块、舆情服务模块、舆情管理控制模块和云平台数据库服务器,其中:
所述舆情采集模块,用于根据采集策略采集网页数据,提取网页文本数据;
所述舆情处理模块包括:中文分词处理模块,用于根据云平台数据库中词库中的关键词、敏感词以及情感倾向词,从网页文本数据分析出关键词、敏感词及情感倾向词;关键词及情感倾向词处理模块,用于依据中文分词处理模块分析出关键词及情感倾向词对网页文本数据进行过滤,存储关键词及情感倾向词过滤记录;敏感词处理模块,用于依据分词处理模块的敏感词,对关键词及情感倾向词处理模块过滤后的网页文本数据进行过滤;聚类分析模块,用于将敏感词处理模块过滤后的网页文本数据,按照网页所属类别和关键词进行自动聚类分析得到网络言论数据;
所述舆情服务模块包括内容分析模块,采用数据索引算法,从抓取到的所述网络言论数据安装客户的需求,分析出相应的正面舆情和负面舆情,并形成相应的正面舆情文件和负面舆情文件;舆情检索模块,用于为用户提供网络舆情信息查询;
所述管理控制模块包括任务管理模块以及用户管理模块,所述任务管理模块用于给用户提供舆情服务模块中各模块处理的结果;所述用户管理模块用于供用户设置系统中各模块的参数。
2.根据权利要求1所述的基于云平台的网络舆情监控系统,其特征在于,还包括基于云平台的多个存储服务器,所述舆情采集模块通过聚焦爬虫采集到的网页数据存放在所述基于云平台的多个存储服务器,便于存取和数据分区。
3.根据权利要求1所述的基于云平台的网络舆情监控系统,其特征在于,所述舆情采集模块进行网页数据采集时采用聚焦网络爬虫,所述聚焦网络爬虫根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列,同时根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复以上过程,直到达到系统的某一条件、时停止。
4.根据权利要求1所述的基于云平台的网络舆情监控系统,其特征在于,所述舆情检索模块中包括全局检索模块、局部检索模块以及模糊检索模块。
5.根据权利要求1所述的基于云平台的网络舆情监控系统,其特征在于,所述用户管理模块包括多个客户端,用户通过所述多个客户端可进行自定义客户端的交互模式,同时还可根据用户的需求以及爱好自定义首页显示内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410126185.0A CN103841216A (zh) | 2014-04-01 | 2014-04-01 | 一种基于云平台的网络舆情监控系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410126185.0A CN103841216A (zh) | 2014-04-01 | 2014-04-01 | 一种基于云平台的网络舆情监控系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103841216A true CN103841216A (zh) | 2014-06-04 |
Family
ID=50804339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410126185.0A Pending CN103841216A (zh) | 2014-04-01 | 2014-04-01 | 一种基于云平台的网络舆情监控系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103841216A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106330609A (zh) * | 2016-08-29 | 2017-01-11 | 河源市新天彩科技有限公司 | 一种网络监控系统 |
CN106844640A (zh) * | 2017-01-22 | 2017-06-13 | 漳州科技职业学院 | 一种网页数据分析处理方法 |
CN107038178A (zh) * | 2016-08-03 | 2017-08-11 | 平安科技(深圳)有限公司 | 舆情分析方法和装置 |
CN107066603A (zh) * | 2017-04-21 | 2017-08-18 | 上海耐相智能科技有限公司 | 一种高效的粮食舆情监控系统 |
CN107085608A (zh) * | 2017-04-21 | 2017-08-22 | 上海喆之信息科技有限公司 | 一种有效的网络热点监测系统 |
CN107093021A (zh) * | 2017-04-21 | 2017-08-25 | 深圳市创艺工业技术有限公司 | 电网工程物资合同履约诚信舆情监控系统 |
CN107103087A (zh) * | 2017-05-02 | 2017-08-29 | 成都中远信电子科技有限公司 | 区块链大数据商情分析系统 |
CN107203641A (zh) * | 2017-06-19 | 2017-09-26 | 北京易华录信息技术股份有限公司 | 一种互联网交通舆情信息采集和处理的方法 |
CN107506349A (zh) * | 2017-08-04 | 2017-12-22 | 卓智网络科技有限公司 | 一种基于网络日志的用户负面情绪预测方法和系统 |
CN108268554A (zh) * | 2017-01-03 | 2018-07-10 | 中国移动通信有限公司研究院 | 一种生成垃圾短信过滤策略的方法和装置 |
CN108710654A (zh) * | 2018-05-10 | 2018-10-26 | 新华智云科技有限公司 | 一种舆情数据可视化方法及设备 |
CN108776671A (zh) * | 2018-05-12 | 2018-11-09 | 苏州华必讯信息科技有限公司 | 一种网络舆情监控系统及方法 |
CN109376293A (zh) * | 2018-05-17 | 2019-02-22 | 新华网股份有限公司 | 一种文本信息的过滤方法、装置和电子设备 |
CN109409926A (zh) * | 2018-09-07 | 2019-03-01 | 安徽恒科信息技术有限公司 | 一种商机大数据管理系统平台 |
CN109446465A (zh) * | 2018-11-10 | 2019-03-08 | 杨果 | 一种教育网络舆情监测及管理系统 |
CN111581500A (zh) * | 2020-04-24 | 2020-08-25 | 贵州力创科技发展有限公司 | 一种面向网络舆情的数据分布式定向存储方法和装置 |
CN112214658A (zh) * | 2019-07-10 | 2021-01-12 | 武汉朗立创科技有限公司 | 基于网络爬虫的数据分析系统 |
CN112711694A (zh) * | 2020-12-25 | 2021-04-27 | 安徽翼讯飞行安全技术有限公司 | 一种便于大数据交互且自动提取的商务软件平台 |
CN113032653A (zh) * | 2021-04-02 | 2021-06-25 | 盐城师范学院 | 一种基于大数据的舆情监测平台 |
CN113094623A (zh) * | 2021-04-23 | 2021-07-09 | 中南大学 | 舆情云平台接入的舆情系统资源配置的优化方法及子系统 |
CN113257435A (zh) * | 2021-05-07 | 2021-08-13 | 北京内景健康科技发展有限公司 | 艾灸古籍信息数字化应用平台及其搭建方法和应用 |
CN114139534A (zh) * | 2021-09-27 | 2022-03-04 | 首约科技(北京)有限公司 | 一种网约车舆情监控方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控系统及方法 |
CN102546771A (zh) * | 2011-12-27 | 2012-07-04 | 西安博构电子信息科技有限公司 | 基于特征模型的云挖掘网络舆情监测系统 |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
-
2014
- 2014-04-01 CN CN201410126185.0A patent/CN103841216A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控系统及方法 |
CN102546771A (zh) * | 2011-12-27 | 2012-07-04 | 西安博构电子信息科技有限公司 | 基于特征模型的云挖掘网络舆情监测系统 |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018023981A1 (zh) * | 2016-08-03 | 2018-02-08 | 平安科技(深圳)有限公司 | 舆情分析方法、装置、设备及计算机可读存储介质 |
CN107038178A (zh) * | 2016-08-03 | 2017-08-11 | 平安科技(深圳)有限公司 | 舆情分析方法和装置 |
CN106330609A (zh) * | 2016-08-29 | 2017-01-11 | 河源市新天彩科技有限公司 | 一种网络监控系统 |
CN108268554A (zh) * | 2017-01-03 | 2018-07-10 | 中国移动通信有限公司研究院 | 一种生成垃圾短信过滤策略的方法和装置 |
CN106844640A (zh) * | 2017-01-22 | 2017-06-13 | 漳州科技职业学院 | 一种网页数据分析处理方法 |
CN106844640B (zh) * | 2017-01-22 | 2020-02-21 | 漳州科技职业学院 | 一种网页数据分析处理方法 |
CN107066603A (zh) * | 2017-04-21 | 2017-08-18 | 上海耐相智能科技有限公司 | 一种高效的粮食舆情监控系统 |
CN107093021A (zh) * | 2017-04-21 | 2017-08-25 | 深圳市创艺工业技术有限公司 | 电网工程物资合同履约诚信舆情监控系统 |
CN107085608A (zh) * | 2017-04-21 | 2017-08-22 | 上海喆之信息科技有限公司 | 一种有效的网络热点监测系统 |
CN107103087A (zh) * | 2017-05-02 | 2017-08-29 | 成都中远信电子科技有限公司 | 区块链大数据商情分析系统 |
CN107203641A (zh) * | 2017-06-19 | 2017-09-26 | 北京易华录信息技术股份有限公司 | 一种互联网交通舆情信息采集和处理的方法 |
CN107506349A (zh) * | 2017-08-04 | 2017-12-22 | 卓智网络科技有限公司 | 一种基于网络日志的用户负面情绪预测方法和系统 |
CN108710654A (zh) * | 2018-05-10 | 2018-10-26 | 新华智云科技有限公司 | 一种舆情数据可视化方法及设备 |
CN108710654B (zh) * | 2018-05-10 | 2021-03-26 | 新华智云科技有限公司 | 一种舆情数据可视化方法及设备 |
CN108776671A (zh) * | 2018-05-12 | 2018-11-09 | 苏州华必讯信息科技有限公司 | 一种网络舆情监控系统及方法 |
CN109376293A (zh) * | 2018-05-17 | 2019-02-22 | 新华网股份有限公司 | 一种文本信息的过滤方法、装置和电子设备 |
CN109409926A (zh) * | 2018-09-07 | 2019-03-01 | 安徽恒科信息技术有限公司 | 一种商机大数据管理系统平台 |
CN109446465A (zh) * | 2018-11-10 | 2019-03-08 | 杨果 | 一种教育网络舆情监测及管理系统 |
CN112214658A (zh) * | 2019-07-10 | 2021-01-12 | 武汉朗立创科技有限公司 | 基于网络爬虫的数据分析系统 |
CN111581500A (zh) * | 2020-04-24 | 2020-08-25 | 贵州力创科技发展有限公司 | 一种面向网络舆情的数据分布式定向存储方法和装置 |
CN112711694A (zh) * | 2020-12-25 | 2021-04-27 | 安徽翼讯飞行安全技术有限公司 | 一种便于大数据交互且自动提取的商务软件平台 |
CN113032653A (zh) * | 2021-04-02 | 2021-06-25 | 盐城师范学院 | 一种基于大数据的舆情监测平台 |
CN113094623A (zh) * | 2021-04-23 | 2021-07-09 | 中南大学 | 舆情云平台接入的舆情系统资源配置的优化方法及子系统 |
CN113094623B (zh) * | 2021-04-23 | 2023-10-10 | 中南大学 | 舆情云平台接入的舆情系统资源配置的优化方法及子系统 |
CN113257435A (zh) * | 2021-05-07 | 2021-08-13 | 北京内景健康科技发展有限公司 | 艾灸古籍信息数字化应用平台及其搭建方法和应用 |
CN114139534A (zh) * | 2021-09-27 | 2022-03-04 | 首约科技(北京)有限公司 | 一种网约车舆情监控方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103841216A (zh) | 一种基于云平台的网络舆情监控系统 | |
CN109033387B (zh) | 一种融合多源数据的物联网搜索系统、方法及存储介质 | |
CN104537097B (zh) | 微博舆情监测系统 | |
CN106874292B (zh) | 话题处理方法及装置 | |
CN105447081A (zh) | 面向云平台的一种政务舆情监控方法 | |
CN104199833B (zh) | 一种网络搜索词的聚类方法和聚类装置 | |
CN104077377A (zh) | 基于网络文章属性的网络舆情热点发现方法和装置 | |
CN102523131A (zh) | 用户上网行为收集方法、分析方法和系统 | |
CN103139256B (zh) | 一种多租户网络舆情监控方法及系统 | |
Minanovic et al. | Big data and sentiment analysis using KNIME: Online reviews vs. social media | |
CN103970801B (zh) | 微博广告博文识别方法及装置 | |
CN105718590A (zh) | 面向多租户的SaaS舆情监控系统及方法 | |
CN102710795A (zh) | 热点聚合方法及装置 | |
CN104778208A (zh) | 一种搜索引擎 seo 网站数据的优化抓取方法及系统 | |
CN108416034B (zh) | 基于金融异构大数据的信息采集系统及其控制方法 | |
Nikhil et al. | A survey on text mining and sentiment analysis for unstructured web data | |
CN104615627A (zh) | 一种基于微博平台的事件舆情信息提取方法及系统 | |
CN104536830A (zh) | 一种基于MapReduce的KNN文本分类方法 | |
Zarrad et al. | The evaluation of the public opinion-a case study: Mers-cov infection virus in ksa | |
CN107315799A (zh) | 一种互联网重复信息筛选方法及系统 | |
CN106682206A (zh) | 一种大数据处理方法及系统 | |
KR101532252B1 (ko) | 소셜 네트워크 정보 수집 및 분석 시스템 | |
CN103853771B (zh) | 一种搜索结果的推送方法及系统 | |
CN103870595A (zh) | 一种数据挖掘系统及方法 | |
CN103870567A (zh) | 一种云计算中垂直搜索引擎网页采集模板自动识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140604 |