CN106649578A - 一种基于社交网络平台的舆情分析方法及系统 - Google Patents

一种基于社交网络平台的舆情分析方法及系统 Download PDF

Info

Publication number
CN106649578A
CN106649578A CN201611011012.XA CN201611011012A CN106649578A CN 106649578 A CN106649578 A CN 106649578A CN 201611011012 A CN201611011012 A CN 201611011012A CN 106649578 A CN106649578 A CN 106649578A
Authority
CN
China
Prior art keywords
public opinion
social network
analysis
public
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611011012.XA
Other languages
English (en)
Inventor
樊秋红
魏群
山艳
许广利
刘丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Science and Technology
Original Assignee
North China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Science and Technology filed Critical North China University of Science and Technology
Priority to CN201611011012.XA priority Critical patent/CN106649578A/zh
Publication of CN106649578A publication Critical patent/CN106649578A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了社交网络舆情分析技术领域的一种基于社交网络平台的舆情分析方法及系统,所述该基于社交网络平台的舆情分析方法,具体步骤如下:S1:统计分析用户的搜索词及搜索频率,获得数据集;S2:过滤掉重复的内容;S3:进行聚类后将每类数据合为一个文档集合;S4:得到相关热度的舆情结果;一种基于社交网络平台的舆情分析系统,所述该基于社交网络平台的舆情分析系统包括信息采集层、调度层、舆情分析单元、舆情数据存储和舆情信息服务,本发明能够准确有效的分析出数据集的热点话题,减少噪声数据的采集,不但对部分数据集做出精确分析,而且通过聚类后的文档集合能够涵盖对个数据集的集中分析。

Description

一种基于社交网络平台的舆情分析方法及系统
技术领域
本发明涉及社交网络舆情分析技术领域,具体为一种基于社交网络平台的舆情分析方法及系统。
背景技术
相比于传统媒体,互联网因其发展的迅速和使用的便利性,已逐步成为了反应社情民意最活跃、最快捷和最直接的渠道,对社会产生的影响力也越来越大,近年来也引起了国家相关部门和学术界的研究。在信息的传播过程中,民众基于互联网发表、转发和评论的舆情信息相互作用,相互影响。由于互联网具有不受时空限制的特性,使得即便是相距甚远的网民也能有高频率的交互。互联网的开放性也使用户的行为不受限制,在某些特性环境的诱导下,网民间的情绪或行为会互相引导,互相感染,最终掀起舆论风暴。
互联网舆情的发展往往伴随着舆情话题的产生和民众对舆情话题发表意见这两种行为。随着一个舆情话题的产生,到在网络中传播,民众对其的交流与讨论有可能将舆情话题意见往逐渐统一的趋势发展。与此同时,舆情话题会在短时间内大范围的扩散和快速的传播,其中一些负面信息也随着大范围传播,在进行舆情走势分析时,往往比较关注网民的言论而忽视有对少人持此意见,往往重视解读文字的内容而忽视网民的社会关系网络,为此,我们提出了一种基于社交网络平台的舆情分析方法及系统投入使用,以解决上述问题。
发明内容
本发明的目的在于提供一种基于社交网络平台的舆情分析方法及系统,以解决上述背景技术中提出的舆情话题会在短时间内大范围的扩散和快速的传播的同时其中一些负面信息也随着大范围传播,在进行舆情走势分析时,往往比较关注网民的言论而忽视有对少人持此意见,往往重视解读文字的内容而忽视网民的社会关系网络的问题。
为实现上述目的,本发明提供如下技术方案:一种基于社交网络平台的舆情分析方法,所述该基于社交网络平台的舆情分析方法,具体步骤如下:
S1:通过搜索引擎后台的搜索日志,记录网民IP地址、搜索时间、搜索词和被点击的结果网页URL地址数据,通过统计分析用户的搜索词及搜索频率,获得数据集;
S2:对步骤S1中获取的数据集中的自然语义文本处理为计算机可处理的结构化数据,并过滤掉重复的内容;
S3:经过预处理后的数据实施基于词向量的聚类分析,采用优化后的均值聚类,进行聚类后将每类数据合为一个文档集合;
S4:依据步骤S3中的文档集合,抽取其中出现频率较高的搜索词和被点击的结果网页URL地址数据信息,得到相关热度的舆情结果。
优选的,所述步骤S2中,对数据集的处理方法为:
S21:过滤具有针对性的对话互动信息,尽可能的消除噪声数据;
S22:将数据集中的内嵌外部链接URL中的信息抽取并添加到社交平台信息中;
S23:去除数据集中的分词、停用词和非法字符,初步得到干扰度较少的数据集信息。
一种基于社交网络平台的舆情分析系统,所述该基于社交网络平台的舆情分析系统包括信息采集层、调度层、舆情分析单元、舆情数据存储和舆情信息服务。
优选的,所述信息采集层对互联网信息中的论坛、新闻、网页、博客、贴吧和社区的信息进行实时的监测和采集。
优选的,所述调度层实现采集任务的下发和采集数据的去重,采集的范围和频率参数通过采集任务调度进行配置。
优选的,所述舆情分析单元对采集的信息内容进行关键热词、趋势分析、舆情管理、负面信息、专题检测、连接分析、热点发现、文本聚类和情感分析。
优选的,所述舆情数据存储内置存储器,在存储器中可存储网页快照和附件存储。
优选的,所述舆情信息服务具有舆情预警和舆情简报功能,并提供专题服务。
优选的,所述舆情预警设定了在指定时间内实例的负面信息达到相应数目的预警等级,具有对预警条件增删改查功能,并能够根据预警条件鉴定各实例的预警等级,舆情简报以简报的形式呈现每日每周重点舆情,且简报有多种设计格式供选择和编辑。
与现有技术相比,本发明的有益效果是:本发明能够准确有效的分析出数据集的热点话题,减少噪声数据的采集,不但对部分数据集做出精确分析,而且通过聚类后的文档集合能够涵盖对个数据集的集中分析。
附图说明
图1为本发明原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于社交网络平台的舆情分析方法,所述该基于社交网络平台的舆情分析方法,具体步骤如下:
S1:通过搜索引擎后台的搜索日志,记录网民IP地址、搜索时间、搜索词和被点击的结果网页URL地址数据,通过统计分析用户的搜索词及搜索频率,获得数据集;
S2:对步骤S1中获取的数据集中的自然语义文本处理为计算机可处理的结构化数据,并过滤掉重复的内容,对数据集的处理方法为:
S21:过滤具有针对性的对话互动信息,尽可能的消除噪声数据;
S22:将数据集中的内嵌外部链接URL中的信息抽取并添加到社交平台信息中;
S23:去除数据集中的分词、停用词和非法字符,初步得到干扰度较少的数据集信息;
S3:经过预处理后的数据实施基于词向量的聚类分析,采用优化后的均值聚类,进行聚类后将每类数据合为一个文档集合;
S4:依据步骤S3中的文档集合,抽取其中出现频率较高的搜索词和被点击的结果网页URL地址数据信息,得到相关热度的舆情结果。
一种基于社交网络平台的舆情分析系统,所述该基于社交网络平台的舆情分析系统包括信息采集层、调度层、舆情分析单元、舆情数据存储和舆情信息服务,所述信息采集层对互联网信息中的论坛、新闻、网页、博客、贴吧和社区的信息进行实时的监测和采集,所述调度层实现采集任务的下发和采集数据的去重,采集的范围和频率参数通过采集任务调度进行配置,所述舆情分析单元对采集的信息内容进行关键热词、趋势分析、舆情管理、负面信息、专题检测、连接分析、热点发现、文本聚类和情感分析,所述舆情数据存储内置存储器,在存储器中可存储网页快照和附件存储,所述舆情信息服务具有舆情预警和舆情简报功能,并提供专题服务,所述舆情预警设定了在指定时间内实例的负面信息达到相应数目的预警等级,具有对预警条件增删改查功能,并能够根据预警条件鉴定各实例的预警等级,舆情简报以简报的形式呈现每日每周重点舆情,且简报有多种设计格式供选择和编辑。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种基于社交网络平台的舆情分析方法,其特征在于:所述该基于社交网络平台的舆情分析方法,具体步骤如下:
S1:通过搜索引擎后台的搜索日志,记录网民IP地址、搜索时间、搜索词和被点击的结果网页URL地址数据,通过统计分析用户的搜索词及搜索频率,获得数据集;
S2:对步骤S1中获取的数据集中的自然语义文本处理为计算机可处理的结构化数据,并过滤掉重复的内容;
S3:经过预处理后的数据实施基于词向量的聚类分析,采用优化后的均值聚类,进行聚类后将每类数据合为一个文档集合;
S4:依据步骤S3中的文档集合,抽取其中出现频率较高的搜索词和被点击的结果网页URL地址数据信息,得到相关热度的舆情结果。
2.根据权利要求1所述的一种基于社交网络平台的舆情分析方法,其特征在于:所述步骤S2中,对数据集的处理方法为:
S21:过滤具有针对性的对话互动信息,尽可能的消除噪声数据;
S22:将数据集中的内嵌外部链接URL中的信息抽取并添加到社交平台信息中;
S23:去除数据集中的分词、停用词和非法字符,初步得到干扰度较少的数据集信息。
3.一种基于社交网络平台的舆情分析系统,其特征在于:所述该基于社交网络平台的舆情分析系统包括信息采集层、调度层、舆情分析单元、舆情数据存储和舆情信息服务。
4.根据权利要求3所述的一种基于社交网络平台的舆情分析系统,其特征在于:所述信息采集层对互联网信息中的论坛、新闻、网页、博客、贴吧和社区的信息进行实时的监测和采集。
5.根据权利要求3所述的一种基于社交网络平台的舆情分析系统,其特征在于:所述调度层实现采集任务的下发和采集数据的去重,采集的范围和频率参数通过采集任务调度进行配置。
6.根据权利要求3所述的一种基于社交网络平台的舆情分析系统,其特征在于:所述舆情分析单元对采集的信息内容进行关键热词、趋势分析、舆情管理、负面信息、专题检测、连接分析、热点发现、文本聚类和情感分析。
7.根据权利要求3所述的一种基于社交网络平台的舆情分析系统,其特征在于:所述舆情数据存储内置存储器,在存储器中可存储网页快照和附件存储。
8.根据权利要求3所述的一种基于社交网络平台的舆情分析系统,其特征在于:所述舆情信息服务具有舆情预警和舆情简报功能,并提供专题服务。
9.根据权利要求8所述的一种基于社交网络平台的舆情分析系统,其特征在于:所述舆情预警设定了在指定时间内实例的负面信息达到相应数目的预警等级,具有对预警条件增删改查功能,并能够根据预警条件鉴定各实例的预警等级,舆情简报以简报的形式呈现每日每周重点舆情,且简报有多种设计格式供选择和编辑。
CN201611011012.XA 2016-11-17 2016-11-17 一种基于社交网络平台的舆情分析方法及系统 Pending CN106649578A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611011012.XA CN106649578A (zh) 2016-11-17 2016-11-17 一种基于社交网络平台的舆情分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611011012.XA CN106649578A (zh) 2016-11-17 2016-11-17 一种基于社交网络平台的舆情分析方法及系统

Publications (1)

Publication Number Publication Date
CN106649578A true CN106649578A (zh) 2017-05-10

Family

ID=58808524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611011012.XA Pending CN106649578A (zh) 2016-11-17 2016-11-17 一种基于社交网络平台的舆情分析方法及系统

Country Status (1)

Country Link
CN (1) CN106649578A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704513A (zh) * 2017-08-31 2018-02-16 四川长虹电器股份有限公司 一种网络舆情监控方法及系统
CN108595666A (zh) * 2018-04-28 2018-09-28 中译语通科技股份有限公司 动态计算新闻采集服务资源的方法、信息数据处理终端
CN108614813A (zh) * 2017-12-19 2018-10-02 武汉楚鼎信息技术有限公司 一种股市题材舆情热度计算方法及系统装置
CN109460299A (zh) * 2018-11-08 2019-03-12 中山大学 一种分布式并行多源社交网络数据采集系统和方法
CN110163688A (zh) * 2019-05-30 2019-08-23 复旦大学 商品网络舆情检测系统
CN110263238A (zh) * 2019-06-21 2019-09-20 浙江华坤道威数据科技有限公司 一种基于大数据的舆情聆听系统
CN111355849A (zh) * 2018-12-24 2020-06-30 北京国双科技有限公司 一种话务工单处理方法及装置
CN112395539A (zh) * 2020-11-26 2021-02-23 格美安(北京)信息技术有限公司 一种基于自然语言处理的舆情风险监测方法及系统
CN113177163A (zh) * 2021-04-28 2021-07-27 烟台中科网络技术研究所 用于社交动态信息情感分析的方法、系统和存储介质
CN114020869A (zh) * 2021-11-08 2022-02-08 四川大学锦江学院 高校舆情分析系统及分析方法
CN114139098A (zh) * 2021-12-09 2022-03-04 安徽舆鹰信息技术有限公司 一种基于大数据的舆情系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN104965931A (zh) * 2015-07-30 2015-10-07 成都布林特信息技术有限公司 一种基于大数据的舆情分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN104965931A (zh) * 2015-07-30 2015-10-07 成都布林特信息技术有限公司 一种基于大数据的舆情分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
唐涛: "基于情报学方法的网络舆情监测研究", 《情报科学》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704513A (zh) * 2017-08-31 2018-02-16 四川长虹电器股份有限公司 一种网络舆情监控方法及系统
CN108614813A (zh) * 2017-12-19 2018-10-02 武汉楚鼎信息技术有限公司 一种股市题材舆情热度计算方法及系统装置
CN108595666A (zh) * 2018-04-28 2018-09-28 中译语通科技股份有限公司 动态计算新闻采集服务资源的方法、信息数据处理终端
CN108595666B (zh) * 2018-04-28 2022-03-29 中译语通科技股份有限公司 动态计算新闻采集服务资源的方法、信息数据处理终端
CN109460299A (zh) * 2018-11-08 2019-03-12 中山大学 一种分布式并行多源社交网络数据采集系统和方法
CN109460299B (zh) * 2018-11-08 2022-04-15 中山大学 一种分布式并行多源社交网络数据采集系统和方法
CN111355849A (zh) * 2018-12-24 2020-06-30 北京国双科技有限公司 一种话务工单处理方法及装置
CN110163688A (zh) * 2019-05-30 2019-08-23 复旦大学 商品网络舆情检测系统
CN110263238A (zh) * 2019-06-21 2019-09-20 浙江华坤道威数据科技有限公司 一种基于大数据的舆情聆听系统
CN112395539A (zh) * 2020-11-26 2021-02-23 格美安(北京)信息技术有限公司 一种基于自然语言处理的舆情风险监测方法及系统
CN112395539B (zh) * 2020-11-26 2021-12-17 格美安(北京)信息技术有限公司 一种基于自然语言处理的舆情风险监测方法及系统
CN113177163A (zh) * 2021-04-28 2021-07-27 烟台中科网络技术研究所 用于社交动态信息情感分析的方法、系统和存储介质
CN114020869A (zh) * 2021-11-08 2022-02-08 四川大学锦江学院 高校舆情分析系统及分析方法
CN114139098A (zh) * 2021-12-09 2022-03-04 安徽舆鹰信息技术有限公司 一种基于大数据的舆情系统

Similar Documents

Publication Publication Date Title
CN106649578A (zh) 一种基于社交网络平台的舆情分析方法及系统
CN104182389B (zh) 一种基于语义的大数据分析商业智能服务系统
CN103617169B (zh) 一种基于Hadoop的微博热点话题提取方法
CN101751458A (zh) 一种网络舆情监控系统及方法
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
CN108776671A (zh) 一种网络舆情监控系统及方法
CN104408157A (zh) 一种网络舆情漏斗式数据采集分析推送系统及方法
CN104281607A (zh) 微博热点话题分析方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN103020159A (zh) 一种面向事件的新闻展现方法和装置
CN104933093A (zh) 基于大数据的地区舆情监控及决策辅助系统和方法
CN102902775B (zh) 互联网实时计算的方法和系统
CN105718587A (zh) 一种网络内容资源评估方法及评估系统
CN104281608A (zh) 基于微博的突发事件分析方法
CN105488092A (zh) 一种时间敏感和自适应的子话题在线检测方法及系统
CN104965823A (zh) 一种基于大数据的观点抽取方法
CN103177076A (zh) 一种基于定点网站的舆情监测系统及方法
CN109460922A (zh) 一种具有电力行业特征的网络舆情分析与辅助决策系统
CN103177036A (zh) 一种标签自动提取方法和系统
CN104504151A (zh) 微信舆情监测系统
CN106844588A (zh) 一种基于网络爬虫的用户行为数据的分析方法及系统
CN105117466A (zh) 一种互联网信息筛选系统及方法
CN103593690A (zh) 用户智能标签系统
CN106649726A (zh) 一种社交网络中社团话题演化挖掘方法
CN106257457A (zh) 一种舆情收集整理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170510

RJ01 Rejection of invention patent application after publication