CN109783815A - 一种多维度网络舆情大数据对比分析方法 - Google Patents

一种多维度网络舆情大数据对比分析方法 Download PDF

Info

Publication number
CN109783815A
CN109783815A CN201910022183.XA CN201910022183A CN109783815A CN 109783815 A CN109783815 A CN 109783815A CN 201910022183 A CN201910022183 A CN 201910022183A CN 109783815 A CN109783815 A CN 109783815A
Authority
CN
China
Prior art keywords
news
data
hot spot
data source
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910022183.XA
Other languages
English (en)
Other versions
CN109783815B (zh
Inventor
黄翼
吴硕贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tansi Architectural Engineering Consulting (guangzhou) Co Ltd
South China University of Technology SCUT
Original Assignee
Tansi Architectural Engineering Consulting (guangzhou) Co Ltd
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tansi Architectural Engineering Consulting (guangzhou) Co Ltd, South China University of Technology SCUT filed Critical Tansi Architectural Engineering Consulting (guangzhou) Co Ltd
Publication of CN109783815A publication Critical patent/CN109783815A/zh
Application granted granted Critical
Publication of CN109783815B publication Critical patent/CN109783815B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多维度网络舆情大数据对比分析方法,所述方法在双关键词搜索的基础上,对下载的网站进行自定义,分为三类不同数据来源进行全文搜索和数据采集,并对相关文章标题进行语义分析,经过分词、词频排序、新闻文本日常用词语料库匹配排除,得出有效的新闻热点专业词汇列表,并对不同数据来源的新闻热点专业词汇列表进行对比分析。采用互联网新闻文本大数据分析得出的词频数据,其样本量巨大,具有较高真实性和客观性,代表政府部门、公众群体观点,能够弥补传统的访谈和问卷调查方法数据样本量较小和取样随机性不足的缺陷,可以为进一步的公众观点主观评价分析提供数据参考。

Description

一种多维度网络舆情大数据对比分析方法
技术领域
本发明涉及大数据处理领域,具体涉及一种多维度网络舆情大数据对比分析方法。
背景技术
国内外对于新闻数据的利用主要体现在舆情监测方面,为政府部门和企业、媒体提供实施进展报告。国内已有几十家舆情检测和分析平台,如清博、新浪、图灵、云鸽、优讯、乐思等舆情监测系统,这些平台对网络舆情进行24小时监控,将媒体重要网站信息采集、分类、分析,得出两微一端媒体关注度排行榜。其分析数据可信度高,可以免费共享,具有开放性。网络舆情监测系统虽然有多种,但其产品主要关注媒体活跃度和新闻本身的点击量、点赞量等热度,其下载和存储的新闻原始数据无法直接用以深入的行业研究。
百度搜索引擎已经对海量的新闻数据进行了搜索,其排列特点是按照热度排序。在百度网站上进行搜索,可以得出具有较强关注度的新闻排序。舆情监测网站新闻数据搜索的特点在于进行了时间排序,可以追溯新闻热点的发展走势。而且,对各种媒体进行的分类和排序榜单,可以大致了解到各类媒体对此问题的关注热度和重点。但是,百度网站和舆情监测网站都只是一个数据搜索工具,无法达到初步数据归类和分析的目的。而且,其算法是模糊检索,得出的数据中与研究主题无关的内容占有很大比例,需要通过算法进一步精确匹配。
发明内容
本发明的目的是针对现有技术的不足,提供了一种多维度网络舆情大数据对比分析方法,所述方法对互联网新闻数据进行专业化热点分析,并进行多种类型新闻数据的横向热点差异和时序对比,解决了网络舆情数据专业化分析的技术难点和发展方向,为互联网新闻文本数据在各行业的应用提供了依据。
本发明的目的可以通过如下技术方案实现:
一种多维度网络舆情大数据对比分析方法,所述方法包括以下步骤:
S1、根据关键词,以政策性、新闻性、评论性三类网站为数据源进行文章搜索,并抓取文章标题、发表时间、网络地址这些开放性数据;
S2、根据下载的文章标题,进行分词处理,删除连词、介词、代词这些结构性词汇,去除动词、形容词词性的词汇,只保留名词,得出新闻热点词汇列表;
S3、通过新闻文章日常用词语料库匹配排除法,将新闻热点词汇列表中的日常用词删除,得出新闻热点专业词汇列表;
S4、对新闻热点专业词汇列表进行词频分析,并以词频降序排列,选取前百位数据制得总数据源的词频总表进行分析;
S5、增加年份数据,在总数据源的词频总表基础上,根据不同年份列出词频分表,进一步得出以时间为轴线的关注点变化趋势;
区分不同的数据源,根据选取的前百位数据得出总数据源和各分数据源的热点专业词汇列表,将不同数据源得出的热点专业词汇进行横向对比,找出其异同点和热点发展时序。
进一步地,所述政策性网站包括发布某领域最新政策和公示的政府网站;所述新闻性网站包括大型门户网站和机构网站。
进一步地,所述根据关键词,以政策性、新闻性、评论性三类网站为数据源进行文章搜索,关键词为一个,或者再包括这个关键词的一个相似性最大的同义词或近义词。
进一步地,在步骤S5中,为区别不同类型网站数据来源,将总数据源和分类数据源的数据分别进行图表绘制,每个类型分析中有6张图,“年份数据”为分年度的该类型新闻数据数量柱状图;“热点分析”为该类型热点词频柱状图;“热点云图”为“热点分析”图的云图表现方式;“热点百分比”为该类型热点词频占所有新闻数据总量的百分比折线图;“年度热点走势图”为该类型热点随年度变化的现状走势折线图;“情感属性”以饼状图表达正负面和中性的分布比例。
进一步地,在步骤S5中,还包括总数据源的综合分析图,其除了各类型新闻数据均有的6张图之外,增加了2张图;“媒体分布”为各类型新闻数据数量分布百分比饼状图;“前百位相同热点百分比走势图”为各类型新闻数据中处于前百位的相同热点百分比走势图,以比较各类型新闻数据的同异,此图空白则表明在新闻类型前百位热点中没有出现相同的词汇。
进一步地,所述图表绘制都采用了eCharts画图技术。
本发明与现有技术相比,具有如下优点和有益效果:
本发明提供的一种多维度网络舆情大数据对比分析方法,在双关键词搜索的基础上,对下载的网站进行自定义,分为3类不同数据来源进行数据采集,并对文章标题进行语义分析,经过分词、词频排序、新闻文本日常用词语料库匹配排除,得出有效的新闻热点专业词汇列表。采用互联网新闻文本大数据分析得出的词频数据,其样本量巨大,具有较高真实性和客观性,代表政府部门、公众群体观点,能够弥补传统的访谈和问卷调查方法数据样本量较小和取样随机性不足的缺陷,可以为进一步的公众观点主观评价分析提供数据参考。本发明能够比较政策性、新闻性和评论性3种类型数据之间的差异和时序关系,这些数据可以帮助管理部门、科研人员迅速了解和掌握行业舆情动态,具有高效性。
现有舆情监测数据主要关注新闻头条热度、媒体热度排行,本发明突破了其数据无法进行进一步专业分析的局限,将新闻数据进行热点分析,并加以对数据源横向对比,形成的数据表格可以直接用以深入的分析研究。
附图说明
图1为本发明一种多维度网络舆情大数据对比分析方法流程图。
图2为本发明实施例中对建筑行业网络舆情大数据对比分析的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
如图1所示,本实施例提供了一种多维度网络舆情大数据对比分析方法,该方法包括以下步骤:
S1、根据关键词,以政策性、新闻性、评论性三类网站为数据源进行文章搜索,并抓取文章标题、发表时间、网络地址这些开放性数据;
新闻数据来源分为三类。第一类是政策性网站,如政府网站,发布最新政策和公示等,此类网站数据包涵政府部门对该领域的指向。如历史文化村镇保护领域主要的政策发布网站是国家住建部网站及其下属各省市和地区网站。第二类是新闻性网站,包括大型门户网站和机构网站。国内知名的新浪、搜狐、网易、腾讯等都属于大型门户网站,以咨询、新闻等内容为主,网站内容比较全面,包括很多分支信息,比如房产、经济、科技、旅游等。另外,企业网站、商业网站、教育科研机构网站、微信自媒体等机构网站也属于此类,发布机构新闻和信息。大型门户网站用户量较大,微信自媒体的涵盖面较广。第三类是评论性网站,如微博、门户网站论坛、大众点评网等,发布地址、产品和用后评价值。
S2、根据下载的文章标题,进行分词处理,删除连词、介词、代词这些结构性词汇,去除动词、形容词词性的词汇,只保留名词,得出新闻热点词汇列表;
S3、通过新闻文章日常用词语料库匹配排除法,将新闻热点词汇列表中的日常用词删除,得出新闻热点专业词汇列表;
S4、对新闻热点专业词汇列表进行词频分析,并以词频降序排列,选取前百位数据制得总数据源的词频总表进行分析;
S5、增加年份数据,在总数据源的词频总表基础上,根据不同年份列出词频分表,进一步得出以时间为轴线的关注点变化趋势;
区分不同的数据源,根据选取的前百位数据得出总数据源和各分数据源的热点专业词汇列表,将不同数据源得出的热点专业词汇进行横向对比,找出其异同点和热点发展时序。
下面结合建筑行业对上述方法进行详细说明,如图2所示,包括以下步骤:
S1、在网页中输入关键词,可以输入一个关键词,也可以再输入这个关键词的一个相似性最大的同义词或近义词。点击搜索按钮启动数据后台采集程序,将包含关键词的文章进行标题、地址、时间下载,得到从互联网下载的与关键词相关的新闻标题列表。采用情感属性判别技术,对文章进行正负面情感判断。其中选择的网站包括住建部网站(政策性网站)、新浪网、微信(新闻性网站)、微博、天涯论坛(评论性网站),这些网站在3类新闻数据来源网站中具有代表性,而且大多数门户网站发布主要新闻具有同质性,故没有必要对所有的门户网站进行搜索。
S2、启动分词程序,对新闻标题列表进行分词处理,得出词汇列表;
S3、启动词性分析程序,删除连词、介词、代词、动词、形容词等词性的词汇,只保留名词,得出新闻热点词汇列表;
S4、启动新闻文章日常用词语料库匹配程序,排除新闻热点词汇列表中词频占比列表中的日常用词,按照词频降序排序,得出新闻专业词汇列表;
S5、区分新闻文章标题不同数据源,得出总数据列表和分类数据源列表;
S6、启动绘图程序,按照不同类型数据源列表,分别绘制年份数据、热点云图、热点百分比、年度热点走势图、情感属性;
启动绘图程序,对总数据源进行综合分析,包括媒体分布、年份数据、热点云图、热点百分比、年度热点走势图、情感属性,另外,对各类型数据新闻热点进行横向对比关联分析。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (6)

1.一种多维度网络舆情大数据对比分析方法,其特征在于,所述方法包括以下步骤:
S1、根据关键词,以政策性、新闻性、评论性三类网站为数据源进行文章搜索,并抓取文章标题、发表时间、网络地址这些开放性数据;
S2、根据下载的文章标题,进行分词处理,删除连词、介词、代词这些结构性词汇,去除动词、形容词词性的词汇,只保留名词,得出新闻热点词汇列表;
S3、通过新闻文章日常用词语料库匹配排除法,将新闻热点词汇列表中的日常用词删除,得出新闻热点专业词汇列表;
S4、对新闻热点专业词汇列表进行词频分析,并以词频降序排列,选取前百位数据制得总数据源的词频总表进行分析;
S5、增加年份数据,在总数据源的词频总表基础上,根据不同年份列出词频分表,进一步得出以时间为轴线的关注点变化趋势;
区分不同的数据源,根据选取的前百位数据得出总数据源和各分数据源的热点专业词汇列表,将不同数据源得出的热点专业词汇进行横向对比,找出其异同点和热点发展时序。
2.根据权利要求1所述的一种多维度网络舆情大数据对比分析方法,其特征在于:所述政策性网站包括发布某领域最新政策和公示的政府网站;所述新闻性网站包括大型门户网站和机构网站。
3.根据权利要求1所述的一种多维度网络舆情大数据对比分析方法,其特征在于:所述根据关键词,以政策性、新闻性、评论性三类网站为数据源进行文章搜索,关键词为一个,或者再包括这个关键词的一个相似性最大的同义词或近义词。
4.根据权利要求1所述的一种多维度网络舆情大数据对比分析方法,其特征在于:在步骤S5中,为直观地区别不同类型网站数据来源,将总数据源和分类数据源的数据分别进行图表绘制,每个类型分析中有6张图,“年份数据”为分年度的该类型新闻数据数量柱状图;“热点分析”为该类型热点词频柱状图;“热点云图”为“热点分析”图的云图表现方式;“热点百分比”为该类型热点词频占所有新闻数据总量的百分比折线图;“年度热点走势图”为该类型热点随年度变化的现状走势折线图;“情感属性”以饼状图表达正负面和中性的分布比例。
5.根据权利要求4所述的一种多维度网络舆情大数据对比分析方法,其特征在于:在步骤S5中,还包括总数据源的综合分析图,其除了各类型新闻数据均有的6张图之外,增加了2张图;“媒体分布”为各类型新闻数据数量分布百分比饼状图;“前百位相同热点百分比走势图”为各类型新闻数据中处于前百位的相同热点百分比走势图,以比较各类型新闻数据的同异,此图空白则表明在新闻类型前百位热点中没有出现相同的词汇。
6.根据权利要求4或5所述的一种多维度网络舆情大数据对比分析方法,其特征在于:所述图表绘制都采用了eCharts画图技术。
CN201910022183.XA 2018-12-28 2019-01-10 一种多维度网络舆情大数据对比分析方法 Expired - Fee Related CN109783815B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811616936 2018-12-28
CN2018116169361 2018-12-28

Publications (2)

Publication Number Publication Date
CN109783815A true CN109783815A (zh) 2019-05-21
CN109783815B CN109783815B (zh) 2020-10-23

Family

ID=66500256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910022183.XA Expired - Fee Related CN109783815B (zh) 2018-12-28 2019-01-10 一种多维度网络舆情大数据对比分析方法

Country Status (1)

Country Link
CN (1) CN109783815B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852058A (zh) * 2019-09-24 2020-02-28 贵阳朗玛信息技术股份有限公司 一种清单比对的方法及装置
CN111026868A (zh) * 2019-12-05 2020-04-17 厦门市美亚柏科信息股份有限公司 一种多维度舆情危机预测方法、终端设备及存储介质
CN111984787A (zh) * 2020-08-17 2020-11-24 深圳新闻网传媒股份有限公司 一种基于互联网数据的舆情热点获取方法及系统
CN112417253A (zh) * 2020-12-28 2021-02-26 时间知道(北京)文化科技有限公司 一种多维舆情监测系统及方法
CN113220823A (zh) * 2020-01-21 2021-08-06 北京中科闻歌科技股份有限公司 一种面向社交媒体公共言论的情感、话题及观点分析方法
CN113946653A (zh) * 2021-10-18 2022-01-18 安徽清博大数据科技有限公司 一种政策发布对比评估系统及方法
CN114511345A (zh) * 2021-12-20 2022-05-17 武汉理工大学 基于“政策-舆论-购买”双阶深度学习的销量预测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080052147A1 (en) * 2006-07-18 2008-02-28 Eran Reshef System and method for influencing public opinion
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
KR20100098014A (ko) * 2009-02-27 2010-09-06 에스케이 텔레콤주식회사 여론 분석 장치 및 문서 분석을 통한 여론 평가 방법
CN102609427A (zh) * 2011-11-10 2012-07-25 天津大学 舆情垂直搜索分析系统及方法
CN103309960A (zh) * 2013-05-29 2013-09-18 亿赞普(北京)科技有限公司 一种网络舆情事件多维信息提取的方法及装置
CN103744877A (zh) * 2013-12-20 2014-04-23 潘大庆 部署于互联网的舆情监测应用系统及运用方法
CN104077377A (zh) * 2014-06-25 2014-10-01 红麦聚信(北京)软件技术有限公司 基于网络文章属性的网络舆情热点发现方法和装置
CN104239383A (zh) * 2014-06-09 2014-12-24 合肥工业大学 一种微博情感可视化方法
CN104965931A (zh) * 2015-07-30 2015-10-07 成都布林特信息技术有限公司 一种基于大数据的舆情分析方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080052147A1 (en) * 2006-07-18 2008-02-28 Eran Reshef System and method for influencing public opinion
KR20100098014A (ko) * 2009-02-27 2010-09-06 에스케이 텔레콤주식회사 여론 분석 장치 및 문서 분석을 통한 여론 평가 방법
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN102609427A (zh) * 2011-11-10 2012-07-25 天津大学 舆情垂直搜索分析系统及方法
CN103309960A (zh) * 2013-05-29 2013-09-18 亿赞普(北京)科技有限公司 一种网络舆情事件多维信息提取的方法及装置
CN103744877A (zh) * 2013-12-20 2014-04-23 潘大庆 部署于互联网的舆情监测应用系统及运用方法
CN104239383A (zh) * 2014-06-09 2014-12-24 合肥工业大学 一种微博情感可视化方法
CN104077377A (zh) * 2014-06-25 2014-10-01 红麦聚信(北京)软件技术有限公司 基于网络文章属性的网络舆情热点发现方法和装置
CN104965931A (zh) * 2015-07-30 2015-10-07 成都布林特信息技术有限公司 一种基于大数据的舆情分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马越: "基于文本挖掘技术的建成环境使用后评价研究", 《南方建筑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852058A (zh) * 2019-09-24 2020-02-28 贵阳朗玛信息技术股份有限公司 一种清单比对的方法及装置
CN111026868A (zh) * 2019-12-05 2020-04-17 厦门市美亚柏科信息股份有限公司 一种多维度舆情危机预测方法、终端设备及存储介质
CN111026868B (zh) * 2019-12-05 2022-07-15 厦门市美亚柏科信息股份有限公司 一种多维度舆情危机预测方法、终端设备及存储介质
CN113220823A (zh) * 2020-01-21 2021-08-06 北京中科闻歌科技股份有限公司 一种面向社交媒体公共言论的情感、话题及观点分析方法
CN113220823B (zh) * 2020-01-21 2024-03-01 北京中科闻歌科技股份有限公司 一种面向社交媒体公共言论的情感、话题及观点分析方法和装置
CN111984787A (zh) * 2020-08-17 2020-11-24 深圳新闻网传媒股份有限公司 一种基于互联网数据的舆情热点获取方法及系统
CN112417253A (zh) * 2020-12-28 2021-02-26 时间知道(北京)文化科技有限公司 一种多维舆情监测系统及方法
CN112417253B (zh) * 2020-12-28 2021-10-15 时间知道(北京)文化科技有限公司 一种多维舆情监测系统及方法
CN113946653A (zh) * 2021-10-18 2022-01-18 安徽清博大数据科技有限公司 一种政策发布对比评估系统及方法
CN114511345A (zh) * 2021-12-20 2022-05-17 武汉理工大学 基于“政策-舆论-购买”双阶深度学习的销量预测方法
CN114511345B (zh) * 2021-12-20 2024-06-04 武汉理工大学 基于“政策-舆论-购买”双阶深度学习的销量预测方法

Also Published As

Publication number Publication date
CN109783815B (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
Mejia et al. Exploring topics in bibliometric research through citation networks and semantic analysis
CN109783815A (zh) 一种多维度网络舆情大数据对比分析方法
US9659084B1 (en) System, methods, and user interface for presenting information from unstructured data
CN105512245A (zh) 一种基于回归模型建立企业画像的方法
JP2015524962A (ja) 各マイクロブログがスパースな情報だけを含む多数のマイクロブログから情報に富んだ内容を自動生成するためのシステム及び方法
KR20130022042A (ko) 토픽별 오피니언과 소셜 영향력자를 기반으로 토픽을 탐지하고 추적하는 시스템 및 방법
CN107330111A (zh) 基于通用形式化本体的领域本体的检索方法及装置
Jindal et al. Construction of domain ontology utilizing formal concept analysis and social media analytics
Schatten et al. An introduction to social semantic web mining & big data analytics for political attitudes and mentalities research
Daouadi et al. Organization vs. Individual: Twitter User Classification.
Nasser et al. n-Gram based language processing using Twitter dataset to identify COVID-19 patients
Franzoni et al. Automated classification of book blurbs according to the emotional tags of the social network Zazie
CN107066585B (zh) 一种概率主题计算与匹配的舆情监测方法及系统
Subramaniyaswamy et al. Topic ontology-based efficient tag recommendation approach for blogs
Verma et al. AI-based literature reviews: A topic modeling approach
Gruzd Exploring virtual communities with the internet community text analyzer (ICTA)
Wei et al. DF-Miner: Domain-specific facet mining by leveraging the hyperlink structure of Wikipedia
KR102413961B1 (ko) Rpa 모니터링을 이용한 뉴스 분석 서비스 제공 방법
Sun et al. EduVis: Visualization for education knowledge graph based on web data
Dritsas et al. Aspect-based community detection of cultural heritage streaming data
Sainger Sentiment analysis-an assessment of online public opinion: a conceptual review
Portugal et al. GH4RE: Repository Recommendation on GitHub for Requirements Elicitation Reuse.
Ugheoke et al. Detecting the gender of a tweet sender
Gregory et al. Visual analysis of weblog content
Kushwaha et al. Hierarchical agglomerative clustering approach for automated attribute classification of the health care domain from user generated reviews on web 2.0

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201023

CF01 Termination of patent right due to non-payment of annual fee