CN109783815B - 一种多维度网络舆情大数据对比分析方法 - Google Patents
一种多维度网络舆情大数据对比分析方法 Download PDFInfo
- Publication number
- CN109783815B CN109783815B CN201910022183.XA CN201910022183A CN109783815B CN 109783815 B CN109783815 B CN 109783815B CN 201910022183 A CN201910022183 A CN 201910022183A CN 109783815 B CN109783815 B CN 109783815B
- Authority
- CN
- China
- Prior art keywords
- data
- news
- analysis
- hot spot
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 17
- 230000008030 elimination Effects 0.000 claims abstract description 5
- 238000003379 elimination reaction Methods 0.000 claims abstract description 5
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000010835 comparative analysis Methods 0.000 claims description 5
- 238000011161 development Methods 0.000 claims description 5
- 230000018109 developmental process Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000008451 emotion Effects 0.000 claims description 4
- 230000002996 emotional effect Effects 0.000 claims description 4
- 230000008520 organization Effects 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 3
- 238000011156 evaluation Methods 0.000 abstract description 3
- 238000005070 sampling Methods 0.000 abstract description 2
- 238000012544 monitoring process Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种多维度网络舆情大数据对比分析方法,所述方法在双关键词搜索的基础上,对下载的网站进行自定义,分为三类不同数据来源进行全文搜索和数据采集,并对相关文章标题进行语义分析,经过分词、词频排序、新闻文本日常用词语料库匹配排除,得出有效的新闻热点专业词汇列表,并对不同数据来源的新闻热点专业词汇列表进行对比分析。采用互联网新闻文本大数据分析得出的词频数据,其样本量巨大,具有较高真实性和客观性,代表政府部门、公众群体观点,能够弥补传统的访谈和问卷调查方法数据样本量较小和取样随机性不足的缺陷,可以为进一步的公众观点主观评价分析提供数据参考。
Description
技术领域
本发明涉及大数据处理领域,具体涉及一种多维度网络舆情大数据对比分析方法。
背景技术
国内外对于新闻数据的利用主要体现在舆情监测方面,为政府部门和企业、媒体提供实施进展报告。国内已有几十家舆情检测和分析平台,如清博、新浪、图灵、云鸽、优讯、乐思等舆情监测系统,这些平台对网络舆情进行24小时监控,将媒体重要网站信息采集、分类、分析,得出两微一端媒体关注度排行榜。其分析数据可信度高,可以免费共享,具有开放性。网络舆情监测系统虽然有多种,但其产品主要关注媒体活跃度和新闻本身的点击量、点赞量等热度,其下载和存储的新闻原始数据无法直接用以深入的行业研究。
百度搜索引擎已经对海量的新闻数据进行了搜索,其排列特点是按照热度排序。在百度网站上进行搜索,可以得出具有较强关注度的新闻排序。舆情监测网站新闻数据搜索的特点在于进行了时间排序,可以追溯新闻热点的发展走势。而且,对各种媒体进行的分类和排序榜单,可以大致了解到各类媒体对此问题的关注热度和重点。但是,百度网站和舆情监测网站都只是一个数据搜索工具,无法达到初步数据归类和分析的目的。而且,其算法是模糊检索,得出的数据中与研究主题无关的内容占有很大比例,需要通过算法进一步精确匹配。
发明内容
本发明的目的是针对现有技术的不足,提供了一种多维度网络舆情大数据对比分析方法,所述方法对互联网新闻数据进行专业化热点分析,并进行多种类型新闻数据的横向热点差异和时序对比,解决了网络舆情数据专业化分析的技术难点和发展方向,为互联网新闻文本数据在各行业的应用提供了依据。
本发明的目的可以通过如下技术方案实现:
一种多维度网络舆情大数据对比分析方法,所述方法包括以下步骤:
S1、根据关键词,以政策性、新闻性、评论性三类网站为数据源进行文章搜索,并抓取文章标题、发表时间、网络地址这些开放性数据;
S2、根据下载的文章标题,进行分词处理,删除连词、介词、代词这些结构性词汇,去除动词、形容词词性的词汇,只保留名词,得出新闻热点词汇列表;
S3、通过新闻文章日常用词语料库匹配排除法,将新闻热点词汇列表中的日常用词删除,得出新闻热点专业词汇列表;
S4、对新闻热点专业词汇列表进行词频分析,并以词频降序排列,选取前百位数据制得总数据源的词频总表进行分析;
S5、增加年份数据,在总数据源的词频总表基础上,根据不同年份列出词频分表,进一步得出以时间为轴线的关注点变化趋势;
区分不同的数据源,根据选取的前百位数据得出总数据源和各分数据源的热点专业词汇列表,将不同数据源得出的热点专业词汇进行横向对比,找出其异同点和热点发展时序。
进一步地,所述政策性网站包括发布某领域最新政策和公示的政府网站;所述新闻性网站包括大型门户网站和机构网站。
进一步地,所述根据关键词,以政策性、新闻性、评论性三类网站为数据源进行文章搜索,关键词为一个,或者再包括这个关键词的一个相似性最大的同义词或近义词。
进一步地,在步骤S5中,为区别不同类型网站数据来源,将总数据源和分类数据源的数据分别进行图表绘制,每个类型分析中有6张图,“年份数据”为分年度的该类型新闻数据数量柱状图;“热点分析”为该类型热点词频柱状图;“热点云图”为“热点分析”图的云图表现方式;“热点百分比”为该类型热点词频占所有新闻数据总量的百分比折线图;“年度热点走势图”为该类型热点随年度变化的现状走势折线图;“情感属性”以饼状图表达正负面和中性的分布比例。
进一步地,在步骤S5中,还包括总数据源的综合分析图,其除了各类型新闻数据均有的6张图之外,增加了2张图;“媒体分布”为各类型新闻数据数量分布百分比饼状图;“前百位相同热点百分比走势图”为各类型新闻数据中处于前百位的相同热点百分比走势图,以比较各类型新闻数据的同异,此图空白则表明在新闻类型前百位热点中没有出现相同的词汇。
进一步地,所述图表绘制都采用了eCharts画图技术。
本发明与现有技术相比,具有如下优点和有益效果:
本发明提供的一种多维度网络舆情大数据对比分析方法,在双关键词搜索的基础上,对下载的网站进行自定义,分为3类不同数据来源进行数据采集,并对文章标题进行语义分析,经过分词、词频排序、新闻文本日常用词语料库匹配排除,得出有效的新闻热点专业词汇列表。采用互联网新闻文本大数据分析得出的词频数据,其样本量巨大,具有较高真实性和客观性,代表政府部门、公众群体观点,能够弥补传统的访谈和问卷调查方法数据样本量较小和取样随机性不足的缺陷,可以为进一步的公众观点主观评价分析提供数据参考。本发明能够比较政策性、新闻性和评论性3种类型数据之间的差异和时序关系,这些数据可以帮助管理部门、科研人员迅速了解和掌握行业舆情动态,具有高效性。
现有舆情监测数据主要关注新闻头条热度、媒体热度排行,本发明突破了其数据无法进行进一步专业分析的局限,将新闻数据进行热点分析,并加以对数据源横向对比,形成的数据表格可以直接用以深入的分析研究。
附图说明
图1为本发明一种多维度网络舆情大数据对比分析方法流程图。
图2为本发明实施例中对建筑行业网络舆情大数据对比分析的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
如图1所示,本实施例提供了一种多维度网络舆情大数据对比分析方法,该方法包括以下步骤:
S1、根据关键词,以政策性、新闻性、评论性三类网站为数据源进行文章搜索,并抓取文章标题、发表时间、网络地址这些开放性数据;
新闻数据来源分为三类。第一类是政策性网站,如政府网站,发布最新政策和公示等,此类网站数据包涵政府部门对该领域的指向。如历史文化村镇保护领域主要的政策发布网站是国家住建部网站及其下属各省市和地区网站。第二类是新闻性网站,包括大型门户网站和机构网站。国内知名的新浪、搜狐、网易、腾讯等都属于大型门户网站,以咨询、新闻等内容为主,网站内容比较全面,包括很多分支信息,比如房产、经济、科技、旅游等。另外,企业网站、商业网站、教育科研机构网站、微信自媒体等机构网站也属于此类,发布机构新闻和信息。大型门户网站用户量较大,微信自媒体的涵盖面较广。第三类是评论性网站,如微博、门户网站论坛、大众点评网等,发布地址、产品和用后评价值。
S2、根据下载的文章标题,进行分词处理,删除连词、介词、代词这些结构性词汇,去除动词、形容词词性的词汇,只保留名词,得出新闻热点词汇列表;
S3、通过新闻文章日常用词语料库匹配排除法,将新闻热点词汇列表中的日常用词删除,得出新闻热点专业词汇列表;
S4、对新闻热点专业词汇列表进行词频分析,并以词频降序排列,选取前百位数据制得总数据源的词频总表进行分析;
S5、增加年份数据,在总数据源的词频总表基础上,根据不同年份列出词频分表,进一步得出以时间为轴线的关注点变化趋势;
区分不同的数据源,根据选取的前百位数据得出总数据源和各分数据源的热点专业词汇列表,将不同数据源得出的热点专业词汇进行横向对比,找出其异同点和热点发展时序。
下面结合建筑行业对上述方法进行详细说明,如图2所示,包括以下步骤:
S1、在网页中输入关键词,可以输入一个关键词,也可以再输入这个关键词的一个相似性最大的同义词或近义词。点击搜索按钮启动数据后台采集程序,将包含关键词的文章进行标题、地址、时间下载,得到从互联网下载的与关键词相关的新闻标题列表。采用情感属性判别技术,对文章进行正负面情感判断。其中选择的网站包括住建部网站(政策性网站)、新浪网、微信(新闻性网站)、微博、天涯论坛(评论性网站),这些网站在3类新闻数据来源网站中具有代表性,而且大多数门户网站发布主要新闻具有同质性,故没有必要对所有的门户网站进行搜索。
S2、启动分词程序,对新闻标题列表进行分词处理,得出词汇列表;
S3、启动词性分析程序,删除连词、介词、代词、动词、形容词等词性的词汇,只保留名词,得出新闻热点词汇列表;
S4、启动新闻文章日常用词语料库匹配程序,排除新闻热点词汇列表中词频占比列表中的日常用词,按照词频降序排序,得出新闻专业词汇列表;
S5、区分新闻文章标题不同数据源,得出总数据列表和分类数据源列表;
S6、启动绘图程序,按照不同类型数据源列表,分别绘制年份数据、热点云图、热点百分比、年度热点走势图、情感属性;
启动绘图程序,对总数据源进行综合分析,包括媒体分布、年份数据、热点云图、热点百分比、年度热点走势图、情感属性,另外,对各类型数据新闻热点进行横向对比关联分析。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。
Claims (6)
1.一种多维度网络舆情大数据对比分析方法,其特征在于,所述方法包括以下步骤:
S1、根据关键词,以政策性、新闻性、评论性三类网站为数据源进行文章搜索,并抓取文章标题、发表时间、网络地址这些开放性数据;采用情感属性判别技术,对文章进行正负面情感判断;
S2、根据下载的文章标题,进行分词处理,删除连词、介词、代词这些结构性词汇,去除动词、形容词词性的词汇,只保留名词,得出新闻热点词汇列表;
S3、通过新闻文章日常用词语料库匹配排除法,将新闻热点词汇列表中的日常用词删除,得出新闻热点专业词汇列表;
S4、对新闻热点专业词汇列表进行词频分析,并以词频降序排列,选取前百位数据制得总数据源的词频总表进行分析;
S5、增加年份数据,在总数据源的词频总表基础上,根据不同年份列出词频分表,进一步得出以时间为轴线的关注点变化趋势;
区分不同的数据源,根据选取的前百位数据得出总数据源和各分数据源的热点专业词汇列表,将不同数据源得出的热点专业词汇进行横向对比,找出其异同点和热点发展时序。
2.根据权利要求1所述的一种多维度网络舆情大数据对比分析方法,其特征在于:所述政策性网站包括发布某领域最新政策和公示的政府网站;所述新闻性网站包括大型门户网站和机构网站。
3.根据权利要求1所述的一种多维度网络舆情大数据对比分析方法,其特征在于:所述根据关键词,以政策性、新闻性、评论性三类网站为数据源进行文章搜索,关键词为一个,或者再包括这个关键词的一个相似性最大的同义词或近义词。
4.根据权利要求1所述的一种多维度网络舆情大数据对比分析方法,其特征在于:在步骤S5中,为直观地区别不同类型网站数据来源,将总数据源和分类数据源的数据分别进行图表绘制,每个类型分析中有6张图,“年份数据”为分年度的该类型新闻数据数量柱状图;“热点分析”为该类型热点词频柱状图;“热点云图”为“热点分析”图的云图表现方式;“热点百分比”为该类型热点词频占所有新闻数据总量的百分比折线图;“年度热点走势图”为该类型热点随年度变化的现状走势折线图;“情感属性”以饼状图表达正负面和中性的分布比例。
5.根据权利要求4所述的一种多维度网络舆情大数据对比分析方法,其特征在于:在步骤S5中,还包括总数据源的综合分析图,其除了各类型新闻数据均有的6张图之外,增加了2张图;“媒体分布”为各类型新闻数据数量分布百分比饼状图;“前百位相同热点百分比走势图”为各类型新闻数据中处于前百位的相同热点百分比走势图,以比较各类型新闻数据的同异,此图空白则表明在新闻类型前百位热点中没有出现相同的词汇。
6.根据权利要求4或5所述的一种多维度网络舆情大数据对比分析方法,其特征在于:所述图表绘制都采用了eCharts画图技术。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2018116169361 | 2018-12-28 | ||
CN201811616936 | 2018-12-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109783815A CN109783815A (zh) | 2019-05-21 |
CN109783815B true CN109783815B (zh) | 2020-10-23 |
Family
ID=66500256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910022183.XA Expired - Fee Related CN109783815B (zh) | 2018-12-28 | 2019-01-10 | 一种多维度网络舆情大数据对比分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109783815B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852058A (zh) * | 2019-09-24 | 2020-02-28 | 贵阳朗玛信息技术股份有限公司 | 一种清单比对的方法及装置 |
CN111026868B (zh) * | 2019-12-05 | 2022-07-15 | 厦门市美亚柏科信息股份有限公司 | 一种多维度舆情危机预测方法、终端设备及存储介质 |
CN113220823B (zh) * | 2020-01-21 | 2024-03-01 | 北京中科闻歌科技股份有限公司 | 一种面向社交媒体公共言论的情感、话题及观点分析方法和装置 |
CN111984787A (zh) * | 2020-08-17 | 2020-11-24 | 深圳新闻网传媒股份有限公司 | 一种基于互联网数据的舆情热点获取方法及系统 |
CN112417253B (zh) * | 2020-12-28 | 2021-10-15 | 时间知道(北京)文化科技有限公司 | 一种多维舆情监测系统及方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080052147A1 (en) * | 2006-07-18 | 2008-02-28 | Eran Reshef | System and method for influencing public opinion |
KR101074215B1 (ko) * | 2009-02-27 | 2011-10-14 | 에스케이 텔레콤주식회사 | 여론 분석 장치 및 문서 분석을 통한 여론 평가 방법 |
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控系统及方法 |
CN102609427A (zh) * | 2011-11-10 | 2012-07-25 | 天津大学 | 舆情垂直搜索分析系统及方法 |
CN103309960B (zh) * | 2013-05-29 | 2017-06-06 | 亿赞普(北京)科技有限公司 | 一种网络舆情事件多维信息提取的方法及装置 |
CN103744877A (zh) * | 2013-12-20 | 2014-04-23 | 潘大庆 | 部署于互联网的舆情监测应用系统及运用方法 |
CN104239383A (zh) * | 2014-06-09 | 2014-12-24 | 合肥工业大学 | 一种微博情感可视化方法 |
CN104077377B (zh) * | 2014-06-25 | 2018-02-23 | 红麦聚信(北京)软件技术有限公司 | 基于网络文章属性的网络舆情热点发现方法和装置 |
CN104965931A (zh) * | 2015-07-30 | 2015-10-07 | 成都布林特信息技术有限公司 | 一种基于大数据的舆情分析方法 |
-
2019
- 2019-01-10 CN CN201910022183.XA patent/CN109783815B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN109783815A (zh) | 2019-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783815B (zh) | 一种多维度网络舆情大数据对比分析方法 | |
Tuomaala et al. | Evolution of library and information science, 1965–2005: Content analysis of journal articles | |
US11663254B2 (en) | System and engine for seeded clustering of news events | |
Xia et al. | Scientific article recommendation: Exploiting common author relations and historical preferences | |
US9990368B2 (en) | System and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information | |
US9659084B1 (en) | System, methods, and user interface for presenting information from unstructured data | |
Segev et al. | Context-based matching and ranking of web services for composition | |
CN100583804C (zh) | 基于专家值传播算法的社会网络专家信息处理系统及方法 | |
CN104809108B (zh) | 信息监测分析系统 | |
CN107918644B (zh) | 声誉管理框架内的新闻议题分析方法和实施系统 | |
Lin et al. | Finding topic-level experts in scholarly networks | |
CN103198136B (zh) | 一种基于时序关联的个人电脑文件查询方法 | |
CN111859065A (zh) | 一种基于大数据的舆情聆听系统 | |
Sun et al. | A novel approach for personalized article recommendation in online scientific communities | |
Tsay | Knowledge flow out of the domain of information science: a bibliometric and citation analysis study | |
Kaya | International Journal of Intelligent Systems and Applications in Engineering | |
Poonkuzhali et al. | Signed approach for mining web content outliers | |
Sainger | Sentiment analysis-an assessment of online public opinion: a conceptual review | |
Singh et al. | RANKuser: A folksonomy and user profile based algorithm to identify experts in Community Question Answering sites | |
Bashaddadh et al. | Topic detection and tracking interface with named entities approach | |
Shankar et al. | An approach for extracting tweets from social media factors | |
Potey et al. | Personalization approaches for ranking: A review and research experiments | |
Krzesaj | Information quality evaluation methodology for web page directories | |
Chen et al. | Recommending topics in dialogue | |
Moqri et al. | Identifying Research Trends in IS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201023 |