CN109783815B

CN109783815B - 一种多维度网络舆情大数据对比分析方法

Info

Publication number: CN109783815B
Application number: CN201910022183.XA
Authority: CN
Inventors: 黄翼; 吴硕贤
Original assignee: Qinsi Construction Engineering Technology Consulting Guangzhou Co ltd; South China University of Technology SCUT
Current assignee: Qinsi Construction Engineering Technology Consulting Guangzhou Co ltd; South China University of Technology SCUT
Priority date: 2018-12-28
Filing date: 2019-01-10
Publication date: 2020-10-23
Anticipated expiration: 2039-01-10
Also published as: CN109783815A

Abstract

本发明公开了一种多维度网络舆情大数据对比分析方法，所述方法在双关键词搜索的基础上，对下载的网站进行自定义，分为三类不同数据来源进行全文搜索和数据采集，并对相关文章标题进行语义分析，经过分词、词频排序、新闻文本日常用词语料库匹配排除，得出有效的新闻热点专业词汇列表，并对不同数据来源的新闻热点专业词汇列表进行对比分析。采用互联网新闻文本大数据分析得出的词频数据，其样本量巨大，具有较高真实性和客观性，代表政府部门、公众群体观点，能够弥补传统的访谈和问卷调查方法数据样本量较小和取样随机性不足的缺陷，可以为进一步的公众观点主观评价分析提供数据参考。

Description

一种多维度网络舆情大数据对比分析方法

技术领域

本发明涉及大数据处理领域，具体涉及一种多维度网络舆情大数据对比分析方法。

背景技术

国内外对于新闻数据的利用主要体现在舆情监测方面，为政府部门和企业、媒体提供实施进展报告。国内已有几十家舆情检测和分析平台，如清博、新浪、图灵、云鸽、优讯、乐思等舆情监测系统，这些平台对网络舆情进行24小时监控，将媒体重要网站信息采集、分类、分析，得出两微一端媒体关注度排行榜。其分析数据可信度高，可以免费共享，具有开放性。网络舆情监测系统虽然有多种，但其产品主要关注媒体活跃度和新闻本身的点击量、点赞量等热度，其下载和存储的新闻原始数据无法直接用以深入的行业研究。

百度搜索引擎已经对海量的新闻数据进行了搜索，其排列特点是按照热度排序。在百度网站上进行搜索，可以得出具有较强关注度的新闻排序。舆情监测网站新闻数据搜索的特点在于进行了时间排序，可以追溯新闻热点的发展走势。而且，对各种媒体进行的分类和排序榜单，可以大致了解到各类媒体对此问题的关注热度和重点。但是，百度网站和舆情监测网站都只是一个数据搜索工具，无法达到初步数据归类和分析的目的。而且，其算法是模糊检索，得出的数据中与研究主题无关的内容占有很大比例，需要通过算法进一步精确匹配。

发明内容

本发明的目的是针对现有技术的不足，提供了一种多维度网络舆情大数据对比分析方法，所述方法对互联网新闻数据进行专业化热点分析，并进行多种类型新闻数据的横向热点差异和时序对比，解决了网络舆情数据专业化分析的技术难点和发展方向，为互联网新闻文本数据在各行业的应用提供了依据。

本发明的目的可以通过如下技术方案实现：

一种多维度网络舆情大数据对比分析方法，所述方法包括以下步骤：

S1、根据关键词，以政策性、新闻性、评论性三类网站为数据源进行文章搜索，并抓取文章标题、发表时间、网络地址这些开放性数据；

S2、根据下载的文章标题，进行分词处理，删除连词、介词、代词这些结构性词汇，去除动词、形容词词性的词汇，只保留名词，得出新闻热点词汇列表；

S3、通过新闻文章日常用词语料库匹配排除法，将新闻热点词汇列表中的日常用词删除，得出新闻热点专业词汇列表；

S4、对新闻热点专业词汇列表进行词频分析，并以词频降序排列，选取前百位数据制得总数据源的词频总表进行分析；

S5、增加年份数据，在总数据源的词频总表基础上，根据不同年份列出词频分表，进一步得出以时间为轴线的关注点变化趋势；

区分不同的数据源，根据选取的前百位数据得出总数据源和各分数据源的热点专业词汇列表，将不同数据源得出的热点专业词汇进行横向对比，找出其异同点和热点发展时序。

进一步地，所述政策性网站包括发布某领域最新政策和公示的政府网站；所述新闻性网站包括大型门户网站和机构网站。

进一步地，所述根据关键词，以政策性、新闻性、评论性三类网站为数据源进行文章搜索，关键词为一个，或者再包括这个关键词的一个相似性最大的同义词或近义词。

进一步地，在步骤S5中，为区别不同类型网站数据来源，将总数据源和分类数据源的数据分别进行图表绘制，每个类型分析中有6张图，“年份数据”为分年度的该类型新闻数据数量柱状图；“热点分析”为该类型热点词频柱状图；“热点云图”为“热点分析”图的云图表现方式；“热点百分比”为该类型热点词频占所有新闻数据总量的百分比折线图；“年度热点走势图”为该类型热点随年度变化的现状走势折线图；“情感属性”以饼状图表达正负面和中性的分布比例。

进一步地，在步骤S5中，还包括总数据源的综合分析图，其除了各类型新闻数据均有的6张图之外，增加了2张图；“媒体分布”为各类型新闻数据数量分布百分比饼状图；“前百位相同热点百分比走势图”为各类型新闻数据中处于前百位的相同热点百分比走势图，以比较各类型新闻数据的同异，此图空白则表明在新闻类型前百位热点中没有出现相同的词汇。

进一步地，所述图表绘制都采用了eCharts画图技术。

本发明与现有技术相比，具有如下优点和有益效果：

本发明提供的一种多维度网络舆情大数据对比分析方法，在双关键词搜索的基础上，对下载的网站进行自定义，分为3类不同数据来源进行数据采集，并对文章标题进行语义分析，经过分词、词频排序、新闻文本日常用词语料库匹配排除，得出有效的新闻热点专业词汇列表。采用互联网新闻文本大数据分析得出的词频数据，其样本量巨大，具有较高真实性和客观性，代表政府部门、公众群体观点，能够弥补传统的访谈和问卷调查方法数据样本量较小和取样随机性不足的缺陷，可以为进一步的公众观点主观评价分析提供数据参考。本发明能够比较政策性、新闻性和评论性3种类型数据之间的差异和时序关系，这些数据可以帮助管理部门、科研人员迅速了解和掌握行业舆情动态，具有高效性。

现有舆情监测数据主要关注新闻头条热度、媒体热度排行，本发明突破了其数据无法进行进一步专业分析的局限，将新闻数据进行热点分析，并加以对数据源横向对比，形成的数据表格可以直接用以深入的分析研究。

附图说明

图1为本发明一种多维度网络舆情大数据对比分析方法流程图。

图2为本发明实施例中对建筑行业网络舆情大数据对比分析的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

如图1所示，本实施例提供了一种多维度网络舆情大数据对比分析方法，该方法包括以下步骤：

新闻数据来源分为三类。第一类是政策性网站，如政府网站，发布最新政策和公示等，此类网站数据包涵政府部门对该领域的指向。如历史文化村镇保护领域主要的政策发布网站是国家住建部网站及其下属各省市和地区网站。第二类是新闻性网站，包括大型门户网站和机构网站。国内知名的新浪、搜狐、网易、腾讯等都属于大型门户网站，以咨询、新闻等内容为主，网站内容比较全面，包括很多分支信息，比如房产、经济、科技、旅游等。另外，企业网站、商业网站、教育科研机构网站、微信自媒体等机构网站也属于此类，发布机构新闻和信息。大型门户网站用户量较大，微信自媒体的涵盖面较广。第三类是评论性网站，如微博、门户网站论坛、大众点评网等，发布地址、产品和用后评价值。

下面结合建筑行业对上述方法进行详细说明，如图2所示，包括以下步骤：

S1、在网页中输入关键词，可以输入一个关键词，也可以再输入这个关键词的一个相似性最大的同义词或近义词。点击搜索按钮启动数据后台采集程序，将包含关键词的文章进行标题、地址、时间下载，得到从互联网下载的与关键词相关的新闻标题列表。采用情感属性判别技术，对文章进行正负面情感判断。其中选择的网站包括住建部网站(政策性网站)、新浪网、微信(新闻性网站)、微博、天涯论坛(评论性网站)，这些网站在3类新闻数据来源网站中具有代表性，而且大多数门户网站发布主要新闻具有同质性，故没有必要对所有的门户网站进行搜索。

S2、启动分词程序，对新闻标题列表进行分词处理，得出词汇列表；

S3、启动词性分析程序，删除连词、介词、代词、动词、形容词等词性的词汇，只保留名词，得出新闻热点词汇列表；

S4、启动新闻文章日常用词语料库匹配程序，排除新闻热点词汇列表中词频占比列表中的日常用词，按照词频降序排序，得出新闻专业词汇列表；

S5、区分新闻文章标题不同数据源，得出总数据列表和分类数据源列表；

S6、启动绘图程序，按照不同类型数据源列表，分别绘制年份数据、热点云图、热点百分比、年度热点走势图、情感属性；

启动绘图程序，对总数据源进行综合分析，包括媒体分布、年份数据、热点云图、热点百分比、年度热点走势图、情感属性，另外，对各类型数据新闻热点进行横向对比关联分析。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种多维度网络舆情大数据对比分析方法，其特征在于，所述方法包括以下步骤：

S1、根据关键词，以政策性、新闻性、评论性三类网站为数据源进行文章搜索，并抓取文章标题、发表时间、网络地址这些开放性数据；采用情感属性判别技术，对文章进行正负面情感判断；

2.根据权利要求1所述的一种多维度网络舆情大数据对比分析方法，其特征在于：所述政策性网站包括发布某领域最新政策和公示的政府网站；所述新闻性网站包括大型门户网站和机构网站。

3.根据权利要求1所述的一种多维度网络舆情大数据对比分析方法，其特征在于：所述根据关键词，以政策性、新闻性、评论性三类网站为数据源进行文章搜索，关键词为一个，或者再包括这个关键词的一个相似性最大的同义词或近义词。

4.根据权利要求1所述的一种多维度网络舆情大数据对比分析方法，其特征在于：在步骤S5中，为直观地区别不同类型网站数据来源，将总数据源和分类数据源的数据分别进行图表绘制，每个类型分析中有6张图，“年份数据”为分年度的该类型新闻数据数量柱状图；“热点分析”为该类型热点词频柱状图；“热点云图”为“热点分析”图的云图表现方式；“热点百分比”为该类型热点词频占所有新闻数据总量的百分比折线图；“年度热点走势图”为该类型热点随年度变化的现状走势折线图；“情感属性”以饼状图表达正负面和中性的分布比例。

5.根据权利要求4所述的一种多维度网络舆情大数据对比分析方法，其特征在于：在步骤S5中，还包括总数据源的综合分析图，其除了各类型新闻数据均有的6张图之外，增加了2张图；“媒体分布”为各类型新闻数据数量分布百分比饼状图；“前百位相同热点百分比走势图”为各类型新闻数据中处于前百位的相同热点百分比走势图，以比较各类型新闻数据的同异，此图空白则表明在新闻类型前百位热点中没有出现相同的词汇。

6.根据权利要求4或5所述的一种多维度网络舆情大数据对比分析方法，其特征在于：所述图表绘制都采用了eCharts画图技术。