CN117093762B - 一种舆情数据评估分析系统及方法 - Google Patents
一种舆情数据评估分析系统及方法 Download PDFInfo
- Publication number
- CN117093762B CN117093762B CN202310883761.5A CN202310883761A CN117093762B CN 117093762 B CN117093762 B CN 117093762B CN 202310883761 A CN202310883761 A CN 202310883761A CN 117093762 B CN117093762 B CN 117093762B
- Authority
- CN
- China
- Prior art keywords
- microblog
- forwarding
- analysis
- data
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000011157 data evaluation Methods 0.000 title claims abstract description 19
- 230000011218 segmentation Effects 0.000 claims abstract description 14
- 238000005474 detonation Methods 0.000 claims abstract description 12
- 238000007405 data analysis Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000000007 visual effect Effects 0.000 claims abstract description 5
- 230000008569 process Effects 0.000 claims description 13
- 230000008451 emotion Effects 0.000 claims description 12
- 238000011835 investigation Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 6
- 238000005553 drilling Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000013079 data visualisation Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 6
- 230000010485 coping Effects 0.000 abstract description 3
- 238000004590 computer program Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000000855 fermentation Methods 0.000 description 2
- 230000004151 fermentation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种舆情数据评估分析系统及其方法,话题数据采集预处理、话题数据分析、话题数据可视化展示、传播路径分析统计、话题数据热度分析、话题数据参与者分析,其中针对网络热点词进行全网搜索,通过爬虫获取相关数据,获取的数据使用jieba进行分析得到分词列表,将处理后的分词列表按时间段进行聚类,聚类结束后,保留十条最热门的话题内容,并展示话题相关数据总览。本发明针对互联网海量舆情自动实时的进行内容分析,可以快速的帮助企业关注热点,抓住难点,实现网络舆情搜集处理工作,为企业提供公关决策参考服务,准确的把握了实时热点舆论数据的引爆点信息,从而更好的提高公司相关部门对网络突发舆情的公共事件应对能力。
Description
技术领域
本发明涉及数据处理的技术领域,尤其涉及一种舆情数据评估分析系统及方法。
背景技术
随着互联网发展的影响力日益增大,网络舆论热点已成为各方关注的焦点,网络舆论覆盖面和来源渠道往往十分广阔,涉及到各个领域和各个层面;网络舆论多样化、个性化、差异性和震撼性特点更加明显,更容易引起舆论热点的发酵,其舆情传播的速度更快,传播的方式更加多式多样,舆情变化更加快捷、复杂。
但是随着舆情发酵,企业很难对舆情数据进行一个准确的评估分析,从而无法及时把握热点事件的发展过程,使得对网络突发的公共事件的应对效果较差。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有技术中存在的问题,提出了本发明。
为解决上述技术问题,本发明提供如下技术方案:
一种舆情数据评估分析方法,该方法包括以下步骤:
S1:针对网络热点词进行全网搜索,通过爬虫获取相关数据,获取的数据使用jieba进行分析得到分词列表,将处理后的分词列表按时间段进行聚类;
S2:对聚类后的热门话题进行针对性分析,并按照影响力比较靠前的用户或媒体、按地域进行分类汇总、按话题微博内容进行情感分析,并可按照日期进行趋势分析;
S3:对于聚类后的数据进行钻取分析,展示板块相关微博清单;
S4:对于微博清单进行转发分析,可展示原创微博的多层转发路径关系图,统计转发量靠前的用户或者媒体,并可按转发层级进行统计;
S5:按微博转发时间趋势,按时间展示最近三天微博涉及所有转发量,同时可分析出传播路径中的关键用户及关键路径,然后直观展示近三天微博热度走势,显示热度指数峰值及热度指数均值;
S6:对于原创微博,和相关转发进行用户分析,可按地域观查看微博分布情况,按性别、年龄、发文设备、用户类别进行不同维度的聚类汇总。
作为本发明所述一种舆情数据评估分析方法的一种优选方案,其中:该方法还包括:对话题数据的内容分析,基于相关微博内容形成热门词云图,对微博及转发微博中所有正向负向关键词对比进行情感分析,点击关键词,列出所有涉及关键词的原创微博及转发微博清单。
作为本发明所述一种舆情数据评估分析方法的一种优选方案,其中:基于对话题数据的内容分析后,所列出的原创微博和所有转发微博,分析微博转发及热点情况,计算出微博引爆点,对于引爆点可进行详细数据查看,包括引爆点的关键用户、转发内容、二次转发量、转发时间、转发用户排行信息。
作为本发明所述一种舆情数据评估分析方法的一种优选方案,其中:所述引爆点数值的计算方法具体为:
a、确定原创微博和转发微博的强调词在不同段落中出现的词频Pf;
b、确定原创微博和转发微博的强调词在不同文章中出现的词频Df;
c、根据公式确定引爆点权重数值S,其中计算公式为:
S=Pf(当)*Df(当)/Pf(总);
其中,Pf(当)为当日原创微博和转发微博强调词在不同段落中出现的词频,Pf(总)为调查周期内的原创微博和转发微博强调词在不同段落中出现的词频,这里的调查周期为3-5天,Df(当)为当日原创微博和转发微博强调词在不同文章中出现的词频。
作为本发明所述一种舆情数据评估分析方法的一种优选方案,其中:所述S1过程中采用聚类方法为K-means算法聚类,聚类结束后,保留十条最热门的话题内容,并展示话题相关数据总览。
作为本发明所述一种舆情数据评估分析方法的一种优选方案,其中:所述S3过程中,展示板块的相关微博清单是基于单条微博的热度分析、热度走势及相关热门词云图所列举的。
作为本发明所述一种舆情数据评估分析方法的一种优选方案,其中:所述S5过程中,对关键用户可进行详细查看,包括用户昵称、粉丝数量、转发话题微博的时间、转发数量、转发内容。
一种舆情数据评估分析系统,该系统包括:话题数据采集预处理模块、话题数据分析模块、话题数据可视化展示模块、传播路径分析统计模块、话题数据热度分析模块、话题数据参与者分析模块;
其中,话题数据采集预处理模块,用于针对网络热点词进行全网搜索,通过爬虫获取相关数据,获取的数据使用jieba进行分析得到分词列表,将处理后的分词列表按时间段进行聚类;
话题数据分析模块用于对聚类后的热门话题进行针对性分析,并按照影响力比较靠前的用户或媒体、按地域进行分类汇总、按话题微博内容进行情感分析,并可按照日期进行趋势分析;
话题数据可视化展示模块用于对于整体舆情预警概况数据进行钻取分析,展示板块相关微博清单;
传播路径分析统计模块用于对于微博进行转发分析,可展示原创微博的多层转发路径关系图,统计转发量靠前的用户或者媒体,并可按转发层级进行统计;
话题数据热度分析模块用于按微博转发时间趋势,按时间展示最近三天微博涉及所有转发量,同时可分析出传播路径中的关键用户及关键路径,然后直观展示近三天微博热度走势,显示热度指数峰值及热度指数均值;
话题数据参与者分析模块用于对于原创微博,和相关转发进行用户分析,可按地域观查看微博分布情况,按性别、年龄、发文设备、用户类别进行不同维度的聚类汇总。
作为本发明所述一种舆情数据评估分析系统的一种优选方案,其中:该系统还包括:话题数据的内容分析模块,该模块基于相关微博内容形成热门词云图,对微博及转发微博中所有正向负向关键词对比进行情感分析,点击关键词,列出所有涉及关键词的原创微博及转发微博清单;
并基于所列出的原创微博和所有转发微博,分析微博转发及热点情况,计算出微博引爆点,对于引爆点可进行详细数据查看,包括引爆点的关键用户、转发内容、二次转发量、转发时间、转发用户排行信息,其中引爆点数值的计算方法具体为:
a、确定原创微博和转发微博的强调词在不同段落中出现的词频Pf;
b、确定原创微博和转发微博的强调词在不同文章中出现的词频Df;
c、根据公式确定引爆点数值S,其中计算公式为:
S=Pf(当)*Df(当)/Pf(总);
其中,Pf(当)为当日原创微博和转发微博强调词在不同段落中出现的词频,Pf(总)为调查周期内每天的原创微博和转发微博强调词在不同段落中出现的词频,这里的调查周期为3-5天,Df(当)为当日原创微博和转发微博强调词在不同文章中出现的词频。
本发明的有益效果:本发明针对互联网海量舆情自动实时的进行内容分析,可以快速的帮助企业关注热点,抓住难点,实现网络舆情搜集处理工作,为企业提供公关决策参考服务,准确的把握了实时热点舆论数据的引爆点信息,从而更好的提高公司相关部门对网络突发舆情的公共事件应对能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明提出的一种舆情数据评估分析方法流程示意图。
实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
实施例
参照图1,为本发明的一个实施例,提供了一种舆情数据评估分析方法,此方法包括以下步骤:
S1:针对网络热点词进行全网搜索,通过爬虫获取相关数据,获取的数据使用jieba进行分析得到分词列表,将处理后的分词列表按时间段进行聚类,具体采用聚类方法为K-means算法聚类,聚类结束后,保留十条最热门的话题内容,并展示话题相关数据总览。
S2:对聚类后的热门话题进行针对性分析,并按照影响力比较靠前的用户或媒体、按地域进行分类汇总、按话题微博内容进行情感分析,并可按照日期进行趋势分析;
S3:对于聚类后的数据进行钻取分析,展示板块相关微博清单,展示板块的相关微博清单是基于单条微博的热度分析、热度走势及相关热门词云图所列举的。
S4:对于微博清单进行转发分析,可展示原创微博的多层转发路径关系图,统计转发量靠前的用户或者媒体,并可按转发层级进行统计;
S5:按微博转发时间趋势,按时间展示最近三天微博涉及所有转发量,同时可分析出传播路径中的关键用户及关键路径,然后直观展示近三天微博热度走势,显示热度指数峰值及热度指数均值,而对关键用户可进行详细查看,包括用户昵称、粉丝数量、转发话题微博的时间、转发数量、转发内容
S6:对于原创微博,和相关转发进行用户分析,可按地域观查看微博分布情况,按性别、年龄、发文设备、用户类别进行不同维度的聚类汇总。
此外,该方法还包括:对话题数据的内容分析,基于相关微博内容形成热门词云图,对微博及转发微博中所有正向负向关键词对比进行情感分析,点击关键词,列出所有涉及关键词的原创微博及转发微博清单,基于对话题数据的内容分析后,所列出的原创微博和所有转发微博,分析微博转发及热点情况,计算出微博引爆点,对于引爆点可进行详细数据查看,包括引爆点的关键用户、转发内容、二次转发量、转发时间、转发用户排行信息。
引爆点数值的计算方法具体为:
a、确定原创微博和转发微博的强调词在不同段落中出现的词频Pf;
b、确定原创微博和转发微博的强调词在不同文章中出现的词频Df;
c、根据公式确定引爆点权重数值S,其中计算公式为:
S=Pf(当)*Df(当)/Pf(总);
其中,Pf(当)为当日原创微博和转发微博强调词在不同段落中出现的词频,Pf(总)为调查周期内的原创微博和转发微博强调词在不同段落中出现的词频,这里的调查周期为3-5天,Df(当)为当日原创微博和转发微博强调词在不同文章中出现的词频,这里的强调词为话题数据微博的出现的特有舆论词,权重数值S越大,强调词参考价值越大。
本发明还公开一种舆情数据评估分析系统,该系统包括:话题数据采集预处理模块、话题数据分析模块、话题数据可视化展示模块、传播路径分析统计模块、话题数据热度分析模块、话题数据参与者分析模块以及话题数据的内容分析模块。
相应的,话题数据采集预处理模块,用于针对网络热点词进行全网搜索,通过爬虫获取相关数据,获取的数据使用jieba进行分析得到分词列表,将处理后的分词列表按时间段进行聚类;
话题数据分析模块用于对聚类后的热门话题进行针对性分析,并按照影响力比较靠前的用户或媒体、按地域进行分类汇总、按话题微博内容进行情感分析,并可按照日期进行趋势分析;
话题数据可视化展示模块用于对于整体舆情预警概况数据进行钻取分析,展示板块相关微博清单;
传播路径分析统计模块用于对于微博进行转发分析,可展示原创微博的多层转发路径关系图,统计转发量靠前的用户或者媒体,并可按转发层级进行统计;
话题数据热度分析模块用于按微博转发时间趋势,按时间展示最近三天微博涉及所有转发量,同时可分析出传播路径中的关键用户及关键路径,然后直观展示近三天微博热度走势,显示热度指数峰值及热度指数均值;
话题数据参与者分析模块用于对于原创微博,和相关转发进行用户分析,可按地域观查看微博分布情况,按性别、年龄、发文设备、用户类别进行不同维度的聚类汇总。
话题数据的内容分析模块,该模块基于相关微博内容形成热门词云图,对微博及转发微博中所有正向负向关键词对比进行情感分析,点击关键词,列出所有涉及关键词的原创微博及转发微博清单;
并基于所列出的原创微博和所有转发微博,分析微博转发及热点情况,计算出微博引爆点,对于引爆点可进行详细数据查看,包括引爆点的关键用户、转发内容、二次转发量、转发时间、转发用户排行信息,其中引爆点数值的计算方法具体为:
a、确定原创微博和转发微博的强调词在不同段落中出现的词频Pf;
b、确定原创微博和转发微博的强调词在不同文章中出现的词频Df;
c、根据公式确定引爆点数值S,其中计算公式为:
S=Pf(当)*Df(当)/Pf(总);
其中,Pf(当)为当日原创微博和转发微博强调词在不同段落中出现的词频,Pf(总)为调查周期内每天的原创微博和转发微博强调词在不同段落中出现的词频,这里的调查周期为3-5天,Df(当)为当日原创微博和转发微博强调词在不同文章中出现的词频。
本发明中,针对互联网海量舆情自动实时的进行内容分析,可以快速的帮助企业关注热点,抓住难点,实现网络舆情搜集处理工作,为企业提供公关决策参考服务,准确的把握了实时热点舆论数据的引爆点信息,从而更好的提高公司相关部门对网络突发舆情的公共事件应对能力。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (5)
1.一种舆情数据评估分析方法,其特征在于,该方法包括以下步骤:
S1:针对网络热点词进行全网搜索,通过爬虫获取相关数据,获取的数据使用jieba进行分析得到分词列表,将处理后的分词列表按时间段进行聚类;
S2:对聚类后的热门话题进行针对性分析,并按照影响力比较靠前的用户或媒体、按地域进行分类汇总、按话题微博内容进行情感分析,并可按照日期进行趋势分析;
S3:对于聚类后的数据进行钻取分析,展示板块相关微博清单;
S4:对于微博清单进行转发分析,可展示原创微博的多层转发路径关系图,统计转发量靠前的用户或者媒体,并可按转发层级进行统计;
S5:按微博转发时间趋势,按时间展示最近三天微博涉及所有转发量,同时可分析出传播路径中的关键用户及关键路径,然后直观展示近三天微博热度走势,显示热度指数峰值及热度指数均值;
S6:对于原创微博,和相关转发进行用户分析,可按地域观查看微博分布情况,按性别、年龄、发文设备、用户类别进行不同维度的聚类汇总;
其中,该方法还包括:对话题数据的内容分析,基于相关微博内容形成热门词云图,对微博及转发微博中所有正向负向关键词对比进行情感分析,点击关键词,列出所有涉及关键词的原创微博及转发微博清单;基于对话题数据的内容分析后,所列出的原创微博和所有转发微博,分析微博转发及热点情况,计算出微博引爆点,对于引爆点可进行详细数据查看,包括引爆点的关键用户、转发内容、二次转发量、转发时间、转发用户排行信息;
所述引爆点数值的计算方法具体为:
a、确定原创微博和转发微博的强调词在不同段落中出现的词频Pf;
b、确定原创微博和转发微博的强调词在不同文章中出现的词频Df;
c、根据公式确定引爆点权重数值S,其中计算公式为:
S=Pf(当)*Df(当)/Pf(总);
其中,Pf(当)为当日原创微博和转发微博强调词在不同段落中出现的词频,Pf(总)为调查周期内的原创微博和转发微博强调词在不同段落中出现的词频,这里的调查周期为3-5天,Df(当)为当日原创微博和转发微博强调词在不同文章中出现的词频。
2.根据权利要求1所述的一种舆情数据评估分析方法,其特征在于:所述S1过程中采用聚类方法为K-means算法聚类,聚类结束后,保留十条最热门的话题内容,并展示话题相关数据总览。
3.根据权利要求2所述的一种舆情数据评估分析方法,其特征在于:所述S3过程中,展示板块的相关微博清单是基于单条微博的热度分析、热度走势及相关热门词云图所列举的。
4.根据权利要求3所述的一种舆情数据评估分析方法,其特征在于:所述S5过程中,对关键用户可进行详细查看,包括用户昵称、粉丝数量、转发话题微博的时间、转发数量、转发内容。
5.一种舆情数据评估分析系统,其特征在于:该系统包括:话题数据采集预处理模块、话题数据分析模块、话题数据可视化展示模块、传播路径分析统计模块、话题数据热度分析模块、话题数据参与者分析模块;
其中,话题数据采集预处理模块,用于针对网络热点词进行全网搜索,通过爬虫获取相关数据,获取的数据使用jieba进行分析得到分词列表,将处理后的分词列表按时间段进行聚类;
话题数据分析模块用于对聚类后的热门话题进行针对性分析,并按照影响力比较靠前的用户或媒体、按地域进行分类汇总、按话题微博内容进行情感分析,并可按照日期进行趋势分析;
话题数据可视化展示模块用于对于整体舆情预警概况数据进行钻取分析,展示板块相关微博清单;
传播路径分析统计模块用于对于微博进行转发分析,可展示原创微博的多层转发路径关系图,统计转发量靠前的用户或者媒体,并可按转发层级进行统计;
话题数据热度分析模块用于按微博转发时间趋势,按时间展示最近三天微博涉及所有转发量,同时可分析出传播路径中的关键用户及关键路径,然后直观展示近三天微博热度走势,显示热度指数峰值及热度指数均值;
话题数据参与者分析模块用于对于原创微博,和相关转发进行用户分析,可按地域观查看微博分布情况,按性别、年龄、发文设备、用户类别进行不同维度的聚类汇总;
该系统还包括:话题数据的内容分析模块,该模块基于相关微博内容形成热门词云图,对微博及转发微博中所有正向负向关键词对比进行情感分析,点击关键词,列出所有涉及关键词的原创微博及转发微博清单;
并基于所列出的原创微博和所有转发微博,分析微博转发及热点情况,计算出微博引爆点,对于引爆点可进行详细数据查看,包括引爆点的关键用户、转发内容、二次转发量、转发时间、转发用户排行信息,其中引爆点数值的计算方法具体为:
a、确定原创微博和转发微博的强调词在不同段落中出现的词频Pf;
b、确定原创微博和转发微博的强调词在不同文章中出现的词频Df;
c、根据公式确定引爆点数值S,其中计算公式为:
S=Pf(当)*Df(当)/Pf(总);
其中,Pf(当)为当日原创微博和转发微博强调词在不同段落中出现的词频,Pf(总)为调查周期内每天的原创微博和转发微博强调词在不同段落中出现的词频,这里的调查周期为3-5天,Df(当)为当日原创微博和转发微博强调词在不同文章中出现的词频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310883761.5A CN117093762B (zh) | 2023-07-18 | 2023-07-18 | 一种舆情数据评估分析系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310883761.5A CN117093762B (zh) | 2023-07-18 | 2023-07-18 | 一种舆情数据评估分析系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117093762A CN117093762A (zh) | 2023-11-21 |
CN117093762B true CN117093762B (zh) | 2024-02-13 |
Family
ID=88768833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310883761.5A Active CN117093762B (zh) | 2023-07-18 | 2023-07-18 | 一种舆情数据评估分析系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117093762B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117611374B (zh) * | 2024-01-23 | 2024-05-07 | 深圳博十强志科技有限公司 | 一种基于多元化大数据分析的信息传播分析方法及系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281607A (zh) * | 2013-07-08 | 2015-01-14 | 上海锐英软件技术有限公司 | 微博热点话题分析方法 |
CN106503230A (zh) * | 2016-11-07 | 2017-03-15 | 贾志娟 | 一种基于复杂网络的微博传播溯源方法 |
CN107133219A (zh) * | 2017-06-06 | 2017-09-05 | 中国人民解放军国防科学技术大学 | 一种基于张量分解的在线爆炸性话题早发现方法 |
CN107885793A (zh) * | 2017-10-20 | 2018-04-06 | 江苏大学 | 一种微博热点话题分析预测方法及系统 |
CN107943905A (zh) * | 2017-11-17 | 2018-04-20 | 北京锐安科技有限公司 | 一种热点话题分析方法及系统 |
CN108959383A (zh) * | 2018-05-31 | 2018-12-07 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN109684646A (zh) * | 2019-01-15 | 2019-04-26 | 江苏大学 | 一种基于话题影响力的微博话题情感分析方法 |
CN110837608A (zh) * | 2019-11-07 | 2020-02-25 | 中科天玑数据科技股份有限公司 | 一种基于多源数据的舆情话题传播路径分析系统和方法 |
CN111461553A (zh) * | 2020-04-02 | 2020-07-28 | 上饶市中科院云计算中心大数据研究院 | 景区舆情监测分析系统和方法 |
CN112148946A (zh) * | 2020-09-27 | 2020-12-29 | 深圳壹账通智能科技有限公司 | 基于微博的分析及视图展示方法与系统 |
CN113065975A (zh) * | 2021-03-23 | 2021-07-02 | 深圳市网联安瑞网络科技有限公司 | 网络舆情话题聚焦程度与演变关系计算方法、系统、终端 |
CN114579833A (zh) * | 2022-03-03 | 2022-06-03 | 重庆邮电大学 | 一种基于主题挖掘和情感分析的微博舆情可视分析方法 |
CN115730064A (zh) * | 2021-08-27 | 2023-03-03 | 中移(苏州)软件技术有限公司 | 一种关键词处理方法、装置、电子设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246670B (zh) * | 2012-02-09 | 2016-02-17 | 深圳市腾讯计算机系统有限公司 | 微博排序、搜索、展示方法和系统 |
US9659043B2 (en) * | 2013-02-07 | 2017-05-23 | Enigma Technologies, Inc. | Data system and method |
US20150356102A1 (en) * | 2014-06-05 | 2015-12-10 | Mobli Technologies 2010 Ltd. | Automatic article enrichment by social media trends |
-
2023
- 2023-07-18 CN CN202310883761.5A patent/CN117093762B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281607A (zh) * | 2013-07-08 | 2015-01-14 | 上海锐英软件技术有限公司 | 微博热点话题分析方法 |
CN106503230A (zh) * | 2016-11-07 | 2017-03-15 | 贾志娟 | 一种基于复杂网络的微博传播溯源方法 |
CN107133219A (zh) * | 2017-06-06 | 2017-09-05 | 中国人民解放军国防科学技术大学 | 一种基于张量分解的在线爆炸性话题早发现方法 |
CN107885793A (zh) * | 2017-10-20 | 2018-04-06 | 江苏大学 | 一种微博热点话题分析预测方法及系统 |
CN107943905A (zh) * | 2017-11-17 | 2018-04-20 | 北京锐安科技有限公司 | 一种热点话题分析方法及系统 |
CN108959383A (zh) * | 2018-05-31 | 2018-12-07 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN109684646A (zh) * | 2019-01-15 | 2019-04-26 | 江苏大学 | 一种基于话题影响力的微博话题情感分析方法 |
CN110837608A (zh) * | 2019-11-07 | 2020-02-25 | 中科天玑数据科技股份有限公司 | 一种基于多源数据的舆情话题传播路径分析系统和方法 |
CN111461553A (zh) * | 2020-04-02 | 2020-07-28 | 上饶市中科院云计算中心大数据研究院 | 景区舆情监测分析系统和方法 |
CN112148946A (zh) * | 2020-09-27 | 2020-12-29 | 深圳壹账通智能科技有限公司 | 基于微博的分析及视图展示方法与系统 |
CN113065975A (zh) * | 2021-03-23 | 2021-07-02 | 深圳市网联安瑞网络科技有限公司 | 网络舆情话题聚焦程度与演变关系计算方法、系统、终端 |
CN115730064A (zh) * | 2021-08-27 | 2023-03-03 | 中移(苏州)软件技术有限公司 | 一种关键词处理方法、装置、电子设备和存储介质 |
CN114579833A (zh) * | 2022-03-03 | 2022-06-03 | 重庆邮电大学 | 一种基于主题挖掘和情感分析的微博舆情可视分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117093762A (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11886517B2 (en) | Graphical user interface for presentation of events | |
US11580680B2 (en) | Systems and interactive user interfaces for dynamic retrieval, analysis, and triage of data items | |
US12072943B2 (en) | Marking falsities in online news | |
US11615079B1 (en) | Graphical user interface for recurring searches | |
US10891701B2 (en) | Method and system for evaluating intellectual property | |
US11122009B2 (en) | Systems and methods for identifying geographic locations of social media content collected over social networks | |
US10147037B1 (en) | Method and system for determining a level of popularity of submission content, prior to publicizing the submission content with a question and answer support system | |
US20130304818A1 (en) | Systems and methods for discovery of related terms for social media content collection over social networks | |
US11429988B2 (en) | Method and system for increasing use of mobile devices to provide answer content in a question and answer based customer support system | |
JP6063053B2 (ja) | ネットワークデータセットを提示し、視覚的にナビゲートするためのシステム及び方法 | |
US20130297694A1 (en) | Systems and methods for interactive presentation and analysis of social media content collection over social networks | |
US20230367779A1 (en) | Focused probabilistic entity resolution from multiple data sources | |
TW201443811A (zh) | 社群媒體影響性評估(一) | |
AU2009246546A1 (en) | Search results with most clicked next objects | |
JP5895052B2 (ja) | 情報分析システム及び情報分析方法 | |
EP3423927A1 (en) | Domain-specific negative media search techniques | |
CN110019389A (zh) | 金融非结构化文本分析系统及其方法 | |
CN117093762B (zh) | 一种舆情数据评估分析系统及方法 | |
US9996529B2 (en) | Method and system for generating dynamic themes for social data | |
US8892541B2 (en) | System and method for query temporality analysis | |
WO2015101161A1 (zh) | 一种用于生成与目标系统对应的用户页面方法和装置 | |
CN109558384A (zh) | 日志分类方法、装置、电子设备和存储介质 | |
CN106156232B (zh) | 一种网络信息传播的监控方法和装置 | |
JP2022078008A (ja) | 法令関連情報利用支援システム及びこれを用いた法令関連情報利用支援方法 | |
CN109934689A (zh) | 目标对象排名解释方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |