CN112579925B - 舆情数据可视化方法、装置、计算机设备及可读存储介质 - Google Patents
舆情数据可视化方法、装置、计算机设备及可读存储介质 Download PDFInfo
- Publication number
- CN112579925B CN112579925B CN201910934346.1A CN201910934346A CN112579925B CN 112579925 B CN112579925 B CN 112579925B CN 201910934346 A CN201910934346 A CN 201910934346A CN 112579925 B CN112579925 B CN 112579925B
- Authority
- CN
- China
- Prior art keywords
- user
- public opinion
- opinion data
- data
- analyzing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000013079 data visualisation Methods 0.000 title claims abstract description 33
- 238000010586 diagram Methods 0.000 claims abstract description 51
- 210000003462 vein Anatomy 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000004458 analytical method Methods 0.000 claims abstract description 21
- 230000006399 behavior Effects 0.000 claims description 32
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 239000003086 colorant Substances 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 abstract description 7
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000035515 penetration Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
Abstract
本发明公开了一种舆情数据可视化方法、装置、计算机设备及可读存储介质,属于数据处理领域。本发明的舆情数据可视化方法包括:实时采集舆情数据,并对所述舆情数据进行分析以得到所述舆情数据的关键词;对预设用户的用户关系数据进行分析,并根据分析结果绘制所述预设用户的人脉关系图;对所述人脉关系图中的各个用户关联的舆情数据进行分析,以确定各个用户关联的舆情数据中是否存在所述关键词;若存在至少一个用户关联的舆情数据中存在所述关键词,则在所述人脉关系图中对所述至少一个用户进行标记。本案通过可视化人脉关系图显示舆情趋势,从而可以全面、高效、直观地了解当前舆情倾向。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种舆情数据可视化方法、装置、计算机设备及计算机可读存储介质。
背景技术
互联网大数据时代下,自媒体等各种新媒体形式层出不穷,针对社会事件和新闻报道的各种评论、文章内容良莠不齐,鱼龙混杂,更有别有用心的势力恶意中伤造谣,刻意发布虚假信息,或对不实报道推波助澜,企图借助快速而多样的互联网传播途误导舆论。现有技术中缺少一种舆情数据可视化方法,可以全面、高效、直观地显示当前舆情倾向。
发明内容
针对现有技术中缺少一种舆情数据可视化方法的问题,现提供一种舆情数据可视化方法、装置、计算机设备及计算机可读存储介质。
本发明提供了一种舆情数据可视化方法,包括:
实时采集舆情数据,并对所述舆情数据进行分析以得到所述舆情数据的关键词;
对预设用户的用户关系数据进行分析,并根据分析结果绘制所述预设用户的人脉关系图;
对所述人脉关系图中的各个用户关联的舆情数据进行分析,以确定各个用户关联的舆情数据中是否存在所述关键词;
若存在至少一个用户关联的舆情数据中存在所述关键词,则在所述人脉关系图中对所述至少一个用户进行标记。
可选地,所述对所述舆情数据进行分析以得到所述舆情数据的关键词的步骤包括:
采用关键词提取算法提取出所述舆情数据的关键词。
可选地,所述对所述舆情数据进行分析以得到所述舆情数据的关键词的步骤还包括:
对采集到的每条舆情数据进行分词处理;
对经分词处理后的每条舆情数据进行向量化处理,以将每条舆情数据转换为对应的向量数据。
可选地,所述人脉关系图包括N个层级用户,所述对预设用户的用户关系数据进行分析,并根据分析结果绘制所述预设用户的人脉关系图的步骤包括:
根据用户对所述预设用户的评论行为数据确定所述人脉关系图的第一层级用户;
根据用户对各个第一层级用户的评论行为数据确定所述人脉关系图的第二层级用户;
根据用户对各个第(N-1)层级用户的评论行为数据确定所述人脉关系图的第N层级用户。
可选地,所述在所述人脉关系图中对所述至少一个用户进行标记的步骤包括:
在所述人脉关系图中对所述至少一个用户添加色彩,其中,所述色彩与所述关键词的类别相关。
可选地,所述对所述人脉关系图中的各个用户关联的舆情数据进行分析,以确定各个用户关联的舆情数据中是否存在所述关键词的步骤包括:
判断所述人脉关系图中的各个用户发表的评论数据中是否存在所述关键词,所述评论数据包括动态、评论、稿件、弹幕中的至少一种。
可选地,所述预设用户为粉丝数数量处于预设排名内的用户。
本发明还提供了一种舆情数据可视化装置,包括:
分析模块,用于实时采集舆情数据,并对所述舆情数据进行分析以得到所述舆情数据的关键词;
绘制模块,用于对预设用户的用户关系数据进行分析,并根据分析结果绘制所述预设用户的人脉关系图;
确定模块,用于对所述人脉关系图中的各个用户关联的舆情数据进行分析,以确定各个用户关联的舆情数据中是否存在所述关键词;
标记模块,用于若存在至少一个用户关联的舆情数据中存在所述关键词,则在所述人脉关系图中对所述至少一个用户进行标记。
本发明还提供了一种计算机设备,所述计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
上述技术方案的有益效果:
本技术方案中,通过实时采集舆情数据,并对所述舆情数据进行分析以得到所述舆情数据的关键词;对预设用户的用户关系数据进行分析,并根据分析结果绘制所述预设用户的人脉关系图;对所述人脉关系图中的各个用户关联的舆情数据进行分析,以确定各个用户关联的舆情数据中是否存在所述关键词;若存在至少一个用户关联的舆情数据中存在所述关键词,则在所述人脉关系图中对所述至少一个用户进行标记。本案通过可视化的用户人脉关系图显示舆情趋势,从而可以全面、高效、直观地了解当前舆情倾向。
附图说明
图1为本发明所述舆情数据可视化的系统框架图的一种实施例的框架图;
图2为本发明所述的舆情数据可视化方法的一种实施例的流程图;
图3为本发明图2中对所述舆情数据进行分析以得到所述舆情数据的关键词的步骤的细化流程图;
图4为本发明中的人脉关系图的示意图;
图5为本发明图2中对预设用户的用户关系数据进行分析,并根据分析结果绘制所述预设用户的人脉关系图的步骤的细化流程图;
图6为本发明所述的舆情数据可视化装置的一种实施例的模块图;
图7为本发明实施例提供的执行舆情数据可视化方法的计算机设备的硬件结构示意图。
具体实施方式
以下结合附图与具体实施例进一步阐述本发明的优点。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本发明的描述中,需要理解的是,步骤前的数字标号并不标识执行步骤的前后顺序,仅用于方便描述本发明及区别每一步骤,因此不能理解为对本发明的限制。
请参考图1,图1是示出了根据本申请实施例的舆情数据可视化方法的应用环境示意图。在示例性的实施例中,计算机设备2(数据发送端)可以通过网络6向数据接收端4发送数据。所述计算机设备2可以是服务器、移动电话、平板个人计算机(tablet personalcomputer)、膝上型计算机(laptop computer)等具有数据发送功能的电子设备。所述数据接收端4可以是服务器、机顶盒、移动电话、平板个人计算机、膝上型计算机、智能电视等具有数据接收功能的电子设备。所述网络6可以是因特网。
实施例一
图2示意性示出了根据本申请实施例一的舆情数据可视化方法的流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。
如图2所示,该舆情数据可视化方法包括步骤S20~S23,其中:
步骤S20、实时采集舆情数据,并对所述舆情数据进行分析以得到所述舆情数据的关键词;
具体地,所述舆情数据是指有关舆论情况的数据,来源可以为新闻报道、论坛、博客、微博、社区评论等各类平台,能够反映社会公众对于社会事件的发生、发展和变化所持有的态度和情感倾向。
在在本实施例中,可以根据预设规则从互联网上获取各类舆情数据,例如实时从“微博”网站平台中获取各类新闻以及对于该新闻的评论。
在采集到多条舆情数据之后,可以对该多条舆情数据进行分析,从而提取出热点舆情,即提取出所述舆情数据的关键词。
在示例性的实施例中,所述对所述舆情数据进行分析以得到所述舆情数据的关键词的步骤包括:
采用关键词提取算法提取出所述舆情数据的关键词。
具体地,所述关键词提取算法可以为任意适用于舆情数据处理场景的算法,例如TF-IDF、KEA算法、TextRank算法等。在采用关键词提取算法提取所述舆情数据的关键词时,可以先提取出每条舆情数据的关键词,然后根据提取到的每条舆情数据的关键词确定最终的舆情关键词,并将该最终的舆情关键词作为所述舆情数据的关键词。
在示例性实施例中,在采用关键词提取算法提取关键词时,可以先提取出每条舆情数据中的各个词语出现的词频,然后根据各个词语在该条舆情数据出现的次数以及各个词语的权重值得到各个词语的重要程度,最后将重要程度排在最前面的预设个词语作为该条舆情数据的关键词。在本实施例中,所述词频为某个词语在该条舆情数据中出现的次数/该条舆情数据的总词数,该各个词语的权重值可以为逆文档频率,该逆文档频率的计算方式是:log(语料库文档总数/(出现该词的文档个数+1))。在得到每条舆情数据的关键词之后,在根据每条舆情数据的关键词确定最终的舆情关键词。例如,所述舆情数据总共有20条,第一条舆情数据的关键词为关键词1及关键词2,第二条舆情数据的的关键词为关键词1及关键词3,…,第20条舆情数据的关键词为关键词2,关键词4。在得到各条舆情数据的关键词之后,统计各个关键词的数量,然后可以将关键词数量排在预设位的关键词作为所述舆情数据的最终关键词。
在示例性的实施例中,参照图3,所述对所述舆情数据进行分析以得到所述舆情数据的关键词的步骤还包括步骤S30~S31,其中:
步骤S30,对采集到的每条舆情数据进行分词处理。
具体地,在所述舆情数据包括多条舆情数据时,可以对每条舆情数据进行分词处理,在分词处理过程中,可以删除每条舆情数据中的停用词以及无用字符。在本实施例中,可以采用现有的分词工具对每条舆情数据进行分词处理,比如,可以采用jieba,SnowNLP,thulac(清华大学自然语言处理与社会人文计算实验室),StanfordCoreNLP,pyltp(哈工大语言云)等工具对每条舆情数据进行分词处理。
步骤S31,对经分词处理后的每条舆情数据进行向量化处理,以将每条舆情数据转换为对应的向量数据。
具体地,可以通过CBOW模型(Continuous Bag-of-Words Model)或者 Skip-gram模型(Continuous Skip-gram Model)来对每条舆情数据进行向量化处理,以将每条舆情数据转换为对应的向量化数据。
步骤S21,对预设用户的用户关系数据进行分析,并根据分析结果绘制所述预设用户的人脉关系图。
具体地,所述预设用户为粉丝数量处于预设排名内的用户。以微博平台为例,该预设用户可以为微博平台中的“大V”用户。
所述用户关系数据为包含用户与用户之间关系的数据,比如用户对其他用户的关注数据,用户针对其他用户发表的稿件的收藏数据,用户针对其他用户发表的稿件的转发数据等。通过该用户关系数据,可以得出用户与用户之间的关系,在得出用户之间的关系之后,根据该得出的各个用户之间的关系可以绘制所述预设用户的人脉关系图。
其中,所述人脉关系图为根据平台用户数据分析,明白用户与用户之间的联系,深层次的挖掘联系抽象量化成视图数据,以此明白用户关系的层级(人脉的层级)的可视化图形,该图形的样式可以根据实际情况确定,例如,可以为如图4所示的可视化的拓扑图,其中,图中的一个圆圈代表一个用户。在本发明其他实施方式中,该人脉关系图也可以为可视化的树形图。
在示例性的实施例中,参照图5,对预设用户的用户关系数据进行分析,并根据分析结果绘制所述预设用户的人脉关系图的步骤包括S50~S52,其中:
步骤S50,根据用户对所述预设用户的评论行为数据确定所述人脉关系图的第一层级用户。
具体地,所述人脉关系图包括N个层级用户。所述评论行为数据包括关注行为数据、点赞行为数据、转发行为数据、收藏行为数据、评论数据中的至少一种。在本实施例中,该评论行为数据以关注行为数据为例,该关注行为数据包括受到关注的用户的用户账号、昵称等以及关注用户的账号、昵称等。通过获取用户对所述预设用户的关注行为数据,即获取直接关注该预设用户的用户账号、昵称等,可以确定人脉关系图的第一层级用户。在本实施例中,所述第一层级用户为优选为直接与所述预设用户存在粉丝关系的用户。
步骤S51,根据用户对各个第一层级用户的评论行为数据确定所述人脉关系图的第二层级用户。
具体地,在确定了各个第一层级用户之后,可以根据用户对各个第一层用户的评论行为数据确定第二层级用户。在本实施例中,该第二层级用户优选为直接与第一层级的用户存在粉丝关系的用户。例如,若第一层级的用户包括用户A、用户B以及用户C,而与用户A存在粉丝关系的用户包括用户D与用户 E;与用户B存在粉丝关系的用户包括用户F与用户G;与用户C存在粉丝关系的用户包括用户H与用户I,则所述用户D、用户E、用户F、用户G、用户 H与用户I即为所述第二层级用户。
步骤S52,根据用户对各个第(N-1)层级用户的评论行为数据确定所述人脉关系图的第N层级用户。
具体地,以此类推,在确定了各个第(N-1)层级用户之后,可以根据用户对各个第(N-1)层级用户的评论行为数据确定第N层级用户。在本实施例中,该第 N层级用户优选为直接与(N-1)层级的用户存在粉丝关系的用户。例如,若第(N-1) 层级的用户包括用户1、用户2、用户3、用户4以及用户5,而与用户1存在粉丝关系的用户包括用户6;与用户2存在粉丝关系的用户包括用户7与用户8;与用户3存在粉丝关系的用户包括用户9;而与用户4存在粉丝关系的用户包括用户10与用户11;与用户5存在粉丝关系的用户包括用户12与用户13。则所述用户6、用户7、用户8、用户9、用户10、用户11、用户12与用户13 即为所述第N层级用户。
本实施例中,通过递归算法算出用户的用户关系层级,并根据用户关系层级绘制人脉关系图,从而可以直观地显示出用户之间的关系。
步骤S22,对所述人脉关系图中的各个用户关联的舆情数据进行分析,以确定各个用户关联的舆情数据中是否存在所述关键词。
具体地,所述用户关联的舆情数据为采集舆情数据期间时用户发表的评论数据。通过对人脉关系网中的各个用户发表的评论数据进行分析,以确定各个用户发表的评论数据是否存在所述关键词。
在示例性的实施例中,对所述人脉关系图中的各个用户关联的舆情数据进行分析,以确定各个用户关联的舆情数据中是否存在所述关键词的步骤包括:
判断所述人脉关系图中的各个用户发表的评论数据中是否存在所述关键词。
具体地,所述评论数据包括动态、评论、稿件和弹幕中的至少一种。通过采集各个用户发表的评论数据,然后将各个用户发表的评论数据与所述关键词进行匹配,若用户发表的评论数据中包括所述关键词,即该用户知道了当前的舆情,并且参与在了舆情蔓延的局势中。在匹配过程中,若所述关键词存在多个,则需要将该多个关键词都与用户发表的评论数据进行匹配,只有用户发表的评论数据不存在一个关键词,才判定该用户发表的评论数据中不存在所述关键词,若用户发表的评论数据中存在至少一个关键词,则判定该用户发表的评论数据中存在所述关键词。
步骤S23,若存在至少一个用户关联的舆情数据中存在所述关键词,则在所述人脉关系图中对所述至少一个用户进行标记。
具体地,在对人脉关系图中的各个用户关联的舆情数据完成判定之后,若用户关联的舆情数据中包括所述关键词,则需要对该用户进行标记。
在示例性的实施例中,在所述人脉关系图中对所述至少一个用户进行标记的步骤包括:
在所述人脉关系图中对所述至少一个用户添加色彩,其中,所述色彩与所述关键词的类别相关。
具体地,在对用户进行标记时,可以根据关键词的类别不同,采用不同色彩对用户进行标记。例如,若用户A关联的舆情数据包括关键词a,则可以采用红色对该用户A进行标记;若用户B关联的舆情数据包括关键词b,则可以采用绿色对该用户B进行标记;若用户C关联的舆情数据包括关键词c,在可以采用粉色对该用户C进行标记。
本实施例中,通过实时采集舆情数据,并对所述舆情数据进行分析以得到所述舆情数据的关键词;对预设用户的用户关系数据进行分析,并根据分析结果绘制所述预设用户的人脉关系图;对所述人脉关系图中的各个用户关联的舆情数据进行分析,以确定各个用户关联的舆情数据中是否存在所述关键词;若存在至少一个用户关联的舆情数据中存在所述关键词,则在所述人脉关系图中对所述至少一个用户进行标记。本案通过可视化的用户人脉关系图显示舆情趋势,从而可以全面、高效、直观地了解当前舆情倾向,并且由于人脉关系图中包含各个用户之间的关系,因此,通过该可视化的人脉关系图还可以算出舆情事件的发展趋势以及渗透程度,还能同时得到意见领袖,找出背后的推动者方便及时做出响应,抑制舆情的扩散。
实施例二
图6示意性示出了根据本申请实施例二的舆情数据可视化装置的框图,该舆情数据可视化装置可以被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合描述视频处理系统在存储介质中的执行过程,以下描述将具体介绍本实施例各程序模块的功能。
如图6所示,该舆情数据可视化装置600可以包括分析模块601、绘制模块602、确定模块603、标记模块604,其中:
分析模块601,用于实时采集舆情数据,并对所述舆情数据进行分析以得到所述舆情数据的关键词;
具体地,所述舆情数据是指有关舆论情况的数据,来源可以为新闻报道、论坛、博客、微博、社区评论等各类平台,能够反映社会公众对于社会事件的发生、发展和变化所持有的态度和情感倾向。
在在本实施例中,可以根据预设规则从互联网上获取各类舆情数据,例如实时从“微博”网站平台中获取各类新闻以及对于该新闻的评论。
在采集到多条舆情数据之后,可以对该多条舆情数据进行分析,从而提取出热点舆情,即提取出所述舆情数据的关键词。
在示例性的实施例中,所述分析模块601,还用于采用关键词提取算法提取出所述舆情数据的关键词。
具体地,所述关键词提取算法可以为任意适用于舆情数据处理场景的算法,例如TF-IDF、KEA算法、TextRank算法等。在采用关键词提取算法提取所述舆情数据的关键词时,可以先提取出每条舆情数据的关键词,然后根据提取到的每条舆情数据的关键词确定最终的舆情关键词,并将该最终的舆情关键词作为所述舆情数据的关键词。
在示例性实施例中,在采用关键词提取算法提取关键词时,可以先提取出每条舆情数据中的各个词语出现的词频,然后根据各个词语在该条舆情数据出现的次数以及各个词语的权重值得到各个词语的重要程度,最后将重要程度排在最前面的预设个词语作为该条舆情数据的关键词。在本实施例中,所述词频为某个词语在该条舆情数据中出现的次数/该条舆情数据的总词数,该各个词语的权重值可以为逆文档频率,该逆文档频率的计算方式是:log(语料库文档总数/(出现该词的文档个数+1))。在得到每条舆情数据的关键词之后,在根据每条舆情数据的关键词确定最终的舆情关键词。例如,所述舆情数据总共有20条,第一条舆情数据的关键词为关键词1及关键词2,第二条舆情数据的的关键词为关键词1及关键词3,…,第20条舆情数据的关键词为关键词2,关键词4。在得到各条舆情数据的关键词之后,统计各个关键词的数量,然后可以将关键词数量排在预设位的关键词作为所述舆情数据的最终关键词。
在示例性的实施例中,所述分析模块601,还用于对采集到的每条舆情数据进行分词处理。
具体地,在所述舆情数据包括多条舆情数据时,可以对每条舆情数据进行分词处理,在分词处理过程中,可以删除每条舆情数据中的停用词以及无用字符。在本实施例中,可以采用现有的分词工具对每条舆情数据进行分词处理,比如,可以采用jieba,SnowNLP,thulac(清华大学自然语言处理与社会人文计算实验室),StanfordCoreNLP,pyltp(哈工大语言云)等工具对每条舆情数据进行分词处理。
所述分析模块601,还用于对经分词处理后的每条舆情数据进行向量化处理,以将每条舆情数据转换为对应的向量数据。
具体地,可以通过CBOW模型(Continuous Bag-of-Words Model)或者 Skip-gram模型(Continuous Skip-gram Model)来对每条舆情数据进行向量化处理,以将每条舆情数据转换为对应的向量化数据。
绘制模块602,用于对预设用户的用户关系数据进行分析,并根据分析结果绘制所述预设用户的人脉关系图。
具体地,所述预设用户为粉丝数量处于预设排名内的用户。以微博平台为例,该预设用户可以为微博平台中的“大V”用户。
所述用户关系数据为包含用户与用户之间关系的数据,比如用户对其他用户的关注数据,用户针对其他用户发表的稿件的收藏数据,用户针对其他用户发表的稿件的转发数据等。通过该用户关系数据,可以得出用户与用户之间的关系,在得出用户之间的关系之后,根据该得出的各个用户之间的关系可以绘制所述预设用户的人脉关系图。
其中,所述人脉关系图为根据平台用户数据分析,明白用户与用户之间的联系,深层次的挖掘联系抽象量化成视图数据,以此明白用户关系的层级(人脉的层级)的可视化图形,该图形的样式可以根据实际情况确定,例如,可以为如图4所示的可视化的拓扑图,其中,图中的一个圆圈代表一个用户。在本发明其他实施方式中,该人脉关系图也可以为可视化的树形图。
在示例性的实施例中,所述绘制模块602,还用于根据用户对所述预设用户的评论行为数据确定所述人脉关系图的第一层级用户。
具体地,所述人脉关系图包括N个层级用户。所述评论行为数据包括关注行为数据、点赞行为数据、转发行为数据、收藏行为数据、评论数据中的至少一种。在本实施例中,该评论行为数据以关注行为数据为例,该关注行为数据包括受到关注的用户的用户账号、昵称等以及关注用户的账号、昵称等。通过获取用户对所述预设用户的关注行为数据,即获取直接关注该预设用户的用户账号、昵称等,可以确定人脉关系图的第一层级用户。在本实施例中,所述第一层级用户为优选为直接与所述预设用户存在粉丝关系的用户。
所述绘制模块602,还用于根据用户对各个第一层级用户的评论行为数据确定所述人脉关系图的第二层级用户。
具体地,在确定了各个第一层级用户之后,可以根据用户对各个第一层用户的评论行为数据确定第二层级用户。在本实施例中,该第二层级用户优选为直接与第一层级的用户存在粉丝关系的用户。例如,若第一层级的用户包括用户A、用户B以及用户C,而与用户A存在粉丝关系的用户包括用户D与用户 E;与用户B存在粉丝关系的用户包括用户F与用户G;与用户C存在粉丝关系的用户包括用户H与用户I,则所述用户D、用户E、用户F、用户G、用户H与用户I即为所述第二层级用户。
所述绘制模块602,还用于根据用户对各个第(N-1)层级用户的评论行为数据确定所述人脉关系图的第N层级用户。
具体地,以此类推,在确定了各个第(N-1)层级用户之后,可以根据用户对各个第(N-1)层级用户的评论行为数据确定第N层级用户。在本实施例中,该第 N层级用户优选为直接与(N-1)层级的用户存在粉丝关系的用户。例如,若第(N-1) 层级的用户包括用户1、用户2、用户3、用户4以及用户5,而与用户1存在粉丝关系的用户包括用户6;与用户2存在粉丝关系的用户包括用户7与用户8;与用户3存在粉丝关系的用户包括用户9;而与用户4存在粉丝关系的用户包括用户10与用户11;与用户5存在粉丝关系的用户包括用户12与用户13。则所述用户6、用户7、用户8、用户9、用户10、用户11、用户12与用户13 即为所述第N层级用户。
本实施例中,通过递归算法算出用户的用户关系层级,并根据用户关系层级绘制人脉关系图,从而可以直观地显示出用户之间的关系。
确定模块603,用于对所述人脉关系图中的各个用户关联的舆情数据进行分析,以确定各个用户关联的舆情数据中是否存在所述关键词。
具体地,所述用户关联的舆情数据为采集舆情数据期间时用户发表的评论数据。通过对人脉关系网中的各个用户发表的评论数据进行分析,以确定各个用户发表的评论数据是否存在所述关键词。
在示例性的实施例中,所述确定模块603,还用于判断所述人脉关系图中的各个用户发表的评论数据中是否存在所述关键词。
具体地,所述评论数据包括动态、评论、稿件和弹幕中的至少一种。通过采集各个用户发表的评论数据,然后将各个用户发表的评论数据与所述关键词进行匹配,若用户发表的评论数据中包括所述关键词,即该用户知道了当前的舆情,并且参与在了舆情蔓延的局势中。在匹配过程中,若所述关键词存在多个,则需要将该多个关键词都与用户发表的评论数据进行匹配,只有用户发表的评论数据不存在一个关键词,才判定该用户发表的评论数据中不存在所述关键词,若用户发表的评论数据中存在至少一个关键词,则判定该用户发表的评论数据中存在所述关键词。
标记模块604,用于若存在至少一个用户关联的舆情数据中存在所述关键词,则在所述人脉关系图中对所述至少一个用户进行标记。
具体地,在对人脉关系图中的各个用户关联的舆情数据完成判定之后,若用户关联的舆情数据中包括所述关键词,则需要对该用户进行标记。
在示例性的实施例中,标记模块604,还用于在所述人脉关系图中对所述至少一个用户添加色彩,其中,所述色彩与所述关键词的类别相关。
具体地,在对用户进行标记时,可以根据关键词的类别不同,采用不同色彩对用户进行标记。例如,若用户A关联的舆情数据包括关键词a,则可以采用红色对该用户A进行标记;若用户B关联的舆情数据包括关键词b,则可以采用绿色对该用户B进行标记;若用户C关联的舆情数据包括关键词c,在可以采用粉色对该用户C进行标记。
本实施例中,通过实时采集舆情数据,并对所述舆情数据进行分析以得到所述舆情数据的关键词;对预设用户的用户关系数据进行分析,并根据分析结果绘制所述预设用户的人脉关系图;对所述人脉关系图中的各个用户关联的舆情数据进行分析,以确定各个用户关联的舆情数据中是否存在所述关键词;若存在至少一个用户关联的舆情数据中存在所述关键词,则在所述人脉关系图中对所述至少一个用户进行标记。本案通过可视化的用户人脉关系图显示舆情趋势,从而可以全面、高效、直观地了解当前舆情倾向,并且由于人脉关系图中包含各个用户之间的关系,因此,通过该可视化的人脉关系图还可以算出舆情事件的发展趋势以及渗透程度,还能同时得到意见领袖,找出背后的推动者方便及时做出响应,抑制舆情的扩散。
实施例三
图7示意性示出了根据本申请实施例三的适于实现舆情数据可视化方法的计算机设备的硬件架构示意图。本实施例中,计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图7所示,计算机设备2至少包括但不限于:可通过系统总线相互通信链接存储器20、处理器21、网络接口22。其中:
存储器20至少包括一种类型的计算机可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器20可以是计算机设备2的内部存储模块,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器20 也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(SmartMedia Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,存储器20还可以既包括计算机设备2的内部存储模块也包括其外部存储设备。本实施例中,存储器20通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如舆情数据可视化方法的程序代码等。此外,存储器20还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器21在一些实施例中可以是中央处理器(Central Processing Unit,简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器21通常用于控制计算机设备2的总体操作,例如执行与计算机设备2进行数据交互或者通信相关的控制和处理等。本实施例中,处理器21用于运行存储器 20中存储的程序代码或者处理数据。
网络接口22可包括无线网络接口或有线网络接口,该网络接口22通常用于在计算机设备2与其他计算机设备之间建立通信链接。例如,网络接口22 用于通过网络将计算机设备2与外部终端相连,在计算机设备2与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(GlobalSystem of Mobile communication,简称为GSM)、宽带码分多址(Wideband Code DivisionMultiple Access,简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图7仅示出了具有部件20~22的计算机设备,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器20中的舆情数据可视化方法还可以被分割为一个或者多个程序模块,并由一个或多个处理器(本实施例为处理器21)所执行,以完成本发明。
实施例四
本实施例还提供一种计算机可读存储介质,计算机可读存储介质其上存储有计算机程序,计算机程序被处理器执行时实现实施例中的舆情数据可视化方法的步骤。
本实施例中,计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,计算机可读存储介质可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,计算机可读存储介质也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例中的舆情数据可视化方法的程序代码等。此外,计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种舆情数据可视化方法,其特征在于,包括:
实时采集舆情数据,并对所述舆情数据进行分析以得到所述舆情数据的关键词;
对预设用户的用户关系数据进行分析,并根据分析结果绘制所述预设用户的人脉关系图;
对所述人脉关系图中的各个用户关联的舆情数据进行分析,以确定各个用户关联的舆情数据中是否存在所述关键词;
若存在至少一个用户关联的舆情数据中存在所述关键词,则在所述人脉关系图中对所述至少一个用户进行标记。
2.根据权利要求1所述的舆情数据可视化方法,其特征在于,所述对所述舆情数据进行分析以得到所述舆情数据的关键词的步骤包括:
采用关键词提取算法提取出所述舆情数据的关键词。
3.根据权利要求2所述的舆情数据可视化方法,其特征在于,所述对所述舆情数据进行分析以得到所述舆情数据的关键词的步骤还包括:
对采集到的每条舆情数据进行分词处理;
对经分词处理后的每条舆情数据进行向量化处理,以将每条舆情数据转换为对应的向量数据。
4.根据权利要求1至3任一项所述的舆情数据可视化方法,其特征在于,所述人脉关系图包括N个层级用户,所述对预设用户的用户关系数据进行分析,并根据分析结果绘制所述预设用户的人脉关系图的步骤包括:
根据用户对所述预设用户的评论行为数据确定所述人脉关系图的第一层级用户;
根据用户对各个第一层级用户的评论行为数据确定所述人脉关系图的第二层级用户;
根据用户对各个第(N-1)层级用户的评论行为数据确定所述人脉关系图的第N层级用户。
5.根据权利要求1至3任一项所述的舆情数据可视化方法,其特征在于,所述在所述人脉关系图中对所述至少一个用户进行标记的步骤包括:
在所述人脉关系图中对所述至少一个用户添加色彩,其中,所述色彩与所述关键词的类别相关。
6.根据权利要求1所述的舆情数据可视化方法,其特征在于,所述对所述人脉关系图中的各个用户关联的舆情数据进行分析,以确定各个用户关联的舆情数据中是否存在所述关键词的步骤包括:
判断所述人脉关系图中的各个用户发表的评论数据中是否存在所述关键词,所述评论数据包括动态、评论、稿件、弹幕中的至少一种。
7.根据权利要求1所述的舆情数据可视化方法,其特征在于,所述预设用户为粉丝数数量处于预设排名内的用户。
8.一种舆情数据可视化装置,其特征在于,包括:
分析模块,用于实时采集舆情数据,并对所述舆情数据进行分析以得到所述舆情数据的关键词;
绘制模块,用于对预设用户的用户关系数据进行分析,并根据分析结果绘制所述预设用户的人脉关系图;
确定模块,用于对所述人脉关系图中的各个用户关联的舆情数据进行分析,以确定各个用户关联的舆情数据中是否存在所述关键词;
标记模块,用于若存在至少一个用户关联的舆情数据中存在所述关键词,则在所述人脉关系图中对所述至少一个用户进行标记。
9.一种计算机设备,所述计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的舆情数据可视化方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7任一项所述的舆情数据可视化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910934346.1A CN112579925B (zh) | 2019-09-29 | 2019-09-29 | 舆情数据可视化方法、装置、计算机设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910934346.1A CN112579925B (zh) | 2019-09-29 | 2019-09-29 | 舆情数据可视化方法、装置、计算机设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112579925A CN112579925A (zh) | 2021-03-30 |
CN112579925B true CN112579925B (zh) | 2024-04-23 |
Family
ID=75111297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910934346.1A Active CN112579925B (zh) | 2019-09-29 | 2019-09-29 | 舆情数据可视化方法、装置、计算机设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112579925B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006236009A (ja) * | 2005-02-24 | 2006-09-07 | Chugoku Electric Power Co Inc:The | ステークホルダー世論活用システム及び方法 |
CN104484359A (zh) * | 2014-12-02 | 2015-04-01 | 北京锐安科技有限公司 | 一种基于社交图谱的舆情分析方法及装置 |
CN105184654A (zh) * | 2015-10-20 | 2015-12-23 | 中国石油大学(华东) | 一种基于社区划分的舆情热点实时获取方法与获取装置 |
CN106557558A (zh) * | 2016-11-09 | 2017-04-05 | 中国工商银行股份有限公司 | 一种数据分析方法及装置 |
CN107704621A (zh) * | 2017-10-27 | 2018-02-16 | 西南财经大学 | 一种互联网舆情地图可视化展示方法 |
CN109522460A (zh) * | 2018-08-30 | 2019-03-26 | 中国电子进出口有限公司 | 一种基于社交网络社团划分的舆情监测方法及系统 |
CN109977278A (zh) * | 2019-02-21 | 2019-07-05 | 中国电子科技集团公司第二十八研究所 | 舆情数据的可视化展示系统、方法、设备及存储介质 |
-
2019
- 2019-09-29 CN CN201910934346.1A patent/CN112579925B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006236009A (ja) * | 2005-02-24 | 2006-09-07 | Chugoku Electric Power Co Inc:The | ステークホルダー世論活用システム及び方法 |
CN104484359A (zh) * | 2014-12-02 | 2015-04-01 | 北京锐安科技有限公司 | 一种基于社交图谱的舆情分析方法及装置 |
CN105184654A (zh) * | 2015-10-20 | 2015-12-23 | 中国石油大学(华东) | 一种基于社区划分的舆情热点实时获取方法与获取装置 |
CN106557558A (zh) * | 2016-11-09 | 2017-04-05 | 中国工商银行股份有限公司 | 一种数据分析方法及装置 |
CN107704621A (zh) * | 2017-10-27 | 2018-02-16 | 西南财经大学 | 一种互联网舆情地图可视化展示方法 |
CN109522460A (zh) * | 2018-08-30 | 2019-03-26 | 中国电子进出口有限公司 | 一种基于社交网络社团划分的舆情监测方法及系统 |
CN109977278A (zh) * | 2019-02-21 | 2019-07-05 | 中国电子科技集团公司第二十八研究所 | 舆情数据的可视化展示系统、方法、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
OpinionFlow: Visual Analysis of Opinion Diffusion on Social Media;Yingcai Wu等;IEEE Transactions on Visualization and Computer Graphics;20141106;第20卷(第12期);1763-1772 * |
面向评论数据的可视分析方法研究;徐进;中国博士学位论文全文数据库 (信息科技辑);20190815;I138-129 * |
Also Published As
Publication number | Publication date |
---|---|
CN112579925A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9437022B2 (en) | Time-based visualization of the number of events having various values for a field | |
CN107862022B (zh) | 文化资源推荐系统 | |
CN109033408B (zh) | 信息推送方法及装置、计算机可读存储介质、电子设备 | |
US9720912B2 (en) | Document management system, document management method, and document management program | |
US20150256475A1 (en) | Systems and methods for designing an optimized infrastructure for executing computing processes | |
EP2618296A1 (en) | Social media data analysis system and method | |
CN111401700B (zh) | 一种数据分析方法、装置、计算机系统及可读存储介质 | |
WO2012154348A1 (en) | Generation of topic-based language models for an app search engine | |
CN107944032B (zh) | 用于生成信息的方法和装置 | |
US11036818B2 (en) | Method and system for detecting graph based event in social networks | |
CN112148946A (zh) | 基于微博的分析及视图展示方法与系统 | |
CN110968802B (zh) | 一种用户特征的分析方法、分析装置及可读存储介质 | |
US20150339786A1 (en) | Forensic system, forensic method, and forensic program | |
CN111324725B (zh) | 一种话题获取方法、终端、计算机可读存储介质 | |
Piñeiro et al. | Web architecture for URL-based phishing detection based on Random Forest, Classification Trees, and Support Vector Machine | |
CN113569162A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN112579925B (zh) | 舆情数据可视化方法、装置、计算机设备及可读存储介质 | |
CN111291259B (zh) | 一种数据筛选方法、装置、电子设备和存储介质 | |
CN114925275A (zh) | 产品推荐方法、装置、计算机设备及存储介质 | |
CN111414455B (zh) | 舆情分析方法、装置、电子设备及可读存储介质 | |
CN112750047A (zh) | 行为关系信息提取方法及装置、存储介质、电子设备 | |
US10572560B2 (en) | Detecting relevant facets by leveraging diagram identification, social media and statistical analysis software | |
US11373198B2 (en) | Evaluation device, evaluation method, and evaluation program | |
CN112100165A (zh) | 基于质量评估的交通数据处理方法、系统、设备和介质 | |
CN106557473B (zh) | 生成蹊径的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |