CN111222032A - 舆情分析方法及相关设备 - Google Patents
舆情分析方法及相关设备 Download PDFInfo
- Publication number
- CN111222032A CN111222032A CN201911303284.0A CN201911303284A CN111222032A CN 111222032 A CN111222032 A CN 111222032A CN 201911303284 A CN201911303284 A CN 201911303284A CN 111222032 A CN111222032 A CN 111222032A
- Authority
- CN
- China
- Prior art keywords
- public opinion
- text
- users
- public
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 47
- 238000011161 development Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 19
- 230000008859 change Effects 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 42
- 238000004590 computer program Methods 0.000 claims description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000003064 k means clustering Methods 0.000 claims description 7
- 238000011534 incubation Methods 0.000 claims description 5
- 230000002996 emotional effect Effects 0.000 description 48
- 230000018109 developmental process Effects 0.000 description 34
- 230000008451 emotion Effects 0.000 description 31
- 230000009193 crawling Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 238000013481 data capture Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000505 pernicious effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种舆情分析方法及相关设备。所述方法获取舆情文本集合;根据各个行业字典对所述舆情文本集合进行分类,得到所述舆情文本集合中每个舆情文本的行业类型;对所述舆情文本集合中给定行业类型的舆情文本进行聚类,得到所述给定行业类型的舆论话题;获取所述舆情文本集合中所述舆论话题对应的舆情文本,对发布所述舆论话题对应的舆情文本的用户进行识别,得到所述舆论话题的主流用户;根据所述主流用户的数量变化确定所述舆论话题的发展趋势。本发明可以对舆情的发展趋势进行较为准确的分析,为针对舆情采取应对措施提供了重要依据。
Description
技术领域
本发明涉及互联网技术领域,具体涉及一种舆情分析方法、装置、计算机装置及计算机存储介质。
背景技术
随着互联网的普及,互联网日渐成为人们发布信息、获取信息和传递信息的主要载体,一定程度地反映了社会公众对社会现实的主观情感。舆情数据对及时了解民意、反映社会信息、控制引导舆论正确的发展、社会稳定和国家发展至关重要。对舆情进行分析有助于了解事件的发展态势,避免事件的恶性蔓延,为舆情事件应急管理提供重要的决策支持。舆情(即舆论话题)的发展趋势是针对舆情采取应对措施的一个重要依据。然而,现有的舆情分析方法主要是对舆情热点进行分析,缺少对对舆情的发展趋势进行较为准确的分析,从而不利于针对舆情采取合理的应对措施。
发明内容
鉴于以上内容,有必要提出一种舆情分析方法、装置、计算机装置及计算机存储介质,其可以对舆情的发展趋势进行较为准确的分析,为针对舆情采取应对措施提供了重要依据。
本申请的第一方面提供一种舆情分析方法,所述方法包括:
获取舆情文本集合;
根据各个行业字典对所述舆情文本集合进行分类,得到所述舆情文本集合中每个舆情文本的行业类型;
对所述舆情文本集合中给定行业类型的舆情文本进行聚类,得到所述给定行业类型的舆论话题;
获取所述舆情文本集合中所述舆论话题对应的舆情文本,对发布所述舆论话题对应的舆情文本的用户进行识别,得到所述舆论话题的主流用户;
根据所述主流用户的数量变化确定所述舆论话题的发展趋势。
另一种可能的实现方式中,所述获取舆情文本集合包括:
通过社交软件的开放接口获取所述社交软件中用户发布的文本;和/或
使用混合多重匿名代理池获取门户网站中用户发布的文本。
另一种可能的实现方式中,所述根据各个行业字典对所述舆情文本集合进行分类,得到所述舆情文本集合中每个舆情文本的行业类型包括:
对于所述舆情文本集合中的每个舆情文本,匹配所述舆情文本与每个行业字典的相同词;
将相同词最多的行业字字典对应的行业作为所述舆情文本的行业类型。
另一种可能的实现方式中,所述对所述舆情文本集合中给定行业类型的舆情文本进行聚类,得到所述给定行业类型的舆论话题包括:
提取所述舆情文本集合中所述给定行业类型的舆情文本的文本摘要;
用基于词袋模型的文本向量表示所述给定行业类型的舆情文本的文本摘要;
采用k均值聚类算法基于相似度对所述文本向量进行聚类,得到热点文本簇;
从所述热点文本簇中提取所述舆论话题。
另一种可能的实现方式中,所述获取所述舆情文本集合中所述舆论话题对应的舆情文本,对发布所述舆论话题对应的舆情文本的用户进行识别,得到所述舆论话题的主流用户包括:
将所述舆论话题对应的舆情文本的用户在不同网络平台的数量确定为所述用户的第一权值;
将所述用户的所述舆论话题对应的舆情文本的评论数量确定为所述用户的第二权值;
将所述用户的所述舆论话题对应的舆情文本的转发数量确定为所述用户的第三权值;
计算所述第一权值、所述第二权值、所述第三权值的加权和,根据所述加权和对所述用户排序,将前第三预设数量的所述用户识别为所述主流用户。
另一种可能的实现方式中,所述根据所述主流用户的数量变化确定所述舆论话题的发展趋势包括:
将所述主流用户划分为一类用户、二类用户、三类用户;
根据所述舆论话题的舆情文本的发布时间计算两个相邻时间段的所述一类用户、所述二类用户、所述三类用户的数量;
在两个相邻时间段,若所述一类用户数量上升,所述二类用户和所述三类用户的数量未上升,所述舆论话题处于酝酿阶段;
在两个相邻时间段,若所述一类用户的数量上升,所述二类用户或所述三类用户的数量上升,所述舆论话题处于发展阶段;
在两个相邻时间段,若所述一类用户、所述二类用户和所述三类用户的数量上升,所述舆论话题处于热点阶段。
另一种可能的实现方式中,所述方法还包括:
若所述舆论话题处于热点阶段的,则对所述舆论话题进行情感分析。
本申请的第二方面提供一种舆情分析装置,所述装置包括:
获取模块,用于获取舆情文本集合;
分类模块,用于根据各个行业字典对所述舆情文本集合进行分类,得到所述舆情文本集合中每个舆情文本的行业类型;
聚类模块,用于对所述舆情文本集合中给定行业类型的舆情文本进行聚类,得到所述给定行业类型的舆论话题;
识别模块,用于获取所述舆情文本集合中所述舆论话题对应的舆情文本,对发布所述舆论话题对应的舆情文本的用户进行识别,得到所述舆论话题的主流用户;
确定模块,用于根据所述主流用户的数量变化确定所述舆论话题的发展趋势。
另一种可能的实现方式中,所述获取模块获取舆情文本集合包括:
通过社交软件的开放接口获取所述社交软件中用户发布的文本;和/或
使用混合多重匿名代理池获取门户网站中用户发布的文本。
另一种可能的实现方式中,所述分类模块根据各个行业字典对所述舆情文本集合进行分类,得到所述舆情文本集合中每个舆情文本的行业类型包括:
对于所述舆情文本集合中的每个舆情文本,匹配所述舆情文本与每个行业字典的相同词;
将相同词最多的行业字字典对应的行业作为所述舆情文本的行业类型。
另一种可能的实现方式中,所述聚类模块对所述舆情文本集合中给定行业类型的舆情文本进行聚类,得到所述给定行业类型的舆论话题包括:
提取所述舆情文本集合中所述给定行业类型的舆情文本的文本摘要;
用基于词袋模型的文本向量表示所述给定行业类型的舆情文本的文本摘要;
采用k均值聚类算法基于相似度对所述文本向量进行聚类,得到热点文本簇;
从所述热点文本簇中提取所述舆论话题。
另一种可能的实现方式中,所述识别模块获取所述舆情文本集合中所述舆论话题对应的舆情文本,对发布所述舆论话题对应的舆情文本的用户进行识别,得到所述舆论话题的主流用户包括:
将所述舆论话题对应的舆情文本的用户在不同网络平台的数量确定为所述用户的第一权值;
将所述用户的所述舆论话题对应的舆情文本的评论数量确定为所述用户的第二权值;
将所述用户的所述舆论话题对应的舆情文本的转发数量确定为所述用户的第三权值;
计算所述第一权值、所述第二权值、所述第三权值的加权和,根据所述加权和对所述用户排序,将前第三预设数量的所述用户识别为所述主流用户。
另一种可能的实现方式中,所述确定模块根据所述主流用户的数量变化确定所述舆论话题的发展趋势包括:
将所述主流用户划分为一类用户、二类用户、三类用户;
根据所述舆论话题的舆情文本的发布时间计算两个相邻时间段的所述一类用户、所述二类用户、所述三类用户的数量;
在两个相邻时间段,若所述一类用户数量上升,所述二类用户和所述三类用户的数量未上升,所述舆论话题处于酝酿阶段;
在两个相邻时间段,若所述一类用户的数量上升,所述二类用户或所述三类用户的数量上升,所述舆论话题处于发展阶段;
在两个相邻时间段,若所述一类用户、所述二类用户和所述三类用户的数量上升,所述舆论话题处于热点阶段。
另一种可能的实现方式中,所述装置还包括:
情感分析模块,用于若所述舆论话题处于热点阶段的,则对所述舆论话题进行情感分析。
本申请的第三方面提供一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述舆情分析方法。
本申请的第四方面提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述舆情分析方法。
本发明按照行业对舆情文本集合进行分类及对分类后的舆情文本进行聚类,得到给定行业类型的舆论话题,减少不同行业之间舆情文本的干扰,提高了舆论话题的准确性,进而提高舆情分析的准确性。并且,本发明确定舆论话题的主流用户,根据舆论话题的主流用户的数量变化确定舆论话题的发展趋势,克服小众用户对舆论话题的发展趋势的影响,进一步提高舆情分析的准确性。本发明实现了对舆情的发展趋势的较为准确的分析,为针对舆情采取应对措施提供了重要依据。
附图说明
图1是本发明实施例提供的舆情分析方法的流程图。
图2是本发明实施例提供的舆情分析装置的结构图。
图3是本发明实施例提供的计算机装置的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
优选地,本发明的舆情分析方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
实施例一
图1是本发明实施例一提供的舆情分析方法的流程图。所述舆情分析方法应用于计算机装置。
本发明舆情分析方法按照行业进行舆情分析,确定给定行业的舆情发展趋势。
如图1所示,所述舆情分析方法包括:
101,获取舆情文本集合。
在一具体实施例中,所述获取舆情文本集合包括:
通过社交软件的开放接口获取所述社交软件中用户发布的文本;和/或
使用混合多重匿名代理池获取门户网站中用户发布的文本。
具体地,通过社交软件的开放接口获取所述社交软件中用户发布的文本包括:通过所述社交软件的开放接口获取所述社交软件的种子用户,爬取所述种子用户发布的文本;获取所述种子用户的关联用户(称第一用户),爬取所述第一用户发布的文本;获取所述第一用户的关联用户(称第二用户),爬取所述第二户发布的文本;获取所述第二用户的关联用户(称第三用户),爬取所述第三用户发布的文本;依此类推。所述种子用户可以是具有一定网络活跃度的用户。
具体地,使用混合多重匿名代理池获取门户网站中用户发布的文本包括:用普通HTTP代理和高匿名代理构成所述多重匿名代理池,随机选择所述普通HTTP代理和所述高匿名代理生成的可变IP地址;采用头文件中加入所述可变IP地址的爬虫从所述门户网站中获取用户发布的文本。所述可变IP地址可以降低所述爬虫被所述门户网站识别的概率。
所述采用加入所述可变IP地址的爬虫从所述门户网站中获取用户发布的文本可以包括:
(1)获取所述门户网站的种子URL以及后续的URL。
种子URL是爬虫进行一切工作的基础和前提。种子URL可以是一个也可以是多个。
可以对所述门户网站的URL的结构特点进行分析,根据URL的结构特点得到后续的URL。
(2)将所述可变IP地址加入HTTP请求的头文件中,向种子URL以及后续的URL网站发送HTTP请求。
可以GET方式发送HTTP请求。所述门户网站同意获取其提供的数据时,返回HTTP响应。
(3)对所述门户网站提供的数据内容进行分析和识别,以查看数据内容中的文本。
网站提供特定格式的数据内容,需要对网站提供的特定格式的数据内容进行分析和识别,来查看所述数据内容。例如,所述网站的API接口提供的数据格式为JSON格式。JSON是一种数据交换格式,使用了类似于C语言的语法习惯。对该JSON格式的数据内容进行分析和识别,来查看所述数据内容中的文本。
(4)判断所述数据内容中的文本是否为预定信息内容。
为了得到所述门户网站中的文本,需要判断所述数据内容中的文本是否为预定信息内容。若所述数据内容不是预定信息内容,则舍弃该数据内容,否则执行下一步骤。
(5)若所述数据内容中的文本为预定信息内容,则抓取所述数据内容中的文本。
数据抓取的最终目的是将网络中的所述数据内容中的文本抓取到本地。对于JSON格式的数据,在抓取所述数据内容中的文本时可以采用深度优先搜索策略或OCIP(OnlinePage Importance Computation)策略进行状态空间搜索。
(6)将抓取的所述数据内容中的文本保存到本地。
可以在计算设备上创建数据库,将所述数据内容中的文本保存到所述数据库中。
102,根据各个行业字典对所述舆情文本集合进行分类,得到所述舆情文本集合中每个舆情文本的行业类型。
在一具体实施例中,所述根据各个行业字典对所述舆情文本集合进行分类,得到所述舆情文本集合中每个舆情文本的行业类型包括:
对于所述舆情文本集合中的每个舆情文本,匹配所述舆情文本与每个行业字典的相同词;
将相同词最多的行业字字典对应的行业作为所述舆情文本的行业类型。
例如,对于所述舆情文本集中的一个舆情文本,匹配舆情文本中与软件行业字典、硬件行业字典、金融行业字典的相同词,分别统计出舆情文本中与软件行业字典匹配的相同词为80,舆情文本中与硬件行业字典匹配的相同词为10,舆情文本中与软件行业字典匹配的相同词为2,则将相同词最多的软件行业字典对应的软件行业作为舆情文本的行业类型。
可选地,所述匹配所述舆情文本与每个行业字典的相同词可以包括:
对所述舆情文本进行分词,删除分词结果中重复的词语,采用正则表达式匹配所述舆情文本中去重后的词语与每个行业字典的相同词;或
对所述舆情文本进行分词,提取分词结果中词频超过预设词频的词语,采用正则表达式匹配所述舆情文本中提取出的词语与每个行业字典的相同词。
103,对所述舆情文本集合中给定行业类型的舆情文本进行聚类,得到所述给定行业类型的舆论话题。
在一具体实施例中,所述对所述舆情文本集合中给定行业类型的舆情文本进行聚类,得到所述给定行业类型的舆论话题包括:
(1)提取所述舆情文本集合中所述给定行业类型的舆情文本的文本摘要。
具体地,可以将所述给定行业类型的舆情文本中与给定行业类型的行业字典匹配的相同词作为关键词,将所述关键词在所述给定行业类型的舆情文本中的词频作为所述关键词的关键词权重;将所述给定行业类型的舆情文本的语句中所述关键词的所述关键词权重的算术和确定为所述语句的语句权重;按照所述语句权重对所述语句进行排序,将前预设比例的所述语句作为所述给定行业类型的舆情文本的文本摘要。
(2)用基于词袋模型的文本向量表示所述给定行业类型的舆情文本的文本摘要。
具体地,将所述文本摘要中不同的词语映射为所述向量空间中不同的正交维度,不同的词语的数量对应所述正交维度的维度数量,一个不同的词语对应一个维度;对于所述文本向量中的给定维度,将所述文本摘要中所述给定维度对应的词语的数量作为所述文本向量的给定维度的坐标值,得到所述给定行业类型的舆情文本的文本摘要的文本向量。
例如,所述文本摘要为“普通计算机用指令运算速度衡量计算性能,而超算通常用浮点运算速度来衡量其性能”,其中不同的词语有“普通”、“计算机”、“用”、“指令”、“运算”、“速度”、“衡量”、“计算”、“性能”、“而”、“超算”、“通常”、“浮点”、“来”、“其”,15个不同的词语对应15维向量,第一个词语“普通”对应第一维向量,第二个词语“计算机”对应第二维向量,其他维度依次类推;所述文本摘要中“用”、“运算”、“速度”、“衡量”、“性能”的数量为2,对应维度的坐标值为2,其余词汇的数量为1,对应维度的坐标值为1,即所述文本向量为(1,1,2,1,2,2,2,1,2,1,1,1,1,1,1)。
(3)采用k均值聚类算法(k-means clustering algorithm)基于相似度对所述文本向量进行聚类,得到热点文本簇。
具体地,随机地选取K个文本向量作为初始的聚类中心,然后计算每个文本向量与各个种子聚类中心之间的相似度,把每个文本向量分配给距离所述每个文本向量最近的聚类中心。聚类中心以及分配给所述聚类中心的文本向量就代表一个聚类。每分配一个文本向量,聚类簇的聚类中心会根据所述聚类簇中现有的文本向量被重新计算;重复循环执行本步骤直到满足预设终止条件。所述预设终止条件可以是没有(或第一预设数量个)文本向量被重新分配给不同的聚类簇,或者没有(或第二预设数量个)聚类中心再发生变化。
(4)从所述热点文本簇中提取所述舆论话题。
具体地,从离差平方和最小的所述热点文本簇中提取权重最大的词语作为所述舆论话题。
104,获取所述舆情文本集合中所述舆论话题对应的舆情文本,对发布所述舆论话题对应的舆情文本的用户进行识别,得到所述舆论话题的主流用户。
在一具体实施例中,所述获取所述舆情文本集合中所述舆论话题对应的舆情文本,对发布所述舆论话题对应的舆情文本的用户进行识别,得到所述舆论话题的主流用户包括:
(1)将所述舆论话题对应的舆情文本的用户在不同网络平台的数量确定为所述用户的第一权值。例如,用户A在微博、微信、网易新闻中存在所述语料话题对应的舆情文本,则用户A的第一权重为3。所述第一权重体现了所述用户的平台影响力的宽度。
(2)将所述用户的所述舆论话题对应的舆情文本的评论数量确定为所述用户的第二权值。
(3)将所述用户的所述舆论话题对应的舆情文本的转发数量确定为所述用户的第三权值。
(4)计算所述第一权值、所述第二权值、所述第三权值的加权和,根据所述加权和对所述用户排序,将前第三预设数量的所述用户识别为所述主流用户。例如,所述第一权值A的加权为a,所述第二权重B的加权为b,所述第三权重C的加权为c,所述加权和为a*A+b*B+c*C,其中a+b+c=1。根据所述加权和对所述用户进行排序,将前10个所述用户识别为所述主流用户。
105,根据所述主流用户的数量变化确定所述舆论话题的发展趋势。
在一具体实施例中,所述根据所述主流用户的数量变化确定所述舆论话题的发展趋势包括:
(1)将所述主流用户划分为一类用户、二类用户、三类用户,所述一类用户为普通个体用户,所述二类用户为网红个体用户和地方新媒体用户,所述三类用户为高级新媒体用户。例如,所述一类用户包括不活跃的个人用户,所述二类用户包括活跃的有超过第四预设数量的受众的个人用户和地方的组织机构、事业单位、新闻媒体等,所述三类用户为全国性的组织机构、事业单位、新闻媒体等。可以理解,不同级别的用户对所述舆论话题的发展影响不同,级别越大的用户对所述舆论话题的发展影响越大。
(2)根据所述舆论话题的舆情文本的发布时间计算两个相邻时间段的所述一类用户、所述二类用户、所述三类用户的数量。
(3)在两个相邻时间段,若所述一类用户数量上升,所述二类用户和所述三类用户的数量未上升,所述舆论话题处于酝酿阶段。
(4)在两个相邻时间段,若所述一类用户的数量上升,所述二类用户或所述三类用户的数量上升,所述舆论话题处于发展阶段。
(5)在两个相邻时间段,若所述一类用户、所述二类用户和所述三类用户的数量上升,所述舆论话题处于热点阶段。
所述舆情分析方法按照行业进行舆情分析,确定给定行业的舆情发展趋势。
实施例一按照行业对舆情文本集合进行分类及对分类后的舆情文本进行聚类,得到给定行业类型的舆论话题,减少不同行业之间舆情文本的干扰,提高了舆论话题的准确性,进而提高舆情分析的准确性。并且,实施例一确定舆论话题的主流用户,根据舆论话题的主流用户的数量变化确定舆论话题的发展趋势,克服小众用户对舆论话题的发展趋势的影响,进一步提高舆情分析的准确性。实施例一实现了对舆情的发展趋势的较为准确的分析,为针对舆情采取应对措施提供了重要依据。
在另一实施例中,所述方法还包括:
若所述舆论话题处于热点阶段的,则对所述舆论话题进行情感分析。
具体地,对处于热点阶段的舆论话题进行情感分析包括:
获取情感词典、否定词词典、程度副词词典;
对所述舆论话题对应的舆情文本中的语句进行分词处理、删除停用词处理;
确定所述舆论话题对应的舆情文本与所述情感词典相同的词语,记为情感词,每个情感词具有预设的情感权重R;
计算每个情感词与该情感词所在语句中实体的第一距离,计算每个情感词与该情感词所在语句中关系词的第二距离,计算所述第一距离和所述第二距离的平均距离D;
确定每个情感词所在语句与所述否定词词典相同的词语,记为否定词,确定该情感词所在语句中该情感词相邻的否定词的数量H;
确定每个情感词所在语句与所述程度副词词典相同的词语,记为程度副词,确定该情感词所在语句中该情感词相邻的程度副词的数量j;
计算所述舆论话题的情感得分W:
其中,n为所述舆论话题对应的舆情文本中所述情感词的数量,Ek为j个程度副词中第k个程度副词的情感强度值,0≤k≤j。所述情感强度值为预设值,可以从所述程度副词词典中查询得到。
所述实体是指语句中的主语和宾语。若情感词所在语句包含主语或者宾语,则计算情感词与该情感词所在语句中主语的第一距离d1,或者计算情感词与该情感词所在语句中宾语的第一距离d2。若情感词所在语句包含主语和宾语,则计算情感词与该情感词所在语句中主语的第一距离d1,计算情感词与该情感词所在语句中宾语的第一距离d2。
所述关系词是指情感词所在语句中情感词所修饰的动词。
若情感得分为正,则所述舆论话题的情感为正面情感。若情感得分为0,则所述舆论话题的情感为中性情感。若情感得分为负,则所述舆论话题的情感为负面情感。所述情感得分的绝对值越大,情感越强。
实施例二
图2是本发明实施例二提供的舆情分析装置的结构图。所述舆情分析装置20应用于计算机装置。如图2所示,所述舆情分析装置20可以包括获取模块201、分类模块202、聚类模块203、识别模块204、确定模块205。
获取模块201,用于获取舆情文本集合。
在一具体实施例中,所述获取舆情文本集合包括:
通过社交软件的开放接口获取所述社交软件中用户发布的文本;和/或
使用混合多重匿名代理池获取门户网站中用户发布的文本。
具体地,通过社交软件的开放接口获取所述社交软件中用户发布的文本包括:通过所述社交软件的开放接口获取所述社交软件的种子用户,爬取所述种子用户发布的文本;获取所述种子用户的关联用户(称第一用户),爬取所述第一用户发布的文本;获取所述第一用户的关联用户(称第二用户),爬取所述第二户发布的文本;获取所述第二用户的关联用户(称第三用户),爬取所述第三用户发布的文本;依此类推。所述种子用户可以是具有一定网络活跃度的用户。
具体地,使用混合多重匿名代理池获取门户网站中用户发布的文本包括:用普通HTTP代理和高匿名代理构成所述多重匿名代理池,随机选择所述普通HTTP代理和所述高匿名代理生成的可变IP地址;采用头文件中加入所述可变IP地址的爬虫从所述门户网站中获取用户发布的文本。所述可变IP地址可以降低所述爬虫被所述门户网站识别的概率。
所述采用加入所述可变IP地址的爬虫从所述门户网站中获取用户发布的文本可以包括:
(1)获取所述门户网站的种子URL以及后续的URL。
种子URL是爬虫进行一切工作的基础和前提。种子URL可以是一个也可以是多个。
可以对所述门户网站的URL的结构特点进行分析,根据URL的结构特点得到后续的URL。
(2)将所述可变IP地址加入HTTP请求的头文件中,向种子URL以及后续的URL网站发送HTTP请求。
可以GET方式发送HTTP请求。所述门户网站同意获取其提供的数据时,返回HTTP响应。
(3)对所述门户网站提供的数据内容进行分析和识别,以查看数据内容中的文本。
网站提供特定格式的数据内容,需要对网站提供的特定格式的数据内容进行分析和识别,来查看所述数据内容。例如,所述网站的API接口提供的数据格式为JSON格式。JSON是一种数据交换格式,使用了类似于C语言的语法习惯。对该JSON格式的数据内容进行分析和识别,来查看所述数据内容中的文本。
(4)判断所述数据内容中的文本是否为预定信息内容。
为了得到所述门户网站中的文本,需要判断所述数据内容中的文本是否为预定信息内容。若所述数据内容不是预定信息内容,则舍弃该数据内容,否则执行下一步骤。
(5)若所述数据内容中的文本为预定信息内容,则抓取所述数据内容中的文本。
数据抓取的最终目的是将网络中的所述数据内容中的文本抓取到本地。对于JSON格式的数据,在抓取所述数据内容中的文本时可以采用深度优先搜索策略或OCIP(OnlinePage Importance Computation)策略进行状态空间搜索。
(6)将抓取的所述数据内容中的文本保存到本地。
可以在计算设备上创建数据库,将所述数据内容中的文本保存到所述数据库中。
分类模块202,用于根据各个行业字典对所述舆情文本集合进行分类,得到所述舆情文本集合中每个舆情文本的行业类型。
在一具体实施例中,所述根据各个行业字典对所述舆情文本集合进行分类,得到所述舆情文本集合中每个舆情文本的行业类型包括:
对于所述舆情文本集合中的每个舆情文本,匹配所述舆情文本与每个行业字典的相同词;
将相同词最多的行业字字典对应的行业作为所述舆情文本的行业类型。
例如,对于所述舆情文本集中的一个舆情文本,匹配舆情文本中与软件行业字典、硬件行业字典、金融行业字典的相同词,分别统计出舆情文本中与软件行业字典匹配的相同词为80,舆情文本中与硬件行业字典匹配的相同词为10,舆情文本中与软件行业字典匹配的相同词为2,则将相同词最多的软件行业字典对应的软件行业作为舆情文本的行业类型。
可选地,所述匹配所述舆情文本与每个行业字典的相同词可以包括:
对所述舆情文本进行分词,删除分词结果中重复的词语,采用正则表达式匹配所述舆情文本中去重后的词语与每个行业字典的相同词;或
对所述舆情文本进行分词,提取分词结果中词频超过预设词频的词语,采用正则表达式匹配所述舆情文本中提取出的词语与每个行业字典的相同词。
聚类模块203,用于对所述舆情文本集合中给定行业类型的舆情文本进行聚类,得到所述给定行业类型的舆论话题。
在一具体实施例中,所述对所述舆情文本集合中给定行业类型的舆情文本进行聚类,得到所述给定行业类型的舆论话题包括:
(1)提取所述舆情文本集合中所述给定行业类型的舆情文本的文本摘要。
具体地,可以将所述给定行业类型的舆情文本中与给定行业类型的行业字典匹配的相同词作为关键词,将所述关键词在所述给定行业类型的舆情文本中的词频作为所述关键词的关键词权重;将所述给定行业类型的舆情文本的语句中所述关键词的所述关键词权重的算术和确定为所述语句的语句权重;按照所述语句权重对所述语句进行排序,将前预设比例的所述语句作为所述给定行业类型的舆情文本的文本摘要。
(2)用基于词袋模型的文本向量表示所述给定行业类型的舆情文本的文本摘要。
具体地,将所述文本摘要中不同的词语映射为所述向量空间中不同的正交维度,不同的词语的数量对应所述正交维度的维度数量,一个不同的词语对应一个维度;对于所述文本向量中的给定维度,将所述文本摘要中所述给定维度对应的词语的数量作为所述文本向量的给定维度的坐标值,得到所述给定行业类型的舆情文本的文本摘要的文本向量。
例如,所述文本摘要为“普通计算机用指令运算速度衡量计算性能,而超算通常用浮点运算速度来衡量其性能”,其中不同的词语有“普通”、“计算机”、“用”、“指令”、“运算”、“速度”、“衡量”、“计算”、“性能”、“而”、“超算”、“通常”、“浮点”、“来”、“其”,15个不同的词语对应15维向量,第一个词语“普通”对应第一维向量,第二个词语“计算机”对应第二维向量,其他维度依次类推;所述文本摘要中“用”、“运算”、“速度”、“衡量”、“性能”的数量为2,对应维度的坐标值为2,其余词汇的数量为1,对应维度的坐标值为1,即所述文本向量为(1,1,2,1,2,2,2,1,2,1,1,1,1,1,1)。
(3)采用k均值聚类算法(k-means clustering algorithm)基于相似度对所述文本向量进行聚类,得到热点文本簇。
具体地,随机地选取K个文本向量作为初始的聚类中心,然后计算每个文本向量与各个种子聚类中心之间的相似度,把每个文本向量分配给距离所述每个文本向量最近的聚类中心。聚类中心以及分配给所述聚类中心的文本向量就代表一个聚类。每分配一个文本向量,聚类簇的聚类中心会根据所述聚类簇中现有的文本向量被重新计算;重复循环执行本步骤直到满足预设终止条件。所述预设终止条件可以是没有(或第一预设数量个)文本向量被重新分配给不同的聚类簇,或者没有(或第二预设数量个)聚类中心再发生变化。
(4)从所述热点文本簇中提取所述舆论话题。
具体地,从离差平方和最小的所述热点文本簇中提取权重最大的词语作为所述舆论话题。
识别模块204,用于获取所述舆情文本集合中所述舆论话题对应的舆情文本,对发布所述舆论话题对应的舆情文本的用户进行识别,得到所述舆论话题的主流用户。
在一具体实施例中,所述获取所述舆情文本集合中所述舆论话题对应的舆情文本,对发布所述舆论话题对应的舆情文本的用户进行识别,得到所述舆论话题的主流用户包括:
(1)将所述舆论话题对应的舆情文本的用户在不同网络平台的数量确定为所述用户的第一权值。例如,用户A在微博、微信、网易新闻中存在所述语料话题对应的舆情文本,则用户A的第一权重为3。所述第一权重体现了所述用户的平台影响力的宽度。
(2)将所述用户的所述舆论话题对应的舆情文本的评论数量确定为所述用户的第二权值。
(3)将所述用户的所述舆论话题对应的舆情文本的转发数量确定为所述用户的第三权值。
(4)计算所述第一权值、所述第二权值、所述第三权值的加权和,根据所述加权和对所述用户排序,将前第三预设数量的所述用户识别为所述主流用户。例如,所述第一权值A的加权为a,所述第二权重B的加权为b,所述第三权重C的加权为c,所述加权和为a*A+b*B+c*C,其中a+b+c=1。根据所述加权和对所述用户进行排序,将前10个所述用户识别为所述主流用户。
确定模块205,用于根据所述主流用户的数量变化确定所述舆论话题的发展趋势。
在一具体实施例中,所述根据所述主流用户的数量变化确定所述舆论话题的发展趋势包括:
(1)将所述主流用户划分为一类用户、二类用户、三类用户,所述一类用户为普通个体用户,所述二类用户为网红个体用户和地方新媒体用户,所述三类用户为高级新媒体用户。例如,所述一类用户包括不活跃的个人用户,所述二类用户包括活跃的有超过第四预设数量的受众的个人用户和地方的组织机构、事业单位、新闻媒体等,所述三类用户为全国性的组织机构、事业单位、新闻媒体等。可以理解,不同级别的用户对所述舆论话题的发展影响不同,级别越大的用户对所述舆论话题的发展影响越大。
(2)根据所述舆论话题的舆情文本的发布时间计算两个相邻时间段的所述一类用户、所述二类用户、所述三类用户的数量。
(3)在两个相邻时间段,若所述一类用户数量上升,所述二类用户和所述三类用户的数量未上升,所述舆论话题处于酝酿阶段。
(4)在两个相邻时间段,若所述一类用户的数量上升,所述二类用户或所述三类用户的数量上升,所述舆论话题处于发展阶段。
(5)在两个相邻时间段,若所述一类用户、所述二类用户和所述三类用户的数量上升,所述舆论话题处于热点阶段。
所述舆情分析方法按照行业进行舆情分析,确定给定行业的舆情发展趋势。
实施例二按照行业对舆情文本集合进行分类及对分类后的舆情文本进行聚类,得到给定行业类型的舆论话题,减少不同行业之间舆情文本的干扰,提高了舆论话题的准确性,进而提高舆情分析的准确性。并且,实施例二确定舆论话题的主流用户,根据舆论话题的主流用户的数量变化确定舆论话题的发展趋势,克服小众用户对舆论话题的发展趋势的影响,进一步提高舆情分析的准确性。实施例二实现了对舆情的发展趋势的较为准确的分析,为针对舆情采取应对措施提供了重要依据。
在另一实施例中,所述舆情分析装置20还可以包括:情感分析模块,用于若所述舆论话题处于热点阶段的,则对所述舆论话题进行情感分析。
具体地,对处于热点阶段的舆论话题进行情感分析包括:
获取情感词典、否定词词典、程度副词词典;
对所述舆论话题对应的舆情文本中的语句进行分词处理、删除停用词处理;
确定所述舆论话题对应的舆情文本与所述情感词典相同的词语,记为情感词,每个情感词具有预设的情感权重R;
计算每个情感词与该情感词所在语句中实体的第一距离,计算每个情感词与该情感词所在语句中关系词的第二距离,计算所述第一距离和所述第二距离的平均距离D;
确定每个情感词所在语句与所述否定词词典相同的词语,记为否定词,确定该情感词所在语句中该情感词相邻的否定词的数量H;
确定每个情感词所在语句与所述程度副词词典相同的词语,记为程度副词,确定该情感词所在语句中该情感词相邻的程度副词的数量j;
计算所述舆论话题的情感得分W:
其中,n为所述舆论话题对应的舆情文本中所述情感词的数量,Ek为j个程度副词中第k个程度副词的情感强度值,0≤k≤j。所述情感强度值为预设值,可以从所述程度副词词典中查询得到。
所述实体是指语句中的主语和宾语。若情感词所在语句包含主语或者宾语,则计算情感词与该情感词所在语句中主语的第一距离d1,或者计算情感词与该情感词所在语句中宾语的第一距离d2。若情感词所在语句包含主语和宾语,则计算情感词与该情感词所在语句中主语的第一距离d1,计算情感词与该情感词所在语句中宾语的第一距离d2。
所述关系词是指情感词所在语句中情感词所修饰的动词。
若情感得分为正,则所述舆论话题的情感为正面情感。若情感得分为0,则所述舆论话题的情感为中性情感。若情感得分为负,则所述舆论话题的情感为负面情感。所述情感得分的绝对值越大,情感越强。
实施例三
本实施例提供一种计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述舆情分析方法实施例中的步骤,例如图1所示的101-105:
101,获取舆情文本集合;
102,根据各个行业字典对所述舆情文本集合进行分类,得到所述舆情文本集合中每个舆情文本的行业类型;
103,对所述舆情文本集合中给定行业类型的舆情文本进行聚类,得到所述给定行业类型的舆论话题;
104,获取所述舆情文本集合中所述舆论话题对应的舆情文本,对发布所述舆论话题对应的舆情文本的用户进行识别,得到所述舆论话题的主流用户;
105,根据所述主流用户的数量变化确定所述舆论话题的发展趋势。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-205:
获取模块201,用于获取舆情文本集合;
分类模块202,用于根据各个行业字典对所述舆情文本集合进行分类,得到所述舆情文本集合中每个舆情文本的行业类型;
聚类模块203,用于对所述舆情文本集合中给定行业类型的舆情文本进行聚类,得到所述给定行业类型的舆论话题;
识别模块204,用于获取所述舆情文本集合中所述舆论话题对应的舆情文本,对发布所述舆论话题对应的舆情文本的用户进行识别,得到所述舆论话题的主流用户;
确定模块205,用于根据所述主流用户的数量变化确定所述舆论话题的发展趋势。
实施例四
图3为本发明实施例四提供的计算机装置的示意图。所述计算机装置30包括存储器301、处理器302以及存储在所述存储器301中并可在所述处理器302上运行的计算机程序303,例如舆情分析程序。所述处理器302执行所述计算机程序303时实现上述舆情分析方法实施例中的步骤,例如图1所示的101-105。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-205。
示例性的,所述计算机程序303可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器301中,并由所述处理器302执行,以完成本方法。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序303在所述计算机装置30中的执行过程。例如,所述计算机程序303可以被分割成图2中的获取模块201、分类模块202、聚类模块203、识别模块204、确定模块205,各模块具体功能参见实施例二。
所述计算机装置30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解,所述示意图3仅仅是计算机装置30的示例,并不构成对计算机装置30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机装置30还可以包括输入输出设备、网络接入设备、总线等。
所称处理器302可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等,所述处理器302是所述计算机装置30的控制中心,利用各种接口和线路连接整个计算机装置30的各个部分。
所述存储器301可用于存储所述计算机程序303,所述处理器302通过运行或执行存储在所述存储器301内的计算机程序或模块,以及调用存储在存储器301内的数据,实现所述计算机装置30的各种功能。所述存储器301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等);存储数据区可存储根据计算机装置30的使用所创建的数据(比如音频数据等)等。此外,存储器301可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
所述计算机装置30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他模块或步骤,单数不排除复数。系统权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种舆情分析方法,其特征在于,所述方法包括:
获取舆情文本集合;
根据各个行业字典对所述舆情文本集合进行分类,得到所述舆情文本集合中每个舆情文本的行业类型;
对所述舆情文本集合中给定行业类型的舆情文本进行聚类,得到所述给定行业类型的舆论话题;
获取所述舆情文本集合中所述舆论话题对应的舆情文本,对发布所述舆论话题对应的舆情文本的用户进行识别,得到所述舆论话题的主流用户;
根据所述主流用户的数量变化确定所述舆论话题的发展趋势。
2.如权利要求1所述的方法,其特征在于,所述获取舆情文本集合包括:
通过社交软件的开放接口获取所述社交软件中用户发布的文本;和/或
使用混合多重匿名代理池获取门户网站中用户发布的文本。
3.如权利要求1所述的方法,其特征在于,所述根据各个行业字典对所述舆情文本集合进行分类,得到所述舆情文本集合中每个舆情文本的行业类型包括:
对于所述舆情文本集合中的每个舆情文本,匹配所述舆情文本与每个行业字典的相同词;
将相同词最多的行业字字典对应的行业作为所述舆情文本的行业类型。
4.如权利要求1所述的方法,其特征在于,所述对所述舆情文本集合中给定行业类型的舆情文本进行聚类,得到所述给定行业类型的舆论话题包括:
提取所述舆情文本集合中所述给定行业类型的舆情文本的文本摘要;
用基于词袋模型的文本向量表示所述给定行业类型的舆情文本的文本摘要;
采用k均值聚类算法基于相似度对所述文本向量进行聚类,得到热点文本簇;
从所述热点文本簇中提取所述舆论话题。
5.如权利要求1所述的方法,其特征在于,所述获取所述舆情文本集合中所述舆论话题对应的舆情文本,对发布所述舆论话题对应的舆情文本的用户进行识别,得到所述舆论话题的主流用户包括:
将所述舆论话题对应的舆情文本的用户在不同网络平台的数量确定为所述用户的第一权值;
将所述用户的所述舆论话题对应的舆情文本的评论数量确定为所述用户的第二权值;
将所述用户的所述舆论话题对应的舆情文本的转发数量确定为所述用户的第三权值;
计算所述第一权值、所述第二权值、所述第三权值的加权和,根据所述加权和对所述用户排序,将前第三预设数量的所述用户识别为所述主流用户。
6.如权利要求1所述的方法,其特征在于,所述根据所述主流用户的数量变化确定所述舆论话题的发展趋势包括:
将所述主流用户划分为一类用户、二类用户、三类用户;
根据所述舆论话题的舆情文本的发布时间计算两个相邻时间段的所述一类用户、所述二类用户、所述三类用户的数量;
在两个相邻时间段,若所述一类用户数量上升,所述二类用户和所述三类用户的数量未上升,所述舆论话题处于酝酿阶段;
在两个相邻时间段,若所述一类用户的数量上升,所述二类用户或所述三类用户的数量上升,所述舆论话题处于发展阶段;
在两个相邻时间段,若所述一类用户、所述二类用户和所述三类用户的数量上升,所述舆论话题处于热点阶段。
7.如权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:
若所述舆论话题处于热点阶段的,则对所述舆论话题进行情感分析。
8.一种舆情分析装置,其特征在于,所述装置包括:
获取模块,用于获取舆情文本集合;
分类模块,用于根据各个行业字典对所述舆情文本集合进行分类,得到所述舆情文本集合中每个舆情文本的行业类型;
聚类模块,用于对所述舆情文本集合中给定行业类型的舆情文本进行聚类,得到所述给定行业类型的舆论话题;
识别模块,用于获取所述舆情文本集合中所述舆论话题对应的舆情文本,对发布所述舆论话题对应的舆情文本的用户进行识别,得到所述舆论话题的主流用户;
确定模块,用于根据所述主流用户的数量变化确定所述舆论话题的发展趋势。
9.一种计算机装置,其特征在于,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1-7中任一项所述舆情分析方法。
10.一种计算机存储介质,所述计算机存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述舆情分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911303284.0A CN111222032B (zh) | 2019-12-17 | 2019-12-17 | 舆情分析方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911303284.0A CN111222032B (zh) | 2019-12-17 | 2019-12-17 | 舆情分析方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111222032A true CN111222032A (zh) | 2020-06-02 |
CN111222032B CN111222032B (zh) | 2024-04-30 |
Family
ID=70830883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911303284.0A Active CN111222032B (zh) | 2019-12-17 | 2019-12-17 | 舆情分析方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111222032B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111784492A (zh) * | 2020-07-10 | 2020-10-16 | 讯飞智元信息科技有限公司 | 舆情分析和财务预警方法、装置、电子设备和存储介质 |
CN112214576A (zh) * | 2020-09-10 | 2021-01-12 | 深圳价值在线信息科技股份有限公司 | 舆情分析方法、装置、终端设备及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599065A (zh) * | 2016-11-16 | 2017-04-26 | 北京化工大学 | 一种基于Storm分布式框架的食品安全网络舆情预警系统 |
CN108733791A (zh) * | 2018-05-11 | 2018-11-02 | 北京科技大学 | 网络事件检测方法 |
CN109409619A (zh) * | 2018-12-19 | 2019-03-01 | 泰康保险集团股份有限公司 | 舆情动向的预测方法、装置、介质及电子设备 |
AU2019100854A4 (en) * | 2019-08-02 | 2019-09-05 | Xi’an University of Technology | Long-term trend prediction method based on network hotspot single-peak topic propagation model |
WO2019184217A1 (zh) * | 2018-03-26 | 2019-10-03 | 平安科技(深圳)有限公司 | 热点事件分类方法、装置及存储介质 |
-
2019
- 2019-12-17 CN CN201911303284.0A patent/CN111222032B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599065A (zh) * | 2016-11-16 | 2017-04-26 | 北京化工大学 | 一种基于Storm分布式框架的食品安全网络舆情预警系统 |
WO2019184217A1 (zh) * | 2018-03-26 | 2019-10-03 | 平安科技(深圳)有限公司 | 热点事件分类方法、装置及存储介质 |
CN108733791A (zh) * | 2018-05-11 | 2018-11-02 | 北京科技大学 | 网络事件检测方法 |
CN109409619A (zh) * | 2018-12-19 | 2019-03-01 | 泰康保险集团股份有限公司 | 舆情动向的预测方法、装置、介质及电子设备 |
AU2019100854A4 (en) * | 2019-08-02 | 2019-09-05 | Xi’an University of Technology | Long-term trend prediction method based on network hotspot single-peak topic propagation model |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111784492A (zh) * | 2020-07-10 | 2020-10-16 | 讯飞智元信息科技有限公司 | 舆情分析和财务预警方法、装置、电子设备和存储介质 |
CN112214576A (zh) * | 2020-09-10 | 2021-01-12 | 深圳价值在线信息科技股份有限公司 | 舆情分析方法、装置、终端设备及计算机可读存储介质 |
CN112214576B (zh) * | 2020-09-10 | 2024-02-06 | 深圳价值在线信息科技股份有限公司 | 舆情分析方法、装置、终端设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111222032B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200184275A1 (en) | Method and system for generating and correcting classification models | |
WO2022141861A1 (zh) | 情感分类方法、装置、电子设备及存储介质 | |
WO2022126971A1 (zh) | 基于密度的文本聚类方法、装置、设备及存储介质 | |
US8972408B1 (en) | Methods, systems, and articles of manufacture for addressing popular topics in a social sphere | |
US8676730B2 (en) | Sentiment classifiers based on feature extraction | |
WO2022105115A1 (zh) | 问答对匹配方法、装置、电子设备及存储介质 | |
WO2020253503A1 (zh) | 人才画像的生成方法、装置、设备及存储介质 | |
CN110929145B (zh) | 舆情分析方法、装置、计算机装置及存储介质 | |
US20110112995A1 (en) | Systems and methods for organizing collective social intelligence information using an organic object data model | |
US9183285B1 (en) | Data clustering system and methods | |
KR102324048B1 (ko) | 커뮤니티 질의 응답 데이터의 검증 방법, 장치, 컴퓨터 기기 및 저장 매체 | |
CN108885623A (zh) | 基于知识图谱的语意分析系统及方法 | |
CN107506472B (zh) | 一种学生浏览网页分类方法 | |
US9418058B2 (en) | Processing method for social media issue and server device supporting the same | |
Bahamonde et al. | Power structure in Chilean news media | |
CN111079029A (zh) | 敏感账号的检测方法、存储介质和计算机设备 | |
US10762438B1 (en) | Extracting questions and answers | |
CN110825868A (zh) | 一种基于话题热度的文本推送方法、终端设备及存储介质 | |
CN111222032B (zh) | 舆情分析方法及相关设备 | |
CN114416998A (zh) | 文本标签的识别方法、装置、电子设备及存储介质 | |
de Zarate et al. | Measuring controversy in social networks through nlp | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
CN111639250B (zh) | 企业描述信息获取方法、装置、电子设备及存储介质 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
He et al. | Sentiment classification technology based on Markov logic networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |