CN113536805B - 热点事件的舆情分析方法、装置、设备及存储介质 - Google Patents
热点事件的舆情分析方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113536805B CN113536805B CN202110777527.5A CN202110777527A CN113536805B CN 113536805 B CN113536805 B CN 113536805B CN 202110777527 A CN202110777527 A CN 202110777527A CN 113536805 B CN113536805 B CN 113536805B
- Authority
- CN
- China
- Prior art keywords
- emotion
- score
- word
- public opinion
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种热点事件的舆情分析方法、装置、设备及存储介质,所述方法包括:在一次网络舆情信息抓取的过程中,提取用户针对所述热点事件的情感词语;将所述情感词语按照语义划分为正向词语组和负向词语组;依据预先建立的情感词语关联集合中,任意两个情感词语之间的关系相关度,计算所述正向词语组的第一得分,以及计算所述负向词语组的第二得分,所述情感词语关联集合包括所述热点事件的情感词语;比较所述第一得分和所述第二得分,得到比较结果;根据预设时间段内各次网络舆情信息抓取过程中,通过获得的比较结果来确定舆情是否发生反转。本申请用以解决无法及时发现舆情反转的问题。
Description
技术领域
本申请涉及互联网领域,尤其涉及一种热点事件的舆情分析方法、装置、设备及存储介质。
背景技术
舆情是“舆论情况”的简称,是指公众对现实生活中某些热点事件所持的有较强影响力、倾向性的言论和观点。网络舆情是以网络为载体,以热点事件为核心,广大网民情感、态度、意见、观点的表达、传播与互动,以及后续影响力的集合。
当前各网络舆情监控跟踪系统往往集中在热点事件的发现场景,当热点事件的舆情倾向性发生细微变化时,往往无法及时发现。很多热点事件最终发生反转,而反转的热点事件往往具有曝光和跟踪价值。
发明内容
本申请提供了一种热点事件的舆情分析方法、装置、设备及存储介质,用以解决无法及时发现舆情反转的问题。
第一方面,本申请提供了一种热点事件的舆情分析方法,包括:
在一次网络舆情信息抓取的过程中,提取用户针对所述热点事件的情感词语;
将所述情感词语按照语义划分为正向词语组和负向词语组;
依据预先建立的情感词语关联集合中,任意两个情感词语之间的关系相关度,计算所述正向词语组的第一得分,以及计算所述负向词语组的第二得分,所述情感词语关联集合包括所述热点事件的情感词语;
比较所述第一得分和所述第二得分,得到比较结果;
根据预设时间段内各次网络舆情信息抓取过程中,通过获得的比较结果来确定舆情是否发生反转。
可选的,所述计算所述正向词语组的第一得分,包括:
统计所述正向词语组中,各个情感词语各自的第一频次;
将各个所述第一频次中的最大值所对应的情感词语,作为正向最高频情感词语;
获取所述正向最高频情感词语分别与所述正向词语组中,各个情感词语之间的关系相关度,并将各个所述关系相关度之和作为所述第一得分。
可选的,所述计算所述负向词语组的第二得分,包括:
统计所述负向词语组中,各个情感词语各自的第二频次;
将各个所述第二频次中的最大值所对应的情感词语,作为负向最高频情感词语;
获取所述负向最高频情感词语分别与所述负向词语组中,各个情感词语之间的关系相关度,并将各个所述关系相关度之和作为所述第二得分。
可选的,所述根据各次网络舆情信息抓取过程中,比较结果的变化确定舆情发生反转,包括:
在各次网络舆情信息抓取过程中,由所述第一得分大于或等于所述第二得分变为所述第一得分小于所述第二得分,或者,由所述第一得分小于或等于所述第二得分变为所述第一得分大于所述第二得分,则判定所述热点事件的舆情发生反转。
可选的,所述判定所述热点事件的舆情发生反转之后,还包括:
在所述第一得分与所述第二得分的差值的绝对值大于预设阈值时,发出预警。
可选的,所述依据预先建立的情感词语关联集合中,任意两个情感词语之间的关系相关度,计算所述正向词语组的第一得分之前,还包括:
获取所述情感词语关联集合;其中,所述情感词语关联集合中包括:任意两个所述情感词语之间的关系相关度。
可选的,所述获取情感词语关联集合,包括:
建立针对所述网络舆情信息的情感词语集合;
获取所述情感词语集合中任意两个情感词语之间的关系相关度;
建立所述任意两个情感词语和所述关系相关度的对应关系,得到所述情感词语关联集合。
可选的,所述建立针对所述网络舆情信息的情感词语集合,包括:
抓取所述网络舆情信息;
从所述网络舆情信息中,提取各个情感词语,得到所述情感词语集合。
可选的,所述提取各个情感词语之后,所述得到所述情感词语集合之前,还包括:
获取每个所述情感词语所对应的搜索热度指数;
过滤掉所述搜索热度指数小于预设搜索热度指数的情感词语。
可选的,所述建立所述任意两个情感词语和所述关系相关度的对应关系之后,所述得到所述情感词语关联集合之前,还包括:
判断所述关系相关度是否在预设关系相关度范围内;
如果是,则过滤掉所述关系相关度对应的所述对应关系。
可选的,所述提取用户针对所述热点事件的情感词语,包括:
对所述网络舆情信息进行聚合和筛选,得到热点事件;
从所述网络舆情信息中,提取用户针对所述热点事件的评论信息;
从所述评论信息中,解析得到用户针对所述热点事件的情感词语。
可选的,所述网络舆情信息中包括:访问量或评论量超过预设值的用户账号中所发表的内容。
第二方面,本申请提供了一种热点事件的舆情分析装置,包括:
提取模块,用于在一次网络舆情信息抓取的过程中,提取用户针对所述热点事件的情感词语;
划分模块,用于将所述情感词语按照语义划分为正向词语组和负向词语组;
计算模块,用于依据预先建立的情感词语关联集合中,任意两个情感词语之间的关系相关度,计算所述正向词语组的第一得分,以及计算所述负向词语组的第二得分,所述情感词语关联集合包括所述热点事件的情感词语;
比较模块,用于比较所述第一得分和所述第二得分,得到比较结果;
确定模块,用于根据预设时间段内各次网络舆情信息抓取过程中,通过获取的比较结果来确定舆情是否发生反转。
可选的,所述计算模块,用于统计所述正向词语组中,各个情感词语各自的第一频次;将各个所述第一频次中的最大值所对应的情感词语,作为正向最高频情感词语;获取所述正向最高频情感词语分别与所述正向词语组中,各个情感词语之间的关系相关度,并将各个所述关系相关度之和作为所述第一得分。
可选的,所述计算模块,用于统计所述负向词语组中,各个情感词语各自的第二频次;将各个所述第二频次中的最大值所对应的情感词语,作为负向最高频情感词语;获取所述负向最高频情感词语分别与所述负向词语组中,各个情感词语之间的关系相关度,并将各个所述关系相关度之和作为所述第二得分。
可选的,所述确定模块,用于在各次网络舆情信息抓取过程中,由所述第一得分大于或等于所述第二得分变为所述第一得分小于所述第二得分,或者,由所述第一得分小于或等于所述第二得分变为所述第一得分大于所述第二得分,则判定所述热点事件的舆情发生反转。
可选的,还包括:预警模块,用于在判定所述热点事件的舆情发生反转之后,在所述第一得分与所述第二得分的差值的绝对值大于预设阈值时,发出预警。
可选的,还包括:获取模块,用于在依据预先建立的情感词语关联集合中,任意两个情感词语之间的关系相关度,计算所述正向词语组的第一得分之前,获取所述情感词语关联集合;其中,所述情感词语关联集合中包括:任意两个所述情感词语之间的关系相关度。
可选的,所述获取模块,用于建立针对所述网络舆情信息的情感词语集合;获取所述情感词语集合中任意两个情感词语之间的关系相关度;以及建立所述任意两个情感词语和所述关系相关度的对应关系,得到所述情感词语关联集合。
可选的,所述获取模块,具体用于抓取所述网络舆情信息;从所述网络舆情信息中,提取各个情感词语,得到所述情感词语集合。
可选的,还包括:过滤模块,用于在提取各个情感词语之后,得到所述情感词语集合之前,获取每个所述情感词语所对应的搜索热度指数;过滤掉所述搜索热度指数小于预设搜索热度指数的情感词语。
可选的,所述过滤模块,还用于在建立所述任意两个情感词语和所述关系相关度的对应关系之后,得到所述情感词语关联集合之前,判断所述关系相关度是否在预设关系相关度范围内;如果是,则过滤掉所述关系相关度对应的所述对应关系。
可选的,所述提取模块,用于对所述网络舆情信息进行聚合和筛选,得到热点事件;从所述网络舆情信息中,提取用户针对所述热点事件的评论信息;从所述评论信息中,解析得到用户针对所述热点事件的情感词语。
可选的,所述网络舆情信息中包括:访问量或评论量超过预设值的用户账号中所发表的内容。
第三方面,本申请提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;所述存储器,用于存储计算机程序;所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述热点事件的舆情分析方法。
第四方面,本申请提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的热点事件的舆情分析方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,在网络舆情信息抓取的过程中,提取用户针对热点事件的情感词语,将情感词语按照语义划分为正向词语组和负向词语组;依据预先建立的情感词语关联集合中,任意两个情感词语之间的关系相关度,计算正向词语组的第一得分,以及计算负向词语组的第二得分,所述情感词语关联集合包括所述热点事件的情感词语;比较第一得分和第二得分,得到比较结果;根据预设时间段内各次网络舆情信息抓取过程中,通过获得的比较结果来确定舆情是否发生反转。
在本申请实施例中,将用户针对热点事件的情感词语分为正向词语组和负向词语组两组,对用户针对热点事件的正向词语组的第一得分和用户针对热点事件的负向词语组的第二得分进行比较,根据比较结果来确定舆情是否发生反转,以能够及时发现热点事件的舆情发生逆转,从而发出预警,及时应对。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本申请实施例提供的一种热点事件的舆情分析方法的流程图;
图2为本申请实施例提供的计算正向词语组的第一得分的方法流程图;
图3为本申请实施例提供的计算负向词语组的第二得分的方法流程图;
图4为本申请实施例提供的建立情感词语关联集合的方法流程图;
图5为本申请实施例提供的一种热点事件的舆情分析装置的结构示意图;
图6为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本申请实施例提供了一种热点事件的舆情分析方法,用以解决现有技术中无法及时发现舆情反转的问题。
参见图1,本申请实施例提供了一种热点事件的舆情分析方法,包括如下步骤:
步骤101,在一次网络舆情信息抓取的过程中,提取用户针对热点事件的情感词语;
其中,网络舆情信息包括:新闻资源、博客、论坛等载体传播的信息,通过nlp(Natural Language Processing,自然语言处理)技术从网络舆情信息中提取情感词语。情感词语是指用户针对某一热点事件表达情感倾向性的词语,例如:有爱,漂亮,厌恶,恶心等。
其中,提取用户针对热点事件的情感词语的方法包括:
对网络舆情信息进行聚合和筛选,得到热点事件;从网络舆情信息中,提取用户针对热点事件的评论信息;对网络舆情信息进行解析和聚合,得到若干热点事件。从评论信息中,解析得到用户针对热点事件的情感词语。
现有技术中,在抓取网络舆情信息时,仅关注新闻资讯、大V博客等媒体上发布的信息。为了使得舆情分析的结果准确度更高,最大范围的了解到用户针对热点事件的看法,本申请实施例扩展了网络舆情信息的抓取范围,扩展至跟踪热度快速上涨的普通用户账号中,即将访问量或评论量超过预设值的用户账号中所发表的内容也考虑在内。
步骤102,将情感词语按照语义划分为正向词语组和负向词语组;
其中,正向词语组中的情感词语为表达用户积极情感的词语,例如:有爱,漂亮;负向词语组中的情感词语为表达用户消极情感的词语,例如:厌恶,恶心。
步骤103,依据预先建立的情感词语关联集合中,任意两个情感词语之间的关系相关度,计算正向词语组的第一得分,以及计算负向词语组的第二得分,情感词语关联集合包括热点事件的情感词语;
情感词语关联集合中包括任意两个情感词语之间的关系相关度。在具体实现时,可以通过如下方法计算正向词语组的第一得分,该方法包括:
步骤201,统计正向词语组中,各个情感词语各自的第一频次;
举例说明,正向词语组包含{A,A,A,B,C}中5个情感词语,则情感词语A的第一频次为3次,情感词语B的第一频次为1次,情感词语C的第一频次为1次。
步骤202,将各个第一频次中的最大值所对应的情感词语,作为正向最高频情感词语;
根据步骤201的举例可知,各个第一频次中的最大值为3,则将情感词语A作为正向最高频情感词语。
步骤203,获取正向最高频情感词语分别与正向词语组中,各个情感词语之间的关系相关度,并将各个关系相关度之和作为第一得分。
为了便于理解,继续举例说明,根据步骤202的举例,正向最高频情感词语为A,则依次计算A与正向词语组中各个情感词语的关系相关度:AA、AA、AA、AB和AC,其中,AA之间的关系相关度为1,AB和AC之间的关系相关度可以从情感词语关联集合中查询得到,将所有的关系相关度相加,得到第一得分。
在具体实现时,确定正向最高频情感词语后,依次将正向最高频情感词语与正向词语组中的各个情感词语进行比较,判断是否相同,如果比较结果显示,正向最高频情感词语与正向词语组中的情感词语相同时,则二者之间的关系相关度为1;如果比较结果显示,正向最高频情感词语与正向词语组中的情感词语不同时,可以从情感词语关联集合中确定这两个情感词语之间的关系相关度,进而得到正向最高频情感词语与正向词语组中各个情感词语的关系相关度,对各个关系相关度求和,得到第一得分。
依据同样的计算方法,可以计算得到负向词语组的第二得分,具体包括如下步骤:
步骤301,统计负向词语组中,各个情感词语各自的第二频次;
步骤302,将各个第二频次中的最大值所对应的情感词语,作为负向最高频情感词语;
步骤303,获取负向最高频情感词语分别与负向词语组中,各个情感词语之间的关系相关度,并将各个关系相关度之和作为第二得分。
为了便于理解,举例说明,负向词语组中包括{D,D,E}3个情感词语,其中,情感词语D的第二频次为2次,情感词语E的第二频次为1次,则确定负向最高频情感词语为D。依次计算负向最高频情感词语D与负向词语组中各个情感词语的关系相关度:DD、DD和DE;DD之间的关系相关度为1,DE之间的关系相关度可以从情感词语关联集合中查询得到,将所有的关系相关度相加,得到第二得分。
步骤104,比较第一得分和第二得分,得到比较结果;
步骤105,根据预设时间段内各次网络舆情信息抓取过程中,通过获得的比较结果来确定舆情是否发生反转。
在具体实现时,可以每间隔预设时间抓取一次网络舆情信息,抓取一次网络舆情信息,对应得到第一得分和第二得分的第一次比较结果;间隔预设时间后,再抓取一次网络舆情信息,对应得到第一得分和第二得分的第二次比较结果。
若在第一次比较结果中,第一得分大于或等于第二得分;在第二次比较结果中,第一得分依然大于或等于第二得分,则说明舆情未发生反转;若在第二次比较结果中,第一得分小于第二得分,两次比较结果发生了变化,则说明此时舆情发生了反转。同理,若在第一次比较结果中,第一得分小于或等于第二得分;在第二次比较结果中,依然是第一得分小于或等于第二得分,则说明舆情未发生反转;若在第二次比较结果中,第一得分大于第二得分,则两次比较结果发生了变化,则说明此时舆情发生了反转。
当判定舆情发生反转后,计算第一得分和第二得分的差值,若差值的绝对值大于预设阈值,则发出预警,请求人工介入干涉,以及时应对舆情反转。
在本申请实施例提供的技术方案中,在网络舆情信息抓取的过程中,提取用户针对热点事件的情感词语,将情感词语按照语义划分为正向词语组和负向词语组;依据预先建立的情感词语关联集合中,任意两个情感词语之间的关系相关度,计算正向词语组的第一得分,以及计算负向词语组的第二得分;比较第一得分和第二得分,得到比较结果;根据预设时间段内各次网络舆情信息抓取过程中,通过获得的比较结果来确定舆情是否发生反转。
在本申请实施例中,将用户针对热点事件的情感词语分为正向词语组和负向词语组两组,对用户针对热点事件的正向词语组的第一得分,以及用户针对热点事件的负向词语组的第二得分进行比较,根据比较结果来确定舆情是否发生反转,以能够及时发现热点事件的舆情发生逆转,有利于增加用户粘性,对用户增长具有较高价值。
此外,本申请实施例还提供了建立情感词语关联集合的方法,该方法包括:
步骤401,抓取网络舆情信息;
步骤402,从网络舆情信息中,提取各个情感词语,得到情感词语集合;
这里的情感词语指针对所有热点事件的情感词语的集合,又叫基础画风池(BasePool,BP)。从抓取的网络舆情信息中,通过nlp自然语言处理结合搜索热度指数API,取得较为常用的形容词作为情感词语集合(基础画风池)。
步骤403,获取情感词语集合中任意两个情感词语之间的关系相关度;
任意两个情感词语之间的关系相关度可以通过自然语言处理结合人工标注的方式获取到。举例说明,[博学,高学历,0.95],[自私,无私,-0.99],[博学,恶心,0]。其中,每个例子中的第三个值(依次为0.95,-0.99,0)表示任意两个情感词语之间的关系相关度,又叫画风相似程度,取值范围为(-1,1),0代表无关系,-1表示完全反义,1表示完全相似,对于两个不同情感词语之间的关系相关度只能是无限趋近于1或-1。
步骤404,建立任意两个情感词语和关系相关度的对应关系,得到情感词语关联集合。
情感词语关联集合又叫关联画风池(Related Pool,RP)。RP为网状结构,使用图数据库进行存储,当情感词语集合(又叫基础画风池,BP)数据量较大时,RP将急速增长,比如:当BP中的数据量为10万条时,RP的数据量约为5亿。在具体实现时,可以对数据量进行压缩。具体的,可以通过以下两种方式实现数据的压缩:
第一种,在提取各个情感词语之后,得到情感词语集合之前,获取每个情感词语所对应的搜索热度指数;过滤掉搜索热度指数小于预设搜索热度指数的情感词语。例如,过滤掉搜索热度指数小5000的情感词语。第一种数据压缩的方法对BP的数据量进行压缩,BP的数据量减小,相应的RP的数据量也会减小。
第二种,在建立任意两个情感词语和关系相关度的对应关系之后,得到情感词语关联集合之前,判断关系相关度是否在预设关系相关度范围内;如果是,则过滤掉关系相关度对应的对应关系。第二种数据压缩的方法针对RP中的数据量进行压缩。在具体实现时,可以将预设关系相关度范围设定为[-0.2,0.2]。
通过上述两种方法实现了RP的数据量进行压缩,以提高计算的时效性。在具体实现时,可以基于服务器性能要求,与存储性能容量调整预设搜索热度指数和预设关系相关度范围。
基于同一构思,本申请实施例中提供了一种热点事件的舆情分析装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述。如图5所示,该装置主要包括:
提取模块501,用于在一次网络舆情信息抓取的过程中,提取用户针对热点事件的情感词语;
其中,提取模块501,具体用于对网络舆情信息进行聚合和筛选,得到热点事件;从网络舆情信息中,提取用户针对热点事件的评论信息;从评论信息中,解析得到用户针对热点事件的情感词语。
现有技术中,在抓取网络舆情信息时,仅关注新闻资讯、大V博客等媒体上发布的信息。为了使得舆情分析的结果准确度更高,最大范围的了解到用户针对热点事件的看法,本申请实施例扩展了网络舆情信息的抓取范围,将访问量或评论量超过预设值的用户账号中所发表的内容也考虑在内。
划分模块502,用于将情感词语按照语义划分为正向词语组和负向词语组;
计算模块503,用于依据预先建立的情感词语关联集合中,任意两个情感词语之间的关系相关度,计算正向词语组的第一得分,以及计算负向词语组的第二得分,情感词语关联集合包括热点事件的情感词语;
其中,计算模块503,具体用于统计正向词语组中,各个情感词语各自的第一频次;将各个第一频次中的最大值所对应的情感词语,作为正向最高频情感词语;获取正向最高频情感词语分别与正向词语组中,各个情感词语之间的关系相关度,并将各个关系相关度之和作为第一得分;以及用于统计负向词语组中,各个情感词语各自的第二频次;将各个第二频次中的最大值所对应的情感词语,作为负向最高频情感词语;获取负向最高频情感词语分别与负向词语组中,各个情感词语之间的关系相关度,并将各个关系相关度之和作为第二得分。
比较模块504,用于比较第一得分和第二得分,得到比较结果;
确定模块505,用于根据预设时间段内各次网络舆情信息抓取过程中,通过获得的比较结果来确定舆情是否发生反转。
其中,确定模块505,具体用于在各次网络舆情信息抓取过程中,由第一得分大于或等于第二得分变为第一得分小于第二得分,或者,由第一得分小于或等于第二得分变为第一得分大于第二得分,则判定热点事件的舆情发生反转。
在本申请实施例提供的技术方案中,在网络舆情信息抓取的过程中,提取用户针对热点事件的情感词语,将情感词语按照语义划分为正向词语组和负向词语组;依据预先建立的情感词语关联集合中,任意两个情感词语之间的关系相关度,计算正向词语组的第一得分,以及计算负向词语组的第二得分,情感词语关联集合包括热点事件的情感词语;比较第一得分和第二得分,得到比较结果;根据预设时间段内各次网络舆情信息抓取过程中,通过获得的比较结果来确定舆情是否发生反转。
在本申请实施例中,将用户针对热点事件的情感词语分为正向词语组和负向词语组两组,对用户针对热点事件的正向词语组的第一得分,以及用户针对热点事件的负向词语组的第二得分进行比较,根据比较结果来确定舆情是否发生反转,以能够及时发现热点事件的舆情发生逆转,从而发出预警,及时应对。
在本申请实施例提供的热点事件的舆情分析装置中,还包括:预警模块506,用于在判定热点事件的舆情发生反转之后,在第一得分与第二得分的差值的绝对值大于预设阈值时,发出预警。
在本申请实施例中,当判定舆情发生反转后,计算第一得分和第二得分的差值,若差值的绝对值大于预设阈值,则发出预警,请求人工介入干涉,以尽快应对舆情的反转。
在本申请实施例提供的热点事件的舆情分析装置中,还包括:获取模块500,用于在依据预先建立的情感词语关联集合中,任意两个情感词语之间的关系相关度,计算正向词语组的第一得分之前,获取情感词语关联集合;其中,情感词语关联集合中包括:任意两个情感词语之间的关系相关度。
其中,获取模块500,用于抓取网络舆情信息;从网络舆情信息中,提取各个情感词语,得到情感词语集合;获取情感词语集合中任意两个情感词语之间的关系相关度;以及建立任意两个情感词语和关系相关度的对应关系,得到情感词语关联集合。
在本申请实施例提供的热点事件的舆情分析装置中,还包括:过滤模块507,用于在提取各个情感词语之后,得到情感词语集合之前,获取每个情感词语所对应的搜索热度指数;过滤掉搜索热度指数小于预设搜索热度指数的情感词语。过滤模块507,还用于在建立任意两个情感词语和关系相关度的对应关系之后,得到情感词语关联集合之前,判断关系相关度是否在预设关系相关度范围内;如果是,则过滤掉关系相关度对应的对应关系。
通过上述两种方法对情感词语关联集合中的数据量进行压缩,以提高计算的时效性。在具体实现时,可以基于服务器性能要求,与存储性能容量调整预设搜索热度指数和预设关系相关度范围。
基于同一构思,本申请实施例中还提供了一种电子设备,如图6所示,该电子设备主要包括:处理器601、存储器602和通信总线603,其中,处理器601和存储器602通过通信总线603完成相互间的通信。其中,存储器602中存储有可被处理器601执行的程序,处理器601执行存储器602中存储的程序,实现如下步骤:
在一次网络舆情信息抓取的过程中,提取用户针对热点事件的情感词语;
将情感词语按照语义划分为正向词语组和负向词语组;
依据预先建立的情感词语关联集合中,任意两个情感词语之间的关系相关度,计算正向词语组的第一得分,以及计算负向词语组的第二得分,所述情感词语关联集合包括所述热点事件的情感词语;
比较第一得分和第二得分,得到比较结果;
根据预设时间段内各次网络舆情信息抓取过程中,通过获得的比较结果来确定舆情发生反转。
上述电子设备中提到的通信总线603可以是外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线603可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器602可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器601的存储装置。
上述的处理器601可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等,还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述实施例中所描述的热点事件的舆情分析方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD)或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种热点事件的舆情分析方法,其特征在于,包括:
在一次网络舆情信息抓取的过程中,提取用户针对所述热点事件的情感词语;
将所述情感词语按照语义划分为正向词语组和负向词语组;
依据预先建立的情感词语关联集合中,任意两个情感词语之间的关系相关度,计算所述正向词语组的第一得分,以及计算所述负向词语组的第二得分,所述情感词语关联集合包括所述热点事件的情感词语;
所述计算所述正向词语组的第一得分,包括:统计所述正向词语组中,各个情感词语各自的第一频次;将各个所述第一频次中的最大值所对应的情感词语,作为正向最高频情感词语;获取所述正向最高频情感词语分别与所述正向词语组中,各个情感词语之间的关系相关度,并将各个所述关系相关度之和作为所述第一得分;
所述计算所述负向词语组的第二得分,包括:统计所述负向词语组中,各个情感词语各自的第二频次;将各个所述第二频次中的最大值所对应的情感词语,作为负向最高频情感词语;获取所述负向最高频情感词语分别与所述负向词语组中,各个情感词语之间的关系相关度,并将各个所述关系相关度之和作为所述第二得分;
比较所述第一得分和所述第二得分,得到比较结果;
根据预设时间段内各次网络舆情信息抓取过程中,通过获得的比较结果来确定舆情是否发生反转。
2.根据权利要求1所述的热点事件的舆情分析方法,其特征在于,所述根据各次网络舆情信息抓取过程中,比较结果的变化确定舆情发生反转,包括:
在各次网络舆情信息抓取过程中,由所述第一得分大于或等于所述第二得分变为所述第一得分小于所述第二得分,或者,由所述第一得分小于或等于所述第二得分变为所述第一得分大于所述第二得分,则判定所述热点事件的舆情发生反转。
3.根据权利要求2所述的热点事件的舆情分析方法,其特征在于,所述判定所述热点事件的舆情发生反转之后,还包括:
在所述第一得分与所述第二得分的差值的绝对值大于预设阈值时,发出预警。
4.根据权利要求1所述的热点事件的舆情分析方法,其特征在于,所述依据预先建立的情感词语关联集合中,任意两个情感词语之间的关系相关度,计算所述正向词语组的第一得分之前,还包括:
获取所述情感词语关联集合;其中,所述情感词语关联集合中包括:任意两个所述情感词语之间的关系相关度。
5.根据权利要求4所述的热点事件的舆情分析方法,其特征在于,所述获取情感词语关联集合,包括:
建立针对所述网络舆情信息的情感词语集合;
获取所述情感词语集合中任意两个情感词语之间的关系相关度;
建立所述任意两个情感词语和所述关系相关度的对应关系,得到所述情感词语关联集合。
6.根据权利要求5所述的热点事件的舆情分析方法,其特征在于,所述建立针对所述网络舆情信息的情感词语集合,包括:
抓取所述网络舆情信息;
从所述网络舆情信息中,提取各个情感词语,得到所述情感词语集合。
7.一种热点事件的舆情分析装置,其特征在于,包括:
提取模块,用于在一次网络舆情信息抓取的过程中,提取用户针对所述热点事件的情感词语;
划分模块,用于将所述情感词语按照语义划分为正向词语组和负向词语组;
计算模块,用于依据预先建立的情感词语关联集合中,任意两个情感词语之间的关系相关度,计算所述正向词语组的第一得分,以及计算所述负向词语组的第二得分,所述情感词语关联集合包括所述热点事件的情感词语;所述计算所述正向词语组的第一得分,包括:统计所述正向词语组中,各个情感词语各自的第一频次;将各个所述第一频次中的最大值所对应的情感词语,作为正向最高频情感词语;获取所述正向最高频情感词语分别与所述正向词语组中,各个情感词语之间的关系相关度,并将各个所述关系相关度之和作为所述第一得分;所述计算所述负向词语组的第二得分,包括:统计所述负向词语组中,各个情感词语各自的第二频次;将各个所述第二频次中的最大值所对应的情感词语,作为负向最高频情感词语;获取所述负向最高频情感词语分别与所述负向词语组中,各个情感词语之间的关系相关度,并将各个所述关系相关度之和作为所述第二得分;
比较模块,用于比较所述第一得分和所述第二得分,得到比较结果;
确定模块,用于根据预设时间段内各次网络舆情信息抓取过程中,通过获取的比较结果来确定舆情是否发生反转。
8.一种电子设备,包括:处理器、存储器和通信总线,其中,处理器和存储器通过通信总线完成相互间的通信;所述存储器,用于存储计算机程序;所述处理器,用于执行所述存储器中所存储的程序,实现权利要求1~6任一项所述的热点事件的舆情分析方法。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~6任一项所述的热点事件的舆情分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110777527.5A CN113536805B (zh) | 2021-07-09 | 2021-07-09 | 热点事件的舆情分析方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110777527.5A CN113536805B (zh) | 2021-07-09 | 2021-07-09 | 热点事件的舆情分析方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113536805A CN113536805A (zh) | 2021-10-22 |
CN113536805B true CN113536805B (zh) | 2023-07-14 |
Family
ID=78098220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110777527.5A Active CN113536805B (zh) | 2021-07-09 | 2021-07-09 | 热点事件的舆情分析方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536805B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821502B (zh) * | 2023-06-30 | 2024-03-08 | 武汉大学 | 一种基于舆情热点的数据管理方法和系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017120634A (ja) * | 2015-12-28 | 2017-07-06 | 株式会社リコー | 情感語極性の分析方法及び装置 |
KR20180091496A (ko) * | 2017-02-07 | 2018-08-16 | 주식회사 에스엘커뮤니케이션즈 | 감정 분석 기반의 소셜 네트워크를 이용한 여론 형성방법 |
CN108959383A (zh) * | 2018-05-31 | 2018-12-07 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN109271512A (zh) * | 2018-08-29 | 2019-01-25 | 中国平安保险(集团)股份有限公司 | 舆情评论信息的情感分析方法、装置及存储介质 |
CN109684481A (zh) * | 2019-01-04 | 2019-04-26 | 深圳壹账通智能科技有限公司 | 舆情分析方法、装置、计算机设备和存储介质 |
CN110110217A (zh) * | 2018-02-02 | 2019-08-09 | 优视科技有限公司 | 一种对信息的情感倾向性分析及信息推荐方法和装置 |
CN111046172A (zh) * | 2019-10-30 | 2020-04-21 | 北京奇艺世纪科技有限公司 | 一种舆情分析方法、装置、设备和存储介质 |
US10638298B1 (en) * | 2019-08-08 | 2020-04-28 | Unisys Corporation | Public event detection platform |
CN111831824A (zh) * | 2020-07-16 | 2020-10-27 | 民生科技有限责任公司 | 一种舆情正负面分类方法 |
CN111966878A (zh) * | 2020-08-04 | 2020-11-20 | 厦门大学 | 基于机器学习的舆情事件反转检测方法 |
US10977667B1 (en) * | 2014-10-22 | 2021-04-13 | Groupon, Inc. | Method and system for programmatic analysis of consumer sentiment with regard to attribute descriptors |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10565311B2 (en) * | 2017-02-15 | 2020-02-18 | International Business Machines Corporation | Method for updating a knowledge base of a sentiment analysis system |
US10789429B2 (en) * | 2018-11-21 | 2020-09-29 | Intuit, Inc. | Visualizing comment sentiment |
US10963643B2 (en) * | 2018-11-21 | 2021-03-30 | International Business Machines Corporation | Unsupervised sentiment analysis for multiple subjects of interest using dependency parsing and linguistic heuristics |
-
2021
- 2021-07-09 CN CN202110777527.5A patent/CN113536805B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10977667B1 (en) * | 2014-10-22 | 2021-04-13 | Groupon, Inc. | Method and system for programmatic analysis of consumer sentiment with regard to attribute descriptors |
JP2017120634A (ja) * | 2015-12-28 | 2017-07-06 | 株式会社リコー | 情感語極性の分析方法及び装置 |
KR20180091496A (ko) * | 2017-02-07 | 2018-08-16 | 주식회사 에스엘커뮤니케이션즈 | 감정 분석 기반의 소셜 네트워크를 이용한 여론 형성방법 |
CN110110217A (zh) * | 2018-02-02 | 2019-08-09 | 优视科技有限公司 | 一种对信息的情感倾向性分析及信息推荐方法和装置 |
CN108959383A (zh) * | 2018-05-31 | 2018-12-07 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN109271512A (zh) * | 2018-08-29 | 2019-01-25 | 中国平安保险(集团)股份有限公司 | 舆情评论信息的情感分析方法、装置及存储介质 |
CN109684481A (zh) * | 2019-01-04 | 2019-04-26 | 深圳壹账通智能科技有限公司 | 舆情分析方法、装置、计算机设备和存储介质 |
US10638298B1 (en) * | 2019-08-08 | 2020-04-28 | Unisys Corporation | Public event detection platform |
CN111046172A (zh) * | 2019-10-30 | 2020-04-21 | 北京奇艺世纪科技有限公司 | 一种舆情分析方法、装置、设备和存储介质 |
CN111831824A (zh) * | 2020-07-16 | 2020-10-27 | 民生科技有限责任公司 | 一种舆情正负面分类方法 |
CN111966878A (zh) * | 2020-08-04 | 2020-11-20 | 厦门大学 | 基于机器学习的舆情事件反转检测方法 |
Non-Patent Citations (3)
Title |
---|
基于情感倾向性分析的网络舆情情感演化特征研究;蒋知义;马王荣;邹凯;李黎;;现代情报(第04期);全文 * |
基于语义情感分析的网络热点爬虫舆情分析系统;田煜;;软件(第08期);全文 * |
舆情传播高涨期阶段的反转事件产生机理分析;黄微;赵昕;赵江元;;情报理论与实践(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113536805A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033387B (zh) | 一种融合多源数据的物联网搜索系统、方法及存储介质 | |
US9058383B2 (en) | Document processing method and system | |
CN107229731B (zh) | 用于分类数据的方法和装置 | |
US8838512B2 (en) | Random walk on query pattern graph for query task classification | |
US11423096B2 (en) | Method and apparatus for outputting information | |
CN105022801A (zh) | 一种热门视频挖掘方法和装置 | |
CN106980651B (zh) | 一种基于知识图谱的爬取种子列表更新方法及装置 | |
CN113536805B (zh) | 热点事件的舆情分析方法、装置、设备及存储介质 | |
CN117131281B (zh) | 舆情事件处理方法、装置、电子设备和计算机可读介质 | |
CN109729126A (zh) | 文本资源的推送方法、装置、存储介质及处理器 | |
CN105512300B (zh) | 信息过滤方法及系统 | |
CN111538903A (zh) | 搜索推荐词确定方法、装置、电子设备及计算机可读介质 | |
CN109218211B (zh) | 数据流的控制策略中阈值的调整方法、装置和设备 | |
CN111752922A (zh) | 一种建立知识数据库、实现知识查询的方法及装置 | |
CN107784087A (zh) | 一种热词确定方法、装置及设备 | |
CN111382345A (zh) | 话题筛选和发布的方法、装置和服务器 | |
CN105095228A (zh) | 一种社交消息的监测方法及装置 | |
US9336280B2 (en) | Method for entity-driven alerts based on disambiguated features | |
CN105022821B (zh) | 一种内容过滤方法及终端 | |
CN111930949A (zh) | 搜索串处理方法、装置、计算机可读介质及电子设备 | |
CN111026940A (zh) | 一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备 | |
CN111723201A (zh) | 一种用于文本数据聚类的方法和装置 | |
JP5102883B2 (ja) | ユーザ発言抽出装置とその方法と、プログラム | |
CN113570417A (zh) | 社交数字化营销方法、系统、存储介质及电子设备 | |
CN113742525A (zh) | 自监督视频哈希学习方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |