CN110728146A - 舆情发现方法、装置、终端设备以及存储介质 - Google Patents
舆情发现方法、装置、终端设备以及存储介质 Download PDFInfo
- Publication number
- CN110728146A CN110728146A CN201910966956.XA CN201910966956A CN110728146A CN 110728146 A CN110728146 A CN 110728146A CN 201910966956 A CN201910966956 A CN 201910966956A CN 110728146 A CN110728146 A CN 110728146A
- Authority
- CN
- China
- Prior art keywords
- comment
- keyword
- effective
- public opinion
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000011218 segmentation Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 15
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 2
- 235000018185 Betula X alpestris Nutrition 0.000 description 1
- 235000018212 Betula X uliginosa Nutrition 0.000 description 1
- 241000167857 Bourreria Species 0.000 description 1
- 241000122205 Chamaeleonidae Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种舆情发现方法、装置、终端设备以及存储介质,该方法包括:获取第一关键词集合和第二关键词集合;获取第一采集周期内针对目标评论对象的第一用户评论集合,第一用户评论集合中包括至少一条用户评论;若第一用户评论集合中的任一用户评论包括第一关键词集合中的任意有效关键词,且不包括第二关键词集合中的任意无效关键词,则确定任一用户评论为有效评论;获取第一用户评论集合中的有效评论对应的第一评论数量,根据第一评论数量生成针对目标评论对象的舆情告警信息。采用本申请实施例,可提高舆情发现的准确率以及发现效率,可操作性强,适用性高。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种舆情发现方法、装置、终端设备以及存储介质。
背景技术
随着互联网技术的发展以及终端的快速升级换代,终端上可以安装的应用程序也越来越多,各种各样的应用程序使人们的工作、生活以及娱乐方式相较传统方式而言变得更加丰富多彩。通常而言,用户的反馈信息对于开发团队而言具有很重要的参考意义,然而,互联网数据量爆炸式增长的今天,互联网在带来海量数据的同时,也极大增加了从这些数据中提取有效信息的难度。现有技术是在一些用户集中出现的地方,比如官方论坛、贴吧等地方,人工阅读用户发表的内容,总结、分析并做成报告提供给相关人员阅读。但是,人工阅读需要耗费大量的人工和时间,而且持续监控需要不断的阅读、分析,并生成报告,效率低下。因此对于开发商而言,如何有效监控外网舆情,准确捕捉用户对自身产品的使用反馈,成为当前亟待解决的问题。
发明内容
本申请实施例提供一种舆情发现方法、装置、终端设备以及存储介质,可提高舆情发现的准确率以及发现效率,可操作性强,适用性高。
第一方面,本申请实施例提供了一种舆情发现方法,该方法包括:
获取第一关键词集合和第二关键词集合,上述第一关键词集合中包括多个有效关键词,上述第二关键词集合中包括多个无效关键词;
获取第一采集周期内针对目标评论对象的第一用户评论集合,上述第一用户评论集合中包括至少一条用户评论;
若上述第一用户评论集合中的任一用户评论包括上述第一关键词集合中的任意有效关键词,且不包括上述第二关键词集合中的任意无效关键词,则确定上述任一用户评论为有效评论;
获取上述第一用户评论集合中的上述有效评论对应的第一评论数量,根据上述第一评论数量生成针对上述目标评论对象的舆情告警信息。
结合第一方面,在一种可能的实施方式中,上述根据上述第一评论数量生成针对上述目标评论对象的舆情告警信息,包括:
若上述第一评论数量大于预设评论数量阈值,则生成针对上述目标评论对象的舆情告警信息。
结合第一方面,在一种可能的实施方式中,上述根据上述第一评论数量生成针对上述目标评论对象的舆情告警信息,包括:
获取第二采集周期内针对上述目标评论对象的第二用户评论集合,获取上述第二用户评论集合中包括的上述有效评论的第二评论数量,上述第二采集周期和上述第一采集周期是相邻的两个采集周期且上述第二采集周期位于上述第一采集周期之前;
基于上述第一评论数量和上述第二评论数量确定有效评论增长幅度,若上述有效评论增长幅度大于预设增长幅度阈值,则生成针对上述目标评论对象的舆情告警信息。
结合第一方面,在一种可能的实施方式中,上述根据上述第一评论数量生成针对上述目标评论对象的舆情告警信息,包括:
对从上述第一用户评论集合中确定出的所有上述有效评论进行聚类以得到多个舆情类别;
在上述第一用户评论集合中所包括的上述有效评论对应的第一评论数量中确定各舆情类别对应的各第三评论数量,并基于上述各第三评论数量生成上述各舆情类别对应的舆情告警信息。
结合第一方面,在一种可能的实施方式中,上述获取第一关键词集合和第二关键词集合,包括:
获取第一评论集合和第二评论集合,上述第一评论集合中包括至少一条预先标记得到的第一有效评论,上述第二评论集合中包括至少一条预先标记得到的第二无效评论;
对上述第一评论集合中各第一有效评论进行分词处理以得到组成各第一有效评论的多个分词,从上述组成各第一有效评论的多个分词中提取包括预设关键字的多个分词作为有效关键词,从而得到上述第一关键词集合;
对上述第二评论集合中各第二无效评论进行分词处理以得到组成各第二无效评论的多个分词,从上述组成各第二无效评论的多个分词中提取包括上述预设关键字的多个分词作为无效关键词,从而得到上述第二关键词集合。
结合第一方面,在一种可能的实施方式中,上述从上述组成各第一有效评论的多个分词中提取包括预设关键字的多个分词作为有效关键词,包括:
从上述组成各第一有效评论的多个分词中提取包括预设关键字的多个分词,并获取包括上述预设关键字的多个分词中各分词在上述第一评论集合中的第一出现频率;
将上述第一出现频率中大于第一预设频率阈值的分词确定为有效关键词。
结合第一方面,在一种可能的实施方式中,上述获取第一关键词集合和第二关键词集合,包括:
获取第一评论集合和第二评论集合,上述第一评论集合中包括至少一条预先标记得到的第一有效评论,上述第二评论集合中包括至少一条预先标记得到的第二无效评论;
对上述第一评论集合中各第一有效评论进行分词处理以得到组成各第一有效评论的多个有效分词,并获取各有效分词在上述第一评论集合中的第二出现频率,将上述第二出现频率大于第二预设频率阈值的有效分词确定为有效关键词,从而得到上述第一关键词集合;
对上述第二评论集合中各第二无效评论进行分词处理以得到组成各第二无效评论的多个无效分词,并获取各无效分词在上述第二评论集合中的第三出现频率,将上述第三出现频率大于第三预设频率阈值的无效分词确定为无效关键词,从而得到上述第二关键词集合。
结合第一方面,在一种可能的实施方式中,上述得到上述第二关键词集合之后,上述方法还包括:
若上述第一关键词集合和上述第二关键词集合中包含相同的目标关键词,获取上述目标关键词分别在上述第一评论集合和上述第二评论集合中的第四出现频率和第五出现频率;
当上述第四出现频率与上述第五出现频率间的差值绝对值大于第四预设频率阈值时,删除较小频率对应的关键词集合中的上述目标关键词;
当上述第四出现频率与上述第五出现频率间的差值绝对值小于上述第四预设频率阈值时,删除上述第一关键词集合和上述第二关键词集合中的上述目标关键词。
第二方面,本申请实施例提供了一种舆情发现装置,该装置包括:
关键词集合获取模块,用于获取第一关键词集合和第二关键词集合,上述第一关键词集合中包括多个有效关键词,上述第二关键词集合中包括多个无效关键词;
用户评论集合获取模块,用于获取第一采集周期内针对目标评论对象的第一用户评论集合,上述第一用户评论集合中包括至少一条用户评论;
有效评论确定模块,用于若上述第一用户评论集合中的任一用户评论包括上述第一关键词集合中的任意有效关键词,且不包括上述第二关键词集合中的任意无效关键词,则确定上述任一用户评论为有效评论;
舆情告警生成模块,用于获取上述第一用户评论集合中的上述有效评论对应的第一评论数量,根据上述第一评论数量生成针对上述目标评论对象的舆情告警信息。
结合第二方面,在一种可能的实施方式中,上述舆情告警生成模块包括第一舆情告警生成单元,上述第一舆情告警生成单元用于:
若上述第一评论数量大于预设评论数量阈值,则生成针对上述目标评论对象的舆情告警信息。
结合第二方面,在一种可能的实施方式中,上述舆情告警生成模块包括:
第二评论数量获取单元,用于获取第二采集周期内针对上述目标评论对象的第二用户评论集合,获取上述第二用户评论集合中包括的上述有效评论的第二评论数量,上述第二采集周期和上述第一采集周期是相邻的两个采集周期且上述第二采集周期位于上述第一采集周期之前;
第二舆情告警生成单元,用于基于上述第一评论数量和上述第二评论数量确定有效评论增长幅度,若上述有效评论增长幅度大于预设增长幅度阈值,则生成针对上述目标评论对象的舆情告警信息。
结合第二方面,在一种可能的实施方式中,上述舆情告警生成模块包括:
舆情类别确定单元,用于对从上述第一用户评论集合中确定出的所有上述有效评论进行聚类以得到多个舆情类别;
第三舆情告警生成单元,用于在上述第一用户评论集合中所包括的上述有效评论对应的第一评论数量中确定各舆情类别对应的各第三评论数量,并基于上述各第三评论数量生成上述各舆情类别对应的舆情告警信息。
结合第二方面,在一种可能的实施方式中,上述关键词集合获取模块包括:
第一预标记评论集合获取单元,用于获取第一评论集合和第二评论集合,上述第一评论集合中包括至少一条预先标记得到的第一有效评论,上述第二评论集合中包括至少一条预先标记得到的第二无效评论;
第一关键词集合确定单元,用于对上述第一评论集合中各第一有效评论进行分词处理以得到组成各第一有效评论的多个分词,从上述组成各第一有效评论的多个分词中提取包括预设关键字的多个分词作为有效关键词,从而得到上述第一关键词集合;
第二关键词集合确定单元,用于对上述第二评论集合中各第二无效评论进行分词处理以得到组成各第二无效评论的多个分词,从上述组成各第二无效评论的多个分词中提取包括上述预设关键字的多个分词作为无效关键词,从而得到上述第二关键词集合。
结合第二方面,在一种可能的实施方式中,上述第一关键词集合确定单元具体用于:
从上述组成各第一有效评论的多个分词中提取包括预设关键字的多个分词,并获取包括上述预设关键字的多个分词中各分词在上述第一评论集合中的第一出现频率;
将上述第一出现频率中大于第一预设频率阈值的分词确定为有效关键词。
结合第二方面,在一种可能的实施方式中,上述关键词集合获取模块还包括:
第二预标记评论集合获取单元,用于获取第一评论集合和第二评论集合,上述第一评论集合中包括至少一条预先标记得到的第一有效评论,上述第二评论集合中包括至少一条预先标记得到的第二无效评论;
第三关键词集合确定单元,用于对上述第一评论集合中各第一有效评论进行分词处理以得到组成各第一有效评论的多个有效分词,并获取各有效分词在上述第一评论集合中的第二出现频率,将上述第二出现频率大于第二预设频率阈值的有效分词确定为有效关键词,从而得到上述第一关键词集合;
第四关键词集合确定单元,用于对上述第二评论集合中各第二无效评论进行分词处理以得到组成各第二无效评论的多个无效分词,并获取各无效分词在上述第二评论集合中的第三出现频率,将上述第三出现频率大于第三预设频率阈值的无效分词确定为无效关键词,从而得到上述第二关键词集合。
结合第二方面,在一种可能的实施方式中,上述装置还包括关键词集合调整模块,上述关键词集合调整模块包括:
目标关键词确定单元,用于若上述第一关键词集合和上述第二关键词集合中包含相同的目标关键词,获取上述目标关键词分别在上述第一评论集合和上述第二评论集合中的第四出现频率和第五出现频率;
关键词集合处理单元,用于当上述第四出现频率与上述第五出现频率间的差值绝对值大于第四预设频率阈值时,删除较小频率对应的关键词集合中的上述目标关键词;当上述第四出现频率与上述第五出现频率间的差值绝对值小于上述第四预设频率阈值时,删除上述第一关键词集合和上述第二关键词集合中的上述目标关键词。
第三方面,本申请实施例提供了一种终端设备,该终端设备包括处理器和存储器,该处理器和存储器相互连接。该存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序,该计算机程序包括程序指令,该处理器被配置用于调用上述程序指令,执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
在本申请实施例中,通过获取第一关键词集合和第二关键词集合,可得到第一关键词集合中包括多个有效关键词和第二关键词集合中包括多个无效关键词。通过获取第一采集周期内针对目标评论对象的第一用户评论集合,若第一用户评论集合中的任一用户评论包括第一关键词集合中的任意有效关键词,且不包括第二关键词集合中的任意无效关键词,则确定任一用户评论为有效评论,进而通过获取第一用户评论集合中的有效评论对应的第一评论数量,可根据第一评论数量生成针对目标评论对象的舆情告警信息。本申请实施例所提供的方法,可提高舆情发现的准确率以及发现效率,可操作性强,适用性高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的舆情发现方法的一流程示意图;
图1a是本申请实施例提供的确定有效评论的一流程示意图;
图1b是本申请实施例提供的确定有效评论的另一流程示意图;
图1c是本申请实施例提供的有效评论与第一用户评论集合的关系示意图;
图2是本申请实施例提供的舆情发现方法的另一流程示意图;
图2a是本申请实施例提供的确定出有效评论的应用场景示意图;
图2b是本申请实施例提供的多个舆情类别对应的有效评论与第一用户评论集合的关系示意图;
图2c是本申请实施例提供的生成舆情告警信息的应用场景示意图;
图3是本申请实施例提供的舆情发现装置的结构示意图;
图4是本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的舆情发现方法,可广泛适用于能够对舆情数据进行处理的服务器或终端。其中,终端包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)等,在此不做限制。本申请实施例提供的方法,通过获取第一关键词集合和第二关键词集合,可得到第一关键词集合中包括多个有效关键词和第二关键词集合中包括多个无效关键词。通过获取第一采集周期内针对目标评论对象的第一用户评论集合,若第一用户评论集合中的任一用户评论包括第一关键词集合中的任意有效关键词,且不包括第二关键词集合中的任意无效关键词,则确定任一用户评论为有效评论,进而通过获取第一用户评论集合中的有效评论对应的第一评论数量,可根据第一评论数量生成针对目标评论对象的舆情告警信息。采用本申请实施例,可提高舆情发现的准确率以及发现效率,可操作性强,适用性高。
下面将结合图1至图4分别对本申请实施例提供的方法及相关装置分别进行详细说明。本申请实施例提供的方法中可包括用于获取第一关键词集合、获取第二关键词集合、获取第一用户评论集合、从第一用户评论集合中确定出有效评论,以及基于有效评论对应第一评论数量生成舆情告警信息等数据处理阶段。其中,上述各个数据处理阶段的实现方式可参见如下图1至图2所示的实现方式。
参见图1,图1为本申请实施例提供的舆情发现方法的一流程示意图。本申请实施例提供的方法可以包括如下步骤101至104:
101、获取第一关键词集合和第二关键词集合。
在一些可行的实施方式中,通过获取预先设置的第一关键词集合和第二关键词集合,可得到第一关键词集合中包括的多个有效关键词,第二关键词集合中包括的多个无效关键词。应当理解的是,本申请实施例中的有效关键词和无效关键词可以是具有相反意义的两类词,例如若有效关键词为“卡顿”,则无效关键词可以为“不卡顿”,若有效关键词为“闪退”,则无效关键词可以为“不闪退”等,在此不做限制。
102、获取第一采集周期内针对目标评论对象的第一用户评论集合。
在一些可行的实施方式中,任何一款产品在投放使用过程中,都需要不断进行改进才能更加适应用户需求,例如在游戏的开发和运营过程中,通过各种方式收集游戏用户对游戏的反馈信息是一项非常重要的工作。通过对收集到的这些反馈信息进行分析,不仅可以挖掘玩家的需求,了解游戏用户的喜好,也可以观察游戏用户近期对某个游戏的态度,对游戏玩法的喜好。凭借这些反馈信息,战略制定者可以调整游戏的方向,游戏开发团队可以改进游戏内容。可以说,游戏用户的反馈信息对于一个游戏团队来说是非常重要的参考,因此在一些游戏用户集中出现的地方,比如游戏的官方论坛、贴吧、或者门户的游戏专版等地方对用户评论进行的收集并分析可成为游戏制作团队获取用户反馈信息的渠道。在本申请实施例中,通过获取第一采集周期内针对目标评论对象的第一用户评论集合,可得到第一用户评论集合中包括的至少一条用户评论。其中,第一采集周期可以是当前采集周期或任意采集周期,目标评论对象可以是某款游戏、某个应用程序或者是某项产品等,具体根据实际应用场景确定,在此不做限制。在本申请实施例中,第一用户评论集合中包括了当前采集周期内收集到的多条用户评论。
103、若第一用户评论集合中的任一用户评论包括第一关键词集合中的任意有效关键词,且不包括第二关键词集合中的任意无效关键词,则确定任一用户评论为有效评论。
在一些可行的实施方式中,若第一用户评论集合中的任一用户评论包括第一关键词集合中的任意有效关键词,且不包括第二关键词集合中的任意无效关键词,则确定任一用户评论为有效评论。也就是说,参见图1a,图1a是本申请实施例提供的确定有效评论的一流程示意图。如图1a所示,针对第一用户评论集合中的每条用户评论,基于第一关键词集合中包括的每个有效关键词对每条用户评论进行逐字匹配以执行第一次筛选,若第一用户评论集合中的任一条用户评论中包括至少一个有效关键词,则继续基于第二关键词集合中包括的每个无效关键词对该条用户评论进行逐字匹配以执行第二次筛选,反之若该条用户评论中不包括任意一个有效关键词,则删除该条用户评论,不再执行后续第二次筛选。应当理解的是,针对通过第一次筛选的用户评论,若在第二次筛选中该条用户评论中不包括第二关键词集合中的任意一个无效关键词,则可确定该条用户评论为有效评论,反之若该条用户评论中包括第二关键词集合中的任意一个无效关键词,则删除该条用户评论。
可选的,参见图1b,图1b是本申请实施例提供的确定有效评论的另一流程示意图。如图1b所示,针对第一用户评论集合中的每条用户评论,基于第二关键词集合中包括的每个无效关键词对每条用户评论进行逐字匹配以执行第一次筛选,若第一用户评论集合中的任一条用户评论中不包括任意一个无效关键词,则继续基于第一关键词集合中包括的每个有效关键词对该条用户评论进行逐字匹配以执行第二次筛选,反之若该条用户评论中包括了任意一个无效关键词,则删除该条用户评论,不再执行后续第二次筛选。应当理解的是,针对通过第一次筛选的用户评论,若在第二次筛选中该条用户评论中包括第一关键词集合中的至少一个有效关键词,则可确定该条用户评论为有效评论,反之若该条用户评论中不包括第一关键词集合中的任意一个有效关键词,则删除该条用户评论。
举例来说,假设第一关键词集合中的有效关键词包括“卡顿、卡死、卡爆、卡成狗”,第二关键词集合中的无效关键词包括“不卡了、不卡顿、没卡死”,第一用户评论集合中包括的某条用户评论为“好久没上线了,更新之后居然就不卡顿了”,基于第一关键词集合中包括的每个有效关键词对每条用户评论进行逐字匹配以执行第一次筛选,可确定该条用户评论中包括一个有效关键词“卡顿”,因此继续基于第二关键词集合中包括的每个无效关键词对该条用户评论进行逐字匹配以执行第二次筛选,可确定该条用户评论中包括一个无效关键词“不卡顿”,由于该条用户评论中既包括了第一关键词集合中的有效关键词,同时包括了第二关键词集合中的无效关键词,因此可确定该条用户评论不是有效评论,则可删除该条用户评论。由上述举例可以看出,假设所监控的舆情类别为卡顿舆情,即反馈信息为卡顿的用户评论才是有效评论,经过上述二次过滤后,可提高舆情发现的准确率,避免舆情误报情况的发生。
104、获取第一用户评论集合中的有效评论对应的第一评论数量,根据第一评论数量生成针对目标评论对象的舆情告警信息。
在一些可行的实施方式中,基于上述步骤103对第一用户评论集合中的每条用户评论进行二次筛选后,可得到第一用户评论集合中包括的所有有效评论。参见图1c,图1c是本申请实施例提供的有效评论与第一用户评论集合的关系示意图。如图1c所示,有效评论包含于第一用户评论集合中。通过获取第一用户评论集合中的有效评论对应的第一评论数量,可根据第一评论数量生成针对目标评论对象的舆情告警信息。通常而言,若第一评论数量大于预设评论数量阈值,则生成针对目标评论对象的舆情告警信息。可选的,还可以获取第二采集周期内针对目标评论对象的第二用户评论集合,并获取第二用户评论集合中包括的有效评论的第二评论数量,其中第二采集周期和第一采集周期是相邻的两个采集周期且第二采集周期位于第一采集周期之前,因此基于第一评论数量和第二评论数量可计算出有效评论增长幅度,若有效评论增长幅度大于预设增长幅度阈值,则生成针对目标评论对象的舆情告警信息。或者当且仅当满足第一评论数量大于预设评论数量阈值且有效评论增长幅度大于预设增长幅度阈值时,才生成针对目标评论对象的舆情告警信息。或者当满足第一评论数量大于预设评论数量阈值时,生成针对目标评论对象的第一次舆情告警信息,当满足有效评论增长幅度大于预设增长幅度阈值时,生成针对目标评论对象的第二次舆情告警信息。可以理解的是,当生成舆情告警信息后,可通过短信、邮件、电话、站内信等告警方式将舆情告警信息发送给网络监管者以提醒网络监管者对舆情中反馈的问题进行修复。
在本申请实施例中,通过获取第一关键词集合和第二关键词集合,可得到第一关键词集合中包括多个有效关键词和第二关键词集合中包括多个无效关键词。通过获取第一采集周期内针对目标评论对象的第一用户评论集合,若第一用户评论集合中的任一用户评论包括第一关键词集合中的任意有效关键词,且不包括第二关键词集合中的任意无效关键词,则确定任一用户评论为有效评论,进而通过获取第一用户评论集合中的有效评论对应的第一评论数量,可根据第一评论数量生成针对目标评论对象的舆情告警信息。本申请实施例所提供的方法,可提高舆情发现的准确率以及发现效率,可操作性强,适用性高。
参见图2,图2是本申请实施例提供的舆情发现方法的另一流程示意图。本申请实施例提供的舆情发现方法还可以通过如下步骤201至205提供的实现方式进行说明:
201、获取第一关键词集合和第二关键词集合。
在一些可行的实施方式中,通过获取预先设置的第一关键词集合和第二关键词集合,可得到第一关键词集合中包括的多个有效关键词,第二关键词集合中包括的多个无效关键词。应当理解的是,本申请实施例中的有效关键词和无效关键词可以是具有相反意义的两类词,例如若有效关键词为“卡顿”,则无效关键词可以为“不卡顿”,若有效关键词为“闪退”,则无效关键词可以为“不闪退”等,在此不做限制。
可选的,在一些可行的实施方式中,第一关键词集合可根据第一评论集合生成,第二关键词集合可根据第二评论集合生成。其中第一评论集合中包括至少一条预先标记得到的第一有效评论,第二评论集合中包括至少一条预先标记得到的第二无效评论。这里,第一有效评论为包括有效关键词的用户评论,第二无效评论为包括无效关键词的用户评论。针对第一评论集合中包括的各条第一有效评论,通过对第一评论集合中各第一有效评论进行分词处理,可以得到组成各第一有效评论的多个分词,然后从组成各第一有效评论的多个分词中提取包括预设关键字的多个分词作为有效关键词,从而可得到第一关键词集合。针对第二评论集合中包括的各条第二无效评论,通过对第二评论集合中各第二无效评论进行分词处理,可以得到组成各第二无效评论的多个分词,然后从组成各第二无效评论的多个分词中提取包括上述预设关键字的多个分词作为无效关键词,从而可得到第二关键词集合。例如,以第一评论集合中包括的一条第一有效评论为例,假设该条第一有效评论为“今天玩游戏简直超级卡”,通过对该条第一有效评论进行分词处理,可得到组成该第一有效评论的4个分词分别为“今天”,“玩游戏”,“简直”,“超级卡”。其中所采用的分词工具包括但不限于jieba、StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、IKAnalyzer、paoding和imdict等,在此不做限制。其中预设关键字为“卡”字,因此可将“超级卡”确定为有效关键词。又例如,以第一评论集合中包括的另一条第一有效评论为例,假设该条第一有效评论为“今天打开应用程序界面后总是闪退”,通过对该条第一有效评论进行分词处理,可得到组成该第一有效评论的4个分词分别为“今天”,“打开”,“应用程序”,“界面”,“后”,“总是”,“闪退”。其中预设关键字为“退”字,因此可将“闪退”确定为有效关键词。
可选的,在一些可行的实施方式中,当从组成各第一有效评论的多个分词中提取出包括预设关键字的多个分词后,还可以获取包括预设关键字的多个分词中各分词在第一评论集合中的出现频率,即第一出现频率,然后将第一出现频率中大于第一预设频率阈值的分词确定为有效关键词。当从组成各第二无效评论的多个分词中提取出包括预设关键字的多个分词后,还可以获取包括预设关键字的多个分词中各分词在第二评论集合中的出现频率,即第六出现频率,并将第六出现频率中大于第六预设频率阈值的分词确定为无效关键词。可以理解的是,第一预设频率阈值与第六预设频率阈值的设置可以相同,也可以不同,在此不做限制。也就是说,在第一评论集合和第二评论集合中,针对任意一个包括预设关键字的分词,其对应的出现频率越高,说明该词的重要程度越高,反之出现频率越小,说明其重要程度越低,因此可只保留重要程度较高且包括预设关键字的分词作为有效关键词或无效关键词。应当理解的是,分词的出现频率可定义为其在每条评论中的出现次数,例如假设第一评论集合中共包括10条第一有效评论,其中包括预设关键字的某个分词的出现次数为15次,则该词对应的第一出现频率可确定为1.5。
可选的,在一些可行的实施方式中,通过对第一评论集合中各第一有效评论进行分词处理并得到组成各第一有效评论的多个有效分词后,还可以通过获取各有效分词在第一评论集合中的出现频率,即第二出现频率,将第二出现频率大于第二预设频率阈值的有效分词确定为有效关键词,从而得到第一关键词集合。通过对第二评论集合中各第二无效评论进行分词处理并得到组成各第二无效评论的多个无效分词后,还可以通过获取各无效分词在第二评论集合中的出现频率,即第三出现频率,将第三出现频率大于第三预设频率阈值的无效分词确定为无效关键词,从而得到第二关键词集合。其中,有效分词可以是从组成各第一有效评论的多个分词中确定出的不属于停用词表的分词,无效分词也可以是从组成各第二无效评论的多个分词中确定出的不属于停用词表的分词。其中停用词表中包括多个停用词,应当理解的是,对于一个给定的目的,任何一类的词语都可以被选作停用词,在本申请实施例中,停用词可包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等,在此不做限制。通常使用频率特高的单汉字如常见的“的”、“在”之类的单汉字等,在此不做限制。可以理解的是,第二预设频率阈值与第三预设频率阈值的设置可以相同,也可以不同,在此不做限制。
可选的,在一些可行的实施方式中,若第一关键词集合和第二关键词集合中包含相同的目标关键词,则获取目标关键词分别在第一评论集合和第二评论集合中的第四出现频率和第五出现频率,当第四出现频率与第五出现频率间的差值绝对值大于第四预设频率阈值时,删除较小频率对应的关键词集合中的目标关键词,当第四出现频率与第五出现频率间的差值绝对值小于第四预设频率阈值时,删除第一关键词集合和第二关键词集合中的目标关键词,其中第四预设频率阈值的大小设置可根据实际应用场景确定,在此不做限制。可选的,在一些可行的实施方式中,还可以是当第四出现频率小于第五出现频率时,删除第一评论集合中的目标关键词,当第四出现频率大于第五出现频率时,删除第二评论集合中的目标关键词,当第四出现频率等于第五出现频率时,删除第一关键词集合和第二关键词集合中的目标关键词。也就是说,在本申请实施例中,同一分词不可能既属于第一关键词集合又属于第二关键词集合。
202、获取第一采集周期内针对目标评论对象的第一用户评论集合。
在一些可行的实施方式中,任何一款产品在投放使用过程中,都需要不断进行改进才能更加适应用户需求,例如在游戏的开发和运营过程中,通过各种方式收集游戏用户对游戏的反馈信息是一项非常重要的工作。通过对收集到的这些反馈信息进行分析,不仅可以挖掘玩家的需求,了解游戏用户的喜好,也可以观察游戏用户近期对某个游戏的态度,对游戏玩法的喜好。凭借这些反馈信息,战略制定者可以调整游戏的方向,游戏开发团队可以改进游戏内容。可以说,游戏用户的反馈信息对于一个游戏团队来说是非常重要的参考,因此在一些游戏用户集中出现的地方,比如游戏的官方论坛、贴吧、或者门户的游戏专版等地方对用户评论进行的收集并分析可成为游戏制作团队获取用户反馈信息的渠道。在本申请实施例中,通过获取第一采集周期内针对目标评论对象的第一用户评论集合,可得到第一用户评论集合中包括的至少一条用户评论。其中,第一采集周期可以是当前采集周期或任意采集周期,目标评论对象可以是某款游戏、某个应用程序或者是某项产品等,具体根据实际应用场景确定,在此不做限制。在本申请实施例中,第一用户评论集合中包括了当前采集周期内收集到的多条用户评论。
203、若第一用户评论集合中的任一用户评论包括第一关键词集合中的任意有效关键词,且不包括第二关键词集合中的任意无效关键词,则确定任一用户评论有效评论。
在一些可行的实施方式中,若第一用户评论集合中的任一用户评论包括第一关键词集合中的任意有效关键词,且不包括第二关键词集合中的任意无效关键词,则确定任一用户评论为有效评论。也就是说,参见图1a,图1a是本申请实施例提供的确定有效评论的一流程示意图。如图1a所示,针对第一用户评论集合中的每条用户评论,基于第一关键词集合中包括的每个有效关键词对每条用户评论进行逐字匹配以执行第一次筛选,若第一用户评论集合中的任一条用户评论中包括至少一个有效关键词,则继续基于第二关键词集合中包括的每个无效关键词对该条用户评论进行逐字匹配以执行第二次筛选,反之若该条用户评论中不包括任意一个有效关键词,则删除该条用户评论,不再执行后续第二次筛选。应当理解的是,针对通过第一次筛选的用户评论,若在第二次筛选中该条用户评论中不包括第二关键词集合中的任意一个无效关键词,则可确定该条用户评论为有效评论,反之若该条用户评论中包括第二关键词集合中的任意一个无效关键词,则删除该条用户评论。
可选的,参见图1b,图1b是本申请实施例提供的确定有效评论的另一流程示意图。如图1b所示,针对第一用户评论集合中的每条用户评论,基于第二关键词集合中包括的每个无效关键词对每条用户评论进行逐字匹配以执行第一次筛选,若第一用户评论集合中的任一条用户评论中不包括任意一个无效关键词,则继续基于第一关键词集合中包括的每个有效关键词对该条用户评论进行逐字匹配以执行第二次筛选,反之若该条用户评论中包括了任意一个无效关键词,则删除该条用户评论,不再执行后续第二次筛选。应当理解的是,针对通过第一次筛选的用户评论,若在第二次筛选中该条用户评论中包括第一关键词集合中的至少一个有效关键词,则可确定该条用户评论为有效评论,反之若该条用户评论中不包括第一关键词集合中的任意一个有效关键词,则删除该条用户评论。
应当理解的是,假设第一关键词集合中包括多种舆情类别对应的有效关键词,第二关键词集合中包括多种舆情类别对应的无效关键词,则基于第一关键词集合和第二关键词集合,可从第一用户评论集合中筛选出多种舆情类别对应的有效评论。例如,若第一关键词集合中的有效关键词包括“卡顿、卡死、卡爆、卡成狗;闪退,强退,退出”,第二关键词集合中的无效关键词包括“不卡了、不卡顿、没卡死;不闪退,未被强退”,则从第一用户评论集合中所筛选出的有效评论为卡顿舆情和闪退舆情对应的用户评论。
举例来说,参见图2a,图2a是本申请实施例提供的确定出有效评论的应用场景示意图。假设第一关键词集合中的有效关键词包括“卡、网卡、会卡、更卡、都卡、很卡、卡退、卡顿、卡死、卡爆、卡成狗”,第二关键词集合中的无效关键词包括“不卡、不卡了、不卡顿、没卡死”,则从第一用户评论集合中所筛选出的有效评论为卡顿舆情对应的用户评论。如图2a所示,通过选择游戏“王者荣耀”以及选择时间(即采集周期),可得到有关王者荣耀的卡顿舆情监控,图2a中展示了王者荣耀卡顿舆情数量趋势图,以及在采集周期2019-06-15内得到的10条有效评论的具体内容。
204、对从第一用户评论集合中确定出的所有有效评论进行聚类以得到多个舆情类别。
在一些可行的实施方式中,每个人对待任何事物都有自己的看法,因此即使是针对同一目标评论对象,不同用户所生成的反馈信息也可能大有不同。在本申请实施例中,基于上述步骤201至步骤203确定出包括在第一用户集合中的所有有效评论后,通过对确定出的所有有效评论进行聚类,可得到多个聚类结果,即多个舆情类别。其中所采用的聚类方法包括但不限于K-Means算法、K-MEDOIDS算法、CLARANS算法、BIRCH算法、CURE算法、CHAMELEON算法等,在此不做限制。通常而言,在文本聚类中,同类文档的相似度较大,而不同类文档的相似度较小。参见图2b,图2b是本申请实施例提供的多个舆情类别对应的有效评论与第一用户评论集合的关系示意图。如图2b所示,有效评论包含于第一用户评论集合中,通过对有效评论进行文本聚类,可得到有效评论对应的多个舆情类别,如图2b所示聚类后得到的舆情类别包括舆情类别1,舆情类别2,舆情类别3,…,舆情类别n,其中n为正整数。可以理解的是,各舆情类别对应的评论数量之和等于有效评论的总数量。
205、在第一用户评论集合中所包括的有效评论对应的第一评论数量中确定各舆情类别对应的各第三评论数量,并基于各第三评论数量生成各舆情类别对应的舆情告警信息。
在一些可行的实施方式中,将有效评论划分为多个舆情类别后,可从第一用户评论集合中所包括的有效评论对应的第一评论数量中确定出各个舆情类别分别对应的各第三评论数量,然后基于各第三评论数量可生成各舆情类别对应的舆情告警信息,其中各第三评论数量之和等于第一评论数量,即各舆情类别对应的评论数量之和等于第一用户评论集合中有效评论的总数量。一般来说,若某个舆情类别对应的第三评论数量大于预设评论数量阈值,则可生成针对该舆情类别对应的舆情告警信息。或者可基于各第三评论数量和第一评论数量计算出各舆情类别分别对应的评论数量占比,当某个舆情类别对应的评论数量占比大于预设评论占比阈值时,可生成针对该舆情类别对应的舆情告警信息。
可选的,在一些可行的实施方式中,还可以获取第二采集周期内针对目标评论对象的第二用户评论集合,并获取第二用户评论集合中包括的有效评论的第二评论数量,进而从第二用户评论集合中所包括的有效评论对应的第二评论数量中可确定出多个舆情类别分别对应的第四评论数量,其中各第四评论数量之和等于第二评论数量,第二采集周期和第一采集周期是相邻的两个采集周期且第二采集周期位于第一采集周期之前。应当理解的是,针对同一舆情类别,通过获取其在相邻两个采集周期内分别对应的第三评论数量和第四评论数量,可计算出该舆情类别对应的有效评论增长幅度,若该有效评论增长幅度大于预设增长幅度阈值,则可生成针对该舆情类别对应的舆情告警信息。或者当且仅当某个舆情类别对应的第三评论数量大于预设评论数量阈值且该舆情类别对应的有效评论增长幅度大于预设增长幅度阈值时,才生成针对该舆情类别的舆情告警信息。可以理解的是,当生成舆情告警信息后,可通过短信、邮件、电话、站内信等告警方式将舆情告警信息发送给网络监管者以提醒网络监管者对舆情中反馈的问题进行修复。举例来说,参见图2c,图2c是本申请实施例提供的生成舆情告警信息的应用场景示意图。如图2c所示,舆情告警信息为“2019-06-2514:45:07检测到xxxx(23→31)yyyy(3→21)共2个项目外网卡顿评论飙升,请关注。”
在本申请实施例中,通过获取第一关键词集合和第二关键词集合,可得到第一关键词集合中包括多个有效关键词和第二关键词集合中包括多个无效关键词。通过获取第一采集周期内针对目标评论对象的第一用户评论集合,若第一用户评论集合中的任一用户评论包括第一关键词集合中的任意有效关键词,且不包括第二关键词集合中的任意无效关键词,则确定任一用户评论为有效评论。然后通过对从第一用户评论集合中确定出的所有有效评论进行聚类可得到多个舆情类别,在第一用户评论集合中所包括的有效评论对应的第一评论数量中确定各舆情类别对应的各第三评论数量,可基于各第三评论数量生成各舆情类别对应的舆情告警信息。本申请实施例所提供的方法,可提高舆情发现的准确率以及发现效率,可操作性强,适用性高。
参见图3,图3是本申请实施例提供的舆情发现装置的结构示意图。本申请实施例提供的舆情发现装置包括:
关键词集合获取模块31,用于获取第一关键词集合和第二关键词集合,上述第一关键词集合中包括多个有效关键词,上述第二关键词集合中包括多个无效关键词;
用户评论集合获取模块32,用于获取第一采集周期内针对目标评论对象的第一用户评论集合,上述第一用户评论集合中包括至少一条用户评论;
有效评论确定模块33,用于若上述第一用户评论集合中的任一用户评论包括上述第一关键词集合中的任意有效关键词,且不包括上述第二关键词集合中的任意无效关键词,则确定上述任一用户评论为有效评论;
舆情告警生成模块34,用于获取上述第一用户评论集合中的上述有效评论对应的第一评论数量,根据上述第一评论数量生成针对上述目标评论对象的舆情告警信息。
在一些可行的实施方式中,上述舆情告警生成模块34包括第一舆情告警生成单元341,上述第一舆情告警生成单元341用于:
若上述第一评论数量大于预设评论数量阈值,则生成针对上述目标评论对象的舆情告警信息。
在一些可行的实施方式中,上述舆情告警生成模块34包括:
第二评论数量获取单元342,用于获取第二采集周期内针对上述目标评论对象的第二用户评论集合,获取上述第二用户评论集合中包括的上述有效评论的第二评论数量,上述第二采集周期和上述第一采集周期是相邻的两个采集周期且上述第二采集周期位于上述第一采集周期之前;
第二舆情告警生成单元343,用于基于上述第一评论数量和上述第二评论数量确定有效评论增长幅度,若上述有效评论增长幅度大于预设增长幅度阈值,则生成针对上述目标评论对象的舆情告警信息。
在一些可行的实施方式中,上述舆情告警生成模块34包括:
舆情类别确定单元344,用于对从上述第一用户评论集合中确定出的所有上述有效评论进行聚类以得到多个舆情类别;
第三舆情告警生成单元345,用于在上述第一用户评论集合中所包括的上述有效评论对应的第一评论数量中确定各舆情类别对应的各第三评论数量,并基于上述各第三评论数量生成上述各舆情类别对应的舆情告警信息。
在一些可行的实施方式中,上述关键词集合获取模块31包括:
第一预标记评论集合获取单元311,用于获取第一评论集合和第二评论集合,上述第一评论集合中包括至少一条预先标记得到的第一有效评论,上述第二评论集合中包括至少一条预先标记得到的第二无效评论;
第一关键词集合确定单元312,用于对上述第一评论集合中各第一有效评论进行分词处理以得到组成各第一有效评论的多个分词,从上述组成各第一有效评论的多个分词中提取包括预设关键字的多个分词作为有效关键词,从而得到上述第一关键词集合;
第二关键词集合确定单元313,用于对上述第二评论集合中各第二无效评论进行分词处理以得到组成各第二无效评论的多个分词,从上述组成各第二无效评论的多个分词中提取包括上述预设关键字的多个分词作为无效关键词,从而得到上述第二关键词集合。
在一些可行的实施方式中,上述第一关键词集合确定单元312具体用于:
从上述组成各第一有效评论的多个分词中提取包括预设关键字的多个分词,并获取包括上述预设关键字的多个分词中各分词在上述第一评论集合中的第一出现频率;
将上述第一出现频率中大于第一预设频率阈值的分词确定为有效关键词。
在一些可行的实施方式中,上述关键词集合获取模块31还包括:
第二预标记评论集合获取单元314,用于获取第一评论集合和第二评论集合,上述第一评论集合中包括至少一条预先标记得到的第一有效评论,上述第二评论集合中包括至少一条预先标记得到的第二无效评论;
第三关键词集合确定单元315,用于对上述第一评论集合中各第一有效评论进行分词处理以得到组成各第一有效评论的多个有效分词,并获取各有效分词在上述第一评论集合中的第二出现频率,将上述第二出现频率大于第二预设频率阈值的有效分词确定为有效关键词,从而得到上述第一关键词集合;
第四关键词集合确定单元316,用于对上述第二评论集合中各第二无效评论进行分词处理以得到组成各第二无效评论的多个无效分词,并获取各无效分词在上述第二评论集合中的第三出现频率,将上述第三出现频率大于第三预设频率阈值的无效分词确定为无效关键词,从而得到上述第二关键词集合。
在一些可行的实施方式中,上述装置还包括关键词集合调整模块35,上述关键词集合调整模块35包括:
目标关键词确定单元351,用于若上述第一关键词集合和上述第二关键词集合中包含相同的目标关键词,获取上述目标关键词分别在上述第一评论集合和上述第二评论集合中的第四出现频率和第五出现频率;
关键词集合处理单元352,用于当上述第四出现频率与上述第五出现频率间的差值绝对值大于第四预设频率阈值时,删除较小频率对应的关键词集合中的上述目标关键词;当上述第四出现频率与上述第五出现频率间的差值绝对值小于上述第四预设频率阈值时,删除上述第一关键词集合和上述第二关键词集合中的上述目标关键词。
具体实现中,上述舆情发现装置可通过其内置的各个功能模块执行如上述图1至图2中各个步骤所提供的实现方式。例如,上述关键词集合获取模块31可用于执行上述各个步骤中获取第一关键词集合,以及获取第二关键词集合等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述用户评论集合获取模块32可用于执行上述各个步骤中获取第一用户评论集合等相关步骤所描述的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述有效评论确定模块33可用于执行上述各个步骤中基于第一关键词集合和第二关键词集合,从第一用户评论集合中确定出有效评论等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述舆情告警生成模块34可用于执行上述各个步骤中获取有效评论对应的第一评论数量、根据第一评论数量生成舆情告警信息等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述关键词集合调整模块35可用于执行上述各个步骤中调整第一关键词集合以及第二关键词集合等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本申请实施例中,舆情发现装置通过获取第一关键词集合和第二关键词集合,可得到第一关键词集合中包括多个有效关键词和第二关键词集合中包括多个无效关键词。通过获取第一采集周期内针对目标评论对象的第一用户评论集合,若第一用户评论集合中的任一用户评论包括第一关键词集合中的任意有效关键词,且不包括第二关键词集合中的任意无效关键词,则确定任一用户评论为有效评论,进而通过获取第一用户评论集合中的有效评论对应的第一评论数量,可根据第一评论数量生成针对目标评论对象的舆情告警信息。或者通过对从第一用户评论集合中确定出的所有有效评论进行聚类可得到多个舆情类别,在第一用户评论集合中所包括的有效评论对应的第一评论数量中确定各舆情类别对应的各第三评论数量,可基于各第三评论数量生成各舆情类别对应的舆情告警信息。本申请实施例所提供的方法,可提高舆情发现的准确率以及发现效率,可操作性强,灵活性高,适用范围广。
参见图4,图4是本申请实施例提供的终端设备的结构示意图。如图4所示,本实施例中的终端设备可以包括:一个或多个处理器401和存储器402。上述处理器401和存储器402通过总线403连接。存储器402用于存储计算机程序,该计算机程序包括程序指令,处理器401用于执行存储器402存储的程序指令,执行如下操作:
获取第一关键词集合和第二关键词集合,上述第一关键词集合中包括多个有效关键词,上述第二关键词集合中包括多个无效关键词;
获取第一采集周期内针对目标评论对象的第一用户评论集合,上述第一用户评论集合中包括至少一条用户评论;
若上述第一用户评论集合中的任一用户评论包括上述第一关键词集合中的任意有效关键词,且不包括上述第二关键词集合中的任意无效关键词,则确定上述任一用户评论为有效评论;
获取上述第一用户评论集合中的上述有效评论对应的第一评论数量,根据上述第一评论数量生成针对上述目标评论对象的舆情告警信息。
在一些可行的实施方式中,上述处理器401用于:
若上述第一评论数量大于预设评论数量阈值,则生成针对上述目标评论对象的舆情告警信息。
在一些可行的实施方式中,上述处理器401用于:
获取第二采集周期内针对上述目标评论对象的第二用户评论集合,获取上述第二用户评论集合中包括的上述有效评论的第二评论数量,上述第二采集周期和上述第一采集周期是相邻的两个采集周期且上述第二采集周期位于上述第一采集周期之前;
基于上述第一评论数量和上述第二评论数量确定有效评论增长幅度,若上述有效评论增长幅度大于预设增长幅度阈值,则生成针对上述目标评论对象的舆情告警信息。
在一些可行的实施方式中,上述处理器401用于:
对从上述第一用户评论集合中确定出的所有上述有效评论进行聚类以得到多个舆情类别;
在上述第一用户评论集合中所包括的上述有效评论对应的第一评论数量中确定各舆情类别对应的各第三评论数量,并基于上述各第三评论数量生成上述各舆情类别对应的舆情告警信息。
在一些可行的实施方式中,上述处理器401用于:
获取第一评论集合和第二评论集合,上述第一评论集合中包括至少一条预先标记得到的第一有效评论,上述第二评论集合中包括至少一条预先标记得到的第二无效评论;
对上述第一评论集合中各第一有效评论进行分词处理以得到组成各第一有效评论的多个分词,从上述组成各第一有效评论的多个分词中提取包括预设关键字的多个分词作为有效关键词,从而得到上述第一关键词集合;
对上述第二评论集合中各第二无效评论进行分词处理以得到组成各第二无效评论的多个分词,从上述组成各第二无效评论的多个分词中提取包括上述预设关键字的多个分词作为无效关键词,从而得到上述第二关键词集合。
在一些可行的实施方式中,上述处理器401用于:
从上述组成各第一有效评论的多个分词中提取包括预设关键字的多个分词,并获取包括上述预设关键字的多个分词中各分词在上述第一评论集合中的第一出现频率;
将上述第一出现频率中大于第一预设频率阈值的分词确定为有效关键词。
在一些可行的实施方式中,上述处理器401用于:
获取第一评论集合和第二评论集合,上述第一评论集合中包括至少一条预先标记得到的第一有效评论,上述第二评论集合中包括至少一条预先标记得到的第二无效评论;
对上述第一评论集合中各第一有效评论进行分词处理以得到组成各第一有效评论的多个有效分词,并获取各有效分词在上述第一评论集合中的第二出现频率,将上述第二出现频率大于第二预设频率阈值的有效分词确定为有效关键词,从而得到上述第一关键词集合;
对上述第二评论集合中各第二无效评论进行分词处理以得到组成各第二无效评论的多个无效分词,并获取各无效分词在上述第二评论集合中的第三出现频率,将上述第三出现频率大于第三预设频率阈值的无效分词确定为无效关键词,从而得到上述第二关键词集合。
在一些可行的实施方式中,上述处理器401用于:
若上述第一关键词集合和上述第二关键词集合中包含相同的目标关键词,获取上述目标关键词分别在上述第一评论集合和上述第二评论集合中的第四出现频率和第五出现频率;
当上述第四出现频率与上述第五出现频率间的差值绝对值大于第四预设频率阈值时,删除较小频率对应的关键词集合中的上述目标关键词;
当上述第四出现频率与上述第五出现频率间的差值绝对值小于上述第四预设频率阈值时,删除上述第一关键词集合和上述第二关键词集合中的上述目标关键词。
应当理解,在一些可行的实施方式中,上述处理器401可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器402可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。例如,存储器402还可以存储设备类型的信息。
具体实现中,上述终端设备可通过其内置的各个功能模块执行如上述图1至图2中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本申请实施例中,终端设备通过获取第一关键词集合和第二关键词集合,可得到第一关键词集合中包括多个有效关键词和第二关键词集合中包括多个无效关键词。通过获取第一采集周期内针对目标评论对象的第一用户评论集合,若第一用户评论集合中的任一用户评论包括第一关键词集合中的任意有效关键词,且不包括第二关键词集合中的任意无效关键词,则确定任一用户评论为有效评论,进而通过获取第一用户评论集合中的有效评论对应的第一评论数量,可根据第一评论数量生成针对目标评论对象的舆情告警信息。或者通过对从第一用户评论集合中确定出的所有有效评论进行聚类可得到多个舆情类别,在第一用户评论集合中所包括的有效评论对应的第一评论数量中确定各舆情类别对应的各第三评论数量,可基于各第三评论数量生成各舆情类别对应的舆情告警信息。本申请实施例所提供的方法,可提高舆情发现的准确率以及发现效率,可操作性强,灵活性高,适用范围广。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图1至图2中各个步骤所提供的舆情发现方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的舆情发现装置或者上述终端设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smartmedia card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请的权利要求书和说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
Claims (10)
1.一种舆情发现方法,其特征在于,所述方法包括:
获取第一关键词集合和第二关键词集合,所述第一关键词集合中包括多个有效关键词,所述第二关键词集合中包括多个无效关键词;
获取第一采集周期内针对目标评论对象的第一用户评论集合,所述第一用户评论集合中包括至少一条用户评论;
若所述第一用户评论集合中的任一用户评论包括所述第一关键词集合中的任意有效关键词,且不包括所述第二关键词集合中的任意无效关键词,则确定所述任一用户评论为有效评论;
获取所述第一用户评论集合中的所述有效评论对应的第一评论数量,根据所述第一评论数量生成针对所述目标评论对象的舆情告警信息。
2.根据权利要求1所述方法,其特征在于,所述根据所述第一评论数量生成针对所述目标评论对象的舆情告警信息,包括:
若所述第一评论数量大于预设评论数量阈值,则生成针对所述目标评论对象的舆情告警信息。
3.根据权利要求1所述方法,其特征在于,所述根据所述第一评论数量生成针对所述目标评论对象的舆情告警信息,包括:
获取第二采集周期内针对所述目标评论对象的第二用户评论集合,获取所述第二用户评论集合中包括的所述有效评论的第二评论数量,所述第二采集周期和所述第一采集周期是相邻的两个采集周期且所述第二采集周期位于所述第一采集周期之前;
基于所述第一评论数量和所述第二评论数量确定有效评论增长幅度,若所述有效评论增长幅度大于预设增长幅度阈值,则生成针对所述目标评论对象的舆情告警信息。
4.根据权利要求1所述方法,其特征在于,所述根据所述第一评论数量生成针对所述目标评论对象的舆情告警信息,包括:
对从所述第一用户评论集合中确定出的所有所述有效评论进行聚类以得到多个舆情类别;
在所述第一用户评论集合中所包括的所述有效评论对应的第一评论数量中确定各舆情类别对应的各第三评论数量,并基于所述各第三评论数量生成所述各舆情类别对应的舆情告警信息。
5.根据权利要求1-4任一项所述方法,其特征在于,所述获取第一关键词集合和第二关键词集合,包括:
获取第一评论集合和第二评论集合,所述第一评论集合中包括至少一条预先标记得到的第一有效评论,所述第二评论集合中包括至少一条预先标记得到的第二无效评论;
对所述第一评论集合中各第一有效评论进行分词处理以得到组成各第一有效评论的多个分词,从所述组成各第一有效评论的多个分词中提取包括预设关键字的多个分词作为有效关键词,从而得到所述第一关键词集合;
对所述第二评论集合中各第二无效评论进行分词处理以得到组成各第二无效评论的多个分词,从所述组成各第二无效评论的多个分词中提取包括所述预设关键字的多个分词作为无效关键词,从而得到所述第二关键词集合。
6.根据权利要求5所述方法,其特征在于,所述从所述组成各第一有效评论的多个分词中提取包括预设关键字的多个分词作为有效关键词,包括:
从所述组成各第一有效评论的多个分词中提取包括预设关键字的多个分词,并获取包括所述预设关键字的多个分词中各分词在所述第一评论集合中的第一出现频率;
将所述第一出现频率中大于第一预设频率阈值的分词确定为有效关键词。
7.根据权利要求1-4任一项所述方法,其特征在于,所述获取第一关键词集合和第二关键词集合,包括:
获取第一评论集合和第二评论集合,所述第一评论集合中包括至少一条预先标记得到的第一有效评论,所述第二评论集合中包括至少一条预先标记得到的第二无效评论;
对所述第一评论集合中各第一有效评论进行分词处理以得到组成各第一有效评论的多个有效分词,并获取各有效分词在所述第一评论集合中的第二出现频率,将所述第二出现频率大于第二预设频率阈值的有效分词确定为有效关键词,从而得到所述第一关键词集合;
对所述第二评论集合中各第二无效评论进行分词处理以得到组成各第二无效评论的多个无效分词,并获取各无效分词在所述第二评论集合中的第三出现频率,将所述第三出现频率大于第三预设频率阈值的无效分词确定为无效关键词,从而得到所述第二关键词集合。
8.根据权利要求5或7所述方法,其特征在于,所述得到所述第二关键词集合之后,所述方法还包括:
若所述第一关键词集合和所述第二关键词集合中包含相同的目标关键词,获取所述目标关键词分别在所述第一评论集合和所述第二评论集合中的第四出现频率和第五出现频率;
当所述第四出现频率与所述第五出现频率间的差值绝对值大于第四预设频率阈值时,删除较小频率对应的关键词集合中的所述目标关键词;
当所述第四出现频率与所述第五出现频率间的差值绝对值小于所述第四预设频率阈值时,删除所述第一关键词集合和所述第二关键词集合中的所述目标关键词。
9.一种舆情发现装置,其特征在于,所述装置包括:
关键词集合获取模块,用于获取第一关键词集合和第二关键词集合,所述第一关键词集合中包括多个有效关键词,所述第二关键词集合中包括多个无效关键词;
用户评论集合获取模块,用于获取第一采集周期内针对目标评论对象的第一用户评论集合,所述第一用户评论集合中包括至少一条用户评论;
有效评论确定模块,用于若所述第一用户评论集合中的任一用户评论包括所述第一关键词集合中的任意有效关键词,且不包括所述第二关键词集合中的任意无效关键词,则确定所述任一用户评论为有效评论;
舆情告警生成模块,用于获取所述第一用户评论集合中的所述有效评论对应的第一评论数量,根据所述第一评论数量生成针对所述目标评论对象的舆情告警信息。
10.一种终端设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接;
所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910966956.XA CN110728146A (zh) | 2019-10-12 | 2019-10-12 | 舆情发现方法、装置、终端设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910966956.XA CN110728146A (zh) | 2019-10-12 | 2019-10-12 | 舆情发现方法、装置、终端设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110728146A true CN110728146A (zh) | 2020-01-24 |
Family
ID=69220011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910966956.XA Pending CN110728146A (zh) | 2019-10-12 | 2019-10-12 | 舆情发现方法、装置、终端设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110728146A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782761A (zh) * | 2020-05-12 | 2020-10-16 | 北京达佳互联信息技术有限公司 | 评论信息的确定方法、装置、电子设备及存储介质 |
CN113468206A (zh) * | 2021-07-15 | 2021-10-01 | 中国银行股份有限公司 | 数据维护方法、装置、服务器、介质及产品 |
-
2019
- 2019-10-12 CN CN201910966956.XA patent/CN110728146A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782761A (zh) * | 2020-05-12 | 2020-10-16 | 北京达佳互联信息技术有限公司 | 评论信息的确定方法、装置、电子设备及存储介质 |
CN111782761B (zh) * | 2020-05-12 | 2023-10-31 | 北京达佳互联信息技术有限公司 | 评论信息的确定方法、装置、电子设备及存储介质 |
CN113468206A (zh) * | 2021-07-15 | 2021-10-01 | 中国银行股份有限公司 | 数据维护方法、装置、服务器、介质及产品 |
CN113468206B (zh) * | 2021-07-15 | 2024-02-23 | 中国银行股份有限公司 | 数据维护方法、装置、服务器、介质及产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020422B (zh) | 特征词的确定方法、装置和服务器 | |
CN110309304A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
CN109271768B (zh) | 发布信息管理方法、装置、存储介质及终端 | |
CN110442712B (zh) | 风险的确定方法、装置、服务器和文本审理系统 | |
CN108536595B (zh) | 测试用例智能化匹配方法、装置、计算机设备及存储介质 | |
CN111652622B (zh) | 一种风险网址的识别方法、装置及电子设备 | |
CN104640116B (zh) | 一种诈骗短信防护方法和通信终端 | |
CN112199588A (zh) | 舆情文本筛选方法及装置 | |
CN108304452B (zh) | 文章处理方法及装置、存储介质 | |
CN110728146A (zh) | 舆情发现方法、装置、终端设备以及存储介质 | |
CN108536868A (zh) | 社交网络上短文本数据的数据处理方法及应用 | |
CN112507167A (zh) | 一种识别视频合集的方法、装置、电子设备及存储介质 | |
CN113076735A (zh) | 目标信息的获取方法、装置和服务器 | |
CN113127746A (zh) | 基于用户聊天内容分析的信息推送方法及其相关设备 | |
CN108984514A (zh) | 词语的获取方法及装置、存储介质、处理器 | |
CN113381963A (zh) | 一种域名检测方法、装置和存储介质 | |
CN112949172A (zh) | 一种数据处理方法、装置、机器可读介质及设备 | |
CN110069769A (zh) | 应用标签生成方法、装置及存储设备 | |
CN111400448A (zh) | 对象的关联关系分析方法及装置 | |
CN108875050B (zh) | 面向文本的数字取证分析方法、装置和计算机可读介质 | |
CN110263121A (zh) | 表格数据处理方法、装置、电子装置及计算机可读存储介质 | |
CN110232071A (zh) | 药品数据的检索方法、装置及存储介质、电子装置 | |
CN109672586A (zh) | 一种dpi业务流量识别方法、装置与计算机可读存储介质 | |
CN111325023B (zh) | 一种风险项目信息数据搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40020817 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |