CN110222513A - 一种线上活动的异常监测方法、装置及存储介质 - Google Patents
一种线上活动的异常监测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110222513A CN110222513A CN201910426498.0A CN201910426498A CN110222513A CN 110222513 A CN110222513 A CN 110222513A CN 201910426498 A CN201910426498 A CN 201910426498A CN 110222513 A CN110222513 A CN 110222513A
- Authority
- CN
- China
- Prior art keywords
- information
- target
- target keyword
- occurrence
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种线上活动的异常监测方法、装置及存储介质,应用于智慧城市领域,其中方法包括:抓取包括目标关键词的舆情信息;统计舆情信息中目标关键词的出现次数;根据出现次数和在数据库中获取的目标关键词的目标权重计算目标关键词的目标出现次数;若舆情信息中的目标关键词的目标出现次数大于阈值,则生成并显示异常信息。本申请抓取包括关于线上活动的目标关键词的舆情信息,然后根据舆情信息中目标关键词的多少,确定该舆情信息是否异常,若异常则生成并显示异常信息,以提示管理人员采取补救措施,从而本申请可以通过监测舆情信息来快速监测线上活动是否异常。
Description
技术领域
本申请涉及数据监测领域,尤其涉及一种线上活动的异常监测方法、装置及存储介质。
背景技术
线上漏洞指的是业务或产品等上线之后,所产生的一些程序或者业务内容的错误。对于各行各业来说,线上漏洞都是比较严重的事故,因为线上漏洞可能会造成公司财产或者客户流量上的损失。例如对金融软件来说,每一次的线上事故都有可能给公司带来重大的损失,少扣了用户的钱,为公司带来资金方面的亏损;多扣了用户的钱,则为带来不必要的合约或法律纠纷。
很多时候业务的大部分漏洞在业务上线之前就解决了,但在业务上线之后线上问题还是时而出现,无法杜绝。可见目前缺少了一种能够高效监测线上漏洞的方法。
发明内容
本申请实施例提供一种异常监测方法,可以在线上活动上线之后,通过舆情监测的方式来快速且及时的发现线上活动的漏洞。
第一方面,本申请实施例提供了一种异常监测方法,该方法包括:
抓取包括目标关键词的舆情信息,所述舆情信息是多个用户针对线上活动的反馈信息,所述目标关键词包括所述线上活动的活动关键词和漏洞关键词中的至少一种,所述活动关键词用于指示所述线上活动的内容,所述漏洞关键词用于指示所述线上活动的漏洞;
统计所述舆情信息中所述目标关键词的出现次数;
在数据库中获取所述目标关键词的目标权重,并根据所述目标关键词的目标权重和所述出现次数计算所述目标关键词的目标出现次数;
若所述舆情信息中的目标关键词的目标出现次数大于阈值,则生成异常信息,所述异常信息用于指示所述线上活动存在异常;
显示所述异常信息,以提示管理人员采取补救措施。
第二方面,本申请实施例提供了一种异常监测装置,该异常监测装置包括用于执行上述第一方面的异常监测方法的单元,该异常监测装置包括:
抓取单元,用于抓取包括目标关键词的舆情信息,所述舆情信息是多个用户针对线上活动的反馈信息,所述目标关键词包括所述线上活动的活动关键词和漏洞关键词中的至少一种,所述活动关键词用于指示所述线上活动的内容,所述漏洞关键词用于指示所述线上活动的漏洞;
统计单元,用于统计所述舆情信息中所述目标关键词的出现次数;
所述统计单元,还用于在数据库中获取所述目标关键词的目标权重,并根据所述目标关键词的目标权重和所述出现次数计算所述目标关键词的目标出现次数;
生成单元,用于若所述舆情信息中的目标关键词的目标出现次数大于阈值,则生成异常信息,所述异常信息用于指示所述线上活动存在异常;
显示单元,用于显示所述异常信息,以提示管理人员采取补救措施。
第三方面,本申请实施例提供了另一种异常监测装置,包括处理器、通信接口、输出设备和存储器,所述处理器、通信接口、输出设备和存储器相互连接,其中,所述通信接口用于与其他船载设备进行数据交互,所述存储器用于存储支持异常监测装置执行上述异常监测方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,用以执行上述第一方面以及第一方面的任意一种实现方式的异常监测方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行,用以执行上述第一方面以及第一方面的任意一种实现方式的异常监测方法。
本申请首先抓取包括关于线上活动的目标关键词的舆情信息,然后根据舆情信息中目标关键词的多少,确定该舆情信息是否异常,若异常则生成并显示异常信息,以提示管理人员采取补救措施,从而本申请可以通过监测舆情信息来快速监测线上活动是否异常。总的来说,本申请至少包括以下两个发明点,第一点,本申请实施例通过舆情监测来监测线上活动的漏洞,并在监测出舆情异常之后提示管理人员,因此本申请可以提高线上活动的漏洞的发现速度;第二点,本申请实施例通过统计目标关键词的出现次数来监测舆情信息是否异常,这样的方法既简单有效,也不同于一般的舆情监测方法。于是本申请实施例提供了一种针对于线上活动简单有效的异常监测方法。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1是本申请实施例提供的一种异常监测方法的示意流程图;
图2是本申请另一实施例提供的一种异常监测方法的示意流程图;
图3是本申请实施例提供的一种异常监测装置的示意性框图;
图4是本申请实施例提供的一种异常监测装置的结构性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请主要应用于监测线上活动的漏洞的异常监测装置,该异常监测装置可以是传统异常监测装置或者本申请第一实施例和第二实施例所描述的异常监测装置,本申请对此不做限制。当异常监测装置发送数据的时候,按照预设格式进行对数据的特性进行记录并传送,其中,数据的特性包括时间、地点、类型等。
参见图1,是本申请实施例提供一种应用于监测线上活动的漏洞的异常监测方法的示意流程图,如图1所示异常监测方法可包括:
101:抓取包括目标关键词的舆情信息。
在本申请实施例中,利用网络爬虫在各大信息传播平台抓取多个关于待进行异常监测的线上活动的舆情信息,并在通过模糊搜索和精确搜索等方法搜索该多个舆情信息中包括目标关键词的舆情信息,其中,舆情信息指的是多个用户针对线上活动的反馈信息,该反馈信息可以是用户针对线上活动做出的感想、评价和/或交流等一切可以反映用户对线上活动的反馈的信息,信息传播平台包括有活跃的公开咨询群,公众号和新闻等,而目标关键词包括线上活动的活动关键词和漏洞关键词中的至少一种,活动关键词指的是有关于线上活动的活动内容的关键词,例如线上活动的活动名称、优惠项目名称和品牌名称等,漏洞关键词指的是线上活动曾出现过的漏洞,例如漏洞名称,漏洞的具体表现等。
需要说明的是,舆情信息指的是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度的信息。舆情信息包括了较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现。本申请实施例中的舆情信息以信息传播平台上的帖子为例,该帖子中包括来自于多个用户的反馈内容,本申请对舆情信息的具体表现形式不做限定。
在另一种可实施的方式中,用于提供上述舆情信息的信息传播平台为预设信息平台,于是在预设信息平台抓取包括目标关键词的舆情信息之前,通过网络爬虫获取信息传播平台,检测目标关键词在信息传播平台中的出现次数,若目标关键词在信息传播平台中的出现次数大于预设值,则将该信息传播平台作为预设信息平台。
可选的,若目标关键词在信息传播平台中的出现次数小于或者等于预设值,则再次触发上述通过网络爬虫获取另一个信息传播平台的步骤,直到确定目标关键词在上述另一个信息传播平台中的出现次数大于预设值,并将该另一个信息传播平台作为预设信息平台为止。
可选的,若超过预设时长,仍未获取到可以作为预设信息平台的信息传播平台,则从数据库中获取按照用户常用度排序的多个信息传播平台中的前预设位数的信息传播平台作为上述预设信息平台。
可见,通过本申请实施例可以自动的确定用于提供舆情信息的信息传播平台,从而本端的异常监测装置可以快速的从预设的信息传播平台上获取舆情信息,提高了获取舆情信息的效率。并且,本申请还可以在确定预设信息平台之后,通过重复执行本步骤来获取更多的信息传播平台,并添加到已有的预设信息平台中,于是本申请的异常监测方法可以自动的扩大监测的范围,使得监测更加准确。
102:统计上述舆情信息中目标关键词的出现次数。
在本申请实施例中,在抓取到包括目标关键词的舆情信息之后,统计该舆情信息中目标关键词的出现次数。
需要注意的是,本申请实施例以舆情信息中只包括一种目标关键词为例进行说明,应该明确的是舆情信息中还可以包括两种及两种以上的关键词,例如,目标关键词包括目标关键词1和目标关键词2,且目标关键词1和目标关键词2 在舆情信息中的出现次数分别为第一出现次数,和第二出现次数。
103:在数据库中获取上述目标关键词的目标权重,并根据目标关键词的目标权重和出现次数计算目标关键词的目标出现次数。
本申请实施例中,在统计得到舆情信息中的目标关键词的出现次数之后,从数据库中获取该目标关键词对应的目标权重,然后将目标关键词的出现次数与目标权重进行乘法运算,以对目标关键词的出现次数进行调整,得到目标关键词的目标出现次数。其中,该目标权重用于对上述统计得到的目标关键词的出现次数进行调整,目标权重越大代表目标关键词越重要,目标关键词的重要程度与目标权重的大小成正比。
需要注意的是,本申请实施例以舆情信息中只包括一种目标关键词为例进行说明,应该明确的是舆情信息中还可以包括两种及两种以上的关键词,例如,目标关键词1和目标关键词2在舆情信息中的出现次数分别为第一出现次数,和第二出现次数,在数据库中获取目标关键词1和目标关键词2分别对应的第一目标权要和第二目标权要,并根据目标关键词1的第一出现次数和第一目标权要计算得到目标关键词1的第一目标出现次数,根据目标关键词2的第二出现次数和第二目标权要计算得到目标关键词2的第二目标出现次数。
104:若目标关键词的目标出现次数大于阈值,则生成异常信息。
在本申请实施例中,在目标关键词的目标出现次数大于阈值的情况下,生成异常信息,该异常信息用于指示线上活动存在异常。
需要注意的是,在舆情信息中包括两种以上或者两种以上的目标关键词的情况下,需要每种目标关键词在舆情信息中的目标出现次数都分别大于阈值的情况下,才生成上述异常信息。
举例来说,舆情信息中包括目标关键词1和目标关键词2,且目标关键词1 和目标关键词2在舆情信息中的目标出现次数分别为第一出现次数,和第二出现次数,目标关键词1和目标关键词2都对应一个相同的阈值,则当上述目标关键词1的出现次数和目标关键词2的出现次数都大于上述阈值时,生成上述异常信息。
在另一种可实施的方式中,在上述统计得到目标关键词的出现次数之后,除了上述计算目标关键词的目标出现次数,并在目标关键词的目标出现次数大于阈值时,生成异常信息以外,还有另外一种方法,即获取目标关键词的目标阈值,若目标关键词的出现次数大于上述目标阈值,则生成异常信息。其中,目标阈值的大小表示了目标关键词的重要程度,目标关键词越重要目标关键词的目标阈值越小,即目标关键词的目标阈值与目标关键词的重要程度成反比。
可见,本申请实施例对不同的目标关键词设置了不同的目标阈值,如果将上述方法理解为调整了目标关键词的出现次数,那么本方法可以理解为调整了阈值,两个方法都是根据目标关键词的重要程度,选择不同判断尺度。还需要注意的是,相对于上述通过调整目标关键词的出现次数来说,本方法更加简单和快速,因为本方法直接从数据库中获取目标关键词对应的目标阈值即可,不需要先在数据库中获取目标关键词的目标权重,再根据目标权重再对目标关键词的出现次数进行调整。
需要注意的是,在舆情信息中包括两种以上或者两种以上的目标关键词的情况下,目标关键词1对应于第一阈值,目标关键词2对应于第二阈值,则当目标关键词2和目标关键词2分别大于第一阈值和第二阈值时,生成上述异常信息。其中,第一阈值与第二阈值可以相同,也可以不同。
上述目标关键词的重要程度的衡量标准有,目标关键词在已确定出现异常的舆论信息中出现频繁程度,以及,该目标关键词所指示的异常的类型的严重程度等,目标关键词在已确定出现异常的舆论信息中出现频繁程度越高,且指示的异常的类型越严重,该目标关键词对应的目标权重越高,而目标阈值越低。
在一种可实施的方式中,上述阈值和/或目标阈值可以是人通过本装置的输入设备而人为设置的,该方式可以应用于以下场景(以设置阈值为例),将阈值设置为线上活动的优惠活动名额数,或者优惠活动名额的若干倍。因为许多优惠活动以先领先得的方式来发放有限的优惠名额,于是如果活动设置的名额设置错误,则可能造成公司严重的财产损失,或者因为无法履行承诺而信誉受损。除了上面举例的应用场景以外,本实施方式可以应用于任何场景,本申请实施例对此不做限定。
在一种实施中,上述生成异常信息指的是,根据舆情信息中的间隔符,在舆情信息中提取目标关键词所在的目标字段,对目标字段进行数据分析,得到线上活动的漏洞信息,生成包括目标字段和漏洞信息的异常信息,其中,漏洞信息包括漏洞的描述以及漏洞的修补方法等,间隔符包括标点符号和空格符中的至少一种。
上述根据舆情信息中的间隔符,在舆情信息中提取目标关键词所在的目标字段指的是,确定目标关键词在舆情信息中的位置,并检测目标关键词所在位置的上下文处的间隔符,例如标点符号和空格符等,然后根据该间隔符提取出目标关键词所在的目标字段,例如间隔符为句号,以目标关键词的上下文中分别最近的句号为界,截取出一段字段作为目标关键词的目标字段。
上述对目标字段进行数据分析,得到线上活动的漏洞信息指的是,利用深度学习模型对目标字段进行同义转换,得到目标字段对应的观点信息,该观点信息用于规范化表示目标字段,具体的,根据目标字段的实际含义将目标字段转换得到语术规范的观点信息,观点信息更规范也更加精简的表达出了与目标字段相同的意思,然后再在数据库中获取观点信息所对应的漏洞信息,数据库中存储有观点信息与漏洞信息的映射关系。其中,观点信息为一段文字,本申请实施例通过识别目标字段,将目标字段转换成观点信息,从而将语术多样的目标字段转换成较为语术比较规范的观点信息,并使得后续能够从数据库中获取观点信息对应的漏洞信息。
在一种实施中,为了得到上述观点信息对应的漏洞信息,还可以对上述目标字段进行规则匹配,从而得到观点信息对应的漏洞信息,具体的,检测观点信息是否符合预设的规则集合中的任意一个规则,若符合则获取该观点信息所符合的规则,并获取该规则对应的漏洞信息作为该观点信息对应的漏洞信息。其中,数据库中存储了上述预设的规则集合,该预设的规则集合包括,观点信息包括与预设字符内容匹配的关键字符,和/或,观点信息包括与预设字符格式匹配的关键字符。需要说明的是,预设字符内容可以是任意字符(例如字母、中文和数字等),预设字符格式可以是任意字符格式(例如日期的格式,电话格式等)。在另一种可实施的实施方式中,上述规则匹配为正则匹配,而正则匹配所对应的规则集合包括上述两个规则,即正则匹配既可以检测出观点信息中与预设字符内容匹配的关键字符,也可以检测出观点信息中与预设字符格式匹配的关键字符。需要说明的是,上述所描述的正则匹配的两个规则为正则匹配的多个正则表达式中的两种,本申请实施例重点对该两个规则为例对正则匹配进行说明,但不代表正则匹配只含有该两个规则,正则匹配除了该两个规则以外的任意正则表达式可以应用到本申请实施例中,本申请实施例对此不作限定。
举例来说明上述正则匹配,目标语句中的“不是”,“不是我”,“你找的不是我”,为与预设字符内容“*不是*”匹配的关键字符;电话号码为与预设字符格式“d{11}”匹配的关键字符;日期为与预设字符格式“"d{4}-"d{1,2}-"d{1,2}”匹配的关键字符。
需要说明的是,上述深度学习模型为卷积神经网络简介(CNN,ConvolutionalNeural Networks)、编码器-解码器(Seq2Seq,Sequence to Sequence),SGAN 深度学习模型以及Dual Learning深度学习模型等中的任意一种。
还需要说明的是,在使用深度学习模型对目标字段进行转换之前,构建该深度学习模型。具体的,构建深度学习模型的框架,或者使用上述举例的任意一种框架作为本申请实施例中的深度学习模型的框架,然后利用训练样本对深度学习模型的框架不断进行训练,以调整模型的参数,使得模型最终能够正确转换出目标字段对应的观点信息。其中,训练样本包括目标字段和目标字段对应的观点信息,上述利用训练样本对深度学习模型的框架进行训练指的是,先将训练样本中的目标字段输入到模型中,然后将模型转换得到的观点信息与训练样本中的正确的观点信息进行对比,最后根据对比结果来对模型的参数进行调整,使得模型能够转换的越来越准确。
可见,由于本申请实施例中的深度学习模型是利用线上活动的漏洞监测以及舆情监测的领域的训练样本进行训练,于是本申请实施例中的深度学习模型其能够根据目标字段,准确的转换出本端的异常监测装置的数据库中所包括的多个观点信息中的一个,这与其他的深度学习模型不同。由于训练时使用了数据库中的观点信息来对深度学习模型进行训练,于是深度学习模型转换得到的观点信息可以是完全与数据库中的观点信息一致或者相似,于是本申请实施例采用了规则匹配来对观点信息进行匹配,可以获得该观点信息对应的漏洞信息,此前,在规则匹配之前,本端装置的数据库就已存放了观点信息对应漏洞信息。
在另外一种可实施的实现方式中,上述深度学习模型为seq2seq。其中, seq2seq是一个解码器-编码器(Encoder–Decoder)结构的网络,它的输入是一个序列,输出也是一个序列,Encoder将一个可变长度的信号序列变为固定长度的向量表达,Decoder将这个固定长度的向量变成可变长度的目标的信号序列。可见这个结构使得输入序列和输出序列的长度是可变的,于是seq2seq可以用于转换,聊天机器人,句法分析,文本摘要等。其中编码解码的方式可以是循环神经网络(RNN,Recurrent Neural Network),卷积神经网络(CNN,convolutional neural network),长短期记忆网络(LSTM,Long Short-Term Memory)等。
在另一种可实施的实现方式中,所述深度学习模型为基于注意力机制的深度学习模型。
在本申请实施例中还可以在深度学习模型中引入注意力机制,接下来本申请实施例将以加入了注意力机制的seq2seq为例,来说明加入了注意力机制的深度学习模型。具体的,在引入注意力机制之前,seq2seq对目标语句中的每个词的关注度是一样的,这不符合人在读句子时的实际情况。因为一句话通常有几个词是关键的,可以涵盖这句话的意思。于是为了解决这个问题,本申请在 seq2seq中引入了注意力机制,使得seq2seq在转换的过程中给目标语句中不同的词予以不同程度的关注度,即给不同的词分配不同的权重,从而提高转换的准确性。可见,本申请通过在seq2seq中引入注意力机制,可以进一步提高转换的准确度。
可见,本申请通过规则匹配可以同时兼顾模糊匹配、精确匹配和正则匹配等多种匹配方式,从而大大的提高匹配的精准度。
105:显示上述异常信息,以提示管理人员采取补救措施。
在本申请实施例中,在生成上述异常信息之后,显示上述异常信息,以提示管理人员采取补救措施。
在另一种可实施的方式中,显示上述异常信息的同时,输出灯光和声效。
在另一种可实施的方式中,还可以根据抓取到的舆情信息对目标关键词进行扩充,首先对上述舆情信息进行分词处理,得到分词集合,然后从分词集合中确定出出现次数大于预设值的分词,并检测该分词集合中出现次数大于预设值的分词是否为预设禁用词,若上述分词集合中出现次数大于预设值的分词不为预设禁用词,则将上述分词集合中出现次数大于预设值的分词作为新增的目标关键词,该新增的目标关键词包括上述待监测异常的线上活动的活动关键词和漏洞关键词中的至少一种。其中,上述预设禁用词是禁止作为新增的目标关键词的词汇,该预设禁用词可以是停用词和语气词中至少一种,也可以是管理人员设置的禁止作为新增的目标关键词的词汇,本申请实施例对此不作限定。
需要说明的是,上述对舆情信息进行分词处理的方法有基于字符串匹配的分词方法,基于理解的分词方法和基于统计的分词方法。分词指的是,将连续的字序列按照一定的规范重新组合成词序列的过程,即把舆情信息中的汉字序列切分成多个单独的词。
可见,本申请实施例还可以自动地对目标关键词进行扩充,使得一些出现频率很高以及代表了特定含义的新兴网络词也加入到目标关键词中,通过这些新兴网络词的检测往往可以极大的提高舆论监测的效率,而且由于本申请实施例采集的是异常的舆情信息中的高频词汇,于是采集到的高频词汇适用于监测线上活动的漏洞。此外目标关键词的丰富程度和全面程度影响了监测线上活动的精准度,而本申请实施例不需要人工对目标关键词进行扩充和维护,而自动学习新的目标关键词,于是本申请实施例可以进一步的提高监测的精准度和效率。
在另一种可实施的方式中,上述生成异常信息之后,将该异常信息记录到日志文件中,然后在接收到日志请求的情况下,将日志文件发送给管理人员的终端设备,使得管理人员可以根据该日志文件进行集中查看和处理。
本申请实施例抓取包括关于线上活动的目标关键词的舆情信息,然后根据舆情信息中目标关键词的多少,确定该舆情信息是否异常,若异常则生成并显示异常信息,以提示管理人员采取补救措施,从而本申请可以通过监测舆情信息来快速监测线上活动是否异常。总的来说,本申请至少包括以下两个发明点,第一点,本申请实施例通过舆情监测来监测线上活动的漏洞,并在监测出舆情异常之后提示管理人员,因此本申请可以提高线上活动的漏洞的发现速度;第二点,本申请实施例通过统计目标关键词的出现次数来监测舆情信息是否异常,这样的方法既简单有效,也不同于一般的舆情监测方法。总的来说,本申请实施例提供了一种针对于线上活动简单有效的异常监测方法。
参见图2,是本申请实施例提供另一种异常监测方法的示意流程图,如图2 所示异常监测方法可包括:
201:通过网络爬虫获取信息传播平台。
在本申请实施例中,通过网络爬虫获取信息传播平台,其中,网络爬虫又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,从而本申请实施例可以通过网络爬虫自动的搜寻一些可以由用于提供舆情信息的信息传播平台。
需要说明的是,舆情信息指的是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度的信息。舆情信息包括了较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现。
202:统计目标关键词在上述信息传播平台中的出现次数。
在本申请实施例中,对上述通过网络爬虫获取信息船舶平台中的关键词进行统计,目标关键词出现次数越多的信息传播平台,越适合于提供本申请实施例用来帮助监测线上活动漏洞的舆情信息。
可见,根据目标关键词的不同,获取到的信息传播平台也可能不同,因为本申请实施例中的目标关键词为与线上活动相关的活动关键词和漏洞关键词中的至少一种,因此,本申请中应用提供舆情信息的信息传播平台不同与一般舆情监督中用于提供舆情信息的信息传播平台。其中,活动关键词指的是有关于线上活动的活动内容的关键词,例如线上活动的活动名称、优惠项目名称和品牌名称等,漏洞关键词指的是线上活动曾出现过的漏洞,例如漏洞名称,漏洞的具体表现。
203:若目标关键词在上述信息传播平台中的出现次数大于预设值,则将上述信息传播平台作为预设信息平台。
在本申请实施例中,若目标关键词在信息传播平台中的出现次数大于预设值,则将信息传播平台作为预设信息平台。
可选的,若目标关键词在信息传播平台中的出现次数小于或者等于预设值,则再次触发上述通过网络爬虫获取另一个信息传播平台的步骤,直到确定目标关键词在上述另一个信息传播平台中的出现次数大于预设值,并将该另一个信息传播平台作为预设信息平台为止。
可选的,若超过预设时长,仍未获取到可以作为预设信息平台的信息传播平台,则从数据库中获取按照用户常用度排序的多个信息传播平台中的前预设位数的信息传播平台作为上述预设信息平台。
可见,通过本申请实施例可以自动的确定用于提供舆情信息的信息传播平台,从而本端的异常监测装置可以快速的从预设的信息传播平台上获取舆情信息,提高了获取舆情信息的效率。并且,本申请还可以在确定预设信息平台之后,通过重复执行本步骤来获取更多的信息传播平台,并添加到已有的预设信息平台中,于是本申请实施例的异常监测方法可以自动的扩大监测的范围,使得监测更加准确。
204:在上述预设信息平台抓取舆情信息。
在本申请实施例中,利用网络爬虫在各大信息传播平台抓取多个关于待进行异常监测的线上活动的舆情信息,并在通过模糊搜索和精确搜索等方法搜索该多个舆情信息中包括目标关键词的舆情信息,其中,舆情信息指的是多个用户针对线上活动的反馈信息,该反馈信息可以是用户针对线上活动做出的感想、评价和/或交流等一切可以反映用户对线上活动的反馈的信息,预设信息平台包括有活跃的公开咨询群,公众号和新闻等,而目标关键词包括线上活动的活动关键词和漏洞关键词中的至少一种,活动关键词指的是有关于线上活动的活动内容的关键词,例如线上活动的活动名称、优惠项目名称和品牌名称等,漏洞关键词指的是线上活动曾出现过的漏洞,例如漏洞名称,漏洞的具体表现。
可见,本申请实施例通过在预设信息平台上抓取信息,可以减少搜寻范围,提高抓取舆情信息的效率。
205:统计上述舆情信息中目标关键词的出现次数。
在本申请实施例中,在抓取到包括目标关键词的舆情信息之后,统计该舆情信息中目标关键词的出现次数。
需要注意的是,本申请实施例以舆情信息中只包括一种目标关键词为例进行说明,应该明确的是舆情信息中还可以包括两种及两种以上的关键词,例如,目标关键词包括目标关键词1和目标关键词2,且目标关键词1和目标关键词2 在舆情信息中的出现次数分别为第一出现次数,和第二出现次数。
206:在数据库中获取目标关键词的目标权重,并根据目标关键词的目标权重和出现次数计算目标关键词的目标出现次数。
本申请实施例中,在统计得到舆情信息中的目标关键词的出现次数之后,从数据库中获取该目标关键词对应的目标权重,然后将目标关键词的出现次数与目标权重进行乘法运算,以对目标关键词的出现次数进行调整,得到目标关键词的目标出现次数。其中,该目标权重用于对上述统计得到的目标关键词的出现次数进行调整,目标权重越大代表目标关键词越重要,目标关键词的重要程度与目标权重的大小成正比。
需要注意的是,本申请实施例以舆情信息中只包括一种目标关键词为例进行说明,应该明确的是舆情信息中还可以包括两种及两种以上的关键词,例如,目标关键词1和目标关键词2在舆情信息中的出现次数分别为第一出现次数,和第二出现次数,在数据库中获取目标关键词1和目标关键词2分别对应的第一目标权要和第二目标权要,并根据目标关键词1的第一出现次数和第一目标权要计算得到目标关键词1的第一目标出现次数,根据目标关键词2的第二出现次数和第二目标权要计算得到目标关键词2的第二目标出现次数。
207:若上述舆情信息中的目标关键词的目标出现次数大于阈值,则生成异常信息,异常信息用于指示线上活动存在异常。
在本申请实施例中,在目标关键词的目标出现次数大于阈值的情况下,生成异常信息,该异常信息用于指示线上活动存在异常。
需要注意的是,在舆情信息中包括两种以上或者两种以上的目标关键词的情况下,需要每种目标关键词在舆情信息中的目标出现次数都分别大于阈值的情况下,才生成上述异常信息。
举例来说,舆情信息中包括目标关键词1和目标关键词2,且目标关键词1 和目标关键词2在舆情信息中的目标出现次数分别为第一出现次数,和第二出现次数,若实施第一种方案,所有目标关键词都对应一个相同的阈值,则当上述目标关键词1的出现次数和目标关键词2的出现次数都大于上述阈值时,生成上述异常信息。
在另一种可实施的方式中,在上述统计得到目标关键词的出现次数之后,除了上述计算目标关键词的目标出现次数,并在目标关键词的目标出现次数大于阈值时,生成异常信息以外,还可以获取目标关键词的目标阈值,若目标关键词的出现次数大于上述目标阈值,则生成异常信息。其中,目标阈值的大小表示了目标关键词的重要程度,目标关键词越重要目标关键词的目标阈值越小,即目标关键词的目标阈值与目标关键词的重要程度成反比。
可见,本申请实施例对不同的目标关键词设置了不同的目标阈值,如果将上述方法理解为调整了目标关键词的出现次数,那么本方法可以理解为调整了阈值,两个方法都是根据目标关键词的重要程度,选择不同判断尺度。还需要注意的是,相对于上述通过调整目标关键词的出现次数来说,本方法更加简单和快速,因为本方法直接从数据库中获取目标关键词对应的目标阈值即可,不需要先在数据库中获取目标关键词的目标权重,再根据目标权重再对目标关键词的出现次数进行调整。
需要注意的是,在舆情信息中包括两种以上或者两种以上的目标关键词的情况下,目标关键词1对应于第一阈值,目标关键词2对应于第二阈值,则当目标关键词2和目标关键词2分别大于第一阈值和第二阈值时,生成上述异常信息。其中,第一阈值与第二阈值可以相同,也可以不同。
上述目标关键词的重要程度的衡量标准有,目标关键词在已确定出现异常的舆论信息中出现频繁程度,以及,该目标关键词所指示的异常的类型的严重程度等,目标关键词在已确定出现异常的舆论信息中出现频繁程度越高,且指示的异常的类型越严重,该目标关键词对应的目标权重越高,而目标阈值越低。
在一种可实施的方式中,上述阈值可以是人通过本装置的输入设备而人为设置的,该方式可以应用于以下场景,将阈值设置为线上活动的优惠活动名额数,或者优惠活动名额的若干倍。因为许多优惠活动以先领先得的方式来发放有限的优惠名额,于是如果活动设置的名额设置错误,则可能造成公司严重的财产损失,或者因为无法履行承诺而信誉受损。除了上面举例的应用场景以外,本实施方式可以应用于任何场景,本申请实施例对此不做限定。
在一种实施中,上述生成异常信息指的是,根据舆情信息中的间隔符,在舆情信息中提取目标关键词所在的目标字段,对目标字段进行数据分析,得到线上活动的漏洞信息,生成包括目标字段和漏洞信息的异常信息,其中,漏洞信息包括漏洞的描述以及漏洞的修补方法等,间隔符包括标点符号和空格符中的至少一种。
上述根据舆情信息中的间隔符,在舆情信息中提取目标关键词所在的目标字段指的是,确定目标关键词在舆情信息中的位置,并检测目标关键词所在位置的上下文处的间隔符,例如标点符号和空格符等,然后根据该间隔符提取出目标关键词所在的目标字段,例如间隔符为句号,以目标关键词的上下文中分别最近的句号为界,截取出一段字段作为目标关键词的目标字段。
上述对目标字段进行数据分析,得到线上活动的漏洞信息指的是,利用深度学习模型对目标字段进行同义转换,得到目标字段对应的观点信息,该观点信息用于规范化表示目标字段,具体的,根据目标字段的实际含义将目标字段转换得到语术规范的观点信息,观点信息更规范也更加精简的表达出了与目标字段相同的意思,然后再在数据库中获取观点信息所对应的漏洞信息,数据库中存储有观点信息与漏洞信息的映射关系。其中,观点信息为一段文字,本申请实施例通过识别目标字段,将目标字段转换成观点信息,从而将语术多样的目标字段转换成较为语术比较规范的观点信息,并使得后续能够从数据库中获取观点信息对应的漏洞信息。
在一种实施中,为了得到上述观点信息对应的漏洞信息,还可以对上述目标字段进行规则匹配,从而得到观点信息对应的漏洞信息,具体的,检测观点信息是否符合预设的规则集合中的任意一个规则,若符合则获取该观点信息所符合的规则,并获取该规则对应的漏洞信息作为该观点信息对应的漏洞信息。其中,数据库中存储了上述预设的规则集合,该预设的规则集合包括,观点信息包括与预设字符内容匹配的关键字符,和/或,观点信息包括与预设字符格式匹配的关键字符。需要说明的是,预设字符内容可以是任意字符(例如字母、中文和数字等),预设字符格式可以是任意字符格式(例如日期的格式,电话格式等)。在另一种可实施的实施方式中,上述规则匹配为正则匹配,而正则匹配所对应的规则集合包括上述两个规则,即正则匹配既可以检测出观点信息中与预设字符内容匹配的关键字符,也可以检测出观点信息中与预设字符格式匹配的关键字符。需要说明的是,上述所描述的正则匹配的两个规则为正则匹配的多个正则表达式中的两种,本申请实施例重点对该两个规则为例对正则匹配进行说明,但不代表正则匹配只含有该两个规则,正则匹配除了该两个规则以外的任意正则表达式可以应用到本申请实施例中,本申请实施例对此不作限定。
举例来说明上述正则匹配,目标语句中的“不是”,“不是我”,“你找的不是我”,为与预设字符内容“*不是*”匹配的关键字符;电话号码为与预设字符格式“d{11}”匹配的关键字符;日期为与预设字符格式“"d{4}-"d{1,2}-"d{1,2}”匹配的关键字符。
需要说明的是,上述深度学习模型为卷积神经网络简介(CNN,ConvolutionalNeural Networks)、编码器-解码器(Seq2Seq,Sequence to Sequence),SGAN 深度学习模型以及Dual Learning深度学习模型等中的任意一种。
还需要说明的是,在使用深度学习模型对目标字段进行转换之前,构建该深度学习模型。具体的,构建深度学习模型的框架,或者使用上述举例的任意一种框架作为本申请实施例中的深度学习模型的框架,然后利用训练样本对深度学习模型的框架不断进行训练,以调整模型的参数,使得模型最终能够正确转换出目标字段对应的观点信息。其中,训练样本包括目标字段和目标字段对应的观点信息,上述利用训练样本对深度学习模型的框架进行训练指的是,先将训练样本中的目标字段输入到模型中,然后将模型转换得到的观点信息与训练样本中的正确的观点信息进行对比,最后根据对比结果来对模型的参数进行调整,使得模型能够转换的越来越准确。
可见,由于本申请实施例中的深度学习模型是利用线上活动的漏洞监测以及舆情监测的领域的训练样本进行训练,于是本申请实施例中的深度学习模型其能够根据目标字段,准确的转换出本端的异常监测装置的数据库中所包括的多个观点信息中的一个,这与其他的深度学习模型不同。由于训练时使用了数据库中的观点信息来对深度学习模型进行训练,于是深度学习模型转换得到的观点信息可以是完全与数据库中的观点信息一致或者相似,于是本申请实施例采用了规则匹配来对观点信息进行匹配,可以获得该观点信息对应的漏洞信息,此前,在规则匹配之前,本端装置的数据库就已存放了观点信息对应漏洞信息。
在另外一种可实施的实现方式中,上述深度学习模型为seq2seq。其中, seq2seq是一个解码器-编码器(Encoder–Decoder)结构的网络,它的输入是一个序列,输出也是一个序列,Encoder将一个可变长度的信号序列变为固定长度的向量表达,Decoder将这个固定长度的向量变成可变长度的目标的信号序列。可见这个结构使得输入序列和输出序列的长度是可变的,于是seq2seq可以用于转换,聊天机器人,句法分析,文本摘要等。其中编码解码的方式可以是循环神经网络(RNN,Recurrent Neural Network),卷积神经网络(CNN,convolutional neural network),长短期记忆网络(LSTM,Long Short-Term Memory)等。
在另一种可实施的实现方式中,所述深度学习模型为基于注意力机制的深度学习模型。
在本申请实施例中还可以在深度学习模型中引入注意力机制,接下来本申请实施例将以加入了注意力机制的seq2seq为例,来说明加入了注意力机制的深度学习模型。具体的,在引入注意力机制之前,seq2seq对目标语句中的每个词的关注度是一样的,这不符合人在读句子时的实际情况。因为一句话通常有几个词是关键的,可以涵盖这句话的意思。于是为了解决这个问题,本申请在 seq2seq中引入了注意力机制,使得seq2seq在转换的过程中给目标语句中不同的词予以不同程度的关注度,即给不同的词分配不同的权重,从而提高转换的准确性。可见,本申请通过在seq2seq中引入注意力机制,可以进一步提高转换的准确度。
在另一种可实施的方式中,获取关键词在上述舆情信息中对应的观点信息,并将该观点信息加入到异常信息中。以及在数据库获取观点信息和关键词分别对应的漏洞预测信息,漏洞预测信息描述了可能存在的漏洞,其中,观点信息和关键词分别与漏洞预测信息的对应关系存放在数据库中。
可见,本申请通过规则匹配可以同时兼顾模糊匹配、精确匹配和正则匹配等多种匹配方式,从而大大的提高匹配的精准度。
208:显示上述异常信息,并将上述异常信息记录到日志文件中。
在本申请实施例中,显示上述异常信息,以提示管理人员采取补救措施,并将上述异常信息记录到日志文件中,以集中存储。
在另一种可实施的方式中,显示上述异常信息的同时,输出灯光和声效。
在另一种可实施的方式中,还可以根据抓取到的舆情信息对目标关键词进行扩充,首先对上述舆情信息进行分词处理,得到分词集合,然后从分词集合中确定出出现次数大于预设值的分词,并检测该分词集合中出现次数大于预设值的分词是否为预设禁用词,若上述分词集合中出现次数大于预设值的分词不为预设禁用词,则将上述分词集合中出现次数大于预设值的分词作为新增的目标关键词,该新增的目标关键词包括上述待监测异常的线上活动的活动关键词和漏洞关键词中的至少一种。其中,上述预设禁用词是禁止作为新增的目标关键词的词汇,该预设禁用词可以是停用词和语气词中至少一种,也可以是管理人员设置的禁止作为新增的目标关键词的词汇,本申请实施例对此不作限定。
需要说明的是,上述对舆情信息进行分词处理的方法有基于字符串匹配的分词方法,基于理解的分词方法和基于统计的分词方法。分词指的是,将连续的字序列按照一定的规范重新组合成词序列的过程,即把舆情信息中的汉字序列切分成多个单独的词。
可见,本申请实施例还可以自动地对目标关键词进行扩充,使得一些出现频率很高以及代表了特定含义的新兴网络词也加入到目标关键词中,通过这些新兴网络词的检测往往可以极大的提高舆论监测的效率,而且由于本申请实施例采集的是异常的舆情信息中的高频词汇,于是采集到的高频词汇适用于监测线上活动的漏洞。此外,目标关键词的丰富程度和全面程度影响了监测线上活动异常的精准度,而本申请实施例不需要人工对目标关键词进行扩充和维护,而自动学习新的目标关键词,于是本申请实施例可以进一步的提高监测的精准度和效率。
209:在接收到日志请求的情况下,将上述日志文件发送给管理人员的终端设备。
在本申请实施例中,在接收到日志请求的情况下,将日志文件发送给管理人员的终端设备,使得管理人员可以根据该日志文件进行集中查看和处理,以供管理人员查看和分析。
本申请实施例在上一申请实施例的基础上更加详细,通过网络爬虫的方式自动获取和扩充用于提供舆情信息的信息传播平台,并通过限制在该获取到的信息传播平台上获取舆情信息,来提高舆情信息的抓取效率,并在判断舆情信息中是否存在异常时候,对于不同的目标关键获取对应的阈值,以提高异常判断的准确度,最后在生成异常信息之后,不仅显示该异常信息,还将该异常信息记载在了日志文件中,从而在接收到日志请求的情况下,将该日志文件发送给管理人员,以方便管理人员在后续进行进一步的查看和分析,可见本申请实施例进一步的提高了漏洞监测的效率和准确度。
需要说明的是,上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
本申请实施例还提供一种异常监测装置,该异常监测装置用于执行前述任一项的异常监测方法的单元。具体地,参见图3,是本申请实施例提供的一种异常监测装置的示意框图。本实施例的异常监测装置包括:抓取单元301、统计单元302、生成单元303以及显示单元304。具体的:
抓取单元301,用于抓取包括目标关键词的舆情信息,上述舆情信息包括线上活动的活动关键词和漏洞关键词中的至少一种,上述活动关键词为与上述线上活动的内容相关的关键词,上述漏洞关键词为与上述线上活动的漏洞相关的关键词;统计单元302,用于统计上述舆情信息中上述目标关键词的出现次数;上述统计单元303,还用于在数据库中获取上述目标关键词的目标权重,并根据上述目标关键词的目标权重和上述出现次数计算上述目标关键词的目标出现次数;生成单元304,用于若上述舆情信息中的目标关键词的目标出现次数大于阈值,则生成异常信息,上述异常信息用于指示上述线上活动存在异常;显示单元305,用于显示上述异常信息,以提示管理人员采取补救措施。
在一种可实施的方式中,上述异常监督装置还包括提取单元305,用于根据上述舆情信息中的间隔符,在上述舆情信息中提取上述目标关键词所在的目标字段,上述间隔符包括标点符号和空格符中的至少一种;上述异常监督装置还包括分析单元306,用于对上述目标字段进行数据分析,得到上述线上活动的漏洞信息,上述漏洞信息用于指示上述线上活动的漏洞情况;上述生成单元303,具体用于生成包括上述目标字段和上述漏洞信息的异常信息。
在一种可实施的方式中,上述异常监督装置还包括转换单元307,用于利用深度学习模型对上述目标字段进行同义转换,以得到上述目标字段对应的观点信息,上述观点信息用于规范化表示上述目标字段,上述深度学习模型是根据多个包含目标字段和观点信息的训练样本训练得到的;上述异常监督装置还包括查找单元308,用于根据上述数据库中存储的观点信息与漏洞信息的映射关系,确定出上述观点信息对应的漏洞信息。
在一种可实施的方式中,上述异常监督装置还包括分词单元309,用于对上述舆情信息进行分词处理,得到分词集合;上述异常监督装置还包括确定单元 310,用于从上述分词集合中确定出出现次数大于预设值的分词,并监测上述分词集合中出现次数大于预设值的分词是否为预设禁用词;上述异常监督装置还包括添加单元311,用于若上述分词集合中出现次数大于预设值的分词不为上述预设禁用词,则将上述分词集合中出现次数大于预设值的分词作为新增的目标关键词。
在一种可实施的方式中,上述抓取单元301,具体用于在预设信息平台抓取上述舆情信息;上述异常监督装置还包括获取单元312,用于通过网络爬虫获取信息传播平台;上述统计单元302,具体用于统计上述目标关键词在上述信息传播平台中的出现次数;上述确定单元310,还用于若上述目标关键词在上述信息传播平台中的出现次数大于预设值,则将上述信息传播平台作为上述预设信息平台。
在一种可实施的方式中,上述获取单元312,还用于获取上述目标关键词对应的目标阈值,上述目标阈值的大小用于指示上述目标关键词的重要程度,不同的目标关键词对应不同的目标阈值;上述异常监督装置还包括比较单元313,用于比较上述目标关键词的出现次数与上述目标关键词对应的目标阈值;上述生成单元303,具体用于若上述舆情信息中的目标关键词的出现次数大于目标阈值,则生成异常信息。
在一种可实施的方式中,上述异常监督装置还包括记载单元314,用于将上述异常信息记录到日志文件中;上述异常监督装置还包括发送单元312,用于在接收到日志请求的情况下,将上述日志文件发送给上述管理人员的终端设备,以供上述管理人员查看和分析。
本申请实施例通过抓取单元抓取包括关于线上活动的目标关键词的舆情信息,然后根据统计单元统计的舆情信息中目标关键词的多少,确定该舆情信息是否异常,若异常则生成单元生成并显示异常信息,并通过提示单元提示管理人员采取补救措施,从而本申请可以通过监测舆情信息来快速监测线上活动是否异常。总的来说,本申请至少包括以下两个发明点,第一点,本申请实施例通过舆情监测来监测线上活动的漏洞,并在监测出舆情异常之后提示管理人员,因此本申请可以提高线上活动的漏洞的发现速度;第二点,本申请实施例通过统计目标关键词的出现次数来监测舆情信息是否异常,这样的方法既简单有效,也不同于一般的舆情监测方法。总的来说,本申请实施例提供了一种针对于线上活动简单有效的异常监测方法。
参见图4,是本申请另一实施例提供的一种异常监测装置示意框图。如图所示的本实施例中的异常监测装置可以包括:一个或多个处理器410、通信接口 420、输出设备430和存储器440。上述处理器410、通信接口420、输出设备 430和存储器440通过总线450连接。存储器440用于存储计算机程序,计算机程序包括程序指令,处理器410用于执行存储器440存储的程序指令。
处理器410,用于执行抓取单元301的功能,用于抓取包括目标关键词的舆情信息,上述舆情信息包括线上活动的活动关键词和漏洞关键词中的至少一种,上述活动关键词为与上述线上活动的内容相关的关键词,上述漏洞关键词为与上述线上活动的漏洞相关的关键词;还用于执行统计单元302的功能,用于统计上述舆情信息中上述目标关键词的出现次数;还用于在数据库中获取上述目标关键词的目标权重,并根据上述目标关键词的目标权重和上述出现次数计算上述目标关键词的目标出现次数;还用于执行生成单元304的功能,用于若上述舆情信息中的目标关键词的目标出现次数大于阈值,则生成异常信息,上述异常信息用于指示上述线上活动存在异常;
输出设备430,用于执行显示单元305的功能,用于显示上述异常信息,以提示管理人员采取补救措施。
在一种可实施的方式中,上述处理器410,还用于执行提取单元305的功能,用于根据上述舆情信息中的间隔符,在上述舆情信息中提取上述目标关键词所在的目标字段,上述间隔符包括标点符号和空格符中的至少一种;上述处理器 410,还用于执行分析单元306的功能,用于对上述目标字段进行数据分析,得到上述线上活动的漏洞信息,上述漏洞信息用于指示上述线上活动的漏洞情况;上述处理器410,还用于生成包括上述目标字段和上述漏洞信息的异常信息。
在一种可实施的方式中,上述处理器410,还用于执行转换单元307的功能,用于利用深度学习模型对上述目标字段进行同义转换,以得到上述目标字段对应的观点信息,上述观点信息用于规范化表示上述目标字段,上述深度学习模型是根据多个包含目标字段和观点信息的训练样本训练得到的;上述处理器 410,还用于执行查找单元308的功能,用于根据上述数据库中存储的观点信息与漏洞信息的映射关系,确定出上述观点信息对应的漏洞信息。
在一种可实施的方式中,上述处理器410,还用于执行分词单元309的功能,用于对上述舆情信息进行分词处理,得到分词集合;上述处理器410,还用于执行确定单元310的功能,用于从上述分词集合中确定出出现次数大于预设值的分词,并监测上述分词集合中出现次数大于预设值的分词是否为预设禁用词;上述处理器410,还用于执行添加单元311的功能,用于若上述分词集合中出现次数大于预设值的分词不为上述预设禁用词,则将上述分词集合中出现次数大于预设值的分词作为新增的目标关键词。
在一种可实施的方式中,上述处理器410,还用于在预设信息平台抓取上述舆情信息;上述处理器410,还用于执行获取单元312的功能,用于通过网络爬虫获取信息传播平台;上述处理器410,还用于统计上述目标关键词在上述信息传播平台中的出现次数;上述处理器410,还用于若上述目标关键词在上述信息传播平台中的出现次数大于预设值,则将上述信息传播平台作为上述预设信息平台。
在一种可实施的方式中,上述处理器410,还用于获取上述目标关键词对应的目标阈值,上述目标阈值的大小用于指示上述目标关键词的重要程度,不同的目标关键词对应不同的目标阈值;上述处理器410,还用于执行比较单元313 的功能,用于比较上述目标关键词的出现次数与上述目标关键词对应的目标阈值;上述处理器410,具体用于若上述舆情信息中的目标关键词的出现次数大于目标阈值,则生成异常信息。
在一种可实施的方式中,上述处理器410,还用于执行记载单元314的功能,用于将上述异常信息记录到日志文件中。
通信单元420,用于执行发送单元312的功能,用于在接收到日志请求的情况下,将上述日志文件发送给上述管理人员的终端设备,以供上述管理人员查看和分析。
应当理解,在本申请实施例中,所称处理器410可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array, FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器440可以包括只读存储器和随机存取存储器,并向处理器410提供指令和数据。存储器440的一部分还可以包括非易失性随机存取存储器。例如,存储器440还可以存储设备类型的信息。
具体实现中,本申请实施例中所描述的处理器410、通信接口420和输出设备430可执行本申请实施例提供的异常监测方法的第一实施例和第二实施例中所描述的实现方式,也可执行本申请实施例所描述的异常监测装置的实现方式,在此不再赘述。
在本申请的另一实施例中提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令被处理器执行。
计算机可读存储介质可以是前述任一实施例的异常监测装置的内部存储单元,例如异常监测装置的硬盘或内存。计算机可读存储介质也可以是异常监测装置的外部存储设备,例如异常监测装置上配备的插接式硬盘,智能存储卡 (Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,计算机可读存储介质还可以既包括异常监测装置的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序以及异常监测装置所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同异常监测方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的异常监测装置和单元的具体工作过程,可以参考前述异常监测方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的异常监测装置和异常监测方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,异常监测装置,或者网络设备等)执行本申请各个实施例异常监测方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种线上活动的异常监测方法,其特征在于,包括:
抓取包括目标关键词的舆情信息,所述舆情信息是多个用户针对线上活动的反馈信息,所述目标关键词包括所述线上活动的活动关键词和漏洞关键词中的至少一种,所述活动关键词用于指示所述线上活动的内容,所述漏洞关键词用于指示所述线上活动的漏洞;
统计所述舆情信息中所述目标关键词的出现次数;
在数据库中获取所述目标关键词的目标权重,并根据所述目标关键词的目标权重和所述出现次数计算所述目标关键词的目标出现次数;
若所述舆情信息中的目标关键词的目标出现次数大于阈值,则生成异常信息,所述异常信息用于指示所述线上活动存在异常;
显示所述异常信息,以提示管理人员采取补救措施。
2.根据权利要求1所述的方法,其特征在于,所述生成异常信息,包括:
根据所述舆情信息中的间隔符,在所述舆情信息中提取所述目标关键词所在的目标字段,所述间隔符包括标点符号和空格符中的至少一种;
对所述目标字段进行数据分析,得到所述线上活动的漏洞信息,所述漏洞信息用于指示所述线上活动的漏洞情况;
生成包括所述目标字段和所述漏洞信息的异常信息。
3.根据权利要求2所述的方法,其特征在于,所述对所述目标字段进行数据分析,得到所述线上活动的漏洞信息,包括:
利用深度学习模型对所述目标字段进行同义转换,以得到所述目标字段对应的观点信息,所述观点信息用于规范化表示所述目标字段,所述深度学习模型是根据多个包含目标字段和观点信息的训练样本训练得到的;
根据所述数据库中存储的观点信息与漏洞信息的映射关系,确定出所述观点信息对应的漏洞信息。
4.根据权利要求1所述的方法,其特征在于,所述生成异常信息之后,还包括:
对所述舆情信息进行分词处理,得到分词集合;
从所述分词集合中确定出出现次数大于预设值的分词,并监测所述分词集合中出现次数大于预设值的分词是否为预设禁用词;
若所述分词集合中出现次数大于预设值的分词不为所述预设禁用词,则将所述分词集合中出现次数大于预设值的分词作为新增的目标关键词。
5.根据权利要求1所述的方法,其特征在于,所述抓取包括目标关键词的舆情信息,包括:
在预设信息平台抓取所述舆情信息;
所述抓取包括目标关键词的舆情信息之前,还包括:
通过网络爬虫获取信息传播平台;
统计所述目标关键词在所述信息传播平台中的出现次数;
若所述目标关键词在所述信息传播平台中的出现次数大于预设值,则将所述信息传播平台作为所述预设信息平台。
6.根据权利要求1所述的方法,其特征在于,所述在数据库中获取所述目标关键词的目标权重,并根据所述目标关键词的目标权重和所述出现次数计算所述目标关键词的目标出现次数,若所述舆情信息中的目标关键词的目标出现次数大于阈值,则生成异常信息,包括:
获取所述目标关键词对应的目标阈值,所述目标阈值的大小用于指示所述目标关键词的重要程度,不同的目标关键词对应不同的目标阈值;
比较所述目标关键词的出现次数与所述目标关键词对应的目标阈值;
若所述舆情信息中的目标关键词的出现次数大于目标阈值,则生成异常信息。
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述生成异常信息之后,还包括:
将所述异常信息记录到日志文件中;
在接收到日志请求的情况下,将所述日志文件发送给所述管理人员的终端设备,以供所述管理人员查看和分析。
8.一种异常监测装置,其特征在于,包括:
抓取单元,用于抓取包括目标关键词的舆情信息,所述舆情信息包括线上活动的活动关键词和漏洞关键词中的至少一种,所述活动关键词为与所述线上活动的内容相关的关键词,所述漏洞关键词为与所述线上活动的漏洞相关的关键词;
统计单元,用于统计所述舆情信息中所述目标关键词的出现次数;
所述统计单元,还用于在数据库中获取所述目标关键词的目标权重,并根据所述目标关键词的目标权重和所述出现次数计算所述目标关键词的目标出现次数;
生成单元,用于若所述舆情信息中的目标关键词的目标出现次数大于阈值,则生成异常信息,所述异常信息用于指示所述线上活动存在异常;
显示单元,用于显示所述异常信息,以提示管理人员采取补救措施。
9.一种异常监测装置,其特征在于,包括处理器、通信接口、输出设备和存储器,所述处理器、通信接口、输出设备和存储器相互连接,其中,所述通信接口用于与其他终端设备进行数据交互,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,用以执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910426498.0A CN110222513B (zh) | 2019-05-21 | 2019-05-21 | 一种线上活动的异常监测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910426498.0A CN110222513B (zh) | 2019-05-21 | 2019-05-21 | 一种线上活动的异常监测方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110222513A true CN110222513A (zh) | 2019-09-10 |
CN110222513B CN110222513B (zh) | 2023-06-23 |
Family
ID=67821712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910426498.0A Active CN110222513B (zh) | 2019-05-21 | 2019-05-21 | 一种线上活动的异常监测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222513B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110727850A (zh) * | 2019-09-19 | 2020-01-24 | 浙江善政科技有限公司 | 网络信息的过滤方法,计算机可读存储介质和移动终端 |
CN110866258A (zh) * | 2019-10-12 | 2020-03-06 | 平安科技(深圳)有限公司 | 快速定位漏洞方法、电子装置及存储介质 |
CN111753159A (zh) * | 2020-04-17 | 2020-10-09 | 付涛 | 一种舆情数据监控管理方法 |
CN112182585A (zh) * | 2020-09-29 | 2021-01-05 | 湖南大学 | 源代码漏洞检测方法、系统及存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657393A (zh) * | 2013-11-25 | 2015-05-27 | 深圳市至高通信技术发展有限公司 | 一种舆情分析方法及相应的装置 |
US20170169012A1 (en) * | 2015-12-09 | 2017-06-15 | Le Holdings (Beijing) Co., Ltd. | Method and System for Synonym Data Mining |
CN108108902A (zh) * | 2017-12-26 | 2018-06-01 | 阿里巴巴集团控股有限公司 | 一种风险事件告警方法和装置 |
CN108363784A (zh) * | 2018-01-20 | 2018-08-03 | 西北工业大学 | 一种基于文本机器学习的舆情走向预测方法 |
CN108509474A (zh) * | 2017-09-15 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 搜索信息的同义词扩展方法及装置 |
CN108959383A (zh) * | 2018-05-31 | 2018-12-07 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN109145215A (zh) * | 2018-08-29 | 2019-01-04 | 中国平安保险(集团)股份有限公司 | 网络舆情分析方法、装置及存储介质 |
CN109145216A (zh) * | 2018-08-29 | 2019-01-04 | 中国平安保险(集团)股份有限公司 | 网络舆情监控方法、装置及存储介质 |
CN109299256A (zh) * | 2018-09-14 | 2019-02-01 | 成都信息工程大学 | 一种在线观点挖掘方法及系统 |
CN109325165A (zh) * | 2018-08-29 | 2019-02-12 | 中国平安保险(集团)股份有限公司 | 网络舆情分析方法、装置及存储介质 |
CN109522463A (zh) * | 2018-10-18 | 2019-03-26 | 西南石油大学 | 应用程序的舆情分析方法和装置 |
CN109614551A (zh) * | 2018-12-12 | 2019-04-12 | 上海优扬新媒信息技术有限公司 | 一种负面舆情判断方法和装置 |
CN109657116A (zh) * | 2018-11-12 | 2019-04-19 | 平安科技(深圳)有限公司 | 一种舆情搜索方法、搜索装置、存储介质和终端设备 |
CN109684635A (zh) * | 2018-12-20 | 2019-04-26 | 上海四宸软件技术有限公司 | 一种基于智能营销的用户评价观点挖掘系统 |
CN109684481A (zh) * | 2019-01-04 | 2019-04-26 | 深圳壹账通智能科技有限公司 | 舆情分析方法、装置、计算机设备和存储介质 |
-
2019
- 2019-05-21 CN CN201910426498.0A patent/CN110222513B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657393A (zh) * | 2013-11-25 | 2015-05-27 | 深圳市至高通信技术发展有限公司 | 一种舆情分析方法及相应的装置 |
US20170169012A1 (en) * | 2015-12-09 | 2017-06-15 | Le Holdings (Beijing) Co., Ltd. | Method and System for Synonym Data Mining |
CN108509474A (zh) * | 2017-09-15 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 搜索信息的同义词扩展方法及装置 |
CN108108902A (zh) * | 2017-12-26 | 2018-06-01 | 阿里巴巴集团控股有限公司 | 一种风险事件告警方法和装置 |
CN108363784A (zh) * | 2018-01-20 | 2018-08-03 | 西北工业大学 | 一种基于文本机器学习的舆情走向预测方法 |
CN108959383A (zh) * | 2018-05-31 | 2018-12-07 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN109145215A (zh) * | 2018-08-29 | 2019-01-04 | 中国平安保险(集团)股份有限公司 | 网络舆情分析方法、装置及存储介质 |
CN109145216A (zh) * | 2018-08-29 | 2019-01-04 | 中国平安保险(集团)股份有限公司 | 网络舆情监控方法、装置及存储介质 |
CN109325165A (zh) * | 2018-08-29 | 2019-02-12 | 中国平安保险(集团)股份有限公司 | 网络舆情分析方法、装置及存储介质 |
CN109299256A (zh) * | 2018-09-14 | 2019-02-01 | 成都信息工程大学 | 一种在线观点挖掘方法及系统 |
CN109522463A (zh) * | 2018-10-18 | 2019-03-26 | 西南石油大学 | 应用程序的舆情分析方法和装置 |
CN109657116A (zh) * | 2018-11-12 | 2019-04-19 | 平安科技(深圳)有限公司 | 一种舆情搜索方法、搜索装置、存储介质和终端设备 |
CN109614551A (zh) * | 2018-12-12 | 2019-04-12 | 上海优扬新媒信息技术有限公司 | 一种负面舆情判断方法和装置 |
CN109684635A (zh) * | 2018-12-20 | 2019-04-26 | 上海四宸软件技术有限公司 | 一种基于智能营销的用户评价观点挖掘系统 |
CN109684481A (zh) * | 2019-01-04 | 2019-04-26 | 深圳壹账通智能科技有限公司 | 舆情分析方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
余宏;: "基于语义的主题网络舆情挖掘系统模型研究" * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110727850A (zh) * | 2019-09-19 | 2020-01-24 | 浙江善政科技有限公司 | 网络信息的过滤方法,计算机可读存储介质和移动终端 |
CN110727850B (zh) * | 2019-09-19 | 2023-04-28 | 浙江善政科技有限公司 | 网络信息的过滤方法,计算机可读存储介质和移动终端 |
CN110866258A (zh) * | 2019-10-12 | 2020-03-06 | 平安科技(深圳)有限公司 | 快速定位漏洞方法、电子装置及存储介质 |
CN110866258B (zh) * | 2019-10-12 | 2023-11-21 | 平安科技(深圳)有限公司 | 快速定位漏洞方法、电子装置及存储介质 |
CN111753159A (zh) * | 2020-04-17 | 2020-10-09 | 付涛 | 一种舆情数据监控管理方法 |
CN112182585A (zh) * | 2020-09-29 | 2021-01-05 | 湖南大学 | 源代码漏洞检测方法、系统及存储介质 |
CN112182585B (zh) * | 2020-09-29 | 2024-04-26 | 湖南大学 | 源代码漏洞检测方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110222513B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222513A (zh) | 一种线上活动的异常监测方法、装置及存储介质 | |
CN104598367B (zh) | 数据中心故障事件管理自动化系统及方法 | |
US9910723B2 (en) | Event detection through text analysis using dynamic self evolving/learning module | |
US9177254B2 (en) | Event detection through text analysis using trained event template models | |
CN113159615B (zh) | 一种工业控制系统信息安全风险智能测定系统及方法 | |
CN110377900A (zh) | 网络内容发布的审核方法、装置、计算机设备及存储介质 | |
CN112468659B (zh) | 应用于电话客服的质量评价方法、装置、设备及存储介质 | |
CN112087442B (zh) | 基于注意力机制的时序相关网络入侵检测方法 | |
CN103927297A (zh) | 基于证据理论的中文微博可信度评估方法 | |
CN110458296B (zh) | 目标事件的标记方法和装置、存储介质及电子装置 | |
CN113762377B (zh) | 网络流量识别方法、装置、设备及存储介质 | |
CN111754241A (zh) | 一种用户行为感知方法、装置、设备及介质 | |
CN114357190A (zh) | 一种数据检测方法、装置、电子设备及存储介质 | |
CN110011990A (zh) | 内网安全威胁智能分析方法 | |
CN111767739B (zh) | 一种基于pptl3的微信群在线监控方法及系统 | |
CN115547360A (zh) | 预警方法、装置、电子设备及存储介质 | |
CN116996325A (zh) | 一种基于云计算的网络安全检测方法及系统 | |
CN117520522B (zh) | 一种基于rpa和ai结合的智能对话方法、装置及电子设备 | |
CN113282920B (zh) | 日志异常检测方法、装置、计算机设备和存储介质 | |
CN118295842A (zh) | 交易系统异常事件的数据处理方法、装置和服务器 | |
WO2015084756A1 (en) | Event detection through text analysis using trained event template models | |
He et al. | An effective double-layer detection system against social engineering attacks | |
WO2024055603A1 (zh) | 一种未成年人文本识别方法及装置 | |
CN112785146A (zh) | 一种网络舆情的评估方法及系统 | |
CN105302844B (zh) | 互联网监测方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |