CN105335422A - 舆情信息的告警方法及装置 - Google Patents

舆情信息的告警方法及装置 Download PDF

Info

Publication number
CN105335422A
CN105335422A CN201410384009.7A CN201410384009A CN105335422A CN 105335422 A CN105335422 A CN 105335422A CN 201410384009 A CN201410384009 A CN 201410384009A CN 105335422 A CN105335422 A CN 105335422A
Authority
CN
China
Prior art keywords
feelings information
public feelings
detected
alarm
feature field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410384009.7A
Other languages
English (en)
Other versions
CN105335422B (zh
Inventor
王鑫文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201410384009.7A priority Critical patent/CN105335422B/zh
Publication of CN105335422A publication Critical patent/CN105335422A/zh
Application granted granted Critical
Publication of CN105335422B publication Critical patent/CN105335422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种舆情信息的告警方法及装置,其中,该方法包括:从网络信息中识别出待检测舆情信息;对待检测舆情信息进行预处理,将预处理后的待检测舆情信息划分为多个特征字段;至少根据预处理后的待检测舆情信息对应的特征字段与已告警的舆情信息对应的特征字段的相似度,判断待检测舆情信息是否满足告警条件;若满足告警条件,则对待检测舆情信息进行告警。本发明解决了现有技术无法对舆情信息进行准确告警的技术问题,达到了提高对舆情信息进行告警的准确性的技术效果。

Description

舆情信息的告警方法及装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种舆情信息的告警方法及装置。
背景技术
如今我们已经完全进入互联网时代,对于及时发现并处理关于诸多互联网应用产品的网络舆情,显得越来越重要。其中,网络舆情是指在互联网上流行的对社会问题不同看法的网络舆论,是社会舆论的一种表现形式,是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。如果能尽早发现并及时处理关于上述产品的网络舆情,可极大程度地控制网络上公众舆论对上述产品的影响。
目前,通常采用的对网络舆情的控制方法是通过预定规则来识别并阻止某些舆情,例如,以微博为例,通常设定的一种预定规则是为微博粉丝数或评论数设定阈值,即,通过限制对产品的评论数量来控制舆情;或者,另一种预定规则是设定关键词,如“支付宝漏洞”,即,通过预先设定的关键词筛选过滤网络舆情,从而实现对关于产品的网络舆情进行控制。然而,这些控制方式的准确率普遍较低,通常只有2%左右。也就是说,现有的对网络舆情的控制方法还无法准确识别出网络中对产品产生消极影响的舆情,更加无法及时准确地对这些舆情发出告警,以实现对网络舆情地有效控制。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种舆情信息的告警方法及装置,以至少解决现有技术无法对舆情信息进行准确告警的技术问题。
根据本发明实施例的一个方面,提供了一种舆情信息的告警方法,包括:从网络信息中识别出待检测舆情信息;对上述待检测舆情信息进行预处理,将预处理后的上述待检测舆情信息划分为多个特征字段;至少根据预处理后的上述待检测舆情信息对应的上述特征字段与已告警的舆情信息对应的特征字段的相似度,判断上述待检测舆情信息是否满足告警条件;若满足上述告警条件,则对上述待检测舆情信息进行告警。
可选地,上述至少根据预处理后的上述待检测舆情信息对应的上述特征字段与已告警的舆情信息对应的特征字段的相似度,判断上述待检测舆情信息是否满足告警条件包括:在上述已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于第一预定阈值;若在上述已告警的舆情信息对应的特征字段中查找到至少包括一条上述舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于第一预定阈值,则判断出上述待检测舆情信息不满足上述告警条件。
可选地,上述至少根据预处理后的上述待检测舆情信息对应的上述特征字段与已告警的舆情信息对应的特征字段的相似度,判断上述待检测舆情信息是否满足告警条件包括:在上述已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于第一预定阈值;若在上述已告警的舆情信息对应的特征字段中未查找出一条上述舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于上述第一预定阈值,则在未告警的舆情信息对应的特征字段中查找满足与上述待检测舆情信息对应的上述特征字段的相似度小于等于第二预定阈值的条件的上述未告警的舆情信息对应的特征字段,判断满足上述条件的上述未告警的舆情信息的数量是否大于等于第三预定阈值;若满足上述条件的上述未告警的舆情信息的数量大于等于上述第三预定阈值,则判断出上述待检测舆情信息满足上述告警条件,将对上述待检测舆情信息进行告警。
可选地,上述在上述已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于第一预定阈值包括:分别根据上述待检测舆情信息对应的上述特征字段中的每一个待检测特征字段在上述已告警的舆情信息对应的特征字段中进行查找,得到与每一个上述待检测特征字段对应的特征集合;按照预定的顺序将每一个上述待检测特征字段对应的特征集合中的上述已告警的舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段进行比较,判断上述已告警的舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度是否小于等于上述第一预定阈值;上述若在上述已告警的舆情信息对应的特征字段中查找到至少包括一条上述舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于第一预定阈值,则判断出上述待检测舆情信息不满足上述告警条件包括:只要查找到一条上述已告警的舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于上述第一预定阈值,则判断出上述待检测舆情信息为已告警的舆情信息,上述待检测舆情信息不满足上述告警条件。
可选地,上述在未告警的舆情信息对应的特征字段中查找满足与上述待检测舆情信息对应的上述特征字段的相似度小于等于第二预定阈值的条件的上述未告警的舆情信息对应的特征字段,判断满足上述条件的上述未告警的舆情信息的数量是否大于等于第三预定阈值包括:分别根据上述待检测舆情信息对应的上述特征字段中的每一个待检测特征字段在上述未告警的舆情信息对应的特征字段中进行查找,得到与每一个上述待检测特征字段对应的特征集合;按照预定的顺序将每一个上述待检测特征字段对应的特征集合中的上述未告警的舆情信息对应的特征字段与上述待检测舆情信息对应的上述特征字段进行比较,判断上述未告警的舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度是否小于等于上述第二预定阈值;将查找到的与上述待检测舆情信息对应的上述特征字段的相似度小于等于上述第二预定阈值的上述未告警的舆情信息计数;上述若满足上述条件的上述未告警的舆情信息的数量大于等于上述第三预定阈值,则判断出上述待检测舆情满足上述告警条件,将对上述待检测舆情信息进行告警包括:当查找到与上述待检测舆情信息对应的上述特征字段的相似度小于等于上述第二预定阈值的上述未告警的舆情信息的数量达到上述第三预定阈值时,则判断出上述待检测舆情信息满足上述告警条件,将对上述待检测舆情信息进行告警。
可选地,上述对上述待检测舆情信息进行预处理,将预处理后的上述待检测舆情信息划分为多个特征字段包括:提取上述待检测舆情信息的主题;对上述主题进行哈希转码操作得到预定码长的哈希码;将上述哈希码划分为上述多个特征字段。
可选地,上述从网络信息中识别出待检测舆情信息包括以下至少之一:通过贝叶斯分类判断识别出上述待检测舆情信息;或者,通过支持向量机SVM分类判断识别出上述待检测舆情信息。
可选地,与上述待检测舆情信息对应的上述特征字段之间的上述相似度为海明距离。
根据本发明实施例的另一方面,还提供了一种舆情信息的告警装置,包括:识别单元,用于从网络信息中识别出待检测舆情信息;预处理单元,用于对上述待检测舆情信息进行预处理,将预处理后的上述待检测舆情信息划分为多个特征字段;判断单元,用于至少根据预处理后的上述待检测舆情信息对应的上述特征字段与已告警的舆情信息对应的特征字段的相似度,判断上述待检测舆情信息是否满足告警条件;告警单元,用于在满足上述告警条件时,对上述待检测舆情信息进行告警。
可选地,上述判断单元包括:第一查找模块,用于在上述已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于第一预定阈值;第一判断模块,用于在上述已告警的舆情信息对应的特征字段中查找到至少包括一条上述舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于第一预定阈值时,判断出上述待检测舆情信息不满足上述告警条件。
可选地,上述判断单元包括:第二查找模块,用于在上述已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于第一预定阈值;第三查找模块,用于在上述已告警的舆情信息对应的特征字段中未查找出一条上述舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于上述第一预定阈值时,在未告警的舆情信息对应的特征字段中查找满足与上述待检测舆情信息对应的上述特征字段的相似度小于等于第二预定阈值的条件的上述未告警的舆情信息对应的特征字段,判断满足上述条件的上述未告警的舆情信息的数量是否大于第三预定阈值;第二判断模块,用于在满足上述条件的上述未告警的舆情信息的数量大于上述第三预定阈值时,判断出上述待检测舆情信息满足上述告警条件,将对上述待检测舆情信息进行告警。
可选地,上述第一查找模块包括:第一查找子模块,用于分别根据上述待检测舆情信息对应的上述特征字段中的每一个待检测特征字段在上述已告警的舆情信息对应的特征字段中进行查找,得到与每一个上述待检测特征字段对应的特征集合;第一比较子模块,用于按照预定的顺序将每一个上述待检测特征字段对应的特征集合中的上述已告警的舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段进行比较,判断上述已告警的舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度是否小于等于上述第一预定阈值;上述第一判断模块包括:第一判断子模块,用于只要查找到一条上述已告警的舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于上述第一预定阈值时,判断出上述待检测舆情信息为已告警的舆情信息,上述待检测舆情信息不满足上述告警条件。
可选地,上述第三查找模块包括:第二查找子模块,用于分别根据上述待检测舆情信息对应的上述特征字段中的每一个待检测特征字段在上述未告警的舆情信息对应的特征字段中进行查找,得到与每一个上述待检测特征字段对应的特征集合;第二比较子模块,用于按照预定的顺序将每一个上述待检测特征字段对应的特征集合中的上述未告警的舆情信息对应的特征字段与上述待检测舆情信息对应的上述特征字段进行比较,判断上述未告警的舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度是否小于等于上述第二预定阈值;计数子模块,用于将查找到的与上述待检测舆情信息对应的上述特征字段的相似度小于等于上述第二预定阈值的上述未告警的舆情信息计数;上述第二判断模块包括:告警子模块,用于在查找到的与上述待检测舆情信息对应的上述特征字段的相似度小于等于上述第二预定阈值的上述未告警的舆情信息的数量达到上述第三预定阈值时,判断出上述待检测舆情信息满足上述告警条件,将对上述待检测舆情信息进行告警。
可选地,上述对上述预处理单元包括:提取模块,用于提取上述待检测舆情信息的主题;转码模块,用于对上述主题进行哈希转码操作得到预定码长的哈希码;划分模块,用于将上述哈希码划分为上述多个特征字段。
可选地,与上述待检测舆情信息对应的上述特征字段之间的上述相似度为海明距离。
在本发明实施例中,通过将从网络信息中识别出的待检测舆情信息进行预处理后,至少根据预处理后的上述待检测舆情信息对应的特征字段与已告警的舆情信息对应的特征字段的相似度,判断上述待检测舆情信息是否满足告警条件,进而判断出上述待检测舆情信息是否已经告警过,避免对待检测舆情信息的重复告警,从而实现对舆情信息的准确告警。
进一步,将待检测舆情信息与未告警的舆情信息进行相似度比较,当满足相似度判断条件的未告警的舆情信息的数量大于预定阈值时,对待检测舆情信息进行告警,以克服现有技术中无法对舆情信息进行准确告警的问题。此外,通过利用与多个特征字段中的每一个特征字段对应的特征集合进行查找,实现了对舆情信息的及时告警,缩短了舆情信息的告警周期。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的舆情信息的告警方法的流程示意图;
图2是根据本发明实施例的一种可选的舆情信息的告警方法的应用场景示意图;
图3是根据本发明实施例的一种可选的舆情信息的告警方法中Simhash示意图;
图4是根据本发明实施例的另一种可选的舆情信息的告警方法的流程示意图;以及
图5是根据本发明实施例的一种可选的舆情信息的告警装置的示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例1
根据本发明实施例,提供了一种舆情信息的告警方法,如图1所示,在本实施例中,该方法包括:
S102,从网络信息中识别出待检测舆情信息;
S104,对待检测舆情信息进行预处理,将预处理后的待检测舆情信息划分为多个特征字段;
S106,至少根据预处理后的待检测舆情信息对应的特征字段与已告警的舆情信息对应的特征字段的相似度,判断待检测舆情信息是否满足告警条件;
S108,若满足告警条件,则对待检测舆情信息进行告警;
S110,若不满足告警条件,则不对待检测舆情信息进行告警。
可选地,在本实施例中,上述舆情信息的告警方法可以应用于对网络舆情的控制过程中,假设如图2所示,网络中包括终端202-1至终端202-5,上述终端将对某一产品的评论看法通过网络发送至服务器204中,以使服务器204从多个终端中获得的网络信息中识别出待检测舆情信息。可选地,在本实施例中,待检测舆情信息可以但不限于负面舆情信息,其中,上述负面舆情信息可以包括网络信息中对产品的负面评论及看法,例如,恶意评论,这些负面舆情信息会给产品带来消极的市场影响。上述仅是一种示例,本实施例对此不做任何限定。
可选地,在本实施例中,从网络信息识别出待检测舆情信息的方式可以包括以下至少之一:1)通过贝叶斯分类判断识别出所述待检测舆情信息;或者,2)通过支持向量机SVM分类判断识别出所述待检测舆情信息。通过上述方式对舆情信息进行判断识别,以得到待检测舆情信息。例如,以贝叶斯分类识别为例,若从网络中接收到的舆情信息通过贝叶斯判断属于负面舆情信息的概率大于预定阈值,则可以判断识别出上述获取到的舆情信息为负面舆情信息。
可选地,在本实施例中,对待检测舆情信息进行预处理包括:
S1,提取待检测舆情信息的主题;
S2,对主题进哈希转码操作得到预定码长的哈希码;
S3,将哈希码划分为多个特征字段。
可选地,在本实施例中,上述主题可以来源于但不限于以下之一:标题、特殊符号标识的话题。例如,若接收到新闻信息,或论坛中的帖子,则将根据新闻或帖子的标题来提取主题;若接收到微博中的信息,则可以对带有特殊符号标识的话题,例如,对带有“【】”、“##”的话题来提取主题。
可选地,在本实施例中,上述哈希转码操作可以但不限于Simhash转码,其中,Simhash是指将N维向量转换成hash码,进而通过比较两段哈希码来衡量两段舆情信息的文本相似度。
具体结合以下示例进行说明,假设服务器204从网络信息中识别出待检测舆情信息,提取出主题“错误登录,尽快修改密码”,上述主题对应的ID为76,再经过Simhash转码操作后得到64位的二进制哈希码,例如,待检测舆情信息对应的特征字段为10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111,然后将上述哈希码化分为8个特征字段进行存储,如表1所示。
表1
舆情信息ID Simhash1 Simhash2 …… Simhash6 Simhash7 Simhash8 Simhash
76 10101111 01010011 …… 01110101 10111101 00001111 1…….1
根据表1所示的8个特征字段与已告警的舆情信息对应的特征字段比较后得到相似度(例如,相似度为3),则进一步根据上述相似度判断上述待检测舆情信息是否满足告警条件,例如,判断上述相似度是否小于等于预定阈值,来判断上述待检测舆情信息是否已经告警过。
可选地,在本实施例中,已告警的舆情信息可以但不限于保存在一个已告警舆情信息集合中,用S集合标识。当识别出待检测舆情信息,则可以将上述待检测舆情信息对应的特征字段与S集合中已告警的舆情信息进行相似度比对。可选地,在本实施例中,上述相似度可以但不限于用海明距离来衡量,其中,上述海明距离为两个码字的对应比特取值不同的比特数。
具体结合以下示例进行说明,假设相似度预定阈值设定为6,待检测舆情信息对应的特征字段为10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111,与已告警舆情信息集合中对应的所有特征字段的相似度分别为1至5中任意值,均小于相似度预定阈值6,则可以判断出上述待检测舆情信息还未告警,需要进一步判断是否对该待检测舆情信息进行告警。
通过本申请提供的实施例,通过将识别出的待检测舆情信息进行预处理,并将经过预处理后得到的待检测舆情信息对应的特征字段,与已告警的舆情信息对应的特征字段进行比较,比较二者的相似度,进而判断上述待检测舆情信息是否满足告警条件,对判断出满足告警条件的待检测舆情信息进行告警。从而克服了现有技术无法对舆情信息准确告警的问题,通过比对特征字段的相似度,达到了对识别出的待检测舆情信息进行准确告警的效果。
作为一种可选的方案,至少根据预处理后的待检测舆情信息对应的特征字段与已告警的舆情信息对应的特征字段的相似度,判断待检测舆情信息是否满足告警条件包括:
S1,在已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值;
S2,若在已告警的舆情信息对应的特征字段中查找到至少包括一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值,则判断出待检测舆情信息不满足告警条件。
可选地,在本实施例中,在已告警的舆情信息中查找一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值的方式可以包括但不限于:在已告警舆情信息集合(例如,S集合)中分别根据待检测舆情信息对应的特征字段中的每一个特征字段进行查找。
具体结合以下示例进行说明,假设以待检测舆情信息对应的特征字段是10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111为例。在已告警舆情信息集合(例如,S集合)中根据第一特征字段10101111进行查找,将已告警舆情信息集合中第一特征字段与待检测舆情信息的第一特征字段相同的已告警的舆情信息作为第一特征集合,在该集合中比较待检测舆情信息与已告警的舆情信息的相似度,若未查找到相似度小于等于第一预定阈值的舆情信息,则将根据待检测舆情信息的第二特征字段继续进行查找,在第二特征字段对应的第二特征集合中进行相似度比较,依次在待检测舆情信息对应的特征字段中进行查找。若查找到一条已告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值,则可判断出上述待检测舆情信息已经告警过,无需继续进行查找。
通过本申请提供的实施例,通过与已告警的舆情信息进行比较,判断待检测舆情信息是否至少与一条已告警的舆情信息的相似度满足小于等于第一预定阈值的条件,若满足则表示上述待检测舆情信息已告警过,无需对上述待检测舆情进行重复告警,从而实现了提高对舆情信息进行告警的准确性。
作为一种可选的方案,至少根据预处理后的待检测舆情信息对应的特征字段与已告警的舆情信息对应的特征字段的相似度,判断待检测舆情信息是否满足告警条件包括:
S1,在已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值;
S2,若在已告警的舆情信息对应的特征字段中未查找出一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值,则在未告警的舆情信息对应的特征字段中查找满足与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的条件的未告警的舆情信息对应的特征字段,判断满足上述条件的未告警的舆情信息的数量是否大于等于第三预定阈值;
S3,若满足上述条件的未告警的舆情信息的数量大于等于第三预定阈值,则判断出待检测舆情信息满足告警条件,将对待检测舆情信息进行告警。
可选地,在本实施例中,第一预定阈值、第二预定阈值及第三预定阈值可以但不限于根据不同的应用场景取相同或不同的数值,本实施例对此不做任何限定。
可选地,在本实施例中,未告警的舆情信息可以但不限于保存在一个未告警舆情信息集合中,用R集合标识,将上述待检测舆情信息对应的特征字段与R集合中已告警的舆情信息进行相似度比对。
可选地,在本实施例中,在未告警的舆情信息对应的特征字段中查找与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的方式可以包括但不限于:在未告警舆情信息集合(例如,R集合)中分别根据待检测舆情信息对应的特征字段中的每一个特征字段进行查找。
具体结合以下示例进行说明,假设以待检测舆情信息对应的特征字段是10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111为例。在已告警舆情信息集合中未查找出一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值时,则在未告警舆情信息集合(例如,R集合)中根据第一特征字段10101111进行查找,然后依次在不同特征字段对应的特征集合中进行查找,并得到在未告警的舆情信息对应的特征字段中与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息的数量。
通过本申请提供的实施例,通过与未告警的舆情信息进行比较,判断与待检测舆情信息的相似度小于等于第二预定阈值的未告警的舆情信息的数量是否大于第三预定阈值,从而在上述数量大于第三预定阈值时,判断出对上述待检测舆情信息进行告警,实现对待检测舆情信息的准确告警。
作为一种可选的方案,上述在已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值包括:S1,分别根据待检测舆情信息对应的特征字段中的每一个待检测特征字段在已告警的舆情信息对应的特征字段中进行查找,得到与每一个待检测特征字段对应的特征集合;S2,按照预定的顺序将每一个待检测特征字段对应的特征集合中的已告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段进行比较,判断已告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度是否小于等于第一预定阈值;
上述若查找到至少包括一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值,则判断出待检测舆情信息不满足告警条件包括:S1,只要查找到一条已告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值,则可判断出待检测舆情信息为已告警的舆情信息,待检测舆情信息不满足告警条件。
具体结合以下示例进行说明,假设上述待检测舆情信息对应的特征字段为10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111,相似度用海明距离标识,第一预定阈值为7,已告警的舆情信息对应的特征字段包括但不限于以下字段:
1)10101110,01010000,01001011,10101011,10101011,01110101,10111101,00001101;
2)10101001,01010101,01001010,10101010,10101010,01000101,10110001,01101111;
3)10101111,01010000,01001010,10101010,10101010,01110101,10100101,00110011;
4)10101111,01010011,01010010,10111010,10101010,01110101,10000110,11110000;
5)10101111,01010001,01001010,10101010,10101010,01110101,10111101,00001111。
根据待检测舆情信息的第一特征字段在已告警舆情信息集合(S集合)中查找,得到与第一特征字段对应的第一特征集合,其中,上述第一特征集合包括:
3)10101111,01010000,01001010,10101010,10101010,01110101,10100101,00110011;(相似度为8)
4)10101111,01010011,01010010,10111010,10101010,01110101,10000110,11110000;(相似度为12)
5)10101111,01010001,01001010,10101010,10101010,01110101,10111101,00001111。(相似度为1)
再将上述第一特征集合中每一个已告警的舆情信息对应的特征字段与待检测舆情信息的特征字段进行比较,判断二者之间的相似度。经判断第五个特征字段与待检测舆情信息对应的特征字段的相似度小于第一预定阈值7,则可判断出上述待检测舆情信息不满足告警条件,无需进行告警。
通过本申请提供的实施例,通过分别根据不同的特征字段在已告警的舆情信息中查找到相应的特征集合,再按照预定的顺序依次在各个特征集合中进行相似度比较,当查找到一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值时,则可得出上述待检测舆情信息为已告警的舆情信息,并不满足告警条件,进一步,无需继续在已告警的舆情信息中进行查找或相似度比较,从而实现及时对待检测舆情信息进行判断,缩短了舆情信息的告警周期。
作为一种可选的方案,上述在未告警的舆情信息对应的特征字段中查找与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息的数量是否大于第三预定阈值包括:S1,分别根据待检测舆情信息对应的特征字段多个特征字段中的每一个待检测特征字段在未告警的舆情信息对应的特征字段中进行查找,得到与每一个待检测特征字段对应的特征集合;S2,按照预定的顺序将每一个待检测特征字段对应的特征集合中的未告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段进行比较,判断未告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度是否小于等于第二预定阈值;S3,将查找到的与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息计数;
上述若满足上述条件的未告警的舆情信息的数量大于等于第三预定阈值,则判断出待检测舆情满足告警条件,将对待检测舆情信息进行告警包括:S1,当查找到与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息的数量达到第三预定阈值时,则判断出待检测舆情信息满足告警条件,将对待检测舆情信息进行告警。
具体结合以下示例进行说明,假设上述待检测舆情信息对应的特征字段为10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111,相似度用海明距离标识,第二预定阈值为7,第三预定阈值为2,未告警的舆情信息对应的特征字段包括但不限于以下字段:
1)10101110,01010000,01001011,10101011,10101011,01110101,10111101,00001101;
2)10101111,01010011,01001010,10101010,10101010,01110101,10111101,11001001;
3)10101111,01010000,01001010,10101010,10101010,01110101,10100101,00110011;
4)10101111,01010011,01010010,10111010,10101010,01110101,10000110,11110000;
5)10101111,01010001,01001010,10101010,10101010,01110101,10111101,00001111。
根据待检测舆情信息的第一特征字段在未告警舆情信息集合(R集合)中查找,得到与第一特征字段对应的第一特征集合,其中,上述第一特征集合包括:
2)10101111,01010011,01001010,10101010,10101010,01110101,10111101,11001001;(相似度为4)
3)10101111,01010000,01001010,10101010,10101010,01110101,10100101,00110011;(相似度为8)
4)10101111,01010011,01010010,10111010,10101010,01110101,10000110,11110000;(相似度为12)
5)10101111,01010001,01001010,10101010,10101010,01110101,10111101,00001111。(相似度为1)
再将上述第一特征集合中每一个未告警的舆情信息对应的特征字段与待检测舆情信息的特征字段进行比较,判断二者之间的相似度。经判断第2个特征字段及第5个特征字段与待检测舆情信息对应的特征字段的相似度小于第二预定阈值7,上述相似度小于等于第二预定阈值的未告警的舆情信息的数量已经达到第三预定阈值2时,则可以判断出上述待检测舆情信息满足告警条件,需要对上述待检测舆情信息进行告警。
通过本申请提供的实施例,通过分别根据不同的特征字段在未告警的舆情信息中查找到相应的特征集合,再按照预定的顺序依次在各个特征集合中进行相似度比较,当查找到与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息的数量达到第三预定阈值时,则需要对上述待检测舆情信息进行告警。进一步,当查找到的未告警的舆情信息的数量达到第三预定阈值时,无需继续在未告警的舆情信息中进行查找或相似度比较,也可判断出待检测舆情信息需要进行告警,从而实现及时对待检测舆情信息进行告警,缩短了舆情信息的告警周期。
作为一种可选的方案,所述对所述待检测舆情信息进行预处理,将预处理后的所述待检测舆情信息划分为多个特征字段包括:
S1,提取待检测舆情信息的主题;
S2,对主题进行哈希转码操作得到预定码长的哈希码;
S3,将哈希码划分为多个特征字段。
可选地,在本实施例中,划分为多个特征字段进行查找的方式包括但不限于:假设多个特征字段个数为N,则当相似度比较的第一预定阈值为小于等于N-1时,则当上述相似度(例如,海明距离)中不同的比特码在不同的特征字段时,至少还有一个特征字段中的比特码是与其他舆情信息对应的特征字段完全相同的,则基于上述多个特征字段中的每一个特征字段分别进行查找,得到与上述每一个特征字段对应的特征集合,再基于上述特征集合进行相似度比较时,很大程度上减小了相似度比较的数量,从而提高舆情信息告警判断的效率,使得舆情信息告警更加及时有效。
具体结合以下示例进行说明,例如,通过爬虫抓取微博,对微博中带有特殊符号标识“##”的话题进行识别,得到待检测舆情信息,然后将上述待检测舆情信息进行如图3所示的Simhash转码,得到一个64位二进制码。然后将上述二进制码划分为如表1所示的8段特征字段,并倒序存储,以用于之后的特征字段的相似度比较。
通过本申请提供的实施例,通过对待检测舆情信息进行提取、转码、划分特征字段的预处理后,得到用于查找的多个特征字段,利用与多个特征字段对应的特征集合与待检测舆情信息的特征字段进行相似度比较,达到及时对需要告警的舆情信息进行准确告警,提供了告警的效率,缩短了舆情信息的告警周期。
作为一种可选的方案,从网络信息中识别出待检测舆情信息包括以下至少之一:
1)通过贝叶斯分类判断识别出待检测舆情信息;或者,
2)通过支持向量机SVM分类判断识别出待检测舆情信息。
具体结合以下示例进行说明,贝叶斯分类判断识别可以以贝叶斯分类器为例。根据贝叶斯公式:
P(A|B)=P(B|A)P(A)/P(B)(1)
首先收集样本数据(例如,网络信息),然后对样本数据进行整理,得到模型数据,然后将需要分类的网络信息,进行预处理后,通过贝叶斯公式来判断待检测的舆情信息属于“负面舆情信息”还是“正面舆情信息”,哪个概率大,则该待检测舆情信息就属于哪一类。
具体结合以下示例进行说明,以支持向量机SVM为例。将待检测舆情信息转换为一个n维向量,那么在n维空间中,找到一个超平面将所有n维向量一分为二,例如,“负面舆情信息”对应的第一空间或“正面舆情信息”对应的第二空间,当待检测舆情信息转换得到的n维向量落在上述n维向量的不同空间,则可判断出上述待检测舆情信息是属于“负面舆情信息”还是“正面舆情信息”。
通过本申请提供的实施例,通过获取到的网络信息识别出待检测的舆情信息,例如负面舆情信息,从而克服了现有技术中无法对舆情信息进行告警的问题,实现了提高对舆情信息进行告警的准确性。
具体结合图4中S402至S418所示进行描述,从网络中获取网络信息,然后对识别出的待检测舆情信息执行预处理,如步骤S406-S410,对预处理后的待检测舆情信息继续之后的告警判断步骤,如步骤S412-S414,并对识别出是待检测舆情信息的执行步骤S416,进行舆情信息的告警;对识别出不是待检测舆情信息的执行步骤S418,不进行舆情信息的告警;进一步,对识别出的待检测舆情信息执行的预处理至少包括:执行抽取主题、Simhash转码、划分多个特征字段,对预处理后的待检测舆情信息执行步骤S412,判断上述预处理后的待检测舆情信息是否已经告警过,若判断出上述待检测舆情信息已经告警过,不满足告警条件,则执行步骤S418,不进行舆情信息的告警,若判断出上述待检测舆情信息还未告警过,则执行步骤S414,查找满足与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的条件的未告警的舆情信息对应的特征字段,判断满足上述条件的未告警的舆情信息的数量是否达到第三预定阈值,若达到则执行步骤S416,对待检测舆情信息进行告警,否则执行步骤S418,不进行舆情信息的告警。
本发明提供了一种优选的实施例来进一步对本发明进行解释,但是值得注意的是,该优选实施例只是为了更好的描述本发明,并不构成对本发明不当的限定。
实施例2
根据本发明实施例,还提供了一种舆情信息告警装置,如图5所示,该装置包括:
1)识别单元502,用于从网络信息中识别出待检测舆情信息;
2)预处理单元504,用于对待检测舆情信息进行预处理,将预处理后的待检测舆情信息划分为多个特征字段;
3)判断单元506,用于至少根据预处理后的待检测舆情信息对应的特征字段与已告警的舆情信息对应的特征字段的相似度,判断待检测舆情信息是否满足告警条件;
4)告警单元508,用于在满足告警条件时,对待检测舆情信息进行告警。
可选地,在本实施例中,上述舆情信息的告警方法可以应用于对网络舆情的控制过程中,假设如图2所示,网络中包括终端202-1至终端202-5,上述终端将对某一产品的评论看法通过网络发送至服务器204中,以使服务器204从多个终端中获得的网络信息中识别出待检测舆情信息。可选地,在本实施例中,待检测舆情信息可以但不限于是负面舆情信息,其中,上述负面舆情信息可以包括网络信息中对产品的负面评论及看法,例如,恶意评论,这些负面舆情信息会给产品带来消极的市场影响。上述仅是一种示例,本实施例对此不做任何限定。
可选地,在本实施例中,从网络信息识别出待检测舆情信息的方式可以包括以下至少之一:1)通过贝叶斯分类判断识别出所述待检测舆情信息;或者,2)通过支持向量机SVM分类判断识别出所述待检测舆情信息。通过上述方式对舆情信息进行判断识别,以得到待检测舆情信息。例如,以贝叶斯分类识别为例,若从网络中接收到的舆情信息通过贝叶斯判断属于负面舆情信息的概率大于预定阈值,则可以判断识别出上述获取到的舆情信息为负面舆情信息。
可选地,在本实施例中,对待检测舆情信息进行预处理包括:
S1,提取待检测舆情信息的主题;
S2,对主题进哈希转码操作得到预定码长的哈希码;
S3,将哈希码划分为多个特征字段。
可选地,在本实施例中,上述主题可以来源于但不限于以下之一:标题、特殊符号标识的话题。例如,若接收到新闻信息,或论坛中的帖子,则将根据新闻或帖子的标题来提取主题;若接收到微博中的信息,则可以对带有特殊符号标识的话题,例如,对带有“【】”、“##”的话题来提取主题。
可选地,在本实施例中,上述哈希转码操作可以但不限于Simhash转码,其中,Simhash是指将N维向量转换成hash码,进而通过比较两段哈希码来衡量两段舆情信息的文本相似度。
可选地,在本实施例中,上述舆情信息告警装置还包括:存储单元(图中未示出),其中,上述存储单元可以但不限于用于存储上述分段后得到的特征字段。可选地,在本实施例中,上述分段后得到的特征字段也可以但不限于存储在上述舆情信息告警装置之外的第三方装置的存储单元中。
可选地,在本实施例中,上述存储单元(图中未示出)可以但不限于与上述舆情信息告警装置中的预处理单元504和判断单元506连接。
具体结合以下示例进行说明,假设服务器204从网络信息中识别出待检测舆情信息,提取出主题“错误登录,尽快修改密码”,上述主题对应的ID为76,再经过Simhash转码操作后得到64位的二进制哈希码,例如,待检测舆情信息对应的特征字段为10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111,然后将上述哈希码化分为8个特征字段进行存储,如表2所示。
表2
舆情信息ID Simhash1 Simhash2 …… Simhash6 Simhash7 Simhash8 Simhash
76 10101111 01010011 …… 01110101 10111101 00001111 1…….1
根据表2所示的8个特征字段与已告警的舆情信息对应的特征字段比较后得到相似度(例如,相似度为3),则进一步根据上述相似度判断上述待检测舆情信息是否满足告警条件,例如,判断上述相似度是否小于等于预定阈值,来判断上述待检测舆情信息是否已经告警过。
可选地,在本实施例中,已告警的舆情信息可以但不限于保存在一个已告警舆情信息集合中,用S集合标识。可选地,在本实施例中,上述已告警舆情信息集合可以但不限于存储在上述舆情信息告警装置中的存储单元(图中未示出)中,也可以但不限于存储在上述舆情信息告警装置之外的第三方装置的存储单元中。当识别出待检测舆情信息,则可以将上述待检测舆情信息对应的特征字段与S集合中已告警的舆情信息进行相似度比对。可选地,在本实施例中,上述相似度可以但不限于用海明距离来衡量,其中,上述海明距离为两个码字的对应比特取值不同的比特数。
具体结合以下示例进行说明,假设相似度预定阈值设定为6,待检测舆情信息对应的特征字段为10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111,与已告警舆情信息集合中对应的所有特征字段的相似度分别为1至5中任意值,均小于相似度预定阈值6,则可以判断出上述待检测舆情信息还未告警,需要进一步判断是否对该待检测舆情信息进行告警。
在本申请提供的实施例中,通过将识别出的待检测舆情信息进行预处理,并将经过预处理后得到的待检测舆情信息对应的特征字段,与已告警的舆情信息对应的特征字段进行比较,比较二者的相似度,进而判断上述待检测舆情信息是否满足告警条件,对判断出满足告警条件的待检测舆情信息进行告警。从而克服了现有技术无法对舆情信息准确告警的问题,通过比对特征字段的相似度,达到了对识别出的待检测舆情信息进行准确告警的效果。
作为一种可选的方案,上述判断单元506包括:
1)第一查找模块,用于在已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值;
2)第一判断模块,用于在已告警的舆情信息对应的特征字段中查找到至少包括一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值时,判断出待检测舆情信息不满足告警条件。
可选地,在本实施例中,在已告警的舆情信息中查找一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值的方式可以包括但不限于:在已告警舆情信息集合(例如,S集合)中分别根据待检测舆情信息对应的特征字段中的每一个特征字段进行查找。
具体结合以下示例进行说明,假设以待检测舆情信息对应的特征字段是10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111为例。在已告警舆情信息集合(例如,S集合)中根据第一特征字段10101111进行查找,将已告警舆情信息集合中第一特征字段与待检测舆情信息的第一特征字段相同的已告警的舆情信息作为第一特征集合,在该集合中比较待检测舆情信息与已告警的舆情信息的相似度,若未查找到相似度小于等于第一预定阈值的舆情信息,则将根据待检测舆情信息的第二特征字段继续进行查找,在第二特征字段对应的第二特征集合中进行相似度比较,依次在待检测舆情信息对应的特征字段中进行查找。若查找到一条已告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值,则可判断出上述待检测舆情信息已经告警过,无需继续进行查找。
通过本申请提供的实施例,通过与已告警的舆情信息进行比较,判断待检测舆情信息是否至少与一条已告警的舆情信息的相似度满足小于等于第一预定阈值的条件,若满足则表示上述待检测舆情信息已告警过,无需对上述待检测舆情进行重复告警,从而实现了提高对舆情信息进行告警的准确性。
作为一种可选的方案,上述判断单元506包括:
1)第二查找模块,用于在已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值;
2)第三查找模块,用于在已告警的舆情信息对应的特征字段中未查找出一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值时,在未告警的舆情信息对应的特征字段中查找满足与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的条件的未告警的舆情信息对应的特征字段时,判断满足上述条件的未告警的舆情信息的数量是否大于第三预定阈值;
3)第二判断模块,用于在满足上述条件的未告警的舆情信息的数量大于第三预定阈值时,判断出待检测舆情信息满足告警条件,将对待检测舆情信息进行告警。
可选地,在本实施例中,第一预定阈值、第二预定阈值及第三预定阈值可以但不限于根据不同的应用场景取相同或不同的数值,本实施例对此不做任何限定。
可选地,在本实施例中,未告警的舆情信息可以但不限于保存在一个未告警舆情信息集合中,用R集合标识。可选地,在本实施例中,上述未告警舆情信息集合可以但不限于存储在上述舆情信息告警装置中的存储单元(图中未示出)中,也可以但不限于存储在上述舆情信息告警装置之外的第三方装置的存储单元中。将上述待检测舆情信息对应的特征字段与R集合中已告警的舆情信息进行相似度比对。
可选地,在本实施例中,在未告警的舆情信息对应的特征字段中查找与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的方式可以包括但不限于:在未告警舆情信息集合(例如,R集合)中分别根据待检测舆情信息对应的特征字段中的每一个特征字段进行查找。
具体结合以下示例进行说明,假设以待检测舆情信息对应的特征字段是10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111为例。在已告警舆情信息集合中未查找出一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值时,则在未告警舆情信息集合(例如,R集合)中根据第一特征字段10101111进行查找,然后依次在不同特征字段对应的特征集合中进行查找,并得到在未告警的舆情信息对应的特征字段中与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息的数量。
通过本申请提供的实施例,通过与未告警的舆情信息进行比较,判断与待检测舆情信息的相似度小于等于第二预定阈值的未告警的舆情信息的数量是否大于第三预定阈值,从而在上述数量大于第三预定阈值时,判断出对上述待检测舆情信息进行告警,实现对待检测舆情信息的准确告警。
作为一种可选的方案,第一查找模块包括:第一查找子模块,用于分别根据待检测舆情信息对应的特征字段中的每一个待检测特征字段在已告警的舆情信息对应的特征字段中进行查找,得到与每一个待检测特征字段对应的特征集合;第一比较子模块,用于按照预定的顺序将每一个待检测特征字段对应的特征集合中的已告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段进行比较,判断已告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度是否小于等于第一预定阈值;
上述第一判断模块包括:第一判断子模块,用于只要查找到一条已告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值时,判断出待检测舆情信息为已告警的舆情信息,待检测舆情信息不满足告警条件。
具体结合以下示例进行说明,假设上述待检测舆情信息对应的特征字段为10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111,相似度用海明距离标识,第一预定阈值为7,已告警的舆情信息对应的特征字段包括但不限于以下字段:
1)10101110,01010000,01001011,10101011,10101011,01110101,10111101,00001101;
2)10101001,01010101,01001010,10101010,10101010,01000101,10110001,01101111;
3)10101111,01010000,01001010,10101010,10101010,01110101,10100101,00110011;
4)10101111,01010011,01010010,10111010,10101010,01110101,10000110,11110000;
5)10101111,01010001,01001010,10101010,10101010,01110101,10111101,00001111。
根据待检测舆情信息的第一特征字段在已告警舆情信息集合(S集合)中查找,得到与第一特征字段对应的第一特征集合,其中,上述第一特征集合包括:
3)10101111,01010000,01001010,10101010,10101010,01110101,10100101,00110011;(相似度为8)
4)10101111,01010011,01010010,10111010,10101010,01110101,10000110,11110000;(相似度为12)
5)10101111,01010001,01001010,10101010,10101010,01110101,10111101,00001111。(相似度为1)
再将上述第一特征集合中每一个已告警的舆情信息对应的特征字段与待检测舆情信息的特征字段进行比较,判断二者之间的相似度。经判断第五个特征字段与待检测舆情信息对应的特征字段的相似度小于第一预定阈值7,则可判断出上述待检测舆情信息不满足告警条件,无需进行告警。
通过本申请提供的实施例,通过分别根据不同的特征字段在已告警的舆情信息中查找到相应的特征集合,再按照预定的顺序依次在各个特征集合中进行相似度比较,当查找到一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值时,则可得出上述待检测舆情信息为已告警的舆情信息,并不满足告警条件,进一步,无需继续在已告警的舆情信息中进行查找或相似度比较,从而实现及时对待检测舆情信息进行判断,缩短了舆情信息的告警周期。
作为一种可选的方案,第三查找模块包括:第二查找子模块,用于分别根据待检测舆情信息对应的特征字段中的每一个待检测特征字段在未告警的舆情信息对应的特征字段中进行查找,得到与每一个待检测特征字段对应的特征集合;第二比较子模块,用于按照预定的顺序将每一个待检测特征字段对应的特征集合中的未告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段进行比较,判断未告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度是否小于等于第二预定阈值;计数子模块,用于将查找到的与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息计数;
上述第二判断模块包括:告警子模块,用于在查找到的与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息的数量达到第三预定阈值时,判断出待检测舆情信息满足告警条件,将对待检测舆情信息进行告警。
具体结合以下示例进行说明,假设上述待检测舆情信息对应的特征字段为10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111,相似度用海明距离标识,第二预定阈值为7,第三预定阈值为2,未告警的舆情信息对应的特征字段包括但不限于以下字段:
1)10101110,01010000,01001011,10101011,10101011,01110101,10111101,00001101;
2)10101111,01010011,01001010,10101010,10101010,01110101,10111101,11001001;
3)10101111,01010000,01001010,10101010,10101010,01110101,10100101,00110011;
4)10101111,01010011,01010010,10111010,10101010,01110101,10000110,11110000;
5)10101111,01010001,01001010,10101010,10101010,01110101,10111101,00001111。
根据待检测舆情信息的第一特征字段在未告警舆情信息集合(R集合)中查找,得到与第一特征字段对应的第一特征集合,其中,上述第一特征集合包括:
2)10101111,01010011,01001010,10101010,10101010,01110101,10111101,11001001;(相似度为4)
3)10101111,01010000,01001010,10101010,10101010,01110101,10100101,00110011;(相似度为8)
4)10101111,01010011,01010010,10111010,10101010,01110101,10000110,11110000;(相似度为12)
5)10101111,01010001,01001010,10101010,10101010,01110101,10111101,00001111。(相似度为1)
再将上述第一特征集合中每一个未告警的舆情信息对应的特征字段与待检测舆情信息的特征字段进行比较,判断二者之间的相似度。经判断第2个特征字段及第5个特征字段与待检测舆情信息对应的特征字段的相似度小于第二预定阈值7,上述相似度小于等于第二预定阈值的未告警的舆情信息的数量已经达到第三预定阈值2时,则可以判断出上述待检测舆情信息满足告警条件,需要对上述待检测舆情信息进行告警。
通过本申请提供的实施例,通过分别根据不同的特征字段在未告警的舆情信息中查找到相应的特征集合,再按照预定的顺序依次在各个特征集合中进行相似度比较,当查找到与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息的数量达到第三预定阈值时,则需要对上述待检测舆情信息进行告警。进一步,当查找到的未告警的舆情信息的数量达到第三预定阈值时,无需继续在未告警的舆情信息中进行查找或相似度比较,也可判断出待检测舆情信息需要进行告警,从而实现及时对待检测舆情信息进行告警,缩短了舆情信息的告警周期。
作为一种可选的方案,对预处理单元504包括:
1)提取模块,用于提取待检测舆情信息的主题;
2)转码模块,用于对主题进行哈希转码操作得到预定码长的哈希码;
3)划分模块,用于将哈希码划分为多个特征字段。
可选地,在本实施例中,划分为多个特征字段进行查找的方式包括但不限于:假设多个特征字段个数为N,则当相似度比较的第一预定阈值为小于等于N-1时,则当上述相似度(例如,海明距离)中不同的比特码在不同的特征字段时,至少还有一个特征字段中的比特码是与其他舆情信息对应的特征字段完全相同的,则基于上述多个特征字段中的每一个特征字段分别进行查找,得到与上述每一个特征字段对应的特征集合,再基于上述特征集合进行相似度比较时,很大程度上减小了相似度比较的数量,从而提高舆情信息告警判断的效率,使得舆情信息告警更加及时有效。
具体结合以下示例进行说明,例如,通过爬虫抓取微博,对微博中带有特殊符号标识“##”的话题进行识别,得到待检测舆情信息,然后将上述待检测舆情信息进行如图3所示的Simhash转码,得到一个64位二进制码。然后将上述二进制码划分为如表2所示的8段特征字段,并倒序存储,以用于之后的特征字段的相似度比较。
通过本申请提供的实施例,通过对待检测舆情信息进行提取、转码、划分特征字段的预处理后,得到用于查找的多个特征字段,利用与多个特征字段对应的特征集合与待检测舆情信息的特征字段进行相似度比较,达到及时对需要告警的舆情信息进行准确告警,提供了告警的效率,缩短了舆情信息的告警周期。
本发明提供了一种优选的实施例来进一步对本发明进行解释,但是值得注意的是,该优选实施例只是为了更好的描述本发明,并不构成对本发明不当的限定。
从以上的描述中,可以看出,通过将从网络信息中识别出的待检测舆情信息进行预处理后,至少根据预处理后的上述待检测舆情信息对应的特征字段与已告警的舆情信息对应的特征字段的相似度,判断上述待检测舆情信息是否满足告警条件,进而判断出上述待检测舆情信息是否已经告警过,避免对待检测舆情信息的重复告警,从而实现对舆情信息的准确告警。
进一步,将待检测舆情信息与未告警的舆情信息进行相似度比较,当满足相似度判断条件的未告警的舆情信息的数量大于预定阈值时,对待检测舆情信息进行告警,以克服现有技术中无法对舆情信息进行准确告警的问题。此外,通过利用与多个特征字段中的每一个特征字段对应的特征集合进行查找,实现了对舆情信息的及时告警,缩短了舆情信息的告警周期。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种舆情信息的告警方法,其特征在于,包括:
从网络信息中识别出待检测舆情信息;
对所述待检测舆情信息进行预处理,将预处理后的所述待检测舆情信息划分为多个特征字段;
至少根据预处理后的所述待检测舆情信息对应的所述特征字段与已告警的舆情信息对应的特征字段的相似度,判断所述待检测舆情信息是否满足告警条件;
若满足所述告警条件,则对所述待检测舆情信息进行告警。
2.根据权利要求1所述的方法,其特征在于,所述至少根据预处理后的所述待检测舆情信息对应的所述特征字段与已告警的舆情信息对应的特征字段的相似度,判断所述待检测舆情信息是否满足告警条件包括:
在所述已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于第一预定阈值;
若在所述已告警的舆情信息对应的特征字段中查找到至少包括一条所述舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于第一预定阈值,则判断出所述待检测舆情信息不满足所述告警条件。
3.根据权利要求1所述的方法,其特征在于,所述至少根据预处理后的所述待检测舆情信息对应的所述特征字段与已告警的舆情信息对应的特征字段的相似度,判断所述待检测舆情信息是否满足告警条件包括:
在所述已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于第一预定阈值;
若在所述已告警的舆情信息对应的特征字段中未查找出一条所述舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于所述第一预定阈值,则在未告警的舆情信息对应的特征字段中查找满足与所述待检测舆情信息对应的所述特征字段的相似度小于等于第二预定阈值的条件的所述未告警的舆情信息对应的特征字段,判断满足所述条件的所述未告警的舆情信息的数量是否大于等于第三预定阈值;
若满足所述条件的所述未告警的舆情信息的数量大于等于所述第三预定阈值,则判断出所述待检测舆情信息满足所述告警条件,将对所述待检测舆情信息进行告警。
4.根据权利要求2所述的方法,其特征在于,
所述在所述已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于第一预定阈值包括:
分别根据所述待检测舆情信息对应的所述特征字段中的每一个待检测特征字段在所述已告警的舆情信息对应的特征字段中进行查找,得到与每一个所述待检测特征字段对应的特征集合;
按照预定的顺序将每一个所述待检测特征字段对应的特征集合中的所述已告警的舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段进行比较,判断所述已告警的舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度是否小于等于所述第一预定阈值;
所述若在所述已告警的舆情信息对应的特征字段中查找到至少包括一条所述舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于第一预定阈值,则判断出所述待检测舆情信息不满足所述告警条件包括:
只要查找到一条所述已告警的舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于所述第一预定阈值,则判断出所述待检测舆情信息为已告警的舆情信息,所述待检测舆情信息不满足所述告警条件。
5.根据权利要求3所述的方法,其特征在于,
所述在未告警的舆情信息对应的特征字段中查找满足与所述待检测舆情信息对应的所述特征字段的相似度小于等于第二预定阈值的条件的所述未告警的舆情信息对应的特征字段,判断满足所述条件的所述未告警的舆情信息的数量是否大于等于第三预定阈值包括:
分别根据所述待检测舆情信息对应的所述特征字段中的每一个待检测特征字段在所述未告警的舆情信息对应的特征字段中进行查找,得到与每一个所述待检测特征字段对应的特征集合;
按照预定的顺序将每一个所述待检测特征字段对应的特征集合中的所述未告警的舆情信息对应的特征字段与所述待检测舆情信息对应的所述特征字段进行比较,判断所述未告警的舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度是否小于等于所述第二预定阈值;
将查找到的与所述待检测舆情信息对应的所述特征字段的相似度小于等于所述第二预定阈值的所述未告警的舆情信息计数;
所述若满足所述条件的所述未告警的舆情信息的数量大于等于所述第三预定阈值,则判断出所述待检测舆情满足所述告警条件,将对所述待检测舆情信息进行告警包括:
当查找到与所述待检测舆情信息对应的所述特征字段的相似度小于等于所述第二预定阈值的所述未告警的舆情信息的数量达到所述第三预定阈值时,则判断出所述待检测舆情信息满足所述告警条件,将对所述待检测舆情信息进行告警。
6.根据权利要求1所述的方法,其特征在于,所述对所述待检测舆情信息进行预处理,将预处理后的所述待检测舆情信息划分为多个特征字段包括:
提取所述待检测舆情信息的主题;
对所述主题进行哈希转码操作得到预定码长的哈希码;
将所述哈希码划分为所述多个特征字段。
7.根据权利要求1所述的方法,其特征在于,所述从网络信息中识别出待检测舆情信息包括以下至少之一:
通过贝叶斯分类判断识别出所述待检测舆情信息;或者,
通过支持向量机SVM分类判断识别出所述待检测舆情信息。
8.根据权利要求1至7中任一项所述的方法,其特征在于,与所述待检测舆情信息对应的所述特征字段之间的所述相似度为海明距离。
9.一种舆情信息的告警装置,其特征在于,包括:
识别单元,用于从网络信息中识别出待检测舆情信息;
预处理单元,用于对所述待检测舆情信息进行预处理,将预处理后的所述待检测舆情信息划分为多个特征字段;
判断单元,用于至少根据预处理后的所述待检测舆情信息对应的所述特征字段与已告警的舆情信息对应的特征字段的相似度,判断所述待检测舆情信息是否满足告警条件;
告警单元,用于在满足所述告警条件时,对所述待检测舆情信息进行告警。
10.根据权利要求9所述的装置,其特征在于,所述判断单元包括:
第一查找模块,用于在所述已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于第一预定阈值;
第一判断模块,用于在所述已告警的舆情信息对应的特征字段中查找到至少包括一条所述舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于第一预定阈值时,判断出所述待检测舆情信息不满足所述告警条件。
11.根据权利要求9所述的装置,其特征在于,所述判断单元包括:
第二查找模块,用于在所述已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于第一预定阈值;
第三查找模块,用于在所述已告警的舆情信息对应的特征字段中未查找出一条所述舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于所述第一预定阈值时,在未告警的舆情信息对应的特征字段中查找满足与所述待检测舆情信息对应的所述特征字段的相似度小于等于第二预定阈值的条件的所述未告警的舆情信息对应的特征字段,判断满足所述条件的所述未告警的舆情信息的数量是否大于第三预定阈值;
第二判断模块,用于在满足所述条件的所述未告警的舆情信息的数量大于所述第三预定阈值时,判断出所述待检测舆情信息满足所述告警条件,将对所述待检测舆情信息进行告警。
12.根据权利要求10所述的装置,其特征在于,
所述第一查找模块包括:
第一查找子模块,用于分别根据所述待检测舆情信息对应的所述特征字段中的每一个待检测特征字段在所述已告警的舆情信息对应的特征字段中进行查找,得到与每一个所述待检测特征字段对应的特征集合;
第一比较子模块,用于按照预定的顺序将每一个所述待检测特征字段对应的特征集合中的所述已告警的舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段进行比较,判断所述已告警的舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度是否小于等于所述第一预定阈值;
所述第一判断模块包括:
第一判断子模块,用于只要查找到一条所述已告警的舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于所述第一预定阈值时,判断出所述待检测舆情信息为已告警的舆情信息,所述待检测舆情信息不满足所述告警条件。
13.根据权利要求11所述的装置,其特征在于,
所述第三查找模块包括:
第二查找子模块,用于分别根据所述待检测舆情信息对应的所述特征字段中的每一个待检测特征字段在所述未告警的舆情信息对应的特征字段中进行查找,得到与每一个所述待检测特征字段对应的特征集合;
第二比较子模块,用于按照预定的顺序将每一个所述待检测特征字段对应的特征集合中的所述未告警的舆情信息对应的特征字段与所述待检测舆情信息对应的所述特征字段进行比较,判断所述未告警的舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度是否小于等于所述第二预定阈值;
计数子模块,用于将查找到的与所述待检测舆情信息对应的所述特征字段的相似度小于等于所述第二预定阈值的所述未告警的舆情信息计数;
所述第二判断模块包括:
告警子模块,用于在查找到的与所述待检测舆情信息对应的所述特征字段的相似度小于等于所述第二预定阈值的所述未告警的舆情信息的数量达到所述第三预定阈值时,判断出所述待检测舆情信息满足所述告警条件,将对所述待检测舆情信息进行告警。
14.根据权利要求9所述的装置,其特征在于,所述对所述预处理单元包括:
提取模块,用于提取所述待检测舆情信息的主题;
转码模块,用于对所述主题进行哈希转码操作得到预定码长的哈希码;
划分模块,用于将所述哈希码划分为所述多个特征字段。
15.根据权利要求9至14中任一项所述的装置,其特征在于,与所述待检测舆情信息对应的所述特征字段之间的所述相似度为海明距离。
CN201410384009.7A 2014-08-06 2014-08-06 舆情信息的告警方法及装置 Active CN105335422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410384009.7A CN105335422B (zh) 2014-08-06 2014-08-06 舆情信息的告警方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410384009.7A CN105335422B (zh) 2014-08-06 2014-08-06 舆情信息的告警方法及装置

Publications (2)

Publication Number Publication Date
CN105335422A true CN105335422A (zh) 2016-02-17
CN105335422B CN105335422B (zh) 2019-02-22

Family

ID=55285953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410384009.7A Active CN105335422B (zh) 2014-08-06 2014-08-06 舆情信息的告警方法及装置

Country Status (1)

Country Link
CN (1) CN105335422B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106411617A (zh) * 2016-11-29 2017-02-15 国网山西省电力公司忻州供电公司 电力通信网络故障告警关联处理方法
CN107784083A (zh) * 2017-09-30 2018-03-09 北京合力智联科技有限公司 一种网络舆情信息有效性的自动识别处理方法
WO2018068664A1 (zh) * 2016-10-13 2018-04-19 腾讯科技(深圳)有限公司 网络信息识别方法和装置
CN108024148A (zh) * 2016-10-31 2018-05-11 腾讯科技(深圳)有限公司 基于行为特征的多媒体文件识别方法、处理方法及装置
CN110083701A (zh) * 2019-03-20 2019-08-02 重庆邮电大学 一种基于平均影响力的网络空间群体性事件预警系统
CN110096406A (zh) * 2018-01-31 2019-08-06 阿里巴巴集团控股有限公司 一种故障事件发现方法和服务器
CN110619039A (zh) * 2018-12-25 2019-12-27 北京时光荏苒科技有限公司 一种房产信息的校验方法、装置、存储介质及电子设备
CN111078513A (zh) * 2018-10-22 2020-04-28 杭州海康威视数字技术股份有限公司 日志处理方法、装置、设备、存储介质及日志告警系统
CN112132368A (zh) * 2019-06-06 2020-12-25 阿里巴巴集团控股有限公司 信息处理方法以及装置、计算设备、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567393A (zh) * 2010-12-21 2012-07-11 北大方正集团有限公司 一种处理舆情话题的方法、装置和系统
CN102968439A (zh) * 2012-10-11 2013-03-13 微梦创科网络科技(中国)有限公司 一种推送微博的方法及装置
CN103123618A (zh) * 2011-11-21 2013-05-29 北京新媒传信科技有限公司 文本相似度获取方法和装置
CN103646080A (zh) * 2013-12-12 2014-03-19 北京京东尚科信息技术有限公司 基于倒序索引的微博去重方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567393A (zh) * 2010-12-21 2012-07-11 北大方正集团有限公司 一种处理舆情话题的方法、装置和系统
CN103123618A (zh) * 2011-11-21 2013-05-29 北京新媒传信科技有限公司 文本相似度获取方法和装置
CN102968439A (zh) * 2012-10-11 2013-03-13 微梦创科网络科技(中国)有限公司 一种推送微博的方法及装置
CN103646080A (zh) * 2013-12-12 2014-03-19 北京京东尚科信息技术有限公司 基于倒序索引的微博去重方法和系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018068664A1 (zh) * 2016-10-13 2018-04-19 腾讯科技(深圳)有限公司 网络信息识别方法和装置
US10805255B2 (en) 2016-10-13 2020-10-13 Tencent Technology (Shenzhen) Company Limited Network information identification method and apparatus
CN108024148A (zh) * 2016-10-31 2018-05-11 腾讯科技(深圳)有限公司 基于行为特征的多媒体文件识别方法、处理方法及装置
CN108024148B (zh) * 2016-10-31 2020-02-28 腾讯科技(深圳)有限公司 基于行为特征的多媒体文件识别方法、处理方法及装置
CN106411617A (zh) * 2016-11-29 2017-02-15 国网山西省电力公司忻州供电公司 电力通信网络故障告警关联处理方法
CN107784083A (zh) * 2017-09-30 2018-03-09 北京合力智联科技有限公司 一种网络舆情信息有效性的自动识别处理方法
CN110096406A (zh) * 2018-01-31 2019-08-06 阿里巴巴集团控股有限公司 一种故障事件发现方法和服务器
CN111078513A (zh) * 2018-10-22 2020-04-28 杭州海康威视数字技术股份有限公司 日志处理方法、装置、设备、存储介质及日志告警系统
CN111078513B (zh) * 2018-10-22 2024-02-27 杭州海康威视数字技术股份有限公司 日志处理方法、装置、设备、存储介质及日志告警系统
CN110619039A (zh) * 2018-12-25 2019-12-27 北京时光荏苒科技有限公司 一种房产信息的校验方法、装置、存储介质及电子设备
CN110083701A (zh) * 2019-03-20 2019-08-02 重庆邮电大学 一种基于平均影响力的网络空间群体性事件预警系统
CN112132368A (zh) * 2019-06-06 2020-12-25 阿里巴巴集团控股有限公司 信息处理方法以及装置、计算设备、存储介质

Also Published As

Publication number Publication date
CN105335422B (zh) 2019-02-22

Similar Documents

Publication Publication Date Title
CN105335422A (zh) 舆情信息的告警方法及装置
CN106033416B (zh) 一种字符串处理方法及装置
CN102063469B (zh) 一种用于获取相关关键词信息的方法、装置和计算机设备
CA2859131C (en) Systems and methods for spam detection using character histograms
WO2014056397A1 (zh) 兴趣标签推荐方法、系统及计算机可读介质
CN103810192A (zh) 一种用户的兴趣推荐方法和装置
CN103117903A (zh) 上网流量异常检测方法及装置
CN103064838A (zh) 数据搜索方法和装置
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN101071443A (zh) 内容相关广告识别方法和内容相关广告服务器
US20170109358A1 (en) Method and system of determining enterprise content specific taxonomies and surrogate tags
US20170300573A1 (en) Webpage data analysis method and device
CN104408191A (zh) 关键词的关联关键词的获取方法和装置
CN103870507A (zh) 一种基于类目的搜索方法和装置
CN105550253B (zh) 一种类型关系的获取方法及装置
CN105808649A (zh) 一种搜索结果排序方法及其设备
CN105630767A (zh) 一种文本相似性的比较方法以及装置
CN104468107A (zh) 校验数据处理方法及装置
CN103646119A (zh) 用户行为记录的生成方法及装置
CN106933878B (zh) 一种信息处理方法及装置
CN111586695A (zh) 短信识别方法及相关设备
CN103412880A (zh) 一种用于确定多媒体资源间隐式关联信息的方法与设备
CN104462347A (zh) 关键词的分类方法及装置
CN108462624A (zh) 一种垃圾邮件的识别方法、装置以及电子设备
CN104281710A (zh) 一种网络数据挖掘方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200918

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200918

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.

TR01 Transfer of patent right